Ablauf einer hierarchischen Clusteranalyse mit mehr als zwei Variablen

Nachdem eine einfache hierarchische Clusteranalyse mit zwei Variablen durchgeführt wurde, ist nun eine Clusteranalyse mit mehr Variablen der nächste Schritt. Der Datensatz zu dem Beispiel befindet sich als xls-Datei hier unter dem Namen „Bewerbergebnisse“.

Es geht um die Ergebnisse von 20 Bewerbern in insgesamt 10 Tests, die verschiedenen Kategorien zugeordnet sind. Als erstes bietet sich die Durchführung einer Faktorenanalyse an, um die Clusteranalyse zu vereinfachen. Damit soll die interne Struktur der

Variablen untersucht werden, mit dem Ziel die Datenstruktur zu vereinfachen.

Wir verwenden das verbreitetste Verfahren der orthogonalen Rotation, nämlich die Varimax-Rotation, bei der die Komplexität der Faktoren minimiert wird, indem die Unterschiede der Ladungen innerhalb eines Faktors maximiert werden. Hohe Ladungen je Faktor werden tendenziell noch höher, geringe noch geringer.Zur Bestimmung der Anzahl der latenten Faktoren verwenden wir den Screeplot. Das ist nicht immer das optimale Hilfsmittel bei der Bestimmung der Anzahl. Der Screeplot zeigt einen deutlichen Knick nach dem dritten Faktor, was uns erlaubt, die Anzahl der Faktoren auf drei festzulegen. Die rotierte Faktorenmatrix bestätigt diese Entscheidung.Um mit diesen drei Faktoren zu arbeiten, müssen wir die Werte abspeichern.

Bei der nun folgenden Clusteranalyse können wir mit den drei extrahierten Faktoren weiter arbeiten. Entsprechend wählen wir nur die drei extrahierten Faktoren aus. Für die Anzahl der Cluster wählen wir einen Bereich von 2-5 aus. Mithilfe der Zuordnungsübersicht können wir die Anzahl der Cluster auf vier bestimmen. (N=20, Schritt vor dem großen Sprung=16; 20-16=4). Nun führen wir die Clusteranalyse nochmal durch. Wählen allerdings 4 Cluster als Anzahl von vornherein und speichern diese Werte.

Wir benutzen diese Werte nun, um einen Mittelwertsvergleich durchzuführen.Die abhängigen Variablen sind nun die Testwerte, während die gespeicherte Clustervariable die unabhängige Variable darstellt. In der Übersicht erkennt man schnell, dass die Personen in Cluster 1 die höchsten Durchschnittswerte über alle Kategorien haben. Im Cluster 2 finden sich Leute mit sehr guten mathematischen Ergebnissen, wobei die sonstigen Ergebnisse nicht auf diesem Niveau anknüpfen können. Das entsprechende Muster wiederholt sich in den Clustern 3 und 4, in denen Personen mit sehr guten verbalen bzw. sozialen Fähigkeiten gruppiert wurden.

Advertisements

Hinterlasse einen Kommentar

Eingeordnet unter Statistische Methoden

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s