Durchführung einer hierarchischen Clusteranalyse

Im folgenden wird eine schnelle Clusteranalyse durchgeführt. Wer mag, findet den Datensatz im XLS-Format unter dem Namen Kaugummi hier.

In der Tabelle finden sich 20 Kaugummisorten aus 6 Ländern: 1-Spanien, 2-Deutschland, 3-Frankreich, 4-Niederlande, 5-Mexico, 6-USA. In der ersten Spalte mit Dezimalzahlen finden sich die Kosten für den Kaugummi, in der nächsten die Kalorien und in der letzten Spalte der Zuckeranteil in Gramm.

Bei dieser Einteilung werden wir zwei Variablen berücksichtigen: die Kosten und die Kalorien. 

Das Streudiagramm legt augenscheinlich vier bis sechs Gruppen nahe. 

Nun wählen wir in SPSS aus: Analysieren->Klassifizieren->Hierarchische Clusteranalyse.

Die Variablen Kosten und Kalorien werden ausgewählt. Die Textvariable Kaugummi wird in das Feld mit der Bezeichnung Fallbeschriftung verschoben.
Über den Punkt Statistiken klicken wir die Zuordnungsübersicht an und wählen eine Minimalanzahl von Clustern 2 und eine Maximalanzahl von 7.
Unter Diagramme wählen wir ein Dendogramm aus und deaktivieren das Eiszapfendiagramm.
Bei Methode wählen wir als Cluster-Methode Linkage zwischen den Gruppen. (Das sollte auch so voreingestellt sein.) Als Intervall sollte man Quadrierte Euklidische Abstand auswählen, wenn das nicht automatisch eingestellt ist.
Ferner sollte man noch die Transformierung der Werte in standardisierte z-Werte wählen.

Nun kann man in die Ausgangsdialogbox zurückkehren und die Clusteranalyse mit einem OK starten.

Als Entscheidungshilfe bei der Anzahl der Cluster dient uns der Koeffizient. An der Stelle, an der sich der Koeffizient sprunghaft erhöht, sollte man die Zusammenfassung zu neuen Clustern abbrechen. Das ist in dem Fall nach dem Schritt 16 der Fall. Da erfolgt ein Sprung von 1,684 auf 2,826.
Die Anzahl der Cluster bestimmt sich nun aus der Anzahl der zu clusternden Fälle (Variablen) und aus der Anzahl der Schritte.

In unserem Fall also: 20 Kaugummis – 16 Schritte = 4 Cluster.
In der Cluster-Zugehörigkeit sehen wir, dass bei noch 5 Clustern der Kaugummi Hillery ein eigenes Cluster bildet. Das ist nicht so optimal. Daher ist es vorteilhafter, dass bei nur noch vier Clustern die Kaugummis 19, 20 und 6 zu einem Cluster zusammengeführt werden. Zu Cluster 1 gehören damit 8 Kaugummis. Zu Cluster 2 gehören 4 Kaugummis. Cluster 3 ist der eben erwähnte Cluster mit 3 Kaugummis. Schließlich gehören zu Cluster 4 5(fünf) Sorten Kaugummis.

Advertisements

Hinterlasse einen Kommentar

Eingeordnet unter Statistische Methoden

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s