214 115 22MB
German Pages 319 [320] Year 2003
Managementwissen fur Studium und Praxis Herausgegeben von Professor Dr. Dietmar Dom und Professor Dr. Rainer Fischbach Bisher erschienene Werke: Arrenberg · Kiy • Knobloch • Lange, Voricurs in Mathematik BarSauskas • Schaflr, Internationales Management Behrens • Kirspel, Grundlagen der \blkswirtschaftslehiB, 2. АиПа^ Behrens, Maltroökonomie - Wirtschaftspolitilc Bichler • Dörr, Peisonalwirtschaft - Einffihmng mit Beispielen аш SAP® R/3® HR* Blum, Grundzüge amrendungsorientierter Organisationslehre Bontrup, VolkswinschaAslehre Bomrup, Lohn und Gewinn Bonirup • Pulle, Handbuch Ausbildung Bradtke, Mathematische Grundlagen für Ökonomen, 2. Auflage Bradtke, Übungen und Klausuren in Mathematik für Ökonomen Bradtke, Statistische Grundlagen für Ökonomen Bradtke, Gruijdlagen im Operations Research für Ökonomen Breitschuh, Versandhandelsmarketing Busse, Betriebliche Finanzwirtschaft, 5. А Camphausen, Strategisches Management Clausius, Betriebswirtschafblehre 1 Clauslus, Betriebswirtschaftslehre II Dlnauer, Allfinanz - Grundzüge des Finanzdienstleistungsmarkts Dom • Fischbach, Volkswirtschaftslehre II, 4. Auflage Dorsch, Abenteuer Wirtschaft -75 Fallstudien mit Lösungen Drees-Behrens • Kirspel • Schmidt • Schwanke, Aufgaben und Lösungen zur Finanzmathematik, Investitton und Finanzierung Drees-Behrens · Schmidt, Aufgaben und Fälle zur Kostenrechnung EUinghaus, Werbewirkung und Markterfblg Fank, Infonnationsmanagement, 2. Auflage Fank • Schildhauer • Klot2, Informatk)nsmanagement: Umfeld - Fallbeispiele Fiedler, Einführung in das Controlling, 2. Auflage Fischbach · Wollenberg, \blkswirtschaftslehre 1,12. Auflage Fischer, \ b m Wissenschaftler zum Unternehmer Frodi, Dienstleistungslogistik Götze, Techniken des Business-Forecasting Götze, Mathematik ffir Wirtschaftsinformatiker Götze • Deutschmann • Link, Statistik Gohout, Operations Research Haas, Kosten, Investitran, Finanzierung Planung und Kontrolle, 3. Auflage Haas, Marketing mit EXCEL, 2. Auflage Haas, Access und Excel im Betneb Hans, Grundlagen der Kostenrechnung Hardt, Kostenmanagement, 2. Auflage Heine Herr, \blkswirtschaftslehre, 3. Aufl. Hildebrand Rebstock, Betriebswirtschaftüche Einführung in SAP® R/3®
Hofinann, Globale Informationswirtschaft Hoppen, Vfertriebsmanagement Koch, Marketing Koch, Marktforschung, 3. Auflage Koch, Gesundheitsökonomie: Kosten- und Leistungsrechnung Krech, Grundriß der strategischen Unternehmensplanung Kreis, Betriebswirtschaftslehre, Band 1, S.Auflage Kreis, Betriebswirtschaftslehre, Band II, 5. Auflage Kreis, Betriebswirtschaftslehre, Band III, S.Auflage Laser, Basiswissen Volkswirtschaflslehre Lebefromm, Controlling - Einfuhrung mit Beispielen aus SAP* R/3*, 2. Auflage Lebefromm, Produktionsmanagement Einführung mit Beispielen aus SAP* R/3®, 4. Auflage Martens, Betriebswirtschaftslehre mit Excel Martens, Statistische Datenanalyse mit SPSS ffir Windows, 2, Auflage Martin • Bär, Grundzüge des Risikomanagements nach KonTraG Mensch, Investition Mensch, Finanz-Controlling Mensch, Kosten-Controlling Müller, Internationales Rechnungswesen Olivier, Wmdows-C - Betriebswirtschaftliche Programmierung für Windows Peto, Einführung in das volkswirtschaftliche Rechnungswesen, S. Auflage Feto, Grundlagen der MakroÖkonomik, 12. Auflage Peto, Geldtheorie und Geldpolitik, 2. Aufl. Piontek, Controlling, 2. Auflage Piontek, BeschafiuligscontTOlling, 2. Aufl. Piontek, Global Sourcing Plümer, Logistik und Produktion Posluschny, Kostenrechnung ffir die Gastronomie Posluschny • von Schorlemer, Erfolgreiche Existenzgründungen in der Praxis Reiter • Matthäus, Marktforsdiung und Datenanalyse mit EXCEL, 2. Auflage Reiler Matthäus, Marketing-Management mit EXCEL Reiter, Übungsbuch: Marketing-Management mit EXCEL Rothlauf, Total Quality Management in Theorie und Praxis Rudolph, Tourismus-Betriebswirtschaftslehre, 2. Auflage Rüth, Kostenrechnung, Band I Sauerbier, Sutistik ffir Wirtschaftswissenschaftler, 2. Auflage Schaal, Geldtheorie und Geldpolitik, 4. A. Schambacher • Kiefer, Kundenzufriedenheit, 3. Auflage Schuchmann · Sanns, Datenmanagement mit MS ACCESS Schuster, Kommunale Kosten- und Leistungsiechnung, 2. Auflage Schuster, Doppelte Buchführung ffir
Städte, Kreise und Gemeinden Specht • Schmitt, Betriebswirtschaft ffir Ingenieure und Infomiatiker, S. Auflage Stahl, Intematkinaler Einsatz von Führungskräften Sieger, Kosten- ur>d Leistungsrechnung, 3. Auflage Stender-Monhemius, Marketing - Grundlagen mit Fallstudien Stock, Infonnatronswirtschaft Strunz • Dorsch, Management Strunz • Dorsch, Intematk)nale Märkte fVeeber, Internationale Wirtschaft Weindl • Woyke. Europäische Шюп, 4. Aufl. Wilhelm, Prozessorganisation Wömer, Handels- und Steuerbilanz nach neuem Recht, 8. Auflage Zwerenz, Statistik, 2. Auflage Zwerenz, Statistik verstehen mit Excel Buch mit CD-ROM
Statistische Datenanalyse mit SPSS für Windows Von
Dr. Jul Martens
2., völlig überarbeitete und erweiterte Auflage
R. Oldenbourg Verlag München Wien
Die Wiedergabe von Gebrauciisnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Weric berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Insbesondere sind Microsoft Excel, Visual Basic, Windows 95, Windows 98 u.a. (eingetragene) Warenzeichen der Microsoft Coφoration.
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2003 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 wavw.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-27472-4
Inhaltsverzeichnis Inhaltsverzeichnis Vorwort
1
Einführung 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9
2
3
Die Geschichte von SPSS Der Daten-Editor Arbeiten mit SPSS Der Viewer Der Pivot-Tabellen-Editor Der Diagramm-Editor Der Syntax-Editor Interaktive Graphiken SPSS beenden
V XI
1 1 3 9 12 15 17 18 20 22
Datenerfassung und Datenmodifikation
23
2.1 2.2 2.3 2.4
Fragebogen zur Datenerhebung Statistische Merkmale Datentransformationen Variablen definieren 2.4.1 Variablennamen 2.4.2 Variablentyp 2.4.3 Spaltenformat 2.4.4 Variablenlabels 2.4.5 Wertelabels 2.4.6 Fehlende Werte 2.4.7 Spalten und Ausrichtung 2.4.8 Meßniveau 2.5 Daten auswählen 2.6 Datei aufteilen 2.7 Daten sortieren 2.8 Daten gewichten 2.9 Daten berechnen 2.10 Daten umkodieren
23 24 26 27 28 29 30 30 30 32 33 33 33 36 37 38 40 41
Häufigkeitsverteilungen und deskriptive Statistiken
47
3.1 3.2
47 50 50 51
Häufigkeitstabellen und empirische Verteilungen Lagemaße 3.2.1 Modalwert 3.2.2 Median
VI
4
5
Inhaltsverzeichnis 3.2.3 Perzentile 3.2.4 Arithmetisches Mittel 3.3 Streuungsmaße 3.3.1 Spannweite 3.3.2 Interquartilsabstand 3.3.3 Varianz 3.3.4 Standardabweichung 3.3.5 Variationskoeffizient 3.3.6 Standardfehler des Mittelwertes 3.4 Schiefe 3.5 Kurtosis 3.6 Beispiele 3.7 Graphische Darstellung von Häufigkeiten 3.7.1 Histogramm 3.8 Mehrgipfelige Verteilungen 3.9 Statistische Kennziffern der Prozedur Deskriptive Statistiken 3.10 Konzentration 3.11 Linienprofile
52 53 54 54 55 55 55 55 56 56 57 60 65 68 69 72 74 80
Analyse von Mehrfachantworten
87
4.1 4.2
89 90
Explorative Datenanalyse 5.1 5.2
6
Mehrfachantworten für Kategorien Mehrfachantworten fur Dichotomien
Deskriptive Statistiken und Konfidenzintervalle Graphiken zur Explorativen Datenanalyse 5.2.1 Boxplots 5.2.2 Stengel-Blattdiagramm 5.2.3 Histogramm 5.2.4 Normalverteilungsdiagramme
93 94 97 97 100 101 101
Kreuztabellen und ZusammenhangsmaBe
103
6.1 6.2
104 108 109 109 110 112 112 113 ИЗ И^
Kreuztabellen Assoziationsmaße für nominal skalierte Merkmale 6.2.1 Quadratische Kontingenz 6.2.2 Likelihood-Quotient 6.2.3 Chi-Quadrat-Unabhängigkeitstest 6.2.4 Kontingenzkoeffizient 6.2.5 Phi-Koeffizient 6.2.6 Korrigierter Kontingenzkoeffizient 6.2.7 Cramer-К 6.2.8 Lambda
Inhaltsverzeichnis
6.3
6.4
6.5
7
9
115 115 116 116 116 119 119 119 119 120
Testverfahren
123
7.1
123 125 126 131 135 138 141 143 145 148 150 153 156 158 164 166
7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.Π 7.12 7.13 7.14
8
6.2.9 Goodman-und-Kniskal-Tau Assoziationsmaße fur ordinal skalierte Merkmale 6.3.1 Gamma 6.3.2 Somers-¿ 6.3.3 Kendall-Tau Assoziationsmaße für Intervall skaherte Merkmale 6.4.1 Kappa-Koeffizient 6.4.2 Eta-Koeffizient 6.4.3 Relatives Risiko Der McNemar-Test
VII
Ausgewählte Testverfahren in SPSS 7.1.1 Unterschied zwischen abhängig und unabhängig 7.1.2 Unterschied zwischen parametrisch und nichtparametrisch Chi-Quadrat-Anpassungstest Chi-Quadrat-Unabhängigkeitstest Binomialtest Kolmogorov-Smimov-Anpassungstest Student i-Test für eine Stichprobe Student i-Test für zwei unabhängige Stichproben F-Test zur Überprüfung der Streuung für zwei Stichproben Mann-Whitney-Î7-Test für zwei Stichproben Gepaarter i-Test für zwei abhängige Stichproben Wilcoxon-Vorzeichenrangtest für zwei abhängige Stichproben Einfache Varianzanalyse für mehr als zwei Stichproben (ANOVA) Kruskal-Wallis-W-Test für mehr als zwei Stichproben Friedman-Test für mehr als zwei abhängige Stichproben
Streudiagramme
171
8.1 8.2 8.3 8.4
172 178 179 181
Einfache Streudiagramme Streudiagramm-Matrix 3D-Streudiagranim Sonnenblumenplots
Korrelationsanalyse
183
9.1
185 187 187 188 189 190
9.2 9.3
Korrelationskoeffizient nach PEARSON 9.1.1 Test auf Signifikanz des Korrelationskoeffizienten Korrelationskoeffizient nach SPEARMAN 9.2.1 Test auf Signifikanz des Korrelationskoeffizienten Korrelationskoeffizient nach KENDALL 9,3.1 Test auf Signifikanz des Korrelationskoeffizienten
vili
Inhaltsverzeichnis
10 Regressionsanalyse 10.1 10.2 10.3 10.4 10.5 10.6 10.7
Einfuhrung in die Regressionsanalyse Schätzung der Koeffizienten Test für die Steigung Test für die Konstante Konfidenzintervalle Test auf den Zusammenhang zwischen den Variablen Graphiken zur Prozedur Regression
11 Trendanalysen und Kurvenanpassung 11.1 Linearer Trend 11.2 Quadratischer Trend
12 Faktorenanalyse 12.1 12.2 12.3 12.4 12.5
Berechnung der Eigenwerte Schätzung der Kommunalitäten Faktorenextraktion Faktorenrotation Bestimmung der Faktorwerte
13 Clusteranalyse 13.1 Einführung in die Clusteranalyse 13.2 Distanzmaße und Ähnlichkeitsmaße 13.2.1 Distanzmaße für metrisch skalierte Merkmale 13.2.2 Distanzmaße für ordinal skalierte Merkmale 13.2.3 Distanzmaße für nominal skalierte Merkmale 13.3 Cluster-Algorithmen 13.4 Festlegung der Clusterzahl 13.5 Clusterzentrenanalyse
14 Diskriminanzanalyse 14.1 14.2 14.3 14.4
Berechnung der Diskriminanzfimktion Berechnung der Diskriminanzwerte Wahrscheinlichkeit für die Gruppenzugehörigkeit Überprüfung der Gruppentrennung
193
und У.
193 197 202 203 203 205 207
213 213 218
223 226 230 233 238 240
245 245 246 246 248 248 249 250 261
267 268 278 284 285
Inhaltsverzeichnis 15 Multidimensionale Skalierung 15.1 15.2 15.3 15.4 15.5
Erfassung von Ähnlichkeiten Aggregation der Daten Definition des Modells Berechnung der Konfiguration Analyse der Konfiguration
IX 289 290 292 294 296 302
16 Literaturverzeichnis
303
17 Stichwortverzeichnis
305
Vorwort
XI
Vorwort Der Zugang zur professionellen Datenanalyse war noch nie so angenehm und einfach wie mit SPSS 11.5. Die Entwicklung von SPSS zu einem anwendungsfreundlichen Programm der statistischen Datenanalyse hat dazu £είωη1, daß die 2. Auflage dieses Buches gründlich überarbeitet wurde. Das Grundkonzept dieses Buches bleibt erhalten, mit dem Ziel, die Handhabung und die Vorgangsweise von SPSS so verständlich wie möglich darzustellen und zu erklären. Im ersten Teil ist mit den Mehrfachantworten ein weiteres Verfahren der Auszählung von Häufigkeiten hinzugekommen, das zu den spezifischen Stärken von SPSS zählt. Das Kapitel über das Erstellen von Liniendiagrammen in Form von Profilen ist ebenfalls aufgrund der vielfaltigen Einsatzmöglichkeiten dieser Darstellungsformen überarbeitet und erweitert worden. Gänzlich neu ist das Kapitel über die Multidimensionale Skalierung. Zahlreiche anwendungsorientierte Beispiele mit starkem Praxisbezug, die auch das breite Einsatzspektrum von SPSS verdeutlichen sollen, ergänzen die dem Buch zugrundeliegende empirische Befragung. SPSS ist ein sehr leistungsfähiges Programm der Datenanalyse. Ein Buch über SPSS zu schreiben, ohne dabei Formeln zur Berechnung zu verwenden, ist kaum möglich und würde ein Nachvollziehen der Ergebnisse sehr erschweren. Aus diesem Grund enthält dieses Buch die wesentlichen statistischen Grundlagen, die zu den Ergebnissen in SPSS fuhren. Die zahlreichen Bildschirmausschnitte erleichtem das Nachvollziehen der einzelnen Arbeitsschritte. Ich bedanke mich bei meiner Gattin für ihr geduldiges Korrekturlesen, bei Herrn DiplomVolkswirt Martin Weigert vom Oldenbourg-Verlag für die angenehme Zusammenarbeit und bei der SPSS GmbH in München für die fi-eundliche Unterstützung. Jul Martens
1
Einführung
1.1 Die Geschichte von SPSS Das Programmpaket SPSS wurde im Jahre 1965 an der Stanford University in San Francisco in der Programmiersprache FORTRAN auf einem ГОМ 7090 Rechner entwickelt. SPSS stellte in dieser Form als der integrierten Lösung einen großen Fortschritt dar, denn bis zu diesem Zeitpunkt gab es statistische Prozeduren nur in Form von Programmbibliotheken, die aus Sammlungen von Programmen fur bestimmte statistische Verfahren bestanden. Bedient wurden diese Programme über Befehle der Großrechnerumgebung und der Zugang zu diesen Sammlungen war mehr oder weniger auf einen kleineren Anwenderkreis beschränkt. Zunächst erschien die Großrechnerversion von SPSS, die später SPSS^ {extended) genaiuit wurde. Das Arbeiten mit dieser Version setzte die Beherrschung einer Job Control Language des entsprechenden kommandogesteuerten Betriebssystems der Großrechnerumgebung (z. В.: MVS von IBM) voraus. Der Anwender mußte zunächst in der SPSS-Syntax seine gewünschte statistische Prozedur als Listing zusammenstellen, bevor dies an den Großrechner abgeschickt wurde. Die Berechnung einfacher Statistiken wie Häufigkeitsauszählungen zog sich dann nicht selten über eine ganze Nacht hin. Am darauffolgenden Tag mußten dann die gewünschten Ziffern aus einer Vielzahl von Informationen umständlich herausgesucht werden. Graphiken wurden aus Zahlen und Buchstaben mehr oder weniger grob zusammengesetzt. Im Jahre 1981 wurde eine vereinfachte Version für den IBM-kompatiblen PC unter dem Namen SPSS/PC+ auf den Markt gebracht. Bei dieser Version ffir das Betriebssystem MS-DOS war jedoch der Umfang der statistischen Methoden gegenüber der Großrechnerversion aufgrund der damaligen Standards in der Hardware stark reduziert. Ein großer Fortschritt dieser Version bestand in der Menüflihrung, die den Anwender bei dem Zusammenstellen der SPSSSyntax unterstützt hat. Eine komfortable Bildschirmumgebung hat zu der weiten Verbreitung dieser Version gefuhrt. Der Hauptnachteil der PC-Versionen unter dem Betriebssystem MSDOS waren, neben der relativ geringen zu verarbeitenden Datenmenge, die eingeschränkten Graphikmöglichkeiten, die teilweise nur durch die Verwendung eines externen Graphikprogrammes extra erkauft werden mußte. Seit 1992 ist SPSS auch für die Benutzeroberfläche Windows erhältlich. Diese Version bedeutete einen entscheidenden Schritt in Richtung Benutzerfreundlichkeit und Graphikfähigkeit. Durch die Einführung einer leistungsfähigen und äußerst komfortablen Menüführung ist eine starke Annäherung an weit verbreitete Windows-Applikationen erreicht worden. Vor allem durch die Ausnützung der realen und virtuellen Speichermöglichkeiten können sehr große Datenmengen verarbeitet werden. Mittlerweile ist die Leistungsfähigkeit der Rechner so stark angestiegen, daß der Umfang der statistischen Verfahren die ursprüngliche Großrechnerversion SPSS* weit übertrifft. SPSS ist in mehrere Module aufgeteilt, wobei bereits die Grundausstattung (SPSS Base System) über ein sehr großes Spektrum an statistischen Verfahren verfugt. Zu den Zusatzmodulen gehören unter anderem weiterfuhrende multivariate Verfahren (Advanced Statistics, Cate-
1. Einführung gories, Conjoint), Methoden zur Auswertung und Aufbereitung der Daten in präsentationsfähigen Pivot-Tabellen (Tables), Verfahren der Zeitreihenanalyse (Trends), weitere Testverfahren (Exact Tests), detaillierte Analyse fehlender Werte (Missing Value Analysis), Verfahren zur Generierung von neuronalen Netzen (Neuronale Netze) oder Verfahren zur Aufdeckung von Strukturen in großen Datenmengen (Answer Tree, Clementine). Laufend werden neue Module entwickelt, um das Programmpaket an den aktuellen Stand der Wissenschaft anzupassen. Vor allem im Bereich des Data-Mining hat SPSS mit dem Programm SPSSClementine eine sehr leistungsfähige Erweiterung entwickelt, die als stand-alone-Anwendung erhältlich ist. SPSS gibt es für die folgenden Betriebssysteme: SPSS für Windows (95, 98, 2000, ME, NT, XP) SPSS/PC+ für MS-DOS (ältere Version von SPSS) SPSS für Linux SPSS für Apple Macintosh SPSS für Unix. Die in diesem Buch gezeigten Bildschirmausschnitte {Screenshots) zeigen die aktuelle Version SPSS für Windows 11.5 in der Basisversion unter dem Betriebssystem Windows ME. SPSS stand fniher einmal für Statistical Package for the Social Sciences. Aus dieser Bezeichnung ergibt sich bereits, daß die ursprüngliche Zielgruppe dieses Programmpakets bei den Sozialwissenschaften lag. SPSS hat sich im Laufe der Zeit aber in anderen Bereichen durchgesetzt. In den 80er Jahren wurde diesem Umstand durch eine neue Decodierung der Abkürzung in Superior Performance Software System Rechnung getragen. Heute gilt SPSS als das im Bereich Marktforschung und Datenanalyse am häufigsten verwendete Statistikpaket mit nach eigenen Angaben weltweit zwischen zwei bis drei Millionen Anwendern. Mittlerweile wird SPSS mit Statistical Product and Service Solution übersetzt und drückt dadurch sein vielfältiges Anwendungsspektrum aus. SPSS ist ein Software-Paket der Statistik-Standardsoftware und bietet damit Lösungen für die meisten anfallenden Aufgaben der statistischen Datenanalyse. Weitere namhafte StatistikSoftwarepakete sind die ursprünglich für den Großrechner konzipierten und später für den PC konvertierten Programme SAS, P-STAT oder SYSTAT und die speziell ftir den PC entwikkehen Statistikprogramme STATGRAPHICS, NCSS oder STATISTICA. Neben Programmen der Statistik-Standardsoftware gibt es auch SpezialSoftware für ganz bestimmte statistische Methoden wie das Programm LISREL für den Lisrel-Ansatz der Kausalanalyse. Davon zu unterscheiden wären statistische Programmiersprachen wie GAUSS. Damit lassen sich individuelle statistische Probleme formulieren und lösen. Im Gegensatz zu einer Programmiersprache wie etwa Visual Basic sind aber bestimmte statistische Prozeduren als vorgefertigte Funktion verfügbar. Parallel zu den Statistik-Programmpaketen haben sich in den letzten Jahren Tabellenkalkulationsprogramme zu einem sehr leistungsfähigen Tool der Datenanalyse entwickelt, in denen zahlreiche statistische Verfahren implementiert sind. Im Gegensatz zu SPSS können diese aber nur geringere Datenmengen verarbeiten und umfassen nur ein stark eingeschränktes
I.Einführung Spektrum an statistischen Verfahren. Außerdem läßt bei den Tabellenkalkulationsprogrammen die Rechengeschwindigkeit mit zunehmender Datenmenge spürbar nach. Die Arbeitsumgebung von SPSS hat sich optisch sehr stark an die weit verbreiteten Tabellenkalkulationsprogramme angeglichen. Waren für die PC-Version von SPSS noch umfangreiche Kenntnisse der aus der Großrechnerumgebung entlehnten typischen SPSS-Syntax erforderlich, so ist die Steuerung der Windows-Version wesentlich einfacher geworden, und orientiert sich an den weit verbreiteten Windows-Programmen. Natürlich können erfahrene Anwender ihre Kenntnisse der Syntax auch in der Windows-Version erfolgreich weitemutzen. Der Programmaufhif von SPSS fur Windows erfolgt durch Doppelklick auf das SPSSSymbol
im Deshop von Windows (sofern als Verknüpfung auf dem Desktop vorhanden) oder über den Startknopf und die Menüpunkte Programme und SPSSför Windows.
1.2 Der Daten-Editor Der Bildschirm, der nach dem Starten von SPSS erscheint ist der Daten-Editor. Dies ist ein leeres Tabellenblatt (Spreadsheet), wie es auch von der Tabellenkalkulation her bekannt ist. QMi SoertMiMfl AqiìcM Det«n Tiant(onnm*n An« Studienfach [fach] φ 2. Studienfach [fach2] φ 3. Studienfach [fach 3] Sonstiges Studienfach [s( Farniiienstand [familie] φ KörpergröBe in erri [großE φ Gewicht in kg [gewicht] Gefallen an^ Studium [stur
Γ Л1е Falle analysierea keine Gruppen bilden
OK
С Grappen vergleishen Einfügen
С Ausgabe nach Gruppen aufteilen
Zurücksetzen
Gruppen basierend auf;
и
Abbrechen Hilfe
Alterin Jahren [alter] φ Semesterzahl [ s e m e s t e r ] φ Studienabschnitt [ a b s c h ] • φ Studienfach [fach] φ г. Studienfach [lachZ] ф З Studienfach [fach3] lÄJ Sonstiges Studienfach [s( φ Familienstand [familie] φ tCöfpergroBe in cm [gröSE Gewicht in kg [gewicht] φ Gefallen a m Studium [stui
zi 1 2 j ± | j J Í Fusionen: d JdJzi j J j J j J A8S(r>umausdr) s t wertwert..) J jJiÁli ANY(te ARSIN(numausdr) M j J J J M I ARTAN(numausdr)
COFNORM(zwert) COFBERNOUm(q,p)
zi
Falls... 1
OK
j
EinlUgen
Zufiicksetzen
|
Abbrechen 1
HiHe
1
Abbildung 2.22: Dialogfeld zum Berechnen neuer Variablen Zunächst ist die neu zu erstellende Variable (hier broca) als Zielvariable vorzugeben. Dabei ist wieder die Acht-Buchstaben-Barriere zu berücksichtigen. Falls mehr als acht Buchstaben gewünscht werden, kann über die Schaltfläche Typ und Label, die sich unterhalb der Zielvariablen befindet, ein Variablenlabel für die Variable vergeben werden.
2. Datenerfassung und Datenmodifikation
41^
Im rechten Dialogfenster Numerischer Ausdruck kann dann händisch oder über das untere Fenster mit den vorgefertigten Funktionen die gewünschte Transformation zusammengestellt werden. Im vorliegenden Beispiel wird der sogenannte Broca-Index berechnet, der zur Klassifizierung von Körpergewicht in Normalgewicht, Über- oder Untergewicht dient: Broca =
Gewicht Körpergröße
-100
100 .
Der Referenzbereich für diesen älteren Index liegt zwischen 75 und 115/ Unter dem Fenster Funktionen stehen zahlreiche vorgefertigte Funktionen zur Berechnung neuer Variablen oder zur Berechnung neuer Werte bestehender Variablen zur Auswahl. Als Beispiele dafür seien genannt: Funktion ABS NORMAL(?) RND SUM TRUNC
Bedeutung Absolutbetrag der Zahl Theoretische Normalverteilung mit einem beliebigen Parameter für die Standardabweichung Auf- oder Abrunden zu nächsten ganzen Zahl Summe der angegebenen Zahlen Abschneiden der Nachkommastellen ohne Auf- oder Abrundung
Tabelle 2.7: Ausgewählte Funktionen zur Berechnung neuer Werte Zusätzlich zu arithmetischen Operationen stehen unter dem Dialogfeld Falls logische Funktionen zur Verfügung, um im Sinne von Werm-darm-Bedingungen nur die Rechenoperationen nur auf ganz bestimmte Fälle zu beschränken.
2.10 Daten umkodieren Die Bildung von klassifizierten Häufigkeiten ist eine der ersten Routineauswertungen in der beschreibenden Statistik. In SPSS erfolgt das Einteilen von Daten in Klassen über die Prozedur Umkodieren. Transformieren Umkodieren in dieselben Variablen... in andere Variablen... Dort müssen die Beobachtungen durch den Anwender händisch mit Hilfe der Dialogfelder in Klassen eingeteilt werden. Bei der Prozedur Umkodieren besteht die Wahlmöglichkeit zwischen dem Umkodieren in dieselbe Variable oder in eine andere Variable. Das Umkodieren in dieselbe Variable birgt ein gewisses Risiko, denn damit werden die ursprünglichen Werte überschrieben. Wird die Vgl. SIEGENTHALER, W . , KAUFMANN, W . , HORNBOSTEL, H., WALLER, H. D . (Hrsg.), L e h r b u c h d e r inneren
Medizin (3. Auflage), Stuttgart, New York 1992, S.1402.
42
2. Datenerfassung und Datenmodifikation
Datei anschließend abgespeichert, sind diese ursprünghchen Informationen verloren. Beim Umkodieren in andere Variablen wird der Datei eine neue Variable hinzugefugt. Als Beispiel für das Umkodieren der Daten werden die Werte fur die Körpergrößen in Häufigkeitsklassen zu je 10 cm eingeteilt. Die klassifizierten Werte sollen in einer neuen Variablen enthalten sein, die hier aus Gründen der Einfachheit größel bezeichnet wird. SPSS wieder in Kleinschreibweise notiert. Als Variablenlabel wird „Größenklassen" vergeben. Wichtig ist die Schaltfläche Ändern, die erst das Zuweisen der Werte der bestehenden Variablen zu der neuen Variablen auslöst. - Umkodieren m andere Variablen
ül
Numerische Var. -> Ausgabevar.:
Geschlecht [gest*!] Alter in Jahren [alter] Semesterzahl [semester] Studienabschnitt [absch] Studienfach [fach] г Studienfach [lach?] φ 3- Studienfach [fachj] B i Sonstiges Studienlech [s Familienstand [famille] φ Gewicht in kg [gewicht] ^ Gefallen am Studium [stu
-AusgabevariableName:
φ φ φ •
[ Änijem
jgrößel
J
Beschriftung: |GröSenklassen
Falls.,,
Alte und neue aerte... OK
,
[ Zurücksetzen j
1
Abbrechen
Hilfe
Abbildung 2.23: Dialogfeld zum Umkodieren von Variablen Als nächstes wird das Dialogfeld Alte und neue Werte geöffnet, welche eine Zuordnung der Werte ermöglicht. Umkodieren in andere Variablen Alte und neue Werte
JÚ
rAlterWertГй!ег1
f Weit.
I
Г
|T75
ö l t - > Neu:
С System- ader benutzerdeHnierte fehlende Werte ff Bereich:
Loweslthrul60->155 160 thru 170->165
Hinzijfügen"~]
[Ш
bis
Systemdefiniertfehlend
С Alte Werte kopieren
Systemdefiniertiehlend
|ш
Andorn
I
Г Bereich: Klsin6tsr,W9rt tais- [ Г
Bereif: I
ffitonen
I
Г Ausaobe der Variablen als Strings ^
bie größter Weit
Г Alle anderen Werte
Öw,i)e: je
Г ' Ы ш й й м ф in ZefilSti u-fWi-ana^n ('S'->SÎ Weiter
(
Abbrechen
Hilfe
Abbildung 2.24: Unterdialogfeld zum Umkodieren von Variablen Die Einteilung der Einzelwerte in Klassen kann in den Feldern Bereich durch die Eingabe von Intervalluntergrenzen und Intervallobergrenzen geschehen. Die beiden offenen Klassen können durch die Eingabefelder Kleinster Wert bis und bis größter Wert nach unten bzw. oben geschlossen werden, ohne eine genaue Kenntnis vom Minimum oder Maximum der Verteilung zu besitzen. Bei der Zuordnung der Werte zu den vorgegebenen Klassen wird SPSS einen einmal zugeordneten Wert kein weiteres Mal zuordnen. Nach jedem Intervall muß das
2. Datenerfassung und Datenmodifikation
43
Feld Hinzufiigen gedrückt werden. Über die hier nur als Hologramm dargestellte Schaltfläche Ändern können auch Änderungen an den vergebenen Zuordnungen vorgenommen werden. Oft wird man mehrere Klasseneinteilungen vornehmen müssen, bevor eine sinnvolle Anzahl an Klassen gefunden ist, die die Verteilung gut repräsentiert. Das folgende Beispiel zeigt die Einteilung von den Körpergrößen in gleichbreite Klassen zu je 10 cm mit der entsprechenden SPSS-Syntax. Intervall bis 160 cm über 160 bis (genau) 170 über 170 bis (genau) 180 über 180 bis (genau) 190 über 190 bis (genau) 200 über 200 cm
cm cm cm cm
SPSS-Syntax Lowest thru 160 160 thru 170 180 thru 180 180 thru 190 190 thru 200 200 thru highest
Zuordnung 5) Abbrechen Hilfe Weiter
Abbildung 2.26: Unterdialogfeld zum Umkodieren von Variablen In diesem Beispiel werden die Werte 1 und 2 jeweils zu einer 1, der Wert 3 (im Sinne von „weder noch") bleibt 3 und die Werte 4 und 5 werden zu 5 umkodiert. In diesem Beispiel ist jede Ausprägung einzeln aufgeführt und umkodiert. Das kann natürlich teilweise auch über die Dialogfelder mit den Bereichen erfolgen.
2. Datenerfassung und Datenmodifikation
45
Auch hier müssen die neu gebildeten Werte im Anschluß an diese Prozedur in der Variablenansicht mit Variablen- und Wertelabels beschriftet werden. Die folgende Häufigkeitstabelle zeigt die durch die Umkodierung zusammengefaßten Zufriedenheitsurteile. Wie gefällt Ihnen das Studium?
Gültig
(sehr) gut neutral (sehr) schlecht Gesamt
Häufigkeit 79 13 8 100
Prozent 79,0 13,0 8,0 100,0
Gültige Prozente 79,0 13,0 8,0 100,0
Kumulierte Prozente 79,0 92,0 100,0
Abbildung 2.27: Häufigkeitstabelle der umkodierten Einzelwerte Die Verteilung besteht nach dem Umkodieren nur noch aus drei unterschiedlichen Merkmalsausprägungen. Wie gefällt Ihnen das Studium? 100
с
s 2 û. σ) :ГО
χ
(sehr) gut
neutral
(sehr) schlecht
Wie gefällt Ihnen das Studium?
Abbildung 2.28: Häufigkeitsverteilung Das Balkendiagramm zeigt die zusammengefaßte Verteilung, wobei die ursprüngliche Bedeutung der einzelnen Werte durch die Wertelabels ausgedrückt wird.
3
Haufígkeitsverteilungen und deskriptive Statistiken
3.1 Häufigkeitstabellen und empirische Verteilungen Die Prozedur Häufigkeiten ermöglicht das Auszählen von verschiedenen Merkmalen, das Berechnen von prozentuellen Häufigkeiten und der empirischen Verteilungsfunktion. Es lassen sich dazu deskriptive statistische Kennzahlen wie Lageparameter und Streuungsmaße für Einzelwerte oder klassifizierte Häufigkeiten berechnen. Die Verteilung kann auch graphisch dargestellt werden. SPSS bietet dazu drei verschiedene Diagrammtypen an. Zu finden ist diese Prozedur in dem Untermenü zu den deskriptiven Statistiken. Analysieren Deskriptive Statistiken Häufigkeiten... Diese Prozedur erlaubt auch das Auszählen nominal skalierter und ordinal skalierter Merkmale und stellt für diese Merkmale auch einige zulässige statistische Kennziffern zur Verfügung.
BBBSl
2Ú yariable(n):
Geschlecht tgeschl] φ Alter in Jahren [alter] φ Studienabschnitt [absi .^Studienfach [fach] •|> 2 Studienfach [fachZ] φ 3. Studienfach [fachS] 1$ Sonstiges StudienfactFamilienstand [famille ' φ KöipergröSe in cm [gr Gewicht in kg [gewicht
φ Semesterzahl [semester]
Zurücksetzen Abbrechen Hilfe
ρ ÜSufigkeitstabellen anzeigen Siotistik...
Diagramme...
Ffirmat
Abbildung 3.1: Dialogfeld zur Prozedur Häufigkeiten Zunächst sind eine einzelne Variable oder mehrere Variablen in das Variablenfeld mit der Maus zu übertragen. Der Menüpunkt Statistik... steuert den Umfang der Auswertung. Das Ergebnis dieser Prozedur ist, sofern nicht durch den Menüpunkt Häufigkeitstabelle anzeigen explizit deaktiviert, eine Häufigkeitstabelle die auszählt, wie oft jede Merkmalsausprägung vorkommt. Bevor eine Häufigkeitstabelle angezeigt werden soll, empfiehlt es sich zu berücksichtigen, daß viele verschiedene Merkmalsausprägungen zu einer sehr großen und unübersichtlichen Häufigkeitstabelle führen. Die relative Häufigkeit liegt dann jeweils nicht selten um 1%. In solchen Fällen ist ein Einteilen der Merkmale in Häufigkeitsklassen, wie es im Zusammenhang mit dem Umkodieren von Daten gezeigt wurde, sinnvoll. Im vorliegenden Beispiel wird die Semesterzahl der Studierenden ausgezählt.
48
3. Häufigkeitsverteilungen und deskriptive Statistiken Statistiken
Semesterzahl N Gültig 1 Fehlend |
100 0
Abbildung 3.2: Meldung Uber die Anzahl gültiger und fehlender Fälle SPSS zeigt nun, daß alle 100 Fälle gültig sind. Das bedeutet, daß jeder Studierende eine valide Antwort gegeben hat und kein fehlender Wert vorliegt. Semesterzahl
Gültig
5 6 7 8 9 10 11 12 13 14 15 16 17 18 Gesamt
Häufigkeit 6 6 11 8 12 10 9 6 7 9 7 5 2 2 100
Prozent 6,0 6,0 11,0 8,0 12,0 10,0 9,0 6,0 7,0 9,0 7,0 5,0 2,0 2,0 100,0
Gültige Prozente 6,0 6,0 11,0 8,0 12,0 10,0 9,0 6,0 7,0 9,0 7,0 5,0 2,0 2,0 100,0
Kumulierte Prozente 6,0 12,0 23,0 31,0 43,0 53,0 62,0 68,0 75,0 84,0 91,0 96,0 98,0 100,0
Abbildung 3.3: Häufigkeitstabelle der Prozedur Häufigkeiten Die Spalte Gültig bezeichnet die beobachteten Merkmalsausprägungen. Gesamt ist Summe gültigen Beobachtungen. Häufigkeit bezeichnet die absolute beobachtete Häufigkeit des Auftretens. Prozent ist die relative Häufigkeit h¡ mit
η Die Summe aller gültigen relativen Häufigkeiten für die к Klassen ergibt 100%: = 100% .
Die Häufigkeitstabelle bezieht die Prozent aus den insgesamt 100 befragten Personen und die gültigen Prozente, die hier wiederum auf die 100 Personenbezogen werden. Die Interpretation der beiden Prozentspalten bedeuten: „6 Prozent der befi-agten 100 Studierenden befinden sich im 5. Semester". Die Spalte Kumulierte Prozent, die sich aus den gültigen Prozenten ergibt, wird auch als empirische Verteilungsfunktion F{x) bezeichnet:
3. Häufigkeitsverteilungen und deskriptive Statistiken
0
fur
F(x) = F-
für
1
für
49
xx.
Diese kann graphisch entweder in Form eines Treppendiagramms (diskrete Verteilimg) oder in Form eines Polygonzuges (stetige Verteilung) dargestellt werden. Bei dem Polygonzug wird davon ausgegangen, daß sich die Merkmalsausprägimgen zwischen den Werten der Verteilungsfunktion gleich verteilen. Die beiden Abbildungen zeigen links das Treppendiagramm und rechts die stetige Verteilungsfunktion für zwei beliebige Verteilungen.
Abbildung 3.4: Treppendiagramm (links) und Polygonzug (rechts) Im vorliegenden Beispiel wäre es etwa sinnvoll, die Verteilimgsfunktion als Treppendiagramm graphisch darzustellen. Die folgende Häufigkeitstabelle zeigt eine Verteilung mit fehlenden Werten. Es wird die 2. Nennung des Studienfachs ausgewertet. Da nur ein Teil der Studierenden in einem 2. Fach inskribiert ist, liegt es nahe, daß hier die Mehrzahl der Fälle keine weitere Angabe getätigt hat. 2. Studienfach
Gültig
Fehlend Gesamt
VWL WlPÄD USW Soziologie Sonstige Gesamt System
Häufigkeit 1 8 2 1 5 17 83 100
Prozent 1,0 8,0 2,0 1,0 5,0 17,0
Gültige Prozente 5,9 47,1 11,8 5,9 29,4
Kumulierte Prozente 5,9 52,9 64,7 70,6 100,0
100,0
83,0 100,0
Abbildung 3.5: Häufigkeitstabelle der Prozedur Häufigkeiten
50
3. Häufigkeitsverteilungen und deskriptive Statistiken
Die Häufigkeitstabelle zeigt in der Spalte Prozent diejenigen Prozentwerte, die sich auf alle 100 Studierenden beziehen. Demnach studieren 8 der befragten Personen als 2. Studienfach Wirtschaftspädagogik (WIPÄD). Das sind 8 Prozent der 100 befragten Studierenden. Die Spalte Gültige Prozente gibt Auskunft darüber, wieviel Prozent deijenigen 17 Personen, die ein 2. Studienfach studieren, WIPÄD inskribiert haben. Das sind 47,1 Prozent, die sich aus der Division von 8 durch 17 ergeben. Die Spalte kumulierte Prozente summiert die gültigen Prozente fortlaufend auf.
3.2 Lagemaße Lagemaße (Lageparameter) dienen dazu, das Zentrum der Verteilung zu beschreiben, um die Verteilung zu charakterisieren. Wie genau der Lageparameter ist, kann durch die Streuungsmaße in Form einer Variabilität und durch die Schiefe überprüft werden. Die Wahl des Lageparameters hängt von dem Merkmalsniveau ab. Häufigkeiten
Statistik
Perzentilwerte
—
Γ
Irennen
Γ
Eenentile:
m
xj
^ L a g e m a ß e -
N
g l e i d i e
G r u p p e n
Mittelwert
Ρ
Median
Ρ
1
Hln?!rfugen
Weiter
Ρ
I
A b b r e c h e n H i H e
Madalwert
Ρ
Summe
A n d e r n Entfernen
Γ " W e r t e
Std.-èbweichung
û r u p p e n m i t t e i p u n k t e
VeStítang
I Streuung—^—^—^—-— j Ρ
s i n d
Ρ
Minimum
Ρ
Sthiefe
j Ρ Varianz
F7
Mesmum
Ρ
Kurtosis
i R SpannaeitB
Γ
Std.-Eehter
Abbildung 3.6: Dialogfeld Statistik zur Prozedur Häufigkeiten Die unter dem Menüpunkt Statistik gezeigten statistischen Kennziffern werden im folgenden dargestellt. Wichtig beim Anklicken der gewünschten Kennziffern ist die Berücksichtigung der bereits in Kapitel 2 dargestellten Meßniveaus (Merkmalsarten).
3.2.1
Modalwert
Der einfachste Mittelvert ist der Modalwert, auch Modus genannt. Die Fragestellung dazu ist: „Was kommt am häufigsten vor?" Beispielsweise das Auszählen der durchschnittlichen Autofarbe wäre ein Fall für den Modalwert, denn hier könnte nur aufgrund der Aussage, was am häufigsten beobachtet wurde, eine Entscheidung über den Schwerpunkt erfolgen. x^^j = max{n,,n2,...,nt} = häufigster Wert.
3. Häufigkeitsverteilungen und deskriptive Statistiken
^
Der Modalwert bei klassifizierten Häufigkeiten ergibt sich als Wert der am dichtesten besetzten Klasse: Xk,., = max
3.2.2
Median
Der Median ist der Zentralwert der geordneten Reihe. Dabei werden die Einzelwerte zunächst in aufsteigender Reihenfolge sortiert. Anschließend wird das symmetrische Zentrum der Verteilung als Repräsentant der Verteilung betrachtet, wobei es einen Unterschied gibt, ob die Anzahl der Werte gerade oder ungerade ist. Falls die Anzahl der Werte ungerade ist, so entspricht der Median dem Wert an der Stelle n/2 + 1. Falls die Anzahl gerade ist, so entspricht der Median dem Durchschnitt aus den beiden Werten an der Stelle n/2 und n/2 + \. x, ^η
falls η ungerade
l~rJ + x^
falls η gerade
Der Median bei Daten, die in Klassen eingeteilt sind, wird mit Hilfe der linearen Inteφolation bestimmt:
'
F(xn-F{x:)
^ '
'''
mit F{x" ) = Klassenuntergrenze deijenigen Klasse, in der die Verteilungsfunktion den Wert 0,5 überschreitet. F{x°)
= Klassenobergrenze deijenigen Klasse, in der die Verteilungsfunktion den Wert 0,5 überschreitet.
52
3. Häufigkeitsverteilungen und deskriptive Statistiken
Abbildung 3.7: Feinberechnung des Medians Diese Inteφolation wird im Zusammenhang mit dem Median auch als Feinberechnung des Medians bezeichnet. Der Median liegt dann in deijenigen Klasse, in der die empirische Verteilungsfunktion (kumulierte relative Häufigkeitsfunktion) den Wert 0,5 überschreitet. Die Klassenobergrenze x° der unteren Klasse ist gleich der Klassenuntergrenze x" der oberen Klasse. Für das obere bzw. das untere Quartil gilt dies analog, jedoch sind die Werte dann 0,75 und 0,25 anstelle der 0,5 beim Median. 0,15-
3.2.3
• (x. - x") für das obere Quartil bzw.
Perzentile
Perzentile, auch a-Quantile genannt, geben Werte an ganz bestimmten Stellen der empirischen Verteilungsfunktion an. Am häufigsten verwendet sind die bereits gezeigten oben angegebenen Quartile, also die Werte an der Stelle 0,25 bzw. 0,75 der Verteilungsfunktion. So gesehen ist auch der Median ein Quantil. Perzentile geben aber auch andere Stellen der Verteilungsfunktion an wie etwa der Wert an der Stelle 0,1 bzw. 0,9. '•(o.n)
falls α • η nicht gazzahlig , mit
л b a , ) + ·*(α „.,)) XQ 25 = unteres Quartil und
« · « ganzzahlig „ = oberes Quartil, u.s.w. .
3. Häufigkeitsverteilungen und deskriptive Statistiken
53
Für jedes beliebige a-Quantil aus klassifizierten Daten gilt die Feinberechnung wie beim Median.
3.2.4
Aritbmetiscbes Mittel
Das arithmetische Mittel ist der wohl am weitesten verbreitete Mittelwert. Es wird die Summe der Beobachtungen durch die Anzahl geteilt. Trotz der einfachen Berechnung gilt hier Vorsicht, denn bei einer schiefen oder bei einer mehrgipfeligen Verteilung ist die Gefahr der Verschätzung sehr hoch. Das Mittel aus -10°C und +50°C erscheint recht angenehm, dürfte aber kaum das кофегИсЬе Empfinden bei einer der beiden Temperaturen widerspiegeln. Als weiteres Beispiel sei nur das durchschnittliche Einkommen aller Angestellten eines Betriebes genannt. Hier wird der Mittelwert durch die hohen Gehälter der oberen Hierarchiestufen stark verzerrt. Dieser Mittelwert wird das Einkommen der meisten Angestellten nicht repräsentieren. Der Median dürfte hier den für die Mehrheit der Angestellten realistischeren Wert ausweisen. Daran wird deutlich, daß dieser Mittelwert nur bei normal verteilten Merkmalen den Schwerpunkt der Verteilung repräsentiert. Das arithmetische Mittel aus Einzelwerten 1
X = —¿.Xi, mit 1 = 1, 2,..., η , η bzw. aus Häufigkeiten gewichtet mit der Häufigkeit
x = - Y , x r H , i = l,2,...,/t. bzw. unter Verwendung der relativen Häufigkeiten к ί·1 Liegen klassifizierte Daten vor, dann wird das arithmetische Mittel durch die Verwendung der (geschätzten) Klasserunittelwerte näherungsweise berechnet: x° +x" Klassenmittelwert Je,. = ' ^ ' ,
mit x° = Klassenobergrenze und x' = Klassenuntergrenze. Demnach ist die Breite einer Klasse: Δχ, = x° - x" .
54
3. Häufigkeitsverteilungen und deskriptive Statistiken
Das daraus berechnete Mittel ist das genäherte arithmetische Mittel: 1 v^ X = - X * , • Я,. , mit г = 1, 2,..., k Klassen. " ,=l Das genäherte arithmetische Mittel unter Verwendung relativer Häufigkeiten ergibt sich als: к
Nicht jeder Mittelwert ist auch iur jedes Meßniveau der Variablen sinnvoll. Die folgende Tabelle gibt einen Überblick über ausgewählte statistische Kennziffern und deren Zulässigkeit. Modalwert
Median
Perzentile
Meßniveau
arithmetisches Mittel
V V V
Nominal Ordinal Metrisch
V V
V V
V
Tabelle 3.1 : Statistische Maßzahlen und Meßniveau
3.3 Streuungsmaße Zur Beurteilung der Güte des arithmetischen Mittels stehen die Streuung und daraus als Wurzel, die Standardabweichung sowie weitere Streuungsmaße (Dispersionsmaße) zur Verfugung. Die Streuung mißt die aufsummierten quadratischen Abweichungen um das arithmetische Mittel. Es liegt nahe, daß ein Mittelwert um so exakter ist, je kleiner die Abweichungen sind. Während das Zentrum der Verteilung durch die Lageparameter gekennzeichnet wird, zeigen die Streuungsmaße, wie stark die Werte um dieses Zentrum streuen. Zur leichteren Inteφretation steht die Standardabweichung zur Verfügung. Dies ist dann die durchschnittliche Streuung um den
3.3.1
Mittelwert.
Spannweite
Die Spannweite {Range) ist der Abstand zwischen dem größten und dem kleinsten Wert bzw. der Abstand zwischen der oberen Klassengrenze der obersten Klasse und der unteren Klassengrenze der untersten Klasse. Auch dieser Wert kann als eine Art Streuungsmaß inteφretiert werden.
3. Häufigkeitsverteilungen und deskriptive Statistiken 3.3.2
55
Interquartilsabstand
Der Interquartilsabstand ist die Spannweite zwischen dem oberen Quartil (0.75-Quantil) und dem unteren Quartil (0.25-Quantil). ~ 'o.TS ~ •"•0,25 ·
3.3.3
Varianz
Die Varianz ist die quadrierte Streuung um den Mittelwert. Je größer dieser Wert ist, desto größer ist die Streuung, was auch ein Hinweis darauf sein kann, daß der Mittelwert ein schlechter Repräsentant der Verteilung ist. Hier muß jedoch die Dimension der Daten berücksichtigt werden, denn diese hat große Auswirkung auf die Varianz. Man unterscheidet dabei zwischen der Varianz der Grundgesamtheit und der Varianz der Stichprobe, wobei SPSS die Varianz der Stichprobe berechnet. Diese wird aus Gründen der Erwartungstreue durch η - 1 geteilt.
bzw. «-itr к s^ = ^(дг, - xf • h- unter Verwendung von relativen Häufigkeiten.
Aus klassifizierten Häufigkeiten wird die Streuung wieder mit Hilfe der geschätzten Klassenmittelwerte i , berechnet:
=
3.3.4
~ * 1=1
~
·
möglich .
Standardabweichung
Die Standardabweichung wird auch als durchschnittliche Streuung um den Mittelwert bezeichnet. Sie ist die Wurzel aus der Varianz, und ist daher auch sinnvoll zu inteφretieren. Ein Teil der durch die Dimension bedingten Verzerrung wird auch durch die Wurzelbildung bereinigt. 5=V7 .
3.3.5
Variationskoeffizient
Der Variationskoeffizient dient dem Vergleich mehrerer Standardabweichungen miteinander. Er ist eine dimensionslose Zahl und nur dann sinnvoll zu berechnen, wenn ausschließlich positive Werte vorliegen.
56
3. Häufigkeitsverteilungen und deskriptive Statistiken
_ 5 X
3.3.6
Standardfehler des Mittelwertes
Der Standardfehler des Mittelwertes (SE) sollte zwischen - 2 und +2 liegen, damit der Mittelwert wenigstens näherungsweise eine normalverteilte Stichprobe repräsentiert. SE
= ^
3.4 Schiefe Zum Vergleich einer vorliegenden Verteilung mit derjenigen einer Normalverteilung werden Schiefe gi und Wölbung g2 herangezogen. Die Schiefe gibt an, zu welcher Richtung eine (sinnvollerweise eingipfelige) Verteilung schief ist. Zur Interpretation ist es hilfreich zu wissen, daß die Steilheit stets auf der gegenüberliegenden Seite der Schiefe ist. Demnach ist die Schiefe die flach auslaufende Seite der Verteilung. Die Schiefe wird im folgenden mit g] bezeichnet.
e, = , /, .
g, = .
g = , ' ' ii ^ |Vn ,-.1
\3
aus Einzelwerten bzw.
aus relativen Häufigkeiten bzw.
=
, ^^
aus klassifizierten Häufigkeiten.
У
Allgemein kann die Schiefe auch über die Momente der Verteilung ausgedrückt werden:
Für die Inteφretation der Schiefe gelten die folgenden Regeln, wobei diese auch Rückschlüsse auf die Charakteristik der Verteilung und auf die Lage des Mittelwertes zulassen.
3. Häufigkeitsverteilungen und deskriptive Statistiken Wert gl > 0
Bedeutung rechtsschief
gi=0
symmetrisch
gl < 0
linksschief
57
Mittelwerte Xu j > X
X >
~ ·*0,5 ~ ^ Mod X
Studienfach [fach] ! г Andere Äuswertungsfunktton φ 2. Studienfach (tach г] i>3. Studienfach [fach 3] φ Sonstiges Studienfach [s( φ Familienstand [familie] φ Körpergröße in cm [gröSe /-dis'-veniingsfunkiipn φ Gewicht in kg [gewicht] φ Gefallen am Studium [stut φ Größenklassen [größel] Kategonenachse: 'Φ Wie gefällt das Studium? ir in Jahren [alter]
(Ж Einfügen ¿urücksetzen Abbrechen Hilfe
Vorlage—' -' " ' ''" "' ——•——Γ" Diagrommeinstellungen ver^senden aus:
Tjel...
EoîBi,. j
Optionen..
Abbildung 3.26: Dialogfeld zur Prozedur Liniendiagramm In der hier gezeigten Dialogfeld wird ein Liniendiagramm für eine Variable (Alter) erzeugt, wobei nicht jedes Alter einzeln abgebildet wird, sondern die Häufigkeit des Auftretens der Merkmalsausprägung in Form der kumulierten relativen Häufigkeitsfunktion gezeichnet wird. Im Editiermodus des Diagramms kann in der dort erscheinenden Symbolleiste auf das Symbol mit der Linie Interpolation geklickt werden. Es öffiiet sich ein weiteres Fenster, das die Darstellung als Treppendiagramm ermöglicht. Dies ist fur die Darstellung diskreter Verteilungen sinnvoll, während stetige Verteilungen als Polygonzug dargestellt werden können. Die folgenden zwei Abbildungen zeigen eine empirische Verteilungsfunktion für die (vorab in Häufigkeitsklassen eingeteilte) stetige Variable Alter (links) und eine empirische Verteilungsfunktion für die (vorab in Häufigkeitsklassen eingeteilte) diskrete Variable Semesteranzahl (rechts).
20
21
22
23
24
25
26
27
Alter in Jahren
28
29
31
33
20
21
22
23
24
25
26
27
28
29
Alter in Jahren
Abbildung 3.27: Polygonzug (links) und Treppendiagramm (rechts)
31
33
68
3.7.1
3. Häufigkeitsverteilungen und deskriptive Statistiken Histogramm
Das Histogramm ist eine flächenproportionale Darstellung der (absoluten oder relativen) Häufigkeiten. Mit dieser Darstellung werden die beobachteten Häufigkeiten entsprechend der Dichte der besetzten Klassen repräsentativ in Form einer Fläche wiedergegeben. Ein Histogramm ist immer dann sinnvoll, wenn es sich um klassifizierte Daten handelt. Da die Klassengrenzen direkt nebeneinander liegen, bestehen zwischen den einzelnen Flächen auch keine Leerräume wie es bei einem Balkendiagramm oft der Fall ist. Das hat aber auch zur Folge, daß bei ungleichen Klassenbreiten die Flächen fur breite Klassen entsprechend länger und flacher erscheinen müssen, während die Flächen für schmale Klassen in gleicher Weise schmal und hoch dargestellt werden.
Alter in Jahren
53 σ> 15 's от X
Alter in Jahren
Abbildung 3.28: Histogramm der Altersverteilung In dieser Abbildung sind die Daten von SPSS automatisch in acht Klassen eingeteilt worden. Soll eine andere Gruppierung erzeugt werden, so kann diese im Diagramm-Editor auch dadurch erzeugt werden, in dem auf die Intervallachse (x-Achse) doppeh geklickt wird.
Ρ {^senlinie anieigerj Achssntftel: |Alter in Jahren Ausrichtung des Tilels: jLinks/unten -Achsenmarkierungen ^Intervalle — Ρ Teilstriche Automatisch Γ Sitteriinien Oefinieren... (· Anpassen
Abbrechen Hilfe Ρ Labels anzeigen Beschritlungen,..
Abbildung 3.29: Formatierung der Intervallachse
3. Häufigkeitsverteilungen und deskriptive Statistiken
69
In dem Bereich Intervalle steht die Schaltfläche Definieren zur Verfugung, wenn anstelle der Einstellung Automatisch Anpassen angeklickt wird. Es öffnet sich ein Dialogfeld, in dem die Anzahl der Intervalle entgegen der Voreinstellung verändert werden kann.
Abbildung 3.30: Veränderung der Klasseneinteilung Hier werden anstelle der vorgegebenen acht Intervalle fünf Intervalle angegeben. SPSS geht grundsätzlich von einer konstanten Klassenbreite aus. Diese beträgt jetzt 3,2 (Jahre).
Alter in Jahren
1
f:ro X
20,6
23,8
27,0
30,2
33,4
Alter in Jahren Abbildung 3.31: Histogramm mit veränderter
raasseneinteilung
3.8 Mehrgipfelige Verteilungen Die hier gezeigten Lageparameter sind jedoch nur für annähernd normal verteilte, eingipfelige Verteilungen sinnvolle Repräsentanten der Verteilung. Ist die Verteilung mehrgipfelig oder U-formig, dann entsprechen die Mittelwerte gerade jenen Werten, die sich nicht im Schwerpunkt der Verteilung befinden.
70
3. Häufigkeitsverteilungen und deskriptive Statistiken
Abbildung 3.32: Mehrgipfelige und U-fbrinige Verteilung Es soll das Gewicht aller 100 Studierenden mit Hilfe der Prozedur Deskriptive Statistiken und Häufigkeiten ausgewertet werden. Die für beide Geschlechter gemeinsam erstellten Statistiken mit der Prozedur Häufigkeiten weisen ein durchschnittliches Gewicht von knapp 67 kg auf Statistiken
N
Gültig Fehlend
Mittelwert Standardabweichung
98 2 67,56 12,535
Varianz
157,135
Schiefe
,550
Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite
,244 -,464 ,483 53
Minimum
48
Maximum
101
Abbildung 3.33: Deskriptive Statistiken der Prozedur Häuflgkeiten Bereits die Standardabweichung signalisiert eine große Streuung bei den Gewichtswerten, was auch durch das Histogramm deutlich wird, denn dort erkennt man eine Häufung in den Intervallen um 60 kg und um 80 kg.
3. Häufigkeitsverteilungen und deskriptive Statistiken
71
G e w i c h t in kg
50
55
60
65
70
75
80
85
90
95
100
G e w i c h t in kg
Abbildung 3.34: Histogramm Nun wird über die Menüs Daten und Datei aufteilen die Datei nach den Geschlechtern getrennt ausgewertet. Die Tabelle mit den statistischen Kennziffern erscheint mit separaten Spalten für die beiden Ausprägungen männlich und weiblich der Variablen Geschlecht. Statistiken
N
Gültig Fehlend
Mittelwert Standardabweichung Varianz Schiefe Standardfehler der Schiefe Kurtosis Standardfehler der Kurtosis Spannweite Minimum Maximum
Geschlecht weiblich mannlich 48 50 1 1 58,54 76,22 6,471 10,710 41,871 114,706 1,271 -,046 ,343
,337
4,665
,166
,674
,662
37 48 85
49 52 101
Abbildung 3.35: Deskriptive Statistiken der Prozedur Häufigkeiten Die Histogramme zeigen eine für das Geschlecht weiblich rechtsschiefe und für das Geschlecht männlich linksschiefe Verteilung.
72
3. Häufigkeitsverteilungen und deskriptive Statistiken Gewicht in kg GESCHL:
0
Gewicht in l)
Dreiecksfläche
bis 1 ha 0,75 0,39 0,29 1 bis 2 ha 0,15 0,62 0,08 2 bis 3 ha 0,74 0,05 0,03 3 bis 4 ha 0,03 0,84 0,02 4 bis 5 ha 0,01 0,90 0,01 0,01 5 bis 10 ha 1,00 0,01 Gesamt 1,00 1,00 0,44 Tabelle 3.7: Arbeitstabelle zur Berechnung der Lorenzkurve Aus F = 0,44 kann das Konzentrationsmaß berechnet werden. Im vorliegenden Beispiel ist die Konzentration mit AT = 0,12 als unterdurchschnittlich zu betrachten. Offenbar konzentriert sich die Anbaufläche auf viele kleine Betriebe.
3.11 Linienprofile Profile sind graphische Darstellungen mehrerer Variablen in einem Liniendiagramm. Üblicherweise zeigen die Linienprofile die Bewertung bestimmter Eigenschaften durch Personen, wobei die Messung in Form von einer Skala erfolgt. Mehrere Eigenschaften zusammen bilden über mehrere befi-agte Personen die Grundlage für die Anfertigung eines Profils, das aus einem vertikalen Liniendiagramm besteht. Ein ganz bestimmter Typ dieses Diagramms stellt das sogenannte Polaritätenprofil dar, bei dem die Datenerhebung in Form einer bipolaren Skala (gut-schlecht, warm-kalt,...) erfolgt. Das graphische Profil ergibt sich durch den Mittelwert als Repräsentant über alle Werturteile, der oft durch das arithmetische Mittel ausgedrückt wird, auch wenn es sich bei den Merkmalen genommen um ordinal skalierte Merkmale handelt.
Beispiel: Im Rahmen einer Kundenbefi-agung eines milchverarbeitenden Betriebes nach der Zufriedenheit mit bestimmten Produkteigenschaften wird eine 5er-Skala zur Beurteilung vorgegeben. Die Beurteilungsskala reicht hier von 1 (sehr zufrieden) bis 5 (sehr unzufiieden).
3. Häufigkeitsverteilungen und deskriptive Statistiken
81
1. Wenn Sie an das Sortiment der MILCH AC denken, wie zufrieden sind Sie mit unseren Produkten? sehr zufrieden
sehr unzufrieden
Qualität Frische Geschmack Frachtgehalt Fettgehalt Haltbarlceit Preis VerpaclŒng
Abbildung 3.51: Fragebogen zur Zufriedenheit Die aus diesem Fragenkomplex resultierenden acht Variablen können einzeln problemlos mit der Prozedur Häufigkeiten tabellarisch und graphisch ausgewertet werden. Sollen aber alle Variablen gleichzeitig in einem Diagrainm dargestellt werden, so empfiehlt sich das Liniendiagramm in Form eines Profils. Für die graphische Aufbereitung durch ein Profil ist in SPSS ein einfaches Liniendiagramm mit der Option Auswertung über verschiedene Variablen über das Menü Graphik auszuwählen. JÜ
3
Einfach
Definieren
HiNe Verbundlinie Deten im Diagramm— С Auswertunû über Kategorien einer Variablen fi ^swertung über verschiedene Variafaieni Г ;^8rte einzelner Faîte
Abbildung 3.52: Auswahlmeoü zu den Liniendiagrammen In dem Dialogfeld müssen die 8 Variablen mit den Beurteilungen in das Feld mit dem Namen Linien entspricht übertragen werden. Bei den Linien wird üblicherweise von SPSS das arithmetische Mittel als Repräsentant der Merkmalsausprägungen an der entsprechenden Gruppe vorgegeben.
82
3. Häufigkeitsverteilungen und deskriptive Statistiken j Geschmack [Π_3] 4>Fmchtgehall[fl.4] ¿> Fettgehalt [n_5J φ Haltbarkeit [fl_6] φ Preis [tl .7] ^Verpackung [n_8]
Jriie entspricht .
OK Einsen Zurücksetzen
1 3
Abbrechen
Auswertungglunktion. | -Vorloge Ρ Dtagrammeinstellungen verwenden aus: Pypi { Titel...
Optionen-
Abbildung 3.53: Dialogfeld zur Prozedur Liniendiagramm Über den Menüpunkt Auswertungsfunktion wird ein Dialogfeld geöffnet, das zahlreiche Funktionen zur Verdichtung der Einzelwerte zur Verfugung stellt. Standardmäßig ist hier der Mittelwert vorgegeben, der im vorliegenden Fall auch durch den Median ersetzt werden könnte. JSJ
Auswertungsfunktion
Weiter Γ Standeidabweichung r Median С Varianj Γ Modateert С Minimum r ônzahl der Falle Г Maïimalwert Γ Summe Г Kumulierte Summe - Ausvfertungstunktion tür die ausgewählten Variablen Λ'εΠ: ' С ^zentsatz oberhalb r Anjahl oberhalb Г Prazentsatz unterhalb Г Anzahl unterhalb Perzentil BeinstefWett | Prozentsatz innerhalb
Abbrechen Hilfe
GròlStgr Wert Ρ Γ Anzahl innerhalb
Γ" 'tVíírítí sind gnjpcieiie Mittelpijnkre Abbildung 3.54: Dialogfeld Auswertungsfunktionen zur Prozedur Liniendiagrammen Wenn das Liniendiagramm im Viewer erscheint, sind im Diagramm-Editor noch einige Arbeiten notwendig, um die gewünschte Form zu erreichen. Aus diesem Grund wird in der folgenden Abbildung zunächst das unbearbeitete Liniendiagramm gezeigt.
83
3. Häufigkeitsverteilungen und deskriptive Statistiken
M Qualität
Geschmack
Frische
Fettgehalt
Fruchtgehalt
Preis
Haltbartieit
Уефаскипд
Abbildung 3.55: Einfaches Liniendiagramm Im Diagramm-Editor müssen über das Symbol mit dem Koordinatensystem und dem Pfeil Ш die Achsen vertauscht werden. Dadurch wird das Diagramm gekippt. Anschließend können noch die Linien über das Symbol für den Linienstil nen Muster gekennzeichnet werden. Mit Hilfe des Liniensymbols für die Geradeninterpolation der Mittelwerte anzeigen.
~ J mit einem eige-
f f \ kann eine Markierung die Lage
• Geradeninterpolation
-
tnterpotatiansert --
Zuweisen
. ' . • 1 Keiner
[schritt links
d
^^Getade
1 Sprung links
d
ôlien luw. Schließen Hilfe
r V 1 Spline Ρ Maii^Jerungen anzeigen
Abbildung 3.56: Dialogfeld zu der Geradeninterpolation Über das Symbol mit dem Stern {Marker) kann auch für jede Linie zusätzlich ein eigenes Markierungssymbol für die einzelnen Ausprägungen verwendet werden.
84
3. Häufigkeitsverteilungen und deskriptive Statistiken Qualität
Frische
Verpaclcung
1
2
3
4
Abbildung 3.57: Linienprofìl In gleicher Weise lassen sich auch mehrfache Liniendiagramme {über verschiedene Fälle) zeichnen.
Abbildung 3.58: Auswahlmentt zu den Liniendiagrammen Dazu muß zusätzlich in dem Dialogfeld Kategorienachse eine weitere diskrete Variable eingegeben werden, die als Gruppierungsvariable die Linien voneinander trennt. Das kann beispielsweise das Geschlecht oder eine Altersgruppe sein. Wichtig ist, daß hier nicht zu viele unterschiedliche Kategorien vorhanden sind, da sonst zu viele Linien das Diagramm unübersichtlich machen.
3. Häufigkeitsverteilungen und deskriptive Statistiken iedene Varmbîen • Muhrlachlimendiagramm definieren: Auswertung über verschie ¿> Qualität pi J ] #Fnei:íie[f1_2) φ Geschmack [Π .3] ^FmcHgehalt[fl_4Í í>FellgehaH[n_S] ^Hallbeikeit[f1_6l
mm'OK
,^MEAN(Qualitat[nj]) 'iÍ>MEAN(Frische [n_2]) φ MEAN(Geschmack [fl _3]) φ MEAN(Fruditgehalt pi •ifMEANíFetlaehaltrn SD
фРгв18((1_7]
85
Eif^gen ¿unicksetzen I Jd
φ Verpackung tn_8]
Abbrechen
Hilte Kategpnenachsa: I φ Geschlecht [ffil
ш ,-Vorto^— I ρ Diegrammeineteltungen verwenden aus: : Dale., I Titel
I
Optionen...
Abbildung 3.59: Dialogfeld zum mehrfachen Liniendiagramm Als Ergebnis erscheint im Viewer ein Liniendiagramm, das zunächst wenig Ähnlichkeit mit dem erwarteten Linienprofil zu haben scheint. Es werden alle zufnedenheitsrelevanten Kriterien als eigene Linie an den beiden Dimensionen märmlich und weiblich gezeigt.
t S männlich
weiblich
Geschlecht
Abbildung 3.60: Unbearbeitetes mehrfaches Liniendiagramm Um dieses Diagramm zu verändern, muß durch Doppelklick in den Diagramm-Editor gewechselt werden. Im Diagrammeditor müssen die Daten nachträglich über die Befehle Datenreihen Daten transponieren
86
3. Häufigkeitsverteilungen und deskriptive Statistiken
transponiert werden. Dann erscheinen die zufiiedenheitsrelevanten Kriterien an der >'-Achse und das Geschlecht bildet jeweils eine Linie. Im Anschluß daran können die bereits gezeigten Formatierungen am Diagramm durchgeführt werden. Unter anderem muß das Diagramm wieder über das Symbol Achsen vertauschen gekippt werden: Ы Als Ergebnis erhält man einen Profilvergleich über die beiden Ausprägungen der Kategorie Geschlecht. Qualität
1 / / J .
Frische
7
1 1 1
Geschmack
Ч
•Ч\ \ s\
Fruchtgehalt
Fettgehalt·
\ \ Haltbarkeil
η 1 1 11 Preis
1/ 1/ 1/
Verpackung
Geschlecht '
männlich
• weiblich
1
Abbildung 3.61: Linienprofil Uber eine Kategorie
4
Analyse von Mehrfachantworten
Mehrfachantworten treten immer dann auf, wenn der Befragte zu einer Frage mehrere Antworten geben kann. Diese können dann gleichbedeutend sein, oder auch in einer gewissen Rangordnung stehen wie etwa „Was hat Omen am meisten gefallen" und „Was hat Ihnen sonst noch gefallen?" Bezugnehmend auf das Fragebogenbeispiel können bei der Frage nach dem Studienfach mehrere Antworten auftreten, wenn jemand zwei oder mehr Studienfacher gleichzeitig belegt hat. Bei einer statistischen Auswertung können dann die folgenden Fragen beantwortet werden: 1) 2) 3)
Welches Studienfach wurde als erstes genannt? Welches weitere Studienfach wurde genannt? Wie oft wurden die einzelnen Studienfächer überhaupt genannt?
Während die Frage 1 ) und 2) separat mit der Prozedur Häufigkeiten auszuwerten sind, müssen fur die Frage 3) beide Antworten miteinander verbunden werden, um auszuzählen, wie oft das jeweilige Studienfach überhaupt (als erstes oder als zweites) genannt wurde. Die Auswertung mit Hilfe der Prozedur Häufigkeiten zeigt eine Tabelle mit der ersten Nennung, der zweiten Nennung bzw. der dritten Nennung des Studienfaches. Studienfach
Gültig
BWL VWL WlPÄD USW Soziologie Gesamt
Häufigkeit 83 2 4 8 3 100
Prozent 83,0 2,0 4,0 8,0 3,0 100,0
Gültige Prozente 83,0 2,0 4,0 8,0 3,0 100,0
Kumulierte Prozente 83,0 85,0 89,0 97,0 100,0
Abbildung 4.1: Haufigkeitstabelle des 1. Studienfachs der Prozedur Häufigkeiten 2. Studienfach
Gültig
Fehlend Gesamt
VWL WlPÄD USW Soziologie Sonstige Gesamt System
HaufiglKöipergrö8e in cm [gröBe] Einfügen ¿uriicksetzen Ffiktorenliste: Abbrechen
Б Fdlbeschriflung:
Ш ^
С Statistik
jiJ Afattangige Variablen.
Φ Geschlecht [geschl] φΑΗβΓίη Jahren [alter] ' φ Semesterzahl [semes ^ Studienabsdinitl [absi φ Studienfach [fach] 2. Studienfach [fach2] φ 3. Studienfach [fach3] % Sonstiges Studienfach φ Familienstand [familie φ Gewicht in kg [gewicht— φ Gefallen am Studium [ φ GröBenklassen [gröBi ^ [
—-
Gewicht in kg [gewicht •-i^ Gefallen am Studium [
OK Einfügen ¿urücksetzen Abbrechen
Testisett:
[m
Qpfofen... |
Abbildung 7.24: Dialogfeld zum Student f-Test fUr eine Stichprobe Zunächst wird die Variable mit der Körpergröße in den Bereich der Zielvariablen übertragen. Der Testwert ist deijenige Wert, der den untersteUten Mittelwert μο darstellt. Das sind hier 175 {cm). Die hier nicht gezeigten Optionen erlauben das Konfidenzintervall, das hier auf 95% festgelegt ist, durch die Eingabe eines anderen Signifikanzniveaus zu verkleinem, oder zu vergrößern. Es erscheinen zunächst die statistischen Kennziffern Stichprobenumfang (N), arithmetisches Mittel {Mittelwert), die Standardabweichung und der Standardfehler des Mittelwertes. Statistik bei einer Stichprobe
N Körpergröße in cm
100
Mittelwert 174,61
Standarda bweichung 8,517
Standardfehl er des Mittelwertes ,852
Abbildung 7.25: Statistikausgabe zum Student f-Test fttr eine Stichprobe
7. Testverfahren
145
Der Mittelwert ist mit 174,61 cm bereits nur geringfügig größer, als der vorgegebene Wert von 175 cm. Test bei einer Slchprobe Testwert = 175
Körpergröße in cm
Τ -,458
df
Sig. (2-seltig) ,648
99
Mittlere Differenz -,39
95% Konfidenzintervall der Differenz Untere -2,08
Obere 1,30
Abbildung 7.26:Ergebnis zum Student r-Test für eine Stichprobe Erwartungsgemäß bestätigt der Test, daß die Abweichung vom vorgegebenen Wert 175 nicht signifikant ist. Die Priifgröße to (Τ) ist hier -0,458. Die Anzahl der Freiheitsgrade (df) ist 99, da ein Parameter abgezogen wurde. Das Signifikanzniveau im Feld Sig. (2-seitig) zeigt mit 0,64S einen sehr hohen Wert, der daraufhinweist, daß der Unterschied nicht signifikant ist. Schließlich sind im rechten Bereich der Ausgabe die obere bzw. die untere Grenze für das zweiseitige 95%-Konfidenzintervall (bei unbekannter Varianz) angegeben.
7.7 Student M e s t für zwei unabhängige Stichproben Der Student i-Test ist ein weit verbreiteter Test, der zwei unabhängige Stichproben auf signifikante Unterschiede imtersucht. Bei diesem Test werden zwei Stichproben anhand ihres Mittelwertes auf Gleichheit überprüft. Man spricht daher auch von einem parametrischen Testverfahren. Voraussetzung für eine solche Vergleichbarkeit ist aber, daß sich die Streuung dieser beiden Gruppen nicht signifikant unterscheidet, denn wenn dies der Fall wäre, dann könnte auch die unterschiedliche Streuung für den Unterschied zwischen den Stichproben verantwortlich sein, und nicht der bei diesem Test zu übeφrüfende Mittelwert.
1
'"2
Abbildung 7.27: Mittelwertvergleicb beim r-Test für zwei unabhängige Stichproben
146
7. Testverfahren
In dieser Skizze sind auch die wesentlichen Voraussetzungen für den Test enthalten: Die beiden Verteilungen sind normalverteilt und besitzen die gleiche Streuung. Erst dann ist eine Untersuchung auf signifikante Unterschiede der beiden Mittelwerte sinnvoll. Ist die Annahme gleicher Streuung nicht gegeben, so bietet SPSS trotz allem eine weitere Prüfgröße eines modifizierten /-Tests, der auf diese Annahme verzichtet. (1)
Voraussetzungen
• • • •
Die beiden Stichproben sind stetig. Die beiden Stichproben sind unabhängig. Die beiden Stichproben sind normalverteilt. Die beiden Stichproben haben die gleiche Streuung (nicht beim i-Test für unterschiedliche Streuung erforderlich).
(2)
Hypothesen (zweiseitig)
Ho'· Die Mittelwerte sind gleich: μι = μ2. Н\ : Die Mittelwerte sind nicht gleich: μι îî μ2 .
(3)
Prüfgröße
in =
=
и, · η , - ( и , + И , - 2 ) ^ L
ι
gleicher Streuung
^^ bei ungleicher Streuung . и,
(4)
(x,-л:,) LJ П
«,
Kritischer Bereich aus der Tabelle der Student-f-Verteilung
Beim modifizierten i-Test bei ungleicher Streuung ergeben sich die Freiheitsgrade ν wie folgt: is' i si L' ) ' «,-1
s'Y
i
1 í^i
Dadurch karm es auch zu Freiheitsgraden mit Nachkommastellen kommen. К =(-00,
- i f
7. Testverfahren
(5)
147
Entscheidung
Яо ablehnen, falls ίο e AT.
Beispiel: Es wird getestet, ob sich die Körpergrößen der beiden Geschlechter bei den 100 Studierenden signifikant voneinander unterscheiden. Es wird für die Anwendung dieses Testverfahrens davon ausgegangen, daß die Größen beider Geschlechter jeweils normal verteilt sind. Test b e i u n a b h ä n g i g e n S t i c h p r o b e n Φ Alter in Jahren [alter] Semesterzohl [semes' 4> StudienabsctinitI [absi φ Studientech [lach] 4 2-Studienfach [tech2] Studienfach [(ach3Ì •φ Familienstand [familie • φ Gewicht in kg [gewicht •i^Gefallen am Studium [ •Φ Größenklassen [gröflr φ Wie gefallt d a s Studiu φ Gewichtsklasse [gewi* φ Absolute Abweidiung
X8s^/aгiaЫe(n): νφ Körpergröße in cm [giöBE
OK Шлйдеп
J}
Zurücksetzen Abbrechen
J]
Qruppenvariable:
Gruppen siel....
|
fiptionen...
Abbildung 7.28: Dialogfeld zum /-Test für zwei unabhängige Stichproben Die Gruppentrennung im Feld erfolgt über die Schaltfläche Gruppen def... mit Hilfe des Geschlechts, das durch Zahlen kodiert ist, d. h. Null für weiblich und Eins für männlich.
1· à n g e g e b e n e Werte verwenden Gruppe 1: Gruppe 2: Г Xrennwert:
|Ô fi
Hilfe
1
Abbildung 7.29: Dialogfeld Gruppen definieren zum /-Test für zwei unabhängige Stichproben Zunächst werden die Gruppenstatistiken und anschließend die Testergebnisse gezeigt. Gruppenstatistiken
Mittelwert
weiblicti
49
168,51
5,720
,817
männlich
51
180,47
6,382
,894
Geschlecht Körpergröße in cm
Standardfehl er des Mittelwertes
Standards bweichunq
N
Abbildung 7.30: Gruppenstatistiken zum f-Test für zwei unabhängige Stichproben
148
7. Testverfahren
Die Gruppenstatistik zeigt bereits starke Unterschiede bei den (arithmetischen) Mittelwerten von ca. 12 cm. Die Streuung, die hier durch die Standardabweichung ausgedrückt wird, weicht hingegen nicht sehr stark ab. Das exaktere Ergebnis liefert der folgende Output. T u t bal unabhängigen Stichproben LeveniB-Test der Varian zgleichheit
Körpergröße In cm
Varianzen sind gleich Varianzen sind nicht gleich
F ,810
Signifikanz .370
T-Test für die Mitteiwe rigleichheit
Τ -9,β55
df 98
Sig. (2-seitig) ,000
Mittlere Differenz -11,96
Standardf ehler der Differenz 1,214
-9.877
97,536
.000
-11,96
1,211
95i% Konfìden zintervall der Di ferenz Unlere Obere -14,369 -9,552 -14,364
-9,557
Abbildung 7.31: Ergebnis zum /-Test für zwei unabhängige Sticliproben mit dem Levene-Test auf Varianzgleichheit Bei der Interpretation des Testergebnisses ist die Spähe Sig. (2-seitig) entscheidend. Das Signifikanzniveau von ,370 in der Spalte Signifikanz zum Levene-Test auf Varianzgleichheit bedeutet, daß die Unterschiede bei den Varianzen nicht signifikant sind. Denmach karm die erste Zeile beim /-Test für die weitere Inteφretation des Testergebnisses verwendet werden. Die zweite Zeile enthält das Testergebnis fur den /-Test bei unterschiedlicher Varianz. Diese Zeile ist dann erforderlich, wenn der F-Wert nahe Null läge, was auf einen signifikanten Unterschied bei der Varianz hinweisen würde. Die Werte in der Spähe Sig (2-seitig) in der ersten Zeile der Rubrik T-Test fiir Mittelwertgleichheit weisen mit, ООО einen hochsignifikanten Unterschied bei den Köφergrößen fur die Geschlechter aus. Unter der Schaltfläche Optionen besteht in einem untergeordneten Dialogfeld auch die Möglichkeit, die Breite des Konfidenzintervalles zu verändern. T T est bei u n a b h ä n g i g e n S i t c h p r o b e R : O p M e n e n f i^nfidenzinteivall:
liT
- Fehlende Werte 20 oder nicht vorhandener Werte für den WilcoxonRangsummentest ist die Prüfgröße
näherangsweise normalverteih. Darm katm die
Prüfgröße in eine näherungsweise normalverteihe Prüfgröße transformiert werden:
152
7. Testverfahren
Wo = ^•и,
иДи,+Л2+1)
Der kritische Bereich fur die normalverteilte Prüfgröße ergibt sich dann dazu als
(5)
Entscheidung
Яо ablehnen, falls wo bzw. wl ^ К .
Beispiel: Es werden noch einmal die Körpergrößen herangezogen, um zu überprüfen, ob sich die beiden Geschlechter darin signifikant voneinander unterscheiden. Obgleich die Körpergröße normalverteilt ist, und daher der Mann-Whitney-Í7-Test nicht unbedingt angewendet werden muß, ist diese Vorgehensweise nicht falsch, denn dieser Test karm auf jeden Fall auch für normalverteilte Daten verwendet werden. Tests bei zwei unabhängigen Stichproben
mi^·
TesVeHablen: ^Alter in Jahren [alter] а ^ Semesteraehl [semes'" φ кофегдгове in cm [große φ Studienabschnill [absi φ Studienfach [fach] φ 2 Studienfach [ladiZ] фЗ. Studienfach [(ach31— '¿Familienstand [familie φ Gewicht in kg [gewicht | ^ -φ Gefallen am Studium [ ^ 1 Gruppen iiefínieren..
OK
GD
Welche Test« durchführen? Ρ Mon'fWiitneyt>TBSt
Г" i^olmogorov-Smimov-Z
Γ Е!фетгвакйопвп nach Moses
Г Waib-Woltowitz-Sequenren
Jii
Einfügen
¿ufuckíetzen Abbrechen Hilfe
Optionen... Abbildung 7.33: Dialogfeld zum Mann-Whitney-i/-Test Die Unterscheidung der Gruppen erfolgt wieder durch die Ziffern 0 und 1. JÚ
Gruppe 1:
|Г
Gnjppe 2
(ϊ~
J
Abbrechen Hilfe
Abbildung 7.34: Dialogfeld Gruppen definieren zum Mann-Whitney-i/-Test
7. Testverfahren
153
Zunächst erscheint eine Tabelle mit den Stichprobenumfangen, der mittleren Rangzahl und der Summe der Rangzahlen. Bereits an dem Unterschied der mittleren Rangzahl wird deutlich, wie stark sich die Stichproben voneinander unterscheiden. Es müssen offensichtlich sehr viele weibliche Studierende mit niedrigen Noten in der gemeinsamen Stichprobe aufgetreten sein. Ränge К0фегдг0Ве In cm
Geschlecht weiblich männlich Gesamt
N 49 51 100
Mittlerer Rang 29,54 70,64
Rangsumme 1447,50 3602,50
Abbildung 7.35: Rangsummen zum Mann-Whitney-CZ-Test Das Testergebnis zeigt beide berechneten Prüfgrößen: Den Wert für den Mann-Whitney-f/Test und den Wert für den Wilcoxon-Rangsummentest: Statistik für Test*
Mann-Whitney-U Wllcoxon-W Ζ Asymptotische Signifikanz {2-seltlg)
КОфегдгбйе in cm 222,500 1447,500 -7,091 ,000
a. Gruppenvariable: Geschlecht
Abbildung 7.36: Ergebnis zum Mann-Whitney-i/-Test Die Geschlechter unterscheiden sich in Bezug auf ihre Köφergröße auch bei diesem Test. Das Signifikanzniveau ist Null, was bedeutet, daß die Unterschiede hochsignifikant sind. Das Ergebnis ergibt sich aus dem Wert 0,000 im Feld Asymptotische Signifikanz (2-seitig). Die starken Unterschiede werden auch an den mittleren Rängen und an der Rangsumme deutlich, die bei den weiblichen Personen wesentlich niedriger sind, als bei den Männern.
7.10 Gepaarter i-Test für zwei abhängige Stichproben Als Beispiel fur einen parametrischen Test für zwei abhängige Stichproben wird der sogenannte gepaarte i-Test hier vorgestellt. Im Gegensatz zu dem i-Test für zwei unabhängige Stichproben werden hier nicht die Parameter aus den beiden Stichproben verglichen, sondern nur die Parameter aus der sich ergebenden Differenz der Stichproben. Nachdem es sich hier um Wertepaare handelt, wird die Veränderung der Ausprägungen gemessen. Eine wichtige Voraussetzung für die Anwendung dieses Tests ist jedoch, daß die beiden abhängigen Stichproben normal verteilt sind. Andernfalls steht aber auch für diese Art von Testproblemen mit dem Vorzeichenrangtest nach WiLCOXON ein nichtparametrisches Testverfahren zur Verfügung.
154
7. Testverfahren
(1)
Voraussetzungen
•
Die beiden Stichproben sind normalverteilt.
(2)
Hypothesen (zweiseitig)
Яо: Я| :
Die Differenz ist gleich: μι - μ2 = ¿o · Die Differenz ist nicht gleich: μι - цг i/o .
(3)
PrttfgröBe
Für die Prüfgröße wird die Differenz der verbundenen Wertepaare d¡ =
-
berechnet.
Daraus ergibt sich die durchschnittliche Differenz der Wertepaare 1 "
und die Streuung der Differenz der Wertepaare
1=1
Aus diesen beiden Größen ergibt sich die Priifgröße
Γ-
d
— .
(4)
Kritischer Bereich aus der Tabelle der Student-r-Verteilung
(5)
Entscheidung
Яд ablehnen, falls to e К .
Beispiel: Mangels tatsächlich erhobener Daten gehen wird davon aus, daß die Studierenden in unserem Fragebogen an einem Marathonlauf teilnehmen (z. B. jährlicher Kleeblattlauf anläßlich des Universitäts-Sportfests der Karl-Franzens-Universität Graz). Dazu wird von den Teilnehmern des Marathonlaufes das Gewicht vor- und nach dem Wettkampf gemessen. Da hier das Gewicht von jeweils der gleichen Person betrachtet wird, liegen gepaarte Werte vor. Die Messung erfolgt hier vor- und nach dem Wettkampf Mit Hilfe des Testverfahrens soll untersucht werden, ob sich das Gewicht nach dem Marathonlauf signifikant verändert hat. In dem Fragebogen ist diese Variable mit dem Namen Sport zusätzlich aufgenommen und wie alle anderen Variablen zufällig generiert worden.
7. Testverfahren
155
I est b e i g e p a a r t e n S t i c h p r o b e n Gepaarte Variablen:
Φ Geschlecht [geschl] ^ Alter in Jahren [alter] ^ Semesterîahl [semes ^ Studienabschnitt [absp •¿Studienfach [tech] φ 2. Studienfach [fache] фЗ. Studienfach [fach3] Familienstand [famille φ КофегдгоВе in cm [ g r , ^ ir. I/« Гп
OK Einlügen Zurücksetzen Abbrechen Hilfe
Aktuelle Auswahl·Variablel: ; Variable?:
Ûptjonen...
Abbildung 7.37: Dialogfeld zum r-Test bei gepaarten Stichproben In SPSS müssen wenigstens zwei Variablen in dem Fenster mit den Zielvariablen zu Wertepaaren verknüpft werden, bevor das Variablenpaar in das rechte Fenster übertragen werden kann. Das bedeutet, daß immer zwei Variablen in dem Bereich der Quellvariablen durch Anklicken mit der Maus markiert werden müssen, bevor diese beiden Variablen in den Bereich der Zielvariablen übertragen werden können. In dem vorliegenden Beispiel werden die Paare durch das Gewicht vor- und nach dem Lauf gebildet. Statistik bei gepaarten Stichproben Standardfehl Mittelwert Paaren
G e w i c h t in l x, bzw. = — X n x, . nt^ ' ritt
Streuung zwischen den Gruppen
SSQ = ^ n ¡ [ x ¡ - x )
Reststreuung (Streuung in den Gruppen) SSE = ΣΧί^ί,» ί=1 t=l
~
. ·
Die gesamte Streuung SST setzt sich demnach aus der Streuung zwischen den Gruppen und der Reststreuung zusammen: SST=SSQ + SSE. Aus den einzelnen Streuungen können die mittleren Quadratsummen gebildet werden: M5ß = ^ u n d r -1
160
7. Testverfahren
MSE =
SSE
Mit Hilfe dieser einzelnen Größen wird die Prüfgröße gebildet: ^ „ n-r SSQ , MSQ PrüfgrößeF„= — . — b z w . ^ . Allgemein kann die Prüfgröße F als Quotient aus der erklärten und nichterklärten Streuung interpretiert werden. Die einzelnen Quadratsummen, Freiheitsgarde, daraus gebildeten mittleren Quadratsummen und die Prüfgröße wird üblicherweise in Form einer standardisierten Varianztabelle dargestellt: Quadratsumme Freiheitsgrade mittlere StreuungsQuadratsunmie ursache r- 1 Zwischen den SSQ MSQ-'^e^ Gruppen r-\ SSE n-r Streuung in den MSE = Gruppen n-r Gesamt SST И-1 Tabelle 7.6: Varianztabelle zum F-Test
Prüfgröße F
MSQ MSE
In dieser Tabelle wird die gesamte Streuung in einen erklärten Teil (Zwischen den Gruppen) und in einen unerklärten Teil aufgeteilt (in den Gruppen). Der Quotient aus diesen beiden Größen ergibt schließlich die Prüfgröße: Varianz zwischen den Gruppen Varianz in den Gruppen (4)
Kritischer Bereich aus der Tabelle der F-Verteilung
(5)
Entscheidung
H, ablehnen, falls
e AT.
Beispiel: Auch wenn das Ergebnis eindeutig sein müßte, so wird als Beispiel das Alter der Studierenden als abhängige Variable mit dem Studienabschnitt als Faktor untersucht. Es wird davon ausgegangen, daß das Alter der Studierenden in der Stichprobe wenigstens näherungsweise normalverteilt ist.
7. Testverfahren
161
Der Faktor Studienabschnitt wird hier als nominal skaliert betrachtet und dient zur Unterscheidung der Gruppen (Gruppierungsvariable). Bei diesem Test wird von SPSS automatisch eine Grappentrennung aufgrund der Merkmalsausprägungen des Faktors vorgenommen; es müssen nicht wie beim ф Geschlecht [geschq ^ Semeeterîahl [semes Studienfach [fach] ί> 2 Studienfach [fech2] 4>3, Studienfach Ì(ech3] φ Familienstand [famille φ KorpergrbBe in cm [gr φ Gewicht in kg [gewicht φ Gefallen am Studium [ ^ г Welche Tests durctiWhren? Ρ Kniíkal-Walli«-H
Testsíaridílen; фАКег in Jahren [alter]
OK Einfügen
J
¿uriicksetzen Abbrechen
¿ruppensmdebte; Bereich detnlsran... | Г Median
OptionenAbbildung 7.49: Dialogfeld zum Kruskal-Wallis-tf-Test für mehrere Stichproben Hier müssen die Gruppen wieder explizit durch eine Gruppierungsvariable definiert werden. Es können auch bestimmte Bereiche aus mehreren Gruppen ausgewählt werden. Mohroro unabhängige Stichproben: Bereich dehnieren Bereich für Gruppem/ariable Minimum: fl Maximum:
js""
•
Abbrechen Hilfe
Abbildung 7.50: Dialogfeld Gruppen definieren zum Kruskal-Wallis-Я-Test fUr mehrere Stichproben Es erscheint eine Tabelle mit den Größen der einzelnen Gruppe (hier mit N bezeichnet) und den mittleren Rängen für jeden einzelnen Studienabschnitt.
166
7. Testverfahren Ränge
Alter in Jahren
Studienabschnitt 1
N 4
iVlittlerer R a n q 56,00
2
92
48,81
3
4
83,88
Gesamt
100
Abbildung 7.51 : Rangsummen zum Kruskal-Wailis-ZT-Test für mehrere Stichproben Es zeigt sich, daß sich die mittleren Ränge deutlich unterscheiden, wenn auch nicht eindeutig in eine Richtung. Die Prüfgröße ist hier als Chi-Quadrat-Wert dargestellt. Die Freiheitsgrade df ergeben sich aus der Anzahl der Gruppen (Minus Eins). Statistik für Test··" Alter in Jahren Chi-Quadrat
5,830
df
2
Asymptotische Signifikanz
,054
a. Kruskal-Wallis-Test b. Gmppenvariable: Studienabschnitt
Abbildung 7.52: Ergebnis zum Kruskal-Wallis-tf-Test für mehrere Stichproben Der Test kommt ebenfalls zu dem Ergebnis (Asymptotische Signifikanz ,054), daß sich das durchschnittliche Alter je Studienabschnitt je nach Signifikanzniveau (5%) nicht oder wenigstens schwach (10%) voneinander unterscheiden.
7.14 Friedman-Test für mehr als zwei abhängige Stichproben Der Friedman-Test ist auch eine Rangvarianzanalyse, jedoch für mehr als zwei abhängige Merkmale. Die Vorgangsweise ist mit deijenigen des Kruskal-Wallis-Я-Tests fur zwei abhängige Stichproben vergleichbar. Beim Friedman-Test können aber drei oder mehrere Gruppen betrachtet werden. (1)
Voraussetzungen
•
die Merkmale sind stetig und abhängig (verbunden).
(2)
Hypothesen
Hc,·. Die Stichproben sind gleich. H\ : Die Stichproben sind nicht gleich.
7. Testverfahren
167
(3)
Bestimmung der Prttfgröße
•
Die gemeinsame Stichprobe aller r Stichproben (hier: Messungen) wird über alle Merkmalsträger (hier: Personen) gebildet und in aufsteigender Reihenfolge sortiert.
•
Anschließend werden Rangzahlen r^ für die gemeinsame Stichprobe vergeben und diese den ursprünglichen Stichproben (Messungen) wieder zugeordnet.
г
ij
•
Die Summe der Rangzahlen wird jede einzelne Messung gebildet: Rj = ^ r ^
•
Berechnung der Prüfgröße V: 12
mit ρ = Anzahl der Gruppen bzw. Messungen r = Anzahl der Merkmalsträger. Falls durch gleich große Werte eine eindeutige Zuordnung der Rangzahlen nicht möglich ist, müssen wieder mittlere Rangzahlen vergeben werden. Bei Auftreten von Bindungen an tu gleichen Werten wird die obige Größe korrigiert: p+ìY 12·(;'-Ι)Σ V ^ ^ — V J
·
rp'YJ.tl i=l i=l (4)
Kritischer Bereich aus der Tabelle für den Friedman-Test
a)
Im Falle ρ < 6 und r < 9 giU: К = {
b)
Im Falle > 6 und r > 9 oder fehlender Tabelle für den Friedman-Test ist die Prüfgröße näherungsweise Chi-Quadrat verteilt: K = 3. Studienfach [fach 3] % Sonstiges Studienfach φ Familienstand [familie 4> Gefallen am Studium [ φ QroBenklassen [gröBi .¿Wie gefällt das Studiu••i^Gevflchtsklesse [gewi ^ j
-Vorlage
- -
-
К0фегдг08е in cm [große] Gewicht in kg [gewicht] φ Alter in Jahren [alter]
Einfügen Zurücksetien Abbrechen
Markierungen festlegen durch: Falttieschrittung:
a i - —
—
Ρ Dtagrommeinstellungen v e r e n d e n aus: DeteE I Titel..
I
Qptionen.
[
Abbildung 8.12: Dialogfeld zur Prozedur Streudiagramm-Matrix Die Streudiagramm-Matrix ist so aufgebaut, daß die Variablennamen auf der Hauptdiagonalen stehen. Da die Matrix symmetrisch aufgebaut ist, genügt der Blick auf die rechten oberen oder linken unteren drei Quadranten. Die abgebildeten Streudiagranmie zeigen die einzelnen Zusammenhänge zwischen den Variablen Gewicht und Alter, Gewicht und Körpergröße sowie Alter und К0фег§г0Ве.
8. Streudiagramme
179
" " он о »®e2®!8« :SiS'S··! i 85s|8 °°°
Kiypergröße in cm
о
„II
Gewicht in kg iJír о
% OP о" о " ве а moa ООО оТ'οίο"« о ко о о
®
во = °··=°
α о О e"«»»
° äii°= • 0 0 о о воо оо о оθа ооо во ш ае о Alter in Jahren всвооо тоoœаа 'eoo' "о о ° °
Abbildung 8.13: Streudiagramm-Matrix Man erkennt in dieser Matrixdarstellung, daß der Zusammenhang zwischen den Variablen Gewicht und Köφergröße stärker ist, als zwischen dem Gewicht und dem Alter sowie zwischen der Köφergröße und dem Alter. Dort zeigen die Punktverteilungen jeweils eine starke Streuung.
8.3 3D-Streudiagramin Die dritte Art der Streudiagramme ist das dreidimensionale Streudiagramm, kurz SDStreudiagramm genaimt. Hier werden die Merkmalsausprägungen in Form einer Punktwolke in räumlicher Darstellung gezeigt. . 3Ü ötreudiagramm
4
Φ Geschlecht [geschl] φ Semesteraahl [semester] | У | φ Studienabschnitt (absch) φ Studienfach [loch] lj)2,Stuclientoch(tech21 T | φ 3. Studienfach [fachS] Sonstiges Studienfach {st , φ Fejnilienstand [familie] φ Gefallen am Studium (stut 4 I φ CSröSenklassen [gtoBel) -φ Wie gefallt das Studium? φ Gewichtsklasse [gewichtl
jC-Achsa j КбфегдгаВе ir cm [дгове Ü-Achse: 1 φ Geweht ,n kg [gewicht]
Einiügen ¿-"Wsel^en Abbrechen
2-éfibte:
{φ Aller in Jahren [eher}
Hilfe
Mmtaeowyn fartegen durch: Fat1boschtTltUl>g:
ΣΙ r г DiagrammeinsteHungenverífendeneus: ÜBf, I Titel
J
Qptionsn... I
Abbildung 8.14: Dialogfeld zur Prozedur 3D-Streudíagramni
180
8. Streudiagramme
Hier wäre der Zusammenhang als Ebene zu verstehen. Für die Analyse verborgener Zusammenhänge besteht weiters die Möglichkeit, dieses 3D-Streudiagramm im Diagramm-Editor zu rotieren.
Gewicht
Alter
Abbildung 8.15: 3D-Streudiagramin In den Diagrammoptionen zu dem 3D-Streudiagramm können auch Projektionslinien (hier parallel) eingezeichnet werden, die eine Zuordnung der Koordinaten erleichtern. Der durch das Koordinatensystem gebildete Rahmen ist in diesem Beispiel geschlossen worden, um eine optische Hilfestellung zu geben. 30-Streudiagramm: Optionen
mtì
V yritprgrußpen ar?otgen
OK
FeHbeschriftungen; |AUS Herkunfl der BaechriHung;
Abbredien
riOVâteblé.
M
Hille
ff Eeilnumwer - • Γ Frflhäufigkelt^fficittijiigvetvj-enderi ; Ptojektionslinien: . ßehmen
Abbildung 8.16: Diagrammoptionen zum 3D-Streudiagramm
181
8. Streudiagramme
8.4 Sonnenblumenplots Falls kategoriale Merkmale in Form eines Streudiagramms dargestellt werden sollen, tritt das Problem auf, daß mehrere Merkmalsausprägungen auf einem Punkt überlagert dargestellt werden müssen. Es lassen sich dann nicht wirklich Abhängigkeiten oder Strukturen in den Daten erkennen. Diesem Umstand wird das sogenannte Sonnenblumenplot gerecht. . l-infrtchBS StieudiaqrHm ^GetchlechttgeschQ фАНег in Jahren [alter] 'Ф Semesterzahl [semes #Studienlach[tach] ф2 Studieniach[fech2] фЗ. Studienfach [1асЬЗ] ig Sonstiges Studienfac» •φ КЬфегдгове in cm [gr φ Gewicht in kg [gewicht φ Gefallen am Studium [ φ GröBenklassen [gröBi ^WiegefaitdasStudiu— φ Gewichtsklasse [gewi
F^i : y-^s«: j φ Studienabschnitt [absch]
и
I φ Familienstand pamilie]
OK Einfügen ¿urucksetzen Abbrechen
yerkierungen festtegen durch;
HiHe
FaUmchtübng:
Ή
F Diagrammetnstellungenven^ndenaus: ûiœi· I ΤίβΙ...
Optionen...
Abbildung 8.17: Deflnition eines einfaciien Streudiagramms Die Sonnenblumenplots sind einfache Streudiagramme, die im Diagramm-Editor über das Menü Diagramme Optionen Im Feld Sonnenblumen als solche definiert werden. jjJ
1Ί·1ΙΙ·ΙιΗι1ΙΊ^ΗΊ·Ι - Optionen fur Anzeige Γ" i^rrtefçrjpper'i anzeigen Fallbesiíiriftungen: |AUS ' Herkunft der Beschrifbing: Γ îDA/â'iaWe Sludienabsctinitl [abs. φ Studienfach [fach] φ 2, Studienfach [fach 2] Studienfach [fach3] Fannilienstand [familie Gefallen am Studium [ GröSenldassen [grö8( φ Wie gefüJlt das Studili. Wie gefallt das Studium? φ Gewichtsklasse [gevvicWI
Aibhängige Variable: φ Gewicht in kg [gewicht] -Block 1 von 1 ZuriirA
¿urücksetten
Weiter
Abbrechen
Unabhängige ÏBri«ble(n): φ KörpergröBe in cm [grdSe]
HHfe
и Methode:
jEinschluB
3
Au3tí8hK«nable:
Шащтд. I
Ш Fallbeschiiflungen: ш WÍS»
i
Sielistiken..
ßiagramme... I
Sßeichern... I
Qptionen..,
Abbildung 10.3: Dialogfeld zur Prozedur Lineare Regression Die Methode Einschluß bedeutet, daß alle (hier nur eine) unabhängigen Variablen in das Modell aufgenommen werden. Es besteht auch die Möglichkeit, über eine schrittweise Regression {Schrittweise) die Variablen nacheinander in das Modell aufzunehmen, um die Auswirkung auf das Modell zu übeφrüfen. Die Auswahl der aufzunehmenden unabhängigen Variablen kaim auch dem Programm überlassen werden (Rückwärts, Vorwärts). SPSS wird dann entsprechend der Erfüllung statistischer Gütekriterien über die Aufiiahme der Variablen in das Regressionsmodell entscheiden. Im vorliegenden Beispiel hat SPSS nur die Variable К0фегgröße als unabhängige Variable verwendet, was auch im Output angezeigt wird. Aufgenommene/Entfernte Variablen ** Modell 1
Aufgenomme ne Variablen Körp^größe in cm
Entfernte Variablen
Methode Eingeben
a. Alle gewünschten Variablen wurden aufgenonamen. b. Abhängige Variable: Gewicht in kg
Abbildung 10.4: Information zur Regressionsanalyse
10. Regressionsanalyse
197
Im Feld Fallbeschriftung könnte eine Variable eingetragen werden, die beispielsweise die Namen oder andere Informationen enthält, die später in dem Output bestimmte Fälle erläutert. Dies ist für die Interpretation sehr hilfreich. Das nächste Dialogfeld Statistiken erlaubt neben der Darstellung der Regressionskoeffizienten auch Gütekriterien zur Beurteilung des Regressionsmodells. Einige dieser Gütekriterien werden nur bei einer linearen Mehrfachregression (Teil- und partielle Korrelation und Kollinearitätsdiagnose) und für fortlaufende Hinzunahme von Variablen im Rahmen einer schrittweisen Regression (Änderung in R-Quadrai) benötigt. Die Analyse der Residuen stellt auch den Test nach Durbin-Watson zur Verfügung, der auf Autokorrelation der Residuen testet. Eine fallweise Diagnose bedeutet eine detaillierte Anzeige der Residuen.
fete
Lineure Hegiessiuri: Statistiken - Regfession«koe((i?ienten —; AapastufigsgUte des Modells Γ Ändenmg in F^luadral Ρ gSTite'eì F Qetkiiplive Sislistik R Korrfidentinter^e Γ Teil· und ßBitielleKortetelienen Γ KowoñenimeWx r Ksilincaritâtsdiagnose -Residuen —
Weiter Abbrechen НШе
——-
Г Dutbin-^atson Г Eallvreise Diagnose AusreiSsraijflBiüelb
Síendardsbií/eidiungpn
Г Äle Feile
Abbildung 10.5: Dialogfeld Statistiken zur Prozedur Lineare Regression
10.2 Schätzung der Koeffizienten Im folgenden werden nur kurz die zur Schätzung verwendeten Größen gezeigt und auf das Datenbeispiel übertragen. Einige dieser Größen werden auch im Output angezeigt, da im Dialogfeld zu den Statistiken Deskriptive Statistik angeklickt wurde. Mittelwert der Variablen Ζ bzw. У:
^ =
und у = - ¿ χ .
Standardabweichung der Variablen Χ bzw. У:
η -1 Beide Größen sind in der folgenden Tabelle Deskriptive Statistiken aufgeführt. Die Anzahl von N = 9 B ergibt sich aus der Tatsache, daß zwei Wertepaare aufgrund fehlender Gewichtsangaben nicht enthalten sind.
198
10. Regressionsanalyse Deskriptive Statistiicen
Gewicht in kg Körpergröße in cm
Mittelwert 67,56 174,58
Standards bweichuna 12,535 8,456
N 98 98
Abbildung 10.6: Deskriptive Statistiken zur Regressionsanalyse Die Kovarianz zwischen den beiden Variablen X und Ύ lautet dazu allgemein 1
η - 1 ,=i Hinweis: Durch die Kürzungen im Nenner können für die Berechnung der Steigung folgende Vereinfachungen erreicht werden, wobei auch die Ergebnisse für das Zahlenbeispiel angegeben werden:
=
-у) '
s] =
-лУ
8.479,01 und
mit 6.935,93 .
V ί=ι Daraus kann b errechnet werden: ¿ _ iüL = 8.479,01 = 1,22. s; 6.935,93 Der Sockelbetrag ä ergibt sich aus der Steigung und den beiden Mittelwerten: ä = y-b
x = 174,58-1,22-67,56 = -145,86 .
Mit Hilfe der beiden Regressionskoeffizienten können kann die Regressionsgleichung y = a + b x
bestimmt werden. Im vorliegenden Zahlenbeispiel lautet diese dann =-145,86 +1,22-x. Der Output zur Regressionsanalyse zeigt weiters die Korrelationsmatrix, die hier nur durch einen Korrelationskoeffizienten gebildet wird.
10. Regressionsanalyse
199
Korrelationen
Korrelation nach Pearson Signifikanz (einseitig) N
Gewicht in kg К0фегдг0Ве in cm Gewicht in kg КОфегдгйВе in cm Gewicht in kg
Gewicht in kq 1,000 ,825
Кйфегдгбйе in cm
К0фегдг0йе in cm ,825 1,000 ,000
,000 98 98
98 98
Abbildung 10.7: Korrelationsmatrix Die Hauptdiagonale zeigt die Eins (Selbstkorrelation) und die Nebendiagonale den Korrelationskoeffizienten. Der Korrelationskoeffizient als Maß für den linearen Zusammenhang wird mit Hilfe der Standardabweichungen und der Kovarianz gebildet:
, mit - 1
, X, ¿>2
Diskriminanzvariable Konstantes Glied Diskriminanzkoeffizient für Variable 1 Variable 1 Diskriminanzkoeffizient flir Variable 2 ....Variable 2.
Zusätzlich zu der Treimgeraden und der Diskriminanzachse wird in der obigen Abbildung auch eine Grundannahme der Diskriminanzanalyse gezeigt: MögUchst homogene Varianzen der beiden metrischen Variablen bzw. Gleichheit der Varianz-Kovarianz-Matrix in der Grundgesamtheit.
14.1 Berechnung der Diskriminanzfunktion Betrachtet werden im folgenden Beispiel die zwei Gruppen A und В der beiden Variablen 1 (Jahresbruttoeinkommen) und 2 (Kreditbetrag). Ein Kreditsachbearbeiter hat aus seinen Daten eine Stichprobe von л = 20 Kreditnehmern in die beiden Gruppen А („guter Kreditnehmer", Kreditbetrag wurde zurückgezahlt) und В („schlechter Kreditnehmer", Kreditbetrag konnte nicht ziulickbezahlt werden) eingeteilt. Er möchte für die nächsten Kreditanträge eine Entscheidungshilfe in Form einer Wahrscheinlichkeit für die Rückzahlung des Kredites erhalten, um eine objektive Kreditwürdigkeitsprüfimg vornehmen zu können. Aus Gründen der Nachvollziehbarkeit der Berechnungen beschränken sich die folgenden Ausführungen nur auf zwei Variablen. Dieser einfache Fall läßt sich auch durch weitere Variablen, wie z. B. Laufzeit des Kredites, Lebensaher, Dienstalter u. a. siimvoll erweitem. Die Tabelle 14.1 zeigt die Kreditnehmer in den beiden Gruppen А und В mit den Beträgen für das Jahresbruttoeinkommen in 1.000 € und den Kreditbetrag in 1.000 €.
14. Diskriminanzanalyse
269
Gruppe Guter Kreditnehmer (A) Schlechter Kreditnehmer (B) Einkommen Kreditbetrag in Einkommen Kreditbetrag in in 1.000 € 1.000 € in 1.000 € 1.000 € 14 110 70 340 220 36 14 250 180 42 26 420 140 62 70 530 480 32 80 570 340 37 25 630 320 52 22 240 14 90 15 210 250 48 19 230 200 10 120 52 Tabelle 14.1: Einkommen und Kreditbeträge von 20 Personen Betrachtet man das AT-Streudiagramm (Prozedur Graphiken Streudiagramm) mit den beiden metrischen Merkmalen Einkommen und Kreditbetrag, so stellt man fest, daß sich diese Gruppen tatsächlich sehr deutlich voneinander unterscheiden. Da es jedoch einige kritische Fälle gibt, kann ohne exakte Berechnung keine lineare Trermung festgelegt werden. Sinnvoll wäre, eine mathematische Trennfunktion zu berechnen, die einerseits fur die Mehrzahl der Fälle eine Gmppenzurodnung ermöglicht mit deren Hilfe sich auch neu hinzugefügte Fälle in eine der beiden Gruppen zuordnen lassen köimen.
700
•
schlechter Kreditnehmer
О guter Kreditnehmer
0
20
40
60
80
100
Bruttoeinkommen 1.000 €
Tabelle 14.2: Streudiagramm zur Diskriminanzanalyse in SPSS
270
14. Diskriminanzanalyse
Die Prozedur Diskriminanzanalyse ist in SPSS über die Menüs Analysieren Klassifizieren Diskriminanzanalyse aufzurufen. - Diskrimmanzanalyse m·:
üH J
¿urucKsetzen
ш
ülitdbMkiggeVaniito«!^: φ Brutloeinkommen 1 ООО e [einkom] φ Kreditbelrag 1 ООО € [Kredit]
Abbrachen HiKe
/ = 0,3147*, -0,0454д:2. Mit Hilfe eines sogenannten Normierungsfaktors wird die normierte Diskriminanzfunktion ermittelt. Der Normienmgsfaktor berechnet sich als
1 · Π -vWv, - , mit j = , — g s \nwobei W die bereits verwendete Innengruppenstreuungsmatrix ist, und ν der erste der beiden Lösungsvektoren. Als Normienmgsfaktor ergibt sich hier: - = 0,1533 . s Multipliziert man den Vektor v, mit dem Normierungsfaktor, erhält man den Koeffizientenvektor b : - 0,0482 b =
0,0070
flir die beiden Diskriminanzkoeffizienten 6, und ¿»j. Das für das Absolutglied
berechnet sich unter Verwendung der Mittelwerte für die beiden
Variablen j dann als ¿ „ = - ( г > „ г , - 0 , л ) =-0,256, wobei die Werte für b¡j aus dem oberen Vektor b entnommen werden. Daraus ergibt sich die bereits gezeigte Diskriminanzfimktion у = -0,256 - 0,048л:, + 0,001 χ, . Mit Hilfe dieser berechneten Diskriminanzfunktion läßt sich sehr einfach die Trenngerade bestimmen, die orthogonal auf der Diskriminanzachse liegt. Der Schnittpunkt mit der YAchse ( Xj = 0 ) ist hier
278
14. Diskriminanzanalyse
b-,
36,80
und die Steigung
-^=6,94.
Mit diesen beiden Parametern wird die Lage der Trenngeraden für das eingangs gezeigte Streudiagramm bestimmt. In diesem Streudiagramm ist die ursprüngliche Gruppeneinteilung als Markierungsvariable im Diagramm integriert worden.
700
•
schlechter Kred »nehmer
О guter Kreditnehmer 20
40
60
80
100
Bruttoeinkomtnen 1.000 € Abbildung 14.11: Streudiagramm zur Diskriminanzanalyse Man erkeimt in dieser Abbildung sehr deutlich die beiden falsch klassifizierten Fälle sowie die nachträglich mit Hilfe der berechneten Geradengleichung imd einem Graphikprogramm eingezeichnete Trenngerade.
14.2 Berechnung der Diskriminanzwerte Mit Hilfe der Diskriminanzfiinktion у = -0,256 - 0,048x, + 0,007;c2 ergibt sich für den ersten Kunden bei einem Einkommen von 14.000 € und einem Kreditbetrag in Höhe von 110.000 € ein Diskriminanzwert y^ von -0,1664:
14. Diskriminanzanalyse
279
y, = -0,256 - 0,048 · 14 + 0,007 110 = -0,1664 . Mit Hilfe dieser Diskriminanzfimktion können für jeden Fall die Diskriminanzwerte ermittelt werden, zu denen in der unteren Tabelle auch die ursprüngliche Gruppe {vorher) und die durch die Diskriminanzfunktion ermittelte Gruppe (nachher) aufgeführt ist. Kreditnehmer Gru ppe vorher nachher
Gru ppe vorher nachher У; -0,1664 -1,2689 2 1 0,8072 -0,4629 2 2 1,4105 -1,0306 2 2 0,4385 -2,6598 2 2 2,1642 -0,7777 2 2 0,3234 2,9193 2 2 0,3517 -0,5395 2 2 0,4808 -0,3055 2 2 0,4269 2 2 -0,8333 -1,3740 0,0961 2 2 Tabelle 14.4: Diskriminanzwerte und Gruppenzugehörigkeit In der Tabelle ist aufgrund der Gruppenzuordnung auch zu erkennen, daß durch die Diskriminanzfunktion zwei Kreditnehmer in die jeweils andere Gruppe zugewiesen werden. Eine Gruppenzuordnung erfolgt nun auf die Weise, daß fur jeden einzebien Fall der Diskriminanzwert berechnet wird, und dieser йЬефгйп wird, ob er größer oder kleiner als Null ist. Null entspricht hier dem kritischen Diskriminanzwert d^, der sich als Mittelwert errechnet:
Die Diskriminanzfunktion bei den Gruppencentroiden d¡ und rf^ ergibt sich, in dem die jeweiligen Gruppenmittelwerte Xj^ in die Diskriminanzfunktion eingesetzt werden. Funktionen bei den Gruppen-Zentroiden Funktion Gruppe guter Kreditnehmer schlechter Kreditnehmer
1 -,783 ,783
Nicht-standardisierte kanonische Dlskriminanzfunktionen, die bezüglich des Gruppen-Mittelwertes bewertet werden
Abbildung 14.12: Diskriminanzfunktion bei den Gruppencentroiden
280
14. Diskriminanzanalyse
Die folgende Abbildung zeigt schemätisch die beiden Gruppencentroide der durch die Diskriminanzwerte gebildeten Gruppen. Auch hier ist die Annahme, daß sich die Streuung nicht voneinander unterscheidet.
> d -0,783 0 0,783 guter Kreditnehmer schlechter Kreditnehmer Abbildung 14.13: Diskriminanzfunktion und Gruppencentroide In dieser Abbildung wird auch deutlich, wie groß die Wahrscheinlichkeit für eine jeweils falsche Юassiflzierung ist. Vereinfacht ausgedrückt bedeutet dies, daß bei den berechneten Diskriminanzwerten {Scores) ein positiver oder negativer Wert über die Zugehörigkeit zu einer der beiden Gruppen entscheidet. Diese Gruppenzuordnung zeigt SPSS auch graphisch in Form der Gruppenspezifischen Diagramme, die im Dialogfeld Klassifizieren ausgewählt wurden. Kanonische Diskrirnnanzfunktion 1
Kanonische Diskriminanzfunktion 1
Gruppe = guter Kreditnehmer
Gruppe = schlechter Kreditneh
8И.аЬ»г. = 1,16 ММ».78 Ν = 10,00 -1,50 -1,00
-,50
.50 0,00
1,50 1,00
2,50 2,00
3,00
Abbildung 14.14: Gnippenspezifische Diagramme Die beiden Diagramme zeigen, daß in jeder der beiden Gruppen ein Fall (Balken) außerhalb der Grenze 0 liegt. Im linken Diagramm ist dies der Balken im negativen Bereich und im rechten Diagramm der Balken im positiven Bereich. Die Gruppenzuordnung aufgrund der beiden Merkmale Einkommen und Kreditbetrag erfolgt vor der Diskriminanzanalyse nicht nach einer durch den Anwender definierten Wahrscheinlichkeit, sondem wird von SPSS mit 50% angenommen. Jede größere Wahrscheinlichkeit für
14. Diskriminanzanalyse
281
eine korrekte Gruppenzuordnung aufgrund der beiden Merkmale Einkommen und Kreditbetrag wäre demnach ein Gewirm an Erkenntnis. A-prIori-WahrscheInlichkeiten der Gruppen
In der Analyse venwendete Fälle Gruppe guter Kreditnehmer
A-priori
schlechter Kreditnehmer Gesamt
Ungewichtet
Gewichtet
,500
10
10,000
,500
10
10,000
1,000
20
20,000
Abbildung 14.15: A-priori-Wahrscheinlichkeiten für die raassifizierung Die Klassifizierungsergebnisse in der folgenden Abbildung zeigen, daß jeweils ein Kreditnehmer aufgrund der Diskriminanzgleichung fälschlicherweise einer der beiden Gruppen zugeordnet wäre. Dies entspricht insgesamt einer Wahrscheinlichkeit von 10 Prozent und spricht fiir die Trennfähigkeit der Diskriminanzfiinktion. Man würde bei einer Anwendung dieses Modells mit einer Fehlklassifikation von 10 Prozent rechnen müssen. Klassiflzieningsergebnlss^ Vorhergesagte GruppenzugehOrigkeit Gruppe Original
Anzahl
guter Kreditnehmer
schlechter Kreditnehmer
Gesamt
guter Kreditnehmer
90,0
10,0
10 10 100,0
schlechter Kreditnehmer
10,0
90,0
100,0
guter Kreditnehmer schlechter Kreditnehmer
%
a. 90,0% der ursprünglich gruppierten Fälle wurden korrel^t klassifiziert.
Abbildung 14.16:
raassifizierungsmatrix
Im Zwei-Gruppen-Fall kann die Klassifikationsmatrix auch als Vier-Felder-Tafel dargestellt werden. Gruppenzugehöri gkeit vorher
A
Klassifikation
А
1 В 3 Tabelle 14.5: Allgemeines Schema für die
в 2 4 raassiflzierungsmatrix
Die beiden Felder 1 und 4 zeigen die jeweils richtig zugeordneten Fälle (guter Kreditnehmer und schlechter Kreditnehmer). Das Feld 3 zeigt diejenigen Fälle, die zwar als „gut" klassifiziert wurden, die aber zu der Gruppe der schlechten Kreditnehmer zählen. Dies entspricht dem Fehler 1. Art. Das Feld 2 zeigt den Fehler 2. Art. Dies wären dann diejenigen Kreditnehmer, die eigentlich als „schlechte Kreditnehmer" eingestuft werden müßten, denen jedoch positive Kreditwürdigkeit unterstellt wird.
282
14. Diskriminanzanalyse
Die nächste Ausgabe zeigt die Klassifizierungsfiinktionskoeffizienten, mit denen die beiden linearen Diskriminanzfiinktionen nach FISHER berechnet werden. Diese sind keinesfalls mit der kanonischen Diskriminanzfimktion zu verwechsehi. Klassiflzieningsfunktionskoefnzlenten Grupoe
Bruttoeinkommen 1.000 €
guter Kreditnehmer ,088
Kreditbetrag 1.000 € (Konstant)
schlechter Kreditnehmer ,012
,004
,015
-3,125
-3,525
Lineare Diskriminanzfunktionen nach Fisher
Abbildung 14.17: Lineare Klassiflzierungsfunktionskoeffizienten Diese Koeffizienten der Diskriminanzfimktion führen zu den gleichen Ergebnissen wie die Diskriminanzfunktion. Die Klassifizierungsfimktionskoeffzienten Ьц^ der einzelnen Variablen j werden berechnet als:
somit also durch die Multiplikation der Innengruppenstreuungsmatrix W" und mit der Matrix der Gruppeimiittelwerte. Das Absolutglied ergibt sich als
wobei P{G) die a-priori-Wahrscheinlichkeit für die Gruppenzuordnung ist, die von SPSS mit 0,5 angenommen wurde. Eine Klassifizierung zu der entsprechenden Gruppe erfolgt hier jedoch nicht mit Hilfe von kritischen Diskriminanzwerten, sondern aufgrund der jeweils maximalen Merkmalsausprägung der mit der Klassifizierungsfimktionskoeffizienten berechneten Werte. Im ersten Fall (Einkommen 14.000, Kreditbetrag 110.000) erhalten wir als lineare Diskriminanzwerte für die beiden Gruppen А und B: D,^ = -3,125 + 0,088 · 14 + 0,004 110 = -1,45 Z),j =-3,525 + 0,012·14 + 0,015·110 = -1,71 . Da das Maximum aus den beiden Werten -1,45 ist, folgt daraus, daß der Fall 1 der ersten Gruppe (Gruppe A) zuzuordnen ist. D,,^ = -3,125 + 0,088 · 14 + 0,004 · 250 = -0,893 D,2B =-3,525+ 0,012 14+ 0,015-250 = 0,393 .
14. Diskriminanzanalyse
283
Da das Maximum aus den beiden Werten 0,393 ist, folgt daraus, daß der Fall 12 der Gruppe В zuzuordnen ist. Die beiden Koeffizienten 6, und b^ der kanonischen Diskriminanzfiinktion werden in der folgenden Abbildung zusätzlich als standardisierte kanonische Diskriminanzfunktionskoeffizienten ausgegeben. Die Standardisierung dient der Bereinigimg der verschiedenen Dimensionen, die den einzelnen Variablen zugrunde liegen. Standardisierte kanonische Diskrlnilnanzfunl(tlonskoefnzienten Funktion 1 -1,002
Bruttoeinkommen 1.000 € Kreditbetrag 1.000 €
1,039
Abbildung 14.18: Standardisierte kanonische Diskriminanzfunktionskoefüzienten Die standardisierten Diskriminanzfiinktionskoeffizienten è j ergeben sich durch Multiplikation der Koeffizienten è, und b^ mit der jeweiligen Wurzel aus der Mittleren Quadratsumme j, die in der Tabelle zm ANOVA angegeben ist. b' = è , . Í, = -0,048 · V431,28 = -1,002 b¡
= +0,007 · V22.313,89 = 1,039 .
Die Struktur-Matrix zeigt den Zusammenhang in den beiden Gruppen zwischen den Variablen j und den standardisierten kanonischen Diskriminanzfimktionen. Struktur-Matrix Funktion 1 Kreditbetrag 1.000 € Bmttoeinkommen 1.000 €
,517 -,461
Gemeinsame Korrelationen innertialb der Gruppen zwischen Diskriminanzvariablen und standardisierten kanonischen Diskriminanzfunktlonen Variablen sind nach ihrer absoluten Korrelationsgröiie innerhalb der Funktion geordnet.
Abbildung 14.19: Struktur-Matrix Aus dieser Matrix kann abgelesen werden, daß die Variable Kreditbetrag einen größeren Einfluß auf die Diskriminanzfiinktion hat, als die Variable Einkommen. Mit anderen Worten: Die Kredithöhe hat eine größere diskriminierende Bedeutung. Diese Aussage ließ sich bereits anhand der Werte für das Wilks' Lambda ablesen. Die hier gezeigten Werte bestätigen nachträglich die Bedeutung der Variablen Kredithöhe.
284
14. Diskriminanzanalyse
14.3 Wahrscheinlichkeit für die Gruppenzugehörigkeit Im Zusammenhang mit dem Dialogfeld Speichern bestand die Möglichkeit, die individuelle Wahrscheinlichkeit der Gruppenzugehörigkeit als zusätzliche Variable berechnen zu lassen. Aus der Tabelle mit den Diskriminanzwerten lassen sich die Gruppenmittelwerte bestimmen:
"g
i-l
Man erhält für y, = -0,783 und für y^ = 0,783. Diese Werte sind auch als Gruppencentroide über die Diskriminanzfimktion berechnet worden. Mit Hilfe dieser Werte lassen sich nun individuelle Wahrscheinlichkeiten für die Gruppenzugehörigkeit jedes einzelnen Falles berechnen. Zunächst wird die Distanz zwischen dem individuellen Diskriminanzwert und dem Gruppencentroid der Diskriminanzfimktion für jede Gruppe berechnet:
Im ersten Fall (Einkommen 14.000, Kreditbetrag 110.000, Diskriminanzwert -0,1664) ergeben sich für die Distanzen bei den Gruppencentroiden: df^ = 0,3797 für die Gruppe А und = 0,9007 für die Gruppe В . Mit Hilfe einer Transformationsbeziehung lassen sich die bedingten Wahrscheinlichkeiten auch als transformierte Distanzen bestimmen: /(j',/g) = e x p ( - < / 2 ) . Als transformierte Distanzen erhäh man für unsere Werte /(y, / A) = 0,8271 und f(y,/ A) = 0,6374. Nach dem Bayes-Theorem, wonach sich die einzelne Wahrscheinlichkeit durch den Quotient aus dem günstigen Fall durch die Anzahl aller gleichmöglichen Fälle ergibt, lassen sich die Wahrscheinlichkeiten für jeden Fall bestimmen. P{g ! У,)=
fiy о
! S)
, mit g = 2 Gnippen.
Z f i y ^ ' g )
г-1
Als Wahrscheinlichkeit für die Klassifizierung ergeben sich nun:
14. Diskriminanzanalyse
P{Aly,)
=
285
0,8271 = 0,5643 und 0,8271 + 0,6374 0,674 = 0,4352. 0,8271 + 0,6374
/»(fi/>-,) =
Der erste Fall fállt somit mit einer höheren Wahrscheinlichkeit in die erste Gruppe (Gruppe A). Die Aufstellung aller Wahrscheinlichkeiten zeigt die folgende Tabelle.
Gruppe 1 P M / y , ) P(B/y,)
Gruppe 2 P(A/y,) P{B/y,)
0,5648 0,4352 0,8793 0,1207 0,3264 0,2204 0,6736 0,7796 0,8339 0,1662 0,0991 0,9010 0,9847 0,0153 0,3348 0,6652 0,2284 0,7716 0,0327 0,9673 0,3761 0,6239 0,0103 0,9897 0,6994 0,3006 0,3658 0,6342 0,3827 0,6173 0,3203 0,6797 0,7866 0,2134 0,3389 0,6611 0,8957 0,1043 0,4625 0,5375 Tabelle 14.6: Wahrscheinlichkeiten für die Gruppenzugehörigkeit
14.4 Überprüfung der Gruppentrennung Die folgenden Ausgaben beziehen sich auf die Übeiprüfimg der Güte der durch die Diskriminanzanalyse gewoimenen Klassifizierung. Der Eigenwert bezieht sich nicht auf die einzelnen diskriminierenden Variablen, sondern auf die gemeinsame Diskriminanzfimktion. Dieser Wert kann erst nach erfolgter Gruppentrennung bestimmt werden, da er mit Hilfe der einzelnen Diskriminanzwerte berechnet wird. Eigenwerte Funktion 1
Eigenwert ,681»
% der Varianz 100,0
Kumulierte % 100,0
Kanonische Korrelation ,636
a. Die ersten 1 kanonischen DIskriminanzfunktionen werden in dieser Analyse verwendet.
Abbildung 14.20: Eigenwert, Prozentanteil und kanonische Korrelation Zu diesem Zweck wird mit Hilfe der als neue Variable disl l abgespeicherten Diskriminanzwerte und den beiden Gruppen abermals eine Varianzanalyse über die Menüs Analysieren Mittelwerte vergleichen
286
14. Diskriminanzanalyse Einfaktorielle
ANOVA...
ausgeführt: ONEWAY ANOVA
Zwischen den Gmppen
Quadrats umme 12,250
1
Mittel der Quadrate 12,250 1,000
df
Innerhalb der Gruppen
18,000
18
Gesamt
30,250
19
F 12,250
Signifikanz ,003
Abbildung 14.21: Einfaktorielle Varianzanalyse der Diskriminanzwerte Aus der Abbildung mit dem Eigenwert können für die entsprechenden Größen für die Quadratsummen übernommen werden: SSQ 12,25 Eigenwertr= — = — =
0,681.
Dieser Eigenwert karm durch den Quotient der erklärten Streuung an der nichterklärten Streuung ausgedrückt werden. erklärte Streuung Y = nichterklärte Streuung
Streuung zwischen den Gruppen Streuung in den Gruppen
Je höher der Eigenwert bei Eins liegt, desto größer ist somit der Anteil der erklärten Streuung. Als Nachteil dieses Wertes muß jedoch angemerkt werden, daß dieser auch größer als Eins sein kaim, und darm Aussagen über den Erklärungsanteil nicht mehr leicht zu treffen sind. Der Kanonische Korrelationskoeffizient net:
Cr =
Cr =
1+γ
Cr wird ebenfalls mit Hilfe des Eigenwertes berech-
mit 0 < Cr < 1 .
0,681 = 0,636 1 + 0,681
Der kanonische KorrelationskoefFizient liegt zwischen Null und Eins und ist ein Maß für die Stärke des Zusammenhanges zwischen der Diskriminanzfiinktion und der Gruppierangsvariablen. Je näher er bei Eins liegt, desto stärker ist der Zusammenhang. Ein Test auf Trennfähigkeit der Diskriminanzfunktion {Wilks' Lambda) zeigt die folgende Abbildung.
14. Diskriminanzanalyse
287
Wllks' Lambda Wilks-La Test der Funktion(en) 1
mbda ,595
Chi-Quadrat 8,825
df
Signifikanz 2
,012
Abbildung 14.22: Teststatistik zu Wilks' Lambda Die Prüfgröße Wilks' Lambda ist hier näherungsweise Chi-Quadrat verteilt. Diese wird berechnet über die Streuimgsanteile oder über den Eigenwert. ^ _ S^
_ nicht erklärte Streuung _ 18,00 _ ^ ^^^
SSG
gesamte Streuung
30,25
bzw. über den Eigenwert:
λ =
1 1+λ
1
= 0,595 1 + 0,681
Der Wert für Wilks ' Lambda liegt zwischen Null und Eins. Je näher dieser Wert bei Null liegt, desto größer ist die Unterschiedlichkeit der Gruppen. (1)
Hypothesen (zweiseitig)
Я,,: Я, :
Die Gruppen sind gleich. Die Gruppen sind nicht gleich.
(2)
Bestimmung der Prttfgröße
г\ =
In λ , mit
η = Anzahl der Fälle j =Anzahl der Variablen g = Anzahl der Gruppen . 2 + 2^ 2 0 - 1 - -
(3)
2 V
ln0,595 = 8,825.
Kritischer Bereich aus der Tabelle der Chi-Quadrat-Verteilung
Kritischer Bereich К = [ (4)
Entscheidung
Я„ ablehnen, falls χ ΐ e К .
,«>> .
288
14. Diskriminanzanalyse
Bei 2 Freiheitsgraden (dj) ist der Wert bei α = 5% signifikant von Null verschieden. Dies bedeutet, daß die Diskriminanzfunktion signifikant ist. Ein weiteres im Rahmen der Diskriminanzanalyse implementiertes Testverfahren ist der BoxM-Test. Dieses Verfahren testet eine Grundvoraussetzung für die sinnvolle Anwendung der Diskriminanzanalyse: Die Gleichheit der Varianz-Kovarianz-Matizen in der Grundgesamtheit.^^ Textergebnisse Box-M F
2,312 Näherungswert
,678
df1
3
df2
58320,000
Signifikanz
,565
Testet die Null-Hypothese der Kovarianz-Matrlzen gleicher Grundgesamtheit.
Abbildung 14.23: Ergebnis des Box-M-Test Im vorliegenden Beispiel deutet die Signifikanz von 0,566 auf keine signifikanten Unterschiede in den Varianz-Kovarianz-Matrizen der Grundgesamtheit hin. Dies bedeutet im Umkehrschluß, daß diese als gleich anzusehen sind. Insofern wird die Zulässigkeit der Anwendung der Diskriminanzanalyse auf das Datenbeispiel ex post bestätigt.
Die in der Tabelle gezeigte Tabellenüberschrift „Textergebnis" ist ein Druckfehler in SPSS. Es müßte „Testergebnis" heißen.
15 Multìdìmensionale Skalierung Die Multidimensionale Skalierang, kurz MDS genannt, ist die Bezeichnung fur eine ganze Gruppe von Verfahren, mit denen versucht wird, Präferenzen und Einstellungen von Individuen bestimmten Objekten gegenüber auf wenige Dimensionen zu reduzieren und räumlich abzubilden. Im Zusammenhang mit der MDS wird auch von Dekompositionsmodellen gesprochen, deren Grundlage die Zerlegbarkeit von Ähnlichkeitsdaten darstellt. Das Ergebnis einer MDS ergibt sich aus dem mehrdimensionalen Wahmehmungsraum einer oder mehrerer befragter Personen. Die Objekte werden im Hinblick auf verschiedene Dimensionen beurteilt, wobei diese Dimensionen nicht vorgegeben werden. Die Gesamtheit der Positionen der Objekte in ihrer relativen Lage zueinander wird auch als Konfiguration bezeichnet und entspricht einer räumlichen Darstellung der einzelnen Beurteilungsobjekte. Diese Darstellimg kann auch als „mentale Landkarte" bezeichnet werden. Bei der MDS werden die beurteilten Objekte als Punkte eines metrischen Raimies in der Weise betrachtet, daß bei minimaler Dimensionalität die beobachteten Ähnlichkeiten möglichst genau durch die Punktdistanzen repräsentiert werden. Im Hinblick auf das Ziel der Reduzierung der Dimensionen besteht eine gewisse Ähnlichkeit zu dem statistischen Verfahren der Faktorenanalyse. Im Gegensatz zu der Faktorenanalyse, bei der a priori bereits eine bestimmte Vorstellung über die zu extrahierenden Faktoren besteht, werden bei der MDS erst nach der Analyse die ermittelten Dimensionen 1п1ефгеtiert. Anwendungsbeispiele für die MDS in der Praxis •
• •
Konsumentenverhalten: Durch eine MDS wird der Zusammenhang zwischen Kaufverhalten und Erfahrung mit einem bestimmten Produkt ermittelt. Manche Produkte werden eher wegen ihres Nutzens gekauft, andere aus ästhetischen Gründen. Daraus lassen sich geeignete Vermarktungsstrategien ableiten. Imagemessung: Mit einer MDS das Image einer Unternehmung im Vergleich zu ihren Mitbewerben untersucht. Psychologie: Die MDS läßt sich auch zur Bestimmung derjenigen Dimensionen einsetzen, aufgrund derer zwischen verschiedenen Politikern unterschieden wird.
Allgemeine Vorgehensweise der MDS 1) 2) 3) 4) 5) 6)
Erfassung der Ähnlichkeiten Auswahl des Distanzmaßes Festlegung der Anzahl der Dimensionen Ermittlung der Konfiguration Aggregation der Ergebnisse Analyse Ergebniskonfiguration.
Für das vorliegende Beispiel wird diese Reihenfolge jedoch im Hinblick auf die praktische Durchführung in SPSS verändert.
290
15. Multidimensionale Skalierung
15.1 Erfassung von Ähnlichkeiten Bei der Erfassung der Ähnlichkeiten ist es das Ziel, die subjektive Beurteilung eines Individuums gegenüber einem Objekt quantitativ zu erfassen. Der Einfachheit halber bietet sich dazu eine siebenpolige Ratingskala an. Auf dieser Skala werden jeweils zwei Objekte (z.B. Automobilmarken) als Paarvergleich gegenübergestellt: Die Marken „ Opel" und „Audi" sind... vollkommen vollkommen ähnlich unähnlich
1
2 3 4 5 6 7 Abbildung 15.1: Ratingskala zur Erfassung der Ähnlichkeit
Der Vorteil dieses Verfahrens liegt in der relativ einfachen Erfassung der Daten und dem relativ geringen Datenumfang, der sich dxirch den Paarvergleich ergibt. Allgemein gilt für die Anzahl der Paarvergleiche bei dem Ratingverfahren: Für n-Marken werden
^^ Paarvergleiche benötigt.
Als Resultat erhält man eine Datenmatrix, deren Elemente »mterhalb der Hauptdiagonalen die Werte der Ähnlichkeitsvergleiche zwischen zwei Paaren enthalten. Im folgenden wurde die Ähnlichkeit für die folgenden 9 verschiedenen Automobilmarken durch eine siebenpolige Ratingskala durch eine Person erfaßt.
VW Audi Mercedes BMW Peugeot Opel Jaguar Renault Porsche
δ ü g
S ao
>
1
'S
0 3 7 7
1 CO 1— >
1
о РЦ
0 7 1
0 7
0
Tabelle 15.1: Ergebnis der Befragung einer Person Die Tabelle zeigt die durch die Person erhobenen Ähnlichkeiten der einzelnen Marken zueinander, gemessen in den Werten 1 bis 7. Diese Matrix wird aus jedem Fragebogen der befragten Personen erstellt. Aufgrund dieses Ratingverfahrens mußte jede Person auf 36 Skalen einen Paarvergleich durchführen.
15. Multidimensionale Skalierung
291
Diese symmetrische Matrix, die aus der Datenerhebung mittels einer Ratingskala hervorgeht, wird in SPSS unkonditional bezeichnet.. Eine andere Methode, die durch die befragten Personen empfimdenen Ähnlichkeiten zu erfassen, ist die sogenannte Ankerpunktmethode. Bei dieser Methode wird jeweils eines der Objekte als ,Лпкег" gesetzt, und alle anderen Objekte im Verhältnis zu diesem Objekte betrachtet. Auf das vorliegende Beispiel übertragen würde dies dann bedeuten, daß alle Marken zuerst im Verhältnis zu dem Ankerpunkt VW beiuteilt werden: Ankerpunkt: VW Audi 4 4 Mercedes BMW 6 Peugeot 4 Opel 3 7 Jaguar Renault 3 7 Porsche Tabelle 15.2: Ankerpunktmethode für ein Objekt Alle weiteren Objekte (Marken) werden mit Rangnoten beurteilt, wobei jede Rangzahl nur einmal vorkommen darf, um die Ähnlichkeit zu der gesetzten Marke richtig auszudrücken. Diese Vorgangsweise wird für jede weitere Marke wiederholt. Man erhält eine asymmetrische Matrix über alle Objekte, da bei dieser Methode für die Ähnlichkeiten ein Umkehrschluß nicht unbedingt gegeben sein muß.
1
> VW Audi Mercedes BMW Peugeot Opel Jaguar Renault Porsche
0 4 4 6 4 3 7 3 7
1
< 5 0 3 2 4 5 5 5 5
Í s 6 2 0 3 6 7 3 7 3
1 и 7 2 1 0 6 5 2 7 3
Î3 3я 3 s Iо s ΙΟ ей (li 8ы>
СО >
Он
2 5 4 5 0 3 7 1 7
2 5 5 6 3 0 3 7 7
7 6 3 3 7 7
0 7 1
2 4 4 7 1 2 7
7 3 5 2 7 7 2
0 6 7 0
Tabelle 15.3: Matrix mit Ahnlichkeitsdaten nach der Ankerpunktmethode Der Nachteil der Ankerpunktmethode liegt darin, daß für η Marken insgesamt n(n - 1)Paarvergleiche anzustellen sind. Bei dem vorliegenden Beispiel wären dies 72 Paarvergleiche. Die asymmetrische Matrix der Ähnlichkeiten, die aus der Ankerpunktmethode hervorgeht, wird auch als konditional bezeichnet. Das bedeutet, daß bei dieser Matrix im Zuge der Berechnungen jede Zeile separat zu betrachten ist. Dies ist SPSS vorher mitzuteilen, da SPSS üblicherweise von einer symmetrischen Matrix {unkonditional) ausgeht.
292
15. Multidimensionale Skalierung
15.2 Aggregation der Daten Die bisher gezeigten Erhebungsmethoden haben sich auf die Analyse imd Dekomposition der Wahrnehmung jeweils einer einzelnen befragten Person beschränkt. Üblicherweise wird man jedoch mehrere Personen befragen, um ein repräsentatives Ergebnis zu erhalten. Die folgende Abbildung zeigt einen Ausschnitt einer SPSS-Datei mit Ähnlichkeitsmatrizen von 13 Personen. person 1
pk«
1
IjVW
1 I j
Ί "Ti 3 "Ii M
1
'bmw
11
4
•1 ,1 Öf
„
3:
""'0 I
1 ipeugeot
4
6
6
0
1 Opel f Jaguar
3
7:
5
3
0
7
3,
2
7
31
1 Renauft
3
7;
7!
1
71
7
oí
1 Porsche
7
3!
3
7
7
1
71
2 VW
!
0
2 ^jdi
1
6
2ÌMercedes
7
2ÌBMW
7
ñ'eugeot
-Ц iiJaguar T I
! rsnault j'pofsche'
« • . f i V « 0 •4
Il Audi tecedes"
VW
2 Reneu«
¡
"" 5 '2 7 5
'2 P o r ë c h ·
7
3
0
5 1 Ί з!
7
t •ι
•!
0
1
0' r
η 4
"
Γ г I
0 7i
4'
6
6|
6
0 7 "
7
71
" f·
7
2
3
5.
5
7; i
ί
0ι 6
0 7
Ö
7
4
7
t
ô Γ "
Abbildung 1S.2: Ähnlichkeitsmatrizen über mehrere Personen Aufgrund der im Rahmen der MDS durchgeführten aufwendigen Rechenoperationen wird deutlich, daß bei mehreren Personen sehr schnell die Problematik zahlreicher gleicher Urteile auftreten und der Algorithmus aufgrund der Datenmenge zu keinem befriedigenden Ergebnis gelangt. Aus diesem Grunde bietet es sich an, zur Reduktion der Komplexität die erhobenen Wahrnehmungsurteile bereits nach der Erfassung der Ähnlichkeiten zu aggregieren, d. h. vorab zu verdichten. Die durch SPSS analysierte Datenmatrix besteht aus den Mittelwerten aller erhobenen Ähnlichkeiten. Diese Vorgangsweise ist jedoch statistisch eher ungenau, da die erfaßten Ähnlichkeiten ordinal skaliertes Merkmalsniveau aufweisen. Der Median würde wiederum mit hoher Wahrscheinlichkeit keinen eindeutigen Wert ergeben. Durch die Aggregation der Daten geht zwar ein Teil der Einzelinformation verloren, man erhält am Ende aber eine einzelne Matrix mit den mittleren Ähnlichkeitsdaten über alle befragten Personen. Diese einzelne Matrix läßt sich aber sehr rasch und effektiv verarbeiten. Die Aggregation der Ergebnisse kann in SPSS über das Menü Daten Aggregieren... durchgeführt werden. Es kann dadurch erreicht werden, daß die bestehende Datei, die aus zahlreichen Ähnlichkeitsmatrizen besteht, am Ende durch eine neue Arbeitsdatei, die nur aus
15. Multidimensionale Skalierung
293
einer einzelnen Ähnlichkeitsmatrix besteht, ersetzt wird. Die neue Arbeitsdatei enthält dann die mittleren Beurteilungen, ausgedrückt durch das arithmetische Mittel. Jlf В№ек-уш1аЫв(п): »pkw
^person .^audi φ mercedes фЬпм фреидесЛ -'^ορβΙ φ jaguar фгепаиП ^porsche
OK Eif^iyen
ш
ш
yonabten jaggregigren. VW 1 • MEAN^Λ¥) audn-MEAN(audi) mercedJ - MEAN(mercedes) bmwj - MEAN(brtiw) peugeoj • MEAN(peugeoO opelj - MEAN(opel)
г Aíiieiil der Falle in der Bteak-Gruppe speichern: Г HeueOatendeleienleein Qf^y g fiâbëksdtfei eia«tt»i^
ìunicksattOT I Abbrechen ι Hill· d
^BRÈAÎi' " " . ' l
' '
Abbildung 15.3: Dialogfeld zur Prozedur Daten aggregieren Es verbleibt eine einzelne Dateranatrix mit den Mittelwerten als Repräsentant der Beurteilungen jedes Pkw aller 13 Personen. Diese Mittelwerte können auch als ,J)istanz" zwischen den Fahrzeugen interpretiert werden. Weiters wird im vorliegenden Beispiel die Arbeitsdatei mit den Ähnlichkeitsmatrizen durch die aggregierte Matrix ersetzt. Das Ergebiüs ist eine reduzierte Matrix mit den Mittelwerten in den Zellen unterhalb der Hauptdiagonalen. SPSS wird für die MDS die Matrix in dieser Form verarbeiten.
Abbildung 15.4: Aggregierte Ähnlichkeitsmatrix Es zeigt sich, daß Peugeot (dargesteUt durch die verdichtete Variable Peugeo l) sehr nahe an Renault (dargestellt durch den Variablermamen Renaul l) liegt.
294
15. Multidimensionale Skalierung
15.3 Definition des Modells Die Multidimensionale Skalierung ist in SPSS unter dem Menüpunkt Skalieren zu finden: Analysieren Skalieren Multidimensionale
Skalierung...
Zunächst werden aus den Variablen die Zielvariablen ausgewählt. Dies sind im vorliegenden Beispiel die Pkw. Die hier nicht einbezogene Variable pkw ist lediglich eine Textvariable, die nur die Namen der einzelnen Fahrzeuge enthält. • Multidimensionale Skalierung Φ pkw
13
JÚ yoriobton •vw^л·J] ^AudiloudiJ] φ Mercedes EmercedJ ] — 4BMW[btnwJ] • Peugeot(peugeo_1] , AOoelfsml 11 ΖΔ
OK Einfügen
Zurücksetzen Abbrechen Hilfe
ndividueile Metlnzen Шг; Distanzen
ГС
——
Daten sind Distanzen
Form..,
Quadratisch und symmetrisch Г Distanzen aus Daten erzeugen
Modell..^
.Maß,,.
Ûptionen...
Abbildung 15.5: Dialogfeld zur Prozedur Multidimensionale Skalierung Da es auch möglich ist, anstelle der hier verwendeten Matrix der Beurteilungen auch eine Distanzmatrix aus den Daten zu erzeugen, ist hier der Menüpunkt Distanzen aus Daten erzeugen angegeben. Das dann zur Verfugung stehende Distanzmaß ist unter der hier nur als Hologramm dargestellten Schahfläche Maß auszuwählen. Bei der Verwendung der Ankerpunktmethode wäre die Schaltfläche Form anzuklicken, um für diese Art der Datenmatrix Quadratisch und asymmetrisch auszuwählen. Muilidimensionale S k a l i e r u n g :
Form der
fffouadrafei^und Г Quadratisch und asymmetrisch Г Bechteckig •MiietSZiáerr,- . I
Datei»
Jijl
Weiter
Hille
Abbildung 15.6: Dialogfeld zur Defìnition der Distanzen Im vorliegenden Fall des Ratingverfahrens kann diese Einstellung aber auf Quadratisch und symmetrisch belassen werden.
15. Multidimensionale Skalierung
295
JSÍ -ΜββηΚΜου ·•. с ùttìnal; Г G^ikàaf^eobpMmqm^^·' Г imeivaUskala ff S»iii8w«8tr¿ii : i
•
^KonditionaJitat (S· Maliix 'ГШг ynkondilional > CSmensitineñ Miaimuni: j?
Abbfechen Hite Masmum (2
pSkaHerungMWriW "-,-"r· С Euklidischer Abstand Г Euküjjisclwr Abstand mil indriÁduell gawic ROifTerenzan;
Abbildung 15.7: Dialogfeld Modell zur Prozedur Multidimensionale Skalierung In diesem Dialogfeld sollte das Merkmalsniveau unter dem Menüpunkt Meßniveau festgelegt werden. In aller Regel handelt es sich bei den erfaßten Daten um Distanzen mit ordinalem Merkmalsniveau. Werden die Ähnlichkeiten zwischen den Objekten als Entfernungen im metrischen Sinne interpretiert, ist der Menüpunkt Meßniveau auf Verhältnisskala zu stellen. Dies ist im vorliegenden Beispiel erfolgt, da es keine negativen Entfernungen gibt. Der Menüpunkt Konditionalität ist sehr wichtig zu beachten, weim anstelle einer symmetrischen Matrix eine asymmetrische Matrix, zum Beispiel bei der Ankeφunktmethode, im Rahmen der Analyse verwendet wird. Daim wäre dieser Punkt auf Unkonditional zu stellen. Eine ganz wesentliche Eingabe ist im Feld Dimensionen einzutragen. Dort wird die maximale Anzahl an Dimensionen vorgegeben, auf die die erhobenen Merkmale reduziert werden sollen. Im vorliegenden Beispiel wurde dieses Eingabefeld auf zwei Dimensionen belassen, da dies am einfachsten zu interpretieren ist. Das Dialogfeld Optionen öffnet ein Menü, in dem der Inhalt der Ausgabe und die Abbruchkriterien für den Algorithmus festgelegt werden köimen. Multidimensionale SkatierunQ: Optionen AnïBigenIΡ I Γ Individuelle Subjeld-Diagtamme ' Γ Qotenmatnx
Weiter Hite
î Γ 2usemmen(iss8ung von Modell und Optionen i- Kriterien S-Strest-Konvefgenz: 1.001 Minimeier S-Strees-Wert: j.0O5 30 Iterationen, majt: Disianren kleiner als: [Ö
als fehlend behandeln
Abbildung 15.8: Dialogfeld Optionen zur Prozedur Multidimensionale Skalierung
296
15. Multidimensionale Skalierung
Unter dem Punkt Anzeige stehen Diagramme zur Verfügung. Dazu zählen die durch die Analyse erzielte Konfiguration im zweidimensionalen Merkmalsraum (Gruppendiagramme) sowie Diagramme, die die Distanz und die Disparität zeigen. Der letzte Diagrammtyp kann auch flir jede einzelne befragte Person (Individuelle Subjekt-Diagramme) angefordert werden. Die Datenmatrix zeigt sämtliche Datenmatrizen aller befragten Personen vor- und nach der Transformation. Zusätzlich können noch weitere Kontrollmeldungen über den Ablauf des Algorithmus unter dem Menüpimkt Zusammenfassung von Modell und Optionen angefordert werden. Die von SPSS vorgegebenen Kriterien für die Konvergenz des Algorithmus und die Anzahl der maximal durchzuführenden Iterationen kaim ebenfalls in dieser Schaltfläche verändert werden.
15.4 Berechnung der Konfiguration Das Ergebnis der MDS wird als Konfiguration bezeichnet. Aus Gründen der Übersichtlichkeit wird für die hier gezeigte Vorgangsweise die Anzahl der Objekte auf vier beschränkt. BMW Mercedes VW Opel Opel 0 4 0 BMW 0 Mercedes 3 1 5 0 VW 2 6 Abbildung 15.9: Erfaßte Ähnlichkeit für vier Marken Die Berechnung der Konfiguration erfolgt bei der Multidimensionalen Skalierung durch einen Algorithmus. Dieser versucht, die ursprüngliche, durch die befi-agten Personen geäußerten Rangnoten so in räumliche Distanzen umzurechnen, daß die durch die befragten Personen empfundene Ähnlichkeit imter den einzelnen Marken möglichst gut abgebildet wird. Vergleichbar mit der Clusteranalyse wird eine sogenannte Startkonfiguration vorgegeben, die der Algorithmus schrittweise verbessert. i 1 2 3 4
Dimension 2 Dimension 1 Marke 2 3 Opel 7 2 BMW 5 Mercedes 1 4 7 VW Tabelle 15.4: Ausgangskonflguration
Diese vorgegeben Ausgangskonfiguration zeigt das Streudiagramm.
15. Multidimensionale Skalierung Dimension 2 ' ' t' • 8
1 • ' ' ' 1 ••1 • 1 ' • ' ' 1 ' ' • ' 1— β
7
297
BMW
-
6 ®
5
Mercedes
VW
4
-
®
3 ^Opel
2
j
1
-
0 0
. 1 • 1 1 ... 1 .... 1 4 5 6 7 8 Dimension 1 Abbildung 15.10: Ausgangskonfiguratíon 1
2
3
Für diese vier Marken werden die Euklidischen Distanzen berechnet. Für die beiden Marken Opel und BMW rf„=V(3-2)4(2-7)^=5,10. Alle weiteren Distanzen werden in gleicher Weise berechnet. Die folgende Tabelle zeigt die Distanzen zwischen den einzelnen Fahrzeugmarken. Objektpaar
Distanz
d.
5,10 (1,2) 3,61 (1.3) 4,47 (1,4) 2,24 (2,3) (2,4) 5,83 (3,4) 6,08 Tabelle 15.5: Distanzen
Rang
Ähnlichkeit
^u
Monotonie erfüllt?
4 4 ja 3 2 nein 2 3 nein 1 1 ja 6 5 nein 5 6 nein und Ahnlichkeitsrangfolgen
Zusätzlich zu den berechneten Distanzen zeigt diese Tabelle aber auch die ursprüngliche Rangfolge der vergebenen Ähnlichkeitsurteile. Daneben steht die neue Rangfolge der Ähnlichkeiten, die sich aus den berechneten räumlichen Distanzen der Objekte zueinander ergibt. Es zeigen sich hier einige Unterschiede in der Rangfolge.
298
15. Multidimensionale Skalierung Dimension 2
2
3
4 5 6 Dimension 1 Abbildung 15.11: Vergleich der Ähnlichkeiten und der Distanz Wenn die Rangfolge der Distanzen der Rangfolge der Unähnlichkeiten entspricht, entsteht durch Verbindung der Punkte ein monotoner Verlauf. In dieser Abbildung ist an der Ordinate die Ähnlichkeit, die sich durch die Rangfolge der Distanzen ergeben hat und an der Abszisse die Ähnlichkeit, die durch die ursprüngliche Beurteilung gebildet wurde, aufgetragen. Es zeigt sich durch die Winkelhalbierende, daß nur zwei Wertepaare die Bedingung der Monotonie erflillen. Dies ist in der Tabelle zusätzlich in der äußersten rechten Spalte gekennzeichnet. Da die Monotoniebedingung nicht erfüllt ist, bedeutet dies, daß die Ausgangskonfiguration noch nicht geeignet ist, die Ähnlichkeiten räumlich in gleicher Weise abzubilden, wie sie sich durch die Rangfolge ergeben würden. Es zeigt sich aus der Abbildung aber auch, daß die beiden Objektpaare (1, 2) und (2, 3) die Monotoniebedingung bereits erfüllen. Die anderen Objektpaare haben noch nicht ihren optimalen Platz eingenommen. Durch eine Verschiebung das entspricht hier einer monotonen Transformation - der Objektpaare nach rechts bzw. nach links würde man eine Verbesserung der Monotonie erreichen. Um den Unterschied zwischen der Distanz und der ursprünglichen Ähnlichkeit auszudrücken, wird die Disparität berechnet. Gilt für die Ähnlichkeit u^ > u¡j, dann muß für die Disparität gelten:
> d^j, um die Monotoniebedingung zu erfüllen.
Die Disparität errechnet sich durch die Mittelwertbildung der Distanzen der nichtmonotonen Objektpaare. Im vorliegenden Beispiel ergibt die Disparität für die beiden Objektpaare (1, 3) und (1,4)
Für die Wertepaare (2, 3) und (2,4) gih dann: