212 23 4MB
German Pages 410 Year 2014
Jost Reinecke Strukturgleichungsmodelle in den Sozialwissenschaften
Jost Reinecke
Strukturgleichungsmodelle in den Sozialwissenschaften
2., aktualisierte und erweiterte Auflage
ISBN 978-3-486-70576-8 e-ISBN (PDF) 978-3-486-85400-8 e-ISBN (EPUB) 978-3-11-039698-0 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2014 Oldenbourg Wissenschaftsverlag GmbH, München Ein Unternehmen von Walter De Gruyter GmbH, Berlin/Boston Lektorat: Annette Huppertz Herstellung: Tina Bonertz Titelbild: thinkstockphotos.de Druck und Bindung: CPI books GmbH, Leck ♾ Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com
Vorwort Die statistische Modellierung mit Strukturgleichungen hat in den letzten Jahrzehnten in unterschiedlichen Disziplinen deutlich zugenommen. Der interdisziplin¨are Diskurs u ¨ber Weiterentwicklungen und praktische Anwendungen wird nach wie vor intensiv gef¨ uhrt. Mit der ersten Auflage ist neben der Vielzahl von Lehrb¨ uchern aus dem angels¨achsischen Sprachraum 2005 erstmals ein Lehrbuch zu Strukturgleichungsmodellen f¨ ur den deutschen Sprachraum erschienen. Nach etwa zehn Jahren sind wesentliche Innovationen f¨ ur die statistische Modellbildung mit Strukturgleichungen zu verzeichnen, so daß eine Neuauflage notwendig wurde.1 Auch f¨ ur die praktische Umsetzung mit EDVProgrammen werden Ver¨ anderungen in der zweiten Auflage ber¨ ucksichtigt. Mit dem vorliegenden Werk wird neben der elementaren Einf¨ uhrung in die Modellbildung mit ¨ Strukturgleichungen zugleich eine Ubersicht u ¨ber die Vielzahl von Anwendungsm¨oglichkeiten geboten. Programmdateien, die den diskutierten Beispielen zugrundeliegen, sind ¨ f¨ ur Lehrveranstaltungen und praktische Ubungen verwendbar. Auch die selbst¨andige Durchf¨ uhrung von Modellanalysen soll hierbei gef¨ordert werden. Das Lehrbuch ist f¨ ur Veranstaltungen in den Sozialwissenschaften (Statistik und multivariate Analyseverfahren) im Master- oder Doktorandenstudium konzipiert. Obwohl in diesem Band auf statistische Grundlagen f¨ ur Strukturgleichungsmodelle eingegangen wird, m¨ ussen elementare Kenntnisse der deskriptiven Statistik und der Inferenzstatistik vorausgesetzt werden. Mitarbeiter, Studierende und Studienassistenten der Universit¨aten Bielefeld, M¨ unster, Trier und Wien haben mir wesentliche Verbesserungsvorschl¨age zu den Vorfassungen der einzelnen Kapitel gegeben. Insbesondere sind Thomas Blank, Andreas P¨oge, Rossalina Latcheva, Eva Rossbacher, Rainer Stowasser, Cornelia Weins und Jochen Wittenberg f¨ ur die erste Auflage zu erw¨ ahnen. Tatkr¨ aftige Unterst¨ utzung bei der Durchsicht einzelner Kapitel, bei der Zusammenstellung der Literatur und bei der Erstellung der Druckfassung erhielt ich damals von Andrea Hense, Judith Lehnhart und Stefan Huber. F¨ ur die zweite Auflage erhielt ich wertvolle Hinweise von Kristian Kleinke und vielen Mitgliedern der Arbeitsgruppe Strukturgleichungsmodelle“. Neue Impulse erhielt ich ” von Georg Kessler (Universit¨ at Wien), mit dem ich seit drei Jahren ein Blockseminar
1
Der Autor hat sich in Absprache mit dem Verlag dazu entschieden, die Rechtschreibung zwischen der ersten und zweiten Auflage nicht zu ¨ andern. Die Ausf¨ uhrungen in diesem Lehrbuch folgen daher den Regeln der alten Rechtschreibung.
VI
Vorwort
im Rahmen der GESIS Summer School durchf¨ uhre. Nicht zuletzt stand mir mit Jakob Guzy (Universit¨ at Bielefeld) jederzeit ein kompetenter Mitarbeiter f¨ ur die Gestaltung und den Satz der zweiten Auflage zur Verf¨ ugung. Bielefeld, im Juli 2014
Jost Reinecke
Inhaltsverzeichnis 1
Einleitung
1
2
Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
5
2.1
Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
Ausgangspunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3
Kausalit¨ at in Strukturgleichungsmodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4
Eigenschaften von Strukturgleichungsmodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5
Methodische Weiterentwicklungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3
Erhebungsdesigns, Daten und Modelle
3.1
Erhebungsdesigns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2
Daten und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4
Statistische Grundlagen fu ¨ r Strukturgleichungsmodelle
4.1
Meßniveau, Verteilung und Standardisierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 4.2.1 4.2.2
Statistische Zusammenh¨ ange zwischen Variablen. . . . . . . . . . . . . . . . . . . . . . . . . 33 Die Kovarianz und die Produkt-Moment-Korrelation . . . . . . . . . . . . . . . . . . . . 34 Die polychorische, tetrachorische und die polyserielle Korrelation . . . . . . . . 35
4.3 4.3.1 4.3.2
Die lineare Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Die bivariate Regression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Die multiple Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4
Die klassische Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5
Strukturgleichungsmodelle mit gemessenen Variablen
49
5.1 5.1.1 5.1.2 5.1.3
Rekursive Pfadmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modellspezifikation und Berechnung der Pfadkoeffizienten . . . . . . . . . . . . . . . Reproduktion der Korrelationsmatrix und Effektzerlegung . . . . . . . . . . . . . . . Die Identifikation der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50 50 55 57
21
31
VIII
Inhaltsverzeichnis
5.1.4 5.1.5 5.1.6
Sch¨atzung der Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 ¨ Aquivalente Pfadmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Modellrestriktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 5.2.1 5.2.2
Nicht-rekursive Pfadmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Standardisierung der Parameter. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.3 5.3.1 5.3.2
Der multiple Gruppenvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Der simultane Vergleich der Pfadmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Der simultane Vergleich der Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.4 5.4.1 5.4.2
Pfadmodelle im L¨ angsschnitt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Das Zwei-Variablen/Zwei-Wellen-Panelmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Die Erweiterung des 2V2W-Standarddesigns . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5
Anhang: Programmfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6
Meßmodelle
6.1
Die Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.2
Die Identifikation der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.3
Restriktionen im Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.4
Die Sch¨ atzung der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.5 6.5.1 6.5.2 6.5.3 6.5.4 6.5.5
Diskrepanzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Maximum-Likelihood(ML)-Diskrepanzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . 101 Unweighted-Least-Square(ULS)-Diskrepanzfunktionen . . . . . . . . . . . . . . . . . . . 103 Generalized-Least-Square(GLS)-Diskrepanzfunktion . . . . . . . . . . . . . . . . . . . . . 104 Weighted-Least-Square(WLS)-Diskrepanzfunktionen . . . . . . . . . . . . . . . . . . . . . 104 Empfehlungen f¨ ur die empirische Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.6 6.6.1
6.6.2.1 6.6.2.2 6.6.2.3 6.6.3
Statistiken der Modellpr¨ ufung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2 Die Modellevaluation: χ -Statistiken, Standardfehler, z-Werte und die absoluten Goodness-of-Fit Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Die χ2 -Statistiken, Standardfehler und z-Werte . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Absolute Goodness-of-Fit Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Der Modellvergleich: Der Likelihood-Ratio(LR)-Test und die komparativen Goodness-of-Fit Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Der Likelihood-Ratio(LR)-Test (χ2 -Differenzentest) . . . . . . . . . . . . . . . . . . . . . 119 Der Langrange Multiplier(LM)- und der Wald(W)-Test . . . . . . . . . . . . . . . . . . 121 Komparative Goodness-of-Fit Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Empfehlungen f¨ ur die empirische Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.7
Empirische Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
6.8
Anhang: Programmfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
6.6.1.1 6.6.1.2 6.6.2
91
Inhaltsverzeichnis
IX
7
Die konfirmatorische Faktorenanalyse
137
7.1
Die Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.2
Die Identifikation der Modellparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.3
Multiple Gruppenvergleiche von konfirmatorischen Faktorenmodellen . . . 143
7.4
Konfirmatorische Faktorenmodelle im L¨angsschnitt . . . . . . . . . . . . . . . . . . . . . . 149
7.5
Konfirmatorische Faktorenmodelle f¨ ur Multitrait-Multimethod-Daten . . . . 152
7.6
Konfirmatorische Faktorenmodelle h¨ oherer Ordnung . . . . . . . . . . . . . . . . . . . . . 156
7.7 7.7.1 7.7.2 7.7.3 7.7.4 7.7.5
Empirische Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Konfirmatorisches Faktorenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Multipler Gruppenvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Konfirmatorisches Faktorenmodell im L¨angsschnitt . . . . . . . . . . . . . . . . . . . . . . 168 Konfirmatorisches Faktorenmodell f¨ ur Multitrait-Multimethod-Daten . . . . 170 Konfirmatorisches Faktorenmodell h¨ oherer Ordnung . . . . . . . . . . . . . . . . . . . . . 173
7.8
Anhang: Programmfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
8
Das allgemeine Strukturgleichungsmodell
8.1 8.1.1 8.1.2 8.1.3 8.1.4 8.1.5 8.1.6 8.1.7
Die Verbindung von Pfad- und Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 184 Die Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 Die Sch¨ atzung und Identifikation der Modellparameter . . . . . . . . . . . . . . . . . . 187 Standardisierte und unstandardisierte Koeffizienten. . . . . . . . . . . . . . . . . . . . . . 189 Die Effektzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 Die Techniken der Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Multiple Gruppenvergleiche von Strukturgleichungsmodellen . . . . . . . . . . . . 195 Kategoriales Meßniveau in Strukturgleichungsmodellen . . . . . . . . . . . . . . . . . . 198
8.2 8.2.1 8.2.2
Strukturgleichungsmodelle im L¨ angsschnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Ein-Indikatorenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Multiple Indikatorenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
8.3 8.3.1 8.3.2 8.3.3 8.3.4
Empirische Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Strukturgleichungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Multiple Gruppenvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 Strukturgleichungsmodell mit kategorialen Variablen . . . . . . . . . . . . . . . . . . . . 220 Strukturgleichungsmodelle f¨ ur Paneldaten (Markov-Modelle) . . . . . . . . . . . . 225
8.4 8.4.1 8.4.2 8.4.2.1 8.4.2.2
Die Behandlung fehlender Werte in Strukturgleichungsmodellen . . . . . . . . . 232 Ausfallprozesse in empirischen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Modellbasierte Verfahren zur Behandlung fehlender Werte. . . . . . . . . . . . . . . 241 Der multiple Gruppenvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 Das direkte Maximum-Likelihood(ML)-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 241
183
X
Inhaltsverzeichnis
8.4.3 8.4.3.1 8.4.3.2
Datenbasierte Verfahren zur Behandlung fehlender Werte . . . . . . . . . . . . . . . 245 Der EM-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 Multiple Imputation auf Basis der Bayes-Statistik . . . . . . . . . . . . . . . . . . . . . . . 248
8.5 8.5.1 8.5.2
Empirische Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Modellbasiertes Verfahren: FIML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Datenbasiertes Verfahren: Multiple Imputation . . . . . . . . . . . . . . . . . . . . . . . . . . 258
8.6
Anhang: Programmfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
9
Wachstums- und Mischverteilungsmodelle
9.1 9.1.1 9.1.2 9.1.3 9.1.4 9.1.5 9.1.6 9.1.7 9.1.7.1 9.1.7.2 9.1.7.3 9.1.7.4 9.1.7.5 9.1.7.6
Wachstumsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 Zweifaktorielle Wachstumsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Mehrfaktorielle Wachstumsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 Konditionale Wachstumsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 Wachstumsmodelle mit Faktoren zweiter Ordnung . . . . . . . . . . . . . . . . . . . . . . . 279 Die Handhabung fehlender Werte in Wachstumsmodellen . . . . . . . . . . . . . . . . 283 Die Beziehung zwischen Wachstumsmodellen und Mehrebenenmodellen . 287 Empirische Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 Zweifaktorielles Wachstumsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Mehrfaktorielle Wachstumsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Konditionales Wachstumsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 Wachstumsmodell mit Faktoren zweiter Ordnung . . . . . . . . . . . . . . . . . . . . . . . . 297 Mehrfaktorielle Wachstumsmodelle unter Ber¨ ucksichtigung fehlender Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 Das zweifaktorielle Wachstumsmodell als Mehrebenenmodell . . . . . . . . . . . . 307
9.2 9.2.1 9.2.1.1 9.2.1.2 9.2.2 9.2.3 9.2.3.1 9.2.3.2 9.2.4 9.2.5 9.2.6
Mischverteilungsmodelle f¨ ur L¨ angsschnittdaten . . . . . . . . . . . . . . . . . . . . . . . . . . 308 Das allgemeine Mischverteilungsmodell (GMM) . . . . . . . . . . . . . . . . . . . . . . . . . . 310 Modellierungsvarianten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 Modellsch¨ atzung und Modellbeurteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 Das Mischverteilungsmodell mit latenten Klassen (LCGA) . . . . . . . . . . . . . . 319 Mischverteilungsmodelle f¨ ur Z¨ ahlvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Das Poisson-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Das negative Binomialmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 Praktische Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 Empirische Beispiele zu den LCGA- und GMM-Modellen . . . . . . . . . . . . . . . . 324 Empirische Beispiele zu den sequenziellen GMM-Modellen . . . . . . . . . . . . . . . 330
9.3
Anhang: Programmfiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
269
Inhaltsverzeichnis
XI
10
EDV-Programme
341
10.1 10.1.1 10.1.2 10.1.3 10.1.4
LISREL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 Entwicklung des Programms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 Die LISREL-Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 Die LISREL- und SIMPLIS-Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
10.2 10.2.1 10.2.2 10.2.3
EQS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 Entwicklung des Programms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 Die EQS-Notation und die Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
10.3 10.3.1 10.3.2 10.3.3
Mplus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Entwicklung des Programms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Die Mplus-Notation und die Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Weiterf¨ uhrende Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
10.4 10.4.1 10.4.2 10.4.3
Programme f¨ ur Strukturgleichungsmodelle in R . . . . . . . . . . . . . . . . . . . . . . . . . . 354 OpenMx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 sem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 lavaan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
10.5 10.5.1 10.5.2 10.5.3
Strukturgleichungsprogramme in Statistikprogrammpaketen . . . . . . . . . . . . . 356 SPSS: AMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 SAS: PROC CALIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 STATA: SEM und GSEM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
10.6 10.6.1 10.6.2
Programme zur mehrfachen Ersetzung fehlender Werte . . . . . . . . . . . . . . . . . . 359 NORM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 MICE und countimp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
Literaturverzeichnis
365
Index
391
1
Einleitung
Mit dem Begriff Strukturgleichungsmodelle wird nicht nur eine einzelne Technik, sondern eine ganze Gruppe von Modellen multivariater, statistischer Datenanalysen bezeichnet. Kovarianzstrukturanalyse oder Kovarianzstrukturmodelle sind alternative Begrifflichkeiten, die in der Literatur verwendet werden. Verschiedene charakteristische Eigenschaften k¨onnen in der folgenden Systematisierung genannt werden: 1. Strukturgleichungsmodelle werden nach Formulierung bestimmter inhaltlicher Hypothesen aufgestellt und u uft. Hiermit wird der konfirmatorische Charakter ¨berpr¨ dieser statistischen Modellbildung hervorgehoben: Das Modell stellt eine Verkn¨ upfung inhaltlicher Zusammenhangshypothesen dar, die anhand empirisch gewonnener Daten getestet werden. Demgegen¨ uber w¨ urde ein aus den Daten generiertes Modell eine explorative Modellstrategie unterst¨ utzen. J¨oreskog und S¨orbom (1993a) unterscheiden drei typische Situationen der Modellpr¨ ufung:
Eine strikt konfirmatorische Pr¨ ufung, wobei der Forscher einen einzelnen Modelltest vornimmt und die zugrunde liegenden Hypothesen entweder best¨atigt oder verwirft.
Eine konfirmatorische Pr¨ ufung von Modellen, bei der der Forscher mehrere alternative Hypothesen u uft und sich f¨ ur ein zu akzeptierendes Modell ent¨berpr¨ scheidet.
Eine modellgenerierte Anwendung, bei der der Forscher ein Anfangsmodell (sogenanntes initial model) spezifiziert und durch schrittweise Modellmodifikation eine Ann¨aherung an die Datenstruktur erreicht.
Die zuletzt genannte Strategie wird in der Praxis am h¨aufigsten durchgef¨ uhrt und verfolgt zwei Ziele: Zum einen soll das Modell entwickelt werden, das am ehesten den ¨ theoretischen Uberlegungen entspricht, zum anderen soll auch eine hohe statistische Korrespondenz zwischen dem Modell und den Daten gew¨ahrleistet sein. 2. Strukturgleichungsmodelle k¨ onnen explizit nach gemessenen (sogenannten manifesten) und nicht gemessenen (sogenannten latenten) Variablen unterscheiden und erlauben eine Differenzierung in ein Meß- und ein Strukturmodell. Die explizite Formulierung eines Meßmodells erm¨ oglicht die Ber¨ ucksichtigung unterschiedlicher Meßqualit¨aten der manifesten Variablen, vorausgesetzt die latenten Variablen werden u uhrt zu einer ¨ber mehr als eine gemessene Variable definiert. Das Meßmodell f¨ sogenannten minderungskorrigierten Sch¨ atzung der Zusammenh¨ange zwischen den
2
1 Einleitung latenten Variablen. Dies bedeutet, daß sich die Konstruktvalidit¨at der einzelnen Messungen explizit auf die Koeffizienten des Strukturmodells auswirkt. F¨ ur das klassische Pfadmodell wird kein Meßmodell formuliert. Die postulierten Beziehungen der manifesten Variablen werden gesch¨atzt, ohne daß die Konstruktvalidit¨at der Messungen gepr¨ uft wird. In der Regel werden dadurch die gesch¨atzten Koeffizienten des klassischen Pfadmodells untersch¨ atzt.
3. Die meisten Strukturgleichungsmodelle basieren auf Befragungsdaten, die nicht experimentell erhoben werden. Werden experimentelle oder quasi-experimentelle Anordnungen vorgenommen, dann lassen sich u ¨ber Gruppenbildungen Differenzen der Modellparameter ermitteln. Dabei k¨ onnen Strukturgleichungsmodelle u ¨ber die Leistungsf¨ahigkeit der klassischen Varianzanalyse hinausgehen, weil eine Differenzierung in manifeste und latente Variablen dort nicht m¨oglich ist. 4. Mit Strukturgleichungsmodellen werden große Datens¨atze analysiert. Es ist relativ schwierig, eine einfache Antwort auf die Frage zu geben, wie hoch die Mindestgr¨oße der Stichprobe sein muß, um stabile Parametersch¨atzungen in Strukturgleichungsmodellen zu erhalten. Ein deutlicher Zusammenhang besteht zwischen der Stichprobengr¨oße und der Modellkomplexit¨ at: Je mehr Parameter im Modell zu sch¨atzen sind, desto gr¨ oßer muß die Datenbasis sein. Des weiteren werden bei Sch¨atzverfahren, die h¨ohere Momente ber¨ ucksichtigen, gr¨oßere Stichproben ben¨otigt. 5. Varianzen und Kovarianzen bilden in der Regel die Datengrundlage f¨ ur Struktur¨ gleichungsmodelle. Damit werden zwei Ziele verbunden. Zum einen die Uberpr¨ ufung der Zusammenh¨ ange zwischen den Variablen auf Grund der postulierten Hypothesen und zum anderen die Erkl¨ arung der Variationen in den abh¨angigen Variablen. Werden u ¨ber Kovariaten (z. B. Geschlecht) Gruppen gebildet, dann k¨onnen Unterschiede der Modellparameter zwischen den Gruppen ermittelt und getestet werden. Mittelwertdifferenzen k¨ onnen zwischen den latenten Variablen gesch¨atzt werden, wenn neben den Varianzen und Kovarianzen auch der Mittelwertvektor der manifesten Variablen zur Verf¨ ugung steht. 6. Viele statistische Techniken wie die Varianzanalyse, die multiple Regression oder die Faktorenanalyse sind spezielle Anwendungen von Strukturgleichungsmodellen. Schon vor l¨ angerer Zeit konnte festgestellt werden, daß die Varianzanalyse (ANOVA) ein Spezialfall der multiplen Regression ist und beide Verfahren wiederum unter das allgemeine lineare Modell eingeordnet werden k¨onnen. Zum allgemeinen linearen Modell geh¨oren auch die multivariate Varianzanalyse (MANOVA) und die exploratorische Faktorenanalyse. Alle Varianten des allgemeinen linearen Modells sind in Strukturgleichungsmodelle u uhrbar. Durch nicht-lineare Parameterrestriktionen ¨berf¨ k¨onnen Produktterme in den linearen Gleichungen ber¨ ucksichtigt werden. Dies f¨ uhrt beispielsweise zu sogenannten Interaktionsmodellen. 7. Strukturgleichungsmodelle beschr¨ anken sich nicht nur auf kontinuierliche Variablen. Kategoriale Variablen k¨ onnen in den Modellen gleichermaßen ber¨ ucksichtigt werden. Multinomiale Regressionsmodelle k¨ onnen Teil eines komplexeren Strukturglei-
1 Einleitung
3
chungsmodells sein. Wenn latenten kategoriale Variablen ber¨ ucksichtigt werden, so haben diese die Funktion, Subgruppen als latente Klassen zu identifizieren und damit Hinweise auf unbeobachtete Heterogenit¨at im Datenmaterial zu geben. Mit dem Begriff Strukturgleichungsmodelle wird ein sehr breites Feld multivariater statistischer Datenanalysen angesprochen, dessen einzelne Facetten in einem Lehrbuch nicht alle abgedeckt werden k¨ onnen. Das vorliegende Lehrbuch konzentriert sich deswegen einerseits auf die Vermittlung fundamentaler Konzepte und andererseits auf die Erarbeitung von Techniken, die Hypothesentests mit unterschiedlichen Datendesigns erlauben. ¨ Dieses Lehrbuch gliedert sich in acht Kapitel. In Kapitel 2 wird zun¨achst ein Uberblick u ber die Entwicklung der statistischen Modellbildung mit Strukturgleichungen ¨ gegeben. Hierzu geh¨ ort die generelle Vorgehensweise bei der Anwendung dieser Modelle, ihre methodischen Eigenschaften als auch die Frage, unter welchen Bedingungen den ermittelten Parametern eine kausale Bedeutung zukommt. Abschließend wird ein ¨ Uberblick u ¨ber die methodischen Entwicklungen der letzten Jahre gegeben, die auch zu einer Differenzierung der einzelnen Modellarten gef¨ uhrt haben. Kapitel 3 differenziert die in der empirischen Sozialforschung bekannten Erhebungsdesigns (Querschnitt und L¨ angsschnitt) und erl¨ autert, welche Arten von Strukturgleichungsmodellen mit welchen Daten in den nachfolgenden Kapiteln behandelt werden. Kapitel 4 geht auf grundlegende statistische Konzepte f¨ ur Strukturgleichungsmodelle ein. Hier werden zun¨achst das Meßniveau der Variablen behandelt und die g¨ angigen statistischen Zusammenhangsmaße. Die lineare Regressionsanalyse gilt gemeinhin als grundlegend f¨ ur die Modellbildung mit Strukturgleichungen, w¨ ahrend die klassische Testtheorie das mathematische Modell zur Ber¨ ucksichtigung von Meßfehlern liefert. Beide Ans¨atze werden hier in ihren Grundz¨ ugen er¨ortert. Die Kapitel 5, 6, 7, 8 und 9 behandeln die einzelnen Modellarten. Beispiele aus Querschnitt- und L¨ angsschnittuntersuchungen werden jeweils diskutiert, ebenso die gleichzeitige Analyse u ¨ber mehrere Untersuchungsgruppen (multiple Gruppenvergleiche). In Kapitel 5 geht es ausschließlich um Modelle mit gemessenen Variablen, die auch als Pfadmodelle bezeichnet werden. Die Differenzierung in gemessene (manifeste) und nicht gemessene (latente) Variablen erfolgt in Kapitel 6 u ¨ber die Er¨orterung der Meßmodelle, wobei an dieser Stelle auch eine ausf¨ uhrliche Diskussion der einzelnen Sch¨atzverfahren sowie die damit verbundenen Statistiken der Modellpr¨ ufung vorgenommen wird. Beide sind von grunds¨ atzlicher Bedeutung f¨ ur alle in diesem Buch behandelten Modelle. In Kapitel 7 wird das Meßmodell zum konfirmatorischen Faktorenmodell erweitert, w¨ahrend Kapitel 8 in den allgemeinen Strukturgleichungsansatz einf¨ uhrt. Hier wird das zuvor diskutierte konfirmatorische Faktorenmodell um ein Strukturmodell, das die Beziehung zwischen den latenten Variablen formalisiert, erweitert. Spezifische Aspekte der Modellbildung beim multiplen Gruppenvergleich, bei kategorialen Variablen und bei L¨angsschnittdaten werden hier behandelt. Techniken zur Ber¨ ucksichtigung von fehlenden Werten bei der Berechnung von Strukturgleichungsmodellen stehen hier
4
1 Einleitung
ebenfalls im Vordergrund. In Kapitel 9 werden Wachstums- und Mischverteilungsmodelle er¨ortert, die mittlerweile durch die zunehmende Verbreitung von Paneldaten nicht nur in der methodischen und statistischen Grundlagenforschung, sondern auch in vielen inhaltlichen Anwendungen einen breiten Raum eingenommen haben. In Kapitel 10 werden EDV-Programme zur Berechnung von Strukturgleichungsmodellen ¨ vorgestellt. Hierzu geh¨ oren auch Ubersichten u ¨ber die Notation der Variablen, Parameter und Matrizen. Die zur Ersetzung fehlender Werte verwendeten Programme werden an dieser Stelle zus¨ atzlich erl¨ autert. Das Literatur- und Stichwortverzeichnis sollen die Handhabung dieses Lehrbuchs vereinfachen.
2
Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
2.1
Einfu ¨hrung
Die Verfahren, die eine statistische Modellbildung voraussetzen und unter dem Begriff Strukturgleichungsmodelle gefaßt werden, erm¨oglichen strengere Tests formalisierter Hypothesen als die u ¨blichen Verfahren der bivariaten und multivariaten Statistik.1 Anwendungen sind besonders in den Wissenschaftsbereichen zu verzeichnen, die gr¨oßere Datenmengen auf der Basis eines quasi-experimentellen oder nicht-experimentellen Designs produzieren. Stabile Ergebnisse aus statistischen Modellbildungen mit Strukturgleichungen sind dann gew¨ ahrleistet, wenn bestimmte Meß- und Verteilungsvoraussetzungen gemacht werden k¨ onnen und wenn, in Abh¨angigkeit von der Modellgr¨oße, die empirischen Informationen auf einer ausreichenden Anzahl von Untersuchungseinheiten basieren. Die Verbreitung von Strukturgleichungsmodellen in den angewandten Sozialwissenschaften ist ohne ¨okonometrische und psychometrische Grundlagen kaum vorstellbar. Inhaltliche Spezifikationen von Beziehungen zwischen unabh¨angigen und abh¨angigen Variablen, wie sie aus der multiplen Regressionsanalyse bekannt sind, bilden den Ausgangspunkt (vgl. Kapitel 4). Jedes Regressionsmodell beinhaltet bekanntermaßen eine abh¨angige Variable und mindestens eine unabh¨ angige Variable, deren Verh¨altnis u ¨ber eine Regressionsgleichung formalisiert wird. Werden mehrere Regressionsmodelle miteinander verbunden, dann wird diese Art der Modellierung als Pfadanalyse bezeichnet (vgl. Kapitel 5). Diese weitergehende Modellierung ist erstmals von dem Genetiker Wright (1921, 1934) vorgenommen worden, der auch die Allgemeing¨ ultigkeit der Zerlegung von Produkt-Moment-Korrelationen in sogenannte Pfadkoeffizienten u ¨ber das Basistheorem der Pfadanalyse nachweisen konnte (vgl. O. D. Duncan, 1966, S. 5; Kenny, 1979, S. 28).2 1
Die Analyse von Strukturgleichungsmodellen wird auch als Kovarianzstrukturanalyse bezeichnet. In der englischsprachigen Literatur wird am meisten der Begriff Structural Equation Modeling und die Abk¨ urzung SEM verwendet. 2 Es wird hier kurz darauf hingewiesen, daß Regressionskoeffizienten und Pfadkoeffizienten nur unterschiedliche Bezeichnungen f¨ ur dieselben statistischen Gr¨ oßen sind, vgl. auch die Ausf¨ uhrungen in Kapitel 5.
6
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
Abb. 2.1: Pfadmodell mit drei Variablen
F¨ ur ein Pfadmodell mit drei Variablen x1 , x2 und x3 kann dieses Basistheorem leicht erl¨autert werden (vgl. Abbildung 2.1). Hierzu werden f¨ ur jede abh¨angige Variable eine lineare Gleichung formuliert: x2 = p21 x1 + p2R Rx2 (2.1) x3 = p31 x1 + p32 x2 + p3R Rx3
(2.2)
Sind ausreichende empirische Informationen (Korrelationskoeffizienten) vorhanden, dann lassen sich sich beispielsweise die Korrelationen zwischen x1 und x3 (r31 ), x2 und x3 (r32 ) sowie in die entsprechenden Pfadkoeffizienten p21 , p31 und p32 zerlegen:3 r31 = p31 + p21 p32
(2.3)
r32 = p32 + p21 p31
(2.4)
Beispielsweise wird aus Gleichung 2.3 ersichtlich, daß die Korrelation r31 nicht nur durch den direkten Effekt der Variablen x1 auf die Variable x3 (p31 ) bestimmt wird, sondern auch durch den indirekten Effekt u ¨ber die vermittelnde Variable x2 . Dieser indirekte Effekt wird aus dem Produkt der Pfadkoeffizienten p21 und p32 gebildet. Diese Zerlegung ist allgemeing¨ ultig und unabh¨ angig von der Modellgr¨oße. Blalock (1961) geh¨ ort zu den ersten, der die Pfadanalyse in den Sozialwissenschaften thematisiert. Anwendungen insbesondere mit Variablen aus der Sozialstrukturanalyse finden sich bei O. D. Duncan und Hodge (1963), O. D. Duncan (1966) sowie ausf¨ uhrlich in dem Buch von Blau und Duncan (1967), welches Pfadmodelle zur intergenerationellen Bildungs- und Berufsmobilit¨ at in den USA diskutiert. Blalock (1964) gab der Pfadanalyse eine kausale Interpretation, was nicht unumstritten blieb. Die Beziehungen zwischen unabh¨ angigen und abh¨ angigen Variablen werden hiernach als Prozesse zwischen Ursache und Wirkung interpretiert (vgl. hierzu auch die Ausf¨ uhrungen in Abschnitt 2.3). Ende der 1960er-Jahre wird durch die Differenzierung zwischen einer sogenannten Meßebene und einer Strukturebene und der damit einhergehenden Unterscheidung von manifesten und latenten Variablen die Annahme der fehlerfreien Messung 3
Die einzelnen Terme sowie der L¨ osungsweg zu den Gleichungen 2.3 und 2.4 werden in Kapitel 5, Abschnitt 5.1 an einem ¨ ahnlichen Beispiel n¨ aher er¨ ortert.
2.1 Einf¨ uhrung
7
in den Pfadmodellen aufgegeben und die Kontrolle unsystematisch auftretender Meßfehler in den manifesten Variablen sowohl konzeptionell als auch statistisch erm¨oglicht.4 In diesem Zusammenhang wird nicht mehr von Pfadmodellen, sondern von multiplen Indikatorenmodellen gesprochen, wobei analytische L¨osungsm¨oglichkeiten zur Berechnung der Parameter aus den empirischen Korrelationen der manifesten Variablen aufgezeigt werden (vgl. Blalock, 1968; Costner, 1969). Allerdings zeigte sich sehr bald, daß L¨osungsm¨oglichkeiten auf rein analytischem Wege sich auf Modelle beschr¨anken, die f¨ ur jeden Parameter genau eine Modellgleichung beinhalten (gerade identifizierte Modelle, vgl. hierzu Kapitel 6, Abschnitt 6.2). Stehen dagegen mehr empirische Informationen zur Verf¨ ugung als f¨ ur die L¨ osung der Parameter notwendig sind, m¨ ussen iterative Verfahren u ¨ber Sch¨atzgleichungen herangezogen werden. Vorschl¨age hierzu kamen aus der ¨ Okonometrie, insbesondere von Goldberger (1972), der auch auf die Arbeiten von Duncan Bezug nahm.5 Hauser und Goldberger (1971) vereinigen Konzepte des allgemeinen linearen Modells aus verschiedenen disziplin¨ aren Traditionen: zum einen die vielfach in den Sozialwissenschaften verbreitete Pfadanalyse, die in der Psychometrie entwickelte ¨ Faktorenanalyse und die aus der Okonometrie und Statistik stammenden effizienten Sch¨ atzverfahren. 1970 wurde von Duncan und Goldberger an der Universit¨at Wisconsin eine Konferenz organisiert, die an der Entwicklung und Anwendung von Pfad- und Strukturgleichungs¨ modellen interessierte Sozialwissenschaftler und Okonometriker zusammenbrachte (vgl. Goldberger & Duncan, 1973). Hier stellte auch J¨oreskog (1973) sein wegweisendes Strukturgleichungsmodell vor, das die Grundlage f¨ ur die Entwicklung des Programms LISREL bildete.6 J¨oreskogs Ansatz basiert nicht mehr auf einzelnen Gleichungen (wie noch bei Costner und Blalock), sondern auf einem System von Gleichungen, das aus Variablenvektoren und Parametermatrizen besteht. Ein Strukturgleichungsmodell mit manifesten und latenten Variablen wird im Programm LISREL u ¨ber neun Parametermatrizen definiert und erm¨oglicht auch die Berechnung einer Reihe von Submodellen. Hierzu z¨ahlt die Pfadanalyse (Strukturmodell ohne Meßmodell, vgl. Kapitel 5) und die konfirmatorische Faktorenanalyse (Meßmodell ohne Strukturmodell, vgl. Kapitel 6). Eine wesentliche Weiterentwicklung des Strukturgleichungsansatzes wurde schon Anfang der 1980er Jahre vorgestellt: Die simultane Analyse eines Modells u ¨ber mehrere Gruppen mit der M¨ oglichkeit, Parameter u ucksichtigung ¨ber die Gruppen zu restringieren sowie die Ber¨ 4
Manifeste Variablen entsprechen den direkt gemessenen Variablen, die u ¨blicherweise in Pfadmodellen verwendet werden. Dagegen stehen hinter latenten Variablen abstraktere Begriffe, Konstrukte oder auch Dimensionen, die u ¨ber ein Meßmodell mit den manifesten Variablen verbunden werden. 5 ¨ Goldberger (1964) verwendet in seinem Okonometrie-Lehrbuch als einer der ersten den Begriff structural equation models. 6 LISREL steht f¨ ur LInear Structural RELationships, vgl. die Kurzbeschreibung in Kapitel 10. Der Vorl¨ aufer des Programms LISREL wurde unter dem Namen ACOVS (A General Computer Program for the Analysis of COVariance Structure) bekannt, vgl. J¨ oreskog, Gruvaeus & van Thillo, 1970.
8
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
der Mittelwertvektoren der manifesten Variablen, mit dem Ziel, Mittelwertdifferenzen bezogen auf die Gruppen zu ermitteln (vgl. S¨orbom, 1982). Ende der 1970er Jahre und Anfang der 1980er Jahre ist eine starke Verbreitung von Strukturgleichungsmodellen in verschiedenen Disziplinen und Arbeitsgebieten zu verzeichnen. Dies betrifft die Sozialstrukturanalyse innerhalb der Sozialwissenschaften (z. B. Bielby, Hauser & Featherman, 1977), die Sozialpsychologie (z. B. Bentler & Speckart, 1981), das Marketing innerhalb der Wirtschaftswissenschaften (z. B. Bagozzi, 1980), die Gesundheitswissenschaften (z. B. Wheaton, 1985), die genetische Forschung (z. B. C. C. Li, 1975) und die kriminologische Forschung (z. B. Matsueda, 1982). MacCallum und Austin (2000) stellten ein Review von 500 publizierten Anwendungen von Strukturgleichungsmodellen aus 16 psychologischen Fachzeitschriften zusammen, die auf experimentelle und nicht-experimentelle Designs (Quer- und L¨angsschnittstudien) basieren. Hershberger (2003) kommt in einer Auswertung von ver¨offentlichten Artikeln aus der Datenbank PsycINFO f¨ ur die Jahre 1994 bis 2001 zu dem Ergebnis, daß Strukturgleichungsmodelle in der Entwicklung statistischer Modellbildung und in der empirischen Anwendung eine zunehmende Bedeutung bekommen haben. Hierbei stieg nicht nur die Anzahl der Ver¨ offentlichungen, sondern auch die Anwendungsh¨aufigkeit von Strukturgleichungsmodellen im Vergleich zu anderen Techniken der multivariaten Statistik wie Clusteranalyse, MANOVA (Multivariate Analysis of Variance), Diskriminanzanalyse und multidimensionale Skalierung (vgl. Hershberger, 2003, S. 41). Dazu beigetragen hat nat¨ urlich auch die im Jahre 1994 vorgenommene Gr¨ undung der Zeitschrift Structural Equation Modeling. Eine technische Verallgemeinerung des Ansatzes von J¨oreskog nahmen unabh¨angig voneinander Bentler und Weeks (1980) sowie Graff und Schmidt (1982) vor. Sie reduzierten die zu spezifizierenden Vektoren und Matrizen ohne Einschr¨ankung der Modellbildungsm¨oglichkeiten im allgemeinen Strukturgleichungsmodell. Weitere statistische Entwicklungen sind zu verzeichnen. Hierzu geh¨ oren die Effektzerlegung (Alwin & Hauser, 1975; Graff & Schmidt, 1982; Bollen, 1987), die Sch¨atzung von Standardfehlern bei indirekten Effekten (Sobel, 1982, 1987), die Berechnung von Konfidenzintervallen f¨ ur indirekte Effekte (Bollen & Stine, 1990), die Berechnung der Power“ f¨ ur den Likelihood-Ratio-Test ” (Satorra & Saris, 1985) sowie eine breite Entwicklung von Fitmaßen, die insbesondere das Problem des stichprobenabh¨ angigen Likelihood-Ratio-Tests l¨osen sollten (Browne & Cudeck, 1993). Bentler (1985) entwickelte auf der Basis des verallgemeinerten Ansatzes das Programm EQS mit einer gegen¨ uber dem Programm LISREL vereinfachten Syntax. J¨oreskog und S¨orbom reagierten darauf und entwickelten neben LISREL zus¨atzlich auch das Programm SIMPLIS (SIMple LISrel, vgl. J¨ oreskog & S¨orbom, 1993a). Weitere Programmentwicklungen (z. B. AMOS, Mplus) sind in den 1990er Jahren unter Ber¨ ucksichtigung weitergehender Modellentwicklungen zu verzeichnen (siehe hierzu Abschnitt 2.5). Mittlerweile sind auch eine Reihe von Modulen zur Berechnung von Strukturgleichungsmo-
2.2 Ausgangspunkt
9
dellen innerhalb der Statistikprogrammiersprache R (R Core Team, 2014) entwickelt worden (vgl. Kapitel 10, Abschnitt 10.4).
2.2
Ausgangspunkt
¨ Ausgangspunkt der Vorgehensweise zur Uberpr¨ ufung von Strukturgleichungsmodellen ist eine theoretische und inhaltliche Problemformulierung mit daraus abzuleitenden Hypothesen. Da in der Regel metrisches, mindestens aber kategoriales Meßniveau bei den manifesten Variablen vorauszusetzen ist, k¨ onnen die im Modell enthaltenen Beziehungen jeweils eine Richtung wiedergeben: Eine positive Beziehung gibt eine gleichsinnige Richtung des Einflusses der unabh¨ angigen auf die abh¨angige Variable wieder, w¨ahrend eine negative Beziehung f¨ ur eine gegensinnige Richtung des Einflusses steht. Bei Strukturgleichungsmodellen mit latenten Variablen (vgl. Kapitel 8) wird eine Differenzierung zwischen Meß- und Strukturhypothesen vorgenommen, um Hypothesen und kausale Zusammenh¨ange zwischen den latenten Variablen sowie gleichzeitig Hypothesen u ¨ber die Meßqualit¨at der manifesten Variablen zu pr¨ ufen.7 Hierbei wird deutlich, daß die kausale Modellbildung mit Strukturgleichungen in erster Linie ein hypothesentestendes, und damit eher ein konfirmatorisches Verfahren der statistischen Analyse ist. Das nach den Hypothesen formulierte Modell wird dann in ein lineares Gleichungssystem u uhrt, welches anhand von empirischen Daten zu sch¨atzen und zu testen ist. ¨berf¨ Wird ein Modell mit latenten und manifesten Variablen untersucht, dann muß eine Differenzierung nach Struktur- und Meßhypothesen bzw. Struktur- und Meßmodell erfolgen. Zur Untersuchung des Meßmodells geh¨ oren exploratorische Vorarbeiten u ¨ber die statistischen Eigenschaften der manifesten Variablen, Entscheidungen, wieviele Messungen den latenten Variablen zugeordnet werden, sowie die Pr¨ ufung der m¨oglichen Meßmodelle im Rahmen einer konfirmatorischen Faktorenanalyse (vgl. Kapitel 6). Zur ¨ Untersuchung des Strukturmodells geh¨ oren theoretische Vorarbeiten, n¨amlich Uberlegungen zur Relevanz der zu untersuchenden latenten Variablen, die Formalisierung der inhaltlichen Hypothesen, d. h. welche latente Variable unabh¨angig und welche abh¨angig ist, und die Prognose u ¨ber die Richtung der jeweiligen Beziehungen. Eine idealtypische Vorgehensweise zur Durchf¨ uhrung der einzelnen Untersuchungsschritte zeigt Abbildung 2.2 (vgl. Diamantopoulos & Siguaw, 2000, S. 15; Kaplan, 2009, S. 9). Zur Pr¨ ufung des Strukturgleichungsmodells wird die Kovarianzmatrix der zugrundegelegten Daten mit der aus den gesch¨ atzten Modellparametern ermittelten Kovarianzmatrix verglichen. Je besser die Werte der empirischen Kovarianzmatrix mit der gesch¨atz7
Der Begriff latent steht f¨ ur nicht gemessen, w¨ ahrend der Begriff manifest als Synonym f¨ ur gemessen angesehen werden kann. In der Faktorenanalyse werden die statistisch ermittelten Dimensionen als Faktoren bezeichnet. Faktoren und latente Variablen sind in der Methodologie der Strukturgleichungsmodelle synonyme Begrifflichkeiten (vgl. hierzu auch Kapitel 7).
10
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
Abb. 2.2: Vorgehensweise zur Analyse von Strukturgleichungsmodellen
ten Kovarianzmatrix u ¨bereinstimmen, desto besser paßt das Strukturgleichungsmodell zu den Daten. Zur Beurteilung der Modellanpassung stehen verschiedene Goodness-offit-Maße und Teststatistiken zur Verf¨ ugung. Da diese Maße und Statistiken aber auch von anderen Informationen abh¨ angig sind, sollte vorher festgelegt werden, ob beispielsweise nur eine Modellspezifikation zur Beurteilung der Modellanpassung vorgenommen werden soll oder ein Vergleich verschiedener Modellvarianten. Werden keine gr¨oßeren Diskrepanzen zwischen Modell und Daten gefunden, kann das Modell (bzw. die gefundene Modellvariante) statistisch akzeptiert und inhaltlich interpretiert werden. F¨ uhrt die Datenlage zu einer Widerlegung (oder teilweisen Widerlegung) des Modells, kann entweder unter sinnvollen Gesichtspunkten das Modell modifiziert oder die Modellwiderlegung akzeptiert werden. Bei einer Modellmodifikation wird erneut eine Modellsch¨atzung sowie eine weitere Modellbeurteilung vorgenommen. Dieser Zyklus kann beliebig fortgesetzt werden, allerdings sollte die Aussagekraft des modifizierten Modells mit den Ausgangshypothesen vereinbar sein. Desweiteren ist zu beachten, daß eine sparsame Modellierung (d. h. wenige zu sch¨ atzende Parameter) die inhaltliche Aussagekraft des Modells erh¨oht. Zus¨ atzliche Parameterspezifikationen verbessern zwar die Modellanpassung, k¨onnen aber auch ein unangemessenes model fitting provozieren, das in der so-
2.3 Kausalit¨at in Strukturgleichungsmodellen
11
zialwissenschaftlichen Modellbildung nicht zu sinnvollen und informativen Ergebnissen f¨ uhrt.
2.3
Kausalita¨t in Strukturgleichungsmodellen
Obwohl multivariate statistische Verfahren wie Strukturgleichungsmodelle den Anspruch haben, kausale Interpretationen zuzulassen, ist umstritten, wie die Ergebnisse eines Modells in dieser Hinsicht zu bewerten sind. Die hier behandelten multivariaten statistischen Verfahren bieten eine Struktur, die hinsichtlich ihrer kausalen Interpretation neutral ist. Beispielsweise kann postuliert werden, daß eine Variable x auf eine Variable y wirkt. Ebenso ist eine Wirkung von y auf x m¨oglich. Kausalit¨at kann aber durch eine Modellpr¨ ufung mit einer Strukturgleichung zwischen diesen beiden Variablen nicht nachgewiesen werden. Das Verfahren pr¨ uft lediglich, ob auf Grund der inhaltlich postulierten Hypothesen und der zugrundeliegenden Annahmen eine kausale Beziehung statistisch nicht zur¨ uckzuweisen ist. Ohne theoretisch abgeleitete Hypothesen l¨aßt sich eine kausale Schlußfolgerung bez¨ uglich der postulierten Beziehungen zwischen den Variablen nicht durchf¨ uhren. Die mathematische Formalisierung l¨aßt nicht automatisch eine kausale Interpretion der Strukturkoeffizienten zu (vgl. Pearl, 2000, S. 135).8 Eine Reihe von Bedingungen m¨ ussen erf¨ ullt sein, damit Beziehungen zwischen unabh¨angigen und abh¨angigen Variablen als kausale Beziehungen bezeichnet werden k¨onnnen (vgl. auch Mulaik, 2009, S. 101). Die wichtigsten Bedingungen sind nachfolgend aufgef¨ uhrt: 1. Auf Grund von Erfahrungen und theoretischen Begr¨ undungen sind Variablen in einem geschlossenen System“ (closed self-contained system) zu isolieren, so daß be” langlose und irrelevante Einfl¨ usse anderer Variablen ausgeschlossen werden k¨onnen (vgl. auch Bollen, 1989, S. 45f.). 2. Substanzielle empirische Zusammenh¨ ange bilden die empirische Basis f¨ ur kausale Beziehungen. Wenn unabh¨ angige und abh¨ angige Variablen nicht miteinander korrelieren, lassen sich auch keine substanziellen kausalen Effekte nachweisen. Desweiteren ist eine genaue Analyse der Verbindung zwischen unabh¨angigen und abh¨angigen Variablen in Bezug auf mediierende Mechanismen (mediating mechanisms) anderer Variablen notwendig (vgl. auch Bollen, 1989, S. 57f.). 3. Eine korrekte Spezifikation der kausalen Richtung (causal direction) zwischen Variablen ist notwendig. Dies kann entweder durch eine zeitliche Ordnung der Variablen geschehen oder durch die Ber¨ ucksichtigung von moderierenden Variablen (vgl. auch Bollen, 1989, S. 61f.).
8
Steyer (1992, 2003) hat sich sehr ausf¨ uhrlich mit der Entwicklung einer formalen Theorie kausaler Regressionsmodelle auseinandergesetzt.
12
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
4. Die kausale Beziehungen zwischen den Variablen sollten den funktionalen Relationen zwischen den Eigenschaften der Untersuchungsobjekte entsprechen. Wird diese ¨ Aquivalenz gew¨ ahrleistet, dann liegt kausale Homogenit¨at vor. 5. Die Stabilit¨ at oder das Gleichgewicht des Variablensystems sollte gew¨ahrleistet werden, auch wenn Ver¨ anderungen einer Variablen ber¨ ucksichtigt werden. 6. Strukturgleichungsmodelle enthalten in der Regel keine Annahmen oder Hypothesen, die in Form von Wahrscheinlichkeitsfunktionen formuliert werden (vgl. Pearl, 2012). Die Verteilungform der Variablen sollte explizit ber¨ ucksichtigt werden, da ansonsten kausal zu interpretierende Parameter verzerrte Gr¨oßen liefern. Die Gr¨oße eines Parameters in einem Strukturgleichungsmodell ist ein Indiz f¨ ur die Bedeutung einer kausalen Beziehung. Die Qualit¨at der Stichprobe und deren Umfang bestimmen, wie stark die Beziehung sein muß, um eine kausale Interpretation zu erm¨oglichen. Bei alternativen Modellstrukturen sollte die Effektst¨arke außerdem konsistent sein. Wenn replikative Stichproben mit den gleichen Variablen vorliegen, dann l¨aßt sich diese Konsistenz auch mit der gleichen Modellierung nachweisen. Wenn den Wiederholungsuntersuchungen ein Paneldesign zu Grunde liegt, dann ist auch die Persistenz einer kausalen Beziehung pr¨ ufbar.
2.4
Eigenschaften von Strukturgleichungsmodellen
Die hier betrachteten Verfahren der Strukturgleichungsmodelle analysieren die Daten auf der Grundlage der Momente eines Variablenvektors q. In der Regel sind die Momente q ⋅ (q + 1) Varianzen und Kovarianzen. Bei der Spezifikation eines Modells wird davon ausgegangen, daß sich die postulierten Hypothesen u ¨ber die gemessenen Daten best¨atigen lassen. Hierbei muß beachtet werden, daß im Modell weniger Parameter zu sch¨atzen sind, als Momente zur Verf¨ ugung stehen. Ansonsten ist das Modell nicht identifiziert und das Gleichungssystem auf Grund der Diskrepanz zwischen bekannten und unbekannten Gr¨oßen nicht sch¨ atzbar. Das Identifikationsproblem kann aber auch dadurch eingegrenzt werden, daß Parametergr¨ oßen im Modell auf bestimmte Werte fixiert oder mit anderen Parametern gleichgesetzt werden. Gerade durch die Einf¨ uhrung solcher Restriktionen (constraints) ist der Einfluß einer hypothesenorientierten Modellbildung auf die statistische Modellierung m¨ oglich. Je gr¨oßer die Anzahl der Restriktionen im Strukturgleichungsmodell ist, desto weniger Parameter sind zu sch¨atzen. Damit kann das zu pr¨ ufende Modell zwar eher von den Daten widerlegt werden, bei einer Modellbest¨atigung ist es aber aussagekr¨ aftiger als ein unrestringiertes Modell. Die Bedeutung von Restriktionen wird in den Beispielen der Kapitel 5, 6 und 8 deutlich werden. Hildebrandt, Rudinger und Schmidt (1992, S. 10) haben drei Eigenschaften von Strukturgleichungsmodellen hervorgehoben, die u ¨ber das Potential von klassischen, statistischen Verfahren (z. B. Varianzanalyse, Hauptkomponentenanalyse, exploratorische Faktorenanalyse) hinausgehen:
2.5 Methodische Weiterentwicklungen
13
1. Es k¨onnen explizite Hypothesen dar¨ uber formuliert werden, wieviele manifeste Variablen zur Messung einer latenten Variablen verwendet werden. 2. Es k¨onnen sowohl korrelative als auch gerichtete (kausale) Beziehungen zwischen den Konstrukten formuliert werden. 3. Die aufgestellten Hypothesen lassen sich sowohl im Meßmodell als auch im Strukturmodell anhand von Teststatistiken und Goodness-of-fit-Maßen u ufen. ¨berpr¨ Wie in der klassischen Testtheorie (vgl. Lord & Novick, 1968) wird auch bei Strukturgleichungsmodellen nicht von einer fehlerfreien Messung ausgegangen. Es geht hier aber nicht nur um eine statistische Bereinigung des Anteils zuf¨alliger Meßfehler, sondern auch um die explizite Modellierung m¨ oglicher systematischer Meßfehler, die sich beispielsweise durch die gew¨ ahlte Erhebungsmethode nicht oder nur sehr schwer vermeiden lassen.9 Die Differenzierung zwischen einer Beobachtungsebene (manifeste Variablen) und einer Strukturebene (latente Variablen) gibt den Strukturgleichungsmodellen auch eine wissenschaftstheoretische Bedeutung. Die von Hempel und Carnap formulierte ZweiSprachen-Theorie (vgl. Hempel, 1974), die Beobachtungssprache einerseits und die theoretische Sprache andererseits, l¨ aßt sich auch auf Strukturgleichungsmodelle mit ihrer Differenzierung zwischen latenten und manifesten Variablen u ¨bertragen. Diese Diskussion wurde insbesondere von Blalock (1968) und Costner (1969) in den USA sowie von P. Schmidt und Graff (1975) und P. Schmidt (1977) in Deutschland aufgegriffen. Allerdings muß hier klar sein, daß die epistemologische Bedeutung des Begriffs theoretisch sich von der theoretischen Ebene in Strukturgleichungsmodellen in Form der latenten Variablen deutlich unterscheidet. Einer damit verbundene und vielfach auch ge¨außerte Hoffnung, daß mit Strukturgleichungsmodellen ein direkter Theorietest im Sinne der Zwei-Sprachen-Theorie geleistet werden kann, muß kritisch begegnet werden, da die Grenzen zwischen beobachteten und theoretischen Konzepten oft nicht trennscharf sind. Die Modellbildung ist vielfach von der Qualit¨at des jeweiligen Meßinstrumentes abh¨angig (vgl. die Diskussion in Jagodzinski, 1986, S. 82f.).
2.5
Methodische Weiterentwicklungen
Die Datenanalyse mit Strukturgleichungsmodellen kann als generelle Untersuchungsstrategie verstanden werden, die besonders geeignet ist, Hypothesen auf der Basis nichtexperimenteller Daten zu analysieren. Durch die Differenzierung von latenten und manifesten Variablen und der damit verbundenen M¨oglichkeit zur Kontrolle unsystematischer Meßfehler bei gleichzeitiger Pr¨ ufung komplexer struktureller Zusammenh¨ange 9
Bei der m¨ undlichen Befragung werden diese systematischen Meßfehler als response sets oder response errors bezeichnet (vgl. hierzu Reinecke, 1991, S. 23f.; Diekmann, 2007, S. 451f.; Schnell, Hill & Esser, 2011, S. 346f.).
14
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen
werden Weiterentwicklungen gegen¨ uber klassischen multivariaten-statistischen Ans¨atzen (z. B. Faktorenanalyse, Varianzanalyse) erreicht. Zu diesen Weiterentwicklungen geh¨oren das allgemeine Konzept der Kovarianzstrukturanalyse mit der Entwicklung verschiedener Sch¨ atzverfahren und Teststatistiken, die nicht mehr auf der Annahme multivariat normalverteilter Daten basieren m¨ ussen. Desweiteren z¨ahlen zu den wesentlichen Eigenschaften von Strukturgleichungsmodellen die M¨oglichkeit, strukturelle Beziehungen der Variabllen untereinander f¨ ur mehrere Subpopulationen simultan mit geeigneten Restriktionen u ufen zu k¨ onnen, die komplexe Analyse von L¨angs¨berpr¨ schnittinformationen sowie die Integration von statistischen Ans¨atzen zur Behandlung fehlender Informationen in den zu analysierenden Daten. In vielen Bereichen sind sehr deutliche Weiterentwicklungen in der Methododologie von Strukturgleichungsmodellen festzustellen. Die Integration kategorialer und kontinuierlicher Datenstrukturen in eine verallgmeinerte Modellkonzeption (latent variable hybrids, vgl. B. O. Muth´en, 2008) kann hier als Beispiel genannt werden. Die im folgenden aufgelisteten Themengebiete z¨ahlen zu den Kernbestandteilen dieses Lehrbuches: 1. Das allgemeine Konzept der Kovarianzstrukturanalyse: Wie in Abschnitt 2.2 er¨ortert, wird im allgemeinen Strukturgleichungsmodell die Faktorenanalyse und die Regressionsanalyse durch lineare Gleichungssysteme miteinander verbunden. Die Spezifikation der einzelnen, zu sch¨atzenden Parameter erfolgt auf Grund ¨ theoretischer Uberlegungen. Die statistische Theorie, auf der das allgemeine Strukturgleichungsmodell basiert, ist asymptotisch. Die klassischerweise zur Sch¨atzung der Parameter verwendete Maximum-Likelihood(ML)-Diskrepanzfunktion stellt relativ hohe Voraussetzungen an die Variablen und Daten. Hierzu geh¨oren metrisches Meßniveau, großer Stichprobenumfang und die multivariate Normalverteilung, die mit empirischen Daten aus sozialwissenschaftlichen Untersuchungen nicht zu erreichen sind. Um die Informationen aus den h¨oheren Momenten der Verteilungen ausnutzen zu k¨ onnen, hat Browne (1982, 1984) eine generelle Diskrepanzfunktion (Weighted-Least-Square, abgek¨ urzt WLS) f¨ ur asymptotische Sch¨atzer entwickelt, die die h¨oheren Momente in Form einer Gewichtungsmatrix bei der Sch¨atzung ber¨ ucksichtigt (vgl. Kapitel 6, Abschnitt 6.5). Da f¨ ur die Berechnung dieser Gewichtungsmatrix in Abh¨ angigkeit von der Modellgr¨ oße große Datenmengen ben¨otigt werden, wird das Problem des Stichprobenumfangs aber eher noch verst¨arkt. Satorra und Bentler (1990, 1991) haben in verschiedenen Studien festgestellt, daß die Verletzung der Normalverteilungsannahme weniger die Parametersch¨atzer, als vielmehr die Standardfehler und die χ2 -Statistik betrifft. Die Entwicklung der sogenannten scaled chi-square statistic und die Sch¨ atzung robuster Standardfehler f¨ ur die MLParameter k¨ onnen als mittlerweile etablierte Alternativen zur WLS-Funktion bei der Berechnung von Strukturgleichungsmodellen mit nicht normalverteilten Daten angesehen werden (vgl. auch Satorra & Bentler, 1994, 2001, 2010). Die Identifikationsbedingungen sind in komplexen Modellen nur sehr schwer und aufwendig zu u ufen. Die Wirkung einer Fehlspezifikation und deren Identifi¨berpr¨
2.5 Methodische Weiterentwicklungen
15
kation durch globale Anpassungsmaße ist durch systematische Evaluationen unterschiedlicher Modelle hinterfragt worden (vgl. beispielsweise Saris, Satorra & van der Veld, 2009). F¨ ur die vorhandenen Teststatistiken gilt, daß sowohl ihre Auspr¨agungen von der Spezifikation des Modells als auch von den Eigenschaften des Datenmaterials abh¨angig sind. Eine Systematisierung von Identifikationsbedingungen erfolgt hier im Rahmen der Vorstellung von Pfadmodellen, Meßmodellen und konfirmatorischer Faktorenanalyse sowie im allgemeinen Strukturgleichungsmodell (siehe die entsprechenden Abschnitte in den Kapiteln 5, 6, 7 und 8). 2. Simultane Pru ¨ fung von Modellen fu ¨ r mehrere Subpopulationen: Obwohl der Test auf Gleichheit von Parametern zwischen Populationen durch die Varianzanalyse eine lange Tradition in der Statistik und den angewandten Sozialwissenschaften hat, ist der simultane Modellvergleich zwischen mehreren Subpopulationen f¨ ur Strukturgleichungsmodelle kennzeichnend. Dieser Modellvergleich beinhaltet die Pr¨ ufung der Invarianz von Meß- und Strukturmodellen u ¨ber zwei oder mehrere Kovarianzmatrizen und wird als multipler Gruppenvergleich bezeichnet (vgl. S¨orbom, 1982). Diese Technik hat f¨ ur l¨ ander- und kultur¨ ubergreifende Vergleiche (beispielsweise durch Daten des International Social Survey Programme (ISSP) oder des European Social Survey (ESS)) zunehmend an Bedeutung gewonnen. Strukturgleichungsmodelle k¨ onnen nach verschiedenen Invarianzbedingungen u uft werden ¨berpr¨ (vgl. Kapitel 7, Abschnitt 7.3). F¨ ur multiple Gruppenvergleiche u ¨ber sehr viele Gruppen sind die M¨ oglichkeiten im Rahmen des Programms Mplus erheblich ausgeweitet worden (vgl. Asparouhov & Muth´en, 2014). 3. Mehrebenenmodelle: Hierarchische Regressionsmodelle haben insbesondere in der empirischen Bildungsforschung und in der Analyse sozialer Kontexte eine anerkannte Tradition (vgl. z. B. Boyd & Iverson, 1979). Der Modellansatz baut auf der klassischen Regressionsgleichung auf und modelliert die Variation der Regressionsparameter nach hierarchisch angeordneten Kontexten. Modelle mit zwei und drei Ebenen (z. B. Sch¨ uler in Klassen und Schulen) sind heute in empirischen Anwendungen weit verbreitet (vgl. auch die Beispiele in Engel, 1998, S. 73f.). F¨ ur Modelle mit manifesten Variablen werden komfortable Software-L¨osungen vertrieben (z. B. MLwiN, vgl. Goldstein et al., 1998).10 Die Erweiterung dieser Regressionsmodelle zu multilevel path models wird ausf¨ uhrlich in dem Lehrbuch von Hox (2010) diskutiert. Strukturgleichungsmodelle mit mehreren Ebenen setzen voraus, daß eine separate Modellierung der Kovarianzstruktur innerhalb der Gruppen (z. B. Sch¨ uler einer Klasse) und zwischen den Gruppen (z. B. Klassen einer Schule) m¨oglich ist. Wenn davon ausgegangen werden kann, daß die Gruppen relativ gleich groß sind, kann der pseudo-balanced approach von B. O. Muth´en (1997) verwendet werden. Die Programme EQS (ab Version 6) und Mplus erm¨ oglichen eine direkte Sch¨atzung der withinund between-Modelle. Auch wenn klassische Regressionsmodelle f¨ ur hierarchische 10
Auch im Programm Mplus lassen sich klassische Mehrebenenmodelle mit manifesten Variablen realisieren (vgl. L. K. Muth´en & Muth´en, 1998–2012).
16
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen ¨ Datenstrukturen nicht in diesem Buch thematisiert werden, wird die Aquivalenz zwischen Mehrebenenmodellen f¨ ur L¨ angschnittdaten und den Wachstumsmodellen in Kapitel 9, Abschnitt 9.1.6 vorgestellt.
4. L¨ angsschnittmodelle und die Untersuchung von Entwicklungsprozessen: Stabilit¨at und Ver¨ anderung von latenten und manifesten Variablen k¨onnen durch L¨angsschnittinformationen (Paneldaten) untersucht werden. Mit Hilfe von autoregressiven Strukturgleichungsmodellen (Markov-Modellen) ist eine Differenzierung nach Stabilit¨ at und Ver¨ anderung der latenten Variablen einerseits und nach unsystematischen Meßfehlern in den manifesten Variablen andererseits m¨oglich (vgl. Engel & Reinecke, 1994). Dies gilt aber nur, wenn mehr als eine manifeste Variable der entsprechenden latenten Variablen pro Meßzeitpunkt zugeordnet werden kann. Diese werden in Anlehnung an Blalock (1968) auch als multiple Indikatorenmodelle bezeichnet. Zeitverz¨ ogerte und autoregressive Effekte k¨onnen in den MarkovModellen differenziert werden. Die Stabilit¨at des Meßmodells kann durch geeignete Restriktionen u uft werden. Konfirmatorische Faktorenmodelle und Struktur¨berpr¨ gleichungsmodelle u ¨ber jeweils drei Panelwellen werden hier exemplarisch er¨ortert (vgl. Kapitel 6, Abschnitt 7.7.3 und Kapitel 8, Abschnitt 8.3.4). F¨ ur die Analyse von Entwicklungsprozessen u ¨ber die Zeit werden Strukturgleichungsmodelle ben¨ otigt, die nicht nur individuelle Entwicklungsparameter ber¨ ucksichtigen, sondern auch die Variation dieser Entwicklungen in der Untersuchungspopulation aufzeigen. Hierzu werden neben der Kovarianzmatrix die Mittelwertinformationen der manifesten Variablen herangezogen, um interindividuelle und intraindividuelle Entwicklungstendenzen zu modellieren. Diese Modelle werden als Wachstumsmodelle (growth curve models) bezeichnet (vgl. Kapitel 9, Abschnitt 9.1). B. O. Muth´en und Shedden (1999) und B. O. Muth´en (2001) stellen eine Erweiterung des Wachtumsmodell durch einen Mischverteilungsansatz vor, der gleichzeitig mit der Sch¨ atzung der Parameter die unbeobachtete Heterogenit¨at in den Daten ber¨ ucksichtigt. Diese unbeobachtete Heterogenit¨at wird durch eine latente, kategoriale Variable erfaßt, die innerhalb eines latenten Klassenmodells eingebettet ist. Das Mischverteilungsmodell beinhaltet sowohl ein konventionelles Strukturgleichungsmodell mit kontinuierlichen Variablen als auch ein kategoriales Modell zur Identi¨ fikation inhaltlich relevanter Subgruppen (vgl. f¨ ur einen Uberblick B. O. Muth´en, 2002, 2004). Mischverteilungsmodelle werden in Kapitel 9, Abschnitt 9.2 er¨ortert. 5. Modelle unter Beru ungster Zeit sind Ver¨ cksichtigung fehlender Werte: In j¨ fahren entwickelt worden, die eine ML-Sch¨atzung der Kovarianzmatrix unter Ber¨ ucksichtigung fehlender Werte vornehmen. Diese Matrix wird dann als Datenbasis f¨ ur das zu untersuchende Strukturgleichungsmodell verwendet. Erfreulicherweise stehen die verschiedenen Techniken mittlerweile in den meisten Programmen zur Verf¨ ugung. Weitere Techniken sind eher modellunabh¨angig und sind als datenbasierte Verfahren zur Behandlung fehlender Werte bekannt geworden. Hierzu z¨ahlt die urspr¨ unglich von Rubin (1987) entwickelte Technik der mehrfachen Ersetzung
2.5 Methodische Weiterentwicklungen
17
fehlender Werte, die als multiple imputation bezeichnet wird. Modellabh¨angige und modellunabh¨angige Techniken im Umgang mit fehlenden Werten Werten in Strukturgleichungsmodellen werdeb ausf¨ uhrlich in Kapitel 8, Abschnitt 8.4 vorgestellt. Eine Reihe von speziellen Modellierungen sollen in diesem Buch nicht ausf¨ uhrlich behandelt werden, da sie nur f¨ ur einen relativen kleinen Anwenderkreis interessant sind und in einigen F¨allen sehr komplexe Modellspezifikationen erforden. Hierzu geh¨oren nichtlineare Ans¨atze im Rahmen der Konstruktion von Interaktionsmodellen, die Bedeutung von Bootstrap-Methoden11 und bayesianische Ans¨atze f¨ ur Strukturgleichungsmodelle. Auf die relevante Literatur wird jeweils verwiesen: 1. Interaktionsmodelle: Kenny und Judd (1984) geh¨orten zu den ersten, die die Modellierung von latenten Interaktionsvariablen in Strukturgleichungsmodellen vorgeschlagen haben. Aufwendige Modellierungstechniken mit latenten Variablen ohne jeweils manifeste Gr¨ oßen12 geh¨ oren mittlerweile der Vergangenheit an (siehe beispielsweise Hayduk, 1987). Die Modellspezifikation mit latenten Interaktionsvariablen erfordert im sogenannten constrained approach (vgl. J¨oreskog & Yang, 1996; Algina & Moulder, 2001) nicht-lineare Restriktionen, deren technische Umsetzung f¨ ur die empirische Praxis relativ aufwendig ist (vgl. beispielsweise die Spezifikationen mit dem Programm LISREL in Yang Jonsson, 1998). Demgegen¨ uber kann im sogenannten unconstrained approach (vgl. Marsh, Wen & Hau, 2004) nicht nur auf diese nicht-linearen Restriktionen verzichtet werden, es werden sogar bessere Modellergebnisse im Vergleich zum constrained approach erreicht, wenn die Normalverteilungsannahmen nicht oder nur teilweise erf¨ ullt werden. Zu einer weiteren wesentlichen Vereinfachung zur Modellierung von Interaktionseffekten in Strukturgleichungsmodellen hat der sogenannte latent moderated structural equations approach (LMS) (vgl. Klein & Moosbrugger, 2000) gef¨ uhrt, der im Programm Mplus implementiert ist und im Vergleich zum constrained approach robustere Simulationsergebnisse zeigt (vgl. beispielswiese Schermelleh-Engel, Klein & Moosbrugger, 1998; Dimitruk, Schermelleh-Engel, Kelava & Moosbrugger, 2007). Neuere Diskussionen beziehen sich auf M¨ oglichkeiten, Interaktionsvariablen in L¨angsschnitt- und Wachstumsmodellen zu ber¨ ucksichtigen, wobei auch hier Vergleiche zwischen den genannten Ans¨ atzen vorgenommen werden (vgl. F. Li, Duncan & Acock, 2000; Lin, Wen, Marsh & Lin, 2010; Wen et al., 2014). Bevor mit der aufwendigen Implementation von latenten Interaktionsvariablen begonnen wird, k¨onnen auch im Rahmen eines multiplen Gruppenvergleichs Hinweise auf Interaktionseffekte ermittelt werden. Technische und inhaltliche Unterschiede zwischen multiplen Gruppenverglei11
Bootstraps sind die Schlaufen an Cowboy-Stiefeln, an denen man die Stiefel hochzieht. So wie sich Baron M¨ unchhausen am eigenen Schopf aus dem Sumpf zieht, so versucht man mit Bootstrap-Verfahren in der Statistik eine Pr¨ ufverteilung f¨ ur den errechneten Modellfit durch Resimulation der eigenen Daten zu ermitteln. 12 Diese latenten Variablen werden auch als phantom variables bezeichnet (vgl. Rindskopf, 1984).
18
2 Die Entwicklung der statistischen Modellbildung mit Strukturgleichungen chen und latenten Interaktionsmodellen sind hierbei zu beachten (vgl. Yang Jonsson, 1997; Reinecke, 1999, 2001, 2002).
2. Bootstrap-Methoden: Unter Vorgabe der Parameter f¨ ur ein spezifisches Strukturgleichungsmodell k¨ onnen mit Hilfe eines Zufallszahlengenerators Daten erzeugt werden, die zu dem Modell passen. Hat man f¨ ur einen empirischen Datensatz die Parameter des Modells gesch¨ atzt, so l¨ aßt sich eine Simulation mit diesen Parametersch¨atzungen vornehmen. Wird die Simulation auf die empirischen Daten bezogen (d. h. n-Stichproben aus dem Gesamtdatensatz mit Umfang N ), dann wird die¨ se resampling-Technik als Bootstrap-Verfahren bezeichnet (einen Uberblick u ¨ber Bootstrap-Verfahren geben Efron & Tibshirani, 1993). Die Stabilit¨at der Modellanpassung kann durch ein von Bollen und Stine (1992) speziell entwickeltes BootstrapVerfahren u uft werden. Hierzu wird durch Resimulation eine Pr¨ ufverteilung ¨berpr¨ f¨ ur den errechneten Modellfit ermittelt und getestet, inwieweit die modellimplizierte Verteilung von der Populationsstatistik abweicht (f¨ ur eine Anwendung vgl. Reinecke & Schneider, 1999). Bootstrap-Verfahren k¨onnen auch zur Ermittlung korrekter Standardfehler bei indirekten Effekten eingesetzt werden (vgl. Kapitel 8, Abschnitt 8.1.4). Diese M¨ oglichkeit ist im Programm Mplus implementiert und wird ausschließlich anhand eines inhaltlichen Beispiels gezeigt (vgl. Kapitel 8, Abschnitt 8.3.1). 3. Bayesianische Ans¨ atze: B. O. Muth´en und Asparouhov (2012) haben in einem ¨ Uberblicksartikel die M¨ oglichkeiten zur Berechnung von konfirmatorischen Faktorenmodellen und Strukturgleichungsmodellen unter Verwendung der Bayes-Statistik vorgestellt.13 Hierbei geht es in erster Linie darum, die mit den Daten nicht immer u ¨bereinstimmenden Parameterrestriktionen aufzuheben und die Spezifikation so zu setzen, daß sie theoriekonformer u uft werden k¨onnen. Als Beispiel k¨onnen hier ¨berpr¨ Faktorenladungen genannt werden, die auf Grund der u ¨berlicherweise eindimensionalen Meßmodelle a priori auf Null gesetzt werden. Mit Maximum-LikelihoodVerfahren ist eine Zulassung vieler zus¨ atzlicher Faktorenladungen ( Fehlladungen“) ” aus Identifikationsgr¨ unden oft nicht m¨ oglich. Durch die Bayes-Statistik ist aber nach bestimmten Vorgaben auch ein Test m¨ oglich, ob diese Fehlladungen“ nicht exakt ” Null sondern nur ann¨ ahernd Null sind. Die Modellmodifikationsm¨oglichkeiten werden so erheblich ausgeweitet. Die Bayes-Statistik f¨ ur Strukturgleichungsmodelle ist im Programm Mplus ab der Version 7 implementiert. Weitere empirisch orientierte Beitr¨age mit Strukturgleichungsmodellen zeigen Kaplan und Depaoli (2012), Zyphur und Oswald (2013), Fong und Ho (2013) sowie van de Schoot et al. (2013). Die in den Kapiteln 5, 6, 7, 8 und 9 vorgestellten Modelle orientieren sich weitgehend an dem verallgemeinerten Modellierungsansatz (vgl. Bentler & Weeks, 1980; Graff & Schmidt, 1982) und der von Karl J¨ oreskog und Dag S¨orbom seinerzeit eingef¨ uhrten LISREL-Notation, die in den meisten Lehrb¨ uchern verwendet wird (Bollen, 13
Auf Grundannahmen der Bayes-Statistik wird im Rahmen der Imputationsmodelle in Kapitel 8, Abschnitt 8.4.3 eingegangen.
2.5 Methodische Weiterentwicklungen
19
1989; Schumacker & Lomax, 2004; Kaplan, 2009; Mulaik, 2009; Kline, 2011). Die jeweiligen Beispiele sind mit den Programmen Mplus und lavaan berechnet worden. Die Eingabesyntax von ausgew¨ ahlten Beispielen sind jeweils in den Anh¨angen der Kapitel zur Verdeutlichung aufgef¨ uhrt. Weitere Programmbeispiele k¨onnen unter www.degruyter.com/books/978-3-486-70576-8 abgerufen werden. Die Beispiele k¨onnen leicht auch in andere Programme u uhrt werden (vgl. hierzu Kapitel 10). Der ¨berf¨ didaktische Aufbau des Lehrbuches orientiert sich an der syntaxorientierten Programmstruktur von Mplus und lavaan. Die M¨ oglichkeiten eines alternativen men¨ uorientierten Aufbaus der zu pr¨ ufenden Modellstruktur ist im Programm Mplus aber auch in anderen Programmen (AMOS, EQS, LISREL) m¨ oglich. Dem Nutzer bleibt es freigestellt, davon Gebrauch zu machen.
3
Erhebungsdesigns, Daten und Modelle
3.1
Erhebungsdesigns
¨ Zur empirischen Uberpr¨ ufung theoretischer Konzepte und den damit verbundenen Forschungsfragen ist es f¨ ur sozialwissenschaftliche Untersuchungen vor der Entwicklung eines Meßinstrumentes notwendig, festzulegen, welches Erhebungsdesign hierzu geeignet ist. Beziehen sich die Forschungsfragen auf einen Zeitpunkt, wird ein einmaliger Einsatz des Meßinstrumentes hierzu ausreichen. Werden zeitbezogene Hypothesen aufgestellt, die Aussagen u ¨ber soziale Prozesse oder sozialen Wandel machen, ist der mehrmalige Einsatz des Meßinstrumentes erforderlich. Fragestellungen, die die Analyse von Ver¨ anderungen interessierender Merkmale beinhalten sowie deren zeitliche Abfolge, sind die wesentlichsten Gr¨ unde f¨ ur L¨angsschnittuntersuchungen. Streng genommen setzen Kausalanalysen mit Strukturgleichungsmodellen immer eine zeitliche Abfolge zwischen Ursache und Wirkung bzw. zwischen unabh¨angigen Variablen und abh¨ angigen Variablen voraus. Diese zeitliche Abfolge ist bei Querschnittinformationen oft nicht erreichbar oder muß angenommen werden. Beispielsweise setzt die Pr¨ ufung der kausalen Wirkung des Bildungsabschlusses auf die Einstellung gegen¨ uber Ausl¨ andern bei Querschnittdaten voraus, daß der Bildungsabschluß der dokumentierten Einstellung zeitlich vorausgeht. Grunds¨atzlich unterscheiden sich Erhebungsdesigns nach dem zeitlichen Modus. Bei einem Meßzeitpunkt (t = 1) handelt es sich um ein Querschnittdesign, d. h. es werden einmal x1 , x2 , . . . xj Variablen bei n Untersuchungseinheiten erhoben. Bei mehr als einem Meßzeitpunkt (t > 1) handelt es sich um ein L¨ angsschnittdesign, d. h. es werden zu t1 , t2 , . . . xT Meßzeitpunkten x1 , x2 , . . . xj Variablen bei n Untersuchungseinheiten erhoben. Das L¨angsschnittdesign l¨ aßt sich weiter differenzieren in das Trenddesign und das Paneldesign. Im Trenddesign werden x1 , x2 , . . . xj Variablen zu t1 , t2 , . . . xT Zeitpunkten mit jeweils neuen Stichproben der gleichen Grundgesamtheit erhoben. Die n Untersuchungseinheiten unterscheiden sich zwischen den Meßzeitpunkten T . Diese Vorgehensweise entspricht einem regelm¨aßig wiederholten Querschnittdesign (vgl. Menard, 2002, S. 25). Wird der zeitliche Verlauf u ucksichtigt, so lassen sich u ¨ber ein Trenddesign ber¨ ¨ber den Beobachtungszeitraum aggregierte Werte (z. B. Einkommensmittelwerte) miteinander ver-
22
3 Erhebungsdesigns, Daten und Modelle
gleichen. Trenderhebungen geben auf der Aggregatebene Informationen u ¨ber mehrere Querschnitte. Die Allgemeine Bev¨ olkerungsumfrage der Sozialwissenschaften (ALLBUS) ist ein Beispiel f¨ ur eine Trendstudie. Sie dient dem Ziel, Daten f¨ ur die empirische Sozialforschung zu erheben und allgemein zug¨ anglich bereitzustellen. Seit 1980 wird alle zwei Jahre eine Zufallsstichprobe der Bev¨ olkerung der Bundesrepublik mit einem teils konstanten, teils variablen Fragenprogramm befragt. Zwischen 1980 und 1990 umfaßte die Stichprobe jeweils ungef¨ahr 3.000 Personen aus der Grundgesamtheit der wahlberechtigten Bev¨olkerung in Privathaushalten der alten Bundesrepublik inklusive West-Berlins. Seit 1991 umfaßt die Grundgesamtheit der ALLBUS-Studien die erwachsene Wohnbev¨olkerung in Privathaushalten in West- und Ostdeutschland. Seit 1992 betr¨agt die angestrebte Zahl der befragten Personen 2.400 in West- und 1.100 in Ostdeutschland. Damit sind Personen aus Ostdeutschland u asentiert, um eine ausreichende Datenbasis f¨ ur den ¨berrepr¨ ostdeutschen Kontext zu erhalten. Die Stichproben der Umfragen in den Jahren 1980 bis 1992 sowie 1998 wurden nach dem Stichprobendesign der Arbeitsgemeinschaft deutscher Marktforschungsinstitute (ADM) gebildet. Dieses Design besteht aus drei Auswahlstufen: Wahlbezirke, Haushalte und Personen. In den Jahren 1994 und 1996 sowie in allen Erhebungen seit dem Jahre 2000 ist eine Stichprobe aus den Einwohnermelderegistern verwendet worden. Hierbei wird mit zwei Auswahlstufen gearbeitet: Gemeinden und Personen. Die Replikation von Fragekomplexen aus dem ALLBUS erm¨oglicht die Analyse von Entwicklungsprozessen und gesellschaftlichem Wandel. F¨ ur die Analyse von Trends steht ein speziell zusammengestellter kumulierter Datensatz zur Verf¨ ugung, der s¨amtliche Merkmale enth¨ alt, die mindestens zweimal im Rahmen der ALLBUS-Studien erhoben wurden.1 Die Anwendung von multivariaten Verfahren mit Daten des ALLBUS wird in vielen Beitr¨ agen in dem Band von Wolf und Best (2010) verdeutlicht. Ein Beitrag dieses Bandes diskutiert ein Strukturgleichungsmodell mit Daten des ALLBUS aus dem Jahre 2006 zeigen Reinecke und P¨ oge (2010). Im Paneldesign werden x1 , x2 , . . . xj Variablen zu t1 , t2 , . . . xT Zeitpunkten auf der Grundlage einer identischen Stichprobe erhoben. Die n Untersuchungseinheiten sind zu allen Meßzeitpunkten T identisch. In speziellen Varianten des Paneldesigns sind die Untersuchungseinheiten nicht immer identisch. Bei einem alternierenden Panel wird die Stichprobe in Subgruppen eingeteilt, die dann abwechselnd in den Panelwellen befragt werden. Bei einem rotierenden Panel wird die Stichprobe in so viele Gruppen aufgeteilt, wie Panelwellen geplant sind. Bei jeder Panelwelle scheidet eine der bisherigen Gruppen aus und wird durch eine neue Gruppe ersetzt (vgl. Schnell et al., 2011, S. 235). Wird f¨ ur die L¨angsschnittbetrachtung ein Paneldesign zugrunde gelegt, dann k¨onnen auch individuelle Ver¨ anderungen (z. B. in der Einkommensentwicklung) betrachtet werden. Das Paneldesign ist in der Regel dadurch charakterisiert, daß die Studien aus einer 1
Die Daten der einzelnen Erhebungen sowie der kumulierte Datensatz sind u ¨ber die Webseite der Gesellschaft sozialwissenschaftlicher Infrastruktureinrichtungen (GESIS) kostenlos erh¨ altlich (http://www.gesis.org/allbus/).
3.1 Erhebungsdesigns
23
gr¨oßeren Zahl von F¨ allen bestehen, f¨ ur die Informationen zu relativ wenigen Meßzeitpunkten (t ≥ 2) erhoben werden (vgl. z. B. Rogosa, 1980, S. 153f.). Eine Gemeinsamkeit von Panel- und Trenddesign besteht darin, daß sie als Forschungsdesign im Zeitablauf die Realisierung wiederholter Stichprobenerhebungen beinhalten. Der wesentliche Unterschied zwischen beiden Designs besteht darin, daß in einer Panelstudie dieselben Personen wiederholt befragt werden, wohingegen mit einer Trendstudie aus ein und derselben statistischen Grundgesamtheit in bestimmten Zeitabst¨anden wiederholt unabh¨angige Zufallsstichproben gezogen werden. Diese Stichproben repr¨asentieren dann im Prinzip dieselbe Population zu den jeweiligen Zeitpunkten, ohne allerdings die gleichen Untersuchungseinheiten zu beinhalten. Das Sozio-¨okonomische Panel (SOEP) ist ein Beispiel f¨ ur eine Panelstudie. Die bedeutsamste und umfangreichste repr¨ asentative Wiederholungsbefragung privater Haushalte in Deutschland wird im j¨ ahrlichen Rhythmus seit 1984 bei denselben Personen und Familien in der Bundesrepublik durchgef¨ uhrt. Im Jahre 1990 wurde die Studie auf das Gebiet der neuen Bundesl¨ ander ausgeweitet. Die Stichprobengrundlage sind Haushalte in der Bundesrepublik Deutschland. Alle Haushaltsmitglieder werden systematisch erfaßt. Wird aus einem bestehenden Haushalt ein neuer Haushalt gegr¨ undet, dann wird versucht, auch diesen neuen Haushalt in die laufenden Erhebungen des SOEP einzubeziehen. Grunds¨atzlich unterscheiden sich die Datens¨atze des SOEP nach Haushalten und nach den Personen aus diesen Haushalten. Die Datens¨atze geben sowohl Auskunft u ¨ber objektive Lebensbedingungen, als auch u ¨ber Pers¨onlichkeitsmerkmale, Wertvorstellungen, Risikoeinstellungen und u angigkeiten zwischen verschiedenen Lebensbe¨ber Abh¨ reichen (z. B. Familie, Schule, Beruf) sowie deren Ver¨anderungen. Mit Hilfe des SOEP k¨onnen eine Vielzahl sozial- und wirtschaftswissenschaftlicher Theorieans¨atze u uft ¨berpr¨ 2 werden. In der Literaturdatenbank des SOEP sind alle Ver¨offentlichungen aufgelistet, die Daten des SOEP verwenden. Strukturgleichungsmodelle mit Paneldaten aus den Jahren 1985 bis 1989 diskutieren Reinecke, Schmidt und Weick (2005). Der Informationsgehalt der Studien steigt vom Querschnitt- u ¨ber das Trend- zum Paneldesign (vgl. Diekmann, 2007, S. 306): Panelerhebungen beinhalten mehr Informationen als Trenderhebungen und diese sind wiederum informativer als einzelne Querschnitterhebungen. Die Einkommensverteilung der befragten Personen kann im Querschnittdesign ¨ nur zu einem Zeitpunkt betrachtet werden. Uber mehrere Zeitpunkte kann aber auch der Trend der Einkommensentwicklung auf der Aggregatebene untersucht werden. Erst durch das Paneldesign ist es m¨ oglich, neben der Aggregatebene zus¨atzlich die individuelle Ver¨anderung des Einkommens zu analysieren. Mit dem Informationsgehalt steigt allerdings auch der Erhebungs- und Kostenaufwand: Panelerhebungen sind durch die meist intensive Pflege der Stichprobe f¨ ur die wiederholte Befragung kostenintensiver als Trenderhebungen, deren Kosten im wesentlichen durch die Ziehung neuer Stichproben und die sich jeweils anschließenden Befragungen gekennzeichnet sind. 2
Die Datens¨ atze sind nach Abschluß eines Nutzervertrages u ur ¨ber das Deutsche Institut f¨ Wirtschaftsforschung (DIW) erh¨ altlich (http://www.diw.de/soep/).
24
3 Erhebungsdesigns, Daten und Modelle
Das Problem fehlender Werte bei Paneldaten soll an dieser Stelle nicht unerw¨ahnt bleiben, das sich im Unterschied zu Querschnittstudien noch in einer weiteren Variante stellt, n¨amlich in Form des sukzessiven Ausfalls von Unterschungseinheiten. Diese Art von Datenausfall wird auch als Panelmortalit¨ at bezeichnet. Werden diese Ausf¨alle durch einen systematischen Prozeß generiert, dann k¨onnen sie einen erheblichen Einfluß auf die gewonnenen Ergebnisse haben (vgl. Engel & Reinecke, 1994, S. 253f. und die Ausf¨ uhrungen in Kapitel 8, Abschnitt 8.4 sowie Kapitel 9, Abschnitt 9.1.5). F¨ ur Panel- wie Trendstudien ist kennzeichnend, daß die untersuchten Auswahlen von Untersuchungseinheiten dieselbe Grundgesamtheit repr¨asentieren. Je gr¨oßer allerdings der durch die Studie erfaßte Zeitrahmen wird, desto weniger wahrscheinlich wird von einer im Zeitablauf unver¨ andert bleibenden Population auszugehen sein. Dies wird bei Betrachtung großer Zeitr¨ aume besonders deutlich: Bei einem Vergleich zweier f¨ ur die bundesdeutsche Bev¨ olkerung repr¨ asentativer Samples aus dem Jahre 1980 und aus dem Jahre 2000 werden sich diese Stichproben nur bedingt auf die gleiche Grundgesamtheit beziehen. Im Jahre 2000 besteht die Population zum Teil aus anderen Personen als 1980, einige Geburtsjahrg¨ ange kommen neu hinzu, andere fallen weg. F¨ ur Panelstudien, die u ber lange Zeitr¨ a ume existieren, kann es sinnvoll sein, Erg¨ a nzungsstichproben zu ziehen, ¨ um neue Jahrg¨ange der Grundgesamtheit zu erfassen. So wurden die Daten des SOEP, durch Erg¨anzungsstichproben in den Jahren 1998 und 2000 erweitert. Damit sollte eine bessere Repr¨asentativit¨ at der aktuellen Grundgesamtheit gew¨ahrleistet werden (vgl. SOEP Group, 2001, S. 8). Weitere zus¨ atzliche Stichproben wurden in den Jahren 1998, 2000, 2002 und 2006 in die laufende Erhebung des SOEP integriert.
Jahrg. j j4 j3 j2 j1 t1
t2
t3
t4
Zeitpunkt t
Abb. 3.1: Kombiniertes Kohorten- und L¨ angsschnittdesign
Eine sich ver¨andernde Populationszusammensetzung kann auch u ¨ber ein zus¨atzliches Kohortendesign explizit ber¨ ucksichtigt werden. Eine vergleichende L¨angsschnittanalyse unterschiedlicher Alterskohorten wird damit m¨oglich. Abbildung 3.1 verdeutlicht drei
3.2 Daten und Modelle
25
Arten von Vergleichen, die im Rahmen eines zeitsequentiellen Kohortendesigns durchgef¨ uhrt werden k¨onnen. Zum ersten ist der Vergleich im zeitlichen Querschnitt m¨oglich. Zu einem gegebenen Zeitpunkt werden j¨ ungere und ¨altere Personen in bezug auf ein interessierendes Merkmal verglichen, z. B. Personen des Jahrgangs j1 mit Personen des Jahrgangs j3 . Des weiteren kann ein Kohortenvergleich vorgenommen werden. Personen ein und derselben Alterskategorie werden u ¨ber die verschiedenen Meßzeitpunkte hinweg miteinander verglichen, z. B. Personen des Jahrgangs j1 zu den Zeitpunkten t1 und t2 mit Personen des Jahrgangs j1 zu den Zeitpunkten t3 und t4 . Ein dritter Vergleich in diachroner Perspektive kann innerhalb der jeweiligen Kohorte vorgenommen und deren Entwicklung u ¨ber zwei oder mehr Zeitpunkte beschrieben werden. Wird zu jedem Zeitpunkt eine neue Stichprobe gezogen, dann repr¨ asentiert ein Kohortendesign eine Serie von Trendstudien. Die wiederholte Befragung des urspr¨ unglichen Samples f¨ uhrt zu einer Serie von Panelstudien.3
3.2
Daten und Modelle
Die Er¨orterung der unterschiedlichen Erhebungsdesigns verdeutlicht, daß f¨ ur bestimmte Fragestellungen ein Querschnittdesign nicht ausreichend ist. Wenn aber ein L¨angsschnittdesign erforderlich wird, stellt sich die Frage, ob Trend- oder Paneldaten erhoben werden sollten. Wird zur Beantwortung dieser Frage als Maßstab die Erkl¨ arbarkeit von Stabilit¨ at und Ver¨ anderung herangezogen, so ist zur Beurteilung der relativen Erkenntnisleistung von Panel- und Trenddesign zu beachten, daß Stabilit¨at und Ver¨anderung nicht nur auf verschiedenen Ebenen auftreten k¨onnen. Die Stabilit¨at auf der Aggregatsebene ist auch Ausdruck des Zusammenwirkens individueller Ver¨anderungen. Ob beispielsweise die berufliche Mobilit¨ at individueller Akteure die berufliche Struktur der Gesellschaft ver¨andert, h¨ angt davon ab, ob bzw. wie sehr sich gegenl¨aufige Mobilit¨atsformen die Waage halten. Nicht selten ist ein hohes Maß an Zustands¨anderungen auf individueller Ebene mit nur geringen Ver¨ anderungen im sozialen Aggregat, also einer hohen Aggregatstabilit¨ at, verbunden. Bezeichnen wir das Ausmaß an individueller Veranderung und dasjenige auf der Aggregatebene als ¨anderung im System als Bruttover¨ Nettover¨anderung, so ist der Vorteil von Panelstudien, daß sie beide Formen der Veronnen. Trendstudien k¨onnen demgegen¨ uber ¨anderung im Zusammenhang analysieren k¨ nur die Nettover¨anderung ermitteln (vgl. Caplovitz, 1983, S. 338). Die Eingabeinformationen f¨ ur Strukturgleichungsmodelle sind Zusammenhangsmaße, wie Kovarianzen oder Korrelationen (vgl. Kapitel 4). Mittelwerte werden f¨ ur einige Modellarten zus¨atzlich ben¨ otigt. Bei Trenddaten liegen diese Informationen innerhalb der einzelnen Querschnitte vor. F¨ ur jeden Meßzeitpunkt kann daher ein Strukturgleichungsmodell berechnet werden. Bedeutsame Unterschiede zu reinen Querschnittdaten 3
Eine detaillierte Diskussion des Kohortendesigns ist in Hagenaars (1990, Kap. 7) zu finden. Die Kombination von Kohorten- und Paneldesign liegt beispielsweise der Arbeit von Engel und Hurrelmann (1994) zugrunde.
26
3 Erhebungsdesigns, Daten und Modelle
existieren nicht. Daher wird auch in den Kapiteln 5 bis 8 bei den berechneten Beispielen nicht gesondert auf das Trenddesign eingegangen. F¨ ur einen Teil der Beispiele in Kapitel 8 werden Paneldaten ben¨ otigt, die in Kapitel 9 er¨orterten Wachstums- und Mischverteilungsmodelle sind nur mit Paneldaten zu berechnen.
¨ Tab. 3.1: Ubersicht u ¨ber Designs, Daten und Modelle Design
Daten ALLBUS
Pfadmodelle (Kapitel 5, Abschnitt 5.2)
CRIMOC
Meßmodelle (Kapitel 6, Abschnitt 6.7)
CRIMOC
Konfirmatorische Faktorenmodelle (Kapitel 7, Abschnitt 7.1)
CRIMOC
Strukturgleichungsmodelle mit latenten Variablen (Kapitel 8)
CRIMOC
Pfadmodelle (Kapitel 5, Abschnitt 5.4)
CRIMOC
Konfirmatorische Faktorenmodelle (Kapitel 7), Abschnitt 7.4)
CRIMOC
Strukturgleichungsmodelle mit latenten Variablen (Kapitel 8, Abschnitt 8.2)
CRIMOC
Wachstumsmodelle (Kapitel 9, Abschnitt 9.1)
CRIMOC
Mischverteilungsmodelle (Kapitel 9, Abschnitt 9.2)
Querschnitt
Querschnitt
Panel
Modelle
Panel
Erl¨ auterungen zu den Daten folgen im Text.
¨ Tabelle 3.1 gibt eine Ubersicht u ¨ber die im wesentlichen verwendeten Datens¨atze (ALLBUS und CRIMOC), aus denen verschiedene Variablen und Skalen ausgew¨ahlt wurden, um die verschiedenen Modelle in den jeweiligen Kapiteln beispielhaft zu erl¨autern. Bei einzelnen, speziellen Modellspezifikationen (z. B. das Multitrait-Multimethod-Design in Kapitel 7, Abschnitt 7.7.3) ist auf anderes Datenmaterial zur¨ uckgegriffen worden.
3.2 Daten und Modelle
27
Die Forschungsstudie Jugendkriminalit¨ at in der modernen Stadt“ (CRIMOC) ist ei” ne L¨angsschnittuntersuchung, die auf wiederholten Befragungen von Jugendlichen zwischen 13 und 16 Jahren basiert.4 Einer der wesentlichen Ziele dieses Projektes ist die Untersuchung der Entstehung, Entwicklung und des Verlaufs von deviantem und delinquentem Verhalten von Jugendlichen und mittlerweile jungen Erwachsenen unter Ber¨ ucksichtigung formeller und informeller Kontrollinstanzen. Zu den formellen Kontrollinstanzen z¨ahlen die Polizei und die Justiz, zu den informellen die Familie, der Freundeskreis (peer groups) und die Schule. Die Studie wurde (und wird) in zwei St¨adten in Westdeutschland (M¨ unster und Duisburg) durchgef¨ uhrt und beinhaltet Alterskohorten der 7. und 9. Jahrgangsstufe. Das Erhebungsdesign f¨ ur die Studie zeigt Abbildung 3.2.
Alter (Jhg.) 24
Duisburg
22
Duisburg
20
Duisburg
19 (13)
Duisburg
18 (12) 17 (11)
Duisburg Münster Bocholt Münster Duisburg
16 (10) 15 (9)
Münster Bocholt
14 (8) 13 (7)
Duisburg
Münster Münster
Münster Duisburg
Duisburg
Duisburg
Duisburg Duisburg
Bocholt
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
2011 2013 Jahr
Abb. 3.2: Erhebungsdesign der CRIMOC-Studie
4
Das interdisziplin¨ are Projekt wird von Prof. Dr. K. Boers (Institut f¨ ur Kriminalwissenschaften der Universit¨ at M¨ unster) und Prof. Dr. J. Reinecke (Fakult¨ at f¨ ur Soziologie der Universit¨ at Bielefeld) geleitet und von der Deutschen Forschungsgemeinschaft seit dem Jahre 2002 finanziert (zum Design der Studie siehe P¨ oge & Wittenberg, 2007). Ausf¨ uhrliche Informationen sind auf der Projekthomepage unter http://www.uni-bielefeld.de/soz/krimstadt zu finden. Zur Bezeichnung des Projektes wird auch das Akronym CRIMOC (Crime in the modern city) verwendet.
28
3 Erhebungsdesigns, Daten und Modelle
Anfang des Jahres 2000 wurde in den weiterf¨ uhrenden Schulen der Stadt M¨ unster mit einer angestrebten Vollerhebung begonnen (n = 1949). Einbezogen wurden Sonder-, Haupt- und Realschulen sowie Gymnasien. In den Jahren 2001 bis 2003 wurde die zweite bis vierte Erhebungswelle mit den 8., 9. und 10. Klassen realisiert (n = 1942, n = 1947 und n = 1819). Der Datensatz u ¨ber vier Panelwellen besteht aus n = 813 Personen. Wenn eine Teilnahme an mindestens zwei Panelwellen vorausgesetzt wird, beinhaltet der entsprechende Paneldatensatz n = 2064 Personen (vgl. zu den Ausfallanalysen Weins & Reinecke, 2007). Die wesentlichsten Ergebnisse sind in einzelnen Beitr¨agen in dem Band von Boers und Reinecke (2007a) zusammengestellt. Die Untersuchung wurde auch einmalig im Jahre 2001 im westlichen M¨ unsterland in der Stadt Bocholt f¨ ur die 7., 9. und 10. Klassen durchgef¨ uhrt (n = 2325). Mit einer zweiten Paneluntersuchung wurde im Jahre 2002 in den weiterf¨ uhrenden Schulen der Stadt Duisburg ab der 7. Klasse (Durchschnittsalter 13 Jahre) begonnen. Hier konnten 61 % der Sch¨ ulerinnen und Sch¨ uler aller Schulformen erreicht werden (n = 3411). Die Erhebung wurde bis zur 9. Klasse als reine Schulbefragung fortgef¨ uhrt. Ab dem Jahre 2004 wurde die Befragung schrittweise (mit Ende der jeweiligen Schullaufbahnen) auf eine postalische Befragung umgestellt. Ab der 10. Klasse im Jahr 2005 fand zus¨atzlich eine postalische Nachbefragung der Personen statt, die inzwischen die Schule verlassen hatten. Seit dem Jahre 2008 wird die Befragung ausschließlich postalisch durchgef¨ uhrt. Gleichzeitig wurde eine pers¨ onliche Nachbefragung der Personen, die postalisch nicht teilnahmen, begonnen. Bis zum 20. Lebensjahr sind die Befragungen j¨ahrlich, seitdem jedes zweite Jahr, bislang bis zum 24. Lebensjahr, wiederholt worden. Mit dem 13. bis 20. Lebensjahr reicht der untersuchte Zeitraum von der sp¨aten Kindheit bis zum sp¨aten ¨ Jugendalter. Uber die Erhebung im Jahre 2013 ist eine weitere Panelwelle im Jahre 2015 geplant. Es wurde sowohl das Dunkelfeld der selbstberichteten Delinquenz (T¨aterbefragung) als auch die Hellfeldkriminalit¨ at anhand von Verfahrenseinstellungen und Verurteilungen aus dem Erziehungs- und Bundeszentralregister erhoben. Die Stichprobengr¨oßen der einzelnen Querschnittsdatens¨ atze sind in Tabelle 3.2 zusammengestellt. F¨ ur die einzelnen m¨oglichen Paneldatens¨ atze ergeben sich unterschiedliche Fallzahlen. Eine ausf¨ uhrliche ¨ Ubersicht der einzelnen m¨ oglichen Paneldatens¨atze bis zu sechs Panelwellen zeigt der Methodenbericht von Pollich (2010). Zur Untersuchung der Entstehungsbedingungen von delinquentem Verhalten wurden Messungen von verschiedenen Konstrukten eingesetzt. Hierzu z¨ahlen Schichtzugeh¨origkeit, famili¨are Erziehungsstile und die Beziehungen zu den Eltern, Freundesgruppen, Partnerschaften und Partnergewalt, das Schulklima, die Ausbildungs- und Berufssituation, das Freizeitverhalten, Musikpr¨ aferenzen, der Medienkonsum, Wertorientierungen, delinquenzbezogene Normorientierungen und Entscheidungspr¨aferenzen, die Wahrnehmung pers¨onlicher Probleme, Gr¨ unde f¨ ur den Delinquenzabbruch und Einsch¨atzungen selbst erfahrener justizieller Entscheidungen. Die bisherigen Untersuchungsergebnisse sind in verschiedenen Aufs¨ atzen zusammengefaßt (vgl. Boers, Seddig & Reinecke,
3.2 Daten und Modelle
29
2009; Boers, Reinecke, Seddig & Mariotti, 2010; Boers et al., 2014; Reinecke & Boers, 2007). Die Datengrundlage f¨ ur die Beispiele in den Kapiteln diese Buches bilden die Querschnitt- und Paneldatens¨ atze aus den Jahren 2002 bis 2009. Eine kurze Beschreibung der verwendeten Paneldatens¨ atze wird in den jeweiligen Kapiteln vorgenommen.
Tab. 3.2: Stichprobengr¨ oßen f¨ ur die Querschnittdatens¨ atze aus den Jahren 2002 bis 2013 Erhebungsjahr
n
2002 (t1 )
3411
2003 (t2 )
3392
2004 (t3 )
3339
2005 (t4 )
3405
2006 (t5 )
4548
2007 (t6 )
3336
2008 (t7 )
3086
2009 (t8 )
3090
2011 (t9 )
3140
2013 (t1 0)
2853
Die hohe Anzahl befragter Personen im Jahre 2006 kommt durch die Ber¨ ucksichtigung von Berufsch¨ ulern zustande, die f¨ ur die Paneldatens¨ atze nicht relevant sind.
4
Statistische Grundlagen fu¨r Strukturgleichungsmodelle
Die Modellbildung mit Strukturgleichungen setzt bestimmte statistische Grundlagen voraus. Da die Modelle in der Regel konfirmatorischen Charakter haben, geh¨oren deskriptive und explorative Analysen der in Betracht zu ziehenden gemessenen Variablen zu den vorbereitenden Arbeiten. In diesem Kapitel werden die grundlegenden statistischen Konzepte f¨ ur Strukturgleichungsmodelle er¨ortert. Hierzu geh¨ort das Meßniveau der Variablen, deren Verteilungen und die Standardisierung (vgl. Abschnitt 4.1). Statistische Zusammenhangsmaße in Form von Kovarianzen und Korrelationen sind die empirischen Gr¨oßen, mit denen die Parameter in Strukturgleichungsmodellen gesch¨atzt werden. Das kategoriale Meßniveau von manifesten Variablen kann u ¨ber geeignete Zusammenhangsmaße, wie die polychorische und die polyserielle Korrelation ber¨ ucksichtigt werden. Die Grundlagen der in den empirischen Anwendungen verbreiteten Korrelationsmaße werden in Abschnitt 4.2 er¨ ortert. Das regressionsanalytische Modell wird sehr oft als Ausgangspunkt weitergehender Modellanalysen mit Strukturgleichungen verwendet. Die Grundlagen der bivariaten Regressionsanalyse und die Erweiterung zur multiplen Regressionsanalyse bilden gewissermaßen die Br¨ ucke“ zur komplexeren Modellbildung der Mehrvariablen- bzw. Pfadanalyse ” (vgl. Kapitel 5). Hierauf wird in Abschnitt 4.3 eingegangen. Abschließend werden in Abschnitt 4.4 die Grundannahmen der klassischen Testtheorie vorgestellt, die eine wesentliche Voraussetzung f¨ ur das Verst¨andnis der in vielen Strukturgleichungsmodellen vorgenommenen Differenzierung von gemessenen (manifesten) und nicht gemessenen (latenten) Variablen bilden. Hierbei wird insbesondere auf die Konsequenzen f¨ ur die Reliabilit¨ at und Validit¨ at von Messungen Bezug genommen, da Meßfehler explizit in der Modellbildung mit Strukturgleichungen ber¨ ucksichtigt werden k¨onnen. Da sozialwissenschaftliche Messungen fehlerbehaftet sind und dennoch inhaltliche Aussagen mit den erhobenen Daten getroffen werden sollen, spielt die Differenzierung zwischen wahren“ und fehlerbehafteten Anteilen in den Verteilungen der Variablen ” eine große Rolle.
32
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
4.1
Meßniveau, Verteilung und Standardisierung
Das Meßniveau der manifesten Variablen in Strukturgleichungsmodellen wird u ¨blicherweise als kontinuierlich, d. h. intervall- oder ratioskaliert, angenommen. Die Skalierung soll eine zufriedenstellende Differenzierung der individuellen Angaben gew¨ahrleisten. Erw¨ unschte statistische Eigenschaften kontinuierlicher Variablen sind neben dem Skalenniveau ihre jeweiligen Verteilungsparameter. Wenn die Schiefe und die Kurtosis der Variablen keine Rolle spielen, dann liegen univariate, normalverteilte Daten vor. Die Schiefe einer Verteilung l¨ aßt sich durch das dritte Potenzmoment (α3 ) bestimmen: N
α3 = ∑ zi3
(4.1)
i=1
Mit z wird die standardisierte Form einer Variablen angegeben (vgl. Gleichung 4.3). Wenn α3 < 0 ist, dann liegt eine rechtssteile bzw. linksschiefe Verteilung vor. Bei einer linkssteilen bzw. rechtsschiefen Verteilung ist α3 > 0. Die Kurtosis einer Verteilung l¨aßt sich durch das vierte Potenzmoment (α4 ) bestimmen: ∑i=1 zi4 −3 N N
α4 =
(4.2)
Wenn α4 < 0 ist, dann liegt eine breitgipflige Verteilung vor. Bei einer schmalgipfligen Verteilung wird α4 > 0 sein. Zu beachten ist, daß sich die Kurtosis nur f¨ ur unimodale Verteilungen sinnvoll interpretieren l¨ aßt (vgl. Bortz, 2005, S. 45). Da aber bei Strukturgleichungsmodellen multivariate Zusammenh¨ange zwischen Variablen untersucht werden, geh¨ ort die multivariate Normalverteilung der Daten zu einer der Anwendungsvoraussetzungen f¨ ur die weit verbreitete Maximum-Likelihood(ML)Diskrepanzfunktion (vgl. Kapitel 6, Abschnitt 6.5). Nur wenn von univariaten Normalverteilungen der manifesten Variablen auszugehen ist, kann eine multivariate Normal¨ verteilung in den Daten vorliegen. Tests zur Uberpr¨ ufung von Schiefe und Kurtosis einer multivariaten Verteilung diskutiert Mardia (1985) und im Zusammenhang mit Strukturgleichungsmodellen Bollen (1989, S. 423f.).1 Verteilungen von Variablen sind nur dann direkt miteinander vergleichbar, wenn die Variablen die gleiche Skalierung aufweisen und die Daten dem gleichen Datensatz entnommen sind. Um Verteilungen von Variablen unterschiedlicher Skalierung oder unterschiedlicher Daten vergleichen zu k¨ onnen, werden diese standardisiert. Dazu werden die Werte einer Variablen (xi ) in sogenannte z-Werte (zi ) transformiert: 1
Im Programm PRELIS werden entsprechende univariate und multivariate Tests berechnet (vgl. J¨ oreskog & S¨ orbom, 1993c, S. 166). PRELIS kann sowohl Systemfiles verschiedener Statistikprogrammpakete als auch Rohdaten verarbeiten und deskriptiv analysieren. Entsprechende Kovarianz- und Korrelationsmatrizen sowie Mittelwertvektoren werden in externen Dateien f¨ ur das Programm LISREL bereitgestellt (vgl. hierzu die Ausf¨ uhrungen und Hinweise in Kapitel 10).
4.2 Statistische Zusammenh¨ ange zwischen Variablen zi =
) (xi − x sx
33 (4.3)
als Mittelwert der Variablen x und sx als Standardabweichung. Der Mittelwert mit x einer standardisierten Variablen ist immer Null (z i = 0) und die entsprechende Standardabweichung ist immer Eins (sz = 1, vgl. Bortz & Schuster, 2010, S. 35). Die Transformation in standardisierte Variablenwerte gibt allen Variablen die gleiche Skala und damit die gleiche Interpretationsgrundlage. Jeder positive bzw. negative z-Wert dr¨ uckt die Differenz vom Mittelwert der Variablen in Form von Standardabweichungen aus.
Werden standardisierte Variablen in Strukturgleichungsmodellen verwendet, dann erh¨alt man standardisierte Parametersch¨ atzungen, deren Werte nur zwischen −1 und +1 variieren k¨onnen. Dieser Fall liegt immer dann vor, wenn Strukturgleichungsmodelle auf der Basis von Korrelationsmatrizen berechnet werden. Die Parametersch¨atzungen unstandardisierter Variablen sind dagegen von der betreffenden Skalierung abh¨angig, so daß ein direkter Vergleich u oße eines Parameters nicht vorgenommen werden ¨ber die Gr¨ kann. Dieser Fall liegt immer dann vor, wenn Strukturgleichungsmodelle auf der Basis von Kovarianzmatrizen berechnet werden. Die standardisierten Parameter m¨ ussen dann mit Hilfe der Standardabweichungen der jeweils beteiligten Variablen aus den unstandardisierten gesch¨atzten Parametern ermittelt werden (vgl. Kapitel 5, Abschnitt 5.2.2 und Kapitel 8, Abschnitt 8.1.3).
4.2
Statistische Zusammenh¨ange zwischen Variablen
In den folgenden Abschnitten werden einzelne Zusammenhangsmaße vorgestellt, die als empirische Information zur Sch¨ atzung von Strukturgleichungsmodellen dienen k¨onnen. Kovarianzen und Produkt-Moment-Korrelationen bilden die Datenbasis f¨ ur die Sch¨atzung von Strukturgleichungsmodellen, die am h¨ aufigsten verwendet werden. Darauf wird in Abschnitt 4.2.1 eingegangen. Kovarianzen und Produkt-Moment-Korrelationen setzen Intervallskalenniveau der manifesten Variablen voraus. Kann dieses Meßniveau nicht angenommen werden, sind ¨ Unter- oder Ubersch¨ atzungen der Kovarianzen bzw. der Produkt-Moment-Korrelationen m¨ oglich. Mit dem Programm PRELIS (vgl. J¨ oreskog & S¨orbom, 1993c, S. 92f.) k¨onnen weitere Zusammenhangsmaße berechnet werden, die Verteilungsmomente und/oder das Meßniveau der zugrundeliegenden Variablen des jeweiligen Modells besser ber¨ ucksichtigen k¨onnen. Hierzu geh¨ ort der kanonische Korrelationskoeffizient, der Rangkorrelationskoeffizient von Spearman, der τc -Koeffizient von Kendall und die polychorische bzw. polyserielle Korrelation (vgl. Abschnitt 4.2.2). Der tetrachorische Korrelationskoeffizient ist ein Spezialfall der polychorischen Korrelation und wird bei dichotomen Variablen ¨ berechnet (vgl. die Ubersicht in Tabelle 4.1).
34
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
J¨ oreskog und S¨ orbom (1993c, S. 8f.) zeigen in einer Simulationsstudie f¨ ur ordinale Variablen, daß die polychorische Korrelation als das beste Zusammenhangsmaß f¨ ur dieses Meßniveau anzusehen ist. Je mehr Kategorien eine ordinale Variable allerdings hat, desto weniger wird die Produkt-Moment-Korrelation untersch¨atzt. Der kanonische Korrelationskoeffizient (vgl. auch Andres, 1996, S. 213) verh¨alt sich ¨ahnlich. Er f¨ uhrt bei kleinen Fallzahlen (z. B. n = 100) zu besseren Sch¨atzungen als der auf Rangpl¨atzen basierende Korrelationskoeffizient von Spearman (vgl. auch Bortz & Schuster, 2010, S. 171f.). In allen durchgef¨ uhrten Simulationen zeigt der auf Paarbildungen beruhende τc -Koeffizient von Kendall die schlechtesten Ergebnisse.
¨ Tab. 4.1: Ubersicht u ¨ber verschiedene Korrelationsmaße Korrelationsmaße
Produkt-Moment-Korrelation (r) Kanonische Korrelation (rc ) Rangkorrelation (rs ) Kendalls τc Polychorische Korrelation (ρpc ) Polyserielle Korrelation (ρps ) Tetrachorische Korrelation (ρtet )
Meßniveau Variable x
Variable y
intervall ordinal ordinal ordinal ordinal intervall dichotom
intervall ordinal ordinal ordinal ordinal ordinal dichotom
Die Verwendung polychorischer und polyserieller Korrelationskoeffizienten in Verbindung mit gewichteten Diskrepanzfunktionen (vgl. hierzu Kapitel 6, Abschnitt 6.5.4) kann mittlerweile als Standard angesehen werden, wenn ein Teil oder alle manifesten Variablen des Strukturgleichungsmodellsals eine geordnete kategoriale Skalierung aufweisen (vgl. Bovaird & Koziol, 2012). Daher werden diese Zusammenhangsmaße einschließlich der tetrachorischen Korrelation in Abschnitt 4.2.2 n¨aher erl¨autert.
4.2.1
Die Kovarianz und die Produkt-Moment-Korrelation
Jede Untersuchungseinheit i liefert ein Paar von Meßwerten f¨ ur zwei Variablen xi und yi , und y ) liegen k¨ die u onnen. Der Abstand ¨ber oder unter ihren jeweiligen Mittelwerten (x )⋅(yi − y ) zum jeweiligen Mittelwert bestimmt die Gr¨ oße der Abweichungsprodukte (xi − x jeder Einheit i. Bei weit u ¨ber- oder unterdurchschnittlichen Werten ergibt sich ein hohes Abweichungsprodukt, bei kleineren Abweichungen ist das Produkt kleiner. Die Summe der Abweichungsprodukte u ur den Grad ¨ber alle Untersuchungseinheiten ist ein Maß f¨ der Kovariation der Meßwerte x und y. Wird diese Summe mit der Untersuchungsgr¨oße N gemittelt, erh¨ alt man die Kovarianz (Bortz & Schuster, 2010, S. 153):
4.2 Statistische Zusammenh¨ ange zwischen Variablen ) ⋅ (yi − y ) ∑i=1 (xi − x N
35
n
cov(x, y) =
(4.4)
Die Kovarianz wird positiv, wenn u ¨berdurchschnittliche bzw. unterdurchschnittliche Werte in den Variablen x und y miteinander korrespondieren. Die Kovarianz wird negativ, wenn u ¨berdurchschnittliche Werte in x unterdurchschnittliche Werte in y entsprechen oder umgekehrt. Ist die Verteilung der Meßwerte in x und y unabh¨angig voneinander, dann wird die Kovarianz gegen Null tendieren. Je positiver bzw. negativer die Kovarianz ist, desto st¨ arker ist der lineare Zusammenhang zwischen den Variablen x und y. Kovarianzen sind allerdings in ihrer Gr¨ oße nicht nur abh¨angig von der St¨arke des Zusammenhangs, sondern auch von dem Merkmalsraum der beiden Variablen x und y. Sind die Variablen unterschiedlich skaliert, eignet sich die Kovariation zur Beurteilung der St¨arke des Zusammenhangs nicht. Hierzu sind feste, von der Skalierung unabh¨angige Unterund Obergrenzen n¨ otig, die durch den Produkt-Moment-Korrelationskoeffizienten rxy erreicht werden. Aus der Division der Kovarianz mit dem Produkt der Standardabweichungen von x und y l¨ aßt sich rxy ermitteln (vgl. Bortz & Schuster, 2010, S. 156):2 rxy =
cov(x, y) (sx ⋅ sy )
(4.5)
Die Ber¨ ucksichtigung der Standardabweichungen kompensiert m¨ogliche Skalierungsunterschiede zwischen beiden Variablen. Wird Gleichung 4.4 in Gleichung 4.5 eingesetzt, so zeigt sich, daß der Korrelationskoeffizient auch als Produkt zweier z-transformierter Variablen dargestellt werden kann (vgl. Bortz & Schuster, 2010, S. 156): )⋅(yi −y ) ∑i=1 (xi −x (n⋅sx ⋅sy ) n
rxy = =
1 n
⋅ ∑ni=1 ( xsi −xx ⋅
yi −y ) sy
(4.6)
Damit wird deutlich, daß die Korrelation ein standardiertes und die Kovarianz ein unstandardisiertes Zusammenhangsmaß ist. Der Wertebereich des Korrelationskoeffizienten liegt zwischen −1 und +1, d. h. bei rxy = +1 ist der Zusammenhang zwischen x und y perfekt positiv und bei rxy = −1 ist der entsprechende Zusammenhang perfekt negativ.
4.2.2
Die polychorische, tetrachorische und die polyserielle Korrelation
Ordinale Assoziationsmaße basieren in der Regel auf Paarbildungen (wie der weiter oben erw¨ahnte τc -Koeffizient) oder auf Rangpl¨atzen. Der Rangkorrelationskoeffizient nutzt die metrische Information zwischen den R¨angen, nutzt aber keine Informationen bez¨ uglich der Verteilungen der ordinalen Variablen, die im Unterschied zu metrischen 2
Die Produkt-Moment-Korrelation wird auch als Pearson’sche Korrelation bezeichnet.
36
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
Variablen auch nicht definiert sind. Mit dem polychorischen Korrelationskoeffizienten existiert ein Assoziationsmaß, das in der Lage ist, auf indirektem Wege u ¨ber sogenannte Indikatorvariablen diese Verteilungsinformationen zu ber¨ ucksichtigen. Zur Sch¨atzung der polychorischen Korrelation zwischen zwei ordinalen Variablen x und y wird angenommen, daß x und y Messungen von latenten metrischen Indikatorvariablen x∗ und y ∗ sind. Jede Kategorie xi f¨ allt dabei in das Intervall der Indikatorvariablen x∗ , begrenzt durch die Schwellenwerte τi−1 und τi . Genauso f¨allt jede Kategorie yi in das Intervall der Indikatorvariablen y ∗ , begrenzt durch die Schwellenwerte τj−1 und τj (vgl. Bollen, 1989, S. 439): ⎧ 1, wenn x∗ ≤ τ1 ⎪ ⎪ ⎪ ⎪ ⎪ 2, wenn τ1 < x∗ ≤ τ2 ⎪ ⎪ ⎪ ⋮ x=⎨⋮ (4.7) ⎪ ⎪ ∗ ⎪ i − 1 , wenn τ < x ≤ τ ⎪ i− 2 i− 1 ⎪ ⎪ ⎪ ⎪ i, wenn τi−1 < x∗ ⎩ ⎧ 1, ⎪ ⎪ ⎪ ⎪ ⎪ 2, ⎪ ⎪ ⎪ y =⎨⋮ ⎪ ⎪ ⎪ j − 1, ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ j,
wenn y ∗ ≤ τ1 wenn τ1 < y ∗ ≤ τ2 ⋮ wenn τj−2 < y ∗ ≤ τj−1 wenn τj−1 < y ∗
(4.8)
Die Gleichungen 4.7 und 4.8 zeigen, daß die Variablen x bzw. y mit ihren jeweiligen Indikatorvariablen x∗ bzw. y ∗ in Form von Treppenfunktionen in Beziehung stehen, wobei jede Stufe durch die Schwellenwerte begrenzt wird (vgl. Abbildung 4.1).
x
y
x=i
y=j
x=3
y=3
x=2
y=2
x=1 τ1
y=1 τ2
τi-1
x*
τ1
τ2
τj-1
y*
Abb. 4.1: Die Beziehungen zwischen den manifesten Variablen x bzw. y und ihren jeweiligen Indikatorvariablen x∗ bzw. y ∗
4.2 Statistische Zusammenh¨ ange zwischen Variablen
37
Da die Schwellenwerte in der Regel nicht bekannt sind, m¨ ussen diese vor Ermittlung der polychorischen Korrelation gesch¨ atzt werden. Hierbei wird die Annahme getroffen, daß die Indikatorvariablen x∗ und y ∗ jeweils normalverteilt sind. Da die Skalierung der Indikatorvariablen arbitr¨ ar ist, kann eine Fixierung der Mittelwerte auf den Wert Null und der Standardabweichungen auf den Wert eins vorgenommen werden. Die Wahrscheinlichkeit P , daß beispielsweise ein Wert von x∗ unterhalb des Schwellenwertes τi liegt, entspricht der Fl¨ ache der Standardnormalverteilung bis zum Schwellenwert τi : τi
P (x∗ ≤ τi ) = ∫ −∞
∗ 1 √ e−1/2⋅x ⋅ dx∗ = Φ(τi ) 2π
(4.9)
mit Φ als Funktionswert der Standardnormalverteilung.3 Die Schwellenwerte k¨onnen dann u ¨ber die Inverse der Standardnormalverteilung Φ−1 ermittelt werden (vgl. Bollen, 1989, S. 440): k Nk τi = Φ−1 (∑ ) , i = 1, 2, . . . , c − 1 (4.10) i=1 N Nk sind die kumulierten H¨ aufigkeiten bis zur Kategorie k und c die Gesamtzahl der Kategorien f¨ ur die Variable x. Gleichung 4.9 zeigt, daß die Wahrscheinlichkeiten durch die entsprechenden Fl¨ achen unter der Normalverteilungskurve bestimmt werden k¨onnen (vgl. Abbildung 4.2). Die Gleichungen 4.9 und 4.10 gelten analog f¨ ur die Variable y. 0.5
τ1
0.4
τ2
0.3
0.2
0.1
0 -3
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
Abb. 4.2: Die Partionierung der Normalverteilung durch die Schwellenwerte 3
Der Schwellenwert entspricht dem z-Wert aus der Tabelle f¨ ur die Verteilungsfunktion der Standardnormalverteilung (vgl. Bortz, 2005, S. 812).
38
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
Zur Sch¨atzung der polychorischen Korrelation ρx∗ y∗ wird angenommen, daß die latenten kontinuierlichen Variablen x∗ und y ∗ eine bivariate Standardnormalverteilung haben. Die Schwellenwerte f¨ ur die Variable x werden mit τi (i = 0, 1, . . . , k), die Schwellenwerte f¨ ur die Variable y werden mit τj (j = 0, 1, . . . , l) bezeichnet, wobei τi = τj = −∞ und τk = τl = +∞ ist. Die Wahrscheinlichkeiten f¨ ur jede Zelle der Kontingenztabelle (πij ) sind gegeben durch πij = Φ2 (τi , τj ) − Φ2 (τi−1 , τj ) − Φ2 (τi , τj−1 ) + Φ2 (τi−1 , τj−1 )
(4.11)
mit Φ2 (., .) als bivariate Standardnormalverteilungsfunktion. Die polychorische Korrelation ρx∗ y∗ kann u ¨ber die logarithmierte Likelihood-Funktion L(ρx∗ y∗ ) ermittelt werden (vgl. Olsson, 1979; Bollen, 1989, S. 442): k
l
lnL(ρx∗ y∗ ) = ∑ ∑ Nij ⋅ ln(πij )
(4.12)
i=1 j=1
k und l beziehen sich auf die Anzahl der Kategorien der ordinalen Variablen x und y, Nij auf die H¨aufigkeiten in den Kategorien i und j. πij sind die Wahrscheinlichkeiten aus Gleichung 4.11. Der Maximum-Likelihood-Sch¨ atzer ist die Korrelation, die die Wahrscheinlichkeit maximiert, daß die Daten der Kontingenztabelle f¨ ur die Variablen x und y einer bivariaten Standardnormalverteilung folgen. Iterativ lassen sich die polychorischen Korrelationen aus den ersten Ableitungen von lnL ermitteln, wobei das zweistufige Verfahren4 n¨aherungsweise die gleichen Resultate erzielt wie die aufwendigere simultane Ermittlung von Schwellenwerten und polychorischen Korrelationen. Wenn die Gleichung 4.12 ihr Maximum erreicht hat, dann ist der Maximum-Likelihood-Sch¨atzer die polychorische Korrelation ρx∗ y∗ . Variablen mit maximal 15 Kategorien k¨onnen als ordinale Variablen f¨ ur das Programm LISREL deklariert werden. Im Programm Mplus sind maximal 10 Kategorien erlaubt. Im Programm lavaan sind keine Beschr¨ankungen der Kategorien festgelegt. Das folgende Beispiel zeigt die Berechnung der Schwellenwerte f¨ ur zwei ordinal skalierte Variablen x und y mit einer bivariaten Verteilung (vgl. Tabelle 4.2). F¨ ur die Variable y werden zwei Schwellenwerte nach Gleichung 4.10 berechnet: τy1 = Φ−1 (
40 ) = −0.961 ⋅ 0.363 = −0.349 110
(4.13)
τy2 = Φ−1 (
80 ) = 0.832 ⋅ 0.727 = +.605 110
(4.14)
F¨ ur die Variable x werden drei Schwellenwerte berechnet: 4
Zuerst werden Schwellenwerte aus den Randverteilungen gesch¨ atzt und anschließend die polychorischen Korrelationen ermittelt (vgl. Olsson, 1979).
4.2 Statistische Zusammenh¨ ange zwischen Variablen
39
Tab. 4.2: Bivariate Verteilung der Variablen x und y x y
1 2 3 4
∑
1 10 10 10 10 40 2 20 10 0 10 40 3 0 10 20 0 30 ∑ 30 30 30 20 110
τx1 = Φ−1 (
30 ) = −2.216 ⋅ 0.273 = −.605 110
(4.15)
τx2 = Φ−1 (
60 ) = 0.209 ⋅ 0.545 = +.114 110
(4.16)
τx3 = Φ−1 (
90 ) = 1.110 ⋅ 0.818 = +.908 110
(4.17)
Tabelle 4.3 gibt die Syntax des Programms PRELIS zur Berechnung der polychorischen Korrelation wieder. Die Daten aus Tabelle 4.2 werden in der Datei Cross.dat“ zur ” Verf¨ ugung gestellt.5
Tab. 4.3: Beispielsyntax des Programms PRELIS zur Berechnung der polychorischen Korrelation zwischen den Variablen x und y Daten der Tabelle 4.2 zur Berechnung der polychorischen Korrelation DA NI=3 NOBS=110 LA Y X N RA=Cross.dat WE N OU MA=PM
Die polychorische Korrelation betr¨ agt f¨ ur dieses Beispiel ρx∗ y∗ = 0.03041. Bei dichotomen Variablen x und y entspricht die polychorische Korrelation der tetrachorischen Korrelation (vgl. Bortz & Schuster, 2010, S. 174). Wenn eine Variable ordinal und die 5
Der interessierte Leser kann die Daten aus Tabelle 4.2 in eine Datei mit dem Namen ¨ Cross.dat“ u u ¨bertragen und das Beispiel selbst nachvollziehen. Ein Uberblick ¨ber die Syn” taxstatements des Programms PRELIS ist in J¨ oreskog und S¨ orbom (1993c, S. 207–210) zu finden.
40
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
andere metrisch skaliert ist, dann wird die polyserielle Korrelation gesch¨atzt (vgl. Olsson, Drasgow & Dorans, 1982). Auch hier wird eine bivariate Standardnormalverteilung angenommen. Sollen im Strukturgleichungsmodell sowohl ordinale als auch metrische Variablen verwendet werden, dann enth¨ alt die Korrelationsmatrix polychorische Korrelationen f¨ ur den Zusammenhang der ordinalen Variablen untereinander, polyserielle Korrelationen f¨ ur den Zusammenhang zwischen metrischen und ordinalen Variablen und Produkt-Moment-Korrelationen f¨ ur den Zusammenhang der metrischen Variablen untereinander. Die Anwendung von polychorischen und polyseriellen Korrelationen in Strukturgleichungsmodellen wird in Kapitel 8, Abschnitt 8.1.7 er¨ortert.
4.3
Die lineare Regressionsanalyse
Kovarianzen und Korrelationen zeigen – wie in Abschnitt 4.2.1 dargestellt – den Grad des Zusammenhangs zwischen den gemessenen Variablen an und bilden die Datenbasis f¨ ur Modelle mit linearen Gleichungen. Ein gleichsinniger Zusammenhang wird durch einen positiven Koeffizienten ausgedr¨ uckt, ein gegensinniger durch einen negativen Koeffizienten. Diese Assoziationen sagen aber noch nichts u ¨ber eine gerichtete Beziehung zwischen den Variablen aus. Im einfachsten Fall kann die bivariate Beziehung zwischen einer unabh¨angigen Variablen x und einer abh¨angigen Variablen y betrachtet werden. Dahinter k¨onnen inhaltliche Hypothesen stehen, z. B. Je gr¨oßer die Werte in x, desto ” gr¨oßer die Werte in y“. Mit einer bivariaten Regressionsgleichung steht ein mathematisches Modell zur Verf¨ ugung, mit dem die Variablen x und y verkn¨ upft werden k¨onnen (vgl. Gehring & Weins, 2009, S. 178). Dies wird zun¨achst in Abschnitt 4.3.1 behandelt. Die Erweiterung zum multiplen Regressionsmodell erfolgt durch Ber¨ ucksichtigung mehrerer unabh¨angiger Variablen. Diese Erweiterung wird in Abschnitt 4.3.2 besprochen.
4.3.1
Die bivariate Regression
Die bivariate Regression verbindet zwei Variablen xi und yi zu einer Geraden und stellt damit eine lineare Beziehung zwischen diesen Variablen her. Die Regression von x auf ” y“ zeigt die Erkl¨ arungsrichtung an. Damit wird ausgedr¨ uckt, daß die Auspr¨agung der Variablen yi auf die Auspr¨ agung der Variablen xi zur¨ uckgef¨ uhrt wird. Das mathematische Modell der bivariaten Regression enth¨ alt neben den beiden Variablen xi und yi die zu ermittelnden Parameter a und b: yi = a + bxi
(4.18)
Da unabh¨angig von den Gr¨ oßen der Parameter a und b die Werte der Variablen yi immer auf einer Geraden liegen, werden diese auch als Vorhersagewerte yi bezeichnet: yi = a + bxi
(4.19)
In Abbildung 4.3 sind die paarweisen Messungen der beiden Variablen in Form von Punkten im Koordinatensystem angegeben. Diese Punktewolke weist tendenziell auf
4.3 Die lineare Regressionsanalyse
41
eine positiv lineare Beziehung zwischen den Variablen hin. Mit Gleichung 4.19 wird diejenige Gerade ermittelt, die die Richtung und die St¨arke der Beziehung aller Punkte am besten wiedergibt (vgl. Bortz & Schuster, 2010, S. 186). Der Parameter b gibt die Steigung der Geraden an, w¨ ahrend die Konstante a sich auf den Schnittpunkt mit der y-Achse bezieht. Wenn a = 0 ist, dann f¨ uhrt die Gerade durch den Ursprung des Koordinatensystems. Wenn beispielsweise b = 0.5 ist, dann bedeutet dies, daß die Variable y um 0.5 Einheiten ansteigt, wenn die Variable x um eine Einheit ansteigt. Ist b negativ, dann zeigt die Gerade ein Gef¨ alle an, ist b = 0, dann liegt die Gerade parallel zur x-Achse (vgl. auch die Abbildungen in Gehring & Weins, 2009, S. 180).
yi
i –
yi –
yi –
i
xi Abb. 4.3: Graphische Darstellung der bivariaten Regression zwischen den Variablen x und y
Die Regressionsgerade wird also u oßen der Parameter a und b bestimmt. ¨ber die Gr¨ Der optimale Verlauf der Geraden wird durch Minimierung der Abst¨ande zwischen den empirischen Werten der Variablen yi und den vorhergesagten Werten yi hergestellt. Da die Differenz yi − yi sowohl positiv wie negativ sein kann, wird stattdessen die quadrierte Abweichung (yi −yi )2 als Kriterium verwendet. Dieses Kriterium wird auch als Kriterium der kleinsten Quadrate bezeichnet. Die Summe der quadrierten Abweichungen zwischen vorhergesagten und beobachteten Werten muß f¨ ur die Regressionsgerade minimal sein (vgl. Bortz & Schuster, 2010, S. 186): n
2 ∑(yi − yi ) = min
(4.20)
i=1
Um die G¨ ute der Approximation der empirischen Werte in yi mit den gesch¨atzten Werten in yi bestimmen zu k¨ onnen, geht man von einer quadratischen Fehlerfunktion
42
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
aus. Dies bedeutet, daß der bei der Approximation gemachte Fehler als Summe der quadrierten Abweichungen zwischen den tats¨ achlichen und den prognostizierten Werten definiert wird: n
n
i=1
i=1
Q(e) ∶= ∑ e2i = ∑(yi − bxi − a)
(4.21)
Wenn Gleichung 4.19 in Gleichung 4.20 eingesetzt wird, kann nach a und b partiell differenziert werden, so daß man folgende L¨osung f¨ ur b erh¨alt (zur Herleitung, vgl. Hummel, 1986, S. 21f.):6 n ) ⋅ (yi − y ) ∑ (xi − x byx = i=1 n (4.22) )2 ∑i=1 (xi − x Da die Regressionsgerade immer durch den Schnittpunkt der beiden Mittelwertachsen verl¨auft und die y-Achse im Punkt (0, a) schneidet (vgl. Abbildung 4.3), kann ayx einfach ermittelt werden: y − ayx byx = (4.23) x (4.24) ayx = y − byx ⋅ x Die so berechnete Regressionsgerade gibt den Einfluß der Variablen xi auf die Variable yi wieder. Je n¨ aher die empirischen Werte von yi an den gesch¨atzten Werten yi liegen, desto besser ist die Prognosekraft der Regressionsgeraden. Hierzu kann der Determinationskoeffizient R2 herangezogen werden, der die erkl¨ arten Abweichungsquadrate (yi − y )2 ins Verh¨ altnis zu den Gesamtabweichungsquadraten (yi − y )2 stellt (vgl. Gehring & Weins, 2009, S. 186): R2 =
n ∑i=1 (yi − y )2 n ∑i=1 (yi − y )2
(4.25)
Der Wertebereich von R2 liegt zwischen 0 und 1. Je gr¨oßer der Wert von R2 ist, desto h¨oher ist der Anteil der Erkl¨ arungskraft der unabh¨angigen Variablen x. Man kann auch sagen, daß R2 den Anteil der Variation der Werte in der Variablen y angibt, der durch x aufgekl¨art wird. Demzufolge kann R2 auch in Prozentpunkten interpretiert werden.
4.3.2
Die multiple Regression
Die bivariate Regressionsanalyse beschr¨ ankt sich auf die Betrachtung zweier Variablen. Werden mehr als eine unabh¨ angige Variable zur Erkl¨arung der Variation in der abh¨angigen Variable ber¨ ucksichtigt, dann muß Gleichung 4.18 um weitere Terme erweitert 6
Die Methode zur Berechnung von a und b wird auch als Kleinst-Quadrate-Methode bzw. Ordinary Least Squares (OLS) bezeichnet. Die Bezeichnung byx wird verwendet, um zu verdeutlichen, daß y-Werte auf der Basis von x bestimmt werden sollen. Umgekehrt k¨ onnen auch x-Werte auf der Basis von y-Werten vorhergesagt werden. Dann wird die Bezeichnung bxy verwendet und im Nenner steht dann ∑n )2 . Bortz (2005, S. 186) weist darauf hin, i=1 (yi − y daß beide Regressionsgeraden unterschiedliche Steigungen haben, da die Abweichungen der Punkte von den jeweiligen Geraden in y-Richtung und x-Richtung unterschiedlich ausfallen.
4.3 Die lineare Regressionsanalyse
43
werden: yi = a + b1 x1i + b2 x2i + . . . + bk xki + e
(4.26)
Gleichung 4.26 formalisiert ein multiples Regressionsmodell mit der Konstanten a, den Regressionskoeffizienten b1 , b2 . . . bk und dem Fehlerterm e (vgl. Abbildung 4.4).7
Abb. 4.4: Graphische Darstellung der multiplen Regression zwischen den Variablen x1 . . . xk und y
Die Terme in Gleichung 4.26 lassen sich auch als Vektoren darstellen, wobei der Einfachheit halber auf die Konstante a verzichtet wird (d. h. die Variablen werden als zentriert angenommen): yi = Xβ + e (4.27) mit ⎛ b1 ⎞ ⎜b ⎟ β=⎜ 2⎟ ⎜⋮ ⎟ ⎝b ⎠ k
(4.28)
X = ( x1i x2i . . . xki )
(4.29)
und Eine L¨osung der Regressionskoeffizenten im Vektor β kann auch hier u ¨ber die Methode der kleinsten Quadrate gefunden werden, die gem¨aß Gleichung 4.21 von einer quadratischen Fehlerfunktion ausgeht. Gleichung 4.27 wird nach dem Fehlerterm e umgestellt: e = yi − Xβ
(4.30)
Die quadratische Fehlerfunktion lautet: Q(e) ∶= ∑ e2i = e′ e
7
Der Fehlerterm ist definiert als e = yi − yi (vgl. auch Gleichung 4.21).
(4.31)
44
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle
mit e′ als transponierten Vektor von e.8 Wird Gleichung 4.30 in Gleichung 4.31 eingesetzt, dann ergibt sich: e′ e = (yi − Xβ)′ (yi − Xβ)
(4.32)
Ohne hier auf die einzelnen L¨ osungsschritte mit den partiellen Ableitungen einzugehen (vgl. hierzu im einzelnen Hummel, 1986, S. 27f.), lassen sich die Kleinst-QuadrateSch¨atzer des Parametervektors β eindeutig bestimmen: −1 1 1 β = (X ′ X)−1 X ′ y = ( X ′ X) ( X ′ y) n n
(4.33)
1
X ′ X ist die Kovarianzmatrix f¨ ur die unabh¨angigen Variablen xk , n1 X ′ y ist die Kovarianzmatrix zwischen den unabh¨ angigen Variablen xk und der abh¨angigen Variablen y. Gleichung 4.33 zeigt auch, daß die Regressionskoeffizienten im Vektor β sich in Produkte von Kovarianzen (bzw. bei standardisierten Variablen als Produkte von Korrelationen) zerlegen lassen. n
In Kapitel 5 wird gezeigt, daß die Regressionsanalyse eine spezielle Form des Strukturgleichungsmodells darstellt. Es wird f¨ ur genau eine abh¨angige Variable eine lineare Strukturgleichung formuliert. Variationen in den Werten dieser abh¨angigen Variablen werden durch die spezifizierten unabh¨ angigen Variablen in einen erkl¨arten Anteil und in einen nicht erkl¨ arten Anteil zerlegt. Die Erweiterung um mehr als eine abh¨angige Variable f¨ uhrt zu mehr als einer linearen Strukturgleichung und damit zu einem System von Strukturgleichungen, was als Mehrvariablenanalyse (vgl. Opp & Schmidt, 1976) oder Pfadanalyse (vgl. O. D. Duncan, 1966) bezeichnet wird.
4.4
Die klassische Testtheorie
Bei sozialwissenschaftlichen Untersuchungen ist in der Regel davon auszugehen, daß sich Messungen (beispielsweise durch Befragungen) nicht fehlerfrei durchf¨ uhren lassen. Bei wiederholten Messungen werden im Rahmen eines Paneldesigns (vgl. Kapitel 3) Angaben der Personen unterschiedlich ausfallen, die auf drei M¨oglichkeiten zur¨ uckgef¨ uhrt werden k¨onnen (vgl. Steyer & Eid, 2001, S. 102): 1. Die zu messende Disposition ver¨ andert sich zwischen den Meßzeitpunkten. 2. Die Unterschiede sind auf Meßfehler zur¨ uckzuf¨ uhren. 3. Sowohl Meßfehler als auch Dispositionsver¨anderungen spielen gleichermaßen eine Rolle. Die erste Erkl¨arung ist nur dann sinnvoll, wenn die Ver¨anderung einen systematischen Charakter hat (z. B. alle gemessenen Eigenschaften zum zweiten Zeitpunkt h¨ohere Werte 8
Mit der Transponierung wird der Zeilenvektor e zum Spaltenvektor e′ .
4.4 Die klassische Testtheorie
45
aufweisen als zum ersten Zeitpunkt). Die zweite Erkl¨arung trifft zu, wenn sich ausschließlich Widerspr¨ uche aus den Angaben der Personen f¨ ur beide Meßzeitpunkte ergeben. Die dritte M¨oglichkeit kombiniert die ersten beiden und setzt voraus, daß die Messung sich sowohl aus einem Wert zusammensetzt, der die tats¨achlichen Dispositionen wiedergibt (dem sogenannten wahren Wert), als auch aus einem Meßfehler.
Abb. 4.5: Die Zerlegung der Messung x in den wahren“ Anteil τ und den Meßfehler ”
Die klassische Testtheorie hat f¨ ur diese Zerlegung der Messung ein mathematisches Modell formuliert. Ein beobachteter Meßwert x besteht aus der additiven Zusammensetzung des wahren Wertes τ und des Meßfehlers (vgl. Abbildung 4.5):9 x=τ +
(4.34)
Der Grundgedanke des Modells ist, daß die Meßfehler um den wahren Wert zuf¨allig streuen. Bei einer großen Zahl wiederholter Messungen wird angenommen, daß Meßwert und wahrer Wert einander entsprechen bzw. der Erwartungswert des Meßfehlers Null ist: E() = 0 (4.35) Des weiteren wird angenommen, daß der wahre Wert nicht mit dem Meßfehler zusammenh¨angt: rτ = 0 (4.36) Mit den Gleichungen 4.34 und 4.35 wird das Verh¨altnis von theoretischer Gr¨oße (wahrer Wert) und Messung exakt definiert. Der wahre Wert ist identisch mit dem Erwartungswert der Messungen, deren Meßfehler nach Gleichung 4.35 nur zuf¨allig auftreten. Es gilt demnach: τ = E(x) (4.37) Zuf¨allige Meßfehler betreffen in erster Linie die Reliabilit¨at der Messungen. Nach der klasssischen Testtheorie wird die Reliabilit¨ at definiert als das Quadrat der Korrelation zwischen der Messung x (z. B. Einkommen) und einer dahinter liegenden Dimension (z. B. Status), die hier als Konstrukt T bezeichnet wird (vgl. Diekmann, 2007, S. 265): 9
Die Terme der Gleichung k¨ onnen mit dem Suffix i versehen werden, der die Person repr¨ asentiert. Im weiteren ist hierauf aber verzichtet worden. Die Bezeichnungen richten sich nach den Arbeiten von Lord und Novick (1968). Die Bezeichnung des wahren Wertes mit dem Buchstaben τ hat nichts mit der gleichen Bezeichnung der Schwellenwerte in Abschnitt 4.2.2 zu tun und ist nur durch die jeweilige Verwendung in der entsprechenden Literaturstellen zuf¨ allig gleich.
46
4 Statistische Grundlagen f¨ ur Strukturgleichungsmodelle 2 Rel(x) = rxT
(4.38)
Wird jetzt nicht nur von einer Messung ausgegangen, sondern von zwei parallelen Messungen x1 und x2 , die das gleiche Konstrukt T erfassen sollen, dann ist die Korrelation zwischen den parallelen Messungen eine Sch¨ atzung des Reliabilit¨atskoeffizienten:10 2 rx1 x2 = rxT
(4.39)
Die Validit¨at wird in der klassischen Testtheorie definiert als die Korrelation zwischen einer Messung x und einem Außenkriterium y (vgl. Diekmann, 2007, S. 265): V al(x) = rxy
(4.40)
Gehen wir jetzt von einer Messung x f¨ ur das Konstrukt Tx und einer Messung y f¨ ur das Konstrukt Ty aus, dann wird die Korrelation zwischen den Konstrukten (rTx Ty ) gleich der Korrelation zwischen den Messungen sein (rxy ), wenn die Reliabilit¨at der beiden Messungen perfekt ist (vgl. Gleichung 4.38): rTx Ty = rx1 x2
(4.41)
F¨ ur empirische Untersuchungen wird dieser Fall kaum zutreffen, da Daten (z. B. u ¨ber Befragungen) nie fehlerfrei erhoben werden k¨ onnen. Die Korrelation zwischen den Konstrukten wird daher untersch¨ atzt werden, wenn die Reliabilit¨at mindestens einer Messung kleiner als eins ist. Die rechte Seite der Gleichung 4.41 muß daher mit den entsprechenden Reliabilit¨ atssch¨ atzungen gewichtet werden: rx1 x2 rTx Ty = √ Rel(x) ⋅ Rel(y)
(4.42)
Im Nenner der Gleichung steht jetzt das Produkt der Reliabilit¨aten von Messung x und Messung y. Sind beide Gr¨ oßen bekannt, dann kann die Korrelation zwischen den Konstrukten entsprechend korrigiert“ werden. Daher wird die Formel in Gleichung 4.42 ” auch als Minderungskorrektur bzw. correction for attenuation bezeichnet. Ein geringer Zusammenhang zwischen den Messungen muß nicht bedeuten, daß der Zusammenhang zwischen den Konstrukten auch niedrig ist. Je geringer die Reliabilit¨at der Messungen ist, desto st¨arker wird die Korrelation zwischen den Konstrukten untersch¨atzt (vgl. Carmines & Zeller, 1979). Eine wichtige Erweiterung des mathematischen Modells der klassischen Testthorie ist das konfirmatorische Faktorenmodell, das auch hier als Spezialfall des allgemeinen 10
Parallel bedeutet, daß beide Messungen die gleiche Streuung aufweisen. Wird diese Annahme nicht aufrechterhalten, dann werden beide Messungen als τ -¨ aquivalent bezeichnet. Im Rahmen der Formalisierung von Meßmodellen wird in Kapitel 6, Abschnitt 6.3 hierauf genauer eingegangen. Eng verbunden mit der Test-Retest-Reliabilit¨ at ist die Differenzierung von Meßfehlern, manifesten und latenten Variablen in L¨ angsschnittmodellen, die in Kapitel 8, Abschnitt 8.2 behandelt wird.
4.4 Die klassische Testtheorie
47
Strukturgleichungsmodells behandelt wird (vgl. Kapitel 7). Wenn eine Messung x nicht nur das entsprechende Konstrukt Tx , sondern auch andere Konstrukte repr¨asentiert, meßtechnisch gesehen also eine mehrdimensionale Messung darstellt, dann ist die Annahme in Gleichung 4.36 verletzt. Diese Art von systematischen Meßfehlern kann explizit in Strukturgleichungsmodellen ber¨ ucksichtigt werden und erweitert damit auch gleichzeitig den Ansatz der klassischen Testtheorie zu einem meß- und fehlertheoretischen Ansatz. Der Einf¨ uhrung von latenten Variablen zur Repr¨asentation der hier angesprochenen Konstrukte kommt dabei eine zentrale Bedeutung zu.
5
Strukturgleichungsmodelle mit gemessenen Variablen
Die Geschichte der Strukturgleichungsmodelle ist eng verbunden mit dem Genetiker Sewell Wright, der ab etwa 1920 versucht hat, die Einfl¨ usse komplexerer Variablenzusammenh¨ange mit Hilfe linearer Gleichungssysteme zu untersuchen (Wright, 1921, 1934). Wright ging es in erster Linie darum, gerichtete Beziehungen zwischen Variablen zu spezifizieren und die Effektst¨ arke der unabh¨angigen Variablen (Ursachen) auf die abh¨angigen Variablen (Wirkungen) zu ermitteln. Die Analyse dieser Art von gerichteten Modellen wird als Pfadanalyse bezeichnet. Im Unterschied zur Genetik geht es in den Sozialwissenschaften nicht in erster Linie darum, Effekte zwischen den Variablen als kausale Einfl¨ usse zu bestimmen, sondern theoretisch abgeleitete Hypothesen mit Hilfe von Zusammenhangsgr¨ oßen (Kovarianzen oder Korrelationen) empirisch zu u ¨berpr¨ ufen und eine Konsistenz zwischen Modell und Daten herzustellen. Ein spezifiziertes Pfadmodell kann dann auf kausale Beziehungen zwischen den Variablen hinweisen, 1. wenn eine zeitliche Ordnung zwischen den Variablen existiert1 , 2. wenn empirische Zusammenh¨ ange ermittelt werden, 3. wenn die empirischen Zusammenh¨ ange bestehen bleiben, auch wenn nach anderen Variablen kontrolliert wird, 4. wenn das Meßniveau der Variablen und deren Verteilungsform bekannt ist und 5. wenn die kausalen Beziehungen richtig spezifiziert sind (vgl. Kline, 2012, S. 113). Ist die Richtung der Beziehungen zwischen den Variablen im Pfadmodell einseitig, dann wird dieses Modell als rekursives Pfadmodell bezeichnet. Im folgenden Abschnitt 5.1 wird auf diesen Modelltyp n¨ aher eingegangen. Werden zweiseitig gerichtete Beziehungen zwischen unabh¨angigen und abh¨angigen Variablen angenommen bzw. werden auch indirekte (vermittelnde) R¨ uckbeziehungen auf 1
Dies bedeutet, daß kausale Interpretationen der berechneten Pfadkoeffizienten bestimmte Erhebungsdesigns voraussetzen. Im experimentellen Design ist eine zuf¨ allige Zuordnung von F¨ allen (Personen) zur Experimental- und Kontrollgruppe notwendig. Im nichtexperimentellen Design ist eine wiederholte Erhebung gleicher Sachverhalte bei genau denselben F¨ allen (Personen) erforderlich, welches dem Aufbau von Paneldaten entspricht.
50
5 Strukturgleichungsmodelle mit gemessenen Variablen
(urspr¨ unglich) unabh¨ angige Variablen spezifiziert, dann wird dieses Modell als nichtrekursives Pfadmodell bezeichnet. In Abschnitt 5.2 wird dieser Modelltyp er¨ortert. Wenn gruppenspezifische Differenzen zwischen den Pfadkoeffizienten vermutet werden, dann kann das Pfadmodell einem multiplen Gruppenvergleich unterzogen werden. Die¨ se Technik erlaubt die gleichzeitige Uberpr¨ ufung des Modells unter der Bedingung einer Gruppenvariable (z. B. Geschlecht). Der multiple Gruppenvergleich hat gegen¨ uber der getrennten Analyse des Modells nach den Auspr¨agungen der Gruppenvariable den Vorteil, daß er eine statistische Pr¨ ufung bestimmer Modellrestriktionen (z. B. gleiche Koeffizientengr¨oße zwischen den Geschlechtern) erlaubt. Diese Verfahrensweise wird in Abschnitt 5.3 vorgestellt. Abschließend werden in Abschnitt 5.4 die Modellierungsm¨oglichkeiten f¨ ur Pfadmodelle im L¨angsschnitt vorgestellt, wobei das klassische Zwei-Variablen/Zwei-Wellen(2V2W)Panelmodell den Ausgangspunkt bildet. F¨ ur die jeweiligen Pfadmodelle werden Beispiele mit empirischem Datenmaterial vorgestellt.
5.1
Rekursive Pfadmodelle
5.1.1
Modellspezifikation und Berechnung der Pfadkoeffizienten
Es existieren immer verschiedene M¨ oglichkeiten, die Beziehungen zwischen den zur Verf¨ ugung stehenden Variablen zu spezifizieren. Darum ist die Modellspezifikation der erste Schritt f¨ ur eine Pfadanalyse. F¨ ur ein Modell mit drei Variablen werden in Abbildung 5.1 vier verschiedene Varianten aufgef¨ uhrt. Im ersten Modell (1) wirkt die Variable X2 auf die Variable X1 und diese wiederum auf die Variable Y . Es existiert keine direkte Beziehung zwischen X2 und Y , sondern nur eine indirekte u ¨ber die Variable X1 . Im zweiten Modell (2) wirkt die Variable X2 sowohl auf die Variable X1 als auch auf die Variable Y . X1 und Y haben keine Beziehung miteinander. Das dritte Modell (3) ist ¨ ahnlich, nur wirkt hier Variable X1 auf die Variablen X2 und Y . Mit jeweils zwei bivariaten Regressionsanalysen (vgl. Kapitel 4, Abschnitt 4.3) lassen sich die entsprechenden Parameter in diesen drei Modellen ermitteln. Das vierte Modell (4) setzt die Variable Y in gleichzeitige Abh¨angigkeit von den Variablen X1 und X2 , die beide miteinander korrelieren. Mit einer multiplen Regressionsanalyse k¨onnen die entsprechenden Parameter berechnet werden. F¨ ur einfache Pfadanalysen reichen statistische Modelle wie die bivariate und die multiple Regression aus, um die Parameter zu ermitteln. Basieren die empirischen Informationen auf Korrelationskoeffizienten, dann sind die Pfadkoeffizienten standardisiert und entsprechen den standardisierten Regressionskoeffizienten. Wird mehr als eine abh¨angige Variable in einem Pfadmodell verwendet, dann muß das Pfadmodell in Regressionsmo-
5.1 Rekursive Pfadmodelle
51
delle zerlegt werden. Die Anzahl der Regressionsmodelle korrespondiert mit der Anzahl der abh¨angigen Variablen des Pfadmodells.
Abb. 5.1: Pfadmodellvarianten mit drei Variablen (Schumacker & Lomax, 1996, S. 40)
Abbildung 5.2 zeigt ein rekursives Pfadmodell mit zwei unabh¨angigen Variablen X1 und X2 und zwei abh¨ angigen Variablen X3 und X4 . Die abh¨angige Variable X3 kann als intervenierende Variable bezeichnet werden, weil sie nach der Modellspezifikation auch einen direkten Effekt auf die Variable Y aus¨ ubt.2 Zwei multiple Regressionsmodelle bzw. zwei Regressionsgleichungen sind f¨ ur die Berechnung der Koeffizienten notwendig: X3 = p31 X1 + p32 X2 + p3R RX3
(5.1)
Y = pY 1 X1 + pY 2 X2 + pY 3 X3 + pY R RY
(5.2)
p31 , p32 , pY 1 , pY 2 und pY 3 sind die f¨ unf zu ermittelnden Pfadkoeffizienten des Modells. Mit p3R und pY R RY werden die Residualpfadkoeffizienten bezeichnet, die den jeweiligen Einfluß der Residualgr¨ oßen RX 3 und RY zeigen. Folgende Annahmen liegen dem Modell zugrunde: 2
Auch die Bezeichnung Mediatorvariable ist u usse von X1 und X2 auf Y ¨blich, da die Einfl¨ durch X3 mediiert werden (vgl. Cheong & MacKinnon, 2012).
52
5 Strukturgleichungsmodelle mit gemessenen Variablen
1. Die Beziehungen zwischen den Variablen sind lineare Beziehungen. 2. Die Residualgr¨ oßen RX3 und RY korrelieren nicht mit den jeweiligen unabh¨angigen Variablen.
Abb. 5.2: Pfadmodell mit vier Variablen (Schumacker & Lomax, 1996, S. 42)
Aus den Gleichungen 5.1 und 5.2 lassen sich durch Substitution und Umformungen die Pfadkoeffizienten analytisch ermitteln. Dies wird im folgenden exemplarisch f¨ ur die Gleichung 5.1 gezeigt. Alle Variablen des Pfadmodells sind in diesem Falle standardisiert und die empirischen Informationen werden der Korrelationsmatrix entnommen. Zun¨achst wird die Gleichung 5.1 jeweils mit den unabh¨angigen Variablen X1 und X2 multipliziert: X3 X1 = p31 X12 + p32 X2 X1 + p3R RX3 X1 (5.3) X3 X2 = p31 X1 X2 + p32 X22 + p3R RX3 X2
(5.4)
F¨ ur jedes Variablenprodukt in den Gleichungen 5.3 und 5.4 k¨onnen nun Mittelwerte gebildet werden: ∑(X12 ) ∑(X2 X1 ) ∑(RX3 X1 ) ∑(X3 X1 ) = p31 + p32 + p3R N N N N
(5.5)
∑(X3 X2 ) ∑(X1 X2 ) ∑(X22 ) ∑(RX3 X2 ) = p31 + p32 + p3R (5.6) N N N N Durch die Standardisierung der Variablen sind die Mittelwerte der Variablenprodukte identisch mit den Korrelationen zwischen den entsprechenden Variablen (vgl. Gleichung 4.6 in Kapitel 4, Abschnitt 4.2): r31 = p31 r11 + p32 r21 + p3R rR1
(5.7)
5.1 Rekursive Pfadmodelle
53 r32 = p31 r21 + p32 r22 + p3R rR2
(5.8)
Da annahmegem¨aß die Residualvariable RX3 nicht mit den unabh¨angigen Variablen X1 und X2 korreliert (rR1 = rR2 = 0) und r11 = r22 = 1 ist, verk¨ urzen sich die Gleichungen 5.7 und 5.8 entsprechend: r31 = p31 + p32 r21 (5.9) r32 = p31 r21 + p32
(5.10)
Im folgenden wird Gleichung 5.9 nach p31 umgestellt und in Gleichung 5.10 eingesetzt: p31 = r31 − p32 r21
(5.11)
r32 = (r31 − p32 r21 )r21 + p32
(5.12)
Durch weiteres Ausklammern und Umformen kann der Pfadkoeffizient p32 u ¨ber die empirischen Korrelationskoeffizienten berechnet werden: 2 r32 = r31 r21 − p32 r21 + p32
(5.13)
2 r32 = r31 r21 + p32 (1 − r21 )
(5.14)
2 r32 − r31 r21 = p32 (1 − r21 ) r32 − r31 r21 p32 = 2 ) (1 − r21
(5.15) (5.16)
Gleichung 5.16 kann dann zur Bestimmung des Pfadkoeffizienten p31 in Gleichung 5.11 eingesetzt werden: r32 − r31 r21 p31 = r31 − (5.17) 2 ) r21 (1 − r21 p31 = r31 −
2 r32 r21 − r31 r21 2 (1 − r21 )
(5.18)
Beispiel Das folgende Beispiel bezieht sich auf das Pfadmodell in Abbildung 5.2 mit einer fiktiven Korrelationsmatrix (Tabelle 5.1, vgl. Schumacker & Lomax, 1996, S. 43). In die beiden Strukturgleichungen 5.1 und 5.2 k¨onnen nach der Berechnung die Pfadkoeffizienten eingesetzt werden: X3 = −0.071X1 + 0.593X2 + 0.812RX3
(5.19)
Y = 0.423X1 + 0.362X2 + 0.040X3 + 0.774RY
(5.20)
In der ersten Gleichung wird deutlich, daß der Pfadkoeffizient von X1 auf X3 (p31 ) einen leichten negativen Effekt anzeigt (−0.071), w¨ahrend der Pfadkoeffizient von X2 auf X3 (p32 ) deutlich st¨ arker ist und einen positiven Effekt anzeigt (0.593). Die Werte der
54
5 Strukturgleichungsmodelle mit gemessenen Variablen
Tab. 5.1: Korrelationsmatrix f¨ ur die Variablen X1 , X2 , X3 und Y
Y X1 X2 X3
Y
X1
X2
X3
1.000 0.507 0.480 0.275
1.000 0.224 0.062
1.000 0.577
1.000
Residualpfadkoeffizienten p3R und pY R lassen sich u ¨ber die Varianzzerlegung berechnen (vgl. Opp & Schmidt, 1976, S. 145f.): 2 = p r +p r RX 31 13 32 23 3 = −0.071 ∗ 0.062 + 0.593 ∗ 0.577 = 0.338
(5.21)
RY2 = pY 1 r1Y + pY 2 r2Y + pY 3 r3Y = 0.423 ∗ 0.507 + 0.362 ∗ 0.480 + 0.040 ∗ 0.275 = 0.399
(5.22)
Insgesamt k¨onnen etwa 34 % der Varianz in der Variablen X3 und etwa 40 % der Varianz in der Variablen Y aufgekl¨ art werden. Aus dem Anteil der nicht erkl¨ arten Varianz (1 − R2 ) lassen sich dann die Residualpfadkoeffizienten p3R und pY R berechnen (vgl. Opp & Schmidt, 1976, S. 146): √ 2 p3R = 1 − RX 3 √ (5.23) = 1 − 0.338 = 0.812 √ pY R = √ 1 − RY2 = 1 − 0.399 = 0.774
(5.24)
L¨ aßt mann die Wurzel in den Gleichungen 5.23 und 5.24 weg, erh¨alt man die jeweilige Residualvarianz. Die berechneten Parameter k¨onnen dann in das Pfaddiagramm eingetragen werden (vgl. Abbildung 5.3). Die entsprechenden Programminputs f¨ ur Mplus und lavaan sind im Anhang zu diesem Kapitel zu finden (vgl. Abschnitt 5.5). Es ist zu beachten, daß beide Programme nur die Residualvarianzen im jeweiligen Output wiedergeben und nicht die Residualpfadkoeffizienten.
5.1 Rekursive Pfadmodelle
55
Abb. 5.3: Pfadmodell mit vier Variablen (Ergebnisse)
5.1.2
Reproduktion der Korrelationsmatrix und Effektzerlegung
Die Korrelationen in Tabelle 5.1 k¨ onnen vollst¨andig reproduziert werden, wenn alle direkten und indirekten Effekte im Pfadmodell bekannt sind. Ein direkter Effekt zwischen einer unabh¨angigen Variablen X und einer abh¨angigen Variablen Y wird durch den Pfadkoeffizienten pY X angegeben. Ein indirekter Effekt einer unabh¨angigen Variablen X1 u angige Variable Y ist gleich dem Produkt ¨ber eine Variable X2 auf eine abh¨ der Pfadkoeffizienten p21 und pY 2 (vgl. Opp & Schmidt, 1976, S. 148).3 Anhand der Gleichungen 5.9 und 5.10 l¨ aßt sich die Reproduktion der Korrelationen r31 und r32 einfach verdeutlichen. Da keine gerichtete Beziehung zwischen den Variablen X1 und X2 angenommen wird, gilt r21 = p21 : r31 = p31 + p32 p21
(5.25)
r32 = p31 p21 + p32
(5.26)
¨ Ubertragen auf das im letzten Abschnitt diskutierte Beispiel ergibt sich:
3
r31 = −0.071 + (0.593)(0.224) = 0.062
(5.27)
r32 = 0.593 + (−0.071)(0.224) = 0.577
(5.28)
Indirekte Effekte k¨ onnen weiter differenziert werden. Wenn die Produkte nur aus Pfadkoeffizienten bestehen, dann werden solche Effekte als indirekt kausal bezeichnet. Wenn Produkte aus Pfadkoeffizienten und Korrelationskoeffizienten bestehen, dann werden solche Effekte als indirekte korrelierende Effekte bezeichnet, die nicht kausal zu interpretieren sind (vgl. auch die Differenzierung in Schumacker & Lomax, 1996, S. 43).
56
5 Strukturgleichungsmodelle mit gemessenen Variablen
Entsprechend k¨onnen die u ucksichti¨brigen Korrelationen r1Y , r2Y und r3Y durch Ber¨ gung aller direkten, indirekt kausalen und indirekt korrelierende Effekte reproduziert werden (vgl. Abbildung 5.2): r1Y = pY 1 + pY 2 p21 + pY 3 p31 + pY 3 p32 p21
(5.29)
r2Y = pY 2 + pY 3 p32 + pY 1 p21 + pY 3 p31 p21
(5.30)
r3Y = pY 3 + pY 1 p31 + pY 2 p32 + pY 1 p21 p32 + pY 2 p21 p31
(5.31)
Werden wiederum die entsprechenden Gr¨ oßen aus dem Beispiel eingesetzt, dann ergibt sich: r1Y = 0.423 + (0.362)(0.224) + (0.040)(−0.071)+ (0.040)(0.593)(0.224) (5.32) = 0.507 r1Y = 0.362 + (0.040)(0.593) + (0.423)(0.224)+ (0.040)(−0.071)(0.224) = 0.480
(5.33)
r3Y = 0.040 + (0.423)(−0.071) + (0.362)(0.593)+ (0.423)(0.224)(0.593) + (0.362)(0.224)(−0.071) = 0.275
(5.34)
Der indirekte kausale Effekt f¨ ur die Beziehung zwischen X1 und Y ist der dritte Term aus Gleichung 5.29 und betr¨ agt: p31 pY 3 = (−0.071)(0.040) = −0.003
(5.35)
Der indirekte kausale Effekt f¨ ur die Beziehung zwischen X2 und Y ist der zweite Term aus Gleichung 5.30 und betr¨ agt: p32 pY 3 = (0.593)(0.040) = 0.024
(5.36)
Die vorgenommene Zerlegung der Effekte ist f¨ ur jedes komplexere Pfadmodell bedeutsam. In der Regel richtet sich das Interesse auf Variablen, die einen hohen direkten Effekt auf die abh¨ angige Variable aufweisen und damit einen bedeutsamen Beitrag zur Varianzaufkl¨arung leisten k¨ onnen. Ist dagegen der direkte Effekt gering, der indirekte Effekt aber hoch, dann wird die Bedeutsamkeit in der indirekten Wirkung der Variablen deutlich. Die intervenierende Variable bzw. die Mediatorvariable hat in diesem Falle einen hohen Stellenwert. Sind keine bedeutsamen direkten und indirekten Effekte zu verzeichen, dann wird die entsprechende Variable nicht mehr im Modell ber¨ ucksichtigt. Es ist jedoch zu betonen, daß die forschungsleitenden, substantiellen Hypothesen f¨ ur die Modellentwicklung, Modellevaluation und Modellrevision von gr¨oßerer Bedeutung sein m¨ ussen als die isolierte statistische Betrachtung einzelner direkter und indirekter Effektst¨arken.
5.1 Rekursive Pfadmodelle
5.1.3
57
Die Identifikation der Modellparameter
Auch wenn die Herleitung und Berechnung der Parameter des Pfadmodells aus Abbildung 5.2 unproblematisch erscheint, kann eine fehlende Identifikation der Parameter die Modell¨ uberpr¨ ufung erschweren oder unm¨ oglich machen. Identifikation bedeutet, daß es f¨ ur jeden Parameter theoretisch m¨ oglich sein muß, eine eindeutige L¨osung zu ermitteln.4 Wenn alle unbekannten Parameter des Modells identifiziert sind, dann ist auch das Modell identifiziert. Praktisch bedeutet dies, daß ein Modell dann identifiziert ist, wenn zu allen Parametern jeweils eine eindeutige, exakte L¨osung existiert. Die einfachste M¨oglichkeit, die Modellidentifikation zu u ufen, bietet die sogenannte ¨berpr¨ t-Regel. Diese Regel besagt, daß die Anzahl der zu ermittelnden Parameter t kleiner oder gleich der Anzahl der bekannten Parameter sein muß (vgl. Bollen, 1989, S. 93):5 t ≤ 1/2(q)(q + 1)
(5.37)
mit q als Anzahl der Variablen X und Y . Mit der t-Regel lassen sich drei Konstellationen der Modellidentifikation unterscheiden: 1. Ein Modell ist unteridentifiziert, wenn die Anzahl der unbekannten, zu ermittelnden Parameter gr¨oßer ist als die Anzahl der bekannten, empirischen Gr¨oßen: t > 1/2(q)(q + 1)
(5.38)
2. Ein Modell ist gerade identifiziert, wenn die Anzahl der unbekannten und bekannten Parameter identisch ist: t = 1/2(q)(q + 1) (5.39) 3. Ein Modell ist u ¨beridentifiziert, wenn die Anzahl der unbekannten Parameter kleiner ist als die Anzahl der bekannten Gr¨ oßen: t < 1/2(q)(q + 1)
(5.40)
Die Differenz zwischen zu ermittelnden und empirischen Informationen ergibt die Anzahl der Freiheitsgrade des Modells, bezeichnet mit df (degrees of freedom). Das Modell in Abbildung 5.2 ist gerade identifiziert (df = 0), d. h. die Anzahl der empirischen Korrelationen und die Anzahl der zu ermittelnden Pfadkoeffizienten ist identisch. F¨ ur die Koeffizienten in beiden Modellgleichungen 5.1 und 5.2 existiert eine L¨osungsm¨oglichkeit. In diesem Falle k¨ onnen die Pfadkoeffizienten analytisch hergeleitet und berechnet werden (vgl. die Abschnitte 5.1.1 und 5.1.2). 4
Theoretisch bezieht sich hier auf die Modellcharakteristik und nicht auf die Struktur der Daten (vgl. Kline, 2011, S. 130f.). 5 Im Unterschied zu Bollen (1989) wird hier nicht nach unabh¨ angigen und abh¨ angigen Variablen unterschieden, wie es in der urspr¨ unglichen Terminologie von LISREL u ¨blich war.
58
5 Strukturgleichungsmodelle mit gemessenen Variablen
Liegen den Gleichungen 5.1 und 5.2 nicht gen¨ ugend Informationen aus der Korrelationsmatrix zugrunde, dann k¨ onnen die Pfadkoeffizienten nicht identifiziert und damit nicht berechnet werden (df < 0). Daher m¨ ussen in der Regel Restriktionen in unteridentifizierten Modellen spezifiziert werden. Dies kann beispielsweise durch Fixierung der Koeffizienten auf bestimmte Werte erfolgen, wobei die Vorgehensweise von der zugrundeliegenden theoretischen Konzeption des Modells und von den inhaltlichen Hypothesen abh¨angig ist (vgl. auch Abschnitt 5.1.6). Stehen dagegen mehr Informationen aus der Korrelationsmatrix zur Verf¨ ugung als f¨ ur die Berechnung der Pfadkoeffizienten notwendig sind (df > 0), dann existieren f¨ ur die Koeffizienten in beiden Modellgleichungen 5.1 und 5.2 mehr als eine L¨osungsm¨oglichkeit und es ist eine Sch¨ atzung der Parameter des Modells notwendig (siehe hierzu im weiteren den folgenden Abschnitt 5.1.4). Allerdings sind auch bei einer ausreichenden Zahl von Freiheitsgraden Modellkonstellationen denkbar, die keine Identifikation einzelner Parameter ohne zus¨atzliche Annahmen und Restriktionen erm¨ oglichen (vgl. zu den einzelnen Bedingungen Bollen, 1989, S. 104). Hierzu erfolgt eine ausf¨ uhrliche Diskussion im Rahmen der Meßmodelle in Kapitel 6, Abschnitt 6.2. Festzuhalten ist, daß die t-Regel eine notwendige, aber nicht hinreichende Bedingung f¨ ur die Identifikation der Modellparameter ist.
5.1.4
Sch¨atzung der Parameter
Die Ermittlung der Parameter f¨ ur die Pfadmodelle erfolgt in der Regel u ¨ber die Maximum-Likelihood(ML)-Methode, die bei gerade identifizierten Modellen zu identischen Werten im Vergleich zu dem in der Regressionsanalyse u ¨blichen Ordinary6 Least-Square(OLS)-Verfahren f¨ uhrt. Die Regressionsverfahren der g¨angigen Statistikprogrammpakete (SPSS, SAS, STATA) verwenden in der Standardeinstellung das OLSVerfahren, dessen Kriterium die Minimierung der Summe der quadrierten Abweichungen zwischen Beobachtungswerten und vorhergesagten Werten der Untersuchungsobjekte ist (vgl. Bortz & Schuster, 2010, S. 186). Bei u ¨beridentifizierten Modellen sind die Parametersch¨atzungen so ¨ ahnlich, daß es zu keinen substantiellen Interpretationsunterschieden kommt. Der wesentliche Unterschied besteht darin, daß in der Regressionsanalyse die nach abh¨angigen Variablen zerlegten Modelle (bzw. Gleichungen) separat gel¨ost werden, w¨ahrend die ML-Methode ein simultanes Verfahren ist (f¨ ur eine genauere Er¨orterung siehe Kapitel 6, Abschnitt 6.5.1). Bei gerade identifizierten Modellen f¨ uhrt die ML-Methode in der Regel zu analytisch eindeutigen Parametersch¨atzungen, bei u ¨beridentifizierten Modellen wird eine iterative L¨ osung angestrebt, die die Differenz zwischen 6
Der Name Maximum Likelihood beschreibt das statistische Prinzip dieser Sch¨ atzmethode: Wenn die Parametersch¨ atzungen Populationswerte sind, dann maximieren“ diese die Wahr” scheinlichkeit (likelihood), daß die Beobachtungswerte aus der Kovarianz- bzw. Korrelationsmatrix auf dieser Population basieren (vgl. Kline, 2011, S. 154f.). Im weiteren Verlauf dieses Abschnitts wird eine Kovarianzmatrix angenommen, auch wenn die hier besprochenen Pfadmodelle alle auf der Grundlage einer Korrelationsmatrix berechnet wurden.
5.1 Rekursive Pfadmodelle
59
der empirischen Kovarianzmatrix und der modellimplizierten Kovarianzmatrix minimal werden l¨aßt.7 Bis auf zwei Ausnahmen gelten die u ¨blichen Annahmen der multiplen Regressionsanalyse (vgl. Kapitel 4, Abschnitt 4.3): 1. Die ML-Methode erlaubt die Korrelation zwischen den Residuen von zwei oder mehr abh¨angigen Variablen. 2. Alle im Modell verwendeten Variablen sind multivariat normalverteilt. Die zweite Annahme kann f¨ ur empirische Daten als unrealistisch angesehen werden. Umfangreiche Simulationsstudien (vgl. Boomsma, 1988) haben aber gezeigt, daß die ML-Parameter bei hinreichend großer Stichprobe robust gegen Verletzungen der Multinormalverteilungsannahme sind.8 F¨ ur die Inferenzstatistik (gesch¨atzte Standardfehler) trifft dies allerdings nicht zu.9 Die iterative Bestimmung der Parameter in u ¨beridentifizierten Modellen u ¨ber die Minimierung einer Fit-Funktion (vgl. Gleichung 6.19 in Kapitel 6, Abschnitt 6.5.1) f¨ uhrt mit der Stichprobengr¨ oße zu einer Likelihood-Ratio-Statistik, die bei einer hinreichend großen Stichprobe einer χ2 -Verteilung unter Ber¨ ucksichtigung der Freiheitsgrade (df ) folgt. Die Freiheitsgrade berechnen sich u ¨ber die Differenz zwischen zu sch¨atzenden Modellparametern und den empirischen Gr¨ oßen in der Kovarianzmatrix. Die χ2 -Statistik f¨ ur gerade identifizierte Modelle (df = 0) ist immer Null. Bei u ¨beridentifizierten Mo2 dellen ist der χ -Wert umso gr¨ oßer von Null verschieden, je weniger Modell und Daten zusammenpassen. Der Vergleich des ermittelten χ2 -Wertes mit der entsprechenden theoretischen Gr¨oße zeigt, wie hoch die Wahrscheinlichkeit f¨ ur eine Inferenz der Modellergebnisse von der Stichprobe auf die Grundgesamtheit ist (p-Wert). Allerdings ist der χ2 -Wert auch von dem Stichprobenumfang abh¨angig, was dazu f¨ uhrt, daß selbst gut angepaßte Modelle bei großen Stichproben einen zu geringen Wahrscheinlichkeitswert erhalten. Dies ist auch eine Ursache f¨ ur die Entwicklung einer Vielzahl von alternativen Fitstatistiken zur Modellevaluation, die diese Abh¨angigkeit vom Stichprobenumfang 7
Strukturgleichungsprogramme haben alle ein vordefiniertes Abbruch- bzw. Konvergenzkriterium implementiert, welches sich in der Regel vom Anwender ¨ andern l¨ aßt (z. B. im Programm Mplus u usselwort CONVERGENCE im Kommando ANALYIS). ¨ber das Schl¨ 8 Als Faustregel kursiert in der Literatur der von Boomsma (1988) ermittelte Schwellenwert von n = 200. Allerdings ist die Robustheit der Parameter auch von der Modellkomplexit¨ at abh¨ angig. Allgemeing¨ ultige Empfehlungen sind daher f¨ ur empirische Daten recht schwierig. ¨ Ein guter Uberblick zu diesem Thema ist in der Metaanalyse von Hoogland und Boomsma (1998) zu finden. Statistische Tests zur Pr¨ ufung multivariater Normalverteilungen diskutiert Mardia (1985). 9 Sogenannte robuste ML-Sch¨ atzverfahren sind in der Lage, auch bei Abweichungen von der multivariaten Normalverteilung korrigierte Inferenzstatistiken zu berechnen (vgl. Kapitel 6, Abschnitt 6.5.1).
60
5 Strukturgleichungsmodelle mit gemessenen Variablen
nicht haben. Eine genauere Beschreibung dieser Fitmaße erfolgt im Rahmen der Diskussion verschiedener Meßmodelle in Kapitel 6, Abschnitt 6.6.
5.1.5
¨ Aquivalente Pfadmodelle
Das in Abschnitt 5.1.2 diskutierte Beispiel eines Pfadmodells mit vier Variablen ist gerade identifiziert. Das Modell hat demnach keinen Freiheitsgrad und eine perfekte Modellanpassung. Die Parameter werden eindeutig bestimmt und die empirischen Korrelationen k¨onnen exakt u ¨ber die ermittelten Pfadkoeffizienten reproduziert werden. Pfadmodelle mit diesen Eigenschaften werden auch als saturierte Pfadmodelle bezeichnet. Die Eindeutigkeit der L¨ osung eines saturierten Modells impliziert aber nicht, daß keine a¨quivalenten Modellkonzeptionen existieren, die ebenso die empirischen Korrelationen exakt reproduzieren. Zwei ¨ aquivalente Alternativen zu dem Ergebnis des Modells in Abbildung 5.3 zeigen die Abbildungen 5.4 und 5.5.
Abb. 5.4: Pfadmodell mit vier Variablen (Alternative 1)
In der ersten alternativen Modellierung zum Ausgangsmodell (Abbildung 5.4) ist die Richtung des Pfades zwischen der Variablen X3 und der Variablen Y vertauscht worden. Die Gr¨oße des Pfadkoeffizienten (0.040) ¨ andert sich nicht, die u ¨brigen Pfadkoeffizien¨ ten weisen auch kaum Anderungen auf. Die Residualkoeffizienten, und damit auch die erkl¨arten Varianzen, m¨ ussen (bis auf Rundungsschwankungen) bei ¨aquivalenten, saturierten Modellen identisch sein (vgl. Stelzl, 1986). In der zweiten alternativen Modellierung (Abbildung 5.5) wird anstatt eines Pfades zwischen X3 und Y eine Residualkorrelation zwischen den Variablen RX3 und RY spezifiziert. Auch hier ¨ andern sich die u ¨brigen Pfadkoeffizienten kaum. Weitere ¨aquivalente Modellierungen k¨ onnen spezifiziert werden (vgl. hierzu beispielsweise Kline, 2011, S. 225f).
5.1 Rekursive Pfadmodelle
61
Abb. 5.5: Pfadmodell mit vier Variablen (Alternative 2)
Die Ergebnisse der ¨ aquivalenten Modelle zeigen, daß es keine statistischen Kriterien gibt, die eine Entscheidung zugunsten einer Modellkonzeption nahelegen. Hier k¨onnen ¨ nur inhaltliche Hypothesen herangezogen werden. Wenn theoretische Uberlegungen daf¨ ur sprechen, Variable X3 als Ursache f¨ ur Variable Y zu spezifizieren, dann wird die Entscheidung zugunsten des Modells in Abbildung 5.3 fallen. Wird Y als Ursache f¨ ur Variable X3 vermutet, dann ist das Modell in Abbildung 5.4 zu pr¨aferieren. Kann dagegen keine kausale, sondern nur eine korrelative Beziehung zwischen beiden Variablen angenommen werden, dann ist – auf Grund der Abh¨angigkeit zu den Variablen X1 und X2 – eine Residualkorrelation zu spezifizieren. Dann wird das Modell in Abbildung 5.5 zu pr¨aferieren sein, wobei dieses – bedingt durch die Residualkorrelation – ausschließlich mit Strukturgleichungsprogrammen berechnet werden kann (vgl. die diskutierten Annahmen in Abschnitt 5.1.4).
5.1.6
Modellrestriktionen
Die besprochenen ¨ aquivalenten Modelle sind alle saturiert. Die Modellanpassung ist somit immer perfekt. Die Modelle k¨ onnen aber nicht an den Daten scheitern und damit ist ihr Informationsgehalt gering. Strukturgleichungsmodelle zeichnen sich aber insbesondere dadurch aus, daß Modellrestriktionen ber¨ ucksichtigt werden k¨onnen, um die Modelle sparsamer und damit auch informativer zu machen. Gest¨ utzt auf die empiri¨ schen Ergebnisse saturierter Modelle in Verbindung mit inhaltlichen Uberlegungen sind sinnvolle Restriktionen m¨ oglich. Wenn das Pfadmodell in Abbildung 5.2 herangezogen wird, so kann theoretisch postuliert werden, daß beispielsweise Variable X2 nicht direkt auf Y wirkt und der entsprechende Pfadkoeffizient auf Null gesetzt wird. Andererseits k¨onnen die gesch¨atzten Parametergr¨oßen des saturierten Modells in Abbildung 5.3 f¨ ur die Ber¨ ucksichtigung
62
5 Strukturgleichungsmodelle mit gemessenen Variablen
von Restriktionen herangezogen werden. Hierbei werden inferenzstatistische Grenzwerte (z. B. α < 0.05) als statistisches Entscheidungskriterium benutzt. Gemessen am 5 %Niveau sind zwei Pfadkoeffizienten nicht signifikant (pY 3 = 0.040 und p31 = −0.071). Abbildung 5.6 zeigt das Modellergebnis mit der Restriktion pY 3 = 0.
Abb. 5.6: Pfadmodell mit vier Variablen (Pfad X3 → Y = 0)
Wird ein hierarchischer Modellvergleich vorgenommen, d. h. nur die Beziehungsstruktur zwischen den Variablen ver¨ andert aber nicht die Anzahl der Variablen, dann kann der χ2 -Differenzentest f¨ ur den Modellvergleich verwendet werden. Der χ2 -Differenzentest basiert – wie der Name schon sagt – auf der absoluten Differenz zwischen zwei χ2 Werten, die im hierarchischen Modellvergleich auch wieder χ2 -verteilt ist (eine ausf¨ uhrliche Erl¨auterung erfolgt in Kapitel 6, Abschnitt 6.6.2). Durch die Einf¨ uhrung von Modellrestriktionen werden Freiheitsgrade gewonnen, da weniger Parameter zu sch¨atzen sind. Ist die resultierende χ2 -Differenz zwischen dem Ausgangsmodell und dem restringierten Modell nicht signifikant, dann kann das restriktivere, an Parametern sparsamere, Modell akzeptiert werden.10 Wird dagegen durch Einf¨ uhrung von Modellrestriktionen die resultierende χ2 -Differenz signifikant, dann wird das Ausgangsmodell zu akzeptieren sein. Die eingef¨ uhrte Modellrestriktion f¨ uhrt damit zu einem schlechteren Modellergebnis und zu einer Widerlegung des restringierten Modells. Aus Tabelle 5.2 wird ersichtlich, daß die eingef¨ uhrte Restriktion (pY 3 = 0) im Pfadmodell aus Abbildung 5.6 zu einer nicht signifikanten χ2 -Differenz f¨ uhrt und somit die Modellrestriktion akzeptiert werden kann. Abbildung 5.7 zeigt eine Modellvariation, bei der ein signifikanter Pfadkoeffizient auf Null gesetzt wird (pY 2 = 0). Gegen¨ uber dem Ergebnis des Ausgangsmodells (vgl. Abbildung 5.2) sind deutliche Unterschiede in den Gr¨oßen der einzelnen Pfadkoeffizienten zu 10
Bei einem Signifikanzniveau von 5 % sollte eine χ2 -Differenz mindestens 5 Punkte pro Freiheitsgrad betragen.
5.2 Nicht-rekursive Pfadmodelle
63
Tab. 5.2: Modellvergleiche durch den χ2 -Differenzentest Modell
χ2
df
χ2dif f
dfdif f
RMSEA
p-Wert
SRMR
Abb. 5.3 Abb. 5.6 Abb. 5.7
0 0.174 12.925
0 1 1
— 0.174 12.925
— 1 1
— 0.000 0.345
— 0.713 0.001
— 0.008 0.072
Zur Likelihood-Ratio-Statistik (χ2 ), zum Index Root Mean Square Error of Approximation (RMSEA) und zum Index Standardized Root Mean Square Residual (SRMR), vgl. die Ausf¨ uhrungen in Kapitel 6, Abschnitt 6.6.2.
verzeichnen. Die χ2 -Differenz zum Ausgangsmodell ist signifikant (vgl. die letzte Zeile in Tabelle 5.2), so daß diese Modellrestriktion zu einem deutlich schlechteren Modellergebnis f¨ uhrt.
Abb. 5.7: Pfadmodell mit vier Variablen (Pfad X2 → Y = 0)
5.2
Nicht-rekursive Pfadmodelle
5.2.1
Modellspezifikation
Nicht-rekursive Pfadmodelle sind ein weiterer wesentlicher Typ von Strukturgleichungsmodellen mit ausschließlich gemessenen Variablen. Ein Pfadmodell wird als nichtrekursiv bezeichnet, wenn mindestens eine direkte oder indirekte R¨ uckwirkung zwischen zwei Variablen besteht. Hierzu muß entweder eine neue Gleichung formuliert werden oder in eine bestehende Gleichung mindestens eine neue Variable aufgenommen werden (vgl. Opp & Schmidt, 1976, S. 33; Kline, 2011, S. 107). Abbildung 5.8 zeigt ein einfaches
64
5 Strukturgleichungsmodelle mit gemessenen Variablen
nicht-rekursives Modell mit einer direkten R¨ uckwirkung zwischen den Variablen Y und Z.
Abb. 5.8: Nicht-rekursives Pfadmodell mit vier Variablen (direkte R¨ uckwirkung)
F¨ ur dieses nicht-rekursive Pfadmodell k¨ onnen zwei Strukturgleichungen aufgestellt werden:11 Y = pyx1 X1 + pyz Z + Ry (5.41) Z = pzx2 X2 + pzy Y + Rz
(5.42)
Die Kovarianzmatrix der vier Variablen X1 , X2 , Y und Z enth¨alt 10 Gr¨oßen (6 Kovarianzen und 4 Varianzen), die Anzahl der zu ermittelnden Parameter betr¨agt 9. Hierzu geh¨oren neben den Pfadkoeffizienten pyx1 , pzx2 , pzy und pyz die Varianzen der Variablen X1 und X2 (σX1 , σX2 ), die Kovarianz σX2 X1 sowie die Residualvarianzen der Variablen Y und Z (σRy , σRz ). Das Modell ist mit einem Freiheitsgrad u ¨beridentifiziert (df = 1). Sowohl Y als auch Z sind in den Gleichungen jeweils als abh¨angige Variable und als unabh¨angige Variable spezifiziert. Diese Situation hat Auswirkungen auf die Interpretation der Pfadkoeffizienten pzy und pyz , denn eine eindeutige Differenzierung zwischen Ursache und Wirkung besteht zwischen den Variablen Y und Z gegen¨ uber rekursiven Pfadmodellen nicht mehr. Bei sehr enger Auslegung des Kausalit¨atsbegriffs k¨onnten nur rekursive Modelle als Kausalmodelle interpretiert werden (zu dieser Argumentation vgl. Strotz & Wold, 1971), da zwischen Ursache und Wirkung eine, wenn auch noch so kleine, Zeitdifferenz liegen muß. Wenn man aber der Argumentation von Fisher (1969, ¨ 1970) innerhalb der Okonometrie folgt, dann k¨onnen nicht-rekursive Pfadmodelle in der Regel als Approximationen an zeitlich verz¨ ogerte rekursive Pfadmodelle betrachtet werden. Die aus Querschnitterhebungen resultierenden Daten und die damit zu pr¨ ufenden Pfadmodelle erfassen dann nur das Ergebnis des zeitlich verz¨ogerten Prozeßes (vgl. die ausf¨ uhrliche Diskussion in P. Schmidt, 1977, S. 195f.). 11
Im Unterschied zu den Gleichungen 5.1 und 5.2 des rekursiven Modells in Abschnitt 5.1.1 werden hier die Residualpfadkoeffizienten nicht ausgewiesen, sondern nur die Residualvarianzen. Die Berechnung der Residualpfadkoeffizienten in nicht-rekursiven Pfadmodellen erfolgt analog zu den Gleichungen 5.23 bzw. 5.24.
5.2 Nicht-rekursive Pfadmodelle
65
Ein weiteres Problem stellt sich, wenn anhand der empirischen Information zu entscheiden ist, ob ein rekursives oder ein nicht-rekursives Modell spezifiziert werden soll. Oft ist der Schritt zu einem nicht-rekursiven Modell voreilig. Alternative rekursive Modellierungen sind theoretisch und empirisch oft angemessener.12 Daher sollte der gegeneinander durchzuf¨ uhrende Test (vgl. hierzu Abschnitt 5.1.6) verschiedener alternativer Modelle in bezug auf die theoretische Konzeption immer im Vordergrund stehen. Wird eine weitere intervenierende Variable W in ein nicht-rekursives Modell aufgenommen, dann kann der Pfadkoeffizient pzy oder pyz als indirekter R¨ uckwirkungseffekt u ¨ber die Variable W modelliert werden. Abbildung 5.9 zeigt ein nicht-rekursives Pfadmodell mit einer indirekten R¨ uckwirkung zwischen den Variablen Z und Y u ¨ber die Variable W .
Abb. 5.9: Nicht-rekursives Pfadmodell mit f¨ unf Variablen (indirekte R¨ uckwirkung)
F¨ ur dieses Pfadmodell k¨ onnen drei Strukturgleichungen aufgestellt werden: Y = pyx1 X1 + pyw W + Ry
(5.43)
Z = pzx2 X2 + pzy Y + Rz
(5.44)
W = pwz Z + Rw
(5.45)
Die Kovarianzmatrix der f¨ unf Variablen X1 , X2 , Y , Z und W enth¨alt 15 Gr¨oßen, die Anzahl der zu ermittelnden Parameter betr¨ agt 11. Hierzu geh¨oren neben den Pfadkoeffizienten pyx1 , pzx2 , pzy , pyw und pwz die Varianzen der Variablen X1 und X2 (σX1 , σX2 ), die Kovarianz σX2 X1 sowie die Residualvarianzen der Variablen Y , Z und W (σRy , σRz , σRw ). Das Modell ist mit vier Freiheitsgraden u ¨beridentifiziert (df = 4).
12
Ammermann, Gluchowski und Schmidt (1975) konnten nachweisen, daß eine algebraische Ableitung die Entscheidung zwischen einem rekursiven und einem nicht-rekursiven Modell erleichtert. In einem falsch spezifizierten nicht-rekursiven Modell muß der entsprechende redundante Pfadkoeffizient Null werden.
66
5 Strukturgleichungsmodelle mit gemessenen Variablen
Beispiel Das folgende Beispiel bezieht sich sowohl auf das nicht-rekursive Pfadmodell mit direkter R¨ uckwirkung als auch auf das Modell mit indirekter R¨ uckwirkung. Die Korrelationsbzw. Kovarianzmatrix ist Bollen (1989, S. 116) entnommen.13 Entsprechend der Abbildung 5.8 enth¨alt das Modell vier Variablen, die sich nach objektiver und subjektiver Messung differenzieren lassen: objektives Einkommen (X1 ), objektives Berufsprestige (X2 ), subjektives Einkommen (Y ) und subjektives Berufsprestige (Z). Entsprechend der Abbildung 5.9 wird die Variable sozialer Status (W ) f¨ ur das nicht-rekursive Modell mit indirekter R¨ uckwirkung aufgenommen. Abbildung 5.10 zeigt das Ergebnis des Modells mit vier Variablen und den standardisierten Parametern.
Abb. 5.10: Nicht-rekursives Pfadmodell zum Verh¨ altnis von Einkommen (X1 , Y ) und Berufsprestige (Y1 , Z)
Nach den Ergebnissen hat objektives Einkommen (X1 ) einen st¨arkeren Effekt auf die subjektive Messung (Y ) als objektives Berufsprestige (X2 ) auf die entsprechende subjektive Variable (Z). Die nicht-rekursive Beziehung zwischen den beiden subjektiven Variablen weist einen deutlich st¨ arkeren Effekt von Einkommen auf Berufsprestige (0.249) auf als umgekehrt von Berufsprestige auf Einkommen (0.116). Das Modell ist nur mit nur einem Freiheitsgrad u ¨beridentifiziert, die Modellanpassung ist entsprechend sehr gut (χ2 = 0.680 mit df = 1; RMSEA = 0.00; SRMR = 0.011).14 13
Die Daten stammen urspr¨ unglich von Kluegel, Singleton und Starnes (1977). Die Anzahl der Personen betr¨ agt N=432. Im Unterschied zu den rekursiven Pfadmodellen wird hier statt der Korrelationsmatrix die Kovarianzmatrix f¨ ur die Berechnungen verwendet. Die Parameter in den Gleichungen sind dann unstandardisierte Gr¨ oßen. F¨ ur die standardsierten Parameter muß bei Verwendung des Programms Mplus das Schl¨ usselwort STANDARDIZED im Kommando OUTPUT angegeben werden. Im Programm lavaan sind die standardisierten Parameter u altlich, zur ¨ber das Kommando ParameterEstimates(..., standardized=TRUE) erh¨ Standardisierung siehe Abschnitt 5.2.2. 14 Zur Erl¨ auterung der Fitindizes siehe Kapitel 6, Abschnitt 6.6.2.
5.2 Nicht-rekursive Pfadmodelle
67
Die Anpassung zwischen Modell und Daten ist f¨ ur das nicht-rekursive Pfadmodell mit indirekter R¨ uckwirkung, den Modell¨ uberlegungen in Abbildung 5.9 entsprechend, nicht zufriedenstellend (χ2 = 29.499 mit df = 4; RMSEA = 0.12; SRMR = 0.08). Um eine angemessene Modellanpassung zu erreichen, mußte ein zus¨atzlicher Pfad f¨ ur die direkte Beziehung zwischen objektivem Einkommen (X1 ) und sozialem Status (W ) ber¨ ucksichtigt werden. Hierdurch konnte eine gute Modellverbesserung erreicht werden (χ2 = 4.351 mit df = 3; GFI = 0.996).
Abb. 5.11: Nicht-rekursives Pfadmodell zum Verh¨ altnis von Einkommen (X1 , Y ), Berufsprestige (Y1 , Z) und sozialem Status (W )
Der standardisierte Pfadkoeffizient X1 und W betr¨agt 0.220 (vgl. Abbildung 5.11). Der wesentliche Unterschied zwischen Abbildung 5.10 und Abbildung 5.11 besteht darin, daß die urspr¨ unglich direkte R¨ uckwirkung des subjektiv gemessenen Berufsprestiges (Z) auf das entsprechend gemessene Einkommen (Y ) hier indirekt u ¨ber den sozialen Status (W ) erfolgt. Die Ber¨ ucksichtigung des sozialen Status f¨ uhrt aber auch dazu, daß eine direkte Beziehung von der Einkommensvariablen X1 spezifiziert werden muß, dagegen eine m¨ogliche direkte Beziehung von der Prestigevariablen X2 auf Null fixiert bleibt. Insgesamt betrachtet sind durch die Variable W zus¨ atzliche inhaltliche Informationen im Vergleich zum Modell in Abbildung 5.10 ermittelt worden, substantiell andere Interpretationen ergeben sich aber f¨ ur die in beiden Modellen gleich spezifizierten Pfadkoeffizienten nicht. Ob eine dritte, die direkte R¨ uckwirkung vermittelnde Variable ber¨ ucksichtigt werden muß, h¨angt in erster Linie von den inhaltlich, theoretischen Ausgangsfragestellungen ab.
5.2.2
Standardisierung der Parameter
Die Parameter der rekursiven Pfadmodelle in Abschnitt 5.1 sind alle auf der Basis einer empirischen Korrelationsmatrix ermittelt worden. Demzufolge sind die Parameter standardisiert. Die nicht-rekursiven Pfadmodelle wurden auf Basis einer empirischen Kovarianzmatrix berechnet. Die ermittelten Parameter sind nicht standardisiert.
68
5 Strukturgleichungsmodelle mit gemessenen Variablen
Die zugrunde gelegte statistische Theorie, d. h. die Verwendung der ML-Funktion und ¨ der Likelihood-Ratio-Statistik setzt voraus, daß zur Uberpr¨ ufung der Pfadmodelle Kovarianzmatrizen verwendet werden. Unter bestimmten Bedingungen f¨ uhrt die Modellu ufung mit einer Korrelationsmatrix zu falschen χ2 -Werten des Likelihood-Ratio¨berpr¨ Tests und darauf basierenden Fit-Maßen sowie zu falschen Standardfehlern (vgl. hierzu ausf¨ uhrlich J¨oreskog & S¨ orbom, 1988, S. 46f.). Nur wenn das zu u ufende Mo¨berpr¨ dell keinerlei Parameterrestriktionen aufweist, kann davon ausgegangen werden, daß die Modell¨ uberpr¨ ufung mit der Korrelationsmatrix und mit der entsprechenden Kovarianzmatrix zu gleichen Parametersch¨ atzungen f¨ uhrt.15 Im folgenden wird exemplarisch verdeutlicht, wie die gesch¨atzten, unstandardisierten Parameter eines Pfadmodells durch die Varianzen bzw. Standardabweichungen der gemessenen Variablen standardisiert werden. Die in den Abbildungen 5.10 und 5.11 angegebenen Pfadkoeffizienten sind sogenannte standardisierte Parameter, obwohl die Eingabematrizen f¨ ur beide Modelle unstandardisierte Gr¨oßen (Varianzen und Kovarianzen) enthalten. Die gesch¨ atzten Parameter der Modelle m¨ ussen demnach auch unstandardisiert sein. F¨ ur die Gleichungen 5.41 und 5.42 des nicht-rekursiven Pfadmodells mit direkter R¨ uckwirkung (vgl. Abbildung 5.8) werden die Ergebnisse der unstandardisierten Regressionskoeffizienten nachfolgend aufgef¨ uhrt: Y = 0.110X1 + 0.122Z
(5.46)
Z = 0.007X2 + 0.238Y
(5.47)
Da die einzelnen Variablen unterschiedliche Skalierungen aufweisen, l¨aßt sich anhand der unstandardisierten Koeffizienten bij kein Vergleich der Parameter untereinander vornehmen. Durch Multiplikation der Parameter mit dem Verh¨altnis der Standardabweichungen der jeweiligen unabh¨ angigen und abh¨angigen Variablen wird die Metrik auf Standardabweichungseinheiten transformiert und man erh¨alt die entsprechenden standardisierten Koeffizienten psij (vgl. Kline, 2011, S. 22): 1/2
psij
σYj = bij ( ) σYi
(5.48) 1/2
psij = bij (
σXj ) σYi
(5.49)
Die gesch¨atzten Parameter in den Gleichungen 5.46 und 5.47 k¨onnen hiermit entsprechend standardisiert werden: 15
J¨ oreskog und S¨ orbom (1988, S. 46) f¨ uhren erg¨ anzend dazu aus, daß Standardfehler und der Likelihood-Ratio-Test immer noch asymptotisch korrekt sein k¨ onnen, wenn Skaleninvarianz vorausgesetzt werden kann und die Modellparameter zu einer gesch¨ atzten Korrelationsma f¨ = I) erf¨ trix Σ uhren, die die Bedingung diag(Σ ullt, d. h. die Diagonale der Matrix nur die Werte 1.0 enth¨ alt.
5.3 Der multiple Gruppenvergleich psyx1 = 0.110 (
69 2.198 ) = 0.362 0.670
(5.50)
0.640 ) = 0.116 (5.51) 0.670 21.277 ) = 0.241 (5.52) pszx2 = 0.007 ( 0.640 0.670 pszy = 0.238 ( ) = 0.249 (5.53) 0.640 Die standardisierten Gr¨ oßen entsprechen den in der Abbildung 5.10 angegebenen Werten.
psyz = 0.122 (
5.3
Der multiple Gruppenvergleich
5.3.1
Der simultane Vergleich der Pfadmodelle
In den diskutierten rekursiven und nicht-rekursiven Pfadmodellen sind empirische Informationen in Form einer Korrelations- oder Kovarianzmatrix zugrunde gelegt worden, die sich immer auf alle F¨ alle einer Stichprobe bezogen. In vielen inhaltlichen Anwendungen kann es aber sinnvoll sein, die Stichprobe nach bestimmten (beispielsweise soziodemographischen) Gruppenvariablen zu teilen, um zu testen, ob die Parameter eines Pfadmodells u ¨ber die Gruppen variieren. Der einfachste Weg besteht darin, die Matrizen f¨ ur die einzelnen Gruppen (beispielsweise getrennt f¨ ur Frauen und M¨anner) zu berechnen und die ermittelten Parameter zwischen den Gruppen deskriptiv zu vergleichen. Ein Gruppenvergleichstest w¨ are damit aber nicht m¨oglich. Erst wenn die Gruppen simultan einem Modelltest unterzogen werden, k¨onnen Hypothesen u ¨ber die Gleichheit bzw. Verschiedenheit der Parameter zwischen den Gruppen getestet werden (J¨oreskog & S¨orbom, 1988, S. 227f.). An einem Pfadmodell mit vier Variablen wird im folgenden der multiple Gruppenvergleich allgemein und anschließend mit einem inhaltlichen Beispiel er¨ortert. Zur Berechnung der Parameter des Pfadmodells (vgl. Abbildung 5.12) werden zwei Strukturgleichungen aufgestellt:16 g X3 = pg31 X1 + pg32 X2 + RX 3
(5.54)
Y = pgY 1 X1 + pgY 2 X2 + pgY 3 X3 + RYg
(5.55)
Das Pfadmodell ist f¨ ur jede Gruppe g durch die Parameter der beiden Strukturgleichungen definiert, wobei mit g = 1, 2, . . . G die jeweilige Gruppe bezeichnet wird. 16
Im weiteren werden die Suffixe der Pfadkoeffizienten verk¨ urzt dargestellt, um eine bessere ¨ Ubersicht in den Abbildungen zu gew¨ ahrleisten, z. B. ist statt pgx3 x1 in Abbildung 5.12 pg31 eingetragen.
70
5 Strukturgleichungsmodelle mit gemessenen Variablen
Abb. 5.12: Pfadmodell mit vier Variablen f¨ ur den multiplen Gruppenvergleich
Parameterrestriktionen u ¨ber die Gruppen (z. B. Gleichsetzungen bestimmter Parameter) erm¨oglichen einen Test, ob eine bedeutsame Variabilit¨at u ¨ber die Gruppen existiert oder diese so klein ist, daß die gew¨ ahlten Restriktionen die Modellanpassung nicht beeintr¨achtigen w¨ urden. Hierzu vergleicht man die Modellvarianten mit und ohne die gew¨ahlten Parameterrestriktionen und zieht zur Bewertung den in Abschnitt 5.1.6 er¨orterten χ2 -Differenzentest heran. Die Gleichsetzung der Pfadkoeffizienten aus den Gleichungen 5.54 und 5.55 kann wie folgt vorgenommen werden: p131 = p231 = . . . = pG 31 p132 = p232 = . . . = pG 32
p1Y 1 = p2Y 1 = . . . = pG Y1
p1
Y2
=
p2
Y3
=
p2
p1
Y2
= ... =
Y3
= ... =
(5.56)
pG Y2 pG Y3
F¨ ur die Gleichsetzung der Residualvarianzen der abh¨angigen Variablen X3 und Y gelten folgende Restriktionen: 1 = σ2 = . . . = σG σX X3 X3 3 (5.57) 1 2 G σY = σY = . . . = σY F¨ ur die Gleichsetzung der Kovarianz zwischen den beiden unabh¨angigen Variablen X1 und X2 gilt: 1 = σ2 = . . . = σG (5.58) σ21 21 21 Es kann jede Form der Invarianz der einzelnen Parameter getestet werden, beginnend mit der M¨ oglichkeit, alle Parameter gleichzusetzen, bis zur M¨oglichkeit, keinerlei Restriktionen zu spezifizieren. Die Sch¨ atzung der Parameter im multiplen Gruppenvergleich erfolgt wie bei den schon er¨ orterten Pfadmodellen u ¨ber die MaximumLikelihood(ML)-Funktion (vgl. Abschnitt 5.1.4). Die Modell¨ uberpr¨ ufung wird u ¨ber die
5.3 Der multiple Gruppenvergleich
71
Likelihood-Ratio-Statistik vorgenommen, die die Modellanpassung unter Ber¨ ucksichtigung der Gruppen und der gew¨ ahlten Modellrestriktionen testet. Ausgangspunkt jedes multiplen Gruppenvergleichs ist ein Basismodell, das entweder keinerlei Modellrestriktionen u alt oder das alle Parameter u ¨ber die Gruppen enth¨ ¨ber die Gruppen gleichsetzt. Je nach gew¨ahltem Basismodell kann durch Freisetzung bzw. Restringierung einzelner Modellparameter die Modellvariante im Gruppenvergleich gefunden werden, die am ehesten zu den Daten paßt. Da es sich bei den einzelnen Modellvarianten um geschachtelte Modelle (nested models, vgl. Kline, 2011, S. 214f.) handelt, kann die eigentliche Hypothesenpr¨ ufung (Variabilit¨ at bzw. Invarianz des Modells bzw. einzelner Parameter) u ¨ber ¨ den χ2 -Differenzentest erfolgen. Die schrittweise Uberpr¨ ufung einzelner Modellrestriktionen kann je nach der Gr¨ oße des Pfadmodells zu einer großen Zahl von Modellvarianten f¨ uhren. Praktikabel hat sich die Strategie erwiesen, zun¨achst ganze Parametergruppen (z. B. alle Pfadkoeffizienten des Modells) zu restringieren. In einem weiteren Schritt werden dann die Restriktionen zur¨ uckgenommen, die eine gruppenspezifische Variabilit¨at aufweisen. In welcher Reihenfolge die Modellvarianten spezifiziert werden (beispielsweise zuerst Restriktionen nach Gleichung 5.56, dann nach Gleichung 5.57 usw.), ist abh¨angig ¨ von inhaltlichen Uberlegungen und den jeweils formulierten Hypothesen. F¨ ur den multiplen Gruppenvergleich werden die empirischen Informationen auf die jeweiligen gruppenspezifischen Varianzen und Kovarianzen herangezogen. Die Eingabematrizen S g (g = 1, 2, . . . G) m¨ ussen daher Kovarianzmatrizen sein, da die gruppenspezifischen Streuungen der Variablen in den Korrelationsmatrizen nicht enthalten sind. Beispiel Das folgende Modell bezieht sich auf eine vereinfachte Version des in der Bildungsforschung formulierten Modells der Statuszuweisungstheorie von Blau und Duncan (1967), die den Berufsstatus einer Person durch ihr Ausbildungsniveau und den sozialen Status des Elternhauses (Beruf und Bildung) erkl¨ aren will.17 F¨ ur die statistische Modellierung werden vier Variablen herangezogen, die im Datensatz der Allgemeinen Bev¨olkerungs” umfrage der Sozialwissenschaften“ (abgek¨ urzt ALLBUS) aus dem Jahre 1998 enthalten sind: 1. Bildungsabschluß im Elternhaus: Schulabschluß des Vaters (V304)
17
Hypothesenformulierungen zum Modell von Blau und Duncan (1967) sind in Diekmann (2007, S. 147) zu finden, der auch darauf hinweist, daß Blau und Duncan schon mit Pfadmodellen gearbeitet haben. In ihren weiteren Arbeiten wurde das Modell durch weitere erkl¨ arende Variablen (z. B. Familienstand) erweitert (vgl. Blau & Duncan, 1967, S. 331f.). ¨ Das Modell wird auch als klassische Anwendung der Pfadanalyse in einem Uberblick von Raftery (2001) u ¨ber die Bedeutung der statistischen Modellierung in der Soziologie in den letzten 50 Jahren erw¨ ahnt.
72
5 Strukturgleichungsmodelle mit gemessenen Variablen
2. Eigener Bildungsabschluß: Schulabschluß des Befragten (V195)18 3. Berufsstatus im Elternhaus: Berufsprestige-Skala des Vaters (V299) 4. Eigener Berufsstatus: Berufsprestige-Skala des Befragten (V463)19 Es werden ausschließlich positive Beziehungen der Variablen untereinander angenommen (vgl. Abbildung 5.13): Je h¨ oher der Schulabschluss und das Berufsprestige des Vaters (V299, V304), desto h¨ oher der Schulabschluß und das Berufsprestige des Befragten (V195, V463). Diese Hypothesen werden durch die Pfadkoeffizienten pyx1 , pyx2 , pzx1 und pzx2 u uft. Des weiteren wird der direkte Effekt der Variablen V195 auf ¨berpr¨ die Variable V463 u ¨ber den Pfadkoeffizienten pzy spezifiziert. Wird das Modell zun¨ achst an der Gesamtstichprobe des ALLBUS u uft, so best¨ati¨berpr¨ gen sich – bis auf eine Ausnahme – die angenommenen positiven Beziehungen zwischen den Variablen.20
Abb. 5.13: Das operationalisierte Pfadmodell nach der Statuszuweisungstheorie von Blau und Duncan (1967) 18
Die Variablenbezeichnungen sind dem Codebuch des ALLBUS entnommen (vgl. Zentralarchiv f¨ ur Empirische Sozialforschung, 1998); einige Kategorien der Variablen V195 und V304 sind f¨ ur die Pfadanalysen so rekodiert worden, daß sich eine Rangfolge der Schulabschl¨ usse ergab. Streng genommen sind beide Variablen ordinalskaliert, f¨ ur die Berechnung des Pfadmodells werden sie hier als metrische Variablen behandelt. 19 Variable V463 beinhaltet auch Prestigewerte f¨ ur Befragte, die zum Zeitpunkt der Befragung nicht berufst¨ atig waren, aber fr¨ uher eine Berufst¨ atigkeit ausge¨ ubt haben. Die Konstruktion dieser Variablen ist im Codebuch des ALLBUS unter Note 0019 erl¨ autert (vgl. Zentralarchiv f¨ ur Empirische Sozialforschung, 1998). Die Konstruktion der Berufsprestige-Skala wird in Treiman (1977) beschrieben. 20 Die gesch¨ atzten Pfadkoeffizienten sind standardisiert.
5.3 Der multiple Gruppenvergleich
73
Der st¨arkste Effekt auf das Berufsprestige des Befragten (V463) geht von der eigenen Schulbildung (V195) aus (pzy = 0.425), gefolgt von dem Berufsprestige des Vaters (V299; pzx1 = 0.234). Die Schulbildung des Vaters (V304) steht, entgegen der formulierten Hypothese, in keiner direkten Beziehung zum Berufsprestige des Befragten. Der ermittelte Pfadkoeffizient ist nicht signifikant (pzx2 = 0.007). Schließlich ist die Beziehung zwischen dem Schulabschluß des Vaters und dem des Befragten (pyx2 = 0.422) st¨arker als die zwischen dem Berufsprestige des Vaters und dem Schulabschluß des Befragten (pyx1 = 0.116). Da das Modell gerade identifiziert ist (df = 0), besteht keine Abweichung zwischen empirischer und modellimplizierter Kovarianzmatrix. In einem zweiten Schritt wird das Modell nach Blau und Duncan (1967) einem multiplen Gruppenvergleich unterzogen. Hierbei soll inhaltlich gepr¨ uft werden, ob eine Variabilit¨at der Pfadkoeffizenten nach dem Alter der befragten Personen besteht. Zur Bestimmung der Altersgruppen wird die im ALLBUS 1998 kategorisierte Variable V309 verwendet. Die erste Gruppe beinhaltet Befragte mit einem Alter zwischen 18 und 29 Jahren (n = 501), die zweite Gruppe Befragte mit einem Alter zwischen 30 und 59 Jahren (n = 1743) und die dritte Gruppe Befragte, die ¨ alter als 60 Jahre sind (n = 990). Im Unterschied zur Spezifikation in Abbildung 5.13 wird die Beziehung zwischen dem Schulabschluß des Vaters (V304) und dem Berufsprestige des Befragten (V463) auf Null fixiert (pzx2 = 0), da sich diese Beziehung nach den Parametersch¨atzungen f¨ ur die Gesamtstichprobe als nicht signifikant herausgestellt hat. Separate Modell¨ uberpr¨ ufungen f¨ ur die einzelnen Altersgruppen geben auch keine Hinweise auf signifikante Werte des Pfadkoeffizienten pzx2 . ¨ Tabelle 5.3 gibt einen Uberblick u ¨ber die Fitmaße der berechneten Modellvarianten sowie die Ergebnisse der χ2 -Differenzentests (Spalten 5 und 6). Der χ2 -Wert der einzelnen Modellvarianten setzt sich aus den jeweiligen Werten der drei Gruppen zusammen. Hiermit l¨aßt sich feststellen, wie gut die jeweilige Modellanpassung innerhalb der Gruppen ist. Der Root Mean Square Error of Approximation-Index (RMSEA) basiert auf dem Gesamtanpassungswert des Modells.21 Das Basismodell (Variante 1 in Tabelle 5.3) beinhaltet Gleichheitsrestriktionen f¨ ur alle Pfadkoeffizienten und Residualvarianzen. Mit der Spezifikation des Basismodells wird inhaltlich angenommen, daß die Beziehungen zwischen den Variablen nicht nach dem Alter der Befragten variieren. Der Fit des Basismodells zeigt eindeutig, daß die Gleichheitsrestriktionen f¨ ur die Pfadkoeffizienten (pyx1 , pyx2 , pzx1 , pzx2 und pzy ) sowie f¨ ur die Residualvarianzen (RY und RZ , vgl Abbildung 5.13) nicht aufrechterhalten werden k¨onnen. Insbesondere in der ersten und dritten Gruppe sind hohe Abweichungen zwischen den jeweiligen empirischen und modellimplizierten Kovarianzmatrizen zu verzeichnen, w¨ahrend die Modellanpassung f¨ ur die zweite Gruppe gut ist (χ2 = 13.37). Die Ergebnis21
Die jeweilige Modellanpassung wird durch die Differenz zwischen den gruppenspezifischen, empirischen Kovarianzmatrizen S G und den gruppenspezifischen, modellimplizierten Kovarianzmatrizen Σ G ermittelt. Zum χ2 -Differenzentest und zum RMSEA siehe die Erl¨ auterungen in Kapitel 6, Abschnitt 6.6.2.
74
5 Strukturgleichungsmodelle mit gemessenen Variablen
Tab. 5.3: Vergleich der Modellvarianten nach dem multiplen Gruppenvergleich Modell
Gruppe
χ2
df
χ2Dif f
dfDif f
RMSEA
p-Wert
SRMR
Variante 1 Basismodell
1 2 3 ∑
100.59 13.37 52.97 166.93
15
—
—
0.114
0.000
0.063
Variante 2 p1zy,2,3 freigesetzt
1 2 3 ∑
66.93 9.09 39.84 115.86
13
51.07
2
0.101
0.000
0.071
Variante 3 Ry1,2,3 freigesetzt
1 2 3 ∑
16.96 8.05 13.75 38.76
11
77.10
2
0.057
0.250
0.050
Variante 4 p1zx1 ,p3yx2 freigesetzt
1 2 3 ∑
2.18 0.15 0.87 3.21
9
47.10
2
0.000
1.000
0.013
Die Spezifikation der Modellvarianten wird im Text erl¨ autert.
se des Langrange Multiplier(LM)-Tests22 weisen auf altersspezifische Unterschiede des Parameters pzy hin. In Variante 2 wird dieser Parameter u ¨ber die Gruppen freigesetzt. Der χ2 -Differenzentest ist deutlich signifikant (χ2Dif f = 166.73 − 115.86 = 51.07). Diese Modellvariante kann somit als neues Basismodell vorl¨aufig akzeptiert werden. Des weiteren werden durch den LM-Test Hinweise auf eine unterschiedliche Variabilit¨at der Residualvarianz der Variablen V195 (RY ) gegeben, die in der Variante 3 zus¨atzlich u ¨ber die Gruppen freigesetzt wird. Auch hier f¨ uhrt der χ2 -Differenzentest mit χ2Dif f = 77.10 zu einer Akzeptanz der neuen Modellvariante. Die Modellanpassung f¨ ur die erste und die dritte Gruppe ist – trotz des insgesamt verbesserten Modellfits – aber noch nicht ganz befriedigend. Gruppenspezifische Differenzen einzelner Pfadkoeffizienten sind nach erneuten Hinweisen durch den LM-Test hierf¨ ur verantwortlich. Die Aufhebung der Gleichheitsrestriktion f¨ ur den Parameter p1zx1 (erste Gruppe) und f¨ ur den Parameter p3yx2 (dritte Gruppe) f¨ uhrt zu einer erneuten deutlichen Modellverbesserung innerhalb der jeweiligen Gruppen (vgl. Variante 4 in Tabelle 5.3).
22
Der LM-Test wird ausf¨ uhrlich in Kapitel 6, Abschnitt 6.6.2 erl¨ autert. In Mplus wird der LM-Test Model Modification Indices genannt, in lavaan wird die Bezeichnung modificationIndices verwendet.
5.3 Der multiple Gruppenvergleich
75
Der χ2 -Differenzentest ist mit χ2Dif f = 47.10 erneut signifikant. Eine weitere Modellverbesserung ist nicht notwendig. Die berechneten Parameter der Modellvariante 4 f¨ ur die drei Gruppen sind im Pfadmodell in Abbildung 5.14 eingetragen. Numerisch gleiche Werte sind auf die Gleichheitsrestriktionen zur¨ uckzuf¨ uhren, die mit der Modellanpassung vereinbar sind. Es werden u ¨blicherweise unstandardisierte Parameter verglichen, da die empirischen Varianzen bzw. Standardabweichungen der Variablen in den einzelnen Gruppen unterschiedlich sind.23
Parameter der ersten Gruppe (18–29 Jahre alt) Parameter der zweiten Gruppe (30–59 Jahre alt) Parameter der dritten Gruppe (60 Jahre und ¨ alter) Abb. 5.14: Parameter des multiplen Gruppenvergleichs f¨ ur drei Altersgruppen (unstandardisierte Parameter)
Der Pfadkoeffizient zwischen V299 (Berufsprestige des Vaters) und V195 (Schulbildung des Befragten) variiert nicht zwischen den Gruppen (0.01), w¨ahrend der Einfluß der Schulbildung des Vaters (V304) auf die eigene Schulbildung (V195) in der dritten Gruppe gr¨oßer ist (0.60) als in den beiden u ¨brigen Gruppen. Ebenso ist die Beziehung zwischen der Schulbildung (V195) und dem Berufsprestige des Befragten (V463) umso st¨arker, je ¨alter die Befragten sind (2.11, 5.50 und 6.45). Nur f¨ ur die Beziehung zwischen dem Berufsprestige des Vaters (V299) und dem eigenen Berufsprestige (V463) ist ein st¨arkerer Effekt bei der ersten Gruppe (0.41) gegen¨ uber den anderen beiden Gruppen (0.20) zu verzeichnen. Insgesamt zeigen die Ergebnisse, daß die Statuszuweisungprozesse bei den ¨alteren Befragten homogener verlaufen und damit eine st¨arkere Pr¨adiktion des 23
Unstandardisierte Parameter haben einen von der Skalierung der Variablen abh¨ angigen Wertebereich und k¨ onnen daher auch > 1.0 sein, vgl. auch die Erl¨ auterungen in Kapitel 4, Abschnitt 4.1.
76
5 Strukturgleichungsmodelle mit gemessenen Variablen
elterlichen Status auf den eigenen Status m¨ oglich ist. Je j¨ unger die Befragten sind, desto heterogener bzw. unbestimmter verl¨ auft der Statuszuweisungsprozeß. Daf¨ ur k¨onnen beispielsweise die in der soziologischen Familien- und Bildungforschung thematisierten Individualisierungprozesse verantwortlich sein (vgl. hierzu U. Schmidt, 2002).
5.3.2
Der simultane Vergleich der Mittelwerte
Neben dem simultanen Vergleich der Kovarianzstruktur kann auch zus¨atzlich ein simultaner Vergleich der Mittelwerte vorgenommen werden. Hierzu werden die Mittelwertvektoren der Variablen f¨ ur die einzelnen Gruppen berechnet und als empirische Gr¨oßen dem Gruppenvergleichsmodell hinzugef¨ ugt. Der Einfachheit halber wird auf das weiter oben er¨orterte Pfadmodell mit vier Variablen zur¨ uckgegriffen (vgl. Abbildung 5.12). Formal werden die Gleichungen 5.54 und 5.55 um den Mittelwertvektor α (intercepts) erweitert: g X3 = α1g + pg31 X1 + pg32 X2 + RX (5.59) 3 Y = α2g + pgY 1 X1 + pgY 2 X2 + pgY 3 X3 + RYg
(5.60)
Mit g = 1, 2, . . . G wird die jeweilige Gruppe bezeichnet. Die Gleichsetzung der Pfadkoeffizienten, der Residualvarianzen der abh¨angigen Variablen und der Varianzen und Kovarianzen der unabh¨angigen Variablen kann entsprechend der Gleichungen 5.56, 5.57 und 5.58 erfolgen. F¨ ur die Gleichsetzung der Mittelwerte in den Strukturgleichungen gilt: α11 = α12 = . . . = α1G α21 = α22 = . . . = α2G
(5.61)
Auch hier ist der Ausgangspunkt des multiplen Gruppenvergleichs ein Basismodell, das entweder keinerlei Modellrestriktionen u ¨ber die Gruppen enth¨alt oder das alle Parameter u ber die Gruppen gleichsetzt. Wird zun¨ achst ein Gruppenvergleich der Kovarianzstruk¨ tur durchgef¨ uhrt, dann kann die dort akzeptierte Modellvariante als Ausgangspunkt des Mittelwertvergleichs dienen (siehe das Beispiel weiter unten). Dieses schrittweise Vorgehen hat sich in der Praxis bew¨ ahrt, zumal es sich bei den zu u ufenden Restrik¨berpr¨ tionen in Gleichung 5.61 um zus¨ atzliche und nicht alternative Restriktionen handelt. ¨ Inhaltliche Uberlegungen zu den vermuteten Mittelwertdifferenzen sollten die jeweilige Modellspezifikation bestimmen. F¨ ur den multiplen Gruppenvergleich mit Mittelwerten werden die jeweiligen gruppenspezifischen Varianzen, Kovarianzen und Mittelwerte ben¨otigt. Die Eingabematrizen S g (g = 1, 2, . . . G) m¨ ussen daher Momentenmatrizen sein. Beispiel Das in Abschnitt 5.3.1 spezifizierte und simultan nach drei Altersgruppen u ufte ¨berpr¨ Modell der Statuszuweisungstheorie von Blau und Duncan (1967) wird im folgenden
5.3 Der multiple Gruppenvergleich
77
nach Mittelwertdifferenzen getestet. Ausgangspunkt und Basismodell ist die Modellvariante 4 aus Tabelle 5.3. In diesem Basismodell werden die Mittelwertparameter α1 (f¨ ur Variable V195: Schulabschluß des Befragten) und α2 (f¨ ur Variable V463: BerufsprestigeSkala des Befragten) u ¨ber alle Gruppen gleichgesetzt. Die Berechnung zeigt deutlich, daß von einer Invarianz der Mittelwerte u ¨ber die Gruppen nicht ausgegangen werden kann und insbesondere f¨ ur die Gruppe der ¨ alteren Personen (60 Jahre und ¨alter) die Modellanpassung schlecht ist (vgl. Variante 1 in Tabelle 5.4).
Tab. 5.4: Vergleich der Modellvarianten nach dem multiplen Gruppenvergleich mit Mittelwerten Modell
Gruppe
χ2
df
χ2Dif f
dfDif f
RMSEA
p-Wert
SRMR
Variante 1 Basismodell
1 2 3 ∑
26.01 18.53 39.83 84.37
13
—
—
0.084
0.000
0.065
Variante 2 α11,2,3 freigesetzt
1 2 3 ∑
2.20 0.19 0.97 3.30
11
81.01
2
0.000
1.000
0.011
Variante 3 α11,2,3 , α21,2,3 freigesetzt
1 2 3 ∑
2.19 0.15 0.87 3.21
9
0.15
2
0.000
1.000
0.011
Die Spezifikation der Modellvarianten wird im Text erl¨ autert.
In der zweiten Modellvariante wird die Invarianz der Mittelwerte f¨ ur die Variable V195 (α1 ) aufgehoben, was zu einer bedeutsamen Modellverbesserung f¨ uhrt (χ2Dif f = 81.01) w¨ahrend die Variation der Mittelwerte der Variablen V463 (α2 ) u ¨ber beide Gruppen das Modell nicht weiter verbessert (χ2Dif f = 0.15). Daher kann das Ergebnis der zweiten Modellvariante zur inhaltlichen Interpretation akzeptiert werden. Die gesch¨atzten Mittelwertsparameter zeigt Tabelle 5.5. Nach diesen Werten ist das Schulabschlußniveau in der Gruppe der ¨alteren Personen u ¨ber 60 Jahre deutlich niedriger als bei den Personen der anderen Gruppen, w¨ahrend sich das durchschnittliche Berufsprestige nicht nach den Altersgruppen unterscheidet. Die u ¨brigen Parameter des Modells sind bis auf Rundungsdifferenzen identisch zu denen in Abbildung 5.14.
78
5 Strukturgleichungsmodelle mit gemessenen Variablen
Tab. 5.5: Mittelwertsparameter (intercepts der Modellvariante 2) α1 V195
α2 V463
18–29 Jahre
1.94 (19.05)
16.57 (21.34)
30–59 Jahre
1.59 (20.51)
16.57 (21.34)
60 u. ¨ alter
0.75 (7.15)
16.57 (21.34)
Gruppe
Die Signifikanzwerte (t-Werte) stehen in Klammern.
5.4
Pfadmodelle im L¨angsschnitt
Die bisher behandelten Pfadmodelle beziehen sich ausschließlich auf Variablen, die zu einem Meßzeitpunkt erfaßt worden sind. Das Datenmaterial stammt in der Regel aus einer Querschnittsuntersuchung. Geht es aber darum, Ver¨anderungen von Variablen und ihre kausalen Beziehungen u ucksichtigen, werden Informationen ¨ber die Zeit zu ber¨ aus mehreren Zeitpunkten ben¨ otigt. Insbesondere die wiederholte Erhebung von Individualdaten gleicher Erhebungseinheiten u ¨ber ein Paneldesign hat zur Konstruktion von Regressions- und Pfadmodellen gef¨ uhrt, die mehrfach erhobene Variablen enthalten (zu den Erhebungsdesigns, vgl. Kapitel 3). Die einfachsten Regressionsmodelle f¨ ur Paneldaten formalisieren eine lineare Beziehung zwischen zwei (inhaltlich gleichen) Variablen zu verschiedenen Meßzeitpunkten. Die Kontrolle dieser Beziehung unter der Bedingung einer dritten Variable f¨ uhrt zu einem einfachen konditionalen Regressionsmodell (vgl. Markus, 1979, S. 47; Plewis, 1985, S. 32; Allison, 1990, S. 100), das um zus¨atzliche zeitkonstante und zeitinvariante Variablen erweitert werden kann. Die Berechnung der einzelnen Regressionsparameter f¨ ur die Querschnitt- und L¨angsschnittbeziehungen kann sich auch auf die Bildung von Differenzen zwischen Variablen aufeinanderfolgender Zeitpunkte st¨ utzen, deren Verwendung aber umstritten sind. Burr und Nesselroade (1990, S. 8f.) diskutieren Argumente gegen die Verwendung von Differenzenvariablen: 1. Die Validit¨at der Variablen zwischen den Meßzeitpunkten kann unterschiedlich sein, so daß eine ausreichenden Validit¨ at der Diffenzenvariablen fraglich ist. 2. Mit steigender Korrelation zwischen beiden Variablen sinkt die Reliabilit¨at der Differenzenvariablen. Dieses Ph¨ anomen wird auch als Lord’s Paradox bezeichnet. 3. Bei extrem unterschiedlichen Auspr¨ agungen der Variablen zwischen den Zeitpunkten tendieren die Regressionseffekte zur Mitte, was auch als regression toward the mean-Effekt bezeichnet wird.
5.4 Pfadmodelle im L¨ angsschnitt
79
Da auch die praktische Anwendung konditionaler Regressionsmodelle wenig verbreitet ist, wird hier auf die Er¨ orterung und beispielhafte Anwendung dieser Modelle verzichtet und auf die Darstellung in Plewis (1985, S. 30–55) und Engel und Reinecke (1994, S. 15–21) verwiesen.24 Der folgende Abschnitt 5.4.1 diskutiert zun¨achst das in der pfadanalytischen Tradition stehende klassische Zwei-Variablen/Zwei-Wellen-Panelmodell. In Abschnitt 5.4.2 werden Erweiterungen und Modifikationen dieser Modelle er¨ortert. Soll die zeitliche Entwicklung auch unter Hinzunahme des Mittelwertvektors der Variablen beschrieben werden, dann bieten sogenannte Wachstumsmodelle (growth curve models) vielf¨altige Modellierungsm¨ oglichkeiten. Auf Grund der h¨oheren Komplexit¨at und der Verwendung von latenten Variablen werden diese Modelle gesondert in Kapitel 9, Abschnitt 9.1 behandelt.
5.4.1
Das Zwei-Variablen/Zwei-Wellen-Panelmodell
Die Bestimmung von kausalen Einfl¨ ussen bei L¨angsschnittdaten f¨ uhrt im einfachsten Fall zu einem Pfadmodell, bei dem zwei zeitvariierende Variablen x und y u ¨ber zwei Panelwellen zueinander in Beziehung gesetzt werden. Diese Anordnung der Variablen wird allgemein als Zwei-Variablen/Zwei-Wellen-Panelmodell bezeichnet (vgl. Plewis, 1985, S. 61; Engel & Reinecke, 1994, S. 22; Maruyama, 1998, S. 111, im folgenden abgek¨ urzt 2V2W-Panelmodell). Das 2V2W-Modell (vgl. Abbildung 5.15) beruht auf der Idee, die Korrelationen der beiden Variablen u ¨ber die Zeit miteinander zu vergleichen und die St¨ arke der kausalen Einfl¨ usse zwischen beiden Variablen zu ermitteln (vgl. Heise, 1969; O. D. Duncan, 1975, S. 286; Markus, 1979, S. 48; Rogosa, 1979, S. 275; Kessler & Greenberg, 1981, S. 29). Drei Arten von Korrelationen sind im 2V2W-Panelmodell zu unterscheiden: 1. Die Korrelationen verschiedener Variablen x und y im Querschnitt (rx1 y1 und rx2 y2 ).25 2. Die Korrelationen gleicher Variablen x und y im L¨angsschnitt (rx1 x2 und ry1 y2 ). Diese Korrelationen werden auch als Autokorrelationen bezeichnet. 3. Die Korrelationen verschiedener Variablen x und y im L¨angsschnitt (rx1 y2 und ry1 x2 ). Diese Korrelationen werden auch als kreuzverz¨ ogerte Korrelationen bezeichnet. Mit dem 2V2W-Panelmodell l¨ aßt sich prinzipiell das Ausmaß des kausalen Effektes einer unabh¨angigen Variablen des ersten Meßzeitpunktes (t1 ) auf eine abh¨angige Variable des zweiten Meßzeitpunktes (t2 ) bestimmen. Die Gr¨oßen der jeweiligen kreuzverz¨ogerten Pfadkoeffizienten (px2 y1 und py2 x1 ) geben Hinweise darauf, inwieweit u ¨ber die Zeit die 24
Eine inhaltlich gef¨ uhrte Diskussion u ¨ber die Angemessenheit von konditionalen Regressionsmodellen f¨ ur Paneldaten findet sich bei Allison (1990, S. 105ff.). 25 Die Suffixe bezeichnen hier die Meßzeitpunkte t1 und t2 .
80
5 Strukturgleichungsmodelle mit gemessenen Variablen
Variable x die Variable y beeinflußt, oder umgekehrt, die Variable y die Variable x (vgl. Abbildung 5.15).26 Die Pfadkoeffizienten px2 x1 und py2 y1 geben die Einfl¨ usse der Variablen x bzw. y zum Zeitpunkt t1 auf deren nachfolgende Messungen in t2 wieder. Diese Pfadkoeffizienten werden auch als Stabilit¨atsmaße interpretiert. Sie zeigen an, wie stark die Variation der Variablen x bzw. y in t2 durch die jeweilige Messung in t1 erkl¨art werden kann (vgl. Abbildung 5.15).
Abb. 5.15: Kausaldiagramm des 2V2W-Panelmodells
Folgende nicht testbare Annahmen m¨ ussen zur Berechnung der Pfadkoeffizienten im 2V2W-Panelmodell beachtet werden (vgl. Engel & Reinecke, 1994, S. 22): 1. Es existiert keine Korrelation zwischen den Variablen der ersten Panelwelle (x1 , y1 ) und den Residuen der Variablen der zweiten Panelwelle (ex , ey ). 2. Jeder kausale Effekt existiert u ¨ber ein begrenztes Zeitintervall. 3. Die Meßperiode ist innerhalb der Zeit, in der der kausale Effekt auftreten kann. 4. Die Zeit zwischen den Messungen ist n¨ aherungsweise die gleiche wie die Zeit f¨ ur die kausale Verz¨ ogerung. Des weiteren werden die Beziehungen zwischen den Variablen als linear angenommen, was zumindest bivariat gepr¨ uft werden kann. Die entsprechende Formalisierung des 26
D. T. Campbell (1963) hat den Vergleich der beiden kreuzverz¨ ogerten Korrelationen (rx1 y2 und ry1 x2 ) als hinreichendes Maß f¨ ur die Bestimmung der kausalen Richtung zwischen x und y angesehen. Rogosa (1979, S. 277–280) hat demgegen¨ uber im einzelnen verdeutlicht, daß kreuzverz¨ ogerten Korrelationen f¨ ur eine kausale Interpretation nicht ausreichen, da bei dieser Technik die weniger stabile Variable bzw. diejenige mit dem gr¨ oßten Produkt ihrer t1 - und t2 -Standardabweichungen beg¨ unstigt werde. Dies kann zu v¨ ollig irref¨ uhrenden Schlußfolgerungen f¨ uhren.
5.4 Pfadmodelle im L¨ angsschnitt
81
2V2W-Panelmodells lautet: x2 = x + bx2 x1 x1 + bx2 y1 y1 + bx2 ex ex
(5.62)
y2 = y + by2 y1 y1 + by2 x1 x1 + by2 ey ey
(5.63)
Die Parameter in beiden Gleichungen k¨ onnen mit den u ¨blichen Sch¨atzverfahren (vgl. Abschnitt 5.1.4) ermittelt werden. Die b-Koeffizienten sind unstandardisierte Regressionskoeffizienten. Werden f¨ ur die Berechnung des Modells Produkt-Moment und y 0 (vgl. auch Korrelationen zugrunde gelegt, dann sind die Erwartungswerte x Abschnitt 5.1.1). Die Gleichungen 5.62 und 5.63 reduzieren sich und die Parameter entsprechen standardisierten Regressionskoeffizienten mit einem Variationsintervall zwischen −1 und +1: x2 = px2 x1 x1 + px2 y1 y1 + px2 ex ex (5.64) y2 = py2 y1 y1 + py2 x1 x1 + py2 ey ey
(5.65)
Nach den Ausf¨ uhrungen in Abschnitt 5.1.1 lassen sich – wie bei Querschnittsmodellen – durch Substitution und Umformungen die Pfadkoeffizienten analytisch ermitteln (zur Vorgehensweise vgl. Opp & Schmidt, 1976, S. 136ff. und speziell f¨ ur das 2V2WPanelmodell Engel & Reinecke, 1994, S. 23f.). Zun¨achst werden die Gleichungen 5.64 und 5.65 jeweils mit den exogenen Variablen x1 und y1 multipliziert: x2 x1 = px2 x1 x21 + px2 y1 y1 x1 + px2 ex ex x1
(5.66)
x2 y1 = px2 x1 x1 y1 + px2 y1 y12 + px2 ex ex y1
(5.67)
y2 x1 = py2 y1 y1 x1 + py2 x1 x21 + py2 ey ey x1
(5.68)
y2 y1 =
py2 y1 y12
+ py2 x1 x1 y1 + py2 ey ey y1
(5.69)
F¨ ur jedes Variablenprodukt in den Gleichungen 5.66 bis 5.69 k¨onnen nun Mittelwerte gebildet werden, die – bedingt durch die Standardisierung der Variablenprodukte – identisch zu den Korrelationen zwischen den entsprechenden Variablen sind:27 rx1 x2 = px2 x1 rx21 + px2 y1 rx1 y1 + px2 ex rex x1
(5.70)
ry1 x2 = px2 x1 rx1 y1 + px2 y1 ry12 + px2 ex rex y1
(5.71)
rx1 y2 = py2 y1 rx1 y1 + py2 x1 rx21 + py2 ey rey x1
(5.72)
ry1 y2 = py2 y1 ry12 + py2 x1 rx1 y1 + py2 ey rey y1
(5.73)
Da die Residuen ex und ey nicht mit den exogenen Variablen x1 und y1 korrelieren28 und rx21 = ry12 = 1 ist, verk¨ urzen sich die Gleichungen 5.70 bis 5.73: 27
Nach der Gleichung 4.6 in Kapitel 4 entspricht der Korrelationskoeffizient dem Produkt von zwei standardisierten Variablen. 28 Nach der ersten Annahme weiter oben sind rex x1 = rex y1 = rey x1 = rey y1 = 0.
82
5 Strukturgleichungsmodelle mit gemessenen Variablen rx1 x2 = px2 x1 + px2 y1 rx1 y1
(5.74)
ry1 x2 = px2 x1 rx1 y1 + px2 y1
(5.75)
rx1 y2 = py2 y1 rx1 y1 + py2 x1
(5.76)
ry1 y2 = py2 y1 + py2 x1 rx1 y1
(5.77)
Alle Pfadkoeffizienten lassen sich durch Umformen und Substitution der Gleichungen 5.74 bis 5.77 ermitteln: px2 x1 = rx1 x2 −
py2 y1 = ry1 y2 −
ry1 x2 rx1 y1 − rx1 x2 rx21 y1
(5.78)
rx1 y2 rx1 y1 − ry1 y2 rx21 y1
(5.79)
1 − rx21 y1
1 − rx21 y1 ry x − rx1 x2 rx1 y1 px2 y1 = 1 2 1 − rx21 y1 rx y − ry1 y2 rx1 y1 py2 x1 = 1 2 . 1 − rx21 y1
(5.80) (5.81)
Wenn py2 x1 ≠ 0 ist und px2 y1 = 0, dann wird die Variable x eher einen u ¨ber die Zeit kausalen Einfluß auf die Variable y haben. Ist dagegen px2 y1 ≠ 0 und py2 x1 = 0, dann wird die Variable y eher einen u ¨ber die Zeit kausalen Einfluß auf die Variable x haben (vgl. Plewis, 1985, S. 63). Haben beide kreuzverz¨ogerte Effekte bedeutsame (signifikant von Null verschiedene) Werte, ist eine eindeutige Bestimmung der kausalen Richtung zwischen beiden Variablen nicht m¨ oglich. Dies gilt insbesondere dann, wenn die Werte von py2 x1 und px2 y1 verschiedene Vorzeichen haben. Das folgende Beispiel soll die Berechnung der Koeffizienten eines 2V2W-Panelmodells verdeutlichen. Beispiel Das empirische Datenmaterial f¨ ur das 2V2W-Panelmodell ist der kriminologisch-soziologischen L¨angschnittstudie Kriminalit¨ at in der modernen Stadt entnommen (zur Beschreibung der Studie, siehe Kapitel 3, Abschnitt 3.2). F¨ ur das 2V2W-Panelmodell wird ein Datensatz mit f¨ unf Panelwellen verwendet, der den Zeitraum zwischen den Jahren 2003 und 2007 abdeckt. Die Untersuchungsgr¨oße f¨ ur diesen Datensatz betr¨agt n=1307. Die zeitvariante Variable x umfaßt die aufsummierten Jahrespr¨avalenzen von vier verschiedenen Opfererlebnissen, die in allen f¨ unf Erhebungen abgefragt wurden.29 Die zeitvariante Variable y bezieht sich auf die aufsummierten Jahrespr¨avalenzen von 15 verschiedenen Delikten, wiederum abgefragt in allen f¨ unf Erhebungen.30 29
Hierzu geh¨ oren Raub, K¨ orperverletzung ohne und mit Waffen sowie sexuelle Bel¨ astigung. Daten aus dem Jahre 2002 waren auf Grund geringer H¨ aufigkeiten nicht verwendbar. 30 Zu den abgefragten Delikten z¨ ahlen Eigentums-, Gewalt- und Sachbesch¨ adigungsdelikte sowie Drogenhandel und Drogenkonsum.
5.4 Pfadmodelle im L¨ angsschnitt
83
Der Zusammenhang zwischen Opfererfahrung (x) und delinquentem Verhalten (y) wird u uft. Der erste Meßzeitpunkt (t1 ) bezieht sich auf das ¨ber zwei Meßzeitpunkte gepr¨ Jahr 2003, der zweite Meßzeitpunkt (t2 ) auf das Jahr 2004. Mittelwerte, Varianzen, Kovarianzen und Korrelationen der Variablen sind f¨ ur die beiden Meßzeitpunkte in Tabelle 5.6 zusammengestellt.
Tab. 5.6: Mittelwerte, Varianzen, Kovarianzen und Korrelationen der Variablen f¨ ur das 2V2W-Panelmodell
bopfp1 (x1 ) copfp1 (x2 ) bkrimlej (y1 ) ckrimlej (y2 )
x y
bopfp1
copfp1
bkrimlej
ckrimlej
0.347 0.305 0.907 0.817
0.461 0.353 0.433 0.309
0.152 0.401 0.237 0.376
0.570 0.291 3.764 0.617
0.364 0.413 2.080 3.013
Opfererfahrungen (x) und delinquentes Verhalten (y) kovariieren bzw. korrelieren jeweils positiv u ¨ber die Zeit, die entsprechenden Querschnitts- und L¨angsschnittskorrelationen sind erwartungsgem¨ aß positiv. Hierbei f¨ allt auf, daß der Zusammenhang der beiden Delinquenzvariablen deutlich h¨ oher ist, als der entsprechende Zusammenhang der beiden Variablen zur Opfererfahrung. Die Mittelwerte zeigen im Zeitverlauf jeweils ein leichtes Gef¨alle von t1 nach t2 . Zur Berechnung der Erwartungswerte (intercepts) und der unstandardisierten Pfadkoeffizienten (siehe die Gleichungen 5.62 und 5.63) m¨ ussen Mittelwerte, Varianzen und Kovarianzen der Variablen als empirische Informationen zur Verf¨ ugung gestellt werden. Die Berechnung der Erwartungswerte und der unstandardisierten Pfadkoeffizienten ergibt folgendes: copf p1 = 0.175 + 0.034 ⋅ bkrimlej + 0.288 ⋅ bopf p1 + 0.347 ⋅ ecopf p1
(5.82)
ckrimlej = 0.288 + 0.533 ⋅ bkrimlej + 0.131 ⋅ bopf p1 + 1.856 ⋅ eckrimlej
(5.83)
Werden auf der Basis der Korrelationsmatrix die standardisierten Pfadkoeffizienten berechnet, k¨onnen folgende Koeffizienten in die Gleichungen 5.64 und 5.65 eingesetzt werden: copf p1 = 0.103 ⋅ bkrimlej + 0.309 ⋅ bopf p1 + 0.866 ⋅ ecopf p1 (5.84) ckrimlej = 0.595 ⋅ bkrimlej + 0.051 ⋅ bopf p1 + 0.617 ⋅ eckrimlej
(5.85)
Die Anpassung zwischen Modell und Daten ist perfekt, da es sich um ein saturiertes Modell handelt (df = 0). In Abbildung 5.16 werden die Ergebnisse aus den Gleichungen 5.84 und 5.85 in das 2V2W-Panelmodell eingetragen.
84
5 Strukturgleichungsmodelle mit gemessenen Variablen
Abb. 5.16: Der Zusammenhang zwischen Opfererfahrung und Delinquenz im 2V2WPanelmodell (standardisierte L¨ osung)
Es werden 13.4 % Varianz in der Variablen x2 (copfp1) und 38.3 % Varianz in der Variablen y2 (ckrimlej) aufgekl¨ art. Der Stabilit¨at der Delinquenz ist den Pfadkoeffizienten zur Folge st¨ arker als die der Opfererfahrung. Der Effekt der Delinquenz auf die zeitlich nachfolgende Opfererfahrung ist st¨arker als der umgekehrte Effekt von der Opfererfahrung auf das zeitlich nachfolgende Delinquenzverhalten. Allerdings setzt eine Beurteilung konsistenter Stabilit¨ aten und kreuzverz¨ogerter Effekte mindestens drei Meßzeitpunkte voraus, was im einfachsten Fall zu einem Zwei-Variablen/Drei-WellenPanelmodell f¨ uhrt (im folgenden abgek¨ urzt 2V3W-Panelmodell, vgl. Kessler & Greenberg, 1981, S. 34; Engel & Reinecke, 1994, S. 30; Reinecke, Schmidt & Weick, 2002). Die Erweiterung durch weitere Meßzeitpunkte sowie die Ber¨ ucksichtigung einer zeitinvarianten Variablen wird im folgenden Abschnitt besprochen.
5.4.2
Die Erweiterung des 2V2W-Standarddesigns
Im dem berechneten 2V2W-Panelmodell l¨ aßt sich die Stabilit¨at der Variablen zwischen zwei Meßzeitpunkten, die Gr¨ oße m¨ oglicher kreuzverz¨ogerter Effekte und damit auch m¨ogliche Unterschiede der kausalen Richtung zwischen zwei Variablen x und y feststellen. Die Erweiterung des 2V2W-Panelmodells zu einem 2V3W-Panelmodell wird weiter unten in den Beispielen exemplarisch verdeutlicht. Neben der Erweiterung des 2V2W-Panelmodells um weitere Meßzeitpunkte ist die Ber¨ ucksichtigung zus¨ atzlicher exogener Variablen sinnvoll, um beispielsweise den Einfluß zeitstabiler Variablen auf die Kausalkette der zeitvarianten Gr¨oßen zu untersuchen. Die Einf¨ uhrung einer zeitinvarianten exogenen Variablen z kann einen zunehmenden oder abnehmenden Einfluß auf die zeitvarianten Variablen x und y haben. Die im letzten Abschnitt modellierten Stabilit¨ aten und die kreuzverz¨ogerten Effekte werden hierbei kontrolliert (vgl. Abbildung 5.17).
5.4 Pfadmodelle im L¨ angsschnitt
85
Abb. 5.17: Erweiterung des 2V2W-Panelmodells um eine zeitinvariante Variable z
Da alle zeitvarianten Variablen nun abh¨ angige Variablen sind, existieren f¨ ur das erweiterte 2V2W-Modell vier Strukturgleichungen, die im folgenden nur f¨ ur den Fall standardisierter Variablen aufgef¨ uhrt werden: x2 = px2 x1 x1 + px2 y1 y1 + px2 z z + px2 ex ex
(5.86)
y2 = py2 y1 y1 + py2 x1 x1 + py2 z z + py2 ey ey
(5.87)
x1 = px1 z z + px1 ex ex
(5.88)
y1 = py1 z z + py1 ey ey
(5.89)
Beispiele Ein 2V3W-Panelmodell wird aufbauend auf dem 2V2W-Panelmodell mit dem weiter oben beschriebenen Paneldatensatz aus der kriminologisch-soziologischen L¨angschnittstudie Kriminalit¨ at in der modernen Stadt u uft. Der Zusammenhang zwischen ¨berpr¨ Opfererfahrung (x) und delinquentem Verhalten (y) wird jetzt u ¨ber drei Meßzeitpunkte gepr¨ uft. Der erste Meßzeitpunkt (t1 ) bezieht sich auf das Jahr 2003, der zweite Meßzeitpunkt (t2 ) auf das Jahr 2004 und der dritte Meßzeitpunkt (t3 ) auf das Jahr 2005. Die Anpassung zwischen Modell und Daten ist sehr gut (χ2 = 3.977 mit df = 3, RMSEA = 0.016). In Abbildung 5.18 ist die standardisierte L¨osung der Modellparameter eingetragen. Demnach zeigt sich auch f¨ ur den Zeitraum zwischen den Jahren 2004 und 2005, daß der Einfluß der Delinquenz (t2 ) auf die darauf folgende Opfererfahrung (t3 ) st¨arker ist, als der umgekehrte Einfluß der Opfererfahrung auf das delinquente Verhalten. Bei letzterem konnte der entsprechende Pfadkoeffzient auf Null gesetzt werden. Die Stabilit¨atskoeffizienten weisen f¨ ur die Delinquenz h¨ohere Werte auf als die entsprechenden Koeffizienten f¨ ur die Opfererfahrung. Die Korrelation zwischen Opfererfahrung und dem delinquenten Verhalten betr¨ agt zum ersten Zeitpunkt 0.43. Da beide Variablen in den
86
5 Strukturgleichungsmodelle mit gemessenen Variablen
Abb. 5.18: Der Zusammenhang zwischen Opfererfahrung und Delinquenz im 2V3WPanelmodell (standardisierte L¨ osung)
folgenden Meßzeitpunkten abh¨ angige Variablen sind, werden die Zusammenh¨ange in den jeweiligen Querschnitten u ¨ber die Residualkorrelationen spezifiziert. Erwartungsgem¨aß m¨ ussen diese u ¨ber die Zeit kleiner werden (0.30 und 0.19), da Teile der Querschnittszusammenh¨ange durch die jeweils unabh¨ angigen Variablen aufgekl¨art werden. Das durch die zeitinvariante Variable Geschlecht erweiterte 2V2W-Panelmodell nach Abbildung 5.17 weist einen sehr guten Modellfit auf (χ2 = 0.904 mit df = 1, RMSEA = 0.000). Die Beziehung zwischen Geschlecht und der Opfererfahrung zum ersten Meßzeitpunkt (bopfp1) erwies sich als unbedeutsam und konnte auf Null fixiert werden. Die standardisierten Pfadkoeffizienten k¨onnen in die Gleichungen 5.86, 5.87 und 5.89 eingesetzt werden:31 copf p1 = 0.116 ⋅ bkrimlej + 0.301 ⋅ bopf p1 + 0.090 ⋅ Gesch + 0.860 ⋅ ecopf p1
(5.90)
ckrimlej = 0.589 ⋅ bkrimlej − 0.055 ⋅ bopf p1 − 0.042 ⋅ Gesch + 0.614 ⋅ eckrimlej
(5.91)
bkrimlej = −0.115 ⋅ Gesch + 0.987 ⋅ ebkrimlej
(5.92)
In Abbildung 5.17 werden die Ergebnisse aus den Gleichungen 5.90, 5.91 und 5.92 in das erweiterte 2V2W-Panelmodell eingetragen (vgl. Abbildung 5.19). Die Ergebnisse unterscheiden sich wenig vom Modell ohne die zeitinvariante Variable (Abbildung 5.16). Nur auf die Operfahrung zum zweiten Meßzeitpunkt hat das Geschlecht einen bedeutsamen 31
Die Gleichung 5.88 wird nicht ben¨ otigt, da die Variable bopfp1 auf Grund der Fixierung eines Pfadkoeffizienten auf Null keine abh¨ angige Variable mehr ist.
5.4 Pfadmodelle im L¨ angsschnitt
87
Einfluß: Weibliche Befragte haben tendenziell mehr Erfahrungen als Opfer im Unterschied zu m¨annlichen Befragten (0.09). Demgegen¨ uber ist das Delinquenzniveau bei den m¨ annlichen Befragten h¨ oher als bei den weiblichen Befragten (−0.115). Der Einfluß des Geschlechtes nimmt aber hier im Zeitverlauf ab (−0.042).
Abb. 5.19: Der Zusammenhang zwischen Opfererfahrung und Delinquenz im 2V2WPanelmodell und der Einfluß der zeitinvarianten Variablen Geschlecht (standardisierte L¨ osung)
88
5 Strukturgleichungsmodelle mit gemessenen Variablen
5.5
Anhang: Programmfiles
In den folgenden Tabellen 5.7 und 5.8 sind die Programmfiles des Pfadmodells mit vier Variablen aufgef¨ uhrt (vgl. Abbildung 5.3). Die Tabellen 5.9 und 5.10 zeigen die Programmfiles des Pfadmodells f¨ ur Paneldaten (vgl. Abbildung 5.18). Diese und alle weiteren Programmfiles k¨ onnen unter www.degruyter.com/books/978-3-486-70576-8 ¨ auf dem Karteireiter Uberblick“ abgerufen werden. ” Tab. 5.7: Spezifikation des Pfadmodells mit vier Variablen (Mplus) TITLE: DATA:
Rekursives Pfadmodell (4 Variablen) FILE IS corr4Var.dat; TYPE IS CORRELATION ; NOBSERVATIONS ARE 100 ; VARIABLE: NAMES ARE Y X1 X2 X3 ; MODEL: Y ON X1 X2 X3 ; X3 ON X1 X2 ; OUTPUT: Sampstat Residual Tech1 ;
Tab. 5.8: Spezifikation des Pfadmodells mit vier Variablen (lavaan) ># > ># > + + + ># > + > + + ># > ># >
lavaan aufrufen library(lavaan) Einlesen der Korrelationsmatrix (Schumacker & Lomax, 1996, S. 43) lower ># > + + + + ># > > +
lavaan aufrufen library(lavaan) Einlesen der Crimoc Daten crimoc 0 ist. 2. Die Funktion ist zweifach differenzierbar, d. h. erste und zweite Ableitungen sind berechenbar. Die schon in Kapitel 5, Abschnitt 5.1.4 vorgestellte Maximum-Likelihood(ML)-Funktion ist die am h¨aufigsten verwendete Diskrepanzfunktion zur Sch¨atzung der Parameter bei Strukturgleichungsmodellen und in der Regel in den jeweiligen EDV-Programmen voreingestellt. Die wichtigsten Diskrepanzfunktionen werden im folgenden Abschnitt n¨aher erl¨autert, wobei die Ausf¨ uhrungen nicht nur f¨ ur die besprochenen Meßmodelle gelten, sondern allgemeing¨ ultig f¨ ur alle Arten von Strukturgleichungsmodellen sind.
6.5 Diskrepanzfunktionen
6.5
101
Diskrepanzfunktionen
Die in Strukturgleichungsprogrammen verwendeten Disprekanzfunktionen sind in der Regel sogenannte Vollinformationssch¨ atzmethoden“ (full-information methods). Die ” zu sch¨atzenden Parameter werden simultan gesch¨atzt. In den folgenden Abschnitten werden die Maximum-Likelihood(ML)-Funktion, Unweighted-Least-Square(ULS)Funktion, die Generalized-Least-Square(GLS)-Funktion und die Weighted-LeastSquare(WLS)-Funktion n¨ aher beschrieben. Neben den Vollinformationsmethoden“ exi” stieren sogenannte Teilinformationssch¨ atzmethoden“ (partial-information methods), ” die Gleichungssysteme schrittweise und damit schneller l¨osen, aber deren statistische Effizienz geringer sind (Kline, 2011, S. 155). Die Two-Stage-Least-Square(TSLS)Diskrepanzfunktion kann hier beispielhaft genannt werden. Im Programm LISREL wird TSLS zur Erzeugung geeigneter Startwerte f¨ ur die ML-, GLS- und WLS-Funktion verwendet. Auf Grund ihrer eher untergeordneten Bedeutung f¨ ur Strukturgleichungsmodelle wird im weiteren nicht auf die TSLS-Funktion eingegangen (f¨ ur Anwendungen im Rahmen von Strukturgleichungsmodellen vgl. Kline, 2011, S. 156).
6.5.1
Maximum-Likelihood(ML)-Diskrepanzfunktionen
Die folgende ML-Funktionsgleichung strebt die Minimierung des Funktionswertes und damit die Minimierung der Differenz zwischen den Matrizen S und Σ an (vgl. Bollen, 1989, S. 107; Kaplan, 2009, S. 27; Mulaik, 2009, S. 156): FM L = log∥Σ(Θ)∥ + tr(SΣ −1 (Θ)) − log∥S∥ − q
(6.19)
∥S∥ is die Determinante der empirischen Kovarianzmatrix, w¨ahrend ∥Σ(Θ)∥ die Determinante der modellimplizierten Kovarianzmatrix ist. tr(. . .) bezieht sich auf die Spur (trace) einer Matrix.7 Damit die ML-Funktion gesch¨atzt werden kann, m¨ ussen die Determinanten ∥S∥ und ∥Σ(Θ)∥ ungleich 0 sein. Sind ∥S∥ und ∥Σ(Θ)∥ ungleich Null, dann sind die entsprechenden Matrizen singul¨ ar und k¨onnen nicht invertiert werden. Eine Berechnung von Σ −1 (Θ) w¨ are dann nicht m¨oglich. Die Anzahl der gemessenen Variablen y und damit die Gr¨ oße der empirischen Kovarianzmatrix wird durch q angegeben. Wenn die empirische und die modellimplizierte Kovarianzmatrix exakt u ¨bereinstimmen (S = Σ(Θ)), dann ist der Funktionswert der Gleichung 6.19 Null. Damit kann die angenommene Modellstruktur die empirischen Daten exakt vorhersagen. Wenn die Meßmodelle u ¨beridentifiziert sind, dann werden die ML-Sch¨atzer iterativ ermittelt. Der Funktionswert erreicht dann seinen minimalen Wert, wenn alle ersten Ableitungen der Elemente des Parametervektors Θ Null sind und die Matrix der zweiten Ableitungen berechnet werden kann (f¨ ur ein numerisches Beispiel, vgl. Appendix 4c in Bollen, 1989, S. 136f.). 7
Eine Determinante > 0 zeigt an, daß alle Zeilen und Spalten der Matrix linear unabh¨ angig sind. Damit ist die Matrix nicht singul¨ ar und kann invertiert werden. Die Spur einer Matrix ist die Summe ihrer Diagonalelemente.
102
6 Meßmodelle
Eine der wesentlichen Vorteile der ML-Sch¨ atzungen sind ihre asymptotische Konsistenz und ihre Effizienz. Diese Eigenschaften werden insbesondere bei großen Stichproben gew¨ahrleistet. Je gr¨ oßer die Stichprobe ist, desto eher sind die Parameter normalverteilt. Das Verh¨altnis zwischen den Sch¨ atzern und ihren Standardfehlern folgt dann n¨aherungsweise einer z-Verteilung (vgl. hierzu Abschnitt 6.6). Des weiteren sind ML-Sch¨atzer skalenfrei und skaleninvariant. Skalenfrei bedeutet, daß die Skala einer Variablen linear transformiert werden kann, ohne das diese Transformation die Parameter des Modells beeinflußt. Skaleninvariant bedeutet, daß der Funktionswert der ML-Funktion nicht von linearen Skalentransformationen beinflußt wird (vgl. Kline, 2011, S. 158). Wird der ermittelte Funktionswert des zu pr¨ ufenden Modells mit der um eins verringerten Stichprobengr¨ oße multipliziert, dann folgt die ermittelte Gr¨oße einer χ2 -Verteilung mit 1/2(q)(q + 1) − t Freiheitsgraden (vgl. hierzu Abschnitt 6.6). Damit l¨aßt sich die Nullhypothese H0 ∶ Σ = Σ(Θ) testen. Best¨atigt sich diese Hypothese, dann passen die Parameterrestriktionen des Modells zu den Daten. Wird die Nullhypothese widerlegt (Σ ≠ Σ(Θ)), dann ist mindestens eine Restriktion im Modell falsch. Mit dem χ2 -Test wird auch die Wahrscheinlichkeit (p-Wert) ausgewiesen, wie gut das Modell in der Grundgesamtheit zu den Daten paßt. Je gr¨oßer der χ2 -Wert (und je kleiner der p-Wert), desto eher liegt eine Diskrepanz zwischen Modell und Daten vor. Da die Matrix S zur Sch¨atzung der Matrix Σ benutzt wird, muß vorausgesetzt werden, daß S auf einer hinreichend großen Stichprobe basiert und die gemessenen Variablen einer Multinormalverteilung folgen. Kann diese Verteilungsannahme nicht getroffen werden, dann k¨onnen, unter Ber¨ ucksichtigung der h¨ oheren Momente in der asymptotischen Kovarianzmatrix (vgl. Abschnitt 6.5.4), sogenannte robuste Standardfehler und χ2 -Tests berechnet werden (vgl. hierzu ausf¨ uhrlicher Abschnitt 6.6.1). Die Programme Mplus und lavaan haben neben der voreingestellten MLDiskrepanzfunktion vier verschiedene ML-Sch¨atzverfahren implementiert, die alle zu identischen ML-Parametersch¨ atzungen f¨ uhren, aber Abweichungen von der multivariaten Normalverteilung bei der Berechnung der Standardfehler und Teststatistiken ber¨ ucksichtigen. Sie werden auch als robuste ML-Sch¨atzverfahren bezeichnet (vgl. ¨ B. O. Muth´en, 1998–2004, S. 32 und die Ubersicht in Tabelle 6.1): 1. MLF: Die Standardfehler werden u ¨ber die Summe der Produkte der ersten Ableitungen berechnet. Der χ2 -Test unterscheidet sich nicht vom χ2 -Test der MLDiskrepanzfunktion. 2. MLM: Die Standardfehler werden mit der asymptotischen Kovarianzmatrix (vgl. Gleichung 6.31) gewichtet und die χ2 -Statistik ist adjustiert u ¨ber die Mittelwerte der Eigenwerte der χ2 -Verteilung. Die χ2 -Statistik wird auch als Satorra-Bentler(SB)χ2 -Statistik bezeichnet (vgl. Satorra & Bentler, 1994, S. 407). 3. MLMV: Entspricht im wesentlichen der MLM-Funktion, hier wird die χ2 -Statistik zus¨atzlich u ¨ber die Varianzen der Eigenwerte der χ2 -Verteilung adjustiert und unterscheidet sich von der SB-χ2 -Statistik durch eine komplexere Berechnung des Ska-
6.5 Diskrepanzfunktionen
103
lierungsfaktors (vgl. Satorra & Bentler, 1994, S. 408). Die praktische Bedeutung des Sch¨atzverfahrens im Vergleich zur MLM-Funktion wird als gering eingesch¨atzt (vgl. Finney & DiStefano, 2006, S. 292). 4. MLR: Die Standardfehler werden mit Hilfe eines sogenannten Sandwich-Sch¨ atzers berechnet und sind sowohl robust gegen¨ uber Verletzungen der Multinormalverteilungsannahme als auch gegen¨ uber Verletzungen der Annahme u ¨ber die Unabh¨angigkeit der Beobachtungen. Daher wird der Sch¨atzer standardm¨aßig f¨ ur komplexe Modellstrukturen (z. B. Mischverteilungsmodelle, vgl. Kapitel 9, Abschnitt 9.2) eingesetzt. Die χ2 -Statistik entspricht der Yuan-Bentler(YB)-χ2 -Statistik (vgl. Yuan & Bentler, 1998, 2000). Wenn die Verteilungsannahmen der ML-Funktion erf¨ ullt sind und ein f¨ ur die Modellkomplexit¨at ausreichender Stichprobenumfang vorliegt, dann f¨ uhren alle MLFunktionen zu den gleichen Modellergebnissen (vgl. das Beispiel in Abschnitt 6.7).
6.5.2
Unweighted-Least-Square(ULS)-Diskrepanzfunktionen
Die ULS-Funktionsgleichung strebt die Minimierung der Quadratsummen jedes Elementes in der Residualmatrix S − Σ(Θ) an (vgl. Bollen, 1989, S. 111; Kaplan, 2009, S. 28): 1 FU LS = tr[S − Σ(Θ)]2 (6.20) 2 Die Residualmatrix enth¨ alt die Differenzen zwischen den empirischen Varianzen und Kovarianzen der gemessenen Variablen und den Varianzen und Kovarianzen, die durch das Modell vorhergesagt werden. Parameter, die u atzt werden, haben den Vorteil, daß sie ¨ber die ULS-Funktion gesch¨ ohne die strenge Multinormalverteilungsannahme auskommen und trotzdem konsistente Sch¨atzer sind. Allerdings wird im Vergleich zur ML-Funktion nicht der effizienteste Sch¨ atzer erreicht. Außerdem k¨ onnen die Parameterwerte differieren, wenn die Skalierung der Variablen ver¨ andert wird. Dies bedeutet, daß der Modelltest auf Basis der Korrelationsmatrix und auf Basis der Kovarianzmatrix zu verschiedenen Ergebnissen f¨ uhrt (vgl. Bollen, 1989, S. 113). Auf Grund der Skalenabh¨angigkeit wird im allgemeinen empfohlen, Modelle mit der ULS-Funktion nur auf der Basis einer Korrelationsmatrix zu sch¨ atzen (vgl. auch Browne, 1982).8 Die Programme Mplus und lavaan stellen eine Mean- and Variance-adjusted Unweighted Least Squares(ULSMV)-Diskrepanzfunktion f¨ ur kategoriale Variablen zur Verf¨ ugung, 8
Im Unterschied zu den Programmen LISREL und EQS erlaubt das Programm Mplus die Verwendung der ULS-Diskrepanzfunktion bei Strukturgleichungsmodellen nur, wenn eine Korrelationsmatrix im DATA-Kommando angegeben wird. Außerdem m¨ ussen die manifesten Variablen als kategoriale Variablen spezifiziert werden. Statistische Tests f¨ ur den Modellfit und f¨ ur die Parameter stehen nicht zur Verf¨ ugung.
104
6 Meßmodelle
die ¨ahnlich robuste Eigenschaften gegen¨ uber Abweichungen der Normalverteilungsannahme hat wie die in Abschnitt 6.5.4 diskutierte Mean- and Variance-adjusted Weigthed Least Squares(WLSMV)-Diskrepanzfunktion. Die Eigenschaften der ULSMV-Funktion im Vergleich zu den robusten ML-Funktionen diskutieren Rhemtulla, Brosseau-Liard und Savalei (2012).
6.5.3
Generalized-Least-Square(GLS)-Diskrepanzfunktion
Die ULS-Diskrepanzfunktion nimmt an, daß alle Elemente der Matrix S − Σ(Θ) die gleichen Streuungen aufweisen. Um diese Annahme fallen lassen zu k¨onnen, kann Gleichung 6.20 durch eine Gewichtungsmatrix verallgemeinert werden, die als GLSDiskrepanzfunktion bezeichnet wird (vgl. Bollen, 1989, S. 113; Mulaik, 2009, S. 156): 1 FGLS = tr[(S − Σ(Θ))(W −1 )]2 (6.21) 2 Die Gewichtungsmatrix W wird meistens so gew¨ahlt, daß sie sich aus der Inversen der empirischen Kovarianzmatrix zusammensetzt (W −1 = S −1 ). GLS-Sch¨atzer sind wie MLSch¨atzer skaleninvariant. Skalentransformationen haben damit keine Auswirkungen auf die Gr¨oße der gesch¨ atzten Parameter.
Wird der ermittelte Funktionswert des zu pr¨ ufenden Modells mit der Stichprobengr¨oße multipliziert ((n − 1)FGLS ), dann folgt die ermittelte Gr¨oße wie bei der ML-Funktion einer χ2 -Verteilung mit 1/2(q)(q + 1) − t Freiheitsgraden. Ist das Modell valide, dann sind (n− 1)FM L und (n− 1)FGLS asymptotisch ¨aquivalent, so daß in großen Stichproben die χ2 -Werte nahezu identisch sind (vgl. Bollen, 1989, S. 115).
6.5.4
Weighted-Least-Square(WLS)-Diskrepanzfunktionen
Parametersch¨atzungen, Standardfehler, z-Werte und der Likelihood-Ratio-Test (χ2 Test) werden oft durch extrem schief verteilte bzw. mit hohen Kurtosiswerten versehenen Daten verzerrt sein. In der Literatur werden verschiedene M¨oglichkeiten diskutiert, die Problematik nicht normal verteilter Daten f¨ ur die Sch¨atzung von Strukturgleichungsmodellen angemessen zu bew¨ altigen (vgl. Bollen, 1989, S. 425; Kline, 2011, S. 177): 1. Die Daten k¨ onnen durch Normalisierungsverfahren so transformiert werden, daß die Verteilungsannahme besser erf¨ ullt wird (zur Technik der normal scores, vgl. J¨oreskog & S¨ orbom, 1993c, S. 6). Die empirische Kovarianzmatrix wird auf der Basis der transformierten Daten berechnet und das Modell kann dann mit der MLbzw. GLS-Diskrepanzfunktion gesch¨ atzt werden. Die urspr¨ ungliche Skalierung der Variablen geht durch das Normalisierungsverfahren allerdings verloren, so daß eine Anwendung nur angemessen ist, wenn die Skalierung f¨ ur die Interpretation der Ergebnisse nicht relevant ist. 2. Die von Browne (1982, 1984) erarbeiteten Vorschl¨age zur Korrektur der χ2 -Statistik und der Standardfehler sind von Bentler und Dudgeon (1996) aufgegriffen und f¨ ur
6.5 Diskrepanzfunktionen
105
den Anwender mit Hilfe von SPSS-Matrixroutinen erstmals praktikabler gemacht worden. Die darauf aufbauenden Arbeiten von Satorra und Bentler (1994) sowie Yuan und Bentler (1998) haben zur Etablierung von robusten ML-Verfahren in den g¨angigen Strukturgleichungsprogrammen gef¨ uhrt (vgl. hierzu Abschnitt 6.5.1). 3. Bollen und Stine (1992) diskutieren M¨ oglichkeiten, mit Hilfe des bootstrapping eine nichtparametrische Teststatistik in Alternative zur herk¨ommlichen χ2 -Statistik zu entwickeln. Mit den einzelnen Bootstrap-Stichproben werden die Modelltests vorgenommen und eine Verteilungsstatistik aufgestellt, die anzeigt, inwieweit die modellimplizierte Verteilung von der Populationsstatistik abweicht. In einigen Strukturgleichungsprogrammen ist der Ansatz von Bollen und Stine (1992) implementiert worden, im Programm Mplus wird er als residual bootstrap bezeichnet (L. K. Muth´en & Muth´en, 1998–2012, S. 620). 4. Die Weighted-Least-Square(WLS)-Diskrepanzfunktion (vgl. Browne, 1982, 1984) geht im Unterschied zu der zweiten und dritten M¨oglichkeit nicht nur auf die Korrektur der Teststatistik und der Standardfehler ein, sondern ber¨ ucksichtigt auch die fehlende asymptotische Effizienz des Parametervektors Θ. Ein wesentlicher Vorteil der WLS-Diskrepanzfunktion besteht darin, daß keinerlei Annahmen u ussen, da ¨ber die Schiefe und die Kurtosis der Variablen getroffen werden m¨ diese Informationen durch die Gewichtungsmatrix W bei der Sch¨atzung der Parameter ber¨ ucksichtigt werden. Daher stammt auch die auf Browne (1982, 1984) zur¨ uckgehende Bezeichnung der Funktion als arbitrary distribution function (ADF). Die WLSDiskrepanzfunktion lautet (vgl. Bollen, 1989, S. 425; Kaplan, 2009, S. 86): FW LS = [s − σ(Θ)] W −1 [s − σ(Θ)] ′
(6.22)
mit s als Vektor der (q)⋅(q+1)/2 Elemente der empirischen Kovarianzmatrix S und σ(Θ) als Vektor der korrespondierenden Elemente der modellimplizierten Kovarianzmatrix Σ(Θ).9 Die Gewichtungsmatrix W −1 hat die Gr¨oße (q) ⋅ (q + 1)/2 × (q) ∗ (q + 1)/2 und enth¨alt die h¨ oheren Momente der multivariaten Verteilungen der Elemente von S. F¨ ur Gleichung 6.22 wird die Kovarianzmatrix der Varianzen und Kovarianzen der gemessenen Variablen als optimale Gewichtungsmatrix eingesetzt. Diese Matrix wird als asymptotische Kovarianzmatrix bezeichnet. Die asymptotische Kovarianz zwischen den empirischen Kovarianzen sij und sgh wird allgemein folgendermaßen berechnet (vgl. Bollen, 1989, S. 426):10 ACOV (sij , sgh ) = N −1 (σijgh − σij σgh ) 9
(6.23)
Die ML-, ULS-, und GLS-Diskrepanzfunktionen k¨ onnen als Spezialf¨ alle der WLS −1 einDiskrepanzfunktion angesehen werden. F¨ ur ML wird in Gleichung 6.22 W −1 = Σ −1 −1 −1 gesetzt, f¨ ur ULS gilt W = I und f¨ ur GLS gilt W = S (vgl. Bollen, 1989, S. 429). 10 Da die asymptotische Kovarianzmatrix eine Verdopplung der Elemente (q) ⋅ (q + 1) darstellt, werden zur Verdeutlichung vier Indizes i, j, g und h verwendet.
106
6 Meßmodelle
mit σijgh als viertes Moment (multivariate Kurtosis) und σij bzw. σgh als Populationskovarianzen. Die Sch¨ atzung f¨ ur das vierte Moment σijgh lautet (vgl. Browne, 1982, S. 82): 1 N σ ijgh = (6.24) ∑ (yit − y i )(yjt − y j )(ygt − y g )(yht − y h ) N t=1 Die Sch¨atzungen f¨ ur die Populationskovarianzen σij und σgh lauten: σ ij =
1
∑t=1 (yit − y i )(yjt − y j ) 1 gh = N ∑N σ g )(yht − y h ) t=1 (ygt − y N
N
(6.25)
Mit der WLS-Diskrepanzfunktion ist es m¨ oglich, einen χ2 -basierten Modelltest (Asym2 ptotically Distribution Free (ADF) χ -Test) zu erhalten, der keine Voraussetzungen an die Verteilung der Variablen stellt. F¨ ur die Berechnung der Standardfehler wird ebenso keine Verteilungsvoraussetzung vorgenommen (vgl. auch Bentler & Dudgeon, 1996, S. 578). F¨ ur die Modellsch¨ atzung werden die Informationen aus den multivariaten Verteilungen der Variablen u ucksichtigt und daher al¨ber die asymptotische Kovarianzmatrix ber¨ le Informationen u ¨ber die Datenstruktur optimal ausgenutzt. Eine Korrelationsmatrix S bestehend aus polychorischen, polyseriellen und tetrachorischen Korrelationen (vgl. hierzu Kapitel 8, Abschnitt 8.1.7) kann zur Modellpr¨ ufung verwendet werden, wenn die asymptotische Kovarianz der Korrelationen rij und rgh f¨ ur die Gewichtungsmatrix W −1 11 berechnet wird. Ein wesentlicher, nicht zu vernachl¨ assigender Nachteil ist die erforderliche hohe Stichprobengr¨oße f¨ ur die Berechnung der asymptotischen Kovarianzmatrix. Die Anzahl der Elemente in der Kovarianzmatrix S bestimmt die Gr¨oße dieser Matrix. Werden f¨ ur das Modell 10 manifeste Variablen ben¨ otigt, dann enth¨alt die Kovarianzmatrix S (10 ⋅ 10 + 1)/2 = 55 Elemente (10 Varianzen in der Diagonalen und 45 Kovarianzen unterhalb der Diagonalen). Die zu invertierende Gewichtungsmatrix W beinhaltet dann immerhin 55×55 = 3025 asymptotische Varianzen und Kovarianzen. Bei großen Modellen mit kleineren Stichprobengr¨ oßen kann die Sch¨atzung der asymptotischen Kovarianzmatrix daher schnell zu instabilen Ergebnissen f¨ uhren. Die umfangreiche Simulationsstudie von Boomsma und Hoogland (2001) verdeutlicht die Abh¨angigkeit von der Stichprobengr¨oße. Unter verschiedenen Bedingungen von Schiefe und Kurtosis wurden von den Autoren Faktorenmodelle mit unterschiedlicher Komplexit¨at (Anzahl Faktoren, Anzahl der gemessenen Variablen pro Faktor und die H¨ohe der Faktorenladungen) spezifiziert und getestet. Im Vergleich zu ML und GLS liegt die Anzahl der nicht konvergierten und nicht interpretierbaren L¨ osungen bei WLS deutlich h¨oher, wenn die Stichprobengr¨oße n = 200 betr¨agt. Die ben¨ otigte Stichprobengr¨oße f¨ ur die WLS-Diskrepanzfunktion ist 11
Wenn in den Programmen Mplus und lavaan die manifesten Variablen als kategoriale Variablen definiert werden, dann werden mit der WLS-Diskrepanzfunktion auf der Basis dieser Korrelationsmatrix die Parameter gesch¨ atzt.
6.5 Diskrepanzfunktionen
107
deutlich abh¨angig von der Kurtosis der manifesten Variablen und der Modellkomplexit¨at (Boomsma & Hoogland, 2001, S. 148 und S. 154). Eine stabilere Sch¨atzung kann alternativ durch den Verzicht auf die asymptotischen Kovarianzen und die Beschr¨ ankung auf die asymptotischen Varianzen f¨ ur die Gewichtungsmatrix W in Gleichung 6.22 erreicht werden. Die dann f¨ ur die Modellsch¨atzung verwendete Funktion wird als Diagonally Weighted Least Squares(DWLS)-Diskrepanzfunktion bezeichnet. Da keine asymptotischen Kovarianzen ermittelt werden, reduziert sich die Gewichtungsmatrix W auf eine Diagonalmatrix mit der Gr¨oße (q + 1)/2. Bei 10 Variablen enth¨alt die Matrix (10 ⋅ 10 + 1)/2 = 55 Elemente (asymptotische Varianzen in der Diagonale). Eine weitaus gr¨oßere Verbreitung haben mittlerweile robuste WLS-Diskrepanzfunktionen genommen, die auf die Arbeiten von B. O. Muth´en (1993) und B. O. Muth´en, du Toit und Spisic (1997) zur¨ uckgehen. Zum einen ist hier die Mean-adjusted Weigthed Least Squares(WLSM)-Diskrepanzfunktion und zum anderen die Mean- and Varianceadjusted Weigthed Least Squares(WLSMV)-Diskrepanzfunktion zu nennen. Im Unterschied zur WLS-Diskrepanzfunktion in Gleichung 6.22 wird die Gewichtungsmatrix W nicht invertiert und in Verbindung mit einfacheren Matrizenoperationen f¨ ur die Parametersch¨atzungen nur die Diagonale von W (asymptotische Varianzen) verwendet. Sowohl WLSM als WLSMV sind f¨ ur kleinere Stichprobengr¨oßen geeignet (vgl. Urban & Mayerl, 2014, S. 112f.), die Parametersch¨ atzungen und die Standardfehler sind identisch. Der χ2 -basierte Modelltest bei WLSM und WLSMV wird unter Ber¨ ucksichtigung der nicht invertierten Gewichtungsmatrix W berechnet, wobei unter WLSM die u ¨bliche Berechnung der Freiheitsgrade (df ) erfolgt w¨ ahrend WLSMV einen Skalierungsfaktor einsetzt und die Freiheitsgrade approximiert an eine χ2 -Verteilung sch¨atzt (vgl. Finney ¨ & DiStefano, 2006, S. 293 und die Ubersicht in Tabelle 6.1). Einige Spezialf¨alle der WLS-Diskrepanzfunktion sollen hier abschließend kurz erw¨ahnt werden, die aber in der Praxis wenig verbreitet sind:
Wenn die gemessenen Variablen keine Kurtosis haben, aber schief verteilt sind, dann reduziert sich das vierte Moment auf: σijgh = σij σgh + σig σjh + σih σjg
(6.26)
Damit reduziert sich Gleichung 6.23 auf: ACOV (sij , sgh ) = N −1 (σig σjh + σih σjg )
(6.27)
Die WLS-Funktion (Gleichung 6.22) reduziert sich auf: 1 FW LS = tr{[S − Σ(Θ)]W −1 }2 2
(6.28)
mit einer Gewichtungsmatrix W −1 der Gr¨ oße q × q (vgl. Bollen, 1989, S. 427).
108
6 Meßmodelle
Wenn die gemessenen Variablen nicht schief verteilt sind, aber eine spezifische Kurtosis haben, dann gilt f¨ ur das vierte Moment: σijgh = (K + 1)(σij σgh + σig σjh + σih σjg )
(6.29)
12 mit der spezifischen Kurtosis K = σ3iiii Wenn die 2 − 1 (vgl. Browne, 1982, S. 85). σii Verteilungen der Variablen keine Schiefe haben, aber eine Kurtosis, die von der Multinormalverteilung abweicht, dann werden diese als elliptische Verteilungen bezeichnet (vgl. Bollen, 1989, S. 429). Die Kombination der Gleichungen 6.23 und 6.29 ergibt f¨ ur die asymptotische Kovarianz folgendes:
ACOV (sij , sgh ) = N −1 [(K + 1)(σig σjh + σih σjg ) + K(σij σgh )]
(6.30)
F¨ ur die Sch¨ atzfunktion mit einer multivariaten elliptischen Verteilung kann nach Browne (1984, S. 74) folgende Funktion FE aufgestellt werden: 1 −1 FE = (K + 1) tr[(S − Σ(Θ))W −1 ]2 − C1 tr[(S − Σ(Θ)]W −1 ]2 2
(6.31)
2
Die Konstante C1 setzt sich zusammen aus K/[4(K + 1) + 2(p + q)K(K + 1)] (vgl. Bollen, 1989, S. 430).
Eine weitere Klasse von multivariaten Verteilungen wird durch die heterogeneous kurtosis theory (HK, vgl. Kano, Berkame & Bentler, 1990) beschrieben. Hierbei wird Gleichung 6.31 so verallgemeinert, daß nicht nur ein Parameter f¨ ur alle Variablen der Kurtosis K in die Berechnung der vierten Momente (Gleichung 6.29) einfließen, sondern variablenspezifische Kurtosisparameter (z. B. Ki , vgl. Bentler & Dudgeon, 1996, S. 579f.): σijgh = (aij agh )σij σgh + (aig ajh )σig σjh + (aih ajg )σih σjg
(6.32)
Hierbei sind aij = (Ki + Kj )/2 und agh = (Kg + Kh )/2. Die Gr¨oßen aig , ajh , aih und ajg sind entsprechend definiert. F¨ ur die Sch¨atzfunktion mit einer multivariaten HKVerteilung kann folgende Funktion FHK verwendet werden (vgl. Bentler & Dudgeon, 1996, S. 580): 1 FHK = tr[(S − Σ(Θ))(AΣ(Θ))−1 ]2 (6.33) 2 mit A = (aij ) = (Ki + Kj )/2. Ein wesentlicher Vorteil von FHK ist die direkte Ber¨ ucksichtigung der h¨ oheren Momente, so daß keine Gewichtungsmatrix W berechnet werden muß. Wenn die h¨ oheren Momente bei gr¨oßeren Modellen (beispielsweise mit mehr als 40 Variablen) f¨ ur die Sch¨ atzung der Parameter ber¨ ucksichtigt werden, dann sollte sich FHK als gute Alternative zu FW LS (Gleichung 6.22) erweisen. 12
Die univariate Kurtosis jeder Variable wird als gleich angenommen bzw. variiert nur innerhalb des Stichprobenfehlers. W¨ ahrend die Normalverteilung eine Kurtosis von 1 hat, zeigen Werte < 1 eine flachgipflige Verteilung (platykurtic curve) und Werte > 1 eine steil gew¨ olbte Verteilung (leptocurtic curve) an.
6.5 Diskrepanzfunktionen
109
Die dargestellten Spezialf¨ alle der WLS-Funktion (Gleichung 6.31 und Gleichung 6.33) sind ausschließlich im Programm EQS implementiert und werden dort als Elliptical Reweighted Least Squares(ERLS)-Funktion bzw. als Heterogeneous Kurtosis Reweighted Least Square(HKRLS)-Funktion bezeichnet. Diese nur wenig verwendeten Funktionen zeigen auch bei umfangreichen Simulationsstudien wenig Effizienz und nicht unerhebliche Verzerrungen der Parameter (vgl. Boomsma & Hoogland, 2001 und die Metanalyse von Powell & Schafer, 2001). Die Pr¨ aferenz sollte hier eindeutig bei den robusten WLSDiskrepanzfunktionen WLSM und WLSMV liegen.
6.5.5
Empfehlungen fu ¨r die empirische Praxis
Durch verschiedene Simulationsstudien und Erfahrungen aus der praktischen Handhabung von Strukturgleichungsmodellen lassen sich Empfehlungen f¨ ur die empirische Praxis ableiten, die auch von der Verf¨ ugbarkeit bestimmter Programme abh¨angig ist. ¨ Die Ubersicht in Tabelle 6.1 gibt ein Zusammenfassung u ¨ber die Berechnungsweise der Parameter, der Standardfehler und der χ2 -Tests f¨ ur die ML- und die WLSDiskrepanzfunktionen. Auch wenn die ULS- und die GLS-Diskrepanzfunktion kurz beschrieben wurden, so ist deren Bedeutung f¨ ur die empirische Praxis in den Sozialwissenschaften eher gering. Dazu hat auch die Implementation neuer robuster Techniken u ¨ber entsprechende ML- und WLS-Diskrepanzfunktionen beigetragen, die auch bei geringeren Stichprobengr¨ oßen zuverl¨ assige Ergebnisse erzielen. Das Verh¨altnis von Modellkomplexit¨at, Anzahl der manifesten Variablen pro latente Variable in den Meßmodellen und Konstruktvalidit¨at (H¨ ohe der Faktorenladungen) muß aber auch hier beachtet werden. Die in Tabelle 6.1 aufgef¨ uhrten Diskrepanzfunktionen stehen in den hier verwendeten Programmen Mplus (bis auf DWLS) und lavaan zur Verf¨ ugung. Im Programm LISREL (Version 9.1) stehen ML, MLM, WLS und DWLS zur Verf¨ ugung, im Programm EQS (Version 6.1) sind ML, MLM, MLR und WLS (hier als ADF bezeichnet) implementiert. Die in Tabelle 6.2 zusammengestellten Empfehlungen differenzieren nach kontinuierlichen und kategorialen manifesten Variablen bei der Auswahl der geeigneten Diskrepanzfunktion. Haben die Variablen f¨ unf und mehr geordnete Kategorien, kann sie als eine kontinuierliche Messung angenommen werden. Dann sind robuste MLDiskrepanzfunktionen zu empfehlen (vgl. auch Rhemtulla et al., 2012). Bei weniger als f¨ unf Kategorien ist von kategorialen Messungen auszugehen. In diesem Fall sollten robuste WLS-Diskrepanzfunktionen verwendet werden. Die konventionelle WLSDiskrepanzfunktion empfiehlt sich nur bei sehr umfangreichen Stichprobengr¨oßen. Boomsma und Hoogland (2001, S. 153) k¨ onnen zeigen, daß bei f¨ unf Meßmodellen mit je drei manifesten Variablen und untereinander korrelierenden Faktoren unter der Bedingung leicht schiefer Verteilungen (1.6) und hoher Kurtosis (6) 3600 Beobachtungen ben¨otigt werden, um akzeptable, unverzerrte Parametersch¨atzungen zu erhalten.
110
6 Meßmodelle
Tab. 6.1: Berechungsweise der Parameter, der Standardfehler und der χ2 -Tests f¨ ur die MLund WLS-Diskrepanzfunktionen Funktion
Parameter
Standardfehler
ML
ohne Adjustierung
zweite Ableitungen der ML-Funktion
MLF
ohne Adjustierung
erste Ableitungen der ML-Funktion
MLM
ohne Adjustierung
Adjustiert durch die asymptotische Kovarianzmatrix
MLMV
ohne Adjustierung
Adjustiert durch die asymptotische Kovarianzmatrix
MLR
ohne Adjustierung
Adjustiert durch die asymptotische Kovarianzmatrix
WLS
Adjustiert durch die Inverse der asymptotischen Kovarianzmatrix
Adjustiert durch die Inverse der asymptotischen Kovarianzmatrix
DWLS
Adjustiert durch die Inverse der asymptotischen Varianzen
Adjustiert durch die Inverse der asymptotischen Varianzen
WLSM
Adjustiert durch die asymptotischen Varianzen
Adjustiert durch die asymptotische Kovarianzmatrix
WLSMV
Gewichtung durch die asymptotischen Varianzen
Adjustiert durch die asymptotische Kovarianzmatrix
χ2 -Test LR-χ2 -Test LR-χ2 -Test SB-χ2 -Test adjustiert durch Mittelwerte SB-χ2 -Test adjustiert durch Mittelwerte und Varianzen YB-χ2 -Test
ADF-χ2 -Test
ADF-χ2 -Test
LR-χ2 -Test adjustiert durch Mittelwerte LR-χ2 -Test adjustiert durch Mittelwerte und Varianzen
Zu den verwendeten Abk¨ urzungen, vgl. die Abschnitte 6.5.1 und 6.5.4
6.6
Statistiken der Modellpru ¨fung
Statistische Kriterien zur Pr¨ ufung von Strukturgleichungsmodellen haben immer immer f¨ ur relativ starke Diskussionen in der Literatur gesorgt. Ein m¨oglicher Ausgangspunkt f¨ ur die statistische Beurteilung der Modelle ist die Art der Modellpr¨ ufung. J¨oreskog und S¨orbom (1993a, S. 115) unterscheiden drei Situationen:
6.6 Statistiken der Modellpr¨ ufung
111
Tab. 6.2: Verwendung der ML- und WLS-Diskrepanzfunktionen in Abh¨ angigkeit von dem Meßniveau, der Schiefe und der Kurtosis der manifesten Variablen Kontinuierliche Variablen Schiefe Kurtosis Diskrepanzfunktion
Bemerkungen
≈0
≈0
ML
Die Parametersch¨ atzer, Standardfehler und der LR-χ2 -Test weisen korrekte Werte auf.
7
MLM, MLMV, MLR
Bei starker Schiefe und Kurtosis k¨ onnen die adjustierten Standardfehler, der SB-χ2 -Test oder der YB-χ2 -Test eingesetzt werden.
Kategoriale Variablen Schiefe Kurtosis Diskrepanzfunktion
Bemerkungen
≈0
≈0
MLM, WLS, WLSM, WLMSV
Bei weniger als f¨ unf Kategorien kann MLM und der SB-χ2 -Test eingesetzt werden. WLSM und WLSMV haben leichte Pr¨ aferenz vor MLM.
7
WLSMV
Hier sollte unabh¨ angig von der Anzahl der Kategorien WLSMV und der entsprechend adjustierte χ2 -Test eingesetzt werden.
Zu den verwendeten Abk¨ urzungen, vgl. die Abschnitte 6.5.1 und 6.5.4; die Empfehlungen sind vergleichbar zu denen in Finney und DiStefano (2006, Tabelle 9.5).
1. Der Forscher befindet sich mit seinem Modell in einer streng konfirmatorischen Situation. Wenn das Modell zu den Daten paßt, dann wird es akzeptiert, ansonsten wird das Modell verworfen. 2. Der Forscher formuliert ein Ausgangsmodell, das u ¨ber die Modellmodifikationen schrittweise den Daten angepaßt wird. Hiermit ist nicht ein sogenanntes inhaltsleeres model fitting gemeint, vielmehr sollte der Modifikationsprozeß theoriegeleitet sein, so daß die Parameter substantiell interpretierbar werden.
112
6 Meßmodelle
3. Der Forscher hat verschiedene alternative oder konkurrierende Modelle formuliert und pr¨ uft mit den zugrundeliegenden Daten, welches Modell am besten zu den Daten paßt. Die erste Situation wird im Kontext der sozialwissenschaftlich orientierten Modellbildung relativ selten praktiziert, da in den meisten F¨allen die theoretischen Annahmen im Falle der Modellwiderlegung auch Modifikationsm¨oglichkeiten zulassen. Statistische Kriterien der Modellevaluation (vgl. Abschnitt 6.6.1) k¨onnen herangezogen werden, die eine Akzeptanz oder Ablehnung des spezifizierten Modells nahelegen. Die zweite und dritte Situation tritt innerhalb der Modellbildung mit Strukturgleichungen am meisten auf. Hierbei k¨onnen statistische Kriterien, die sowohl einen Modellvergleich erm¨oglichen als auch die Modellsparsamkeit ber¨ ucksichtigen, herangezogen werden (vgl. Abschnitt 6.6.2). Die Entwicklung statistischer Pr¨ ufkriterien (Goodness-of-Fit Indizes) ist im wesentlichen durch die Abh¨ angigkeit der χ2 -Statistik von der Untersuchungsgr¨oße bestimmt worden. Werden konventionelle ML- oder WLS-Diskrepanzfunktionen verwendet, wird ein großer Datenumfang ben¨ otigt, um stabile Parametersch¨atzungen und Standardfehler sowie eine aussagekr¨ aftige χ2 -Statistik zu erhalten. Bei großen Stichproben reichen aber minimale und zumeist triviale Modellabweichungen aus, um eine Modellwiderlegung anhand der LR-χ2 -Statistik zu erhalten. Schon in der Anfangszeit der Modellbildung mit Strukturgleichungen ist der inferenzstatistische Stellenwert der LR-χ2 -Statistik in Frage gestellt worden (vgl. beispielsweise J¨ oreskog, 1969). Bollen und Long haben im Einleitungskapitel des vielbeachteten Sammelbandes u ¨ber Testm¨oglichkeiten von Strukturgleichungsmodellen die Anforderungen an die Pr¨ ufstatistiken zusammengestellt (vgl. Bollen & Long, 1993, S. 4). Hierzu geh¨ ort die Frage, welche Schwellenwerte herangezogen werden, um gute, moderate und schlechte Modellanpassungen zu unterscheiden. Des weiteren stellt sich die Frage der Normierung von Pr¨ ufstatistiken (zwischen 0 und 1) oder auch deren Rolle bei der Modifizierung von Modellrestriktionen, wie sie in der zweiten Situation weiter oben angesprochen wurde. Die folgenden beiden Abschnitte behandeln sowohl die Modellevaluation und die in dem Zusammenhang entwickelten sogenannten absoluten Goodness-of-Fit Indizes (vgl. Abschnitt 6.6.1) als auch den Modellvergleich und die sogenannten komparativen Goodnessof-Fit Indizes (vgl. Abschnitt 6.6.2).
6.6.1
Die Modellevaluation: χ2 -Statistiken, Standardfehler, z -Werte und die absoluten Goodness-of-Fit Indizes
6.6.1.1
Die χ2 -Statistiken, Standardfehler und z-Werte
Um die Nullhypothese H0 ∶ Σ = Σ(Θ) statistisch testen zu k¨onnen, kann bei u ¨beridentifizierten Modellen die LR-χ2 -Statistik verwendet werden. Da Σ als Populationskovarianzmatrix unbekannt ist, wird die Stichprobenkovarianzmatrix S als Sch¨atzung f¨ ur Σ
6.6 Statistiken der Modellpr¨ ufung
113
verwendet und die Differenz S − Σ(Θ) gepr¨ uft (vgl. Bollen, 1989, S. 257). Der χ2 -Wert wird u ¨ber den Funktionswert der jeweiligen Diskrepanzfunktionen ML, ULS, GLS und WLS berechnet (vgl. Schumacker & Lomax, 2010, S. 86): χ2M L = (n − 1)FM L
χ2U LS = (n − 1)FU LS
χ2GLS = (n − 1)FGLS
(6.34)
χ2W LS = (n − 1)FW LS Der Funktionswert ergibt sich aus der iterativ bestimmten L¨osung genau an dem Punkt, wo die Funktion ihr Minimum erreicht hat, also ihre erste Ableitung Null ist.13 Der χ2 Wert ist umso kleiner, je geringer die Differenz S − Σ(Θ) ist. Wenn der χ2 -Wert einen voher definierten kritischen p-Wert u ¨berschreitet, dann ist die Nullhypothese widerlegt. Es gibt allerdings Gr¨ unde, die χ2 -Statistik nicht als Teststatistik f¨ ur Strukturgleichungsmodelle zu verwenden, da mehrere Voraussetzungen existieren, die in empirischen Daten oft nicht vorliegen (vgl. Bollen, 1989, S. 266): 1. Die manifesten Variablen m¨ ussen multinormalverteilt sein (f¨ ur FM L und FGLS ) bzw. die Gewichtungsmatrix W muß unter optimalen Bedingungen gesch¨atzt werden k¨onnen (f¨ ur FW LS ). 2. Die Stichprobe ist unter Ber¨ ucksichtigung der Modellkomplexit¨at hinreichend groß. 3. S ist eine Kovarianzmatrix und keine Korrelationsmatrix. 4. Die Hypothese H0 ∶ Σ = Σ(Θ) stimmt exakt. Die vier genannten Voraussetzungen werden nachfolgend etwas ausf¨ uhrlicher diskutiert. Multinormalverteilung (1. Punkt) bedeutet, daß die manifesten Variablen weder schief verteilt sind noch eine Kurtosis haben. Die Simulationsstudien von Boomsma (1983), Hoogland und Boomsma (1998) sowie Boomsma und Hoogland (2001) zeigen, daß extrem schief verteilte Variablen zu hohen χ2 -Werten f¨ uhren. Auch Browne (1984, S. 81) gibt an, daß flachgipflige Verteilungen zu untersch¨atzten χ2 -Werten f¨ uhren, w¨ahrend bei gew¨olbten Verteilungen die χ2 -Werte u ¨bersch¨atzt sind. Diese Verzerrung betrifft ebenso die Standardfehler und die z-Werte (siehe weiter unten). Weitere Simulationsstudien (z. B. Yuan, Bentler & Zhang, 2005) best¨atigen diese Erkenntnisse und heben hervor, daß ein χ2 -Wert mit kleinem p-Wert nicht unbedingt durch ein schlecht angepaßtes Modell oder durch eine umfangreiche Stichprobengr¨oße verursacht werden, sondern vielmehr durch Verletzungen der Verteilungsannahme. 13
Einige Programme (z. B. LISREL) weisen nicht den Funktionswert F , sondern 12 F aus (vgl. den Hinweis in Haughton, Oud und Jansen (1997, S. 1483). Mplus verwendet in Gleichung 6.34 n statt n − 1. In lavaan kann dies je nach Ausgabeformat (mimic) ausgew¨ ahlt werden.
114
6 Meßmodelle
Da die Parametersch¨ atzungen bei hinreichend großer Stichprobe weit weniger von den Verteilungsvoraussetzungen betroffen sind (vgl. Boomsma & Hoogland, 2001), ist eine Korrektur der χ2 -Statistik und der Standardfehler durch die Ber¨ ucksichtigung der Informationen aus der asymptotischen Kovarianzmatrix anzustreben (vgl. Browne, 1984, S. 67). Verschiedene sogenannte robuste χ2 -Statistiken sind entwickelt worden, die die h¨oheren Momente der multivariaten Verteilung explizit ber¨ ucksichtigen. Hierzu geh¨oren die von Satorra und Bentler (1988, 1994) diskutierten und sp¨ater als SatorraBentler(SB)-scaled chi-square statistic bezeichneten Vorschl¨age, die die erste Zeile von Gleichung 6.34 mit einem Skalierungsfaktor gewichten. Der Skalierungsfaktor kann einerseits eine Adjustierung durch die Mittelwerte der Eigenwerte der asymptotischen χ2 -Verteilung vornehmen, andererseits aber auch zus¨atzlich die Varianzen der Eigenwerte ber¨ ucksichtigen (Gleichungen 16.22 und 16.24 in Satorra & Bentler, 1994; vgl. ¨ auch den Uberblick in Bentler & Dudgeon, 1996, S. 577f.).14 Beispielsweise kann der Skalierungsfaktor c bei Verwendung der Diskrepanzfunktion MLM einfach aus der Division des konventionellen χ2 -Wertes (χ2M L ) und SB-χ2 -Wert (χ2SB ) berechnet werden (vgl. Bryant & Satorra, 2012, S. 375):15 c=
χ2M L χ2SB
(6.35)
Wird die MLR-Diskrepanzfunktion verwendet, kommt eine weitere Variante robuster χ2 -Statistiken zum Einsatz, die Yuan-Bentler(YB)-scaled chi-square statistic (Yuan & Bentler, 2000, S. 177; Yuan & Bentler, 1998). Die Berechnung des Skalierungsfaktors c erfolgt analog zu Gleichung 6.35. Die Bedingung, wann eine Stichprobe f¨ ur die χ2 -Statistik als hinreichend groß angesehen werden kann (2. Punkt), ist nur mit Simulationsstudien u ufbar. Boomsma (1983, ¨berpr¨ S. 119) fand heraus, daß Gleichung 6.34 f¨ ur die ML-Diskrepanzfunktion bei N < 50 nicht und bei N < 100 nur eingeschr¨ ankt anwendbar ist. Bei kleinen Stichproben sind die Werte der χ2 -Statistik zu groß, was zu u uckweisung von H0 f¨ uhrt ¨berproportionaler Zur¨ (vgl. auch Anderson & Gerbing, 1984). Auch die nachfolgende Studie von Boomsma und Hoogland (2001) best¨ atigt diese Einsch¨atzung, hebt aber zus¨atzlich hervor, daß eine kleine Stichprobengr¨ oße durch hoch reliable und valide Meßmodelle kompensiert werden kann. Dagegen sind f¨ ur die WLS-Diskrepanzfunktion selbst bei Meßmodell mit wenigen manifesten Variablen hohe Fallzahlen f¨ ur eine stabile Sch¨atzung der asymptischen Kovarianzmatrix notwendig. F¨ ur den Anwender hat sich die Regel, daß auf 14
In Mplus und lavaan wird die erste Variante durch die Diskrepanzfunktion MLM, die zweite Variante durch die Diskrepanzfunktion MLMV aufgerufen. In LISREL wird die erste Variante des SB-χ2 -Test als C3 und in EQS als Satorra-Bentler scaled chi-square bezeichnet. ¨ MLMV ist in beiden Programmen nicht implementiert (vgl. auch die Ubersicht in Tabelle 6.1). 15 Im Mplus- und lavaan-Output braucht der Skalierungsfaktor nur abgelesen werden. Die Berechnungsweise in LISREL unterscheidet sich allerdings von der in Mplus, lavaan und EQS (vgl. hierzu ausf¨ uhrlich Bryant & Satorra, 2012).
6.6 Statistiken der Modellpr¨ ufung
115
jeden zu sch¨atzenden Parameter mehrere F¨ alle aus der Stichprobe kommen sollten, als praktikabel erwiesen (vgl. Bollen, 1989, S. 268). ¨ Hoogland und Boomsma (1998) geben einen Uberblick u ¨ber 34 Simulationsstudien aus den 1980er und 1990er Jahren u ber die Robustheit von Modellergebnissen, wenn Ver¨ teilungsannahmen nicht erf¨ ullt sind, mit kleinen Stichproben gearbeitet wird, Fehlspezifikationen im Modell vorliegen oder eine Korrelationsmatrix anstatt einer Kovarianzmatrix verwendet wird. Bezogen auf Gleichung 6.19 (ML-Diskrepanzfunktion) zeigt die Metaanalyse, daß die untersuchten Modelle dann zu oft zur¨ uckgewiesen werden, wenn die Stichprobengr¨oße kleiner war als die f¨ unffache Gr¨oße der Freiheitsgrade. Bei Verwendung der GLS-Diskrepanzfunktion tritt dieser Effekt erst auf, wenn die zweifache Gr¨oße der Freiheitsgrade unterschritten wird (vgl. Hoogland & Boomsma, 1998, S. 362). Die WLS-Diskrepanzfunktion ist zwar nicht sensitiv gegen¨ uber Abweichungen der Normalverteilung, allerdings wird die χ2 -Statistik das Modell zu oft verwerfen, wenn die Stichprobengr¨oße den 20fachen Wert der Freiheitsgrade unterschreitet (vgl. Hoogland & Boomsma, 1998, S. 363 und Hoogland, 1999, S. 113f.) Wenn die Matrix S keine Kovarianzmatrix, sondern eine Korrelationsmatrix ist (3. Punkt), dann f¨ uhrt die χ2 -Statistik nur unter der Bedingung, daß das Modell skaleninvariant ist, zu identischen Resultaten. Wenn ein Modell mit der ML-Diskrepanzfunktion unter Verwendung einer Korrelationsmatrix analysiert wird und die Diagonale der modellimplizierten Korrelationsmatrix Σ Werte ungleich 1.0 enth¨alt, dann deutet dies auf Skaleninvarianz hin (vgl. Kline, 2011, S. 175). In der Praxis sollten immer Rohdaten bzw. die Kovarianzmatrix verwendet werden. F¨ ur Sekund¨aranalysen stehen allerdings oft nur publizierte Korrelationsmatrizen zur Verf¨ ugung. Die Annahme Σ = Σ(Θ) (4. Punkt) unterstellt eine exakte Beschreibung der Realit¨at. Diese Annahme ist jedoch unrealistisch. Daher wird in der Regel ein moderateres Ziel angestrebt. Existiert eine Differenz zwischen S und Σ, ist zu pr¨ ufen, ob diese vernachl¨assigbar ist. Da die χ2 -Statistik mit steigendem n gr¨oßer wird, wird auch die Wahrscheinlichkeit, eine falsche Nullhypothese zur¨ uckzuweisen, gr¨oßer (vgl. Bollen, 1989, S. 268). Kleinere Differenzen zwischen S und Σ k¨ onnen bei großen Stichproben dramatische Auswirkungen auf die χ2 -Statistik haben, so daß fast immer eine Modellwiderlegung die Folge ist. Wenn ein Modell auf Grund der Nullhypothese H0 ∶ Σ = Σ(Θ) akzeptiert wird, k¨onnen die gesch¨atzten Parameter danach beurteilt werden, ob diese signifikant von Null verschieden sind. Da mit steigender Stichprobengr¨ oße die ML-Sch¨atzer approximativ einer Normalverteilung folgen, kann auf die z-Statistik (bzw. t-Statistik, vgl. Bortz & Schuster, 2010, S. 75) zur¨ uckgegriffen werden. F¨ ur den Test eines Parameters Θi = 0 wird i und seinem der z-Wert aus dem Verh¨ altnis zwischen dem gesch¨atzten Parameter Θ Standardfehler SE(Θi ) ermittelt: z=
i Θ i ) SE(Θ
(6.36)
116
6 Meßmodelle
Die Standardfehler werden aus der invertierten Matrix der zweiten partiellen Ableitungen der ML-Diskrepanzfunktion berechnet (vgl. hierzu Bollen, 1989, S. 109). Bei einer Irrtumswahrscheinlichkeit von α = 0.05 ist der Parameter Θi = 0, wenn z ≤ 1.96. Dieser Test ist allerdings nur korrekt, wenn die Variablen multinormalverteilt sind. Erf¨ ullen die Daten diese Voraussetzung nicht, dann m¨ ussen die Informationen aus der asymptotischen Kovarianzmatrix bei der Berechnung der Standardfehler ber¨ ucksichtigt werden (vgl. Bentler & Dudgeon, 1996, S. 572). F¨ ur die robusten Diskrepanzfunktionen MLM, MLMV und MLR sowie WLSM und WLSMV erfolgt dies standardm¨aßig in den Programmen Mplus und lavaan.16 Im weiteren wird eine Auswahl von in der Praxis verbreiteten absoluten Goodness-of-Fit Indizes er¨ortert, die von der Annahme Σ = Σ(Θ) abweichen und einen n¨aherungsweisen Modellfit zu erreichen versuchen. 6.6.1.2
Absolute Goodness-of-Fit Indizes
Modelle, die f¨ ur die Population nicht exakt aber n¨aherungsweise gelten, werden – wie oben beschrieben – nach der χ2 -Statistik bei großen Stichproben immer zur¨ uckgewiesen. Um entsprechend alternative Fit-Statistiken zu entwickeln, m¨ ussen zun¨achst die verschiedenen Arten von Abweichungen (Diskrepanzen) definiert werden. Theoretisch werden hierzu drei Kovarianzmatrizen ben¨ otigt: die Populationskovarianzmatrix Σ, die als die am besten angepaßte Matrix zur Populationskovarianzmatrix Kovarianzmatrix Σ = Σ(Θ)) und die Kovarianzmatrix Σ als die am besten angepaßte Kovarianzmatrix (Σ = Σ(Θ)). zur Stichprobenkovarianzmatrix S (Σ Browne und Cudeck (1993, S. 141) k¨onnen damit drei Diskrepanztypen unterscheiden: 1. Diskrepanz bezogen auf die Ann¨ aherung (Discrepancy due to approximation) 2. Diskrepanz bezogen auf die Sch¨ atzung (Discrepancy due to estimation) 3. Diskrepanz bezogen auf den Gesamtfehler (Discrepancy due to overall error) die in einer Die erste Diskrepanz bezieht sich auf die Differenz zwischen Σ und Σ, Fehlerfunktion F (Σ, Σ) ausgedr¨ uckt werden kann. Die Funktion ist nur dann Null, wenn Ansonsten ist diese Diskrepanz eine unbekannte Konstante, die bei Hinzunahme Σ = Σ. weiterer freier Parameter kleiner wird. und Σ, deren ErwarDie zweite Diskrepanz bezieht sich auf die Differenz zwischen Σ tungswert durch Σ)] ≈ n−1 t E[F (Σ, (6.37) 16
Im Programm LISREL werden asymptotisch korrekte Standardfehler und z-Werte f¨ ur die ULS-, die ML- und die GLS-Sch¨ atzer immer dann berechnet, wenn die asymptotische Kovarianzmatrix im Programminput zur Verf¨ ugung gestellt wird. Im Programm EQS werden nicht korrigierte und korrigierte Standardfehler bzw. z-Werte immer dann berechnet, wenn im Programminput neben dem Sch¨ atzverfahren das Wort Robust eingef¨ ugt wird.
6.6 Statistiken der Modellpr¨ ufung
117
n¨aherungsweise ausgedr¨ uckt wird (n = N − 1). Der Erwartungswert steigt mit Zunahme der freien Parameter t. deren ErwarDie dritte Diskrepanz bezieht sich auf die Differenz zwischen Σ und Σ, tungswert als Summe der ersten und zweiten Diskrepanz aufgefaßt werden kann (vgl. Browne & Cudeck, 1993, S. 142):17 ≈ F (Σ, Σ) + E[F (Σ, Σ)] E[F (Σ, Σ)] − 1 +n t ≈ F (Σ, Σ)
(6.38)
Mit Zunahme der freien Parameter kann der Gesamtfehler steigen. Dies wird dann passieren, wenn es sich um eine kleine Stichprobe handelt und die zweite Diskrepanz steigt. ist dann eine verzerrte Sch¨ Die Stichprobendiskrepanzfunktion F = F (S, Σ) atzung der (zu den Diskrepanzfuntionen vgl. Abschnitt 6.4). Der ersten Diskrepanz F0 = F (Σ, Σ) Erwartungswert der Stichprobendiskrepanzfunktion kann aber nach Browne und Cudeck (1993, S. 143) u aherungsweise bestimmt werden: ¨ber die erste Diskrepanz n¨ E F ≈ F0 + n−1 df
(6.39)
Um negative Werte zu vermeiden, wird die Punktsch¨atzung F0 als Populationsdiskrepanzfunktion (Population Discrepancy Function) aufgestellt: F0 = Max{F − n−1 df, 0}
(6.40)
wobei F das Minimum der Funktion ist. Wenn F0 = 0, dann paßt das Modell perfekt zu den Daten. Da von Stichprobe zu Stichprobe die Diskrepanz streuen kann, wird mit einem 90-prozentigen Vertrauensintervall gearbeitet: L /n; λ U /n) (λ
(6.41)
L ist die untere (lower), λ U die obere (upper) Grenze des Verwobei λ = n × F0 . λ trauensintervalls. Da aber F0 im allgemeinen auch dann kleiner wird, wenn redundante Parameter spezifiziert werden (und damit eine m¨oglichst sparsame Modellierung konterkariert wird), wird der urspr¨ unglich von Steiger (1990) entwickelte Root Mean Square Error of Approximation (RMSEA), der auf der Populationsdiskrepanzfunktion basiert, empfohlen (Browne & Cudeck, 1993, S. 144):18 17
Weitere formale Ausf¨ uhrungen zu den Gleichungen 6.37 und 6.38 sind im Anhang von Browne und Cudeck (1993, S. 158) nachzulesen. 18 In Mplus und lavaan wird der RMSEA nach folgender Formel berechnet (vgl. B. O. Muth´en, 1998–2004, S. 22f.): √ √ RM SEA = max[(2FM L (Θ)/df − 1/n, 0] G (6.42) G ist die Anzahl der Gruppen und ist nur f¨ ur multiple Gruppenvergleiche bedeutsam.
118
6 Meßmodelle ¿ Á F0 À RM SEA = Á df
(6.43)
pro Freiheitsgrad und hat wie F0 Der RMSEA mißt die Diskrepanz zwischen Σ und Σ eine Untergrenze von Null, wenn das Modell exakt zu den Daten paßt. Werden dem Modell redundante Parameter hinzugef¨ ugt, dann kann im Unterschied zu F0 der RMSEA auch steigen. Nach den Erfahrungen von Browne und Cudeck (1993, S. 144) werden Werte des RMSEA, die gr¨ oßer als 0.08 sind, als große Diskrepanz, Werte zwischen 0.05 und 0.08 als mittlere Diskrepanz und Werte kleiner als 0.05 als kleine Diskrepanz interpretiert. Das 90-prozentige Vertrauensintervall des RMSEA wird folgendermaßen berechnet: ¿ ¿ ⎛Á λ ⎞ Áλ À L ;Á À U ⎟ ⎜Á (6.44) ndf ⎠ ⎝ ndf
Der gew¨ohnliche Test der Nullhypothese (H0 ∶ Σ = Σ(Θ)) hat sich in praktischen Anwendungen als unplausibel erwiesen und kann mit Hilfe des RMSEA durch eine andere Nullhypothese (null hypothesis of close fit) ersetzt werden: H0 = RM SEA ≤ 0.05
(6.45)
Diese Nullhypothese wird dann nicht zur¨ uckgewiesen, wenn die untere Grenze des Vertrauensintervalls des RMSEA in Gleichung 6.44 kleiner als 0.05 ist (vgl. Browne & Cudeck, 1993, S. 146). Wie in Abschnitt 6.6.1.1 er¨ ortert, wird bei jeder Modellpr¨ ufung von der Nullhypothese H0 ∶ Σ = Σ(Θ) ausgegangen. Es gibt keine Differenz zwischen Σ und Σ(Θ), wenn die Hypothese zutrifft. Da die Populationskovarianzmatrix Σ unbekannt ist, wird f¨ ur die Differenzbildung die Stichprobenkovarianzmatrix S und die modellimplizierte Kovari verwendet. Abweichungen in der Residualmatrix S − Σ zeigen, wo das anzmatrix Σ bedeutet, daß Modell nicht zu den Daten paßt. Ein positiver Wert in der Matrix S − Σ das Modell die entsprechende Kovarianz zwischen zwei Variablen untersch¨atzt, w¨ahrend ¨ ein negativer Wert auf eine Ubersch¨ atzung der entsprechenden Kovarianz hinweist. Eine zusammenfassende Statistik dieser Abweichungen bietet der Root Mean Square Residual (RMR, vgl. Schumacker & Lomax, 2010, S. 88): ¿ Á⎡⎢ q i (sij − σ ij )2 ⎤⎥ À⎢2 ∑ ∑ ⎥ RM R = Á (6.46) ⎢ i=1 j=1 (q)(q + 1) ⎥ ⎣ ⎦ mit sij als Elemente der Matrix S und σ ij als Elemente der Matrix Σ. Je kleiner der RMR ist, desto kleiner sind im Durchschnitt die Abweichungen bzw. Residuen in der Matrix S − Σ. Die unterschiedlichen Skalierungen der gemessenen Variablen k¨onnen die Residualgr¨oßen aber beeinflussen. So kann eine große Abweichung eines Elementes in der Matrix
6.6 Statistiken der Modellpr¨ ufung
119
darauf zur¨ S−Σ uckzuf¨ uhren sein, daß die Skalierung der betreffenden Variablen wesentlich breiter ist, als bei anderen Variablen. Eine feste Ober- und Untergrenze existiert demnach f¨ ur die Residuen nicht. Werden dagegen die Abweichungen auf der Basis von Korrelationen berechnet (rij − rij ), dann k¨ onnen die Abweichungen theoretisch nur zwischen −2 und +2 liegen (vgl. Bollen, 1989, S. 258). Daher wird am meisten die standardisierte Form des RMR verwendet (L.-t. Hu & Bentler, 1999, S. 3): ¿ 2 Á⎡ q i ⎤ rij Á⎢ ⎥ À⎢∑ ∑ ⎥ SRM R = Á (6.47) ⎢i=1 j=1 (q)(q + 1) ⎥ ⎣ ⎦
mit
ij Sij σ rij = √ √ −√ √ ii σ jj σ Sii Sjj
(6.48)
Eine gewichtete Form des RMR ist von B. O. Muth´en (1998–2004) f¨ ur Modelle, die Mittelwerte (bei kategorialen Variablen: Schwellenwerte) ber¨ ucksichtigen, vorgeschlagen worden: ¿ Á e (si − σ i )2 /νi À∑ (6.49) W RM R = Á e i=1 mit e als Anzahl der bekannten Gr¨ oßen, die zur Sch¨atzung des Modells zur Verf¨ ugung stehen (Mittelwerte/Schwellenwerte, Varianzen, Kovarianzen), mit si und σ i als empirisch bekannte bzw. modellimplizierte Gr¨ oßen und mit νi als Sch¨atzung der asymptotischen Varianzen von si . WRMR wird im Programm Mplus immer dann berechnet, wenn robuste Sch¨ atzverfahren eingesetzt werden (MLM, MLMV, WLSM, WLSMV), da die Informationen aus der asymptotischen Kovarianzmatrix ben¨otigt werden. F¨ ur den SRMR zeigen Werte kleiner als 0.05 einen guten Modellfit an. Allerdings hat sich der SRMR als sehr sensitiv bezogen auf die Stichprobengr¨oße erwiesen, so daß verallgemeinerbare Aussagen schwierig zu treffen sind (vgl. Yu, 2002, S. 161). F¨ ur den WRMR zeigen Werte kleiner als 0.9 sowohl f¨ ur Modelle mit kontinuierlichen als auch mit kategorialen Variablen gute Modellfits an (B. O. Muth´en, 1998–2004, S. 24).
6.6.2
Der Modellvergleich: Der Likelihood-Ratio(LR)-Test und die komparativen Goodness-of-Fit Indizes
6.6.2.1
Der Likelihood-Ratio(LR)-Test (χ2 -Differenzentest)
Der Likelihood-Ratio(LR)-Test bezieht sich auf die Differenz der χ2 -Statistiken zwischen zwei Modellvarianten (vgl. Bollen, 1989, S. 292): LR = (n − 1)(Fr − Fu )
(6.50)
mit Fr als Funktionswert der Diskrepanzfunktion des restringierten und Fu als Funktionswert der Diskrepanzfunktion des unrestringierten (oder weniger restringierten) Modells. Auf Grund der Differenzbildung wird der LR-Test auch als χ2 -Differenzentest
120
6 Meßmodelle
bezeichnet, der bei hierarchischer Modellstruktur wiederum einer χ2 -Verteilung folgt: LR ∼ χ2
(6.51)
Voraussetzung f¨ ur die Anwendung des LR-Tests ist die hierarchische Beziehung zwischen restringiertem und unrestringiertem Modell (nested models). Das Verh¨altnis zwischen parallelem und τ -¨ aquivalentem Meßmodell erf¨ ullt genau diese Vorraussetzung (vgl. die Restriktionen in den Gleichungen 6.12 und 6.14). In der Praxis wird demnach die einfache Differenz der beiden χ2 -Werte gebildet und gepr¨ uft, ob mit der parallel zu berechnenden Differenz der Freiheitsgrade eine signifikante Ver¨anderung zu verzeichnen ist. Wenn sich beispielsweise aus der Spezifikation einer Restriktion im Modell nur eine unwesentliche Differenz zwischen den beiden χ2 -Werten ergibt, dann ist das restriktivere Modell zu akzeptieren. Unter Ber¨ ucksichtigung der jeweils gew¨ahlten Diskrepanzfunktion gelten f¨ ur den LR-Test die gleichen Annahmen wie f¨ ur den einzelnen χ2 -Test (vgl. Abschnitt 6.6.1.1). Wird der SB-χ2 -Test oder der YB-χ2 -Test in Verbindung mit den robusten Diskrepanzfunktionen MLM bzw. MLR eingesetzt, ist die einfache Differenz der SB- oder YB-χ2 -Werte zwischen dem restringiertem und unrestringiertem Modell auf Grund des Skalierungsfaktors nicht χ2 -verteilt. Die Voraussetzungen f¨ ur Gleichung 6.51 sind demnach nicht erf¨ ullt.19 Den Ausf¨ uhrungen von Satorra (2000) sowie Satorra und Bentler (2001) folgend, kann die χ2 -Differenz folgendermaßen ermittelt werden. Zun¨achst wird die Differenz der Skalierungfaktoren (cd ) zwischen restringiertem (cr ) und unrestringiertem (cu ) Modell unter Ber¨ ucksichtigung der entsprechenden Freiheitsgrade (dr und du ) berechnet (vgl. auch Bryant & Satorra, 2012, S. 375): cd = (dr ∗ cr − du ∗ cu )/(dr − du )
(6.52)
Der Satorra-Bentler-Differenzentest (χ2SBDif f ) gewichtet die absolute Differenz der χ2 Werte des restringierten (χ2r ) und des unrestringierten (χ2u ) Modells mit der Differenz cd aus Gleichung 6.52:20 19 20
Das Programm Mplus gibt im Output einen entsprechenden Warnhinweis. χ2SBDif f kann auch alternativ u ¨ber die Differenz der logarithmierten likelihoods des restringierten (Lr ) und unrestringierten Modells (Lu ) berechnet werden. Zun¨ achst wird die Differenz der Skalierungfaktoren (cd ) zwischen restringiertem (cr ) und unrestringiertem (cu ) Modell unter Ber¨ ucksichtigung der entsprechenden Anzahl der zu sch¨ atzenden Parameter (pr und pu ) berechnet (vgl. Asparouhov & Muth´en, 2013): cd = (pr ∗ cr − pu ∗ cu )/(pr − pu )
(6.53)
Der Satorra-Bentler-Differenzentest (χ2SBDif f ) gewichtet dann die absolute Differenz der logaritmierten likelihoods des restringierten und des unrestringierten Modells mit der Differenz cd aus Gleichung 6.53: −2 ∗ (Lr − Lu ) χ2SBDif f = (6.54) cd
6.6 Statistiken der Modellpr¨ ufung χ2SBDif f =
121 (χ2r ∗ cr − χ2u ∗ cu ) cd
(6.55)
F¨ ur den Yuan-Bentler-Differenzentest (χ2Y BDif f ) k¨onnen die Gleichungen 6.52 und 6.55 entsprechend verwendet werden.21 Wenn der Stichprobenumfang gering oder wenn das restringierte Modell stark fehlspezifiziert ist, dann kann die χ2 -Differenz in Gleichung 6.55 oder Gleichung 6.54 zu negativen Werten f¨ uhren. Daraufhin haben Satorra und Bentler (2010) eine verbesserte Version zur Ermittlung des χ2SBDif f entwickelt, die negative Resultate vermeidet. Hierzu wird in den Gleichungen 6.52 und 6.55 bzw. 6.53 und 6.54 der Skalierungsfaktor cu durch den Skalierungsfaktor c0r ersetzt. Zur Ermittlung von c0r werden die Parametersch¨atzungen des restringierten Modells als Startwerte des unrestringierten Modells verwendet, wobei kein einziger Iterationsschritt zugelassen werden darf.22 Die entsprechenden Gleichungen bei Verwendung der SB-χ2 -Werte lauten: cd = (dr ∗ cr − du ∗ c0r )/(dr − du ) χ2SBDif f =
(χ2 r
∗ cr
− χ2
u
∗ c0r )
cd Auch hier gilt analoges f¨ ur den Yuan-Bentler-Differenzentest (χ2Y BDif f ).
(6.56) (6.57)
Neben den er¨orterten LR-Tests, der immer auf der separaten Sch¨atzung zweier geschachtelter Modelle basiert, existieren weitere Tests, die pr¨ ufen, ob Parameter erg¨anzt werden m¨ ussen, um die Modellanpassung zu verbessern, oder ob Parameter eingespart werden k¨onnen, um den Informationsgehalt des Modells zu erh¨ohen. Entscheidungshilfen f¨ ur diese Strategien der Modellverbesserung liefern der Langrange Multiplier(LM)-Test und der Wald(W)-Test. 6.6.2.2
Der Langrange Multiplier(LM)- und der Wald(W)-Test
Der Langrange Multiplier(LM)-Test evaluiert den statistischen Effekt, wenn zus¨atzliche Parameter im Modell spezifiziert werden. Der LM-Test ist in seiner univariaten Form nichts anderes als eine χ2 -Differenzstatistik mit einem Freiheitsgrad (vgl. Bollen, 1989, S. 293; zur Herleitung des LM-Tests, vgl. S¨ orbom, 1989):23 21
Alternativ zum Taschenrechner kann f¨ ur die Berechnung auch das von Crawford und Henry (2004) entwickelte Programm SBDIFF.EXE verwendet werden, welches kostenlos zur Verf¨ ugung steht (http://homepages.abdn.ac.uk/j.crawford/pages/dept/sbdiff.htm). 22 In Mplus k¨ onnen die Parameterscht¨ azungen des restringierten Modells u ¨ber das Kommando SVALUES im Output ausgegeben und als Startwerte f¨ ur das unrestringierte Modell u uhrt, sollte das Konver¨bernommen werden. Damit das Programm keine Iteration duchf¨ genzkriterium sehr hoch gesetzt werden (z. B. CONVERGENCE = 100000000). F¨ ur praktische Beispiele, vgl. den Anhang von Bryant und Satorra (2012) und die Webnote 12 von Asparouhov und Muth´en (2013). 23 Der univariate LM-Test wird in den meisten Programmen Modification Index oder Model Modification Indices genannt. Anwendungsbeispiele des LM-Tests diskutiert S¨ orbom (1989, S. 376f.).
122
6 Meßmodelle LM − Test ∼ χ21
(6.58)
Je gr¨oßer der Wert des LM-Test ist, desto st¨arker f¨allt die Modellverbesserung aus. Wird der betreffende Parameter freigesetzt, dann sinkt der Wert der χ2 -Statistik (vgl. Gleichung 6.34) um genau die Gr¨ oße des LM-Tests auf der Basis der restriktiveren Modellvariante. Der Test kann wiederholt von Modellvariante zu Modellvariante eingesetzt werden, wobei dem Anwender die Freisetzung jeweils nur eines Parameters pro Modellpr¨ ufung empfohlen wird. Außerdem sollte der substantielle Gehalt der freizusetzenden Parameter vorher gepr¨ uft werden. Denn Modellverbesserungen sind bei u ¨beridentifizierten Modellen immer m¨ oglich, auch wenn das Resultat keine inhaltlich sinnvollen Schlußfolgerungen zul¨ aßt. Der univariate LM-Test kann nicht pr¨ ufen, welchen statistischen Effekt die gleichzeitige Freisetzung mehrerer Parameter hat. Hierzu kann der multivariate LM-Test herangezogen werden, der f¨ ur einen r × 1-Vektor der Modellrestriktionen pr¨ uft, ob eine signifikante Modellverbesserung zu erwarten ist:24 LM − Test ∼ χ2r
(6.59)
Werden mit Hilfe des multivariaten LM-Tests f¨ ur mehrere Parameter h¨ohere Werte erzielt, als f¨ ur die entsprechenden univariaten LM-Tests, so zeigt sich hierbei der h¨ohere Informationsgehalt des multivariaten Tests.25 Mit dem LM-Test verbunden ist die zu erwartende Parametergr¨oße bei entsprechender Freisetzung des Parameters (expected parameter change). Inhaltlich sollte hier insbesondere das Vorzeichen des Parameters beachtet und mit den vermuteten Zusammenh¨angen im Modell konfrontiert werden. Stimmen Hypothesenrichtung und zu erwartendes Vorzeichen nicht miteinander u ¨berein, dann sollte die Parameterfreisetzung trotz zu erwartender signifikanter Modellverbesserung abgewogen werden. Werden große Parameterver¨anderungen festgestellt, obwohl der LM-Test keine signifikante Modellverbesserung anzeigt, dann liegen in der Regel Fehlspezifikationen im Modell vor. Gegen¨ uber dem LM-Test pr¨ uft der Wald(W)-Test den statistischen Effekt, wenn Parameter im Strukturgleichungsmodell eingespart werden. Dies f¨ uhrt zu einer Erh¨ohung der Parameterrestriktionen. Der W-Test ist in seiner univariaten Form genau wie der LM-Test eine χ2 -Differenzstatistik mit einem Freiheitsgrad (zur Herleitung des W-Tests, vgl. Bollen, 1989, S. 294): W − Test ∼ χ21 (6.60) Je gr¨oßer der Wert des W-Test ist, desto st¨ arker f¨allt die Modellverbesserung aus. Wird der betreffende Parameter restringiert, dann sinkt der Wert der χ2 -Statistik (vgl. Gleichung 6.34) um genau die Gr¨ oße des W-Tests auf der Basis der weniger restriktiveren Modellvariante. 24 25
Der multivariate LM-Test ist nur im Programm EQS implementiert (vgl. Bentler, 2001). Bentler und Chou (1987) diskutieren die M¨ oglichkeit, den auf r Freiheitsgraden basierenden multivariaten LM-Test in r separate univariate LM-Tests aufzuteilen.
6.6 Statistiken der Modellpr¨ ufung
123
Der univariate W-Test kann nicht pr¨ ufen, welchen statistischen Effekt die gleichzeitige Restringierung mehrerer Parameter hat. Hierzu kann der multivariate W-Test herangezogen werden, der f¨ ur einen r × 1-Vektor der freien Parameter pr¨ uft, ob durch eine Restriktion eine signifikante Modellverbesserung zu erreichen ist:26 W − Test ∼ χ2r
(6.61)
Restriktionen, die nach dem W-Test erfolgen, beziehen sich in der Regel auf nicht bedeutsame Parameter, die auf Null gesetzt werden k¨onnen und das Modell insgesamt sparsamer machen. Auch beim W-Test sollte die theoretische Plausibilit¨at des Modells im Vordergrund stehen. Im Unterschied zum LM-Test ist aber eine rein aus statistischen ¨ Uberlegungen erfolgte Modellanpassung nur sehr eingeschr¨ankt m¨oglich. Insgesamt betrachtet gibt es mehrere Vorteile, den LM-Test und den W-Test bei der Beurteilung der Modellanpassung dem LR-Test vorzuziehen. Sowohl der LM-Test als auch der W-Test k¨onnen exploratorisch angewendet werden. Mit nur einer Modellpr¨ ufung lassen sich u ¨ber diese Tests Hinweise finden, an welcher Stelle das Modell modifiziert werden kann. Der LR-Test ben¨ otigt dagegen immer eine Strategie der paarweisen Modell¨ uberpr¨ ufungen, um die Signifikanz der Modellverbesserung zu pr¨ ufen. Da statistisch 2 -Tests sind (vgl. Bentler & Dibetrachtet LR-Test, LM-Test und W-Test a quivalente χ ¨ jkstra, 1985; Satorra, 1989), kann bei der Modellmodifikation so vorgegangen werden, als ob eine χ2 -Differenz gem¨ aß Gleichung 6.50 gebildet worden w¨are. 6.6.2.3
Komparative Goodness-of-Fit Indizes
Goodness-of-Fit Indizes, die sich f¨ ur den Modellvergleich eignen, sind in der Regel χ2 basierte Maße und setzen den f¨ ur das spezifizierte Modell ermittelten Wert (χ2M ) mit der Modellbedingung ins Verh¨ altnis, bei der die gemessenen Variablen statistisch unabh¨angig voneinander sind (χ2I ). Dieses Modell wird als independence model oder null model bezeichnet (vgl. Schumacker & Lomax, 2010, S. 88; Kaplan, 2009, S. 110). Vorausgesetzt wird ein hierarchisches Verh¨ altnis zwischen dem independence model und dem zu pr¨ ufenden Modell, d. h. die Differenzen zwischen den Modellen basieren ausschließlich auf Differenzen durch Aufgabe von Freiheitsgraden. Zwei Varianten des urspr¨ unglich von Bentler und Bonett (1980) entwickelten Normed Fit Index (NFI, NFI2) geh¨ oren zu diesen Indizes27 , dazu der Tucker-Lewis Index (TLI)28 , 26
Der univariate und multivariate W-Test ist nur im Programm EQS implementiert (vgl. Bentler, 2001). 27 In Bollen (1989, S. 269f.) werden die beiden Indizes als Incremental Fit Indices (IFI1 bzw. ∆1 und IFI2 bzw. ∆2 ) bezeichnet. 28 Der TLI wird auch als Non-Normed Fit Index (NNFI) bezeichnet (vgl. Bentler, 1990). Bollen (1989, S. 273) verwendet die Bezeichnung ρ2 . Des weiteren wird hier auch der Index ρ1 diskutiert, der im Nenner der Gleichung 6.64 nur χ2I /dfI stehen hat (vgl. Bollen, 1989, S. 272).
124
6 Meßmodelle
der Relative Noncentrality Index (RNI) und der Comparative Fit Index:29 NFI =
χ2I − χ2M χ2I
(6.62)
NFI2 =
χ2I − χ2M χ2I − dfM
(6.63)
χ2I /dfI − χ2M /dfM χ2I /dfI − 1
(6.64)
[(χ2I − dfI ) − (χ2M − dfM )] χ2I − dfI
(6.65)
1 − max(χ2M − dfM , 0) max(χ2M − dfM , χ2I − dfI , 0)
(6.66)
TLI = RNI = CFI =
In allen diesen Indizes wird das Verh¨ altnis zwischen dem Anpassungswert des untersuchten Modells (χ2M mit Freiheitsgraden dfM ) und dem entsprechenden Wert des Unabh¨angigkeits- oder Basismodells (χ2I mit Freiheitsgraden dfI ) bestimmt. Es wird eine Normierung der χ2 -Differenzen angestrebt, so daß durch den Modellvergleich ermittelt werden kann, ob ein Modell sich nur wenig vom Basismodell unterscheidet (mit einem Indexwert nahe Null) oder eine entscheidende Modellverbesserung gegen¨ uber dem Basismodell zu verzeichnen ist (mit einem Indexwert nahe Eins). Die Indizes unterscheiden sich dahingehend, zu welcher Gr¨oße die Differenz zwischen der Modellg¨ ute des Basismodells und der des untersuchten Modells ins Verh¨altnis gesetzt wird. Beim NFI (Gleichung 6.62) ist es χ2I , beim NFI2 (Gleichung 6.63) ist es χ2I − dfM , wobei Werte u uber NFI ¨ber 0.90 einen akzeptablen Modellfit anzeigen. NFI2 hat gegen¨ den Vorteil, daß eine Adjustierung des χ2I u ¨ber die Freiheitsgrade des Modells erfolgt. Beim TLI (Gleichung 6.64) werden alle χ2 -Werte mit ihren jeweiligen Freiheitsgraden in Beziehung gesetzt. Der beste Fit des Modells ist der Erwartungswert χ2M /dfM . Ist χ2M /dfM = 1.0, dann ist auch der TLI= 1.0. Werden f¨ ur den TLI Werte deutlich unterhalb von 1.0 erreicht, dann ist von Fehlspezifikationen im Modell auszugehen. Werte gr¨oßer ¨ als 1.0 weisen auf eine Uberparametrisierung (overfitting) des Modells hin, d. h. es sind mehr Parameter spezifiziert als f¨ ur einen sehr guten Modellfit notwendig sind (vgl. Bollen, 1989, S. 273). NFI, NFI2 und TLI gehen jeweils von einer wahren Nullhypothese aus. Dies bedeutet, daß auch die Verteilung der χ2 -Teststatistik als wahr unterstellt wird. Ist diese 29
Es wird hier nur eine Auswahl der in der Literatur diskutierten Indizes vorgestellt. Die Aussagekraft der Indizes wurde mit Hilfe von Simulationsstudien gepr¨ uft (vgl. Gerbing & Anderson, 1993). Sehr umfangreich ist die Simulationsstudie von Haughton et al. (1997), in der insgesamt 18 Indizes untersucht wurden. In Mplus und lavaan wird der TLI und der CFI ausgegeben.
6.6 Statistiken der Modellpr¨ ufung
125
Verteilung aber verschoben30 , dann kann diese Verschiebung durch einen Parameter λ ausgedr¨ uckt werden. McDonald und Marsh (1990) nehmen als Sch¨atzung f¨ ur λ die Differenz zwischen χ2 -Wert und Freiheitsgraden und entwickelten damit den RNI (Gleichung 6.65). Es zeigte sich, daß der RNI im Vergleich zum TLI die Intervallgrenzen von 0 und 1 deutlich weniger unter- bzw. u ¨berschreitet und seine statistischen Eigenschaften (bezogen auf den Standardfehler) besser sind (vgl. die zusammenfassende Argumentation in Gerbing & Anderson, 1993, S. 58). Bentler (1990) adjustierte den RNI so, daß der Wertebereich von 0 und 1 nicht u ¨berschritten wird und bezeichnet ihn als Comparative Fit Index (CFI). Stehen sparsame Modellierung und Modellvergleich bei Spezifikationen im Vordergrund, die nicht hierarchisch zueinander stehen (d. h. eine unterschiedliche Anzahl latenter Variablen aufweisen), dann kann auf das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (BIC) zur¨ uckgegriffen werden. Der AIC setzt die χ2 Statistik mit den zu sch¨ atzenden Parametern t des Modells so in Beziehung, daß die Modellkomplexit¨at wie ein Bestrafungsterm (penalty term) wirkt (vgl. Akaike, 1987; Mulaik, 2009, S. 348; Kline, 2011, S. 220): AIC = χ2M + 2t
(6.67)
Werden mehrere Modellvarianten berechnet, so wird die mit dem kleinsten AIC gew¨ahlt. Der von Schwarz (1978) diskutierte BIC ber¨ ucksichtigt neben der Parameteranzahl auch die Stichprobengr¨ oße n (vgl. Mulaik, 2009, S. 360): BIC = χ2M + (ln n)t
(6.68)
Damit wird beim BIC die Modellkomplexit¨ at st¨arker ber¨ ucksichtigt als beim AIC.31 AIC und BIC erlauben deskriptive Modellvergleiche. Als Entscheidungskriterium dient das Modell mit dem kleinsten Wert des AIC oder BIC.
6.6.3
Empfehlungen fu ¨r die empirische Praxis
Die hier verwendeten Programme Mplus und lavaan stellen im Vergleich zu den Programmen LISREL und EQS nur die Goodness-of-Fit Indizes bereit, die sich in der ¨ empirischen Praxis bew¨ ahrt haben. Einen zusammenfassenden Uberblick u ¨ber die hier 30 31
Man spricht in diesem Zusammenhang von einer non-central χ2 -Statistik. In einigen Lehrb¨ uchern (Mulaik, 2009, S. 347; Kaplan, 2009, S. 118) wird statt der χ2 Statistik das Maximum der logarithmierten likelihood (maxlogL) zur Berechnung des AIC und des BIC dokumentiert: AIC = −2maxlogL + 2t (6.69) BIC = −2maxlogL + (ln n)t
(6.70)
Mplus und lavaan berechnen außerdem einen adjustierten BIC, der n durch n + 2/24 ersetzt (vgl. B. O. Muth´en, 1998–2004, S. 22).
126
6 Meßmodelle
er¨orterten Statistiken zeigt Tabelle 6.3. Die in den Programmen LISREL und EQS daru ufung werden in der Praxis zunehmend ¨ber hinaus berechneten Indizes zur Modellpr¨ seltener verwendet.32
Tab. 6.3: Die Statistiken f¨ ur die Modellpr¨ ufung in den verschiedenen Programmen Modellevaluation Statistik 2
LR-χ -Test SB-χ2 -Test YB-χ2 -Test RMSEA RMR SRMR WRMR
Mplus
lavaan
LISREL
EQS
✓ ✓ ✓ ✓
✓ ✓ ✓ ✓
✓ ✓ ✓ ✓
✓ ✓ ✓ ✓ ✓
✓ ✓
✓ ✓
Modellvergleich Statistik LR-Test LM-Test W-Test NFI (IFI1, ∆1 ) NFI2 (IFI2, ∆2 ) TLI (NNFI) RNI CFI (adj. RNI) AIC BIC Adjustierter BIC
Mplus
lavaan
LISREL
EQS
✓ ✓
✓ ✓
✓ ✓
✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓
✓ ✓ ✓ ✓ ✓ ✓
✓ ✓ ✓ ✓ ✓ ✓
✓ ✓ ✓ ✓ ✓
✓
Zu den verwendeten Abk¨ urzungen, vgl. Abschnitt 6.6.2. Die Berechnung der Indizes h¨ angt teilweise davon ab, welche Diskrepanzfunktion ausgew¨ ahlt wird.
In Tabelle 6.4 sind f¨ ur die in den Programmen Mplus und lavaan verwendeten zus¨atzlich Schwellenwerte (Cut-off-Kriterien) zur Modellakzeptanz und die Sensitivit¨at der Statistiken gegen¨ uber der Stichprobengr¨ oße aufgef¨ uhrt, die in verschiedenen Simulationstudien (z. B. L.-t. Hu & Bentler, 1999; Yu, 2002) ermittelt wurden (vgl. auch ¨ die Ubersichten in Schumacker & Lomax, 2010, S. 76 und West, Taylor & Wu, 2012, S. 212/213). F¨ ur die empirische Praxis sind diese Werte nicht absolut zu verstehen, 32
Im Programm lavaan werden u atzliche Indizes ausge¨ber das Kommando fitMeasures zus¨ geben.
6.7 Empirische Beispiele
127
sondern geben eine Orientierung, bei welchen Werten die Statistiken der Modellpr¨ ufung die Entscheidung zur Modellakzeptanz oder Modellwiderlegung herangezogen werden k¨onnen. Die angegebenen Kriterien sind Orientierungsgr¨oßen. Je nach Stichprobengr¨oße und Verteilungsform der manifesten Variablen k¨onnen die Werte leicht abweichen (vgl. hierzu im Detail L.-t. Hu & Bentler, 1999, S. 27; Yu, 2002, S. 119). Die Aussagekraft der Modelle sollte hier aber stets im Vordergrund stehen. Sehr gute Modellfits lassen nicht automatisch informative und aussagekr¨aftige inhaltliche Interpretationen der Modelle zu (vgl. auch die Hinweise in Urban & Mayerl, 2014, S. 100).
Tab. 6.4: Ausgew¨ ahlte Statistiken mit ihren Wertebereichen, den Kriterien zur Modellakzeptanz und der Sensitivit¨ at gegen¨ uber der Stichprobengr¨ oße Modellevaluation Statistik
Wertebereich
Cut-off-Kriterium
Sensitivit¨ at n
LR-χ2 -Test SB-χ2 -Test YB-χ2 -Test RMSEA RMR SRMR WRMR
≥0 ≥0 ≥0 >0 >0 >0 >0
p < 0.05 p < 0.05 p < 0.05 < 0.06 — < 0.08 < 0.90
ja ja ja ja bei kleinem n ja ja ja
Modellvergleich Statistik
Wertebereich
Cut-off-Kriterium
Sensitivit¨ at n
TLI (NNFI) CFI (adj. RNI)
0 bis 1 0 bis 1
> 0.95 > 0.96
nein nein
Zu den verwendeten Abk¨ urzungen, vgl. Abschnitt 6.6.2. Der TLI kann unter bestimmten Bedingungen auch Werte < 0 unter > 1 erreichen.
6.7
Empirische Beispiele
F¨ ur die folgenden empirischen Beispiele wird auf eine Skala Bezug genommen, die in ihren Items unterschiedliches Erziehungsverhalten von Eltern gegen¨ uber ihren Kindern thematisiert. Das empirische Datenmaterial f¨ ur diese Skala stammt aus der kriminologisch-soziologischen L¨ angschnittstudie Kriminalit¨ at in der modernen Stadt (zur Beschreibung der Studie siehe Kapitel 3, Abschnitt 3.2). Die befragten Sch¨ ulerinnen und Sch¨ uler sollten angeben, wie oft das Folgende zu Hause in Deiner Familie vorgekommen ” ist, bist Du zw¨olf Jahre alt warst.“ Zur Beantwortung sind f¨ ur jedes Item f¨ unf Kategori-
128
6 Meßmodelle
en vorgegeben worden: nie (1), selten (2), manchmal (3), oft (4) und sehr oft (5). Vorher durchgef¨ uhrte exploratorische Faktorenanalysen zeigen, daß die Items drei Dimensionen erfassen: empathisches Erziehungsverhalten (Empathie), bestrafendes Erziehungsverhalten (Bestrafung) und mißhandelndes Erziehungsverhalten (Mißhandlung). F¨ ur die hier vorgestellten Meßmodelle wird die erste Dimension (Empathie) ausgew¨ahlt, die beiden anderen Dimensionen (Bestrafung und Mißhandlung) werden f¨ ur die Beispiele zu den konfirmatorischen Faktorenmodellen in Kapitel 7 verwendet. Insgesamt sind 10 Items ausgew¨ ahlt worden, die die angesprochenen Dimensionen meßtheoretisch und inhaltlich gut repr¨ asentieren. Die deskriptiven H¨aufigkeitsverteilungen dieser Items, deren Variablennamen und die Kurzbezeichnungen (Wortlaut) sind in Tabelle 6.5 aufgef¨ uhrt. Die Angaben beziehen sich auf den ersten Zeitpunkt der Erhebung aus dem Jahre 2002. Die Befragten sind zu diesem Zeitpunkt durchschnittlich 13 Jahre alt. Die H¨aufigkeiten der Items weisen teilweise deutliche Verteilungsunterschiede auf. Empathische Erziehungserfahrungen haben die befragten Personen deutlich h¨aufiger erlebt als bestrafende oder mißhandelnde Situationen. Die Mittelwerte der ersten vier Items > 3.0) als die Mit(ae0003, ae0004, ae0006, ae0008) sind daher auch deutlich h¨oher (x telwerte der u ¨brigen sechs Items (vgl. Tabelle 6.6). Die Varianzen (s2 ) sind bei den Items der Dimension Mißhandlung (ae0020, ae0021, ae0023) deutlich geringer als bei den anderen Items. Bei der Schiefe (s3 ) und der Kurtosis (s4 ) sind ebenfalls deutliche Unterschiede zwischen den Items zu verzeichnen. Die Items des Faktors Empathie sind leicht linksschief (negative Werte) und nur leicht gew¨olbt (Kurtosis zwischen den Werten 2 und 3) w¨ ahrend insbesondere die Items des Faktors Mißhandlung deutlich rechtsschiefe Verteilungen (positive Werte um 5) und starke W¨olbungen (Werte der Kurtosis > 30) aufweisen. Die Items ae0020, ae0021 und ae0022 weisen entsprechend in den Kategorien 2, 3, 4 und 5 nur H¨ aufigkeiten unter 5 % auf (vgl. den unteren Teil der Tabelle 6.5). Wenn wir die Verteilungsanforderungen f¨ ur die zu berechnenden Meß- und Faktorenmodelle ber¨ ucksichtigen, so sind die Voraussetzungen f¨ ur die Items der Konstrukte Empathie eher erf¨ ullt als f¨ ur die Items der beiden anderen Konstrukte. Insbesondere bei den sehr schief verteilten Items der Dimension Mißhandlung werden die inferenzstatistischen Gr¨ossen stark verzerrt sein. Diese Verzerrung kann durch die robusten Sch¨atzverfahren bei der Berechnung der Parameter in den konfirmatorischen Faktorenmodellen ber¨ ucksichtigt werden (siehe hierzu Kapitel 7). Die Korrelationen der Items innerhalb der drei Konstrukte unterscheiden sich geringf¨ ugig. Da alle Korrelationen zwischen den Indikatoren verschiedener Konstrukte kleiner als die Korrelationen innerhalb der jeweiligen Konstrukte sind, kann von einer ausreichenden Konstruktvalidit¨ at in den Modellen ausgegangen werden (vgl. Tabelle 6.7). Entsprechend den Ausf¨ uhrungen in Abschnitt 6.3 wird im folgenden f¨ ur den Faktor Empathie ein kongenerisches, ein τ -¨ aquivalentes und ein paralleles Meßmodell berechnet. Das Modell entspricht Abbildung 6.2 wobei f¨ ur das parallele Meßmodell die Restriktionen in Gleichung 6.12 und f¨ ur das τ -¨ aquivalente Meßmodell die Restriktionen in
6.7 Empirische Beispiele
129
Tab. 6.5: Die Items der Faktoren Empathie, Bestrafung und Mißhandlung Empathie Item
Wortlaut
Kategorien 1
2
3
4
5
∑
ae0003
Unterst¨ utzung bei Angst
% n
10.5 175
8.6 143
20.9 347
30.8 512
29.2 486
1663
ae0004
Erkl¨ aren bei Fehlern
% n
4.0 68
10.5 179
27.2 463
35.3 600
23.0 391
1701
ae0006
¨ Unterst¨ utzung bei Arger
% n
12.4 207
12.8 214
26.2 439
26.8 449
21.9 366
1675
Tr¨ osten
% n
8.3 138
11.6 194
20.4 341
30.1 502
29.6 495
1670
ae0008
Bestrafung Item
Wortlaut
Kategorien 1
2
3
4
5
∑
59.1 933
17.0 286
13.5 226
6.0 100
4.5 75
1680
ae0011
Fernsehverbot
% n
ae0012
Hausarrest
% n
57.8 969
19.0 319
12.5 209
6.3 105
4.4 74
1676
ae0013
Taschengeldk¨ urzung
% n
75.5 1260
11.1 186
8.0 133
2.8 47
2.6 44
1670
Mißhandlung Item
Wortlaut
Kategorien 1
2
3
4
5
∑
Pr¨ ugel, Schl¨ age
% n
93.6 1570
3.1 52
1.9 31
0.8 13
0.7 11
1677
ae0021
Faustschl¨ age
% n
93.8 1569
2.9 48
2.2 36
0.4 7
0.7 12
1672
ae0022
gew¨ urgt
% n
94.6 1570
2.4 40
1.8 30
0.5 9
0.7 11
1660
ae0020
Skalierung: Kategorie 1 bis 5 = nie; selten; manchmal; oft; sehr oft.
Gleichung 6.14 jeweils spezifiziert werden. Im Unterschied zu Abbildung 6.2 werden vier manifeste Variablen verwendet. Da die einzelnen Meßmodellvarianten sich nur u ¨ber die Restriktionen unterscheiden, liegt eine hierarchische Struktur vor, die einen Modellvergleich u ¨ber den χ2 -Differenzentest (vgl. Abschnitt 6.6.2) erlaubt. Da ein kongenerisches Meßmodell mit drei manifesten Variablen saturiert ist (df = 0), besteht das zu pr¨ ufende Meßmodell f¨ ur den Faktor Empathie aus den vier manifesten Variablen ae0003, ae0004, ae0006 und ae0008.
130
6 Meßmodelle
Tab. 6.6: Die Momente f¨ ur die Items der Faktoren Empathie, Bestrafung und Mißhandlung x
s2
s3
s4
ae0003 ae0004 ae0006 ae0008
3.596 3.627 3.330 3.612
1.630 1.145 1.656 1.559
−0.676 −0.517 −0.364 −0.615
2.453 2.681 2.117 2.374
ae0011 ae0012 ae0013
1.796 1.804 1.460
1.325 1.313 0.893
1.340 1.342 2.209
3.780 3.807 7.273
ae0020 ae0021 ae0022
1.117 1.113 1.110
0.266 0.255 0.241
5.199 5.338 5.624
32.210 34.257 37.313
Item
s2 = Varianz; s3 = Schiefe; s4 = Kurtosis Tab. 6.7: Korrelationsmatrix der Items der Konstrukte Empathie, Bestrafung und Mißhandlung Empathie
Bestrafung
Mißhandlung
ae0003 ae0004 ae0006 ae0008 ae0011 ae0012 ae0013 ae0020 ae0021 ae0022 ae0003 ae0004 ae0006 ae0008
1.000 0.403 1.000 0.517 0.388 1.000 0.627 0.458 0.519 1.000
ae0011 −0.016 −0.026 0.021 −0.021 ae0012 −0.053 −0.049 −0.038 −0.073 ae0013 −0.020 −0.050 −0.002 −0.015
1.000 0.371 1.000 0.316 0.332 1.000
ae0020 −0.184 −0.106 −0.077 −0.180 ae0021 −0.172 −0.118 −0.074 −0.167 ae0022 −0.051 −0.047 −0.020 −0.074
0.156 0.145 0.151 0.167 0.161 0.192 0.078 0.149 0.077
1.000 0.699 1.000 0.322 0.307 1.000
Die einzelnen Modellvarianten sind mit den in Mplus und lavaan zur Verf¨ ugung stehenden ML-Diskrepanzfunktionen (vgl. Abschnitt 6.5.1) berechnet worden. Die χ2 -Tests und die berechneten χ2 -Differenzen zeigen, daß ein paralleles oder ein τ -¨aquivalentes Meßmodell nicht zu den Daten paßt (vgl. Tabelle 6.8). Daher ist das kongenerische Meßmodell mit df = 2 zu akzeptieren. W¨ urden nur drei manifeste Variablen f¨ ur das Meßmodell verwendet, dann l¨ age ein gerade identifiziertes Meßmodell mit df = 0 vor, welches einen perfekten Modellfit haben muß. Ergebnisunterschiede zwischen den einzelnen ML-Diskrepanzfunktionen k¨onnen nur in bezug auf die Standardfehler und z-Werte auftreten. F¨ ur das Meßmodell der latenten
6.7 Empirische Beispiele
131
Tab. 6.8: Modellvergleiche durch den χ2 -Differenzentest (ML-Diskrepanzfunktionen) Empathie Modell (ML,MLF) kongenerisch τ -¨ aquivalent parallel Modell (MLM) kongenerisch τ -¨ aquivalent parallel Modell (MLR) kongenerisch τ -¨ aquivalent parallel
χ2
df
χ2Dif f
dfDif f
RMSEA
6.12 166.44 192.15
2 5 8
— 160.32 27.71
— 3 3
0.036 0.141 0.119
χ2
df
χ2Dif f
dfDif f
RMSEA
4.62 141.07 161.21
2 5 8
— 147.92 21.20
— 3 3
0.028 0.130 0.109
χ2
df
χ2Dif f
dfDif f
RMSEA
4.60 133.97 156.79
2 5 8
— 135.37 21.54
— 3 3
0.028 0.126 0.107
Variable Empathie sind nur unbedeutende Differenzen zu verzeichnen (vgl. Tabelle 6.9). Die z-Werte der Faktorenladungen sind alle sehr ¨ahnlich. Bei den Meßfehlern sind die zWerte bei MLM bzw. MLMV und MLR im Durchschnitt etwas geringer als bei ML und MLF. Nach den Ergebnissen sind die Verteilungsvoraussetzungen f¨ ur die Berechnung des Meßmodells mit der konventionellen ML-Funktion und dem LR-χ2 -Test erf¨ ullt und daher eine Verwendung robuster ML-Funktionen nicht erforderlich. Neben den unstandardisierten Parametern sind auch die standardisierten Parameter (λsij , si ) der berechneten Meßmodelle in Tabelle 6.9 aufgef¨ uhrt. Nach Bollen (1989, S. 349) werden die standardisierten Parameter folgendermaßen berechnet: λsij
= λij (
2 σjj 2 σii
1/2
)
si = 1 − (λsij )2
(6.71)
2 als Varianz der latenten Variablen η und σ 2 als Varianz der jeweiligen gemessemit σjj ii nen Variablen y. Durch ihre festen Intervallgrenzen (0,1) wird die inhaltliche Interpretation der standardisierten Parameter erleichtert. Nach den Ergebnissen wird die latente Variable Empathie durch die Variablen ae0004 und ae0006 am besten repr¨asentiert.
In einem zweiten Schritt ist das Meßmodell mit den zur Verf¨ ugung stehenden WLSDiskrepanzfunktionen (vgl. Abschnitt 6.5.4) berechnet worden. Die χ2 -Tests und die berechneten χ2 -Differenzen zeigen, daß erwartungsgem¨aß ein τ -¨aquivalentes oder ein paralleles Meßmodell (nur bei WLS-Funktion) nicht zu den Daten paßt (vgl. Tabelle 6.10). Daher ist auch hier das kongenerische Meßmodell mit df = 2 zu akzeptieren.
132
6 Meßmodelle
Tab. 6.9: Unstandardisierte (λ), standardisierte (λs ) Faktorenladungen, Meßfehler (,s ) und die z-Werte des kongenerischen Meßmodells Empathie Item (ML)
λ
z-Wert
z-Wert
λs
s
ae0003 ae0004 ae0006 ae0008
0.977 0.600 0.843 1.005
32.409 22.026 26.669 34.053
0.665 0.802 0.951 0.561
18.260 25.483 23.302 15.882
0.768 0.557 0.654 0.802
0.411 0.690 0.572 0.357
Item (MLF)
λ
z-Wert
z-Wert
λs
s
ae0003 ae0004 ae0006 ae0008
0.977 0.600 0.843 1.005
25.165 21.265 21.772 26.678
0.665 0.802 0.951 0.561
22.239 25.280 23.869 20.497
0.768 0.557 0.654 0.802
0.411 0.690 0.572 0.357
Item (MLM,MLMV)
λ
z-Wert
z-Wert
λs
s
ae0003 ae0004 ae0006 ae0008
0.977 0.600 0.843 1.005
33.603 20.811 26.829 34.052
0.665 0.802 0.951 0.561
13.250 22.919 18.251 11.321
0.768 0.557 0.654 0.802
0.411 0.690 0.572 0.357
Item (MLR)
λ
z-Wert
z-Wert
λs
s
ae0003 ae0004 ae0006 ae0008
0.977 0.600 0.843 1.005
33.733 20.743 26.547 34.099
0.665 0.802 0.951 0.561
13.366 22.805 18.028 11.331
0.768 0.557 0.654 0.802
0.411 0.690 0.572 0.357
Ergebnisunterschiede zwischen den einzelnen WLS-Diskrepanzfunktionen sind abh¨angig davon, ob eine Kovarianzmatrix oder eine polychorische Korrelationsmatrix in Verbindung mit einer asymptotischen Kovarianzmatrix analysiert wird.33 Tabelle 6.11 zeigt die Ergebnisse des Meßmodells f¨ ur die latenten Variable Empathie unter der Annahme von kontinuierlichen Messungen (Modell WLS) als auch unter der Annahme kategorialer Messungen (Modell WLS-cat). Bei Annahme kontinuierlicher Messungen unterscheiden sich die Ergebnisse zu den ML-Parametern (vgl. Tabelle 6.9) kaum. Wenn die polychorische Korrelationsmatrix herangezogen wird, sind die WLS-Sch¨atzer standardisiert und es werden keine Fehlervarianzen sondern Schwellenwerte f¨ ur jede manifeste Variable gesch¨atzt (hier nicht aufgef¨ uhrt, vgl. die Erl¨ auterungen in Kapitel 4, Abschnitt 4.2.2). Die 33
Bei WLS in Mplus k¨ onnen die manifesten Variablen als kontinuierlich oder kategorial (hier als WLS-cat bezeichnet) definiert werden, bei WLSM und WLSMV m¨ ussen die manifesten Variablen als kategorial definiert werden.
6.7 Empirische Beispiele
133
Tab. 6.10: Modellvergleiche durch den χ2 -Differenzentest (WLS-Diskrepanzfunktionen) Empathie Modell (WLS) kongenerisch τ -¨ aquivalent parallel Modell (WLS-cat) kongenerisch τ -¨ aquivalent Modell (WLSM) kongenerisch τ -¨ aquivalent Modell (WLSMV) kongenerisch τ -¨ aquivalent
χ2
df
χ2Dif f
dfDif f
RMSEA
4.98 115.25 177.18
2 5 8
— 110.27 61.93
— 3 3
0.030 0.117 0.114
χ2
df
χ2Dif f
dfDif f
RMSEA
7.93 202.38
2 5
— 194.45
— 3
0.043 0.156
χ2
df
χ2Dif f
dfDif f
RMSEA
6.71 287.04
2 5
— 224.41
— 3
0.038 0.186
χ2
df
χ2Dif f
dfDif f
RMSEA
6.63 260.76
2 5
— 214.87
— 3
0.038 0.186
Da bei Spezifikation kategorialer Variablen keine Fehlervarianzen gesch¨ atzt werden, entf¨ allt die Berechnung des parallelen Meßmodells f¨ ur WLS-cat, WLSM und WLSMV.
Parametersch¨atzungen sind bei WLS, WLSM und WLSMV gleich, nur die χ2 -Statistik und die darauf basierenden Fitmaße unterscheiden sich.
134
6 Meßmodelle
Tab. 6.11: Unstandardisierte (λ), standardisierte (λs ) Faktorenladungen, Meßfehler (,s ) und die z-Werte des kongenerischen Meßmodells Empathie Item (WLS)
λ
z-Wert
z-Wert
λs
s
ae0003 ae0004 ae0006 ae0008
0.977 0.601 0.848 1.006
33.694 20.901 27.099 34.174
0.667 0.798 0.946 0.561
13.340 22.833 18.122 11.312
0.767 0.558 0.657 0.802
0.412 0.689 0.568 0.356
Item (WLS-cat, WLSM, WLSMV)
λ
z-Wert
z-Wert
λs
s
ae0003 ae0004 ae0006 ae0008
0.821 0.599 0.708 0.839
68.198 33.533 49.495 69.036
— — — —
— — — —
0.821 0.599 0.708 0.839
— — — —
6.8 Anhang: Programmfiles
6.8
135
Anhang: Programmfiles
In den folgenden Tabellen 6.12 und 6.13 sind die Programmfiles des Meßmodells f¨ ur die latente Variable Empathie mit vier manifesten Variablen aufgef¨ uhrt (vgl. Tabellen 6.9 und 6.11). Diese und alle weiteren Programmfiles k¨onnen unter www.degruyter.com/ ¨ books/978-3-486-70576-8 auf dem Karteireiter Uberblick“ abgerufen werden. ” Tab. 6.12: Spezifikation des Meßmodells mit vier manifesten Variablen (Mplus) TITLE:
Meßmodell: Empathie (t1) Sch¨ atzer: ML DATA: FILE IS panel7 10.dat; LISTWISE = ON ; VARIABLE: NAMES ARE ae0001 ae0003 ae0004 ae0006 ae0008 . . . ; MISSING ARE ALL (-9999) ; USEVARIABLES ARE ae0003 ae0004 ae0006 ae0008 ; ANALYSIS: ESTIMATOR = ML ; MODEL: Emp by ∗ae0003 ; Emp by ae0004 ; Emp by ae0006 ; Emp by ae0008 ; Emp@1 ; OUTPUT: SAMPSTAT RESIDUAL STDYX MODINDICES Tech1 ;
Tab. 6.13: Spezifikation des Meßmodells mit vier manifesten Variablen (lavaan) ># > ># > ># > + ># > ># > +
lavaan aufrufen library(lavaan) Einlesen der Daten Empathie # > ># > + ># > > +
lavaan aufrufen library(lavaan) Einlesen der Daten CFAdata # > + ># > + + + + + + + + + + + + + + + + + + + + + + + + + + + ># > ># > +
lavaan aufrufen library(lavaan) Einlesen der Daten PanelCFAdata ># > ># > + + + + + + + + + ># > ># > +
lavaan aufrufen library(lavaan) Einlesen der Daten SEMdata # > ># > + + + + + + + + + + + + + + + + + + + + + + + + + + ># > ># > +
lavaan aufrufen library(lavaan) Einlesen der Daten SEMdata # > ># > + + + + + + + ># > ># > +
lavaan aufrufen library(lavaan) Einlesen der Daten crimoc > > > > > > > > > > >
# mice aufrufen library(mice) # Einlesen der Daten SEMdata