Die Güte der Gütemaße: Zur Bewertung von Strukturgleichungsmodellen 9783110624199, 9783110620481

The use of fit indicators to assess structural equation models often yields contradictory results. This book examines th

245 18 941KB

German Pages 142 [144] Year 2019

Table of contents :
Vorwort
Inhalt
Abbildungsverzeichnis
Tabellenverzeichnis
Formelverzeichnis
Abkürzungsverzeichnis
1 Einleitung
2 Der Anwendungsbereich von Faktorenanalysen
3 Die Güte von Strukturgleichungsmodellen
4 Fit-Indizes als Indikatoren der Güte
5 Methode
6 Sensitivitäten der Fit-Indizes
7 Ursachen fehlender Eindeutigkeit der Fit-Indizes
8 Diskussion und Ausblick
A Ergänzungen zu Kapitel 5
B Ergänzungen zu Kapitel 6
Literatur
Stichwortverzeichnis

Recommend Papers

Die Bedeutung und Bewertung der Pleonexie von Homer bis Isokrates

540 26 3MB Read more

Die gutachterliche Bewertung von Hirnleistungsstörungen 9783110829051, 9783110169461

165 9 3MB Read more

Zur Bewertung der Entwicklungszusammenarbeit [1 ed.] 9783428517138, 9783428117130

Der vorliegende Sammelband enthält Referate, die auf der Jahrestagung 2003 des Ausschusses für Entwicklungsländer des Ve

122 64 1MB Read more

Good practice in der institutionellen Kommunikation: Von der Deskription zur Bewertung in der Angewandten Gesprächsforschung 9783111010083, 9783111009315

OA transformation package 2023 How can we identify successful linguistic action in recordings of institutional conver

162 5 18MB Read more

Die Statthalter von Ägypten zur Zeit der Chalifen 9781463215088

An original exploration into the governors of Egypt under the caliphs, this seminal study of Wüstenfeld has remained ess

164 40 18MB Read more

Die Stadt: von der Polis zur Metropolis 353424690X, 9783534246908

109 104 37MB Read more

Die Stadt: von der Polis zur Metropolis 353424690X, 9783534246908

106 104 47MB Read more

Die Innovations-Bilanz: Methoden zur Analyse und Bewertung von Innovation, Qualität und Personalentwicklung in Unternehmen [1 ed.] 9783896446169, 9783896736161

Drei der wichtigsten Erfolgsfaktoren für Unternehmen sind die Bereiche Innovationen, Qualität und Personalentwicklung. U

123 16 1MB Read more

Die Statthalter von Ägypten zur Zeit der Chalifen 9781593339395, 1593339399

179 91 17MB Read more

Biomedizinische Eingriffe am Menschen: Ein Stufenmodell zur ethischen Bewertung von Gen- und Zelltherapie 9783110213072, 9783110213065

The goal of this book is to provide readers interested in questions about medical research with orientation concerning t

136 92 2MB Read more

Die Güte der Gütemaße: Zur Bewertung von Strukturgleichungsmodellen
9783110624199, 9783110620481

Author / Uploaded
Miriam Reußner

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Miriam Reußner Die Güte der Gütemaße

Miriam Reußner

Die Güte der Gütemaße | Zur Bewertung von Strukturgleichungsmodellen

ISBN 978-3-11-062048-1 e-ISBN (PDF) 978-3-11-062419-9 e-ISBN (EPUB) 978-3-11-062057-3 Library of Congress Control Number: 2018967603 Bibliograﬁsche Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliograﬁe; detaillierte bibliograﬁsche Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2019 Walter de Gruyter GmbH, Berlin/Boston Einbandabbildung: ewg3D / iStock / Getty Images Plus Satz: le-tex publishing services GmbH, Leipzig Druck und Bindung: CPI books GmbH, Leck www.degruyter.com

Vorwort Dieses Buch ist das Produkt meiner Dissertation, das Studierenden sowie Wissen schaftlerinnen und Wissenschaftlern den Umgang mit Strukturgleichungsmodellen erleichtern soll. Der erste Teil des Buches dient einer Einführung in die Strukturglei chungsmodellierung sowie in die Bewertung der Güte von Strukturgleichungsmodel len. Dieser Teil ist für Personen geeignet, die noch keine Erfahrungen im Umgang mit Strukturgleichungsmodellen haben. Die genauere Beschreibung der Fit-Indizes als Übergang zu der Umsetzung der Simulationsstudie und letztlich zur Auswertung der Ergebnisse sollte insbesondere, allerdings nicht ausschließlich, für fortgeschrit tene Anwenderinnen und Anwender von Strukturgleichungsmodellen relevant sein. Zudem legen die Ergebnisse der Studie Hinweise darauf nahe, welche Fehlspeziﬁka tion des Modells vorliegt, wenn die Gütemaße ein bestimmtes irreführendes Muster ergeben. Das dient als Orientierungshilfe für sämtliche Personen, die bei der Analyse eines Strukturgleichungsmodells auf ein irreführendes Muster der Modellbewertung stoßen. Für die Unterstützung bei der Umsetzung meiner Dissertation danke ich meinem Betreuer Uwe Engel. Meinem zweiten Gutachter Jost Reinecke gilt mein Dank vor allem für die hilfreiche Begutachtung meiner Dissertationsschrift. Auf Verlagsseite danke ich Stefan Giesen für die viele Hilfe und die gute Zusammenarbeit. Bei der technischen Umsetzung der Simulation mittels der Software R war mir Sunthud Pornprasertmanit ein hilfreicher und kompetenter Ansprechpartner. Für die liebevolle Unterstützung danke ich meiner Familie sehr, allen voran meiner Mutter Jutta und ebenso herzlich meiner Oma Ingeborg sowie meinen Onkeln Kalle und Micha. Letztlich gilt mein größ ter Dank meinem Freund Stefanos, der mir für die gesamte Zeit des Projekts persönlich sowie bei der inhaltlichen und sprachlichen Gestaltung des Buches die größte Hilfe war. Bremen, November 2018

https://doi.org/10.1515/9783110624199-201

Miriam Reußner

Inhalt Vorwort | V Abbildungsverzeichnis | IX Tabellenverzeichnis | XI Formelverzeichnis | XIII Abkürzungsverzeichnis | XV 1

Einleitung | 1

2 2.1 2.2

Der Anwendungsbereich von Faktorenanalysen | 5 Explorative Faktorenanalyse | 6 Konﬁrmatorische Faktorenanalyse und Strukturgleichungsmodelle | 12

3 3.1 3.1.1 3.1.2 3.1.3 3.2 3.2.1 3.2.2 3.2.3 3.2.4

Die Güte von Strukturgleichungsmodellen | 19 Statistische Tests | 19 Möglichkeiten des Modellvergleichs unter Berücksichtigung der Modellkomplexität | 20 Testlogik und Implikationen des χ 2 -Tests | 24 Alternative Testlogik nach James Steiger | 26 Fit-Indizes | 27 RMSEA: Root Mean Square Error of Approximation | 29 TLI: Tucker-Lewis Index | 30 CFI: Comparative Fit Index | 31 SRMR: Standardized Root Mean Square Residual | 32

4 4.1 4.2

Fit-Indizes als Indikatoren der Güte | 35 Implikationen der Fit-Indizes | 35 Schwellenwerte | 39

5 5.1 5.2

Methode | 43 Monte-Carlo-Simulationen | 43 Studiendesign | 45

VIII | Inhalt

6 6.1 6.1.1 6.1.2 6.1.3 6.1.4 6.1.5 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.3 6.3.1 6.3.2 6.3.3 6.3.4 6.3.5 6.4

Sensitivitäten der Fit-Indizes | 51 Sparsame Modelle | 53 Korrekt speziﬁziertes Modell | 53 Fehlspeziﬁziertes Messmodell | 56 Fehlspeziﬁziertes Strukturmodell | 60 Fehlspeziﬁkationen von Messmodell und Strukturmodell | 63 Zentrale Ergebnisse sparsamer Modelle | 65 Komplexe Modelle | 70 Korrekt speziﬁziertes Modell | 70 Fehlspeziﬁziertes Messmodell | 71 Fehlspeziﬁziertes Strukturmodell | 74 Fehlspeziﬁkationen von Messmodell und Strukturmodell | 77 Zentrale Ergebnisse komplexer Modelle | 80 Sehr komplexe Modelle | 84 Korrekt speziﬁziertes Modell | 84 Fehlspeziﬁziertes Messmodell | 85 Fehlspeziﬁziertes Strukturmodell | 89 Fehlspeziﬁkationen von Messmodell und Strukturmodell | 93 Zentrale Ergebnisse sehr komplexer Modelle | 94 Zusammenfassung zentraler Ergebnisse aller Modellvarianten | 98

7 7.1 7.2 7.3 7.4

Ursachen fehlender Eindeutigkeit der Fit-Indizes | 103 Muster 1: TLI zu niedrig | 103 Muster 2: RMSEA zu hoch | 103 Muster 3: TLI zu niedrig und RMSEA zu hoch | 105 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch | 107

8

Diskussion und Ausblick | 111

A

Ergänzungen zu Kapitel 5 | 117

B B.1

Ergänzungen zu Kapitel 6 | 119 Konvergenz | 119

Literatur | 123 Stichwortverzeichnis | 127

Abbildungsverzeichnis Abb. 6.1.1 Abb. 6.1.2 Abb. 6.1.3 Abb. 6.1.4 Abb. 6.2.1 Abb. 6.2.2 Abb. 6.3.1 Abb. 6.3.2 Abb. 6.3.3 Abb. 6.3.4

Verteilungsplot des TLI für schiefe Indikatoren. | 56 Verteilung des RMSEA für normalverteilte Indikatoren | 57 Verteilungsplot des TLI, 91 % korrekte Modellbewertungen | 62 Verteilungsplot des CFI, 72 % korrekte Modellbewertungen | 63 Verteilungsplot des TLI, 99 % korrekte Modellbewertungen | 76 Verteilungsplot des CFI, 86 % korrekte Modellbewertungen | 77 Verteilungsplot des RMSEA für moderat schief verteilte Indikatoren | 88 Verteilungsplot des TLI für moderat schief verteilte Indikatoren | 89 Verteilungsplot des TLI für normalverteilte Indikatoren | 91 Verteilungsplot des TLI für schief verteilte Indikatoren | 92

https://doi.org/10.1515/9783110624199-202

Tabellenverzeichnis Tab. 2.1.1 Tab. 2.1.2 Tab. 2.1.3 Tab. 2.1.4

Variablenlabel: Beispiel „Sympathie“ | 8 Korrelationsmatrix der Items des Beispiels „Sympathie“ | 9 Rotierte Faktorladungsmatrix der Items des Beispiels „Sympathie“ | 10 Kommunalitäten und Uniqueness-Werte der Items des Beispiels „Sympathie“ | 11

Tab. 3.1.1 Tab. 3.1.2

Varianz-Kovarianzmatrix, Variablenbeispiel mit 10 df (mathematisch) | 21 Varianz-Kovarianzmatrix, Variablenbeispiel mit 6 df (statistisch) | 22

Tab. 4.1.1

Forschungserwartungen zu den Sensitivitäten der Fit-Indizes | 37

Tab. 5.2.1 Tab. 5.2.2

Modellvarianten | 48 Studiendesign | 49

Tab. 6.1.1 Tab. 6.1.2 Tab. 6.1.3 Tab. 6.1.4 Tab. 6.1.5

Tab. 6.4.1

Sparsames korrekt speziﬁziertes Modell | 54 Sparsames fehlspeziﬁziertes Messmodell | 58 Sparsames fehlspeziﬁziertes Strukturmodell | 60 Sparsames Modell mit Fehlspeziﬁkation von Messmodell und Strukturmodell | 64 Sensitivitäten der Fit-Indizes bei sparsamen Modellen unter Berücksichtigung der Forschungserwartungen | 66 Komplexes korrekt speziﬁziertes Modell | 71 Komplexes fehlspeziﬁziertes Messmodell | 72 Komplexes fehlspeziﬁziertes Strukturmodell | 75 Komplexes Modell mit Fehlspeziﬁkation von Messmodell und Strukturmodell | 78 Sensitivitäten der Fit-Indizes bei komplexen Modellen unter Berücksichtigung der Forschungserwartungen | 81 Sehr komplexes korrekt speziﬁziertes Modell | 85 Sehr komplexes fehlspeziﬁziertes Messmodell | 86 Sehr komplexes fehlspeziﬁziertes Strukturmodell | 90 Sehr komplexes Modell mit Fehlspeziﬁkation von Messmodell und Strukturmodell | 93 Sensitivitäten der Fit-Indizes bei sehr komplexen Modellen unter Berücksichtigung der Forschungserwartungen | 95 Sensitivitäten der Fit-Indizes | 99

Tab. 7.1.1 Tab. 7.2.1 Tab. 7.3.1 Tab. 7.3.2 Tab. 7.4.1

Muster 1 | 104 Muster 2 | 104 Muster 3.1 | 106 Muster 3.2 | 107 Muster 4 | 108

Tab. A.0.1 Tab. A.0.2

Deskriptive Statistiken der Variable „happy“ | 117 Faktorladungsstruktur | 117

Tab. 6.2.1 Tab. 6.2.2 Tab. 6.2.3 Tab. 6.2.4 Tab. 6.2.5 Tab. 6.3.1 Tab. 6.3.2 Tab. 6.3.3 Tab. 6.3.4 Tab. 6.3.5

https://doi.org/10.1515/9783110624199-203

XII | Tabellenverzeichnis

Tab. B.1.1 Tab. B.1.2 Tab. B.1.3 Tab. B.1.4

Kovergenz korrekt speziﬁzierter Modelle | 119 Kovergenz fehlspeziﬁzierter Messmodelle | 120 Kovergenz fehlspeziﬁzierter Strukturmodelle | 120 Kovergenz fehlspeziﬁzierter Gesamtmodelle | 121

Formelverzeichnis 2.1.1 2.2.1 3.1.1 3.1.2 3.1.3 3.1.4 3.2.1 3.2.2 3.2.3 3.2.4

Korrelation nach Pearson | 7 Kovarianz | 14 Berechnung der Freiheitsgrade bei Strukturgleichungsmodellen | 21 Berechnung der Freiheitsgrade: Stata/Mplus | 22 Maximum-Likelihood-Funktion | 24 χ 2 -Teststatistik | 25 Root Mean Square Error of Approximation (RMSEA) | 29 Tucker-Lewis Index (TLI) | 30 Comparative Fit Index (CFI) | 31 Standardized Root Mean Square Residual (SRMR) | 32

https://doi.org/10.1515/9783110624199-204

Abkürzungsverzeichnis AGFI CFI ESS GFI LL ML NNFI RMSEA RNI SRMR TLI

Adjusted Goodness-of-Fit Index Comparative Fit Index European Social Survey Goodness-of-Fit Index Loglikelihood Maximum-Likelihood Non-Normed Fit Index Root Mean Square Error of Approximation Relative Noncentrality Index Standardized Root Mean Square Residual Tucker-Lewis Index

https://doi.org/10.1515/9783110624199-205

1 Einleitung Strukturgleichungsmodelle¹ dienen dazu, komplexe Phänomene, die nicht mittels ei ner einzigen Variable gemessen werden, zu messen und zusammenhangsanalytisch zu prüfen. Variablen, die nicht direkt gemessen werden, lassen sich als latent bezeich nen und sind mittels mehrerer direkt gemessener, manifester Variablen messbar. Mit einem Strukturgleichungsmodell lässt sich die Messung der latenten Variablen des Modells simultan mit den speziﬁzierten Zusammenhängen zwischen diesen Variablen statistisch analysieren. Ein Strukturgleichungsmodell, das aus mehreren latenten Va riablen besteht, enthält umso mehr manifeste Variablen und stellt somit stets ein kom plexes Konstrukt verschiedener Zusammenhänge dar, das im Rahmen der Modellie rung geprüft wird. Die Bewertung der Modellgüte ist ein wesentlicher Aspekt bei der Analyse von Strukturgleichungsmodellen. Nur wenn das statistische Modell insgesamt als gut ge nug angepasst gewertet werden kann, lassen sich die inhaltlichen Speziﬁkationen des Modells annehmen. Im Fokus dieses Buches stehen die (Goodness-of-) Fit-Indizes, die auch als Gütemaße oder Fit-Maße bezeichnet werden. Diese geben jeweils Auskunft darüber, wie gering oder stark das zu überprüfende theoretische Strukturgleichungs modell von den Daten abweicht. Eine geringe Abweichung legt dabei nahe, dass das Modell gut genug an die Daten angepasst ist und entsprechend Bestand hat; das im pliziert, dass alle speziﬁzierten Zusammenhänge zwischen den manifesten und laten ten Variablen des Modells zusammengefasst ein statistisch und inhaltlich passendes Modell darstellen. Im Kontext der linearen Strukturgleichungsmodellierung² erweisen sich vier Fit-Indizes als besonders einschlägig: der Root Mean Square Error of Approximati on (RMSEA) (vgl. Steiger & Lind 1980), der Tucker-Lewis Index (TLI) (vgl. Tucker & Lewis 1973), der Comparative Fit Index (CFI) (vgl. Bentler 1990) und der Standardized Root Mean Square Residual (SRMR) (vgl. Bentler 1995). Diese stehen im Zentrum der vorliegenden Analyse, da es sich hierbei um Gütemaße handelt, die zum einen für die Analyse von Strukturgleichungsmodellen gesondert entwickelt wurden und sich zum anderen aufgrund ihrer festen Implementation in stark verbreiteter Statistik-Software wie Stata und Mplus als Indizes für die Bewertung der Güte von Strukturgleichungs modellen etabliert haben (vgl. dazu auch Kapitel 3.2). Für diese vier Fit-Indizes werden jeweils bestimmte Schwellenwerte genutzt, die Auskunft darüber geben sollen, ob das Modell gut genug angepasst ist. Die Schwel

1 Wenn im Folgenden von Strukturgleichungsmodellen gesprochen wird, sind konﬁrmatorische Fak torenanalysen darin inbegriffen. Eine ausführliche Beschreibung dieser Modellvarianten ﬁndet sich in Kapitel 2. 2 Die Ausführungen dieses Buches beziehen sich auf lineare Strukturgleichungsmodelle. Für Struk turgleichungsmodelle mit kategorialen Daten siehe Muthén (1984) sowie Reinecke (2014, S. 220–225). https://doi.org/10.1515/9783110624199-001

2 | 1 Einleitung

lenwerte ergeben sich aus verschiedenen Simulationsstudien (vgl. dazu Hu & Bentler 1999; Sharma et al. 2005; Yu 2002) sowie der daran anschließenden Forschungslitera tur und werden in der aktuellen Forschung als feste Grenzen für die Güte von Modellen aufgefasst (vgl. Kapitel 4.2). Die verschiedenen Fit-Indizes sollen in gleichem Maße Auskunft über die Güte eines Modells geben. Allerdings zeigt sich oft das Problem, dass die verschiedenen Gütemaße, gemessen an bestimmten Schwellenwerten, unterschiedliche Schlüsse be züglich der Güte des Modells nahelegen. In der Praxis kann es sich beispielsweise er geben, dass der CFI und der SRMR auf eine gute Modellanpassung schließen lassen und für dasselbe Modell der RMSEA und der TLI keine akzeptable Modellanpassung nahelegen. Mögliche Gründe für dieses Problem werden im Folgenden erläutert und analysiert, um forschenden Personen Gründe für widersprüchliche Ergebnisse dieser Art aufzuzeigen und den Umgang damit zu erleichtern. Die Sensitivitäten der vier relevanten Fit-Indizes werden mit einer Monte-CarloSimulation untersucht. Innerhalb dieser wird für jede Teilsimulation eine feste Popu lation speziﬁziert, aus der eine bestimmte Anzahl an Stichproben gezogen wird. So kann analysiert werden, welchen Wert ein bestimmter Fit-Index im Mittel annimmt, wenn die Stichprobe und die Daten eine bestimmte, festgelegte Struktur aufweisen. Neben dem mittleren Wert des jeweiligen Gütemaßes lässt sich mit einer solchen Si mulation auch die Streuung der Werte nachvollziehen. Die vorliegende Simulations studie dient dazu, die Güte und Verlässlichkeit der Fit-Indizes für verschiedene Mo dellkonﬁgurationen zu untersuchen. Insbesondere werden Modelle speziﬁziert, die sich in den ihnen zugrunde liegenden Fallzahlen, den Verteilungen der manifesten Variablen und der Komplexität bezüglich der Modellstruktur voneinander unterschei den. Diese Stichprobenmerkmale wurden zwar bereits in Zusammenhang mit den Fit-Indizes untersucht; dies geschah jedoch mit dem Ziel, herauszuﬁnden, welche generellen Schwellenwerte für sämtliche Stichprobenmerkmale Anwendung ﬁnden könnten (vgl. Hu & Bentler 1999, S. 1; Reinecke 2014, S. 127). Das Problem dennoch auftretender widersprüchlicher Ergebnisse zeigt jedoch, dass derart robuste Schwel lenwerte nicht bestehen. Auch wenn sich bereits in der Literatur Hinweise darauf ﬁnden, dass bestimmte Stichprobenmerkmale Auswirkungen auf die Höhe der FitIndizes haben können (vgl. Hu & Bentler 1999, S. 27), wurde bislang dennoch stets das Ziel verfolgt, pro Fit-Index einen festen Schwellenwert zu etablieren (vgl. Byrne 2012, S. 70–76; Christ & Schlüter 2012, S. 39; Kaplan 2009, S. 110–113). Unter Berücksichtigung dieses Problems verfolgt die vorliegende Forschungsar beit einen anderen Ansatz: Zunächst wird herausgestellt, welche Schwellenwerte sich in diesem Kontext als besonders beliebt innerhalb der Sozialwissenschaften zeigen (vgl. dazu Kapitel 4.2). Diese Werte werden genutzt, um anhand dieser im Rahmen der Simulationsstudie zu überprüfen, unter welchen Stichprobenmerkmalen das jeweili ge Fit-Maß die Modellgüte korrekt als gut oder nicht gut genug angepasst bewertet. Sowohl korrekt speziﬁzierte als auch fehlspeziﬁzierte Modelle werden untersucht. Für

1 Einleitung

| 3

ein speziﬁsches Modellergebnis, bei dem nicht jeder der vier Fit-Indizes auf den glei chen Schluss bezüglich der Modellgüte hinweist, wird schließlich unter Berücksichti gung der tatsächlichen Güte des Modells ausgewertet, warum jene Fit-Indizes, die das entsprechende Modell falsch bewerten, mittels der festgelegten Schwellenwerte für die entsprechenden Stichprobenmerkmale nicht zu einer korrekten Modellbewertung führen. So soll es forschenden Personen erleichtert werden, einschätzen zu können, welche Fit-Maße die tatsächliche Güte eines bestimmten Modells einschätzen können und welche Gütemaße aufgrund entsprechender Stichproben- und Datenmerkmale nicht mit den etablierten Schwellenwerten genutzt werden sollten. Dieses Buch unterteilt sich in acht Kapitel. Zunächst werden in Anschluss an die Einleitung in Kapitel 2 zur thematischen Einführung die Nützlichkeit von Faktoren analysen und der Anwendungsbereich von Strukturgleichungsmodellen erläutert. In nerhalb der faktorenanalytischen Verfahren ﬁndet sich eine Vielzahl von Parametern, die neben den Fit-Indizes Aufschluss über die Güte eines Modells geben und ebenso stark wie die Fit-Indizes bei der Bewertung der Modellgüte berücksichtigt werden soll ten. Für einen leichten Zugang zur Faktorenanalyse bietet sich die explorative Fakto renanalyse an, die in Kapitel 2.1 eingeführt wird. Anschließend werden Unterschiede zwischen diesem Verfahren und der konﬁrmatorischen Faktorenanalyse aufgegriffen (Kapitel 2.2). Die Anwendungsmöglichkeiten von Strukturgleichungsmodellen wer den erläutert und dabei wird herausgestellt, wie wichtig und umfangreich die Bewer tung der Modellgüte bei diesem Verfahren ist. Kapitel 3 ist in zwei Teile untergliedert. In Kapitel 3.1 werden die den Fit-Indizes zugrunde liegenden statistischen Testmöglichkeiten behandelt. Während die Fit-Indi zes Auskunft darüber geben sollen, wie gut ein Modell passt, gibt der χ2 -Test an, ob das Modell perfekt passt. Dieser statistische Test wird in Kapitel 3.1.1 und Kapitel 3.1.2 behandelt. James Steiger (2007) zeigt eine daran angelehnte alternative Testlogik auf, die in Überleitung zu den Fit-Maßen genauer betrachtet wird (Kapitel 3.1.3). Der zwei te Teil des Kapitels behandelt die Fit-Indizes RMSEA, TLI, CFI und SRMR (Kapitel 3.2). Dabei werden zunächst vor allem die Implikationen der Formeln dieser Gütemaße er läutert. Im vierten Kapitel werden die vier untersuchten Fit-Indizes in den Fokus gestellt. Dabei werden zunächst die durch die Forschungsliteratur nahegelegten Sensitivitäten der Fit-Indizes dargestellt (Kapitel 4.1). Das Kapitel schließt mit der Beschreibung der aus der Forschungsliteratur hervorgehenden Schwellenwerte (Kapitel 4.2). Aus diesen werden strenge Schwellenwerte abgeleitet, die für die Analyse der Güte der Gütema ße genutzt werden. Das fünfte Kapitel stellt die Methodik dar. Als Methode wird eine Monte-Carlo-Simulation angewandt. Dieses Verfahren wird in Kapitel 5.1 beschrieben, um daran eine ausführliche Erläuterung des Forschungsdesigns anzuschließen (Ka pitel 5.2). Die Ergebnisse sind in zwei Hauptkapitel unterteilt. Im ersten Ergebniskapitel (Ka pitel 6) werden die Ergebnisse nach den drei unterschiedlichen Komplexitätsgraden der Modelle und nach den vier Modellvarianten unterteilt, um zunächst für jede Mo

4 | 1 Einleitung

dellvariante, bei gegebenem Komplexitätsgrad, die Auswirkung der Fallzahl und der Verteilungsform der manifesten Variablen auf die Fit-Indizes zu untersuchen. Die ers ten drei Unterkapitel entsprechen dabei den drei Komplexitätsgraden und schließen jeweils mit den zentralen Ergebnissen zu allen Modellen des jeweiligen Komplexitäts grads. Im vierten Unterkapitel werden schließlich die zentralen Ergebnisse aller Mo delle, unter Berücksichtigung des Vergleichs zwischen den Komplexitätsgraden, dar gestellt und erläutert. Das zweite Ergebniskapitel (Kapitel 7) untersucht die Ergebnisse hinsichtlich irreführender Modellbewertungen durch die vier Fit-Indizes: Dabei werden die ir reführenden Muster aufgegriffen, die sich aus den Simulationsergebnissen ergeben und forschende Personen vor die übergeordnete Fragestellung dieser Arbeit stellen können – die Frage danach, warum Fit-Indizes, die alle gleichermaßen die Güte ei nes bestimmten Modells angeben sollen, für das Modell gegebenenfalls verschiedene Schlüsse bezüglich der Modellgüte nahelegen. Um diese Frage umfassend zu beant worten, werden die Kombinationen der mittleren Fit-Index-Werte betrachtet, durch die sich die Modellgüte nicht eindeutig erschließen lässt. Es wird untersucht, wie oft eine bestimmte Kombination auftritt und unter welchen Stichprobenmerkmalen sich die jeweiligen Kombinationen ergeben. Dies wird systematisch analysiert, um forschenden Personen damit aufzuzeigen, wodurch eine bestimmte fehlende Eindeu tigkeit der Fit-Indizes erklärt werden kann und ob dies darauf hindeutet, dass das Modell korrekt oder fehlspeziﬁziert ist. Die abschließende Diskussion (Kapitel 8) dient dazu, die wichtigsten Ergebnisse der vorliegenden Simulationsstudie aufzugreifen. Die daraus resultierenden Erkennt nisse werden in diesem Kapitel diskutiert und in den aktuellen Forschungsstand integriert. Einzelne bisherige Empfehlungen werden dabei aufgegriffen und mit den Ergebnissen dieser Simulationsstudie verglichen, bevor schließlich auf daran an knüpfenden Forschungsbedarf hingewiesen wird.

2 Der Anwendungsbereich von Faktorenanalysen Die Faktorenanalyse ist ein statistisches Verfahren zur Messung latenter Konstruk te. Beispiele für Variablen, die latent fassbar sind, sind diverse Einstellungen und Wahrnehmungen wie Fremdenfeindlichkeit, politisches Interesse oder personelle Zuneigung. Selbstredend ließen sich im Rahmen einer Personenumfrage explizite Fragen wie „Wie fremdenfeindlich sind Sie auf einer Skala von 0 bis 10?“, „Wie stark ist Ihr politisches Interesse?“ sowie „Wie stark ist Ihre Zuneigung für diese Person?“ stellen; dabei ergeben sich jedoch Schwierigkeiten. Zum einen zeigt sich, vor allem bei den zwei erstgenannten Variablen, das Phänomen der sozialen Erwünschtheit (vgl. Diekmann 2008, S. 447–449): Selbst wenn die Umfrage anonym ist, muss davon ausgegangen werden, dass Personen aufgrund der negativen Konnotation von Frem denfeindlichkeit tendenziell eher niedrige Werte auf der Fremdenfeindlichkeitsskala angeben. Ähnlich, allerdings anders gerichtet, verhält es sich mit dem politischen Interesse. Dies ist in vielen sozialen Kontexten positiv konnotiert, was Befragte dazu verleiten kann, sich tendenziell (zu) hoch einzustufen. Die Beantwortung der dritten Frage („Wie stark ist Ihre Zuneigung für diese Person?“) könnte sich ohne genauere Eingrenzung des Begriffs „Zuneigung“ schwierig gestalten (vgl. Faulbaum et al. 2009, S. 38–39). Bei diesen drei Beispielen wird sichtbar, dass die Befragung zu einem Sachver halt mittels einer einzigen Variable Schwierigkeiten mit sich bringen kann. Mögliche Probleme, die sich daraus ergeben können sind weitreichend (vgl. Diekmann 2008, S. 446–471). Das folgende ﬁktive Beispiel zur Messung des politischen Interesses zeigt eines der möglichen Probleme auf: Selbst wenn die forschende Person davon ausge hen könnte, dass jede befragte Person nach bestem Wissen die ehrliche Antwort zu jeder Frage erbringt, würde die Frage „Wie stark ist Ihr politisches Interesse?“ ledig lich eine Selbsteinschätzung abfragen, die zwischen verschiedenen Befragten auf un terschiedlichen Begründungsfaktoren basieren kann. So könnte eine Person, die auf der Skala von 0 bis 10 den recht hohen Wert 8 angibt, damit aussagen wollen, dass sie politische Zusammenhänge grundsätzlich sehr interessant ﬁndet. Vorstellbar ist, dass sich diese ﬁktive Person weder über aktuelle politische Geschehnisse informiert noch an Wahlen teilnimmt oder mit anderen Menschen über Politik diskutiert. Ent sprechende Verhaltensweisen müssen nicht zwangsläuﬁg in die Deﬁnition von poli tischem Interesse einer befragten Person einﬂießen, möglicherweise sind sie jedoch Bestandteil der Deﬁnition der forschenden Person. In diesem Fall hätte die forschende Person diese Person mit einem geringen Skalenwert und entsprechend geringem po litischen Interesse eingestuft, ganz gegensätzlich zur Selbsteinstufung der befragten Person. Die Erhebung einer Einstellung oder Wahrnehmung mittels einer einzigen Varia ble kann folglich aufgrund der Komplexität bestimmter Einstellungen und Wahrneh

https://doi.org/10.1515/9783110624199-002

6 | 2 Der Anwendungsbereich von Faktorenanalysen

mungen zu Messfehlern führen. Alle Variablen, die direkt erhoben werden, werden als manifest bezeichnet und beinhalten Messfehler; latente Variablen, die auch als Fakto ren bezeichnet werden, sind hingegen von Messfehlern bereinigt (vgl. Reinecke 2014, S. 44–47). Das Verfahren der Faktorenanalyse dient dazu, latente Variablen mittels mehrerer manifester Variablen zu analysieren. Latente Variablen werden nicht direkt gemessen. Sie werden hinter den manifesten Variablen angenommen und über die se operationalisiert. Variablen wie Fremdenfeindlichkeit, politisches Interesse oder Sympathie stellen komplexe Konstrukte dar, deren Deﬁnitionen verschiedene Kom ponenten zugrunde liegen. Diese verschiedenen, konkret deﬁnierbaren Komponenten lassen sich in Form manifester Variablen erfragen. Die dahinter liegenden Konstrukte lassen sich über diese messen (vgl. zu diesem Abschnitt Brown 2015, S. 1–2). Bezogen auf das Beispiel zum politischen Interesse ist dieses Verfahren wie folgt anwendbar: Sollte die forschende Person jene Befragte, die sich über aktuelle politi sche Geschehnisse informieren, an Wahlen teilnehmen und mit anderen Menschen über Politik diskutieren, als politisch interessiert einstufen, so könnten diese drei Va riablen als manifeste Indikatoren zur Messung des latenten Faktors „Politisches In teresse“ genutzt werden. Die Variablen müssten dabei in Form von Fragebogenitems vorliegen. Um den latenten Faktor selbst messbar zu machen, werden die Zusammen hänge zwischen den manifesten Variablen untersucht. Sie bilden die Basis für die Ope rationalisierung des Faktors (vgl. zu diesem Abschnitt Byrne 2012, S. 4–5). Zu unterscheiden sind zwei grundsätzlich verschiedene Herangehensweisen und folglich zwei verschiedene faktorenanalytische Verfahren: die explorative Faktoren analyse einerseits und die konﬁrmatorische Faktorenanalyse andererseits (vgl. hier zu Kühnel & Krebs 2007, S. 593). Für die im Rahmen der beiden Verfahren geschätzten Parameter ﬁnden sich die gleichen Bezeichnungen und während sich die Berechnung der Parameter kaum unterscheidet, ﬁndet sich der stärkste Unterschied beim Model lierungsansatz: Bei der konﬁrmatorischen Analyse wird zwingend ein theoretisches Modell erfordert, das a priori festgelegt sein muss und mit der Analyse überprüft wird; dagegen wird das Modell und damit die Zuordnung manifester Variablen zu Faktoren bei der explorativen Analyse durch die Analyse selbst ermittelt (vgl. Reinecke 2014, S. 137).

2.1 Explorative Faktorenanalyse Die explorative Faktorenanalyse ist ein hypothesengenerierendes Verfahren; die Da tenanalyse wird hierbei durchgeführt, bevor ein theoretisches Modell besteht. Mit Hil fe der Ergebnisse einer solchen Analyse lassen sich Hypothesen und ein theoretisches Modell erschließen. Bei der explorativen Faktorenanalyse dienen die Korrelationen zwischen den ma nifesten Variablen als Basis der Analyse (vgl. Agresti & Finlay 2009, S. 532–535). Die Korrelation r xy ist ein standardisiertes Zusammenhangsmaß für zwei metrisch skalier

2.1 Explorative Faktorenanalyse |

7

te³ Variablen x und y und kann über die folgende Formel beschrieben werden (Bortz & Schuster, 2010, 156): s xy r xy = (2.1.1) sx ⋅ sy Der Zähler s xy stellt die Kovarianz dar (vgl. Formel 2.2.1) und im Nenner ﬁnden sich die Standardabweichungen der Variablen x und y. Die Korrelation ist auf einen Wer tebereich zwischen −1 und 1 standardisiert, wobei Werte nahe an 0 auf eine fehlende Korrelation hinweisen, während der Wert (−)1 auf einen perfekten positiven (negati ven) Zusammenhang hindeutet (vgl. dazu Sedlmeier & Renkewitz 2008, S. 211–213). Bei einer positiven (negativen) Korrelation zwischen zwei Variablen führt der Anstieg in der Ausprägung der einen Variable tendenziell zu einem Anstieg (zu einer Senkung) der Ausprägung der anderen Variable. Zu beachten ist, dass die in Lehrbüchern häuﬁg genannten Korrelationsgrenzen für eine „hohe“ oder „sehr hohe Korrelation“ bei tatsächlichen Datenbeispielen der Sozialwissenschaften kaum vorﬁndbar sind. Bei der Betrachtung langjährig entwi ckelter und fortwährend optimierter Einstellungsskalen ﬁnden sich Höchstwerte, die eine Korrelation von 0.6 äußerst selten überschreiten.⁴ Der mögliche Schluss, dass Variablen, die eine Korrelation von 0.5 aufweisen nur „schwach“ bis „mittelstark“ zu sammenhängen (vgl. Diaz-Bone 2013, S. 94–95), ist insofern irreführend, als dabei zum einen die Messungenauigkeit, die selbst bei professionellen Befragungen nicht gänzlich ausgeschlossen werden kann, keine Berücksichtigung ﬁndet und sich zum anderen die theoretisch erreichbaren Grenzwerte von −1 und 1 auf Variablen, die per fekt normalverteilt streuen, beziehen (vgl. Agresti & Finlay 2009, S. 533–534; Sedl meier & Renkewitz 2008, S. 222–226).⁵ Die Korrelation gibt stets die gemeinsame Streuung zweier Variablen an. Ledig lich dieser Teil der Streuung, also jener, welcher den manifesten Variablen gemein sam ist, ﬂießt in die Berechnung eines latenten Faktors ein. Daraus ergibt sich ein großer Vorteil der Faktorenanalyse: Messfehler, die vereinzelt für verschiedene Perso

3 Metrisches Skalenniveau liegt vor, wenn zusätzlich dazu, dass verschiedene Ausprägungen der Va riable bestehen (Nominalskala) und eine Rangordnung zwischen den Ausprägungen besteht (Ordinal skala), die Differenzen zwischen den Ausprägungen sinnig interpretierbar sind (Intervallskala, me trisch) und gegebenenfalls, jedoch nicht zwingend, auch Verhältnisse zwischen den Ausprägungen (Ratioskala, metrisch) festgestellt werden können (vgl. zu diesem Abschnitt Diaz-Bone 2013, S. 18–21). 4 Vgl. dazu unter anderem die Skalen zur Messung von Fremdenfeindlichkeit der Allgemeinen Bevöl kerungsumfrage der Sozialwissenschaften (vgl. GESIS 2016) sowie die Daten vom Institut für interdis ziplinäre Konﬂikt- und Gewaltforschung zur „Gruppenbezogenen Menschenfeindlichkeit“ (vgl. Heit meyer et al. 2013). 5 Als normalverteilt gilt eine Variable, wenn das arithmetische Mittel dieser Variable sowohl dem Me dian als auch dem Modus entspricht und die Streuung der Gaußschen Glockenkurve folgt (vgl. Kühnel & Krebs 2007, S. 189). Reale Daten werden dieser Anforderung nur selten gerecht (vgl. Agresti & Finlay 2009, S. 370); so sind beispielsweise Variablen, die strittige Einstellungen wie Fremdenfeindlichkeit umfassen, häuﬁg schief verteilt.

8

|

2 Der Anwendungsbereich von Faktorenanalysen

Tab. 2.1.1: Variablenlabel: Beispiel „Sympathie“. Variablenname

Label

nett angenehm zugänglich liebenswert gutaussehend hübsch gepﬂegt positiv

Die Person ist nett Die Person ist angenehm Die Person ist zugänglich Die Person ist liebenswert Die Person ist gutaussehend Die Person ist hübsch Die Person hat ein gepﬂegtes Äußeres Die Person hat eine positive Ausstrahlung

Die Variablen sind auf elfstuﬁgen Zustimmungsskalen bewertet worden. Dabei steht der Wert 1 für „überhaupt nicht“ und der Wert 11 für „voll und ganz“.

nen und verschiedene Variablen bestehen, sind nicht Teil der gemeinsamen Streuung verschiedener Variablen. Faktoren sind somit um entsprechende Messfehler bereinigt (vgl. zu diesem Abschnitt Reinecke 2014, S. 44–47). Die explorative Faktorenanalyse stellt ein strukturentdeckendes und damit ein hy pothesengenerierendes Verfahren dar. Dabei kann die forschende Person zunächst ein Set an Variablen auswählen, das dazu geeignet sein könnte, eines oder mehrere latente Konstrukte zu messen. Die Faktorenanalyse untersucht dieses Set hinsicht lich der Korrelationsstruktur. Eine fehlende oder sehr geringe Korrelation zwischen zwei Variablen weist dabei auf einen fehlenden Zusammenhang zwischen diesen hin. Variablen, die nicht untereinander korrelieren, können kein gemeinsames Konstrukt messen. Variablen, die hoch miteinander korrelieren, messen etwas Gemeinsames, das im Rahmen der Faktorenanalyse als latente Variable erfasst wird (vgl. zu diesem Abschnitt Agresti & Finlay 2009, S. 533–535). An einem ﬁktiven Beispiel lässt sich das Vorgehen im Rahmen der explorativen Faktorenanalyse nachvollziehen: Angenommen, mittels der im Folgenden benannten Variablen würde versucht, latente Strukturen zu entdecken. Die der Übersicht in Ta belle 2.1.1 zu entnehmenden Variablen beziehen sich in diesem ﬁktiven Beispiel auf elfstuﬁge, endpunktbenannte Zustimmungsskalen, die von 1 „überhaupt nicht“ bis 11 „voll und ganz“ verlaufen⁶ und sich auf eine konkrete Person beziehen, die der be fragten Person jeweils nahesteht. Eine Zustimmung zu diesen Variablen würde in unserem Beispiel als Ausdruck der Zuneigung für eine Person gewertet. Bei einem Blick auf die Korrelationsmatrix

6 Es kann davon ausgegangen werden, dass die Abstände zwischen den elf Ausprägungen wie bei einer Intervallskala gleich groß sind respektive als gleich groß wahrgenommen werden. Diese streng genommen ordinale Skala gilt in einem solchen Fall als quasi-metrisch und metrische Rechenopera tionen sind damit erlaubt (vgl. Brosius et al. 2012, S. 38; Kühnel & Krebs 2007, S. 34–35).

2.1 Explorative Faktorenanalyse | 9

Tab. 2.1.2: Korrelationsmatrix der Items des Beispiels „Sympathie“. nett nett 1.0 angenehm 0.5 zugänglich 0.4 liebenswert 0.4 gutaussehend −0.1 hübsch 0.1 gepﬂegt 0.0 positiv 0.0

angenehm zugänglich liebenswert gutaussehend hübsch gepﬂegt positiv 1.0 0.4 0.4 −0.1 0.2 0.0 0.0

1.0 0.5 −0.1 0.0 0.1 −0.1

1.0 −0.1 0.0 0.0 −0.1

1.0 0.3 0.4 0.5

1.0 0.4 0.3

1.0 0.5

1.0

(Tabelle 2.1.2) zeigt sich, dass zwei Mal jeweils vier Variablen mit Werten deutlich über 0.3 positiv untereinander korrelieren. Die Variable, welche das Beschreibungsmerkmal „nett“ misst, korreliert positiv mit den Beschreibungsmerkmalen „angenehm“ (r = 0.5), „zugänglich“ (r = 0.4) und „liebenswert“ (r = 0.4), welche ebenso untereinander positive Korrelationen (r = 0.4 bis 0.5) aufweisen. Das bedeutet, dass je stärker eine betrachtete Person als nett ein gestuft wird, desto eher diese Person auch als angenehm, zugänglich und liebens wert beschrieben wird. Ebenso verhält es sich mit den übrigen vier Variablen „gutaus sehend“, „hübsch“, „gepﬂegt“ und „positiv“. Diese weisen untereinander ebenfalls recht hohe positive Korrelationen (r = 0.3 bis 0.5) auf. Die relativ hohen Korrelationen innerhalb der beiden Variablensets lassen bereits vermuten, dass diese jeweils eine gemeinsame Dimension abbilden. Bevor Schlüsse auf die latente Struktur innerhalb der Daten gezogen werden, wird das Ergebnis der dazugehörigen explorativen Faktorenanalyse betrachtet.⁷ Bei der ex plorativen Faktorenanalyse gibt die rotierte Faktorladungsmatrix⁸ (vgl. Tabelle 2.1.3) Aufschluss über die Struktur der Daten. Faktorladungen stellen den Zusammenhang zwischen der jeweiligen manifesten Variable und dem latenten Faktor dar und kön nen sich wie Korrelationen im Bereich zwischen −1 und 1 bewegen (vgl. Brown 2015, S. 36). Werte nahe 0 bedeuten, dass kein Zusammenhang zwischen der betrachteten manifesten Variable und dem entsprechenden latenten Faktor besteht. Werte nahe an 1 sowie Werte nahe an −1 drücken aus, dass die manifeste Variable den latenten Faktor nahezu perfekt misst. Das Vorzeichen lässt erkennen, wie der latente Faktor gerichtet ist. Ist das Vorzeichen für die Faktorladung einer bestimmten manifesten Variable positiv, so ist der entsprechende Faktor inhaltlich genauso gerichtet wie die manifeste Variable. Negative Vorzeichen drücken eine entgegengesetzte Richtung zwi

7 Es stehen zusätzliche Optionen zur Prüfung der korrelativen Struktur innerhalb der Daten zur Ver fügung. An dieser Stelle seien das Kaiser-Meyer-Olkin-Maß zur Bestimmung der Adäquatheit der Höhe der Korrelationen und der Bartlett-Test zur statistischen Bestimmung des Vorhandenseins von Korre lationen genannt. Für Details dazu siehe Baur & Fromm (2008). 8 Zur Rotation siehe auch Costello & Osborne (2005) sowie Brown (2015).

10 | 2 Der Anwendungsbereich von Faktorenanalysen

Tab. 2.1.3: Rotierte Faktorladungsmatrix der Items des Beispiels „Sympathie“. Item nett angenehm zugänglich liebenswert gutaussehend hübsch gepﬂegt positiv

Faktor 1

Faktor 2

0.74 0.79 0.75 0.75 −0.15 0.13 0.10 −0.06

0.03 0.06 −0.04 −0.08 0.76 0.66 0.78 0.80

schen Variable und Faktor aus (vgl. zu diesem Abschnitt auch Agresti & Finlay 2009, S. 535–536). Die Faktorladungsmatrix (Tabelle 2.1.3) bestätigt das Bild der Korrelationsmatrix. In den Daten ﬁnden sich zwei latente Faktoren, die jeweils über vier manifeste Varia blen gemessen werden können. So wird der erste Faktor über die Variablen „nett“, „angenehm“, „zugänglich“ und „liebenswert“ gemessen, während dem zweiten Fak tor die Indikatoren „gutaussehend“, „hübsch“, „äußerlich gepﬂegt“ und „positive Ausstrahlung“ zugrunde liegen.⁹ Bezogen auf das Beispiel ist erfreulich, dass sich eindeutige Faktorladungen zei gen (siehe Tabelle 2.1.3). Die Variable „gutaussehend“ lädt sehr stark auf dem zwei ten Faktor und lediglich mit einem Wert von -0.15 auf dem ersten Faktor, was auf ei nen sehr schwachen Zusammenhang mit dem ersten Faktor hindeutet. Die restlichen Variablen weisen ebenfalls sehr hohe Ladungen auf jeweils einem Faktor und sehr schwache Ladungen auf dem jeweils anderen Faktor auf. Somit lassen sich die mani festen Variablen eindeutig den latenten Faktoren zuordnen, wodurch sich die latenten Faktoren inhaltlich besser bestimmen lassen. Um die latenten Dimensionen zu bestimmen, muss die forschende Person die Va riablen genau betrachten und unter inhaltlichen Aspekten auf die Gemeinsamkeit der manifesten Indikatoren schließen, die den jeweiligen Faktor messen. In dem Beispiel ließe sich der erste Faktor als „persönliche Sympathie“ bezeichnen. So würde eine Person, die der befragten Person persönlich sympathisch ist, tendenziell als beson ders nett, angenehm, zugänglich und liebenswert beschrieben. Demnach bedingt ein Anstieg in dem latenten Faktor im Fall einer positiven (negativen) Faktorladung einen Anstieg (eine Senkung) der Ausprägung des entsprechenden manifesten Indikators. Für das Beispiel der Variable „angenehm“ bedeutet das: Je sympathischer eine Person wahrgenommen wird, desto angenehmer wirkt sie.

9 Es muss beachtet werden, dass die Faktorenstruktur nicht immer eindeutig aus der Korrelationsma trix ableitbar ist; große, ungeordnete Korrelationsmatrizen mit Variablen, deren korrelative Strukturen weniger eindeutig sind, erschweren die Interpretation.

2.1 Explorative Faktorenanalyse |

11

Tab. 2.1.4: Kommunalitäten und Uniqueness-Werte der Items des Beispiels „Sympathie“. Item nett angenehm zugänglich liebenswert gutaussehend hübsch gepﬂegt positiv

Kommunalität

Uniqueness

0.55 0.62 0.56 0.57 0.61 0.44 0.61 0.64

0.45 0.38 0.44 0.43 0.39 0.56 0.39 0.36

Der zweite Faktor misst das Ausmaß der Anziehungskraft der äußerlichen Erschei nung einer Person, die für dieses Beispiel als „Attraktivität“ bezeichnet werden kann. Beﬁndet eine befragte Person eine bestimmte Person in ihrem Aussehen attraktiv, so wird diese Person eher als „gutaussehend“, „hübsch“, „gepﬂegt“ und mit einer „posi tiven Ausstrahlung“ beschrieben. Diese Art der positiven Bewertung einer Person über das Äußere ebendieser unterscheidet sich von der positiven Beschreibung der Per sönlichkeit. Dies drückt sich statistisch über die trennscharfen Faktorladungen aus. Wären die beiden Dimensionen nicht derart trennscharf, so würden sich Mehrfach ladungen insofern zeigen, als eine manifeste Variable jeweils auf beiden Faktoren ei ne annähernd gleichermaßen hohe Faktorladung aufweisen würde (vgl. Brown 2015, S. 27). Je höher die Faktorladungen einer manifesten Variable sind, desto höher ist der Anteil der erklärten Streuung dieser Variable. Die Faktorladungen einer Variable hän gen direkt mit dem Anteil erklärter Streuung zusammen, der im Rahmen der Faktoren analyse als Kommunalität bezeichnet wird und sich rechnerisch aus der Summe der quadrierten Faktorladungen einer Variable ergibt (vgl. Rencher 2003, S. 418): Für die Variable „nett“ ergibt sich beispielsweise eine Kommunalität von 0.742 +0.032 = 0.55 (vgl. Tabelle 2.1.3 und Tabelle 2.1.4). Der Anteil an Streuung, der nicht erklärt wird, wird als Uniqueness bezeichnet. Die Anzahl der Faktoren wird im Rahmen der explorativen Faktorenanalyse durch das Verfahren festgelegt. Dabei stehen verschiedene Extraktionsverfahren zur Verfü gung.¹⁰ Das vorliegende Beispiel zeigt das Ergebnis der sogenannten Hauptkompo nentenmethode.¹¹ Bei der Hauptkomponentenmethode wird die Streuung der einzel nen manifesten Variablen jeweils auf den Wert 1 standardisiert. Folglich ergibt die

10 Für einen ausführlichen Überblick über die verschiedenen Extraktionsmöglichkeiten siehe Brown (2015) sowie Costello & Osborne (2005). 11 Die Hauptkomponentenmethode (principal component method) ist nicht zu verwechseln mit der Hauptkomponentenanalyse (principal component analysis). Während die hier behandelte Hauptkom ponentenmethode eine Extraktionsmethode im Rahmen der Faktorenanalyse darstellt, bezeichnet die

12 | 2 Der Anwendungsbereich von Faktorenanalysen

Summe aus der Kommunalität und der Uniqueness einer Variable stets den Wert 1 (vgl. zu diesem Abschnitt Byrne 2012, S. 82). Im Rahmen der Hauptkomponentenmethode kann das Kaiser-Kriterium zur Be stimmung der Faktorenanzahl herangezogen werden. Dabei werden alle Faktoren ex trahiert, also berechnet, deren Eigenwerte den Wert 1 überschreiten. Der Eigenwert eines Faktors entspricht dem Anteil erklärter Streuung durch diesen Faktor. Dies im pliziert, dass lediglich jene Faktoren ausgewählt werden, die mehr Streuung erklären, als eine manifeste Variable aufweist (vgl. zu diesem Abschnitt Yeomans & Golder 1982, S. 221–229). Mithilfe der Faktorenanalyse ließen sich stets maximal so viele Faktoren extrahie ren, wie manifeste Variablen in die Analyse einﬂießen (vgl. Brown 2015, S. 21). Dies ist jedoch nicht das Anliegen einer Analyse, die das Ziel hat, auf Basis der Gemeinsamkeit mehrerer Variablen latente Konstrukte hinter diesen Variablen zu entdecken. Im Ideal fall ﬁnden sich bei einer explorativen Faktorenanalyse verhältnismäßig wenige Fakto ren, die viel Streuung erklären. Die Faktoren sollten stets sowohl trennscharf als auch durch die Faktorladungen eindeutig bestimmbar sein (vgl. zu diesem Abschnitt Brown 2015, S. 27). Zu beachten ist, dass bei dem strukturentdeckenden Verfahren der explorativen Faktorenanalyse die statistische Analyse Aufschluss über die Struktur der Daten gibt (vgl. Reinecke 2014, S. 137–138). Die forschende Person ist dabei nicht dazu angehal ten, vor der Analyse eine bestimmte Struktur und entsprechend bestimmte inhaltliche Faktoren anzunehmen. Die Analyse untersucht hierbei kein theoretisch aufgestelltes Modell, sondern stellt quasi selbst ein Modell auf. Dieses Modell kann die forschende Person schließlich inhaltlich nachvollziehen und auslegen. Sobald das theoretische Modell aus den Daten abgeleitet wurde, besteht nicht mehr die Möglichkeit ebendie ses Modell (statistisch) zu überprüfen. So würden in einer erneuten statistischen Über prüfung lediglich jene Zusammenhänge wiedergegeben, die zum inhaltlichen Modell geführt haben.

2.2 Konﬁrmatorische Faktorenanalyse und Strukturgleichungsmodelle Eine andere Variante liegt in dem Verfahren der konﬁrmatorischen Faktorenanalyse, die Bestandteil der Strukturgleichungsmodellierung ist. Bei der konﬁrmatorischen Faktorenanalyse wird zunächst ein inhaltliches Faktorenmodell speziﬁziert, bevor dieses schließlich empirisch überprüft wird. Folglich handelt es sich dabei um ein strukturprüfendes Verfahren. Ein streng konﬁrmatorisches Vorgehen setzt voraus,

Hauptkomponentenanalyse ein davon abzugrenzendes Analyseverfahren. Für nähere Informationen dazu siehe Rencher (2003).

2.2 Konﬁrmatorische Faktorenanalyse und Strukturgleichungsmodelle | 13

dass ein theoretisches Modell bereits vor der statistischen Analyse der Daten konstru iert wird (vgl. Reinecke 2014, S. 138). In der Regel sollte sich ein solches Modell an bestimmten Theorien beziehungsweise dem Forschungsstand zu dem untersuchten Themengebiet orientieren. Ein lineares Strukturgleichungsmodell verbindet das Verfahren der linearen Re gression mit jenem der konﬁrmatorischen Faktorenanalyse. Mittels der konﬁrmatori schen Faktorenanalyse werden latente Variablen operationalisiert, deren Verbindun gen untereinander mithilfe von Regressionspfaden analysiert werden (vgl. zu diesem Abschnitt Byrne 2012, S. 5–7). Entsprechend ließe sich das Verfahren auf simple Weise schrittweise durchführen: Zuerst müssten dabei die latenten Variablen mithilfe der konﬁrmatorischen Faktorenanalyse berechnet werden, um im Anschluss Regressi onspfade zwischen den latenten Variablen zu modellieren. Allerdings werden bei der Strukturgleichungsmodellierung die konﬁrmatorische Faktorenanalyse und die Regressionen simultan geschätzt (vgl. Byrne 2012, S. 6–7). Schließlich dient dieses Verfahren dazu, ein Gesamtmodell zu prüfen. Die Güte des Modells ergibt sich dabei sowohl aus der Güte der konﬁrmatorischen Faktorenanalyse als auch aus der Güte der Regressionsanalyse. In keinem Fall sollte die Relevanz der konﬁrmatorischen Vorgehensweise bei Strukturgleichungsmodellen unterschätzt werden. Der große Vorteil der konﬁrmato rischen Analyse liegt in der Möglichkeit einer statistischen Überprüfung eines inhalt lichen Modells, innerhalb derer sich das Modell bestätigen oder verwerfen lässt. Bei der explorativen Analyse ist dies nicht der Fall, da hierbei das inhaltliche Modell aus der statistischen Analyse hervorgeht – der inhaltliche Gehalt eines solchen Modells darf mangels eines entsprechenden Prüfmechanismus allerdings bezweifelt werden. In der Forschungspraxis ﬁndet sich häuﬁg der Umstand, dass ein a priori aufge stelltes Strukturgleichungsmodell nicht zu den Daten passt und somit zunächst ver worfen werden müsste (vgl. Barrett 2007, S. 819–820). Barrett (2007, S. 821) weist dar auf hin, dass ein solcher Umstand ebenfalls darauf hindeuten könnte, dass das Modell deshalb nicht passt, weil bestimmte Voraussetzungen für die Variablen nicht erfüllt sind. Darunter könnte unter anderem die Annahme fallen, dass die Variablen nor malverteilt streuen. Eine Verletzung dieser Annahme kann zu verzerrten Schätzungen führen.¹² In jedem Fall sollte überprüft werden, ob die zu verwendenden Daten nicht nur inhaltlich, sondern ebenso statistisch dazu geeignet sind, die entsprechende Ana lyse durchzuführen, um somit Fehlschlüsse aus dem Analyseergebnis nach Möglich keit auszuschließen. Sollte die Analyse das theoretische Modell trotz erfüllter Annahmen widerlegen, so besteht die häuﬁg genutzte Möglichkeit, Modiﬁkationen des Modells vorzunehmen (vgl. Barrett 2007, S. 821). Diese sind mit äußerster Vorsicht umzusetzen. Während es

12 Sollten die Variablen nicht normalverteilt streuen, bestehen Möglichkeiten der Variablentransfor mation (vgl. Barrett 2007, S. 821).

14 | 2 Der Anwendungsbereich von Faktorenanalysen

moderne Statistik-Software in der Anwendung leicht macht, zwischen einer Vielzahl an möglichen Modiﬁkationen jene auszuwählen, die das Modell statistisch am stärks ten verbessern, ist die forschende Person selbst dazu angehalten, die mathematische Verbesserung des Modells nicht über den inhaltlichen Gehalt des Modells zu stellen (vgl. dazu auch Bentler 2007, S. 828). Ohne Probleme lässt sich jedes Modell mit zusätzlichen Schätzungen allein dadurch im statistischen Sinne verbessern, dass jede zusätzliche Schätzung die Er klärungsleistung des Modells erhöht und somit die Fehlerstreuung verringert. Eine statistische Verbesserung geht allerdings nicht zwangsläuﬁg mit einer inhaltlichen Verbesserung einher. Im Gegenteil wird in vielen Fällen durch die Schätzung einer zusätzlichen Korrelation zweier Variablen die statistische Güte eines Modells ver bessert, obwohl der inhaltliche Zusammenhang dieser Variablen nicht zwangsläuﬁg sinnvoll erscheint (vgl. Barrett 2007, S. 820). Ebenso besteht die Möglichkeit, dass eine ausgewählte Modiﬁkation des Modells zwar inhaltlich insofern nachvollziehbar ist, als es sich um einen Zusammenhang handelt, der naheliegend oder zumindest vorstellbar ist, jedoch nicht in das inhaltliche Konzept des Modells integriert werden kann, beispielsweise, wenn die dem Modell zugrunde liegende Theorie diesen Zusam menhang nicht stützt. Ein adäquater und reﬂektierter Umgang mit einem Struktur gleichungsmodell erfordert eine Vielzahl durchdachter Entscheidungen, bei denen die forschende Person stets zwischen zwischen der statistischen Anpassung eines Modells und dem konﬁrmatorischen Anspruch, ein theoretisch festgelegtes Modell zu prüfen, abwägen muss. Wie bereits deutlich wurde, ﬁnden sich starke Unterschiede im analytischen Vor gehen zwischen der explorativen Faktorenanalyse und der konﬁrmatorischen Fakto renanalyse. Auch auf mathematischer Ebene unterscheiden sich die Verfahren. Wäh rend die Korrelationsmatrix die Basis der explorativen Faktorenanalyse darstellt, wird das konﬁrmatorische Faktorenmodell mittels der Kovarianzen der manifesten Varia blen berechnet (vgl. Reinecke 2014, S. 9–10). Die Kovarianz s xy ist ein unstandardi siertes Zusammenhangsmaß für metrische Variablen und ist über die Formel 2.2.1 de ﬁniert (Bortz & Schuster, 2010, 153): s xy =

∑ni=1 (x i − x)̄ ⋅ (y i − y)̄ n

(2.2.1)

Im Zähler der Formel ﬁndet sich die Summe der Produkte der Abweichungen zweier Variablen x und y vom jeweiligen Mittelwert. Dadurch, dass diese Summe durch die Fallzahl n geteilt wird, ergibt sich ein mit der Varianz vergleichbares Durchschnitts maß. Die Kovarianz lässt sich entsprechend als gemeinsame Varianz zweier Variablen fassen (vgl. zu diesem Abschnitt Sedlmeier & Renkewitz 2008, S. 217).¹³

13 Zu beachten ist, dass die Höhe der Kovarianz nicht nur von der Stärke des Zusammenhangs der beiden Variablen abhängt, sondern ebenso von der Skala, auf der die Variablen gemessen werden. So ergibt beispielsweise die Abweichung vom Durchschnittsalter in Jahren im Mittel einen deutlich

2.2 Konﬁrmatorische Faktorenanalyse und Strukturgleichungsmodelle

| 15

Im Rahmen der konﬁrmatorischen Faktorenanalyse wird die latente Struktur in nerhalb der Daten mittels der Kovarianzmatrix analysiert. Um die latenten Variablen messbar zu machen, muss ihnen eine Skala zugewiesen werden. Dabei stehen zwei Optionen zur Auswahl. Eine Möglichkeit besteht darin, die Faktorladung einer Varia ble auf den Wert 1 zu ﬁxieren. Dadurch erhält der Faktor die Skala ebendieser Variable und die Streuung des Faktors wird dabei frei geschätzt. Diese Variante zeigt sich als nützlich, sofern die Streuung des Faktors und deren Veränderung von Interesse sind, zum Beispiel wenn die Entwicklung eines latenten Faktors über mehrere Zeitpunkte untersucht werden soll (vgl. zu diesem Abschnitt Reinecke 2014, S. 94–97). Sollte ein konﬁrmatorisches Modell für einen festen Zeitpunkt analysiert werden, so steht die Güte des Messmodells im Zentrum des Interesses. Als Messmodell wird die Verbindung zwischen den manifesten Variablen und den latenten Faktoren be zeichnet. Bei einem konﬁrmatorischen Faktorenmodell ist die Faktorenanalyse folg lich selbst das Messmodell. Sollten zusätzlich speziﬁsche Pfade zwischen den laten ten Faktoren untersucht werden, es sich somit um ein Strukturgleichungsmodell im eigentlichen Sinne handeln, so wird dieser weitere Teil des Modells als Strukturmo dell bezeichnet. Während das Messmodell die latenten Faktoren messbar macht, ana lysiert das Strukturmodell die Beziehungen zwischen den latenten Faktoren (vgl. zu diesem Abschnitt Byrne 2012, S. 6–7). Ein gutes Messmodell zeichnet sich dadurch aus, dass die manifesten Variablen, die einen latenten Faktor messbar machen, diesen gut abbilden. Auskunft darüber, wie gut die manifesten Variablen die Faktoren abbilden, geben die Faktorladungen. Durch die Fixierung der Streuung eines Faktors auf den Wert 1 können alle Faktorla dungen frei geschätzt werden und bemessen sich nicht mehr an der Streuung eines Indikators. Diese Variante führt dazu, dass die Koeffizienten des Modells standardi siert werden. Die Faktorladungen bewegen sich hierbei analog zu den standardisier ten Beta-Koeffizienten der linearen Regression in der Regel in einem Bereich zwischen −1 und 1. Ebenso wie bei der weiter oben beschriebenen Hauptkomponentenmetho de im Rahmen der explorativen Faktorenanalyse sprechen Faktorladungen nahe dem Wert 0 dafür, dass die jeweilige Variable nicht mit dem Faktor zusammenhängt und diesen folglich nicht misst. Werte nahe (−)1 ergeben sich, wenn die Variable den Fak tor sehr gut misst (vgl. zu diesem Abschnitt Reinecke 2014, S. 94). Bei der konﬁrmatorischen Faktorenanalyse wird für jede mögliche Faktorladung genau speziﬁziert, ob diese frei geschätzt werden soll oder auf den Wert 0 gesetzt und somit nicht frei geschätzt werden soll.¹⁴ Grundsätzlich sollten alle manifesten Indika toren eines Faktors einen signiﬁkanten Zusammenhang zu diesem Faktor und somit

geringeren Betrag als die Abweichung vom Durchschnittseinkommen in Euro. Um die Stärke des Zu sammenhangs beurteilen zu können, ist die Kovarianz somit nicht geeignet. Es handelt sich um ein unstandardisiertes Maß, dessen Wert sich nicht intuitiv einordnen lässt (vgl. zu diesem Abschnitt Rei necke 2014, S. 35). 14 Da die Faktorladungsstruktur entsprechend genau festgelegt ist, entfällt dabei die Notwendigkeit einer Rotation (vgl. Bortz & Schuster 2010, S. 405; Reinecke 2014, S. 138).

16 | 2 Der Anwendungsbereich von Faktorenanalysen

eine signiﬁkante Faktorladung aufweisen. Faktorladungen, die nicht signiﬁkant von Null verschieden sind, eigenen sich nicht zur Messung des entsprechenden Faktors. Wird die konﬁrmatorische Vorgehensweise genau betrachtet, so lässt sich erken nen, dass in einem konﬁrmatorischen Modell Faktorladungen mit dem Wert 0 gar nicht erst vorkommen sollten. So würde eine nicht signiﬁkante Faktorladung anzei gen, dass der entsprechende Indikator vollkommen unpassend ausgewählt wurde. In der Praxis sollte dies äußerst selten geschehen, sofern die forschende Person das zu untersuchende Modell mit Bedacht aus der Theorie und dem Forschungsstand abge leitet hat. Es wurde bereits erklärt, dass sich die Kommunalität einer Variable aus der Sum me der quadrierten Faktorladungen für diese Variable ergibt. Im Rahmen der explora tiven Faktorenanalyse werden bei der Hauptkomponentenmethode pro Variable die Faktorladungen von allen extrahierten Faktoren für die Berechnung der Kommuna lität berücksichtigt. Im Gegensatz dazu legt die forschende Person bei der konﬁrma torischen Faktorenanalyse selbst fest, welche Variable auf welchem Faktor lädt (vgl. zu diesem Teilabschnitt Reinecke 2014, S. 138). Zu beachten ist dabei, dass die Kom munalität einer manifesten Variable tendenziell geringer ausfällt, wenn letztere auf einem Faktor und nicht auf mehreren Faktoren lädt. Die Kommunalität lässt sich auf sehr einfache Weise aus den standardisierten Faktorladungen herleiten. Sollte die for schende Person die Faktorladungen einer konﬁrmatorischen Faktorenanalyse, bei der lediglich eindeutige Ladungen geschätzt werden, für ausreichend hoch erachten, so muss die Kommunalität ebenso adäquat sein, da sie sich zwangsläuﬁg aus dem Qua drat der Faktorladung ergibt. Zwar ist es im Rahmen der konﬁrmatorischen Faktorenanalyse auch möglich, mehrfache Ladungen zuzulassen, allerdings ist davon im Regelfall abzuraten, da ein Messmodell durch eindeutige Ladungen an Trennschärfe gewinnt, was der Interpre tierbarkeit äußerst dienlich ist. Die Relevanz dieses Vorgehens liegt in dem Umstand begründet, dass die latenten Faktoren nicht konkret erfragt werden, sondern ledig lich hinter den manifesten Variablen angenommen werden. Ein möglichst eindeutiger Modellaufbau ist somit unabdingbar: Aus dem Messmodell muss erkennbar sein, was die latenten Variablen messen. Zur Verdeutlichung lassen sich die folgenden Variablen des GMF-Surveys 2011 (vgl. GMF 2013) betrachten, die auf einer im Rahmen jener Studie als quasi-metrisch aufgefassten Zustimmungsskala mit vier Stufen abgefragt wurden: „Deutschland wird in einem gefährlichen Maß überfremdet“ (S. 60), „Die Ausländer in Deutschland ver achten die Deutschen“ (S. 63) sowie „Es leben zu viele Ausländer in Deutschland“ (S. 37). Eine Zustimmung zu einer oder mehrerer dieser Variablen kann als feindli che Tendenz gewertet werden. Würden nun diese drei Variablen genutzt, um einen gemeinsamen Faktor zu bilden, so würde hierbei nicht deutlich, ob generelle Frem denfeindlichkeit oder speziﬁsche Ausländerfeindlichkeit gemessen würde. Während zwei der Aussagen konkret auf „Ausländer“ eingehen, bezieht sich eine weitere Va

2.2 Konﬁrmatorische Faktorenanalyse und Strukturgleichungsmodelle | 17

riable auf die weniger speziﬁsche vermeintliche Überfremdung des Landes, die nicht explizit eine konkrete Gruppe anspricht. Bei mehrfachen Ladungen einer manifesten Variable ergibt sich zwangsläuﬁg das gleiche Problem. Verschiedene Faktoren innerhalb eines gemeinsamen Modells sollten trennscharf sein. Allerdings führen multidimensionale Variablen, welche den inhaltlichen Gehalt zweier potenzieller Faktoren des Modells wiedergeben kön nen, dazu, dass das Messmodell tendenziell weniger trennscharf ist. Die Variable „Deutschland wird in einem gefährlichen Maß überfremdet“ (GMF 2013, S. 60) kann sowohl Ausländerfeindlichkeit als auch Fremdenfeindlichkeit messen. Wenn nun diese Variable im Rahmen einer entsprechenden konﬁrmatorischen Faktorenanalyse neben anderen Indikatoren zwei derartige Faktoren misst, so kann die forschende Person nicht eindeutig erkennen, inwiefern der inhaltliche Gehalt dieser Variable die beiden Faktoren tatsächlich trennscharf erfasst. Unter Umständen würde durch diese doppelte Ladung der Faktor „Ausländerfeindlichkeit“ mit dem Faktor „Fremdenfeind lichkeit“ vermischt. Im Gegensatz zu reinen konﬁrmatorischen Faktorenanalysen sind in einem Struk turgleichungsmodell primär die Verbindungen zwischen den latenten Faktoren des Modells von inhaltlichem Interesse. Die forschende Person ist entsprechend dazu an gehalten, jene manifeste Variablen für die Messung der Faktoren zu wählen, welche das inhaltliche Konstrukt des Faktors gut und möglichst eindeutig messen. Mehrdi mensionale Variablen sind einer derartigen Analyse nicht dienlich (vgl. zu diesem Ab schnitt Byrne 2012, S. 4–5). Zusammenfassend lässt sich festhalten, dass ein tendenziell gutes Messmodell vorliegt, wenn alle Faktorladungen möglichst hoch und signiﬁkant sind. Wenn zusätz lich dazu Pfade zwischen den latenten Variablen analysiert werden und diese Pfade ihrerseits signiﬁkante und hohe Koeffizienten aufweisen, so handelt es sich um ein gu tes Strukturgleichungsmodell, welches sich im statistischen Sinn durch eine hohe Er klärungsleistung auszeichnet. Aus der inhaltlichen Perspektive liegen die größte Her ausforderung und das Ziel einer solchen Analyse darin, inhaltlich valide Faktoren¹⁵ zu bilden, also Faktoren, die tatsächlich das Konzept messen, das gemessen werden soll (vgl. hierzu Schnell et al. 2011, S. 146–147). Die faktorenanalytischen Verfahren werden genutzt, um latente Variablen mess bar zu machen und die Verbindungen zwischen diesen zu analysieren. Dafür ist die explorative Faktorenanalyse grundsätzlich ebenso geeignet wie die konﬁrmatorische Faktorenanalyse; allerdings ist die konﬁrmatorische Herangehensweise jene, die eine statistische Überprüfung eines (sozial-)wissenschaftlich entwickelten Modells ermög licht und somit der explorativen Analyse in vielen Fällen vorzuziehen ist.

15 Für eine ausführliche Erläuterung der Gütekriterien Validität, Reliabilität und Objektivität sie he Schnell et al. (2011, S. 146–157) sowie Diekmann (2008, S. 247–261).

3 Die Güte von Strukturgleichungsmodellen Zu einem guten konﬁrmatorischen Modell zählt sowohl dessen inhaltliche als auch dessen statistische Güte. Statistische Güte liegt vor, wenn das Modell, welches getes tet und analysiert wird – im Folgenden das hypothetische oder theoretische Modell -, den Zusammenhängen in der Stichprobe respektive den Daten sehr nahe kommt. Das hypothetische Modell muss inhaltlich begründet sein und beschreibt Hypothe sen über die Population. Um zu prüfen, ob diese Hypothesen aller Wahrscheinlichkeit nach auf die Population zutreffen, werden die Stichprobendaten als Schätzung für die Population genutzt. Wenn das hypothetische Modell stark von den Stichprobendaten abweichen sollte, ist es unwahrscheinlich, dass das Modell auf die Population zutrifft. Schließlich gibt eine zufällig gezogene unverzerrte Stichprobe ein verkleinertes Abbild der Population wieder (vgl. Diekmann 2008, S. 380). Passt das hypothetische Modell nicht zu den Stichprobendaten, so passt es wahrscheinlich auch nicht zur Population. Bei Strukturgleichungsmodellen ist folgender Aspekt zu beachten, welcher die Gesamtbewertung des Modells so elementar macht: Die statistische Güte eines Mo dells ist nicht ausreichend, wenn die im Modell speziﬁzierten latenten Faktoren nicht das messen, was gemessen werden soll. Nur wenn das Strukturgleichungsmodell samt Messmodell und Strukturpfaden insgesamt gut genug ist respektive die Zusammen hänge in den Daten in hohem Maß wiedergibt, kann aus statistischer Perspektive da von ausgegangen werden, dass das im Modell implizierte theoretische Konstrukt für die Stichprobe und gegebenenfalls für die Population gilt. Entsprechend starke Rele vanz kommt der Validität des Messmodells zu, die bei der Schätzung eines Struktur gleichungsmodells stets sichergestellt werden sollte. Während die bereits behandelten Faktorladungen und Strukturpfade erste An haltspunkte für die Güte eines konﬁrmatorischen Modells liefern, fungieren der χ2 -Test (of Model Fit) sowie die Fit-Indizes respektive Gütemaße oder Fit-Maße in der Forschungspraxis als feste Beurteilungswerkzeuge für die Modellgüte. Zudem ist neben dem Grad an Zuverlässigkeit der statistischen Gütetests bei Strukturglei chungsmodellen immer zu beachten, dass der inhaltliche Gehalt eines Modells von der forschenden Person sichergestellt werden muss: „The test is blind to whether the model actually predicts or explains anything to some substantive degree“ (Barrett 2007, S. 818).

3.1 Statistische Tests Strukturgleichungsmodelle bestehen immer aus einer Vielzahl diverser Zusammen hänge: Die Messung von latenten Faktoren durch manifeste Variablen ist ebenso Teil eines Strukturgleichungsmodells wie stark verzweigte Zusammenhangsstrukturen zwischen den latenten Variablen (vgl. Kline 2005, S. 209). Statistische Tests ermögli https://doi.org/10.1515/9783110624199-003

20 | 3 Die Güte von Strukturgleichungsmodellen

chen die Bewertung derartiger komplexer Modelle auf einen Blick. Doch wenngleich der statistische Test des hypothetischen Modells gegen ein geeignetes Vergleichsmo dell äußerst praktikabel ist, ergeben sich bei einer solchen χ2 -verteilten Teststatistik Umstände, die den Blick auf weitere Maßzahlen dringend nahelegen. Zunächst wird erläutert, wie ein theoretisches Strukturgleichungsmodell mittels eines Modellvergleichs evaluiert werden kann. Dabei werden mögliche Vergleichsmo delle besprochen und die Notwendigkeit der Berücksichtigung der Modellkomplexi tät, die über die Zahl der Freiheitsgrade¹⁶ gemessen werden kann, aufgezeigt. Daran anknüpfend wird der χ 2 -Test zur Bewertung der Modellgüte vorgestellt. Al lerdings weist dieser Test Schwächen auf, die vor allem die Sensitivität gegenüber der Fallzahl und, wie James Steiger (2007) nachvollziehbar darlegt, die diesem Test zu grunde liegende Testlogik, die üblichen statistischen Tests nachsteht, betreffen. An schließend wird im letzten Teil des Kapitels die Prüfung der Güte eines Strukturglei chungsmodells mithilfe der Fit-Maße eingeleitet, die im Gegensatz zum χ2 -Test die Evaluation der Anpassungsgüte eines Modells auch bei großen Stichproben erlauben.

3.1.1 Möglichkeiten des Modellvergleichs unter Berücksichtigung der Modellkomplexität Zur Bewertung der Güte eines Strukturgleichungsmodells ist der Vergleich des Mo dells mit einem ausgewählten Vergleichsmodell mittels eines χ 2 -Tests (auch als Devi anztest oder LR-Test bezeichnet) unerlässlich (vgl. Barrett 2007, S. 820; Bentler 2007, S. 825). Das Modell, welches primär für den Vergleich mit einem hypothetischen Mo dell genutzt wird, ist das saturierte Modell. Dieses Modell gibt die Zusammenhänge in der Stichprobe perfekt wieder, indem es alle möglichen Schätzungen nutzt und ent sprechend alle Freiheitsgrade verbraucht (vgl. Byrne 2012, S. 93). Falls das hypothe tische Modell die Zusammenhänge in den Daten genauso gut wiedergibt wie das sa turierte Modell, handelt sich ersteres um ein perfektes Modell im statistischen Sinn. Je näher folglich das aufgestellte hypothetische Modell am saturierten Modell liegt, desto besser ist es. Allerdings ist im Bereich der Statistik immer zu beachten, dass Modelle dann be sonders gut sind, wenn sie nicht nur viel Streuung erklären, sondern dabei zudem sparsam sind (vgl. Agresti & Finlay 2009, S. 467). Ein sparsames Modell zeichnet sich dadurch aus, dass es wenige Schätzungen aufwendet. Entsprechend sollte ein mög lichst starker Unterschied zwischen dem hypothetischen Modell und dem saturier ten Modell hinsichtlich der Freiheitsgrade bestehen. Während das saturierte Modell so viel wie nur möglich erklärt, werden auch alle möglichen Freiheitsgrade aufge braucht. Beim saturierten Modell handelt es sich insofern nicht um ein sparsames

16 Zur Deﬁnition von Freiheitsgraden siehe Kapitel 3.1.1.

3.1 Statistische Tests | 21

Tab. 3.1.1: Varianz-Kovarianzmatrix, Variablenbeispiel mit 10 df (mathematisch). y1 y1 y2 y3 y4

y2

y3

y4

σ 2y2 σ y3,y2 σ y4,y2

σ 2y3 σ y4,y3

σ 2y4

σ 2y1 σ y2,y1 σ y3,y1 σ y4,y1

Modell. Im besten Fall erklärt das hypothetische Modell annähernd so viel wie das saturierte Modell und das mittels möglichst weniger Schätzungen. Bei varianzanalytischen Verfahren wie der Strukturgleichungsmodellierung er gibt sich die Anzahl der Freiheitsgrade aus der Anzahl der zur Verfügung stehenden Informationen in Form von Zusammenhängen zwischen den manifesten Variablen und Streuungen der manifesten Variablen abzüglich der Anzahl der frei geschätzten Parameter des Modells r x (vgl. Brown 2015, S. 53). dfm =

p ⋅ (p + 1) − rx 2

(3.1.1)

Entsprechend der Kovarianzmatrix stehen beispielsweise für ein Variablenset mit vier manifesten Variablen zehn Informationen zur Verfügung, in Form von genau sechs Kovarianzen und vier Varianzen (vgl. Tabelle 3.1.1). Dabei ergibt sich die Zahl der Frei heitsgrade dfm für ein Strukturgleichungsmodell mit p manifesten Variablen entspre chend Formel 3.1.1. Mithilfe von zehn gegebenen Freiheitsgraden lassen sich maximal zehn Parameter schätzen; darunter fallen die mittels des Messmodells zu schätzenden Faktorladungen (vgl. Kline 2005, S. 170). Werden nun vier Variablen y1−y4 genutzt, um einen einzigen Faktor zu schät zen, so werden vier der zehn zur Verfügung stehenden Freiheitsgrade für die Schät zung der Faktorladungen verbraucht. Wenn alle vier Faktorladungen frei geschätzt werden und die Streuung der latenten Variable auf den Wert 1 ﬁxiert ist, so ist dies die standardisierte Lösung. Dabei wird kein Freiheitsgrad für die Schätzung der Streuung des Faktors benötigt. Weitere vier Freiheitsgrade werden bei einem solchen Modell verbraucht, um die Fehlerstreuungen der manifesten Variablen y1−y4 zu schätzen (vgl. Reinecke 2014, S. 94–97), womit sich ein solches Modell um zwei Freiheitsgrade vom saturierten Modell unterscheidet. Dieses Modell ist überidentiﬁziert, da mehr In formationen zur Verfügung stehen, als zur Schätzung des Modells erforderlich wären; insofern ist das Modell auch identiﬁzierbar respektive schätzbar (vgl. Reinecke 2014, S. 57). Mehrfaktorielle latente Strukturmodelle bestehen aus zwei oder mehr Faktoren, deren Zusammenhänge untersucht werden (vgl. dazu Byrne 2012, S. 43–44). Für jeden geschätzten Zusammenhang zwischen zwei latenten Variablen wird ein weiterer Frei heitsgrad aufgebraucht. Es handelt sich bei Zusammenhängen zwischen zwei latenten

22 | 3 Die Güte von Strukturgleichungsmodellen

Tab. 3.1.2: Varianz-Kovarianzmatrix, Variablenbeispiel mit 6 df (statistisch). y1 y1 y2 y3 y4

y2

y3

y4

σ 2y2 σy3,y2 σy4,y2

σ 2y3 σy4,y3

σ 2y4

σ 2y1 σy2,y1 σy3,y1 σy4,y1

Variablen entweder um ungerichtete Kovarianzen oder um gerichtete Pfadkoeffizien ten (vgl. Reinecke 2014, S. 13). In der Anwendung gilt zu beachten, dass Statistik-Software wie Stata oder Mplus die Anzahl der Freiheitsgrade nicht in dieser im Folgenden als mathematisch be zeichneten Betrachtungsweise wiedergibt (vgl. dazu Acock 2013, S. 19–21 und Christ & Schlüter 2012, S. 38), sondern in der folglich als statistisch bezeichneten Weise darlegt. Dabei ergibt sich die Anzahl an Freiheitsgraden allein aus der Anzahl der Zusammenhänge zwischen den manifesten Variablen. Somit lassen sich nicht mehr Parameter schätzen, als Kovarianzen vorhanden sind. Bei einem Variablenset von vier Variablen ergeben sich sechs Kovarianzen (vgl. Tabelle 3.1.2). Die Formel zur Bestimmung der Freiheitsgrade für ein Strukturgleichungsmodell mit p manifesten Variablen entlang der statistischen Betrachtungsweise lautet: dfs =

p ⋅ (p − 1) − rx 2

(3.1.2)

Für die Schätzung eines bestimmten Modells macht es keinen Unterschied, ob der ma thematische oder der statistische Ansatz gewählt wird. Das hängt damit zusammen, dass beim mathematischen Ansatz die Fehlervarianzen der manifesten Variablen als Schätzung gewertet werden (vgl. Reinecke 2014, S. 95), während dies bei Statistik-Soft ware wie Stata nicht der Fall ist (vgl. Acock 2013, S. 16–21). Beim mathematischen An satz werden im Vergleich zum statistischen Ansatz so viele zusätzliche Freiheitsgrade angenommen, wie manifeste Variablen im Modell vorhanden sind – für jede Variable eine Varianz. Gleichsam werden bei diesem Ansatz die Fehlerstreuungen der mani festen Variablen als Schätzungen gewertet, was zur Folge hat, dass die zusätzlichen Freiheitsgrade verbraucht werden. Beim statistischen Ansatz werden die Informatio nen, welche sich aus den Varianzen der manifesten Variablen ergeben, nicht in die Berechnung der Freiheitsgrade einbezogen. Gleichermaßen wird die Fehlerstreuung einer einzelnen manifesten Variable nicht als Schätzung gewertet (vgl. Acock 2013, S. 16–21 und Byrne 2012, S. 62–66), da sich diese direkt aus den geschätzten Faktor ladungswerten ergibt (vgl. dazu Kapitel 2.1) und mithilfe der Streuung der manifesten Variablen auf deren Basis berechnet werden kann; somit entfällt die Notwendigkeit einer Schätzung. Letztlich weist beim mathematischen sowie beim statistischen Ansatz ein be stimmtes hypothetisches Modell eine feste Differenz zum saturierten Modell bezüg

3.1 Statistische Tests |

23

lich der Freiheitsgrade auf, sodass die Auswahl zwischen dem mathematischen und dem statistischen Ansatz für die Modellevaluation nicht von Relevanz ist.¹⁷ Die Anzahl der Freiheitsgrade für einen bestimmten Modellvergleich ergibt sich aus der Differenz der Freiheitsgrade der beiden Modelle. Im Vergleich zwischen dem hypothetischen Modell und dem saturierten Modell können maximal so viele Frei heitsgrade vorliegen, wie insgesamt durch die Daten Schätzungen zur Verfügung stehen. Wenn ein Modell mit sechs Variablen berechnet wird, stehen dem Modell ( 6⋅(6−1) =) 15 Freiheitsgrade zur Verfügung. Weist nun das geschätzte Modell genau 2 so viele Freiheitsgrade Differenz zum saturierten Modell auf, wie Schätzungen zur Verfügung stehen – im Beispiel 15 Freiheitsgrade –, so heißt das in diesem konkre ten Fall, dass nichts erklärt wird: Das leere Modell wird geschätzt. Zu überprüfende Modelle sollten in der Forschungspraxis in Bezug auf die Zahl der Freiheitsgrade immer zwischen dem saturierten und dem leeren Modell liegen und entsprechend überidentiﬁziert sein.¹⁸ Ein Modell mit mehr Freiheitsgraden als das entsprechende saturierte Modell wird als unteridentiﬁziert bezeichnet und ist aufgrund des Mangels an benötigten Informa tionen nicht lösbar (vgl. Byrne 2012, S. 32–33). Ein Modell, bei dem alle Freiheitsgra de für die Schätzung des Modells verbraucht werden, ist zwar mathematisch lösbar (vgl. Kline 2005, S. 169–170), allerdings ist ein solches bereits per Deﬁnition dem sa turierten Modell gleich und kann hinsichtlich der Güte nicht überprüft werden, da jedes Modell, welches dem saturierten Modell entspricht, in der statistischen Deﬁni tion perfekt angepasst ist und zwar unabhängig davon, wie sinnvoll die geschätzten Parameter ausgewählt wurden. Das saturierte Modell ist nicht nur jenes Modell, das so viel Streuung wie nur möglich erklärt, es ist zudem auch das Modell, welches als gerade identiﬁziert gilt (vgl. Reinecke 2014, S. 96). Das saturierte Modell gilt als Vergleichsmodell für das zu überprüfende hypothe tische Modell.¹⁹ Ein weiteres Vergleichsmodell für die Bewertung eines Strukturglei chungsmodells ist das leere Modell, das auch als baseline model oder Nullmodell be zeichnet wird. Beim leeren Modell werden alle möglichen Zusammenhänge zwischen den Variablen des Modells auf den Wert 0 ﬁxiert. Entsprechend erklärt dieses Modell keine Streuung. Während das zu überprüfende Modell eine geringe Devianz zum satu 17 Im weiteren Verlauf dieser Arbeit wird dem Ansatz der Statistik-Programme Stata und Mplus gefolgt und die statistische Betrachtungsweise gewählt. 18 Nach der sogenannten t-Regel sollte die Anzahl der zu schätzenden Parameter t kleiner oder auch gleich der Anzahl gegebener Informationen sein (vgl. Reinecke 2014, S. 57). Es ist zu beachten, dass für den Fall, dass die Anzahl der Schätzungen genau der Anzahl gegebener Informationen entspricht, das Modell automatisch zum saturierten Modell wird. Wieso ein solches Modell nicht dazu geeignet ist, statistisch getestet zu werden, wird im Verlauf der folgenden Ausführungen deutlich. 19 Der Vergleich hinsichtlich der Erklärungskraft und der Freiheitsgrade zwischen dem hypotheti schen Modell und dem saturierten Modell ﬁndet sich bei moderner Statistik-Software unter dem „Test of Model Fit“ (Mplus) (vgl. Christ & Schlüter 2012, S. 38–39; Muthén & Muthén 2010, S. 362) sowie unter dem „Likelihood Ratio Test: model vs. saturated“ (Stata) (vgl. Acock 2013, S. 21).

24 | 3 Die Güte von Strukturgleichungsmodellen

rierten Modell aufweisen und somit möglichst nah am saturierten Modell liegen soll te, sollte es möglichst weit vom leeren Modell entfernt sein und die Devianz entspre chend groß sein (vgl. zu diesem Abschnitt Bollen 1989a, S. 304–305). Es sollte beachtet werden, dass zwar viele Modelle mehr Streuung erklären als das leere Modell, jedoch nur wenige dieser Modelle ausreichend nahe am saturierten Modell liegen: Eine Ab weichung vom leeren Modell ist eine notwendige, allerdings keine hinreichende Be dingung für eine gute Modellanpassung. Der Test gegen das saturierte Modell erfährt einen deutlich stärkeren Gebrauch als jener gegen das leere Modell.

3.1.2 Testlogik und Implikationen des χ 2 -Tests Zwei Strukturgleichungsmodelle, im vorliegenden Kontext das hypothetische Modell einerseits und das saturierte oder in manchen Fällen auch das leere Modell anderer seits, lassen sich über den χ2 -Test vergleichen. Dieser wird auch als LR-Test bezeich net und vergleicht zwei Modelle über die Differenz der Devianzen, welche sich bei der Maximum-Likelihood-Schätzung (ML-Schätzung) jeweils direkt aus der Loglikeli hood (LL) eines Modells berechnen lassen (vgl. zu diesem Abschnitt Jöreskog 1993, S. 299–300). Bei Statistik-Software wie Stata und Mplus wird die LL eines Strukturgleichungs modells immer direkt angegeben (vgl. dazu Acock 2013, S. 18 sowie Byrne 2012, S. 66). Die Devianz ergibt sich aus der Multiplikation der LL mit dem Wert −2. Genauer er gibt sich der Funktionswert der Maximum-Likelihood (ML)-Schätzung entsprechend Formel 3.1.3 (vgl. Reinecke 2014, S. 101): ̂ + tr(SΣ−1 (Θ)) ̂ − log |S| − p FML = log |Σ(Θ)|

(3.1.3)

Unter der Annahme, dass das theoretische Modell in der Population zutrifft, dient die ̂ als Schätzung für die dem theoretischen Mo modellimplizierte Kovarianzmatrix Σ(Θ) dell unterstellten Zusammenhänge. Die empirische Kovarianzmatrix der Stichprobe (S) ergibt sich aus den Zusammenhängen innerhalb der Stichprobe und dient für die Schätzung der Zusammenhänge innerhalb der Population. Sollte das theoretische Mo ̂ − dell auf die Population zutreffen, so gilt annähernd Σ(Θ)̂ = S und damit ist log |Σ(Θ)| −1 ̂ log |S| ≈ 0. In diesem Fall gleicht zudem die Spur der Matrix tr(SΣ (Θ)) der Anzahl an Variablen p. Der Funktionswert von Gleichung 3.1.3 würde entsprechend Null (vgl. zu diesem Abschnitt Pöge 2017, S. 146; Reinecke 2014, S. 101). Unter Gebrauch aktueller Statistik-Software gestaltet sich der LR-Test äußerst anwendungsfreundlich. Das hängt damit zusammen, dass unter der Voraussetzung verschachtelter Modelle²⁰ Devianzen χ2 -verteilt streuen und somit leicht anhand der

20 Als geschachtelt oder hierarchisch gelten Modelle, wenn das restringiertere Modell (beispielsweise das hypothetische Modell) alle Parameter schätzt, die das weniger restringierte Modell (zum Beispiel

3.1 Statistische Tests |

25

theoretischen χ 2 -Verteilung geprüft werden können (vgl. Reinecke 2014, S. 119–120). Zusätzlich dazu, dass es sich für diese Art des Modellvergleichs um hierarchische Modelle handeln muss, lässt sich das ML-Schätzverfahren nur verwenden, wenn die metrischen manifesten Variablen multivariat normalverteilt streuen (vgl. Brown 2015, S. 345–346). Eine multivariate Normalverteilung liegt vor, wenn die einzelnen Varia blen jeweils normalverteilt streuen und untereinander lineare Beziehungen aufweisen (vgl. Agresti & Finlay 2009, S. 533). Sollte diese Voraussetzung nicht erfüllt sein, so kann den geschätzten Signiﬁkanzen des Modells nicht vertraut werden (vgl. Bentler 2007, S. 827). Der χ2 -Test wird auch als Unabhängigkeitstest bezeichnet (vgl. Sedlmeier & Renkewitz 2008, S. 563–567) und berechnet mittels der Devianzen zweier Modelle, ob diese Modelle unabhängig voneinander sind. Beim Vergleich zwischen dem hypo thetischen und dem saturierten Modell sollte sich nach Möglichkeit kein signiﬁkanter Unterschied ﬁnden (siehe dazu Kapitel 3.1.2). Ein signiﬁkanter LR-Test im Rahmen ei nes Vergleichs eines hypothetischen Modells mit dem zugehörigen saturierten Modell spricht dafür, dass das hypothetische Modell nicht zu den Daten passt, was dessen Gültigkeit in Frage stellt. Zu beachten ist ein relevanter Nachteil des χ 2 -Tests: Je höher die Fallzahl ist, desto höher wird der χ 2 -Testwert tendenziell. Das ergibt sich aus der Teststatistik χ2ML , die dem Produkt aus dem Funktionswert (vgl. Formel 3.1.3) und der um eins reduzierten Fallzahl entspricht (vgl. Reinecke 2014, S. 113): χ2ML = (n − 1) ⋅ FML

(3.1.4)

Bereits geringe Abweichungen fallen bei entsprechend großen Fallzahlen stark ins Gewicht. Zwar werden bei der χ 2 -Verteilung die Freiheitsgrade berücksichtigt, jedoch erlauben diese bei Strukturgleichungsmodellen keinen Schluss auf die Fallzahl (siehe dafür auch Kapitel 3.1.1 dieser Arbeit; vgl. Iacobucci 2010, S. 91). Die Kritikpunkte bezüglich der alleinigen Verwendung des χ2 -Tests für die Eva luation eines Modells sind nachvollziehbar (vgl. dazu Barrett 2007, S. 825–827; Brown 2015, S. 69; Kline 2005, S. 135–137): Zusätzlich zur hohen Sensitivität des Tests und der oftmals verletzten Anwendungsvoraussetzung multivariater Normalverteilung kri tisiert James Steiger die dem Test zugrunde liegende Logik, nach der Modelle als be stätigt angesehen werden, wenn kein signiﬁkantes Ergebnis vorliegt (vgl. Steiger 2007, S. 894). Dieses Vorgehen widerspricht den üblichen statistischen Tests, bei denen die Forschungshypothese über einen Parameter angenommen wird, wenn dieser Parame ter signiﬁkant von einem festen Nullhypothesenwert abweicht (vgl. Agresti & Finlay 2009, S. 143–146).

das saturierte Modell) schätzt, wobei das weniger restringierte Modell zusätzlich dazu weitere Para meter schätzt; andernfalls sind beide Modelle identisch (vgl. Kline 2005, S. 145). Ein hypothetisches Modell ist immer in dem dazugehörigen saturierten Modell geschachtelt.

26 | 3 Die Güte von Strukturgleichungsmodellen

3.1.3 Alternative Testlogik nach James Steiger Vor dem Hintergrund der starken Kritik am χ 2 -Test hat eine von Barrett (2007, S. 818) gestellte Forderung, den χ2 -Test als alleinigen Test zur Bestimmung der Güte von Strukturgleichungsmodellen zu verwenden, James Steiger dazu veranlasst, die zen tralen Kritikpunkte am χ2 -Test erneut aufzugreifen und eine konkrete alternative Testlogik vorzuschlagen. Barrett kritisiert, dass die Interpretation des χ 2 -Tests bereits vor Jahren an Rele vanz verloren hat (vgl. Barrett 2007, S. 817–819). Er sieht die Vorteile von statistischen Signiﬁkanztests und fordert, bei der Bewertung der Güte eines Strukturgleichungsmo dells stets den χ 2 -Test zu verwenden. Darüber hinaus rät er von der Verwendung von Fit-Indizes, welche keine statistischen Tests sind, ab: „In fact, I would recommend banning ALL such indices from ever appearing in any paper as indicative of model ‚acceptability‘ or ‚degree of misﬁt‘“ (Barrett 2007, S. 821). Insgesamt ﬁnden die Fit-Indizes bei der Bewertung der Modellgüte allerdings nach wie vor eine stärkere Verwendung als der χ2 -Test (vgl. Brown 2015, S. 70). Dies wird unter anderem dadurch begründet, dass diese Indizes den Nachteilen des Tests, beispielsweise der hohen Sensitivität gegenüber der Fallzahl, nachkommen (vgl. Byrne 2012, S. 68–69; Hu & Bentler 1999, S. 3). So sieht auch Steiger einen star ken Nutzen in den zur Modellevaluation dienlichen Fit-Indizes, mithilfe derer jeweils verschiedene relevante Faktoren in die Beurteilung eines Strukturgleichungsmodells einﬂießen (vgl. Steiger 2007, S. 894–895): Neben der stets relevanten absoluten Abwei chung des Modells von den Daten, welche der χ2 -Test untersucht, können Fit-Indizes die durch eine hohe Fallzahl bedingte Abweichung des Modells korrigieren. Einige Fit-Indizes berücksichtigen zusätzlich dazu die relative Modellverbesserung, also den konkreten Erkenntniszugewinn im Vergleich zu einem schlechteren Modell; auch das Kriterium der Modellsparsamkeit ﬁndet Berücksichtigung bei bestimmten Fit-Maßen (siehe Kapitel 3.2.1) (vgl. zu diesem Abschnitt Brown 2015, S. 67–73 sowie Hu & Bentler 1999, S. 3). Steiger kritisiert zum einen die Striktheit des χ2 -Tests, die für Strukturgleichungs modelle – die stets sparsam und somit auch restriktiv sein sollten – nicht angemessen ist (vgl. Steiger 2007, S. 894). Strukturgleichungsmodelle schaffen Verbindungen zwi schen latenten Konstrukten, die jeweils aus mehreren verschiedenen Indikatoren be stehen. Komplexe Zusammenhangsstrukturen können damit in relativ einfacher Wei se dargestellt und messbar gemacht werden. Dass nicht jede kleinste Abweichung in einem entsprechend umfangreichen Modell erklärt werden kann, liegt auf der Hand. Stärker verwundert, dass die im Rahmen des χ2 -Tests geprüfte Nullhypothese nach wie vor für die Bewertung von Strukturgleichungsmodellen Bestand hat. Neben den bereits behandelten Nachteilen des χ 2 -Tests kritisiert Steiger darüber hinaus vor allem die „accept-support“-Logik (Steiger 2007, S. 894), welche bei diesem Test Anwendung ﬁndet. Dabei wird die eigentliche Forschungshypothese zur Nullhy pothese. Schließlich lautet die Nullhypothese des hier behandelten χ2 -Tests, dass das

3.2 Fit-Indizes |

27

hypothetische Modell nicht vom saturierten Modell abweicht. Ein hypothetisches Mo dell wird folglich bestätigt (support), wenn die Nullhypothese beibehalten wird (ac cept) (vgl. Brown 2015, S. 67–69). Entgegen der Logik üblicher Signiﬁkanztests wird dabei eine Annahme als bestätigt angesehen, wenn sie mittels der zur Verfügung ste henden Informationen nicht verworfen werden kann. Damit geht einher, dass Modelle mit einer geringeren statistischen Power²¹ eine stärkere Tendenz dazu haben, als pas send eingestuft zu werden; denn die hier angewandte Testlogik ändert nichts daran, dass die Nullhypothese leichter verworfen werden kann, wenn die Power des Modells hoch ist. Je schwächer das Modell ist, desto eher bleibt die Nullhypothese bestehen (vgl. zu diesem Abschnitt Steiger 2007, S. 894). Aufgrund dieser eindeutigen Schwächen des Tests schlägt Steiger vor, das Test verfahren so umzukehren, dass es der bekannten Testlogik von Signiﬁkanztests ent spricht. Dabei greift er auf die Verwendung von Fit-Indizes zurück. Würde beispiels weise ein bestimmter Schwellenwert für einen ausgewählten Fit-Index als Nullhypo thesenwert gewählt und einseitig getestet, sodass die Nullhypothese zurückgewiesen würde, wenn der Wert eine bessere Modellbewertung nahelegt, als der Schwellen wert impliziert, entspräche dies der bekannten Logik von Signiﬁkanztests. Je geringer die Power des Modells wäre, desto unwahrscheinlicher würde das Modell als ausrei chend gut eingestuft. Durch die Anwendung dieses üblichen Testverfahrens auf FitIndizes könnte zudem die Bedingung einer akzeptablen Modellanpassung das Kriteri um einer perfekten Modellanpassung ablösen (vgl. zu diesem Abschnitt Steiger 2007, S. 894–897). Steiger veranschaulicht die von ihm vorgeschlagene Testlogik mithilfe des FitMaßes Root Mean Square Error of Approximation (RMSEA). Bereits 1990 hat Steiger vorgeschlagen, diesen Index mit einem Konﬁdenzintervall zu versehen, um so Wahr scheinlichkeitsaussagen über das Intervall treffen zu können, in dem dieses Gütemaß zu erwarten ist, anstatt lediglich einen festen Wert zu betrachten, mit dessen Hilfe kein statistischer Test durchgeführt werden kann (vgl. Steiger 1990, S. 176–178). Im Rahmen der Software Mplus wird dieser Vorschlag durch die Angabe eines 95-prozen tigen Konﬁdenzintervalls für den RMSEA implementiert (vgl. Byrne 2012, S. 75).

3.2 Fit-Indizes Die Sensitivität des χ2 -Tests bezüglich der Fallzahl einer Stichprobe erschwert es for schenden Personen, allein mittels dieses Tests zu einer adäquaten Einschätzung der statistischen Güte eines Modells zu gelangen (vgl. Barrett 2007, S. 816). Eine große

21 Unter statistischer Power oder Teststärke wird die Wahrscheinlichkeit bezeichnet, eine falsche Nullhypothese korrekterweise abzulehnen. Mit einer größeren Stichprobe steigt die Power für ein be liebiges Modell (vgl. dazu Sedlmeier & Renkewitz 2008, S. 374–384).

28 | 3 Die Güte von Strukturgleichungsmodellen

Stichprobe, die beispielsweise mehr als 800 Personen aufweist, ist in den Sozialwis senschaften keine Seltenheit (vgl. Agresti & Finlay 2009, S. 4). In vielerlei Hinsicht ist dies ein großer Vorteil, wenn es grundsätzlich darum geht, Aussagen über die Popu lation zu treffen. So kann eine Zufallsstichprobe tendenziell eher ein repräsentatives Abbild der Population darstellen, wenn die Größe der Stichprobe die Größe der Popu lation approximiert. In diesem konkreten Fall gilt dies genauso. Schließlich werden Strukturglei chungsmodelle zumeist geschätzt, um Aussagen über eine interessierende Popula tion treffen zu können. Sollte in einem ﬁktiven Beispiel die Population aus 17 000 Studierenden bestehen und die Stichprobe einen Umfang von tausend Studieren den aufweisen, ist es wahrscheinlicher, dass alle Studienrichtungen, Altersgruppen und Interessensgruppen darin vertreten sind, als wenn die Stichprobe aus 130 Per sonen bestünde (vgl. Diekmann 2008, S. 401–410). Die Lösung zum Problem der Sensitivität des χ2 -Tests kann somit nicht darin liegen, kleinere und weniger aussa gekräftige Stichproben zu ziehen (vgl. Steiger & Lind 1980, S. 6). Vielmehr sollte ein Ansatz verfolgt werden, bei dem im Gegensatz zum χ2 -Test nicht automatisch bei hohen Fallzahlen Modelle verworfen werden, die lediglich geringe Abweichungen zu den Daten aufweisen. Einen solchen Ansatz verfolgen die Fit-Indizes. Während der χ2 -Test prüft, ob das hypothetische Modell exakt zu den Daten passt, lässt sich mithilfe der Fit-Indizes feststellen, wie gut das hypothetische Modell zu den Daten passt. Minimale Abweichungen führen dabei nicht zwangsläuﬁg dazu, das Modell zu verwerfen (vgl. Bentler 2007, S. 827–829). Neben dem bereits erwähnten RMSEA ﬁndet sich eine Vielzahl weiterer Fit-Indi zes. Unter diesen sind der Tucker-Lewis Index (TLI), der Comparative Fit Index (CFI) und der Standardized Root Mean Square Residual (SRMR) insofern besonders be liebt, als sie in der aktuellen Forschung besonders häuﬁg Erwähnung ﬁnden (vgl. dazu Brown 2015, S. 74; Byrne 2012, S. 76; Iacobucci 2010, S. 90 und Kaplan 2009, S. 113) und im Vergleich zu vielen weiteren Fit-Indizes besondere Vorteile aufweisen. So handelt es sich bei allen vier Fit-Indizes um standardisierte Maße, die in der Praxis einen festen Wertebereich aufweisen, was diese Maße deutlich leichter interpretierbar macht als Fit-Maße, deren Wertebereich schwankt (vgl. Brown 2015, S. 70). Darüber hinaus werden diese Fit-Indizes in beliebter Statistik-Software wie Stata oder Mplus für die Bewertung von Strukturgleichungsmodellen verwendet (siehe dazu Christ & Schlüter 2012, S. 38–39 sowie Acock 2013, S. 21). Ebendiese Fit-Indizes stehen im Fokus der folgenden Ausführungen. Fit-Indizes lassen sich in zwei Kategorien einteilen. Grundsätzlich wird zwischen absoluten Fit-Indizes und komparativen oder inkrementellen Fit-Indizes unterschieden (vgl. Reinecke 2014, S. 112). Absolute Fit-Indizes messen, wie gut ein hypothetisches Modell die Stichprobendaten reproduziert; in anderen Worten misst ein solcher Index, inwiefern das hypothetische Modell zu den Daten passt und folglich auf die Populati on übertragen werden kann. Der SRMR und der RMSEA zählen zu den absoluten FitIndizes (vgl. Hu & Bentler 1999, S. 2), wenngleich beispielsweise Brown (2015, S. 71)

3.2 Fit-Indizes | 29

Maße wie den RMSEA einer dritten Kategorie, den sogenannten parsimony correction Fit-Indizes, zuordnet. Dem Namen entsprechend korrigieren diese Maße für Modell sparsamkeit, wobei sparsame Modelle in der Bewertung der Güte „belohnt“ werden. Damit wird berücksichtigt, dass der χ 2 -Test mit jedem zusätzlich geschätzten Parame ter des Modells zwangsläuﬁg besser ausfällt (vgl. Steiger 1990, S. 178–179). Komparative Fit-Indizes, wie zum Beispiel der CFI und der TLI, messen zusätz lich dazu die relative Modellverbesserung im Vergleich zu einem restringierteren Mo dell; bei letzterem handelt es sich in der Regel um das entsprechende leere Modell. Während die komparativen Gütemaße die relative Verbesserung einem restringierte ren Modell gegenüber in die Modellbewertung einﬂießen lassen, ist dies bei den ab soluten Fit-Indizes nicht der Fall (vgl. zu diesem Abschnitt Hu & Bentler 1999, S. 2).

3.2.1 RMSEA: Root Mean Square Error of Approximation Der Root Mean Square Error of Approximation (RMSEA) wurde 1980 von James H. Steiger und John C. Lind entwickelt und zunächst unter dem Kürzel RMS verwendet (vgl. Steiger & Lind 1980, S. 7). Die heutige Bezeichnung RMSEA wurde von Browne und Cudeck geprägt (vgl. Browne & Cudeck 1993, S. 144 und Steiger 2016, S. 777–778). Steiger und Lind deﬁnieren den RMSEA wie folgt (vgl. Steiger & Lind 1980, S. 1–7): RMSEA = √

max [(χ2H − df)/(n − 1), 0] df

(3.2.1)

Innerhalb der Software R wird für die Formel n statt n − 1 genutzt (vgl. Pornprasert manit 2016, Abschnitt Details).²² Bei einer großen Fallzall führt dies lediglich zu mini malen Diskrepanzen. Der RMSEA spricht umso mehr für ein gutes Modell, je geringer der Wert ist. Es handelt sich insofern um einen Badness-of-ﬁt-Index (vgl. Christ & Schlüter 2012, S. 39). Seiner Bezeichnung nach gibt der RMSEA die Wurzel des durchschnittlichen Fehlers an. Im Zähler des Quotienten wird die um die Anzahl der Freiheitsgrade (df ) redu zierte Devianz zwischen dem hypothetischen und dem saturierten Modell (χ2H ) durch die (um den Wert 1 reduzierte) Anzahl der Fälle dividiert. Dieser Term wird durch den Wert 0 ersetzt, wenn der Zähler einen negativen Wert annimmt. Die Devianz gibt das Ausmaß der Abweichung vom perfekten Modell an, welche nicht nur für schlecht angepasste Modelle, sondern auch für besonders sparsame Mo delle tendenziell höher ausfällt. So wird bei einem Modell mit relativ wenigen frei geschätzten Parametern, zwangsläuﬁg ein gewisser Anteil an Streuung nicht erklärt, wodurch die Devianz wächst. Innerhalb der Formel des RMSEA korrigiert die bei ei nem sparsamen Modell tendenziell höhere Anzahl an Freiheitsgraden diesen Anstieg 22 Auch andere Software-Programme nutzen diese Korrekturformel (vgl. Brown 2015, S. 71; Byrne 2012, S. 74).

30 | 3 Die Güte von Strukturgleichungsmodellen

der Devianz, durch die Reduktion der Devianz um die Zahl der Freiheitsgrade (vgl. zu diesem Teilabschnitt Brown 2015, S. 71). Oftmals wird davon gesprochen, dass in ei nem solchen Fall sparsame Modelle „belohnt“ werden. Zu beachten gilt, dass die Zahl der Freiheitsgrade einer konkreten χ2 -Verteilung dem Durchschnittswert dieser Vertei lung entspricht (vgl. Agresti & Finlay 2009, S. 226; Gerbing & Anderson 1993, S. 44). Sollte sich ein hypothetisches Modell somit ausschließlich bezüglich der Anzahl der Schätzungen vom saturierten Modell unterscheiden, so lässt sich die durchschnittli che Devianz χ 2H direkt über die Anzahl an Freiheitsgraden ermitteln. Folglich ergibt die Differenz aus χ2H − df annähernd den Wert 0, wenn das hypothetische Modell dem saturierten Modell entspricht. Sollte unter der Voraussetzung einer sehr guten Modell anpassung der χ 2 -Testwert kleiner ausfallen als die Zahl der Freiheitsgrade, so ergibt sich ein negativer Wert für den Zähler. Dabei wird für den Zähler der Wert 0 eingesetzt und der RMSEA nimmt auch in diesem Fall den bestmöglichen Wert 0 an (vgl. Hu & Bentler 1999, S. 3). Der Wert 1 kann prinzipiell überschritten werden, allerdings ge schieht dies in der Praxis äußerst selten (vgl. Brown 2015, S. 72). Indem durch die (um den Wert 1 reduzierte) Anzahl der Fälle dividiert wird, gibt der RMSEA einen über die Anzahl der Personen gemittelten Wert aus. Dieser wird durch die Zahl der Freiheitsgrade dividiert. So wird berechnet, wie hoch der mittle re Fehler im Verhältnis zu den nicht genutzten Schätzungen ist. Ist das Verhältnis pro Freiheitsgrad hoch, so ist der mittlere Fehler – unter Kontrolle der Sparsamkeit des Modells – hoch und das Modell somit schlecht angepasst. Ist dieses Verhältnis sehr gering, so ist die Abweichung vom perfekten Modell gering, was auf ein gutes Modell hinweist (vgl. zu diesem Abschnitt Reinecke 2014, S. 117–118).

3.2.2 TLI: Tucker-Lewis Index Der TLI zählt zur Gruppe der inkrementellen oder komparativen Fit-Indizes (vgl. Hu & Bentler 1999, S. 2–3; Reinecke 2014, S. 123–125). Ledyard R. Tucker und Charles Lewis haben den TLI bereits im Jahr 1973 entwickelt (vgl. Steiger 2007, S. 896). Als ein Good ness-of-ﬁt-Index misst der TLI die Güte des Modells; dabei sprechen höhere Werte für ein besseres Modell (vgl. Tucker & Lewis 1973, S. 4–5). Der TLI ist wie folgt deﬁniert: TLI =

χ 2B df B

−

χ 2B df B

χ 2H df H

−1

(3.2.2)

Im Zähler des Terms ﬁndet sich die Differenz zwischen dem Verhältnis der Devianz und der Freiheitsgrade des Nullmodells (B) und dem entsprechenden Term für das hypothetische Modell (H). Im Nenner der Formel ﬁndet sich wiederum das Verhältnis aus der Devianz und den Freiheitsgraden des Nullmodells, von dem der Wert 1 sub trahiert wird. Eine verhältnismäßig große Abweichung respektive Devianz zwischen dem satu rierten Modell und dem Nullmodell (χ 2B ) führt zu einem tendenziell hohen positiven

3.2 Fit-Indizes | 31

Wert. Ein Modell, das gut zu den Daten passt, weist eine relativ geringe Devianz (χ 2H ) und geringe Abweichung von dem saturierten Modell auf. In jenem Fall würde die Ab χ2

χ2

weichung im Zähler ( dfBB − dfHH ) hoch und umso höher, je mehr Freiheitsgrade (dfH ) das hypothetische Modell aufweist. Sparsamere Modelle werden so über die Korrek tur mittels der Freiheitsgrade belohnt (vgl. Brown 2015, S. 73). Sollte das Verhältnis χ 2H df H kleiner als 1 werden, die Differenz zwischen dem hypothetischen Modell und dem saturierten Modell im Verhältnis zur Anzahl der Freiheitsgrade entsprechend äußerst gering sein, so würde der Zähler größer als der Nenner des TLI und der TLI einen Wert größer als 1 annehmen.²³ Da der Wert des TLI nicht zwangsläuﬁg innerhalb des In tervalls [0, 1] liegt, wird der TLI auch als Non-Normed Fit Index (NNFI) bezeichnet (vgl. Byrne 2012, S. 71; Reinecke 2014, S. 123–124).

3.2.3 CFI: Comparative Fit Index Der CFI gehört ebenso wie der TLI zu den inkrementellen Fit-Indizes (vgl. Hu & Bentler 1999, S. 2–3) und vergleicht das hypothetische Modell mit dem Nullmodell. Peter M. Bentler entwickelte diesen Index 1990 mittels einer Modiﬁzierung des von McDonald und Marsh entwickelten Relative Noncentrality Index (RNI) (vgl. Hu & Bentler 1999, S. 3). Während der RNI wie der TLI außerhalb der Grenzen 0 und 1 liegen kann, ist der CFI auf den Wertebereich zwischen 0 und 1 standardisiert (vgl. zu diesem Abschnitt auch Reinecke 2014, S. 125). Der CFI lässt sich mithilfe der folgenden Formel berechnen (vgl. Bentler 1990, S. 240–241): max [χ2H − dfH , 0] CFI = 1 − (3.2.3) max [χ 2B − dfB , χ2H − dfH , 0] Bei der Berechnung des CFI wird das Verhältnis aus der um die Anzahl der Freiheits grade reduzierten Devianz des hypothetischen Modells (H) zur um die Anzahl der Frei heitsgrade reduzierten Devianz des Nullmodells (B) vom Wert 1 subtrahiert; allerdings gilt diese Formel ausschließlich, sofern die Anzahl der Freiheitsgrade des hypotheti schen Modells nicht den χ2H -Testwert übersteigt und – wie zumeist – das hypotheti sche Modell, gemessen an den Freiheitsgraden, eine größere Erklärungskraft als das Nullmodell hat. Je sparsamer das Modell ist, desto größer ist die Anzahl der Freiheitsgrade des hypothetischen Modells dfH respektive desto mehr mögliche freie Schätzungen ver bleiben. Der Zähler wird für sparsame Modelle kleiner. Der Zähler wird ebenfalls klei ner, je geringer die Abweichung des hypothetischen Modells vom saturierten Modell χ 2H ist. Für sparsame Modelle, die zudem annähernd so viel Streuung erklären wie das 23 Im Rahmen moderner Statistik-Software wie Mplus wird der TLI auf 0 und 1 ﬁxiert, falls der jewei lige Wert unter- bzw. überschritten wird (vgl. Byrne 2012, S. 71 und Christ & Schlüter 2012, S. 39).

32 | 3 Die Güte von Strukturgleichungsmodellen

perfekte Modell, wird der Zähler des Terms und somit der gesamte Term annähernd 0. In einem solchen Fall liegt der CFI annähernd beim Wert 1, was für ein sehr gutes Mo dell spricht (vgl. zu diesem Teilabschnitt Reinecke 2014, S. 124). Der Vergleich mittels des χ2 -Tests für das Nullmodell ﬁndet sich im Nenner des Terms. Das heißt, dass je näher das hypothetische Modell im Verhältnis zum Nullmodell am saturierten Modell liegt, desto geringer wird der Quotient und desto höher wird der Wert des CFI (vgl. zu diesem Abschnitt auch Brown 2015, S. 72–73). Sollte die Anzahl der Freiheitsgrade des hypothetischen Modells den χ 2H -Testwert übersteigen, was ausschließlich bei einem sehr gut angepassten Modell möglich ist, so wird im Zähler der Wert 0 eingesetzt. In jenem Fall liegt der CFI beim Maximal wert 1. Der kleinstmögliche Wert 0 wird für den CFI dadurch festgelegt, dass im Fall eines sehr schlecht angepassten hypothetischen Modells, das sehr viele Freiheitsgra de verbraucht und dabei sehr wenig erklärt, für den Nenner die Differenz von χ2H − dfH eingesetzt wird, wenn der Term χ 2B − dfB kleiner wird als die Differenz für das hypothe tische Modell. Das führt dazu, dass der Quotient im zweiten Teil der Formel den Wert 1 annimmt und der CFI entsprechend beim Wert 0 liegt. Dieser Fall sollte kaum auftre ten, da ein derart schlecht angepasstes Modell viele unsinnige Parameter beinhalten müsste.

3.2.4 SRMR: Standardized Root Mean Square Residual Peter M. Bentler hat den Standardized Root Mean Square Residual (SRMR) im Jahr 1995 entwickelt. Der SRMR zählt wie der RMSEA zur Gruppe der absoluten Fit-Indizes (vgl. Hu & Bentler 1999, S. 2) und vergleicht das hypothetische Modell nur mit dem saturierten Modell und nicht mit einem restringierteren Modell, wie es bei den inkre mentellen Fit-Indizes der Fall ist. Folgende Formel beschreibt den SRMR (vgl. Bentler 1995, S. 271): p i r2ij ] SRMR = √2 ⋅ [ ∑ ∑ p ⋅ (p + 1) i=1 j=1 ] [

(3.2.4)

Der SRMR gibt die durchschnittliche Abweichung zwischen den geschätzten Korrela tionen und den beobachteten Korrelationen wieder. Die Abweichungen zwischen den hypothetischen und beobachteten Korrelationen (r ij ) werden quadriert und aufsum miert und durch den Term (p ⋅ (p + 1)) dividiert. Schließlich wird dieser Term mit dem Wert 2 multipliziert; dadurch ﬂießt die Anzahl der Freiheitsgrade²⁴ in die Formel ein. Diese Anzahl wird für kovarianzanalytische Modelle über die Formel p⋅(p+1) berechnet 2

24 Diese folgt hierbei dem mathematischen Ansatz und entspricht der Anzahl an Werten auf und unter der Diagonale innerhalb der Kovarianzmatrix und damit der Anzahl von Kovarianzen und Varianzen.

3.2 Fit-Indizes | 33

und ﬂießt dadurch in die Formel des SRMR ein, dass zunächst die aufsummierten qua drierten Fehlerkorrelationen durch den Zähler dieser Teilformel (p ⋅ (p + 1)) dividiert und schließlich mit dem Wert 2 multipliziert werden bevor schließlich die Quadrat wurzel des Terms gezogen wird (vgl. zu diesem Abschnitt Brown 2015, S. 70–71; Hu & Bentler 1999, S. 3). Je größer die durchschnittliche Abweichung des Modells von den Daten ist, desto größer wird der SRMR. Der SRMR korrigiert weder für die Modellkomplexität noch ver gleicht er das Modell mit dem Nullmodell. Betrachtet werden bei diesem Maß lediglich die absoluten Fehler (vgl. zu diesem Abschnitt Byrne 2012, S. 76). Dahingehend unter scheidet sich der SRMR von allen anderen betrachteten Gütemaßen: Während diese über den χ 2 -Test die Devianz in die Modellanpassung einbeziehen, bezieht sich der SRMR auf die Abweichungen der Korrelationen.

4 Fit-Indizes als Indikatoren der Güte Fit-Indizes werden genutzt, um die statistische Güte eines theoretischen Modells zu bewerten. Sie können somit dabei helfen, ein Modell als statistisch schlecht angepasst oder akzeptabel zu identiﬁzieren. Die Forschungsliteratur weist darauf hin, dass ver schiedene Fit-Indizes unterschiedliche Aspekte berücksichtigen, die in Zusammen hang mit der Bewertung der Güte stehen, zum Beispiel die Fallzahl und die Modell komplexität (vgl. Tanaka 1993, S. 15). Zudem reagieren die verschiedenen Gütemaße unterschiedlich stark auf verschiedene Arten der Fehlspeziﬁkation eines Strukturglei chungsmodells sowie auf die Verteilung der Daten. Der folgende Abschnitt (Kapitel 4.1) dient dazu, aufzuzeigen, inwiefern diese As pekte hinsichtlich der hier behandelten Gütemaße in der Forschungsliteratur berück sichtigt werden. Daraus lassen sich konkrete Erwartungen für einzelne Sensitivitäten der behandelten Fit-Maße ableiten. Diese Forschungserwartungen werden innerhalb dieses Kapitels entwickelt. Abschnitt 4.2 greift die im wissenschaftlichen Diskurs emp fohlenen Schwellenwerte für die einzelnen Gütemaße auf. Der begrenzte Nutzen die ser konkreten Schwellenwerte wird dabei herausgestellt und der Vorschlag von Hu und Bentler (1999), für die Überprüfung jedes Modells zwei Fit-Indizes zu verwenden, aufgegriffen und genauer betrachtet.

4.1 Implikationen der Fit-Indizes Unter den Fit-Indizes lassen sich normierte und nicht normierte Maße voneinander unterscheiden. Fit-Indizes, die auf einen bestimmten Wertebereich normiert sind, werden nicht normierten Fit-Indizes vorgezogen, da sie eine leichtere Interpretier barkeit bieten (vgl. Gerbing & Anderson 1993, S. 41; Tanaka 1993, S. 23–24). Für die hier untersuchten Fit-Indizes gilt annähernd ein Wertebereich von 0 bis 1 (vgl. Brown 2015, S. 71–72; Reinecke 2014, S. 127). Modelle, in denen sehr viele Zusammenhänge geschätzt werden, erklären tenden ziell allein aufgrund der vielen Schätzungen mehr Streuung als sparsame Modelle, die wenige Schätzungen beinhalten. Die Modellsparsamkeit ist folglich ein wichtiges Kri terium bei der Bewertung der Modellgüte (vgl. Tanaka 1993, S. 22). Dass in einem kom plexen Modell viele Freiheitsgrade aufgebraucht werden und deshalb viel Streuung er klärt wird, bedeutet nicht, dass das Modell auch Zusammenhänge beinhaltet, die von inhaltlich substanziellem Interesse sind. Ein sparsames Modell, mit dem viel Streuung erklärt wird, beinhaltet in den meisten Fällen einzelne Schätzungen, die viel Streuung erklären und damit tendenziell inhaltlich relevanter sind als Schätzungen, die wenig Streuung erklären. Die Fit-Indizes wurden diesbezüglich bereits untersucht. So be steht in der Literatur Einigkeit darüber, dass der CFI und der SRMR die Anzahl der Schätzungen kaum berücksichtigen, während der TLI die Modellsparsamkeit ebenso https://doi.org/10.1515/9783110624199-004

36 | 4 Fit-Indizes als Indikatoren der Güte

in die Modellbewertung einbezieht wie der RMSEA (vgl. Brown 2015, S. 71–73; Byrne 2012, S. 73–74; Kline 2005, S. 137–143; Hu & Bentler 1999, S. 3). Die Anzahl der Schätzungen eines Strukturgleichungsmodells hängt mitunter von der Anzahl an Variablen im Modell ab. So werden bei Modellen mit vielen Indikatoren zwangsläuﬁg viele Zusammenhänge geschätzt. Gerbing & Anderson (1993, S. 50–51) legen nahe, dass bestimmte Fit-Indizes die Güte von Modellen mit vielen Indikatoren oder vielen Faktoren automatisch schlechter einstufen²⁵, der TLI diese Komplikation jedoch nicht aufweist. Zwar gibt die Literatur keinen expliziten Hinweis darauf, aller dings zeigen unter anderem die Ergebnisse der Simulationsstudie von Hu und Bentler (1999, S. 27), dass neben dem TLI auch die Fit-Indizes CFI, RMSEA und SRMR für die Bewertung von sparsamen und komplexen Modellen ähnlich gut geeignet sind.²⁶ Gerbing und Anderson (1993, S. 43) weisen zudem darauf hin, dass bestimmte FitIndizes hohe Werte für die Modellgüte aufweisen können, wenn das Messmodell sehr gut angepasst ist, während das oftmals eigentlich interessierende Strukturgleichungs modell keine akzeptable Güte aufweist. Dies wird durch den Umstand bedingt, dass im Rahmen des Messmodells mit den Faktorladungen zumeist viele Parameter geschätzt werden, während im Rahmen des Strukturmodells im Vergleich dazu wenige Zusam menhänge analysiert werden. Die hier untersuchten Fit-Indizes weisen derartige Sen sitivitäten bisherigen Erkenntnissen zufolge nicht auf. Demzufolge weist der SRMR ein besonders hohes Maß an Sensitivität gegenüber Fehlspeziﬁkationen des Struktur modells auf, während der CFI, der TLI und der RMSEA als die mitunter sensitivsten Fit-Indizes bezüglich möglicher Fehlspeziﬁkationen des Messmodells gelten (vgl. Hu & Bentler 1999, S. 16). Gerbing und Anderson (1993) beschreiben den idealen Fit-Index unter anderem dadurch, dass dieser die Güte unabhängig davon angibt, ob dem Modell eine kleine oder große Stichprobe zugrunde liegt (vgl. Gerbing & Anderson 1993, S. 41). Die Er gebnisse von Bentlers Simulationsstudie (1990) legen nahe, dass der CFI allenfalls minimal in Abhängigkeit zur Fallzahl steht, wobei für perfekt angepasste Modelle stets eine geringe Verzerrung nach unten besteht beziehungsweise der Wert 1 leicht – und für große Fallzahlen nur noch marginal – unterschritten wird (vgl. Bentler 1990, S. 246). Für den TLI gilt eine ebenso geringe Sensitivität gegenüber der Stichproben größe (vgl. Gerbing & Anderson 1993, S. 50) und auch der RMSEA gilt als robust ge genüber der Fallzahl (Brown 2015, S. 71). Während Chen den SRMR ebenfalls als rela tiv robust gegenüber der Fallzahl einstuft (vgl. Chen 2007, S. 467; sowie auch Cangur & Ercan 2015, S. 157), merkt Yu (2002, S. 161) an, dass der SRMR im Gegensatz zum RMSEA, TLI und CFI sensitiv auf die Fallzahl reagiert; Hooper et al. (2008) präzisieren

25 So z. B. der Goodness-of-Fit Index (GFI) und der Adjusted Goodness-of-Fit Index (AGFI), die hier sowie in den meisten aktuellen Forschungsarbeiten nicht näher betrachtet werden. 26 Diese Forschungserwartung ist in Tabelle 4.1.1 unter Komplexität festgehalten.

4.1 Implikationen der Fit-Indizes | 37

Tab. 4.1.1: Forschungserwartungen zu den Sensitivitäten der Fit-Indizes.

RMSEA TLI CFI SRMR

Fallzahl

Komplexität des Modells

Fehlspeziﬁkation des Messmodells

Fehlspeziﬁkation des Strukturmodells

Schiefe der Indikatoren

nein+ nein+ nein+ ja–

nein+ nein+ nein+ nein+

ja+ ja+ ja+ nein–

nein– nein– nein– ja+

nein+ nein+ nein+ nein+

Zusätzlich angegeben ist die Bewertung der entsprechenden Eigenschaften als hilfreich (+) oder hin derlich (–) für die Modellevaluation.

diesen Umstand insofern, als dieses Gütemaß Modelle mit steigender Fallzahl besser einstuft (vgl. Hooper et al. 2008, S. 55). Es stellt sich folglich die Frage, inwiefern der SRMR als sensitiv gegenüber der Fallzahl eingestuft werden kann und ob diese potenzielle Sensitivität für die gesamte Spannweite an Stichprobengrößen gilt, die in den Sozialwissenschaften üblich sind. Beispielsweise wäre denkbar, dass sich ein Anstieg in der Fallzahl zwar bis zu einer ge wissen Stichprobengröße (z. B. n = 1000) bemerkbar macht, ab dieser Höhe allerdings Veränderungen der Fallzahl kaum Auswirkungen auf die Höhe des SRMR haben. Dies bezüglich sei darauf hingewiesen, dass der SRMR aufgrund einer solchen Sensitivität bei großen Stichproben möglicherweise selbst dann im akzeptablen Bereich liegen könnte, wenn dem Modell grobe Fehlspeziﬁkationen zugrunde liegen. Eine eindeu tige Forschungserwartung ergibt sich aufgrund der unterschiedlichen Annahmen in nerhalb der Literatur nicht. Allerdings lässt sich eine Fallzahlsensitivität am ehesten für den SRMR ableiten (siehe dazu Tabelle 4.1.1). Im Rahmen der linearen Strukturgleichungsmodellierung muss ein Schätzverfah ren zur Schätzung der Modellparameter gewählt werden. Besonders häuﬁg ist dies die Maximum-Likelihood-Schätzmethode (ML-Schätzmethode) (vgl. Brown 2015, S. 92), der die Annahme der Normalverteilung der Variablen zugrunde liegt (vgl. Muthén 1993, S. 206). Das macht die Robustheit der Fit-Indizes hinsichtlich der Verteilungen der Indikatoren äußerst relevant. Aus der Simulationsstudie von Yu (2002, S. 55–66) geht hervor, dass die Fit-Indi zes im Rahmen der ML-Schätzung sensitiv auf Verletzungen der Normalverteilungs annahme reagieren. Dabei wurde eine Verletzung der Normalverteilung sowohl über erhöhte Kurtosiswerte als auch über eine erhöhte Schiefe speziﬁziert.²⁷ Die größte Fall zahl wurde in dieser Studie auf n = 1000 festgelegt. Mit stärkerer Verletzung der Nor malverteilung sinkt dabei für den SRMR die Rate korrekt verworfener Modelle, folglich 27 Die Schiefe wird als drittes Moment um den Mittelwert bezeichnet, während die Kurtosis das vierte Moment darstellt. Für weitere Informationen zur Schiefe und Kurtosis siehe Kühnel & Krebs (2007, S. 102–103) oder Reinecke (2014, S. 32)

38 | 4 Fit-Indizes als Indikatoren der Güte

stuft dieses Gütemaß einen größeren Anteil fehlspeziﬁzierter Modelle als korrekt ein (vgl. Yu 2002, S. 64–66). Im Gegensatz dazu wird für den RMSEA, den CFI und den TLI mit stärkerer Verletzung der Normalverteilung der Indikatoren ein höherer Anteil an fehlspeziﬁzierten Modellen korrekterweise abgelehnt (vgl. Yu 2002, S. 55–63). Hu und Bentler (1999) haben in einer umfangreichen Simulationsstudie eben falls den Effekt der Verteilung der Indikatoren auf die Fit-Indizes untersucht und herausgestellt, dass mit unterschiedlichen Verteilungsspeziﬁkationen die Höhe der vier relevanten Fit-Indizes variiert (vgl. Hu & Bentler 1999, S. 27–28). Allerdings wurde in dieser Studie die Verletzung der Normalverteilungsannahme lediglich über un terschiedliche Werte der Kurtosis, jedoch nicht über unterschiedliche Schiefegrade untersucht (vgl. Hu & Bentler 1999, S. 8).²⁸ Weder in der Simulationsstudie von Hu und Benter (1999) noch in jener von Yu (2002) wird der Einﬂuss von schiefen Indikatoren auf die Fit-Indizes isoliert be trachtet. Auch Byrne (2012, S. 98–99) legt den Fokus der Verletzung multivariater Normalverteilung im Rahmen von Strukturgleichungsmodellen deutlich stärker auf die Ausprägung der Kurtosis als auf die Schiefe der Verteilung: Byrne verweist auf De Carlo (1997), der die Befunde von Jobson (1991, S. 55–56) und Bibby et al. (1979, S. 148–149) darlegt, denen zufolge die Kurtosis stärkere Auswirkungen auf varianz analytische Schätzungen hat als die Schiefe. Jobson (S. 56) weist ebenso wie Muthén (1993, S. 206) explizit darauf hin, dass der χ 2 -Test bei Verletzung der Normalvertei lungsannahme Verzerrungen aufweisen kann. Diese Verzerrungen schätzt Jobson (S. 56) für stark abweichende Kurtosiswerte als gravierender ein als für eine starke Schiefe der Variablen. Byrne weitet diese Annahme auf die Fit-Indizes aus und legt nahe, dass vor allem die χ2 -basierten Fit-Maße CFI, TLI und RMSEA bei einer erhöhten Kurtosis irreführende Schlüsse implizieren (vgl. Byrne 2012, S. 99). Der Effekt schiefer Variablen auf die Fit-Indizes wird als geringfügig aufgefasst (vgl. dazu Tabelle 4.1.1), allerdings gibt es dazu bislang keine umfassenden Analysen. Tabelle 4.1.1 fasst die Forschungsannahmen der vorliegenden Studie zusammen. Diese beziehen sich auf Aspekte, die sich dem Forschungsstand zufolge auf die Höhe der Fit-Indizes auswirken können und somit bei der Bewertung eines Modells mittels der Fit-Indizes von starker Relevanz sind. Zu beachten ist, dass bestimmte Sensitivitä ten wie jene bezüglich der Fehlspeziﬁkation des Mess- oder Strukturmodells hilfreich für die Evaluation der Güte sind (ja/+), während zum Beispiel eine Sensitivität ge genüber der Fallzahl die Bewertung der Güte erschwert (ja/–). Der Literatur zufolge reagieren der RMSEA, der TLI und der CFI nicht besonders sensitiv auf die Fallzahl. In Anlehnung an Hooper, Coughlan und Mullen (2008, S. 55) wird erwartet, dass der

28 Zwar hat Boomsma (1983) eine umfangreiche Simulationsstudie zu Strukturgleichungsmodellen durchgeführt und dabei den Einﬂuss der Kurtosis und der Schiefe auf die Höhe bestimmter Schätzpa rameter im Rahmen der ML-Schätzung gesondert untersucht (vgl. Boomsma 1983, S. 48); allerdings wurde deren Effekt auf die in der vorliegenden Arbeit relevanten Fit-Indizes dabei nicht untersucht (vgl. Boomsma 1983, S. 28).

4.2 Schwellenwerte |

39

SRMR sensitiv auf die Fallzahl reagiert. Das ist in der Spalte „Fallzahl“ der Tabelle 4.1.1 mit der Forschungserwartung „ja“ vermerkt. Eine Sensitivität gegenüber der Modell komplexität ist obigen Ausführungen zufolge ebenso wie eine Sensitivität gegenüber der Schiefe der Variablen nicht hilfreich (–) bei der Modellbewertung; der Forschungs literatur zufolge ist die letztgenannte Sensitivität – ebenso wie jene bezüglich der Mo dellkomplexität – nicht zu erwarten (vgl. Tabelle 4.1.1). Der isolierte Effekt der Schiefe wurde allerdings bislang nicht untersucht und ist gerade aus diesem Grund von be sonderem Interesse.

4.2 Schwellenwerte Fit-Maße können der forschenden Person nur in jenem Fall helfen, wenn mit ihnen jeweils konkrete Orientierungswerte einhergehen, die Urteile bezüglich des Anpas sungsgrades eines Modells erlauben. Bisherige Forschungsarbeiten haben sich aus führlich mit den optimalen Schwellen für die einzelnen Fit-Indizes beschäftigt, wobei die Vorschläge teilweise variieren. Browne und Cudeck (1993, S. 146–147) erläutern im Zuge ihrer Empfehlungen zu den Schwellenwerten der Fit-Indizes einen wichtigen Aspekt beim Umgang mit die sen: So handelt es sich bei den Schwellenwerten für Gütemaße jeweils um eine sub jektiv gesetzte Grenze. Schließlich bewegt sich die Modellgüte auf einem Kontinuum, bei dem nicht ab einem bestimmten Wert von einem guten Modell gesprochen werden kann, während ein Modell, das lediglich minimal weniger erklärt, bereits als schlecht angepasst eingestuft wird. Die Autoren geben allerdings berechtigterweise zu beden ken, dass es sich bei dem in den Sozialwissenschaften etablierten Signiﬁkanzniveau von 5 % ebenfalls um eine gleichermaßen arbiträr gewählte Schwelle handelt. Derarti ge Grenzwerte sind trotz ihrer willkürlichen Bestimmung notwendig, um forschenden Personen den Umgang mit den jeweiligen Parametern zu erleichtern. Browne und Cudeck (1993) interpretieren einen RMSEA kleiner oder gleich 0.05 als Hinweis auf ein gut angepasstes Modell und einen Wert kleiner als 0.08 als Indi kator für eine akzeptable Güte; RMSEA-Werte größer als 0.1 implizieren dagegen eine schlechte Modellanpassung (Browne & Cudeck 1993, S. 144). Dieser Konvention schlie ßen sich Bollen & Curran (2006, S. 47), Brown (2015, S. 72) sowie Reinecke (2014, S. 118) an. Hu & Bentler (1999, S. 1) kommen zu dem Schluss, dass ein Schwellenwert von 0.06 zu der geringsten Fehlerrate führt und setzen entsprechend diese etwas weniger strik te Grenze von 0.06 für ein gut angepasstes Modell an. Auch unter Berücksichtigung dieses leicht abweichenden Vorschlags besteht ein weitgehender Konsens bezüglich der Schwellen des RMSEA. Simulationsstudien können den akzeptablen Wertebereich einzelner Fit-Indizes eingrenzen und dabei die von Browne & Cudeck aufgegriffene Subjektivität bei der Wahl eines festen Schwellenwertes abschwächen. Die Ergebnisse der Simulationsstu dien von Hu und Bentler (1999, S. 1) legen für den CFI einen Schwellenwert von 0.95 na

40 | 4 Fit-Indizes als Indikatoren der Güte

he. Dieser Schwellenwert stößt auf einen starken Konsens in der Forschungsgemein schaft (vgl. z. B. Brown 2015, S. 74; Christ & Schlüter 2012, S. 39; Iacobucci 2010, S. 90). Es ﬁnden sich lediglich minimale Abweichungen beispielsweise bei Reinecke (2014, S. 127) und bei Yu (2002, S. 43), die eine etwas strengere Untergrenze von 0.96 vor schlagen. Weiterhin scheint unumstritten, dass ein Wert kleiner als 0.9 dafür spricht, das Modell zu verwerfen (vgl. dazu z. B. Brown 2015, S. 74–75 und Byrne 2012, S. 70). Für den TLI werden ähnliche Schwellen vorgeschlagen wie für den CFI.²⁹ Liegt der TLI für ein bestimmtes Modell über dem Wert 0.95, so spricht dies für eine gute Mo dellanpassung (vgl. Hu & Bentler 1999, S. 1; Kaplan 2009, S. 113 und Reinecke 2014, S. 127). Die Vorschläge zur Schwelle des SRMR variieren stärker als für die anderen Fit-Indizes: Hu & Bentler (1999, S. 1) haben im Rahmen ihrer Simulationsstudien für den SRMR eine Obergrenze von 0.08 ermittelt. Kline (2005) schlägt hingegen die et was weniger strenge Grenze von 0.1 vor, während eine Reihe von Autoren (vgl. Byrne 2012, S. 76; Reinecke 2014, S. 119 und Yu 2002, S. 43) eine Obergrenze von 0.05 als angemessen betrachten. Da die unterschiedlichen Fit-Indizes verschiedene Aspekte der Modellgüte be achten, formulieren Hu & Bentler den plausiblen Vorschlag, bei der Evaluation eines Strukturgleichungsmodells stets zwei Fit-Indizes zu berücksichtigen (vgl. Hu & Bent ler 1999, S. 23). Ihrem Vorschlag zufolge sollte der SRMR in Kombination mit einem weiteren Fit-Index genutzt werden. Aus den Ergebnissen der Autoren geht hervor, dass die Kombination des SRMR mit dem CFI zu den mitunter geringsten Fehlern geführt hat (Hu & Bentler 1999, S. 24).³⁰ Sinnvoll ist dies insofern, als die Forschungslitera tur nahelegt, dass der SRMR das Strukturmodell besonders berücksichtigt, jedoch im Gegensatz zum CFI nicht für die Stichprobengröße korrigiert (siehe Tabelle 4.1.1). Allerdings könnte eine Kombination aus dem SRMR und dem TLI beziehungsweise dem RMSEA eine bessere Option als die Empfehlung von Hu und Bentler darstellen (vgl. Kapitel 4.1): Zwar berücksichtigen – der Forschungsliteratur zufolge – sowohl der TLI als auch der RMSEA wie der CFI die Größe der Stichprobe; jedoch nehmen sie darüber hinaus Korrekturen bezüglich der Modellkomplexität vor, während weder der CFI noch der SRMR dazu geeignet sind, dies zu tun. Prinzipiell soll die Verwendung mehrerer bewährter Fit-Indizes die Modellevalua tion erleichtern, insbesondere, wenn diese jeweils unterschiedliche Aspekte der Güte besonders gewichten. So ließe sich annehmen, dass ein Modell, das unter Berücksich tigung der Stichprobengröße, der Modellkomplexität und der gegebenen Verteilungen

29 Das hängt unter anderem damit zusammen, dass es sich bei beiden Maßen um Goodness-of-ﬁt Indizes handelt. Zwar kann der TLI grundsätzlich außerhalb der Grenzen 0 und 1 liegen, allerdings geschieht dies in der Praxis selten. Bollen (1989b, S. 273) und Reinecke (2014, S. 124) weisen darauf hin, dass eine Überparametrisierung des Modells dazu führen könnte, dass der Wert 1 überschritten wird. 30 Es sei darauf hingewiesen, dass sowohl der SRMR als auch der CFI von Peter M. Bentler entwickelt wurden.

4.2 Schwellenwerte | 41

der Indikatoren einen hinreichend großen Anteil der Zusammenhänge innerhalb der Daten erklärt und somit im statistischen Sinn gut angepasst ist, mithilfe der Fit-Indizes als gut angepasst bewertet werden kann. Ebenso wäre anzunehmen, dass ein Modell, das (zu) wenige Zusammenhänge in den Daten wiedergibt, als nicht gut angepasst identiﬁziert werden kann. Die simultane Verwendung von RMSEA, TLI, CFI und SRMR sollte dazu führen, dass jeder Aspekt bei der Modellbewertung Berücksichtigung ﬁn det und die Entscheidung, das Modell beizubehalten oder zu verwerfen, deutlich er leichtert wird. In der Praxis gestaltet sich die Modellbewertung allerdings oftmals schwieriger, als es die bisherigen Ausführungen vermuten lassen. Wenn ein Modell mithilfe sämt licher Fit-Indizes als gut angepasst bewertet werden kann, ist die Entscheidung leicht. Sollte allerdings ein Strukturgleichungsmodell beispielsweise auf Basis der Schwellen des SRMR, des CFI und des RMSEA als gut angepasst bewertet werden, der TLI aller dings nicht über der akzeptierten Grenze liegen, so ist der forschenden Person in den meisten Fällen nicht klar, inwiefern dieses Modell hinsichtlich bestimmter Aspekte (nicht) akzeptabel ist. Um folglich den Umgang mit Fit-Indizes in der Forschungspra xis zu erleichtern, wird in der vorliegenden Arbeit ein umfassendes Forschungsdesign implementiert, das in dem folgenden Kapitel beschrieben wird.

5 Methode Im Rahmen der vorliegenden Arbeit werden die Fit-Indizes mithilfe einer Monte-CarloSimulation untersucht. Eine Monte-Carlo-Simulation dient dazu, die Verteilung be stimmter Parameter zu untersuchen. Dazu wird eine konkrete Population speziﬁziert, aus der eine festgelegte Anzahl an Stichproben gezogen wird. Bestimmte Kennwerte dieser Stichproben liegen dabei im Zentrum des Interesses und können mittels einer vielfachen Stichprobenziehung umfänglich untersucht werden. Auch wenn die Da ten bei einer solchen Simulation ﬁktiv sind, lassen sich die Ergebnisse durchaus auf Analyseszenarien mit realen Daten beziehen. So können Simulationsergebnisse die Auswertung realer Daten deutlich verbessern. Sämtliche wissenschaftliche Erkenntnisse zu den Fit-Indizes ergeben sich aus derartigen Simulationsstudien (vgl. Gerbing & Anderson 1993, S. 48–56). Innerhalb der Zeitschrift Structural Equation Modeling beinhaltet knapp ein Drittel der veröffent lichten Artikel Monte-Carlo-Studien (vgl. Boomsma 2013, S. 518). Muthén und Muthén (2002, S. 600) weisen explizit darauf hin, dass sich Monte-Carlo-Simulationen sehr gut dafür eignen, Fit-Indizes zu untersuchen. Die Analyse wird mittels der Software R durchgeführt. Diese Software ist nütz lich, um umfangreiche Simulationsstudien mit vielen unterschiedlichen Stichprobenund Datencharakteristiken durchzuführen: Zum einen besteht die Möglichkeit, Funk tionen, die nicht in Form eines sogenannten Pakets innerhalb der Software abrufbar sind, selbst zu programmieren; zum anderen bietet das bereits bestehende R-Paket „simsem“ eine Routine, die speziﬁsch für Simulationen mit Strukturgleichungsmo dellen entwickelt wurde. Für die vorliegende Simulationsstudie wird Version „simsem 0.5-14“ dieses Pakets genutzt (vgl. Pornprasertmanit et al. 2013, S. 187–197).

5.1 Monte-Carlo-Simulationen Im Rahmen einer Monte-Carlo-Simulation wird eine ﬁktive Population hinsichtlich bestimmter Merkmale deﬁniert und eine große Anzahl an Stichproben aus dieser spe ziﬁschen und bekannten Population gezogen. Die Kennwerte der gezogenen Stichpro ben streuen mehr oder weniger stark um den entsprechenden Populationskennwert, der als wahrer Wert verstanden werden kann. Diese Streuung ist bei der Durchführung einer Monte-Carlo-Simulation oftmals von primärem Interesse. So können damit Aus sagen über die Genauigkeit und Zuverlässigkeit einer bestimmten Schätzung getroffen werden (vgl. Boomsma 1983, S. 22). Zu beachten ist, dass die Deﬁnition der Population bei einer Monte-Carlo-Simula tion nicht über die Fälle erfolgt, sondern über die festgelegten Zusammenhänge zwi schen den Variablen des Modells (vgl. Muthén & Muthén 2002, S. 2–3). Die innerhalb der Simulation verwendeten Populationskennwerte müssen von der forschenden Per son selbst festgelegt werden; dabei wird eine Orientierung an in bereits durchgeführ https://doi.org/10.1515/9783110624199-005

44 | 5 Methode

ten Studien verwendeten Werten empfohlen (vgl. Muthén & Muthén 2002, S. 601). Die Populationskennwerte deﬁnieren die Datenbasis und damit das korrekte Modell. Im Rahmen von Simulationsstudien kann überprüft werden, ob unter Vorausset zung der zu untersuchenden Stichprobenmerkmale das korrekte Modell als gut an gepasst erkannt wird. Bei einem derartigen Design ließe sich beispielsweise unter suchen, ob bereits mit sehr kleinen Stichproben ein gut passendes Modell korrekt bewertet wird. Des Weiteren besteht die Möglichkeit, mit den Stichproben ein theo retisches Modell zu prüfen, das von dem Populationsmodell abweicht und somit als schlecht angepasst erkannt werden sollte (vgl. zu diesem Abschnitt Schoemann et al. 2014, S. 472–473). Kennwerte wie die Fit-Indizes können mittels einer Monte-Carlo-Simulation fol gendermaßen untersucht werden: Aus einer festgelegten Population werden viele Stichproben gezogen. Für jede dieser Stichproben wird das theoretische Modell, das gegebenenfalls in bestimmter Weise vom festgelegten Populationsmodell abweicht, überprüft. Dafür wird der interessierende Parameter für jede Stichprobe berechnet und gespeichert. Über die Verteilung dieser Stichprobenkennwerte lässt sich der Mittelwert berechnen, der darüber Auskunft gibt, welchen Wert der interessierende Parameter im Mittel annimmt. Dieser mittlere Wert der Stichprobenkennwerte wird auch als Erwartungswert bezeichnet und kann genutzt werden, um bestimmte Ten denzen zu überprüfen, die der entsprechende Parameter bei bestimmten Modellen, Daten und Stichproben aufweist (vgl. Bortz & Schuster 2010, S. 69; Kühnel & Krebs 2007, S. 150–151). Neben dem Erwartungswert eines Parameters kann dessen Standardfehler be rechnet werden. Dieser gibt die durchschnittliche Abweichung der Stichprobenkenn werte vom Populationskennwert an und gibt somit Auskunft darüber, wie gut re spektive mit welchem Ausmaß an Genauigkeit mit einer einzelnen Stichprobe auf den interessierenden Populationskennwert geschlossen werden kann (vgl. Agresti & Finlay 2009, S. 90). Im Rahmen der statistischen Datenanalyse werden Analysen zu meist mittels einer einzigen Stichprobe durchgeführt. Die dabei zu berücksichtigende Schätzungenauigkeit wird mithilfe des Standardfehlers angegeben. Zu beachten ist, dass im Rahmen derartiger Analysen der Standardfehler lediglich geschätzt und nicht berechnet wird. Im Gegensatz dazu ist bei einer Simulationsstudie der interessierende Populationskennwert sowie die durchschnittliche Streuung der jeweils festen Anzahl an Stichproben pro Modell bekannt; bei dieser Streuung handelt es sich um den Standardfehler und zugleich um die Standardabweichung, da die durchschnittliche Streuung berechnet wird. Nur unter Kenntnis dieser Streuung der Stichprobenkennwerte können Rück schlüsse von einem bestimmten Wert in einer einzelnen Stichprobe auf den wahr scheinlichen Wertebereich in der Population gezogen werden. Zusätzlich dazu kann mit einer Monte-Carlo-Simulation untersucht werden, unter welchen Bedingungen bestimmte Annahmen zur Streuung der Stichprobenkennwerte erfüllt sind (vgl. zu diesem Abschnitt Mooney 1997, S. 1–2).

5.2 Studiendesign |

45

Der elementare Vorteil von simulierten Daten ergibt sich aus der Tatsache, dass die Struktur der (ﬁktiven) Population bekannt ist. Dadurch lässt sich evaluieren, ob und wie stark die einzelnen Stichprobenschätzungen von der Population abwei chen und wie gut die Schätzung selbst gelingt. So lässt sich mittels einer MonteCarlo-Simulation untersuchen, inwiefern bei bestimmten Schätzungen Verzerrungen von Schätzparametern und Standardfehlern bestehen (vgl. Muthén & Muthén 2002, S. 600). Durch einzelne Variationen lässt sich beispielsweise feststellen, aufgrund welcher Merkmale oder Speziﬁkationen das Modell im Rahmen der Modellbewertung mittels des jeweiligen Parameters als korrekt oder nicht korrekt bewertet wird.

5.2 Studiendesign Innerhalb dieser Studie werden die Gütemaße mittels der oben beschriebenen MonteCarlo-Simulationsmethode analysiert. Dazu wurden verschiedene Studienbedingun gen formuliert, die zunächst einer genaueren Betrachtung unterzogen werden. Die Anzahl an Replikationen pro Bedingung einer Monte-Carlo-Simulation sollte hinreichend groß gewählt werden (vgl. Boomsma 2013, S. 527). Eine größere Anzahl an Replikationen ist sinnvoll, da sie stets mit dem Vorteil einhergeht, dass die Ergebnis se und Verteilungen präziser werden. Während Hu & Bentler (1999) eine Anzahl von 200 Replikationen pro Studienbedingung wählen (vgl. S. 7) und damit den konkreten Empfehlungen von Gerbing & Anderson folgen, dass „[. . . ]a relatively large number of replications for each cell, such as 100 or 200, is desired[. . . ]“ (1993, S. 46), wird hier ebenfalls in Anlehnung an die generelle Empfehlung von Gerbing & Anderson eine Zahl von 1000 Replikationen je Bedingung genutzt.³¹ Die Simulation erfolgt über einen Schätzalgorithmus, der einen Startwert benö tigt. Dieser Startwert wird als Seed bezeichnet. Zu beachten ist, dass die Stichproben kennwerte mit Variation des Seeds variieren können. Um robuste Simulationsergeb nisse zu erhalten, sollte somit möglichst nicht nur ein Seed pro Teilanalyse verwendet werden (vgl. Muthén & Muthén 2002, S. 601). In der vorliegenden Studie wird jede Modellspeziﬁzierung mit jeweils zwei Startwerten aus einem Set aus vier Seeds ana lysiert.³² So wird jede einzelne Modellspeziﬁzierung für zwei dieser vier Seeds analy siert.³³

31 Dabei ist zu beachten, dass sich die Kapazität von Computern, die im privaten Gebrauch genutzt werden, seit dem Ende der 1990er Jahre deutlich erhöht hat, weshalb eine größere Zahl an Replikatio nen schneller und leichter umsetzbar ist (vgl. Díaz-Emparanza 2002, S. 567–577). 32 Die Werte der Seeds wurden zufällig generiert und lauten 2009, 280432, 300428 und 1326510. 33 Die Ergebnisse werden allesamt für lediglich einen der Seeds – jenen mit dem Wert 2009 – angege ben; dies dient der Übersichtlichkeit und somit auch der Nachvollziehbarkeit der Ergebnisse. Sollten sich bei der Variation der Seeds einzelne substanzielle Unterschiede ergeben, so wird darauf im wei teren Verlauf der Ausführungen hingewiesen.

46 | 5 Methode

Das Design beinhaltet sechs unterschiedliche Verteilungsannahmen für die ma nifesten Variablen. Die hier untersuchte ML-Schätzmethode nimmt eine Normalver teilung der Variablen an. Diese stellt die erste zu untersuchende Verteilungsform dar. Untersucht wird auch, wie die Fit-Maße reagieren, wenn die Variablen mehr oder we niger stark rechtsschief verteilt sind, wie sich mehr oder weniger stark linksschiefe Verteilungen auf die Modellbewertung auswirken und wie die Fit-Indizes reagieren, wenn ein Teil der Variablen im Modell linksschief verteilt ist und weitere Variablen im Modell eine rechtsschiefe Verteilung aufweisen. Die Schiefe wird mittels des Algorithmus’ von Vale und Maurelli (1983) speziﬁziert (vgl. dazu auch Chou & Bentler 1995, S. 47) und in Anlehnung an Yu (2002, S. 29) für rechtsschiefe Variablen auf den Wert 3 und für linksschiefe Variablen auf den Wert −3 festgelegt. Es handelt sich dabei um sehr schiefe Verteilungen (vgl. Barrett 2001, S. 2–7), die im Folgenden als stark rechtsschief und stark linksschief bezeichnet wer den. Sollten einzelne Fit-Indizes im vorliegenden Forschungsdesign nicht sensibel auf diese Schiefe der Indikatoren reagieren, so ist auszuschließen, dass die in den Sozial wissenschaften übliche Schiefe von Variablen einen Einﬂuss auf die Höhe des jeweili gen Fit-Maßes hat. Zudem wird untersucht, ob auch bei bereits geringeren und durch aus üblichen Werten der Schiefe eine Auswirkung auf die Bewertung der Güte durch den jeweiligen Fit-Index zu verzeichnen ist.³⁴ Dieser Schiefegrad wird im Rahmen der vorliegenden Arbeit auf den Betrag 1 gesetzt und als moderate Schiefe deﬁniert; ent sprechend liegt die Schiefe für Variablen mit moderat linksschiefer Verteilung beim Wert −1 und für rechtsschief verteilte Indikatoren wird die Schiefe auf den Wert 1 fest gelegt. Zudem wird untersucht, inwiefern ein Anstieg der Schiefe einen Einﬂuss auf die Höhe der Fit-Indizes hat. Dafür wird die Auswirkung rechtsschiefer Verteilungen ei nerseits und linksschiefer Verteilungen andererseits untersucht. So kann ermittelt werden, ob die Richtung der Schiefe für die Auswirkung des Anstiegs der Schiefe von Bedeutung ist. Analysiert wird der Effekt des Ausmaßes der Schiefe für rechtsschiefe Indikatoren wie für linksschiefe Indikatoren, indem die Ergebnisse eines bestimmten Modells für normalverteilte Indikatoren mit jenen des gleichen Modells mit mode rat schiefen und des Weiteren mit stark schiefen Indikatoren verglichen werden. Um Wechselwirkungen verschiedener Verteilungsformen innerhalb eines Modells zu

34 Dazu lässt sich der European Social Survey (ESS) betrachten, der seit dem Jahr 2002 jeweils in Abständen von zwei Jahren sozialwissenschaftliche Daten veröffentlicht. Teil des Kernfragebogens ist eine elfstuﬁge Skala zu der Frage, wie glücklich die befragte Person ist. Diese Skala ist für forschende Personen aus den Sozialwissenschaften oftmals von Interesse und ﬁndet Platz in vielen statistischen Untersuchungen (vgl. zu diesen Ausführungen European Social Survey 2015, S. 1–24). Dabei sollte be achtet werden, dass persönliches Glück positiv konnotiert ist, weshalb die linksschiefe Verteilung die ser Variable nicht verwundert. So gibt stets eine deutliche Mehrheit der Befragten an, eher glücklich als unglücklich zu sein. Im ESS des Jahres 2014 beträgt die Schiefe dieser Variable einen Wert von −1 (siehe dazu Tabelle A.0.1 im Anhang).

5.2 Studiendesign

| 47

überprüfen, wird zusätzlich jede Modellvariante mit Indikatoren berechnet, die je etwa zur Hälfte stark rechtsschiefe und stark linksschiefe Verteilungen aufweisen.³⁵ Insgesamt werden drei Stichprobengrößen untersucht. Die kleinste Stichproben größe wird auf n = 1500 festgelegt.³⁶ Die anderen beiden Stichprobengrößen liegen bei n = 1800 und n = 2200. Die unterschiedlichen Abstände zwischen den drei Fallzahlen dienen dazu, mögliche Effekte genauer zu untersuchen. So sollte sich ein starker li nearer Effekt der Fallzahl dadurch ausdrücken, dass die Veränderung im mittleren Wert eines der Gütemaße mit einem Anstieg von der kleinsten (n = 1500) zur mittleren (n = 1800) Fallzahl geringer ausfällt als beim Anstieg von der mittleren (n = 1800) zur größten (n = 2200) Stichprobengröße. Hinsichtlich der gewählten Stichprobengrößen besteht ein deutlicher Unterschied zu bisherigen Simulationsstudien. Während Hu & Bentler (1999) kleine Stichproben mit n = 250 und eine Vielzahl weiterer Autoren gar Stichprobengrößen mit einer Fallzahl von weniger als 100 Personen in den Fokus ihrer Untersuchungen stellen (vgl. dazu Gerbing & Anderson 1993, S. 48–56), bezieht sich die vorliegende Studie auf große Fallzahlen. Diese sind innerhalb der vorliegenden Arbeit von Interesse, da die Sensitivität des χ2 -Tests besonders für große Stichproben relevant ist. Die drei Populationsmodelle dieser Studie weisen verschiedene Grade der Kom plexität auf und werden demgemäß als das sparsame Modell, das komplexe Modell und das sehr komplexe Modell bezeichnet (vgl. Tabelle 5.2.1). Die Komplexität eines Modells bemisst sich an mehreren Komponenten: Zum einen steigt mit der Anzahl der Indikatoren die Komplexität des Modells dadurch, dass sich mit mehreren Indikatoren mehr mögliche Korrelationen und entsprechend mehr Freiheitsgrade ergeben.³⁷ Damit gehen mehr Möglichkeiten der Modellspeziﬁkation und der Modellfehlspeziﬁkation einher. Dies hat zwangsläuﬁg eine Erhöhung der Komplexität der Modellierung zur Folge. Zudem kann ein Modell als besonders komplex verstanden werden, wenn be sonders viele Zusammenhänge zwischen den Variablen des Modells geschätzt wer den. In der vorliegenden Studie weist das komplexe Modell im Vergleich zum spar samen Modell einen zusätzlichen Faktor auf; dadurch werden mehr Zusammenhänge geschätzt. Außerdem werden die Faktoren des sehr komplexen Modells durch jeweils vier Indikatoren gemessen, während beim komplexen Modell nur jeweils drei Indi katoren pro Faktor bestehen. In der vorliegenden Studie steigt zudem mit steigender

35 Ein Drittel der Modelle besteht aus jeweils sieben Indikatoren (vgl. Tabelle 5.2.1). Dabei ist es ganz offensichtlich nicht möglich, exakt der Hälfte der Indikatoren eine bestimmte Verteilung zuzuwei sen, weshalb für diese Modelle drei Indikatoren eine linksschiefe Verteilung und vier Indikatoren eine rechtsschiefe Verteilung aufweisen. 36 Dies entspricht unter anderem der Mindestfallzahl, die der ESS für eigene Erhebungen innerhalb der ESS Sampling Guidelines festgelegt hat (vgl. dazu ESS Sampling Expert Panel 2016, S. 6–7). 37 Wird der Vergleich zwischen dem Nullmodell und dem saturierten Modell herangezogen, so erge ben sich 15 Freiheitsgrade für das sparsame Modell, 21 Freiheitsgrade für das komplexe Modell und 28 Freiheitsgrade für das sehr komplexe Modell (vgl. Tabelle 5.2.1).

48 | 5 Methode

Tab. 5.2.1: Modellvarianten.

Modellspeziﬁkation

Populationsmodell

fehlspeziﬁziertes Messmodell

fehlspeziﬁziertes Strukturmodell

fehlspeziﬁziertes Gesamtmodell

sparsam

Modellkomplexität komplex

sehr komplex

F1a → x1 x2 x3 x4 F2a → x4 x5 x6 cov(F1a ⋅F2a )

F1b → x1 x2 x3 F2b → x1 x4 x5 F3b → x4 x6 x7 cov(F1b ⋅F2b ) cov(F2b ⋅F3b )

F1c → x1 x2 x3 x4 F2c → x1 x2 x5 x6 F3c → x5 x6 x7 x8 cov(F1c ⋅F2c ) cov(F2c ⋅F3c )

F1a → x1 x2 x3 (0⋅x4) F2a → x4 x5 x6 cov(F1a ⋅F2a )*

F1b → x1 x2 x3 F2b → x1 x4 x5 F3b → x6 x7 (0⋅x4) cov(F1b ⋅F2b )* cov(F2b ⋅F3b )*

F1c → x2 x3 x4 (0⋅x1) F2c → x1 x2 x5 x6 F3c → x6 x7 x8 (0⋅x5) cov(F1c ⋅F2c )* cov(F2c ⋅F3c )*

F1a → x1 x2 x3 x4 F2a → x4 x5 x6 cov(F1a ⋅F2a ) = 0

F1b → x1 x2 x3 F2b → x1 x4 x5 F3b → x4 x6 x7 cov(F1b ⋅F2b ) = 0 cov(F2b ⋅F3b )*

F1c → x1 x2 x3 x4 F2c → x1 x2 x5 x6 F3c → x5 x6 x7 x8 cov(F1c ⋅F2c ) = 0 cov(F2c ⋅F3c )*

Fehlspeziﬁkationen aus Zeile 2 und Zeile 3 kombiniert

Mit einem * gekennzeichnet sind jene Parameter, die in der entsprechenden Modellvariante frei ge schätzt werden. Fett gedruckt ﬁnden sich die konkreten Fehlspeziﬁkationen des jeweiligen Modells.

Komplexität der Modelle die Spannweite der unterschiedlichen Faktorladungen: Beim sparsamen Modell liegen alle Faktorladungen, die nicht auf den Wert 0 ﬁxiert sind, beim Wert 0.5 oder 0.6. Das komplexe Modell weist Faktorladungen von 0.6, 0.7 und 0.8 auf und beim sehr komplexen Modell betragen die Faktorladungen Werte von 0.4, 0.5, 0.6, 0.7 und 0.8.³⁸, ³⁹ Die drei verschiedenen Populationsmodelle implizieren, dass die durch die Stich proben jeweils korrekt speziﬁzierten Modelle ebenfalls unterschiedlich sind. Auch die festgelegten Fehlspeziﬁkationen unterscheiden sich zwischen den drei unterschied lich komplexen Modellen. Eine Übersicht ﬁndet sich in Tabelle 5.2.1.⁴⁰ Das kleinste und somit sparsamste Populationsmodell beinhaltet zwei Faktoren – Faktor1a und Faktor2a –, die miteinander korrelieren. Das Modell besteht aus sechs Indikatoren. Das komplexe Modell beinhaltet sieben Indikatoren und drei Faktoren. Einer dieser Faktoren – Faktor2b – korreliert mit den beiden anderen Faktoren des Mo dells, die ihrerseits unabhängig voneinander sind. Das sehr komplexe Modell beinhal

38 Für einen genauen Überblick über die Faktorladungsstruktur siehe Tabelle A.0.2 im Anhang. 39 Eine Faktorladung mit einem Wert von 0.8 ist bereits sehr hoch. Auch Hu & Bentler haben diese als höchste Faktorladung im Rahmen ihrer Simulationsstudie festgelegt (vgl. Hu & Bentler 1999, S. 6–7). 40 Die Modellparameter sind in Tabelle A.0.2 im Anhang festgehalten.

5.2 Studiendesign |

49

Tab. 5.2.2: Studiendesign. Modellkomplexität

Modellspeziﬁkation

Verteilung

Fallzahl

sparsam komplex sehr komplex

korrekt speziﬁziertes Modell fehlspeziﬁziertes Messmodell fehlspeziﬁziertes Strukturmodell fehlspeziﬁziertes Gesamtmodell

normalverteilt moderat rechtsschief stark rechtsschief moderat linksschief stark linksschief stark rechts- und linksschief

n = 1500 n = 1800 n = 2200

tet ebenfalls drei Faktoren, deren Zusammenhangsstrukturen jenen des komplexen Modells entsprechen; die Faktoren werden in diesem Modell mit insgesamt acht Indi katoren gemessen. Wie Tabelle 5.2.1 zu entnehmen ist, werden Fehlspeziﬁkationen der Messmodel le simuliert, indem innerhalb der Stichproben ein Modell analysiert wird, in dem die Indikatoren zum Teil nicht auf jenen Faktoren laden, die sie in der entsprechenden Population messen. Beispielsweise wird die Faktorladung der Variable x4 auf Faktor1a auf den Wert 0 Null ﬁxiert. Die fehlspeziﬁzierten Strukturmodelle werden durch eine falsche Speziﬁkation der Zusammenhänge zwischen den latenten Variablen model liert, indem ein Zusammenhang zweier Faktoren, der von Null verschieden ist, auf den Wert 0 ﬁxiert wird. Eine Übersicht über das Studiendesign ﬁndet sich in Tabelle 5.2.2. Der Umfang dieser Simulationsstudie ergibt sich wie folgt: Es werden drei unterschiedlich komplexe Populationsmodelle untersucht. Für je des dieser Modelle werden mit den Stichproben jeweils vier verschiedene Modellva rianten untersucht (vgl. Tabelle 5.2.1), sodass insgesamt zwölf unterschiedlich spezi ﬁzierte Modelle analysiert werden. Jedes der zwölf Stichprobenmodelle wird für 18 festgelegte Stichproben untersucht, die sich aus jeweils einer von sechs Verteilungs formen für jeweils eine von drei Stichprobengrößen ergeben. Diese 216 Teilsimulatio nen werden für den RMSEA, den TLI, den CFI und den SRMR untersucht. So werden in dieser Studie 864 Zellen analysiert.⁴¹ Dabei wird der Fokus auf die mittleren Fit-IndexWerte der jeweils bis zu tausend Stichproben gelegt.⁴² In Ergänzung dazu werden die Standardfehler betrachtet, um die Genauigkeit der Schätzung dieser mittleren Werte zu berücksichtigen. Für die folgenden Darstellungen gilt zu beachten, dass irreführende Modellbewer tungen nur in jenem Fall auftreten können, wenn für die einzelnen Fit-Indizes kon krete Schwellenwerte für eine gute Modellanpassung angenommen werden. Für diese

41 Strenggenommen werden für zwei verschiedene Seeds jeweils 864 Bedingungen getestet, was einer Anzahl von 1728 Untersuchungen entspricht. 42 Konvergieren einzelne Stichprobenmodelle nicht, so fällt die Anzahl der Replikationen geringer aus.

50 | 5 Methode

Untersuchung werden die in der Literatur vorherrschenden strengen Schwellenwer te gewählt. Zwar ﬁndet sich zu keinem Fit-Index ein eindeutiger Konsens zum opti malen Schwellenwert; so werden häuﬁg unterschiedliche Schwellen für verschiedene Grade der Modellanpassung von sehr gut bis akzeptabel angegeben (vgl. dazu zum Beispiel Browne & Cudeck 1993, S. 144). Im Folgenden werden allerdings besonders jene Szenarien untersucht, in denen sämtliche forschende Personen mit den in der Li teratur stark vertretenen Schwellenwerten zu einer Fehleinschätzung des Modells kä men. Dies ist bei tendenziell strengen Grenzwerten für alle fehlspeziﬁzierten Modelle gegeben, die durch ein Fit-Maß nur in jenem Fall fehlerhaft als korrekt speziﬁziert be wertet werden, wenn die Höhe des Fit-Maßes eine besonders gute Modellanpassung nahelegt.⁴³ Für den RMSEA wird folglich der Schwellenwert 0.05 gewählt (vgl. Brown 2015, S. 72 und Browne & Cudeck 1993, S. 144). Für den SRMR wird in Anlehnung an Byrne (2012, S. 76), Reinecke (2014, S. 119) und Yu (2002, S. 43) ebenfalls eine Schwelle von 0.05 gewählt. Der von Hu und Bentler (1999, S. 1) ermittelte Schwellenwert von 0.95 für den CFI wird aufgrund seiner Popularität in der Forschungsliteratur (vgl. zum Bei spiel Brown 2015, S. 74; Christ & Schlüter 2012, S. 39 und Iacobucci 2010, S. 90) über nommen. Auch für den TLI wird die Schwelle von 0.95 in Anlehnung an Hu und Bentler (1999, S. 1), Kaplan (2009, S. 113) und Reinecke (2014, S. 127) gewählt. Diese Schwellen werden als Referenz herangezogen, um mittels dieser konkrete und gegebenenfalls irreführende Modellergebnisse zu analysieren. Irreführende Ergebnisse zeigen dabei auf, dass die durch die Forschungsliteratur empfohlenen Schwellen nicht für jedes Analyseszenario Anwendung ﬁnden können.

43 Für die korrekt speziﬁzierten Modelle besteht dahingehend kein Problem: Es wird sich zeigen, dass alle korrekt speziﬁzierten Modelle auch mit strengen Schwellenwerten als sehr gut angepasst und so mit korrekt bewertet werden.

6 Sensitivitäten der Fit-Indizes Im vorliegenden Kapitel erfolgt eine systematische Auswertung der Simulationsstu die. Um dem Umfang der Simulationsstudie gerecht zu werden, gliedert sich das Ka pitel in vier Unterkapitel: Im Rahmen der ersten drei Unterkapitel, die jeweils einem der drei Komplexitätsgrade entsprechen, werden die Sensitivitäten der vier Fit-Indi zes bezüglich der Stichprobengröße und der Verteilungsform der Modellindikatoren untersucht. Dabei wird zunächst das jeweilige korrekt speziﬁzierte Modell betrachtet, bevor die entsprechenden fehlspeziﬁzierten Varianten diskutiert werden. Das vierte Unterkapitel schließt mit einer Zusammenfassung der zentralen Ergebnisse. Innerhalb der fehlspeziﬁzierten Modelle wird eine deutliche Abweichung des Mo dells von den Daten untersucht, die im konkreten Fall impliziert, dass ein elementa rer Zusammenhang innerhalb der Daten mit dem Modell nicht geschätzt wird. Derar tige Fehlspeziﬁkationen sind von starker Relevanz, wenn es darum geht, inhaltlich substanzielle, falsche Bewertungen der Fit-Indizes aufdecken zu können.⁴⁴ Zudem sollen hier lediglich fehlspeziﬁzierte Modelle untersucht werden, die sich deutlich vom jeweils wahren Modell unterscheiden und im Forschungsprozess als davon un terschiedlich zu erkennen sein sollten. Im Rahmen dieser Studie wird die Güte der Modellbewertung durch die Fit-Indi zes primär über die mittleren Werte dieser Indizes analysiert.⁴⁵ So kann ermittelt wer den, ob und wie stark ein bestimmtes Gütemaß bei einem konkreten Modell im Durch schnitt von einer korrekten Modellbewertung abweicht. Zudem können irreführende Modellergebnisse so direkt an den mittleren Werten der Fit-Indizes abgelesen werden. Wenn im Folgenden von dem Wert eines Gütemaßes gesprochen wird, ist damit stets der mittlere Wert gemeint, der sich als Durchschnittswert aus den bis zu tausend Stich proben ergibt. Zusätzlich dazu werden die Standardfehler berücksichtigt, um die Ef ﬁzienz eines bestimmten mittleren Werts eines Gütemaßes zu erfassen. Es wird da bei beachtet und davon ausgegangen, dass innerhalb eines Standardfehlers respek tive einer Standardabweichung vom betrachteten mittleren Wert der größte Teil der Stichprobenmittelwerte liegt. Diese Annahme wird an folgendes Wissen angelehnt: Bei normalverteilten Stichprobenkennwerten liegen stets circa 68 % der Stichproben kennwerte innerhalb des Intervalls, das sich aus einer Standardabweichung ergibt, und bereits 95 % aller Stichprobenkennwerte liegen in dem Intervall, gemessen an je

44 Zudem haben zusätzliche Analysen gezeigt, dass beispielsweise das sehr komplexe fehlspeziﬁzier te Messmodell bei nur einer statt der zwei fälschlich auf den Wert 0 ﬁxierten Faktorladungen nahezu perfekte Werte in den Fit-Indizes wiedergeben würde. Ein solcher Fall ist hier nicht relevant, da die forschende Person dabei kein Indiz für eine Fehlspeziﬁkation durch die Kennwerte des Modells er halten kann. Auf eine ausführliche Darstellung dieser konkreten Simulation wird aus diesem Grund verzichtet. 45 Alternativ dazu ließe sich die Güte der Gütemaße über die „Modellabweisungsrate“ messen (vgl. dazu Hu & Bentler 1999; Yu 2002). https://doi.org/10.1515/9783110624199-006

52 | 6 Sensitivitäten der Fit-Indizes

weils zwei Standardabweichungen (vgl. Agresti & Finlay 2009, S. 80–81). Das heißt, dass bei einer Distanz von einer Standardabweichung vom relevanten Wert etwa 16 % der Stichprobenkennwerte jeweils über der oberen Grenze respektive unter der Un tergrenze des Intervalls liegen und eine Standardabweichung so jeweils 84 % auf der anderen Seite der Intervallgrenze abgrenzt. Innerhalb der Simulationsergebnisse zeigen sich allerdings zum Teil schiefe Ver teilungen der Fit-Indizes, bei denen verglichen mit der Normalverteilung nicht davon ausgegangen werden kann, dass ein ebenso großer Anteil aller Stichprobenkennwer te innerhalb eines Intervalls von einer Standardabweichung liegt. Aus diesem Grund wird für konkrete Beispiele exemplarisch gezeigt, wie groß der Anteil an Stichproben ist, durch die das Modell so bewertet wird wie durch den in den Fokus der Simulati onsergebnisse gerückten Durchschnitt der Stichproben. Die Veränderungen in den mittleren Werten der jeweiligen Fit-Indizes werden als Differenzwerte bezeichnet. Angesichts der Tatsachen, dass die interessierenden FitIndizes annähernd Werte von 0 bis 1 annehmen und die mittleren Werte der Teilsimu lationen für fast alle Modellvarianten in diesem Bereich streuen, werden Differenzen in der dritten Nachkommastelle als marginal bis sehr gering aufgefasst, wenn sie beim Wert 0.001 oder 0.002 liegen. Differenzwerte ab 0.005 deuten bereits auf deutliche Ef fekte hin und können als recht starke Veränderungen bezeichnet werden. Differenzen, die beim Wert 0.01 oder höher liegen, werden als sehr starke Effekte deﬁniert. Schließ lich hängt das mögliche Ausmaß der Differenzwerte auch vom Durchschnittswert des jeweiligen Gütemaßes ab: Sollte beispielsweise der CFI bei einem bestimmten korrekt speziﬁzierten Modell für die kleinste Stichprobengröße bereits beim Wert 0.998 und damit sehr nah am Wert 1 liegen, so kann dieser Fit-Index mit Anstieg der Fallzahl auf n = 1800 und n = 2200 insgesamt nicht um mehr als einen Wert von 0.002 ansteigen, da dieses Fit-Maß nach oben begrenzt ist (vgl. Reinecke 2014, S. 127).⁴⁶ Sehr starke Effekte mit Werten größer als 0.01 können nur festgestellt werden, wenn ein Modell betrach tet wird, das von den Fit-Indizes als sehr schlecht angepasst bewertet wird, so, dass alle Fit-Indizes deutlich von den Werten abweichen, die auf eine gute Modellanpas sung schließen lassen. Schließlich sei darauf hingewiesen, dass bei fehlspeziﬁzierten Modellen eine gute Bewertung der Güte des Modells durch einen Fit-Index nicht als korrekte Bewertung zu verstehen ist, sondern als eine, die das Modell fälschlicher weise als gut angepasst wertet, obwohl es sich um ein nicht gut angepasstes Modell handelt. Zunächst werden die Sensitivitäten der einzelnen Fit-Indizes für alle Modellvari anten analysiert. Die Differenzwerte, die sich ergeben, müssen nicht zusätzlich gegen den Zufall abgesichert werden, da im Rahmen der Simulation nicht nur eine Stich probe, sondern jeweils bis zu tausend Stichproben betrachtet werden, deren mittlere

46 Dazu ähnliche Begrenzungen ﬁnden sich für alle untersuchten Gütemaße (vgl. Brown 2015, S. 71–73).

6.1 Sparsame Modelle

| 53

Werte lediglich geringfügig durch stark abweichende einzelne Stichproben beeinﬂusst werden können. In diesem Zusammenhang werden sehr geringe Differenzwerte ledig lich in jenem Fall näher betrachtet, wenn sich dahingehend eine Systematik zeigt, die sich für mehrere Stufen der jeweiligen Stichprobenspeziﬁkation in gleicher Weise abzeichnet. Wenn beispielsweise ein Fit-Index bei einer bestimmten Teilsimulation ei nen höheren Wert mit rechtsschiefen statt normalverteilten Variablen für alle drei un tersuchten Fallzahlen hat, so ist es äußerst unwahrscheinlich, dass für jede der drei Teilsimulationen rein zufällig ein höherer Wert generiert worden ist.

6.1 Sparsame Modelle Im Rahmen der Modellierung der sparsamen Modelle konnte bis auf eine Ausnah me jede Simulation in vollem Umfang, das heißt mit tausend Replikationen, durch geführt werden. Bei der Modellierung des fehlspeziﬁzierten Messmodells mit stark rechtsschiefen Verteilungen der Indikatoren werden 999 von den angeforderten tau send Replikationen generiert.⁴⁷

6.1.1 Korrekt speziﬁziertes Modell Die Fit-Indizes weisen für alle korrekt speziﬁzierten sparsamen Modelle⁴⁸ Werte auf, die auf eine gute Modellanpassung schließen lassen, mit Werten, die sehr nah an den teils bestmöglichen Werten liegen. Der CFI und der TLI liegen deutlich über dem Schwellenwert 0.95 während der RMSEA und der SRMR deutlich unter dem Schwel lenwert 0.05 liegen (vgl. dazu Kapitel 4.2). Mit steigender Fallzahl zeigen der CFI, der RMSEA und der SRMR eine tendenziell bessere Modellanpassung an. Dieser Effekt der Stichprobengröße fällt allerdings nur marginal aus, da bereits bei einer Stichproben größe von 1500 Fällen eine sehr gute Modellanpassung nahegelegt wird (vgl. Tabel le 6.1.1). Für den TLI zeigt sich kein Effekt der Stichprobengröße auf die Bewertung der Mo dellgüte, die Werte schwanken hier jeweils zwischen 0.997 und 1.003 und liegen damit deutlich über dem Schwellenwert 0.95 (vgl. Tabelle 6.1.1). Unter allen hier durchge führten Simulationen zeigen sich Werte größer als 1 lediglich für sparsame, korrekt speziﬁzierte Modelle, denen stark links- und rechtsschiefe Indikatoren zugrunde lie

47 Ein Überblick zur Kovergenz der untersuchten Modellvarianten ﬁndet sich in Kapitel B.1 im An hang. 48 Streng genommen gibt es nur eine Variante des korrekt speziﬁzierten sparsamen Modells. Diese wird allerdings für unterschiedliche Stichprobenmerkmale analysiert, weswegen im Folgenden der entsprechende Plural verwendet wird.

54 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.1.1: Sparsames korrekt speziﬁziertes Modell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.007 (0.010) 0.998 (0.003) 1.000 (0.010) 0.012 (0.003)

0.008 (0.010) 0.998 (0.004) 0.999 (0.012) 0.012 (0.003)

0.008 (0.010) 0.993 (0.012) 0.998 (0.036) 0.013 (0.004)

0.008 (0.010) 0.998 (0.004) 0.999 (0.012) 0.012 (0.003)

0.008 (0.010) 0.992 (0.013) 0.995 (0.037) 0.014 (0.004)

0.006 (0.009) 0.994 (0.011) 1.002 (0.035) 0.013 (0.004)

n = 1500

RMSEA CFI TLI SRMR

0.007 (0.009) 0.998 (0.003) 1.000 (0.009) 0.011 (0.003)

0.007 (0.009) 0.998 (0.003) 1.000 (0.010) 0.011 (0.003)

0.007 (0.009) 0.994 (0.010) 0.998 (0.031) 0.012 (0.003)

0.007 (0.009) 0.998 (0.003) 1.000 (0.009) 0.011 (0.003)

0.007 (0.009) 0.994 (0.010) 0.997 (0.030) 0.012 (0.003)

0.006 (0.008) 0.995 (0.009) 1.003 (0.028) 0.012 (0.003)

n = 1800

RMSEA CFI TLI SRMR

0.006 (0.008) 0.999 (0.002) 1.000 (0.007) 0.010 (0.003)

0.007 (0.008) 0.998 (0.003) 0.999 (0.008) 0.010 (0.003)

0.007 (0.008) 0.995 (0.009) 0.997 (0.025) 0.011 (0.003)

0.006 (0.008) 0.998 (0.003) 0.999 (0.008) 0.010 (0.003)

0.006 (0.008) 0.995 (0.008) 0.998 (0.025) 0.011 (0.003)

0.006 (0.008) 0.996 (0.007) 1.000 (0.024) 0.011 (0.003)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

gen. Dass der TLI bei entsprechenden Ausprägungen der Schiefe und Modellkomple xität Werte größer als 1 annimmt, zeigt sich als neue Erkenntnis.⁴⁹ Interessant ist zudem, dass der TLI unter normalverteilten Indikatoren für alle Stichprobengrößen im Mittel genau den Wert 1 annimmt. Für schiefere Indikatoren sinkt der TLI mit der Ausnahme der Modelle mit sowohl stark rechts- als auch stark linksschiefen Indikatoren zwar minimal, aber konsequent⁵⁰; bei jenen Modellen weist dieser Fit-Index wie bei normalverteilten Indikatoren den Wert 1 oder gar höhere Wer te auf. Die Interaktion unterschiedlicher Verteilungen der Indikatoren lässt den TLI ansteigen und zeigt somit eine noch bessere Modellgüte an als für Modelle mit Indi katoren der gleichen Verteilungsrichtung; die Differenzwerte reichen hier bis zu 0.007 und sind entsprechend als starke Effekte zu werten (vgl. Tabelle 6.1.1). Ähnlich dazu zeigt auch der RMSEA für alle Speziﬁkationen der Schiefe eine mar ginal schlechtere oder die gleiche Modellgüte an wie für normalverteilte Indikatoren. Eine Ausnahme bilden auch hier jene Modelle, in denen sowohl stark links- als auch rechtsschiefe Indikatoren zur Messung herangezogen werden; bei diesen Modellen zeigt der RMSEA für Stichproben im Umfang von n = 1500 und n = 1800 eine marginal bessere Modellgüte an (vgl. Tabelle 6.1.1). Der CFI zeigt für schiefe Indikatoren ten 49 Beispielsweise haben Bollen (1989b, S. 273) und Reinecke (2014, S. 124) bereits darauf verwiesen, dass der TLI Werte deutlich größer als 1 annehmen kann, wenn das Modell überparametrisiert ist. Eine Verbindung zur Schiefe der Indikatoren wird durch die Forschungsliteratur allerdings bislang nicht nahegelegt. 50 Mit klar, konsequent oder eindeutig ist hier und im Folgenden ein Verlauf gemeint, bei dem jeweils mit steigender Schiefe ausschließlich eine monotone Veränderung des Fit-Maßes einhergeht. Diese Deﬁnition wird in gleicher Form für den Effekt einer steigenden Stichprobengröße auf die Höhe eines Gütemaßes genutzt.

6.1 Sparsame Modelle |

55

denziell niedrigere Werte, der SRMR marginal höhere Werte und dementsprechend ebenso eine schlechtere Modellanpassung an. Für alle vier Fit-Indizes scheint es ir relevant, ob die Verteilung der Indikatoren linksschief oder rechtsschief ist. Sowohl für die moderate Schiefe als auch für die starke Schiefe ﬁnden sich keinerlei systema tische Unterschiede zwischen den Modellen mit nur links- und jenen mit ausschließ lich rechtsschiefen Indikatoren. Modelle mit gemischt verteilten Indikatoren werden marginal, aber eindeutig besser bewertet als ihre Pendants, die Indikatoren beinhal ten, die ausschließlich links- oder rechtsschief sind (vgl. Tabelle 6.1.1). Für den SRMR ist diese Tendenz bei nur einer Differenz von sechs möglichen, beim Differenzwert 0.001, kaum merklich.⁵¹ Für den RMSEA ist der Effekt ebenfalls gering, allerdings mit fünf von sechs Differenzen, die im Wertebereich zwischen 0.001 und 0.002 liegen, be reits systematisch erkennbar. Der CFI weist für alle Vergleiche jeweils eine Differenz von 0.001 bis 0.002 zu den Modellen mit Indikatoren ausschließlich einer Verteilungs richtung auf und wie bereits aufgegriffen bewertet der TLI das Modell mit gemischten Verteilungen am deutlichsten besser als jenes mit nur einer Verteilungsform der Indi katoren.⁵² Während die mittleren Werte der Fit-Indizes allesamt eine gute Modellanpassung nahelegen, zeigen die dazugehörigen Standardfehler klare Unterschiede auf. Die Stan dardfehler der RMSEA- und SRMR-Werte sind für alle Verteilungsszenarien der korrekt speziﬁzierten sparsamen Modelle annähernd gleich, während der CFI und der TLI bei Modellen mit stark schiefen Indikatoren im Vergleich zu Modellen mit normalverteil ten Variablen bis zu dreimal so hohe Standardfehler aufweisen (vgl. Tabelle 6.1.1). Die Schätzung dieser beiden Fit-Indizes wird dementsprechend durch schiefe Indikatoren ungenauer. Das stellt hierbei kein allzu großes Problem dar, da selbst beim Modell mit dem höchsten Standardfehler für den TLI (0.037) dessen mittlerer Wert (0.995) und die daraus folgende Untergrenze von 0.958 gewährleisten, dass ein großer Anteil aller Stichproben das Modell über diesen Fit-Index korrekterweise als gut bewertet (vgl. Ab bildung 6.1.1). So weisen unter dieser Teilsimulation circa 89 % der Stichproben einen TLI auf, der über dem Schwellenwert 0.95 liegt und damit korrekterweise eine gute Modellanpassung nahelegt. Dass die Standardfehler mit steigender Stichprobengröße sinken, ist nicht ver wunderlich. Schließlich ﬂießt die Fallzahl in die Berechnung des Standardfehlers ein und wird ceteris paribus mit steigender Stichprobengröße immer sinken (vgl. Schnell et al. 2011, S. 291). Beachtlich ist, dass selbst bei stark schief verteilten Variablen, die deutlich von der Normalverteilungsannahme der ML-Schätzung abweichen, alle FitIndizes sehr deutlich auf eine sehr gute Modellanpassung schließen lassen und das

51 Die sechs Vergleiche ergeben sich aus dem Vergleich zwischen dem Modell mit gemischten stark schiefen Variablen einerseits und stark rechtsschiefen respektive stark linksschiefen Variablen ande rerseits, jeweils für die drei untersuchten Stichprobengrößen. 52 Diese systematischen Tendenzen sind im weiteren Verlauf zu beachten und werden in Kapitel 6.1.5 in Zusammenhang mit den Ergebnissen der anderen sparsamen Modelle aufgegriffen.

56 | 6 Sensitivitäten der Fit-Indizes

TLI

500

400

Häuﬁgkeit

300

200

100

0 0.75

0.80

0.85

0.90 0.95 Wert

1.00

1.05

1.10

Abb. 6.1.1: Verteilungsplot des TLI für schiefe Indikatoren.

Modell korrekterweise und eindeutig als gut bewerten. Es ist dabei für die Forschungs praxis erfreulich, dass die in Kapitel 3.2.1 erläuterte Formel des RMSEA offenbar auch bei sehr schief verteilten Variablen näherungsweise die – im Fall einer perfekten Mo dellanpassung geltende – Bedingung erfüllt, dass der χ2 -Testwert annähernd der Zahl der Freiheitsgrade entspricht und der Wert des RMSEA folglich annähernd den Wert 0 annimmt. Für sparsame Modelle bedeutet das, dass die Fit-Indizes selbst bei einer Verletzung der hier untersuchten Modellannahmen korrekt speziﬁzierte Modelle als solche erkennen.

6.1.2 Fehlspeziﬁziertes Messmodell Das sparsame fehlspeziﬁzierte Messmodell weist eine fälschlich auf den Wert 0 ﬁxierte Faktorladung des ersten Faktors auf. Es handelt sich dabei um die Faktorladung von Variable x4, deren Faktorladung im Populationsmodell beim Wert 0.5 liegt. Beim Blick auf das Modell mit normalverteilten Indikatoren fällt auf, dass auf Ba sis der festgelegten Schwellenwerte nicht alle Fit-Indizes die gleiche Modellgüte na

6.1 Sparsame Modelle

| 57

RMSEA

200

Häuﬁgkeit

150

100

50

0 0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

Wert Abb. 6.1.2: Verteilung des RMSEA für normalverteilte Indikatoren.

helegen. Lediglich der RMSEA und der TLI weisen für alle Stichprobengrößen richti gerweise darauf hin, dass eine Fehlspeziﬁkation vorliegt. Der TLI liegt mit Werten von 0.924 bis 0.927 klar unter dem Schwellenwert von 0.95 (vgl. Tabelle 6.1.2). Der RMSEA weist mit Werten von 0.052 respektive 0.051 ebenfalls auf eine marginale Fehlspeziﬁka tion hin. In Verbindung damit liegt der RMSEA bei annähernd 48 % der Stichproben unter dem Schwellenwert und legt fälschlich eine gute Modellanpassung nahe (vgl. dazu Abbildung 6.1.2). Die Stichprobengröße zeigt bei dem vorliegenden Modell für drei der vier Fit-Maße keinen Effekt auf die Höhe dieser Indizes. Mit Ausnahme des SRMR schwanken die Werte für die verschiedenen Stichprobengrößen ohne erkennbare Systematik sehr ge ring nach oben und nach unten. Auch der SRMR weist lediglich sehr geringe Diffe renzen zwischen den verschiedenen Stichprobengrößen auf, allerdings zeigt dieser Fit-Index mit steigender Stichprobengröße stets eine sinkende bis konstante Tendenz an. Das stützt die Vermutung, dass der SRMR im Gegensatz zu den anderen drei Maß zahlen sensitiv auf die Fallzahl reagiert und mit steigender Fallzahl systematisch eine

58 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.1.2: Sparsames fehlspeziﬁziertes Messmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.052 (0.010) 0.960 (0.015) 0.924 (0.028) 0.031 (0.005)

0.048 (0.011) 0.961 (0.016) 0.926 (0.031) 0.029 (0.005)

0.022 (0.013) 0.967 (0.028) 0.940 (0.056) 0.020 (0.005)

0.047 (0.011) 0.961 (0.016) 0.927 (0.031) 0.029 (0.005)

0.022 (0.012) 0.966 (0.028) 0.938 (0.055) 0.020 (0.005)

0.021 (0.013) 0.970 (0.027) 0.946 (0.054) 0.019 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.051 (0.009) 0.961 (0.013) 0.927 (0.025) 0.030 (0.004)

0.048 (0.010) 0.961 (0.015) 0.927 (0.029) 0.029 (0.005)

0.023 (0.012) 0.966 (0.026) 0.938 (0.051) 0.019 (0.005)

0.047 (0.010) 0.962 (0.015) 0.928 (0.028) 0.028 (0.005)

0.022 (0.012) 0.968 (0.026) 0.942 (0.050) 0.019 (0.004)

0.022 (0.012) 0.969 (0.025) 0.944 (0.049) 0.019 (0.004)

n = 1800

RMSEA CFI TLI SRMR

0.051 (0.008) 0.961 (0.012) 0.926 (0.023) 0.030 (0.004)

0.048 (0.008) 0.961 (0.013) 0.927 (0.024) 0.028 (0.004)

0.023 (0.010) 0.968 (0.023) 0.940 (0.044) 0.018 (0.004)

0.047 (0.008) 0.962 (0.013) 0.928 (0.023) 0.028 (0.004)

0.023 (0.010) 0.969 (0.021) 0.942 (0.041) 0.018 (0.004)

0.022 (0.010) 0.969 (0.023) 0.943 (0.044) 0.018 (0.004)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben; nur beim fehlspeziﬁzierten Messmodell mit einer Fallzahl von n = 1500 und stark rechtsschiefen Indikatoren liegt die Stichprobenanzahl bei 999. Dahinter sind in Klammern die dazugehörigen Standardfehler.

bessere Modellgüte angibt.⁵³ Diese Tendenz steht jener des χ2 -Tests, mit dem Modelle für große Stichproben eher verworfen werden, entgegen. Das Ausmaß der Schiefe der Indikatoren weist einen deutlichen Effekt auf. Mit an steigender Schiefe – abgestuft von normalverteilt über moderat schief zu stark schief und dabei unabhängig von der Richtung der Schiefe – sinken die Werte vom RMSEA und vom SRMR stetig; ebenso weisen die Werte vom CFI und TLI eine steigende Ten denz auf (vgl. Tabelle 6.1.2).⁵⁴ Folglich zeigen alle vier Fit-Maße bei stärkerer Schiefe der Indikatoren eine bessere Modellgüte an, was bei diesem fehlspeziﬁzierten Modell zu stärker irreführenden Ergebnissen führt. Bereits bei moderat schiefen Indikatoren sinkt der mittlere Wert des RMSEA auf den Wert 0.048 und legt damit fälschlich eine gute Modellanpassung nahe. Nur der TLI zeigt für alle Stichprobengrößen und Vertei lungsformen eine Fehlspeziﬁkation an und bewertet das Modell korrekt als nicht gut genug angepasst. Neben dem Ausmaß der Schiefe wird hier auch die Form der Verteilung unter sucht. Dabei zeigt sich kein systematischer Unterschied zwischen dem Modell mit stark linksschiefen Indikatoren und jenem mit stark rechtsschiefen Indikatoren. Für moderat schief verteilte Indikatoren lässt sich lediglich feststellen, dass die Fit-Indi zes das Modell mit linksschiefen Variablen in leichter Tendenz besser bewerten als mit 53 Die Forschungsliteratur ist dahingehend nicht eindeutig (vgl. Kapitel 4.1). Bevor diesbezüglich Schlüsse gezogen werden, erfolgt die Betrachtung der weiteren Modellergebnisse. 54 Lediglich bei der ersten Abstufung von normalverteilt zu moderat rechtsschief ﬁnden sich für die Fallzahl n = 1800 gleichbleibende mittlere Werte vom CFI und TLI; ebenso ist der Wert des CFI bei dieser Abstufung und einer Fallzahl von n = 2200 konstant. Zu beachten ist, dass das einer steigenden Tendenz nicht entgegenläuft.

6.1 Sparsame Modelle |

59

rechtsschiefen Variablen, allerdings handelt es sich hierbei um geringe Differenzwerte von 0.001. In ähnlichem Ausmaß zeigt das Modell mit Indikatoren unterschiedlicher Verteilungsformen für alle Fit-Indizes bei allen Stichprobengrößen eine gleichblei bende bis bessere Modellgüte an als für die Modelle mit ausschließlich stark rechtsoder linksschief verteilten Indikatoren. Möglicherweise führt die Kombination ver schiedener Verteilungsformen allgemein zu einer Modellbewertung, die – im vorlie genden Fall fälschlich – eine gute oder zumindest bessere Modellanpassung nahelegt als alle anderen untersuchten Verteilungsformen. Für den RMSEA und den SRMR fällt dieser Effekt mit Differenzwerten, die den Wert 0.001 nicht übersteigen, lediglich mar ginal aus. Beim CFI liegen die Differenzwerte bei bis zu 0.004 und für den TLI zeigt sich dieser Effekt am deutlichsten; hier ﬁnden sich Differenzwerte bis zu 0.008. Das legt ei ne Sensitivität hinsichtlich unterschiedlicher Verteilungen für den TLI stark nahe. Interessant ist, dass mit der Fehlspeziﬁkation des Messmodells ein starker An stieg der Standardfehler der Gütemaße CFI und TLI einhergeht (vgl. Tabelle 6.1.1 und Tabelle 6.1.2). Für normalverteilte Indikatoren und eine Fallzahl von n = 1500 zeigt sich beispielsweise Folgendes: Der Standardfehler des RMSEA liegt für das fehlspeziﬁzier te Modell unverändert beim Wert 0.01. Der Standardfehler des SRMR steigt vom Wert 0.003 auf den Wert 0.005 gering an. Für den TLI hingegen ﬁndet sich beim vorliegen den Modell ein Standardfehler mit einem Wert von 0.028. Dieser Wert liegt für das korrekt speziﬁzierte Modell bei 0.01 und ist folglich durch eine auf den Wert 0 ﬁxierte Faktorladung annähernd um das Dreifache angestiegen. Der Standardfehler des CFI steigt vom Wert 0.03 auf den Wert 0.15 und verfünffacht sich damit.⁵⁵ Diese Verän derungen implizieren einen systematischen und deutlichen Anstieg der Unsicherheit der Schätzung bei fehlspeziﬁzierten Messmodellen. Schiefe Indikatoren lassen die ohnehin erhöhten Standardfehler des fehlspeziﬁ zierten Messmodells mit der Ausnahme des SRMR⁵⁶ weiter ansteigen. Für den RMSEA zeigt sich ein geringer Anstieg vom Wert 0.01 für normalverteilte Indikatoren auf den Wert 0.013 für stark rechtsschiefe Variablen.⁵⁷ Der Standardfehler des TLI steigt vom Wert 0.028 über den Wert 0.031 für moderate Schiefe zum Wert 0.056 respektive 0.055 für starke Schiefe und verdoppelt sich somit für Modelle mit Indikatoren mit einer stark schiefen Verteilung. Ähnlich stark gestaltet sich der Anstieg des Standardfehlers

55 Da der Standardfehler mit steigender Fallzahl sinkt, ergeben sich für den vorliegenden Modell vergleich jeweils ähnliche Verhältnisse der Standardfehler für die jeweiligen Stichprobengrößen. Ei ne ausführliche Beschreibung für alle untersuchten Stichprobengrößen ist somit nicht notwendig. Die substanziellen Erkenntnisse weisen zwischen den verschiedenen Stichprobengrößen keine Un terschiede auf. 56 Hier bleibt der Standardfehler annähernd konstant. 57 Da die Kombination aus rechtsschiefen und linksschiefen Indikatoren die Standardfehler nicht zu sätzlich ansteigen lässt und sich keine substanziellen Unterschiede in den Standardfehlern zwischen den Modellen mit ausschließlich rechtsschiefen und jenen mit ausschließlich linksschiefen Indikato ren ﬁnden, entfällt an dieser Stelle eine genauere Darstellung der Auswirkung der Verteilungsform.

60 | 6 Sensitivitäten der Fit-Indizes

vom CFI. Hier steigt der Wert von 0.015 über 0.016 zu 0.028 und zeigt somit ebenfalls annähernd eine Verdoppelung der Unsicherheit der Schätzung dieses Gütemaßes an. Hervorzuheben ist, dass lediglich der TLI die Fehlspeziﬁkation des Messmodells erkennt; dies robust auch im Fall schief verteilter Indikatoren. Der CFI und der SRMR legen für alle Verteilungsformen und Stichprobengrößen fälschlich eine gute Modell anpassung nahe und der RMSEA zeigt ausschließlich für normalverteilte Indikatoren korrekterweise keine gute Modellanpassung an. Folglich hat eine forschende Person gute Gründe, von einer Fehlspeziﬁzierung des Messmodells auszugehen, wenn ledig lich der TLI auf ein schlecht angepasstes Modell hindeutet und der RMSEA nahe am kritischen Wert liegt.

6.1.3 Fehlspeziﬁziertes Strukturmodell Das sparsame fehlspeziﬁzierte Strukturmodell zeichnet sich durch eine auf den Wert 0 ﬁxierte Korrelation der beiden Faktoren des Modells aus. Die unterdrückte Korrelation liegt beim Wert 0.4. Zu beachten ist, dass damit zwangsläuﬁg das gesamte Strukturmo dell fehlspeziﬁziert ist, da das Modell lediglich aus zwei Faktoren besteht und deren Zusammenhang das gesamte Strukturmodell konstituiert. Anders als beim sparsamen fehlspeziﬁzierten Messmodell weisen hier die FitIndizes sowohl für alle Modelle mit normalverteilten Indikatoren als auch für jene Modelle mit moderat schief verteilten Indikatoren Werte auf, die korrekt auf keine gute Modellanpassung schließen lassen (vgl. Tabelle 6.1.3). Beim Modell mit nor malverteilten Indikatoren liegt der RMSEA über dem Wert 0.06, der SRMR liegt beim Wert 0.06, der CFI liegt circa beim Wert 0.94 und der TLI zeigt mit einem Wert kleiner Tab. 6.1.3: Sparsames fehlspeziﬁziertes Strukturmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.064 (0.009) 0.940 (0.016) 0.887 (0.030) 0.060 (0.008)

0.061 (0.010) 0.937 (0.018) 0.882 (0.034) 0.056 (0.008)

0.037 (0.011) 0.926 (0.037) 0.861 (0.070) 0.032 (0.007)

0.061 (0.010) 0.937 (0.018) 0.883 (0.033) 0.056 (0.008)

0.037 (0.011) 0.926 (0.038) 0.861 (0.071) 0.032 (0.007)

0.036 (0.010) 0.929 (0.035) 0.867 (0.065) 0.032 (0.006)

n = 1500

RMSEA CFI TLI SRMR

0.064 (0.009) 0.939 (0.015) 0.885 (0.028) 0.060 (0.008)

0.061 (0.009) 0.937 (0.017) 0.882 (0.032) 0.056 (0.008)

0.037 (0.010) 0.925 (0.035) 0.859 (0.066) 0.032 (0.006)

0.061 (0.009) 0.937 (0.016) 0.882 (0.031) 0.056 (0.008)

0.037 (0.010) 0.924 (0.035) 0.857 (0.065) 0.032 (0.006)

0.036 (0.009) 0.929 (0.031) 0.866 (0.059) 0.031 (0.006)

n = 1800

RMSEA CFI TLI SRMR

0.065 (0.008) 0.939 (0.013) 0.885 (0.024) 0.060 (0.007)

0.061 (0.008) 0.937 (0.014) 0.881 (0.027) 0.056 (0.007)

0.038 (0.009) 0.924 (0.030) 0.858 (0.057) 0.031 (0.006)

0.061 (0.008) 0.937 (0.015) 0.881 (0.027) 0.056 (0.007)

0.037 (0.009) 0.925 (0.031) 0.859 (0.059) 0.031 (0.006)

0.037 (0.008) 0.927 (0.028) 0.863 (0.053) 0.031 (0.005)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

6.1 Sparsame Modelle |

61

als 0.89 ganz deutlich an, dass das Modell keine zufriedenstellende Güte aufweist. Die entsprechenden Schwellenwerte von 0.95 und 0.05 werden hierbei jeweils nicht überschritten bzw. nicht unterschritten. Deutliche Effekte der Fallzahl ﬁnden sich bei diesem Modell nicht. Hier werden lediglich minimale Tendenzen sichtbar. Der RMSEA, der SRMR und der CFI zeigen für alle verteilungsspeziﬁschen Szenarien nahezu keine Veränderung mit steigender Fallzahl. In marginaler Tendenz sinken die Werte vom CFI und SRMR und der Wert des RMSEA steigt mit steigender Fallzahl. Etwas deutlicher sinkt der Wert des TLI mit ansteigender Stichprobengröße. Die Richtung der Verteilung der Indikatoren hat keine Auswirkung auf die Hö he der Fit-Maße, bezüglich der Modelle mit Indikatoren ausschließlich einer Vertei lungsrichtung. So sind die Ergebnisse im Vergleich zwischen den Modellen mit mode rat oder stark rechtsschiefen und entsprechend linksschiefen Variablen nahezu iden tisch. Allerdings wird die Modellgüte beim Modell mit Indikatoren unterschiedlicher Verteilungsformen für alle Fit-Indizes und bei allen Stichprobengrößen gleich gut bis besser eingeschätzt als bei den Modellen mit ausschließlich stark rechtsschiefen re spektive stark linksschiefen Indikatoren. Besonders deutlich sind diese Tendenzen für den CFI mit Differenzwerten von bis zu 0.005 und noch stärker für den TLI, der Differenzen von bis zu 0.009 aufweist (vgl. Tabelle 6.1.3).⁵⁸ Beim vorliegenden Modell zeigt sich zudem ein interessanter Effekt des Ausmaßes der Schiefe. Mit steigender Schiefe sinken die Werte aller vier Fit-Indizes deutlich und legen somit widersprüchliche Schlüsse hinsichtlich der Modellgüte nahe (vgl. Tabel le 6.1.3). So zeigen die Maße CFI und TLI mit steigender Schiefe eine stärkere Fehlan passung an, während der RMSEA und der SRMR eine bessere Modellgüte nahelegen; bei Modellen mit sehr schiefen Indikatoren implizieren sowohl der RMSEA als auch der SRMR mit Werten deutlich unterhalb des Schwellenwertes 0.05 gar fälschlicher weise eine gute Modellanpassung. Für ähnlich fehlspeziﬁzierte Strukturmodelle, bei denen der RMSEA und der SRMR unter normalverteilten Indikatoren nur knapp über dem Schwellenwert liegen, ist davon auszugehen, dass bereits weniger stark schiefe Verteilungen der Indikatoren diese beiden Fit-Indizes irrtümlich eine gute Modellan passung anzeigen lassen würden. Die Entwicklung der Standardfehler spiegelt tendenziell den in den beiden zuvor beschriebenen Modellvarianten beobachteten Verlauf wider: Die Standardfehler vom RMSEA und SRMR zeigen lediglich geringe Schwankungen zwischen den verschiede nen Verteilungsformen an und die Standardfehler der beiden komparativen Fit-Indi zes CFI und TLI steigen für sehr schief verteilte Indikatoren auf mehr als das Doppelte an (vgl. Tabelle 6.1.3). Für eine Fallzahl von n = 1500 und die rechtsschiefen Verteilun gen steigt der Standardfehler des CFI vom Wert 0.016 für normalverteilte Indikatoren

58 Eine ähnliche Tendenz hat sich bereits bei den vorherigen sparsamen Modellen gezeigt und wird für alle sparsamen Modelle gemeinsam ausgewertet (vgl. dazu Kapitel 6.1.5).

62 | 6 Sensitivitäten der Fit-Indizes TLI

300

250

Häuﬁgkeit

200

150

100

50

0 0.6

0.7

0.8 Wert

0.9

1.0

1.1

Abb. 6.1.3: Verteilungsplot des TLI, 91 % korrekte Modellbewertungen.

über 0.018 für moderat schief verteilte Indikatoren auf 0.037 für stark schief verteil te Variablen. Der Standardfehler des TLI steigt dabei vom Wert 0.030 über den Wert 0.034 auf den Wert 0.070. Bezüglich des TLI besteht in Kombination mit dem geringen mittleren Wert dieses Gütemaßes kein Problem hinsichtlich möglicher Fehlschlüsse; auch für das Beispiel stark linksschiefer Indikatoren, bei dem die Stichprobenwerte eine durchschnittliche Streuung von 0.071 aufweisen, liegt die obere Grenze von ei nem Standardfehler bei 0.861 + 0.071 = 0.932 und somit unter dem Schwellenwert des TLI. Mit einem Anteil von über 91 % weist hierbei der größte Teil der Stichproben korrekt auf eine Fehlspeziﬁkation des Modells hin (vgl. dazu Abbildung 6.1.3). Beim CFI zeigt sich hingegen, dass die obere Grenze von einem Standardfehler respekti ve von einer Standardabweichung um den mittleren CFI für alle Verteilungsformen die Schwelle von 0.95 überschreitet und entsprechend ein größerer Anteil (28 %) aller Stichproben fälschlich eine gute Modellanpassung nahelegt (vgl. Abbildung 6.1.4). Die mangelnde Modellgüte wird beim vorliegenden Modell für normalverteilte oder moderat schiefe Indikatoren durch alle Fit-Indizes wiedergegeben. Beim Fall stark schiefer Indikatoren zeigen lediglich der CFI und der TLI korrekt keine gute Mo dellpassung an. Der TLI weist für das fehlspeziﬁzierte Strukturmodell eine besonders

6.1 Sparsame Modelle

| 63

CFI 200

Häuﬁgkeit

150

100

50

0 0.80

0.85

0.90 Wert

0.95

1.00

Abb. 6.1.4: Verteilungsplot des CFI, 72 % korrekte Modellbewertungen.

gute Performanz auf. Der Wert dieses Gütemaßes liegt bei allen im Rahmen dieses Mo dells untersuchten Stichprobenmerkmalen deutlich unter dem Wert 0.89 und damit in einem Bereich, der eine Fehlspeziﬁkation eindeutig nahelegt.

6.1.4 Fehlspeziﬁkationen von Messmodell und Strukturmodell Das vorliegende fehlspeziﬁzierte Gesamtmodell ergibt sich aus der Kombination der Fehlspeziﬁkationen des fehlspeziﬁzierten Messmodells und jenen des fehlspeziﬁzier ten Strukturmodells. Es beinhaltet entsprechend sowohl eine fälschlich auf den Wert 0 ﬁxierte Faktorladung als auch eine fälschlich auf den Wert 0 ﬁxierte Korrelation der beiden Faktoren des Modells. Diese deutliche Fehlspeziﬁkation des gesamten Modells zeigt sich in den Werten der Fit-Indizes, die allesamt auf eine schlechte Modellanpas sung schließen lassen. Über alle Fallzahlen und Verteilungen liegt der CFI maximal beim Wert 0.71 und der TLI unter dem Wert 0.52 (vgl. Tabelle 6.1.4). Derart geringe Wer te könnten in der Praxis darauf schließen lassen, dass es sich um ein Modell handelt, das nicht mit genug Bedacht entwickelt wurde. Der RMSEA und der SRMR liegen mit der Ausnahme der Modelle mit stark schiefen Indikatoren jeweils über dem Wert 0.1;

64 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.1.4: Sparsames Modell mit Fehlspeziﬁkation von Messmodell und Strukturmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.133 (0.008) 0.708 (0.028) 0.514 (0.047) 0.116 (0.008)

0.126 (0.009) 0.705 (0.034) 0.509 (0.057) 0.109 (0.008)

0.075 (0.010) 0.673 (0.066) 0.455 (0.110) 0.061 (0.007)

0.125 (0.009) 0.705 (0.034) 0.509 (0.057) 0.108 (0.008)

0.074 (0.010) 0.673 (0.067) 0.455 (0.111) 0.060 (0.008)

0.074 (0.009) 0.677 (0.063) 0.462 (0.105) 0.060 (0.006)

n = 1500

RMSEA CFI TLI SRMR

0.133 (0.008) 0.710 (0.027) 0.517 (0.044) 0.116 (0.007)

0.126 (0.008) 0.706 (0.029) 0.510 (0.048) 0.109 (0.007)

0.075 (0.009) 0.673 (0.057) 0.455 (0.095) 0.061 (0.007)

0.125 (0.008) 0.706 (0.030) 0.510 (0.050) 0.108 (0.007)

0.074 (0.009) 0.673 (0.060) 0.455 (0.100) 0.060 (0.007)

0.074 (0.008) 0.676 (0.058) 0.460 (0.096) 0.060 (0.006)

n = 1800

RMSEA CFI TLI SRMR

0.133 (0.007) 0.709 (0.023) 0.514 (0.039) 0.116 (0.006)

0.126 (0.007) 0.705 (0.025) 0.508 (0.042) 0.109 (0.007)

0.075 (0.008) 0.671 (0.051) 0.451 (0.085) 0.060 (0.006)

0.126 (0.008) 0.706 (0.027) 0.509 (0.045) 0.108 (0.007)

0.075 (0.008) 0.673 (0.054) 0.455 (0.090) 0.060 (0.006)

0.074 (0.007) 0.676 (0.051) 0.460 (0.084) 0.060 (0.005)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

allerdings liegt auch in diesem Fall der SRMR jeweils mindestens beim Wert 0.06 und der RMSEA überschreitet stets den Wert 0.07. Zwischen den verschiedenen Fallzahlen lassen sich für die vier Gütemaße ledig lich minimale Schwankungen der mittleren Werte feststellen, die keine Systematik er kennen lassen. Zwischen den Modellen mit nur rechtsschiefen und jenen mit nur linksschiefen Indikatoren gibt es ebenfalls keine nennenswerten Unterschiede. Allerdings zeigen alle Fit-Indizes für Modelle mit Indikatoren unterschiedlicher Verteilungsformen ei ne bessere Modellanpassung an als für Modelle mit Indikatoren, die ausschließlich rechtsschief oder ausschließlich linksschief verteilt sind: Dieser Effekt fällt für den RMSEA und den SRMR sehr schwach aus. Beim CFI hingegen ﬁnden sich bereits Dif ferenzwerte bis zu 0.005 und beim TLI zeigt sich der dahingehend stärkste Effekt mit Differenzen von bis zu 0.009. Die mittleren Werte dieser beiden komparativen Fit-Indi zes liegen allerdings für sämtliche Verteilungsformen eindeutig in einem Bereich, der das Modell korrekt als nicht gut angepasst wertet. Fehlschlüsse sind aufgrund dieser Sensitivität somit für Modelle wie das vorliegende nicht zu erwarten. Mit einem Anstieg der Schiefe der Indikatoren sinken die Werte aller Fit-Indizes. Das heißt, dass der CFI und der TLI mit schiefen Indikatoren eine noch schlechte re Modellanpassung nahelegen. Da es sich um ein fehlspeziﬁziertes Modell handelt, kann dies nicht zu Fehlschlüssen hinsichtlich der Konklusion bezüglich der Modell güte führen. Für den RMSEA und den SRMR könnte sich hier tendenziell das gleiche Problem wie beim fehlspeziﬁzierten Strukturmodell ergeben, da mit schieferen Indi katoren eine bessere Modellanpassung nahegelegt wird. Allerdings liegen auch diese beiden Maße selbst bei stark schiefen Indikatoren korrekt außerhalb des Bereichs gu ter Modellanpassung.

6.1 Sparsame Modelle

| 65

Nicht nur die mittleren Werte der Fit-Indizes lassen eindeutig erkennen, dass es sich um ein fehlspeziﬁziertes Modell handelt; auch die Standardfehler verdeutlichen, dass die meisten der jeweils tausend Stichproben auf Basis der Fit-Indizes auf kei ne gute Modellanpassung schließen lassen. Innerhalb von einem Standardfehler um den jeweiligen mittleren Wert liegen für alle Stichprobenmerkmale nur Werte, die kor rekterweise auf eine Fehlanpassung des Modells schließen lassen. Davon abgesehen sind die Effekte klar erkennbar: Die Standardfehler der beiden absoluten Fit-Indi zes RMSEA und SRMR reagieren nicht sensitiv auf die Schiefe der Indikatoren. Hier schwanken die Standardfehler zwischen den unterschiedlichen Verteilungsformen lediglich marginal. Die beiden komparativen Fit-Maße CFI und TLI zeigen hingegen klare Sensitivitäten bezüglich der Verteilungsform. Mit steigender Schiefe steigen hier die Standardfehler deutlich an. Bei starker Schiefe der Indikatoren sind die Stan dardfehler jeweils mehr als doppelt so hoch wie bei normalverteilten Indikatoren. Bei moderater Schiefe und einer Stichprobengröße von n = 1500 sind die Standardfehler beider Fit-Maße im Vergleich zu normalverteilten Indikatoren bereits um mehr als zwanzig Prozent erhöht. So steigt der Standardfehler des CFI vom Wert 0.028 auf den Wert 0.034 und jener des TLI vom Wert 0.047 auf den Wert 0.057 (vgl. Tabelle 6.1.4).

6.1.5 Zentrale Ergebnisse sparsamer Modelle Bei der Auswertung der sparsamen Modelle zeigen sich bestimmte Sensitivitäten wie derholt. Das kann als Indiz für mögliche systematische Zusammenhänge zwischen den Fit-Indizes beziehungsweise ihren mittleren Werten respektive Standardfehlern und den getesteten Sensitivitäten verstanden werden. Tabelle 6.1.5 fasst zusammen, inwiefern sich die in Kapitel 4.1 formulierten Forschungserwartungen über die Sen sitivitäten der Gütemaße auf die untersuchten Stichproben- und Datenmerkmale für sparsame Modelle bestätigen lassen. Insbesondere wird ausführlich erörtert, ob die Wirkungsrichtung einer bestimmten Sensitivität hilfreich, irrelevant oder sogar irre führend für die Evaluation der Modelle ist. Als wichtige Erkenntnis zeigt sich, dass das korrekt speziﬁzierte Modell von al len Fit-Indizes und bei allen untersuchten Stichprobenspeziﬁkationen korrekt als gut angepasst bewertet wird. Die Werte der Fit-Indizes überschreiten die strengen Schwel lenwerte deutlich und legen nahe, dass es sich um ein sehr gutes Modell handelt (vgl. Tabelle 6.1.1). Für das korrekt speziﬁzierte Modell zeigen sich die vier Fit-Indizes äu ßerst robust und sind dahingehend wie das Modell als sehr gut zu bewerten. Das fehlspeziﬁzierte Gesamtmodell wird annähernd genauso deutlich und kor rekt als nicht gut angepasst bewertet, wie das korrekt speziﬁzierte Modell durch die Fit-Indizes als gut erkannt wird. Für dieses fehlspeziﬁzierte Modell liegen der CFI und der TLI für alle untersuchten Stichprobenmerkmale in einem Wertebereich, der auf eine sehr starke Fehlspeziﬁkation schließen lässt, mit CFI-Werten kleiner als 0.72 und TLI-Werten unterhalb von 0.52 (vgl. Tabelle 6.1.4). Der SRMR zeigt die fehlende Güte

66 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.1.5: Sensitivitäten der Fit-Indizes bei sparsamen Modellen unter Berücksichtigung der Forschungserwartungen.

RMSEA TLI CFI SRMR

Fallzahl

Fehlspeziﬁkation Fehlspeziﬁkation Schiefe Messmodell Strukturmodell

nein (✓) nein (✓) nein (✓) ja (✓)

ja (✓) ja (✓) ja (=)̸ nein (✓)

nein (=)̸ nein (=)̸ nein (=)̸ ja (✓)

nein (=)̸ nein (=)̸ nein (=)̸ nein (=)̸

Verteilungs richtung

(Schiefe →) Standardfehler

nein ja ja nein

nein ja ja nein

Zu sehen sind die jeweiligen Forschungserwartungen (vgl. dazu Kapitel 4.1) unterteilt nach „ja“ (die konkrete Sensitivität wird erwartet) und „nein“ (es wird keine Sensitivität erwartet). In Klammern ist jeweils vermerkt, ob sich die einzelne Erwartung erfüllt hat (✓) oder nicht (=). ̸ Zusätzlich zur unter suchten Auswirkung der Fallzahl, der Fehlspeziﬁkationen des Messmodells einerseits und des Struk turmodells andererseits und der Schiefe der Indikatoren auf die Gütemaße, ist die Auswirkung der Verteilungsrichtung der Indikatoren auf die Gütemaße sowie der Effekt des Schiefegrads der Indika toren auf die Höhe des Standardfehlers angegeben; dabei ist jeweils direkt vermerkt, ob eine entspre chende Sensitivität besteht.

dieses Modells am schwächsten an. Dieses Gütemaß liegt bei Modellen mit sehr schie fen Variablen beim Wert 0.06 und damit näher am Bereich akzeptabler Güte als der RMSEA, der Werte höher als 0.07 annimmt. Der TLI und der CFI zeigen sich hier als besonders verlässlich. Das fehlspeziﬁzierte Messmodell wird ausschließlich vom TLI für alle Stichpro benmerkmale korrekterweise als nicht gut angepasst bewertet (vgl. Tabelle 6.1.2). Der mittlere Wert schwankt dabei zwischen 0.924 und 0.946. Bei normalverteilten Indi katoren zeigt auch der RMSEA einen erhöhten Wert und eine mangelnde Modellgüte an. Der Wert liegt dabei nur knapp über dem Schwellenwert 0.05 und sinkt bereits bei Modellen mit moderat schief verteilten Indikatoren in einen Zahlenbereich, der fälschlich eine gute Modellanpassung nahelegt. Kritisch zu beurteilen sind der CFI sowie der SRMR, die für alle Stichprobenmerkmale eine gute Modellanpassung und damit einen falschen Schluss bezüglich dieses Modells nahelegen (vgl. Tabelle 6.1.5). Für sparsame Modelle vermag folglich eine Erhöhung des RMSEA in Kombination mit einem niedrigen TLI, der unterhalb der Schwelle für ein gutes Modell liegt, eine Fehl speziﬁkation des Messmodells zu identiﬁzieren. Die Forschungsliteratur stuft den SRMR als besonders sensitiv bei der Bewertung von Modellen mit Fehlspeziﬁkationen im Strukturteil ein. Für die anderen drei FitMaße ﬁnden sich keine derartigen Hinweise (vgl. Tabelle 6.1.5). Allerdings gelingt die Bewertung eines fehlspeziﬁzierten Strukturmodells mit normalverteilten beziehungs weise mit moderat schief verteilten Indikatoren mithilfe aller Fit-Indizes gut. So wei sen alle Fit-Indizes korrekterweise auf eine schlechte Modellanpassung hin. Für Mo delle mit Indikatoren mit stark schiefen Verteilungen zeigen der RMSEA und der SRMR fälschlich eine gute Modellanpassung an. Der TLI offenbart für alle Stichprobenvaria tionen die mangelhafte Anpassung des fehlspeziﬁzierten Strukturmodells mit Werten

6.1 Sparsame Modelle | 67

kleiner als 0.89 am deutlichsten (vgl. Tabelle 6.1.3) und erweist sich damit als derje nige Fit-Index, der alle überprüften Modellvarianten besonders zuverlässig bewertet und Fehlspeziﬁkationen sowohl im Messteil als auch im Strukturteil der überprüfen Modelle sensitiv erfasst. In Bezug auf unterschiedlich große Stichproben haben sich bei den vier sparsa men Modellvarianten keine starken Effekte auf die Zuverlässigkeit der Fit-Indizes ge zeigt. Es fällt allerdings auf, dass der SRMR bei allen sparsamen Modellen mit steigen der Stichprobengröße tendenziell sinkt, was für eine Sensitivität dieses Gütemaßes spricht, die insbesondere bei der Interpretation fehlspeziﬁzierter Modelle hinderlich sein könnte (vgl. Tabelle 6.1.5). Bei den vorliegenden Modellen hat sich dahingehend allerdings kein Fehlschluss ergeben, da der SRMR bei keiner Modellvariante beson ders nahe am kritischen Wert liegt und zudem die durch die Fallzahl begründeten Unterschiede in der Höhe dieses Fit-Maßes sehr gering ausfallen. Dennoch ist dieser Befund erwähnenswert: Schließlich ist zu beachten, dass hier nur große Stichproben untersucht wurden und der SRMR bei den analysierten Modellen teils selbst unter nor malverteilten Indikatoren fälschlich eine gute Modellanpassung nahelegt (vgl. Tabel le 6.1.2). Der Grund dafür kann in der hohen Fallzahl der hier simulierten Stichproben liegen. Im Rahmen der Strukturgleichungsmodellierung werden stets möglichst gro ße Stichproben genutzt, die eine systematische Unterschätzung des durch den SRMR nahegelegten Grads der Fehlanpassung nach sich ziehen. Bei allen sparsamen Modellen zeigt sich unabhängig von der Speziﬁkation der Modelle kein starker Unterschied zwischen moderat oder stark linksschiefen und den entsprechenden rechtsschiefen Verteilungen der Indikatoren. Die Fit-Indizes geben dafür jeweils annähernd die gleiche Güte aus; allerdings ﬁndet sich für die Modelle mit moderat schief verteilten Indikatoren tendenziell eine bessere Modellbewertung mit linksschiefen Variablen. Das wird vor allem an den Werten des fehlspeziﬁzierten Messmodells sichtbar und etwas schwächer ausgeprägt auch beim zuletzt behandel ten fehlspeziﬁzierten Gesamtmodell. Dabei ist zu beachten, dass diese beiden Modelle nicht gut angepasst sind und folglich die Modellbewertung mit linksschiefen Indika toren stärker in die falsche Richtung weist. Da diese Effekte allerdings mit Differenz werten von 0.001 zwischen den Modellen mit moderat linksschiefen Verteilungen der Indikatoren und jenen mit moderat rechtsschief verteilten Indikatoren äußerst gering ausfallen (vgl. Tabelle 6.1.2), kann es als irrelevant erachtet werden, ob bei einem Mo dell alle Indikatoren entweder rechtsschiefe Verteilungen oder linksschiefe Verteilun gen aufweisen; ein substanzieller Unterschied ergibt sich dafür nicht. In stärkerem Ausmaß zeigt sich ein Unterschied zwischen Modellen mit Indi katoren unterschiedlicher Verteilungsformen und Modellen mit ausschließlich stark rechtsschiefen oder nur stark linksschiefen Verteilungen der Indikatoren. Bei jedem sparsamen Modell mit Indikatoren unterschiedlicher Verteilungsformen zeigen die Fit-Indizes eine gleichbleibende bis bessere Modellgüte an als bei einem Modell mit einer gleichgerichteten stark schiefen Verteilung der Indikatoren. Dieser Effekt zeigt sich primär für die komparativen Fit-Indizes CFI und TLI (vgl. Tabelle 6.1.5). Der CFI

68 | 6 Sensitivitäten der Fit-Indizes

erreicht einen Differenzwert bis zu 0.005 und die Differenz im Wert des TLI beträgt gar bis zu 0.009 (vgl. Tabelle 6.1.3, Zeile n = 1800, und Tabelle 6.1.4, Zeile n = 2200). Die je weiligen Differenzen des RMSEA und jene des SRMR liegen maximal beim Wert 0.001 und sind damit deutlich geringer als jene der anderen beiden Fit-Maße. Der Einﬂuss der Verteilungsform der Indikatoren zeigt sich vor allem beim fehlspeziﬁzierten Mess modell. Bei dieser Modellvariante zeigt sich der TLI als einziger Fit-Index, der auch bei schiefen Verteilungen mit mittleren Werten, die nur bei der Modellvariante mit In dikatoren unterschiedlicher Verteilungsformen größer als 0.940 sind, korrekterweise auf eine Fehlanpassung des Modells hindeutet. So hat der TLI dabei einen Wert von 0.946 und rückt damit nah an die Schwelle für ein gutes Modell (vgl. Tabelle 6.1.2). Folglich kann angenommen werden, dass auch dieser Fit-Index ein bestimmtes Mo dell mit Fehlspeziﬁkationen im Messteil fälschlich zu gut bewerten könnte, wenn die Verteilungen der Indikatoren in unterschiedliche Richtungen zeigen. Liegt der TLI bei einem sparsamen Modell, das Indikatoren mit unterschiedlich gerichteten Vertei lungen enthält, nah am Schwellenwert, so könnte dies auf eine Fehlspeziﬁkation des Messmodells hinweisen, selbst wenn alle weiteren Fit-Indizes im Bereich einer guten Modellanpassung liegen. Der Schiefegrad der Indikatoren hat insbesondere bei den fehlspeziﬁzierten Mo dellen eine Auswirkung auf die Höhe der Fit-Indizes. Beim korrekt speziﬁzierten Mo dell steigen der RMSEA und der SRMR tendenziell an, während der CFI und der TLI sinken; somit zeigen alle Fit-Indizes beim korrekten Modell mit schieferen Indikatoren eine schlechtere Modellgüte an. Allerdings fällt dieser Effekt nicht stark ins Gewicht. Bei moderater Schiefe ändern sich die mittleren Werte aller vier Indizes um nicht mehr als 0.001. Für starke Schiefe fällt die Veränderung stärker aus, allerdings liegen auch dafür alle Fit-Indizes deutlich im Bereich einer sehr guten Modellanpassung (vgl. Ta belle 6.1.1). Auch beim fehlspeziﬁzierten Messmodell weisen die Fit-Indizes mit stär kerer Schiefe der Indikatoren eher in die falsche Richtung bezüglich der Modellgüte und bewerten Modelle mit schieferen Indikatoren als besser angepasst (vgl. dazu Ta belle 6.1.5). Hier fallen die Effekte insgesamt etwas stärker aus als beim korrekt spe ziﬁzierten Modell. Das ist besonders für den RMSEA problematisch, der bei normal verteilten Indikatoren nur knapp oberhalb des Schwellenwerts liegt und bereits bei Modellen mit moderat schiefen Indikatoren in den Bewertungsbereich guter Modell anpassung sinkt. Beim fehlspeziﬁzierten Strukturmodell ebenso wie beim falsch speziﬁzierten Ge samtmodell zeigen sich klare Effekte des Schiefegrads der Indikatoren auf die Werte der Fit-Indizes (vgl. Tabelle 6.1.3 und Tabelle 6.1.4). Verwunderlich ist, dass bei bei den Modellen die Werte aller Fit-Indizes mit steigender Schiefe sinken, sodass nur der RMSEA und SRMR diese fehlspeziﬁzierten Modelle fälschlich besser bewerten, wenn es sich um schiefere Indikatoren handelt. Somit könnten diese beiden Maße bereits bei moderater Schiefe zu Fehlschlüssen führen – insbesondere bei Modellen wie dem vorliegenden fehlspeziﬁzierten Strukturmodell, bei dem diese Maße bereits bei einer Normalverteilung der Indikatoren nahe am Schwellenwert liegen. Die Werte des CFI

6.1 Sparsame Modelle

| 69

und TLI zeigen mit steigender Schiefe der Indikatoren jeweils eine schlechtere Mo dellanpassung an. Das könnte nahelegen, dass für diese Maße verteilungsbedingte Fehlschlüsse ausgeschlossen werden können. Allerdings ist hierbei der Effekt auf den Standardfehler zu beachten. Bei allen sparsamen Modellen wirkt sich ein Anstieg der Schiefe der Indikatoren stark auf die Höhe der Standardfehler des CFI und TLI aus (vgl. dazu Tabelle 6.1.5). Für das fehlspeziﬁzierte Strukturmodell heißt das Folgen des: Zwar sinkt der mittlere Wert beider Fit-Maße mit steigender Schiefe, allerdings steigt simultan dazu das obere Ende eines möglichen Konﬁdenzintervalls, das Aus kunft über die Streuung der Werte in den Stichproben gibt. Das Konﬁdenzintervall des CFI, das sich aus einer Abweichung von einem Standardfehler um den mittleren Wert des CFI ergibt, steigt für die Stichprobengröße n = 1500 von einer symmetrischen zur einer stark rechtsschiefen Verteilung an, sodass die Obergrenze vom Wert 0.956 auf den Wert 0.963 ansteigt. Dabei sinkt der mittlere Wert von 0.940 auf 0.926. Der mittle re Wert des TLI sinkt ähnlich dazu vom Wert 0.887 auf den Wert 0.861 und das obere Ende des genannten Konﬁdenzintervalls steigt vom Wert 0.917 auf den Wert 0.931. Schiefere Indikatoren lassen die Standardfehler des CFI und TLI bei allen sparsa men Modellen deutlich ansteigen. Das ist eine wichtige Erkenntnis: Die Unsicherheit, die mit der Schätzung dieser Fit-Indizes bei schief verteilten Indikatoren einhergeht, kann prinzipiell bei allen sparsamen fehlspeziﬁzierten Modellen zu Fehlschlüssen be züglich der Modellgüte führen. Unter den analysierten Modellen wäre dies vor allem beim fehlspeziﬁzierten Messmodell problematisch, bei dem im Fall moderat schief verteilter Indikatoren nur der mittlere Wert des TLI auf eine Fehlspeziﬁkation hin weist; dabei ist allerdings auch der Standardfehler erhöht. Eine Stichprobe, für die sich ein TLI im oberen Bereich der durchschnittlichen Streuung der Stichprobenwerte ergibt, würde so fälschlich auf Basis aller Fit-Indizes auf eine gute Modellanpassung schließen lassen. Da bei der Berechnung eines Strukturgleichungsmodells vor der Analyse der Grad der Fehlspeziﬁkation des Modells nicht bekannt ist, muss bei stark schiefen Verteilun gen damit gerechnet werden, dass alle vier Fit-Indizes das Modell zu gut bewerten. Im vorliegenden Fall zeigen sich über alle Modelle hinweg besonders stark irreführende Tendenzen für den RMSEA und den SRMR. Die Analyse der sparsamen Modelle hat Ergebnisse hervorgebracht, die größten teils, jedoch nicht vollständig, mit den Annahmen der Forschungsliteratur überein stimmen (vgl. dazu Tabelle 6.1.5). So reagiert der CFI entgegen der Ergebnisse von Hu & Bentler (1999, S. 16) keineswegs sensitiv auf die Fehlspeziﬁkation im Messmodell (vgl. Tabelle 6.1.2) und ist insofern weniger verlässlich, als es bisherige Forschungs ergebnisse nahelegen. Ebenso ﬁnden sich im Gegensatz zu den Ausführungen von Byrne (2012, S. 98–99) deutliche Sensitivitäten hinsichtlich der Schiefe der Variablen. Die Bewertung des fehlspeziﬁzierten Strukturmodells fällt ebenfalls anders als erwar tet aus; so bewertet nicht ausschließlich der SRMR dieses Modell korrekt als schlecht angepasst und damit erweisen sich der RMSEA, der TLI und der CFI als verlässlicher, als auf Basis der Forschungserwartungen anzunehmen wäre (vgl. dazu Tabelle 6.1.5).

70 | 6 Sensitivitäten der Fit-Indizes

Für alle sparsamen Modelle zeigt der TLI die beste Performanz. Dieser zeigt die gute Modellanpassung des korrekten Modells besonders deutlich an und identiﬁziert ebenso die Fehlanpassungen von allen fehlspeziﬁzierten Modellvarianten korrekt.

6.2 Komplexe Modelle Unter den komplexen Modellen konnte nicht für jede Analysevariante die volle Anzahl an Replikationen berechnet werden. Der ausschließliche Grund dafür waren nicht po sitiv deﬁnite modellimplizierte Kovarianzmatrizen (vgl. dazu Kapitel B.1 im Anhang).

6.2.1 Korrekt speziﬁziertes Modell Das korrekt speziﬁzierte komplexe Modell wird von allen Fit-Indizes unabhängig von der Stichprobengröße und Verteilungsform korrekt als sehr gut eingestuft (vgl. Tabel le 6.2.1). In äußerst geringem Ausmaß liegt der TLI näher an dem Wert 1 als der CFI und der RMSEA liegt näher an dem Wert 0 als der SRMR. Alle folgenden Befunde zu dieser Modellvariante stellen lediglich leichte Tendenzen dar. Für die Stichprobengröße zeigt sich kein starker Einﬂuss auf die Höhe der mitt leren Fit-Indizes (vgl. Tabelle 6.2.1). Bei einem Anstieg der Fallzahl ist die deutlichste Veränderung beim SRMR zu verzeichnen. Dieser sinkt mit steigender Stichprobengrö ße stets um Differenzwerte von 0.001 bis 0.002 und zeigt somit für größere Stichproben etwas deutlicher die gute Modellanpassung an. Für den RMSEA ﬁndet sich die gleiche Tendenz, allerdings in geringerem Ausmaß; die Werte des RMSEA liegen für die kleins te Stichprobe (n = 1500) beim Wert 0.007 und für die größte Stichprobe (n = 2200) je weils beim Wert 0.005 oder beim Wert 0.006. Ähnlich geringfügig fällt die Verände rung des CFI aus. Auch dieses Fit-Maß zeigt mit größerer Stichprobe eine marginal bessere Modellgüte an, allerdings nur in Verbindung mit stark schiefen Indikatoren. Der TLI weist bei diesem Modell keinen Zusammenhang zur Fallzahl auf. Die Verteilungsformen der Indikatoren wirken sich bei diesem Modell äußerst ge ring auf die Höhe der Fit-Indizes aus. In sehr geringem Ausmaß zeigen alle Fit-Indi zes mit steigender Schiefe der Indikatoren eine schlechtere Modellanpassung an, lie gen jedoch allesamt im grünen Bereich hinsichtlich der Modellbewertung. Zwischen den jeweils moderat oder stark rechtsschiefen und entsprechend linksschiefen Vertei lungsformen gibt es keinen Unterschied in Hinblick auf die Modellbewertung. Hinzu kommt, dass Modelle mit Indikatoren gemischter Verteilungen ebenso wenig einen Effekt auf die Höhe der Fit-Maße zeigen; hier lassen sich in etwa die gleichen Werte wie bei Modellen mit ausschließlich stark rechtsschief oder ausschließlich stark links schief verteilten Indikatoren ﬁnden. Das Modell wird entsprechend für alle untersuch ten Schiefegrade korrekt als sehr gut eingestuft.

6.2 Komplexe Modelle | 71

Tab. 6.2.1: Komplexes korrekt speziﬁziertes Modell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.007 (0.009) 0.999 (0.002) 1.000 (0.005) 0.013 (0.004)

0.007 (0.009) 0.999 (0.002) 0.999 (0.006) 0.014 (0.004)

0.007 (0.009) 0.996 (0.006) 0.998 (0.019) 0.014 (0.003)

0.007 (0.009) 0.999 (0.002) 0.999 (0.006) 0.014 (0.004)

0.007 (0.009) 0.996 (0.006) 0.999 (0.019) 0.014 (0.003)

0.007 (0.009) 0.996 (0.007) 0.998 (0.019) 0.014 (0.003)

n = 1500

RMSEA CFI TLI SRMR

0.006 (0.008) 0.999 (0.001) 1.000 (0.004) 0.012 (0.004)

0.006 (0.008) 0.999 (0.002) 1.000 (0.005) 0.012 (0.004)

0.007 (0.008) 0.997 (0.005) 0.999 (0.015) 0.013 (0.003)

0.007 (0.008) 0.999 (0.002) 1.000 (0.005) 0.012 (0.003)

0.007 (0.009) 0.997 (0.006) 0.998 (0.016) 0.013 (0.003)

0.006 (0.008) 0.997 (0.005) 1.000 (0.015) 0.013 (0.003)

n = 1800

RMSEA CFI TLI SRMR

0.005 (0.007) 0.999 (0.001) 1.000 (0.003) 0.011 (0.003)

0.006 (0.007) 0.999 (0.001) 1.000 (0.004) 0.011 (0.003)

0.006 (0.008) 0.997 (0.004) 0.999 (0.013) 0.012 (0.003)

0.006 (0.007) 0.999 (0.001) 1.000 (0.004) 0.011 (0.003)

0.006 (0.007) 0.998 (0.004) 0.999 (0.013) 0.011 (0.003)

0.006 (0.007) 0.997 (0.004) 0.999 (0.013) 0.012 (0.003)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 832 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 994 der 1000 angeforderten Replikationen erfolgreich berechnet wer den. Für die starken Schiefegrade konnten jeweils zwischen 832 und 920 Replikationen erfolgreich berechnet werden.

Die Standardfehler steigen für schiefere Verteilungen lediglich bei den Gütema ßen CFI und TLI an. Der Standardfehler des RMSEA ist ebenso wie jener des SRMR bei den verschiedenen Verteilungsformen der Indikatoren annähernd gleich. Bei ei ner Stichprobengröße von n = 1500 steigt der Standardfehler des TLI im Vergleich zu normalverteilten Indikatoren für stark rechtsschiefe Verteilungen annähernd um das Vierfache, vom Wert 0.005 auf den Wert 0.019 an (vgl. Tabelle 6.2.1). Der Standardfeh ler des CFI steigt bei der Stichprobengröße n = 1800 für stark rechtsschiefe Verteilun gen im Vergleich zu normalverteilten Indikatoren um das Fünffache, vom Wert 0.001 auf den Wert 0.005 an. Da die mittleren Werte dieser beiden Indizes allerdings bei 0.998 respektive 0.997 liegen, sind potenzielle Fehlschlüsse trotz der erhöhten Stan dardfehler weitgehend auszuschließen. Das vorliegende komplexe korrekt speziﬁzierte Modell wird unter allen Stichpro benspeziﬁkationen auf Basis aller Fit-Indizes eindeutig als gut angepasst bewertet. Die vier Fit-Indizes zeigen sich hier als äußerst robust und verlässlich.

6.2.2 Fehlspeziﬁziertes Messmodell Das komplexe fehlspeziﬁzierte Messmodell zeichnet sich durch eine auf den Wert 0 ﬁ xierte Faktorladung eines Indikators aus; im Populationsmodell weist dieser Indikator eine Faktorladung von 0.6 auf dem dritten Faktor auf. Interessant ist die Analyse dieses Modells auch deshalb, da die Fehlspeziﬁkation etwas schwächer ausfällt als für das bereits betrachtete sparsame fehlspeziﬁzierte Messmodell (vgl. dazu Kapitel 6.1.2). Bei jenem Modell wird eine Faktorladung mit dem Wert 0.5 unterdrückt. Dies ist dabei al

72 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.2.2: Komplexes fehlspeziﬁziertes Messmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.051 (0.008) 0.977 (0.007) 0.956 (0.014) 0.033 (0.005)

0.048 (0.009) 0.977 (0.009) 0.956 (0.017) 0.032 (0.005)

0.023 (0.011) 0.979 (0.016) 0.961 (0.032) 0.021 (0.005)

0.048 (0.009) 0.977 (0.008) 0.956 (0.016) 0.032 (0.005)

0.022 (0.011) 0.981 (0.015) 0.964 (0.029) 0.021 (0.004)

0.023 (0.011) 0.980 (0.015) 0.962 (0.030) 0.021 (0.004)

n = 1500

RMSEA CFI TLI SRMR

0.051 (0.007) 0.977 (0.006) 0.956 (0.012) 0.033 (0.004)

0.047 (0.008) 0.978 (0.007) 0.957 (0.014) 0.031 (0.004)

0.023 (0.009) 0.981 (0.013) 0.964 (0.025) 0.020 (0.004)

0.048 (0.008) 0.977 (0.007) 0.957 (0.014) 0.031 (0.004)

0.023 (0.010) 0.980 (0.013) 0.962 (0.026) 0.020 (0.004)

0.023 (0.010) 0.981 (0.013) 0.964 (0.025) 0.020 (0.004)

n = 1800

RMSEA CFI TLI SRMR

0.051 (0.007) 0.977 (0.006) 0.956 (0.011) 0.033 (0.004)

0.047 (0.007) 0.978 (0.007) 0.957 (0.012) 0.031 (0.004)

0.023 (0.009) 0.981 (0.012) 0.964 (0.023) 0.019 (0.004)

0.047 (0.007) 0.978 (0.007) 0.957 (0.012) 0.030 (0.004)

0.023 (0.009) 0.981 (0.012) 0.964 (0.023) 0.019 (0.004)

0.023 (0.009) 0.981 (0.012) 0.964 (0.023) 0.019 (0.004)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 739 bis 992 Stichproben und dahinter in Klammern die dazu gehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 940 der tausend angeforderten Replikationen erfolgreich berechnet werden. Für die starken Schiefegrade konnten jeweils zwischen 739 und 827 Replikationen erfolgreich berechnet werden.

lerdings eine von sieben Faktorladungen. Beim vorliegenden komplexen Modell wird eine von neun Faktorladungen unterdrückt; so bleibt ein geringerer Anteil der vorlie genden Zusammenhänge unbeachtet.⁵⁹ Das zeigt sich in den Ergebnissen zu diesem Modell, wie im Folgenden beschrieben. Bemerkenswert ist, dass das Modell nur vom RMSEA und lediglich bei normal verteilten Indikatoren korrekt als nicht gut angepasst bewertet wird. Der RMSEA liegt bei dieser Modellvariante mit einem Wert von 0.051 zwar nur knapp über dem ent sprechenden Schwellenwert von 0.05, lässt damit nichtsdestotrotz im Gegensatz zu den anderen Fit-Indizes auf eine Fehlspeziﬁkation schließen (vgl. Tabelle 6.2.2). Der CFI liegt beim Wert 0.977 und legt somit wie der SRMR (0.033), fälschlich eine gute Modellanpassung nahe. Der TLI liegt mit einem Wert von 0.956 zwar erkennbar un ter dem Wert des CFI; allerdings weist auch dies fälschlich auf eine gute Modellan passung hin. Für alle anderen Speziﬁkationen der Schiefe ﬁnden sich ausschließlich Ergebnisse, die das Modell fälschlich als gut angepasst einstufen. Die Fallzahl hat unter normalverteilten Indikatoren keinen Einﬂuss auf die FitIndizes; es ergeben sich die gleichen Werte für alle drei Stichprobengrößen. Bei schie fen Variablen sinkt der SRMR mit steigender Fallzahl geringfügig und der TLI und der CFI zeigen mit der Ausnahme der Modelle mit stark linksschiefen Variablen leicht stei

59 Zudem sind die Faktorladungen des komplexen Modells mit einem mittleren Wert von 0.7 deut lich höher als die Faktorladungen des sparsamen Modells, die einen Mittelwert von 0.57 aufweisen. Die jeweils auf den Wert 0 ﬁxierten Faktorladungen der beiden Modelle liegen somit beide unter der durchschnittlichen Höhe der Faktorladungen des jeweiligen Modells und sind entsprechend bezüg lich des relativen Betrags, der mit der Fehlspeziﬁkation nicht beachtet wird, annähernd vergleichbar.

6.2 Komplexe Modelle

| 73

gende Tendenzen an. Zwar zeigen sich bei diesem Modell keine starken Effekte bezüg lich der Fallzahl; allerdings weisen alle erkennbaren Tendenzen in eine irreführende Richtung, da das Modell bei gegebener Schiefe der Indikatoren mit höherer Fallzahl besser bewertet wird. Die Schiefe selbst zeigt einen deutlicheren Effekt auf die Höhe der Fit-Indizes: Problematischerweise zeigen dabei alle Fit-Indizes eine bessere Modellanpassung für dieses fehlspeziﬁzierte Modell an. Die Werte vom TLI und CFI steigen geringfügig mit moderater Schiefe und stärker für stark schief verteilte Indikatoren. Zwischen den Modellen mit normalverteilten Indikatoren und moderat schief verteilten Indikatoren weisen beide Gütemaße Differenzwerte von 0.001 auf (vgl. Tabelle 6.2.2). Im Vergleich zu Modellen mit normalverteilten Indikatoren steigt der CFI bei Modellen mit stark schiefen Indikatoren vom Wert 0.977 auf einen maximalen Wert von 0.981. Der Diffe renzwert von 0.004 ist relativ gering; folglich ist der Wert des CFI nicht stark von der Schiefe der Indikatoren betroffen. Der entsprechende Differenzwert des TLI liegt bei 0.008 und ist somit doppelt so hoch. Stärker werden allerdings die absoluten Fit-Indizes RMSEA und SRMR von der Schiefe der Indikatoren beeinﬂusst. Bereits im Vergleich zwischen Modellen mit nor malverteilten und solchen mit moderat schiefen Variablen ﬁnden sich Differenzwerte von bis zu 0.003 für den SRMR und Werte bis 0.004 für den RMSEA. Dabei zeigt sich folgendes Problem: Der mittlere Wert des RMSEA liegt bereits bei moderat schiefen Indikatoren maximal beim Wert 0.048 und zeigt eine ausreichend gute Modellanpas sung an. Damit führt er gemeinsam mit den anderen Fit-Indizes zu dem Fehlschluss, dass es sich um ein gut angepasstes Modell handelt. Die klare Fehlspeziﬁkation des Messmodells wird damit nicht berücksichtigt. Zwischen den Modellen mit normal verteilten Indikatoren und jenen mit stark schiefen Indikatoren liegen Differenzwerte von bis zu 0.014 für den SRMR – dieser sinkt bis zum Wert 0.019 für eine Fallzahl von n = 2200 – und Differenzen bis zu 0.029 für den RMSEA, der bei der kleinsten Fallzahl und linksschiefen Variablen einen Wert von 0.022 aufweist. Das zeigt ganz deutlich, dass schiefe Indikatoren bei solch einer Modellvariante ein großes Problem darstel len können, da dabei alle Gütemaße fälschlicherweise und umso stärker auf eine gute Modellanpassung schließen lassen, je schiefer die Indikatoren verteilt sind. Die Richtung der Verteilung der Indikatoren hat allerdings keinen systematischen Einﬂuss auf die Höhe der Fit-Indizes und ist im Gegensatz zur Stärke der Schiefe irrele vant. Sowohl mit rechtsschiefen als auch mit linksschiefen Indikatoren wird dieses Modell fälschlich auf Basis aller Fit-Indizes als gut angepasst gewertet. Die Standardfehler sind bei diesem fehlspeziﬁzierten Messmodell im Vergleich zum korrekt speziﬁzierten Modell für den CFI und den TLI deutlich erhöht. Bei nor malverteilten Indikatoren und einer Fallzahl von n = 1500 steigt der Standardfehler des TLI annähernd um das Dreifache vom Wert 0.005 auf den Wert 0.014 und jener des CFI steigt um mehr als das Dreifache vom Wert 0.002 auf den Wert 0.007 (vgl. Tabel le 6.2.1 und Tabelle 6.2.2). Die Standardfehler des RMSEA und SRMR bleiben hingegen nahezu unverändert.

74 | 6 Sensitivitäten der Fit-Indizes

Innerhalb des vorliegenden fehlspeziﬁzierten Messmodells hat ein Anstieg der Schiefe keinen Effekt auf die Höhe des Standardfehlers des SRMR. Der Standardfehler des RMSEA steigt mit stärkerer Schiefe der Indikatoren geringfügig an. Die Standard fehler des CFI und TLI sind bei starker Schiefe jeweils mehr als doppelt so hoch wie bei normalverteilten Indikatoren. Sie steigen maximal bei der Konﬁguration mit der kleinsten Stichprobe und mit rechtsschief verteilten Indikatoren vom Wert 0.007 auf den Wert 0.016 (CFI) beziehungsweise vom Wert 0.014 auf den Wert 0.032 (TLI). Der Anstieg in der Unsicherheit der Schätzung mittels einer einzigen Stichprobe, der mit einem Anstieg des Standardfehlers einhergeht, zeigt sich jedoch nicht als pri märes Problem bei der Evaluation dieser Modellvariante. Problematisch ist, dass nur der RMSEA darauf hindeutet, dass eine Fehlspeziﬁkation vorliegt, und dies nur, wenn die Indikatoren normalverteilt sind. Bereits eine geringere Schiefe als die hier verwen dete moderate Schiefe mit dem Wert 1 könnte diesen Fit-Index so sinken lassen, dass der Wert unter dem Schwellenwert liegt und somit das Modell allen vier Indizes zufol ge fälschlicherweise als gut bewertet werden würde.

6.2.3 Fehlspeziﬁziertes Strukturmodell Das komplexe fehlspeziﬁzierte Strukturmodell besteht aus drei Faktoren, zwischen denen lediglich eine Kovarianz, die beim Wert 0.6 liegt, frei geschätzt wird. Ein weite rer Zusammenhang zwischen dem ersten und dem zweiten Faktor, der ebenfalls beim Wert 0.6 liegt, wird in diesem Modell auf den Wert 0 ﬁxiert, sodass die Zusammenhän ge der Faktoren in diesem Modell nicht korrekt wiedergegeben sind und es sich so um ein fehlspeziﬁziertes Strukturmodell handelt. Alle Fit-Indizes weisen sowohl bei Modellen mit normalverteilten Indikatoren als auch bei Modellen mit moderat schief verteilten Indikatoren auf eine Fehlspeziﬁkation des Modells hin. Der TLI weicht hier am stärksten vom Schwellenwert ab und liegt mit einem Wert kleiner als 0.86 eindeutig im Bereich mangelhafter Modellanpassung (vgl. Tabelle 6.2.3). Bezüglich der Fallzahl ﬁnden sich hier nahezu keine systematischen Effekte. In äußerst geringem Ausmaß und nur für bestimmte Speziﬁkationen der Schiefe der Mo dellindikatoren zeigt der SRMR eine sinkende Tendenz an: Mit steigender Fallzahl wird das Modell durch dieses Gütemaß tendenziell besser eingestuft. Für die verschiedenen Richtungen der schiefen Indikatoren zeigt sich im Vergleich zwischen den Modellen mit ausschließlich rechtsschiefen Variablen und jenen mit ausschließlich linksschiefen Variablen kein systematischer Effekt auf die Höhe der Fit-Indizes. Zwar hat der TLI im Vergleich zwischen den Modellen mit stark rechts schief verteilten Indikatoren und jenen mit stark linksschiefen Verteilungen der Indi katoren Differenzwerte von bis zu 0.005, allerdings zeigt sich keine feste Richtung der Höhe des TLI zwischen Modellen mit rechtsschiefen und linksschiefen Verteilungen der Variablen. Für Modelle mit Indikatoren unterschiedlicher Verteilungen weist der

6.2 Komplexe Modelle

| 75

Tab. 6.2.3: Komplexes fehlspeziﬁziertes Strukturmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.093 (0.008) 0.926 (0.011) 0.858 (0.021) 0.080 (0.007)

0.087 (0.008) 0.925 (0.012) 0.856 (0.024) 0.075 (0.007)

0.050 (0.009) 0.919 (0.026) 0.846 (0.049) 0.041 (0.006)

0.087 (0.008) 0.925 (0.013) 0.857 (0.024) 0.075 (0.007)

0.049 (0.009) 0.922 (0.026) 0.851 (0.049) 0.040 (0.006)

0.050 (0.008) 0.921 (0.023) 0.849 (0.043) 0.040 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.093 (0.007) 0.926 (0.010) 0.859 (0.020) 0.080 (0.007)

0.087 (0.008) 0.925 (0.012) 0.857 (0.023) 0.074 (0.007)

0.050 (0.008) 0.920 (0.023) 0.847 (0.045) 0.040 (0.006)

0.087 (0.007) 0.926 (0.011) 0.858 (0.022) 0.074 (0.007)

0.050 (0.008) 0.919 (0.025) 0.845 (0.047) 0.040 (0.006)

0.050 (0.007) 0.922 (0.021) 0.850 (0.040) 0.040 (0.005)

n = 1800

RMSEA CFI TLI SRMR

0.093 (0.006) 0.926 (0.009) 0.859 (0.017) 0.080 (0.006)

0.087 (0.007) 0.925 (0.011) 0.857 (0.020) 0.074 (0.006)

0.050 (0.007) 0.920 (0.021) 0.848 (0.041) 0.040 (0.005)

0.087 (0.007) 0.925 (0.010) 0.857 (0.020) 0.074 (0.006)

0.050 (0.008) 0.920 (0.022) 0.847 (0.041) 0.040 (0.006)

0.050 (0.006) 0.921 (0.019) 0.849 (0.037) 0.039 (0.005)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

TLI jeweils höhere Werte auf als bei den Vergleichsmodellen mit ausschließlich rechts schiefen Variablen; auch im Vergleich zu den Modellen mit ausschließlich linksschie fen Variablen weist dieses Modell mit Ausnahme der Stichprobengröße von n = 1500 höhere Werte auf. Möglicherweise weist das darauf hin, dass der TLI im Gegensatz zu den anderen untersuchten Fit-Indizes auf die Richtung der Verteilung reagiert. Im Gegensatz zur Richtung der Schiefe hat das Ausmaß der Schiefe der Indikato ren einen deutlichen Einﬂuss auf alle hier betrachteten Fit-Indizes. Dieser Effekt ist für den CFI am schwächsten ausgeprägt. Hier ﬁnden sich für Modelle mit moderat schie fen Indikatoren im Vergleich zu solchen mit normalverteilten Variablen Differenzwerte von nicht mehr als 0.001 (vgl. Tabelle 6.2.3). Die entsprechenden maximalen Differenz werte des TLI liegen bei 0.002. Im Vergleich dazu liegt der entsprechende Differenz wert des RMSEA bei 0.006 und jener des SRMR bei maximal 0.006. Als problematisch zeigt sich diese Sensitivität bezüglich der Verteilung für den RMSEA und den SRMR nicht lediglich aufgrund der Stärke des Effekts, sondern vor allem aufgrund der Tatsa che, dass alle mittleren Fit-Indizes mit steigender Schiefe sinken und somit der RMSEA und der SRMR bei schiefen Variablen eine bessere Modellgüte nahelegen. Für alle Mo delle mit stark schiefen Indikatoren liegt der SRMR mit einem Wert von 0.04 deutlich unter der kritischen Grenze von 0.05 und zeigt so fälschlich eine gute Modellanpas sung an. Im Fall des RMSEA wird bei Modellen mit stark schief verteilten Indikatoren die Schwelle von 0.05 nicht überschritten. Zu beachten ist hier allerdings die Tendenz der beiden absoluten Fit-Indizes, mit steigender Schiefe der Indikatoren eine besse re Modellanpassung für ein solch fehlspeziﬁziertes Strukturmodell nahezulegen. Der SRMR würde den Ergebnissen zufolge bereits für eine geringere Schiefe der Indikato ren unter den Schwellenwert sinken und fälschlich eine gute Modellanpassung nahe legen. Bei schief verteilten Indikatoren tendieren der RMSEA und der SRMR offenbar

76 | 6 Sensitivitäten der Fit-Indizes TLI

300

Häuﬁgkeit

200

100

0 0.65

0.70

0.75

0.80 0.85 Wert

0.90

0.95

1.00

Abb. 6.2.1: Verteilungsplot des TLI, 99 % korrekte Modellbewertungen.

dazu, die Fehlanpassung im Strukturmodell zu unterschätzen. Bei ähnlich komplexen Modellen, die hinsichtlich der Zusammenhänge der latenten Faktoren nicht korrekt speziﬁziert sind, können so irreführende Modellergebnisse entstehen. Mit steigender Schiefe der Indikatoren steigen bei diesem Modell zudem die Stan dardfehler des CFI und TLI an. Auf den Standardfehler des RMSEA wirkt sich die Schie fe nur marginal aus und auf den Standardfehler des SRMR zeigt sich keine Auswir kung. Der starke Anstieg der Standardfehler des TLI und des CFI bei Modellen mit schief verteilten Indikatoren kann kaum zu Problemen bei der Modellevaluation füh ren, da die mittleren Werte dieser beiden Maßzahlen jeweils deutlich mehr als eine Standardabweichung unterhalb der Schwellenwerte liegen und so davon ausgegan gen werden kann, dass die Ergebnisse der meisten Stichproben eindeutig auf eine Fehlspeziﬁkation hindeuten (vgl. Abbildungen 6.2.1 und 6.2.2). Unter allen Teilsimula tionen zum komplexen fehlspeziﬁzierten Strukturmodell ist die in Abbildung 6.2.1 und Abbildung 6.2.2 dargestellte jene, bei der die Werte dieser beiden Fit-Indizes, gemes sen über den Durchschnitt und die Standardabweichung, am höchsten ausfallen und so der größte Anteil an fälschlicherweise korrekt bewerteten Modellen zu verzeichnen ist. Der TLI weist dabei einen Mittelwert von 0.851 auf (Standardfehler = 0.049) und der Mittelwert des CFI liegt bei 0.922 (Standardfehler = 0.026). Gemessen am Schwellen

6.2 Komplexe Modelle

| 77

CFI 300

250

Häuﬁgkeit

200

150

100

50

0 0.85

0.90

0.95

1.00

Wert Abb. 6.2.2: Verteilungsplot des CFI, 86 % korrekte Modellbewertungen.

wert von 0.95 wird für den TLI 0.9 % der Verteilung nach rechts abgetrennt. Entspre chend wird das Modell bei über 99 % der Stichproben korrekt zurückgewiesen. Beim CFI liegen circa 13 % der Verteilung über dem Schwellenwert. So kann das Modell mit diesem Fit-Index für circa 86 % der Stichproben korrekt als fehlspeziﬁziert bewertet werden. Es lässt sich festhalten, dass das komplexe fehlspeziﬁzierte Strukturmodell so wohl für normalverteilte Indikatoren als auch für moderat schiefe Verteilungen mittels aller Fit-Indizes eindeutig sowie korrekterweise als nicht gut genug angepasst gewer tet wird. Bei Modellen mit stark schief verteilten Indikatoren weisen der TLI und der CFI deutlich auf eine Fehlspeziﬁkation hin, während der RMSEA nah am Schwellen wert liegt und der SRMR fälschlicherweise eine gute Anpassung des Modells attestiert.

6.2.4 Fehlspeziﬁkationen von Messmodell und Strukturmodell Beim komplexen fehlspeziﬁzierten Gesamtmodell werden die falschen Speziﬁkatio nen des fehlspeziﬁzierten Messmodells und jene des fehlspeziﬁzierten Strukturmo

78 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.2.4: Komplexes Modell mit Fehlspeziﬁkation von Messmodell und Strukturmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.099 (0.007) 0.907 (0.013) 0.838 (0.022) 0.085 (0.007)

0.093 (0.008) 0.907 (0.014) 0.837 (0.025) 0.079 (0.007)

0.053 (0.009) 0.903 (0.028) 0.830 (0.049) 0.044 (0.006)

0.093 (0.008) 0.907 (0.015) 0.837 (0.026) 0.079 (0.007)

0.052 (0.009) 0.906 (0.028) 0.836 (0.048) 0.043 (0.006)

0.052 (0.008) 0.905 (0.025) 0.833 (0.044) 0.043 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.099 (0.007) 0.908 (0.011) 0.839 (0.020) 0.084 (0.006)

0.093 (0.007) 0.907 (0.013) 0.838 (0.023) 0.079 (0.007)

0.053 (0.008) 0.904 (0.026) 0.831 (0.046) 0.043 (0.006)

0.093 (0.007) 0.908 (0.013) 0.838 (0.023) 0.079 (0.007)

0.053 (0.008) 0.902 (0.026) 0.829 (0.046) 0.043 (0.006)

0.052 (0.007) 0.905 (0.024) 0.834 (0.042) 0.043 (0.005)

n = 1800

RMSEA CFI TLI SRMR

0.099 (0.006) 0.908 (0.010) 0.839 (0.018) 0.084 (0.006)

0.093 (0.007) 0.908 (0.012) 0.838 (0.021) 0.078 (0.006)

0.052 (0.007) 0.905 (0.023) 0.833 (0.041) 0.042 (0.005)

0.093 (0.007) 0.908 (0.012) 0.839 (0.020) 0.078 (0.006)

0.053 (0.007) 0.904 (0.024) 0.832 (0.041) 0.043 (0.005)

0.052 (0.006) 0.905 (0.021) 0.834 (0.038) 0.042 (0.005)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 996 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils alle 1000 angeforderten Replikationen erfolgreich berechnet werden.

dells kombiniert. Das Modell beinhaltet folglich eine fälschlich auf den Wert 0 ﬁxierte Faktorladung sowie eine auf den Wert 0 ﬁxierte Kovarianz zweier Faktoren des Mo dells, die innerhalb der Population beim Wert 0.6 liegt. Die starke Fehlspeziﬁkation des vorliegenden Modells zeigt sich vor allem beim TLI, der für sämtliche Stichprobenspeziﬁkationen unter dem Wert 0.86 und damit im Mittel jeweils deutlich mehr als zwei Standardfehler unter dem Schwellenwert liegt (vgl. Tabelle 6.2.4). Alle weiteren Indizes zeigen zumindest für Modelle mit normalver teilten oder moderat schief verteilten Indikatoren ebenfalls korrekterweise eine Fehl anpassung des Modells an. Bei stark schiefen Indikatoren liegt allein der SRMR unter dem Schwellenwert und zeigt so fälschlich eine gute Modellanpassung an. Die Fallzahl wirkt sich bei dieser Modellvariante nicht auf die Höhe des RMSEA aus und lediglich unter Nichtbeachtung der Modelle mit stark linksschief verteilten Variablen zeigen der TLI und der CFI eine leicht steigende Tendenz und damit mit höherer Fallzahl irreführend eine marginal bessere Modellgüte an (vgl. Tabelle 6.2.4). Ebenso geringfügig zeigt der SRMR mit steigender Fallzahl eine bessere Modellanpas sung an. Die Differenzwerte zwischen der kleinsten und der größten Stichprobe rei chen für die Fit-Indizes lediglich bis zum Wert 0.003 ⁶⁰; somit können Fehlschlüsse auf Basis einer sehr hohen Fallzahl weitgehend ausgeschlossen werden. Die Richtung der Verteilung hat erst bei genauerem Hinsehen einen Einﬂuss auf die Höhe der Fit-Indizes: Bei der kleinsten Stichprobengröße zeigt sich ein hoher Dif

60 Diese maximale Differenz ﬁndet sich – bei Nichtbeachtung der Ergebnisse der Modelle mit Indi katoren mit einer stark linksschiefen Verteilung – lediglich für den TLI bei Modellen mit stark rechts schiefen Indikatoren.

6.2 Komplexe Modelle

| 79

ferenzwert im TLI und eine erhöhte Differenz in den Werten des CFI zwischen dem Modell mit stark rechtsschiefen Indikatoren und jenem mit stark linksschiefen Indi katoren (vgl. Tabelle 6.2.4). Bei den Modellen mit linksschiefen Indikatoren ist der CFI um 0.003 und der TLI gar um 0.006 erhöht; dieses Einzelergebnis läuft dem systema tischen Effekt der Stichprobengröße auf den TLI und den CFI entgegen.⁶¹ Der TLI weist für jede untersuchte Stichprobengröße beim Modell mit Indikatoren unterschiedlicher Verteilungen jeweils höhere Werte auf als bei dem Modell mit aus schließlich rechtsschiefen oder jenem mit ausschließlich linksschiefen Indikatoren, sofern die Werte des Vergleichsseeds (1326510) für die Teilsimulation mit der Fallzahl von n = 1500 und Indikatoren mit stark linksschiefen Verteilungen für den Vergleich genutzt werden. Die Richtung der Schiefe zeigt bei diesem Modell – wie auch bei dem komplexen fehlspeziﬁzierten Strukturmodell – einen Einﬂuss auf den TLI. Die ande ren Fit-Indizes zeigen dahingehend beim vorliegenden fehlspeziﬁzierten Gesamtmo dell keine Sensitivitäten auf. Da der TLI bei diesem Modell für alle Speziﬁkationen einen sehr geringen Wert aufweist, sind irreführende Ergebnisse auf Basis dieses Gü temaßes in Verbindung mit Indikatoren unterschiedlicher Verteilungen für fehlspezi ﬁzierte Modelle wie das vorliegende nicht zu erwarten. Das Ausmaß der Schiefe der Indikatoren zeigt einen deutlichen Einﬂuss auf die Höhe aller vier Fit-Indizes. Mit steigender Schiefe sinken die mittleren Werte aller FitMaße; jene des CFI und TLI sinken im Vergleich zwischen Modellen mit normalver teilten Indikatoren und solchen mit moderat schief verteilten Variablen mit Differenz werten von nicht mehr als 0.001 lediglich marginal. Dabei sinken der RMSEA jeweils um 0.006 und der SRMR jeweils um bis zu 0.006 (vgl. Tabelle 6.2.4), was als proble matisch eingestuft werden könnte, da sich diese beiden Gütemaße so einer fälschlich guten Modellbewertung annähern. Allerdings zeigt der RMSEA mit mittleren Werten von mindestens 0.052 auch bei Modellen mit stark schief verteilten Indikatoren kor rekt keine gute Modellanpassung an. Der SRMR sinkt bei Modellen mit stark schief verteilten Indikatoren mit Werten von bis zu 0.042 unter den Schwellenwert von 0.05 und impliziert demnach fälschlicherweise eine adäquate Modellanpassung. Auch bei geringerer Schiefe der Indikatoren könnte dieses Maß unter den Schwellenwert fal len und so eine falsche Modellbewertung nahelegen. Dabei ist zu beachten, dass alle anderen Fit-Indizes eindeutig eine Fehlanpassung anzeigen und ein eindeutiger Fehl schluss unter Berücksichtigung aller Fit-Indizes somit bei einem solchen Modell auch bei Indikatoren, die äußerst schiefe Verteilungen aufweisen, annähernd ausgeschlos

61 Möglicherweise sind bei der Simulation des Effekts stark linksschiefer Indikatoren unwahrschein lich hohe mittlere Werte dieser beiden Fit-Indizes entstanden. Dies wird auch durch die Variation des Seeds nahegelegt. Mit dem Seed 1326510 lauten die mittleren Werte für die Fit-Indizes bei einer Stichprobengröße von n = 1500 und stark linksschiefen Indikatoren (in Klammern dahinter die Werte mit dem Seed 2009 aus Tabelle 6.2.4): RMSEA = 0.053 (0.052), CFI = 0.903 (0.906), TLI = 0.829 (0.836), SRMR = 0.044 (0.043). Diese Werte legen keine große Differenz zwischen den Modellen mit linksschie fen und jenen mit rechtsschiefen Indikatoren nahe.

80 | 6 Sensitivitäten der Fit-Indizes

sen ist. Ein irreführendes Ergebnis, bei dem die verschiedenen Gütemaße unterschied liche Schlüsse nahelegen, könnte so allerdings durchaus entstehen. Bezüglich der Standardfehler zeigen sich für den RMSEA und SRMR lediglich mar ginale Zusammenhänge zur Verteilung der Indikatoren. Der SRMR, dessen mittlerer Wert mit stärkerer Schiefe der Indikatoren stark sinkt, weist für schiefere Variablen zum Teil sogar marginal geringere Standardfehler auf. Der Standardfehler des RMSEA steigt marginal mit stärkerer Schiefe der Indikatoren, während die Standardfehler des CFI und TLI mit steigender Schiefe der Indikatoren stark steigen: Für moderate Schie fe steigt der Standardfehler des CFI um bis zu 0.002 und der des TLI um bis zu 0.004. Für starke Schiefe zeigen sich für beide Gütemaße bereits mehr als doppelt so hohe Standardfehler wie bei normalverteilten Indikatoren. Allerdings liegen die mittleren Werte beider Gütemaße selbst bei Modellen mit stark schiefen Indikatoren im Mittel mehr als eine Standardabweichung unter dem Schwellenwert und zeigen so zuverläs sig eine Fehlanpassung des Modells an (vgl. Tabelle 6.2.4). Die mittleren Werte der Fit-Indizes zeigen in Verbindung mit den Standardfehlern klar, dass es bei einem derart fehlspeziﬁzierten Modell hinsichtlich der dargestellten Ergebnisse nahezu ausgeschlossen ist, das Modell auf Basis der Fit-Indizes fälschlich als gut angepasst zu bewerten.

6.2.5 Zentrale Ergebnisse komplexer Modelle Die komplexen Modelle haben in Zusammenhang mit den in Kapitel 4.1 formulierten Forschungserwartungen interessante Ergebnisse aufgeworfen (vgl. Tabelle 6.2.5). Zu nächst kann festgehalten werden, dass das korrekte Modell unabhängig von der Grö ße der dem Modell zugrunde liegenden Stichprobe und der Verteilung der Indikatoren eindeutig als gut angepasst erkannt wird. Das fehlspeziﬁzierte Gesamtmodell wird ähnlich dazu von allen Fit-Indizes als nicht gut genug angepasst erkannt; lediglich der SRMR stellt bei Modellen mit stark schiefen Indikatoren eine Ausnahme dar. Gleiches gilt für das fehlspeziﬁzierte Struk turmodell, das nur bei Konﬁgurationen mit stark schief verteilten Indikatoren durch den RMSEA und den SRMR fälschlich als gut bewertet wird. Damit geht für den RMSEA und den SRMR eine deutliche Sensitivität bezüglich der Schiefe der Indikatoren ein her; eine mangelnde Sensitivität bezüglich der Fehlspeziﬁkationen des Strukturmo dells ist für diese beiden Gütemaße hingegen nicht naheliegend, da sie die Fehlspe ziﬁkation im Strukturteil unter allen anderen Speziﬁkationen korrekt erfassen (vgl. dazu Tabelle 6.2.5). Das fehlspeziﬁzierte Messmodell wird allein durch den RMSEA unter der Voraus setzung normalverteilter Indikatoren als nicht gut genug angepasst bewertet. Bei mo derater Schiefe der Indikatoren liegen bereits alle Fit-Indizes fälschlicherweise im Be reich guter Modellanpassung (vgl. dazu Tabelle 6.2.5). Für dieses Modell wie für alle komplexen fehlspeziﬁzierten Modelle zeigt sich stets, dass der Wert des TLI niedriger

6.2 Komplexe Modelle |

81

Tab. 6.2.5: Sensitivitäten der Fit-Indizes bei komplexen Modellen unter Berücksichtigung der Forschungserwartungen.

RMSEA TLI CFI SRMR

Fallzahl

Fehlspeziﬁkation Fehlspeziﬁkation Schiefe Messmodell Strukturmodell

nein (✓) nein (✓) nein (✓) ja (✓)

ja (✓) ja (=)̸ ja (=)̸ nein (✓)

nein (=)̸ nein (=)̸ nein (=)̸ ja (✓)

nein (=)̸ nein (=)̸ nein (=)̸ nein (=)̸

Verteilungs richtung

(Schiefe →) Standardfehler

nein ja nein nein

nein ja ja nein

Zu sehen sind die jeweiligen Forschungserwartungen (vgl. dazu Kapitel 4.1) unterteilt nach „ja“ (die konkrete Sensitivität wird erwartet) und „nein“ (es wird keine Sensitivität erwartet). In Klammern ist jeweils vermerkt, ob sich die einzelne Erwartung erfüllt hat (✓) oder nicht (=). ̸ Zusätzlich zur unter suchten Auswirkung der Fallzahl, der Fehlspeziﬁkationen des Messmodells einerseits und des Struk turmodells andererseits und der Schiefe der Indikatoren auf die Gütemaße ist die Auswirkung der Ver teilungsrichtung der Indikatoren auf die Gütemaße sowie der Effekt des Schiefegrads der Indikatoren auf die Höhe des Standardfehlers angegeben; dabei ist jeweils direkt vermerkt, ob eine entsprechen de Sensitivität besteht.

ist als der Wert des CFI und der Wert des RMSEA über dem Wert des SRMR liegt.⁶² Der TLI zeigt so sämtliche Fehlspeziﬁkationen sensitiver an als der CFI; ebenso ist dem RMSEA mehr Beachtung zu schenken als dem SRMR, wenn ein komplexes Struktur gleichungsmodell hinsichtlich der Modellanpassung und möglicher Fehlspeziﬁkatio nen geprüft wird. Interessant ist dies auch hinsichtlich des korrekt speziﬁzierten Mo dells, das wiederum durch den TLI besser bewertet wird als durch den CFI und durch den RMSEA eine bessere Bewertung erfährt als durch den SRMR. Im Rahmen der Modellierung der komplexen Modelle zeigt sich für den SRMR ein klarer Effekt bezüglich der Fallzahl. Der SRMR ist der einzige untersuchte FitIndex, der bei jeder Modellvariante auf die Stichprobengröße reagiert und für größere Stichproben tendenziell eine bessere Modellanpassung anzeigt, was bei der Evalua tion fehlspeziﬁzierter Modelle problematisch sein kann. Für die – im vorliegenden Rahmen relevanten – großen Fallzahlen wird keines der untersuchten komplexen fehlspeziﬁzierten Modelle für alle Stichprobenspeziﬁkationen vom SRMR korrekt als fehlspeziﬁziert bewertet. Dabei zeigen alle anderen Fit-Indizes bei zwei der drei fehl speziﬁzierten Modellvarianten für alle Stichprobenspeziﬁkationen korrekt keine gute Modellanpassung an. Als Einschränkung ist hier zu beachten, dass der SRMR beim fehlspeziﬁzierten Strukturmodell und beim fehlspeziﬁzierten Gesamtmodell ledig lich bei stark schiefen Indikatoren einen falschen Schluss bezüglich der Modellgüte nahelegt. Allerdings zeigt dies im Vergleich zu den anderen drei Gütemaßen eine

62 Da für den TLI der gleiche Schwellenwert (0.95) genutzt wird wie für den CFI und auch der RMSEA und der SRMR den gleichen Schwellenwert (0.05) haben, lassen sich die Bewertungen der Modellgüte jeweils vergleichen.

82 | 6 Sensitivitäten der Fit-Indizes

erhöhte Fehleranfälligkeit des SRMR auf, die möglicherweise stark durch die hohen Fallzahlen bedingt ist. Innerhalb der Analyse der komplexen Modelle hat sich bezüglich des Verteilungs musters der Indikatoren eine interessante Sensitivität des TLI gezeigt. Dieses Gütemaß zeigt beim fehlspeziﬁzierten Strukturmodell ebenso wie beim fehlspeziﬁzierten Ge samtmodell für Modelle mit Indikatoren unterschiedlicher Verteilungen höhere Werte und somit eine bessere Modellanpassung an als für Modelle mit ausschließlich rechts schiefen oder ausschließlich linksschiefen Indikatoren. Das ist insofern bemerkens wert, als nicht eine bestimmte Richtung der Indikatoren dieses Gütemaß ansteigen lässt, sondern die Kombination aus Indikatoren mit rechtsschiefen Verteilungen und Indikatoren mit linksschiefen Verteilungen. Zudem besteht diese Sensitivität lediglich bei Modellen, die Fehlspeziﬁkationen im Strukturteil aufweisen. Daraus folgt aller dings nicht unbedingt eine falsche Modellbewertung, da der TLI die Fehlspeziﬁkatio nen dieser beiden Modelle für alle Speziﬁkationen der Verteilung stark wiedergibt; die Werte liegen bei beiden Modellen – zum Teil deutlich – unter dem Wert 0.86 und somit jenseits der Schwelle (0.95) für eine gute Modellanpassung. Bezüglich des Ausmaßes der Schiefe lässt sich zunächst festhalten, dass ein An stieg der Schiefe der Indikatoren insofern unterschiedliche Wirkungsrichtungen hat, als nicht immer mit steigender Schiefe die Modellbewertung entweder in die falsche oder in die richtige Richtung gelenkt wird. Beim korrekten Modell zeigen sich nur geringe Tendenzen, die allerdings alle in der Form bestehen, dass mit einem Anstieg der Schiefe die Modellgüte mit allen Fit-Indizes schlechter bewertet wird. Ein An stieg der Schiefe wirkt hier somit marginal in die falsche Richtung. Ebenso fällt die Wirkungsrichtung der Schiefe beim fehlspeziﬁzierten Messmodell aus. Dieses Mo dell wird mit stärkerer Schiefe der Indikatoren auf Basis aller Fit-Indizes als besser eingestuft; schiefe Indikatoren wirken dabei irreführend. Bei dem fehlspeziﬁzierten Strukturmodell und dem fehlspeziﬁzierten Gesamtmodell sinken die Werte aller FitIndizes; die mittleren Werte des CFI und des TLI zeigen damit in geringem Ausmaß eine schlechtere Modellanpassung an, was zu keinem Problem bei der Modelleva luation führen kann, da fehlspeziﬁzierte Modelle als nicht gut angepasst gewertet werden sollten. Der SRMR und der RMSEA weisen allerdings mit stärkerer Schiefe der Indikatoren stärker in die falsche Richtung und bewerten das jeweilige Modell als besser. Stark fallen die Effekte des Ausmaßes der Schiefe lediglich für die Fit-Indizes RMSEA und SRMR aus und das nur bei den fehlspeziﬁzierten Modellvarianten. Dabei weist die Veränderung in der Modellbewertungen stets in die falsche Richtung. Es zeigen sich klare Effekte des Schiefegrads der Verteilungen der Indikatoren sowie der Modellspeziﬁkation auf die Höhe der Standardfehler; allerdings gilt dies primär für die komparativen Fit-Indizes CFI und TLI. Die Standardfehler der absolu ten Fit-Indizes RMSEA und SRMR, weisen für alle Modellvarianten lediglich margina le Zusammenhänge zur Schiefe der Indikatoren sowie zur Modellanpassung auf: Mit steigender Schiefe der Indikatoren steigen die Standardfehler dieser beiden Maße gar nicht bis kaum an und ebenso ﬁnden sich keine deutlichen Differenzen in den Stan

6.2 Komplexe Modelle | 83

dardfehlern zwischen den verschiedenen Modellvarianten – dem korrekt speziﬁzier ten Modell und den drei fehlspeziﬁzierten Modellvarianten. Die Standardfehler der komparativen Fit-Indizes steigen hingegen deutlich mit schieferen Indikatoren und ebenso reagieren die Standardfehler dieser Gütemaße sensitiv auf die Speziﬁkation der Anpassung des Modells (vgl. dazu Tabelle 6.2.5). So sind die Standardfehler des CFI und TLI bei allen fehlspeziﬁzierten Modellen deutlich höher als beim korrekt spe ziﬁzierten Modell; Zudem sind die Standardfehler beim fehlspeziﬁzierten Strukturmo dell höher als beim fehlspeziﬁzierten Messmodell und beim fehlspeziﬁzierten Gesamt modell ﬁnden sich die höchsten Standardfehler. Das ist ein interessantes Ergebnis: Die Genauigkeit der Schätzung, die durch den Standardfehler angegeben werden, schei nen für den RMSEA ebenso wie für den SRMR robust hinsichtlich der Verteilung der Indikatoren und der in der Praxis stets zunächst unbekannten Fehlspeziﬁkation des Modells zu sein. Werden im Rahmen der Strukturgleichungsmodellierung jedoch für eine bestimmte Stichprobe die Werte des CFI und des TLI für die Modellevaluation ge nutzt, hängt die Genauigkeit dieser Werte zum einen von den bekannten Verteilungen der Indikatoren und zum anderen von der unbekannten Modellanpassung selbst ab. Beachtlich sind die Abweichungen der Ergebnisse von den Forschungserwartun gen. Bezüglich der angenommenen Sensitivität auf die Fallzahl können alle Erwar tungen bestätigt werden. Das Ausmaß der Schiefe der Verteilung der Indikatoren zeigt hingegen deutlich stärkere Effekte an, als die Forschungsliteratur erwarten lässt (vgl. dazu Kapitel 4.1); wenngleich beachtlich ist, dass zwar alle vier Fit-Indizes sensitiv auf schiefe Verteilungen reagieren, der RMSEA und der SRMR allerdings deutlich stärkere Sensitivitäten aufweisen und damit tendenziell eher irreführende Modellbewertungen hervorrufen können als der TLI und der CFI; dies sollte beachtet werden. Die beiden komparativen Fit-Indizes CFI und TLI zeigen die Fehlspeziﬁkation des Messmodells entgegen der Forschungserwartung nicht an, wenngleich zu beach ten ist, dass der TLI recht nah am Schwellenwert liegt und damit sensitiv – jedoch nicht ausreichend sensitiv – reagiert. Diese ausbleibende, jedoch im Rahmen der Modellevaluation hilfreiche Sensitivität offenbart eine Schwäche dieser beiden FitIndizes. Dem SRMR fehlt diese Sensitivität ebenfalls; das steht im Einklang mit den Forschungserwartungen (vgl. Tabelle 6.2.5). Die durch die Forschungsliteratur wiedergegebenen Annahmen zu Sensitivitäten auf Fehlspeziﬁkationen des Strukturmodells stimmen nicht mit den Ergebnissen die ser Simulationsstudie überein. So wird das fehlspeziﬁzierte Strukturmodell von allen Fit-Indizes als falsch angepasst erkannt und dabei ausschließlich vom SRMR – der laut Hu & Bentler (1999, S. 16) eine besonders starke Sensitivität aufweisen soll – un ter stark schiefen Verteilungen der Indikatoren fälschlich als gut angepasst bewertet (vgl. Tabelle 6.3.3). Alle anderen Fit-Indizes reagieren insofern stärker und besser als der SRMR auf diese falsche Speziﬁkation. Im Rahmen aller simulierten komplexen Modelle zeigt der RMSEA eine gute Mo dellanpassung ebenso wie eine gegebene Fehlanpassung stärker an als der SRMR und der TLI zeigt die Anpassung des Modells deutlicher an als der CFI. Beim fehlspeziﬁ

84 | 6 Sensitivitäten der Fit-Indizes

zierten Messmodell zeigt sich der RMSEA sogar als einziger Fit-Index, der bei Teilen der Simulation korrekt nicht im Bereich guter Modellanpassung liegt.

6.3 Sehr komplexe Modelle Nicht für alle speziﬁzierten sehr komplexen Modelle wurde die volle Anzahl von 1000 Replikationen erreicht. Die Gründe dafür liegen bei negativen Varianzschätzungen, Problemen bei der Schätzung der Standardfehler sowie nicht positiv deﬁniten Kova rianzmatrizen (vgl. dazu Kapitel B.1 im Anhang).

6.3.1 Korrekt speziﬁziertes Modell Die vier Fit-Indizes zeigen für das sehr komplexe korrekt speziﬁzierte Modell mittlere Werte, die eindeutig auf eine sehr gute Modellanpassung schließen lassen (vgl. Tabel le 6.3.1). Der TLI und der CFI liegen mit Werten von 0.997 bis 1.0 in einem Bereich, der eine perfekte Schätzung der in dem Modell festgelegten Zusammenhänge zwischen den Daten nahelegt. Dabei liegt der Wert des TLI stets bei oder marginal über dem Wert des CFI und zeigt damit die gute Modellanpassung geringfügig deutlicher an. Der Wert des RMSEA liegt bei maximal 0.008 und der Wert des SRMR liegt jeweils zwischen 0.011 und 0.014. Alle Sensitivitäten, die sich für dieses Modell zeigen, sind lediglich von geringem Ausmaß. Ein Anstieg der Fallzahl wirkt sich am deutlichsten auf den SRMR aus (vgl. Ta belle 6.3.1). Der TLI weist bei diesem Modell keine Sensitivität bezüglich der Fallzahl auf. Während der RMSEA mit steigender Fallzahl geringfügig sinkt, steigt der CFI ten denziell äußerst geringfügig an; so zeigen beide Fit-Indizes mit steigender Fallzahl die gute Modellanpassung etwas deutlicher an. Der Wert des SRMR sinkt mit jeder höhe ren Stufe der Stichprobengröße und so weist dieses Gütemaß die stärkste Sensitivität bezüglich der Fallzahl auf. Die Verteilungsrichtung der Indikatoren zeigt nahezu keinen Einﬂuss auf die FitIndizes. Es lässt sich lediglich feststellen, dass der TLI für zwei von drei Stichproben größen bei moderat linksschiefen Indikatoren (TLI = 1.0) minimal höher liegt als bei moderat rechtsschiefen Indikatoren (TLI = 0.999) (vgl. Tabelle 6.3.1). Mit einem Anstieg der Schiefe der Indikatoren zeigen alle vier Fit-Indizes eine ge ringfügig schlechtere Modellanpassung an und weisen so tendenziell in die falsche Richtung. Allerdings weisen die vier Gütemaße auch für stark schiefe Indikatoren Wer te auf, die auf eine sehr gute Modellanpassung schließen lassen. Der CFI und der SRMR zeigen diese marginalen Effekte für das Ausmaß der Schiefe der Indikatoren lediglich für den Vergleich zwischen stark schiefen Indikatoren und normalverteil ten Indikatoren an; für die Modelle mit moderat schiefen Indikatoren zeigen sich für diese beiden Fit-Indizes keine Veränderungen in den mittleren Werten und so ist weit

6.3 Sehr komplexe Modelle | 85

Tab. 6.3.1: Sehr komplexes korrekt speziﬁziertes Modell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.006 (0.008) 0.999 (0.001) 1.000 (0.003) 0.013 (0.004)

0.007 (0.009) 0.999 (0.001) 0.999 (0.004) 0.013 (0.004)

0.008 (0.009) 0.997 (0.005) 0.998 (0.013) 0.014 (0.003)

0.007 (0.008) 0.999 (0.001) 1.000 (0.004) 0.013 (0.004)

0.007 (0.009) 0.997 (0.005) 0.998 (0.013) 0.014 (0.003)

0.007 (0.009) 0.997 (0.005) 0.998 (0.014) 0.014 (0.003)

n = 1500

RMSEA CFI TLI SRMR

0.005 (0.007) 0.999 (0.001) 1.000 (0.003) 0.012 (0.004)

0.007 (0.008) 0.999 (0.001) 0.999 (0.004) 0.012 (0.003)

0.007 (0.008) 0.997 (0.004) 0.998 (0.011) 0.013 (0.003)

0.007 (0.008) 0.999 (0.001) 0.999 (0.003) 0.012 (0.003)

0.007 (0.008) 0.997 (0.004) 0.998 (0.011) 0.013 (0.003)

0.007 (0.008) 0.997 (0.004) 0.998 (0.011) 0.013 (0.003)

n = 1800

RMSEA CFI TLI SRMR

0.005 (0.007) 1.000 (0.001) 1.000 (0.002) 0.011 (0.003)

0.006 (0.007) 0.999 (0.001) 0.999 (0.003) 0.011 (0.003)

0.006 (0.007) 0.998 (0.003) 0.998 (0.009) 0.012 (0.002)

0.006 (0.007) 0.999 (0.001) 1.000 (0.003) 0.011 (0.003)

0.006 (0.007) 0.998 (0.003) 0.998 (0.009) 0.012 (0.003)

0.006 (0.007) 0.998 (0.003) 0.999 (0.009) 0.012 (0.002)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 835 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 994 der 1000 angeforderten Replikationen erfolgreich berechnet wer den. Für die starken Schiefegrade wurden jeweils zwischen 835 und 883 Replikationen erfolgreich berechnet.

gehend auszuschließen, dass der CFI oder der SRMR die gute Modellanpassung eines sehr komplexen korrekt speziﬁzierten Modells aufgrund schiefer Indikatoren schlech ter bewerten. Die Standardfehler des CFI und des TLI steigen mit stärkerer Schiefe der Indika toren tendenziell an. Für den RMSEA ergibt sich die gleiche Tendenz, allerdings in geringerem Ausmaß: Während sich der Standardfehler des CFI im Vergleich zwischen normalverteilten Indikatoren und stark schiefen Indikatoren verfünffacht (vom Wert 0.001 bis zum Wert 0.005) und der Standardfehler des TLI vom Wert 0.003 auf den Wert 0.014 steigt und so einen ähnlich starken relativen Anstieg erfährt, steigt der Stan dardfehler des RMSEA vom Wert 0.008 auf den Wert 0.009 deutlich geringer an. Der SRMR zeigt ebenfalls eine sehr geringe Tendenz an; interessanterweise sinkt hier der Standardfehler mit steigender Schiefe (vgl. Tabelle 6.3.1). Insgesamt zeigen sich für dieses Modell sehr gute Werte der vier Fit-Indizes, die für alle untersuchten Stichprobenmerkmale eindeutig und korrekt darauf hinweisen, dass dieses sehr komplexe Modell eine sehr gute Anpassung aufweist.

6.3.2 Fehlspeziﬁziertes Messmodell Beim sehr komplexen fehlspeziﬁzierten Messmodell sind zwei Faktorladungen, die im Populationsmodell jeweils beim Wert 0.4 liegen, auf den Wert 0 ﬁxiert. Diese Fehl speziﬁkation im Messteil des Modells wird nicht durch alle vier Fit-Indizes deutlich. Nur der TLI und der RMSEA weisen Werte auf, die auf eine Fehlanpassung des Mo dells hindeuten; für den RMSEA zeigen sich sowohl für normalverteilte Indikatoren

86 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.3.2: Sehr komplexes fehlspeziﬁziertes Messmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.075 (0.007) 0.956 (0.008) 0.923 (0.014) 0.045 (0.004)

0.069 (0.007) 0.957 (0.009) 0.925 (0.015) 0.043 (0.004)

0.034 (0.008) 0.967 (0.015) 0.942 (0.026) 0.027 (0.004)

0.069 (0.007) 0.957 (0.008) 0.925 (0.015) 0.043 (0.004)

0.034 (0.008) 0.966 (0.015) 0.941 (0.027) 0.027 (0.004)

0.033 (0.009) 0.968 (0.015) 0.943 (0.027) 0.026 (0.004)

n = 1500

RMSEA CFI TLI SRMR

0.075 (0.006) 0.956 (0.007) 0.923 (0.012) 0.045 (0.004)

0.069 (0.007) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)

0.034 (0.007) 0.967 (0.014) 0.942 (0.024) 0.026 (0.004)

0.069 (0.006) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)

0.034 (0.007) 0.967 (0.013) 0.942 (0.022) 0.026 (0.004)

0.034 (0.008) 0.967 (0.014) 0.943 (0.025) 0.026 (0.004)

n = 1800

RMSEA CFI TLI SRMR

0.075 (0.005) 0.956 (0.006) 0.922 (0.011) 0.045 (0.003)

0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.003)

0.034 (0.006) 0.968 (0.011) 0.943 (0.020) 0.025 (0.003)

0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.004)

0.034 (0.007) 0.967 (0.012) 0.943 (0.021) 0.025 (0.004)

0.034 (0.006) 0.968 (0.012) 0.943 (0.021) 0.025 (0.004)

n = 2200

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 710 bis 945 generierten Stichproben und dahinter in Klam mern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „mode rat linksschief“ konnten jeweils mindestens 877 der tausend angeforderten Replikationen erfolgreich berechnet werden. Für die starken Schiefegrade konnten jeweils zwischen 710 und 759 Replikationen erfolgreich berechnet werden.

als auch für moderat schiefe Indikatoren entsprechende Werte oberhalb des Schwel lenwerts. Der TLI ist besonders robust und weist für alle Speziﬁkationen der Fallzahl und Verteilung korrekt auf eine schlechte Modellanpassung hin; dagegen liegen der CFI und der SRMR bei allen Stichprobengrößen und allen Verteilungen fälschlich im Bereich guter Modellanpassung (vgl. Tabelle 6.3.2). Für die Teilsimulation mit nor malverteilten Indikatoren und die kleinste Stichprobengröße (n = 1500) zeigen sich für die Fit-Indizes beispielsweise folgende mittlere Werte: TLI = 0.923; RMSEA = 0.075; CFI = 0.956; SRMR = 0.045. Tendenzen hinsichtlich der Fallzahl bestehen beim sehr komplexen fehlspeziﬁ zierten Messmodell lediglich für die Teilsimulationen mit schiefen Indikatoren. Auf die Höhe des RMSEA wirkt sich die Fallzahl allerdings auch dabei nicht aus; Dieses Gütemaß ist bei diesem Modell besonders robust gegenüber der Fallzahl. Der Wert des TLI steigt mit der Ausnahme der Modelle mit normalverteilten Indikatoren ten denziell geringfügig mit steigender Fallzahl und weist somit geringfügig in die falsche Richtung; nichtsdestotrotz liegt der Wert auch dabei weiterhin korrekt deutlich unter halb der Schwelle für eine gute Modellanpassung. Der Wert des CFI steigt mit steigen der Fallzahl und zeigt damit in marginalem Ausmaß eine noch bessere Modellgüte für dieses fehlspeziﬁzierte Modell an. Der Wert des SRMR sinkt mit steigender Fall zahl geringfügig um Differenzwerte von 0.001 bis 0.002 zwischen den Modellen mit der kleinsten und jenen mit der größten Fallzahl. Für die Richtung der Verteilung der Indikatoren zeigen sich lediglich äußerst geringe Schwankungen. So liegt der Wert des TLI bei zwei von drei Stichprobengrö ßen für das jeweilige Modell mit Indikatoren unterschiedlicher Verteilungen etwas höher (TLI = 0.943) als bei den Vergleichsmodellen mit gleichgerichteten Indikatoren

6.3 Sehr komplexe Modelle |

87

(TLI = 0.941 bzw. 0.942). Zudem sind die Werte des CFI für zwei von drei Stichpro bengrößen für Modelle mit Indikatoren stark rechtsschiefer Verteilungen, mit einem Differenzwert von jeweils 0.001 marginal höher als beim jeweiligen Vergleichsmodell mit stark linksschiefen Indikatoren (vgl. Tabelle 6.3.2).⁶³ Das Ausmaß der Schiefe der Indikatoren wirkt sich auf die Höhe aller vier Fit-Indi zes aus. Alle Tendenzen weisen dabei mit einem Anstieg der Schiefe der Indikatoren in die falsche Richtung und zeigen mit höheren Werten des TLI und des CFI und ge ringeren Werten des RMSEA und des SRMR jeweils eine bessere Modellgüte für dieses sehr komplexe, fehlspeziﬁzierte Messmodell an. Für den RMSEA fällt dieser Effekt am stärksten aus. So sinkt der Wert des RMSEA bereits bei moderater Schiefe der Indikato ren stark, um einen Differenzwert von 0.006 (vgl. Tabelle 6.3.2). Auf Basis dieses Güte maßes zeigen sich trotzdem keine Probleme bei der Bewertung von Modellen, die dem hier untersuchten Modell ähnlich sind: Auch mit moderater Schiefe der Indikatoren weist der RMSEA korrekt auf eine mangelnde Modellanpassung hin. Nur bei den Mo dellen mit stark schief verteilten Indikatoren liegt der RMSEA mit mittleren Werten von 0.033 respektive 0.034 fälschlicherweise im Bereich einer guten Modellanpassung. Da der Wert des CFI und der Wert des SRMR bereits bei den Modellen mit normalverteilten Indikatoren fälschlich auf eine gute Modellanpassung schließen lassen, führt die – aufgrund der Schiefe der Indikatoren in die falsche Richtung weisende – bessere Be wertung des Modells dieser beiden Gütemaße zu keiner substanziellen Veränderung der Modellbewertung; die Modellbewertung über den CFI und den SRMR fällt für alle untersuchten Verteilungsformen der Indikatoren falsch aus. Der Wert des TLI zeigt für die Modelle mit schieferen Indikatoren zwar ebenfalls eine bessere Modellanpassung an, allerdings liegt der mittlere Wert dieses Gütemaßes selbst bei der starken Schiefe der Indikatoren, unter dem Schwellenwert 0.95 – maximal beim Wert 0.943 – und zeigt so als einziges der vier Gütemaße für alle untersuchten Stichprobenmerkmale korrekt die mangelnde Modellgüte des sehr komplexen fehlspeziﬁzierten Messmodells an. Von einem Anstieg der Schiefe der Indikatoren sind auch die Standardfehler der Fit-Indizes betroffen. Diese steigen mit steigender Schiefe der Indikatoren an. Die Aus wirkung auf den Standardfehler des SRMR ist überaus gering; hier ﬁnden sich ledig lich für die größte Fallzahl (n = 2200) um Differenzen von 0.001 erhöhte Werte mit stär kerer Schiefe der Indikatoren. Der Standardfehler des RMSEA steigt bei stark schiefen Indikatoren um nicht mehr als eine Differenz von 0.002 an. Um diese Differenz steigt der Standardfehler des TLI bereits für moderat schiefe Indikatoren an und ist im Ver gleich zwischen Modellen mit normalverteilten Indikatoren und den entsprechenden Modellen mit stark schiefen Indikatoren bis zu doppelt so hoch; beispielsweise steigt der Standardfehler des TLI für die Stichprobengröße n = 1800 vom Wert 0.012 auf den Wert 0.024 (vgl. Tabelle 6.3.2). Genauso stark steigt der Standardfehler des CFI mit stei

63 Vergleichbar geringe Tendenzen, die sich nur für eine der drei Stichprobengrößen ﬁnden, werden hier nicht gesondert erwähnt, da solche Einzelergebnisse keine Systematik erkennen lassen.

88 | 6 Sensitivitäten der Fit-Indizes

RMSEA

200

Häuﬁgkeit

150

100

50

0 0.05

0.06

0.07

0.08

0.09

Wert Abb. 6.3.1: Verteilungsplot des RMSEA für moderat schief verteilte Indikatoren.

gender Schiefe der Indikatoren: So verdoppelt sich dieser beispielsweise für die Stich probengröße n = 2200 vom Wert 0.006 auf den Wert 0.012. Insbesondere hinsichtlich des TLI und des RMSEA, die das Modell im Mittel korrekt als fehlspeziﬁziert bewerten, sollte hier der Standardfehler beachtet werden. Allerdings weisen diese beiden Maße für die Modelle mit normalverteilten Indikatoren und für jene mit moderat schiefen Indikatoren mittlere Werte auf, die deutlich mehr als einen Standardfehler – und da mit stark genug – von den Schwellenwerten abweichen. Die Abbildungen 6.3.1 und 6.3.2 verdeutlichen dies anhand des Modells mit moderat rechtsschiefen Verteilun gen der Indikatoren: Der TLI weist den Mittelwert 0.925 auf (Standardfehler = 0.015) und der Mittelwert des RMSEA liegt bei 0.069 (Standardfehler = 0.007). Es ist zu erken nen, dass der Schwellenwert des RMSEA (0.05) in nahezu allen Stichproben (99.9 %) überschritten ist und das Modell korrekt als falsch angepasst bewertet werden kann. Mit dem TLI und dem Schwellenwert von 0.95 wird das Modell ebenfalls für einen sehr großen Anteil der Stichproben (97.6 %) korrekt gewertet. Im Rahmen der Bewertung des sehr komplexen fehlspeziﬁzierten Messmodells erweisen sich nur der RMSEA und der TLI als hilfreich. Durch diese beiden Fit-Indizes wird die mangelnde Modellgüte im Gegensatz zum SRMR und CFI korrekt bewertet.

6.3 Sehr komplexe Modelle

| 89

TLI

200

Häuﬁgkeit

150

100

50

0 0.88

0.90

0.92

0.94

0.96

Wert Abb. 6.3.2: Verteilungsplot des TLI für moderat schief verteilte Indikatoren.

6.3.3 Fehlspeziﬁziertes Strukturmodell Das sehr komplexe fehlspeziﬁzierte Strukturmodell beinhaltet eine fälschlich auf den Wert 0 ﬁxierte Kovarianz zwischen dem ersten und zweiten Faktor des Modells. Inner halb der Population liegt diese Kovarianz beim Wert 0.6. Dieses Modell wird nicht von allen Fit-Indizes korrekt als fehlspeziﬁziert bewertet. Über den CFI wird dieses Modell unter allen Stichprobenspeziﬁkationen mit mitt leren Werten zwischen 0.959 und 0.961 fälschlich als gut angepasst bewertet (vgl. Ta belle 6.3.3). Die anderen drei Fit-Indizes weisen für normalverteilte Indikatoren und für moderat schiefe Verteilungen der Indikatoren Werte auf, die eine Fehlanpassung anzeigen. Für das Modell mit der kleinsten Fallzahl und normalverteilten Indikatoren liegt der RMSEA beispielsweise beim Wert 0.073, der SRMR liegt beim Wert 0.070 und der TLI weist den Wert 0.926 auf. Die Fallzahl hat bei dieser Modellvariante einen sehr geringen Einﬂuss auf die Hö he der Fit-Indizes. Mit Differenzwerten von maximal 0.001 zwischen der kleinsten und der größten Fallzahl zeigen der RMSEA, der CFI und der TLI mit größerer Stichprobe jeweils eine tendenziell schlechtere Modellgüte an und weisen so in die korrekte Rich

90 | 6 Sensitivitäten der Fit-Indizes

Tab. 6.3.3: Sehr komplexes fehlspeziﬁziertes Strukturmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.073 (0.007) 0.961 (0.007) 0.926 (0.013) 0.070 (0.007)

0.069 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)

0.039 (0.008) 0.959 (0.015) 0.924 (0.029) 0.035 (0.006)

0.068 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)

0.039 (0.008) 0.959 (0.014) 0.923 (0.027) 0.035 (0.005)

0.038 (0.007) 0.960 (0.014) 0.926 (0.025) 0.035 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.074 (0.006) 0.961 (0.006) 0.926 (0.011) 0.070 (0.006)

0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)

0.039 (0.007) 0.959 (0.014) 0.923 (0.026) 0.035 (0.005)

0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)

0.039 (0.007) 0.959 (0.014) 0.923 (0.026) 0.035 (0.005)

0.039 (0.007) 0.960 (0.013) 0.925 (0.024) 0.034 (0.005)

n = 1800

RMSEA CFI TLI SRMR

0.074 (0.005) 0.961 (0.005) 0.926 (0.010) 0.070 (0.006)

0.069 (0.006) 0.960 (0.006) 0.926 (0.011) 0.065 (0.006)

0.039 (0.006) 0.959 (0.012) 0.923 (0.022) 0.034 (0.005)

0.069 (0.006) 0.960 (0.006) 0.926 (0.012) 0.065 (0.006)

0.039 (0.006) 0.959 (0.012) 0.924 (0.022) 0.034 (0.005)

0.039 (0.006) 0.960 (0.011) 0.925 (0.021) 0.034 (0.004)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 939 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 998 der tausend angeforderten Replikationen erfolgreich berechnet werden. Für die starken Schiefegrade konnten jeweils zwischen 939 und 969 Replikationen erfolgreich berechnet werden.

tung (vgl. Tabelle 6.3.3).⁶⁴ Der SRMR weist in die entgegengesetzte Richtung und zeigt mit steigender Fallzahl eine marginal bessere Modellanpassung an; allerdings zeigt sich diese Tendenz nur bei stark rechtsschiefen Verteilungen der Indikatoren. Die Richtung der Verteilung der Indikatoren hat hinsichtlich des Vergleichs zwi schen rechtsschiefen und linksschiefen Verteilungen keinen Einﬂuss auf die Höhe der Fit-Indizes. Bei den Modellen mit Indikatoren unterschiedlicher Verteilungen fallen die Werte des TLI mit Differenzwerten bis zu 0.003 höher aus als bei den Vergleichs modellen mit gleichgerichteten Verteilungen der Indikatoren (vgl. dazu Tabelle 6.3.3). Für den CFI zeigt sich mit Differenzwerten von 0.001 die gleiche Tendenz in geringe rem Ausmaß. Offenbar zeigen diese beiden Gütemaße für Modelle mit Indikatoren, die unterschiedliche Verteilungen aufweisen, eine bessere Modellgüte für ein sehr kom plexes fehlspeziﬁziertes Strukturmodell an und weisen damit stärker in die falsche Richtung. Zu falschen Schlüssen führt dies hier allerdings nicht: Der CFI zeigt für alle Modelle fälschlich eine gute Modellanpassung an und der TLI zeigt trotz gemischter Verteilung der Indikatoren eine Fehlanpassung des Modells an. Von größerem Ausmaß als die Richtung der Verteilung ist der Effekt der Stärke der Schiefe der Verteilung. Für den RMSEA und den SRMR zeigt sich der stärkste Effekt: Für beide Fit-Indizes sinken die Werte bei den Modellen mit moderat schief verteilten Indikatoren bereits um Differenzen bis zu 0.005. Dabei liegen beide Gütemaße weiter

64 Lediglich bei dem Modell mit stark linksschief verteilten Indikatoren und einer Fallzahl von n = 2200 weist der TLI keinen geringeren, sondern einen marginal höheren Wert auf als bei den Ver gleichsmodellen mit kleinerer Fallzahl (vgl. dazu Tabelle 6.3.3).

6.3 Sehr komplexe Modelle

| 91

hin in einem Wertebereich, der korrekt eine Fehlanpassung des Modells nahelegt. Bei den Modellen mit stark schief verteilten Indikatoren sinken diese beiden Gütemaße al lerdings auf Werte zwischen 0.03 und 0.04 und bewerten das jeweilige Modell damit fälschlich als gut angepasst. Nur der TLI weist auch bei stark schief verteilten Indika toren Werte unterhalb des Schwellenwerts 0.95 auf, die korrekt eine Fehlanpassung des Modells nahelegen.⁶⁵ In diesem Kontext ist der Effekt der Schiefe auf den Standardfehler des TLI zu be achten: Zwar sind die mittleren Werte dieses Gütemaßes im Vergleich zu den Modellen mit normalverteilten Variablen bei stark schief verteilten Indikatoren geringer oder ge nauso hoch, doch der Anstieg des Standardfehlers führt dazu, dass ein deutlich grö ßerer Anteil an Stichproben fälschlich im Bereich guter Modellanpassung liegt. Abbil dungen 6.3.3 und 6.3.4 zeigen die Verteilungen des TLI für eine Fallzahl von n = 1500. Es ist deutlich erkennbar, dass der TLI unter normalverteilten Indikatoren und einem Standardfehler von 0.013 (Abbildung 6.3.3) bei einem sehr kleinen Anteil an Stichpro ben (2 %) über dem Schwellenwert 0.95 liegt. Unter stark schief verteilten Indikatoren TLI 300

250

Häuﬁgkeit

200

150

100

50

0 0.88

0.90

0.92 Wert

0.94

0.96

Abb. 6.3.3: Verteilungsplot des TLI für normalverteilte Indikatoren.

65 Für Modelle mit moderat schiefen Variablen weist dieser Fit-Index die gleichen – oder marginal höhere – Werte auf wie bei den Vergleichsmodellen mit normalverteilten Indikatoren.

92 | 6 Sensitivitäten der Fit-Indizes TLI

250

Häuﬁgkeit

200

150

100

50

0 0.80

0.85

0.90

0.95

1.00

Wert Abb. 6.3.4: Verteilungsplot des TLI für schief verteilte Indikatoren.

und einem entsprechend größeren Standardfehler (Abbildung 6.3.4) ist der Anteil an Stichproben die fälschlich im Bereich guter Modellanpassung liegen (17 %) deutlich erhöht, und das, obwohl der mittlere Wert des TLI mit 0.924 minimal unter dem mitt leren Wert für das Modell mit normalverteilten Indikatoren (0.926) liegt. Die mittleren Werte der Fit-Indizes zeigen für die verschiedenen Stichprobenspe ziﬁkationen jeweils sehr deutlich entweder korrekt die Fehlspeziﬁkation des Modells oder auch fälschlich eine gute Modellanpassung an. Bei allen Modellen mit normal verteilten oder moderat schief verteilten Indikatoren bestehen für die vier Fit-Indizes Differenzwerte von mindestens 0.01 zum jeweiligen Schwellenwert (vgl. Tabelle 6.3.3); das ist im vorliegenden Fall jeweils mehr als eine Standardabweichung, sodass davon ausgegangen werden kann, dass ein sehr großer Teil der Stichproben das jeweilige Modell genauso bewertet wie der Durchschnitt der Stichproben. Festgehalten werden kann, dass der RMSEA ebenso wie der SRMR für die verschiedenen Schiefegrade der Indikatoren ähnliche Standardfehler aufweist, während die Standardfehler des CFI und des TLI mit ansteigender Schiefe der Verteilungen der Indikatoren deutlich stei gen. Nur der CFI bewertet dieses Modell fälschlich als gut und zeigt sich damit für ein sehr komplexes fehlspeziﬁziertes Messmodell als kein verlässlicher Indikator für die

6.3 Sehr komplexe Modelle |

93

Güte. Der RMSEA und der SRMR bewerten das Modell für normalverteilte und moderat schief verteilte Indikatoren korrekt als nicht gut angepasst. Der TLI bewertet das Mo dell unter allen untersuchten Stichprobenspeziﬁkationen im Mittel korrekt und zeigt sich damit als äußerst verlässlich.

6.3.4 Fehlspeziﬁkationen von Messmodell und Strukturmodell Beim sehr komplexen fehlspeziﬁzierten Gesamtmodell liegen Fehlspeziﬁkationen im Messteil und im Strukturteil des Modells vor. So wird eine zwischen zwei Faktoren bestehende Kovarianz, die in der Population beim Wert 0.6 liegt, auf den Wert 0 ﬁxiert. Zudem werden zwei Faktorladungen zweier Indikatoren, die in der Population jeweils beim Wert 0.4 liegen, ebenfalls auf den Wert 0 festgelegt. Die damit einhergehende starke Abweichung des Modells von den Daten zeigen alle vier Fit-Indizes an. Für jede untersuchte Stichprobengröße und Verteilungsform zeigt jedes der vier Gütemaße eine Fehlanpassung des Modells an und so wird dieses Modell eindeutig und korrekt als fehlspeziﬁziert bewertet. Für die kleinste Stichprobengröße (n = 1500) und normalverteilte Indikatoren liegt der SRMR mit einem mittleren Wert von 0.114 am nächsten am eigenen Schwellenwert 0.05; der RMSEA weist den Wert 0.128 auf. Der CFI liegt deutlich unter dem Schwellenwert 0.95 beim Wert 0.866 und zeigt damit die mangelnde Modellgüte sehr deutlich an, während der TLI diesen Wert erheblich unterschreitet und mit einem Wert von 0.778 umso stärker darauf hinweist, dass das vorliegende Modell maßgeblich von den Daten abweicht (vgl. Tabelle 6.3.4). Bezüglich der Fallzahl ﬁnden sich nur für den RMSEA und für den SRMR zwar marginale, aber eindeutig sinkende Tendenzen, die sich für den SRMR nur bei den Tab. 6.3.4: Sehr komplexes Modell mit Fehlspeziﬁkation von Messmodell und Strukturmodell.

normalverteilt moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

RMSEA CFI TLI SRMR

0.128 (0.006) 0.866 (0.012) 0.778 (0.019) 0.114 (0.006)

0.120 (0.007) 0.866 (0.013) 0.779 (0.021) 0.107 (0.007)

0.068 (0.007) 0.866 (0.025) 0.779 (0.041) 0.058 (0.006)

0.120 (0.007) 0.865 (0.013) 0.778 (0.022) 0.107 (0.007)

0.068 (0.007) 0.865 (0.025) 0.777 (0.042) 0.059 (0.006)

0.067 (0.007) 0.866 (0.027) 0.779 (0.044) 0.058 (0.006)

n = 1500

RMSEA CFI TLI SRMR

0.128 (0.006) 0.865 (0.011) 0.778 (0.018) 0.114 (0.006)

0.120 (0.006) 0.866 (0.012) 0.779 (0.020) 0.107 (0.006)

0.067 (0.007) 0.867 (0.023) 0.780 (0.038) 0.058 (0.006)

0.120 (0.006) 0.865 (0.012) 0.778 (0.020) 0.107 (0.006)

0.068 (0.006) 0.866 (0.022) 0.779 (0.037) 0.058 (0.005)

0.067 (0.007) 0.866 (0.023) 0.779 (0.039) 0.058 (0.005)

n = 1800

RMSEA CFI TLI SRMR

0.128 (0.005) 0.865 (0.009) 0.777 (0.016) 0.114 (0.005)

0.120 (0.005) 0.865 (0.011) 0.778 (0.018) 0.107 (0.005)

0.067 (0.006) 0.866 (0.021) 0.780 (0.034) 0.058 (0.005)

0.120 (0.006) 0.865 (0.011) 0.778 (0.018) 0.107 (0.006)

0.067 (0.006) 0.866 (0.020) 0.780 (0.033) 0.058 (0.005)

0.067 (0.006) 0.866 (0.021) 0.780 (0.034) 0.058 (0.005)

n = 2200

Fallzahl

Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

94 | 6 Sensitivitäten der Fit-Indizes

Modellen mit stark linksschief verteilten Indikatoren und für den RMSEA auch bei den Modellen mit stark rechtsschief verteilten Indikatoren ergeben (vgl. Tabelle 6.3.4). Die Werte des CFI und des TLI schwanken ohne klar erkennbare Tendenz. Jene Modellvarianten, bei denen die Indikatoren linksschiefe Verteilungen auf weisen, werden bei den beiden kleineren Stichprobengrößen vom CFI und vom TLI mit Differenzwerten bis zu 0.002 geringfügig schlechter bewertet als die Vergleichsmodel le mit rechtsschief verteilten Indikatoren (vgl. Tabelle 6.3.4). Dagegen weisen unter schiedliche Verteilungen von Indikatoren eines Modells im Vergleich zu gleichgerich teten Verteilungen aller Indikatoren des Modells keinen Unterschied in den mittleren Werten der vier Gütemaße auf. Mit steigender Schiefe der Verteilung der Indikatoren zeigen sich deutliche Effek te auf die Höhe des RMSEA und des SRMR: Die Werte dieser beiden Fit-Maße sinken mit ansteigender Schiefe stark und zeigen damit eine bessere Modellanpassung für dieses fehlspeziﬁzierte Gesamtmodell an. Jedoch liegen die mittleren Werte selbst bei stark schiefen Verteilungen der Indikatoren weiterhin über den Schwellenwerten und zeigen mit Werten von mindestens 0.067 für den RMSEA und einem Mindestwert von 0.058 für den SRMR korrekt eine Fehlanpassung des Modells an. Die Werte des CFI und des TLI schwanken mit geringen Differenzwerten von bis zu 0.002 (CFI) beziehungs weise 0.003 (TLI) ohne erkennbare Systematik (vgl. Tabelle 6.3.4). Die Standardfehler des CFI und des TLI steigen deutlich mit steigender Schiefe der Verteilungen der Indikatoren, während sich beim RMSEA und beim SRMR nur margi nale Schwankungen ergeben. Doch auch wenn der Standardfehler des TLI bis zum Wert 0.044 reicht und jener des CFI bei bis zu 0.027 liegt, sind die mittleren Werte bei diesem Modell stets mehrere Standardfehler vom jeweiligen Schwellenwert entfernt (vgl. Tabelle 6.3.4). Das Modell wird so eindeutig korrekt als fehlspeziﬁziert bewertet.

6.3.5 Zentrale Ergebnisse sehr komplexer Modelle Die sehr komplexen Modelle bringen interessante Ergebnisse hervor, die allerdings nur zum Teil mit den Forschungserwartungen einhergehen (vgl. Kapitel 4.1). Tabel le 6.3.5 fasst zusammen, welche Sensitivitäten für die Gütemaße unter den sehr kom plexen Modellen bestehen und inwiefern sich die Forschungserwartungen dadurch bestätigen lassen. Das korrekt speziﬁzierte Modell wird von allen Fit-Indizes und unabhängig von der Fallzahl und der Verteilungsform der Indikatoren eindeutig und korrekt als gut an gepasstes Modell bewertet. Zwar zeigen sich auch bei diesem Modell bestimmte Sen sitivitäten der einzelnen Gütemaße, allerdings fallen diese gering aus und auch bei der Modellvariante mit der schlechtesten Modellbewertung fällt die Bewertung sehr gut aus. Das fehlspeziﬁzierte Gesamtmodell wird ebenfalls unter jeder Teilsimulation kor rekt evaluiert. Allerdings fallen bei diesem Modell bestimmte Effekte stärker aus, wo

6.3 Sehr komplexe Modelle |

95

Tab. 6.3.5: Sensitivitäten der Fit-Indizes bei sehr komplexen Modellen unter Berücksichtigung der Forschungserwartungen.

RMSEA TLI CFI SRMR

Fallzahl

Fehlspeziﬁkation Fehlspeziﬁkation Schiefe Messmodell Strukturmodell

nein (✓) nein (✓) nein (✓) ja (✓)

ja (✓) ja (✓) ja (=)̸ nein (✓)

nein (=)̸ nein (=)̸ nein (✓) ja (✓)

nein (=)̸ nein (=)̸ nein (=)̸ nein (=)̸

Verteilungs richtung

(Schiefe →) Standardfehler

nein ja ja nein

nein ja ja nein

Zu sehen sind die jeweiligen Forschungserwartungen (vgl. dazu Kapitel 4.1) unterteilt nach „ja“ (die konkrete Sensitivität wird erwartet) und „nein“ (es wird keine Sensitivität erwartet). In Klammern ist jeweils vermerkt, ob sich die einzelne Erwartung erfüllt hat (✓) oder nicht (=). ̸ Zusätzlich zur unter suchten Auswirkung der Fallzahl, der Fehlspeziﬁkationen des Messmodells einerseits und des Struk turmodells andererseits und der Schiefe der Indikatoren auf die Gütemaße ist die Auswirkung der Ver teilungsrichtung der Indikatoren auf die Gütemaße sowie der Effekt des Schiefegrads der Indikatoren auf die Höhe des Standardfehlers angegeben; dabei ist jeweils direkt vermerkt, ob eine entsprechen de Sensitivität besteht.

durch primär der SRMR und der RMSEA innerhalb einiger Teilsimulationen recht nah am jeweiligen Schwellenwert liegen. Das fehlspeziﬁzierte Messmodell wird nur vom TLI und vom RMSEA korrekt als fehlspeziﬁziert bewertet (vgl. dazu Tabelle 6.3.5). Aufgrund der starken Abhängigkeit des RMSEA von der Schiefe der Verteilung der Indikatoren zeigt dieses Gütemaß für die Modelle mit Indikatoren stark schiefer Verteilungen fälschlich eine gute Modell anpassung an. Der TLI ist robuster; dieses Gütemaß zeigt für alle Varianten des fehl speziﬁzierten Messmodells korrekt die mangelhafte Modellgüte an. Der CFI und der SRMR liegen für normalverteilte Indikatoren ebenso wie für moderat schief verteilte Variablen zwar recht nahe am jeweiligen Schwellenwert, weisen allerdings dennoch in die falsche Richtung und zeigen sich insofern im Gegensatz zum TLI und RMSEA nicht als ausreichend sensitiv gegenüber Fehlspeziﬁkationen des Messmodells. Auch das fehlspeziﬁzierte Strukturmodell wird vom TLI für alle Stichprobenmerk male korrekt als schlecht angepasst bewertet. Der RMSEA und der SRMR bewerten das Modell ebenfalls korrekt als fehlspeziﬁziert, allerdings ausschließlich für jene Modell varianten, bei denen die Indikatoren entweder normalverteilte oder moderat schiefe Streuungen aufweisen. Die Sensitivität bezüglich der Schiefe der Verteilung führt da zu, dass diese beiden absoluten Fit-Indizes bei Modellen mit stark schief verteilten In dikatoren bereits deutlich unter dem Schwellenwert von 0.05 liegen und somit fälsch licherweise auf eine gute Modellanpassung schließen lassen. Die Fallzahl hat bei den sehr komplexen Modellen äußerst geringe Effekte auf die Fit-Indizes. Der CFI und der TLI variieren in Bezug auf die Fallzahl beim fehlspezi ﬁzierten Gesamtmodell ohne erkennbare Systematik, während für den RMSEA beim fehlspeziﬁzierten Messmodell kein Zusammenhang zur Fallzahl besteht. Für die rest lichen Modelle lassen sich keine systematischen Schlüsse über den Einﬂuss der Fall

96 | 6 Sensitivitäten der Fit-Indizes

zahl auf diese drei Fit-Maße ziehen. Im Gegensatz dazu zeigt der SRMR bei allen vier Modellvarianten eine äußerst geringe, jedoch stets sinkende Tendenz an und bewertet so alle fehlspeziﬁzierten Modelle für besonders große Stichproben besser als für klei nere Stichproben und weist damit für große Stichproben tendenziell in die falsche Richtung. Die Richtung der Verteilung der Indikatoren zeigt für die sehr komplexen Model le keinen starken Effekt auf die Höhe der Fit-Indizes. Für den RMSEA und den SRMR ist es irrelevant, ob die Indikatoren rechtschiefe oder linksschiefe Verteilungen auf weisen. Bei keinem sehr komplexen Modell zeigt sich ein Effekt für eines der beiden absoluten Gütemaße. Der CFI zeigt beim fehlspeziﬁzierten Messmodell und beim fehl speziﬁzierten Gesamtmodell jeweils in leichter Tendenz höhere Werte für rechtsschie fe als für linksschiefe Verteilungen der Indikatoren, was in Richtung einer falschen Modellbewertung weist. In ähnlich geringem Ausmaß zeigt sich für den TLI der glei che Effekt beim fehlspeziﬁzierten Gesamtmodell und in geringer Tendenz weist dieser Fit-Index beim korrekt speziﬁzierten Modell marginal höhere Werte für Modellvarian ten mit linksschiefen statt rechtsschiefen Verteilungen der Indikatoren auf. Folglich zeigt sich für die zwei komparativen Fit-Maße eine geringe Sensitivität, die mit einer in die falsche Richtung führenden Modellbewertung bei rechtsschief statt linksschief gerichteten Indikatoren einhergeht. Ein interessantes Ergebnis zeigt sich für den Effekt gemischter Verteilungen der Indikatoren eines Modells. So weisen ausschließlich der TLI und der CFI für die sehr komplexen fehlspeziﬁzierten Strukturmodelle sowie für die fehlspeziﬁzierten Mess modelle mit Indikatoren unterschiedlicher Verteilungsrichtungen tendenziell höhere Werte auf als bei den Vergleichsmodellen mit Indikatoren ausschließlich einer Vertei lungsrichtung. Bei beiden Modellvarianten führen gemischte Verteilungen somit zu Ergebnissen, die bei gegebenen Fehlspeziﬁkationen der Modelle eine etwas bessere – und damit in die falsche Richtung weisende – Modellgüte angeben. Anders als der RMSEA und der SRMR reagieren der CFI und der TLI sensitiv auf den Unterschied al ler hier untersuchten Verteilungsformen – sowohl für den Vergleich zwischen rechts schiefen und linksschiefen Verteilungen der Indikatoren als auch zwischen gleichge richteten Verteilungen und gemischten Verteilungen der Indikatoren. Das Ausmaß der Schiefe der Indikatoren hat – anders als anfangs erwartet – einen klaren Effekt auf alle vier Fit-Indizes (vgl. dazu Tabelle 6.3.5). So weisen alle Fit-Maße mit steigender Schiefe der Verteilung der Indikatoren in die falsche Richtung und ge ben entsprechend die Güte des korrekt speziﬁzierten Modells marginal schlechter an; die Güte der fehlspeziﬁzierten Modelle wird mit einer Ausnahme – ebenso in die fal sche Richtung weisend – durch alle Fit-Indizes bei schieferen Verteilungen der Indi katoren besser eingestuft. Als Ausnahme zeigt sich der Effekt der Schiefe auf die Höhe des CFI beim fehlspeziﬁzierten Strukturmodell: Der geringe negative Effekt führt da bei dazu, dass die Güte des Modells bei schieferen Variablen schlechter bewertet wird, was bei einem fehlspeziﬁzierten Modell in keiner Weise hinderlich für die Modelleva luation ist.

6.3 Sehr komplexe Modelle

| 97

Eine besondere Sensitivität für die Schiefe der Indikatoren zeigt sich für den RMSEA, für den der Effekt bei allen fehlspeziﬁzierten Modellen stark ausfällt und auch beim korrekt speziﬁzierten Modell stärker ist als für die anderen drei Fit-Indizes. Beim fehlspeziﬁzierten Strukturmodell und beim fehlspeziﬁzierten Gesamtmodell reagiert zusätzlich dazu auch der SRMR sensitiv auf den Schiefegrad der Verteilungen der Indikatoren. Eine starke Schiefe der Indikatoren eines Modells – möglicherweise kombiniert mit unterschiedlichen Richtungen der Verteilungen, die sich primär auf den TLI und auf den CFI auswirken – kann folglich zu falschen Schlüssen bei der Bewertung eines fehlspeziﬁzierten Modells führen und sollte somit bei der Schätzung von sehr komplexen Strukturgleichungsmodellen beachtet und nach Möglichkeit ausgeschlossen werden. Schiefer verteilte Indikatoren wirken sich zum einen besonders stark auf die Hö he der mittleren Werte des RMSEA und des SRMR aus, zum anderen ﬁndet sich ein starker, eindeutiger Einﬂuss auf die Standardfehler des CFI und des TLI: Mit steigen der Schiefe der Indikatoren steigen diese stark an und so führt eine starke Schiefe der Indikatoren eines sehr komplexen Strukturgleichungsmodells bei jedem der vier FitMaße zu Effekten, die hinderlich für die Modellbewertung sein können (vgl. dazu auch Tabelle 6.3.5). Es zeigt sich, dass die Schiefe der Indikatoren bei der Bewertung sehr komplexer Strukturgleichungsmodelle einen deutlich stärkeren Einﬂuss aufweist als die Größe der Stichprobe. Prinzipiell lässt sich ein sehr komplexes Modell, das viele Schätzun gen verwendet, mit einer Fallzahl von n = 1500 genauso gut bewerten wie mit einer Fallzahl von n = 2200; mit sehr schief verteilten Indikatoren können jedoch Fehl schlüsse einhergehen und dies nur bei fehlspeziﬁzierten Modellen und primär auf Basis des SRMR und des RMSEA. Die Forschungserwartungen bezüglich der konkreten Fehlspeziﬁkationen des Mo dells haben sich zum Teil nicht erfüllt (vgl. dazu Tabelle 6.3.5). So bewertet der CFI die untersuchte Fehlspeziﬁkation im Messteil des Modells nicht korrekt und der RMSEA und der TLI werten das fehlspeziﬁzierte Strukturmodell noch deutlicher als falsch speziﬁziert als der SRMR, der den Simulationsergebnissen von Hu & Bentler (1999, S. 16) zufolge entsprechende Fehlspeziﬁkationen deutlich sensitiver als die anderen Fit-Indizes aufgreifen sollte. Die vorliegenden Ergebnisse legen einen anderen Schluss nahe: Zwar bewertet der SRMR das entsprechende Modell korrekt als schlecht ange passt, allerdings liegen die Werte des RMSEA stets über jenen des SRMR und zeigen die Fehlanpassung so deutlicher an. Zudem weist nur der TLI das Modell auch bei stark schief verteilten Indikatoren korrekt zurück und ist dahingehend bei der Bewertung des fehlspeziﬁzierten Strukturmodells verlässlicher als der SRMR. Außerdem sollte beachtet werden, dass zwar alle vier Fit-Indizes sensitiv auf schiefe Verteilungen reagieren (vgl. Tabelle 6.3.5), der RMSEA und der SRMR aller dings dahingehend eine deutlich stärkere Sensitivität aufweisen und so eher zu irre führenden Modellbewertungen führen als die beiden komparativen Fit-Maße.

98 | 6 Sensitivitäten der Fit-Indizes

Bei der Bewertung der sehr komplexen Modelle sticht der TLI positiv hervor. Dieser Fit-Index bewertet alle sehr komplexen Modelle unter allen Stichprobenva riationen korrekt und zeigt sich so als besonders gutes und verlässliches Gütemaß. Der RMSEA bewertet sämtliche Modelle unter normalverteilten oder moderat schief verteilten Indikatoren korrekt und ist somit für die Evaluation eines sehr komplexen Strukturgleichungsmodells als annähernd so verlässlich wie der TLI einzustufen. Während der SRMR sensitiv auf Fehlspeziﬁkationen des Strukturmodells reagiert, wertet dieser Fit-Index das fehlspeziﬁzierte Messmodell für alle Stichprobenspeziﬁ kationen falsch als gut angepasst und kann so bei der Analyse eines sehr komplexen Strukturgleichungsmodells irreführende Ergebnisse hervorrufen. Noch fehlerhafter ist die Bewertung der sehr komplexen Modelle durch den CFI. Dieses Gütemaß bewer tet sowohl das fehlspeziﬁzierte Messmodell als auch das fehlspeziﬁzierte Struktur modell unter allen Stichprobenspeziﬁkationen fälschlich als gut angepasst und ruft so irreführende Ergebnisse hervor.

6.4 Zusammenfassung zentraler Ergebnisse aller Modellvarianten Im Fokus dieses Unterkapitels stehen die zentralen Ergebnisse für alle drei untersuch ten Populationsmodelle unter Berücksichtigung der unterschiedlichen Komplexitäts grade dieser. Es wird betrachtet, inwiefern sich Unterschiede zwischen den unter schiedlich komplexen Modellvarianten ﬁnden – insbesondere hinsichtlich der Effekte der bereits untersuchten Stichproben- und Dateneigenschaften auf die Gütemaße. Zu dem werden jene Effekte gesondert betrachtet, die für die drei verschiedenen Komple xitätsgrade gleich ausfallen und gleichzeitig nicht mit den Forschungserwartungen übereinstimmen. Diese decken weiteren Forschungsbedarf in besonderer Weise auf. Ein wichtiger Befund aller drei Populationsmodelle liegt darin, dass das korrekt speziﬁzierte Modell jeweils eindeutig und für alle Teilsimulationen durch die vier FitIndizes korrekt als gut angepasst bewertet wurde. Unabhängig von dem Komplexi tätsgrad und jeglichen untersuchten Stichprobenmerkmalen lässt sich ein vollständig korrekt speziﬁziertes Modell mittels der Gütemaße eindeutig richtig bewerten. Daraus geht auch hervor, dass irreführende Modellergebnisse ausschließlich in jenem Fall auftreten können, wenn eine Fehlspeziﬁkation vorliegt. Dabei ist darauf Acht zu ge ben, welche der Fit-Indizes die Fehlanpassung nahelegen, um die Art der Fehlspeziﬁ kation identiﬁzieren zu können. Die Ergebnisse legen nahe, dass die Bewertung eines Strukturgleichungsmodells mittels der Fit-Indizes relativ unabhängig vom Komplexitätsgrad des Modells ist.⁶⁶

66 Dagegen zeigt sich die Komplexität des Modells als äußerst relevant hinsichtlich der Konvergenz. Dieser wichtige Aspekt ist zu beachten und betrifft forschende Personen durchaus häuﬁg bei der Ana lyse komplexerer Modelle: Je höher die Komplexität ist, desto weniger Modelle konvergieren. Das gilt selbst in jenem Fall, wenn das Modell korrekt speziﬁziert ist (vgl. dazu Kapitel B.1 im Anhang).

6.4 Zusammenfassung zentraler Ergebnisse aller Modellvarianten

| 99

Tab. 6.4.1: Sensitivitäten der Fit-Indizes. Modell

Fallzahl Fehlspeziﬁkation Messmodell

Fehlspeziﬁkation Strukturmodell

Schiefe Verteilungs (Schiefe →) richtung Standardfehler

RMSEA

sparsam komplex sehr komplex

nein+ nein+ nein+

ja+ ja+ ja+

ja+ ja+ ja+

ja− ja− ja−

nein+ nein+ nein+

nein+ nein+ nein+

TLI

sparsam komplex sehr komplex

nein+ nein+ nein+

ja+ nein− ja+

ja+ ja+ ja+

ja~ ja~ ja−

ja− ja− ja−

ja− ja− ja−

CFI

sparsam komplex sehr komplex

nein+ nein+ nein+

nein− nein− nein−

ja+ ja+ nein−

ja~ ja~ ja~

ja− nein+ ja−

ja− ja− ja−

SRMR

sparsam komplex sehr komplex

ja− ja− ja−

nein− nein− nein−

ja+ ja+ ja+

ja− ja− ja−

nein+ nein+ nein+

nein+ nein+ nein+

Zu sehen sind die jeweiligen Sensitivitäten der Fit-Indizes unterteilt nach „ja“ – die konkrete Sensitivität liegt vor – und „nein“ – es wurde keine Sensitivität festgestellt. Zusätzlich ist vermerkt, ob die jeweilige Sensitivität irreführend (−), hilf reich (+) oder – lediglich für den Effekt der Schiefe – bei manchen Modellen unproblematisch und bei anderen hinderlich (~) ist. Unter „Fehlspeziﬁkation Messmodell“ respektive „Fehlspeziﬁkation Strukturmodell“ sind Sensitivitäten auf fal sche Speziﬁkationen im entsprechenden Teil des Modells festgehalten. Mit „Schiefe“ ist das Ausmaß der Schiefe der Indikatoren gemeint. Die Auswirkung der Verteilungsrichtung der Indikatoren auf die Fit-Indizes ist mit „Verteilungsrich tung“ vermerkt und der Effekt des Schiefegrads der Indikatoren auf die Höhe des Standardfehlers ist unter „Standardfeh ler“ aufgeführt.

Beispielsweise wurden unter jedem Komplexitätsgrad Fehlspeziﬁkationen im Struk turteil des Modells von allen vier Gütemaßen stärker bewertet als falsche Speziﬁka tionen im Messteil des Modells. Nur beim sehr komplexen Modell wertet ausschließ lich der CFI das fehlspeziﬁzierte Strukturmodell fälschlich als gut angepasst. Dagegen werden alle fehlspeziﬁzierten Messmodelle vom SRMR fälschlich als gut angepasst ge wertet; der CFI wertet diese Modelle ebenfalls durchgängig falsch, was im Fall dieses Gütemaßes gegen die Forschungserwartung spricht und zeigt, dass der CFI offenbar deutlich weniger sensitiv auf ein fehlspeziﬁziertes Messmodell reagiert, als es bisheri ge Studienergebnisse nahelegen (vgl. Hu & Bentler 1999, S. 16). Sollte das Messmodell fehlspeziﬁziert sein, sind der RMSEA und der TLI die verlässlichsten Gütemaße (vgl. Tabelle 6.4.1). Alle vier Fit-Indizes reagieren deutlich auf das Ausmaß der Schiefe der Indikato ren (vgl. Tabelle 6.4.1). Bei allen Komplexitätsgraden werden die Werte der Fit-Indizes für das jeweilige korrekte Modell und das fehlspeziﬁzierte Messmodell mit steigender Schiefe der Indikatoren in die falsche Richtung gelenkt. Beim sehr komplexen Modell gilt dies für alle Modellvarianten und damit auch für das fehlspeziﬁzierte Strukturmo dell⁶⁷ und das falsch speziﬁzierte Gesamtmodell, die bei den beiden geringeren Kom

67 Eine Ausnahme bildet hierbei der CFI, mit dem dieses Modell bei steigender Schiefe der Indikato ren als noch schlechter angepasst bewertet wird, was zu keinen Problemen bei der Modellevaluation führt.

100 | 6 Sensitivitäten der Fit-Indizes

plexitätsgraden nur durch den RMSEA und den SRMR – in die falsche Richtung tendie rend – besser bewertet werden. Der TLI und der CFI weisen für die beiden geringeren Komplexitätsgrade und die beiden jeweiligen Modellvarianten mit Fehlspeziﬁkatio nen im Strukturteil mit steigender Schiefe der Indikatoren tendenziell in die richtige Richtung und bewerten das jeweils schlecht angepasste Modell als noch schlechter angepasst. Die Auswirkung der Verteilungsrichtung wurde zum einen über den Unterschied zwischen Modellen mit rechtsschiefen Indikatoren und Modellen mit linksschiefen Indikatoren gemessen; zum anderen wurde der Effekt gemischter Verteilungen der In dikatoren im Vergleich zu Modellen mit Indikatoren ausschließlich einer Verteilungs richtung untersucht. Es hat sich herausgestellt, dass der RMSEA und der SRMR nicht sensitiv auf die Verteilungsrichtung reagieren. Der TLI und der CFI reagieren hingegen durchaus sensitiv auf die Verteilungsrichtung. Bei den vier sparsamen Modellen zei gen beide Fit-Maße für gemischte Verteilungen der Indikatoren eine bessere Modell güte an als für gleichgerichtete Verteilungen der Variablen. Diesen für alle fehlspezi ﬁzierten Modelle tendenziell hinderlichen Effekt zeigen der TLI und der CFI ebenfalls für das sehr komplexe Strukturmodell und das sehr komplexe Messmodell an. Für die komplexen Modelle weist nur der TLI diesen Effekt auf – dies ist jedoch ausschließlich bei dem fehlspeziﬁzierten Strukturmodell und beim fehlspeziﬁzierten Gesamtmodell der Fall. Insgesamt ist dieser Effekt für alle Komplexitätsgrade beim TLI stärker aus geprägt als beim CFI. Ein Anstieg der Schiefe wirkt sich besonders stark auf die mittleren Werte des RMSEA und des SRMR aus und gleichzeitig zeigt sich dabei ein deutlicher Anstieg der Standardfehler des TLI und des CFI (vgl. Tabelle 6.4.1, Spalte „Standardfehler“). So haben stark schief verteilte Indikatoren einen Einﬂuss auf alle vier untersuchten Fit-Indizes und lassen diese entweder im Mittel zu gute Werte für ein fehlspeziﬁzier tes Modell anzeigen oder die Streuung der Stichprobenwerte steigt so stark an, dass die Unsicherheit, die mit dem Wert eines Gütemaßes in einer konkreten Stichprobe einhergeht, enorm ansteigt. Innerhalb dieser Simulationsstudie wurden hohe Fallzahlen gewählt. Dabei hat sich ein klarer Effekt auf die Höhe des SRMR gezeigt. Dieses Maß zeigt mit steigender Fallzahl stets eine bessere Modellanpassung an. Während das innerhalb der Studie aufgrund der relativ geringen Effekte zu keinerlei Fehlschlüssen geführt hat, muss davon ausgegangen werden, dass dieses Gütemaß bereits bei einer Stichprobengrö ße von n = 1500 eine bessere Modellanpassung anzeigt als für kleinere Stichproben. Für jedes der drei unterschiedlich komplexen Populationsmodelle hat dieses Güte maß ein fehlspeziﬁziertes Stichprobenmodell bereits unter normalverteilten Indikato ren fälschlich als gut angepasst gewertet. Es kann nicht ausgeschlossen werden, dass dies mit der hohen Fallzahl zusammenhängt. In Tabelle 6.4.1 sind die untersuchten Sensitivitäten festgehalten. Darunter ist die korrekte Bewertung einer Fehlspeziﬁkation im Messteil oder Strukturteil eines Mo dells ganz besonders relevant, da dies direkt und unabhängig von anderen Faktoren

6.4 Zusammenfassung zentraler Ergebnisse aller Modellvarianten

| 101

angibt, ob das einzelne Gütemaß eine falsche Speziﬁkation berücksichtigt und kor rekt bewertet. Der RMSEA und der TLI stechen dahingehend positiv hervor. Während der RMSEA sämtliche fehlspeziﬁzierte Modelle bei normalverteilten Indikatoren ein wandfrei bewertet, liegt der TLI bei jedem Modell – mit Ausnahme des komplexen fehlspeziﬁzierten Messmodells – weiter als alle anderen Gütemaße vom Schwellen wert entfernt und zeigt so die jeweilige Fehlanpassung am deutlichen an (vgl. dazu Kapitel 6.1 - 6.3). Deshalb ist auch die vorliegende Sensitivität hinsichtlich der Schiefe der Indikatoren beim TLI am wenigsten problematisch. Ohne Ausnahme hat sich für alle untersuchten Modelle gezeigt, dass der RMSEA stets korrektere Bewertungen liefert als der SRMR und der TLI für die Bewertung jedes Modells hilfreicher ist als der CFI. So zeigen der TLI und der RMSEA eine eventuelle Fehlspeziﬁkation jeweils deutlicher an.

7 Ursachen fehlender Eindeutigkeit der Fit-Indizes In diesem Kapitel werden alle irreführenden Muster⁶⁸ der Simulationsergebnisse auf gegriffen und in Hinblick auf die Stichprobenmerkmale, die zu diesen Mustern führen, erläutert.⁶⁹

7.1 Muster 1: TLI zu niedrig Das erste Muster irreführender Modellbewertungen ergibt sich aus der Kombination eines Werts mangelnder Modellanpassung für den TLI und Werten guter Modellanpas sung für den CFI, den RMSEA und den SRMR. Dieses Muster ﬁndet sich unter den spar samen Modellen für fehlspeziﬁzierte Messmodelle unter entweder rechtsschief oder linksschief verteilten Variablen (vgl. Tabelle 7.1.1). Dieses Muster kann dadurch, dass lediglich einer von vier Fit-Indizes korrekter weise eine mangelnde Modellanpassung nahelegt, tendenziell besonders irreführend wirken. Nur der TLI weist hier deutlich auf ein fehlspeziﬁziertes Modell hin. Zusätzlich dazu ist der RMSEA erhöht und liegt nahe am Schwellenwert. Das gilt gleichermaßen für Modelle mit linksschief wie rechtsschief verteilten Indikatoren und alle untersuch ten Fallzahlen. Wenn folglich bei der Modellierung eines relativ sparsamen Modells nur der TLI unter dem Schwellenwert liegt und damit eine mangelhafte Modellanpassung angibt und gleichzeitig der RMSEA erhöht ist und sehr nahe am Schwellenwert liegt, gilt dies als Hinweis für eine Fehlanpassung im Messteil des Modells.

7.2 Muster 2: RMSEA zu hoch Das zweite Muster irreführender Modellbewertungen ist stark verleitend, dadurch dass allein der RMSEA eine falsche Anpassung des Modells nahelegt und das le diglich mit einem Wert, der nur knapp über dem Schwellenwert liegt und so eine annähernd gute Modellanpassung nahelegt (vgl. Tabelle 7.2.1).

68 Diese bemessen sich an den hier genutzten Schwellenwerten: RMSEA = 0.05, SRMR = 0.05, TLI = 0.95 und CFI = 0.95 69 Dazu sind nur Stichprobenmerkmale entscheidend, die bei realen Daten auftreten können. Die starke Schiefe der Indikatoren wird nicht dazu gezählt, sodass alle Muster, die sich dafür ergeben haben, in diesem Kapitel nicht berücksichtigt werden. Zudem ist zu beachten, dass alle korrekt spezi ﬁzierten Modelle von allen Fit-Indizes eindeutig als gut angepasst bewertet werden und damit keine irreführenden Ergebnisse aufweisen. Diese Modelle tauchen aus diesem Grund im Folgenden nicht auf. https://doi.org/10.1515/9783110624199-007

104 | 7 Ursachen fehlender Eindeutigkeit der Fit-Indizes

Tab. 7.1.1: Muster 1. Sparsames fehlspeziﬁziertes Messmodell Verteilungsform moderat rechtsschief moderat linksschief

Fallzahl

RMSEA CFI TLI SRMR

0.048 (0.011) 0.961 (0.016) 0.926 (0.031) 0.029 (0.005)

0.047 (0.011) 0.961 (0.016) 0.927 (0.031) 0.029 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.048 (0.010) 0.961 (0.015) 0.927 (0.029) 0.029 (0.005)

0.047 (0.010) 0.962 (0.015) 0.928 (0.028) 0.028 (0.005)

n = 1800

RMSEA CFI TLI SRMR

0.048 (0.008) 0.961 (0.013) 0.927 (0.024) 0.028 (0.004)

0.047 (0.008) 0.962 (0.013) 0.928 (0.023) 0.028 (0.004)

n = 2200

Zu sehen sind die durchschnittlichen Indexwerte der jeweils tausend Stichproben. Dahinter sind in Klammern die dazugehörigen Standardfehler.

Tab. 7.2.1: Muster 2. Komplexes fehlspeziﬁziertes Messmodell normalverteilte Indikatoren

Fallzahl

RMSEA CFI TLI SRMR

0.051 (0.008) 0.977 (0.007) 0.956 (0.014) 0.033 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.051 (0.007) 0.977 (0.006) 0.956 (0.012) 0.033 (0.004)

n = 1800

RMSEA CFI TLI SRMR

0.051 (0.007) 0.977 (0.006) 0.956 (0.011) 0.033 (0.004)

n = 2200

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 967 bis 992 Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

7.3 Muster 3: TLI zu niedrig und RMSEA zu hoch | 105

Ein weiteres Problem ergibt sich daraus, dass dieses Muster lediglich für normal verteilte Indikatoren besteht. Wie bereits besprochen, sinkt der RMSEA mit steigender Schiefe der Indikatoren (vgl. Kapitel 6.4) und legt so gemeinsam mit den anderen FitIndizes für das vorliegende Modell bereits bei geringer Schiefe der Indikatoren fälsch lich eine gute Modellanpassung nahe. Der SRMR und der CFI weisen beim vorliegenden Modell Werte auf, die deutlich von den jeweiligen Schwellenwerten entfernt sind und damit stark irreführend wirken und zu erkennen geben, dass diese beiden Fit-Maße nicht sensitiv auf die vorliegende Fehlspeziﬁkation im Messmodell reagieren. Zudem reagiert der RMSEA bei diesem komplexen Modell offensichtlich sensiti ver als der TLI auf die Fehlanpassung im Messteil des Modells – im Gegensatz zum sparsamen Vergleichsmodell, bei dem der TLI die Fehlanpassung deutlicher anzeigt. Der TLI weist zwar auch bei dieser komplexen Modellvariante eine Sensitivität hin sichtlich der Anpassung des Messmodells auf, allerdings fällt diese nicht stark genug aus. Bei der Modellierung eines komplexen Strukturgleichungsmodells weist folglich ein etwas zu hoher Wert des RMSEA gemeinsam mit einem im unteren Bereich gu ter Modellanpassung liegenden Wert des TLI darauf hin, dass Fehlspeziﬁkationen im Messmodell vorliegen.

7.3 Muster 3: TLI zu niedrig und RMSEA zu hoch Das dritte Muster irreführender Modellbewertungen ergibt sich aus einer Modellab lehnung durch den TLI und den RMSEA und einer dazu entgegengesetzten fälschlich guten Modellbewertung durch den SRMR und den CFI. Dieses Muster ﬁndet sich für zwei verschiedene Modellvarianten. Sparsames fehlspeziﬁziertes Messmodell Das sparsame fehlspeziﬁzierte Messmodell weist unter normalverteilten Indikatoren und allen untersuchten Stichprobengrößen das dritte Muster irreführender Modellbe wertungen auf (vgl. Tabelle 7.3.1). Zu beachten ist, dass der RMSEA zwar die Fehlan passung des Modells nahelegt, dabei allerdings äußerst nah am Schwellenwert liegt. Der TLI zeigt die mangelnde Modellgüte hingegen mit mittleren Werten, die jeweils an nähernd einen Standardfehler unter dem Schwellenwert liegen, sehr deutlich an. Der TLI und der RMSEA reagieren erkennbar sensitiver auf Fehlspeziﬁkationen im Mess modell als der CFI und der SRMR. Sehr komplexes fehlspeziﬁziertes Messmodell Das sehr komplexe fehlspeziﬁzierte Messmodell wird unter normalverteilten Indikato ren sowie unter rechtsschiefen oder auch unter linksschiefen Indikatoren ausschließ

106 | 7 Ursachen fehlender Eindeutigkeit der Fit-Indizes

Tab. 7.3.1: Muster 3.1. Sparsames fehlspeziﬁziertes Messmodell normalverteilte Indikatoren

Fallzahl

RMSEA CFI TLI SRMR

0.052 (0.010) 0.960 (0.015) 0.924 (0.028) 0.031 (0.005)

n = 1500

RMSEA CFI TLI SRMR

0.051 (0.009) 0.961 (0.013) 0.927 (0.025) 0.030 (0.004)

n = 1800

RMSEA CFI TLI SRMR

0.051 (0.008) 0.961 (0.012) 0.926 (0.023) 0.030 (0.004)

n = 2200

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 1000 Stichproben. Dahinter sind in Klam mern die dazugehörigen Standardfehler.

lich vom TLI und vom RMSEA korrekterweise abgelehnt – und dies weitaus deutlicher als dies beim sparsamen fehlspeziﬁzierten Messmodell der Fall ist (vgl. dazu Tabel le 7.3.1). Wie Tabelle 7.3.2 zu entnehmen ist, liegen der TLI und der RMSEA deutlich im Bereich mangelhafter Modellanpassung, während gleichzeitig der CFI und der SRMR zwar recht nahe am jeweiligen Schwellenwert liegen, diesen allerdings überschreiten und so fälschlich eine gute Modellanpassung nahelegen. Muster 3.1 & Muster 3.2 Unabhängig vom Komplexitätsgrad des Modells geben der TLI und der RMSEA weit aus deutlichere Hinweise auf Fehlanpassungen des Messmodells als der CFI und der SRMR, die sowohl beim sparsamen als auch beim sehr komplexen fehlspeziﬁzierten Messmodell jeweils fälschlich eine gute Modellanpassung nahelegen. Das dritte Muster irreführender Modellbewertungen ﬁndet sich sowohl beim spar samen fehlspeziﬁzierten Messmodell als auch beim sehr komplexen fehlspeziﬁzierten Messmodell jeweils unter normalverteilten Indikatoren; allerdings ﬁndet sich dieses Muster nicht beim komplexen Modell, das lediglich vom RMSEA korrekt bewertet wird (vgl. Kapitel 7.2). Dies lässt sich auf das etwas geringere Ausmaß der Fehlspeziﬁkation dieses Modells zurückführen (vgl. dazu Kapitel 6.2.2).

7.4 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch |

107

Tab. 7.3.2: Muster 3.2. Sehr komplexes fehlspeziﬁziertes Messmodell normalverteilt

Verteilungsform moderat rechtsschief

Fallzahl moderat linksschief

RMSEA CFI TLI SRMR

0.075 (0.007) 0.956 (0.008) 0.923 (0.014) 0.045 (0.004)

0.069 (0.007) 0.957 (0.009) 0.925 (0.015) 0.043 (0.004)

0.069 (0.007) 0.957 (0.008) 0.925 (0.015) 0.043 (0.004)

n = 1500

RMSEA CFI TLI SRMR

0.075 (0.006) 0.956 (0.007) 0.923 (0.012) 0.045 (0.004)

0.069 (0.007) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)

0.069 (0.006) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)

n = 1800

RMSEA CFI TLI SRMR

0.075 (0.005) 0.956 (0.006) 0.922 (0.011) 0.045 (0.003)

0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.003)

0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.004)

n = 2200

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 877 bis 945 Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

7.4 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch Das vierte Muster irreführender Modellbewertungen weist trotz unterschiedlicher Schlüsse der vier Gütemaße am stärksten von allen Mustern auf eine Fehlanpassung des Modells hin. So liegt dabei lediglich der CFI mit Werten von 0.96 beziehungsweise 0.961 fälschlich im Bereich guter Modellanpassung (vgl. Tabelle 7.4.1). Der RMSEA, der TLI und der SRMR zeigen die Fehlspeziﬁkation des Modells mit mittleren Werten, die jeweils deutlich mehr als einen Standardfehler vom entsprechenden Schwellenwert abweichen, korrekt an. Dieses Muster ist das einzige irreführende Muster, das eine Fehlspeziﬁkation im Strukturteil des Modells aufweist. Das zeigt zum einen, dass Fehlanpassungen im Strukturteil eines Strukturgleichungsmodells im Mittel besonders gut von allen vier Fit-Indizes berücksichtigt werden. Zum anderen ist dieses auch das einzige Muster ir reführender Modellbewertungen, bei dem der SRMR den richtigen Schluss bezüglich der Modellgüte nahelegt. Daraus lässt sich schließen, dass dieses Gütemaß sensiti ver auf Fehlanpassungen im Strukturteil als auf Fehlanpassungen im Messteil eines solchen Modells reagiert. Zudem lässt dieses Muster – in Kombination mit den Ergebnissen der anderen Muster – darauf schließen, dass ein Modellergebnis, bei dem neben dem TLI und dem RMSEA zusätzlich der SRMR eine mangelhafte Modellanpassung nahelegt, stark auf Fehlspeziﬁkationen im Strukturmodell hindeutet. Im vorliegenden Fall zeigt sich dieses Ergebnis für eine sehr komplexe Modellvariante. Es ist allerdings nicht auszu

108 | 7 Ursachen fehlender Eindeutigkeit der Fit-Indizes

Tab. 7.4.1: Muster 4. Sehr komplexes fehlspeziﬁziertes Strukturmodell normalverteilt

Verteilungsform moderat rechtsschief

moderat linksschief

Fallzahl

RMSEA CFI TLI SRMR

0.073 (0.007) 0.961 (0.007) 0.926 (0.013) 0.070 (0.007)

0.069 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)

0.068 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)

n = 1500

RMSEA CFI TLI SRMR

0.074 (0.006) 0.961 (0.006) 0.926 (0.011) 0.070 (0.006)

0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)

0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)

n = 1800

RMSEA CFI TLI SRMR

0.074 (0.005) 0.961 (0.005) 0.926 (0.010) 0.070 (0.006)

0.069 (0.006) 0.960 (0.006) 0.926 (0.011) 0.065 (0.006)

0.069 (0.006) 0.960 (0.006) 0.926 (0.012) 0.065 (0.006)

n = 2200

Zu sehen sind die durchschnittlichen Indexwerte der jeweils 998 bis 1000 Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.

schließen, dass auch Modelle eines anderen Komplexitätsgrads ein solches Muster aufweisen können. Die vier dargestellten Muster irreführender Modellbewertungen verdeutlichen, was durch die in Kapitel 6 erläuterten Sensitivitäten bereits nahegelegt wurde: Linea re Strukturgleichungsmodelle wie jene, die im Kontext dieser Simulation untersucht wurden, lassen sich besonders verlässlich über den TLI und den RMSEA bewerten. Unter Berücksichtigung der Ergebnisse aus Kapitel 7.1–7.4 lässt sich eine besonde re Sensitivität des SRMR hinsichtlich falscher Speziﬁkationen im Strukturteil eines Modells zumindest dahingehend deuten, dass dieser Fit-Index zwar sämtliche fehl speziﬁzierte Messmodelle irreführend als gut bewertet, eine Fehlspeziﬁkation im Strukturmodell jedoch richtig einstuft. Damit reagiert dieses Gütemaß auf solche Fehlanpassungen zwar sensitiver als auf andere Fehlspeziﬁkationen, allerdings nicht sensitiver als beispielsweise der RMSEA. Im Gegenteil: Beim gleichen Schwellenwert von 0.05 und gleichen Standardfehlern liegt der RMSEA bei den einzelnen Modell varianten der fehlspeziﬁzierten Strukturmodelle weiter von der Schwelle entfernt als der SRMR und zeigt die falsche Anpassung somit deutlicher an (vgl. Tabelle 7.4.1). Außerdem kann auf Basis der vorliegenden Modelle darauf geschlossen werden, dass der CFI Fehlspeziﬁkationen im Strukturteil eines Modells eher als die anderen drei Fit-Indizes nicht berücksichtigt. Irreführende Muster der Modellbewertung, bei denen der CFI und der SRMR das Modell als gut angepasst einstufen und der TLI und der RMSEA das Modell im Gegensatz dazu – annähernd respektive eindeutig – als fehl speziﬁziert bewerten, weisen auf eine Fehlspeziﬁkation im Messteil des Modells hin.

7.4 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch | 109

Im Rahmen der Simulation haben sich zudem Ergebnisse gezeigt, bei denen al le vier Fit-Indizes eine falsche Konklusion ziehen und das jeweils falsch angepasste Modell als gut bewerten. Allerdings trifft dies auf wenige Modelle zu. Betroffen davon sind lediglich komplexe fehlspeziﬁzierte Messmodelle, in deren Rahmen die Indika toren ausschließlich linksschief oder rechtsschief verteilt sind. Dabei liegt der RMSEA zwar sehr nah am Schwellenwert (RMSEA = 0.048 bzw. 0.047) und auch der TLI ist mit einem Wert von 0.956 respektive 0.957 recht nah am eigenen Schwellenwert – in der Forschungspraxis würde ein solches Modell jedoch in den meisten Fällen als gut angepasst gewertet, sodass die falsche Speziﬁkation im Messteil des Modells nicht be rücksichtigt würde.

8 Diskussion und Ausblick Mit der vorliegenden Arbeit wurde untersucht, warum die etablierten Gütemaße TLI, CFI, RMSEA und SRMR Strukturgleichungsmodelle in bestimmten Fällen unterschied lich bewerten. Dazu wurde eine Monte-Carlo-Simulation durchgeführt, mit der die mittleren Werte und Streuungen dieser Fit-Indizes für verschiedene Modelle und Da ten analysiert wurden. Es wurden drei unterschiedlich komplexe Populationsmodel le, drei Stichprobengrößen und sechs Verteilungsformen der Indikatoren für jeweils vier unterschiedliche Speziﬁkationen der theoretischen Stichprobenmodelle analy siert: ein Modell, das dem korrekten Populationsmodell entsprach und drei weitere Modelle, die jeweils unterschiedliche Fehlspeziﬁkationen aufwiesen. Für die Analyse wurden strenge Schwellenwerte aus der Literatur aufgegriffen und geprüft, unter welchen Voraussetzungen diese zu einer korrekten oder falschen Mo dellbewertung führen. Eine falsche Modellbewertung zeigt für das jeweilige Gütemaß zum einen auf, dass dieses die entsprechende Speziﬁkation des Modells unter gege benen Stichprobenmerkmalen nicht ausreichend sensitiv erfasst; zum anderen kann in einem solchen Fall der konkrete Schwellenwert dieses Gütemaßes in Frage gestellt werden. Im Rahmen der Forschung zu den Fit-Indizes wird die Monte-Carlo-Methode in erster Linie mit dem Ziel angewandt, optimale Schwellenwerte für die Gütemaße zu ﬁnden. Allerdings ist es aufgrund der starken Variation zwischen unterschiedlichen Strukturgleichungsmodellen bezüglich des Modellaufbaus und unterschiedlicher Da ten- und Stichprobenmerkmale den meisten Studien (vgl. dazu Hu & Bentler 1999; Yu 2002) nicht gelungen, generelle, also für alle möglichen Modellvarianten anwendbare, Schwellenwerte zu ermitteln. Zwar haben sich bestimmte Schwellenwerte für einzelne Fit-Indizes etabliert, doch führt die strikte Verwendung dieser Schwellenwerte unter Gebrauch mehrerer Fit-Indizes oftmals zu irreführenden Modellbewertungen. Das ist das Ausgangsproblem, mit dem sich diese Forschungsarbeit befasst hat. Mit den Er gebnissen dieser Studie lässt sich erklären, aufgrund welcher Modelleigenschaften und Schwächen einzelner Gütemaße solch irreführende Modellbewertungen entste hen. Ein großer Vorteil der Methode besteht darin, dass mit der Monte-Carlo-Simulati on vielfache Stichprobenziehungen simuliert werden können und so gezeigt werden kann, welchen mittleren Wert ein bestimmter Fit-Index – unter Kenntnis der Popula tion – für speziﬁsche Stichprobenspeziﬁkationen bei einer bestimmten Modellvarian te annimmt. Zusätzlich dazu kann die Streuung der einzelnen Gütemaße und damit die Effizienz der relevanten mittleren Werte untersucht werden. Die Ergebnisse bedür fen folglich keiner weiteren statistischen Absicherung gegen den Zufall; schließlich ist dies bereits Teil der Simulation. Die vorliegende Simulationsstudie ist äußerst umfangreich und beinhaltet eine Vielzahl von Speziﬁkationen, die – unter Berücksichtigung der Empfehlung von Mu https://doi.org/10.1515/9783110624199-008

112 | 8 Diskussion und Ausblick

thén & Muthén (2002, S. 601) – zum Teil an Werte aus bisherigen Simulationsstudien zu den Fit-Indizes angepasst worden sind. Als Ausnahme davon zeigen sich primär die Speziﬁkationen zur Verteilung der Indikatoren sowie die untersuchten Stichproben größen. So wurde der Fokus der vorliegenden Studie auf große Fallzahlen gelegt und damit der Aspekt beachtet, dass der eigentliche statistische Modelltest – der χ2 -Test – sensitiv auf große Fallzahlen reagiert und nahezu jedes Modell mit einer großen Fall zahl zurückweist (vgl. Kapitel 3.1.2). Folglich ist die Modellevaluation über Fit-Indizes insbesondere im Fall einer großen Stichprobe relevant. Bezüglich der Verteilung der Indikatoren wurde innerhalb dieser Studie ein Fokus gelegt, der ebenfalls vom Vorgehen bisheriger Forschungsarbeiten abweicht. So ist mit der vorliegenden Arbeit der Einﬂuss der Schiefe auf die Gütemaße erstmals isoliert von der Kurtosis untersucht worden. Bei der Festlegung der Modellvarianten wurde berücksichtigt, dass bestimmte Fehlspeziﬁkationen für eine Analyse der Gütemaße nicht von Relevanz sind, da sie von den Gütemaßen nicht evaluiert werden: Zum einen sind alle untersuchten und dargestellten fehlspeziﬁzierten Modelle unterspeziﬁziert. Keines der Modelle weist ei ne Überparametrisierung auf. Das ist dadurch begründet, dass die Gütemaße Modelle nicht lediglich aufgrund einer Überparametrisierung als fehlspeziﬁziert werten: Soll ten in einem Modell alle relevanten Zusammenhänge geschätzt werden und darüber hinaus unwesentliche Zusammenhänge enthalten sein, so wird die gesamte erklärba re Streuung dieses Modells erklärt; die Fit-Indizes werten ein solches Modell als sehr gut angepasst.⁷⁰ Eine Untersuchung überspeziﬁzierter Modelle ist aus diesem Grund nicht notwendig. Eine weitere Erkenntnis hat sich aus dem Versuch ergeben, relevante Indikatoren des Populationsmodells nicht ins Stichprobenmodell aufzunehmen. Wenn alle in das Stichprobenmodell aufgenommenen Indikatoren entsprechend ihrer Zusammenhän ge speziﬁziert werden, so fällt die Modellbewertung sehr gut aus. Die unberücksichtig ten Parameter können innerhalb des Modellierungsprozesses nicht erkannt werden, da das hypothetische Modell, das mithilfe der Stichprobendaten geschätzt wird, ledig lich die im Modell enthaltenen Variablen berücksichtigt. Alle weiteren Variablen, die außerhalb des Modells liegen und mit den Variablen im Modell korrelieren, sind nicht Teil der Daten und somit auch nicht Teil des saturierten Modells, mit dem das hypo 70 Dass dabei Freiheitsgrade unnötig verbraucht werden, kann nicht dazu führen, dass das Modell durch die Gütemaße substanziell schlechter gewertet wird. So werden mit dem SRMR die absoluten Fehler in der Korrelationsmatrix berechnet, die beim Wert 0 liegen, sobald alle vom Wert 0 verschiede nen Korrelationen mit dem Modell geschätzt werden. In diesem Fall liegt der SRMR beim Wert 0 und weist so auf eine perfekte Modellanpassung hin. Zwar ﬁndet sich in den Formeln für die Gütemaße TLI, CFI und RMSEA jeweils eine Korrektur über die Anzahl der Freiheitsgrade, doch wird diese bei al len drei Gütemaßen vernachlässigt, sobald das hypothetische Modell alle Zusammenhänge zwischen den Daten erklärt und dahingehend dem saturierten Modell entspricht. Der RMSEA liegt in jenem Fall beim Wert 0 so wie der CFI und der TLI bei perfekter Modellanpassung beim Wert 1 liegen (vgl. zu diesen Erläuterungen Kapitel 3.2).

8 Diskussion und Ausblick | 113

thetische Modell verglichen wird. Daraus lässt sich eine wichtige Erkenntnis ableiten: Die Datenauswahl ist ein sehr wichtiger Aspekt innerhalb der Strukturgleichungsmo dellierung und folglich beginnt die Entwicklung eines guten Strukturgleichungsmo dells nicht erst mit der Schätzung. Andernfalls besteht die Gefahr, dass relevante Indi katoren beim Modellierungsprozess übersehen werden. Die Modellparameter können derartige Schwächen bei der Modellierung nicht aufdecken. Ein wichtiges Ergebnis dieser Studie zeigt sich für die korrekt speziﬁzierten Mo delle. Diese werden von allen vier Fit-Indizes unter sämtlichen Stichprobenmerkma len korrekt als sehr gut eingestuft. Das impliziert die wichtige Erkenntnis, dass irre führende Muster der Modellbewertung lediglich bei fehlspeziﬁzierten Modellen be stehen. Zu beachten ist, dass die korrekten Modelle hier den Populationsmodellen entsprechen und somit eine perfekte Modellanpassung für diese Modelle gegeben ist. Das wird durch den χ 2 -Test geprüft und ist nicht der Maßstab der Modellbewertung mit den Gütemaßen. In Kapitel 3.1 wurde erläutert, dass eine sehr gute Modellanpas sung bereits ausreichend ist, da bei realen Umfragedaten stets geringe, substanziell ir relevante Zusammenhänge zwischen einzelnen Variablen bestehen, deren Schätzung keinen inhaltlichen Zugewinn für das Modell bedeuten würde, allerdings den Unter schied zwischen einer sehr guten und einer perfekten Modellanpassung erklärt. Die Ergebnisse haben gezeigt, dass die Gütemaße bei perfekter Modellanpassung sehr nah an den bestmöglichen Werten 0 respektive 1 liegen. Einzelne Fit-Indizes lie gen selbst bei einigen fehlspeziﬁzierten Modellvarianten noch zu nah an diesen Wer ten und haben diese Modelle fälschlich als gut angepasst gewertet. Daraus lässt sich folgern, dass bei einem Modell, in dem alle inhaltlich substanziellen Zusammenhän ge – aber nicht zwangsläuﬁg alle Zusammenhänge – geschätzt werden, jedes der vier Fit-Maße korrekt eine gute Modellanpassung nahelegt. Das gilt auch für große Fall zahlen. So ergibt sich das Problem der hohen Fallzahl-Sensitivität des χ 2 -Tests für die Fit-Indizes nicht in dieser Form. Zwar sollte beachtet werden, dass der SRMR als einzi ges der vier untersuchten Gütemaße unter nahezu allen betrachteten Modellvarianten eine Abhängigkeit zur Fallzahl gezeigt hat, doch zeigt auch der SRMR die gute Modell anpassung der korrekt speziﬁzierten Modellvarianten deutlich an. Unter Bezugnahme auf die durch die Literatur vorgeschlagenen Schwellenwerte geben die Gütemaße RMSEA und TLI die Fehlanpassungen der untersuchten Model le besonders verlässlich wieder und weisen eine hohe Rate korrekt bewerteter Mo delle auf. Durch den SRMR und den CFI wird eine größere Anzahl fehlspeziﬁzierter Modelle fälschlich als gut angepasst gewertet. Insofern kann der Vorschlag von Hu & Bentler (1999, S. 23–27), für die Modellevaluation den SRMR gemeinsam mit einem weiteren Fit-Index zu verwenden, auf Basis der vorliegenden Ergebnisse nicht bestä tigt werden; insbesondere, da die Autoren für den SRMR unterschiedliche Schwellen werte vorschlagen, die allesamt beim Wert 0.6 oder höher liegen (vgl. Hu & Bentler 1999, S. 23–27). Eine solche Lockerung des Schwellenwerts ist nicht empfehlenswert. Im Gegenteil: Unter Kenntnis der vorliegenden Ergebnisse sollten für Strukturglei chungsmodelle mit großen Fallzahlen tendenziell strengere Schwellenwerte für den

114 | 8 Diskussion und Ausblick

SRMR sowie für den CFI in Betracht gezogen werden. So schlagen Hu & Bentler (1999, S. 24), Reinecke (2014, S. 127) und Yu (2002, S. 43) vor, den Schwellenwert des CFI mit dem Wert 0.96 strikter zu setzen. Diese Empfehlung wird durch die vorliegenden Er gebnisse bestärkt. Es sollte gar in Betracht gezogen werden, den Schwellenwert des CFI noch strikter festzusetzen, zum Beispiel auf den Wert 0.97. Das hätte unter ande rem bezogen auf das sparsame fehlspeziﬁzierte Messmodell – anders als der Schwel lenwert 0.95 oder 0.96 – zu einer korrekten Modellbewertung geführt. Der Schwellen wert des SRMR wird allerdings durch sämtliche Quellen auf minimal 0.05 gesetzt (vgl. dazu Kapitel 4.2).⁷¹ Für die vorliegenden Modelle hätte ein strengerer Schwellenwert von beispielsweise 0.04 beim SRMR zu einem höheren Anteil korrekt zurückgewiese ner Modelle geführt. Die Analyse hat überdies herausgestellt, dass der SRMR im Gegensatz zu den an deren drei Fit-Indizes sensitiv auf die Fallzahl reagiert. Die Forschungsliteratur zeigt sich gespalten bei der Beurteilung der Fallzahlsensitivität des SRMR (vgl. Kapitel 4.1). Für das Ergebnis dieser Studie kann festgehalten werden, dass lediglich große Fallzah len (n = 1500, n = 1800 und n = 2200) untersucht wurden und für diese die Sensitivität des SRMR gering ausfällt, allerdings in nahezu jeder untersuchten Teilsimulation auf tritt. Unter Berücksichtigung der gewählten Stichprobengrößen kann angenommen werden, dass der SRMR für kleinere Stichproben als die kleinste gewählte Fallzahl von n = 1500 mit kleinerer Fallzahl ansteigt und fehlspeziﬁzierte Modelle so für besonders kleine Stichproben tendenziell eher korrekterweise als fehlangepasst wertet als dies bei den vorliegenden großen Stichproben der Fall ist. Ein derartiger Befund würde mit den Ergebnissen der Studie von Yu (2002, S. 161) einhergehen und ebenso die Erläute rungen von Hooper et al. (2008, S. 55) bestätigen. Zu gute Bewertungen einzelner fehl speziﬁzierter Modelle, die sich innerhalb der vorliegenden Studienergebnisse ﬁnden, könnten demnach beim SRMR mitunter auf eine Fallzahl-Sensitivität zurückgeführt werden. Ein weiterer sehr interessanter Befund liegt in der Sensitivität der Gütemaße be züglich der Schiefe der Indikatoren. Dies spricht eindeutig gegen die Forschungser wartung, die sich aus der Forschungsliteratur ergibt (vgl. z. B. Byrne 2012, S. 98–99). Bisherige Studien haben sich primär mit der Kurtosis befasst und die Schiefe vernach lässigt (vgl. dazu Hu & Bentler 1999; Yu 2002). Es wird hier nicht angenommen, dass die Schiefe einen stärkeren Effekt als die Kurtosis aufweist. Es wäre jedoch ebenso falsch, einen potenziellen Effekt der Schiefe der Modellindikatoren zu ignorieren. Am stärksten reagieren der RMSEA und der SRMR auf schief verteilte Indikato ren. Beim TLI und CFI wirkt sich die Schiefe primär auf den jeweiligen Standardfehler aus. Mit stärkerer Schiefe steigen die Standardfehler beider Gütemaße deutlich an. Das impliziert eine geringere Effizienz der Modellbewertung. Mögliche Verzerrungen

71 Das könnte damit zusammenhängen, dass bisherige Studien vor allem Modelle mit kleineren Fall zahlen untersucht haben.

8 Diskussion und Ausblick |

115

auf Basis der Schiefe sollten für die Fit-Indizes vor allem bei nahe an den Schwellen werten liegenden guten Modellbewertungen nicht ausgeschlossen werden: Schließ lich wirken sich schiefe Verteilungen der Indikatoren auf alle betrachteten Fit-Maße aus. Bei einer einzigen Stichprobe können alle vier Gütemaße eine zu gute Modellbe wertung nahelegen und bei Werten, die sehr nah an den jeweiligen Schwellen liegen, ist es möglich, dass ein entsprechendes Modell lediglich aufgrund der Verteilungen der Indikatoren von den Fit-Indizes fälschlich als gut angepasst gewertet wird. Der TLI reagiert darüber hinaus auf unterschiedliche Verteilungen der Indikatoren und zeigt bei den meisten untersuchten Modellen für gemischt verteilte Indikatoren höhere Werte an als für Modelle mit Indikatoren einer Verteilungsform. So weist die Bewertung fehlspeziﬁzierter Modelle unter gemischt verteilten Indikatoren tendenzi ell in die falsche Richtung. Für den CFI zeigt sich der gleiche Effekt in abgeschwächter Form. Forschende Personen sollten entsprechend vorsichtig mit Modellen umgehen, die mit den Fit-Indizes in geringem Ausmaß als gut angepasst bewertet werden kön nen, wenn die Indikatoren des Modells unterschiedliche Verteilungen aufweisen. Der hier festgestellte Effekt sollte bei zukünftigen Forschungsarbeiten beachtet und ge nauer untersucht werden. In der vorliegenden Studie wurden die Verteilungen ledig lich für die Schiefe-Werte 3 und -3 variiert. Der Effekt eines variierenden Ausmaßes der Schiefe kombiniert mit unterschiedlichen Richtungen der Verteilungen innerhalb ei nes Modells wurde hier nicht untersucht, könnte allerdings vor dem Hintergrund der beschriebenen Befunde interessante Ergebnisse hervorrufen. Es gilt letztlich zu beachten, dass mit der vorliegenden Studie ausschließlich Modelle mit dem ML-Schätzverfahren und metrischen Indikatoren untersucht wur den. Bei schief verteilten Indikatoren wird die Normalverteilungsannahme des MLSchätzverfahrens verletzt. Für Verletzungen gegen diese Annahme stehen robuste MLSchätzverfahren (MLM, MLR) zur Verfügung, die jeweils eine korrigierte χ2 -Teststatis tik verwenden. Das mit dieser Studie deutlich aufgedeckte Problem der Sensitivität der Fit-Indizes gegenüber schief verteilten Indikatoren sollte sich dabei nicht ergeben. Für Strukturgleichungsmodelle mit kategorialen Indikatoren sollte ebenfalls von der Verwendung des einfachen ML-Schätzers abgesehen werden.⁷²

72 Alternativ stehen für Modelle mit kategorialen Daten verschiedene Weighted-least-squares-Schätz verfahren sowie das MLM-Schätzverfahren zur Verfügung (vgl Reinecke 2014, S. 102–112).

A Ergänzungen zu Kapitel 5 Tab. A.0.1: Deskriptive Statistiken der Variable „happy“. Kennzahl

Wert

Fallzahl arithmetisches Mittel Standardabweichung Schiefe

40015 7.39 1.91 −1.03

Die Variable ist auf einer elfstuﬁgen Zustimmungsskala gemessen. Dabei steht der Wert 0 für „extrem unglücklich“ und der Wert 10 steht für „extrem glücklich“, Datenquelle: European Social Survey 2014.

Tab. A.0.2: Faktorladungsstruktur. Modellkomplexität komplex

sparsam F1a 0.6⋅x1 0.6⋅x2 0.5⋅x3 0.5⋅x4 F2a 0.6⋅x4 0.6⋅x5 0.6⋅x6 cov(F1a ⋅F2a ) = 0.4

F1b 0.6⋅x1 0.7⋅x2 0.8⋅x3 F2b 0.7⋅x1 0.7⋅x4 0.7⋅x5 F3b 0.6⋅x4 0.7⋅x6 0.8⋅x7 cov(F1b ⋅F2b ) = 0.6 cov(F2b ⋅F3b ) = 0.6

sehr komplex F1c 0.4⋅x1 0.5⋅x2 0.7⋅x3 0.8⋅x4 F2c 0.8⋅x1 0.7⋅x2 0.8⋅x5 0.6⋅x6 F3c 0.4⋅x5 0.8⋅x6 0.7⋅x7 0.8⋅x8 cov(F1c ⋅F2c ) = 0.6 cov(F2c ⋅F3c ) = 0.6

Zu sehen sind die Faktorladungen sowie die Kovarianzen zwischen den latenten Faktoren für die drei unterschiedlich komplexen Populationsmodelle der vorliegenden Simulationsstudie. Die Freiheits grade ergeben sich entsprechend der Formel 3.1.2: dfs = p⋅(p−1) − r x . Bezogen auf die jeweiligen 2 korrekt speziﬁzierten Modelle ergeben sich 7 Freiheitsgrade für das sparsame Modell, 10 Freiheits grade für das komplexe Modell und 14 Freiheitsgrade für das sehr komplexe Modell.

https://doi.org/10.1515/9783110624199-009

B Ergänzungen zu Kapitel 6 B.1 Konvergenz Für jede Teilsimulation wurden tausend Stichproben angefordert. Unter allen sparsa men Modellen ﬁndet sich lediglich eine Teilsimulation, bei der die volle Anzahl ange forderter Stichproben nicht erfüllt werden konnte. Es handelt sich um die Teilsimula tion mit dem fehlspeziﬁzierten Messmodell und stark rechtsschiefen Verteilungen der Indikatoren. Die Anzahl liegt dafür bei 999 erfolgreichen Replikationen. Bei der Modellierung der komplexen und sehr komplexen Modellvarianten ha ben sich deutlich mehr nicht-konvergierende Modelle ergeben. Die Zahlen sind Tabel len B.1.1–B.1.4 zu entnehmen. Tabelle B.1.1 lassen sich drei zentrale Tendenzen entnehmen: Erstens steigt mit steigender Fallzahl die Anzahl erfolgreicher Replikationen. Zweitens ist die Wahr scheinlichkeit nicht-konvergierender Modelle umso höher, je schiefer die Indikatoren verteilt sind. Drittens ﬁnden sich mehr erfolgreiche Replikationen für das komplexe Modell als für das sehr komplexe Modell. Für die fehlspeziﬁzierten Messmodelle (vgl. Tabelle B.1.2) lassen sich die gleichen Tendenzen feststellen wie für die korrekt speziﬁzierten Modelle: Eine kleinere Fall zahl, schiefere Verteilungen der Indikatoren und eine komplexere Modellspeziﬁkation wirken sich negativ auf die Konvergenz aus und erhöhen so die Anzahl nicht-konver gierender Modelle. Zudem lässt sich feststellen, dass bei einer falschen Speziﬁkation im Messteil des Modells die Wahrscheinlichkeit für fehlende Konvergenz erhöht wird; bei den korrekt speziﬁzierten Modellen ist die Anzahl kovergierender Modelle höher als bei den fehlspeziﬁzierten Messmodellen. Anhand von Tabelle B.1.3 lässt sich erkennen, dass falsche Speziﬁkationen zwi schen den latenten Variablen eines Strukturgleichungsmodells eine sehr geringe Aus wirkung auf die Konvergenz der Modelle haben. Ein Anstieg der Schiefe wirkt sich ne Tab. B.1.1: Kovergenz korrekt speziﬁzierter Modelle.

normal verteilt

moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

Fallzahl

Komplexes Modell

998 999 1000

995 998 1000

832 884 914

994 999 1000

856 875 920

867 905 910

n = 1500 n = 1800 n = 2200

Sehr Komplexes Modell

997 1000 999

994 996 998

836 865 878

994 998 999

835 860 883

840 845 862

n = 1500 n = 1800 n = 2200

Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.

https://doi.org/10.1515/9783110624199-010

120 | B Ergänzungen zu Kapitel 6

Tab. B.1.2: Kovergenz fehlspeziﬁzierter Messmodelle.

normal verteilt

moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

Fallzahl

Komplexes Modell

967 976 992

944 954 965

747 776 806

940 964 978

739 771 827

750 800 801

n = 1500 n = 1800 n = 2200

Sehr Komplexes Modell

920 925 945

892 913 926

710 750 759

877 909 935

714 729 751

711 722 731

n = 1500 n = 1800 n = 2200

Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.

Tab. B.1.3: Kovergenz fehlspeziﬁzierter Strukturmodelle.

normal verteilt

moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

Fallzahl

Komplexes Modell

1000 1000 1000

1000 1000 1000

1000 1000 1000

1000 1000 1000

1000 1000 1000

1000 1000 1000

n = 1500 n = 1800 n = 2200

Sehr Komplexes Modell

1000 1000 1000

1000 1000 1000

948 960 969

998 999 1000

946 954 964

939 946 956

n = 1500 n = 1800 n = 2200

Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.

gativ auf die Konvergenz sehr komplexer Modelle aus. Alle angeforderten komplexen fehlspeziﬁzierten Strukturmodelle konvergieren. Für die fehlspeziﬁzierten Gesamtmodelle ﬁndet sich ein sehr hohes Maß an Kon vergenz (vgl. Tabelle B.1.4). Zusätzlich dazu lässt sich erkennen, dass schiefer verteilte Indikatoren bei den komplexen Modellen fehlende Konvergenz hervorrufen können. Wie Tabelle B.1.4 zu entnehmen ist, konvergieren alle angeforderten sehr komple xen fehlspeziﬁzierten Gesamtmodelle. Das hohe Maß an Konvergenz könnte unter an derem damit zusammenhängen, dass die fehlspeziﬁzierten Gesamtmodelle weniger Schätzungen beinhalten als alle anderen komplexen und sehr komplexen Modellva rianten. Im Vergleich zwischen den drei unterschiedlich komplexen Populationsmodellen zeigt sich, dass der Anteil konvergierender Modelle mit steigender Komplexität sinkt. Interessant ist, dass dies – wenn auch in geringer Tendenz – für die korrekt speziﬁ zierten Modelle gilt. Die korrekt speziﬁzierten Modelle weisen insofern eine perfekte Modellanpassung auf, als jeder geschätzte Parameter des Modells deutlich vom Wert 0 verschieden ist und keine weiteren Zusammenhänge unbeachtet bleiben. Mit dieser korrekten Modellspeziﬁkation konvergieren sämtliche sparsame Modelle. Unter den komplexen Stichprobenmodellen konvergiert ein etwas geringerer Anteil und der An

B.1 Konvergenz |

121

Tab. B.1.4: Kovergenz fehlspeziﬁzierter Gesamtmodelle.

normal verteilt

moderat rechtsschief

Verteilungsform stark moderat rechtsschief linksschief

stark linksschief

stark rechtsund linksschief

Fallzahl

Komplexes Modell

1000 1000 1000

1000 1000 1000

996 1000 1000

1000 1000 1000

996 999 998

998 1000 1000

n = 1500 n = 1800 n = 2200

Sehr Komplexes Modell

1000 1000 1000

1000 1000 1000

1000 1000 1000

1000 1000 1000

1000 1000 1000

1000 1000 1000

n = 1500 n = 1800 n = 2200

Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.

teil konvergierender sehr komplexer Modelle ist nochmals geringfügig kleiner. Wenn möglich, sind sparsame Modelle komplexeren Modellvarianten stets vorzuziehen. Die damit in Verbindung stehende Konvergenz zeigt einen guten Grund dafür auf.

Literatur Acock, A. C. (2013): Discovering Structural Equation Modeling Using Stata. College Station: Stata Press. Agresti, A. & Finlay, B. (2009): Statistical Methods for the Social Sciences. 4. Auﬂage, Upper Saddle River: Prentice Hall. Barrett, P. (2001): Skewness and pearson correlations. attenuation of coefficient size as a function of skewed data. The Technical Whitepaper Series, (2). Barrett, P. (2007): Structural equation modelling: Adjudging model ﬁt. Personality and Individual differences, 42(5), 815–824. Baur, N. & Fromm, S. (2008): Datenanalyse mit SPSS für Fortgeschrittene: ein Arbeitsbuch. 2. Auﬂa ge, Wiesbaden: VS Verlag. Bentler, P. M. (1990): Comparative Fit Indexes in Structural Models. Psychological Bulletin, 107(2), 238–246. Bentler, P. M. (1995): EQS structural equations program manual. Encino: Multivariate Software. Bentler, P. M. (2007): On tests and indices for evaluating structural models. Personality and Indivi dual Differences, 42(5), 825–829. Bibby, J. M., Kent, J. T. & Mardia, K. V. (1979): Multivariate Analysis. London: Academic Press. Bollen, K. A. (1989a): A New Incremental Fit Index for General Structural Equation Models. Sociologi cal Methods & Research, 17(3), 303–316. Bollen, K. A. (1989b): Structural Equations with Latent Variables. New York: Wiley. Bollen, K. A. & Curran, P. J. (2006): Latent Curve Models: A Structural Equation Perspective. Hoboken: Wiley. Boomsma, A. (1983): On the robustness of LISREL (maximum likelihood estimation) against small sample size and non-normality. Unveröffentlichte Dissertation, Universität Groningen, Gronin gen. Boomsma, A. (2013): Reporting Monte Carlo Studies in Structural Equation Modeling. Structural Equation Modeling: A Multidisciplinary Journal, 20(3), 518–540. Bortz, J. & Schuster, C. (2010): Statistik für Human-und Sozialwissenschaftler. 7. Auﬂage, Berlin: Springer. Brosius, H.-B., Haas, A. & Koschel, F. (2012): Methoden der empirischen Kommunikationsforschung. 6. Auﬂage, Wiesbaden: VS Verlag. Brown, T. A. (2015): Conﬁrmatory Factor Analysis for Applied Research. 2. Auﬂage, New York: The Guilford Press. Browne, M. W. & Cudeck, R. (1993): Alternative ways of assessing model ﬁt. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Newbury Park: Sage, 136–162. Byrne, B. M. (2012): Structural Equation Modeling With Mplus: Basic Concepts, Applications, and Programming. New York: Routledge. Cangur, S. & Ercan, I. (2015): Comparison of model ﬁt indices used in structural equation modeling under multivariate normality. Journal of Modern Applied Statistical Methods, 14(1), 152–167. Chen, F. F. (2007): Sensitivity of goodness of ﬁt indexes to lack of measurement invariance. Structu ral Equation Modeling: A Multidisciplinary Journal, 14(3), 464–504. Chou, C.-P. & Bentler, P. M. (1995): Estimates and Tests in Structural Equation Modeling. In: Hoyle, R. H. (Hrsg.), Structural Equation Modeling. Concepts, Issues, and Applications, Sage, 37–55. Christ, O. & Schlüter, E. (2012): Strukturgleichungsmodelle mit Mplus: Eine praktische Einführung. München: Oldenbourg Verlag.

https://doi.org/10.1515/9783110624199-011

124 | Literatur

Costello, A. B. & Osborne, J. W. (2005): Best practices in exploratory factor analysis: four recommen dations for getting the most from your analysis. Practical Assessment Research and Evaluation, 10(7). DeCarlo, L. T. (1997): On the Meaning and Use of Kurtosis. Psychological Methods, 2(3), 292–307. Diaz-Bone, R. (2013): Statistik für Soziologen. 2. Auﬂage, Konstanz und München: UVK Verlagsge sellschaft. Díaz-Emparanza, I. (2002): Is a Small Monte Carlo Analysis a Good Analysis? Statistical Papers, 43(4), 567–577. Diekmann, A. (2008): Empirische Sozialforschung. 19. Auﬂage, Reinbek bei Hamburg: Rowohlt. ESS Sampling Expert Panel (2016): Sampling guidelines: Principles and implementation for the European Social Survey. London: ESS ERIC Headquarters. European Social Survey (2014): Integrierter Datensatz, Edition 2.0, Runde 7. URL http://www.europeansocialsurvey.org/download.html?ﬁle=ESS7e02&y=2014 (letzter Zugriff:15.08.2018) European Social Survey (2015): Measuring and Reporting on Europeans’ Wellbeing: Findings from the European Social Survey. London: ESS ERIC. Faulbaum, F., Prüfer, P. & Rexroth, M. (2009): Was ist eine gute Frage? Die systematische Evaluation der Fragenqualität. Wiesbaden: VS Verlag. Gerbing, D. W. & Anderson, J. C. (1993): Monte Carlo Evaluations of Goodness-of-Fit Indices for Struc tural Equation Models. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Newbury Park: Sage, 40–65. GESIS, L. (2016): German General Social Survey - ALLBUScompact 2014. GESIS Datenarchiv, Köln. ZA5243 Datenﬁle Version 1.0.0. URL http://dx.doi.org/10.4232/1.12438 (letzter Zugriff: 16.08.2018) GMF (2013): Gruppenbezogene Menschenfeindlichkeit (GMF Surveys 2002-2011) Variable Report. GESIS / Universität Bielefeld (2013), gesis-variable reports 2013. Heitmeyer, W., Zick, A., Kühnel, S., Schmidt, P., Wagner, U., Mansel, J. & Reinecke, J. (2013): Grup penbezogene Menschenfeindlichkeit (GMF-Survey 2007). GESIS Datenarchiv, Köln. ZA5572 Datenﬁle Version 2.0.0, doi:10.4232/1.11814. URL https://dbk.gesis.org/dbksearch/SDesc2.asp?DB=D&no=5572 (letzter Zugriff: 26.07.2017) Hooper, D., Coughlan, J. & Mullen, M. (2008): Structural Equation Modelling: Guidelines for Determi ning Model Fit. Articles, 6(1), 53–60. Hu, L.-t. & Bentler, P. M. (1999): Cutoff criteria for ﬁt indexes in covariance structure analysis: Con ventional criteria versus new alternatives. Structural Equation Modeling: A Multidisciplinary Journal, 6(1), 1–55. Iacobucci, D. (2010): Structural equations modeling: Fit indices, sample size, and advanced topics. Journal of Consumer Psychology, 20(1), 90–98. Jobson, J. D. (1991): Applied multivariate data analysis: Volume I: Regression and Experimental De sign. New York: Springer. Jöreskog, K. G. (1993): Testing Structural Equation Models. In: Bollen, K. A. & Long, J. S. (Hrsg.), Tes ting Structural Equation Models, Sage Focus Editions, Band 154, Sage Publications, 294–316. Kaplan, D. (2009): Structural Equation Modeling: Foundations and Extensions. 2. Auﬂage, Thousand Oaks: Sage. Kline, R. B. (2005): Principles and Practice of Structural Equation Modeling. New York: The Guilford Press. Kühnel, S.-M. & Krebs, D. (2007): Statistik für die Sozialwissenschaften. 4. Auﬂage, Reinbek bei Hamburg: Rowohlt. Mooney, C. Z. (1997): Monte Carlo Simulation, Band 116. Thousand Oaks: Sage.

Literatur

| 125

Muthén, B. O. (1984): A general structural equation model with dichotomous, ordered categorical, and continuous latent variable indicators. Psychometrika, 49(1), 115–132. Muthén, B. O. (1993): Goodness of ﬁt with categorical and other nonnormal variables. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Sage Publications, 205–234. Muthén, L. K. & Muthén, B. O. (1998-2010): Mplus: Statistical Analysis with Latent Variables: User’s Guide. 6. Auﬂage, Los Angeles: Muthén & Muthén. Muthén, L. K. & Muthén, B. O. (2002): How To Use A Monte Carlo Study To Decide On Sample Si ze and Determine Power. Structural Equation Modeling: A Multidisciplinary Journal, 9(4), 599–620. Pöge, A. (2017): Werte im Jugendalter. Stabilität Wandel Synthese. Wiesbaden: Springer VS. Pornprasertmanit, S. (2016): nullRMSEA. URL https://www.rdocumentation.org/packages/semTools/versions/0.4-11/topics/nullRMSEA (letzter Zugriff: 26.06.2018) Pornprasertmanit, S., Wu, W. & Little, T. D. (2013): A Monte Carlo Approach for Nested Model Com parisons in Structural Equation Modeling. In: Millsap, R. E., van der Ark, L. A., Bolt, D. M. & Woods, C. M. E. (Hrsg.), New Developments in Quantitative Psychology, Springer, 187–197. Reinecke, J. (2014): Strukturgleichungsmodelle in den Sozialwissenschaften. 2. Auﬂage, München: Oldenbourg Verlag. Rencher, A. C. (2003): Methods of Multivariate Analysis. 2. Auﬂage, Hoboken: John Wiley&Sons, Inc. Schnell, R., Hill, P. B. & Esser, E. (2011): Methoden der empirischen Sozialforschung. 9. Auﬂage, München: Oldenbourg Verlag. Schoemann, A. M., Patrick, M., Pornprasertmanit, S. & Wu, W. (2014): Using Monte Carlo simulati ons to determine power and sample size for planned missing designs. International Journal of Behavioral Development, 38(5), 471–479. Sedlmeier, P. & Renkewitz, F. (2008): Forschungsmethoden und Statistik in der Psychologie. Mün chen: Pearson Studium. Sharma, S., Mukherjee, S., Kumar, A. & Dillon, W. R. (2005): A simulation study to investigate the use of cutoff values for assessing model ﬁt in covariance structure models. Journal of Business Research, 58(7), 935–943. Steiger, J. H. (1990): Structural Model Evaluation and Modiﬁcation: An Interval Estimation Approach. Multivariate behavioral research, 25(2), 173–180. Steiger, J. H. (2007): Understanding the limitations of global ﬁt assessment in structural equation modeling. Personality and Individual Differences, 42(5), 893–898. Steiger, J. H. (2016): Notes on the Steiger-Lind (1980) Handout. Structural Equation Modeling: A Multidisciplinary Journal, 23(6), 777–781. Steiger, J. H. & Lind, J. C. (1980): Statistically based tests for the number of common factors. In: Annual meeting of the Psychometric Society, Iowa City, IA, Band 758. Tanaka, J. S. (1993): Multifaceted conceptions of ﬁt in structural equation models. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Newbury Park: Sage, 10–39. Tucker, L. R. & Lewis, C. (1973): A reliability coefficient for maximum likelihood factor analysis. Psy chometrika, 38(1), 1–10. Yeomans, K. A. & Golder, P. A. (1982): The Guttman-Kaiser criterion as a predictor of the number of common factors. The Statistician, 221–229. Yu, C.-Y. (2002): Evaluating Cutoff Criteria of Model Fit Indices for Latent Variable Models with Binary and Continuous Outcomes. Unveröffentlichte Dissertation, University of California Los Angeles.

Stichwortverzeichnis χ 2 -Test 3, 19, 20, 24–27, 29, 38, 115 χ 2 -Verteilung 25, 30 Explorative Faktorenanalyse 6, 8, 12, 17 Faktorladung 9–11, 15–17 Freiheitsgrade 20–23, 25, 30 Hauptkomponentenmethode 11, 12, 16 Identiﬁkationsbedingungen 21, 23 Kommunalität 11, 12 Konﬁrmatorische Faktorenanalyse 6, 12, 13, 15 Konvergenz 98, 119 Korrelation 6, 7, 9 Korrelationsmatrix 8, 10, 14 Kovarianz 14, 22 Kovarianzmatrix 15, 21, 22, 24, 32 Kurtosis 37, 38, 112, 114 latente Variable 1, 5, 6, 7, 8, 13, 15, 16 leeres Modell siehe Nullmodell manifeste Variable 1, 6, 10, 11, 17 Maximum-Likelihood(ML)-Schätzung 24, 25, 37, 46, 115 Messfehler 5, 6, 7, 8 Messmodell 15, 16, 17, 19, 36 Modellkomplexität 20, 35, 36, 39, 40, 47, 48 Monte-Carlo-Simulation 2, 43–45 Mplus 1, 22–24, 27, 28, 31

https://doi.org/10.1515/9783110624199-012

Non-Normed Fit Index (NNFI) 31 Normalverteilung – allgemein 7, 13 – multivariat 25, 37, 38, 115 Nullmodell 23, 29, 31, 32 Population 19, 28, 43 Power siehe Teststärke R 43 Relative Noncentrality Index (RNI) 31 Replikationen 45 saturiertes Modell 20, 21, 23 Schiefe 38, 39, 114, 115 Schwellenwert 1, 2, 39, 50, 111, 114 Seed 45 Signiﬁkanz 15–17, 25, 39 Standardabweichung 44 Standardfehler 44, 49, 114 Stata 1, 22–24, 28 Stichprobe 2, 19, 27, 28, 43, 44 Strukturgleichungsmodell – allgemein 1, 13, 19, 21 – kategoriale Daten 1, 115 Strukturmodell 15, 21, 36 Teststärke 27 Uniqueness 11, 12