238 18 941KB
German Pages 142 [144] Year 2019
Miriam Reußner Die Güte der Gütemaße
Miriam Reußner
Die Güte der Gütemaße | Zur Bewertung von Strukturgleichungsmodellen
ISBN 978-3-11-062048-1 e-ISBN (PDF) 978-3-11-062419-9 e-ISBN (EPUB) 978-3-11-062057-3 Library of Congress Control Number: 2018967603 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2019 Walter de Gruyter GmbH, Berlin/Boston Einbandabbildung: ewg3D / iStock / Getty Images Plus Satz: le-tex publishing services GmbH, Leipzig Druck und Bindung: CPI books GmbH, Leck www.degruyter.com
Vorwort Dieses Buch ist das Produkt meiner Dissertation, das Studierenden sowie Wissen schaftlerinnen und Wissenschaftlern den Umgang mit Strukturgleichungsmodellen erleichtern soll. Der erste Teil des Buches dient einer Einführung in die Strukturglei chungsmodellierung sowie in die Bewertung der Güte von Strukturgleichungsmodel len. Dieser Teil ist für Personen geeignet, die noch keine Erfahrungen im Umgang mit Strukturgleichungsmodellen haben. Die genauere Beschreibung der Fit-Indizes als Übergang zu der Umsetzung der Simulationsstudie und letztlich zur Auswertung der Ergebnisse sollte insbesondere, allerdings nicht ausschließlich, für fortgeschrit tene Anwenderinnen und Anwender von Strukturgleichungsmodellen relevant sein. Zudem legen die Ergebnisse der Studie Hinweise darauf nahe, welche Fehlspezifika tion des Modells vorliegt, wenn die Gütemaße ein bestimmtes irreführendes Muster ergeben. Das dient als Orientierungshilfe für sämtliche Personen, die bei der Analyse eines Strukturgleichungsmodells auf ein irreführendes Muster der Modellbewertung stoßen. Für die Unterstützung bei der Umsetzung meiner Dissertation danke ich meinem Betreuer Uwe Engel. Meinem zweiten Gutachter Jost Reinecke gilt mein Dank vor allem für die hilfreiche Begutachtung meiner Dissertationsschrift. Auf Verlagsseite danke ich Stefan Giesen für die viele Hilfe und die gute Zusammenarbeit. Bei der technischen Umsetzung der Simulation mittels der Software R war mir Sunthud Pornprasertmanit ein hilfreicher und kompetenter Ansprechpartner. Für die liebevolle Unterstützung danke ich meiner Familie sehr, allen voran meiner Mutter Jutta und ebenso herzlich meiner Oma Ingeborg sowie meinen Onkeln Kalle und Micha. Letztlich gilt mein größ ter Dank meinem Freund Stefanos, der mir für die gesamte Zeit des Projekts persönlich sowie bei der inhaltlichen und sprachlichen Gestaltung des Buches die größte Hilfe war. Bremen, November 2018
https://doi.org/10.1515/9783110624199-201
Miriam Reußner
Inhalt Vorwort | V Abbildungsverzeichnis | IX Tabellenverzeichnis | XI Formelverzeichnis | XIII Abkürzungsverzeichnis | XV 1
Einleitung | 1
2 2.1 2.2
Der Anwendungsbereich von Faktorenanalysen | 5 Explorative Faktorenanalyse | 6 Konfirmatorische Faktorenanalyse und Strukturgleichungsmodelle | 12
3 3.1 3.1.1 3.1.2 3.1.3 3.2 3.2.1 3.2.2 3.2.3 3.2.4
Die Güte von Strukturgleichungsmodellen | 19 Statistische Tests | 19 Möglichkeiten des Modellvergleichs unter Berücksichtigung der Modellkomplexität | 20 Testlogik und Implikationen des χ 2 -Tests | 24 Alternative Testlogik nach James Steiger | 26 Fit-Indizes | 27 RMSEA: Root Mean Square Error of Approximation | 29 TLI: Tucker-Lewis Index | 30 CFI: Comparative Fit Index | 31 SRMR: Standardized Root Mean Square Residual | 32
4 4.1 4.2
Fit-Indizes als Indikatoren der Güte | 35 Implikationen der Fit-Indizes | 35 Schwellenwerte | 39
5 5.1 5.2
Methode | 43 Monte-Carlo-Simulationen | 43 Studiendesign | 45
VIII | Inhalt
6 6.1 6.1.1 6.1.2 6.1.3 6.1.4 6.1.5 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.3 6.3.1 6.3.2 6.3.3 6.3.4 6.3.5 6.4
Sensitivitäten der Fit-Indizes | 51 Sparsame Modelle | 53 Korrekt spezifiziertes Modell | 53 Fehlspezifiziertes Messmodell | 56 Fehlspezifiziertes Strukturmodell | 60 Fehlspezifikationen von Messmodell und Strukturmodell | 63 Zentrale Ergebnisse sparsamer Modelle | 65 Komplexe Modelle | 70 Korrekt spezifiziertes Modell | 70 Fehlspezifiziertes Messmodell | 71 Fehlspezifiziertes Strukturmodell | 74 Fehlspezifikationen von Messmodell und Strukturmodell | 77 Zentrale Ergebnisse komplexer Modelle | 80 Sehr komplexe Modelle | 84 Korrekt spezifiziertes Modell | 84 Fehlspezifiziertes Messmodell | 85 Fehlspezifiziertes Strukturmodell | 89 Fehlspezifikationen von Messmodell und Strukturmodell | 93 Zentrale Ergebnisse sehr komplexer Modelle | 94 Zusammenfassung zentraler Ergebnisse aller Modellvarianten | 98
7 7.1 7.2 7.3 7.4
Ursachen fehlender Eindeutigkeit der Fit-Indizes | 103 Muster 1: TLI zu niedrig | 103 Muster 2: RMSEA zu hoch | 103 Muster 3: TLI zu niedrig und RMSEA zu hoch | 105 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch | 107
8
Diskussion und Ausblick | 111
A
Ergänzungen zu Kapitel 5 | 117
B B.1
Ergänzungen zu Kapitel 6 | 119 Konvergenz | 119
Literatur | 123 Stichwortverzeichnis | 127
Abbildungsverzeichnis Abb. 6.1.1 Abb. 6.1.2 Abb. 6.1.3 Abb. 6.1.4 Abb. 6.2.1 Abb. 6.2.2 Abb. 6.3.1 Abb. 6.3.2 Abb. 6.3.3 Abb. 6.3.4
Verteilungsplot des TLI für schiefe Indikatoren. | 56 Verteilung des RMSEA für normalverteilte Indikatoren | 57 Verteilungsplot des TLI, 91 % korrekte Modellbewertungen | 62 Verteilungsplot des CFI, 72 % korrekte Modellbewertungen | 63 Verteilungsplot des TLI, 99 % korrekte Modellbewertungen | 76 Verteilungsplot des CFI, 86 % korrekte Modellbewertungen | 77 Verteilungsplot des RMSEA für moderat schief verteilte Indikatoren | 88 Verteilungsplot des TLI für moderat schief verteilte Indikatoren | 89 Verteilungsplot des TLI für normalverteilte Indikatoren | 91 Verteilungsplot des TLI für schief verteilte Indikatoren | 92
https://doi.org/10.1515/9783110624199-202
Tabellenverzeichnis Tab. 2.1.1 Tab. 2.1.2 Tab. 2.1.3 Tab. 2.1.4
Variablenlabel: Beispiel „Sympathie“ | 8 Korrelationsmatrix der Items des Beispiels „Sympathie“ | 9 Rotierte Faktorladungsmatrix der Items des Beispiels „Sympathie“ | 10 Kommunalitäten und Uniqueness-Werte der Items des Beispiels „Sympathie“ | 11
Tab. 3.1.1 Tab. 3.1.2
Varianz-Kovarianzmatrix, Variablenbeispiel mit 10 df (mathematisch) | 21 Varianz-Kovarianzmatrix, Variablenbeispiel mit 6 df (statistisch) | 22
Tab. 4.1.1
Forschungserwartungen zu den Sensitivitäten der Fit-Indizes | 37
Tab. 5.2.1 Tab. 5.2.2
Modellvarianten | 48 Studiendesign | 49
Tab. 6.1.1 Tab. 6.1.2 Tab. 6.1.3 Tab. 6.1.4 Tab. 6.1.5
Tab. 6.4.1
Sparsames korrekt spezifiziertes Modell | 54 Sparsames fehlspezifiziertes Messmodell | 58 Sparsames fehlspezifiziertes Strukturmodell | 60 Sparsames Modell mit Fehlspezifikation von Messmodell und Strukturmodell | 64 Sensitivitäten der Fit-Indizes bei sparsamen Modellen unter Berücksichtigung der Forschungserwartungen | 66 Komplexes korrekt spezifiziertes Modell | 71 Komplexes fehlspezifiziertes Messmodell | 72 Komplexes fehlspezifiziertes Strukturmodell | 75 Komplexes Modell mit Fehlspezifikation von Messmodell und Strukturmodell | 78 Sensitivitäten der Fit-Indizes bei komplexen Modellen unter Berücksichtigung der Forschungserwartungen | 81 Sehr komplexes korrekt spezifiziertes Modell | 85 Sehr komplexes fehlspezifiziertes Messmodell | 86 Sehr komplexes fehlspezifiziertes Strukturmodell | 90 Sehr komplexes Modell mit Fehlspezifikation von Messmodell und Strukturmodell | 93 Sensitivitäten der Fit-Indizes bei sehr komplexen Modellen unter Berücksichtigung der Forschungserwartungen | 95 Sensitivitäten der Fit-Indizes | 99
Tab. 7.1.1 Tab. 7.2.1 Tab. 7.3.1 Tab. 7.3.2 Tab. 7.4.1
Muster 1 | 104 Muster 2 | 104 Muster 3.1 | 106 Muster 3.2 | 107 Muster 4 | 108
Tab. A.0.1 Tab. A.0.2
Deskriptive Statistiken der Variable „happy“ | 117 Faktorladungsstruktur | 117
Tab. 6.2.1 Tab. 6.2.2 Tab. 6.2.3 Tab. 6.2.4 Tab. 6.2.5 Tab. 6.3.1 Tab. 6.3.2 Tab. 6.3.3 Tab. 6.3.4 Tab. 6.3.5
https://doi.org/10.1515/9783110624199-203
XII | Tabellenverzeichnis
Tab. B.1.1 Tab. B.1.2 Tab. B.1.3 Tab. B.1.4
Kovergenz korrekt spezifizierter Modelle | 119 Kovergenz fehlspezifizierter Messmodelle | 120 Kovergenz fehlspezifizierter Strukturmodelle | 120 Kovergenz fehlspezifizierter Gesamtmodelle | 121
Formelverzeichnis 2.1.1 2.2.1 3.1.1 3.1.2 3.1.3 3.1.4 3.2.1 3.2.2 3.2.3 3.2.4
Korrelation nach Pearson | 7 Kovarianz | 14 Berechnung der Freiheitsgrade bei Strukturgleichungsmodellen | 21 Berechnung der Freiheitsgrade: Stata/Mplus | 22 Maximum-Likelihood-Funktion | 24 χ 2 -Teststatistik | 25 Root Mean Square Error of Approximation (RMSEA) | 29 Tucker-Lewis Index (TLI) | 30 Comparative Fit Index (CFI) | 31 Standardized Root Mean Square Residual (SRMR) | 32
https://doi.org/10.1515/9783110624199-204
Abkürzungsverzeichnis AGFI CFI ESS GFI LL ML NNFI RMSEA RNI SRMR TLI
Adjusted Goodness-of-Fit Index Comparative Fit Index European Social Survey Goodness-of-Fit Index Loglikelihood Maximum-Likelihood Non-Normed Fit Index Root Mean Square Error of Approximation Relative Noncentrality Index Standardized Root Mean Square Residual Tucker-Lewis Index
https://doi.org/10.1515/9783110624199-205
1 Einleitung Strukturgleichungsmodelle¹ dienen dazu, komplexe Phänomene, die nicht mittels ei ner einzigen Variable gemessen werden, zu messen und zusammenhangsanalytisch zu prüfen. Variablen, die nicht direkt gemessen werden, lassen sich als latent bezeich nen und sind mittels mehrerer direkt gemessener, manifester Variablen messbar. Mit einem Strukturgleichungsmodell lässt sich die Messung der latenten Variablen des Modells simultan mit den spezifizierten Zusammenhängen zwischen diesen Variablen statistisch analysieren. Ein Strukturgleichungsmodell, das aus mehreren latenten Va riablen besteht, enthält umso mehr manifeste Variablen und stellt somit stets ein kom plexes Konstrukt verschiedener Zusammenhänge dar, das im Rahmen der Modellie rung geprüft wird. Die Bewertung der Modellgüte ist ein wesentlicher Aspekt bei der Analyse von Strukturgleichungsmodellen. Nur wenn das statistische Modell insgesamt als gut ge nug angepasst gewertet werden kann, lassen sich die inhaltlichen Spezifikationen des Modells annehmen. Im Fokus dieses Buches stehen die (Goodness-of-) Fit-Indizes, die auch als Gütemaße oder Fit-Maße bezeichnet werden. Diese geben jeweils Auskunft darüber, wie gering oder stark das zu überprüfende theoretische Strukturgleichungs modell von den Daten abweicht. Eine geringe Abweichung legt dabei nahe, dass das Modell gut genug an die Daten angepasst ist und entsprechend Bestand hat; das im pliziert, dass alle spezifizierten Zusammenhänge zwischen den manifesten und laten ten Variablen des Modells zusammengefasst ein statistisch und inhaltlich passendes Modell darstellen. Im Kontext der linearen Strukturgleichungsmodellierung² erweisen sich vier Fit-Indizes als besonders einschlägig: der Root Mean Square Error of Approximati on (RMSEA) (vgl. Steiger & Lind 1980), der Tucker-Lewis Index (TLI) (vgl. Tucker & Lewis 1973), der Comparative Fit Index (CFI) (vgl. Bentler 1990) und der Standardized Root Mean Square Residual (SRMR) (vgl. Bentler 1995). Diese stehen im Zentrum der vorliegenden Analyse, da es sich hierbei um Gütemaße handelt, die zum einen für die Analyse von Strukturgleichungsmodellen gesondert entwickelt wurden und sich zum anderen aufgrund ihrer festen Implementation in stark verbreiteter Statistik-Software wie Stata und Mplus als Indizes für die Bewertung der Güte von Strukturgleichungs modellen etabliert haben (vgl. dazu auch Kapitel 3.2). Für diese vier Fit-Indizes werden jeweils bestimmte Schwellenwerte genutzt, die Auskunft darüber geben sollen, ob das Modell gut genug angepasst ist. Die Schwel
1 Wenn im Folgenden von Strukturgleichungsmodellen gesprochen wird, sind konfirmatorische Fak torenanalysen darin inbegriffen. Eine ausführliche Beschreibung dieser Modellvarianten findet sich in Kapitel 2. 2 Die Ausführungen dieses Buches beziehen sich auf lineare Strukturgleichungsmodelle. Für Struk turgleichungsmodelle mit kategorialen Daten siehe Muthén (1984) sowie Reinecke (2014, S. 220–225). https://doi.org/10.1515/9783110624199-001
2 | 1 Einleitung
lenwerte ergeben sich aus verschiedenen Simulationsstudien (vgl. dazu Hu & Bentler 1999; Sharma et al. 2005; Yu 2002) sowie der daran anschließenden Forschungslitera tur und werden in der aktuellen Forschung als feste Grenzen für die Güte von Modellen aufgefasst (vgl. Kapitel 4.2). Die verschiedenen Fit-Indizes sollen in gleichem Maße Auskunft über die Güte eines Modells geben. Allerdings zeigt sich oft das Problem, dass die verschiedenen Gütemaße, gemessen an bestimmten Schwellenwerten, unterschiedliche Schlüsse be züglich der Güte des Modells nahelegen. In der Praxis kann es sich beispielsweise er geben, dass der CFI und der SRMR auf eine gute Modellanpassung schließen lassen und für dasselbe Modell der RMSEA und der TLI keine akzeptable Modellanpassung nahelegen. Mögliche Gründe für dieses Problem werden im Folgenden erläutert und analysiert, um forschenden Personen Gründe für widersprüchliche Ergebnisse dieser Art aufzuzeigen und den Umgang damit zu erleichtern. Die Sensitivitäten der vier relevanten Fit-Indizes werden mit einer Monte-CarloSimulation untersucht. Innerhalb dieser wird für jede Teilsimulation eine feste Popu lation spezifiziert, aus der eine bestimmte Anzahl an Stichproben gezogen wird. So kann analysiert werden, welchen Wert ein bestimmter Fit-Index im Mittel annimmt, wenn die Stichprobe und die Daten eine bestimmte, festgelegte Struktur aufweisen. Neben dem mittleren Wert des jeweiligen Gütemaßes lässt sich mit einer solchen Si mulation auch die Streuung der Werte nachvollziehen. Die vorliegende Simulations studie dient dazu, die Güte und Verlässlichkeit der Fit-Indizes für verschiedene Mo dellkonfigurationen zu untersuchen. Insbesondere werden Modelle spezifiziert, die sich in den ihnen zugrunde liegenden Fallzahlen, den Verteilungen der manifesten Variablen und der Komplexität bezüglich der Modellstruktur voneinander unterschei den. Diese Stichprobenmerkmale wurden zwar bereits in Zusammenhang mit den Fit-Indizes untersucht; dies geschah jedoch mit dem Ziel, herauszufinden, welche generellen Schwellenwerte für sämtliche Stichprobenmerkmale Anwendung finden könnten (vgl. Hu & Bentler 1999, S. 1; Reinecke 2014, S. 127). Das Problem dennoch auftretender widersprüchlicher Ergebnisse zeigt jedoch, dass derart robuste Schwel lenwerte nicht bestehen. Auch wenn sich bereits in der Literatur Hinweise darauf finden, dass bestimmte Stichprobenmerkmale Auswirkungen auf die Höhe der FitIndizes haben können (vgl. Hu & Bentler 1999, S. 27), wurde bislang dennoch stets das Ziel verfolgt, pro Fit-Index einen festen Schwellenwert zu etablieren (vgl. Byrne 2012, S. 70–76; Christ & Schlüter 2012, S. 39; Kaplan 2009, S. 110–113). Unter Berücksichtigung dieses Problems verfolgt die vorliegende Forschungsar beit einen anderen Ansatz: Zunächst wird herausgestellt, welche Schwellenwerte sich in diesem Kontext als besonders beliebt innerhalb der Sozialwissenschaften zeigen (vgl. dazu Kapitel 4.2). Diese Werte werden genutzt, um anhand dieser im Rahmen der Simulationsstudie zu überprüfen, unter welchen Stichprobenmerkmalen das jeweili ge Fit-Maß die Modellgüte korrekt als gut oder nicht gut genug angepasst bewertet. Sowohl korrekt spezifizierte als auch fehlspezifizierte Modelle werden untersucht. Für
1 Einleitung
| 3
ein spezifisches Modellergebnis, bei dem nicht jeder der vier Fit-Indizes auf den glei chen Schluss bezüglich der Modellgüte hinweist, wird schließlich unter Berücksichti gung der tatsächlichen Güte des Modells ausgewertet, warum jene Fit-Indizes, die das entsprechende Modell falsch bewerten, mittels der festgelegten Schwellenwerte für die entsprechenden Stichprobenmerkmale nicht zu einer korrekten Modellbewertung führen. So soll es forschenden Personen erleichtert werden, einschätzen zu können, welche Fit-Maße die tatsächliche Güte eines bestimmten Modells einschätzen können und welche Gütemaße aufgrund entsprechender Stichproben- und Datenmerkmale nicht mit den etablierten Schwellenwerten genutzt werden sollten. Dieses Buch unterteilt sich in acht Kapitel. Zunächst werden in Anschluss an die Einleitung in Kapitel 2 zur thematischen Einführung die Nützlichkeit von Faktoren analysen und der Anwendungsbereich von Strukturgleichungsmodellen erläutert. In nerhalb der faktorenanalytischen Verfahren findet sich eine Vielzahl von Parametern, die neben den Fit-Indizes Aufschluss über die Güte eines Modells geben und ebenso stark wie die Fit-Indizes bei der Bewertung der Modellgüte berücksichtigt werden soll ten. Für einen leichten Zugang zur Faktorenanalyse bietet sich die explorative Fakto renanalyse an, die in Kapitel 2.1 eingeführt wird. Anschließend werden Unterschiede zwischen diesem Verfahren und der konfirmatorischen Faktorenanalyse aufgegriffen (Kapitel 2.2). Die Anwendungsmöglichkeiten von Strukturgleichungsmodellen wer den erläutert und dabei wird herausgestellt, wie wichtig und umfangreich die Bewer tung der Modellgüte bei diesem Verfahren ist. Kapitel 3 ist in zwei Teile untergliedert. In Kapitel 3.1 werden die den Fit-Indizes zugrunde liegenden statistischen Testmöglichkeiten behandelt. Während die Fit-Indi zes Auskunft darüber geben sollen, wie gut ein Modell passt, gibt der χ2 -Test an, ob das Modell perfekt passt. Dieser statistische Test wird in Kapitel 3.1.1 und Kapitel 3.1.2 behandelt. James Steiger (2007) zeigt eine daran angelehnte alternative Testlogik auf, die in Überleitung zu den Fit-Maßen genauer betrachtet wird (Kapitel 3.1.3). Der zwei te Teil des Kapitels behandelt die Fit-Indizes RMSEA, TLI, CFI und SRMR (Kapitel 3.2). Dabei werden zunächst vor allem die Implikationen der Formeln dieser Gütemaße er läutert. Im vierten Kapitel werden die vier untersuchten Fit-Indizes in den Fokus gestellt. Dabei werden zunächst die durch die Forschungsliteratur nahegelegten Sensitivitäten der Fit-Indizes dargestellt (Kapitel 4.1). Das Kapitel schließt mit der Beschreibung der aus der Forschungsliteratur hervorgehenden Schwellenwerte (Kapitel 4.2). Aus diesen werden strenge Schwellenwerte abgeleitet, die für die Analyse der Güte der Gütema ße genutzt werden. Das fünfte Kapitel stellt die Methodik dar. Als Methode wird eine Monte-Carlo-Simulation angewandt. Dieses Verfahren wird in Kapitel 5.1 beschrieben, um daran eine ausführliche Erläuterung des Forschungsdesigns anzuschließen (Ka pitel 5.2). Die Ergebnisse sind in zwei Hauptkapitel unterteilt. Im ersten Ergebniskapitel (Ka pitel 6) werden die Ergebnisse nach den drei unterschiedlichen Komplexitätsgraden der Modelle und nach den vier Modellvarianten unterteilt, um zunächst für jede Mo
4 | 1 Einleitung
dellvariante, bei gegebenem Komplexitätsgrad, die Auswirkung der Fallzahl und der Verteilungsform der manifesten Variablen auf die Fit-Indizes zu untersuchen. Die ers ten drei Unterkapitel entsprechen dabei den drei Komplexitätsgraden und schließen jeweils mit den zentralen Ergebnissen zu allen Modellen des jeweiligen Komplexitäts grads. Im vierten Unterkapitel werden schließlich die zentralen Ergebnisse aller Mo delle, unter Berücksichtigung des Vergleichs zwischen den Komplexitätsgraden, dar gestellt und erläutert. Das zweite Ergebniskapitel (Kapitel 7) untersucht die Ergebnisse hinsichtlich irreführender Modellbewertungen durch die vier Fit-Indizes: Dabei werden die ir reführenden Muster aufgegriffen, die sich aus den Simulationsergebnissen ergeben und forschende Personen vor die übergeordnete Fragestellung dieser Arbeit stellen können – die Frage danach, warum Fit-Indizes, die alle gleichermaßen die Güte ei nes bestimmten Modells angeben sollen, für das Modell gegebenenfalls verschiedene Schlüsse bezüglich der Modellgüte nahelegen. Um diese Frage umfassend zu beant worten, werden die Kombinationen der mittleren Fit-Index-Werte betrachtet, durch die sich die Modellgüte nicht eindeutig erschließen lässt. Es wird untersucht, wie oft eine bestimmte Kombination auftritt und unter welchen Stichprobenmerkmalen sich die jeweiligen Kombinationen ergeben. Dies wird systematisch analysiert, um forschenden Personen damit aufzuzeigen, wodurch eine bestimmte fehlende Eindeu tigkeit der Fit-Indizes erklärt werden kann und ob dies darauf hindeutet, dass das Modell korrekt oder fehlspezifiziert ist. Die abschließende Diskussion (Kapitel 8) dient dazu, die wichtigsten Ergebnisse der vorliegenden Simulationsstudie aufzugreifen. Die daraus resultierenden Erkennt nisse werden in diesem Kapitel diskutiert und in den aktuellen Forschungsstand integriert. Einzelne bisherige Empfehlungen werden dabei aufgegriffen und mit den Ergebnissen dieser Simulationsstudie verglichen, bevor schließlich auf daran an knüpfenden Forschungsbedarf hingewiesen wird.
2 Der Anwendungsbereich von Faktorenanalysen Die Faktorenanalyse ist ein statistisches Verfahren zur Messung latenter Konstruk te. Beispiele für Variablen, die latent fassbar sind, sind diverse Einstellungen und Wahrnehmungen wie Fremdenfeindlichkeit, politisches Interesse oder personelle Zuneigung. Selbstredend ließen sich im Rahmen einer Personenumfrage explizite Fragen wie „Wie fremdenfeindlich sind Sie auf einer Skala von 0 bis 10?“, „Wie stark ist Ihr politisches Interesse?“ sowie „Wie stark ist Ihre Zuneigung für diese Person?“ stellen; dabei ergeben sich jedoch Schwierigkeiten. Zum einen zeigt sich, vor allem bei den zwei erstgenannten Variablen, das Phänomen der sozialen Erwünschtheit (vgl. Diekmann 2008, S. 447–449): Selbst wenn die Umfrage anonym ist, muss davon ausgegangen werden, dass Personen aufgrund der negativen Konnotation von Frem denfeindlichkeit tendenziell eher niedrige Werte auf der Fremdenfeindlichkeitsskala angeben. Ähnlich, allerdings anders gerichtet, verhält es sich mit dem politischen Interesse. Dies ist in vielen sozialen Kontexten positiv konnotiert, was Befragte dazu verleiten kann, sich tendenziell (zu) hoch einzustufen. Die Beantwortung der dritten Frage („Wie stark ist Ihre Zuneigung für diese Person?“) könnte sich ohne genauere Eingrenzung des Begriffs „Zuneigung“ schwierig gestalten (vgl. Faulbaum et al. 2009, S. 38–39). Bei diesen drei Beispielen wird sichtbar, dass die Befragung zu einem Sachver halt mittels einer einzigen Variable Schwierigkeiten mit sich bringen kann. Mögliche Probleme, die sich daraus ergeben können sind weitreichend (vgl. Diekmann 2008, S. 446–471). Das folgende fiktive Beispiel zur Messung des politischen Interesses zeigt eines der möglichen Probleme auf: Selbst wenn die forschende Person davon ausge hen könnte, dass jede befragte Person nach bestem Wissen die ehrliche Antwort zu jeder Frage erbringt, würde die Frage „Wie stark ist Ihr politisches Interesse?“ ledig lich eine Selbsteinschätzung abfragen, die zwischen verschiedenen Befragten auf un terschiedlichen Begründungsfaktoren basieren kann. So könnte eine Person, die auf der Skala von 0 bis 10 den recht hohen Wert 8 angibt, damit aussagen wollen, dass sie politische Zusammenhänge grundsätzlich sehr interessant findet. Vorstellbar ist, dass sich diese fiktive Person weder über aktuelle politische Geschehnisse informiert noch an Wahlen teilnimmt oder mit anderen Menschen über Politik diskutiert. Ent sprechende Verhaltensweisen müssen nicht zwangsläufig in die Definition von poli tischem Interesse einer befragten Person einfließen, möglicherweise sind sie jedoch Bestandteil der Definition der forschenden Person. In diesem Fall hätte die forschende Person diese Person mit einem geringen Skalenwert und entsprechend geringem po litischen Interesse eingestuft, ganz gegensätzlich zur Selbsteinstufung der befragten Person. Die Erhebung einer Einstellung oder Wahrnehmung mittels einer einzigen Varia ble kann folglich aufgrund der Komplexität bestimmter Einstellungen und Wahrneh
https://doi.org/10.1515/9783110624199-002
6 | 2 Der Anwendungsbereich von Faktorenanalysen
mungen zu Messfehlern führen. Alle Variablen, die direkt erhoben werden, werden als manifest bezeichnet und beinhalten Messfehler; latente Variablen, die auch als Fakto ren bezeichnet werden, sind hingegen von Messfehlern bereinigt (vgl. Reinecke 2014, S. 44–47). Das Verfahren der Faktorenanalyse dient dazu, latente Variablen mittels mehrerer manifester Variablen zu analysieren. Latente Variablen werden nicht direkt gemessen. Sie werden hinter den manifesten Variablen angenommen und über die se operationalisiert. Variablen wie Fremdenfeindlichkeit, politisches Interesse oder Sympathie stellen komplexe Konstrukte dar, deren Definitionen verschiedene Kom ponenten zugrunde liegen. Diese verschiedenen, konkret definierbaren Komponenten lassen sich in Form manifester Variablen erfragen. Die dahinter liegenden Konstrukte lassen sich über diese messen (vgl. zu diesem Abschnitt Brown 2015, S. 1–2). Bezogen auf das Beispiel zum politischen Interesse ist dieses Verfahren wie folgt anwendbar: Sollte die forschende Person jene Befragte, die sich über aktuelle politi sche Geschehnisse informieren, an Wahlen teilnehmen und mit anderen Menschen über Politik diskutieren, als politisch interessiert einstufen, so könnten diese drei Va riablen als manifeste Indikatoren zur Messung des latenten Faktors „Politisches In teresse“ genutzt werden. Die Variablen müssten dabei in Form von Fragebogenitems vorliegen. Um den latenten Faktor selbst messbar zu machen, werden die Zusammen hänge zwischen den manifesten Variablen untersucht. Sie bilden die Basis für die Ope rationalisierung des Faktors (vgl. zu diesem Abschnitt Byrne 2012, S. 4–5). Zu unterscheiden sind zwei grundsätzlich verschiedene Herangehensweisen und folglich zwei verschiedene faktorenanalytische Verfahren: die explorative Faktoren analyse einerseits und die konfirmatorische Faktorenanalyse andererseits (vgl. hier zu Kühnel & Krebs 2007, S. 593). Für die im Rahmen der beiden Verfahren geschätzten Parameter finden sich die gleichen Bezeichnungen und während sich die Berechnung der Parameter kaum unterscheidet, findet sich der stärkste Unterschied beim Model lierungsansatz: Bei der konfirmatorischen Analyse wird zwingend ein theoretisches Modell erfordert, das a priori festgelegt sein muss und mit der Analyse überprüft wird; dagegen wird das Modell und damit die Zuordnung manifester Variablen zu Faktoren bei der explorativen Analyse durch die Analyse selbst ermittelt (vgl. Reinecke 2014, S. 137).
2.1 Explorative Faktorenanalyse Die explorative Faktorenanalyse ist ein hypothesengenerierendes Verfahren; die Da tenanalyse wird hierbei durchgeführt, bevor ein theoretisches Modell besteht. Mit Hil fe der Ergebnisse einer solchen Analyse lassen sich Hypothesen und ein theoretisches Modell erschließen. Bei der explorativen Faktorenanalyse dienen die Korrelationen zwischen den ma nifesten Variablen als Basis der Analyse (vgl. Agresti & Finlay 2009, S. 532–535). Die Korrelation r xy ist ein standardisiertes Zusammenhangsmaß für zwei metrisch skalier
2.1 Explorative Faktorenanalyse |
7
te³ Variablen x und y und kann über die folgende Formel beschrieben werden (Bortz & Schuster, 2010, 156): s xy r xy = (2.1.1) sx ⋅ sy Der Zähler s xy stellt die Kovarianz dar (vgl. Formel 2.2.1) und im Nenner finden sich die Standardabweichungen der Variablen x und y. Die Korrelation ist auf einen Wer tebereich zwischen −1 und 1 standardisiert, wobei Werte nahe an 0 auf eine fehlende Korrelation hinweisen, während der Wert (−)1 auf einen perfekten positiven (negati ven) Zusammenhang hindeutet (vgl. dazu Sedlmeier & Renkewitz 2008, S. 211–213). Bei einer positiven (negativen) Korrelation zwischen zwei Variablen führt der Anstieg in der Ausprägung der einen Variable tendenziell zu einem Anstieg (zu einer Senkung) der Ausprägung der anderen Variable. Zu beachten ist, dass die in Lehrbüchern häufig genannten Korrelationsgrenzen für eine „hohe“ oder „sehr hohe Korrelation“ bei tatsächlichen Datenbeispielen der Sozialwissenschaften kaum vorfindbar sind. Bei der Betrachtung langjährig entwi ckelter und fortwährend optimierter Einstellungsskalen finden sich Höchstwerte, die eine Korrelation von 0.6 äußerst selten überschreiten.⁴ Der mögliche Schluss, dass Variablen, die eine Korrelation von 0.5 aufweisen nur „schwach“ bis „mittelstark“ zu sammenhängen (vgl. Diaz-Bone 2013, S. 94–95), ist insofern irreführend, als dabei zum einen die Messungenauigkeit, die selbst bei professionellen Befragungen nicht gänzlich ausgeschlossen werden kann, keine Berücksichtigung findet und sich zum anderen die theoretisch erreichbaren Grenzwerte von −1 und 1 auf Variablen, die per fekt normalverteilt streuen, beziehen (vgl. Agresti & Finlay 2009, S. 533–534; Sedl meier & Renkewitz 2008, S. 222–226).⁵ Die Korrelation gibt stets die gemeinsame Streuung zweier Variablen an. Ledig lich dieser Teil der Streuung, also jener, welcher den manifesten Variablen gemein sam ist, fließt in die Berechnung eines latenten Faktors ein. Daraus ergibt sich ein großer Vorteil der Faktorenanalyse: Messfehler, die vereinzelt für verschiedene Perso
3 Metrisches Skalenniveau liegt vor, wenn zusätzlich dazu, dass verschiedene Ausprägungen der Va riable bestehen (Nominalskala) und eine Rangordnung zwischen den Ausprägungen besteht (Ordinal skala), die Differenzen zwischen den Ausprägungen sinnig interpretierbar sind (Intervallskala, me trisch) und gegebenenfalls, jedoch nicht zwingend, auch Verhältnisse zwischen den Ausprägungen (Ratioskala, metrisch) festgestellt werden können (vgl. zu diesem Abschnitt Diaz-Bone 2013, S. 18–21). 4 Vgl. dazu unter anderem die Skalen zur Messung von Fremdenfeindlichkeit der Allgemeinen Bevöl kerungsumfrage der Sozialwissenschaften (vgl. GESIS 2016) sowie die Daten vom Institut für interdis ziplinäre Konflikt- und Gewaltforschung zur „Gruppenbezogenen Menschenfeindlichkeit“ (vgl. Heit meyer et al. 2013). 5 Als normalverteilt gilt eine Variable, wenn das arithmetische Mittel dieser Variable sowohl dem Me dian als auch dem Modus entspricht und die Streuung der Gaußschen Glockenkurve folgt (vgl. Kühnel & Krebs 2007, S. 189). Reale Daten werden dieser Anforderung nur selten gerecht (vgl. Agresti & Finlay 2009, S. 370); so sind beispielsweise Variablen, die strittige Einstellungen wie Fremdenfeindlichkeit umfassen, häufig schief verteilt.
8
|
2 Der Anwendungsbereich von Faktorenanalysen
Tab. 2.1.1: Variablenlabel: Beispiel „Sympathie“. Variablenname
Label
nett angenehm zugänglich liebenswert gutaussehend hübsch gepflegt positiv
Die Person ist nett Die Person ist angenehm Die Person ist zugänglich Die Person ist liebenswert Die Person ist gutaussehend Die Person ist hübsch Die Person hat ein gepflegtes Äußeres Die Person hat eine positive Ausstrahlung
Die Variablen sind auf elfstufigen Zustimmungsskalen bewertet worden. Dabei steht der Wert 1 für „überhaupt nicht“ und der Wert 11 für „voll und ganz“.
nen und verschiedene Variablen bestehen, sind nicht Teil der gemeinsamen Streuung verschiedener Variablen. Faktoren sind somit um entsprechende Messfehler bereinigt (vgl. zu diesem Abschnitt Reinecke 2014, S. 44–47). Die explorative Faktorenanalyse stellt ein strukturentdeckendes und damit ein hy pothesengenerierendes Verfahren dar. Dabei kann die forschende Person zunächst ein Set an Variablen auswählen, das dazu geeignet sein könnte, eines oder mehrere latente Konstrukte zu messen. Die Faktorenanalyse untersucht dieses Set hinsicht lich der Korrelationsstruktur. Eine fehlende oder sehr geringe Korrelation zwischen zwei Variablen weist dabei auf einen fehlenden Zusammenhang zwischen diesen hin. Variablen, die nicht untereinander korrelieren, können kein gemeinsames Konstrukt messen. Variablen, die hoch miteinander korrelieren, messen etwas Gemeinsames, das im Rahmen der Faktorenanalyse als latente Variable erfasst wird (vgl. zu diesem Abschnitt Agresti & Finlay 2009, S. 533–535). An einem fiktiven Beispiel lässt sich das Vorgehen im Rahmen der explorativen Faktorenanalyse nachvollziehen: Angenommen, mittels der im Folgenden benannten Variablen würde versucht, latente Strukturen zu entdecken. Die der Übersicht in Ta belle 2.1.1 zu entnehmenden Variablen beziehen sich in diesem fiktiven Beispiel auf elfstufige, endpunktbenannte Zustimmungsskalen, die von 1 „überhaupt nicht“ bis 11 „voll und ganz“ verlaufen⁶ und sich auf eine konkrete Person beziehen, die der be fragten Person jeweils nahesteht. Eine Zustimmung zu diesen Variablen würde in unserem Beispiel als Ausdruck der Zuneigung für eine Person gewertet. Bei einem Blick auf die Korrelationsmatrix
6 Es kann davon ausgegangen werden, dass die Abstände zwischen den elf Ausprägungen wie bei einer Intervallskala gleich groß sind respektive als gleich groß wahrgenommen werden. Diese streng genommen ordinale Skala gilt in einem solchen Fall als quasi-metrisch und metrische Rechenopera tionen sind damit erlaubt (vgl. Brosius et al. 2012, S. 38; Kühnel & Krebs 2007, S. 34–35).
2.1 Explorative Faktorenanalyse | 9
Tab. 2.1.2: Korrelationsmatrix der Items des Beispiels „Sympathie“. nett nett 1.0 angenehm 0.5 zugänglich 0.4 liebenswert 0.4 gutaussehend −0.1 hübsch 0.1 gepflegt 0.0 positiv 0.0
angenehm zugänglich liebenswert gutaussehend hübsch gepflegt positiv 1.0 0.4 0.4 −0.1 0.2 0.0 0.0
1.0 0.5 −0.1 0.0 0.1 −0.1
1.0 −0.1 0.0 0.0 −0.1
1.0 0.3 0.4 0.5
1.0 0.4 0.3
1.0 0.5
1.0
(Tabelle 2.1.2) zeigt sich, dass zwei Mal jeweils vier Variablen mit Werten deutlich über 0.3 positiv untereinander korrelieren. Die Variable, welche das Beschreibungsmerkmal „nett“ misst, korreliert positiv mit den Beschreibungsmerkmalen „angenehm“ (r = 0.5), „zugänglich“ (r = 0.4) und „liebenswert“ (r = 0.4), welche ebenso untereinander positive Korrelationen (r = 0.4 bis 0.5) aufweisen. Das bedeutet, dass je stärker eine betrachtete Person als nett ein gestuft wird, desto eher diese Person auch als angenehm, zugänglich und liebens wert beschrieben wird. Ebenso verhält es sich mit den übrigen vier Variablen „gutaus sehend“, „hübsch“, „gepflegt“ und „positiv“. Diese weisen untereinander ebenfalls recht hohe positive Korrelationen (r = 0.3 bis 0.5) auf. Die relativ hohen Korrelationen innerhalb der beiden Variablensets lassen bereits vermuten, dass diese jeweils eine gemeinsame Dimension abbilden. Bevor Schlüsse auf die latente Struktur innerhalb der Daten gezogen werden, wird das Ergebnis der dazugehörigen explorativen Faktorenanalyse betrachtet.⁷ Bei der ex plorativen Faktorenanalyse gibt die rotierte Faktorladungsmatrix⁸ (vgl. Tabelle 2.1.3) Aufschluss über die Struktur der Daten. Faktorladungen stellen den Zusammenhang zwischen der jeweiligen manifesten Variable und dem latenten Faktor dar und kön nen sich wie Korrelationen im Bereich zwischen −1 und 1 bewegen (vgl. Brown 2015, S. 36). Werte nahe 0 bedeuten, dass kein Zusammenhang zwischen der betrachteten manifesten Variable und dem entsprechenden latenten Faktor besteht. Werte nahe an 1 sowie Werte nahe an −1 drücken aus, dass die manifeste Variable den latenten Faktor nahezu perfekt misst. Das Vorzeichen lässt erkennen, wie der latente Faktor gerichtet ist. Ist das Vorzeichen für die Faktorladung einer bestimmten manifesten Variable positiv, so ist der entsprechende Faktor inhaltlich genauso gerichtet wie die manifeste Variable. Negative Vorzeichen drücken eine entgegengesetzte Richtung zwi
7 Es stehen zusätzliche Optionen zur Prüfung der korrelativen Struktur innerhalb der Daten zur Ver fügung. An dieser Stelle seien das Kaiser-Meyer-Olkin-Maß zur Bestimmung der Adäquatheit der Höhe der Korrelationen und der Bartlett-Test zur statistischen Bestimmung des Vorhandenseins von Korre lationen genannt. Für Details dazu siehe Baur & Fromm (2008). 8 Zur Rotation siehe auch Costello & Osborne (2005) sowie Brown (2015).
10 | 2 Der Anwendungsbereich von Faktorenanalysen
Tab. 2.1.3: Rotierte Faktorladungsmatrix der Items des Beispiels „Sympathie“. Item nett angenehm zugänglich liebenswert gutaussehend hübsch gepflegt positiv
Faktor 1
Faktor 2
0.74 0.79 0.75 0.75 −0.15 0.13 0.10 −0.06
0.03 0.06 −0.04 −0.08 0.76 0.66 0.78 0.80
schen Variable und Faktor aus (vgl. zu diesem Abschnitt auch Agresti & Finlay 2009, S. 535–536). Die Faktorladungsmatrix (Tabelle 2.1.3) bestätigt das Bild der Korrelationsmatrix. In den Daten finden sich zwei latente Faktoren, die jeweils über vier manifeste Varia blen gemessen werden können. So wird der erste Faktor über die Variablen „nett“, „angenehm“, „zugänglich“ und „liebenswert“ gemessen, während dem zweiten Fak tor die Indikatoren „gutaussehend“, „hübsch“, „äußerlich gepflegt“ und „positive Ausstrahlung“ zugrunde liegen.⁹ Bezogen auf das Beispiel ist erfreulich, dass sich eindeutige Faktorladungen zei gen (siehe Tabelle 2.1.3). Die Variable „gutaussehend“ lädt sehr stark auf dem zwei ten Faktor und lediglich mit einem Wert von -0.15 auf dem ersten Faktor, was auf ei nen sehr schwachen Zusammenhang mit dem ersten Faktor hindeutet. Die restlichen Variablen weisen ebenfalls sehr hohe Ladungen auf jeweils einem Faktor und sehr schwache Ladungen auf dem jeweils anderen Faktor auf. Somit lassen sich die mani festen Variablen eindeutig den latenten Faktoren zuordnen, wodurch sich die latenten Faktoren inhaltlich besser bestimmen lassen. Um die latenten Dimensionen zu bestimmen, muss die forschende Person die Va riablen genau betrachten und unter inhaltlichen Aspekten auf die Gemeinsamkeit der manifesten Indikatoren schließen, die den jeweiligen Faktor messen. In dem Beispiel ließe sich der erste Faktor als „persönliche Sympathie“ bezeichnen. So würde eine Person, die der befragten Person persönlich sympathisch ist, tendenziell als beson ders nett, angenehm, zugänglich und liebenswert beschrieben. Demnach bedingt ein Anstieg in dem latenten Faktor im Fall einer positiven (negativen) Faktorladung einen Anstieg (eine Senkung) der Ausprägung des entsprechenden manifesten Indikators. Für das Beispiel der Variable „angenehm“ bedeutet das: Je sympathischer eine Person wahrgenommen wird, desto angenehmer wirkt sie.
9 Es muss beachtet werden, dass die Faktorenstruktur nicht immer eindeutig aus der Korrelationsma trix ableitbar ist; große, ungeordnete Korrelationsmatrizen mit Variablen, deren korrelative Strukturen weniger eindeutig sind, erschweren die Interpretation.
2.1 Explorative Faktorenanalyse |
11
Tab. 2.1.4: Kommunalitäten und Uniqueness-Werte der Items des Beispiels „Sympathie“. Item nett angenehm zugänglich liebenswert gutaussehend hübsch gepflegt positiv
Kommunalität
Uniqueness
0.55 0.62 0.56 0.57 0.61 0.44 0.61 0.64
0.45 0.38 0.44 0.43 0.39 0.56 0.39 0.36
Der zweite Faktor misst das Ausmaß der Anziehungskraft der äußerlichen Erschei nung einer Person, die für dieses Beispiel als „Attraktivität“ bezeichnet werden kann. Befindet eine befragte Person eine bestimmte Person in ihrem Aussehen attraktiv, so wird diese Person eher als „gutaussehend“, „hübsch“, „gepflegt“ und mit einer „posi tiven Ausstrahlung“ beschrieben. Diese Art der positiven Bewertung einer Person über das Äußere ebendieser unterscheidet sich von der positiven Beschreibung der Per sönlichkeit. Dies drückt sich statistisch über die trennscharfen Faktorladungen aus. Wären die beiden Dimensionen nicht derart trennscharf, so würden sich Mehrfach ladungen insofern zeigen, als eine manifeste Variable jeweils auf beiden Faktoren ei ne annähernd gleichermaßen hohe Faktorladung aufweisen würde (vgl. Brown 2015, S. 27). Je höher die Faktorladungen einer manifesten Variable sind, desto höher ist der Anteil der erklärten Streuung dieser Variable. Die Faktorladungen einer Variable hän gen direkt mit dem Anteil erklärter Streuung zusammen, der im Rahmen der Faktoren analyse als Kommunalität bezeichnet wird und sich rechnerisch aus der Summe der quadrierten Faktorladungen einer Variable ergibt (vgl. Rencher 2003, S. 418): Für die Variable „nett“ ergibt sich beispielsweise eine Kommunalität von 0.742 +0.032 = 0.55 (vgl. Tabelle 2.1.3 und Tabelle 2.1.4). Der Anteil an Streuung, der nicht erklärt wird, wird als Uniqueness bezeichnet. Die Anzahl der Faktoren wird im Rahmen der explorativen Faktorenanalyse durch das Verfahren festgelegt. Dabei stehen verschiedene Extraktionsverfahren zur Verfü gung.¹⁰ Das vorliegende Beispiel zeigt das Ergebnis der sogenannten Hauptkompo nentenmethode.¹¹ Bei der Hauptkomponentenmethode wird die Streuung der einzel nen manifesten Variablen jeweils auf den Wert 1 standardisiert. Folglich ergibt die
10 Für einen ausführlichen Überblick über die verschiedenen Extraktionsmöglichkeiten siehe Brown (2015) sowie Costello & Osborne (2005). 11 Die Hauptkomponentenmethode (principal component method) ist nicht zu verwechseln mit der Hauptkomponentenanalyse (principal component analysis). Während die hier behandelte Hauptkom ponentenmethode eine Extraktionsmethode im Rahmen der Faktorenanalyse darstellt, bezeichnet die
12 | 2 Der Anwendungsbereich von Faktorenanalysen
Summe aus der Kommunalität und der Uniqueness einer Variable stets den Wert 1 (vgl. zu diesem Abschnitt Byrne 2012, S. 82). Im Rahmen der Hauptkomponentenmethode kann das Kaiser-Kriterium zur Be stimmung der Faktorenanzahl herangezogen werden. Dabei werden alle Faktoren ex trahiert, also berechnet, deren Eigenwerte den Wert 1 überschreiten. Der Eigenwert eines Faktors entspricht dem Anteil erklärter Streuung durch diesen Faktor. Dies im pliziert, dass lediglich jene Faktoren ausgewählt werden, die mehr Streuung erklären, als eine manifeste Variable aufweist (vgl. zu diesem Abschnitt Yeomans & Golder 1982, S. 221–229). Mithilfe der Faktorenanalyse ließen sich stets maximal so viele Faktoren extrahie ren, wie manifeste Variablen in die Analyse einfließen (vgl. Brown 2015, S. 21). Dies ist jedoch nicht das Anliegen einer Analyse, die das Ziel hat, auf Basis der Gemeinsamkeit mehrerer Variablen latente Konstrukte hinter diesen Variablen zu entdecken. Im Ideal fall finden sich bei einer explorativen Faktorenanalyse verhältnismäßig wenige Fakto ren, die viel Streuung erklären. Die Faktoren sollten stets sowohl trennscharf als auch durch die Faktorladungen eindeutig bestimmbar sein (vgl. zu diesem Abschnitt Brown 2015, S. 27). Zu beachten ist, dass bei dem strukturentdeckenden Verfahren der explorativen Faktorenanalyse die statistische Analyse Aufschluss über die Struktur der Daten gibt (vgl. Reinecke 2014, S. 137–138). Die forschende Person ist dabei nicht dazu angehal ten, vor der Analyse eine bestimmte Struktur und entsprechend bestimmte inhaltliche Faktoren anzunehmen. Die Analyse untersucht hierbei kein theoretisch aufgestelltes Modell, sondern stellt quasi selbst ein Modell auf. Dieses Modell kann die forschende Person schließlich inhaltlich nachvollziehen und auslegen. Sobald das theoretische Modell aus den Daten abgeleitet wurde, besteht nicht mehr die Möglichkeit ebendie ses Modell (statistisch) zu überprüfen. So würden in einer erneuten statistischen Über prüfung lediglich jene Zusammenhänge wiedergegeben, die zum inhaltlichen Modell geführt haben.
2.2 Konfirmatorische Faktorenanalyse und Strukturgleichungsmodelle Eine andere Variante liegt in dem Verfahren der konfirmatorischen Faktorenanalyse, die Bestandteil der Strukturgleichungsmodellierung ist. Bei der konfirmatorischen Faktorenanalyse wird zunächst ein inhaltliches Faktorenmodell spezifiziert, bevor dieses schließlich empirisch überprüft wird. Folglich handelt es sich dabei um ein strukturprüfendes Verfahren. Ein streng konfirmatorisches Vorgehen setzt voraus,
Hauptkomponentenanalyse ein davon abzugrenzendes Analyseverfahren. Für nähere Informationen dazu siehe Rencher (2003).
2.2 Konfirmatorische Faktorenanalyse und Strukturgleichungsmodelle | 13
dass ein theoretisches Modell bereits vor der statistischen Analyse der Daten konstru iert wird (vgl. Reinecke 2014, S. 138). In der Regel sollte sich ein solches Modell an bestimmten Theorien beziehungsweise dem Forschungsstand zu dem untersuchten Themengebiet orientieren. Ein lineares Strukturgleichungsmodell verbindet das Verfahren der linearen Re gression mit jenem der konfirmatorischen Faktorenanalyse. Mittels der konfirmatori schen Faktorenanalyse werden latente Variablen operationalisiert, deren Verbindun gen untereinander mithilfe von Regressionspfaden analysiert werden (vgl. zu diesem Abschnitt Byrne 2012, S. 5–7). Entsprechend ließe sich das Verfahren auf simple Weise schrittweise durchführen: Zuerst müssten dabei die latenten Variablen mithilfe der konfirmatorischen Faktorenanalyse berechnet werden, um im Anschluss Regressi onspfade zwischen den latenten Variablen zu modellieren. Allerdings werden bei der Strukturgleichungsmodellierung die konfirmatorische Faktorenanalyse und die Regressionen simultan geschätzt (vgl. Byrne 2012, S. 6–7). Schließlich dient dieses Verfahren dazu, ein Gesamtmodell zu prüfen. Die Güte des Modells ergibt sich dabei sowohl aus der Güte der konfirmatorischen Faktorenanalyse als auch aus der Güte der Regressionsanalyse. In keinem Fall sollte die Relevanz der konfirmatorischen Vorgehensweise bei Strukturgleichungsmodellen unterschätzt werden. Der große Vorteil der konfirmato rischen Analyse liegt in der Möglichkeit einer statistischen Überprüfung eines inhalt lichen Modells, innerhalb derer sich das Modell bestätigen oder verwerfen lässt. Bei der explorativen Analyse ist dies nicht der Fall, da hierbei das inhaltliche Modell aus der statistischen Analyse hervorgeht – der inhaltliche Gehalt eines solchen Modells darf mangels eines entsprechenden Prüfmechanismus allerdings bezweifelt werden. In der Forschungspraxis findet sich häufig der Umstand, dass ein a priori aufge stelltes Strukturgleichungsmodell nicht zu den Daten passt und somit zunächst ver worfen werden müsste (vgl. Barrett 2007, S. 819–820). Barrett (2007, S. 821) weist dar auf hin, dass ein solcher Umstand ebenfalls darauf hindeuten könnte, dass das Modell deshalb nicht passt, weil bestimmte Voraussetzungen für die Variablen nicht erfüllt sind. Darunter könnte unter anderem die Annahme fallen, dass die Variablen nor malverteilt streuen. Eine Verletzung dieser Annahme kann zu verzerrten Schätzungen führen.¹² In jedem Fall sollte überprüft werden, ob die zu verwendenden Daten nicht nur inhaltlich, sondern ebenso statistisch dazu geeignet sind, die entsprechende Ana lyse durchzuführen, um somit Fehlschlüsse aus dem Analyseergebnis nach Möglich keit auszuschließen. Sollte die Analyse das theoretische Modell trotz erfüllter Annahmen widerlegen, so besteht die häufig genutzte Möglichkeit, Modifikationen des Modells vorzunehmen (vgl. Barrett 2007, S. 821). Diese sind mit äußerster Vorsicht umzusetzen. Während es
12 Sollten die Variablen nicht normalverteilt streuen, bestehen Möglichkeiten der Variablentransfor mation (vgl. Barrett 2007, S. 821).
14 | 2 Der Anwendungsbereich von Faktorenanalysen
moderne Statistik-Software in der Anwendung leicht macht, zwischen einer Vielzahl an möglichen Modifikationen jene auszuwählen, die das Modell statistisch am stärks ten verbessern, ist die forschende Person selbst dazu angehalten, die mathematische Verbesserung des Modells nicht über den inhaltlichen Gehalt des Modells zu stellen (vgl. dazu auch Bentler 2007, S. 828). Ohne Probleme lässt sich jedes Modell mit zusätzlichen Schätzungen allein dadurch im statistischen Sinne verbessern, dass jede zusätzliche Schätzung die Er klärungsleistung des Modells erhöht und somit die Fehlerstreuung verringert. Eine statistische Verbesserung geht allerdings nicht zwangsläufig mit einer inhaltlichen Verbesserung einher. Im Gegenteil wird in vielen Fällen durch die Schätzung einer zusätzlichen Korrelation zweier Variablen die statistische Güte eines Modells ver bessert, obwohl der inhaltliche Zusammenhang dieser Variablen nicht zwangsläufig sinnvoll erscheint (vgl. Barrett 2007, S. 820). Ebenso besteht die Möglichkeit, dass eine ausgewählte Modifikation des Modells zwar inhaltlich insofern nachvollziehbar ist, als es sich um einen Zusammenhang handelt, der naheliegend oder zumindest vorstellbar ist, jedoch nicht in das inhaltliche Konzept des Modells integriert werden kann, beispielsweise, wenn die dem Modell zugrunde liegende Theorie diesen Zusam menhang nicht stützt. Ein adäquater und reflektierter Umgang mit einem Struktur gleichungsmodell erfordert eine Vielzahl durchdachter Entscheidungen, bei denen die forschende Person stets zwischen zwischen der statistischen Anpassung eines Modells und dem konfirmatorischen Anspruch, ein theoretisch festgelegtes Modell zu prüfen, abwägen muss. Wie bereits deutlich wurde, finden sich starke Unterschiede im analytischen Vor gehen zwischen der explorativen Faktorenanalyse und der konfirmatorischen Fakto renanalyse. Auch auf mathematischer Ebene unterscheiden sich die Verfahren. Wäh rend die Korrelationsmatrix die Basis der explorativen Faktorenanalyse darstellt, wird das konfirmatorische Faktorenmodell mittels der Kovarianzen der manifesten Varia blen berechnet (vgl. Reinecke 2014, S. 9–10). Die Kovarianz s xy ist ein unstandardi siertes Zusammenhangsmaß für metrische Variablen und ist über die Formel 2.2.1 de finiert (Bortz & Schuster, 2010, 153): s xy =
∑ni=1 (x i − x)̄ ⋅ (y i − y)̄ n
(2.2.1)
Im Zähler der Formel findet sich die Summe der Produkte der Abweichungen zweier Variablen x und y vom jeweiligen Mittelwert. Dadurch, dass diese Summe durch die Fallzahl n geteilt wird, ergibt sich ein mit der Varianz vergleichbares Durchschnitts maß. Die Kovarianz lässt sich entsprechend als gemeinsame Varianz zweier Variablen fassen (vgl. zu diesem Abschnitt Sedlmeier & Renkewitz 2008, S. 217).¹³
13 Zu beachten ist, dass die Höhe der Kovarianz nicht nur von der Stärke des Zusammenhangs der beiden Variablen abhängt, sondern ebenso von der Skala, auf der die Variablen gemessen werden. So ergibt beispielsweise die Abweichung vom Durchschnittsalter in Jahren im Mittel einen deutlich
2.2 Konfirmatorische Faktorenanalyse und Strukturgleichungsmodelle
| 15
Im Rahmen der konfirmatorischen Faktorenanalyse wird die latente Struktur in nerhalb der Daten mittels der Kovarianzmatrix analysiert. Um die latenten Variablen messbar zu machen, muss ihnen eine Skala zugewiesen werden. Dabei stehen zwei Optionen zur Auswahl. Eine Möglichkeit besteht darin, die Faktorladung einer Varia ble auf den Wert 1 zu fixieren. Dadurch erhält der Faktor die Skala ebendieser Variable und die Streuung des Faktors wird dabei frei geschätzt. Diese Variante zeigt sich als nützlich, sofern die Streuung des Faktors und deren Veränderung von Interesse sind, zum Beispiel wenn die Entwicklung eines latenten Faktors über mehrere Zeitpunkte untersucht werden soll (vgl. zu diesem Abschnitt Reinecke 2014, S. 94–97). Sollte ein konfirmatorisches Modell für einen festen Zeitpunkt analysiert werden, so steht die Güte des Messmodells im Zentrum des Interesses. Als Messmodell wird die Verbindung zwischen den manifesten Variablen und den latenten Faktoren be zeichnet. Bei einem konfirmatorischen Faktorenmodell ist die Faktorenanalyse folg lich selbst das Messmodell. Sollten zusätzlich spezifische Pfade zwischen den laten ten Faktoren untersucht werden, es sich somit um ein Strukturgleichungsmodell im eigentlichen Sinne handeln, so wird dieser weitere Teil des Modells als Strukturmo dell bezeichnet. Während das Messmodell die latenten Faktoren messbar macht, ana lysiert das Strukturmodell die Beziehungen zwischen den latenten Faktoren (vgl. zu diesem Abschnitt Byrne 2012, S. 6–7). Ein gutes Messmodell zeichnet sich dadurch aus, dass die manifesten Variablen, die einen latenten Faktor messbar machen, diesen gut abbilden. Auskunft darüber, wie gut die manifesten Variablen die Faktoren abbilden, geben die Faktorladungen. Durch die Fixierung der Streuung eines Faktors auf den Wert 1 können alle Faktorla dungen frei geschätzt werden und bemessen sich nicht mehr an der Streuung eines Indikators. Diese Variante führt dazu, dass die Koeffizienten des Modells standardi siert werden. Die Faktorladungen bewegen sich hierbei analog zu den standardisier ten Beta-Koeffizienten der linearen Regression in der Regel in einem Bereich zwischen −1 und 1. Ebenso wie bei der weiter oben beschriebenen Hauptkomponentenmetho de im Rahmen der explorativen Faktorenanalyse sprechen Faktorladungen nahe dem Wert 0 dafür, dass die jeweilige Variable nicht mit dem Faktor zusammenhängt und diesen folglich nicht misst. Werte nahe (−)1 ergeben sich, wenn die Variable den Fak tor sehr gut misst (vgl. zu diesem Abschnitt Reinecke 2014, S. 94). Bei der konfirmatorischen Faktorenanalyse wird für jede mögliche Faktorladung genau spezifiziert, ob diese frei geschätzt werden soll oder auf den Wert 0 gesetzt und somit nicht frei geschätzt werden soll.¹⁴ Grundsätzlich sollten alle manifesten Indika toren eines Faktors einen signifikanten Zusammenhang zu diesem Faktor und somit
geringeren Betrag als die Abweichung vom Durchschnittseinkommen in Euro. Um die Stärke des Zu sammenhangs beurteilen zu können, ist die Kovarianz somit nicht geeignet. Es handelt sich um ein unstandardisiertes Maß, dessen Wert sich nicht intuitiv einordnen lässt (vgl. zu diesem Abschnitt Rei necke 2014, S. 35). 14 Da die Faktorladungsstruktur entsprechend genau festgelegt ist, entfällt dabei die Notwendigkeit einer Rotation (vgl. Bortz & Schuster 2010, S. 405; Reinecke 2014, S. 138).
16 | 2 Der Anwendungsbereich von Faktorenanalysen
eine signifikante Faktorladung aufweisen. Faktorladungen, die nicht signifikant von Null verschieden sind, eigenen sich nicht zur Messung des entsprechenden Faktors. Wird die konfirmatorische Vorgehensweise genau betrachtet, so lässt sich erken nen, dass in einem konfirmatorischen Modell Faktorladungen mit dem Wert 0 gar nicht erst vorkommen sollten. So würde eine nicht signifikante Faktorladung anzei gen, dass der entsprechende Indikator vollkommen unpassend ausgewählt wurde. In der Praxis sollte dies äußerst selten geschehen, sofern die forschende Person das zu untersuchende Modell mit Bedacht aus der Theorie und dem Forschungsstand abge leitet hat. Es wurde bereits erklärt, dass sich die Kommunalität einer Variable aus der Sum me der quadrierten Faktorladungen für diese Variable ergibt. Im Rahmen der explora tiven Faktorenanalyse werden bei der Hauptkomponentenmethode pro Variable die Faktorladungen von allen extrahierten Faktoren für die Berechnung der Kommuna lität berücksichtigt. Im Gegensatz dazu legt die forschende Person bei der konfirma torischen Faktorenanalyse selbst fest, welche Variable auf welchem Faktor lädt (vgl. zu diesem Teilabschnitt Reinecke 2014, S. 138). Zu beachten ist dabei, dass die Kom munalität einer manifesten Variable tendenziell geringer ausfällt, wenn letztere auf einem Faktor und nicht auf mehreren Faktoren lädt. Die Kommunalität lässt sich auf sehr einfache Weise aus den standardisierten Faktorladungen herleiten. Sollte die for schende Person die Faktorladungen einer konfirmatorischen Faktorenanalyse, bei der lediglich eindeutige Ladungen geschätzt werden, für ausreichend hoch erachten, so muss die Kommunalität ebenso adäquat sein, da sie sich zwangsläufig aus dem Qua drat der Faktorladung ergibt. Zwar ist es im Rahmen der konfirmatorischen Faktorenanalyse auch möglich, mehrfache Ladungen zuzulassen, allerdings ist davon im Regelfall abzuraten, da ein Messmodell durch eindeutige Ladungen an Trennschärfe gewinnt, was der Interpre tierbarkeit äußerst dienlich ist. Die Relevanz dieses Vorgehens liegt in dem Umstand begründet, dass die latenten Faktoren nicht konkret erfragt werden, sondern ledig lich hinter den manifesten Variablen angenommen werden. Ein möglichst eindeutiger Modellaufbau ist somit unabdingbar: Aus dem Messmodell muss erkennbar sein, was die latenten Variablen messen. Zur Verdeutlichung lassen sich die folgenden Variablen des GMF-Surveys 2011 (vgl. GMF 2013) betrachten, die auf einer im Rahmen jener Studie als quasi-metrisch aufgefassten Zustimmungsskala mit vier Stufen abgefragt wurden: „Deutschland wird in einem gefährlichen Maß überfremdet“ (S. 60), „Die Ausländer in Deutschland ver achten die Deutschen“ (S. 63) sowie „Es leben zu viele Ausländer in Deutschland“ (S. 37). Eine Zustimmung zu einer oder mehrerer dieser Variablen kann als feindli che Tendenz gewertet werden. Würden nun diese drei Variablen genutzt, um einen gemeinsamen Faktor zu bilden, so würde hierbei nicht deutlich, ob generelle Frem denfeindlichkeit oder spezifische Ausländerfeindlichkeit gemessen würde. Während zwei der Aussagen konkret auf „Ausländer“ eingehen, bezieht sich eine weitere Va
2.2 Konfirmatorische Faktorenanalyse und Strukturgleichungsmodelle | 17
riable auf die weniger spezifische vermeintliche Überfremdung des Landes, die nicht explizit eine konkrete Gruppe anspricht. Bei mehrfachen Ladungen einer manifesten Variable ergibt sich zwangsläufig das gleiche Problem. Verschiedene Faktoren innerhalb eines gemeinsamen Modells sollten trennscharf sein. Allerdings führen multidimensionale Variablen, welche den inhaltlichen Gehalt zweier potenzieller Faktoren des Modells wiedergeben kön nen, dazu, dass das Messmodell tendenziell weniger trennscharf ist. Die Variable „Deutschland wird in einem gefährlichen Maß überfremdet“ (GMF 2013, S. 60) kann sowohl Ausländerfeindlichkeit als auch Fremdenfeindlichkeit messen. Wenn nun diese Variable im Rahmen einer entsprechenden konfirmatorischen Faktorenanalyse neben anderen Indikatoren zwei derartige Faktoren misst, so kann die forschende Person nicht eindeutig erkennen, inwiefern der inhaltliche Gehalt dieser Variable die beiden Faktoren tatsächlich trennscharf erfasst. Unter Umständen würde durch diese doppelte Ladung der Faktor „Ausländerfeindlichkeit“ mit dem Faktor „Fremdenfeind lichkeit“ vermischt. Im Gegensatz zu reinen konfirmatorischen Faktorenanalysen sind in einem Struk turgleichungsmodell primär die Verbindungen zwischen den latenten Faktoren des Modells von inhaltlichem Interesse. Die forschende Person ist entsprechend dazu an gehalten, jene manifeste Variablen für die Messung der Faktoren zu wählen, welche das inhaltliche Konstrukt des Faktors gut und möglichst eindeutig messen. Mehrdi mensionale Variablen sind einer derartigen Analyse nicht dienlich (vgl. zu diesem Ab schnitt Byrne 2012, S. 4–5). Zusammenfassend lässt sich festhalten, dass ein tendenziell gutes Messmodell vorliegt, wenn alle Faktorladungen möglichst hoch und signifikant sind. Wenn zusätz lich dazu Pfade zwischen den latenten Variablen analysiert werden und diese Pfade ihrerseits signifikante und hohe Koeffizienten aufweisen, so handelt es sich um ein gu tes Strukturgleichungsmodell, welches sich im statistischen Sinn durch eine hohe Er klärungsleistung auszeichnet. Aus der inhaltlichen Perspektive liegen die größte Her ausforderung und das Ziel einer solchen Analyse darin, inhaltlich valide Faktoren¹⁵ zu bilden, also Faktoren, die tatsächlich das Konzept messen, das gemessen werden soll (vgl. hierzu Schnell et al. 2011, S. 146–147). Die faktorenanalytischen Verfahren werden genutzt, um latente Variablen mess bar zu machen und die Verbindungen zwischen diesen zu analysieren. Dafür ist die explorative Faktorenanalyse grundsätzlich ebenso geeignet wie die konfirmatorische Faktorenanalyse; allerdings ist die konfirmatorische Herangehensweise jene, die eine statistische Überprüfung eines (sozial-)wissenschaftlich entwickelten Modells ermög licht und somit der explorativen Analyse in vielen Fällen vorzuziehen ist.
15 Für eine ausführliche Erläuterung der Gütekriterien Validität, Reliabilität und Objektivität sie he Schnell et al. (2011, S. 146–157) sowie Diekmann (2008, S. 247–261).
3 Die Güte von Strukturgleichungsmodellen Zu einem guten konfirmatorischen Modell zählt sowohl dessen inhaltliche als auch dessen statistische Güte. Statistische Güte liegt vor, wenn das Modell, welches getes tet und analysiert wird – im Folgenden das hypothetische oder theoretische Modell -, den Zusammenhängen in der Stichprobe respektive den Daten sehr nahe kommt. Das hypothetische Modell muss inhaltlich begründet sein und beschreibt Hypothe sen über die Population. Um zu prüfen, ob diese Hypothesen aller Wahrscheinlichkeit nach auf die Population zutreffen, werden die Stichprobendaten als Schätzung für die Population genutzt. Wenn das hypothetische Modell stark von den Stichprobendaten abweichen sollte, ist es unwahrscheinlich, dass das Modell auf die Population zutrifft. Schließlich gibt eine zufällig gezogene unverzerrte Stichprobe ein verkleinertes Abbild der Population wieder (vgl. Diekmann 2008, S. 380). Passt das hypothetische Modell nicht zu den Stichprobendaten, so passt es wahrscheinlich auch nicht zur Population. Bei Strukturgleichungsmodellen ist folgender Aspekt zu beachten, welcher die Gesamtbewertung des Modells so elementar macht: Die statistische Güte eines Mo dells ist nicht ausreichend, wenn die im Modell spezifizierten latenten Faktoren nicht das messen, was gemessen werden soll. Nur wenn das Strukturgleichungsmodell samt Messmodell und Strukturpfaden insgesamt gut genug ist respektive die Zusammen hänge in den Daten in hohem Maß wiedergibt, kann aus statistischer Perspektive da von ausgegangen werden, dass das im Modell implizierte theoretische Konstrukt für die Stichprobe und gegebenenfalls für die Population gilt. Entsprechend starke Rele vanz kommt der Validität des Messmodells zu, die bei der Schätzung eines Struktur gleichungsmodells stets sichergestellt werden sollte. Während die bereits behandelten Faktorladungen und Strukturpfade erste An haltspunkte für die Güte eines konfirmatorischen Modells liefern, fungieren der χ2 -Test (of Model Fit) sowie die Fit-Indizes respektive Gütemaße oder Fit-Maße in der Forschungspraxis als feste Beurteilungswerkzeuge für die Modellgüte. Zudem ist neben dem Grad an Zuverlässigkeit der statistischen Gütetests bei Strukturglei chungsmodellen immer zu beachten, dass der inhaltliche Gehalt eines Modells von der forschenden Person sichergestellt werden muss: „The test is blind to whether the model actually predicts or explains anything to some substantive degree“ (Barrett 2007, S. 818).
3.1 Statistische Tests Strukturgleichungsmodelle bestehen immer aus einer Vielzahl diverser Zusammen hänge: Die Messung von latenten Faktoren durch manifeste Variablen ist ebenso Teil eines Strukturgleichungsmodells wie stark verzweigte Zusammenhangsstrukturen zwischen den latenten Variablen (vgl. Kline 2005, S. 209). Statistische Tests ermögli https://doi.org/10.1515/9783110624199-003
20 | 3 Die Güte von Strukturgleichungsmodellen
chen die Bewertung derartiger komplexer Modelle auf einen Blick. Doch wenngleich der statistische Test des hypothetischen Modells gegen ein geeignetes Vergleichsmo dell äußerst praktikabel ist, ergeben sich bei einer solchen χ2 -verteilten Teststatistik Umstände, die den Blick auf weitere Maßzahlen dringend nahelegen. Zunächst wird erläutert, wie ein theoretisches Strukturgleichungsmodell mittels eines Modellvergleichs evaluiert werden kann. Dabei werden mögliche Vergleichsmo delle besprochen und die Notwendigkeit der Berücksichtigung der Modellkomplexi tät, die über die Zahl der Freiheitsgrade¹⁶ gemessen werden kann, aufgezeigt. Daran anknüpfend wird der χ 2 -Test zur Bewertung der Modellgüte vorgestellt. Al lerdings weist dieser Test Schwächen auf, die vor allem die Sensitivität gegenüber der Fallzahl und, wie James Steiger (2007) nachvollziehbar darlegt, die diesem Test zu grunde liegende Testlogik, die üblichen statistischen Tests nachsteht, betreffen. An schließend wird im letzten Teil des Kapitels die Prüfung der Güte eines Strukturglei chungsmodells mithilfe der Fit-Maße eingeleitet, die im Gegensatz zum χ2 -Test die Evaluation der Anpassungsgüte eines Modells auch bei großen Stichproben erlauben.
3.1.1 Möglichkeiten des Modellvergleichs unter Berücksichtigung der Modellkomplexität Zur Bewertung der Güte eines Strukturgleichungsmodells ist der Vergleich des Mo dells mit einem ausgewählten Vergleichsmodell mittels eines χ 2 -Tests (auch als Devi anztest oder LR-Test bezeichnet) unerlässlich (vgl. Barrett 2007, S. 820; Bentler 2007, S. 825). Das Modell, welches primär für den Vergleich mit einem hypothetischen Mo dell genutzt wird, ist das saturierte Modell. Dieses Modell gibt die Zusammenhänge in der Stichprobe perfekt wieder, indem es alle möglichen Schätzungen nutzt und ent sprechend alle Freiheitsgrade verbraucht (vgl. Byrne 2012, S. 93). Falls das hypothe tische Modell die Zusammenhänge in den Daten genauso gut wiedergibt wie das sa turierte Modell, handelt sich ersteres um ein perfektes Modell im statistischen Sinn. Je näher folglich das aufgestellte hypothetische Modell am saturierten Modell liegt, desto besser ist es. Allerdings ist im Bereich der Statistik immer zu beachten, dass Modelle dann be sonders gut sind, wenn sie nicht nur viel Streuung erklären, sondern dabei zudem sparsam sind (vgl. Agresti & Finlay 2009, S. 467). Ein sparsames Modell zeichnet sich dadurch aus, dass es wenige Schätzungen aufwendet. Entsprechend sollte ein mög lichst starker Unterschied zwischen dem hypothetischen Modell und dem saturier ten Modell hinsichtlich der Freiheitsgrade bestehen. Während das saturierte Modell so viel wie nur möglich erklärt, werden auch alle möglichen Freiheitsgrade aufge braucht. Beim saturierten Modell handelt es sich insofern nicht um ein sparsames
16 Zur Definition von Freiheitsgraden siehe Kapitel 3.1.1.
3.1 Statistische Tests | 21
Tab. 3.1.1: Varianz-Kovarianzmatrix, Variablenbeispiel mit 10 df (mathematisch). y1 y1 y2 y3 y4
y2
y3
y4
σ 2y2 σ y3,y2 σ y4,y2
σ 2y3 σ y4,y3
σ 2y4
σ 2y1 σ y2,y1 σ y3,y1 σ y4,y1
Modell. Im besten Fall erklärt das hypothetische Modell annähernd so viel wie das saturierte Modell und das mittels möglichst weniger Schätzungen. Bei varianzanalytischen Verfahren wie der Strukturgleichungsmodellierung er gibt sich die Anzahl der Freiheitsgrade aus der Anzahl der zur Verfügung stehenden Informationen in Form von Zusammenhängen zwischen den manifesten Variablen und Streuungen der manifesten Variablen abzüglich der Anzahl der frei geschätzten Parameter des Modells r x (vgl. Brown 2015, S. 53). dfm =
p ⋅ (p + 1) − rx 2
(3.1.1)
Entsprechend der Kovarianzmatrix stehen beispielsweise für ein Variablenset mit vier manifesten Variablen zehn Informationen zur Verfügung, in Form von genau sechs Kovarianzen und vier Varianzen (vgl. Tabelle 3.1.1). Dabei ergibt sich die Zahl der Frei heitsgrade dfm für ein Strukturgleichungsmodell mit p manifesten Variablen entspre chend Formel 3.1.1. Mithilfe von zehn gegebenen Freiheitsgraden lassen sich maximal zehn Parameter schätzen; darunter fallen die mittels des Messmodells zu schätzenden Faktorladungen (vgl. Kline 2005, S. 170). Werden nun vier Variablen y1−y4 genutzt, um einen einzigen Faktor zu schät zen, so werden vier der zehn zur Verfügung stehenden Freiheitsgrade für die Schät zung der Faktorladungen verbraucht. Wenn alle vier Faktorladungen frei geschätzt werden und die Streuung der latenten Variable auf den Wert 1 fixiert ist, so ist dies die standardisierte Lösung. Dabei wird kein Freiheitsgrad für die Schätzung der Streuung des Faktors benötigt. Weitere vier Freiheitsgrade werden bei einem solchen Modell verbraucht, um die Fehlerstreuungen der manifesten Variablen y1−y4 zu schätzen (vgl. Reinecke 2014, S. 94–97), womit sich ein solches Modell um zwei Freiheitsgrade vom saturierten Modell unterscheidet. Dieses Modell ist überidentifiziert, da mehr In formationen zur Verfügung stehen, als zur Schätzung des Modells erforderlich wären; insofern ist das Modell auch identifizierbar respektive schätzbar (vgl. Reinecke 2014, S. 57). Mehrfaktorielle latente Strukturmodelle bestehen aus zwei oder mehr Faktoren, deren Zusammenhänge untersucht werden (vgl. dazu Byrne 2012, S. 43–44). Für jeden geschätzten Zusammenhang zwischen zwei latenten Variablen wird ein weiterer Frei heitsgrad aufgebraucht. Es handelt sich bei Zusammenhängen zwischen zwei latenten
22 | 3 Die Güte von Strukturgleichungsmodellen
Tab. 3.1.2: Varianz-Kovarianzmatrix, Variablenbeispiel mit 6 df (statistisch). y1 y1 y2 y3 y4
y2
y3
y4
σ 2y2 σy3,y2 σy4,y2
σ 2y3 σy4,y3
σ 2y4
σ 2y1 σy2,y1 σy3,y1 σy4,y1
Variablen entweder um ungerichtete Kovarianzen oder um gerichtete Pfadkoeffizien ten (vgl. Reinecke 2014, S. 13). In der Anwendung gilt zu beachten, dass Statistik-Software wie Stata oder Mplus die Anzahl der Freiheitsgrade nicht in dieser im Folgenden als mathematisch be zeichneten Betrachtungsweise wiedergibt (vgl. dazu Acock 2013, S. 19–21 und Christ & Schlüter 2012, S. 38), sondern in der folglich als statistisch bezeichneten Weise darlegt. Dabei ergibt sich die Anzahl an Freiheitsgraden allein aus der Anzahl der Zusammenhänge zwischen den manifesten Variablen. Somit lassen sich nicht mehr Parameter schätzen, als Kovarianzen vorhanden sind. Bei einem Variablenset von vier Variablen ergeben sich sechs Kovarianzen (vgl. Tabelle 3.1.2). Die Formel zur Bestimmung der Freiheitsgrade für ein Strukturgleichungsmodell mit p manifesten Variablen entlang der statistischen Betrachtungsweise lautet: dfs =
p ⋅ (p − 1) − rx 2
(3.1.2)
Für die Schätzung eines bestimmten Modells macht es keinen Unterschied, ob der ma thematische oder der statistische Ansatz gewählt wird. Das hängt damit zusammen, dass beim mathematischen Ansatz die Fehlervarianzen der manifesten Variablen als Schätzung gewertet werden (vgl. Reinecke 2014, S. 95), während dies bei Statistik-Soft ware wie Stata nicht der Fall ist (vgl. Acock 2013, S. 16–21). Beim mathematischen An satz werden im Vergleich zum statistischen Ansatz so viele zusätzliche Freiheitsgrade angenommen, wie manifeste Variablen im Modell vorhanden sind – für jede Variable eine Varianz. Gleichsam werden bei diesem Ansatz die Fehlerstreuungen der mani festen Variablen als Schätzungen gewertet, was zur Folge hat, dass die zusätzlichen Freiheitsgrade verbraucht werden. Beim statistischen Ansatz werden die Informatio nen, welche sich aus den Varianzen der manifesten Variablen ergeben, nicht in die Berechnung der Freiheitsgrade einbezogen. Gleichermaßen wird die Fehlerstreuung einer einzelnen manifesten Variable nicht als Schätzung gewertet (vgl. Acock 2013, S. 16–21 und Byrne 2012, S. 62–66), da sich diese direkt aus den geschätzten Faktor ladungswerten ergibt (vgl. dazu Kapitel 2.1) und mithilfe der Streuung der manifesten Variablen auf deren Basis berechnet werden kann; somit entfällt die Notwendigkeit einer Schätzung. Letztlich weist beim mathematischen sowie beim statistischen Ansatz ein be stimmtes hypothetisches Modell eine feste Differenz zum saturierten Modell bezüg
3.1 Statistische Tests |
23
lich der Freiheitsgrade auf, sodass die Auswahl zwischen dem mathematischen und dem statistischen Ansatz für die Modellevaluation nicht von Relevanz ist.¹⁷ Die Anzahl der Freiheitsgrade für einen bestimmten Modellvergleich ergibt sich aus der Differenz der Freiheitsgrade der beiden Modelle. Im Vergleich zwischen dem hypothetischen Modell und dem saturierten Modell können maximal so viele Frei heitsgrade vorliegen, wie insgesamt durch die Daten Schätzungen zur Verfügung stehen. Wenn ein Modell mit sechs Variablen berechnet wird, stehen dem Modell ( 6⋅(6−1) =) 15 Freiheitsgrade zur Verfügung. Weist nun das geschätzte Modell genau 2 so viele Freiheitsgrade Differenz zum saturierten Modell auf, wie Schätzungen zur Verfügung stehen – im Beispiel 15 Freiheitsgrade –, so heißt das in diesem konkre ten Fall, dass nichts erklärt wird: Das leere Modell wird geschätzt. Zu überprüfende Modelle sollten in der Forschungspraxis in Bezug auf die Zahl der Freiheitsgrade immer zwischen dem saturierten und dem leeren Modell liegen und entsprechend überidentifiziert sein.¹⁸ Ein Modell mit mehr Freiheitsgraden als das entsprechende saturierte Modell wird als unteridentifiziert bezeichnet und ist aufgrund des Mangels an benötigten Informa tionen nicht lösbar (vgl. Byrne 2012, S. 32–33). Ein Modell, bei dem alle Freiheitsgra de für die Schätzung des Modells verbraucht werden, ist zwar mathematisch lösbar (vgl. Kline 2005, S. 169–170), allerdings ist ein solches bereits per Definition dem sa turierten Modell gleich und kann hinsichtlich der Güte nicht überprüft werden, da jedes Modell, welches dem saturierten Modell entspricht, in der statistischen Defini tion perfekt angepasst ist und zwar unabhängig davon, wie sinnvoll die geschätzten Parameter ausgewählt wurden. Das saturierte Modell ist nicht nur jenes Modell, das so viel Streuung wie nur möglich erklärt, es ist zudem auch das Modell, welches als gerade identifiziert gilt (vgl. Reinecke 2014, S. 96). Das saturierte Modell gilt als Vergleichsmodell für das zu überprüfende hypothe tische Modell.¹⁹ Ein weiteres Vergleichsmodell für die Bewertung eines Strukturglei chungsmodells ist das leere Modell, das auch als baseline model oder Nullmodell be zeichnet wird. Beim leeren Modell werden alle möglichen Zusammenhänge zwischen den Variablen des Modells auf den Wert 0 fixiert. Entsprechend erklärt dieses Modell keine Streuung. Während das zu überprüfende Modell eine geringe Devianz zum satu 17 Im weiteren Verlauf dieser Arbeit wird dem Ansatz der Statistik-Programme Stata und Mplus gefolgt und die statistische Betrachtungsweise gewählt. 18 Nach der sogenannten t-Regel sollte die Anzahl der zu schätzenden Parameter t kleiner oder auch gleich der Anzahl gegebener Informationen sein (vgl. Reinecke 2014, S. 57). Es ist zu beachten, dass für den Fall, dass die Anzahl der Schätzungen genau der Anzahl gegebener Informationen entspricht, das Modell automatisch zum saturierten Modell wird. Wieso ein solches Modell nicht dazu geeignet ist, statistisch getestet zu werden, wird im Verlauf der folgenden Ausführungen deutlich. 19 Der Vergleich hinsichtlich der Erklärungskraft und der Freiheitsgrade zwischen dem hypotheti schen Modell und dem saturierten Modell findet sich bei moderner Statistik-Software unter dem „Test of Model Fit“ (Mplus) (vgl. Christ & Schlüter 2012, S. 38–39; Muthén & Muthén 2010, S. 362) sowie unter dem „Likelihood Ratio Test: model vs. saturated“ (Stata) (vgl. Acock 2013, S. 21).
24 | 3 Die Güte von Strukturgleichungsmodellen
rierten Modell aufweisen und somit möglichst nah am saturierten Modell liegen soll te, sollte es möglichst weit vom leeren Modell entfernt sein und die Devianz entspre chend groß sein (vgl. zu diesem Abschnitt Bollen 1989a, S. 304–305). Es sollte beachtet werden, dass zwar viele Modelle mehr Streuung erklären als das leere Modell, jedoch nur wenige dieser Modelle ausreichend nahe am saturierten Modell liegen: Eine Ab weichung vom leeren Modell ist eine notwendige, allerdings keine hinreichende Be dingung für eine gute Modellanpassung. Der Test gegen das saturierte Modell erfährt einen deutlich stärkeren Gebrauch als jener gegen das leere Modell.
3.1.2 Testlogik und Implikationen des χ 2 -Tests Zwei Strukturgleichungsmodelle, im vorliegenden Kontext das hypothetische Modell einerseits und das saturierte oder in manchen Fällen auch das leere Modell anderer seits, lassen sich über den χ2 -Test vergleichen. Dieser wird auch als LR-Test bezeich net und vergleicht zwei Modelle über die Differenz der Devianzen, welche sich bei der Maximum-Likelihood-Schätzung (ML-Schätzung) jeweils direkt aus der Loglikeli hood (LL) eines Modells berechnen lassen (vgl. zu diesem Abschnitt Jöreskog 1993, S. 299–300). Bei Statistik-Software wie Stata und Mplus wird die LL eines Strukturgleichungs modells immer direkt angegeben (vgl. dazu Acock 2013, S. 18 sowie Byrne 2012, S. 66). Die Devianz ergibt sich aus der Multiplikation der LL mit dem Wert −2. Genauer er gibt sich der Funktionswert der Maximum-Likelihood (ML)-Schätzung entsprechend Formel 3.1.3 (vgl. Reinecke 2014, S. 101): ̂ + tr(SΣ−1 (Θ)) ̂ − log |S| − p FML = log |Σ(Θ)|
(3.1.3)
Unter der Annahme, dass das theoretische Modell in der Population zutrifft, dient die ̂ als Schätzung für die dem theoretischen Mo modellimplizierte Kovarianzmatrix Σ(Θ) dell unterstellten Zusammenhänge. Die empirische Kovarianzmatrix der Stichprobe (S) ergibt sich aus den Zusammenhängen innerhalb der Stichprobe und dient für die Schätzung der Zusammenhänge innerhalb der Population. Sollte das theoretische Mo ̂ − dell auf die Population zutreffen, so gilt annähernd Σ(Θ)̂ = S und damit ist log |Σ(Θ)| −1 ̂ log |S| ≈ 0. In diesem Fall gleicht zudem die Spur der Matrix tr(SΣ (Θ)) der Anzahl an Variablen p. Der Funktionswert von Gleichung 3.1.3 würde entsprechend Null (vgl. zu diesem Abschnitt Pöge 2017, S. 146; Reinecke 2014, S. 101). Unter Gebrauch aktueller Statistik-Software gestaltet sich der LR-Test äußerst anwendungsfreundlich. Das hängt damit zusammen, dass unter der Voraussetzung verschachtelter Modelle²⁰ Devianzen χ2 -verteilt streuen und somit leicht anhand der
20 Als geschachtelt oder hierarchisch gelten Modelle, wenn das restringiertere Modell (beispielsweise das hypothetische Modell) alle Parameter schätzt, die das weniger restringierte Modell (zum Beispiel
3.1 Statistische Tests |
25
theoretischen χ 2 -Verteilung geprüft werden können (vgl. Reinecke 2014, S. 119–120). Zusätzlich dazu, dass es sich für diese Art des Modellvergleichs um hierarchische Modelle handeln muss, lässt sich das ML-Schätzverfahren nur verwenden, wenn die metrischen manifesten Variablen multivariat normalverteilt streuen (vgl. Brown 2015, S. 345–346). Eine multivariate Normalverteilung liegt vor, wenn die einzelnen Varia blen jeweils normalverteilt streuen und untereinander lineare Beziehungen aufweisen (vgl. Agresti & Finlay 2009, S. 533). Sollte diese Voraussetzung nicht erfüllt sein, so kann den geschätzten Signifikanzen des Modells nicht vertraut werden (vgl. Bentler 2007, S. 827). Der χ2 -Test wird auch als Unabhängigkeitstest bezeichnet (vgl. Sedlmeier & Renkewitz 2008, S. 563–567) und berechnet mittels der Devianzen zweier Modelle, ob diese Modelle unabhängig voneinander sind. Beim Vergleich zwischen dem hypo thetischen und dem saturierten Modell sollte sich nach Möglichkeit kein signifikanter Unterschied finden (siehe dazu Kapitel 3.1.2). Ein signifikanter LR-Test im Rahmen ei nes Vergleichs eines hypothetischen Modells mit dem zugehörigen saturierten Modell spricht dafür, dass das hypothetische Modell nicht zu den Daten passt, was dessen Gültigkeit in Frage stellt. Zu beachten ist ein relevanter Nachteil des χ 2 -Tests: Je höher die Fallzahl ist, desto höher wird der χ 2 -Testwert tendenziell. Das ergibt sich aus der Teststatistik χ2ML , die dem Produkt aus dem Funktionswert (vgl. Formel 3.1.3) und der um eins reduzierten Fallzahl entspricht (vgl. Reinecke 2014, S. 113): χ2ML = (n − 1) ⋅ FML
(3.1.4)
Bereits geringe Abweichungen fallen bei entsprechend großen Fallzahlen stark ins Gewicht. Zwar werden bei der χ 2 -Verteilung die Freiheitsgrade berücksichtigt, jedoch erlauben diese bei Strukturgleichungsmodellen keinen Schluss auf die Fallzahl (siehe dafür auch Kapitel 3.1.1 dieser Arbeit; vgl. Iacobucci 2010, S. 91). Die Kritikpunkte bezüglich der alleinigen Verwendung des χ2 -Tests für die Eva luation eines Modells sind nachvollziehbar (vgl. dazu Barrett 2007, S. 825–827; Brown 2015, S. 69; Kline 2005, S. 135–137): Zusätzlich zur hohen Sensitivität des Tests und der oftmals verletzten Anwendungsvoraussetzung multivariater Normalverteilung kri tisiert James Steiger die dem Test zugrunde liegende Logik, nach der Modelle als be stätigt angesehen werden, wenn kein signifikantes Ergebnis vorliegt (vgl. Steiger 2007, S. 894). Dieses Vorgehen widerspricht den üblichen statistischen Tests, bei denen die Forschungshypothese über einen Parameter angenommen wird, wenn dieser Parame ter signifikant von einem festen Nullhypothesenwert abweicht (vgl. Agresti & Finlay 2009, S. 143–146).
das saturierte Modell) schätzt, wobei das weniger restringierte Modell zusätzlich dazu weitere Para meter schätzt; andernfalls sind beide Modelle identisch (vgl. Kline 2005, S. 145). Ein hypothetisches Modell ist immer in dem dazugehörigen saturierten Modell geschachtelt.
26 | 3 Die Güte von Strukturgleichungsmodellen
3.1.3 Alternative Testlogik nach James Steiger Vor dem Hintergrund der starken Kritik am χ 2 -Test hat eine von Barrett (2007, S. 818) gestellte Forderung, den χ2 -Test als alleinigen Test zur Bestimmung der Güte von Strukturgleichungsmodellen zu verwenden, James Steiger dazu veranlasst, die zen tralen Kritikpunkte am χ2 -Test erneut aufzugreifen und eine konkrete alternative Testlogik vorzuschlagen. Barrett kritisiert, dass die Interpretation des χ 2 -Tests bereits vor Jahren an Rele vanz verloren hat (vgl. Barrett 2007, S. 817–819). Er sieht die Vorteile von statistischen Signifikanztests und fordert, bei der Bewertung der Güte eines Strukturgleichungsmo dells stets den χ 2 -Test zu verwenden. Darüber hinaus rät er von der Verwendung von Fit-Indizes, welche keine statistischen Tests sind, ab: „In fact, I would recommend banning ALL such indices from ever appearing in any paper as indicative of model ‚acceptability‘ or ‚degree of misfit‘“ (Barrett 2007, S. 821). Insgesamt finden die Fit-Indizes bei der Bewertung der Modellgüte allerdings nach wie vor eine stärkere Verwendung als der χ2 -Test (vgl. Brown 2015, S. 70). Dies wird unter anderem dadurch begründet, dass diese Indizes den Nachteilen des Tests, beispielsweise der hohen Sensitivität gegenüber der Fallzahl, nachkommen (vgl. Byrne 2012, S. 68–69; Hu & Bentler 1999, S. 3). So sieht auch Steiger einen star ken Nutzen in den zur Modellevaluation dienlichen Fit-Indizes, mithilfe derer jeweils verschiedene relevante Faktoren in die Beurteilung eines Strukturgleichungsmodells einfließen (vgl. Steiger 2007, S. 894–895): Neben der stets relevanten absoluten Abwei chung des Modells von den Daten, welche der χ2 -Test untersucht, können Fit-Indizes die durch eine hohe Fallzahl bedingte Abweichung des Modells korrigieren. Einige Fit-Indizes berücksichtigen zusätzlich dazu die relative Modellverbesserung, also den konkreten Erkenntniszugewinn im Vergleich zu einem schlechteren Modell; auch das Kriterium der Modellsparsamkeit findet Berücksichtigung bei bestimmten Fit-Maßen (siehe Kapitel 3.2.1) (vgl. zu diesem Abschnitt Brown 2015, S. 67–73 sowie Hu & Bentler 1999, S. 3). Steiger kritisiert zum einen die Striktheit des χ2 -Tests, die für Strukturgleichungs modelle – die stets sparsam und somit auch restriktiv sein sollten – nicht angemessen ist (vgl. Steiger 2007, S. 894). Strukturgleichungsmodelle schaffen Verbindungen zwi schen latenten Konstrukten, die jeweils aus mehreren verschiedenen Indikatoren be stehen. Komplexe Zusammenhangsstrukturen können damit in relativ einfacher Wei se dargestellt und messbar gemacht werden. Dass nicht jede kleinste Abweichung in einem entsprechend umfangreichen Modell erklärt werden kann, liegt auf der Hand. Stärker verwundert, dass die im Rahmen des χ2 -Tests geprüfte Nullhypothese nach wie vor für die Bewertung von Strukturgleichungsmodellen Bestand hat. Neben den bereits behandelten Nachteilen des χ 2 -Tests kritisiert Steiger darüber hinaus vor allem die „accept-support“-Logik (Steiger 2007, S. 894), welche bei diesem Test Anwendung findet. Dabei wird die eigentliche Forschungshypothese zur Nullhy pothese. Schließlich lautet die Nullhypothese des hier behandelten χ2 -Tests, dass das
3.2 Fit-Indizes |
27
hypothetische Modell nicht vom saturierten Modell abweicht. Ein hypothetisches Mo dell wird folglich bestätigt (support), wenn die Nullhypothese beibehalten wird (ac cept) (vgl. Brown 2015, S. 67–69). Entgegen der Logik üblicher Signifikanztests wird dabei eine Annahme als bestätigt angesehen, wenn sie mittels der zur Verfügung ste henden Informationen nicht verworfen werden kann. Damit geht einher, dass Modelle mit einer geringeren statistischen Power²¹ eine stärkere Tendenz dazu haben, als pas send eingestuft zu werden; denn die hier angewandte Testlogik ändert nichts daran, dass die Nullhypothese leichter verworfen werden kann, wenn die Power des Modells hoch ist. Je schwächer das Modell ist, desto eher bleibt die Nullhypothese bestehen (vgl. zu diesem Abschnitt Steiger 2007, S. 894). Aufgrund dieser eindeutigen Schwächen des Tests schlägt Steiger vor, das Test verfahren so umzukehren, dass es der bekannten Testlogik von Signifikanztests ent spricht. Dabei greift er auf die Verwendung von Fit-Indizes zurück. Würde beispiels weise ein bestimmter Schwellenwert für einen ausgewählten Fit-Index als Nullhypo thesenwert gewählt und einseitig getestet, sodass die Nullhypothese zurückgewiesen würde, wenn der Wert eine bessere Modellbewertung nahelegt, als der Schwellen wert impliziert, entspräche dies der bekannten Logik von Signifikanztests. Je geringer die Power des Modells wäre, desto unwahrscheinlicher würde das Modell als ausrei chend gut eingestuft. Durch die Anwendung dieses üblichen Testverfahrens auf FitIndizes könnte zudem die Bedingung einer akzeptablen Modellanpassung das Kriteri um einer perfekten Modellanpassung ablösen (vgl. zu diesem Abschnitt Steiger 2007, S. 894–897). Steiger veranschaulicht die von ihm vorgeschlagene Testlogik mithilfe des FitMaßes Root Mean Square Error of Approximation (RMSEA). Bereits 1990 hat Steiger vorgeschlagen, diesen Index mit einem Konfidenzintervall zu versehen, um so Wahr scheinlichkeitsaussagen über das Intervall treffen zu können, in dem dieses Gütemaß zu erwarten ist, anstatt lediglich einen festen Wert zu betrachten, mit dessen Hilfe kein statistischer Test durchgeführt werden kann (vgl. Steiger 1990, S. 176–178). Im Rahmen der Software Mplus wird dieser Vorschlag durch die Angabe eines 95-prozen tigen Konfidenzintervalls für den RMSEA implementiert (vgl. Byrne 2012, S. 75).
3.2 Fit-Indizes Die Sensitivität des χ2 -Tests bezüglich der Fallzahl einer Stichprobe erschwert es for schenden Personen, allein mittels dieses Tests zu einer adäquaten Einschätzung der statistischen Güte eines Modells zu gelangen (vgl. Barrett 2007, S. 816). Eine große
21 Unter statistischer Power oder Teststärke wird die Wahrscheinlichkeit bezeichnet, eine falsche Nullhypothese korrekterweise abzulehnen. Mit einer größeren Stichprobe steigt die Power für ein be liebiges Modell (vgl. dazu Sedlmeier & Renkewitz 2008, S. 374–384).
28 | 3 Die Güte von Strukturgleichungsmodellen
Stichprobe, die beispielsweise mehr als 800 Personen aufweist, ist in den Sozialwis senschaften keine Seltenheit (vgl. Agresti & Finlay 2009, S. 4). In vielerlei Hinsicht ist dies ein großer Vorteil, wenn es grundsätzlich darum geht, Aussagen über die Popu lation zu treffen. So kann eine Zufallsstichprobe tendenziell eher ein repräsentatives Abbild der Population darstellen, wenn die Größe der Stichprobe die Größe der Popu lation approximiert. In diesem konkreten Fall gilt dies genauso. Schließlich werden Strukturglei chungsmodelle zumeist geschätzt, um Aussagen über eine interessierende Popula tion treffen zu können. Sollte in einem fiktiven Beispiel die Population aus 17 000 Studierenden bestehen und die Stichprobe einen Umfang von tausend Studieren den aufweisen, ist es wahrscheinlicher, dass alle Studienrichtungen, Altersgruppen und Interessensgruppen darin vertreten sind, als wenn die Stichprobe aus 130 Per sonen bestünde (vgl. Diekmann 2008, S. 401–410). Die Lösung zum Problem der Sensitivität des χ2 -Tests kann somit nicht darin liegen, kleinere und weniger aussa gekräftige Stichproben zu ziehen (vgl. Steiger & Lind 1980, S. 6). Vielmehr sollte ein Ansatz verfolgt werden, bei dem im Gegensatz zum χ2 -Test nicht automatisch bei hohen Fallzahlen Modelle verworfen werden, die lediglich geringe Abweichungen zu den Daten aufweisen. Einen solchen Ansatz verfolgen die Fit-Indizes. Während der χ2 -Test prüft, ob das hypothetische Modell exakt zu den Daten passt, lässt sich mithilfe der Fit-Indizes feststellen, wie gut das hypothetische Modell zu den Daten passt. Minimale Abweichungen führen dabei nicht zwangsläufig dazu, das Modell zu verwerfen (vgl. Bentler 2007, S. 827–829). Neben dem bereits erwähnten RMSEA findet sich eine Vielzahl weiterer Fit-Indi zes. Unter diesen sind der Tucker-Lewis Index (TLI), der Comparative Fit Index (CFI) und der Standardized Root Mean Square Residual (SRMR) insofern besonders be liebt, als sie in der aktuellen Forschung besonders häufig Erwähnung finden (vgl. dazu Brown 2015, S. 74; Byrne 2012, S. 76; Iacobucci 2010, S. 90 und Kaplan 2009, S. 113) und im Vergleich zu vielen weiteren Fit-Indizes besondere Vorteile aufweisen. So handelt es sich bei allen vier Fit-Indizes um standardisierte Maße, die in der Praxis einen festen Wertebereich aufweisen, was diese Maße deutlich leichter interpretierbar macht als Fit-Maße, deren Wertebereich schwankt (vgl. Brown 2015, S. 70). Darüber hinaus werden diese Fit-Indizes in beliebter Statistik-Software wie Stata oder Mplus für die Bewertung von Strukturgleichungsmodellen verwendet (siehe dazu Christ & Schlüter 2012, S. 38–39 sowie Acock 2013, S. 21). Ebendiese Fit-Indizes stehen im Fokus der folgenden Ausführungen. Fit-Indizes lassen sich in zwei Kategorien einteilen. Grundsätzlich wird zwischen absoluten Fit-Indizes und komparativen oder inkrementellen Fit-Indizes unterschieden (vgl. Reinecke 2014, S. 112). Absolute Fit-Indizes messen, wie gut ein hypothetisches Modell die Stichprobendaten reproduziert; in anderen Worten misst ein solcher Index, inwiefern das hypothetische Modell zu den Daten passt und folglich auf die Populati on übertragen werden kann. Der SRMR und der RMSEA zählen zu den absoluten FitIndizes (vgl. Hu & Bentler 1999, S. 2), wenngleich beispielsweise Brown (2015, S. 71)
3.2 Fit-Indizes | 29
Maße wie den RMSEA einer dritten Kategorie, den sogenannten parsimony correction Fit-Indizes, zuordnet. Dem Namen entsprechend korrigieren diese Maße für Modell sparsamkeit, wobei sparsame Modelle in der Bewertung der Güte „belohnt“ werden. Damit wird berücksichtigt, dass der χ 2 -Test mit jedem zusätzlich geschätzten Parame ter des Modells zwangsläufig besser ausfällt (vgl. Steiger 1990, S. 178–179). Komparative Fit-Indizes, wie zum Beispiel der CFI und der TLI, messen zusätz lich dazu die relative Modellverbesserung im Vergleich zu einem restringierteren Mo dell; bei letzterem handelt es sich in der Regel um das entsprechende leere Modell. Während die komparativen Gütemaße die relative Verbesserung einem restringierte ren Modell gegenüber in die Modellbewertung einfließen lassen, ist dies bei den ab soluten Fit-Indizes nicht der Fall (vgl. zu diesem Abschnitt Hu & Bentler 1999, S. 2).
3.2.1 RMSEA: Root Mean Square Error of Approximation Der Root Mean Square Error of Approximation (RMSEA) wurde 1980 von James H. Steiger und John C. Lind entwickelt und zunächst unter dem Kürzel RMS verwendet (vgl. Steiger & Lind 1980, S. 7). Die heutige Bezeichnung RMSEA wurde von Browne und Cudeck geprägt (vgl. Browne & Cudeck 1993, S. 144 und Steiger 2016, S. 777–778). Steiger und Lind definieren den RMSEA wie folgt (vgl. Steiger & Lind 1980, S. 1–7): RMSEA = √
max [(χ2H − df)/(n − 1), 0] df
(3.2.1)
Innerhalb der Software R wird für die Formel n statt n − 1 genutzt (vgl. Pornprasert manit 2016, Abschnitt Details).²² Bei einer großen Fallzall führt dies lediglich zu mini malen Diskrepanzen. Der RMSEA spricht umso mehr für ein gutes Modell, je geringer der Wert ist. Es handelt sich insofern um einen Badness-of-fit-Index (vgl. Christ & Schlüter 2012, S. 39). Seiner Bezeichnung nach gibt der RMSEA die Wurzel des durchschnittlichen Fehlers an. Im Zähler des Quotienten wird die um die Anzahl der Freiheitsgrade (df ) redu zierte Devianz zwischen dem hypothetischen und dem saturierten Modell (χ2H ) durch die (um den Wert 1 reduzierte) Anzahl der Fälle dividiert. Dieser Term wird durch den Wert 0 ersetzt, wenn der Zähler einen negativen Wert annimmt. Die Devianz gibt das Ausmaß der Abweichung vom perfekten Modell an, welche nicht nur für schlecht angepasste Modelle, sondern auch für besonders sparsame Mo delle tendenziell höher ausfällt. So wird bei einem Modell mit relativ wenigen frei geschätzten Parametern, zwangsläufig ein gewisser Anteil an Streuung nicht erklärt, wodurch die Devianz wächst. Innerhalb der Formel des RMSEA korrigiert die bei ei nem sparsamen Modell tendenziell höhere Anzahl an Freiheitsgraden diesen Anstieg 22 Auch andere Software-Programme nutzen diese Korrekturformel (vgl. Brown 2015, S. 71; Byrne 2012, S. 74).
30 | 3 Die Güte von Strukturgleichungsmodellen
der Devianz, durch die Reduktion der Devianz um die Zahl der Freiheitsgrade (vgl. zu diesem Teilabschnitt Brown 2015, S. 71). Oftmals wird davon gesprochen, dass in ei nem solchen Fall sparsame Modelle „belohnt“ werden. Zu beachten gilt, dass die Zahl der Freiheitsgrade einer konkreten χ2 -Verteilung dem Durchschnittswert dieser Vertei lung entspricht (vgl. Agresti & Finlay 2009, S. 226; Gerbing & Anderson 1993, S. 44). Sollte sich ein hypothetisches Modell somit ausschließlich bezüglich der Anzahl der Schätzungen vom saturierten Modell unterscheiden, so lässt sich die durchschnittli che Devianz χ 2H direkt über die Anzahl an Freiheitsgraden ermitteln. Folglich ergibt die Differenz aus χ2H − df annähernd den Wert 0, wenn das hypothetische Modell dem saturierten Modell entspricht. Sollte unter der Voraussetzung einer sehr guten Modell anpassung der χ 2 -Testwert kleiner ausfallen als die Zahl der Freiheitsgrade, so ergibt sich ein negativer Wert für den Zähler. Dabei wird für den Zähler der Wert 0 eingesetzt und der RMSEA nimmt auch in diesem Fall den bestmöglichen Wert 0 an (vgl. Hu & Bentler 1999, S. 3). Der Wert 1 kann prinzipiell überschritten werden, allerdings ge schieht dies in der Praxis äußerst selten (vgl. Brown 2015, S. 72). Indem durch die (um den Wert 1 reduzierte) Anzahl der Fälle dividiert wird, gibt der RMSEA einen über die Anzahl der Personen gemittelten Wert aus. Dieser wird durch die Zahl der Freiheitsgrade dividiert. So wird berechnet, wie hoch der mittle re Fehler im Verhältnis zu den nicht genutzten Schätzungen ist. Ist das Verhältnis pro Freiheitsgrad hoch, so ist der mittlere Fehler – unter Kontrolle der Sparsamkeit des Modells – hoch und das Modell somit schlecht angepasst. Ist dieses Verhältnis sehr gering, so ist die Abweichung vom perfekten Modell gering, was auf ein gutes Modell hinweist (vgl. zu diesem Abschnitt Reinecke 2014, S. 117–118).
3.2.2 TLI: Tucker-Lewis Index Der TLI zählt zur Gruppe der inkrementellen oder komparativen Fit-Indizes (vgl. Hu & Bentler 1999, S. 2–3; Reinecke 2014, S. 123–125). Ledyard R. Tucker und Charles Lewis haben den TLI bereits im Jahr 1973 entwickelt (vgl. Steiger 2007, S. 896). Als ein Good ness-of-fit-Index misst der TLI die Güte des Modells; dabei sprechen höhere Werte für ein besseres Modell (vgl. Tucker & Lewis 1973, S. 4–5). Der TLI ist wie folgt definiert: TLI =
χ 2B df B
−
χ 2B df B
χ 2H df H
−1
(3.2.2)
Im Zähler des Terms findet sich die Differenz zwischen dem Verhältnis der Devianz und der Freiheitsgrade des Nullmodells (B) und dem entsprechenden Term für das hypothetische Modell (H). Im Nenner der Formel findet sich wiederum das Verhältnis aus der Devianz und den Freiheitsgraden des Nullmodells, von dem der Wert 1 sub trahiert wird. Eine verhältnismäßig große Abweichung respektive Devianz zwischen dem satu rierten Modell und dem Nullmodell (χ 2B ) führt zu einem tendenziell hohen positiven
3.2 Fit-Indizes | 31
Wert. Ein Modell, das gut zu den Daten passt, weist eine relativ geringe Devianz (χ 2H ) und geringe Abweichung von dem saturierten Modell auf. In jenem Fall würde die Ab χ2
χ2
weichung im Zähler ( dfBB − dfHH ) hoch und umso höher, je mehr Freiheitsgrade (dfH ) das hypothetische Modell aufweist. Sparsamere Modelle werden so über die Korrek tur mittels der Freiheitsgrade belohnt (vgl. Brown 2015, S. 73). Sollte das Verhältnis χ 2H df H kleiner als 1 werden, die Differenz zwischen dem hypothetischen Modell und dem saturierten Modell im Verhältnis zur Anzahl der Freiheitsgrade entsprechend äußerst gering sein, so würde der Zähler größer als der Nenner des TLI und der TLI einen Wert größer als 1 annehmen.²³ Da der Wert des TLI nicht zwangsläufig innerhalb des In tervalls [0, 1] liegt, wird der TLI auch als Non-Normed Fit Index (NNFI) bezeichnet (vgl. Byrne 2012, S. 71; Reinecke 2014, S. 123–124).
3.2.3 CFI: Comparative Fit Index Der CFI gehört ebenso wie der TLI zu den inkrementellen Fit-Indizes (vgl. Hu & Bentler 1999, S. 2–3) und vergleicht das hypothetische Modell mit dem Nullmodell. Peter M. Bentler entwickelte diesen Index 1990 mittels einer Modifizierung des von McDonald und Marsh entwickelten Relative Noncentrality Index (RNI) (vgl. Hu & Bentler 1999, S. 3). Während der RNI wie der TLI außerhalb der Grenzen 0 und 1 liegen kann, ist der CFI auf den Wertebereich zwischen 0 und 1 standardisiert (vgl. zu diesem Abschnitt auch Reinecke 2014, S. 125). Der CFI lässt sich mithilfe der folgenden Formel berechnen (vgl. Bentler 1990, S. 240–241): max [χ2H − dfH , 0] CFI = 1 − (3.2.3) max [χ 2B − dfB , χ2H − dfH , 0] Bei der Berechnung des CFI wird das Verhältnis aus der um die Anzahl der Freiheits grade reduzierten Devianz des hypothetischen Modells (H) zur um die Anzahl der Frei heitsgrade reduzierten Devianz des Nullmodells (B) vom Wert 1 subtrahiert; allerdings gilt diese Formel ausschließlich, sofern die Anzahl der Freiheitsgrade des hypotheti schen Modells nicht den χ2H -Testwert übersteigt und – wie zumeist – das hypotheti sche Modell, gemessen an den Freiheitsgraden, eine größere Erklärungskraft als das Nullmodell hat. Je sparsamer das Modell ist, desto größer ist die Anzahl der Freiheitsgrade des hypothetischen Modells dfH respektive desto mehr mögliche freie Schätzungen ver bleiben. Der Zähler wird für sparsame Modelle kleiner. Der Zähler wird ebenfalls klei ner, je geringer die Abweichung des hypothetischen Modells vom saturierten Modell χ 2H ist. Für sparsame Modelle, die zudem annähernd so viel Streuung erklären wie das 23 Im Rahmen moderner Statistik-Software wie Mplus wird der TLI auf 0 und 1 fixiert, falls der jewei lige Wert unter- bzw. überschritten wird (vgl. Byrne 2012, S. 71 und Christ & Schlüter 2012, S. 39).
32 | 3 Die Güte von Strukturgleichungsmodellen
perfekte Modell, wird der Zähler des Terms und somit der gesamte Term annähernd 0. In einem solchen Fall liegt der CFI annähernd beim Wert 1, was für ein sehr gutes Mo dell spricht (vgl. zu diesem Teilabschnitt Reinecke 2014, S. 124). Der Vergleich mittels des χ2 -Tests für das Nullmodell findet sich im Nenner des Terms. Das heißt, dass je näher das hypothetische Modell im Verhältnis zum Nullmodell am saturierten Modell liegt, desto geringer wird der Quotient und desto höher wird der Wert des CFI (vgl. zu diesem Abschnitt auch Brown 2015, S. 72–73). Sollte die Anzahl der Freiheitsgrade des hypothetischen Modells den χ 2H -Testwert übersteigen, was ausschließlich bei einem sehr gut angepassten Modell möglich ist, so wird im Zähler der Wert 0 eingesetzt. In jenem Fall liegt der CFI beim Maximal wert 1. Der kleinstmögliche Wert 0 wird für den CFI dadurch festgelegt, dass im Fall eines sehr schlecht angepassten hypothetischen Modells, das sehr viele Freiheitsgra de verbraucht und dabei sehr wenig erklärt, für den Nenner die Differenz von χ2H − dfH eingesetzt wird, wenn der Term χ 2B − dfB kleiner wird als die Differenz für das hypothe tische Modell. Das führt dazu, dass der Quotient im zweiten Teil der Formel den Wert 1 annimmt und der CFI entsprechend beim Wert 0 liegt. Dieser Fall sollte kaum auftre ten, da ein derart schlecht angepasstes Modell viele unsinnige Parameter beinhalten müsste.
3.2.4 SRMR: Standardized Root Mean Square Residual Peter M. Bentler hat den Standardized Root Mean Square Residual (SRMR) im Jahr 1995 entwickelt. Der SRMR zählt wie der RMSEA zur Gruppe der absoluten Fit-Indizes (vgl. Hu & Bentler 1999, S. 2) und vergleicht das hypothetische Modell nur mit dem saturierten Modell und nicht mit einem restringierteren Modell, wie es bei den inkre mentellen Fit-Indizes der Fall ist. Folgende Formel beschreibt den SRMR (vgl. Bentler 1995, S. 271): p i r2ij ] SRMR = √2 ⋅ [ ∑ ∑ p ⋅ (p + 1) i=1 j=1 ] [
(3.2.4)
Der SRMR gibt die durchschnittliche Abweichung zwischen den geschätzten Korrela tionen und den beobachteten Korrelationen wieder. Die Abweichungen zwischen den hypothetischen und beobachteten Korrelationen (r ij ) werden quadriert und aufsum miert und durch den Term (p ⋅ (p + 1)) dividiert. Schließlich wird dieser Term mit dem Wert 2 multipliziert; dadurch fließt die Anzahl der Freiheitsgrade²⁴ in die Formel ein. Diese Anzahl wird für kovarianzanalytische Modelle über die Formel p⋅(p+1) berechnet 2
24 Diese folgt hierbei dem mathematischen Ansatz und entspricht der Anzahl an Werten auf und unter der Diagonale innerhalb der Kovarianzmatrix und damit der Anzahl von Kovarianzen und Varianzen.
3.2 Fit-Indizes | 33
und fließt dadurch in die Formel des SRMR ein, dass zunächst die aufsummierten qua drierten Fehlerkorrelationen durch den Zähler dieser Teilformel (p ⋅ (p + 1)) dividiert und schließlich mit dem Wert 2 multipliziert werden bevor schließlich die Quadrat wurzel des Terms gezogen wird (vgl. zu diesem Abschnitt Brown 2015, S. 70–71; Hu & Bentler 1999, S. 3). Je größer die durchschnittliche Abweichung des Modells von den Daten ist, desto größer wird der SRMR. Der SRMR korrigiert weder für die Modellkomplexität noch ver gleicht er das Modell mit dem Nullmodell. Betrachtet werden bei diesem Maß lediglich die absoluten Fehler (vgl. zu diesem Abschnitt Byrne 2012, S. 76). Dahingehend unter scheidet sich der SRMR von allen anderen betrachteten Gütemaßen: Während diese über den χ 2 -Test die Devianz in die Modellanpassung einbeziehen, bezieht sich der SRMR auf die Abweichungen der Korrelationen.
4 Fit-Indizes als Indikatoren der Güte Fit-Indizes werden genutzt, um die statistische Güte eines theoretischen Modells zu bewerten. Sie können somit dabei helfen, ein Modell als statistisch schlecht angepasst oder akzeptabel zu identifizieren. Die Forschungsliteratur weist darauf hin, dass ver schiedene Fit-Indizes unterschiedliche Aspekte berücksichtigen, die in Zusammen hang mit der Bewertung der Güte stehen, zum Beispiel die Fallzahl und die Modell komplexität (vgl. Tanaka 1993, S. 15). Zudem reagieren die verschiedenen Gütemaße unterschiedlich stark auf verschiedene Arten der Fehlspezifikation eines Strukturglei chungsmodells sowie auf die Verteilung der Daten. Der folgende Abschnitt (Kapitel 4.1) dient dazu, aufzuzeigen, inwiefern diese As pekte hinsichtlich der hier behandelten Gütemaße in der Forschungsliteratur berück sichtigt werden. Daraus lassen sich konkrete Erwartungen für einzelne Sensitivitäten der behandelten Fit-Maße ableiten. Diese Forschungserwartungen werden innerhalb dieses Kapitels entwickelt. Abschnitt 4.2 greift die im wissenschaftlichen Diskurs emp fohlenen Schwellenwerte für die einzelnen Gütemaße auf. Der begrenzte Nutzen die ser konkreten Schwellenwerte wird dabei herausgestellt und der Vorschlag von Hu und Bentler (1999), für die Überprüfung jedes Modells zwei Fit-Indizes zu verwenden, aufgegriffen und genauer betrachtet.
4.1 Implikationen der Fit-Indizes Unter den Fit-Indizes lassen sich normierte und nicht normierte Maße voneinander unterscheiden. Fit-Indizes, die auf einen bestimmten Wertebereich normiert sind, werden nicht normierten Fit-Indizes vorgezogen, da sie eine leichtere Interpretier barkeit bieten (vgl. Gerbing & Anderson 1993, S. 41; Tanaka 1993, S. 23–24). Für die hier untersuchten Fit-Indizes gilt annähernd ein Wertebereich von 0 bis 1 (vgl. Brown 2015, S. 71–72; Reinecke 2014, S. 127). Modelle, in denen sehr viele Zusammenhänge geschätzt werden, erklären tenden ziell allein aufgrund der vielen Schätzungen mehr Streuung als sparsame Modelle, die wenige Schätzungen beinhalten. Die Modellsparsamkeit ist folglich ein wichtiges Kri terium bei der Bewertung der Modellgüte (vgl. Tanaka 1993, S. 22). Dass in einem kom plexen Modell viele Freiheitsgrade aufgebraucht werden und deshalb viel Streuung er klärt wird, bedeutet nicht, dass das Modell auch Zusammenhänge beinhaltet, die von inhaltlich substanziellem Interesse sind. Ein sparsames Modell, mit dem viel Streuung erklärt wird, beinhaltet in den meisten Fällen einzelne Schätzungen, die viel Streuung erklären und damit tendenziell inhaltlich relevanter sind als Schätzungen, die wenig Streuung erklären. Die Fit-Indizes wurden diesbezüglich bereits untersucht. So be steht in der Literatur Einigkeit darüber, dass der CFI und der SRMR die Anzahl der Schätzungen kaum berücksichtigen, während der TLI die Modellsparsamkeit ebenso https://doi.org/10.1515/9783110624199-004
36 | 4 Fit-Indizes als Indikatoren der Güte
in die Modellbewertung einbezieht wie der RMSEA (vgl. Brown 2015, S. 71–73; Byrne 2012, S. 73–74; Kline 2005, S. 137–143; Hu & Bentler 1999, S. 3). Die Anzahl der Schätzungen eines Strukturgleichungsmodells hängt mitunter von der Anzahl an Variablen im Modell ab. So werden bei Modellen mit vielen Indikatoren zwangsläufig viele Zusammenhänge geschätzt. Gerbing & Anderson (1993, S. 50–51) legen nahe, dass bestimmte Fit-Indizes die Güte von Modellen mit vielen Indikatoren oder vielen Faktoren automatisch schlechter einstufen²⁵, der TLI diese Komplikation jedoch nicht aufweist. Zwar gibt die Literatur keinen expliziten Hinweis darauf, aller dings zeigen unter anderem die Ergebnisse der Simulationsstudie von Hu und Bentler (1999, S. 27), dass neben dem TLI auch die Fit-Indizes CFI, RMSEA und SRMR für die Bewertung von sparsamen und komplexen Modellen ähnlich gut geeignet sind.²⁶ Gerbing und Anderson (1993, S. 43) weisen zudem darauf hin, dass bestimmte FitIndizes hohe Werte für die Modellgüte aufweisen können, wenn das Messmodell sehr gut angepasst ist, während das oftmals eigentlich interessierende Strukturgleichungs modell keine akzeptable Güte aufweist. Dies wird durch den Umstand bedingt, dass im Rahmen des Messmodells mit den Faktorladungen zumeist viele Parameter geschätzt werden, während im Rahmen des Strukturmodells im Vergleich dazu wenige Zusam menhänge analysiert werden. Die hier untersuchten Fit-Indizes weisen derartige Sen sitivitäten bisherigen Erkenntnissen zufolge nicht auf. Demzufolge weist der SRMR ein besonders hohes Maß an Sensitivität gegenüber Fehlspezifikationen des Struktur modells auf, während der CFI, der TLI und der RMSEA als die mitunter sensitivsten Fit-Indizes bezüglich möglicher Fehlspezifikationen des Messmodells gelten (vgl. Hu & Bentler 1999, S. 16). Gerbing und Anderson (1993) beschreiben den idealen Fit-Index unter anderem dadurch, dass dieser die Güte unabhängig davon angibt, ob dem Modell eine kleine oder große Stichprobe zugrunde liegt (vgl. Gerbing & Anderson 1993, S. 41). Die Er gebnisse von Bentlers Simulationsstudie (1990) legen nahe, dass der CFI allenfalls minimal in Abhängigkeit zur Fallzahl steht, wobei für perfekt angepasste Modelle stets eine geringe Verzerrung nach unten besteht beziehungsweise der Wert 1 leicht – und für große Fallzahlen nur noch marginal – unterschritten wird (vgl. Bentler 1990, S. 246). Für den TLI gilt eine ebenso geringe Sensitivität gegenüber der Stichproben größe (vgl. Gerbing & Anderson 1993, S. 50) und auch der RMSEA gilt als robust ge genüber der Fallzahl (Brown 2015, S. 71). Während Chen den SRMR ebenfalls als rela tiv robust gegenüber der Fallzahl einstuft (vgl. Chen 2007, S. 467; sowie auch Cangur & Ercan 2015, S. 157), merkt Yu (2002, S. 161) an, dass der SRMR im Gegensatz zum RMSEA, TLI und CFI sensitiv auf die Fallzahl reagiert; Hooper et al. (2008) präzisieren
25 So z. B. der Goodness-of-Fit Index (GFI) und der Adjusted Goodness-of-Fit Index (AGFI), die hier sowie in den meisten aktuellen Forschungsarbeiten nicht näher betrachtet werden. 26 Diese Forschungserwartung ist in Tabelle 4.1.1 unter Komplexität festgehalten.
4.1 Implikationen der Fit-Indizes | 37
Tab. 4.1.1: Forschungserwartungen zu den Sensitivitäten der Fit-Indizes.
RMSEA TLI CFI SRMR
Fallzahl
Komplexität des Modells
Fehlspezifikation des Messmodells
Fehlspezifikation des Strukturmodells
Schiefe der Indikatoren
nein+ nein+ nein+ ja–
nein+ nein+ nein+ nein+
ja+ ja+ ja+ nein–
nein– nein– nein– ja+
nein+ nein+ nein+ nein+
Zusätzlich angegeben ist die Bewertung der entsprechenden Eigenschaften als hilfreich (+) oder hin derlich (–) für die Modellevaluation.
diesen Umstand insofern, als dieses Gütemaß Modelle mit steigender Fallzahl besser einstuft (vgl. Hooper et al. 2008, S. 55). Es stellt sich folglich die Frage, inwiefern der SRMR als sensitiv gegenüber der Fallzahl eingestuft werden kann und ob diese potenzielle Sensitivität für die gesamte Spannweite an Stichprobengrößen gilt, die in den Sozialwissenschaften üblich sind. Beispielsweise wäre denkbar, dass sich ein Anstieg in der Fallzahl zwar bis zu einer ge wissen Stichprobengröße (z. B. n = 1000) bemerkbar macht, ab dieser Höhe allerdings Veränderungen der Fallzahl kaum Auswirkungen auf die Höhe des SRMR haben. Dies bezüglich sei darauf hingewiesen, dass der SRMR aufgrund einer solchen Sensitivität bei großen Stichproben möglicherweise selbst dann im akzeptablen Bereich liegen könnte, wenn dem Modell grobe Fehlspezifikationen zugrunde liegen. Eine eindeu tige Forschungserwartung ergibt sich aufgrund der unterschiedlichen Annahmen in nerhalb der Literatur nicht. Allerdings lässt sich eine Fallzahlsensitivität am ehesten für den SRMR ableiten (siehe dazu Tabelle 4.1.1). Im Rahmen der linearen Strukturgleichungsmodellierung muss ein Schätzverfah ren zur Schätzung der Modellparameter gewählt werden. Besonders häufig ist dies die Maximum-Likelihood-Schätzmethode (ML-Schätzmethode) (vgl. Brown 2015, S. 92), der die Annahme der Normalverteilung der Variablen zugrunde liegt (vgl. Muthén 1993, S. 206). Das macht die Robustheit der Fit-Indizes hinsichtlich der Verteilungen der Indikatoren äußerst relevant. Aus der Simulationsstudie von Yu (2002, S. 55–66) geht hervor, dass die Fit-Indi zes im Rahmen der ML-Schätzung sensitiv auf Verletzungen der Normalverteilungs annahme reagieren. Dabei wurde eine Verletzung der Normalverteilung sowohl über erhöhte Kurtosiswerte als auch über eine erhöhte Schiefe spezifiziert.²⁷ Die größte Fall zahl wurde in dieser Studie auf n = 1000 festgelegt. Mit stärkerer Verletzung der Nor malverteilung sinkt dabei für den SRMR die Rate korrekt verworfener Modelle, folglich 27 Die Schiefe wird als drittes Moment um den Mittelwert bezeichnet, während die Kurtosis das vierte Moment darstellt. Für weitere Informationen zur Schiefe und Kurtosis siehe Kühnel & Krebs (2007, S. 102–103) oder Reinecke (2014, S. 32)
38 | 4 Fit-Indizes als Indikatoren der Güte
stuft dieses Gütemaß einen größeren Anteil fehlspezifizierter Modelle als korrekt ein (vgl. Yu 2002, S. 64–66). Im Gegensatz dazu wird für den RMSEA, den CFI und den TLI mit stärkerer Verletzung der Normalverteilung der Indikatoren ein höherer Anteil an fehlspezifizierten Modellen korrekterweise abgelehnt (vgl. Yu 2002, S. 55–63). Hu und Bentler (1999) haben in einer umfangreichen Simulationsstudie eben falls den Effekt der Verteilung der Indikatoren auf die Fit-Indizes untersucht und herausgestellt, dass mit unterschiedlichen Verteilungsspezifikationen die Höhe der vier relevanten Fit-Indizes variiert (vgl. Hu & Bentler 1999, S. 27–28). Allerdings wurde in dieser Studie die Verletzung der Normalverteilungsannahme lediglich über un terschiedliche Werte der Kurtosis, jedoch nicht über unterschiedliche Schiefegrade untersucht (vgl. Hu & Bentler 1999, S. 8).²⁸ Weder in der Simulationsstudie von Hu und Benter (1999) noch in jener von Yu (2002) wird der Einfluss von schiefen Indikatoren auf die Fit-Indizes isoliert be trachtet. Auch Byrne (2012, S. 98–99) legt den Fokus der Verletzung multivariater Normalverteilung im Rahmen von Strukturgleichungsmodellen deutlich stärker auf die Ausprägung der Kurtosis als auf die Schiefe der Verteilung: Byrne verweist auf De Carlo (1997), der die Befunde von Jobson (1991, S. 55–56) und Bibby et al. (1979, S. 148–149) darlegt, denen zufolge die Kurtosis stärkere Auswirkungen auf varianz analytische Schätzungen hat als die Schiefe. Jobson (S. 56) weist ebenso wie Muthén (1993, S. 206) explizit darauf hin, dass der χ 2 -Test bei Verletzung der Normalvertei lungsannahme Verzerrungen aufweisen kann. Diese Verzerrungen schätzt Jobson (S. 56) für stark abweichende Kurtosiswerte als gravierender ein als für eine starke Schiefe der Variablen. Byrne weitet diese Annahme auf die Fit-Indizes aus und legt nahe, dass vor allem die χ2 -basierten Fit-Maße CFI, TLI und RMSEA bei einer erhöhten Kurtosis irreführende Schlüsse implizieren (vgl. Byrne 2012, S. 99). Der Effekt schiefer Variablen auf die Fit-Indizes wird als geringfügig aufgefasst (vgl. dazu Tabelle 4.1.1), allerdings gibt es dazu bislang keine umfassenden Analysen. Tabelle 4.1.1 fasst die Forschungsannahmen der vorliegenden Studie zusammen. Diese beziehen sich auf Aspekte, die sich dem Forschungsstand zufolge auf die Höhe der Fit-Indizes auswirken können und somit bei der Bewertung eines Modells mittels der Fit-Indizes von starker Relevanz sind. Zu beachten ist, dass bestimmte Sensitivitä ten wie jene bezüglich der Fehlspezifikation des Mess- oder Strukturmodells hilfreich für die Evaluation der Güte sind (ja/+), während zum Beispiel eine Sensitivität ge genüber der Fallzahl die Bewertung der Güte erschwert (ja/–). Der Literatur zufolge reagieren der RMSEA, der TLI und der CFI nicht besonders sensitiv auf die Fallzahl. In Anlehnung an Hooper, Coughlan und Mullen (2008, S. 55) wird erwartet, dass der
28 Zwar hat Boomsma (1983) eine umfangreiche Simulationsstudie zu Strukturgleichungsmodellen durchgeführt und dabei den Einfluss der Kurtosis und der Schiefe auf die Höhe bestimmter Schätzpa rameter im Rahmen der ML-Schätzung gesondert untersucht (vgl. Boomsma 1983, S. 48); allerdings wurde deren Effekt auf die in der vorliegenden Arbeit relevanten Fit-Indizes dabei nicht untersucht (vgl. Boomsma 1983, S. 28).
4.2 Schwellenwerte |
39
SRMR sensitiv auf die Fallzahl reagiert. Das ist in der Spalte „Fallzahl“ der Tabelle 4.1.1 mit der Forschungserwartung „ja“ vermerkt. Eine Sensitivität gegenüber der Modell komplexität ist obigen Ausführungen zufolge ebenso wie eine Sensitivität gegenüber der Schiefe der Variablen nicht hilfreich (–) bei der Modellbewertung; der Forschungs literatur zufolge ist die letztgenannte Sensitivität – ebenso wie jene bezüglich der Mo dellkomplexität – nicht zu erwarten (vgl. Tabelle 4.1.1). Der isolierte Effekt der Schiefe wurde allerdings bislang nicht untersucht und ist gerade aus diesem Grund von be sonderem Interesse.
4.2 Schwellenwerte Fit-Maße können der forschenden Person nur in jenem Fall helfen, wenn mit ihnen jeweils konkrete Orientierungswerte einhergehen, die Urteile bezüglich des Anpas sungsgrades eines Modells erlauben. Bisherige Forschungsarbeiten haben sich aus führlich mit den optimalen Schwellen für die einzelnen Fit-Indizes beschäftigt, wobei die Vorschläge teilweise variieren. Browne und Cudeck (1993, S. 146–147) erläutern im Zuge ihrer Empfehlungen zu den Schwellenwerten der Fit-Indizes einen wichtigen Aspekt beim Umgang mit die sen: So handelt es sich bei den Schwellenwerten für Gütemaße jeweils um eine sub jektiv gesetzte Grenze. Schließlich bewegt sich die Modellgüte auf einem Kontinuum, bei dem nicht ab einem bestimmten Wert von einem guten Modell gesprochen werden kann, während ein Modell, das lediglich minimal weniger erklärt, bereits als schlecht angepasst eingestuft wird. Die Autoren geben allerdings berechtigterweise zu beden ken, dass es sich bei dem in den Sozialwissenschaften etablierten Signifikanzniveau von 5 % ebenfalls um eine gleichermaßen arbiträr gewählte Schwelle handelt. Derarti ge Grenzwerte sind trotz ihrer willkürlichen Bestimmung notwendig, um forschenden Personen den Umgang mit den jeweiligen Parametern zu erleichtern. Browne und Cudeck (1993) interpretieren einen RMSEA kleiner oder gleich 0.05 als Hinweis auf ein gut angepasstes Modell und einen Wert kleiner als 0.08 als Indi kator für eine akzeptable Güte; RMSEA-Werte größer als 0.1 implizieren dagegen eine schlechte Modellanpassung (Browne & Cudeck 1993, S. 144). Dieser Konvention schlie ßen sich Bollen & Curran (2006, S. 47), Brown (2015, S. 72) sowie Reinecke (2014, S. 118) an. Hu & Bentler (1999, S. 1) kommen zu dem Schluss, dass ein Schwellenwert von 0.06 zu der geringsten Fehlerrate führt und setzen entsprechend diese etwas weniger strik te Grenze von 0.06 für ein gut angepasstes Modell an. Auch unter Berücksichtigung dieses leicht abweichenden Vorschlags besteht ein weitgehender Konsens bezüglich der Schwellen des RMSEA. Simulationsstudien können den akzeptablen Wertebereich einzelner Fit-Indizes eingrenzen und dabei die von Browne & Cudeck aufgegriffene Subjektivität bei der Wahl eines festen Schwellenwertes abschwächen. Die Ergebnisse der Simulationsstu dien von Hu und Bentler (1999, S. 1) legen für den CFI einen Schwellenwert von 0.95 na
40 | 4 Fit-Indizes als Indikatoren der Güte
he. Dieser Schwellenwert stößt auf einen starken Konsens in der Forschungsgemein schaft (vgl. z. B. Brown 2015, S. 74; Christ & Schlüter 2012, S. 39; Iacobucci 2010, S. 90). Es finden sich lediglich minimale Abweichungen beispielsweise bei Reinecke (2014, S. 127) und bei Yu (2002, S. 43), die eine etwas strengere Untergrenze von 0.96 vor schlagen. Weiterhin scheint unumstritten, dass ein Wert kleiner als 0.9 dafür spricht, das Modell zu verwerfen (vgl. dazu z. B. Brown 2015, S. 74–75 und Byrne 2012, S. 70). Für den TLI werden ähnliche Schwellen vorgeschlagen wie für den CFI.²⁹ Liegt der TLI für ein bestimmtes Modell über dem Wert 0.95, so spricht dies für eine gute Mo dellanpassung (vgl. Hu & Bentler 1999, S. 1; Kaplan 2009, S. 113 und Reinecke 2014, S. 127). Die Vorschläge zur Schwelle des SRMR variieren stärker als für die anderen Fit-Indizes: Hu & Bentler (1999, S. 1) haben im Rahmen ihrer Simulationsstudien für den SRMR eine Obergrenze von 0.08 ermittelt. Kline (2005) schlägt hingegen die et was weniger strenge Grenze von 0.1 vor, während eine Reihe von Autoren (vgl. Byrne 2012, S. 76; Reinecke 2014, S. 119 und Yu 2002, S. 43) eine Obergrenze von 0.05 als angemessen betrachten. Da die unterschiedlichen Fit-Indizes verschiedene Aspekte der Modellgüte be achten, formulieren Hu & Bentler den plausiblen Vorschlag, bei der Evaluation eines Strukturgleichungsmodells stets zwei Fit-Indizes zu berücksichtigen (vgl. Hu & Bent ler 1999, S. 23). Ihrem Vorschlag zufolge sollte der SRMR in Kombination mit einem weiteren Fit-Index genutzt werden. Aus den Ergebnissen der Autoren geht hervor, dass die Kombination des SRMR mit dem CFI zu den mitunter geringsten Fehlern geführt hat (Hu & Bentler 1999, S. 24).³⁰ Sinnvoll ist dies insofern, als die Forschungslitera tur nahelegt, dass der SRMR das Strukturmodell besonders berücksichtigt, jedoch im Gegensatz zum CFI nicht für die Stichprobengröße korrigiert (siehe Tabelle 4.1.1). Allerdings könnte eine Kombination aus dem SRMR und dem TLI beziehungsweise dem RMSEA eine bessere Option als die Empfehlung von Hu und Bentler darstellen (vgl. Kapitel 4.1): Zwar berücksichtigen – der Forschungsliteratur zufolge – sowohl der TLI als auch der RMSEA wie der CFI die Größe der Stichprobe; jedoch nehmen sie darüber hinaus Korrekturen bezüglich der Modellkomplexität vor, während weder der CFI noch der SRMR dazu geeignet sind, dies zu tun. Prinzipiell soll die Verwendung mehrerer bewährter Fit-Indizes die Modellevalua tion erleichtern, insbesondere, wenn diese jeweils unterschiedliche Aspekte der Güte besonders gewichten. So ließe sich annehmen, dass ein Modell, das unter Berücksich tigung der Stichprobengröße, der Modellkomplexität und der gegebenen Verteilungen
29 Das hängt unter anderem damit zusammen, dass es sich bei beiden Maßen um Goodness-of-fit Indizes handelt. Zwar kann der TLI grundsätzlich außerhalb der Grenzen 0 und 1 liegen, allerdings geschieht dies in der Praxis selten. Bollen (1989b, S. 273) und Reinecke (2014, S. 124) weisen darauf hin, dass eine Überparametrisierung des Modells dazu führen könnte, dass der Wert 1 überschritten wird. 30 Es sei darauf hingewiesen, dass sowohl der SRMR als auch der CFI von Peter M. Bentler entwickelt wurden.
4.2 Schwellenwerte | 41
der Indikatoren einen hinreichend großen Anteil der Zusammenhänge innerhalb der Daten erklärt und somit im statistischen Sinn gut angepasst ist, mithilfe der Fit-Indizes als gut angepasst bewertet werden kann. Ebenso wäre anzunehmen, dass ein Modell, das (zu) wenige Zusammenhänge in den Daten wiedergibt, als nicht gut angepasst identifiziert werden kann. Die simultane Verwendung von RMSEA, TLI, CFI und SRMR sollte dazu führen, dass jeder Aspekt bei der Modellbewertung Berücksichtigung fin det und die Entscheidung, das Modell beizubehalten oder zu verwerfen, deutlich er leichtert wird. In der Praxis gestaltet sich die Modellbewertung allerdings oftmals schwieriger, als es die bisherigen Ausführungen vermuten lassen. Wenn ein Modell mithilfe sämt licher Fit-Indizes als gut angepasst bewertet werden kann, ist die Entscheidung leicht. Sollte allerdings ein Strukturgleichungsmodell beispielsweise auf Basis der Schwellen des SRMR, des CFI und des RMSEA als gut angepasst bewertet werden, der TLI aller dings nicht über der akzeptierten Grenze liegen, so ist der forschenden Person in den meisten Fällen nicht klar, inwiefern dieses Modell hinsichtlich bestimmter Aspekte (nicht) akzeptabel ist. Um folglich den Umgang mit Fit-Indizes in der Forschungspra xis zu erleichtern, wird in der vorliegenden Arbeit ein umfassendes Forschungsdesign implementiert, das in dem folgenden Kapitel beschrieben wird.
5 Methode Im Rahmen der vorliegenden Arbeit werden die Fit-Indizes mithilfe einer Monte-CarloSimulation untersucht. Eine Monte-Carlo-Simulation dient dazu, die Verteilung be stimmter Parameter zu untersuchen. Dazu wird eine konkrete Population spezifiziert, aus der eine festgelegte Anzahl an Stichproben gezogen wird. Bestimmte Kennwerte dieser Stichproben liegen dabei im Zentrum des Interesses und können mittels einer vielfachen Stichprobenziehung umfänglich untersucht werden. Auch wenn die Da ten bei einer solchen Simulation fiktiv sind, lassen sich die Ergebnisse durchaus auf Analyseszenarien mit realen Daten beziehen. So können Simulationsergebnisse die Auswertung realer Daten deutlich verbessern. Sämtliche wissenschaftliche Erkenntnisse zu den Fit-Indizes ergeben sich aus derartigen Simulationsstudien (vgl. Gerbing & Anderson 1993, S. 48–56). Innerhalb der Zeitschrift Structural Equation Modeling beinhaltet knapp ein Drittel der veröffent lichten Artikel Monte-Carlo-Studien (vgl. Boomsma 2013, S. 518). Muthén und Muthén (2002, S. 600) weisen explizit darauf hin, dass sich Monte-Carlo-Simulationen sehr gut dafür eignen, Fit-Indizes zu untersuchen. Die Analyse wird mittels der Software R durchgeführt. Diese Software ist nütz lich, um umfangreiche Simulationsstudien mit vielen unterschiedlichen Stichprobenund Datencharakteristiken durchzuführen: Zum einen besteht die Möglichkeit, Funk tionen, die nicht in Form eines sogenannten Pakets innerhalb der Software abrufbar sind, selbst zu programmieren; zum anderen bietet das bereits bestehende R-Paket „simsem“ eine Routine, die spezifisch für Simulationen mit Strukturgleichungsmo dellen entwickelt wurde. Für die vorliegende Simulationsstudie wird Version „simsem 0.5-14“ dieses Pakets genutzt (vgl. Pornprasertmanit et al. 2013, S. 187–197).
5.1 Monte-Carlo-Simulationen Im Rahmen einer Monte-Carlo-Simulation wird eine fiktive Population hinsichtlich bestimmter Merkmale definiert und eine große Anzahl an Stichproben aus dieser spe zifischen und bekannten Population gezogen. Die Kennwerte der gezogenen Stichpro ben streuen mehr oder weniger stark um den entsprechenden Populationskennwert, der als wahrer Wert verstanden werden kann. Diese Streuung ist bei der Durchführung einer Monte-Carlo-Simulation oftmals von primärem Interesse. So können damit Aus sagen über die Genauigkeit und Zuverlässigkeit einer bestimmten Schätzung getroffen werden (vgl. Boomsma 1983, S. 22). Zu beachten ist, dass die Definition der Population bei einer Monte-Carlo-Simula tion nicht über die Fälle erfolgt, sondern über die festgelegten Zusammenhänge zwi schen den Variablen des Modells (vgl. Muthén & Muthén 2002, S. 2–3). Die innerhalb der Simulation verwendeten Populationskennwerte müssen von der forschenden Per son selbst festgelegt werden; dabei wird eine Orientierung an in bereits durchgeführ https://doi.org/10.1515/9783110624199-005
44 | 5 Methode
ten Studien verwendeten Werten empfohlen (vgl. Muthén & Muthén 2002, S. 601). Die Populationskennwerte definieren die Datenbasis und damit das korrekte Modell. Im Rahmen von Simulationsstudien kann überprüft werden, ob unter Vorausset zung der zu untersuchenden Stichprobenmerkmale das korrekte Modell als gut an gepasst erkannt wird. Bei einem derartigen Design ließe sich beispielsweise unter suchen, ob bereits mit sehr kleinen Stichproben ein gut passendes Modell korrekt bewertet wird. Des Weiteren besteht die Möglichkeit, mit den Stichproben ein theo retisches Modell zu prüfen, das von dem Populationsmodell abweicht und somit als schlecht angepasst erkannt werden sollte (vgl. zu diesem Abschnitt Schoemann et al. 2014, S. 472–473). Kennwerte wie die Fit-Indizes können mittels einer Monte-Carlo-Simulation fol gendermaßen untersucht werden: Aus einer festgelegten Population werden viele Stichproben gezogen. Für jede dieser Stichproben wird das theoretische Modell, das gegebenenfalls in bestimmter Weise vom festgelegten Populationsmodell abweicht, überprüft. Dafür wird der interessierende Parameter für jede Stichprobe berechnet und gespeichert. Über die Verteilung dieser Stichprobenkennwerte lässt sich der Mittelwert berechnen, der darüber Auskunft gibt, welchen Wert der interessierende Parameter im Mittel annimmt. Dieser mittlere Wert der Stichprobenkennwerte wird auch als Erwartungswert bezeichnet und kann genutzt werden, um bestimmte Ten denzen zu überprüfen, die der entsprechende Parameter bei bestimmten Modellen, Daten und Stichproben aufweist (vgl. Bortz & Schuster 2010, S. 69; Kühnel & Krebs 2007, S. 150–151). Neben dem Erwartungswert eines Parameters kann dessen Standardfehler be rechnet werden. Dieser gibt die durchschnittliche Abweichung der Stichprobenkenn werte vom Populationskennwert an und gibt somit Auskunft darüber, wie gut re spektive mit welchem Ausmaß an Genauigkeit mit einer einzelnen Stichprobe auf den interessierenden Populationskennwert geschlossen werden kann (vgl. Agresti & Finlay 2009, S. 90). Im Rahmen der statistischen Datenanalyse werden Analysen zu meist mittels einer einzigen Stichprobe durchgeführt. Die dabei zu berücksichtigende Schätzungenauigkeit wird mithilfe des Standardfehlers angegeben. Zu beachten ist, dass im Rahmen derartiger Analysen der Standardfehler lediglich geschätzt und nicht berechnet wird. Im Gegensatz dazu ist bei einer Simulationsstudie der interessierende Populationskennwert sowie die durchschnittliche Streuung der jeweils festen Anzahl an Stichproben pro Modell bekannt; bei dieser Streuung handelt es sich um den Standardfehler und zugleich um die Standardabweichung, da die durchschnittliche Streuung berechnet wird. Nur unter Kenntnis dieser Streuung der Stichprobenkennwerte können Rück schlüsse von einem bestimmten Wert in einer einzelnen Stichprobe auf den wahr scheinlichen Wertebereich in der Population gezogen werden. Zusätzlich dazu kann mit einer Monte-Carlo-Simulation untersucht werden, unter welchen Bedingungen bestimmte Annahmen zur Streuung der Stichprobenkennwerte erfüllt sind (vgl. zu diesem Abschnitt Mooney 1997, S. 1–2).
5.2 Studiendesign |
45
Der elementare Vorteil von simulierten Daten ergibt sich aus der Tatsache, dass die Struktur der (fiktiven) Population bekannt ist. Dadurch lässt sich evaluieren, ob und wie stark die einzelnen Stichprobenschätzungen von der Population abwei chen und wie gut die Schätzung selbst gelingt. So lässt sich mittels einer MonteCarlo-Simulation untersuchen, inwiefern bei bestimmten Schätzungen Verzerrungen von Schätzparametern und Standardfehlern bestehen (vgl. Muthén & Muthén 2002, S. 600). Durch einzelne Variationen lässt sich beispielsweise feststellen, aufgrund welcher Merkmale oder Spezifikationen das Modell im Rahmen der Modellbewertung mittels des jeweiligen Parameters als korrekt oder nicht korrekt bewertet wird.
5.2 Studiendesign Innerhalb dieser Studie werden die Gütemaße mittels der oben beschriebenen MonteCarlo-Simulationsmethode analysiert. Dazu wurden verschiedene Studienbedingun gen formuliert, die zunächst einer genaueren Betrachtung unterzogen werden. Die Anzahl an Replikationen pro Bedingung einer Monte-Carlo-Simulation sollte hinreichend groß gewählt werden (vgl. Boomsma 2013, S. 527). Eine größere Anzahl an Replikationen ist sinnvoll, da sie stets mit dem Vorteil einhergeht, dass die Ergebnis se und Verteilungen präziser werden. Während Hu & Bentler (1999) eine Anzahl von 200 Replikationen pro Studienbedingung wählen (vgl. S. 7) und damit den konkreten Empfehlungen von Gerbing & Anderson folgen, dass „[. . . ]a relatively large number of replications for each cell, such as 100 or 200, is desired[. . . ]“ (1993, S. 46), wird hier ebenfalls in Anlehnung an die generelle Empfehlung von Gerbing & Anderson eine Zahl von 1000 Replikationen je Bedingung genutzt.³¹ Die Simulation erfolgt über einen Schätzalgorithmus, der einen Startwert benö tigt. Dieser Startwert wird als Seed bezeichnet. Zu beachten ist, dass die Stichproben kennwerte mit Variation des Seeds variieren können. Um robuste Simulationsergeb nisse zu erhalten, sollte somit möglichst nicht nur ein Seed pro Teilanalyse verwendet werden (vgl. Muthén & Muthén 2002, S. 601). In der vorliegenden Studie wird jede Modellspezifizierung mit jeweils zwei Startwerten aus einem Set aus vier Seeds ana lysiert.³² So wird jede einzelne Modellspezifizierung für zwei dieser vier Seeds analy siert.³³
31 Dabei ist zu beachten, dass sich die Kapazität von Computern, die im privaten Gebrauch genutzt werden, seit dem Ende der 1990er Jahre deutlich erhöht hat, weshalb eine größere Zahl an Replikatio nen schneller und leichter umsetzbar ist (vgl. Díaz-Emparanza 2002, S. 567–577). 32 Die Werte der Seeds wurden zufällig generiert und lauten 2009, 280432, 300428 und 1326510. 33 Die Ergebnisse werden allesamt für lediglich einen der Seeds – jenen mit dem Wert 2009 – angege ben; dies dient der Übersichtlichkeit und somit auch der Nachvollziehbarkeit der Ergebnisse. Sollten sich bei der Variation der Seeds einzelne substanzielle Unterschiede ergeben, so wird darauf im wei teren Verlauf der Ausführungen hingewiesen.
46 | 5 Methode
Das Design beinhaltet sechs unterschiedliche Verteilungsannahmen für die ma nifesten Variablen. Die hier untersuchte ML-Schätzmethode nimmt eine Normalver teilung der Variablen an. Diese stellt die erste zu untersuchende Verteilungsform dar. Untersucht wird auch, wie die Fit-Maße reagieren, wenn die Variablen mehr oder we niger stark rechtsschief verteilt sind, wie sich mehr oder weniger stark linksschiefe Verteilungen auf die Modellbewertung auswirken und wie die Fit-Indizes reagieren, wenn ein Teil der Variablen im Modell linksschief verteilt ist und weitere Variablen im Modell eine rechtsschiefe Verteilung aufweisen. Die Schiefe wird mittels des Algorithmus’ von Vale und Maurelli (1983) spezifiziert (vgl. dazu auch Chou & Bentler 1995, S. 47) und in Anlehnung an Yu (2002, S. 29) für rechtsschiefe Variablen auf den Wert 3 und für linksschiefe Variablen auf den Wert −3 festgelegt. Es handelt sich dabei um sehr schiefe Verteilungen (vgl. Barrett 2001, S. 2–7), die im Folgenden als stark rechtsschief und stark linksschief bezeichnet wer den. Sollten einzelne Fit-Indizes im vorliegenden Forschungsdesign nicht sensibel auf diese Schiefe der Indikatoren reagieren, so ist auszuschließen, dass die in den Sozial wissenschaften übliche Schiefe von Variablen einen Einfluss auf die Höhe des jeweili gen Fit-Maßes hat. Zudem wird untersucht, ob auch bei bereits geringeren und durch aus üblichen Werten der Schiefe eine Auswirkung auf die Bewertung der Güte durch den jeweiligen Fit-Index zu verzeichnen ist.³⁴ Dieser Schiefegrad wird im Rahmen der vorliegenden Arbeit auf den Betrag 1 gesetzt und als moderate Schiefe definiert; ent sprechend liegt die Schiefe für Variablen mit moderat linksschiefer Verteilung beim Wert −1 und für rechtsschief verteilte Indikatoren wird die Schiefe auf den Wert 1 fest gelegt. Zudem wird untersucht, inwiefern ein Anstieg der Schiefe einen Einfluss auf die Höhe der Fit-Indizes hat. Dafür wird die Auswirkung rechtsschiefer Verteilungen ei nerseits und linksschiefer Verteilungen andererseits untersucht. So kann ermittelt werden, ob die Richtung der Schiefe für die Auswirkung des Anstiegs der Schiefe von Bedeutung ist. Analysiert wird der Effekt des Ausmaßes der Schiefe für rechtsschiefe Indikatoren wie für linksschiefe Indikatoren, indem die Ergebnisse eines bestimmten Modells für normalverteilte Indikatoren mit jenen des gleichen Modells mit mode rat schiefen und des Weiteren mit stark schiefen Indikatoren verglichen werden. Um Wechselwirkungen verschiedener Verteilungsformen innerhalb eines Modells zu
34 Dazu lässt sich der European Social Survey (ESS) betrachten, der seit dem Jahr 2002 jeweils in Abständen von zwei Jahren sozialwissenschaftliche Daten veröffentlicht. Teil des Kernfragebogens ist eine elfstufige Skala zu der Frage, wie glücklich die befragte Person ist. Diese Skala ist für forschende Personen aus den Sozialwissenschaften oftmals von Interesse und findet Platz in vielen statistischen Untersuchungen (vgl. zu diesen Ausführungen European Social Survey 2015, S. 1–24). Dabei sollte be achtet werden, dass persönliches Glück positiv konnotiert ist, weshalb die linksschiefe Verteilung die ser Variable nicht verwundert. So gibt stets eine deutliche Mehrheit der Befragten an, eher glücklich als unglücklich zu sein. Im ESS des Jahres 2014 beträgt die Schiefe dieser Variable einen Wert von −1 (siehe dazu Tabelle A.0.1 im Anhang).
5.2 Studiendesign
| 47
überprüfen, wird zusätzlich jede Modellvariante mit Indikatoren berechnet, die je etwa zur Hälfte stark rechtsschiefe und stark linksschiefe Verteilungen aufweisen.³⁵ Insgesamt werden drei Stichprobengrößen untersucht. Die kleinste Stichproben größe wird auf n = 1500 festgelegt.³⁶ Die anderen beiden Stichprobengrößen liegen bei n = 1800 und n = 2200. Die unterschiedlichen Abstände zwischen den drei Fallzahlen dienen dazu, mögliche Effekte genauer zu untersuchen. So sollte sich ein starker li nearer Effekt der Fallzahl dadurch ausdrücken, dass die Veränderung im mittleren Wert eines der Gütemaße mit einem Anstieg von der kleinsten (n = 1500) zur mittleren (n = 1800) Fallzahl geringer ausfällt als beim Anstieg von der mittleren (n = 1800) zur größten (n = 2200) Stichprobengröße. Hinsichtlich der gewählten Stichprobengrößen besteht ein deutlicher Unterschied zu bisherigen Simulationsstudien. Während Hu & Bentler (1999) kleine Stichproben mit n = 250 und eine Vielzahl weiterer Autoren gar Stichprobengrößen mit einer Fallzahl von weniger als 100 Personen in den Fokus ihrer Untersuchungen stellen (vgl. dazu Gerbing & Anderson 1993, S. 48–56), bezieht sich die vorliegende Studie auf große Fallzahlen. Diese sind innerhalb der vorliegenden Arbeit von Interesse, da die Sensitivität des χ2 -Tests besonders für große Stichproben relevant ist. Die drei Populationsmodelle dieser Studie weisen verschiedene Grade der Kom plexität auf und werden demgemäß als das sparsame Modell, das komplexe Modell und das sehr komplexe Modell bezeichnet (vgl. Tabelle 5.2.1). Die Komplexität eines Modells bemisst sich an mehreren Komponenten: Zum einen steigt mit der Anzahl der Indikatoren die Komplexität des Modells dadurch, dass sich mit mehreren Indikatoren mehr mögliche Korrelationen und entsprechend mehr Freiheitsgrade ergeben.³⁷ Damit gehen mehr Möglichkeiten der Modellspezifikation und der Modellfehlspezifikation einher. Dies hat zwangsläufig eine Erhöhung der Komplexität der Modellierung zur Folge. Zudem kann ein Modell als besonders komplex verstanden werden, wenn be sonders viele Zusammenhänge zwischen den Variablen des Modells geschätzt wer den. In der vorliegenden Studie weist das komplexe Modell im Vergleich zum spar samen Modell einen zusätzlichen Faktor auf; dadurch werden mehr Zusammenhänge geschätzt. Außerdem werden die Faktoren des sehr komplexen Modells durch jeweils vier Indikatoren gemessen, während beim komplexen Modell nur jeweils drei Indi katoren pro Faktor bestehen. In der vorliegenden Studie steigt zudem mit steigender
35 Ein Drittel der Modelle besteht aus jeweils sieben Indikatoren (vgl. Tabelle 5.2.1). Dabei ist es ganz offensichtlich nicht möglich, exakt der Hälfte der Indikatoren eine bestimmte Verteilung zuzuwei sen, weshalb für diese Modelle drei Indikatoren eine linksschiefe Verteilung und vier Indikatoren eine rechtsschiefe Verteilung aufweisen. 36 Dies entspricht unter anderem der Mindestfallzahl, die der ESS für eigene Erhebungen innerhalb der ESS Sampling Guidelines festgelegt hat (vgl. dazu ESS Sampling Expert Panel 2016, S. 6–7). 37 Wird der Vergleich zwischen dem Nullmodell und dem saturierten Modell herangezogen, so erge ben sich 15 Freiheitsgrade für das sparsame Modell, 21 Freiheitsgrade für das komplexe Modell und 28 Freiheitsgrade für das sehr komplexe Modell (vgl. Tabelle 5.2.1).
48 | 5 Methode
Tab. 5.2.1: Modellvarianten.
Modellspezifikation
Populationsmodell
fehlspezifiziertes Messmodell
fehlspezifiziertes Strukturmodell
fehlspezifiziertes Gesamtmodell
sparsam
Modellkomplexität komplex
sehr komplex
F1a → x1 x2 x3 x4 F2a → x4 x5 x6 cov(F1a ⋅F2a )
F1b → x1 x2 x3 F2b → x1 x4 x5 F3b → x4 x6 x7 cov(F1b ⋅F2b ) cov(F2b ⋅F3b )
F1c → x1 x2 x3 x4 F2c → x1 x2 x5 x6 F3c → x5 x6 x7 x8 cov(F1c ⋅F2c ) cov(F2c ⋅F3c )
F1a → x1 x2 x3 (0⋅x4) F2a → x4 x5 x6 cov(F1a ⋅F2a )*
F1b → x1 x2 x3 F2b → x1 x4 x5 F3b → x6 x7 (0⋅x4) cov(F1b ⋅F2b )* cov(F2b ⋅F3b )*
F1c → x2 x3 x4 (0⋅x1) F2c → x1 x2 x5 x6 F3c → x6 x7 x8 (0⋅x5) cov(F1c ⋅F2c )* cov(F2c ⋅F3c )*
F1a → x1 x2 x3 x4 F2a → x4 x5 x6 cov(F1a ⋅F2a ) = 0
F1b → x1 x2 x3 F2b → x1 x4 x5 F3b → x4 x6 x7 cov(F1b ⋅F2b ) = 0 cov(F2b ⋅F3b )*
F1c → x1 x2 x3 x4 F2c → x1 x2 x5 x6 F3c → x5 x6 x7 x8 cov(F1c ⋅F2c ) = 0 cov(F2c ⋅F3c )*
Fehlspezifikationen aus Zeile 2 und Zeile 3 kombiniert
Mit einem * gekennzeichnet sind jene Parameter, die in der entsprechenden Modellvariante frei ge schätzt werden. Fett gedruckt finden sich die konkreten Fehlspezifikationen des jeweiligen Modells.
Komplexität der Modelle die Spannweite der unterschiedlichen Faktorladungen: Beim sparsamen Modell liegen alle Faktorladungen, die nicht auf den Wert 0 fixiert sind, beim Wert 0.5 oder 0.6. Das komplexe Modell weist Faktorladungen von 0.6, 0.7 und 0.8 auf und beim sehr komplexen Modell betragen die Faktorladungen Werte von 0.4, 0.5, 0.6, 0.7 und 0.8.³⁸, ³⁹ Die drei verschiedenen Populationsmodelle implizieren, dass die durch die Stich proben jeweils korrekt spezifizierten Modelle ebenfalls unterschiedlich sind. Auch die festgelegten Fehlspezifikationen unterscheiden sich zwischen den drei unterschied lich komplexen Modellen. Eine Übersicht findet sich in Tabelle 5.2.1.⁴⁰ Das kleinste und somit sparsamste Populationsmodell beinhaltet zwei Faktoren – Faktor1a und Faktor2a –, die miteinander korrelieren. Das Modell besteht aus sechs Indikatoren. Das komplexe Modell beinhaltet sieben Indikatoren und drei Faktoren. Einer dieser Faktoren – Faktor2b – korreliert mit den beiden anderen Faktoren des Mo dells, die ihrerseits unabhängig voneinander sind. Das sehr komplexe Modell beinhal
38 Für einen genauen Überblick über die Faktorladungsstruktur siehe Tabelle A.0.2 im Anhang. 39 Eine Faktorladung mit einem Wert von 0.8 ist bereits sehr hoch. Auch Hu & Bentler haben diese als höchste Faktorladung im Rahmen ihrer Simulationsstudie festgelegt (vgl. Hu & Bentler 1999, S. 6–7). 40 Die Modellparameter sind in Tabelle A.0.2 im Anhang festgehalten.
5.2 Studiendesign |
49
Tab. 5.2.2: Studiendesign. Modellkomplexität
Modellspezifikation
Verteilung
Fallzahl
sparsam komplex sehr komplex
korrekt spezifiziertes Modell fehlspezifiziertes Messmodell fehlspezifiziertes Strukturmodell fehlspezifiziertes Gesamtmodell
normalverteilt moderat rechtsschief stark rechtsschief moderat linksschief stark linksschief stark rechts- und linksschief
n = 1500 n = 1800 n = 2200
tet ebenfalls drei Faktoren, deren Zusammenhangsstrukturen jenen des komplexen Modells entsprechen; die Faktoren werden in diesem Modell mit insgesamt acht Indi katoren gemessen. Wie Tabelle 5.2.1 zu entnehmen ist, werden Fehlspezifikationen der Messmodel le simuliert, indem innerhalb der Stichproben ein Modell analysiert wird, in dem die Indikatoren zum Teil nicht auf jenen Faktoren laden, die sie in der entsprechenden Population messen. Beispielsweise wird die Faktorladung der Variable x4 auf Faktor1a auf den Wert 0 Null fixiert. Die fehlspezifizierten Strukturmodelle werden durch eine falsche Spezifikation der Zusammenhänge zwischen den latenten Variablen model liert, indem ein Zusammenhang zweier Faktoren, der von Null verschieden ist, auf den Wert 0 fixiert wird. Eine Übersicht über das Studiendesign findet sich in Tabelle 5.2.2. Der Umfang dieser Simulationsstudie ergibt sich wie folgt: Es werden drei unterschiedlich komplexe Populationsmodelle untersucht. Für je des dieser Modelle werden mit den Stichproben jeweils vier verschiedene Modellva rianten untersucht (vgl. Tabelle 5.2.1), sodass insgesamt zwölf unterschiedlich spezi fizierte Modelle analysiert werden. Jedes der zwölf Stichprobenmodelle wird für 18 festgelegte Stichproben untersucht, die sich aus jeweils einer von sechs Verteilungs formen für jeweils eine von drei Stichprobengrößen ergeben. Diese 216 Teilsimulatio nen werden für den RMSEA, den TLI, den CFI und den SRMR untersucht. So werden in dieser Studie 864 Zellen analysiert.⁴¹ Dabei wird der Fokus auf die mittleren Fit-IndexWerte der jeweils bis zu tausend Stichproben gelegt.⁴² In Ergänzung dazu werden die Standardfehler betrachtet, um die Genauigkeit der Schätzung dieser mittleren Werte zu berücksichtigen. Für die folgenden Darstellungen gilt zu beachten, dass irreführende Modellbewer tungen nur in jenem Fall auftreten können, wenn für die einzelnen Fit-Indizes kon krete Schwellenwerte für eine gute Modellanpassung angenommen werden. Für diese
41 Strenggenommen werden für zwei verschiedene Seeds jeweils 864 Bedingungen getestet, was einer Anzahl von 1728 Untersuchungen entspricht. 42 Konvergieren einzelne Stichprobenmodelle nicht, so fällt die Anzahl der Replikationen geringer aus.
50 | 5 Methode
Untersuchung werden die in der Literatur vorherrschenden strengen Schwellenwer te gewählt. Zwar findet sich zu keinem Fit-Index ein eindeutiger Konsens zum opti malen Schwellenwert; so werden häufig unterschiedliche Schwellen für verschiedene Grade der Modellanpassung von sehr gut bis akzeptabel angegeben (vgl. dazu zum Beispiel Browne & Cudeck 1993, S. 144). Im Folgenden werden allerdings besonders jene Szenarien untersucht, in denen sämtliche forschende Personen mit den in der Li teratur stark vertretenen Schwellenwerten zu einer Fehleinschätzung des Modells kä men. Dies ist bei tendenziell strengen Grenzwerten für alle fehlspezifizierten Modelle gegeben, die durch ein Fit-Maß nur in jenem Fall fehlerhaft als korrekt spezifiziert be wertet werden, wenn die Höhe des Fit-Maßes eine besonders gute Modellanpassung nahelegt.⁴³ Für den RMSEA wird folglich der Schwellenwert 0.05 gewählt (vgl. Brown 2015, S. 72 und Browne & Cudeck 1993, S. 144). Für den SRMR wird in Anlehnung an Byrne (2012, S. 76), Reinecke (2014, S. 119) und Yu (2002, S. 43) ebenfalls eine Schwelle von 0.05 gewählt. Der von Hu und Bentler (1999, S. 1) ermittelte Schwellenwert von 0.95 für den CFI wird aufgrund seiner Popularität in der Forschungsliteratur (vgl. zum Bei spiel Brown 2015, S. 74; Christ & Schlüter 2012, S. 39 und Iacobucci 2010, S. 90) über nommen. Auch für den TLI wird die Schwelle von 0.95 in Anlehnung an Hu und Bentler (1999, S. 1), Kaplan (2009, S. 113) und Reinecke (2014, S. 127) gewählt. Diese Schwellen werden als Referenz herangezogen, um mittels dieser konkrete und gegebenenfalls irreführende Modellergebnisse zu analysieren. Irreführende Ergebnisse zeigen dabei auf, dass die durch die Forschungsliteratur empfohlenen Schwellen nicht für jedes Analyseszenario Anwendung finden können.
43 Für die korrekt spezifizierten Modelle besteht dahingehend kein Problem: Es wird sich zeigen, dass alle korrekt spezifizierten Modelle auch mit strengen Schwellenwerten als sehr gut angepasst und so mit korrekt bewertet werden.
6 Sensitivitäten der Fit-Indizes Im vorliegenden Kapitel erfolgt eine systematische Auswertung der Simulationsstu die. Um dem Umfang der Simulationsstudie gerecht zu werden, gliedert sich das Ka pitel in vier Unterkapitel: Im Rahmen der ersten drei Unterkapitel, die jeweils einem der drei Komplexitätsgrade entsprechen, werden die Sensitivitäten der vier Fit-Indi zes bezüglich der Stichprobengröße und der Verteilungsform der Modellindikatoren untersucht. Dabei wird zunächst das jeweilige korrekt spezifizierte Modell betrachtet, bevor die entsprechenden fehlspezifizierten Varianten diskutiert werden. Das vierte Unterkapitel schließt mit einer Zusammenfassung der zentralen Ergebnisse. Innerhalb der fehlspezifizierten Modelle wird eine deutliche Abweichung des Mo dells von den Daten untersucht, die im konkreten Fall impliziert, dass ein elementa rer Zusammenhang innerhalb der Daten mit dem Modell nicht geschätzt wird. Derar tige Fehlspezifikationen sind von starker Relevanz, wenn es darum geht, inhaltlich substanzielle, falsche Bewertungen der Fit-Indizes aufdecken zu können.⁴⁴ Zudem sollen hier lediglich fehlspezifizierte Modelle untersucht werden, die sich deutlich vom jeweils wahren Modell unterscheiden und im Forschungsprozess als davon un terschiedlich zu erkennen sein sollten. Im Rahmen dieser Studie wird die Güte der Modellbewertung durch die Fit-Indi zes primär über die mittleren Werte dieser Indizes analysiert.⁴⁵ So kann ermittelt wer den, ob und wie stark ein bestimmtes Gütemaß bei einem konkreten Modell im Durch schnitt von einer korrekten Modellbewertung abweicht. Zudem können irreführende Modellergebnisse so direkt an den mittleren Werten der Fit-Indizes abgelesen werden. Wenn im Folgenden von dem Wert eines Gütemaßes gesprochen wird, ist damit stets der mittlere Wert gemeint, der sich als Durchschnittswert aus den bis zu tausend Stich proben ergibt. Zusätzlich dazu werden die Standardfehler berücksichtigt, um die Ef fizienz eines bestimmten mittleren Werts eines Gütemaßes zu erfassen. Es wird da bei beachtet und davon ausgegangen, dass innerhalb eines Standardfehlers respek tive einer Standardabweichung vom betrachteten mittleren Wert der größte Teil der Stichprobenmittelwerte liegt. Diese Annahme wird an folgendes Wissen angelehnt: Bei normalverteilten Stichprobenkennwerten liegen stets circa 68 % der Stichproben kennwerte innerhalb des Intervalls, das sich aus einer Standardabweichung ergibt, und bereits 95 % aller Stichprobenkennwerte liegen in dem Intervall, gemessen an je
44 Zudem haben zusätzliche Analysen gezeigt, dass beispielsweise das sehr komplexe fehlspezifizier te Messmodell bei nur einer statt der zwei fälschlich auf den Wert 0 fixierten Faktorladungen nahezu perfekte Werte in den Fit-Indizes wiedergeben würde. Ein solcher Fall ist hier nicht relevant, da die forschende Person dabei kein Indiz für eine Fehlspezifikation durch die Kennwerte des Modells er halten kann. Auf eine ausführliche Darstellung dieser konkreten Simulation wird aus diesem Grund verzichtet. 45 Alternativ dazu ließe sich die Güte der Gütemaße über die „Modellabweisungsrate“ messen (vgl. dazu Hu & Bentler 1999; Yu 2002). https://doi.org/10.1515/9783110624199-006
52 | 6 Sensitivitäten der Fit-Indizes
weils zwei Standardabweichungen (vgl. Agresti & Finlay 2009, S. 80–81). Das heißt, dass bei einer Distanz von einer Standardabweichung vom relevanten Wert etwa 16 % der Stichprobenkennwerte jeweils über der oberen Grenze respektive unter der Un tergrenze des Intervalls liegen und eine Standardabweichung so jeweils 84 % auf der anderen Seite der Intervallgrenze abgrenzt. Innerhalb der Simulationsergebnisse zeigen sich allerdings zum Teil schiefe Ver teilungen der Fit-Indizes, bei denen verglichen mit der Normalverteilung nicht davon ausgegangen werden kann, dass ein ebenso großer Anteil aller Stichprobenkennwer te innerhalb eines Intervalls von einer Standardabweichung liegt. Aus diesem Grund wird für konkrete Beispiele exemplarisch gezeigt, wie groß der Anteil an Stichproben ist, durch die das Modell so bewertet wird wie durch den in den Fokus der Simulati onsergebnisse gerückten Durchschnitt der Stichproben. Die Veränderungen in den mittleren Werten der jeweiligen Fit-Indizes werden als Differenzwerte bezeichnet. Angesichts der Tatsachen, dass die interessierenden FitIndizes annähernd Werte von 0 bis 1 annehmen und die mittleren Werte der Teilsimu lationen für fast alle Modellvarianten in diesem Bereich streuen, werden Differenzen in der dritten Nachkommastelle als marginal bis sehr gering aufgefasst, wenn sie beim Wert 0.001 oder 0.002 liegen. Differenzwerte ab 0.005 deuten bereits auf deutliche Ef fekte hin und können als recht starke Veränderungen bezeichnet werden. Differenzen, die beim Wert 0.01 oder höher liegen, werden als sehr starke Effekte definiert. Schließ lich hängt das mögliche Ausmaß der Differenzwerte auch vom Durchschnittswert des jeweiligen Gütemaßes ab: Sollte beispielsweise der CFI bei einem bestimmten korrekt spezifizierten Modell für die kleinste Stichprobengröße bereits beim Wert 0.998 und damit sehr nah am Wert 1 liegen, so kann dieser Fit-Index mit Anstieg der Fallzahl auf n = 1800 und n = 2200 insgesamt nicht um mehr als einen Wert von 0.002 ansteigen, da dieses Fit-Maß nach oben begrenzt ist (vgl. Reinecke 2014, S. 127).⁴⁶ Sehr starke Effekte mit Werten größer als 0.01 können nur festgestellt werden, wenn ein Modell betrach tet wird, das von den Fit-Indizes als sehr schlecht angepasst bewertet wird, so, dass alle Fit-Indizes deutlich von den Werten abweichen, die auf eine gute Modellanpas sung schließen lassen. Schließlich sei darauf hingewiesen, dass bei fehlspezifizierten Modellen eine gute Bewertung der Güte des Modells durch einen Fit-Index nicht als korrekte Bewertung zu verstehen ist, sondern als eine, die das Modell fälschlicher weise als gut angepasst wertet, obwohl es sich um ein nicht gut angepasstes Modell handelt. Zunächst werden die Sensitivitäten der einzelnen Fit-Indizes für alle Modellvari anten analysiert. Die Differenzwerte, die sich ergeben, müssen nicht zusätzlich gegen den Zufall abgesichert werden, da im Rahmen der Simulation nicht nur eine Stich probe, sondern jeweils bis zu tausend Stichproben betrachtet werden, deren mittlere
46 Dazu ähnliche Begrenzungen finden sich für alle untersuchten Gütemaße (vgl. Brown 2015, S. 71–73).
6.1 Sparsame Modelle
| 53
Werte lediglich geringfügig durch stark abweichende einzelne Stichproben beeinflusst werden können. In diesem Zusammenhang werden sehr geringe Differenzwerte ledig lich in jenem Fall näher betrachtet, wenn sich dahingehend eine Systematik zeigt, die sich für mehrere Stufen der jeweiligen Stichprobenspezifikation in gleicher Weise abzeichnet. Wenn beispielsweise ein Fit-Index bei einer bestimmten Teilsimulation ei nen höheren Wert mit rechtsschiefen statt normalverteilten Variablen für alle drei un tersuchten Fallzahlen hat, so ist es äußerst unwahrscheinlich, dass für jede der drei Teilsimulationen rein zufällig ein höherer Wert generiert worden ist.
6.1 Sparsame Modelle Im Rahmen der Modellierung der sparsamen Modelle konnte bis auf eine Ausnah me jede Simulation in vollem Umfang, das heißt mit tausend Replikationen, durch geführt werden. Bei der Modellierung des fehlspezifizierten Messmodells mit stark rechtsschiefen Verteilungen der Indikatoren werden 999 von den angeforderten tau send Replikationen generiert.⁴⁷
6.1.1 Korrekt spezifiziertes Modell Die Fit-Indizes weisen für alle korrekt spezifizierten sparsamen Modelle⁴⁸ Werte auf, die auf eine gute Modellanpassung schließen lassen, mit Werten, die sehr nah an den teils bestmöglichen Werten liegen. Der CFI und der TLI liegen deutlich über dem Schwellenwert 0.95 während der RMSEA und der SRMR deutlich unter dem Schwel lenwert 0.05 liegen (vgl. dazu Kapitel 4.2). Mit steigender Fallzahl zeigen der CFI, der RMSEA und der SRMR eine tendenziell bessere Modellanpassung an. Dieser Effekt der Stichprobengröße fällt allerdings nur marginal aus, da bereits bei einer Stichproben größe von 1500 Fällen eine sehr gute Modellanpassung nahegelegt wird (vgl. Tabel le 6.1.1). Für den TLI zeigt sich kein Effekt der Stichprobengröße auf die Bewertung der Mo dellgüte, die Werte schwanken hier jeweils zwischen 0.997 und 1.003 und liegen damit deutlich über dem Schwellenwert 0.95 (vgl. Tabelle 6.1.1). Unter allen hier durchge führten Simulationen zeigen sich Werte größer als 1 lediglich für sparsame, korrekt spezifizierte Modelle, denen stark links- und rechtsschiefe Indikatoren zugrunde lie
47 Ein Überblick zur Kovergenz der untersuchten Modellvarianten findet sich in Kapitel B.1 im An hang. 48 Streng genommen gibt es nur eine Variante des korrekt spezifizierten sparsamen Modells. Diese wird allerdings für unterschiedliche Stichprobenmerkmale analysiert, weswegen im Folgenden der entsprechende Plural verwendet wird.
54 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.1.1: Sparsames korrekt spezifiziertes Modell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.007 (0.010) 0.998 (0.003) 1.000 (0.010) 0.012 (0.003)
0.008 (0.010) 0.998 (0.004) 0.999 (0.012) 0.012 (0.003)
0.008 (0.010) 0.993 (0.012) 0.998 (0.036) 0.013 (0.004)
0.008 (0.010) 0.998 (0.004) 0.999 (0.012) 0.012 (0.003)
0.008 (0.010) 0.992 (0.013) 0.995 (0.037) 0.014 (0.004)
0.006 (0.009) 0.994 (0.011) 1.002 (0.035) 0.013 (0.004)
n = 1500
RMSEA CFI TLI SRMR
0.007 (0.009) 0.998 (0.003) 1.000 (0.009) 0.011 (0.003)
0.007 (0.009) 0.998 (0.003) 1.000 (0.010) 0.011 (0.003)
0.007 (0.009) 0.994 (0.010) 0.998 (0.031) 0.012 (0.003)
0.007 (0.009) 0.998 (0.003) 1.000 (0.009) 0.011 (0.003)
0.007 (0.009) 0.994 (0.010) 0.997 (0.030) 0.012 (0.003)
0.006 (0.008) 0.995 (0.009) 1.003 (0.028) 0.012 (0.003)
n = 1800
RMSEA CFI TLI SRMR
0.006 (0.008) 0.999 (0.002) 1.000 (0.007) 0.010 (0.003)
0.007 (0.008) 0.998 (0.003) 0.999 (0.008) 0.010 (0.003)
0.007 (0.008) 0.995 (0.009) 0.997 (0.025) 0.011 (0.003)
0.006 (0.008) 0.998 (0.003) 0.999 (0.008) 0.010 (0.003)
0.006 (0.008) 0.995 (0.008) 0.998 (0.025) 0.011 (0.003)
0.006 (0.008) 0.996 (0.007) 1.000 (0.024) 0.011 (0.003)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
gen. Dass der TLI bei entsprechenden Ausprägungen der Schiefe und Modellkomple xität Werte größer als 1 annimmt, zeigt sich als neue Erkenntnis.⁴⁹ Interessant ist zudem, dass der TLI unter normalverteilten Indikatoren für alle Stichprobengrößen im Mittel genau den Wert 1 annimmt. Für schiefere Indikatoren sinkt der TLI mit der Ausnahme der Modelle mit sowohl stark rechts- als auch stark linksschiefen Indikatoren zwar minimal, aber konsequent⁵⁰; bei jenen Modellen weist dieser Fit-Index wie bei normalverteilten Indikatoren den Wert 1 oder gar höhere Wer te auf. Die Interaktion unterschiedlicher Verteilungen der Indikatoren lässt den TLI ansteigen und zeigt somit eine noch bessere Modellgüte an als für Modelle mit Indi katoren der gleichen Verteilungsrichtung; die Differenzwerte reichen hier bis zu 0.007 und sind entsprechend als starke Effekte zu werten (vgl. Tabelle 6.1.1). Ähnlich dazu zeigt auch der RMSEA für alle Spezifikationen der Schiefe eine mar ginal schlechtere oder die gleiche Modellgüte an wie für normalverteilte Indikatoren. Eine Ausnahme bilden auch hier jene Modelle, in denen sowohl stark links- als auch rechtsschiefe Indikatoren zur Messung herangezogen werden; bei diesen Modellen zeigt der RMSEA für Stichproben im Umfang von n = 1500 und n = 1800 eine marginal bessere Modellgüte an (vgl. Tabelle 6.1.1). Der CFI zeigt für schiefe Indikatoren ten 49 Beispielsweise haben Bollen (1989b, S. 273) und Reinecke (2014, S. 124) bereits darauf verwiesen, dass der TLI Werte deutlich größer als 1 annehmen kann, wenn das Modell überparametrisiert ist. Eine Verbindung zur Schiefe der Indikatoren wird durch die Forschungsliteratur allerdings bislang nicht nahegelegt. 50 Mit klar, konsequent oder eindeutig ist hier und im Folgenden ein Verlauf gemeint, bei dem jeweils mit steigender Schiefe ausschließlich eine monotone Veränderung des Fit-Maßes einhergeht. Diese Definition wird in gleicher Form für den Effekt einer steigenden Stichprobengröße auf die Höhe eines Gütemaßes genutzt.
6.1 Sparsame Modelle |
55
denziell niedrigere Werte, der SRMR marginal höhere Werte und dementsprechend ebenso eine schlechtere Modellanpassung an. Für alle vier Fit-Indizes scheint es ir relevant, ob die Verteilung der Indikatoren linksschief oder rechtsschief ist. Sowohl für die moderate Schiefe als auch für die starke Schiefe finden sich keinerlei systema tische Unterschiede zwischen den Modellen mit nur links- und jenen mit ausschließ lich rechtsschiefen Indikatoren. Modelle mit gemischt verteilten Indikatoren werden marginal, aber eindeutig besser bewertet als ihre Pendants, die Indikatoren beinhal ten, die ausschließlich links- oder rechtsschief sind (vgl. Tabelle 6.1.1). Für den SRMR ist diese Tendenz bei nur einer Differenz von sechs möglichen, beim Differenzwert 0.001, kaum merklich.⁵¹ Für den RMSEA ist der Effekt ebenfalls gering, allerdings mit fünf von sechs Differenzen, die im Wertebereich zwischen 0.001 und 0.002 liegen, be reits systematisch erkennbar. Der CFI weist für alle Vergleiche jeweils eine Differenz von 0.001 bis 0.002 zu den Modellen mit Indikatoren ausschließlich einer Verteilungs richtung auf und wie bereits aufgegriffen bewertet der TLI das Modell mit gemischten Verteilungen am deutlichsten besser als jenes mit nur einer Verteilungsform der Indi katoren.⁵² Während die mittleren Werte der Fit-Indizes allesamt eine gute Modellanpassung nahelegen, zeigen die dazugehörigen Standardfehler klare Unterschiede auf. Die Stan dardfehler der RMSEA- und SRMR-Werte sind für alle Verteilungsszenarien der korrekt spezifizierten sparsamen Modelle annähernd gleich, während der CFI und der TLI bei Modellen mit stark schiefen Indikatoren im Vergleich zu Modellen mit normalverteil ten Variablen bis zu dreimal so hohe Standardfehler aufweisen (vgl. Tabelle 6.1.1). Die Schätzung dieser beiden Fit-Indizes wird dementsprechend durch schiefe Indikatoren ungenauer. Das stellt hierbei kein allzu großes Problem dar, da selbst beim Modell mit dem höchsten Standardfehler für den TLI (0.037) dessen mittlerer Wert (0.995) und die daraus folgende Untergrenze von 0.958 gewährleisten, dass ein großer Anteil aller Stichproben das Modell über diesen Fit-Index korrekterweise als gut bewertet (vgl. Ab bildung 6.1.1). So weisen unter dieser Teilsimulation circa 89 % der Stichproben einen TLI auf, der über dem Schwellenwert 0.95 liegt und damit korrekterweise eine gute Modellanpassung nahelegt. Dass die Standardfehler mit steigender Stichprobengröße sinken, ist nicht ver wunderlich. Schließlich fließt die Fallzahl in die Berechnung des Standardfehlers ein und wird ceteris paribus mit steigender Stichprobengröße immer sinken (vgl. Schnell et al. 2011, S. 291). Beachtlich ist, dass selbst bei stark schief verteilten Variablen, die deutlich von der Normalverteilungsannahme der ML-Schätzung abweichen, alle FitIndizes sehr deutlich auf eine sehr gute Modellanpassung schließen lassen und das
51 Die sechs Vergleiche ergeben sich aus dem Vergleich zwischen dem Modell mit gemischten stark schiefen Variablen einerseits und stark rechtsschiefen respektive stark linksschiefen Variablen ande rerseits, jeweils für die drei untersuchten Stichprobengrößen. 52 Diese systematischen Tendenzen sind im weiteren Verlauf zu beachten und werden in Kapitel 6.1.5 in Zusammenhang mit den Ergebnissen der anderen sparsamen Modelle aufgegriffen.
56 | 6 Sensitivitäten der Fit-Indizes
TLI
500
400
Häufigkeit
300
200
100
0 0.75
0.80
0.85
0.90 0.95 Wert
1.00
1.05
1.10
Abb. 6.1.1: Verteilungsplot des TLI für schiefe Indikatoren.
Modell korrekterweise und eindeutig als gut bewerten. Es ist dabei für die Forschungs praxis erfreulich, dass die in Kapitel 3.2.1 erläuterte Formel des RMSEA offenbar auch bei sehr schief verteilten Variablen näherungsweise die – im Fall einer perfekten Mo dellanpassung geltende – Bedingung erfüllt, dass der χ2 -Testwert annähernd der Zahl der Freiheitsgrade entspricht und der Wert des RMSEA folglich annähernd den Wert 0 annimmt. Für sparsame Modelle bedeutet das, dass die Fit-Indizes selbst bei einer Verletzung der hier untersuchten Modellannahmen korrekt spezifizierte Modelle als solche erkennen.
6.1.2 Fehlspezifiziertes Messmodell Das sparsame fehlspezifizierte Messmodell weist eine fälschlich auf den Wert 0 fixierte Faktorladung des ersten Faktors auf. Es handelt sich dabei um die Faktorladung von Variable x4, deren Faktorladung im Populationsmodell beim Wert 0.5 liegt. Beim Blick auf das Modell mit normalverteilten Indikatoren fällt auf, dass auf Ba sis der festgelegten Schwellenwerte nicht alle Fit-Indizes die gleiche Modellgüte na
6.1 Sparsame Modelle
| 57
RMSEA
200
Häufigkeit
150
100
50
0 0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
Wert Abb. 6.1.2: Verteilung des RMSEA für normalverteilte Indikatoren.
helegen. Lediglich der RMSEA und der TLI weisen für alle Stichprobengrößen richti gerweise darauf hin, dass eine Fehlspezifikation vorliegt. Der TLI liegt mit Werten von 0.924 bis 0.927 klar unter dem Schwellenwert von 0.95 (vgl. Tabelle 6.1.2). Der RMSEA weist mit Werten von 0.052 respektive 0.051 ebenfalls auf eine marginale Fehlspezifika tion hin. In Verbindung damit liegt der RMSEA bei annähernd 48 % der Stichproben unter dem Schwellenwert und legt fälschlich eine gute Modellanpassung nahe (vgl. dazu Abbildung 6.1.2). Die Stichprobengröße zeigt bei dem vorliegenden Modell für drei der vier Fit-Maße keinen Effekt auf die Höhe dieser Indizes. Mit Ausnahme des SRMR schwanken die Werte für die verschiedenen Stichprobengrößen ohne erkennbare Systematik sehr ge ring nach oben und nach unten. Auch der SRMR weist lediglich sehr geringe Diffe renzen zwischen den verschiedenen Stichprobengrößen auf, allerdings zeigt dieser Fit-Index mit steigender Stichprobengröße stets eine sinkende bis konstante Tendenz an. Das stützt die Vermutung, dass der SRMR im Gegensatz zu den anderen drei Maß zahlen sensitiv auf die Fallzahl reagiert und mit steigender Fallzahl systematisch eine
58 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.1.2: Sparsames fehlspezifiziertes Messmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.052 (0.010) 0.960 (0.015) 0.924 (0.028) 0.031 (0.005)
0.048 (0.011) 0.961 (0.016) 0.926 (0.031) 0.029 (0.005)
0.022 (0.013) 0.967 (0.028) 0.940 (0.056) 0.020 (0.005)
0.047 (0.011) 0.961 (0.016) 0.927 (0.031) 0.029 (0.005)
0.022 (0.012) 0.966 (0.028) 0.938 (0.055) 0.020 (0.005)
0.021 (0.013) 0.970 (0.027) 0.946 (0.054) 0.019 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.051 (0.009) 0.961 (0.013) 0.927 (0.025) 0.030 (0.004)
0.048 (0.010) 0.961 (0.015) 0.927 (0.029) 0.029 (0.005)
0.023 (0.012) 0.966 (0.026) 0.938 (0.051) 0.019 (0.005)
0.047 (0.010) 0.962 (0.015) 0.928 (0.028) 0.028 (0.005)
0.022 (0.012) 0.968 (0.026) 0.942 (0.050) 0.019 (0.004)
0.022 (0.012) 0.969 (0.025) 0.944 (0.049) 0.019 (0.004)
n = 1800
RMSEA CFI TLI SRMR
0.051 (0.008) 0.961 (0.012) 0.926 (0.023) 0.030 (0.004)
0.048 (0.008) 0.961 (0.013) 0.927 (0.024) 0.028 (0.004)
0.023 (0.010) 0.968 (0.023) 0.940 (0.044) 0.018 (0.004)
0.047 (0.008) 0.962 (0.013) 0.928 (0.023) 0.028 (0.004)
0.023 (0.010) 0.969 (0.021) 0.942 (0.041) 0.018 (0.004)
0.022 (0.010) 0.969 (0.023) 0.943 (0.044) 0.018 (0.004)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben; nur beim fehlspezifizierten Messmodell mit einer Fallzahl von n = 1500 und stark rechtsschiefen Indikatoren liegt die Stichprobenanzahl bei 999. Dahinter sind in Klammern die dazugehörigen Standardfehler.
bessere Modellgüte angibt.⁵³ Diese Tendenz steht jener des χ2 -Tests, mit dem Modelle für große Stichproben eher verworfen werden, entgegen. Das Ausmaß der Schiefe der Indikatoren weist einen deutlichen Effekt auf. Mit an steigender Schiefe – abgestuft von normalverteilt über moderat schief zu stark schief und dabei unabhängig von der Richtung der Schiefe – sinken die Werte vom RMSEA und vom SRMR stetig; ebenso weisen die Werte vom CFI und TLI eine steigende Ten denz auf (vgl. Tabelle 6.1.2).⁵⁴ Folglich zeigen alle vier Fit-Maße bei stärkerer Schiefe der Indikatoren eine bessere Modellgüte an, was bei diesem fehlspezifizierten Modell zu stärker irreführenden Ergebnissen führt. Bereits bei moderat schiefen Indikatoren sinkt der mittlere Wert des RMSEA auf den Wert 0.048 und legt damit fälschlich eine gute Modellanpassung nahe. Nur der TLI zeigt für alle Stichprobengrößen und Vertei lungsformen eine Fehlspezifikation an und bewertet das Modell korrekt als nicht gut genug angepasst. Neben dem Ausmaß der Schiefe wird hier auch die Form der Verteilung unter sucht. Dabei zeigt sich kein systematischer Unterschied zwischen dem Modell mit stark linksschiefen Indikatoren und jenem mit stark rechtsschiefen Indikatoren. Für moderat schief verteilte Indikatoren lässt sich lediglich feststellen, dass die Fit-Indi zes das Modell mit linksschiefen Variablen in leichter Tendenz besser bewerten als mit 53 Die Forschungsliteratur ist dahingehend nicht eindeutig (vgl. Kapitel 4.1). Bevor diesbezüglich Schlüsse gezogen werden, erfolgt die Betrachtung der weiteren Modellergebnisse. 54 Lediglich bei der ersten Abstufung von normalverteilt zu moderat rechtsschief finden sich für die Fallzahl n = 1800 gleichbleibende mittlere Werte vom CFI und TLI; ebenso ist der Wert des CFI bei dieser Abstufung und einer Fallzahl von n = 2200 konstant. Zu beachten ist, dass das einer steigenden Tendenz nicht entgegenläuft.
6.1 Sparsame Modelle |
59
rechtsschiefen Variablen, allerdings handelt es sich hierbei um geringe Differenzwerte von 0.001. In ähnlichem Ausmaß zeigt das Modell mit Indikatoren unterschiedlicher Verteilungsformen für alle Fit-Indizes bei allen Stichprobengrößen eine gleichblei bende bis bessere Modellgüte an als für die Modelle mit ausschließlich stark rechtsoder linksschief verteilten Indikatoren. Möglicherweise führt die Kombination ver schiedener Verteilungsformen allgemein zu einer Modellbewertung, die – im vorlie genden Fall fälschlich – eine gute oder zumindest bessere Modellanpassung nahelegt als alle anderen untersuchten Verteilungsformen. Für den RMSEA und den SRMR fällt dieser Effekt mit Differenzwerten, die den Wert 0.001 nicht übersteigen, lediglich mar ginal aus. Beim CFI liegen die Differenzwerte bei bis zu 0.004 und für den TLI zeigt sich dieser Effekt am deutlichsten; hier finden sich Differenzwerte bis zu 0.008. Das legt ei ne Sensitivität hinsichtlich unterschiedlicher Verteilungen für den TLI stark nahe. Interessant ist, dass mit der Fehlspezifikation des Messmodells ein starker An stieg der Standardfehler der Gütemaße CFI und TLI einhergeht (vgl. Tabelle 6.1.1 und Tabelle 6.1.2). Für normalverteilte Indikatoren und eine Fallzahl von n = 1500 zeigt sich beispielsweise Folgendes: Der Standardfehler des RMSEA liegt für das fehlspezifizier te Modell unverändert beim Wert 0.01. Der Standardfehler des SRMR steigt vom Wert 0.003 auf den Wert 0.005 gering an. Für den TLI hingegen findet sich beim vorliegen den Modell ein Standardfehler mit einem Wert von 0.028. Dieser Wert liegt für das korrekt spezifizierte Modell bei 0.01 und ist folglich durch eine auf den Wert 0 fixierte Faktorladung annähernd um das Dreifache angestiegen. Der Standardfehler des CFI steigt vom Wert 0.03 auf den Wert 0.15 und verfünffacht sich damit.⁵⁵ Diese Verän derungen implizieren einen systematischen und deutlichen Anstieg der Unsicherheit der Schätzung bei fehlspezifizierten Messmodellen. Schiefe Indikatoren lassen die ohnehin erhöhten Standardfehler des fehlspezifi zierten Messmodells mit der Ausnahme des SRMR⁵⁶ weiter ansteigen. Für den RMSEA zeigt sich ein geringer Anstieg vom Wert 0.01 für normalverteilte Indikatoren auf den Wert 0.013 für stark rechtsschiefe Variablen.⁵⁷ Der Standardfehler des TLI steigt vom Wert 0.028 über den Wert 0.031 für moderate Schiefe zum Wert 0.056 respektive 0.055 für starke Schiefe und verdoppelt sich somit für Modelle mit Indikatoren mit einer stark schiefen Verteilung. Ähnlich stark gestaltet sich der Anstieg des Standardfehlers
55 Da der Standardfehler mit steigender Fallzahl sinkt, ergeben sich für den vorliegenden Modell vergleich jeweils ähnliche Verhältnisse der Standardfehler für die jeweiligen Stichprobengrößen. Ei ne ausführliche Beschreibung für alle untersuchten Stichprobengrößen ist somit nicht notwendig. Die substanziellen Erkenntnisse weisen zwischen den verschiedenen Stichprobengrößen keine Un terschiede auf. 56 Hier bleibt der Standardfehler annähernd konstant. 57 Da die Kombination aus rechtsschiefen und linksschiefen Indikatoren die Standardfehler nicht zu sätzlich ansteigen lässt und sich keine substanziellen Unterschiede in den Standardfehlern zwischen den Modellen mit ausschließlich rechtsschiefen und jenen mit ausschließlich linksschiefen Indikato ren finden, entfällt an dieser Stelle eine genauere Darstellung der Auswirkung der Verteilungsform.
60 | 6 Sensitivitäten der Fit-Indizes
vom CFI. Hier steigt der Wert von 0.015 über 0.016 zu 0.028 und zeigt somit ebenfalls annähernd eine Verdoppelung der Unsicherheit der Schätzung dieses Gütemaßes an. Hervorzuheben ist, dass lediglich der TLI die Fehlspezifikation des Messmodells erkennt; dies robust auch im Fall schief verteilter Indikatoren. Der CFI und der SRMR legen für alle Verteilungsformen und Stichprobengrößen fälschlich eine gute Modell anpassung nahe und der RMSEA zeigt ausschließlich für normalverteilte Indikatoren korrekterweise keine gute Modellanpassung an. Folglich hat eine forschende Person gute Gründe, von einer Fehlspezifizierung des Messmodells auszugehen, wenn ledig lich der TLI auf ein schlecht angepasstes Modell hindeutet und der RMSEA nahe am kritischen Wert liegt.
6.1.3 Fehlspezifiziertes Strukturmodell Das sparsame fehlspezifizierte Strukturmodell zeichnet sich durch eine auf den Wert 0 fixierte Korrelation der beiden Faktoren des Modells aus. Die unterdrückte Korrelation liegt beim Wert 0.4. Zu beachten ist, dass damit zwangsläufig das gesamte Strukturmo dell fehlspezifiziert ist, da das Modell lediglich aus zwei Faktoren besteht und deren Zusammenhang das gesamte Strukturmodell konstituiert. Anders als beim sparsamen fehlspezifizierten Messmodell weisen hier die FitIndizes sowohl für alle Modelle mit normalverteilten Indikatoren als auch für jene Modelle mit moderat schief verteilten Indikatoren Werte auf, die korrekt auf keine gute Modellanpassung schließen lassen (vgl. Tabelle 6.1.3). Beim Modell mit nor malverteilten Indikatoren liegt der RMSEA über dem Wert 0.06, der SRMR liegt beim Wert 0.06, der CFI liegt circa beim Wert 0.94 und der TLI zeigt mit einem Wert kleiner Tab. 6.1.3: Sparsames fehlspezifiziertes Strukturmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.064 (0.009) 0.940 (0.016) 0.887 (0.030) 0.060 (0.008)
0.061 (0.010) 0.937 (0.018) 0.882 (0.034) 0.056 (0.008)
0.037 (0.011) 0.926 (0.037) 0.861 (0.070) 0.032 (0.007)
0.061 (0.010) 0.937 (0.018) 0.883 (0.033) 0.056 (0.008)
0.037 (0.011) 0.926 (0.038) 0.861 (0.071) 0.032 (0.007)
0.036 (0.010) 0.929 (0.035) 0.867 (0.065) 0.032 (0.006)
n = 1500
RMSEA CFI TLI SRMR
0.064 (0.009) 0.939 (0.015) 0.885 (0.028) 0.060 (0.008)
0.061 (0.009) 0.937 (0.017) 0.882 (0.032) 0.056 (0.008)
0.037 (0.010) 0.925 (0.035) 0.859 (0.066) 0.032 (0.006)
0.061 (0.009) 0.937 (0.016) 0.882 (0.031) 0.056 (0.008)
0.037 (0.010) 0.924 (0.035) 0.857 (0.065) 0.032 (0.006)
0.036 (0.009) 0.929 (0.031) 0.866 (0.059) 0.031 (0.006)
n = 1800
RMSEA CFI TLI SRMR
0.065 (0.008) 0.939 (0.013) 0.885 (0.024) 0.060 (0.007)
0.061 (0.008) 0.937 (0.014) 0.881 (0.027) 0.056 (0.007)
0.038 (0.009) 0.924 (0.030) 0.858 (0.057) 0.031 (0.006)
0.061 (0.008) 0.937 (0.015) 0.881 (0.027) 0.056 (0.007)
0.037 (0.009) 0.925 (0.031) 0.859 (0.059) 0.031 (0.006)
0.037 (0.008) 0.927 (0.028) 0.863 (0.053) 0.031 (0.005)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
6.1 Sparsame Modelle |
61
als 0.89 ganz deutlich an, dass das Modell keine zufriedenstellende Güte aufweist. Die entsprechenden Schwellenwerte von 0.95 und 0.05 werden hierbei jeweils nicht überschritten bzw. nicht unterschritten. Deutliche Effekte der Fallzahl finden sich bei diesem Modell nicht. Hier werden lediglich minimale Tendenzen sichtbar. Der RMSEA, der SRMR und der CFI zeigen für alle verteilungsspezifischen Szenarien nahezu keine Veränderung mit steigender Fallzahl. In marginaler Tendenz sinken die Werte vom CFI und SRMR und der Wert des RMSEA steigt mit steigender Fallzahl. Etwas deutlicher sinkt der Wert des TLI mit ansteigender Stichprobengröße. Die Richtung der Verteilung der Indikatoren hat keine Auswirkung auf die Hö he der Fit-Maße, bezüglich der Modelle mit Indikatoren ausschließlich einer Vertei lungsrichtung. So sind die Ergebnisse im Vergleich zwischen den Modellen mit mode rat oder stark rechtsschiefen und entsprechend linksschiefen Variablen nahezu iden tisch. Allerdings wird die Modellgüte beim Modell mit Indikatoren unterschiedlicher Verteilungsformen für alle Fit-Indizes und bei allen Stichprobengrößen gleich gut bis besser eingeschätzt als bei den Modellen mit ausschließlich stark rechtsschiefen re spektive stark linksschiefen Indikatoren. Besonders deutlich sind diese Tendenzen für den CFI mit Differenzwerten von bis zu 0.005 und noch stärker für den TLI, der Differenzen von bis zu 0.009 aufweist (vgl. Tabelle 6.1.3).⁵⁸ Beim vorliegenden Modell zeigt sich zudem ein interessanter Effekt des Ausmaßes der Schiefe. Mit steigender Schiefe sinken die Werte aller vier Fit-Indizes deutlich und legen somit widersprüchliche Schlüsse hinsichtlich der Modellgüte nahe (vgl. Tabel le 6.1.3). So zeigen die Maße CFI und TLI mit steigender Schiefe eine stärkere Fehlan passung an, während der RMSEA und der SRMR eine bessere Modellgüte nahelegen; bei Modellen mit sehr schiefen Indikatoren implizieren sowohl der RMSEA als auch der SRMR mit Werten deutlich unterhalb des Schwellenwertes 0.05 gar fälschlicher weise eine gute Modellanpassung. Für ähnlich fehlspezifizierte Strukturmodelle, bei denen der RMSEA und der SRMR unter normalverteilten Indikatoren nur knapp über dem Schwellenwert liegen, ist davon auszugehen, dass bereits weniger stark schiefe Verteilungen der Indikatoren diese beiden Fit-Indizes irrtümlich eine gute Modellan passung anzeigen lassen würden. Die Entwicklung der Standardfehler spiegelt tendenziell den in den beiden zuvor beschriebenen Modellvarianten beobachteten Verlauf wider: Die Standardfehler vom RMSEA und SRMR zeigen lediglich geringe Schwankungen zwischen den verschiede nen Verteilungsformen an und die Standardfehler der beiden komparativen Fit-Indi zes CFI und TLI steigen für sehr schief verteilte Indikatoren auf mehr als das Doppelte an (vgl. Tabelle 6.1.3). Für eine Fallzahl von n = 1500 und die rechtsschiefen Verteilun gen steigt der Standardfehler des CFI vom Wert 0.016 für normalverteilte Indikatoren
58 Eine ähnliche Tendenz hat sich bereits bei den vorherigen sparsamen Modellen gezeigt und wird für alle sparsamen Modelle gemeinsam ausgewertet (vgl. dazu Kapitel 6.1.5).
62 | 6 Sensitivitäten der Fit-Indizes TLI
300
250
Häufigkeit
200
150
100
50
0 0.6
0.7
0.8 Wert
0.9
1.0
1.1
Abb. 6.1.3: Verteilungsplot des TLI, 91 % korrekte Modellbewertungen.
über 0.018 für moderat schief verteilte Indikatoren auf 0.037 für stark schief verteil te Variablen. Der Standardfehler des TLI steigt dabei vom Wert 0.030 über den Wert 0.034 auf den Wert 0.070. Bezüglich des TLI besteht in Kombination mit dem geringen mittleren Wert dieses Gütemaßes kein Problem hinsichtlich möglicher Fehlschlüsse; auch für das Beispiel stark linksschiefer Indikatoren, bei dem die Stichprobenwerte eine durchschnittliche Streuung von 0.071 aufweisen, liegt die obere Grenze von ei nem Standardfehler bei 0.861 + 0.071 = 0.932 und somit unter dem Schwellenwert des TLI. Mit einem Anteil von über 91 % weist hierbei der größte Teil der Stichproben korrekt auf eine Fehlspezifikation des Modells hin (vgl. dazu Abbildung 6.1.3). Beim CFI zeigt sich hingegen, dass die obere Grenze von einem Standardfehler respekti ve von einer Standardabweichung um den mittleren CFI für alle Verteilungsformen die Schwelle von 0.95 überschreitet und entsprechend ein größerer Anteil (28 %) aller Stichproben fälschlich eine gute Modellanpassung nahelegt (vgl. Abbildung 6.1.4). Die mangelnde Modellgüte wird beim vorliegenden Modell für normalverteilte oder moderat schiefe Indikatoren durch alle Fit-Indizes wiedergegeben. Beim Fall stark schiefer Indikatoren zeigen lediglich der CFI und der TLI korrekt keine gute Mo dellpassung an. Der TLI weist für das fehlspezifizierte Strukturmodell eine besonders
6.1 Sparsame Modelle
| 63
CFI 200
Häufigkeit
150
100
50
0 0.80
0.85
0.90 Wert
0.95
1.00
Abb. 6.1.4: Verteilungsplot des CFI, 72 % korrekte Modellbewertungen.
gute Performanz auf. Der Wert dieses Gütemaßes liegt bei allen im Rahmen dieses Mo dells untersuchten Stichprobenmerkmalen deutlich unter dem Wert 0.89 und damit in einem Bereich, der eine Fehlspezifikation eindeutig nahelegt.
6.1.4 Fehlspezifikationen von Messmodell und Strukturmodell Das vorliegende fehlspezifizierte Gesamtmodell ergibt sich aus der Kombination der Fehlspezifikationen des fehlspezifizierten Messmodells und jenen des fehlspezifizier ten Strukturmodells. Es beinhaltet entsprechend sowohl eine fälschlich auf den Wert 0 fixierte Faktorladung als auch eine fälschlich auf den Wert 0 fixierte Korrelation der beiden Faktoren des Modells. Diese deutliche Fehlspezifikation des gesamten Modells zeigt sich in den Werten der Fit-Indizes, die allesamt auf eine schlechte Modellanpas sung schließen lassen. Über alle Fallzahlen und Verteilungen liegt der CFI maximal beim Wert 0.71 und der TLI unter dem Wert 0.52 (vgl. Tabelle 6.1.4). Derart geringe Wer te könnten in der Praxis darauf schließen lassen, dass es sich um ein Modell handelt, das nicht mit genug Bedacht entwickelt wurde. Der RMSEA und der SRMR liegen mit der Ausnahme der Modelle mit stark schiefen Indikatoren jeweils über dem Wert 0.1;
64 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.1.4: Sparsames Modell mit Fehlspezifikation von Messmodell und Strukturmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.133 (0.008) 0.708 (0.028) 0.514 (0.047) 0.116 (0.008)
0.126 (0.009) 0.705 (0.034) 0.509 (0.057) 0.109 (0.008)
0.075 (0.010) 0.673 (0.066) 0.455 (0.110) 0.061 (0.007)
0.125 (0.009) 0.705 (0.034) 0.509 (0.057) 0.108 (0.008)
0.074 (0.010) 0.673 (0.067) 0.455 (0.111) 0.060 (0.008)
0.074 (0.009) 0.677 (0.063) 0.462 (0.105) 0.060 (0.006)
n = 1500
RMSEA CFI TLI SRMR
0.133 (0.008) 0.710 (0.027) 0.517 (0.044) 0.116 (0.007)
0.126 (0.008) 0.706 (0.029) 0.510 (0.048) 0.109 (0.007)
0.075 (0.009) 0.673 (0.057) 0.455 (0.095) 0.061 (0.007)
0.125 (0.008) 0.706 (0.030) 0.510 (0.050) 0.108 (0.007)
0.074 (0.009) 0.673 (0.060) 0.455 (0.100) 0.060 (0.007)
0.074 (0.008) 0.676 (0.058) 0.460 (0.096) 0.060 (0.006)
n = 1800
RMSEA CFI TLI SRMR
0.133 (0.007) 0.709 (0.023) 0.514 (0.039) 0.116 (0.006)
0.126 (0.007) 0.705 (0.025) 0.508 (0.042) 0.109 (0.007)
0.075 (0.008) 0.671 (0.051) 0.451 (0.085) 0.060 (0.006)
0.126 (0.008) 0.706 (0.027) 0.509 (0.045) 0.108 (0.007)
0.075 (0.008) 0.673 (0.054) 0.455 (0.090) 0.060 (0.006)
0.074 (0.007) 0.676 (0.051) 0.460 (0.084) 0.060 (0.005)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
allerdings liegt auch in diesem Fall der SRMR jeweils mindestens beim Wert 0.06 und der RMSEA überschreitet stets den Wert 0.07. Zwischen den verschiedenen Fallzahlen lassen sich für die vier Gütemaße ledig lich minimale Schwankungen der mittleren Werte feststellen, die keine Systematik er kennen lassen. Zwischen den Modellen mit nur rechtsschiefen und jenen mit nur linksschiefen Indikatoren gibt es ebenfalls keine nennenswerten Unterschiede. Allerdings zeigen alle Fit-Indizes für Modelle mit Indikatoren unterschiedlicher Verteilungsformen ei ne bessere Modellanpassung an als für Modelle mit Indikatoren, die ausschließlich rechtsschief oder ausschließlich linksschief verteilt sind: Dieser Effekt fällt für den RMSEA und den SRMR sehr schwach aus. Beim CFI hingegen finden sich bereits Dif ferenzwerte bis zu 0.005 und beim TLI zeigt sich der dahingehend stärkste Effekt mit Differenzen von bis zu 0.009. Die mittleren Werte dieser beiden komparativen Fit-Indi zes liegen allerdings für sämtliche Verteilungsformen eindeutig in einem Bereich, der das Modell korrekt als nicht gut angepasst wertet. Fehlschlüsse sind aufgrund dieser Sensitivität somit für Modelle wie das vorliegende nicht zu erwarten. Mit einem Anstieg der Schiefe der Indikatoren sinken die Werte aller Fit-Indizes. Das heißt, dass der CFI und der TLI mit schiefen Indikatoren eine noch schlechte re Modellanpassung nahelegen. Da es sich um ein fehlspezifiziertes Modell handelt, kann dies nicht zu Fehlschlüssen hinsichtlich der Konklusion bezüglich der Modell güte führen. Für den RMSEA und den SRMR könnte sich hier tendenziell das gleiche Problem wie beim fehlspezifizierten Strukturmodell ergeben, da mit schieferen Indi katoren eine bessere Modellanpassung nahegelegt wird. Allerdings liegen auch diese beiden Maße selbst bei stark schiefen Indikatoren korrekt außerhalb des Bereichs gu ter Modellanpassung.
6.1 Sparsame Modelle
| 65
Nicht nur die mittleren Werte der Fit-Indizes lassen eindeutig erkennen, dass es sich um ein fehlspezifiziertes Modell handelt; auch die Standardfehler verdeutlichen, dass die meisten der jeweils tausend Stichproben auf Basis der Fit-Indizes auf kei ne gute Modellanpassung schließen lassen. Innerhalb von einem Standardfehler um den jeweiligen mittleren Wert liegen für alle Stichprobenmerkmale nur Werte, die kor rekterweise auf eine Fehlanpassung des Modells schließen lassen. Davon abgesehen sind die Effekte klar erkennbar: Die Standardfehler der beiden absoluten Fit-Indi zes RMSEA und SRMR reagieren nicht sensitiv auf die Schiefe der Indikatoren. Hier schwanken die Standardfehler zwischen den unterschiedlichen Verteilungsformen lediglich marginal. Die beiden komparativen Fit-Maße CFI und TLI zeigen hingegen klare Sensitivitäten bezüglich der Verteilungsform. Mit steigender Schiefe steigen hier die Standardfehler deutlich an. Bei starker Schiefe der Indikatoren sind die Stan dardfehler jeweils mehr als doppelt so hoch wie bei normalverteilten Indikatoren. Bei moderater Schiefe und einer Stichprobengröße von n = 1500 sind die Standardfehler beider Fit-Maße im Vergleich zu normalverteilten Indikatoren bereits um mehr als zwanzig Prozent erhöht. So steigt der Standardfehler des CFI vom Wert 0.028 auf den Wert 0.034 und jener des TLI vom Wert 0.047 auf den Wert 0.057 (vgl. Tabelle 6.1.4).
6.1.5 Zentrale Ergebnisse sparsamer Modelle Bei der Auswertung der sparsamen Modelle zeigen sich bestimmte Sensitivitäten wie derholt. Das kann als Indiz für mögliche systematische Zusammenhänge zwischen den Fit-Indizes beziehungsweise ihren mittleren Werten respektive Standardfehlern und den getesteten Sensitivitäten verstanden werden. Tabelle 6.1.5 fasst zusammen, inwiefern sich die in Kapitel 4.1 formulierten Forschungserwartungen über die Sen sitivitäten der Gütemaße auf die untersuchten Stichproben- und Datenmerkmale für sparsame Modelle bestätigen lassen. Insbesondere wird ausführlich erörtert, ob die Wirkungsrichtung einer bestimmten Sensitivität hilfreich, irrelevant oder sogar irre führend für die Evaluation der Modelle ist. Als wichtige Erkenntnis zeigt sich, dass das korrekt spezifizierte Modell von al len Fit-Indizes und bei allen untersuchten Stichprobenspezifikationen korrekt als gut angepasst bewertet wird. Die Werte der Fit-Indizes überschreiten die strengen Schwel lenwerte deutlich und legen nahe, dass es sich um ein sehr gutes Modell handelt (vgl. Tabelle 6.1.1). Für das korrekt spezifizierte Modell zeigen sich die vier Fit-Indizes äu ßerst robust und sind dahingehend wie das Modell als sehr gut zu bewerten. Das fehlspezifizierte Gesamtmodell wird annähernd genauso deutlich und kor rekt als nicht gut angepasst bewertet, wie das korrekt spezifizierte Modell durch die Fit-Indizes als gut erkannt wird. Für dieses fehlspezifizierte Modell liegen der CFI und der TLI für alle untersuchten Stichprobenmerkmale in einem Wertebereich, der auf eine sehr starke Fehlspezifikation schließen lässt, mit CFI-Werten kleiner als 0.72 und TLI-Werten unterhalb von 0.52 (vgl. Tabelle 6.1.4). Der SRMR zeigt die fehlende Güte
66 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.1.5: Sensitivitäten der Fit-Indizes bei sparsamen Modellen unter Berücksichtigung der Forschungserwartungen.
RMSEA TLI CFI SRMR
Fallzahl
Fehlspezifikation Fehlspezifikation Schiefe Messmodell Strukturmodell
nein (✓) nein (✓) nein (✓) ja (✓)
ja (✓) ja (✓) ja (=)̸ nein (✓)
nein (=)̸ nein (=)̸ nein (=)̸ ja (✓)
nein (=)̸ nein (=)̸ nein (=)̸ nein (=)̸
Verteilungs richtung
(Schiefe →) Standardfehler
nein ja ja nein
nein ja ja nein
Zu sehen sind die jeweiligen Forschungserwartungen (vgl. dazu Kapitel 4.1) unterteilt nach „ja“ (die konkrete Sensitivität wird erwartet) und „nein“ (es wird keine Sensitivität erwartet). In Klammern ist jeweils vermerkt, ob sich die einzelne Erwartung erfüllt hat (✓) oder nicht (=). ̸ Zusätzlich zur unter suchten Auswirkung der Fallzahl, der Fehlspezifikationen des Messmodells einerseits und des Struk turmodells andererseits und der Schiefe der Indikatoren auf die Gütemaße, ist die Auswirkung der Verteilungsrichtung der Indikatoren auf die Gütemaße sowie der Effekt des Schiefegrads der Indika toren auf die Höhe des Standardfehlers angegeben; dabei ist jeweils direkt vermerkt, ob eine entspre chende Sensitivität besteht.
dieses Modells am schwächsten an. Dieses Gütemaß liegt bei Modellen mit sehr schie fen Variablen beim Wert 0.06 und damit näher am Bereich akzeptabler Güte als der RMSEA, der Werte höher als 0.07 annimmt. Der TLI und der CFI zeigen sich hier als besonders verlässlich. Das fehlspezifizierte Messmodell wird ausschließlich vom TLI für alle Stichpro benmerkmale korrekterweise als nicht gut angepasst bewertet (vgl. Tabelle 6.1.2). Der mittlere Wert schwankt dabei zwischen 0.924 und 0.946. Bei normalverteilten Indi katoren zeigt auch der RMSEA einen erhöhten Wert und eine mangelnde Modellgüte an. Der Wert liegt dabei nur knapp über dem Schwellenwert 0.05 und sinkt bereits bei Modellen mit moderat schief verteilten Indikatoren in einen Zahlenbereich, der fälschlich eine gute Modellanpassung nahelegt. Kritisch zu beurteilen sind der CFI sowie der SRMR, die für alle Stichprobenmerkmale eine gute Modellanpassung und damit einen falschen Schluss bezüglich dieses Modells nahelegen (vgl. Tabelle 6.1.5). Für sparsame Modelle vermag folglich eine Erhöhung des RMSEA in Kombination mit einem niedrigen TLI, der unterhalb der Schwelle für ein gutes Modell liegt, eine Fehl spezifikation des Messmodells zu identifizieren. Die Forschungsliteratur stuft den SRMR als besonders sensitiv bei der Bewertung von Modellen mit Fehlspezifikationen im Strukturteil ein. Für die anderen drei FitMaße finden sich keine derartigen Hinweise (vgl. Tabelle 6.1.5). Allerdings gelingt die Bewertung eines fehlspezifizierten Strukturmodells mit normalverteilten beziehungs weise mit moderat schief verteilten Indikatoren mithilfe aller Fit-Indizes gut. So wei sen alle Fit-Indizes korrekterweise auf eine schlechte Modellanpassung hin. Für Mo delle mit Indikatoren mit stark schiefen Verteilungen zeigen der RMSEA und der SRMR fälschlich eine gute Modellanpassung an. Der TLI offenbart für alle Stichprobenvaria tionen die mangelhafte Anpassung des fehlspezifizierten Strukturmodells mit Werten
6.1 Sparsame Modelle | 67
kleiner als 0.89 am deutlichsten (vgl. Tabelle 6.1.3) und erweist sich damit als derje nige Fit-Index, der alle überprüften Modellvarianten besonders zuverlässig bewertet und Fehlspezifikationen sowohl im Messteil als auch im Strukturteil der überprüfen Modelle sensitiv erfasst. In Bezug auf unterschiedlich große Stichproben haben sich bei den vier sparsa men Modellvarianten keine starken Effekte auf die Zuverlässigkeit der Fit-Indizes ge zeigt. Es fällt allerdings auf, dass der SRMR bei allen sparsamen Modellen mit steigen der Stichprobengröße tendenziell sinkt, was für eine Sensitivität dieses Gütemaßes spricht, die insbesondere bei der Interpretation fehlspezifizierter Modelle hinderlich sein könnte (vgl. Tabelle 6.1.5). Bei den vorliegenden Modellen hat sich dahingehend allerdings kein Fehlschluss ergeben, da der SRMR bei keiner Modellvariante beson ders nahe am kritischen Wert liegt und zudem die durch die Fallzahl begründeten Unterschiede in der Höhe dieses Fit-Maßes sehr gering ausfallen. Dennoch ist dieser Befund erwähnenswert: Schließlich ist zu beachten, dass hier nur große Stichproben untersucht wurden und der SRMR bei den analysierten Modellen teils selbst unter nor malverteilten Indikatoren fälschlich eine gute Modellanpassung nahelegt (vgl. Tabel le 6.1.2). Der Grund dafür kann in der hohen Fallzahl der hier simulierten Stichproben liegen. Im Rahmen der Strukturgleichungsmodellierung werden stets möglichst gro ße Stichproben genutzt, die eine systematische Unterschätzung des durch den SRMR nahegelegten Grads der Fehlanpassung nach sich ziehen. Bei allen sparsamen Modellen zeigt sich unabhängig von der Spezifikation der Modelle kein starker Unterschied zwischen moderat oder stark linksschiefen und den entsprechenden rechtsschiefen Verteilungen der Indikatoren. Die Fit-Indizes geben dafür jeweils annähernd die gleiche Güte aus; allerdings findet sich für die Modelle mit moderat schief verteilten Indikatoren tendenziell eine bessere Modellbewertung mit linksschiefen Variablen. Das wird vor allem an den Werten des fehlspezifizierten Messmodells sichtbar und etwas schwächer ausgeprägt auch beim zuletzt behandel ten fehlspezifizierten Gesamtmodell. Dabei ist zu beachten, dass diese beiden Modelle nicht gut angepasst sind und folglich die Modellbewertung mit linksschiefen Indika toren stärker in die falsche Richtung weist. Da diese Effekte allerdings mit Differenz werten von 0.001 zwischen den Modellen mit moderat linksschiefen Verteilungen der Indikatoren und jenen mit moderat rechtsschief verteilten Indikatoren äußerst gering ausfallen (vgl. Tabelle 6.1.2), kann es als irrelevant erachtet werden, ob bei einem Mo dell alle Indikatoren entweder rechtsschiefe Verteilungen oder linksschiefe Verteilun gen aufweisen; ein substanzieller Unterschied ergibt sich dafür nicht. In stärkerem Ausmaß zeigt sich ein Unterschied zwischen Modellen mit Indi katoren unterschiedlicher Verteilungsformen und Modellen mit ausschließlich stark rechtsschiefen oder nur stark linksschiefen Verteilungen der Indikatoren. Bei jedem sparsamen Modell mit Indikatoren unterschiedlicher Verteilungsformen zeigen die Fit-Indizes eine gleichbleibende bis bessere Modellgüte an als bei einem Modell mit einer gleichgerichteten stark schiefen Verteilung der Indikatoren. Dieser Effekt zeigt sich primär für die komparativen Fit-Indizes CFI und TLI (vgl. Tabelle 6.1.5). Der CFI
68 | 6 Sensitivitäten der Fit-Indizes
erreicht einen Differenzwert bis zu 0.005 und die Differenz im Wert des TLI beträgt gar bis zu 0.009 (vgl. Tabelle 6.1.3, Zeile n = 1800, und Tabelle 6.1.4, Zeile n = 2200). Die je weiligen Differenzen des RMSEA und jene des SRMR liegen maximal beim Wert 0.001 und sind damit deutlich geringer als jene der anderen beiden Fit-Maße. Der Einfluss der Verteilungsform der Indikatoren zeigt sich vor allem beim fehlspezifizierten Mess modell. Bei dieser Modellvariante zeigt sich der TLI als einziger Fit-Index, der auch bei schiefen Verteilungen mit mittleren Werten, die nur bei der Modellvariante mit In dikatoren unterschiedlicher Verteilungsformen größer als 0.940 sind, korrekterweise auf eine Fehlanpassung des Modells hindeutet. So hat der TLI dabei einen Wert von 0.946 und rückt damit nah an die Schwelle für ein gutes Modell (vgl. Tabelle 6.1.2). Folglich kann angenommen werden, dass auch dieser Fit-Index ein bestimmtes Mo dell mit Fehlspezifikationen im Messteil fälschlich zu gut bewerten könnte, wenn die Verteilungen der Indikatoren in unterschiedliche Richtungen zeigen. Liegt der TLI bei einem sparsamen Modell, das Indikatoren mit unterschiedlich gerichteten Vertei lungen enthält, nah am Schwellenwert, so könnte dies auf eine Fehlspezifikation des Messmodells hinweisen, selbst wenn alle weiteren Fit-Indizes im Bereich einer guten Modellanpassung liegen. Der Schiefegrad der Indikatoren hat insbesondere bei den fehlspezifizierten Mo dellen eine Auswirkung auf die Höhe der Fit-Indizes. Beim korrekt spezifizierten Mo dell steigen der RMSEA und der SRMR tendenziell an, während der CFI und der TLI sinken; somit zeigen alle Fit-Indizes beim korrekten Modell mit schieferen Indikatoren eine schlechtere Modellgüte an. Allerdings fällt dieser Effekt nicht stark ins Gewicht. Bei moderater Schiefe ändern sich die mittleren Werte aller vier Indizes um nicht mehr als 0.001. Für starke Schiefe fällt die Veränderung stärker aus, allerdings liegen auch dafür alle Fit-Indizes deutlich im Bereich einer sehr guten Modellanpassung (vgl. Ta belle 6.1.1). Auch beim fehlspezifizierten Messmodell weisen die Fit-Indizes mit stär kerer Schiefe der Indikatoren eher in die falsche Richtung bezüglich der Modellgüte und bewerten Modelle mit schieferen Indikatoren als besser angepasst (vgl. dazu Ta belle 6.1.5). Hier fallen die Effekte insgesamt etwas stärker aus als beim korrekt spe zifizierten Modell. Das ist besonders für den RMSEA problematisch, der bei normal verteilten Indikatoren nur knapp oberhalb des Schwellenwerts liegt und bereits bei Modellen mit moderat schiefen Indikatoren in den Bewertungsbereich guter Modell anpassung sinkt. Beim fehlspezifizierten Strukturmodell ebenso wie beim falsch spezifizierten Ge samtmodell zeigen sich klare Effekte des Schiefegrads der Indikatoren auf die Werte der Fit-Indizes (vgl. Tabelle 6.1.3 und Tabelle 6.1.4). Verwunderlich ist, dass bei bei den Modellen die Werte aller Fit-Indizes mit steigender Schiefe sinken, sodass nur der RMSEA und SRMR diese fehlspezifizierten Modelle fälschlich besser bewerten, wenn es sich um schiefere Indikatoren handelt. Somit könnten diese beiden Maße bereits bei moderater Schiefe zu Fehlschlüssen führen – insbesondere bei Modellen wie dem vorliegenden fehlspezifizierten Strukturmodell, bei dem diese Maße bereits bei einer Normalverteilung der Indikatoren nahe am Schwellenwert liegen. Die Werte des CFI
6.1 Sparsame Modelle
| 69
und TLI zeigen mit steigender Schiefe der Indikatoren jeweils eine schlechtere Mo dellanpassung an. Das könnte nahelegen, dass für diese Maße verteilungsbedingte Fehlschlüsse ausgeschlossen werden können. Allerdings ist hierbei der Effekt auf den Standardfehler zu beachten. Bei allen sparsamen Modellen wirkt sich ein Anstieg der Schiefe der Indikatoren stark auf die Höhe der Standardfehler des CFI und TLI aus (vgl. dazu Tabelle 6.1.5). Für das fehlspezifizierte Strukturmodell heißt das Folgen des: Zwar sinkt der mittlere Wert beider Fit-Maße mit steigender Schiefe, allerdings steigt simultan dazu das obere Ende eines möglichen Konfidenzintervalls, das Aus kunft über die Streuung der Werte in den Stichproben gibt. Das Konfidenzintervall des CFI, das sich aus einer Abweichung von einem Standardfehler um den mittleren Wert des CFI ergibt, steigt für die Stichprobengröße n = 1500 von einer symmetrischen zur einer stark rechtsschiefen Verteilung an, sodass die Obergrenze vom Wert 0.956 auf den Wert 0.963 ansteigt. Dabei sinkt der mittlere Wert von 0.940 auf 0.926. Der mittle re Wert des TLI sinkt ähnlich dazu vom Wert 0.887 auf den Wert 0.861 und das obere Ende des genannten Konfidenzintervalls steigt vom Wert 0.917 auf den Wert 0.931. Schiefere Indikatoren lassen die Standardfehler des CFI und TLI bei allen sparsa men Modellen deutlich ansteigen. Das ist eine wichtige Erkenntnis: Die Unsicherheit, die mit der Schätzung dieser Fit-Indizes bei schief verteilten Indikatoren einhergeht, kann prinzipiell bei allen sparsamen fehlspezifizierten Modellen zu Fehlschlüssen be züglich der Modellgüte führen. Unter den analysierten Modellen wäre dies vor allem beim fehlspezifizierten Messmodell problematisch, bei dem im Fall moderat schief verteilter Indikatoren nur der mittlere Wert des TLI auf eine Fehlspezifikation hin weist; dabei ist allerdings auch der Standardfehler erhöht. Eine Stichprobe, für die sich ein TLI im oberen Bereich der durchschnittlichen Streuung der Stichprobenwerte ergibt, würde so fälschlich auf Basis aller Fit-Indizes auf eine gute Modellanpassung schließen lassen. Da bei der Berechnung eines Strukturgleichungsmodells vor der Analyse der Grad der Fehlspezifikation des Modells nicht bekannt ist, muss bei stark schiefen Verteilun gen damit gerechnet werden, dass alle vier Fit-Indizes das Modell zu gut bewerten. Im vorliegenden Fall zeigen sich über alle Modelle hinweg besonders stark irreführende Tendenzen für den RMSEA und den SRMR. Die Analyse der sparsamen Modelle hat Ergebnisse hervorgebracht, die größten teils, jedoch nicht vollständig, mit den Annahmen der Forschungsliteratur überein stimmen (vgl. dazu Tabelle 6.1.5). So reagiert der CFI entgegen der Ergebnisse von Hu & Bentler (1999, S. 16) keineswegs sensitiv auf die Fehlspezifikation im Messmodell (vgl. Tabelle 6.1.2) und ist insofern weniger verlässlich, als es bisherige Forschungs ergebnisse nahelegen. Ebenso finden sich im Gegensatz zu den Ausführungen von Byrne (2012, S. 98–99) deutliche Sensitivitäten hinsichtlich der Schiefe der Variablen. Die Bewertung des fehlspezifizierten Strukturmodells fällt ebenfalls anders als erwar tet aus; so bewertet nicht ausschließlich der SRMR dieses Modell korrekt als schlecht angepasst und damit erweisen sich der RMSEA, der TLI und der CFI als verlässlicher, als auf Basis der Forschungserwartungen anzunehmen wäre (vgl. dazu Tabelle 6.1.5).
70 | 6 Sensitivitäten der Fit-Indizes
Für alle sparsamen Modelle zeigt der TLI die beste Performanz. Dieser zeigt die gute Modellanpassung des korrekten Modells besonders deutlich an und identifiziert ebenso die Fehlanpassungen von allen fehlspezifizierten Modellvarianten korrekt.
6.2 Komplexe Modelle Unter den komplexen Modellen konnte nicht für jede Analysevariante die volle Anzahl an Replikationen berechnet werden. Der ausschließliche Grund dafür waren nicht po sitiv definite modellimplizierte Kovarianzmatrizen (vgl. dazu Kapitel B.1 im Anhang).
6.2.1 Korrekt spezifiziertes Modell Das korrekt spezifizierte komplexe Modell wird von allen Fit-Indizes unabhängig von der Stichprobengröße und Verteilungsform korrekt als sehr gut eingestuft (vgl. Tabel le 6.2.1). In äußerst geringem Ausmaß liegt der TLI näher an dem Wert 1 als der CFI und der RMSEA liegt näher an dem Wert 0 als der SRMR. Alle folgenden Befunde zu dieser Modellvariante stellen lediglich leichte Tendenzen dar. Für die Stichprobengröße zeigt sich kein starker Einfluss auf die Höhe der mitt leren Fit-Indizes (vgl. Tabelle 6.2.1). Bei einem Anstieg der Fallzahl ist die deutlichste Veränderung beim SRMR zu verzeichnen. Dieser sinkt mit steigender Stichprobengrö ße stets um Differenzwerte von 0.001 bis 0.002 und zeigt somit für größere Stichproben etwas deutlicher die gute Modellanpassung an. Für den RMSEA findet sich die gleiche Tendenz, allerdings in geringerem Ausmaß; die Werte des RMSEA liegen für die kleins te Stichprobe (n = 1500) beim Wert 0.007 und für die größte Stichprobe (n = 2200) je weils beim Wert 0.005 oder beim Wert 0.006. Ähnlich geringfügig fällt die Verände rung des CFI aus. Auch dieses Fit-Maß zeigt mit größerer Stichprobe eine marginal bessere Modellgüte an, allerdings nur in Verbindung mit stark schiefen Indikatoren. Der TLI weist bei diesem Modell keinen Zusammenhang zur Fallzahl auf. Die Verteilungsformen der Indikatoren wirken sich bei diesem Modell äußerst ge ring auf die Höhe der Fit-Indizes aus. In sehr geringem Ausmaß zeigen alle Fit-Indi zes mit steigender Schiefe der Indikatoren eine schlechtere Modellanpassung an, lie gen jedoch allesamt im grünen Bereich hinsichtlich der Modellbewertung. Zwischen den jeweils moderat oder stark rechtsschiefen und entsprechend linksschiefen Vertei lungsformen gibt es keinen Unterschied in Hinblick auf die Modellbewertung. Hinzu kommt, dass Modelle mit Indikatoren gemischter Verteilungen ebenso wenig einen Effekt auf die Höhe der Fit-Maße zeigen; hier lassen sich in etwa die gleichen Werte wie bei Modellen mit ausschließlich stark rechtsschief oder ausschließlich stark links schief verteilten Indikatoren finden. Das Modell wird entsprechend für alle untersuch ten Schiefegrade korrekt als sehr gut eingestuft.
6.2 Komplexe Modelle | 71
Tab. 6.2.1: Komplexes korrekt spezifiziertes Modell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.007 (0.009) 0.999 (0.002) 1.000 (0.005) 0.013 (0.004)
0.007 (0.009) 0.999 (0.002) 0.999 (0.006) 0.014 (0.004)
0.007 (0.009) 0.996 (0.006) 0.998 (0.019) 0.014 (0.003)
0.007 (0.009) 0.999 (0.002) 0.999 (0.006) 0.014 (0.004)
0.007 (0.009) 0.996 (0.006) 0.999 (0.019) 0.014 (0.003)
0.007 (0.009) 0.996 (0.007) 0.998 (0.019) 0.014 (0.003)
n = 1500
RMSEA CFI TLI SRMR
0.006 (0.008) 0.999 (0.001) 1.000 (0.004) 0.012 (0.004)
0.006 (0.008) 0.999 (0.002) 1.000 (0.005) 0.012 (0.004)
0.007 (0.008) 0.997 (0.005) 0.999 (0.015) 0.013 (0.003)
0.007 (0.008) 0.999 (0.002) 1.000 (0.005) 0.012 (0.003)
0.007 (0.009) 0.997 (0.006) 0.998 (0.016) 0.013 (0.003)
0.006 (0.008) 0.997 (0.005) 1.000 (0.015) 0.013 (0.003)
n = 1800
RMSEA CFI TLI SRMR
0.005 (0.007) 0.999 (0.001) 1.000 (0.003) 0.011 (0.003)
0.006 (0.007) 0.999 (0.001) 1.000 (0.004) 0.011 (0.003)
0.006 (0.008) 0.997 (0.004) 0.999 (0.013) 0.012 (0.003)
0.006 (0.007) 0.999 (0.001) 1.000 (0.004) 0.011 (0.003)
0.006 (0.007) 0.998 (0.004) 0.999 (0.013) 0.011 (0.003)
0.006 (0.007) 0.997 (0.004) 0.999 (0.013) 0.012 (0.003)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 832 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 994 der 1000 angeforderten Replikationen erfolgreich berechnet wer den. Für die starken Schiefegrade konnten jeweils zwischen 832 und 920 Replikationen erfolgreich berechnet werden.
Die Standardfehler steigen für schiefere Verteilungen lediglich bei den Gütema ßen CFI und TLI an. Der Standardfehler des RMSEA ist ebenso wie jener des SRMR bei den verschiedenen Verteilungsformen der Indikatoren annähernd gleich. Bei ei ner Stichprobengröße von n = 1500 steigt der Standardfehler des TLI im Vergleich zu normalverteilten Indikatoren für stark rechtsschiefe Verteilungen annähernd um das Vierfache, vom Wert 0.005 auf den Wert 0.019 an (vgl. Tabelle 6.2.1). Der Standardfeh ler des CFI steigt bei der Stichprobengröße n = 1800 für stark rechtsschiefe Verteilun gen im Vergleich zu normalverteilten Indikatoren um das Fünffache, vom Wert 0.001 auf den Wert 0.005 an. Da die mittleren Werte dieser beiden Indizes allerdings bei 0.998 respektive 0.997 liegen, sind potenzielle Fehlschlüsse trotz der erhöhten Stan dardfehler weitgehend auszuschließen. Das vorliegende komplexe korrekt spezifizierte Modell wird unter allen Stichpro benspezifikationen auf Basis aller Fit-Indizes eindeutig als gut angepasst bewertet. Die vier Fit-Indizes zeigen sich hier als äußerst robust und verlässlich.
6.2.2 Fehlspezifiziertes Messmodell Das komplexe fehlspezifizierte Messmodell zeichnet sich durch eine auf den Wert 0 fi xierte Faktorladung eines Indikators aus; im Populationsmodell weist dieser Indikator eine Faktorladung von 0.6 auf dem dritten Faktor auf. Interessant ist die Analyse dieses Modells auch deshalb, da die Fehlspezifikation etwas schwächer ausfällt als für das bereits betrachtete sparsame fehlspezifizierte Messmodell (vgl. dazu Kapitel 6.1.2). Bei jenem Modell wird eine Faktorladung mit dem Wert 0.5 unterdrückt. Dies ist dabei al
72 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.2.2: Komplexes fehlspezifiziertes Messmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.051 (0.008) 0.977 (0.007) 0.956 (0.014) 0.033 (0.005)
0.048 (0.009) 0.977 (0.009) 0.956 (0.017) 0.032 (0.005)
0.023 (0.011) 0.979 (0.016) 0.961 (0.032) 0.021 (0.005)
0.048 (0.009) 0.977 (0.008) 0.956 (0.016) 0.032 (0.005)
0.022 (0.011) 0.981 (0.015) 0.964 (0.029) 0.021 (0.004)
0.023 (0.011) 0.980 (0.015) 0.962 (0.030) 0.021 (0.004)
n = 1500
RMSEA CFI TLI SRMR
0.051 (0.007) 0.977 (0.006) 0.956 (0.012) 0.033 (0.004)
0.047 (0.008) 0.978 (0.007) 0.957 (0.014) 0.031 (0.004)
0.023 (0.009) 0.981 (0.013) 0.964 (0.025) 0.020 (0.004)
0.048 (0.008) 0.977 (0.007) 0.957 (0.014) 0.031 (0.004)
0.023 (0.010) 0.980 (0.013) 0.962 (0.026) 0.020 (0.004)
0.023 (0.010) 0.981 (0.013) 0.964 (0.025) 0.020 (0.004)
n = 1800
RMSEA CFI TLI SRMR
0.051 (0.007) 0.977 (0.006) 0.956 (0.011) 0.033 (0.004)
0.047 (0.007) 0.978 (0.007) 0.957 (0.012) 0.031 (0.004)
0.023 (0.009) 0.981 (0.012) 0.964 (0.023) 0.019 (0.004)
0.047 (0.007) 0.978 (0.007) 0.957 (0.012) 0.030 (0.004)
0.023 (0.009) 0.981 (0.012) 0.964 (0.023) 0.019 (0.004)
0.023 (0.009) 0.981 (0.012) 0.964 (0.023) 0.019 (0.004)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 739 bis 992 Stichproben und dahinter in Klammern die dazu gehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 940 der tausend angeforderten Replikationen erfolgreich berechnet werden. Für die starken Schiefegrade konnten jeweils zwischen 739 und 827 Replikationen erfolgreich berechnet werden.
lerdings eine von sieben Faktorladungen. Beim vorliegenden komplexen Modell wird eine von neun Faktorladungen unterdrückt; so bleibt ein geringerer Anteil der vorlie genden Zusammenhänge unbeachtet.⁵⁹ Das zeigt sich in den Ergebnissen zu diesem Modell, wie im Folgenden beschrieben. Bemerkenswert ist, dass das Modell nur vom RMSEA und lediglich bei normal verteilten Indikatoren korrekt als nicht gut angepasst bewertet wird. Der RMSEA liegt bei dieser Modellvariante mit einem Wert von 0.051 zwar nur knapp über dem ent sprechenden Schwellenwert von 0.05, lässt damit nichtsdestotrotz im Gegensatz zu den anderen Fit-Indizes auf eine Fehlspezifikation schließen (vgl. Tabelle 6.2.2). Der CFI liegt beim Wert 0.977 und legt somit wie der SRMR (0.033), fälschlich eine gute Modellanpassung nahe. Der TLI liegt mit einem Wert von 0.956 zwar erkennbar un ter dem Wert des CFI; allerdings weist auch dies fälschlich auf eine gute Modellan passung hin. Für alle anderen Spezifikationen der Schiefe finden sich ausschließlich Ergebnisse, die das Modell fälschlich als gut angepasst einstufen. Die Fallzahl hat unter normalverteilten Indikatoren keinen Einfluss auf die FitIndizes; es ergeben sich die gleichen Werte für alle drei Stichprobengrößen. Bei schie fen Variablen sinkt der SRMR mit steigender Fallzahl geringfügig und der TLI und der CFI zeigen mit der Ausnahme der Modelle mit stark linksschiefen Variablen leicht stei
59 Zudem sind die Faktorladungen des komplexen Modells mit einem mittleren Wert von 0.7 deut lich höher als die Faktorladungen des sparsamen Modells, die einen Mittelwert von 0.57 aufweisen. Die jeweils auf den Wert 0 fixierten Faktorladungen der beiden Modelle liegen somit beide unter der durchschnittlichen Höhe der Faktorladungen des jeweiligen Modells und sind entsprechend bezüg lich des relativen Betrags, der mit der Fehlspezifikation nicht beachtet wird, annähernd vergleichbar.
6.2 Komplexe Modelle
| 73
gende Tendenzen an. Zwar zeigen sich bei diesem Modell keine starken Effekte bezüg lich der Fallzahl; allerdings weisen alle erkennbaren Tendenzen in eine irreführende Richtung, da das Modell bei gegebener Schiefe der Indikatoren mit höherer Fallzahl besser bewertet wird. Die Schiefe selbst zeigt einen deutlicheren Effekt auf die Höhe der Fit-Indizes: Problematischerweise zeigen dabei alle Fit-Indizes eine bessere Modellanpassung für dieses fehlspezifizierte Modell an. Die Werte vom TLI und CFI steigen geringfügig mit moderater Schiefe und stärker für stark schief verteilte Indikatoren. Zwischen den Modellen mit normalverteilten Indikatoren und moderat schief verteilten Indikatoren weisen beide Gütemaße Differenzwerte von 0.001 auf (vgl. Tabelle 6.2.2). Im Vergleich zu Modellen mit normalverteilten Indikatoren steigt der CFI bei Modellen mit stark schiefen Indikatoren vom Wert 0.977 auf einen maximalen Wert von 0.981. Der Diffe renzwert von 0.004 ist relativ gering; folglich ist der Wert des CFI nicht stark von der Schiefe der Indikatoren betroffen. Der entsprechende Differenzwert des TLI liegt bei 0.008 und ist somit doppelt so hoch. Stärker werden allerdings die absoluten Fit-Indizes RMSEA und SRMR von der Schiefe der Indikatoren beeinflusst. Bereits im Vergleich zwischen Modellen mit nor malverteilten und solchen mit moderat schiefen Variablen finden sich Differenzwerte von bis zu 0.003 für den SRMR und Werte bis 0.004 für den RMSEA. Dabei zeigt sich folgendes Problem: Der mittlere Wert des RMSEA liegt bereits bei moderat schiefen Indikatoren maximal beim Wert 0.048 und zeigt eine ausreichend gute Modellanpas sung an. Damit führt er gemeinsam mit den anderen Fit-Indizes zu dem Fehlschluss, dass es sich um ein gut angepasstes Modell handelt. Die klare Fehlspezifikation des Messmodells wird damit nicht berücksichtigt. Zwischen den Modellen mit normal verteilten Indikatoren und jenen mit stark schiefen Indikatoren liegen Differenzwerte von bis zu 0.014 für den SRMR – dieser sinkt bis zum Wert 0.019 für eine Fallzahl von n = 2200 – und Differenzen bis zu 0.029 für den RMSEA, der bei der kleinsten Fallzahl und linksschiefen Variablen einen Wert von 0.022 aufweist. Das zeigt ganz deutlich, dass schiefe Indikatoren bei solch einer Modellvariante ein großes Problem darstel len können, da dabei alle Gütemaße fälschlicherweise und umso stärker auf eine gute Modellanpassung schließen lassen, je schiefer die Indikatoren verteilt sind. Die Richtung der Verteilung der Indikatoren hat allerdings keinen systematischen Einfluss auf die Höhe der Fit-Indizes und ist im Gegensatz zur Stärke der Schiefe irrele vant. Sowohl mit rechtsschiefen als auch mit linksschiefen Indikatoren wird dieses Modell fälschlich auf Basis aller Fit-Indizes als gut angepasst gewertet. Die Standardfehler sind bei diesem fehlspezifizierten Messmodell im Vergleich zum korrekt spezifizierten Modell für den CFI und den TLI deutlich erhöht. Bei nor malverteilten Indikatoren und einer Fallzahl von n = 1500 steigt der Standardfehler des TLI annähernd um das Dreifache vom Wert 0.005 auf den Wert 0.014 und jener des CFI steigt um mehr als das Dreifache vom Wert 0.002 auf den Wert 0.007 (vgl. Tabel le 6.2.1 und Tabelle 6.2.2). Die Standardfehler des RMSEA und SRMR bleiben hingegen nahezu unverändert.
74 | 6 Sensitivitäten der Fit-Indizes
Innerhalb des vorliegenden fehlspezifizierten Messmodells hat ein Anstieg der Schiefe keinen Effekt auf die Höhe des Standardfehlers des SRMR. Der Standardfehler des RMSEA steigt mit stärkerer Schiefe der Indikatoren geringfügig an. Die Standard fehler des CFI und TLI sind bei starker Schiefe jeweils mehr als doppelt so hoch wie bei normalverteilten Indikatoren. Sie steigen maximal bei der Konfiguration mit der kleinsten Stichprobe und mit rechtsschief verteilten Indikatoren vom Wert 0.007 auf den Wert 0.016 (CFI) beziehungsweise vom Wert 0.014 auf den Wert 0.032 (TLI). Der Anstieg in der Unsicherheit der Schätzung mittels einer einzigen Stichprobe, der mit einem Anstieg des Standardfehlers einhergeht, zeigt sich jedoch nicht als pri märes Problem bei der Evaluation dieser Modellvariante. Problematisch ist, dass nur der RMSEA darauf hindeutet, dass eine Fehlspezifikation vorliegt, und dies nur, wenn die Indikatoren normalverteilt sind. Bereits eine geringere Schiefe als die hier verwen dete moderate Schiefe mit dem Wert 1 könnte diesen Fit-Index so sinken lassen, dass der Wert unter dem Schwellenwert liegt und somit das Modell allen vier Indizes zufol ge fälschlicherweise als gut bewertet werden würde.
6.2.3 Fehlspezifiziertes Strukturmodell Das komplexe fehlspezifizierte Strukturmodell besteht aus drei Faktoren, zwischen denen lediglich eine Kovarianz, die beim Wert 0.6 liegt, frei geschätzt wird. Ein weite rer Zusammenhang zwischen dem ersten und dem zweiten Faktor, der ebenfalls beim Wert 0.6 liegt, wird in diesem Modell auf den Wert 0 fixiert, sodass die Zusammenhän ge der Faktoren in diesem Modell nicht korrekt wiedergegeben sind und es sich so um ein fehlspezifiziertes Strukturmodell handelt. Alle Fit-Indizes weisen sowohl bei Modellen mit normalverteilten Indikatoren als auch bei Modellen mit moderat schief verteilten Indikatoren auf eine Fehlspezifikation des Modells hin. Der TLI weicht hier am stärksten vom Schwellenwert ab und liegt mit einem Wert kleiner als 0.86 eindeutig im Bereich mangelhafter Modellanpassung (vgl. Tabelle 6.2.3). Bezüglich der Fallzahl finden sich hier nahezu keine systematischen Effekte. In äußerst geringem Ausmaß und nur für bestimmte Spezifikationen der Schiefe der Mo dellindikatoren zeigt der SRMR eine sinkende Tendenz an: Mit steigender Fallzahl wird das Modell durch dieses Gütemaß tendenziell besser eingestuft. Für die verschiedenen Richtungen der schiefen Indikatoren zeigt sich im Vergleich zwischen den Modellen mit ausschließlich rechtsschiefen Variablen und jenen mit ausschließlich linksschiefen Variablen kein systematischer Effekt auf die Höhe der Fit-Indizes. Zwar hat der TLI im Vergleich zwischen den Modellen mit stark rechts schief verteilten Indikatoren und jenen mit stark linksschiefen Verteilungen der Indi katoren Differenzwerte von bis zu 0.005, allerdings zeigt sich keine feste Richtung der Höhe des TLI zwischen Modellen mit rechtsschiefen und linksschiefen Verteilungen der Variablen. Für Modelle mit Indikatoren unterschiedlicher Verteilungen weist der
6.2 Komplexe Modelle
| 75
Tab. 6.2.3: Komplexes fehlspezifiziertes Strukturmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.093 (0.008) 0.926 (0.011) 0.858 (0.021) 0.080 (0.007)
0.087 (0.008) 0.925 (0.012) 0.856 (0.024) 0.075 (0.007)
0.050 (0.009) 0.919 (0.026) 0.846 (0.049) 0.041 (0.006)
0.087 (0.008) 0.925 (0.013) 0.857 (0.024) 0.075 (0.007)
0.049 (0.009) 0.922 (0.026) 0.851 (0.049) 0.040 (0.006)
0.050 (0.008) 0.921 (0.023) 0.849 (0.043) 0.040 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.093 (0.007) 0.926 (0.010) 0.859 (0.020) 0.080 (0.007)
0.087 (0.008) 0.925 (0.012) 0.857 (0.023) 0.074 (0.007)
0.050 (0.008) 0.920 (0.023) 0.847 (0.045) 0.040 (0.006)
0.087 (0.007) 0.926 (0.011) 0.858 (0.022) 0.074 (0.007)
0.050 (0.008) 0.919 (0.025) 0.845 (0.047) 0.040 (0.006)
0.050 (0.007) 0.922 (0.021) 0.850 (0.040) 0.040 (0.005)
n = 1800
RMSEA CFI TLI SRMR
0.093 (0.006) 0.926 (0.009) 0.859 (0.017) 0.080 (0.006)
0.087 (0.007) 0.925 (0.011) 0.857 (0.020) 0.074 (0.006)
0.050 (0.007) 0.920 (0.021) 0.848 (0.041) 0.040 (0.005)
0.087 (0.007) 0.925 (0.010) 0.857 (0.020) 0.074 (0.006)
0.050 (0.008) 0.920 (0.022) 0.847 (0.041) 0.040 (0.006)
0.050 (0.006) 0.921 (0.019) 0.849 (0.037) 0.039 (0.005)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
TLI jeweils höhere Werte auf als bei den Vergleichsmodellen mit ausschließlich rechts schiefen Variablen; auch im Vergleich zu den Modellen mit ausschließlich linksschie fen Variablen weist dieses Modell mit Ausnahme der Stichprobengröße von n = 1500 höhere Werte auf. Möglicherweise weist das darauf hin, dass der TLI im Gegensatz zu den anderen untersuchten Fit-Indizes auf die Richtung der Verteilung reagiert. Im Gegensatz zur Richtung der Schiefe hat das Ausmaß der Schiefe der Indikato ren einen deutlichen Einfluss auf alle hier betrachteten Fit-Indizes. Dieser Effekt ist für den CFI am schwächsten ausgeprägt. Hier finden sich für Modelle mit moderat schie fen Indikatoren im Vergleich zu solchen mit normalverteilten Variablen Differenzwerte von nicht mehr als 0.001 (vgl. Tabelle 6.2.3). Die entsprechenden maximalen Differenz werte des TLI liegen bei 0.002. Im Vergleich dazu liegt der entsprechende Differenz wert des RMSEA bei 0.006 und jener des SRMR bei maximal 0.006. Als problematisch zeigt sich diese Sensitivität bezüglich der Verteilung für den RMSEA und den SRMR nicht lediglich aufgrund der Stärke des Effekts, sondern vor allem aufgrund der Tatsa che, dass alle mittleren Fit-Indizes mit steigender Schiefe sinken und somit der RMSEA und der SRMR bei schiefen Variablen eine bessere Modellgüte nahelegen. Für alle Mo delle mit stark schiefen Indikatoren liegt der SRMR mit einem Wert von 0.04 deutlich unter der kritischen Grenze von 0.05 und zeigt so fälschlich eine gute Modellanpas sung an. Im Fall des RMSEA wird bei Modellen mit stark schief verteilten Indikatoren die Schwelle von 0.05 nicht überschritten. Zu beachten ist hier allerdings die Tendenz der beiden absoluten Fit-Indizes, mit steigender Schiefe der Indikatoren eine besse re Modellanpassung für ein solch fehlspezifiziertes Strukturmodell nahezulegen. Der SRMR würde den Ergebnissen zufolge bereits für eine geringere Schiefe der Indikato ren unter den Schwellenwert sinken und fälschlich eine gute Modellanpassung nahe legen. Bei schief verteilten Indikatoren tendieren der RMSEA und der SRMR offenbar
76 | 6 Sensitivitäten der Fit-Indizes TLI
300
Häufigkeit
200
100
0 0.65
0.70
0.75
0.80 0.85 Wert
0.90
0.95
1.00
Abb. 6.2.1: Verteilungsplot des TLI, 99 % korrekte Modellbewertungen.
dazu, die Fehlanpassung im Strukturmodell zu unterschätzen. Bei ähnlich komplexen Modellen, die hinsichtlich der Zusammenhänge der latenten Faktoren nicht korrekt spezifiziert sind, können so irreführende Modellergebnisse entstehen. Mit steigender Schiefe der Indikatoren steigen bei diesem Modell zudem die Stan dardfehler des CFI und TLI an. Auf den Standardfehler des RMSEA wirkt sich die Schie fe nur marginal aus und auf den Standardfehler des SRMR zeigt sich keine Auswir kung. Der starke Anstieg der Standardfehler des TLI und des CFI bei Modellen mit schief verteilten Indikatoren kann kaum zu Problemen bei der Modellevaluation füh ren, da die mittleren Werte dieser beiden Maßzahlen jeweils deutlich mehr als eine Standardabweichung unterhalb der Schwellenwerte liegen und so davon ausgegan gen werden kann, dass die Ergebnisse der meisten Stichproben eindeutig auf eine Fehlspezifikation hindeuten (vgl. Abbildungen 6.2.1 und 6.2.2). Unter allen Teilsimula tionen zum komplexen fehlspezifizierten Strukturmodell ist die in Abbildung 6.2.1 und Abbildung 6.2.2 dargestellte jene, bei der die Werte dieser beiden Fit-Indizes, gemes sen über den Durchschnitt und die Standardabweichung, am höchsten ausfallen und so der größte Anteil an fälschlicherweise korrekt bewerteten Modellen zu verzeichnen ist. Der TLI weist dabei einen Mittelwert von 0.851 auf (Standardfehler = 0.049) und der Mittelwert des CFI liegt bei 0.922 (Standardfehler = 0.026). Gemessen am Schwellen
6.2 Komplexe Modelle
| 77
CFI 300
250
Häufigkeit
200
150
100
50
0 0.85
0.90
0.95
1.00
Wert Abb. 6.2.2: Verteilungsplot des CFI, 86 % korrekte Modellbewertungen.
wert von 0.95 wird für den TLI 0.9 % der Verteilung nach rechts abgetrennt. Entspre chend wird das Modell bei über 99 % der Stichproben korrekt zurückgewiesen. Beim CFI liegen circa 13 % der Verteilung über dem Schwellenwert. So kann das Modell mit diesem Fit-Index für circa 86 % der Stichproben korrekt als fehlspezifiziert bewertet werden. Es lässt sich festhalten, dass das komplexe fehlspezifizierte Strukturmodell so wohl für normalverteilte Indikatoren als auch für moderat schiefe Verteilungen mittels aller Fit-Indizes eindeutig sowie korrekterweise als nicht gut genug angepasst gewer tet wird. Bei Modellen mit stark schief verteilten Indikatoren weisen der TLI und der CFI deutlich auf eine Fehlspezifikation hin, während der RMSEA nah am Schwellen wert liegt und der SRMR fälschlicherweise eine gute Anpassung des Modells attestiert.
6.2.4 Fehlspezifikationen von Messmodell und Strukturmodell Beim komplexen fehlspezifizierten Gesamtmodell werden die falschen Spezifikatio nen des fehlspezifizierten Messmodells und jene des fehlspezifizierten Strukturmo
78 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.2.4: Komplexes Modell mit Fehlspezifikation von Messmodell und Strukturmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.099 (0.007) 0.907 (0.013) 0.838 (0.022) 0.085 (0.007)
0.093 (0.008) 0.907 (0.014) 0.837 (0.025) 0.079 (0.007)
0.053 (0.009) 0.903 (0.028) 0.830 (0.049) 0.044 (0.006)
0.093 (0.008) 0.907 (0.015) 0.837 (0.026) 0.079 (0.007)
0.052 (0.009) 0.906 (0.028) 0.836 (0.048) 0.043 (0.006)
0.052 (0.008) 0.905 (0.025) 0.833 (0.044) 0.043 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.099 (0.007) 0.908 (0.011) 0.839 (0.020) 0.084 (0.006)
0.093 (0.007) 0.907 (0.013) 0.838 (0.023) 0.079 (0.007)
0.053 (0.008) 0.904 (0.026) 0.831 (0.046) 0.043 (0.006)
0.093 (0.007) 0.908 (0.013) 0.838 (0.023) 0.079 (0.007)
0.053 (0.008) 0.902 (0.026) 0.829 (0.046) 0.043 (0.006)
0.052 (0.007) 0.905 (0.024) 0.834 (0.042) 0.043 (0.005)
n = 1800
RMSEA CFI TLI SRMR
0.099 (0.006) 0.908 (0.010) 0.839 (0.018) 0.084 (0.006)
0.093 (0.007) 0.908 (0.012) 0.838 (0.021) 0.078 (0.006)
0.052 (0.007) 0.905 (0.023) 0.833 (0.041) 0.042 (0.005)
0.093 (0.007) 0.908 (0.012) 0.839 (0.020) 0.078 (0.006)
0.053 (0.007) 0.904 (0.024) 0.832 (0.041) 0.043 (0.005)
0.052 (0.006) 0.905 (0.021) 0.834 (0.038) 0.042 (0.005)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 996 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils alle 1000 angeforderten Replikationen erfolgreich berechnet werden.
dells kombiniert. Das Modell beinhaltet folglich eine fälschlich auf den Wert 0 fixierte Faktorladung sowie eine auf den Wert 0 fixierte Kovarianz zweier Faktoren des Mo dells, die innerhalb der Population beim Wert 0.6 liegt. Die starke Fehlspezifikation des vorliegenden Modells zeigt sich vor allem beim TLI, der für sämtliche Stichprobenspezifikationen unter dem Wert 0.86 und damit im Mittel jeweils deutlich mehr als zwei Standardfehler unter dem Schwellenwert liegt (vgl. Tabelle 6.2.4). Alle weiteren Indizes zeigen zumindest für Modelle mit normalver teilten oder moderat schief verteilten Indikatoren ebenfalls korrekterweise eine Fehl anpassung des Modells an. Bei stark schiefen Indikatoren liegt allein der SRMR unter dem Schwellenwert und zeigt so fälschlich eine gute Modellanpassung an. Die Fallzahl wirkt sich bei dieser Modellvariante nicht auf die Höhe des RMSEA aus und lediglich unter Nichtbeachtung der Modelle mit stark linksschief verteilten Variablen zeigen der TLI und der CFI eine leicht steigende Tendenz und damit mit höherer Fallzahl irreführend eine marginal bessere Modellgüte an (vgl. Tabelle 6.2.4). Ebenso geringfügig zeigt der SRMR mit steigender Fallzahl eine bessere Modellanpas sung an. Die Differenzwerte zwischen der kleinsten und der größten Stichprobe rei chen für die Fit-Indizes lediglich bis zum Wert 0.003 ⁶⁰; somit können Fehlschlüsse auf Basis einer sehr hohen Fallzahl weitgehend ausgeschlossen werden. Die Richtung der Verteilung hat erst bei genauerem Hinsehen einen Einfluss auf die Höhe der Fit-Indizes: Bei der kleinsten Stichprobengröße zeigt sich ein hoher Dif
60 Diese maximale Differenz findet sich – bei Nichtbeachtung der Ergebnisse der Modelle mit Indi katoren mit einer stark linksschiefen Verteilung – lediglich für den TLI bei Modellen mit stark rechts schiefen Indikatoren.
6.2 Komplexe Modelle
| 79
ferenzwert im TLI und eine erhöhte Differenz in den Werten des CFI zwischen dem Modell mit stark rechtsschiefen Indikatoren und jenem mit stark linksschiefen Indi katoren (vgl. Tabelle 6.2.4). Bei den Modellen mit linksschiefen Indikatoren ist der CFI um 0.003 und der TLI gar um 0.006 erhöht; dieses Einzelergebnis läuft dem systema tischen Effekt der Stichprobengröße auf den TLI und den CFI entgegen.⁶¹ Der TLI weist für jede untersuchte Stichprobengröße beim Modell mit Indikatoren unterschiedlicher Verteilungen jeweils höhere Werte auf als bei dem Modell mit aus schließlich rechtsschiefen oder jenem mit ausschließlich linksschiefen Indikatoren, sofern die Werte des Vergleichsseeds (1326510) für die Teilsimulation mit der Fallzahl von n = 1500 und Indikatoren mit stark linksschiefen Verteilungen für den Vergleich genutzt werden. Die Richtung der Schiefe zeigt bei diesem Modell – wie auch bei dem komplexen fehlspezifizierten Strukturmodell – einen Einfluss auf den TLI. Die ande ren Fit-Indizes zeigen dahingehend beim vorliegenden fehlspezifizierten Gesamtmo dell keine Sensitivitäten auf. Da der TLI bei diesem Modell für alle Spezifikationen einen sehr geringen Wert aufweist, sind irreführende Ergebnisse auf Basis dieses Gü temaßes in Verbindung mit Indikatoren unterschiedlicher Verteilungen für fehlspezi fizierte Modelle wie das vorliegende nicht zu erwarten. Das Ausmaß der Schiefe der Indikatoren zeigt einen deutlichen Einfluss auf die Höhe aller vier Fit-Indizes. Mit steigender Schiefe sinken die mittleren Werte aller FitMaße; jene des CFI und TLI sinken im Vergleich zwischen Modellen mit normalver teilten Indikatoren und solchen mit moderat schief verteilten Variablen mit Differenz werten von nicht mehr als 0.001 lediglich marginal. Dabei sinken der RMSEA jeweils um 0.006 und der SRMR jeweils um bis zu 0.006 (vgl. Tabelle 6.2.4), was als proble matisch eingestuft werden könnte, da sich diese beiden Gütemaße so einer fälschlich guten Modellbewertung annähern. Allerdings zeigt der RMSEA mit mittleren Werten von mindestens 0.052 auch bei Modellen mit stark schief verteilten Indikatoren kor rekt keine gute Modellanpassung an. Der SRMR sinkt bei Modellen mit stark schief verteilten Indikatoren mit Werten von bis zu 0.042 unter den Schwellenwert von 0.05 und impliziert demnach fälschlicherweise eine adäquate Modellanpassung. Auch bei geringerer Schiefe der Indikatoren könnte dieses Maß unter den Schwellenwert fal len und so eine falsche Modellbewertung nahelegen. Dabei ist zu beachten, dass alle anderen Fit-Indizes eindeutig eine Fehlanpassung anzeigen und ein eindeutiger Fehl schluss unter Berücksichtigung aller Fit-Indizes somit bei einem solchen Modell auch bei Indikatoren, die äußerst schiefe Verteilungen aufweisen, annähernd ausgeschlos
61 Möglicherweise sind bei der Simulation des Effekts stark linksschiefer Indikatoren unwahrschein lich hohe mittlere Werte dieser beiden Fit-Indizes entstanden. Dies wird auch durch die Variation des Seeds nahegelegt. Mit dem Seed 1326510 lauten die mittleren Werte für die Fit-Indizes bei einer Stichprobengröße von n = 1500 und stark linksschiefen Indikatoren (in Klammern dahinter die Werte mit dem Seed 2009 aus Tabelle 6.2.4): RMSEA = 0.053 (0.052), CFI = 0.903 (0.906), TLI = 0.829 (0.836), SRMR = 0.044 (0.043). Diese Werte legen keine große Differenz zwischen den Modellen mit linksschie fen und jenen mit rechtsschiefen Indikatoren nahe.
80 | 6 Sensitivitäten der Fit-Indizes
sen ist. Ein irreführendes Ergebnis, bei dem die verschiedenen Gütemaße unterschied liche Schlüsse nahelegen, könnte so allerdings durchaus entstehen. Bezüglich der Standardfehler zeigen sich für den RMSEA und SRMR lediglich mar ginale Zusammenhänge zur Verteilung der Indikatoren. Der SRMR, dessen mittlerer Wert mit stärkerer Schiefe der Indikatoren stark sinkt, weist für schiefere Variablen zum Teil sogar marginal geringere Standardfehler auf. Der Standardfehler des RMSEA steigt marginal mit stärkerer Schiefe der Indikatoren, während die Standardfehler des CFI und TLI mit steigender Schiefe der Indikatoren stark steigen: Für moderate Schie fe steigt der Standardfehler des CFI um bis zu 0.002 und der des TLI um bis zu 0.004. Für starke Schiefe zeigen sich für beide Gütemaße bereits mehr als doppelt so hohe Standardfehler wie bei normalverteilten Indikatoren. Allerdings liegen die mittleren Werte beider Gütemaße selbst bei Modellen mit stark schiefen Indikatoren im Mittel mehr als eine Standardabweichung unter dem Schwellenwert und zeigen so zuverläs sig eine Fehlanpassung des Modells an (vgl. Tabelle 6.2.4). Die mittleren Werte der Fit-Indizes zeigen in Verbindung mit den Standardfehlern klar, dass es bei einem derart fehlspezifizierten Modell hinsichtlich der dargestellten Ergebnisse nahezu ausgeschlossen ist, das Modell auf Basis der Fit-Indizes fälschlich als gut angepasst zu bewerten.
6.2.5 Zentrale Ergebnisse komplexer Modelle Die komplexen Modelle haben in Zusammenhang mit den in Kapitel 4.1 formulierten Forschungserwartungen interessante Ergebnisse aufgeworfen (vgl. Tabelle 6.2.5). Zu nächst kann festgehalten werden, dass das korrekte Modell unabhängig von der Grö ße der dem Modell zugrunde liegenden Stichprobe und der Verteilung der Indikatoren eindeutig als gut angepasst erkannt wird. Das fehlspezifizierte Gesamtmodell wird ähnlich dazu von allen Fit-Indizes als nicht gut genug angepasst erkannt; lediglich der SRMR stellt bei Modellen mit stark schiefen Indikatoren eine Ausnahme dar. Gleiches gilt für das fehlspezifizierte Struk turmodell, das nur bei Konfigurationen mit stark schief verteilten Indikatoren durch den RMSEA und den SRMR fälschlich als gut bewertet wird. Damit geht für den RMSEA und den SRMR eine deutliche Sensitivität bezüglich der Schiefe der Indikatoren ein her; eine mangelnde Sensitivität bezüglich der Fehlspezifikationen des Strukturmo dells ist für diese beiden Gütemaße hingegen nicht naheliegend, da sie die Fehlspe zifikation im Strukturteil unter allen anderen Spezifikationen korrekt erfassen (vgl. dazu Tabelle 6.2.5). Das fehlspezifizierte Messmodell wird allein durch den RMSEA unter der Voraus setzung normalverteilter Indikatoren als nicht gut genug angepasst bewertet. Bei mo derater Schiefe der Indikatoren liegen bereits alle Fit-Indizes fälschlicherweise im Be reich guter Modellanpassung (vgl. dazu Tabelle 6.2.5). Für dieses Modell wie für alle komplexen fehlspezifizierten Modelle zeigt sich stets, dass der Wert des TLI niedriger
6.2 Komplexe Modelle |
81
Tab. 6.2.5: Sensitivitäten der Fit-Indizes bei komplexen Modellen unter Berücksichtigung der Forschungserwartungen.
RMSEA TLI CFI SRMR
Fallzahl
Fehlspezifikation Fehlspezifikation Schiefe Messmodell Strukturmodell
nein (✓) nein (✓) nein (✓) ja (✓)
ja (✓) ja (=)̸ ja (=)̸ nein (✓)
nein (=)̸ nein (=)̸ nein (=)̸ ja (✓)
nein (=)̸ nein (=)̸ nein (=)̸ nein (=)̸
Verteilungs richtung
(Schiefe →) Standardfehler
nein ja nein nein
nein ja ja nein
Zu sehen sind die jeweiligen Forschungserwartungen (vgl. dazu Kapitel 4.1) unterteilt nach „ja“ (die konkrete Sensitivität wird erwartet) und „nein“ (es wird keine Sensitivität erwartet). In Klammern ist jeweils vermerkt, ob sich die einzelne Erwartung erfüllt hat (✓) oder nicht (=). ̸ Zusätzlich zur unter suchten Auswirkung der Fallzahl, der Fehlspezifikationen des Messmodells einerseits und des Struk turmodells andererseits und der Schiefe der Indikatoren auf die Gütemaße ist die Auswirkung der Ver teilungsrichtung der Indikatoren auf die Gütemaße sowie der Effekt des Schiefegrads der Indikatoren auf die Höhe des Standardfehlers angegeben; dabei ist jeweils direkt vermerkt, ob eine entsprechen de Sensitivität besteht.
ist als der Wert des CFI und der Wert des RMSEA über dem Wert des SRMR liegt.⁶² Der TLI zeigt so sämtliche Fehlspezifikationen sensitiver an als der CFI; ebenso ist dem RMSEA mehr Beachtung zu schenken als dem SRMR, wenn ein komplexes Struktur gleichungsmodell hinsichtlich der Modellanpassung und möglicher Fehlspezifikatio nen geprüft wird. Interessant ist dies auch hinsichtlich des korrekt spezifizierten Mo dells, das wiederum durch den TLI besser bewertet wird als durch den CFI und durch den RMSEA eine bessere Bewertung erfährt als durch den SRMR. Im Rahmen der Modellierung der komplexen Modelle zeigt sich für den SRMR ein klarer Effekt bezüglich der Fallzahl. Der SRMR ist der einzige untersuchte FitIndex, der bei jeder Modellvariante auf die Stichprobengröße reagiert und für größere Stichproben tendenziell eine bessere Modellanpassung anzeigt, was bei der Evalua tion fehlspezifizierter Modelle problematisch sein kann. Für die – im vorliegenden Rahmen relevanten – großen Fallzahlen wird keines der untersuchten komplexen fehlspezifizierten Modelle für alle Stichprobenspezifikationen vom SRMR korrekt als fehlspezifiziert bewertet. Dabei zeigen alle anderen Fit-Indizes bei zwei der drei fehl spezifizierten Modellvarianten für alle Stichprobenspezifikationen korrekt keine gute Modellanpassung an. Als Einschränkung ist hier zu beachten, dass der SRMR beim fehlspezifizierten Strukturmodell und beim fehlspezifizierten Gesamtmodell ledig lich bei stark schiefen Indikatoren einen falschen Schluss bezüglich der Modellgüte nahelegt. Allerdings zeigt dies im Vergleich zu den anderen drei Gütemaßen eine
62 Da für den TLI der gleiche Schwellenwert (0.95) genutzt wird wie für den CFI und auch der RMSEA und der SRMR den gleichen Schwellenwert (0.05) haben, lassen sich die Bewertungen der Modellgüte jeweils vergleichen.
82 | 6 Sensitivitäten der Fit-Indizes
erhöhte Fehleranfälligkeit des SRMR auf, die möglicherweise stark durch die hohen Fallzahlen bedingt ist. Innerhalb der Analyse der komplexen Modelle hat sich bezüglich des Verteilungs musters der Indikatoren eine interessante Sensitivität des TLI gezeigt. Dieses Gütemaß zeigt beim fehlspezifizierten Strukturmodell ebenso wie beim fehlspezifizierten Ge samtmodell für Modelle mit Indikatoren unterschiedlicher Verteilungen höhere Werte und somit eine bessere Modellanpassung an als für Modelle mit ausschließlich rechts schiefen oder ausschließlich linksschiefen Indikatoren. Das ist insofern bemerkens wert, als nicht eine bestimmte Richtung der Indikatoren dieses Gütemaß ansteigen lässt, sondern die Kombination aus Indikatoren mit rechtsschiefen Verteilungen und Indikatoren mit linksschiefen Verteilungen. Zudem besteht diese Sensitivität lediglich bei Modellen, die Fehlspezifikationen im Strukturteil aufweisen. Daraus folgt aller dings nicht unbedingt eine falsche Modellbewertung, da der TLI die Fehlspezifikatio nen dieser beiden Modelle für alle Spezifikationen der Verteilung stark wiedergibt; die Werte liegen bei beiden Modellen – zum Teil deutlich – unter dem Wert 0.86 und somit jenseits der Schwelle (0.95) für eine gute Modellanpassung. Bezüglich des Ausmaßes der Schiefe lässt sich zunächst festhalten, dass ein An stieg der Schiefe der Indikatoren insofern unterschiedliche Wirkungsrichtungen hat, als nicht immer mit steigender Schiefe die Modellbewertung entweder in die falsche oder in die richtige Richtung gelenkt wird. Beim korrekten Modell zeigen sich nur geringe Tendenzen, die allerdings alle in der Form bestehen, dass mit einem Anstieg der Schiefe die Modellgüte mit allen Fit-Indizes schlechter bewertet wird. Ein An stieg der Schiefe wirkt hier somit marginal in die falsche Richtung. Ebenso fällt die Wirkungsrichtung der Schiefe beim fehlspezifizierten Messmodell aus. Dieses Mo dell wird mit stärkerer Schiefe der Indikatoren auf Basis aller Fit-Indizes als besser eingestuft; schiefe Indikatoren wirken dabei irreführend. Bei dem fehlspezifizierten Strukturmodell und dem fehlspezifizierten Gesamtmodell sinken die Werte aller FitIndizes; die mittleren Werte des CFI und des TLI zeigen damit in geringem Ausmaß eine schlechtere Modellanpassung an, was zu keinem Problem bei der Modelleva luation führen kann, da fehlspezifizierte Modelle als nicht gut angepasst gewertet werden sollten. Der SRMR und der RMSEA weisen allerdings mit stärkerer Schiefe der Indikatoren stärker in die falsche Richtung und bewerten das jeweilige Modell als besser. Stark fallen die Effekte des Ausmaßes der Schiefe lediglich für die Fit-Indizes RMSEA und SRMR aus und das nur bei den fehlspezifizierten Modellvarianten. Dabei weist die Veränderung in der Modellbewertungen stets in die falsche Richtung. Es zeigen sich klare Effekte des Schiefegrads der Verteilungen der Indikatoren sowie der Modellspezifikation auf die Höhe der Standardfehler; allerdings gilt dies primär für die komparativen Fit-Indizes CFI und TLI. Die Standardfehler der absolu ten Fit-Indizes RMSEA und SRMR, weisen für alle Modellvarianten lediglich margina le Zusammenhänge zur Schiefe der Indikatoren sowie zur Modellanpassung auf: Mit steigender Schiefe der Indikatoren steigen die Standardfehler dieser beiden Maße gar nicht bis kaum an und ebenso finden sich keine deutlichen Differenzen in den Stan
6.2 Komplexe Modelle | 83
dardfehlern zwischen den verschiedenen Modellvarianten – dem korrekt spezifizier ten Modell und den drei fehlspezifizierten Modellvarianten. Die Standardfehler der komparativen Fit-Indizes steigen hingegen deutlich mit schieferen Indikatoren und ebenso reagieren die Standardfehler dieser Gütemaße sensitiv auf die Spezifikation der Anpassung des Modells (vgl. dazu Tabelle 6.2.5). So sind die Standardfehler des CFI und TLI bei allen fehlspezifizierten Modellen deutlich höher als beim korrekt spe zifizierten Modell; Zudem sind die Standardfehler beim fehlspezifizierten Strukturmo dell höher als beim fehlspezifizierten Messmodell und beim fehlspezifizierten Gesamt modell finden sich die höchsten Standardfehler. Das ist ein interessantes Ergebnis: Die Genauigkeit der Schätzung, die durch den Standardfehler angegeben werden, schei nen für den RMSEA ebenso wie für den SRMR robust hinsichtlich der Verteilung der Indikatoren und der in der Praxis stets zunächst unbekannten Fehlspezifikation des Modells zu sein. Werden im Rahmen der Strukturgleichungsmodellierung jedoch für eine bestimmte Stichprobe die Werte des CFI und des TLI für die Modellevaluation ge nutzt, hängt die Genauigkeit dieser Werte zum einen von den bekannten Verteilungen der Indikatoren und zum anderen von der unbekannten Modellanpassung selbst ab. Beachtlich sind die Abweichungen der Ergebnisse von den Forschungserwartun gen. Bezüglich der angenommenen Sensitivität auf die Fallzahl können alle Erwar tungen bestätigt werden. Das Ausmaß der Schiefe der Verteilung der Indikatoren zeigt hingegen deutlich stärkere Effekte an, als die Forschungsliteratur erwarten lässt (vgl. dazu Kapitel 4.1); wenngleich beachtlich ist, dass zwar alle vier Fit-Indizes sensitiv auf schiefe Verteilungen reagieren, der RMSEA und der SRMR allerdings deutlich stärkere Sensitivitäten aufweisen und damit tendenziell eher irreführende Modellbewertungen hervorrufen können als der TLI und der CFI; dies sollte beachtet werden. Die beiden komparativen Fit-Indizes CFI und TLI zeigen die Fehlspezifikation des Messmodells entgegen der Forschungserwartung nicht an, wenngleich zu beach ten ist, dass der TLI recht nah am Schwellenwert liegt und damit sensitiv – jedoch nicht ausreichend sensitiv – reagiert. Diese ausbleibende, jedoch im Rahmen der Modellevaluation hilfreiche Sensitivität offenbart eine Schwäche dieser beiden FitIndizes. Dem SRMR fehlt diese Sensitivität ebenfalls; das steht im Einklang mit den Forschungserwartungen (vgl. Tabelle 6.2.5). Die durch die Forschungsliteratur wiedergegebenen Annahmen zu Sensitivitäten auf Fehlspezifikationen des Strukturmodells stimmen nicht mit den Ergebnissen die ser Simulationsstudie überein. So wird das fehlspezifizierte Strukturmodell von allen Fit-Indizes als falsch angepasst erkannt und dabei ausschließlich vom SRMR – der laut Hu & Bentler (1999, S. 16) eine besonders starke Sensitivität aufweisen soll – un ter stark schiefen Verteilungen der Indikatoren fälschlich als gut angepasst bewertet (vgl. Tabelle 6.3.3). Alle anderen Fit-Indizes reagieren insofern stärker und besser als der SRMR auf diese falsche Spezifikation. Im Rahmen aller simulierten komplexen Modelle zeigt der RMSEA eine gute Mo dellanpassung ebenso wie eine gegebene Fehlanpassung stärker an als der SRMR und der TLI zeigt die Anpassung des Modells deutlicher an als der CFI. Beim fehlspezifi
84 | 6 Sensitivitäten der Fit-Indizes
zierten Messmodell zeigt sich der RMSEA sogar als einziger Fit-Index, der bei Teilen der Simulation korrekt nicht im Bereich guter Modellanpassung liegt.
6.3 Sehr komplexe Modelle Nicht für alle spezifizierten sehr komplexen Modelle wurde die volle Anzahl von 1000 Replikationen erreicht. Die Gründe dafür liegen bei negativen Varianzschätzungen, Problemen bei der Schätzung der Standardfehler sowie nicht positiv definiten Kova rianzmatrizen (vgl. dazu Kapitel B.1 im Anhang).
6.3.1 Korrekt spezifiziertes Modell Die vier Fit-Indizes zeigen für das sehr komplexe korrekt spezifizierte Modell mittlere Werte, die eindeutig auf eine sehr gute Modellanpassung schließen lassen (vgl. Tabel le 6.3.1). Der TLI und der CFI liegen mit Werten von 0.997 bis 1.0 in einem Bereich, der eine perfekte Schätzung der in dem Modell festgelegten Zusammenhänge zwischen den Daten nahelegt. Dabei liegt der Wert des TLI stets bei oder marginal über dem Wert des CFI und zeigt damit die gute Modellanpassung geringfügig deutlicher an. Der Wert des RMSEA liegt bei maximal 0.008 und der Wert des SRMR liegt jeweils zwischen 0.011 und 0.014. Alle Sensitivitäten, die sich für dieses Modell zeigen, sind lediglich von geringem Ausmaß. Ein Anstieg der Fallzahl wirkt sich am deutlichsten auf den SRMR aus (vgl. Ta belle 6.3.1). Der TLI weist bei diesem Modell keine Sensitivität bezüglich der Fallzahl auf. Während der RMSEA mit steigender Fallzahl geringfügig sinkt, steigt der CFI ten denziell äußerst geringfügig an; so zeigen beide Fit-Indizes mit steigender Fallzahl die gute Modellanpassung etwas deutlicher an. Der Wert des SRMR sinkt mit jeder höhe ren Stufe der Stichprobengröße und so weist dieses Gütemaß die stärkste Sensitivität bezüglich der Fallzahl auf. Die Verteilungsrichtung der Indikatoren zeigt nahezu keinen Einfluss auf die FitIndizes. Es lässt sich lediglich feststellen, dass der TLI für zwei von drei Stichproben größen bei moderat linksschiefen Indikatoren (TLI = 1.0) minimal höher liegt als bei moderat rechtsschiefen Indikatoren (TLI = 0.999) (vgl. Tabelle 6.3.1). Mit einem Anstieg der Schiefe der Indikatoren zeigen alle vier Fit-Indizes eine ge ringfügig schlechtere Modellanpassung an und weisen so tendenziell in die falsche Richtung. Allerdings weisen die vier Gütemaße auch für stark schiefe Indikatoren Wer te auf, die auf eine sehr gute Modellanpassung schließen lassen. Der CFI und der SRMR zeigen diese marginalen Effekte für das Ausmaß der Schiefe der Indikatoren lediglich für den Vergleich zwischen stark schiefen Indikatoren und normalverteil ten Indikatoren an; für die Modelle mit moderat schiefen Indikatoren zeigen sich für diese beiden Fit-Indizes keine Veränderungen in den mittleren Werten und so ist weit
6.3 Sehr komplexe Modelle | 85
Tab. 6.3.1: Sehr komplexes korrekt spezifiziertes Modell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.006 (0.008) 0.999 (0.001) 1.000 (0.003) 0.013 (0.004)
0.007 (0.009) 0.999 (0.001) 0.999 (0.004) 0.013 (0.004)
0.008 (0.009) 0.997 (0.005) 0.998 (0.013) 0.014 (0.003)
0.007 (0.008) 0.999 (0.001) 1.000 (0.004) 0.013 (0.004)
0.007 (0.009) 0.997 (0.005) 0.998 (0.013) 0.014 (0.003)
0.007 (0.009) 0.997 (0.005) 0.998 (0.014) 0.014 (0.003)
n = 1500
RMSEA CFI TLI SRMR
0.005 (0.007) 0.999 (0.001) 1.000 (0.003) 0.012 (0.004)
0.007 (0.008) 0.999 (0.001) 0.999 (0.004) 0.012 (0.003)
0.007 (0.008) 0.997 (0.004) 0.998 (0.011) 0.013 (0.003)
0.007 (0.008) 0.999 (0.001) 0.999 (0.003) 0.012 (0.003)
0.007 (0.008) 0.997 (0.004) 0.998 (0.011) 0.013 (0.003)
0.007 (0.008) 0.997 (0.004) 0.998 (0.011) 0.013 (0.003)
n = 1800
RMSEA CFI TLI SRMR
0.005 (0.007) 1.000 (0.001) 1.000 (0.002) 0.011 (0.003)
0.006 (0.007) 0.999 (0.001) 0.999 (0.003) 0.011 (0.003)
0.006 (0.007) 0.998 (0.003) 0.998 (0.009) 0.012 (0.002)
0.006 (0.007) 0.999 (0.001) 1.000 (0.003) 0.011 (0.003)
0.006 (0.007) 0.998 (0.003) 0.998 (0.009) 0.012 (0.003)
0.006 (0.007) 0.998 (0.003) 0.999 (0.009) 0.012 (0.002)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 835 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 994 der 1000 angeforderten Replikationen erfolgreich berechnet wer den. Für die starken Schiefegrade wurden jeweils zwischen 835 und 883 Replikationen erfolgreich berechnet.
gehend auszuschließen, dass der CFI oder der SRMR die gute Modellanpassung eines sehr komplexen korrekt spezifizierten Modells aufgrund schiefer Indikatoren schlech ter bewerten. Die Standardfehler des CFI und des TLI steigen mit stärkerer Schiefe der Indika toren tendenziell an. Für den RMSEA ergibt sich die gleiche Tendenz, allerdings in geringerem Ausmaß: Während sich der Standardfehler des CFI im Vergleich zwischen normalverteilten Indikatoren und stark schiefen Indikatoren verfünffacht (vom Wert 0.001 bis zum Wert 0.005) und der Standardfehler des TLI vom Wert 0.003 auf den Wert 0.014 steigt und so einen ähnlich starken relativen Anstieg erfährt, steigt der Stan dardfehler des RMSEA vom Wert 0.008 auf den Wert 0.009 deutlich geringer an. Der SRMR zeigt ebenfalls eine sehr geringe Tendenz an; interessanterweise sinkt hier der Standardfehler mit steigender Schiefe (vgl. Tabelle 6.3.1). Insgesamt zeigen sich für dieses Modell sehr gute Werte der vier Fit-Indizes, die für alle untersuchten Stichprobenmerkmale eindeutig und korrekt darauf hinweisen, dass dieses sehr komplexe Modell eine sehr gute Anpassung aufweist.
6.3.2 Fehlspezifiziertes Messmodell Beim sehr komplexen fehlspezifizierten Messmodell sind zwei Faktorladungen, die im Populationsmodell jeweils beim Wert 0.4 liegen, auf den Wert 0 fixiert. Diese Fehl spezifikation im Messteil des Modells wird nicht durch alle vier Fit-Indizes deutlich. Nur der TLI und der RMSEA weisen Werte auf, die auf eine Fehlanpassung des Mo dells hindeuten; für den RMSEA zeigen sich sowohl für normalverteilte Indikatoren
86 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.3.2: Sehr komplexes fehlspezifiziertes Messmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.075 (0.007) 0.956 (0.008) 0.923 (0.014) 0.045 (0.004)
0.069 (0.007) 0.957 (0.009) 0.925 (0.015) 0.043 (0.004)
0.034 (0.008) 0.967 (0.015) 0.942 (0.026) 0.027 (0.004)
0.069 (0.007) 0.957 (0.008) 0.925 (0.015) 0.043 (0.004)
0.034 (0.008) 0.966 (0.015) 0.941 (0.027) 0.027 (0.004)
0.033 (0.009) 0.968 (0.015) 0.943 (0.027) 0.026 (0.004)
n = 1500
RMSEA CFI TLI SRMR
0.075 (0.006) 0.956 (0.007) 0.923 (0.012) 0.045 (0.004)
0.069 (0.007) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)
0.034 (0.007) 0.967 (0.014) 0.942 (0.024) 0.026 (0.004)
0.069 (0.006) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)
0.034 (0.007) 0.967 (0.013) 0.942 (0.022) 0.026 (0.004)
0.034 (0.008) 0.967 (0.014) 0.943 (0.025) 0.026 (0.004)
n = 1800
RMSEA CFI TLI SRMR
0.075 (0.005) 0.956 (0.006) 0.922 (0.011) 0.045 (0.003)
0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.003)
0.034 (0.006) 0.968 (0.011) 0.943 (0.020) 0.025 (0.003)
0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.004)
0.034 (0.007) 0.967 (0.012) 0.943 (0.021) 0.025 (0.004)
0.034 (0.006) 0.968 (0.012) 0.943 (0.021) 0.025 (0.004)
n = 2200
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 710 bis 945 generierten Stichproben und dahinter in Klam mern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „mode rat linksschief“ konnten jeweils mindestens 877 der tausend angeforderten Replikationen erfolgreich berechnet werden. Für die starken Schiefegrade konnten jeweils zwischen 710 und 759 Replikationen erfolgreich berechnet werden.
als auch für moderat schiefe Indikatoren entsprechende Werte oberhalb des Schwel lenwerts. Der TLI ist besonders robust und weist für alle Spezifikationen der Fallzahl und Verteilung korrekt auf eine schlechte Modellanpassung hin; dagegen liegen der CFI und der SRMR bei allen Stichprobengrößen und allen Verteilungen fälschlich im Bereich guter Modellanpassung (vgl. Tabelle 6.3.2). Für die Teilsimulation mit nor malverteilten Indikatoren und die kleinste Stichprobengröße (n = 1500) zeigen sich für die Fit-Indizes beispielsweise folgende mittlere Werte: TLI = 0.923; RMSEA = 0.075; CFI = 0.956; SRMR = 0.045. Tendenzen hinsichtlich der Fallzahl bestehen beim sehr komplexen fehlspezifi zierten Messmodell lediglich für die Teilsimulationen mit schiefen Indikatoren. Auf die Höhe des RMSEA wirkt sich die Fallzahl allerdings auch dabei nicht aus; Dieses Gütemaß ist bei diesem Modell besonders robust gegenüber der Fallzahl. Der Wert des TLI steigt mit der Ausnahme der Modelle mit normalverteilten Indikatoren ten denziell geringfügig mit steigender Fallzahl und weist somit geringfügig in die falsche Richtung; nichtsdestotrotz liegt der Wert auch dabei weiterhin korrekt deutlich unter halb der Schwelle für eine gute Modellanpassung. Der Wert des CFI steigt mit steigen der Fallzahl und zeigt damit in marginalem Ausmaß eine noch bessere Modellgüte für dieses fehlspezifizierte Modell an. Der Wert des SRMR sinkt mit steigender Fall zahl geringfügig um Differenzwerte von 0.001 bis 0.002 zwischen den Modellen mit der kleinsten und jenen mit der größten Fallzahl. Für die Richtung der Verteilung der Indikatoren zeigen sich lediglich äußerst geringe Schwankungen. So liegt der Wert des TLI bei zwei von drei Stichprobengrö ßen für das jeweilige Modell mit Indikatoren unterschiedlicher Verteilungen etwas höher (TLI = 0.943) als bei den Vergleichsmodellen mit gleichgerichteten Indikatoren
6.3 Sehr komplexe Modelle |
87
(TLI = 0.941 bzw. 0.942). Zudem sind die Werte des CFI für zwei von drei Stichpro bengrößen für Modelle mit Indikatoren stark rechtsschiefer Verteilungen, mit einem Differenzwert von jeweils 0.001 marginal höher als beim jeweiligen Vergleichsmodell mit stark linksschiefen Indikatoren (vgl. Tabelle 6.3.2).⁶³ Das Ausmaß der Schiefe der Indikatoren wirkt sich auf die Höhe aller vier Fit-Indi zes aus. Alle Tendenzen weisen dabei mit einem Anstieg der Schiefe der Indikatoren in die falsche Richtung und zeigen mit höheren Werten des TLI und des CFI und ge ringeren Werten des RMSEA und des SRMR jeweils eine bessere Modellgüte für dieses sehr komplexe, fehlspezifizierte Messmodell an. Für den RMSEA fällt dieser Effekt am stärksten aus. So sinkt der Wert des RMSEA bereits bei moderater Schiefe der Indikato ren stark, um einen Differenzwert von 0.006 (vgl. Tabelle 6.3.2). Auf Basis dieses Güte maßes zeigen sich trotzdem keine Probleme bei der Bewertung von Modellen, die dem hier untersuchten Modell ähnlich sind: Auch mit moderater Schiefe der Indikatoren weist der RMSEA korrekt auf eine mangelnde Modellanpassung hin. Nur bei den Mo dellen mit stark schief verteilten Indikatoren liegt der RMSEA mit mittleren Werten von 0.033 respektive 0.034 fälschlicherweise im Bereich einer guten Modellanpassung. Da der Wert des CFI und der Wert des SRMR bereits bei den Modellen mit normalverteilten Indikatoren fälschlich auf eine gute Modellanpassung schließen lassen, führt die – aufgrund der Schiefe der Indikatoren in die falsche Richtung weisende – bessere Be wertung des Modells dieser beiden Gütemaße zu keiner substanziellen Veränderung der Modellbewertung; die Modellbewertung über den CFI und den SRMR fällt für alle untersuchten Verteilungsformen der Indikatoren falsch aus. Der Wert des TLI zeigt für die Modelle mit schieferen Indikatoren zwar ebenfalls eine bessere Modellanpassung an, allerdings liegt der mittlere Wert dieses Gütemaßes selbst bei der starken Schiefe der Indikatoren, unter dem Schwellenwert 0.95 – maximal beim Wert 0.943 – und zeigt so als einziges der vier Gütemaße für alle untersuchten Stichprobenmerkmale korrekt die mangelnde Modellgüte des sehr komplexen fehlspezifizierten Messmodells an. Von einem Anstieg der Schiefe der Indikatoren sind auch die Standardfehler der Fit-Indizes betroffen. Diese steigen mit steigender Schiefe der Indikatoren an. Die Aus wirkung auf den Standardfehler des SRMR ist überaus gering; hier finden sich ledig lich für die größte Fallzahl (n = 2200) um Differenzen von 0.001 erhöhte Werte mit stär kerer Schiefe der Indikatoren. Der Standardfehler des RMSEA steigt bei stark schiefen Indikatoren um nicht mehr als eine Differenz von 0.002 an. Um diese Differenz steigt der Standardfehler des TLI bereits für moderat schiefe Indikatoren an und ist im Ver gleich zwischen Modellen mit normalverteilten Indikatoren und den entsprechenden Modellen mit stark schiefen Indikatoren bis zu doppelt so hoch; beispielsweise steigt der Standardfehler des TLI für die Stichprobengröße n = 1800 vom Wert 0.012 auf den Wert 0.024 (vgl. Tabelle 6.3.2). Genauso stark steigt der Standardfehler des CFI mit stei
63 Vergleichbar geringe Tendenzen, die sich nur für eine der drei Stichprobengrößen finden, werden hier nicht gesondert erwähnt, da solche Einzelergebnisse keine Systematik erkennen lassen.
88 | 6 Sensitivitäten der Fit-Indizes
RMSEA
200
Häufigkeit
150
100
50
0 0.05
0.06
0.07
0.08
0.09
Wert Abb. 6.3.1: Verteilungsplot des RMSEA für moderat schief verteilte Indikatoren.
gender Schiefe der Indikatoren: So verdoppelt sich dieser beispielsweise für die Stich probengröße n = 2200 vom Wert 0.006 auf den Wert 0.012. Insbesondere hinsichtlich des TLI und des RMSEA, die das Modell im Mittel korrekt als fehlspezifiziert bewerten, sollte hier der Standardfehler beachtet werden. Allerdings weisen diese beiden Maße für die Modelle mit normalverteilten Indikatoren und für jene mit moderat schiefen Indikatoren mittlere Werte auf, die deutlich mehr als einen Standardfehler – und da mit stark genug – von den Schwellenwerten abweichen. Die Abbildungen 6.3.1 und 6.3.2 verdeutlichen dies anhand des Modells mit moderat rechtsschiefen Verteilun gen der Indikatoren: Der TLI weist den Mittelwert 0.925 auf (Standardfehler = 0.015) und der Mittelwert des RMSEA liegt bei 0.069 (Standardfehler = 0.007). Es ist zu erken nen, dass der Schwellenwert des RMSEA (0.05) in nahezu allen Stichproben (99.9 %) überschritten ist und das Modell korrekt als falsch angepasst bewertet werden kann. Mit dem TLI und dem Schwellenwert von 0.95 wird das Modell ebenfalls für einen sehr großen Anteil der Stichproben (97.6 %) korrekt gewertet. Im Rahmen der Bewertung des sehr komplexen fehlspezifizierten Messmodells erweisen sich nur der RMSEA und der TLI als hilfreich. Durch diese beiden Fit-Indizes wird die mangelnde Modellgüte im Gegensatz zum SRMR und CFI korrekt bewertet.
6.3 Sehr komplexe Modelle
| 89
TLI
200
Häufigkeit
150
100
50
0 0.88
0.90
0.92
0.94
0.96
Wert Abb. 6.3.2: Verteilungsplot des TLI für moderat schief verteilte Indikatoren.
6.3.3 Fehlspezifiziertes Strukturmodell Das sehr komplexe fehlspezifizierte Strukturmodell beinhaltet eine fälschlich auf den Wert 0 fixierte Kovarianz zwischen dem ersten und zweiten Faktor des Modells. Inner halb der Population liegt diese Kovarianz beim Wert 0.6. Dieses Modell wird nicht von allen Fit-Indizes korrekt als fehlspezifiziert bewertet. Über den CFI wird dieses Modell unter allen Stichprobenspezifikationen mit mitt leren Werten zwischen 0.959 und 0.961 fälschlich als gut angepasst bewertet (vgl. Ta belle 6.3.3). Die anderen drei Fit-Indizes weisen für normalverteilte Indikatoren und für moderat schiefe Verteilungen der Indikatoren Werte auf, die eine Fehlanpassung anzeigen. Für das Modell mit der kleinsten Fallzahl und normalverteilten Indikatoren liegt der RMSEA beispielsweise beim Wert 0.073, der SRMR liegt beim Wert 0.070 und der TLI weist den Wert 0.926 auf. Die Fallzahl hat bei dieser Modellvariante einen sehr geringen Einfluss auf die Hö he der Fit-Indizes. Mit Differenzwerten von maximal 0.001 zwischen der kleinsten und der größten Fallzahl zeigen der RMSEA, der CFI und der TLI mit größerer Stichprobe jeweils eine tendenziell schlechtere Modellgüte an und weisen so in die korrekte Rich
90 | 6 Sensitivitäten der Fit-Indizes
Tab. 6.3.3: Sehr komplexes fehlspezifiziertes Strukturmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.073 (0.007) 0.961 (0.007) 0.926 (0.013) 0.070 (0.007)
0.069 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)
0.039 (0.008) 0.959 (0.015) 0.924 (0.029) 0.035 (0.006)
0.068 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)
0.039 (0.008) 0.959 (0.014) 0.923 (0.027) 0.035 (0.005)
0.038 (0.007) 0.960 (0.014) 0.926 (0.025) 0.035 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.074 (0.006) 0.961 (0.006) 0.926 (0.011) 0.070 (0.006)
0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)
0.039 (0.007) 0.959 (0.014) 0.923 (0.026) 0.035 (0.005)
0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)
0.039 (0.007) 0.959 (0.014) 0.923 (0.026) 0.035 (0.005)
0.039 (0.007) 0.960 (0.013) 0.925 (0.024) 0.034 (0.005)
n = 1800
RMSEA CFI TLI SRMR
0.074 (0.005) 0.961 (0.005) 0.926 (0.010) 0.070 (0.006)
0.069 (0.006) 0.960 (0.006) 0.926 (0.011) 0.065 (0.006)
0.039 (0.006) 0.959 (0.012) 0.923 (0.022) 0.034 (0.005)
0.069 (0.006) 0.960 (0.006) 0.926 (0.012) 0.065 (0.006)
0.039 (0.006) 0.959 (0.012) 0.924 (0.022) 0.034 (0.005)
0.039 (0.006) 0.960 (0.011) 0.925 (0.021) 0.034 (0.004)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 939 bis tausend generierten Stichproben und dahinter in Klammern die dazugehörigen Standardfehler. Für die Verteilungsformen „normalverteilt“, „moderat rechtsschief“ und „moderat linksschief“ konnten jeweils mindestens 998 der tausend angeforderten Replikationen erfolgreich berechnet werden. Für die starken Schiefegrade konnten jeweils zwischen 939 und 969 Replikationen erfolgreich berechnet werden.
tung (vgl. Tabelle 6.3.3).⁶⁴ Der SRMR weist in die entgegengesetzte Richtung und zeigt mit steigender Fallzahl eine marginal bessere Modellanpassung an; allerdings zeigt sich diese Tendenz nur bei stark rechtsschiefen Verteilungen der Indikatoren. Die Richtung der Verteilung der Indikatoren hat hinsichtlich des Vergleichs zwi schen rechtsschiefen und linksschiefen Verteilungen keinen Einfluss auf die Höhe der Fit-Indizes. Bei den Modellen mit Indikatoren unterschiedlicher Verteilungen fallen die Werte des TLI mit Differenzwerten bis zu 0.003 höher aus als bei den Vergleichs modellen mit gleichgerichteten Verteilungen der Indikatoren (vgl. dazu Tabelle 6.3.3). Für den CFI zeigt sich mit Differenzwerten von 0.001 die gleiche Tendenz in geringe rem Ausmaß. Offenbar zeigen diese beiden Gütemaße für Modelle mit Indikatoren, die unterschiedliche Verteilungen aufweisen, eine bessere Modellgüte für ein sehr kom plexes fehlspezifiziertes Strukturmodell an und weisen damit stärker in die falsche Richtung. Zu falschen Schlüssen führt dies hier allerdings nicht: Der CFI zeigt für alle Modelle fälschlich eine gute Modellanpassung an und der TLI zeigt trotz gemischter Verteilung der Indikatoren eine Fehlanpassung des Modells an. Von größerem Ausmaß als die Richtung der Verteilung ist der Effekt der Stärke der Schiefe der Verteilung. Für den RMSEA und den SRMR zeigt sich der stärkste Effekt: Für beide Fit-Indizes sinken die Werte bei den Modellen mit moderat schief verteilten Indikatoren bereits um Differenzen bis zu 0.005. Dabei liegen beide Gütemaße weiter
64 Lediglich bei dem Modell mit stark linksschief verteilten Indikatoren und einer Fallzahl von n = 2200 weist der TLI keinen geringeren, sondern einen marginal höheren Wert auf als bei den Ver gleichsmodellen mit kleinerer Fallzahl (vgl. dazu Tabelle 6.3.3).
6.3 Sehr komplexe Modelle
| 91
hin in einem Wertebereich, der korrekt eine Fehlanpassung des Modells nahelegt. Bei den Modellen mit stark schief verteilten Indikatoren sinken diese beiden Gütemaße al lerdings auf Werte zwischen 0.03 und 0.04 und bewerten das jeweilige Modell damit fälschlich als gut angepasst. Nur der TLI weist auch bei stark schief verteilten Indika toren Werte unterhalb des Schwellenwerts 0.95 auf, die korrekt eine Fehlanpassung des Modells nahelegen.⁶⁵ In diesem Kontext ist der Effekt der Schiefe auf den Standardfehler des TLI zu be achten: Zwar sind die mittleren Werte dieses Gütemaßes im Vergleich zu den Modellen mit normalverteilten Variablen bei stark schief verteilten Indikatoren geringer oder ge nauso hoch, doch der Anstieg des Standardfehlers führt dazu, dass ein deutlich grö ßerer Anteil an Stichproben fälschlich im Bereich guter Modellanpassung liegt. Abbil dungen 6.3.3 und 6.3.4 zeigen die Verteilungen des TLI für eine Fallzahl von n = 1500. Es ist deutlich erkennbar, dass der TLI unter normalverteilten Indikatoren und einem Standardfehler von 0.013 (Abbildung 6.3.3) bei einem sehr kleinen Anteil an Stichpro ben (2 %) über dem Schwellenwert 0.95 liegt. Unter stark schief verteilten Indikatoren TLI 300
250
Häufigkeit
200
150
100
50
0 0.88
0.90
0.92 Wert
0.94
0.96
Abb. 6.3.3: Verteilungsplot des TLI für normalverteilte Indikatoren.
65 Für Modelle mit moderat schiefen Variablen weist dieser Fit-Index die gleichen – oder marginal höhere – Werte auf wie bei den Vergleichsmodellen mit normalverteilten Indikatoren.
92 | 6 Sensitivitäten der Fit-Indizes TLI
250
Häufigkeit
200
150
100
50
0 0.80
0.85
0.90
0.95
1.00
Wert Abb. 6.3.4: Verteilungsplot des TLI für schief verteilte Indikatoren.
und einem entsprechend größeren Standardfehler (Abbildung 6.3.4) ist der Anteil an Stichproben die fälschlich im Bereich guter Modellanpassung liegen (17 %) deutlich erhöht, und das, obwohl der mittlere Wert des TLI mit 0.924 minimal unter dem mitt leren Wert für das Modell mit normalverteilten Indikatoren (0.926) liegt. Die mittleren Werte der Fit-Indizes zeigen für die verschiedenen Stichprobenspe zifikationen jeweils sehr deutlich entweder korrekt die Fehlspezifikation des Modells oder auch fälschlich eine gute Modellanpassung an. Bei allen Modellen mit normal verteilten oder moderat schief verteilten Indikatoren bestehen für die vier Fit-Indizes Differenzwerte von mindestens 0.01 zum jeweiligen Schwellenwert (vgl. Tabelle 6.3.3); das ist im vorliegenden Fall jeweils mehr als eine Standardabweichung, sodass davon ausgegangen werden kann, dass ein sehr großer Teil der Stichproben das jeweilige Modell genauso bewertet wie der Durchschnitt der Stichproben. Festgehalten werden kann, dass der RMSEA ebenso wie der SRMR für die verschiedenen Schiefegrade der Indikatoren ähnliche Standardfehler aufweist, während die Standardfehler des CFI und des TLI mit ansteigender Schiefe der Verteilungen der Indikatoren deutlich stei gen. Nur der CFI bewertet dieses Modell fälschlich als gut und zeigt sich damit für ein sehr komplexes fehlspezifiziertes Messmodell als kein verlässlicher Indikator für die
6.3 Sehr komplexe Modelle |
93
Güte. Der RMSEA und der SRMR bewerten das Modell für normalverteilte und moderat schief verteilte Indikatoren korrekt als nicht gut angepasst. Der TLI bewertet das Mo dell unter allen untersuchten Stichprobenspezifikationen im Mittel korrekt und zeigt sich damit als äußerst verlässlich.
6.3.4 Fehlspezifikationen von Messmodell und Strukturmodell Beim sehr komplexen fehlspezifizierten Gesamtmodell liegen Fehlspezifikationen im Messteil und im Strukturteil des Modells vor. So wird eine zwischen zwei Faktoren bestehende Kovarianz, die in der Population beim Wert 0.6 liegt, auf den Wert 0 fixiert. Zudem werden zwei Faktorladungen zweier Indikatoren, die in der Population jeweils beim Wert 0.4 liegen, ebenfalls auf den Wert 0 festgelegt. Die damit einhergehende starke Abweichung des Modells von den Daten zeigen alle vier Fit-Indizes an. Für jede untersuchte Stichprobengröße und Verteilungsform zeigt jedes der vier Gütemaße eine Fehlanpassung des Modells an und so wird dieses Modell eindeutig und korrekt als fehlspezifiziert bewertet. Für die kleinste Stichprobengröße (n = 1500) und normalverteilte Indikatoren liegt der SRMR mit einem mittleren Wert von 0.114 am nächsten am eigenen Schwellenwert 0.05; der RMSEA weist den Wert 0.128 auf. Der CFI liegt deutlich unter dem Schwellenwert 0.95 beim Wert 0.866 und zeigt damit die mangelnde Modellgüte sehr deutlich an, während der TLI diesen Wert erheblich unterschreitet und mit einem Wert von 0.778 umso stärker darauf hinweist, dass das vorliegende Modell maßgeblich von den Daten abweicht (vgl. Tabelle 6.3.4). Bezüglich der Fallzahl finden sich nur für den RMSEA und für den SRMR zwar marginale, aber eindeutig sinkende Tendenzen, die sich für den SRMR nur bei den Tab. 6.3.4: Sehr komplexes Modell mit Fehlspezifikation von Messmodell und Strukturmodell.
normalverteilt moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
RMSEA CFI TLI SRMR
0.128 (0.006) 0.866 (0.012) 0.778 (0.019) 0.114 (0.006)
0.120 (0.007) 0.866 (0.013) 0.779 (0.021) 0.107 (0.007)
0.068 (0.007) 0.866 (0.025) 0.779 (0.041) 0.058 (0.006)
0.120 (0.007) 0.865 (0.013) 0.778 (0.022) 0.107 (0.007)
0.068 (0.007) 0.865 (0.025) 0.777 (0.042) 0.059 (0.006)
0.067 (0.007) 0.866 (0.027) 0.779 (0.044) 0.058 (0.006)
n = 1500
RMSEA CFI TLI SRMR
0.128 (0.006) 0.865 (0.011) 0.778 (0.018) 0.114 (0.006)
0.120 (0.006) 0.866 (0.012) 0.779 (0.020) 0.107 (0.006)
0.067 (0.007) 0.867 (0.023) 0.780 (0.038) 0.058 (0.006)
0.120 (0.006) 0.865 (0.012) 0.778 (0.020) 0.107 (0.006)
0.068 (0.006) 0.866 (0.022) 0.779 (0.037) 0.058 (0.005)
0.067 (0.007) 0.866 (0.023) 0.779 (0.039) 0.058 (0.005)
n = 1800
RMSEA CFI TLI SRMR
0.128 (0.005) 0.865 (0.009) 0.777 (0.016) 0.114 (0.005)
0.120 (0.005) 0.865 (0.011) 0.778 (0.018) 0.107 (0.005)
0.067 (0.006) 0.866 (0.021) 0.780 (0.034) 0.058 (0.005)
0.120 (0.006) 0.865 (0.011) 0.778 (0.018) 0.107 (0.006)
0.067 (0.006) 0.866 (0.020) 0.780 (0.033) 0.058 (0.005)
0.067 (0.006) 0.866 (0.021) 0.780 (0.034) 0.058 (0.005)
n = 2200
Fallzahl
Zu sehen sind die durchschnittlichen Indexwerte der jeweils generierten tausend Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
94 | 6 Sensitivitäten der Fit-Indizes
Modellen mit stark linksschief verteilten Indikatoren und für den RMSEA auch bei den Modellen mit stark rechtsschief verteilten Indikatoren ergeben (vgl. Tabelle 6.3.4). Die Werte des CFI und des TLI schwanken ohne klar erkennbare Tendenz. Jene Modellvarianten, bei denen die Indikatoren linksschiefe Verteilungen auf weisen, werden bei den beiden kleineren Stichprobengrößen vom CFI und vom TLI mit Differenzwerten bis zu 0.002 geringfügig schlechter bewertet als die Vergleichsmodel le mit rechtsschief verteilten Indikatoren (vgl. Tabelle 6.3.4). Dagegen weisen unter schiedliche Verteilungen von Indikatoren eines Modells im Vergleich zu gleichgerich teten Verteilungen aller Indikatoren des Modells keinen Unterschied in den mittleren Werten der vier Gütemaße auf. Mit steigender Schiefe der Verteilung der Indikatoren zeigen sich deutliche Effek te auf die Höhe des RMSEA und des SRMR: Die Werte dieser beiden Fit-Maße sinken mit ansteigender Schiefe stark und zeigen damit eine bessere Modellanpassung für dieses fehlspezifizierte Gesamtmodell an. Jedoch liegen die mittleren Werte selbst bei stark schiefen Verteilungen der Indikatoren weiterhin über den Schwellenwerten und zeigen mit Werten von mindestens 0.067 für den RMSEA und einem Mindestwert von 0.058 für den SRMR korrekt eine Fehlanpassung des Modells an. Die Werte des CFI und des TLI schwanken mit geringen Differenzwerten von bis zu 0.002 (CFI) beziehungs weise 0.003 (TLI) ohne erkennbare Systematik (vgl. Tabelle 6.3.4). Die Standardfehler des CFI und des TLI steigen deutlich mit steigender Schiefe der Verteilungen der Indikatoren, während sich beim RMSEA und beim SRMR nur margi nale Schwankungen ergeben. Doch auch wenn der Standardfehler des TLI bis zum Wert 0.044 reicht und jener des CFI bei bis zu 0.027 liegt, sind die mittleren Werte bei diesem Modell stets mehrere Standardfehler vom jeweiligen Schwellenwert entfernt (vgl. Tabelle 6.3.4). Das Modell wird so eindeutig korrekt als fehlspezifiziert bewertet.
6.3.5 Zentrale Ergebnisse sehr komplexer Modelle Die sehr komplexen Modelle bringen interessante Ergebnisse hervor, die allerdings nur zum Teil mit den Forschungserwartungen einhergehen (vgl. Kapitel 4.1). Tabel le 6.3.5 fasst zusammen, welche Sensitivitäten für die Gütemaße unter den sehr kom plexen Modellen bestehen und inwiefern sich die Forschungserwartungen dadurch bestätigen lassen. Das korrekt spezifizierte Modell wird von allen Fit-Indizes und unabhängig von der Fallzahl und der Verteilungsform der Indikatoren eindeutig und korrekt als gut an gepasstes Modell bewertet. Zwar zeigen sich auch bei diesem Modell bestimmte Sen sitivitäten der einzelnen Gütemaße, allerdings fallen diese gering aus und auch bei der Modellvariante mit der schlechtesten Modellbewertung fällt die Bewertung sehr gut aus. Das fehlspezifizierte Gesamtmodell wird ebenfalls unter jeder Teilsimulation kor rekt evaluiert. Allerdings fallen bei diesem Modell bestimmte Effekte stärker aus, wo
6.3 Sehr komplexe Modelle |
95
Tab. 6.3.5: Sensitivitäten der Fit-Indizes bei sehr komplexen Modellen unter Berücksichtigung der Forschungserwartungen.
RMSEA TLI CFI SRMR
Fallzahl
Fehlspezifikation Fehlspezifikation Schiefe Messmodell Strukturmodell
nein (✓) nein (✓) nein (✓) ja (✓)
ja (✓) ja (✓) ja (=)̸ nein (✓)
nein (=)̸ nein (=)̸ nein (✓) ja (✓)
nein (=)̸ nein (=)̸ nein (=)̸ nein (=)̸
Verteilungs richtung
(Schiefe →) Standardfehler
nein ja ja nein
nein ja ja nein
Zu sehen sind die jeweiligen Forschungserwartungen (vgl. dazu Kapitel 4.1) unterteilt nach „ja“ (die konkrete Sensitivität wird erwartet) und „nein“ (es wird keine Sensitivität erwartet). In Klammern ist jeweils vermerkt, ob sich die einzelne Erwartung erfüllt hat (✓) oder nicht (=). ̸ Zusätzlich zur unter suchten Auswirkung der Fallzahl, der Fehlspezifikationen des Messmodells einerseits und des Struk turmodells andererseits und der Schiefe der Indikatoren auf die Gütemaße ist die Auswirkung der Ver teilungsrichtung der Indikatoren auf die Gütemaße sowie der Effekt des Schiefegrads der Indikatoren auf die Höhe des Standardfehlers angegeben; dabei ist jeweils direkt vermerkt, ob eine entsprechen de Sensitivität besteht.
durch primär der SRMR und der RMSEA innerhalb einiger Teilsimulationen recht nah am jeweiligen Schwellenwert liegen. Das fehlspezifizierte Messmodell wird nur vom TLI und vom RMSEA korrekt als fehlspezifiziert bewertet (vgl. dazu Tabelle 6.3.5). Aufgrund der starken Abhängigkeit des RMSEA von der Schiefe der Verteilung der Indikatoren zeigt dieses Gütemaß für die Modelle mit Indikatoren stark schiefer Verteilungen fälschlich eine gute Modell anpassung an. Der TLI ist robuster; dieses Gütemaß zeigt für alle Varianten des fehl spezifizierten Messmodells korrekt die mangelhafte Modellgüte an. Der CFI und der SRMR liegen für normalverteilte Indikatoren ebenso wie für moderat schief verteilte Variablen zwar recht nahe am jeweiligen Schwellenwert, weisen allerdings dennoch in die falsche Richtung und zeigen sich insofern im Gegensatz zum TLI und RMSEA nicht als ausreichend sensitiv gegenüber Fehlspezifikationen des Messmodells. Auch das fehlspezifizierte Strukturmodell wird vom TLI für alle Stichprobenmerk male korrekt als schlecht angepasst bewertet. Der RMSEA und der SRMR bewerten das Modell ebenfalls korrekt als fehlspezifiziert, allerdings ausschließlich für jene Modell varianten, bei denen die Indikatoren entweder normalverteilte oder moderat schiefe Streuungen aufweisen. Die Sensitivität bezüglich der Schiefe der Verteilung führt da zu, dass diese beiden absoluten Fit-Indizes bei Modellen mit stark schief verteilten In dikatoren bereits deutlich unter dem Schwellenwert von 0.05 liegen und somit fälsch licherweise auf eine gute Modellanpassung schließen lassen. Die Fallzahl hat bei den sehr komplexen Modellen äußerst geringe Effekte auf die Fit-Indizes. Der CFI und der TLI variieren in Bezug auf die Fallzahl beim fehlspezi fizierten Gesamtmodell ohne erkennbare Systematik, während für den RMSEA beim fehlspezifizierten Messmodell kein Zusammenhang zur Fallzahl besteht. Für die rest lichen Modelle lassen sich keine systematischen Schlüsse über den Einfluss der Fall
96 | 6 Sensitivitäten der Fit-Indizes
zahl auf diese drei Fit-Maße ziehen. Im Gegensatz dazu zeigt der SRMR bei allen vier Modellvarianten eine äußerst geringe, jedoch stets sinkende Tendenz an und bewertet so alle fehlspezifizierten Modelle für besonders große Stichproben besser als für klei nere Stichproben und weist damit für große Stichproben tendenziell in die falsche Richtung. Die Richtung der Verteilung der Indikatoren zeigt für die sehr komplexen Model le keinen starken Effekt auf die Höhe der Fit-Indizes. Für den RMSEA und den SRMR ist es irrelevant, ob die Indikatoren rechtschiefe oder linksschiefe Verteilungen auf weisen. Bei keinem sehr komplexen Modell zeigt sich ein Effekt für eines der beiden absoluten Gütemaße. Der CFI zeigt beim fehlspezifizierten Messmodell und beim fehl spezifizierten Gesamtmodell jeweils in leichter Tendenz höhere Werte für rechtsschie fe als für linksschiefe Verteilungen der Indikatoren, was in Richtung einer falschen Modellbewertung weist. In ähnlich geringem Ausmaß zeigt sich für den TLI der glei che Effekt beim fehlspezifizierten Gesamtmodell und in geringer Tendenz weist dieser Fit-Index beim korrekt spezifizierten Modell marginal höhere Werte für Modellvarian ten mit linksschiefen statt rechtsschiefen Verteilungen der Indikatoren auf. Folglich zeigt sich für die zwei komparativen Fit-Maße eine geringe Sensitivität, die mit einer in die falsche Richtung führenden Modellbewertung bei rechtsschief statt linksschief gerichteten Indikatoren einhergeht. Ein interessantes Ergebnis zeigt sich für den Effekt gemischter Verteilungen der Indikatoren eines Modells. So weisen ausschließlich der TLI und der CFI für die sehr komplexen fehlspezifizierten Strukturmodelle sowie für die fehlspezifizierten Mess modelle mit Indikatoren unterschiedlicher Verteilungsrichtungen tendenziell höhere Werte auf als bei den Vergleichsmodellen mit Indikatoren ausschließlich einer Vertei lungsrichtung. Bei beiden Modellvarianten führen gemischte Verteilungen somit zu Ergebnissen, die bei gegebenen Fehlspezifikationen der Modelle eine etwas bessere – und damit in die falsche Richtung weisende – Modellgüte angeben. Anders als der RMSEA und der SRMR reagieren der CFI und der TLI sensitiv auf den Unterschied al ler hier untersuchten Verteilungsformen – sowohl für den Vergleich zwischen rechts schiefen und linksschiefen Verteilungen der Indikatoren als auch zwischen gleichge richteten Verteilungen und gemischten Verteilungen der Indikatoren. Das Ausmaß der Schiefe der Indikatoren hat – anders als anfangs erwartet – einen klaren Effekt auf alle vier Fit-Indizes (vgl. dazu Tabelle 6.3.5). So weisen alle Fit-Maße mit steigender Schiefe der Verteilung der Indikatoren in die falsche Richtung und ge ben entsprechend die Güte des korrekt spezifizierten Modells marginal schlechter an; die Güte der fehlspezifizierten Modelle wird mit einer Ausnahme – ebenso in die fal sche Richtung weisend – durch alle Fit-Indizes bei schieferen Verteilungen der Indi katoren besser eingestuft. Als Ausnahme zeigt sich der Effekt der Schiefe auf die Höhe des CFI beim fehlspezifizierten Strukturmodell: Der geringe negative Effekt führt da bei dazu, dass die Güte des Modells bei schieferen Variablen schlechter bewertet wird, was bei einem fehlspezifizierten Modell in keiner Weise hinderlich für die Modelleva luation ist.
6.3 Sehr komplexe Modelle
| 97
Eine besondere Sensitivität für die Schiefe der Indikatoren zeigt sich für den RMSEA, für den der Effekt bei allen fehlspezifizierten Modellen stark ausfällt und auch beim korrekt spezifizierten Modell stärker ist als für die anderen drei Fit-Indizes. Beim fehlspezifizierten Strukturmodell und beim fehlspezifizierten Gesamtmodell reagiert zusätzlich dazu auch der SRMR sensitiv auf den Schiefegrad der Verteilungen der Indikatoren. Eine starke Schiefe der Indikatoren eines Modells – möglicherweise kombiniert mit unterschiedlichen Richtungen der Verteilungen, die sich primär auf den TLI und auf den CFI auswirken – kann folglich zu falschen Schlüssen bei der Bewertung eines fehlspezifizierten Modells führen und sollte somit bei der Schätzung von sehr komplexen Strukturgleichungsmodellen beachtet und nach Möglichkeit ausgeschlossen werden. Schiefer verteilte Indikatoren wirken sich zum einen besonders stark auf die Hö he der mittleren Werte des RMSEA und des SRMR aus, zum anderen findet sich ein starker, eindeutiger Einfluss auf die Standardfehler des CFI und des TLI: Mit steigen der Schiefe der Indikatoren steigen diese stark an und so führt eine starke Schiefe der Indikatoren eines sehr komplexen Strukturgleichungsmodells bei jedem der vier FitMaße zu Effekten, die hinderlich für die Modellbewertung sein können (vgl. dazu auch Tabelle 6.3.5). Es zeigt sich, dass die Schiefe der Indikatoren bei der Bewertung sehr komplexer Strukturgleichungsmodelle einen deutlich stärkeren Einfluss aufweist als die Größe der Stichprobe. Prinzipiell lässt sich ein sehr komplexes Modell, das viele Schätzun gen verwendet, mit einer Fallzahl von n = 1500 genauso gut bewerten wie mit einer Fallzahl von n = 2200; mit sehr schief verteilten Indikatoren können jedoch Fehl schlüsse einhergehen und dies nur bei fehlspezifizierten Modellen und primär auf Basis des SRMR und des RMSEA. Die Forschungserwartungen bezüglich der konkreten Fehlspezifikationen des Mo dells haben sich zum Teil nicht erfüllt (vgl. dazu Tabelle 6.3.5). So bewertet der CFI die untersuchte Fehlspezifikation im Messteil des Modells nicht korrekt und der RMSEA und der TLI werten das fehlspezifizierte Strukturmodell noch deutlicher als falsch spezifiziert als der SRMR, der den Simulationsergebnissen von Hu & Bentler (1999, S. 16) zufolge entsprechende Fehlspezifikationen deutlich sensitiver als die anderen Fit-Indizes aufgreifen sollte. Die vorliegenden Ergebnisse legen einen anderen Schluss nahe: Zwar bewertet der SRMR das entsprechende Modell korrekt als schlecht ange passt, allerdings liegen die Werte des RMSEA stets über jenen des SRMR und zeigen die Fehlanpassung so deutlicher an. Zudem weist nur der TLI das Modell auch bei stark schief verteilten Indikatoren korrekt zurück und ist dahingehend bei der Bewertung des fehlspezifizierten Strukturmodells verlässlicher als der SRMR. Außerdem sollte beachtet werden, dass zwar alle vier Fit-Indizes sensitiv auf schiefe Verteilungen reagieren (vgl. Tabelle 6.3.5), der RMSEA und der SRMR aller dings dahingehend eine deutlich stärkere Sensitivität aufweisen und so eher zu irre führenden Modellbewertungen führen als die beiden komparativen Fit-Maße.
98 | 6 Sensitivitäten der Fit-Indizes
Bei der Bewertung der sehr komplexen Modelle sticht der TLI positiv hervor. Dieser Fit-Index bewertet alle sehr komplexen Modelle unter allen Stichprobenva riationen korrekt und zeigt sich so als besonders gutes und verlässliches Gütemaß. Der RMSEA bewertet sämtliche Modelle unter normalverteilten oder moderat schief verteilten Indikatoren korrekt und ist somit für die Evaluation eines sehr komplexen Strukturgleichungsmodells als annähernd so verlässlich wie der TLI einzustufen. Während der SRMR sensitiv auf Fehlspezifikationen des Strukturmodells reagiert, wertet dieser Fit-Index das fehlspezifizierte Messmodell für alle Stichprobenspezifi kationen falsch als gut angepasst und kann so bei der Analyse eines sehr komplexen Strukturgleichungsmodells irreführende Ergebnisse hervorrufen. Noch fehlerhafter ist die Bewertung der sehr komplexen Modelle durch den CFI. Dieses Gütemaß bewer tet sowohl das fehlspezifizierte Messmodell als auch das fehlspezifizierte Struktur modell unter allen Stichprobenspezifikationen fälschlich als gut angepasst und ruft so irreführende Ergebnisse hervor.
6.4 Zusammenfassung zentraler Ergebnisse aller Modellvarianten Im Fokus dieses Unterkapitels stehen die zentralen Ergebnisse für alle drei untersuch ten Populationsmodelle unter Berücksichtigung der unterschiedlichen Komplexitäts grade dieser. Es wird betrachtet, inwiefern sich Unterschiede zwischen den unter schiedlich komplexen Modellvarianten finden – insbesondere hinsichtlich der Effekte der bereits untersuchten Stichproben- und Dateneigenschaften auf die Gütemaße. Zu dem werden jene Effekte gesondert betrachtet, die für die drei verschiedenen Komple xitätsgrade gleich ausfallen und gleichzeitig nicht mit den Forschungserwartungen übereinstimmen. Diese decken weiteren Forschungsbedarf in besonderer Weise auf. Ein wichtiger Befund aller drei Populationsmodelle liegt darin, dass das korrekt spezifizierte Modell jeweils eindeutig und für alle Teilsimulationen durch die vier FitIndizes korrekt als gut angepasst bewertet wurde. Unabhängig von dem Komplexi tätsgrad und jeglichen untersuchten Stichprobenmerkmalen lässt sich ein vollständig korrekt spezifiziertes Modell mittels der Gütemaße eindeutig richtig bewerten. Daraus geht auch hervor, dass irreführende Modellergebnisse ausschließlich in jenem Fall auftreten können, wenn eine Fehlspezifikation vorliegt. Dabei ist darauf Acht zu ge ben, welche der Fit-Indizes die Fehlanpassung nahelegen, um die Art der Fehlspezifi kation identifizieren zu können. Die Ergebnisse legen nahe, dass die Bewertung eines Strukturgleichungsmodells mittels der Fit-Indizes relativ unabhängig vom Komplexitätsgrad des Modells ist.⁶⁶
66 Dagegen zeigt sich die Komplexität des Modells als äußerst relevant hinsichtlich der Konvergenz. Dieser wichtige Aspekt ist zu beachten und betrifft forschende Personen durchaus häufig bei der Ana lyse komplexerer Modelle: Je höher die Komplexität ist, desto weniger Modelle konvergieren. Das gilt selbst in jenem Fall, wenn das Modell korrekt spezifiziert ist (vgl. dazu Kapitel B.1 im Anhang).
6.4 Zusammenfassung zentraler Ergebnisse aller Modellvarianten
| 99
Tab. 6.4.1: Sensitivitäten der Fit-Indizes. Modell
Fallzahl Fehlspezifikation Messmodell
Fehlspezifikation Strukturmodell
Schiefe Verteilungs (Schiefe →) richtung Standardfehler
RMSEA
sparsam komplex sehr komplex
nein+ nein+ nein+
ja+ ja+ ja+
ja+ ja+ ja+
ja− ja− ja−
nein+ nein+ nein+
nein+ nein+ nein+
TLI
sparsam komplex sehr komplex
nein+ nein+ nein+
ja+ nein− ja+
ja+ ja+ ja+
ja~ ja~ ja−
ja− ja− ja−
ja− ja− ja−
CFI
sparsam komplex sehr komplex
nein+ nein+ nein+
nein− nein− nein−
ja+ ja+ nein−
ja~ ja~ ja~
ja− nein+ ja−
ja− ja− ja−
SRMR
sparsam komplex sehr komplex
ja− ja− ja−
nein− nein− nein−
ja+ ja+ ja+
ja− ja− ja−
nein+ nein+ nein+
nein+ nein+ nein+
Zu sehen sind die jeweiligen Sensitivitäten der Fit-Indizes unterteilt nach „ja“ – die konkrete Sensitivität liegt vor – und „nein“ – es wurde keine Sensitivität festgestellt. Zusätzlich ist vermerkt, ob die jeweilige Sensitivität irreführend (−), hilf reich (+) oder – lediglich für den Effekt der Schiefe – bei manchen Modellen unproblematisch und bei anderen hinderlich (~) ist. Unter „Fehlspezifikation Messmodell“ respektive „Fehlspezifikation Strukturmodell“ sind Sensitivitäten auf fal sche Spezifikationen im entsprechenden Teil des Modells festgehalten. Mit „Schiefe“ ist das Ausmaß der Schiefe der Indikatoren gemeint. Die Auswirkung der Verteilungsrichtung der Indikatoren auf die Fit-Indizes ist mit „Verteilungsrich tung“ vermerkt und der Effekt des Schiefegrads der Indikatoren auf die Höhe des Standardfehlers ist unter „Standardfeh ler“ aufgeführt.
Beispielsweise wurden unter jedem Komplexitätsgrad Fehlspezifikationen im Struk turteil des Modells von allen vier Gütemaßen stärker bewertet als falsche Spezifika tionen im Messteil des Modells. Nur beim sehr komplexen Modell wertet ausschließ lich der CFI das fehlspezifizierte Strukturmodell fälschlich als gut angepasst. Dagegen werden alle fehlspezifizierten Messmodelle vom SRMR fälschlich als gut angepasst ge wertet; der CFI wertet diese Modelle ebenfalls durchgängig falsch, was im Fall dieses Gütemaßes gegen die Forschungserwartung spricht und zeigt, dass der CFI offenbar deutlich weniger sensitiv auf ein fehlspezifiziertes Messmodell reagiert, als es bisheri ge Studienergebnisse nahelegen (vgl. Hu & Bentler 1999, S. 16). Sollte das Messmodell fehlspezifiziert sein, sind der RMSEA und der TLI die verlässlichsten Gütemaße (vgl. Tabelle 6.4.1). Alle vier Fit-Indizes reagieren deutlich auf das Ausmaß der Schiefe der Indikato ren (vgl. Tabelle 6.4.1). Bei allen Komplexitätsgraden werden die Werte der Fit-Indizes für das jeweilige korrekte Modell und das fehlspezifizierte Messmodell mit steigender Schiefe der Indikatoren in die falsche Richtung gelenkt. Beim sehr komplexen Modell gilt dies für alle Modellvarianten und damit auch für das fehlspezifizierte Strukturmo dell⁶⁷ und das falsch spezifizierte Gesamtmodell, die bei den beiden geringeren Kom
67 Eine Ausnahme bildet hierbei der CFI, mit dem dieses Modell bei steigender Schiefe der Indikato ren als noch schlechter angepasst bewertet wird, was zu keinen Problemen bei der Modellevaluation führt.
100 | 6 Sensitivitäten der Fit-Indizes
plexitätsgraden nur durch den RMSEA und den SRMR – in die falsche Richtung tendie rend – besser bewertet werden. Der TLI und der CFI weisen für die beiden geringeren Komplexitätsgrade und die beiden jeweiligen Modellvarianten mit Fehlspezifikatio nen im Strukturteil mit steigender Schiefe der Indikatoren tendenziell in die richtige Richtung und bewerten das jeweils schlecht angepasste Modell als noch schlechter angepasst. Die Auswirkung der Verteilungsrichtung wurde zum einen über den Unterschied zwischen Modellen mit rechtsschiefen Indikatoren und Modellen mit linksschiefen Indikatoren gemessen; zum anderen wurde der Effekt gemischter Verteilungen der In dikatoren im Vergleich zu Modellen mit Indikatoren ausschließlich einer Verteilungs richtung untersucht. Es hat sich herausgestellt, dass der RMSEA und der SRMR nicht sensitiv auf die Verteilungsrichtung reagieren. Der TLI und der CFI reagieren hingegen durchaus sensitiv auf die Verteilungsrichtung. Bei den vier sparsamen Modellen zei gen beide Fit-Maße für gemischte Verteilungen der Indikatoren eine bessere Modell güte an als für gleichgerichtete Verteilungen der Variablen. Diesen für alle fehlspezi fizierten Modelle tendenziell hinderlichen Effekt zeigen der TLI und der CFI ebenfalls für das sehr komplexe Strukturmodell und das sehr komplexe Messmodell an. Für die komplexen Modelle weist nur der TLI diesen Effekt auf – dies ist jedoch ausschließlich bei dem fehlspezifizierten Strukturmodell und beim fehlspezifizierten Gesamtmodell der Fall. Insgesamt ist dieser Effekt für alle Komplexitätsgrade beim TLI stärker aus geprägt als beim CFI. Ein Anstieg der Schiefe wirkt sich besonders stark auf die mittleren Werte des RMSEA und des SRMR aus und gleichzeitig zeigt sich dabei ein deutlicher Anstieg der Standardfehler des TLI und des CFI (vgl. Tabelle 6.4.1, Spalte „Standardfehler“). So haben stark schief verteilte Indikatoren einen Einfluss auf alle vier untersuchten Fit-Indizes und lassen diese entweder im Mittel zu gute Werte für ein fehlspezifizier tes Modell anzeigen oder die Streuung der Stichprobenwerte steigt so stark an, dass die Unsicherheit, die mit dem Wert eines Gütemaßes in einer konkreten Stichprobe einhergeht, enorm ansteigt. Innerhalb dieser Simulationsstudie wurden hohe Fallzahlen gewählt. Dabei hat sich ein klarer Effekt auf die Höhe des SRMR gezeigt. Dieses Maß zeigt mit steigender Fallzahl stets eine bessere Modellanpassung an. Während das innerhalb der Studie aufgrund der relativ geringen Effekte zu keinerlei Fehlschlüssen geführt hat, muss davon ausgegangen werden, dass dieses Gütemaß bereits bei einer Stichprobengrö ße von n = 1500 eine bessere Modellanpassung anzeigt als für kleinere Stichproben. Für jedes der drei unterschiedlich komplexen Populationsmodelle hat dieses Güte maß ein fehlspezifiziertes Stichprobenmodell bereits unter normalverteilten Indikato ren fälschlich als gut angepasst gewertet. Es kann nicht ausgeschlossen werden, dass dies mit der hohen Fallzahl zusammenhängt. In Tabelle 6.4.1 sind die untersuchten Sensitivitäten festgehalten. Darunter ist die korrekte Bewertung einer Fehlspezifikation im Messteil oder Strukturteil eines Mo dells ganz besonders relevant, da dies direkt und unabhängig von anderen Faktoren
6.4 Zusammenfassung zentraler Ergebnisse aller Modellvarianten
| 101
angibt, ob das einzelne Gütemaß eine falsche Spezifikation berücksichtigt und kor rekt bewertet. Der RMSEA und der TLI stechen dahingehend positiv hervor. Während der RMSEA sämtliche fehlspezifizierte Modelle bei normalverteilten Indikatoren ein wandfrei bewertet, liegt der TLI bei jedem Modell – mit Ausnahme des komplexen fehlspezifizierten Messmodells – weiter als alle anderen Gütemaße vom Schwellen wert entfernt und zeigt so die jeweilige Fehlanpassung am deutlichen an (vgl. dazu Kapitel 6.1 - 6.3). Deshalb ist auch die vorliegende Sensitivität hinsichtlich der Schiefe der Indikatoren beim TLI am wenigsten problematisch. Ohne Ausnahme hat sich für alle untersuchten Modelle gezeigt, dass der RMSEA stets korrektere Bewertungen liefert als der SRMR und der TLI für die Bewertung jedes Modells hilfreicher ist als der CFI. So zeigen der TLI und der RMSEA eine eventuelle Fehlspezifikation jeweils deutlicher an.
7 Ursachen fehlender Eindeutigkeit der Fit-Indizes In diesem Kapitel werden alle irreführenden Muster⁶⁸ der Simulationsergebnisse auf gegriffen und in Hinblick auf die Stichprobenmerkmale, die zu diesen Mustern führen, erläutert.⁶⁹
7.1 Muster 1: TLI zu niedrig Das erste Muster irreführender Modellbewertungen ergibt sich aus der Kombination eines Werts mangelnder Modellanpassung für den TLI und Werten guter Modellanpas sung für den CFI, den RMSEA und den SRMR. Dieses Muster findet sich unter den spar samen Modellen für fehlspezifizierte Messmodelle unter entweder rechtsschief oder linksschief verteilten Variablen (vgl. Tabelle 7.1.1). Dieses Muster kann dadurch, dass lediglich einer von vier Fit-Indizes korrekter weise eine mangelnde Modellanpassung nahelegt, tendenziell besonders irreführend wirken. Nur der TLI weist hier deutlich auf ein fehlspezifiziertes Modell hin. Zusätzlich dazu ist der RMSEA erhöht und liegt nahe am Schwellenwert. Das gilt gleichermaßen für Modelle mit linksschief wie rechtsschief verteilten Indikatoren und alle untersuch ten Fallzahlen. Wenn folglich bei der Modellierung eines relativ sparsamen Modells nur der TLI unter dem Schwellenwert liegt und damit eine mangelhafte Modellanpassung angibt und gleichzeitig der RMSEA erhöht ist und sehr nahe am Schwellenwert liegt, gilt dies als Hinweis für eine Fehlanpassung im Messteil des Modells.
7.2 Muster 2: RMSEA zu hoch Das zweite Muster irreführender Modellbewertungen ist stark verleitend, dadurch dass allein der RMSEA eine falsche Anpassung des Modells nahelegt und das le diglich mit einem Wert, der nur knapp über dem Schwellenwert liegt und so eine annähernd gute Modellanpassung nahelegt (vgl. Tabelle 7.2.1).
68 Diese bemessen sich an den hier genutzten Schwellenwerten: RMSEA = 0.05, SRMR = 0.05, TLI = 0.95 und CFI = 0.95 69 Dazu sind nur Stichprobenmerkmale entscheidend, die bei realen Daten auftreten können. Die starke Schiefe der Indikatoren wird nicht dazu gezählt, sodass alle Muster, die sich dafür ergeben haben, in diesem Kapitel nicht berücksichtigt werden. Zudem ist zu beachten, dass alle korrekt spezi fizierten Modelle von allen Fit-Indizes eindeutig als gut angepasst bewertet werden und damit keine irreführenden Ergebnisse aufweisen. Diese Modelle tauchen aus diesem Grund im Folgenden nicht auf. https://doi.org/10.1515/9783110624199-007
104 | 7 Ursachen fehlender Eindeutigkeit der Fit-Indizes
Tab. 7.1.1: Muster 1. Sparsames fehlspezifiziertes Messmodell Verteilungsform moderat rechtsschief moderat linksschief
Fallzahl
RMSEA CFI TLI SRMR
0.048 (0.011) 0.961 (0.016) 0.926 (0.031) 0.029 (0.005)
0.047 (0.011) 0.961 (0.016) 0.927 (0.031) 0.029 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.048 (0.010) 0.961 (0.015) 0.927 (0.029) 0.029 (0.005)
0.047 (0.010) 0.962 (0.015) 0.928 (0.028) 0.028 (0.005)
n = 1800
RMSEA CFI TLI SRMR
0.048 (0.008) 0.961 (0.013) 0.927 (0.024) 0.028 (0.004)
0.047 (0.008) 0.962 (0.013) 0.928 (0.023) 0.028 (0.004)
n = 2200
Zu sehen sind die durchschnittlichen Indexwerte der jeweils tausend Stichproben. Dahinter sind in Klammern die dazugehörigen Standardfehler.
Tab. 7.2.1: Muster 2. Komplexes fehlspezifiziertes Messmodell normalverteilte Indikatoren
Fallzahl
RMSEA CFI TLI SRMR
0.051 (0.008) 0.977 (0.007) 0.956 (0.014) 0.033 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.051 (0.007) 0.977 (0.006) 0.956 (0.012) 0.033 (0.004)
n = 1800
RMSEA CFI TLI SRMR
0.051 (0.007) 0.977 (0.006) 0.956 (0.011) 0.033 (0.004)
n = 2200
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 967 bis 992 Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
7.3 Muster 3: TLI zu niedrig und RMSEA zu hoch | 105
Ein weiteres Problem ergibt sich daraus, dass dieses Muster lediglich für normal verteilte Indikatoren besteht. Wie bereits besprochen, sinkt der RMSEA mit steigender Schiefe der Indikatoren (vgl. Kapitel 6.4) und legt so gemeinsam mit den anderen FitIndizes für das vorliegende Modell bereits bei geringer Schiefe der Indikatoren fälsch lich eine gute Modellanpassung nahe. Der SRMR und der CFI weisen beim vorliegenden Modell Werte auf, die deutlich von den jeweiligen Schwellenwerten entfernt sind und damit stark irreführend wirken und zu erkennen geben, dass diese beiden Fit-Maße nicht sensitiv auf die vorliegende Fehlspezifikation im Messmodell reagieren. Zudem reagiert der RMSEA bei diesem komplexen Modell offensichtlich sensiti ver als der TLI auf die Fehlanpassung im Messteil des Modells – im Gegensatz zum sparsamen Vergleichsmodell, bei dem der TLI die Fehlanpassung deutlicher anzeigt. Der TLI weist zwar auch bei dieser komplexen Modellvariante eine Sensitivität hin sichtlich der Anpassung des Messmodells auf, allerdings fällt diese nicht stark genug aus. Bei der Modellierung eines komplexen Strukturgleichungsmodells weist folglich ein etwas zu hoher Wert des RMSEA gemeinsam mit einem im unteren Bereich gu ter Modellanpassung liegenden Wert des TLI darauf hin, dass Fehlspezifikationen im Messmodell vorliegen.
7.3 Muster 3: TLI zu niedrig und RMSEA zu hoch Das dritte Muster irreführender Modellbewertungen ergibt sich aus einer Modellab lehnung durch den TLI und den RMSEA und einer dazu entgegengesetzten fälschlich guten Modellbewertung durch den SRMR und den CFI. Dieses Muster findet sich für zwei verschiedene Modellvarianten. Sparsames fehlspezifiziertes Messmodell Das sparsame fehlspezifizierte Messmodell weist unter normalverteilten Indikatoren und allen untersuchten Stichprobengrößen das dritte Muster irreführender Modellbe wertungen auf (vgl. Tabelle 7.3.1). Zu beachten ist, dass der RMSEA zwar die Fehlan passung des Modells nahelegt, dabei allerdings äußerst nah am Schwellenwert liegt. Der TLI zeigt die mangelnde Modellgüte hingegen mit mittleren Werten, die jeweils an nähernd einen Standardfehler unter dem Schwellenwert liegen, sehr deutlich an. Der TLI und der RMSEA reagieren erkennbar sensitiver auf Fehlspezifikationen im Mess modell als der CFI und der SRMR. Sehr komplexes fehlspezifiziertes Messmodell Das sehr komplexe fehlspezifizierte Messmodell wird unter normalverteilten Indikato ren sowie unter rechtsschiefen oder auch unter linksschiefen Indikatoren ausschließ
106 | 7 Ursachen fehlender Eindeutigkeit der Fit-Indizes
Tab. 7.3.1: Muster 3.1. Sparsames fehlspezifiziertes Messmodell normalverteilte Indikatoren
Fallzahl
RMSEA CFI TLI SRMR
0.052 (0.010) 0.960 (0.015) 0.924 (0.028) 0.031 (0.005)
n = 1500
RMSEA CFI TLI SRMR
0.051 (0.009) 0.961 (0.013) 0.927 (0.025) 0.030 (0.004)
n = 1800
RMSEA CFI TLI SRMR
0.051 (0.008) 0.961 (0.012) 0.926 (0.023) 0.030 (0.004)
n = 2200
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 1000 Stichproben. Dahinter sind in Klam mern die dazugehörigen Standardfehler.
lich vom TLI und vom RMSEA korrekterweise abgelehnt – und dies weitaus deutlicher als dies beim sparsamen fehlspezifizierten Messmodell der Fall ist (vgl. dazu Tabel le 7.3.1). Wie Tabelle 7.3.2 zu entnehmen ist, liegen der TLI und der RMSEA deutlich im Bereich mangelhafter Modellanpassung, während gleichzeitig der CFI und der SRMR zwar recht nahe am jeweiligen Schwellenwert liegen, diesen allerdings überschreiten und so fälschlich eine gute Modellanpassung nahelegen. Muster 3.1 & Muster 3.2 Unabhängig vom Komplexitätsgrad des Modells geben der TLI und der RMSEA weit aus deutlichere Hinweise auf Fehlanpassungen des Messmodells als der CFI und der SRMR, die sowohl beim sparsamen als auch beim sehr komplexen fehlspezifizierten Messmodell jeweils fälschlich eine gute Modellanpassung nahelegen. Das dritte Muster irreführender Modellbewertungen findet sich sowohl beim spar samen fehlspezifizierten Messmodell als auch beim sehr komplexen fehlspezifizierten Messmodell jeweils unter normalverteilten Indikatoren; allerdings findet sich dieses Muster nicht beim komplexen Modell, das lediglich vom RMSEA korrekt bewertet wird (vgl. Kapitel 7.2). Dies lässt sich auf das etwas geringere Ausmaß der Fehlspezifikation dieses Modells zurückführen (vgl. dazu Kapitel 6.2.2).
7.4 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch |
107
Tab. 7.3.2: Muster 3.2. Sehr komplexes fehlspezifiziertes Messmodell normalverteilt
Verteilungsform moderat rechtsschief
Fallzahl moderat linksschief
RMSEA CFI TLI SRMR
0.075 (0.007) 0.956 (0.008) 0.923 (0.014) 0.045 (0.004)
0.069 (0.007) 0.957 (0.009) 0.925 (0.015) 0.043 (0.004)
0.069 (0.007) 0.957 (0.008) 0.925 (0.015) 0.043 (0.004)
n = 1500
RMSEA CFI TLI SRMR
0.075 (0.006) 0.956 (0.007) 0.923 (0.012) 0.045 (0.004)
0.069 (0.007) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)
0.069 (0.006) 0.958 (0.008) 0.926 (0.014) 0.042 (0.004)
n = 1800
RMSEA CFI TLI SRMR
0.075 (0.005) 0.956 (0.006) 0.922 (0.011) 0.045 (0.003)
0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.003)
0.069 (0.006) 0.958 (0.007) 0.926 (0.012) 0.042 (0.004)
n = 2200
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 877 bis 945 Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
7.4 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch Das vierte Muster irreführender Modellbewertungen weist trotz unterschiedlicher Schlüsse der vier Gütemaße am stärksten von allen Mustern auf eine Fehlanpassung des Modells hin. So liegt dabei lediglich der CFI mit Werten von 0.96 beziehungsweise 0.961 fälschlich im Bereich guter Modellanpassung (vgl. Tabelle 7.4.1). Der RMSEA, der TLI und der SRMR zeigen die Fehlspezifikation des Modells mit mittleren Werten, die jeweils deutlich mehr als einen Standardfehler vom entsprechenden Schwellenwert abweichen, korrekt an. Dieses Muster ist das einzige irreführende Muster, das eine Fehlspezifikation im Strukturteil des Modells aufweist. Das zeigt zum einen, dass Fehlanpassungen im Strukturteil eines Strukturgleichungsmodells im Mittel besonders gut von allen vier Fit-Indizes berücksichtigt werden. Zum anderen ist dieses auch das einzige Muster ir reführender Modellbewertungen, bei dem der SRMR den richtigen Schluss bezüglich der Modellgüte nahelegt. Daraus lässt sich schließen, dass dieses Gütemaß sensiti ver auf Fehlanpassungen im Strukturteil als auf Fehlanpassungen im Messteil eines solchen Modells reagiert. Zudem lässt dieses Muster – in Kombination mit den Ergebnissen der anderen Muster – darauf schließen, dass ein Modellergebnis, bei dem neben dem TLI und dem RMSEA zusätzlich der SRMR eine mangelhafte Modellanpassung nahelegt, stark auf Fehlspezifikationen im Strukturmodell hindeutet. Im vorliegenden Fall zeigt sich dieses Ergebnis für eine sehr komplexe Modellvariante. Es ist allerdings nicht auszu
108 | 7 Ursachen fehlender Eindeutigkeit der Fit-Indizes
Tab. 7.4.1: Muster 4. Sehr komplexes fehlspezifiziertes Strukturmodell normalverteilt
Verteilungsform moderat rechtsschief
moderat linksschief
Fallzahl
RMSEA CFI TLI SRMR
0.073 (0.007) 0.961 (0.007) 0.926 (0.013) 0.070 (0.007)
0.069 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)
0.068 (0.007) 0.961 (0.008) 0.927 (0.014) 0.065 (0.007)
n = 1500
RMSEA CFI TLI SRMR
0.074 (0.006) 0.961 (0.006) 0.926 (0.011) 0.070 (0.006)
0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)
0.069 (0.006) 0.960 (0.007) 0.926 (0.013) 0.065 (0.007)
n = 1800
RMSEA CFI TLI SRMR
0.074 (0.005) 0.961 (0.005) 0.926 (0.010) 0.070 (0.006)
0.069 (0.006) 0.960 (0.006) 0.926 (0.011) 0.065 (0.006)
0.069 (0.006) 0.960 (0.006) 0.926 (0.012) 0.065 (0.006)
n = 2200
Zu sehen sind die durchschnittlichen Indexwerte der jeweils 998 bis 1000 Stichproben und dahinter in Klammern die dazugehörigen Standardfehler.
schließen, dass auch Modelle eines anderen Komplexitätsgrads ein solches Muster aufweisen können. Die vier dargestellten Muster irreführender Modellbewertungen verdeutlichen, was durch die in Kapitel 6 erläuterten Sensitivitäten bereits nahegelegt wurde: Linea re Strukturgleichungsmodelle wie jene, die im Kontext dieser Simulation untersucht wurden, lassen sich besonders verlässlich über den TLI und den RMSEA bewerten. Unter Berücksichtigung der Ergebnisse aus Kapitel 7.1–7.4 lässt sich eine besonde re Sensitivität des SRMR hinsichtlich falscher Spezifikationen im Strukturteil eines Modells zumindest dahingehend deuten, dass dieser Fit-Index zwar sämtliche fehl spezifizierte Messmodelle irreführend als gut bewertet, eine Fehlspezifikation im Strukturmodell jedoch richtig einstuft. Damit reagiert dieses Gütemaß auf solche Fehlanpassungen zwar sensitiver als auf andere Fehlspezifikationen, allerdings nicht sensitiver als beispielsweise der RMSEA. Im Gegenteil: Beim gleichen Schwellenwert von 0.05 und gleichen Standardfehlern liegt der RMSEA bei den einzelnen Modell varianten der fehlspezifizierten Strukturmodelle weiter von der Schwelle entfernt als der SRMR und zeigt die falsche Anpassung somit deutlicher an (vgl. Tabelle 7.4.1). Außerdem kann auf Basis der vorliegenden Modelle darauf geschlossen werden, dass der CFI Fehlspezifikationen im Strukturteil eines Modells eher als die anderen drei Fit-Indizes nicht berücksichtigt. Irreführende Muster der Modellbewertung, bei denen der CFI und der SRMR das Modell als gut angepasst einstufen und der TLI und der RMSEA das Modell im Gegensatz dazu – annähernd respektive eindeutig – als fehl spezifiziert bewerten, weisen auf eine Fehlspezifikation im Messteil des Modells hin.
7.4 Muster 4: TLI zu niedrig; RMSEA und SRMR zu hoch | 109
Im Rahmen der Simulation haben sich zudem Ergebnisse gezeigt, bei denen al le vier Fit-Indizes eine falsche Konklusion ziehen und das jeweils falsch angepasste Modell als gut bewerten. Allerdings trifft dies auf wenige Modelle zu. Betroffen davon sind lediglich komplexe fehlspezifizierte Messmodelle, in deren Rahmen die Indika toren ausschließlich linksschief oder rechtsschief verteilt sind. Dabei liegt der RMSEA zwar sehr nah am Schwellenwert (RMSEA = 0.048 bzw. 0.047) und auch der TLI ist mit einem Wert von 0.956 respektive 0.957 recht nah am eigenen Schwellenwert – in der Forschungspraxis würde ein solches Modell jedoch in den meisten Fällen als gut angepasst gewertet, sodass die falsche Spezifikation im Messteil des Modells nicht be rücksichtigt würde.
8 Diskussion und Ausblick Mit der vorliegenden Arbeit wurde untersucht, warum die etablierten Gütemaße TLI, CFI, RMSEA und SRMR Strukturgleichungsmodelle in bestimmten Fällen unterschied lich bewerten. Dazu wurde eine Monte-Carlo-Simulation durchgeführt, mit der die mittleren Werte und Streuungen dieser Fit-Indizes für verschiedene Modelle und Da ten analysiert wurden. Es wurden drei unterschiedlich komplexe Populationsmodel le, drei Stichprobengrößen und sechs Verteilungsformen der Indikatoren für jeweils vier unterschiedliche Spezifikationen der theoretischen Stichprobenmodelle analy siert: ein Modell, das dem korrekten Populationsmodell entsprach und drei weitere Modelle, die jeweils unterschiedliche Fehlspezifikationen aufwiesen. Für die Analyse wurden strenge Schwellenwerte aus der Literatur aufgegriffen und geprüft, unter welchen Voraussetzungen diese zu einer korrekten oder falschen Mo dellbewertung führen. Eine falsche Modellbewertung zeigt für das jeweilige Gütemaß zum einen auf, dass dieses die entsprechende Spezifikation des Modells unter gege benen Stichprobenmerkmalen nicht ausreichend sensitiv erfasst; zum anderen kann in einem solchen Fall der konkrete Schwellenwert dieses Gütemaßes in Frage gestellt werden. Im Rahmen der Forschung zu den Fit-Indizes wird die Monte-Carlo-Methode in erster Linie mit dem Ziel angewandt, optimale Schwellenwerte für die Gütemaße zu finden. Allerdings ist es aufgrund der starken Variation zwischen unterschiedlichen Strukturgleichungsmodellen bezüglich des Modellaufbaus und unterschiedlicher Da ten- und Stichprobenmerkmale den meisten Studien (vgl. dazu Hu & Bentler 1999; Yu 2002) nicht gelungen, generelle, also für alle möglichen Modellvarianten anwendbare, Schwellenwerte zu ermitteln. Zwar haben sich bestimmte Schwellenwerte für einzelne Fit-Indizes etabliert, doch führt die strikte Verwendung dieser Schwellenwerte unter Gebrauch mehrerer Fit-Indizes oftmals zu irreführenden Modellbewertungen. Das ist das Ausgangsproblem, mit dem sich diese Forschungsarbeit befasst hat. Mit den Er gebnissen dieser Studie lässt sich erklären, aufgrund welcher Modelleigenschaften und Schwächen einzelner Gütemaße solch irreführende Modellbewertungen entste hen. Ein großer Vorteil der Methode besteht darin, dass mit der Monte-Carlo-Simulati on vielfache Stichprobenziehungen simuliert werden können und so gezeigt werden kann, welchen mittleren Wert ein bestimmter Fit-Index – unter Kenntnis der Popula tion – für spezifische Stichprobenspezifikationen bei einer bestimmten Modellvarian te annimmt. Zusätzlich dazu kann die Streuung der einzelnen Gütemaße und damit die Effizienz der relevanten mittleren Werte untersucht werden. Die Ergebnisse bedür fen folglich keiner weiteren statistischen Absicherung gegen den Zufall; schließlich ist dies bereits Teil der Simulation. Die vorliegende Simulationsstudie ist äußerst umfangreich und beinhaltet eine Vielzahl von Spezifikationen, die – unter Berücksichtigung der Empfehlung von Mu https://doi.org/10.1515/9783110624199-008
112 | 8 Diskussion und Ausblick
thén & Muthén (2002, S. 601) – zum Teil an Werte aus bisherigen Simulationsstudien zu den Fit-Indizes angepasst worden sind. Als Ausnahme davon zeigen sich primär die Spezifikationen zur Verteilung der Indikatoren sowie die untersuchten Stichproben größen. So wurde der Fokus der vorliegenden Studie auf große Fallzahlen gelegt und damit der Aspekt beachtet, dass der eigentliche statistische Modelltest – der χ2 -Test – sensitiv auf große Fallzahlen reagiert und nahezu jedes Modell mit einer großen Fall zahl zurückweist (vgl. Kapitel 3.1.2). Folglich ist die Modellevaluation über Fit-Indizes insbesondere im Fall einer großen Stichprobe relevant. Bezüglich der Verteilung der Indikatoren wurde innerhalb dieser Studie ein Fokus gelegt, der ebenfalls vom Vorgehen bisheriger Forschungsarbeiten abweicht. So ist mit der vorliegenden Arbeit der Einfluss der Schiefe auf die Gütemaße erstmals isoliert von der Kurtosis untersucht worden. Bei der Festlegung der Modellvarianten wurde berücksichtigt, dass bestimmte Fehlspezifikationen für eine Analyse der Gütemaße nicht von Relevanz sind, da sie von den Gütemaßen nicht evaluiert werden: Zum einen sind alle untersuchten und dargestellten fehlspezifizierten Modelle unterspezifiziert. Keines der Modelle weist ei ne Überparametrisierung auf. Das ist dadurch begründet, dass die Gütemaße Modelle nicht lediglich aufgrund einer Überparametrisierung als fehlspezifiziert werten: Soll ten in einem Modell alle relevanten Zusammenhänge geschätzt werden und darüber hinaus unwesentliche Zusammenhänge enthalten sein, so wird die gesamte erklärba re Streuung dieses Modells erklärt; die Fit-Indizes werten ein solches Modell als sehr gut angepasst.⁷⁰ Eine Untersuchung überspezifizierter Modelle ist aus diesem Grund nicht notwendig. Eine weitere Erkenntnis hat sich aus dem Versuch ergeben, relevante Indikatoren des Populationsmodells nicht ins Stichprobenmodell aufzunehmen. Wenn alle in das Stichprobenmodell aufgenommenen Indikatoren entsprechend ihrer Zusammenhän ge spezifiziert werden, so fällt die Modellbewertung sehr gut aus. Die unberücksichtig ten Parameter können innerhalb des Modellierungsprozesses nicht erkannt werden, da das hypothetische Modell, das mithilfe der Stichprobendaten geschätzt wird, ledig lich die im Modell enthaltenen Variablen berücksichtigt. Alle weiteren Variablen, die außerhalb des Modells liegen und mit den Variablen im Modell korrelieren, sind nicht Teil der Daten und somit auch nicht Teil des saturierten Modells, mit dem das hypo 70 Dass dabei Freiheitsgrade unnötig verbraucht werden, kann nicht dazu führen, dass das Modell durch die Gütemaße substanziell schlechter gewertet wird. So werden mit dem SRMR die absoluten Fehler in der Korrelationsmatrix berechnet, die beim Wert 0 liegen, sobald alle vom Wert 0 verschiede nen Korrelationen mit dem Modell geschätzt werden. In diesem Fall liegt der SRMR beim Wert 0 und weist so auf eine perfekte Modellanpassung hin. Zwar findet sich in den Formeln für die Gütemaße TLI, CFI und RMSEA jeweils eine Korrektur über die Anzahl der Freiheitsgrade, doch wird diese bei al len drei Gütemaßen vernachlässigt, sobald das hypothetische Modell alle Zusammenhänge zwischen den Daten erklärt und dahingehend dem saturierten Modell entspricht. Der RMSEA liegt in jenem Fall beim Wert 0 so wie der CFI und der TLI bei perfekter Modellanpassung beim Wert 1 liegen (vgl. zu diesen Erläuterungen Kapitel 3.2).
8 Diskussion und Ausblick | 113
thetische Modell verglichen wird. Daraus lässt sich eine wichtige Erkenntnis ableiten: Die Datenauswahl ist ein sehr wichtiger Aspekt innerhalb der Strukturgleichungsmo dellierung und folglich beginnt die Entwicklung eines guten Strukturgleichungsmo dells nicht erst mit der Schätzung. Andernfalls besteht die Gefahr, dass relevante Indi katoren beim Modellierungsprozess übersehen werden. Die Modellparameter können derartige Schwächen bei der Modellierung nicht aufdecken. Ein wichtiges Ergebnis dieser Studie zeigt sich für die korrekt spezifizierten Mo delle. Diese werden von allen vier Fit-Indizes unter sämtlichen Stichprobenmerkma len korrekt als sehr gut eingestuft. Das impliziert die wichtige Erkenntnis, dass irre führende Muster der Modellbewertung lediglich bei fehlspezifizierten Modellen be stehen. Zu beachten ist, dass die korrekten Modelle hier den Populationsmodellen entsprechen und somit eine perfekte Modellanpassung für diese Modelle gegeben ist. Das wird durch den χ 2 -Test geprüft und ist nicht der Maßstab der Modellbewertung mit den Gütemaßen. In Kapitel 3.1 wurde erläutert, dass eine sehr gute Modellanpas sung bereits ausreichend ist, da bei realen Umfragedaten stets geringe, substanziell ir relevante Zusammenhänge zwischen einzelnen Variablen bestehen, deren Schätzung keinen inhaltlichen Zugewinn für das Modell bedeuten würde, allerdings den Unter schied zwischen einer sehr guten und einer perfekten Modellanpassung erklärt. Die Ergebnisse haben gezeigt, dass die Gütemaße bei perfekter Modellanpassung sehr nah an den bestmöglichen Werten 0 respektive 1 liegen. Einzelne Fit-Indizes lie gen selbst bei einigen fehlspezifizierten Modellvarianten noch zu nah an diesen Wer ten und haben diese Modelle fälschlich als gut angepasst gewertet. Daraus lässt sich folgern, dass bei einem Modell, in dem alle inhaltlich substanziellen Zusammenhän ge – aber nicht zwangsläufig alle Zusammenhänge – geschätzt werden, jedes der vier Fit-Maße korrekt eine gute Modellanpassung nahelegt. Das gilt auch für große Fall zahlen. So ergibt sich das Problem der hohen Fallzahl-Sensitivität des χ 2 -Tests für die Fit-Indizes nicht in dieser Form. Zwar sollte beachtet werden, dass der SRMR als einzi ges der vier untersuchten Gütemaße unter nahezu allen betrachteten Modellvarianten eine Abhängigkeit zur Fallzahl gezeigt hat, doch zeigt auch der SRMR die gute Modell anpassung der korrekt spezifizierten Modellvarianten deutlich an. Unter Bezugnahme auf die durch die Literatur vorgeschlagenen Schwellenwerte geben die Gütemaße RMSEA und TLI die Fehlanpassungen der untersuchten Model le besonders verlässlich wieder und weisen eine hohe Rate korrekt bewerteter Mo delle auf. Durch den SRMR und den CFI wird eine größere Anzahl fehlspezifizierter Modelle fälschlich als gut angepasst gewertet. Insofern kann der Vorschlag von Hu & Bentler (1999, S. 23–27), für die Modellevaluation den SRMR gemeinsam mit einem weiteren Fit-Index zu verwenden, auf Basis der vorliegenden Ergebnisse nicht bestä tigt werden; insbesondere, da die Autoren für den SRMR unterschiedliche Schwellen werte vorschlagen, die allesamt beim Wert 0.6 oder höher liegen (vgl. Hu & Bentler 1999, S. 23–27). Eine solche Lockerung des Schwellenwerts ist nicht empfehlenswert. Im Gegenteil: Unter Kenntnis der vorliegenden Ergebnisse sollten für Strukturglei chungsmodelle mit großen Fallzahlen tendenziell strengere Schwellenwerte für den
114 | 8 Diskussion und Ausblick
SRMR sowie für den CFI in Betracht gezogen werden. So schlagen Hu & Bentler (1999, S. 24), Reinecke (2014, S. 127) und Yu (2002, S. 43) vor, den Schwellenwert des CFI mit dem Wert 0.96 strikter zu setzen. Diese Empfehlung wird durch die vorliegenden Er gebnisse bestärkt. Es sollte gar in Betracht gezogen werden, den Schwellenwert des CFI noch strikter festzusetzen, zum Beispiel auf den Wert 0.97. Das hätte unter ande rem bezogen auf das sparsame fehlspezifizierte Messmodell – anders als der Schwel lenwert 0.95 oder 0.96 – zu einer korrekten Modellbewertung geführt. Der Schwellen wert des SRMR wird allerdings durch sämtliche Quellen auf minimal 0.05 gesetzt (vgl. dazu Kapitel 4.2).⁷¹ Für die vorliegenden Modelle hätte ein strengerer Schwellenwert von beispielsweise 0.04 beim SRMR zu einem höheren Anteil korrekt zurückgewiese ner Modelle geführt. Die Analyse hat überdies herausgestellt, dass der SRMR im Gegensatz zu den an deren drei Fit-Indizes sensitiv auf die Fallzahl reagiert. Die Forschungsliteratur zeigt sich gespalten bei der Beurteilung der Fallzahlsensitivität des SRMR (vgl. Kapitel 4.1). Für das Ergebnis dieser Studie kann festgehalten werden, dass lediglich große Fallzah len (n = 1500, n = 1800 und n = 2200) untersucht wurden und für diese die Sensitivität des SRMR gering ausfällt, allerdings in nahezu jeder untersuchten Teilsimulation auf tritt. Unter Berücksichtigung der gewählten Stichprobengrößen kann angenommen werden, dass der SRMR für kleinere Stichproben als die kleinste gewählte Fallzahl von n = 1500 mit kleinerer Fallzahl ansteigt und fehlspezifizierte Modelle so für besonders kleine Stichproben tendenziell eher korrekterweise als fehlangepasst wertet als dies bei den vorliegenden großen Stichproben der Fall ist. Ein derartiger Befund würde mit den Ergebnissen der Studie von Yu (2002, S. 161) einhergehen und ebenso die Erläute rungen von Hooper et al. (2008, S. 55) bestätigen. Zu gute Bewertungen einzelner fehl spezifizierter Modelle, die sich innerhalb der vorliegenden Studienergebnisse finden, könnten demnach beim SRMR mitunter auf eine Fallzahl-Sensitivität zurückgeführt werden. Ein weiterer sehr interessanter Befund liegt in der Sensitivität der Gütemaße be züglich der Schiefe der Indikatoren. Dies spricht eindeutig gegen die Forschungser wartung, die sich aus der Forschungsliteratur ergibt (vgl. z. B. Byrne 2012, S. 98–99). Bisherige Studien haben sich primär mit der Kurtosis befasst und die Schiefe vernach lässigt (vgl. dazu Hu & Bentler 1999; Yu 2002). Es wird hier nicht angenommen, dass die Schiefe einen stärkeren Effekt als die Kurtosis aufweist. Es wäre jedoch ebenso falsch, einen potenziellen Effekt der Schiefe der Modellindikatoren zu ignorieren. Am stärksten reagieren der RMSEA und der SRMR auf schief verteilte Indikato ren. Beim TLI und CFI wirkt sich die Schiefe primär auf den jeweiligen Standardfehler aus. Mit stärkerer Schiefe steigen die Standardfehler beider Gütemaße deutlich an. Das impliziert eine geringere Effizienz der Modellbewertung. Mögliche Verzerrungen
71 Das könnte damit zusammenhängen, dass bisherige Studien vor allem Modelle mit kleineren Fall zahlen untersucht haben.
8 Diskussion und Ausblick |
115
auf Basis der Schiefe sollten für die Fit-Indizes vor allem bei nahe an den Schwellen werten liegenden guten Modellbewertungen nicht ausgeschlossen werden: Schließ lich wirken sich schiefe Verteilungen der Indikatoren auf alle betrachteten Fit-Maße aus. Bei einer einzigen Stichprobe können alle vier Gütemaße eine zu gute Modellbe wertung nahelegen und bei Werten, die sehr nah an den jeweiligen Schwellen liegen, ist es möglich, dass ein entsprechendes Modell lediglich aufgrund der Verteilungen der Indikatoren von den Fit-Indizes fälschlich als gut angepasst gewertet wird. Der TLI reagiert darüber hinaus auf unterschiedliche Verteilungen der Indikatoren und zeigt bei den meisten untersuchten Modellen für gemischt verteilte Indikatoren höhere Werte an als für Modelle mit Indikatoren einer Verteilungsform. So weist die Bewertung fehlspezifizierter Modelle unter gemischt verteilten Indikatoren tendenzi ell in die falsche Richtung. Für den CFI zeigt sich der gleiche Effekt in abgeschwächter Form. Forschende Personen sollten entsprechend vorsichtig mit Modellen umgehen, die mit den Fit-Indizes in geringem Ausmaß als gut angepasst bewertet werden kön nen, wenn die Indikatoren des Modells unterschiedliche Verteilungen aufweisen. Der hier festgestellte Effekt sollte bei zukünftigen Forschungsarbeiten beachtet und ge nauer untersucht werden. In der vorliegenden Studie wurden die Verteilungen ledig lich für die Schiefe-Werte 3 und -3 variiert. Der Effekt eines variierenden Ausmaßes der Schiefe kombiniert mit unterschiedlichen Richtungen der Verteilungen innerhalb ei nes Modells wurde hier nicht untersucht, könnte allerdings vor dem Hintergrund der beschriebenen Befunde interessante Ergebnisse hervorrufen. Es gilt letztlich zu beachten, dass mit der vorliegenden Studie ausschließlich Modelle mit dem ML-Schätzverfahren und metrischen Indikatoren untersucht wur den. Bei schief verteilten Indikatoren wird die Normalverteilungsannahme des MLSchätzverfahrens verletzt. Für Verletzungen gegen diese Annahme stehen robuste MLSchätzverfahren (MLM, MLR) zur Verfügung, die jeweils eine korrigierte χ2 -Teststatis tik verwenden. Das mit dieser Studie deutlich aufgedeckte Problem der Sensitivität der Fit-Indizes gegenüber schief verteilten Indikatoren sollte sich dabei nicht ergeben. Für Strukturgleichungsmodelle mit kategorialen Indikatoren sollte ebenfalls von der Verwendung des einfachen ML-Schätzers abgesehen werden.⁷²
72 Alternativ stehen für Modelle mit kategorialen Daten verschiedene Weighted-least-squares-Schätz verfahren sowie das MLM-Schätzverfahren zur Verfügung (vgl Reinecke 2014, S. 102–112).
A Ergänzungen zu Kapitel 5 Tab. A.0.1: Deskriptive Statistiken der Variable „happy“. Kennzahl
Wert
Fallzahl arithmetisches Mittel Standardabweichung Schiefe
40015 7.39 1.91 −1.03
Die Variable ist auf einer elfstufigen Zustimmungsskala gemessen. Dabei steht der Wert 0 für „extrem unglücklich“ und der Wert 10 steht für „extrem glücklich“, Datenquelle: European Social Survey 2014.
Tab. A.0.2: Faktorladungsstruktur. Modellkomplexität komplex
sparsam F1a 0.6⋅x1 0.6⋅x2 0.5⋅x3 0.5⋅x4 F2a 0.6⋅x4 0.6⋅x5 0.6⋅x6 cov(F1a ⋅F2a ) = 0.4
F1b 0.6⋅x1 0.7⋅x2 0.8⋅x3 F2b 0.7⋅x1 0.7⋅x4 0.7⋅x5 F3b 0.6⋅x4 0.7⋅x6 0.8⋅x7 cov(F1b ⋅F2b ) = 0.6 cov(F2b ⋅F3b ) = 0.6
sehr komplex F1c 0.4⋅x1 0.5⋅x2 0.7⋅x3 0.8⋅x4 F2c 0.8⋅x1 0.7⋅x2 0.8⋅x5 0.6⋅x6 F3c 0.4⋅x5 0.8⋅x6 0.7⋅x7 0.8⋅x8 cov(F1c ⋅F2c ) = 0.6 cov(F2c ⋅F3c ) = 0.6
Zu sehen sind die Faktorladungen sowie die Kovarianzen zwischen den latenten Faktoren für die drei unterschiedlich komplexen Populationsmodelle der vorliegenden Simulationsstudie. Die Freiheits grade ergeben sich entsprechend der Formel 3.1.2: dfs = p⋅(p−1) − r x . Bezogen auf die jeweiligen 2 korrekt spezifizierten Modelle ergeben sich 7 Freiheitsgrade für das sparsame Modell, 10 Freiheits grade für das komplexe Modell und 14 Freiheitsgrade für das sehr komplexe Modell.
https://doi.org/10.1515/9783110624199-009
B Ergänzungen zu Kapitel 6 B.1 Konvergenz Für jede Teilsimulation wurden tausend Stichproben angefordert. Unter allen sparsa men Modellen findet sich lediglich eine Teilsimulation, bei der die volle Anzahl ange forderter Stichproben nicht erfüllt werden konnte. Es handelt sich um die Teilsimula tion mit dem fehlspezifizierten Messmodell und stark rechtsschiefen Verteilungen der Indikatoren. Die Anzahl liegt dafür bei 999 erfolgreichen Replikationen. Bei der Modellierung der komplexen und sehr komplexen Modellvarianten ha ben sich deutlich mehr nicht-konvergierende Modelle ergeben. Die Zahlen sind Tabel len B.1.1–B.1.4 zu entnehmen. Tabelle B.1.1 lassen sich drei zentrale Tendenzen entnehmen: Erstens steigt mit steigender Fallzahl die Anzahl erfolgreicher Replikationen. Zweitens ist die Wahr scheinlichkeit nicht-konvergierender Modelle umso höher, je schiefer die Indikatoren verteilt sind. Drittens finden sich mehr erfolgreiche Replikationen für das komplexe Modell als für das sehr komplexe Modell. Für die fehlspezifizierten Messmodelle (vgl. Tabelle B.1.2) lassen sich die gleichen Tendenzen feststellen wie für die korrekt spezifizierten Modelle: Eine kleinere Fall zahl, schiefere Verteilungen der Indikatoren und eine komplexere Modellspezifikation wirken sich negativ auf die Konvergenz aus und erhöhen so die Anzahl nicht-konver gierender Modelle. Zudem lässt sich feststellen, dass bei einer falschen Spezifikation im Messteil des Modells die Wahrscheinlichkeit für fehlende Konvergenz erhöht wird; bei den korrekt spezifizierten Modellen ist die Anzahl kovergierender Modelle höher als bei den fehlspezifizierten Messmodellen. Anhand von Tabelle B.1.3 lässt sich erkennen, dass falsche Spezifikationen zwi schen den latenten Variablen eines Strukturgleichungsmodells eine sehr geringe Aus wirkung auf die Konvergenz der Modelle haben. Ein Anstieg der Schiefe wirkt sich ne Tab. B.1.1: Kovergenz korrekt spezifizierter Modelle.
normal verteilt
moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
Fallzahl
Komplexes Modell
998 999 1000
995 998 1000
832 884 914
994 999 1000
856 875 920
867 905 910
n = 1500 n = 1800 n = 2200
Sehr Komplexes Modell
997 1000 999
994 996 998
836 865 878
994 998 999
835 860 883
840 845 862
n = 1500 n = 1800 n = 2200
Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.
https://doi.org/10.1515/9783110624199-010
120 | B Ergänzungen zu Kapitel 6
Tab. B.1.2: Kovergenz fehlspezifizierter Messmodelle.
normal verteilt
moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
Fallzahl
Komplexes Modell
967 976 992
944 954 965
747 776 806
940 964 978
739 771 827
750 800 801
n = 1500 n = 1800 n = 2200
Sehr Komplexes Modell
920 925 945
892 913 926
710 750 759
877 909 935
714 729 751
711 722 731
n = 1500 n = 1800 n = 2200
Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.
Tab. B.1.3: Kovergenz fehlspezifizierter Strukturmodelle.
normal verteilt
moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
Fallzahl
Komplexes Modell
1000 1000 1000
1000 1000 1000
1000 1000 1000
1000 1000 1000
1000 1000 1000
1000 1000 1000
n = 1500 n = 1800 n = 2200
Sehr Komplexes Modell
1000 1000 1000
1000 1000 1000
948 960 969
998 999 1000
946 954 964
939 946 956
n = 1500 n = 1800 n = 2200
Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.
gativ auf die Konvergenz sehr komplexer Modelle aus. Alle angeforderten komplexen fehlspezifizierten Strukturmodelle konvergieren. Für die fehlspezifizierten Gesamtmodelle findet sich ein sehr hohes Maß an Kon vergenz (vgl. Tabelle B.1.4). Zusätzlich dazu lässt sich erkennen, dass schiefer verteilte Indikatoren bei den komplexen Modellen fehlende Konvergenz hervorrufen können. Wie Tabelle B.1.4 zu entnehmen ist, konvergieren alle angeforderten sehr komple xen fehlspezifizierten Gesamtmodelle. Das hohe Maß an Konvergenz könnte unter an derem damit zusammenhängen, dass die fehlspezifizierten Gesamtmodelle weniger Schätzungen beinhalten als alle anderen komplexen und sehr komplexen Modellva rianten. Im Vergleich zwischen den drei unterschiedlich komplexen Populationsmodellen zeigt sich, dass der Anteil konvergierender Modelle mit steigender Komplexität sinkt. Interessant ist, dass dies – wenn auch in geringer Tendenz – für die korrekt spezifi zierten Modelle gilt. Die korrekt spezifizierten Modelle weisen insofern eine perfekte Modellanpassung auf, als jeder geschätzte Parameter des Modells deutlich vom Wert 0 verschieden ist und keine weiteren Zusammenhänge unbeachtet bleiben. Mit dieser korrekten Modellspezifikation konvergieren sämtliche sparsame Modelle. Unter den komplexen Stichprobenmodellen konvergiert ein etwas geringerer Anteil und der An
B.1 Konvergenz |
121
Tab. B.1.4: Kovergenz fehlspezifizierter Gesamtmodelle.
normal verteilt
moderat rechtsschief
Verteilungsform stark moderat rechtsschief linksschief
stark linksschief
stark rechtsund linksschief
Fallzahl
Komplexes Modell
1000 1000 1000
1000 1000 1000
996 1000 1000
1000 1000 1000
996 999 998
998 1000 1000
n = 1500 n = 1800 n = 2200
Sehr Komplexes Modell
1000 1000 1000
1000 1000 1000
1000 1000 1000
1000 1000 1000
1000 1000 1000
1000 1000 1000
n = 1500 n = 1800 n = 2200
Für jede Teilsimulation wurden 1000 Replikationen angefordert. In der Tabelle ist die jeweilige Anzahl erfolgreicher Repli kationen zu sehen.
teil konvergierender sehr komplexer Modelle ist nochmals geringfügig kleiner. Wenn möglich, sind sparsame Modelle komplexeren Modellvarianten stets vorzuziehen. Die damit in Verbindung stehende Konvergenz zeigt einen guten Grund dafür auf.
Literatur Acock, A. C. (2013): Discovering Structural Equation Modeling Using Stata. College Station: Stata Press. Agresti, A. & Finlay, B. (2009): Statistical Methods for the Social Sciences. 4. Auflage, Upper Saddle River: Prentice Hall. Barrett, P. (2001): Skewness and pearson correlations. attenuation of coefficient size as a function of skewed data. The Technical Whitepaper Series, (2). Barrett, P. (2007): Structural equation modelling: Adjudging model fit. Personality and Individual differences, 42(5), 815–824. Baur, N. & Fromm, S. (2008): Datenanalyse mit SPSS für Fortgeschrittene: ein Arbeitsbuch. 2. Aufla ge, Wiesbaden: VS Verlag. Bentler, P. M. (1990): Comparative Fit Indexes in Structural Models. Psychological Bulletin, 107(2), 238–246. Bentler, P. M. (1995): EQS structural equations program manual. Encino: Multivariate Software. Bentler, P. M. (2007): On tests and indices for evaluating structural models. Personality and Indivi dual Differences, 42(5), 825–829. Bibby, J. M., Kent, J. T. & Mardia, K. V. (1979): Multivariate Analysis. London: Academic Press. Bollen, K. A. (1989a): A New Incremental Fit Index for General Structural Equation Models. Sociologi cal Methods & Research, 17(3), 303–316. Bollen, K. A. (1989b): Structural Equations with Latent Variables. New York: Wiley. Bollen, K. A. & Curran, P. J. (2006): Latent Curve Models: A Structural Equation Perspective. Hoboken: Wiley. Boomsma, A. (1983): On the robustness of LISREL (maximum likelihood estimation) against small sample size and non-normality. Unveröffentlichte Dissertation, Universität Groningen, Gronin gen. Boomsma, A. (2013): Reporting Monte Carlo Studies in Structural Equation Modeling. Structural Equation Modeling: A Multidisciplinary Journal, 20(3), 518–540. Bortz, J. & Schuster, C. (2010): Statistik für Human-und Sozialwissenschaftler. 7. Auflage, Berlin: Springer. Brosius, H.-B., Haas, A. & Koschel, F. (2012): Methoden der empirischen Kommunikationsforschung. 6. Auflage, Wiesbaden: VS Verlag. Brown, T. A. (2015): Confirmatory Factor Analysis for Applied Research. 2. Auflage, New York: The Guilford Press. Browne, M. W. & Cudeck, R. (1993): Alternative ways of assessing model fit. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Newbury Park: Sage, 136–162. Byrne, B. M. (2012): Structural Equation Modeling With Mplus: Basic Concepts, Applications, and Programming. New York: Routledge. Cangur, S. & Ercan, I. (2015): Comparison of model fit indices used in structural equation modeling under multivariate normality. Journal of Modern Applied Statistical Methods, 14(1), 152–167. Chen, F. F. (2007): Sensitivity of goodness of fit indexes to lack of measurement invariance. Structu ral Equation Modeling: A Multidisciplinary Journal, 14(3), 464–504. Chou, C.-P. & Bentler, P. M. (1995): Estimates and Tests in Structural Equation Modeling. In: Hoyle, R. H. (Hrsg.), Structural Equation Modeling. Concepts, Issues, and Applications, Sage, 37–55. Christ, O. & Schlüter, E. (2012): Strukturgleichungsmodelle mit Mplus: Eine praktische Einführung. München: Oldenbourg Verlag.
https://doi.org/10.1515/9783110624199-011
124 | Literatur
Costello, A. B. & Osborne, J. W. (2005): Best practices in exploratory factor analysis: four recommen dations for getting the most from your analysis. Practical Assessment Research and Evaluation, 10(7). DeCarlo, L. T. (1997): On the Meaning and Use of Kurtosis. Psychological Methods, 2(3), 292–307. Diaz-Bone, R. (2013): Statistik für Soziologen. 2. Auflage, Konstanz und München: UVK Verlagsge sellschaft. Díaz-Emparanza, I. (2002): Is a Small Monte Carlo Analysis a Good Analysis? Statistical Papers, 43(4), 567–577. Diekmann, A. (2008): Empirische Sozialforschung. 19. Auflage, Reinbek bei Hamburg: Rowohlt. ESS Sampling Expert Panel (2016): Sampling guidelines: Principles and implementation for the European Social Survey. London: ESS ERIC Headquarters. European Social Survey (2014): Integrierter Datensatz, Edition 2.0, Runde 7. URL http://www.europeansocialsurvey.org/download.html?file=ESS7e02&y=2014 (letzter Zugriff:15.08.2018) European Social Survey (2015): Measuring and Reporting on Europeans’ Wellbeing: Findings from the European Social Survey. London: ESS ERIC. Faulbaum, F., Prüfer, P. & Rexroth, M. (2009): Was ist eine gute Frage? Die systematische Evaluation der Fragenqualität. Wiesbaden: VS Verlag. Gerbing, D. W. & Anderson, J. C. (1993): Monte Carlo Evaluations of Goodness-of-Fit Indices for Struc tural Equation Models. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Newbury Park: Sage, 40–65. GESIS, L. (2016): German General Social Survey - ALLBUScompact 2014. GESIS Datenarchiv, Köln. ZA5243 Datenfile Version 1.0.0. URL http://dx.doi.org/10.4232/1.12438 (letzter Zugriff: 16.08.2018) GMF (2013): Gruppenbezogene Menschenfeindlichkeit (GMF Surveys 2002-2011) Variable Report. GESIS / Universität Bielefeld (2013), gesis-variable reports 2013. Heitmeyer, W., Zick, A., Kühnel, S., Schmidt, P., Wagner, U., Mansel, J. & Reinecke, J. (2013): Grup penbezogene Menschenfeindlichkeit (GMF-Survey 2007). GESIS Datenarchiv, Köln. ZA5572 Datenfile Version 2.0.0, doi:10.4232/1.11814. URL https://dbk.gesis.org/dbksearch/SDesc2.asp?DB=D&no=5572 (letzter Zugriff: 26.07.2017) Hooper, D., Coughlan, J. & Mullen, M. (2008): Structural Equation Modelling: Guidelines for Determi ning Model Fit. Articles, 6(1), 53–60. Hu, L.-t. & Bentler, P. M. (1999): Cutoff criteria for fit indexes in covariance structure analysis: Con ventional criteria versus new alternatives. Structural Equation Modeling: A Multidisciplinary Journal, 6(1), 1–55. Iacobucci, D. (2010): Structural equations modeling: Fit indices, sample size, and advanced topics. Journal of Consumer Psychology, 20(1), 90–98. Jobson, J. D. (1991): Applied multivariate data analysis: Volume I: Regression and Experimental De sign. New York: Springer. Jöreskog, K. G. (1993): Testing Structural Equation Models. In: Bollen, K. A. & Long, J. S. (Hrsg.), Tes ting Structural Equation Models, Sage Focus Editions, Band 154, Sage Publications, 294–316. Kaplan, D. (2009): Structural Equation Modeling: Foundations and Extensions. 2. Auflage, Thousand Oaks: Sage. Kline, R. B. (2005): Principles and Practice of Structural Equation Modeling. New York: The Guilford Press. Kühnel, S.-M. & Krebs, D. (2007): Statistik für die Sozialwissenschaften. 4. Auflage, Reinbek bei Hamburg: Rowohlt. Mooney, C. Z. (1997): Monte Carlo Simulation, Band 116. Thousand Oaks: Sage.
Literatur
| 125
Muthén, B. O. (1984): A general structural equation model with dichotomous, ordered categorical, and continuous latent variable indicators. Psychometrika, 49(1), 115–132. Muthén, B. O. (1993): Goodness of fit with categorical and other nonnormal variables. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Sage Publications, 205–234. Muthén, L. K. & Muthén, B. O. (1998-2010): Mplus: Statistical Analysis with Latent Variables: User’s Guide. 6. Auflage, Los Angeles: Muthén & Muthén. Muthén, L. K. & Muthén, B. O. (2002): How To Use A Monte Carlo Study To Decide On Sample Si ze and Determine Power. Structural Equation Modeling: A Multidisciplinary Journal, 9(4), 599–620. Pöge, A. (2017): Werte im Jugendalter. Stabilität Wandel Synthese. Wiesbaden: Springer VS. Pornprasertmanit, S. (2016): nullRMSEA. URL https://www.rdocumentation.org/packages/semTools/versions/0.4-11/topics/nullRMSEA (letzter Zugriff: 26.06.2018) Pornprasertmanit, S., Wu, W. & Little, T. D. (2013): A Monte Carlo Approach for Nested Model Com parisons in Structural Equation Modeling. In: Millsap, R. E., van der Ark, L. A., Bolt, D. M. & Woods, C. M. E. (Hrsg.), New Developments in Quantitative Psychology, Springer, 187–197. Reinecke, J. (2014): Strukturgleichungsmodelle in den Sozialwissenschaften. 2. Auflage, München: Oldenbourg Verlag. Rencher, A. C. (2003): Methods of Multivariate Analysis. 2. Auflage, Hoboken: John Wiley&Sons, Inc. Schnell, R., Hill, P. B. & Esser, E. (2011): Methoden der empirischen Sozialforschung. 9. Auflage, München: Oldenbourg Verlag. Schoemann, A. M., Patrick, M., Pornprasertmanit, S. & Wu, W. (2014): Using Monte Carlo simulati ons to determine power and sample size for planned missing designs. International Journal of Behavioral Development, 38(5), 471–479. Sedlmeier, P. & Renkewitz, F. (2008): Forschungsmethoden und Statistik in der Psychologie. Mün chen: Pearson Studium. Sharma, S., Mukherjee, S., Kumar, A. & Dillon, W. R. (2005): A simulation study to investigate the use of cutoff values for assessing model fit in covariance structure models. Journal of Business Research, 58(7), 935–943. Steiger, J. H. (1990): Structural Model Evaluation and Modification: An Interval Estimation Approach. Multivariate behavioral research, 25(2), 173–180. Steiger, J. H. (2007): Understanding the limitations of global fit assessment in structural equation modeling. Personality and Individual Differences, 42(5), 893–898. Steiger, J. H. (2016): Notes on the Steiger-Lind (1980) Handout. Structural Equation Modeling: A Multidisciplinary Journal, 23(6), 777–781. Steiger, J. H. & Lind, J. C. (1980): Statistically based tests for the number of common factors. In: Annual meeting of the Psychometric Society, Iowa City, IA, Band 758. Tanaka, J. S. (1993): Multifaceted conceptions of fit in structural equation models. In: Bollen, K. A. & Long, J. S. (Hrsg.), Testing Structural Equation Models, Sage Focus Editions, Band 154, Newbury Park: Sage, 10–39. Tucker, L. R. & Lewis, C. (1973): A reliability coefficient for maximum likelihood factor analysis. Psy chometrika, 38(1), 1–10. Yeomans, K. A. & Golder, P. A. (1982): The Guttman-Kaiser criterion as a predictor of the number of common factors. The Statistician, 221–229. Yu, C.-Y. (2002): Evaluating Cutoff Criteria of Model Fit Indices for Latent Variable Models with Binary and Continuous Outcomes. Unveröffentlichte Dissertation, University of California Los Angeles.
Stichwortverzeichnis χ 2 -Test 3, 19, 20, 24–27, 29, 38, 115 χ 2 -Verteilung 25, 30 Explorative Faktorenanalyse 6, 8, 12, 17 Faktorladung 9–11, 15–17 Freiheitsgrade 20–23, 25, 30 Hauptkomponentenmethode 11, 12, 16 Identifikationsbedingungen 21, 23 Kommunalität 11, 12 Konfirmatorische Faktorenanalyse 6, 12, 13, 15 Konvergenz 98, 119 Korrelation 6, 7, 9 Korrelationsmatrix 8, 10, 14 Kovarianz 14, 22 Kovarianzmatrix 15, 21, 22, 24, 32 Kurtosis 37, 38, 112, 114 latente Variable 1, 5, 6, 7, 8, 13, 15, 16 leeres Modell siehe Nullmodell manifeste Variable 1, 6, 10, 11, 17 Maximum-Likelihood(ML)-Schätzung 24, 25, 37, 46, 115 Messfehler 5, 6, 7, 8 Messmodell 15, 16, 17, 19, 36 Modellkomplexität 20, 35, 36, 39, 40, 47, 48 Monte-Carlo-Simulation 2, 43–45 Mplus 1, 22–24, 27, 28, 31
https://doi.org/10.1515/9783110624199-012
Non-Normed Fit Index (NNFI) 31 Normalverteilung – allgemein 7, 13 – multivariat 25, 37, 38, 115 Nullmodell 23, 29, 31, 32 Population 19, 28, 43 Power siehe Teststärke R 43 Relative Noncentrality Index (RNI) 31 Replikationen 45 saturiertes Modell 20, 21, 23 Schiefe 38, 39, 114, 115 Schwellenwert 1, 2, 39, 50, 111, 114 Seed 45 Signifikanz 15–17, 25, 39 Standardabweichung 44 Standardfehler 44, 49, 114 Stata 1, 22–24, 28 Stichprobe 2, 19, 27, 28, 43, 44 Strukturgleichungsmodell – allgemein 1, 13, 19, 21 – kategoriale Daten 1, 115 Strukturmodell 15, 21, 36 Teststärke 27 Uniqueness 11, 12