230 19 51MB
German Pages 336 [340] Year 1994
de Gruyter Lehrbuch Engel/Reinecke · Panelanalyse
Uwe Engel · Jost Reinecke
Panelanalyse Grundlagen · Techniken · Beispiele
W DE
G Walter de Gruyter Berlin · New York 1994
PD Dr. Uwe Engel, Akademischer Rat am Lehrstuhl für allgemeine Soziologie I, Technische Universität Chemnitz-Zwickau Dr. Jost Reinecke, Wissenschaftlicher Assistent am Institut für Soziologie/ Sozialpädagogik, Westfälische Wilhelms-Universität Münster
Das Buch enthält 18 Abbildungen und 74 Tabellen
Gedruckt auf säurefreiem Papier, das die US-ANSI-Norm über Haltbarkeit erfüllt.
Die Deutsche Bibliothek — CIP-Einheitsaufnahme Engel, Uwe: Panelanalyse : Grundlagen, Techniken, Beispiele / Uwe Engel ; Jost Reinecke. — Berlin ; New York : de Gruyter, 1994 (De-Gruyter-Lehrbuch) ISBN 3-11-013570-1 NE: Reinecke, Jost:
© Copyright 1994 by Walter de Gruyter & Co., D-10785 Berlin. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Druck: Gerike GmbH, Berlin. - Buchbinderische Verarbeitung: Dieter Mikolai, Berlin. - Printed in Germany
Vorwort Techniken der Panelanalyse gewinnen in der empirischen Sozial- und Wirtschaftsforschung wie auch den Gesundheitswissenschaften und der Psychologie zunehmend an Bedeutung. Empirische Forschung wird immer häufiger im zeitlichen Längsschnitt betrieben. Langst sind longitudinale Forschungsansätze zum Standardrepertoire der empirischen Forschung zu zählen. Dies gilt insbesondere für das Forschungsdesign, das den Gegenstand des vorliegenden Lehrbuches darstellt, das Panel design. Während der zunehmende Forschungseinsatz dieses Designs im angelsächsischen Sprachraum auch eine Vielzahl von begleitender Spezialliteratur zur Methodik der Panelanalyse hervorgebracht hat und im Zuge dieser Entwicklung zudem eine Reihe einführender Lehrbücher entstanden sind, fehlt vor allem für den deutschen Sprachraum ein solches Lehrbuch. Genau diese Lücke will das vorliegende Buch schließen. Als einführendes Werk vermittelt es eine Übersicht über elementare Auswertungstechniken der Panelanalyse. Es führt in die methodischen Grundlagen verschiedener Ansätze ein und zeigt auf, wie entsprechende Analysen unter Rückgriff auf verbreitete Standardprogramme oder allgemein zugängliche und neueste Spezialsoftware durchgeführt werden können. Der Abdruck der Programmdateien und empirischen Daten, die den zahlreichen im Text behandelten Illustrationsbeispielen zugrundeliegen, sind unmittelbar als Beispiele für Lehrveranstaltungen und praktische Übungen verwendbar und sollen im übrigen die selbständige Durchführung von Panelanalysen erleichtern. Ein Verzeichnis der verwendeten Software samt Bezugsadressen ist unten einer entsprechenden Übersicht zu entnehmen. Das vorliegende Lehrbuch ist für Veranstaltungen in Statistik und multivariaten Analyseverfahren konzipiert. Da es elementaren und komplexen Auswertungstechniken gleichermaßen breiten Raum widmet, ist das Lehrbuch sowohl für Kurse geeignet, wie sie die Studienordnungen vielfach für das dritte oder vierte Studiensemester des Grundstudiums vorsehen, als auch für Lehrveranstaltungen in den methodisch bzw. statistisch ausgerichteten Studienschwerpunkten des Hauptstudiums. Zum besseren Verständnis wird die Beschreibung der Auswertungstechniken im folgenden durch eine Vielzahl empirischer Anwendungsbeispiele illustriert. Als empirische Grundlage aller dieser Beispiele dient ein Datensatz, der im Rahmen des Sonderforschungsbereiches 'Prävention und Intervention im Kindes- und Jugendalter' (Teilprojekt Bl) der Universität Bielefeld erhoben wurde. Für die Überlassung dieser Daten, aber auch für Ermutigung und kollegialen Rat, sind wir dem Teilprojektleiter und Sprecher des SFB, Klaus Hurrelmann, sehr dankbar. Sehr hilfreich waren auch die fachlichen Anregungen, die wir von Peter Schmidt (Universität Gießen) zum zweiten
vi
Vorwort
Kapitel und von Thomas Blank (Universität Münster) zum vierten Kapitel dieses Buches erhalten haben. Das vorliegende Lehrbuch wäre in dieser Form ohne die tatkräftige Unterstützung einer Reihe von Personen nicht zustande gekommen. Die Erstellung der Druckfassung weiter Teile des Manuskripts besorgte Brigitte Glienke mit großem Geschick. Ihr und Gaby Krekeler, die uns stets mit Rat und Tat zur Seite stand, sind wir für die Erstellung der Druckfassung dieses Buches sehr dankbar. Auch haben uns liebenswerterweise Marie-Luise Inhester bei der Programmierung einer SAS/IML-Routine, Frank Baumann bei der Erstellung der PC-Versionen zweier LONGIT-Programme von Coleman und Petra Kohlmann bei der redaktionellen Schlußbearbeitung einzelner Kapitel unterstützt. Schließlich möchten wir dem Verlag Walter de Gruyter fc Co, insbesondere Frau Dr. Bianka Ralle, für die Aufnahme dieses Buch in die Lehrbuchreihe des Verlags danken. Duisburg/Amherst, im Januar 1994 Uwe Engel, Jost Reinecke
Inhaltsverzeichnis 1 Einleitung 1.1 Das Paneldesign 1.2 Modelltypen und Analyseansätze 2
Regressions-, Pfad- und Strukturgleichungsmodelle 2.1 Regressions- und Pfadmodelle mit gemessenen Variablen . . 2.1.1 Regressionsmodelle 2.1.1.1 Einfaches konditionales Regressionsmodell 2.1.1.2 Konditionale Regressionsmodelle mit zeitkonstanten und zeitinvarianten Variablen . 2.1.2 Pfadmodelle 2.1.2.1 2-Variablen/2-Wellen(2V2W)-Standarddesign 2.1.2.2 Die Berechnung der Pfadkoeffizienten . . . 2.2 Indikatoren- und Strukturgleichungsmodelle 2.2.1 Ein-Indikatorenmodell 2.2.2 Multiples Indikatorenmodell (Strukturgleichungsmodell) 2.2.3 Strukturgleichungsmodelle mit latenten exogenen Variablen 2.2.3.1 Drei-Wellen-Panelmodell mit zeit varianter exogener Variablen 2.2.3.2 Drei-Wellen-Panelmodell mit zeitinvarianter exogener Variable 2.2.4 Spezielle Anwendungen von Strukturgleichungsmodellen bei Paneldaten 2.2.4.1 Subgruppenanalysen und der multiple Gruppenvergleich 2.2.4.2 Latente Mittelwertstrukturen und latente Wachstumsmodelle 2.2.5 Schätzung von Strukturgleichungsmodellen mit ordinalem Meßniveau
l l 10 15 . 15 15 . 15 . 17 21 21 . 23 31 32 45 62 63 68 73 74 81 94
3 Panelmodelle für qualitative Variablen 105 3.1 Zielsetzungen und Konzepte 105 3.1.1 Ein Orientierungsrahmen 105 3.1.2 Typische Zielsetzungen und Konzepte in Jb.£-Panelanalysen qualitativer Variablen 107 3.2 Modellkonstruktion . 112
viii
Inhaltsverzeichnis 3.2.1
Loglineare, lineare und logistische Modelle als verallgemeinerte lineare Modelle 3.2.2 Spezifikation von Respondenzfunktion und Designmatrix: Lineares, Logit und loglineares Modell . . . 3.3 Komplexe Strukturen 3.3.1 Hierarchische loglineare Modelle 3.3.2 Äquivalenz von loglinearen und Logit Modellen . . . 3.3.3 Loglineare Pfadmodelle 3.3.4 Zeitsequentielle Logit Modelle 3.3.5 Zur besseren Interpretierbarkeit: Exponentielle Form loglinearer und logistischer Modelle 3.4 Zeitdiskrete Modelle 3.4.1 Assoziation und Unabhängigkeit in Mobilitätstabellen: Das loglineare Standarddesign 3.4.2 Unabhängigkeit und Quasi-Unabhängigkeit in TestRetest-Messungen 3.4.3 Symmetrie, Quasi-Symmetrie, Marginale Homogenität 3.4.4 Persistenz, Symmetrie und der Einfluß von Kovariaten 3.4.5 Wachstumskurvenmodelle 3.5 Zeitkontinuierliche Modelle 3.5.1 Der zeitdiskrete und zeitkontinuierliche MarkovProzeß 3.5.2 Rekursive Modelle 3.5.3 Nichtrekursive Modelle 4
Modelle zur Analyse latenter Klassen 4.1 Die latente Klassenanalyse 4.1.1 Das formale Modell der latenten Klassenanalyse . . 4.1.2 Die Schätzung der Parameter 4.2 Die Anwendung der latenten Klassenanalyse auf Paneldaten 4.2.1 Latentes Klassenmodell mit Wahrscheinlichkeitsrestriktionen 4.2.1.1 Restriktionen der unbedingten Wahrscheinlichkeiten im Zwei-Klassenmodell 4.2.1.2 Restriktionen der bedingten Wahrscheinlichkeiten im Zwei-Klassenmodell 4.2.2 Latentes Klassenmodell mit Schwellenwertrestriktionen 4.3 Die Spezifikation von Markov Modellen 4.3.1 Manifestes Markov Modell 4.3.2 Mixed Markov Modelle
112 .116 129 130 . 132 134 137 138 140 140 149 155 163 174 181 182 185 190 199 199 .200 203 . 207 208 208 211 216 225 226 228
Inhaltsverzeichnis
4.3.3 4.3.4
4.3.2.1 4.3.2.2 Latentes Latentes
ix Mover-Stayer Modell Black and White Modell Markov Modell Mixed Markov Modell
5 Das Problem fehlender Werte und die Panelmortalität 5.1 Fehlende Werte in Paneldaten 5.1.1 Arten von fehlenden Werten 5.1.2 Die Ursachen der Panelmortalität 5.2 Analyse von Paneldaten mit fehlenden Werten 5.2.1 Fallweiser und paarweiser Ausschluß fehlender Werte 5.2.2 Maximum-Likelihood(ML)-Schätzungen für kontinuierliche Paneldaten 5.2.2.1 Das Prinzip des nicht-iterativen ML-Schätzverfahrens 5.2.2.2 Berechnung der ML-Schätzer durch nichtiterative Matrizenoperationen 5.2.3 Maximum-Likelihood(ML)-Schätzungen für qualitative Paneldaten 5.2.3.1 ML-Schätzung von partiell klassifizierten Mobilitätstabellen: Der EM-Algorithmus bei ignorierbarer Nichtbeantwortung 5.2.3.2 Loglineare Modelle für partiell klassifizierte Mobilitätstabellen
229 229 230 246 253 253 254 256 260 . 263 266 268 272 285
286 299
Anhang 317 1. Verzeichnis und Bezugsadressen der verwendeten Software . .317 2. Literaturverzeichnis 318
l Einleitung 1.1 Das Paneldesign Obwohl die Analyse von Paneldaten spätestens seit den klassischen Arbeiten von Lazarsfeld in den 40er Jahren dieses Jahrhunderts zum Bild der empirischen Sozialforschung zählt1, hat das wissenschaftliche Interesse in Durchführung und Methodik von Panelstudien in den 70er und vor allem 80er Jahren erheblichen Auftrieb erhalten.2 Techniken der Panelanalyse dienen dem Studium von Stabilität und Veränderung (stability and change). Sie setzen voraus, ein und dieselbe Stichprobe von Untersuchungseinheiten (Respondenten) im Zeitablauf wiederholt befragt zu haben (eine genaue Definition folgt weiter unten). Die Techniken der Panelanalyse sind entsprechend zum Instrumentarium einer Forschung zu zählen, die im zeitlichen Längsschnitt (longitudinal) betrieben wird. Die besondere Bedeutung longitudinaler Forschung ergibt sich aus dem Sachverhalt, daß Stabilität und Veränderung als methodologische Konzepte zum Erkenntnis- bzw. Erklärungsgegenstand verschiedenster wissenschaftlicher Disziplinen zu rechnen sind. Vor allem die Sozial- und Wirtschaftswissenschaften, die Entwicklungspsychologie, die Gesundheitswissenschaften und die Erziehungswissenschaften wären heutzutage ohne Längsschnittbzw. Panelanalysen undenkbar. Der wesentliche Grund liegt in der dynamischen Natur der Phänomene, die es aus Sicht dieser Disziplinen zu erklären gilt. Die moderne Gesellschaft ist so wenig ein statisches Gebilde wie es die Lebensläufe ihrer Mitglieder sind. So wie Gesellschaften sozialem Wandel unterworfen sind, so unterliegen die Biografien der Menschen vielfältigen inneren Veränderungen und Entwicklungen. Denken wir nur an die Veränderungen der (psycho-) sozialen Lage, wie sie etwa im Zuge der Passage vom Kind zum Jugendlichen oder vom Jugendlichen zum Erwachsenen zu verzeichnen sind. Oder denken wir an die inneren wie äußeren Einflüssen gleichermaßen unterworfene kognitive, verhaltensbezogene und emotionale Entwicklung des Menschen, deren vielfältigen Studienaspekten sich z.B. die Entwicklungspsychologie, die Erziehungswissenschaften oder die Gesundheitswissenschaften widmen. Oder denken wir schließlich an Veränderungen, die zwar im Zuge des Alterwerdens auftreten, jedoch weniger mit dem Alter als vielmehr damit zu tun haben, bestimmten Ereignissen und ihren Einflüssen ausgesetzt zu sein: Befürchteter oder realer Verlust des Arbeitsplatzes, Berufswechsel, Trennung bzw. Verlust von wichtigen Bezugsperso1 2
Vgl. z.B. Lazarsfeld et al. (1944); Lazarsfeld (1940; 1948; 1972). Dies zeigte z.B. eine Auswertung der Publikationen im Sociological Abstract für den Berichtszeitraum von 1963 bis 1990 (vgl. Engel 1993a).
2
l Einleitung
nen und damit verbundene Belastungen, etc. So wie die Wandelbarkeit der Verhältnisse eine grundlegende Erfahrung darstellt, so auch die ihrer Kontinuität. Biografische Entwicklungen stellen Prozesse dar, die unter gleichen Voraussetzungen durchaus vergleichbar ablaufen. Im täglichen Leben bringt das Heute nicht nur Neues hervor, sondern stellt vielfach eine Neuauflage dessen dar, was Gestern war und Morgen wieder sein wird. Entwicklungen können sich durchaus gleichförmig vollziehen. Die Gleichzeitigkeit von Kontinuität und Wandel, von Stabilität und Veränderung ist nun nicht auf die Alltagserfahrung oder individuelle biografische Entwicklungen begrenzt. Sie gilt vielmehr auch für die sozialen Systeme, deren Analyse sich vornehmlich die Sozialwissenschaften widmen. Ob es um die Analyse kurzfristigerer sozialer Veränderungsprozesse oder die Analyse des längerfristigen sozialen Wandels von Gesellschaften geht: Vielfach sind es gerade die Veränderungsprozesse unterhalb der Systemebene, welche die Stabilität des Systems oder dessen strukturelle Veränderungen hervorbringen. Ob sich zum Beispiel innerhalb einer Gesellschaft der Prozentsatz von Personen verändert, der für eine bestimmte Sache eintritt (Strukturmerkmal), hängt nicht nur davon ab, wieviele Personen über die Zeit hinweg bei ihrer ursprünglichen Meinung bleiben, sondern auch davon, wieviele ihre Haltung in die eine oder andere Richtung verändern (individuelle Zustandsveränderungen). Möglich ist auch, daß erst die unterhalb der Systemebene ablaufenden Veränderungen die Stabilität des Systems garantieren: Einer alten konfliktsoziologischen Idee zufolge sind es z. B. gerade wechselnde Loyalitäten und Koalitionsbindungen und die dadurch erzeugte Struktur sich überkreuzender Spaltungslinien in der Gesellschaft, welche vor dem alles zerstörenden Makrokonflikt schützen. Und sicherlich gilt auch, daß eine Gesellschaft als Ganzes umso stabiler ist, je mehr individuelle Mobilität sie zuläßt, etc. Was diese Beispiele illustrieren sollen, ist dies: Stabilität und Veränderung können nicht nur auf verschiedenen Ebenen (Aggregationsstufen) angesiedelt sein. Wie sich ein System entwickelt, hängt auch davon ab, welche Entwicklungen innerhalb des Systems in den Biografien der einzelnen Akteure auftreten. Eine Panelanalyse biografischer Entwicklungen kann insofern auch zum Verständnis der Entwicklung desjenigen sozialen Systems beitragen3, in das diese Biografien eingebettet sind4. Panelanalysen stellen daher auch für makrosoziologische Fragestellungen ein nützliches Instrumentarium dar. Das Instrumentarium der Panelanalyse eignet sich daher gut für das, was Coleman (1991:3) als 'innere Analyse von Systemverhalten' bezeichnet. Insbesondere eine längsschnittlich verfahrende empirische Sozialforschung kann zu einer solchen Analyse wichtige empirische Erkenntnisse beitragen. Wie sich individuelle Zustandsveränderungen auf der Ebene des sozialen Aggregats auswirken können, wird unten am Beispiel von Markovprozessen aufgezeigt.
1.1 Das Panel design
3
Längsschnittforschung: Panel- und Trenddesign im Vergleich Baltes und Nesselroade (1979: 4) beziehen sich in einem Übersichtsbeitrag auf Stimmen, denen zufolge es nicht die 'longitudinale Methode' gebe, sondern 'longitudinal' als pauschaler Begriff eher eine Vielzahl von Methoden beschreibe. Demgegenüber sehen sie wenigstens ein Definitionsmerkmal der longitudinalen Methode, und zwar die wiederholte Beobachtung der Untersuchungseinheit, so wie dieses existiert und sich über die Zeit entwickelt. 5 Auch wenn dieses Kriterium nicht ganz unproblematisch ist6, so ist es für das Paneldesign zweifelsohne zutreffend. Dabei kann sich die Analyse, wie Baltes und Nesselroade (1979: 5) zu Recht hervorheben, sowohl auf altersbezogene als auch auf prozeßbezogene Entwicklungskonzeptionen stützen, bei denen das Alterskriterium keine Rolle spielt. Während insbesondere aus entwicklungspsychologischer Sicht die Fallzahlbasis kein Kriterium für die Definition von Längsschnittforschung darstellt und explizit auch N=l Samples einbezogen werden (Hoppe-Graff 1989: 13f.), geht in die Charakterisierung des Paneldesigns üblicherweise die Annahme größerer Samples ein. So besteht eine typische Charakterisierung des Paneldesigns darin, daß es gerade aus einer größeren Zahl von Fällen besteht, für die Informationen zu relativ wenigen Meßzeitpunkten (t > 2) erhoben werden (vgl. z.B. Rogosa 1980: 153f.). Das Paneldesign läßt sich gut im Vergleich zum Trenddesign charakterisieren. Eine Gemeinsamkeit von Panel- und Trend-Design besteht darin, daß sie als Forschungsdesign im Zeitablauf die Realisierung wiederholter Surveys (d.h. auf statistische Repräsentativität angelegter Stichprobenerhebungen) beinhalten. Beide Designs berücksichtigen die Zeitdimension dadurch, daß sie mehr als einen Meßzeitpunkt umfassen. Dabei liegt zugleich ein wesentlicher Unterschied zwischen beiden Ansätzen darin, daß in einer Panelstudie dieselben Untersuchungseinheiten wiederholt befragt werden, wohingegen eine Trendstudie vorliegen würde, wenn aus ein und derselben statistischen Population in bestimmten Zeitabständen wiederholt unabhängige Zufallsauswahlen von Untersuchungseinheiten gezogen werden. Diese Stichproben repräsentieren dann im Prinzip dieselbe Population zu den jeweiligen Zeitpunkten, ohne allerdings die gleichen Untersuchungseinheiten zu beinhalten. Für Panel- wie Trendstudien ist dabei kennzeichnend, daß die untersuchten Auswahlen von Untersuchungseinheiten dieselbe Population repräsentieren. Je größer allerdings der durch die Studie erfaßte Zeitrahmen wird, desto Baltes/Nesselroade (1979: 4): 'The one sine qua non of longitudinal research, is that the entity under investigation ie obterved repeatedly at it exist» and evolve» over time.' Es erscheint nicht unproblematisch, da z.B. das Trenddesign nach diesem Kriterium nicht als Längsschnittdesign gelten könnte. Wir stimmen den Autoren aber insofern zu, daß das verbindende Element von Längsschnittforschung weniger eine spezielle Methode als vielmehr eine grundlegendere methodologische (Design-)Orientierung ist, die über durchaus verschiedene Methoden umgesetzt werden kann.
4
l Einleitung
weniger wahrscheinlich wird aufgrund von Geburten, Todesfällen, (Zu- und Ab-) Wanderungen von einer im Zeitablauf unverändert bleibenden Population auszugehen sein. Dies wird bei Betrachtung großer Zeiträume besonders deutlich: Der Vergleich zweier für die bundesdeutsche Bevölkerung repräsentativer Samples, eines aus dem Jahre 1960 und eines aus dem Jahre 1980 beispielsweise, wird sich nur bedingt auf die gleiche Population beziehen. In 1980 besteht die Population zum Teil aus anderen Personen als 1960, einige Geburtsjahrgänge oder "Generationen" sind neu hinzugekommen, andere nicht mehr präsent. Es kann daher sinnvoll sein, die veränderte Populationszusammensetzung über ein Design explizit zu berücksichtigen, das die vergleichende Längsschnittanalyse solcher zeitspezifischen "Generationen" erlaubt, das Kohortendesign. Abb. 1.1 zeigt die resultierende Grundstruktur sowie die drei Arten von Vergleichen auf, die im Rahmen eines zeitsequentiellen Kohortendesigns angestellt werden können. Zum ersten ist dies der übliche Vergleich im zeitlichen Querschnitt. Zu einem gegebenen Zeitpunkt werden jüngere und ältere Personen in bezug auf ein interessierendes Merkmal verglichen. Zweitens ist dies der Kohortenvergleich. Personen ein und derselben Alterskategorie werden über die verschiedenen Meßzeitpunkte hinweg miteinander verglichen. Ein solcher Vergleich liegt vor, wenn z.B. Personen, die um 1960 Jugendliche waren, mit Personen verglichen werden, die um 1980 Jugendliche waren. Und drittens Vergleiche in diachroner (Lebenslauf-) Perspektive. Dies sind Vergleiche, die innerhalb der jeweiligen Kohorte angesiedelt sind und deren Entwicklung über zwei oder mehr Meßzeitpunkte beschreiben. Je nachdem, ob zu jedem Zeitpunkt ein neues Sample gezogen wird, oder aber das ursprüngliche Sample wiederholt befragt wird, repräsentiert ein Kohortendesign dann entweder eine Serie von Trendstudien oder eine Serie von Panelstudien7. Zeit (Periode)
t (1950) AI (10) K5 Alterskategorien
A2 (20) A3 (30) A4 (40) A5 (so)
K4 K3 K2 Kl
t+1 ('60) K6 K5 K4
K3 K2
t+2 (70) K7 K6 K5 K4 K3
t+3 ('80) K8 K7 K6 K5 K4
t+4 ('90) K9 K8 K7 K6 K5
t+5 (2000) K10 K9 K8 K7 K6
...
In den Zellen: Kohorte i; Alter X Periode: Beispiel in Klammern Abb. 1.1: Grundstruktur und Analyseperspektiven 7
Eine ausgezeichnete Diskussion des Kohortendesigns ist in Hagenaars (1990: Kap. 7) zu finden, an dessen Darstellung wir uns hier auch orientieren.
1.1 Das Paneldesign
5
Dabei können je nach Untersuchungsfragestellung über zeitsequentielle Kohortendesigns größere oder kleinere Zeiträume abgedeckt werden. Auch muß es sich bei diesen Kohorten nicht um Geburiskohorien handeln. Möglich ist auch, Kohorten nach anderen Kriterien zu bilden. Denkbare Kohortenbildungen könnten sich z.B. daran orientieren, ob die Befragten einem bestimmten historischen Ereignis ausgesetzt sind bzw. waren oder nicht oder ob sie verschiedenen Schuljahrgängen angehören, etc. Analysetechnisch führen solche Designs zu multiplen Gruppenvergleichen, wie sie unten an einem Beispiel vorgestellt werden. Vor dem Hintergrund des Alter Zeit-Schemas in Abb. 1.1 wird auch 8 erkennbar, warum es unter anderem sinnvoll ist, überhaupt über Längsschnittinformationen zu verfügen. Was den Entwicklungsaspekt anbelangt, verweist es nämlich u.a. auf die Möglichkeit von zwei Variationsquellen: Veränderung über die Zeit und Veränderung im Lebenslauf. Dabei läßt sich leicht9 zeigen, daß zwei diesbezüglich völlig konträre Entwicklungsmuster, und zwar (a) Entwicklung nur über die Zeit bzw. (b) Entwicklung nur im Lebenslauf dieselbe im Querschnitt abbildbare Altersverteilung produzieren können. Sofern dann nur Daten im zeitlichen Querschnitt vorliegen, ist eine zentrale Frage unbeantwortbar: Sind diese im zeitlichen Querschnitt als Altersunterschiede bebachteten Veränderungen Ausdruck von Veränderungen über die Zeit oder von Veränderungen über den Lebenslauf hinweg? Inwieweit verweisen also die Altersunterschiede auf Generationenunterschiede oder darauf, daß sich junge Leute von älteren unterscheiden, und zwar unabhängig davon, zu welcher Kohorte sie gehören. Longitudinale Kausalanalyse Offenbar sind also Fälle denkbar, in denen Querschnittsinformationen nicht ausreichend sind. Wenn aber Längsschnittinformationen erforderlich sind, stellt sich die Frage, ob Trend- oder Paneldaten erhoben werden sollten. Wird zur Beantwortung dieser Frage als Maßstab die Erklärbarkeit von Stabilität und Veränderung herangezogen, so ist zur Beurteilung der relativen Erkenntnisleistung von Panel- und TrendDesign ein schon eingangs erwähnter Sachverhalt von besonderer Bedeutung: Stabilität und Veränderung können nicht nur auf verschiedenen Ebe8 9
Vgl. auch unsere Ausführungen in Kap. 3.5. Aus Platzgründen verzichten wir auf eine eigene Abbildung. Der interessierte Leser kann sich selbst davon überzeugen, wenn er oder sie in Abb. 1.1 die Kohortenbezeichnungen Kl, K2, .., KlO durch hypothetische Prozentwerte für ein interessierendes Merkmal ersetzt: Für den hypothetischen Fall, daß Veränderung nur zwischen Kohorten vorliegt, könnten folgende Werte genommen werden (20% für alle K5, 30% für alle K6, 40% für alle K7 und 50% für alle K8). Für den entgegengesetzten Fall, daß Veränderung nur im Lebenslauf auftritt, könnten folgende, für die Kohorten jeweils gleichen hypothetischen Werte eingesetzt werden: 50% für Alterskategorie AI, 40% für A2, 30% für A3 und 20% für A4. Dies würde im Querschnitt für den Zeitpunkt i + 3 die gleiche Merkmalsverteilung implizieren (vertikaler Vergleich).
6
l Einleitung
nen auftreten, Aggregatstabilität ist auch und gerade Ausdruck des Zusammenwirkens individueller Veränderungen. Ob sich zum Beispiel über die Zeit hinweg der Prozentsatz der Anhänger einer politischen Partei ändert, ist sowohl davon abhängig, wieviele Akteure sich von der betreffenden Partei abwenden, als auch davon, wieviele sich ihr zuwenden. Ob die berufliche Mobilität individueller Akteure die Struktur des Systems verändert, - so wie sich diese über die Verteilung der Individuen über die Berufskategorien feststellen läßt, hängt davon ab, ob bzw. wie sehr sich gegenläufige Mobilitätsformen die Waage halten. Nicht selten ist ein hohes Maß an Zustandsänderungen auf individueller Ebene mit nur geringen Veränderungen im sozialen Aggregat, also einer hohen Aggregatstabilität, verbunden. Bezeichnen wir das Ausmaß an individueller Veränderung im System als Bruttoveränderung und dasjenige auf der Aggregatebene als Nettoveränderung, so ist ein Vorzug von Panel- gegenüber Trendstudien darin zu sehen, daß sie beide Formen der Veränderung im Zusammenhang analysieren können, während Trendstudien nur die Msttoveränderung ermitteln können10. So könnte als Ergebnis einer Trendstudie zwar herauskommen, daß sich über die Zeit bestimmte Marginal Verteilungen bzw. Prozentsätze verändern, nicht aber, welche individuellen Veränderungen diese Makroveränderung hervorbringen. Damit müssen dann auch die Fragen nach den Ursachen dieser individuellen Veränderungen und folglich nach denjenigen der beobachteten Makroveränderungen im Dunkeln bleiben11. Betrachten wir dazu ein einfaches Beispiel12. Test-Retest-Designs stellen Designs dar, in denen Vorher-Nachher-Messungen vorgenommen werden. Beispielsweise könnte es um politische Präferenzen vor und nach einer Kampagne gehen. In einem Trend-Design würde vor der Kampagne eine Zufallsauswahl von Personen gezogen und nach der Kampagne ebenfalls eine Zufallsauswahl. Entscheidend ist jetzt, daß von einer Stichprobe nur die VbrAer-Messungen und von einer Stichprobe nur die ATacAAer-Messungen vorliegen. Dazwischen liegt das externe Ereignis. Auf die Wirksamkeit der Kampagne hätten wir somit über den Vergleich der Randverteilungen zum ersten und zweiten Zeitpunkt zu schließen. Wenn sich dabei zeigt, daß sich die Prozentsätze der Anhänger der politischen 10
11
12
Vgl. z.B. Caplovitz (1983: 338). Da sich demgegenüber das Problem der Wiedererreichbarkeit der Respondenten in Trendstudien nicht stellt, werden Trendstudien vergleichsweise leichter als Panelstudien zu realisieren sein, je weiter die einzelnen Meßzeitpunkte auseinanderliegen bzw. je mehr solcher Zeitpunkte zu realisieren sind. Zudem können im Trenddesign Zufallsauswahlen kumuliert werden, was sehr komfortable Fallzahlbasen liefern kann. Für Panel- und gegen Trendstudien spricht auch die größere Effizienz statistischer Tests in Panelstudien, da es sich bei diesen um abhängige und bei Trendstudien um unabhängige Stichproben handelt (vgl. Agresti 1990: 348f.; Hagenaars 1990: 205f.). Vgl. Hagenaars (1990: 203ff.)
1.1 Das Paneldesign
7
Parteien verschoben haben, stellt sich natürlich die Frage, ob dies jetzt Ausdruck der Wirksamkeit der politischen Kampagne ist oder nicht. Die gleiche Frage stellt sich bei Panelstudien dann, wenn das externe Ereignis bzw. die vermutete Ursache nicht direkt erfaßt wurde: An einem Sample werden wiederholte Messungen in interessierenden Merkmalen vorgenommen und über deren Vergleich wird versucht, auf den Einfluß externer Ereignisse zu schließen, die sich zwischen diesen wiederholten Messungen ereigneten. Beispielsweise könnte das Ziel einer Studie wieder darin bestehen, über den Vergleich der Wahlabsichten vor und nach einer Kampagne auf die Wirksamkeit dieser Kampagne zu schließen. In beiden Vorgangsweisen stellt sich das Problem konfundierender Effekte: Werden Unterschiede in den Vorher-Nachher-Messungen festgestellt, taucht die Frage auf, ob diese in der Tat auf das in Betracht gezogene externe Ereignis zurückzuführen sind oder etwaigen alternativen Einflüssen zugeschrieben werden müssen. Um diesem Problem zu begegnen, könnte eine Panelstudie zugleich Informationen über den Grad ermitteln, in dem die Respondenten dem externen Ereignis ausgesetzt sind bzw. waren. Im vorliegenden Beispiel könnten dies Informationen darüber sein, ob und wie sehr die Respondenten von der politischen Kampagne Notiz genommen haben. Dadurch würde es möglich, das Ausmaß an Stabilität bzw. Veränderung in den Vorher-Nachher-Messungen der Wahlabsichten als explizite Funktion dieses Aufmerksamkeitsgrades zu analysieren. Beide Design Varianten, das aus einer Gruppe bestehende VorherNachher-Design, wie auch das aus zwei oder mehreren Gruppen gebildete Kontrollgruppen-Design sind darauf ausgelegt, den Effekt einer zeitkonstanten Ursache auf eine zeitvariable und insofern zwei- oder mehrmalig gemessenen abhängigen Größe abzuschätzen. Eine zusätzliche Komplizierung kann jetzt z.B. dadurch entstehen, daß die Ursache selbst eine zeitvariable Größe darstellt. Wie solche Fälle mit zeitkonstanten oder zeitvariablen Ursachen über entsprechende Pfad- bzw. Strukturgleichungsmodelle für Paneldaten aufgesetzt13 und geschätzt werden können, wird in nachfolgenden Kapiteln dieser Arbeit eingehend behandelt (vgl. z.B. Kap. 2). Diese Modelle eignen sich insbesondere für Ursache-Wirkungs-Analysen. 13
Regressions- und Pfadmodelle spielen u.a. aus dem Grunde eine zentrale Rolle, daß korrespondierende korrelative Techniken keine sicheren Rückschlüsse darauf zulassen, wie stark und in welcher Weise eine Variable kausal auf eine andere einwirkt. Im Rahmen der Panelanalyse ist dies als Frage danach diskutiert worden, ob sich die Analyse auf kreuz verzögerte Pfadkoeffizienten (das sind z.B. die in Abb. 2.3 diagonal verlaufenden Kausalpfade) oder kreuzverzögerte Korrelationen stützen sollten. Wie z.B. Rogosa (1979: 277-280) im einzelnen gezeigt hat, sind die kreuzverzögerten Korrelationen für eine entsprechende Kausalanalyse nicht heranziehbar, da bei dieser Technik die weniger stabile Variable bzw. diejenige mit dem größten Produkt ihrer - und t2-Standardabweichungen begünstigt werde. Dies kann zu völlig irreführenden Konklusionen führen.
8
l Einleitung
Kausalanalysen durchzuführen, setzt nämlich voraus, erkennen zu können, welche Variablen als Ursachen und welche als Wirkungen dieser Ursachen anzusehen sind. Der üblichen methodologischen Vorstellung folgend, daß eine Wirkung nicht vor ihrer Ursache eintreten kann14, ist die zwischen den Variablen bestehende Zeitordnung von Bedeutung. Über die im Zeitablauf wiederholten und insofern auch eindeutig auf der Zeitachse lokalisierbaren Messungen der Variablen läßt sich diese Zeitordnung ermitteln. Dies erleichtert nicht nur die Unterscheidbarkeit von Ursache und Wirkung, sondern auch die Schätzung von Modellen, in denen Rückwirkungen vorkommen. Dadurch wird es auch möglich zu prüfen, ob in einem (Variablen-) System positive oder negative Rückkopplungsprozesse auftreten, - eine besonders für Systemanalysen wichtige Frage. Diachrone Prozesse und strukturelle Entwicklungen Die Analyse von Prozessen und strukturellen Entwicklungen stellt neben oder als Teil von Kausalanalysen eine weitere Zielsetzung von Panelanalysen dar. Über die dazu eingesetzten Analysekonzepte (Marginale Homogenität, (Quasi-)Symmetrie, (Quasi-)Unabhängigkeit, Persistenz, Wachstum) informieren wir im weiteren Verlauf dieser Arbeit (vgl. z.B. Kap. 3.1). Beispielsweise können aus einer Wachstumskurvenanalyse Rückschlüsse auf die Wirksamkeit von Kausalfaktoren gezogen werden, wenn sich die Entwicklung in einem wiederholt gemessenen Merkmal differentiell gestaltet, d.h. je nach Voraussetzung unterschiedlich verläuft. Die Analyse differentieller Entwicklungen kann unterschiedlichen Zielsetzungen folgen. Eine besteht z.B. darin festzustellen, unter welchen Voraussetzungen sich bestimmte Wirkungen als besonders nachhaltig erweisen. Die Analyse zeitlicher Effektstrukturen stellt dabei in Rechnung, daß sich die Wirkungen etwaiger Kausalfaktoren nicht nur mit unterschiedlicher zeitlicher Verzögerung einstellen, sondern auch, daß sie unterschiedlich lange nachwirken können. Grenzen des Paneldesigns In den Optionen, die das Paneldesign zur Kausalanalyse bietet, liegt sicher eine entscheidende Stärke dieses Ansatzes. Diese Optionen dürfen aber den Blick für die Grenzen dieses Ansatzes nicht verstellen. Wie eng diese zu ziehen sind, hängt davon ab, wie einige Komplikationen gelöst werden, zu denen an vorrangiger Stelle zwei methodologische Probleme zählen: • Die Unterscheidbarkeit von echter Veränderung und unreliablem Antwortverhalten, sowie • das Problem der Panelmortalität 14
Vgl. z.B. Heise (1970; 1975); Stolzenberg (1979), Davis (1985).
1.1 Das Paneldesign
9
Betrachten wir zunächst die erste Komplikation: Der Aufweis diachroner Entwicklungen setzt strenggenommen nicht nur voraus, bei jedem Respondenten wiederholte Messungen vorgenommen zu haben, sondern darüberhinaus auch, über den Vergleich dieser Wiederholungsmessungen verläßlich auf Konstanz bzw. Veränderung in den individuellen Werten schließen zu können. Dies wäre unproblematisch, wenn davon ausgegangen werden könnte, daß die einzelnen Messungen fehlerfrei erfolgt sind: Gleiche Antworten auf eine wiederholt gestellte Fragen spiegelten dann nämlich unmittelbar Konstanz und ungleiche Antworten Veränderung in der durch die Frage erfaßten Dimension wider. Vom Ideal einer fehlerfreien Messung wird im allgemeinen jedoch nicht auszugehen sein. Vielmehr sind stets unzuverlässiges (d.h. unreliables) Antwortverhalten und mithin die Möglichkeit in Betracht zu ziehen, daß von der Gleichheit bzw. Verschiedenheit von Test-Re test-Messungen nicht notwendigerweise auf zeitliche Konstanz bzw. Veränderung in der durch diese Indikatoren erfaßten theoretischen Dimension geschlossen werden kann. Vorstellbar ist durchaus eine Situation, daß sich für eine Person realiter nichts verändert hat, obwohl wiederholte Messungen unterschiedlich ausfallen (und umgekehrt). Die Lösung dieses Problems wird in der Einführung sogenannter latenter, meßfehlerbereinigter Konzepte gesehen. Das Modell, das die Forschungsannahmen abbildet, besteht dann aus zwei Basiskomponenten: (i) Einem Strukturmodell, das die vermuteten Beziehungen zwischen den latenten Konzepten formalisiert und (ii) einem Meßmodell, das die Beziehungen zwischen den latenten Konzepten und ihren Indikatoren auf der Beobachtungsebene festlegt. Bezeichnen wir mit A, B und C die wiederholten (ii,'3) Messungen eines Merkmals, so wären zum Beispiel drei Möglichkeiten denkbar: (A) Keine Veränderung: Obwohl die drei Messungen A, B und C ggf. unterschiedliche Werte aufweisen, liegt 'in Wirklichkeit' keine Veränderung vor. Dies ergibt eine Struktur, in der A, B und C als die drei Indikatoren einer einzigen latenten Variable erscheinen. Die Unterschiedlichkeit in den beobachteten Variablen wäre Ausdruck unreliablen Antwortverhaltens. (B) 'Sokratische Veränderung': So wie Sokrates die Bürger von Athen ihrer Ansichten bewußt werden ließ, indem er diese Ansichten in Frage stellte, so tragen auch Fragebögen dazu bei, den Respondenten ihre Meinungen und Werthaltungen ins Bewußtsein zu rücken. Unter der Annahme, daß Veränderung weniger dann zu erwarten ist, wenn Meinungen und Attitüden bewußt geformt wurden, wird latente Veränderung am ehesten zwischen dem ersten und zweiten Meßzeitpunkt und nicht zwischen späteren Wellen eintreten ('Sokratischer Effekt'; Jagodzinski/Kühnel/Schmidt 1987; Hagenaars 1990). Dies ergibt eine Struktur, in der die Indikatoren A, B und C
10
l Einleitung
nicht mehr nur für eine, sondern zwei latente Variablen stehen: Von denen repräsentiert dann eine den 'wahren Zustand' zum ersten Zeitpunkt und eine den wahren, über den zweiten und dritten Zeitpunkt stabilen, zweiten Zustand. (C) Markov-Struktur. Dieser Struktur folgen Prozesse Ohne Gedächtnis'. Dies sind Prozesse, in denen die aktuellen Zustandswahrscheinlichkeiten nur von denen zum unmittelbar vorgelagerten Zeitpunkt und den jeweiligen Übergangswahrscheinlichkeiten abhängen, nicht aber von dessen vorgelagerten Zeitpunkten. Zu jedem der drei Indikatoren A, B und C liegt entsprechend eine latente Variable vor (vgl. unten z.B. Kap. 4). Die Werte latenter Variablen fehlen definitionsgemäß für alle Einheiten des Samples (es wären sonst nicht latente, sondern beobachtete Größen). Mithin sind wir hier auch mit einer Variante des Problems fehlender Werte in Surveystudien konfrontiert. Dieses Problem stellt sich in Panelstudien aber noch in einer zweiten Variante, und zwar als Problem des sukzessiven Ausfalls von Respondenten, d.h. als Problem von Panelmortalität. Diese Panel-Sterblichkeit impliziert ein monotones Ausfallmuster: Von Meßzeitpunkt zu Meßzeitpunkt erhöht sich die Zahl von Untersuchungseinheiten, die zwar zum Zeitpunkt t, nicht aber zum Zeitpunkt t + l, also zu jeweils nachgelagerten Panelwellen erreicht werden können. Diese Ausfälle werden die im Panel gewonnenen Ergebnisse in dem Maße verzerren, in dem diese Ausfälle nicht zufällig zustande kommen, sondern selbst eine Funktion der Werte derjenigen Variablen sind, in denen sie auftreten. Nicht-zufällig wären zum Beispiel fehlende Einkommensangaben dann, wenn mit größerer Wahrscheinlichkeit sehr hohe oder sehr niedrige Einkommen verschwiegen werden. Um diesem Problem in Panelmodellen zu begegnen, stehen inzwischen geeignete Verfahren zur Verfügung, zum Beispiel die Schätzung ausfallbereinigter Kovarianzmatrizen im Falle kontinuierlicher Merkmale oder die Schätzung komplettierter Häufigkeiten in Mobilitätstabellen, wenn qualitative Paneldaten zu verarbeiten sind (vgl. Kap. 5).
1.2 Modelltypen und Analyseansätze Die Anwendung von Modellen zur Analyse von Paneldaten ist eng mit dem Ziel verbunden, Stabilität und Veränderung von theoretischen Konstrukten und ihren Indikatoren zu untersuchen. Dazu ist zu klären, welcher Modelltyp angemessen ist, eine gegebene Problemstellung adäquat zu erfassen. Zunächst sollte zwischen qualitativer und quantitativer Veränderung differenziert werden. Sind die Variablen nominal- oder ordinalskaliert mit wenigen Kategorien (diskrete Variablen), dann ist qualitative Veränderung zu analysieren, während bei Intervall- und ratioskalierten (kontinuierlichen) Variablen die Analyse quantitativer Veränderung naheliegt. Gleiches gilt für ordinalskalierte Variable mit vielen Kategorien.
1.2 Modelltypen und Analyseansätze
11
In Tabelle 1.1 werden die in den folgenden Kapiteln diskutierten Modelltypen der Panelanalyse aufgeführt und der besseren Übersichtlichkeit halber nach dem Meßniveau der verwendeten Variablen (diskret/kontinuierlich) unterschieden. Jede Längsschnittuntersuchung enthält 'Zeit' als implizite Variable. In die meisten Modelle zur Analyse von Paneldaten geht sie in Gestalt der Meßzeitpunkte als diskrete Größe ein. In solchen zeit diskreten Modellen stützt sich die Analyse von Stabilität und Veränderung auf die Meßwerte dieser Zeitpunkte, ohne dafür konzipiert zu sein, die zwischen diesen Zeitpunkten gegebene Dynamik des Prozesses abzubilden, der genau in diesen Meßwerten seinen Niederschlag gefunden hat. Auf die Analyse dieser Dynamik zielen vielmehr zeitkontinuierliche Modelle ab. In Modelle dieser Art geht die Zeit als kontinuierliche Größe ein. Sie sind in ihrer Spezifikation und den Verfahren der Parameterschätzung ungleich aufwendiger, so daß wir im vorliegenden Rahmen bewußt nur auf einen dieser Ansätze etwas näher eingehen wollen (vgl. Kap. 3.5) und ansonsten auf die einschlägige Literatur verweisen müssen (Singer 1992).
Tab. 1.1: Übersicht der Modelle nach der Skalierung der Variablen
Modelle für diskrete Variablen Modelle mit manifesten Variablen Modelle mit latenten Variablen Stochastische Prozeßmodelle Latente Klassenmodelle (LCA) mit diskreten Zustandsräumen (latentes Klassenmodell mit (Markov Modell, ordinalen Restriktionen, latentes Markov Modell, Mover-Stayer Modell, latentes Mixed Markov Modell) Wiggins Modell, Coleman Modell) Log-lineare Modelle mit latenten Variablen Logit-Modelle Strukturgleichungsmodelle für Log-lineare Modelle ordinale Variablen Modelle für kontinuierliche Variablen Modelle mit manifesten Variablen Modelle mit latenten Variablen Ein-Indikatorenmodelle Regressionsmodelle Pfadmodelle Strukturgleichungsmodelle (Zwei- Variablen-Zwei- Wellen (Modelle mit zeitvarianten (2V2W)-Standarddesign, und/oder zeitinvarianten Zwei- Variablen-Drei- Wellen exogenen Variablen, (2V3W)-Standarddesign) multiple Gruppenvergleiche latente Mittelwertsmodelle latente Wachstumsmodelle)
12
l Einleitung
In Tabelle 1.1 werden die Modelle zugleich nach der Verwendung manifester und latenter Variablen unterschieden. In 'Modellen mit manifesten Variablen' werden ausschließlich gemessene (beobachtete) Variablen analysiert. Theoretische Konstrukte liegen diesen Variablen zugrunde, sind aber nicht Gegenstand der Modellbildung. Demgegenüber führen 'Modelle mit latenten Variablen' zusätzlich diese theoretische Konstrukte in die Modellbildung ein. Diese repräsentieren die Konzepte (theoretischen Begriffe) der wissenschaftlichen Theorie, die der Analyse zugrundeliegt. Neben der Spezifikation der zwischen diesen Konzepten (latenten Variablen) bestehenden Beziehungen umfaßt die Modellbildung darüberhinaus die Aufgabe, die zwischen den manifesten Variablen auf der einen Seite und den latenten Variablen auf der anderen Seite bestehenden Beziehungen über ein Meßmodell zu spezifizieren. Kapitel 2 beginnt mit der Erörterung von Regressionsmodellen. Es werden einfache und komplexere Modelle mit zeitkonstanten und zeitvarianten, zu zwei Zeitpunkten gemessenen Variablen vorgestellt. Die Erweiterung von Regressionsmodellen um mehr als eine abhängige Variable führt zur Spezifikation von Pfadmodellen. Das einfachste Design ist das Zwei-Variablen-Zwei-Wellen(2V2W)-Panelmodell, das sowohl kausale Effekte zwischen gleichen Variablen als auch zwischen verschiedenen Variablen über die Zeit ermittelt. Die Erweiterung dieses Modells um einen weiteren Zeitpunkt ermöglicht die Prüfung der Konsistenz dieser kausalen Effekte (Zwei-Variablen-Drei-Wellen(2V3W)-Panelmodell). Die Berücksichtigung von Meßfehlern in Kausalmodellen erfordert die Formulierung einer Meßtheorie, d.h. die Formulierung von kausalen Beziehungen zwischen latenten und manifesten Variablen. Wird zwischen einer manifesten Variablen (Indikator) und einer latenten Variablen genau eine kausale Beziehung formuliert, führt dies zu Ein-Indikatorenmodellen. Werden mehrere manifesten Variablen zur Messung einer latenten Variablen spezifiziert, handelt es sich um multiple Indikatorenmodelle bzw. Strukturgleichungsmodelle mit latenten Variablen. Strukturgleichungsmodelle mit zeitinvarianten und/oder zeitvarianten Variablen werden exemplarisch dargestellt. Zu den speziellen Anwendungen von Strukturgleichungsmodellen zählen multiple Gruppenvergleiche, latente Mittelwertsvergleiche und Modelle mit latenten Wachstumskurven. Der letzte Abschnitt des Kapitels 2 diskutiert Strukturgleichungsmodelle für ordinale Variablen. Gegenstand des Kapitels 3 sind zeitdiskrete und -kontinuierliche Modelle zur Analyse von Stabilität, Veränderung und Wachstum in qualitativen (diskreten) Variablen. Im Mittelpunkt der Erörterungen stehen lineare, loglineare und logistische Modelle als Varianten verallgemeinerter linearer Modelle. Zur Systematisierung der solchen Panelmodellen zugrundeliegenden Zielsetzungen wird auf eine spezielle Typologie zurückgegriffen. Im weiteren Verlauf des Kapitels wird verdeutlicht, in welcher Weise wich-
1.2 Modelltypen und Analyseansätze
13
tige Modellkomponenten (z.B. die Designmatrix) in einer Analyse wiederholt gemessener qualitativer Variablen zu spezifizieren sind. Anschließend werden - analog zu den in Kapitel 2 diskutierten Strukturgleichungsmodellen - Kausalstrukturen über loglineare Pfadmodelle vorgestellt und gezeigt, wie Symmetrie-, Persistenz- und Wachstumskurvenmodelle geschätzt werden können. Kapitel 4 beinhaltet verschiedene Varianten der latenten Klassenanalyse. Zunächst wird in das Konzept der latenten Klassenanalyse und das zugrundeliegende Schätzverfahren eingeführt. Für die Anwendung der latenten Klassenanalyse auf Paneldaten werden zwei Varianten erörtert: Zum einen der klassische Ansatz mit der Möglichkeit, unbedingte Wahrscheinlichkeiten (d.h. die die jeweilige Klassengröße kennzeichnende Wahrscheinlichkeit) und bedingte Wahrscheinlichkeiten (d.h. die konditionalen Antwortwahrscheinlichkeiten) über die Meßzeitpunkte zu restringieren. Zum anderen wird ein modifizierter Ansatz vorgestellt, der unterschiedliche Skalierungsmodelle mit dem Konzept der latenten Klassenanalyse kombiniert und die Möglichkeit beinhaltet, Schwellenwerte der gemessenen Variablen über die Zeit zu restringieren. Ähnlich zu den weiter oben erwähnten Strukturgleichungsmodellen können latente Klassenmodelle zeitvariante latente Variablen enthalten, denen mehrfach gemessene manifeste Variablen zugeordnet sind. Die so spezifizierten latenten Markov Modelle führen das in Kapitel 2 diskutierte Meßfehlerkonzept in die latente Klassenanalyse ein. Zwischen den latenten Variablen werden die Beziehungen in Form von Übergangswahrscheinlichkeiten ausgedrückt. Die allgemeinste Form dieser latenten Klassenmodelle ist das latente Mixed Markov Modell, das sowohl beobachtete Populationsheterogenität über multiple Gruppenvergleiche als auch unbeobachtete Heterogenität über die Spezifikation verschiedener Markov Ketten modellieren kann.
2 Regressions-, Pfad- und S t rukt urgleichungsmo delle 2.1 Regressions- und Pfadmodelle mit gemessenen Variablen Einfache Regressionsmodelle für Paneldaten formalisieren eine lineare Beziehung zwischen zwei (inhaltlich gleichen) Variablen zu verschiedenen Meßzeitpunkten. Die Kontrolle dieser Beziehung unter der Bedingung einer dritten Variable führt zunächst zu einem einfachen konditionalen Regressionsmodell. Dieses Modell wird in Kapitel 2.1.1 mit anschließendem Beispiel erörtert. Danach wird das einfache konditionale Regressionsmodell um zusätzliche (zeitkonstante und zeitinvariante) Variablen erweitert. Die Bildung von Differenzenvariablen und die Zerlegung der einzelnen Effekte wird im weiteren Verlauf des Kapitels 2.1.1 wiederum mit anschließendem Beispiel erörtert. Daran schließt sich die Erläuterung von Pfadmodellen mit manifesten Variablen an, die im einfachsten Fall zwei Variablen, gemessen zu zwei Zeitpunkten, enthalten (S-Variablen-2-Wellen(2V2W)-Standarddesign ). Neben der Berechnung der Pfadkoeffizienten werden Beispiele, die kreuzverzögerte Effekte (cross-lagged effects) und korrelierende Residuen beinhalten, diskutiert (vgl. Kap. 2.1.2). 2.1.1 Regr essionsmo delle 2.1.1.1 Einfaches konditionales Regressionsmodell Im einfachsten Fall kann die Beziehung zwischen einer Variablen zum ersten Meßzeitpunkt und einer Variablen y zum zweiten Meßzeitpunkt durch folgendes Regressionsmodell ausgedrückt werden (Markus 1979: 46; Plewis 1985: 32): y = a + ßox0 + t
(2.1)
wobei a der Schnittpunkt mit der y-Achse, ßo der Regressionskoeffizient und f der Fehlerterm ist. ßo kann als Parameter betrachtet werden, der sowohl den Wechsel von XQ nach y anzeigt, als auch die kausale Wirkung von IQ nach y: Wenn XQ sich um eine Einheit ändert, ändert y sich um ßo-Einheiten. Wenn das Regressionsmodell um eine zusätzliche erklärende Variable x\ erweitert wird und wenn XQ und x\ nicht miteinander korrelieren, dann sind die Regressionskoeffizienten ßo in den Gl. (2.1) und (2.2) gleich (Markus 1979: 47; Plewis 1985: 32; Allison 1990: 100): y = a + ßoxo + ßixi + e
(2.2)
In nicht-experimentellen Designs (siehe das Beispiel weiter unten) sind XQ und z i miteinander korreliert, so daß umstritten ist, ob ßo und ß\ kausal zu
16
2 Regressions-, Pfad- und Strukturgleichungsmodelle
interpretieren sind.1 Der Kleinst-Quadrate-Schätzer (ordinary least squares, abgekürzt ÖLS) für ßo ergibt sich aus:
Ä = (ya-yi)-Ä(*2-*i)
(2.3)
wobei ßi der Kleinst-Quadrate-Schätzer für ß\ ist, yi, jfc die jeweiligen Mittelwerte der Variablen y zum ersten und zweiten Meßzeitpunkt und , ^ die jeweiligen Mittelwerte der Variablen zum ersten und zweiten Meßzeitpunkt sind. Wenn XQ eine Dummy-Variable ist, deren Werte mit zwei Gruppen korrespondieren, kann ßo als beschreibendes Maß für einen relativen Wechsel zwischen den beiden Gruppen angesehen werden. Für Gl. (2.2) wird dann angenommen, daß die Beziehung zwischen und y für beide Gruppen gleich ist. Diese Annahme kann fallengelassen werden, wenn die Interaktion zwischen der Dummy-Variablen XQ und der erklärenden Variablen x\ mit in Gl. (2.2) aufgenommen wird (Plewis 1985: 45): y = a + ßox0 + ßixi + ß2x0xi + e (2.4) Der Term XQX\ repräsentiert die Interaktion, so daß für die erste Gruppe (XQ = 1) ßi der entsprechende Regressionskoeffizient ist und für die zweite Gruppe (XQ = 2) ß\ + ß^. Ist ßi = 0, sind die Regressionsgeraden für beide Gruppen parallel. Ist dagegen ßz 0, dann variiert die Differenz der Regressionsgeraden bezüglich der Werte in x\. Zusammengefaßt bedeutet dies, daß mit Gl. (2.2) sowohl der Gruppeneffekt (ßo) als auch der Effekt der Stabilität bzw. Veränderung (ß\) zwischen den Variablen x\ und y über die Zeit ermittelt werden kann. Unverzerrte OLS-Schätzungen der Koeffizienten gemäß Gl. (2.4) erhält man unter der Voraussetzung, daß weder XQ noch x\ mit e korrelieren (vgl. Allison 1990: 101). In experimentellen Versuchsanordnungen mit klarer Trennung zwischen Experiment- und Kontrollgruppe ist die o. a. Annahme der Unkorreliertheit zwischen XQ und x\ gerechtfertigt. In nicht-experimentellen Versuchsanordnungen (wie z. B. in Bevölkerungsumfragen) werden beide Variablen korrelieren, so daß eine kausale Interpretation von ß\ auch in der um den Interaktionsterm erweiterten Gl. (2.4) umstritten ist (vgl. Plewis 1985: 33). Beispiel für ein einfaches konditionales Regressionsmodell Im folgenden soll ein Beispiel die Handhabung und Interpretation eines einfachen konditionalen Regressionsmodells (Gl. (2.2)) verdeutlichen. Für dieses Modell Kerlinger/Pedhazur (1973: 307) diskutieren die Frage der Kausalität in nichtexperimentellen Designs im Zusammenhang mit den inhaltlichen Fragen des Forschers: "Covariations and correlations among variables may be suggestive of causal linkages. Nevertheless, an explanatory scheme is not arrived at on the basis of knowledge, theoretical foundations and assumptions, and logical analysis." Die Gegenargumentation, d. h. von Kausalität nur in kontrollierbaren, experimentellen Designs zu sprechen, führt z. B. Plewis (1985: 82f.).
2.1 Regressions- und Pfadmodelle mit gemessenen Variablen
17
wird aus einer 20 Item umfassenden Batterie, die die Häufigkeit des Auftretens von Streßsymptomen mißt, das Item mit der Bezeichnung "Nervosität, Unruhe" (V343,R343) ausgewählt.2 Nach der Berechnung können folgende Werte in Gl. (2.1) eingesetzt werden:3 y = 1.089 + .511x+. 745 (2.5) Wenn die Variable V343 (x) sich also um eine Einheit ändert, dann ändert sich Variable R343 (y) um .511 Einheiten. Für Gl. (2.2) spezifizieren wir "Geschlecht" (VI) als Dummy-Variable.4 Nach der Berechnung können folgende Werte in Gl. (2.2) eingesetzt werden: y = .760 + .247xo + -493xi -l- .729 (2.6) Aus Gl. (2.6) ist ersichtlich, daß VI (XQ) einen bedeutsamen Einfluß auf R343 (y) hat. Der erste Regressionskoeffizient (.247) zeigt die konstante Differenz in y bei gegebenen Werten von x an. Für Mädchen werden damit über die Meßzeitpunkte konstant häufiger Streßsymptome bezüglich Nervosität und Unruhe festgestellt als für Jungen. Der zweite Regressionskoeffizient (.493) hat sich gegenüber dem Koeffizienten aus Gl. (2.5) (.511) nur geringfügig verringert. Wenn keine relevanten Variablen, die mit VI (XQ) und V343 (xi) korrelieren, im Modell ausgeschlossen werden, ändert sich in der Interpretation des zweiten Regressionskoeffizienten im Vergleich zu Gl. (2.5) nichts (vgl. Plewis 1985: 34). 2.1.1.2
Konditionale Regressionsmodelle mit zeitkonstanten und zeitinvarianten Variablen
Ausgangspunkt für die Berechnung eines konditionalen Regressionsmodells mit zeitkonstanten und zeitinvarianten Variablen ist folgende Regressionsgleichung für den ersten Meßzeitpunkt (Plewis 1985: 57):
k wobei zjc konstante zeitinvariante Hintergrundvariablen und * die jeweils zugehörigen Regressionskoeffizienten sind, z* sind Variablen, bei denen sich weder die Werte noch die kausalen Effekte über die Zeit ändern. Für den zweiten Meßzeitpunkt gilt folgendes Regressionsmodell (Plewis 1985: 57): k Die Bezeichnungen V und R stehen für den 1. und 2. Meßzeitpunkt. Die Ausprägungen der Variablen sind vierstufig (nie, selten, manchmal, häufig). Die Berechnung der Regressionskoeffizienten erfolgte mit der Prozedur "REGRESSION" des Statistikprogrammpaketes SPSS. In Kapitel 2.1.2 wird schrittweise die Berechnung von standardisierten Regressionskoeffizienten bzw. Pfadkoeffizienten hergeleitet. Die Kodierung der Variablen Geschlecht ist (1) für Jungen und (2) für Mädchen.
18
2 Regressions-, Pfad- und Strukturgleichungsmodelle
Über die Subtraktion der Gl. (2.7) und (2.8) lassen sich die Effekte der konstanten zeitinvarianten Hintergrundvariablen * eliminieren (Kessler/Greenberg 1981: 13; Plewis 1985: 58; Allison 1990: 10l):5 i/2 - i/i = ( R346 S30 -» S346 4 Längsschnittspfade 0.99 (.963) 5 .999 V30 -> S30 V346 -» S346 Pfade restringiert 1.05 (.994) 7 .999 5 V30 -> R346 R30 -> S346 Modelle mit Gleichheitsrestriktionen Modellvarianten Anpassungsmaße 2 Nr. Bezeichnung df GFI X (Prob.) Konsistente "lags" 6 1.20 (.999) 9 .999 V346 -> R30 R346 -» S30 Konsistente Stab. 7 3.95 (.971) 11 .998 V30 -> R30/S30 V346 -> R346/S346 Querschnittspfade 3.91 (.952) 10 .998 8 R30 «-> R346 S30 ~ S346 Der Likelihood-Ratio-x2-Test und der Goodness-of-Fit-Index (GFI) werden in Kapitel 2.2.2 erläutert. Erläuterungen zu den Modell Varianten, siehe Text.
den. Nichtrekursive Modelle können als Approximationen an ein zeitlich verzögertes rekursives Kausalmodell betrachtet werden (vgl. Opp/Schmidt 1976: 264). Dies bedeutet, daß das Ergebnis eines zeitlich verzögerten rekursiven Prozesses (hier im Beispiel zwischen Belastung und Konzentrationsschwierigkeiten) erfaßt wird, aber die Darstellung dieses Ergebnisses in einem nichtrekursiven Modell erfolgt. Probleme bei der Parameterschätzung in nichtrekursiven Modellen diskutieren Ammermann u. a. (1975) und Opp/Schmidt (1976: 266ff). In 2V2W-Panehnodellen können nichtrekursive Querschnittsbeziehungen nicht berechnet werden, da für die Parameterschätzung nicht genügend Informationen vorliegen (vgl. Duncan 1975: 297).
30
2 Regressions-, Pfad- und Strukturgleichungsmodelle
Da für die umgekehrten Pfade (von Variable R346 auf Variable R30 bzw. Variable S346 auf Variable S30) keine signifikanten Koeffizienten ermittelt wurden und die übrigen Ergebnisse sich von denen der Modellvariante 7 kaum unterscheiden, wird hier auf die weitere Darstellung der Modellvariante 8 verzichtet. Abb. 2.2 zeigt die standardisierten Parameterschätzungen der Modellvariante 7.19 Wie im 2V2W-Panelmodell ist auch hier die Stabilität der Variablen V/R/S346 (Konzentrationsschwierigkeiten) höher als die der Variablen V/R/S30 (Belastung). Interessanterweise ist bei beiden Items jeweils ein Pfad zwischen erstem und drittem Meßzeitpunkt zu spezifizieren, d. h. beide Variablen folgen keinem reinen Markov-Prozeß (d. h. die zeitlich vorhergehende Messung wirkt nur auf die nächstfolgende), vielmehr haben Schulbelastung und Konzentrationsschwierigkeiten aus dem weiter zurückliegenden Meßzeitpunkt eine direkte Wirkung auf die letzte Messung. Kreuzverzögerte Effekte sind von den Konzentrationsschwierigkeiten (V/R346) auf die Belastungseinschätzung (R/S30) festzustellen (.138 bzw. .126), aber nicht umgekehrt. Signifikante Querschnittseffekte wurden von der Belastungseinschätzung (R/S30) auf die Konzentrationsschwierigkeiten (R/S346) ermittelt (.167 bzw .174).
Abb. 2.2: Graphische Darstellung des 2V3W-Panelmodells
19
Da es sich um die standardisierte Lösung handelt, sind die gleichgesetzten Koeffizienten auf Grund der unterschiedlichen Varianzen der einzelnen Variablen in den jeweiligen Meßzeitpunkten in ihren Größen unterschiedlich.
2.2 Indikatoren- und Strukturgleichungsmodelle
31
Zusammengefaßt bedeutet dies, daß die Schulbelastungen kurzzeitig als auch zeitverzögert auf die Konzentrationsschwierigkeiten der Untersuchungspersonen wirken. Die Schulbelastung ist geringfügig stabiler als die Konzentrationsschwierigkeiten. Die Konsistenz der Stabilitäten und der kreuz verzögerten Effekte hat sich im Vergleich zu alternativen Modellierungen bestätigt.
2.2 Indikatoren- und Strukturgleichungsmodelle Der überwiegende Teil manifester Variablen in den Sozialwissenschaften kann nur mit Meßfehlern erhoben bzw. gemessen werden. In den bisher erörterten Regressions- und Pfadmodellen sind unterschiedliche Reliabilitäten und Validitäten der manifesten Variablen nicht berücksichtigt worden. Durch die Einführung latenter Variablen wird dem Pfadmodell ein Meßmodell hinzugefügt und die kausalen Beziehungen zwischen den latenten Variablen analysiert (Strukturmodell). Die Kombination latenter und manifester Variablen, d. h. die Kombination eines Meß- mit einem Strukturmodell wird als Indikatorenmodell bezeichnet. Der Vorteil von Indikatorenmodellen besteht u. a. darin, Wechsel bzw. Stabilitäten zwischen den Variablen über die Meßzeitpunkte unter Berücksichtigung unterschiedlicher Reliabilitäten und Validitäten (d. h. unterschiedlicher Meßfehleranteile) berechnen zu können (vgl. Heise 1969; Wiley /Wiley 1970; Wiggins 1973). Im folgenden soll die Trennung von Meßfehleranteilen und sog. "wahren" Werten durch die einfachste Modellierung, dem Ein-Indikatorenmodell verdeutlicht werden. Hier wird jeweils eine latente Variable durch eine manifeste Variable gemessen. Die unterschiedlichen Konzeptionen von EinIndikatorenmodellen werden in Kapitel 2.2.1 vergleichend gegenübergestellt. Für zwei und drei Meßzeitpunkte werden Beispiele erörtert. Die begrenzte Identifikationsfähigkeit der Parameter in Ein-Indikatorenmodellen sowie die damit verbundene Notwendigkeit, diese Parameter zu restringieren, führte nun dazu, daß die von Heise und Wiley/Wiley entwickelten Modelle zu multiplen Indikatorenmodellen erweitert wurden (vgl. Blalock 1970). In einem multiplen Indikatorenmodell wird die latente Variable durch mindestens zwei manifeste Variablen gemessen.20 Wir behandeln in Kapitel 2.2.2 den einfachsten allgemeinen Fall, daß eine latente Variable durch zwei manifeste Variablen repräsentiert wird, die in zwei Zeitpunkten 20
In der Literatur über Ein-Indikatorenmodelle sind die verwandten Begriffe von der klassischen Testtheorie (vgl. Lord/Novick 1968) in der Literatur über multiple Indikatorenmodelle vornehmlich von faktorenanalytischen bzw. ökonometrischen Konzepten geprägt. Synonym werden "wahrer Wert" und "latente Variable" sowie "gemessener Wert" und "manifeste" Variable benutzt. Desweiteren kann die Bezeichnung "multiples Indikatorenmodell" und "Strukturgleichungsmodell" synonym benutzt werden.
32
2 Regressions-, Pfad- und Strukturgleichungsmodelle
gemessen worden ist. Im darauf folgenden Beispiel werden zur Kontrolle unsystematischer Meßfehler und zur Identifikation systematischer Meßfehler vier manifeste Variablen zur Messung der latenten Variable, gemessen in drei Zeitpunkten, verwendet (3-Wellen-Panelmodell). Die Erweiterung des 3-Wellen-Panelmodells um zeitinvariante bzw. zeit Variante exogene Variablen wird in Kapitel 2.2.3 vorgenommen. Kapitel 2.2.4 behandelt spezielle Anwendungen von Strukturgleichungsmodellen mit Paneldaten wie multiple Gruppenvergleiche und latente Wachstummodelle. Das Kapitel wird mit der Darstellung eines 3-Wellen-Panelmodells unter Berücksichtigung ordinaler Eingabeinformationen und asymptotischer statistischer Theorie abgeschlossen (Kap. 2.2.4). Alle Beispiele sind mit dem Program LISREL (vgl. Jöreskog/Sörbom 1988; 1993a) berechnet worden. Die Programminputs und die für das Verständnis der Beispiele notwendigen Programmoutputs wurden den Erörterungen der Beispiele in den jeweiligen Abschnitten hinzugefügt.21 2.2.1 Ein-Indikatorenmodell Die Trennung von Meßfehlern und "wahren" Werten in Panelmodellen ist eng mit dem Konzept der Reliabilität der klassischen Testtheorie verknüpft (vgl. Lord/Novick 1968). Den Ausgangspunkt bildet das folgende klassische Meßmodell (Blalock 1968): = X +e (2.57) wobei • die gemessenen Werte • X die "wahren" Werte und • e die Meßfehler sind. Unter der Annahme, daß Meßfehler und "wahre" Werte nicht miteinander zusammenhängen, ist die Varianz der gemessenen Werte V(x) gleich der Summe der Varianz der "wahren" Werte V(X) und der Varianz der Meßfehler V(e): V(x) = V(X) + V(() (2.58) Die Reliabilität einer Messung ist demnach definiert als das Verhältnis zwischen der Varianz der "wahren" Werte und der Varianz der gemessenen Werte (Wheaton et al. 1977: 88; Markus 1979: 54): , _ V(X) _ V(X] Pxx ( ~ ~V(x) - V(X) + V(c) 21
Neben LISREL existieren noch eine Reihe weiterer Programme, die für die Berechnung von Strukturgleichungsmodellen zur Verfügung stehen. Dazu gehören COSAN (Fräser/McDonald 1988), EQS (Bentler 1989), EzPath (Steiger 1989), LINCS (Schoenberg 1987) und LISCOMP (Muthen 1987).
2.2 Indikatoren- und Strukturgleichungsmodelle
33
Da die Varianz der "wahren" Werte nicht bekannt ist, wird über Wiederholung der Messungen an der gleichen Stichprobe versucht, diese Varianz annähernd zu bestimmen. Dieser Vorgang wird auch als Test-RetestSituation bezeichnet. Sind die Messungen reliabel, dann gibt die Differenz zwischen den Messungen xt und Z(+i der gleichen Variable den "wahren" Wechsel (true change) wieder.22 Sind die Messungen nicht reliabel, dann besteht der Unterschied zwischen beiden Messungen aus "wahrem" Wechsel und Meßfehler (vgl. Markus 1979: 55):
xt = (Xt+i + f t + i ) ~ (Xt + ft)
(
wobei xt der gemessene Wert und Xt der "wahre" Wert zum ersten Meßzeitpunkt ist, Xf+i der gemessene Wert und Xt+i der "wahre" Wert zum zweiten Meßzeitpunkt ist und ft bzw. ft+i die jeweiligen Meßfehlerterme sind. Konzeptionell lassen sich drei Ansätze zur Stabilität bzw. zum "wahren" Wechsel einer Messung unterscheiden (vgl. Jagodzinski/Kühnel 1987: 226): 1. Gl. (2.61) nimmt an, daß sich alle "wahren" Werte zum Zeitpunkt t und t+1 durch die gleiche Konstante unterscheiden. Dies bedeutet, daß der Wert einer Variablen zwischen t und t+1 sehr wohl unterschiedlich sein kann, die relative Position der Werte zwischen t und t+1 aber konstant bleibt.23 Xt+i = Xt (2.61) 2. Gl. (2.62) nimmt an, daß die Stabilität durch Meßfehler beeinträchtigt werden kann. Solange es sich aber um zufällige Meßfehler handelt, wird weder die Stabilität der "wahren" Variable noch die der gemessenen Variable beeinträchtigt. Xt+i = Xt + e,+i (2.62) 3. Gl. (2.63) nimmt an, daß der "wahre" Wert in t+1 durch einen Regressionskoeffizienten /?t+i prognostiziert werden kann. Solange die Verhält22
23
Ein "wahrer" Wechsel (true change) bedeutet den relativen Wechsel der individuellen Position zu anderen Positionen innerhalb der Verteilung. Davon abgegrenzt wird der "konstante" Wechsel (constant change), der sich auf den Positionswechsel ganzer "Gruppen" bezieht. Ein "wahrer" Wechsel läßt sich über die Größe des partiellen Regressionskoeffizientenbzw. Pfadkoeffizienten zwischen den "wahren" Variablen feststellen, ein "konstanter" Wechsel über den "intercept term" einer Gruppenvariablen (z. B. Geschlecht). Zur Unterscheidung der beiden Begriffe des Wechsels, vgl. auch Wheaton et al. (1977: 91). So kann die Kovarianzstruktur der gemessenen Variablen über die Zeitpunkte gleich bleiben, während sich die Mittelwerte bei Stabilität durch eine Konstante unterscheiden.
34
2 Regressions-, Pfad- und Strukturgleichungsmodelle nisse zwischen den Einstellungsdifferenzen gleich bleiben, kann von Stabilität ausgegangen werden. Auch hier hat der Meßfehler nur dann einen Einfluß auf die Stabilität, wenn er nicht zufällig ist. (2.63) Der unstandardisierte Regressionskoeffizient ßt+i,t wird aus der Relation zwischen Kovarianz der "wahren" Werte zu beiden Meßzeitpunkten (cov(xt, Zt+i)) und der Varianz der "wahren" Variablen zum ersten Meßzeitpunkt ( 2 ) berechnet:24 ßt+lit = cov(xt,xt+l)/ff?
(2.64)
Das Problem der getrennten Berechnung der Stabilitätskoeffizienten und der Zuverlässigkeit der Messungen (Reliabilität) hat Reise (1969) anhand eines Test-Retest-Modells diskutiert. Nach diesem Modell wird die zu untersuchende Variable in zwei Meßzeitpunkten (Test-Retest) erhoben. , X^ sind die "wahren" Werte, x\t x% sind die gemessenen Werte und ci, €3 die jeweiligen Meßfehler zu x\ und . Die Beziehung zwischen den Meßzeitpunkten wird über den standardisierten Pfadkoeffizienten Pr3ci bestimmt. Die jeweiligen Reliabilitäten werden über die Koeffizienten pXlxt bzw. pxax3 spezifiziert (vgl. Abb. 2.3). Das Modell setzt folgende Annahmen voraus (vgl. Heise 1969: 121): 1. Die Beziehung zwischen "wahren" Werten und gemessenen Werten ist über die Zeit konstant. 2. "Wahre Werte" und Meßfehler korrelieren weder zu gleichen noch zu verschiedenen Zeitpunkten miteinander. 3. Die Meßfehler korrelieren nicht untereinander.25
24
25
Es ist in der Literatur umstritten, ob Stabilität in Ein-Indikatorenmodellen bzw. TestRetest-Modellen anhand standardisierter oder unstandardisierter Parameter zu beurteilen ist. Während beispielsweise Jöreskog/Sörbom (1977) und Judd/Milburn (1980) unstandardisierte Koeffizienten bevorzugen, werden die kausalen Beziehungen in den Modellen von Heise (1969) und Wiley/Wiley (1970) mit standardisierten Koeffizienten ausgedruckt. Ist eine Variable perfekt stabil im Sinne von Gl. (2.61), dann werden sich standardisierte und unstandardisierte Koeffizienten nicht unterscheiden und den Wert l aufweisen. Diejenigen, die mit dem zweiten Konzept von Stabilität arbeiten (Gl. (2.62)), werden standardisierte Koeffizienten bevorzugen; diejenigen, die mit dem dritten Konzept von Stabilität arbeiten (Gl. (2.63)), werden unstandardisierte Koeffizienten bevorzugen. Insgesamt betrachtet, besteht kein überzeugendes Argument gegen die Verwendung standardisierter Koeffizienten, zumal das relative Ausmaß an "wahrer" Veränderung hiermit besser abzulesen ist (vgl. Jagodzinski/Kühnel 1987: 228). Diese Annahme muß in einem Ein-Indikatorenmodell für zwei Meßzeitpunkte getroffen werden, da die entsprechenden Parameter mit den zur Verfügung stehenden Gleichungen nicht ermittelt werden können.
2.2 Indikatoren- und Strukturgleichungsmodelle
35
•X,
P* 1*1
Abb. 2.3: Ein- Indikatorenmodell mit zwei Meßzeitpunkten (Heise 1969)
Um die Test- Retest- Kor relation rXlX3 zu zerlegen, wird die als "Grundtheorem der Pfadanalyse" (vgl. Opp/Schmidt 1976: 166) bezeichnete Zerlegungsregel benutzt: (2·65) Die Subskripte i und j symbolisieren zwei beliebige Variablen x,· und Xj eines Kausalmodells. Die beiden Variablen können, müssen aber nicht in einer kausalen Beziehung zueinander stehen. Dagegen steht für das Subskript j jede Variable, die auf x,· wirkt, d. h. jede Variable, von der ein Pfeil auf x,· zuläuft. Angewandt auf die Test-Retest-Korrelation r rijra ergibt sich folgende Zerlegung: **«i»a = PsiXiPXiX^PsiX* (2.66) Wenn perfekte Stabilität zwischen den Messungen vorliegt, dann ist die Test-Retest-Korrelation gleich dem Produkt der beiden Reliabilitäten. Wenn perfekte Reliabilität bei beiden Messungen vorliegt, dann sind TestRetest-Korrelation und Stabilität, ermittelt über den Pfadkoeffizient , 3 gleich. Da Gl. (2.66) drei Unbekannte (bei Annahme gleicher Reliabilitäten zwei Unbekannte) enthält, lassen sich bei dem hier erörterten Test-RetestModell nur über Vorinformationen bzw. Annahmen Aussagen über Stabilität bzw. Reliabiliät treffen. Erst eine dritte Messung der zu untersuchenden Variablen (d. h. eine zweite Retest-Messung) ermöglicht die Berechnung der Pfadkoeffizienten in
36
2 Regressions-, Pfad- und Strukturgleichungsmodelle
Gl. (2.66). Zusätzlich zu den oben aufgeführten Annahmen wird hier die Annahme gemacht, daß das Modell ein "lag-1-model" ist, d. h. es werden keine direkten kausalen Effekte der "wahren" Werte der ersten Messung auf die der dritten Messung postuliert (vgl. Abb. 2.4) ,26
Ca
Ca
PX3X3
P* 1*1
3 3
353 Abb. 2.4: Ein-Indikatorenmodell mit drei Meßzeitpunkten (Heise 1969)
Nach der pfadanalytischen Zerlegungsregel (Gl. (2.65)) lassen sich die Test-Retest-Korrelationen rXlXi, rXlXa und 2 ?3 folgendermaßen zerlegen (vgl. Heise 1969: 123): (2.67) (2.68) (2.69)
r
xix3 =
Durch die Annahme gleicher Reliabilitäten über die Meßzeitpunkte PxiXi = Px-iXt — Px3X3 =
(2.70)
können die Gl. (2.67) bis (2.69) entsprechend verkürzt werden: =
2
_
PxXPXiXi
-- 2 -— 26
ff>
r
71\
\^·'*·)
(2.72)
Diese Modelle werden in der Literatur auch als Simplex-Modelle bezeichnet, vgl. z. B. Jöreskog/Sörbom (1977: 302) und Jöreskog (1981: 124).
2.2 Indikatoren- und Strukturgleichungsmodelle
37
(2-73) Durch Umformung und Substituierung erhält man schließlich die Lösung für den Reliabilitätskoeffizienten r. (2.74) PxX
, , = ^p
(2.75)
PxX
(2.76) ^2
· x\Xf
PxX = —I
J3*3
(n · ·7\
(2-77)
Dannach lassen sich auch die Pfadkoeffizienten litäten) ermitteln (vgl. Heise 1969: 125):
^ ^ und
3 3
(Stabi-
i r 'a'3
(2.78)
-
Die Fehlervarianzen der "wahren" Variablen errechnen sich aus der Differenz von Gesamtvarianz und den jeweiligen standardisierten quadrierten Stabilitätskoeffizienten und :27 •Ct = ! -
3
(2-80)
•?8 = l-Ä.jr, (2-81) Es sei nochmals darauf hingewiesen, daß die Berechnung der Reliabilitätsund Stabilitätskoeffizienten nur unter den genannten Annahmen möglich ist. Müssen korrelierende Meßfehler in Form von Autokorrelationen28 im Modell spezifiziert werden, dann ist eine Berechnung der Pfadkoeffizienten nicht mehr möglich, da die Anzahl der unbekannten Parameter größer ist als die Anzahl der Gleichungen. In dem hier erläuterten Modell (vgl. Abb. 2.4) konnten die Parameter auch erst über die Gleichsetzung der Reliabilitätskoeffizienten ermittelt werden.29 27
28
Wird aus der Differenz die Quadratwurzel gezogen, so erhält man die entsprechenden Pfadkoeffizienten zwischen den jeweiligen Residuen (Ci,Ca) und den "wahren" Variablen, vgl. Abb. 2.4. Wenn der Meßfehler einer gemessenen Variablen zu einem Meßzeitpunkt mit dem Meßfehler der gleichen Variablen zu einem weiteren Meßzeitpunkt korreliert, dann wird dieser Zusammenhang als Autokorrelation bezeichnet.
38
2 Regressions-, Pfad- und Strukturgleichungsmodelle
Diese Gleichsetzung haben Wiley /Wiley (1970) zu einer Kritik bzw. zu einem alternativen Lösungsweg zur Berechnung der Reliabilitäts- bzw. Stabilitätskoeffizienten veranlaßt. Im Unterschied zu Heise zerlegen sie nicht die Test-Retest-Korrelationen, sondern die Test-Retest-Kovarianzen und setzen anstatt der Reliabilitäten die Meßfehlervarianzen über die Meßzeitpunkte gleich (vgl. Abb. 2.5).30
13
Abb. 2.5: Ein-Indikatorenmodell mit drei Meßzeitpunkten (Wiley/Wiley 1970)
Über die Zerlegung der Kovarianzen können die Reliabilitätskoeffizienten ^1 1 , P^XI und ^3 3 , die unstandardisierten Stabilitätskoeffizienten ßx3Xi und ßxaX? sowie die Meßfehlervarianz s% berechnet werden (zur Ableitung der einzelnen Parameter, vgl. Wiley /Wiley 1970: 137ff; für ein em29
30
Wiley/Wiley (1974) testen ein Drei-Wellen-Modell mit autokorrelierten Meßfehlern, wobei sie zusätzliche Parameterrestriktionen einführen, um das Modell berechnen zu können: Einmal werden die Beziehungen zwischen den "wahren" Variablen (X) über die Meßzeitpunkte gleichgesetzt, zum anderen die Beziehungen zwischen den Meßfehlern der gemessenen Variablen ( ). Wir werden die Möglichkeit der Spezifikation von autokorrelierten Meßfehlern bei den in Kapitel 2.2.2 diskutierten multiplen Indikatorenmodellen bzw. Strukturgleichungsmodellen erörtern. Es sei hier angemerkt, daß auf der Grundlage einer Varianz/Kovarianzmatrix unterschiedliche Reliabilitäten bei Gleichsetzung der Meßfehlervarianzen berechnet werden können, während dies bei Verwendung von Korrelationen nicht möglich ist. Reliabilitätskoeffizient und der quadrierte Residualpfadkoeffizient müssen bei Korrelationen in der Summe immer eins ergeben.
2.2 Indikatoren- und Strukturgleichungsmodelle
39
pirisches Beispiel vgl. Reiser et al. 1992):
(2.83) (2.84) l-£
(2.85) (2.86) (2.87)
Die standardisierten Stabilitätskoeffizienten lauten: (2.88)
(2.89) Die Fehler Varianzen der "wahren" Variablen errechnen sich hier aus der Differenz von Gesamtvarianz und den jeweiligen unstandardisierten quadrierten Stabilitätskoeffizienten f3\ und^\3 2:31 ^ - A gy -Ai 4 =l -
(2-90)
s
l = l - Ä.JT, (2.91) An einem Beispiel weisen die Autoren nach, daß die Gleichsetzung der Reliabilitätskoeffizienten (wie im Modell nach Heise, vgl. Gl. (2.70)) einmal zur Unterschätzung, im anderen Fall zur Überschätzung der Stabilitätskoeffizienten führt.32 Wiley/Wiley (1970: 141) plädieren daher für die Gleichsetzung der Meßfehlervarianzen als plausiblere Restriktion in Test-RetestModellen. Außerdem sehen sie Vorteile in der Analyse der Modelle mit 31
32
Wird aus der Differenz die Quadratwurzel gezogen, so erhält man den entsprechenden Pfadkoeffizienten zwischen Residuen (CliCa) und den "wahren" Variablen, vgl. Abb. 2.5. In einer weiteren Analyse bestätigt sich die Überschätzung der Stabilitätskoeffizienten allerdings nicht, vgl. Wiley/Wiley (1974:184). Auch in anderen empirischen Beispielen läßt sich diese Überschätzung nicht replizieren, vgl. Wheaton et al. (1977: 101) und Jagodzinski/Kühnel (1987: 237ff).
40
2 Regressions-, Pfad- und Strukturgleichungsmodelle
unstandardisierten Parametern, da standardisierte Pfadkoeffizienten nicht äquivalent in unstandardisierte Koeffizienten überführt werden können. Eine weitere Generalisierung des Ansatzes von Heise bzw. Wiley /Wiley nehmen Werts et al. (1971) vor. Unter Aufgabe der Annahme gleicher Reliabilitäten bzw. gleicher Fehlervarianzen über die Meßzeitpunkte können sie zeigen, daß, unabhängig von der Anzahl der Meßzeitpunkte, der erste bzw. letzte Reliabilitätskoeffizient und der erste bzw. letzte Stabilitätskoeffizient nur als Produkte identifizier bar sind. Die Autoren testen anhand eines empirischen Beispiels (Modell mit vier Meßzeitpunkten), daß die Annahme gleicher Reliabilitäten zwar zu einer guten Modellanpassung (d. h. geringe Differenzen zwischen empirischen und modellimplizierten Kovarianzen), aber zu theoretisch unplausiblen Ergebnissen führen kann. Die Schätzung der Parameter unter der Annahme gleicher Fehlervarianzen ist zwar theoretisch plausibler, ergibt allerdings eine schlechte Modellanpassung (vgl. Werts et al; 1971: 149). In einer umfassenden Analyse von Ein-Indikatorenmodellen für drei Meßzeitpunkte mit Daten der ALLBUS-Test-Retest-Studie33 testen Jagodzinski und Kühnel systematisch die Modellannahmen von Heise und Wiley /Wiley. Sie ermitteln niedrige Reliabilitäten (zum Teil < .40) für das Modell nach Heise sowie niedrige Stabilitäten (zum Teil < .60) vom ersten zum zweiten Meßzeitpunkt. Dagegen verzeichnen sie irregulär hohe Stabilitätskoeffizienten (> 1.0) vom zweiten zum dritten Meßzeitpunkt (vgl. Jagodzinski/Kühnel 1987: 237). Für das Modell nach Wiley/Wiley ermitteln die Autoren abnehmende Reliabilitäten über die Meßzeitpunkte anstatt zunehmende (wie postuliert). Außerdem werden starke Differenzen zwischen den Stabilitätskoeffizienten festgestellt, die auch hier den Grenzwert von 1.0 überschreiten (vgl. Jagodzinski/Kühnel 1987: 238). Die unzureichende Modellanpassung führen die Autoren auf zwei Gründe zurück: Zum einen sind die Modelle gerade ausreichend identifiziert (d. h. es stehen nur soviel Gleichungen zur Verfügung wie unbekannte Koeffizienten zu schätzen sind) und daher anfällig gegen Stichprobenfehler; zum anderen sind die von Heise und Wiley/Wiley getroffenen Annahmen nicht erfüllt, da bei kurzen Meßzeitabständen von zunehmender Reliabilität und abnehmender Meßfehlervarianz auszugehen ist (vgl. Jagodzinski/Kühnel 1987: 249). Eine alternative Modellspezifikation sehen die Autoren in einem parallelen oder einem kongenerischen Meßmodell (vgl. Abb. 2.6). Bei einem parallelen Meßmodell wird von der Annahme perfekter Stabilität ausgegangen und somit nur eine "wahre" Variable unabhängig von den Meßzeitpunkten spezifiziert. Deswei33
Die ALLBUS-Test-Retest-Studie ist eine ergänzende Methodenstudie zur allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) aus dem Jahre 1984. Etwa 180 Personen haben im Abstand von vier Wochen einen Teil der Fragen aus der Bevölkerungsumfrage insgesamt dreimal beantwortet. Ein ausführlicher Bericht findet sich in Zeifang (1987).
2.2 Indikatoren- und Strukturgleichungsmodelle
41
teren sind die jeweiligen Reliabilitätskoeffizienten und Meßfehlervarianzen über die Meßzeitpunkte gleichgesetzt. Beim kongenerischen Meßmodell wird ebenso nur eine "wahre" Variable spezifiziert, allerdings ohne Gleichheitsrestriktionen bezüglich der Reliabilitäten und der Meßfehlervarianzen.34 Bei beiden Modellen ist die gemessene Variable x« eine ungewichtete Summe der "wahren" Variable X und des Meßfehlers ct (für t = 1,2,3): zt = X + ct
(2.92)
Jagodzinski/Kühnel können im Mittel eine leichte Verbesserung der Reliabilitätskoeffizienten feststellen, was ihre Annahme perfekter Stabilität zwischen den Meßzeitpunkten bestätigt. Bei einigen Items differieren die Reliabilitäten zwischen dem ersten und zweiten bzw. dritten Meßzeitpunkt so stark, daß ein kongenerisches Modell unter der Annahme verschiedener Reliabilitäten und Meßfehlervarianzen für den ersten Meßzeitpunkt spezifiziert werden mußte (vgl. Jagodzinski/Kühnel 1987: 243). Die Spezifikation paralleler bzw. kongenerischer Meßmodelle für wiederholt gemessene Items als Alternative zu den Konzepten von Heise und Wiley/Wiley führt nur bei Paneldaten mit kurzen Zeitabständen zu besseren Reliabilitätskoeffizienten. Je länger die Zeitspanne zwischen den Messungen ist, desto unrealistischer ist die Annahme der perfekten Stabilität (vgl. das Beispiel in Kap. 2.2.2).
Für das parallele Meßmodell gilt: s.2
i
2
-*«
_
~
e2
_
= p*ax = Pxsx — Pxx und
2
~ «·
Abb. 2.6: Paralleles bzw. kongenerisches Meßmodell
34
Eine weitere Modellspezifikation, das tau-äquivalente Meßmodell (gleiche Reliabilitäten aber ungleiche Meßfehlervarianzen), wird von Jagodzinski/Kühnel (1987) nicht diskutiert, vgl. hierzu Alwin/Jackson (1980).
42
2 Regressions-, Pfad- und Strukturgleichungsmodelle
Beispiel für ein Ein-Indikatorenmodell (Test- Retest- Modell) mit drei Meßzeitpunkten Im folgenden wird ein Ein-Indikatorenmodell mit drei Meßzeitpunkten spezifiziert und nach den Konzepten von Heise und Wiley/Wiley getestet. Die gemessenen Variablen stammen aus einer 20 Item großen Batterie, die Streßymptome erfaßt. Das Item "Nervosität, Unruhe" (V343,R343,S343) ist als gemessene Variable für die Tests der EinIndikatorenmodelle ausgewählt worden.35 Die "wahre" (latente) Variable wird mit der Bezeichnung "STRESS" etikettiert. "STRESSi"ist die Bezeichnung für die "wahre" Variable zum ersten Meßzeitpunkt, "STRESS^" zum zweiten Meßzeitpunkt und "ST RES 83" zum dritten Meßzeitpunkt. Für die Berechnung des Modells nach Heise (vgl. Abb. 2.4) werden Korrelationen, für die Berechnung nach Wiley /Wiley werden (vgl. Abb. 2.5) Varianzen und Kovarianzen benötigt. Wie weiter oben ausgeführt, sind nach dem Modell von Heise die beiden Stabilitätskoeffizienten Px3xt und px3x, sowie der Reliabilitätskoeffizient plx zu berechnen (vgl. Gl. (2.74), (2.75) und (2.77)): MO.JM = 6 .398 Px,Xl =
=
.518
= .768
(2.94)
= .780 .510 Die Meßfehlervarianz s* läßt sich aus der Reliabilität berechnen:
*i = l - Plx = -336
(2.95)
(2.96)
Die Fehlervarianzen der "wahren" Variablen STRESSi bzw. ST RES 83 berechnen sich nach den Gl. (2.80) und (2.81): s
t = l - Px,x, = ·410
(2·97)
s
l = l - Px,x, = -392
(2.98)
Für das Modell nach Wiley/ Wiley sind die Meßfehlervarianz s^, die Reliabilitätskoeffizienten p^1^1 , %3 3 und %3 3 sowie die unstandardisierten Stabilitätskoeffizienten ^ ^ und ßxsx3 zu berechnen. Nach Gl. (2.82) berechnet sich die Meßfehlervarianz wie folgt: .526*. 519 i S
XlX3
Aid
Nach Gl. (2.83) bis (2.85) lassen sich die Reliabilitäten der gemessenen Variablen für die drei Meßzeitpunkte berechnen: (2
35
Die Bezeichnungen V, R und S stehen für den 1. 2. und 3. Meßzeitpunkt.
)
2.2 Indikatoren- und Strukturgleichungsmodelle
»U = ' -
o2
= i-
04
43
= ·66°
-2
Die unstandardisierten Stabilitäten werden nach Gl. (2.86) und (2.87) berechnet:
= ·796 = ·785
(2 104 · >
Die standardisierten Stabilitäten lauten (vgl. Gl. (2.88) und (2.89)):
796
=· 785 =·
839
=·
2 105
5.0). Diese Fehlspezifikation tritt in Panelmodellen häufig auf und kann durch die Spezifikation und Schätzung autokorreherier Residuen (vgl. Sörbom 1979; Jöreskog 1979, 1981; Aish/Jöreskog 1990) behoben werden. Inhaltlich bedeutet das Auftreten autokorrelierter Residuen, daß neben den zeitbezogenen zufälligen Meßfehlern (errors in measurement) auch zeitstabile Fehlerkomponenten (uniqueness) in den manifesten Variablen auftreten. Allerdings können auch nicht im Modell enthaltene Drittvariablen für die autokorrelierten Residuen verantwortlich sein.53 In der ersten Modellmodifikation (Variante 2) werden die Residuen (Meßfehler) der jeweils gleichen manifesten Variablen miteinander korreliert. Matrix £ (vgl. Gl. (2.131)) enthält nun in den beiden unteren Diagonalelementen die entsprechenden Parameter. Die Nebendiagonalelemente 9flctj in £ parametrisieren die korrelierenden Residuen gleicher Variablen zwischen den Meßzeitpunkten.54 Der Modellfit ist deutlich verbessert, wenn auch noch nicht akzeptabel ( 2=240.57 mit 54 Freiheitsgraden, GFI=.932). Die Differenz zur ersten Modellvariante ist signifikant (Q-Ratio=30.82).55 Alle korre52
53
54
An anderer Stelle wird ein paralleles Meßmodell mit perfekter Stabilität, sowie perfekten Ladungen und gleichen Meßfehlern spezifiziert. Dieses noch restriktivere Modell ist aber nur bei Längsschnittdaten, die in sehr kurzen Zeitabständen erhoben wurden, sinnvoll (vgl. Jagodzinski/Kühnel/Schmidt 1987: 273ff). Eine Diskussion der einzelnen Fehlerkomponenten geben Saris/Andrews (1991) und Reinecke/Schmidt (1993). Die Zerlegung autokorrelierter Residuen in Methodenfaktoren zeigen Jagodzinski/Kühnel/Schmidt (1987) und innerhalb des Multi-Trait-MultiMethod(MTMM)-Designs Andrews (1984) und Krebs/Schmidt (1993). Werden autokorrelierende Residuen ausschließlich durch zeitstabile Fehlerkomponenten analog zu einem Varianzkomponentenmodell (vgl. Arminger/Muller 1990: 99f.) erzeugt, ist es erforderlich, die Autokorrelationen durch die Restriktionen 0t5 j = Of9 1 , 0 2), das den primären Erkenntnis- bzw. Erklärungsgegenstand der Analyse darstellt und deren zu c\i zu transformieren wäre, wenn das Ziel der Analyse darin bestände, die (lß} formen. Auch ließen sich durch weitergehende Kollabierung der Originaltabelle {ABCD} die univariaten Marginaltabellen {A}, {B}, {C} oder {D} bilden. Die im Modellsymbol spezifizierten Marginaltabellen stellen nun in dem Sinne ein Set marginaler Restriktionen dar, daß die modellimplizierten ('erwarteten') Häufigkeiten des Modells in diesen Marginaltabellen mit den korrespondierenden beobachteten Häufigkeiten übereinstimmen. Dies bedeutet folgendes: Im allgemeinen27 werden sich die beobachteten und unter der Modellannahme erwarteten Häufigkeiten voneinander unterscheiden. Werden die erwarteten Häufigkeiten jedoch in geeigneter Weise addiert, um 26
27
Vgl. zu diesen Ausführungen insbesondere die sehr instruktiven Ausführungen in Burke/Knoke (1985: 309-314) und Agresti (1990: Kap. 6), insbes. die Seiten 165-171. Eine Ausnahme stellen saturierte Modelle dar, bei denen genauso viele Parameter geschätzt werden wie dazu empirische Informationen vorliegen. Ein solches Modell hätte Null Freiheitsgrade und würde den beobachteten Befund perfekt reproduzieren.
132
3 Panelmodelle für qualitative Variablen
die im Modellsymbol bezeichneten Marginaltabellen zu bilden, so werden diese summierten Häufigkeiten mit den entsprechend summierten beobachteten Häuügkeiten übereinstimmen. Die dem Modell auferlegten Restriktionen liegen mithin darin, daß erwartete und beobachtete Häufigkeiten der im Modellsymbol bezeichneten Marginal Verteilungen gleich sind28, weshalb die Bezeichnung von hierarchischen loglinearen Modellen über implizit angepaßte Marginaltabellen im angelsächsischen Sprachraum auch als 'fitted marginals notation' bezeichnet wird. Nach diesen einführenden Bemerkungen zu hierarchischen loglinearen Modellen und der Möglichkeit, diese über ihre implizit angepaßten Marginal Verteilungen zu bezeichnen, soll es nun darum gehen aufzuzeigen, daß solche Modelle in korrespondierende Logit Modelle transformiert werden können. 3.3.2 Äquivalenz von loglinearen und Logit Modellen Betrachten wir dazu den einfachen Fall, daß eine binäre Response-Variable, B, auf einen einzigen erklärenden Faktor, A, zurückgeführt wird. Hat dieser Faktor i = 1,2,...,/ Kategorien, so resultiert eine 7 x 2 Kontingenztabelle mit i = 1,2,...,/ Reihen und j = 1,2 Spalten. Für jede der i Kategorien der erklärenden Variablen existieren dann folglich zwei ResponseWahrscheinlichkeiten, ,·),· , und zwar |,· und ir^i , - das sind die Wahrscheinlichkeiten, sich in Kategorie l bzw. 2 der Response-Variablen unter der Voraussetzung zu befinden, in Kategorie i der erklärenden Variablen zu sein. Mit diesen ,·),· korrespondieren29 erwartete Häufigkeiten m,j , so daß sich das logarithmierte Verhältnis in den relativen bzw. absoluten Häufig28
29
Ein anschauliches Beispiel geben Burke/Knoke (1985: 312-314). Über die formalen Grundlagen dieser Restringierungen, - Loglikelihood, minimal hinreichende Statistiken, Lösung der Likelihood Gleichungen-, informiert Agresti (1990: Kap. 6). Auf die loglinearen und logistischen Modellen zugrundeliegenden Samplingmodelle sind wir bereits oben zu sprechen gekommen. Bezeichnen wir mit {n;y} die Häufigkeit, mit der Ausprägung j auftritt, wenn der erklärende Faktor Ausprägung i hat, so wird die Totale wieder für jede der i Ausprägungen als fixe Größe behandelt { ,·+ = na + fti'2}· Wenn die binaren Antworten unabhängige Bernoulli Zufallsvariablen sind, dann sind {tiji} unabhängige binomiale Zufallsvariablen mit Parametern {•KI |j} . Analog werden im sich anschließenden 3-Variablen-Modell die {njy+ } als fixe Größen und {iUji} als unabhängige binomiale Zufallsvariablen mit den Parametern {fri|jj} behandelt. Zur Frage der Korrespondenz von loglinearen und Logit Modellen ist zu ergänzen: Für das Poisson-Samplingmodell stellen Zellhäufigkeiten unabhängige Zufallsvariablen mit mittlerem Wert {m,-j} dar. Dabei stellt der Sample-Umfang n keine fixe Größe dar. Konditional für solche n's haben Poisson loglineare Modelle für {mij} äquivalente Ausdrücke für multinomiale Modelle für die ZellWahrscheinlichkeiten {ir»j}, so daß loglineare Modelle sowohl für die erwarteten absoluten als auch die erwarteten relativen Häufigkeiten spezifiziert werden können (siehe z.B. Agresti 1990: 92f., 130f., 134).
3.3 Komplexe Strukturen
133
keiten für die s'-te Kategorie der erklärenden Variable als In (
= in
^
] = in(mil) _ in(m j) haben.
Tab. 3.12: Struktur einer 4x4 Mobilitätstabelle (erwartete Häufigkeiten)
m .. 1 1 [Variable A]
f 2 [Variable B] j=l 2 3
4
E
"»13
"»14
"»1+
"»22
"»23
"»24
"»2+
"»32
"»33
"»34
"»3+
"»41
"»42
"»43
"»44
"»4+
m+i
m+2
"»+3
m+4
2 3 4
"»2l "»31
E
Gefragt werden kann dann, inwieweit sich beide Arten von Veränderung gegenseitig kompensieren. Dabei entspricht der vollständigsten Kompensation das Symmetrie-Modell, welches impliziert, daß genauso viele von Zustand i nach j wie in Gegenrichtung von j nach i wechseln, also gilt, daß m,-j = rriji
für alle t
j
(3.59)
bzw., daß
ln(m,-j·) = ln(mj,·)
für alle
t
j
Das loglineare Modell, deren geschätzte modellimplizierte Häufigkeiten füralle
m* AB =
für alle i = j
(3.60)
156
3 Panelmodelle für qualitative Variablen
diese Bedingung (3.59) erfüllen, entsteht aus dem eingangs dargestellten Modell (3.47) in Verbindung mit (3.48) i
j
i
j
durch Setzen der Restriktionen \t = \f und
für alle
*$* = *#*
i =j
für alle
i^j
(3.61) (3.62)
Die geschätzten erwarteten Häufigkeiten £ des Symmetrie-Modells reproduzieren dabei die beobachteten Häufigkeiten n$B und die Summen n B fi )> was u - a - impliziert, daß die erwarteten Häufigkeiten korrespondierender Zellen jeweils gleich sind (mij = my,·)52. Wird im SymmetrieModell die Restriktion (3.61) * = Af
für
i=j
aufgehoben und nur Restriktion (3.62) Xy = Xft* für i±j aufrechterhalten, reduziert sich das Symmetriemodell auf ein QuasiSymmetriemodell53, dessen Implikationen wir am besten anhand eines empirischen Beispiels verdeutlichen können (siehe unten). Um die Symmetrie- Hypothese zu testen, können wir einen von Bishop, Fienberg &; Holland (1975, 283-286) vorgeschlagenen Lösungsweg verfolgen. Dieser verläuft über ein spezielles dreidimensionales Rearrangement der zu analysierenden zweidimensionalen Mobilitätstabelle. Da für die Symmetriefragestellung speziell die Zellen außerhalb der Haupidiagonalen der Mobilitätstabelle von Bedeutung sind (i j), finden nur diese Zellen Eingang in die rearrangierte Mobilitätstabelle. Diese entsteht durch spezielle Kombinierung des unter- bzw. oberhalb der Hauptdiagonalen liegenden Tabellensegments (Dreiecks), wobei eines dieser Segmente in OriginaKoim und das andere in transponierter Form, d.h. mit Reihen und Spalten vertauscht, die Grundlage der rearrangierten Tabelle bildet. Das ober- bzw. unterhalb der Hauptdiagonalen liegende Tabellensegment einer 4x4 Mobilitätstabelle (Tab. 3.13) 52
53
Zum Symmetriemodell, vgl. z.B. Bishop, Fienberg & Holland (1975: 282f.); Haberman (1979: 488f.); Hagenaars (1990: 156f.). Vgl. z.B. Haberman (1979: 490); Bishop, Fienberg & Holland (1975: 286).
3.4 Zeitdiskrete Modelle
157
Tab. 3.13
=1 c=l
Zur Berechnung des Modells benötigt das Programm PANMARK (vgl. van de Pol et al. 1991) die Zellenhäufigkeiten der manifesten Variablen. Bei zwei Variablen mit jeweils zwei Kategorien, gemessen zu drei Zeitpunkten, existieren 26 Zellen in der multivariaten Kreuztabelle, die als Zeilen- bzw. Spaltenvektor dem Programm zur Verfügung gestellt werden müssen.41 Das latente Markov Modell wird mit zwei Klassen je latenter Variable spezifiziert. Die damit erzielte Übereinstimmung zwischen Anzahl der Klassen und Anzahl der Kategorien je manifester Variable erlaubt eine quantifizierbare Bestimmung des Meßfehlers bzw. der Reliabilität (vgl. Langeheine/van de Pol 1990a: 93). Tab. 4.7 gibt einen Überblick über die berechneten Modellvarianten. In der Modellvariante LMO sind keine Restriktionen gesetzt worden. Alle Parameter werden unabhängig von den Meßzeitpunkten geschätzt.42
39
Die Bezeichnungen V, R und S stehen für den 1., 2. und 3. Meßzeitpunkt.
40
Zur Beschreibung der einzelnen Parameter siehe Gl. (4.43).
41
Hierbei besteht die Möglichkeit, die Zellen der Kreuztabelle zu indizieren. Die Indizierung muß so erfolgen, daß sich der Index der ersten Variable des ersten Meßzeitpunktes am langsamsten, der Index der letzten Variable des letzten Meßzeitpunktes am schnellsten erhöht. Werden Subgruppen untersucht, so erhöht sich der Subgruppenindex am langsamsten (vgl. van de Pol et al. 1991: 4).
42
Bei multiplen Indikatorenmodellen müssen die Übergangswahrscheinlichkeiten zwischen Indikatoren der gleichen latenten Variablen auf die Einheitsmatrix fixiert werden. Insofern enthält Modellvariante LMO Restriktionen, die zur korrekten Spezifikation des Modells notwendig sind. Die gesetzten Restriktionen müssen in einem separaten File abgespeichert werden, vgl. den Restriktionsfile am Ende dieses Abschnitts. Neben den Restriktionen werden die Start werte ebenfalls in einem seperaten File abgespeichert, vgl. hierzu van de Pol et al. (1991: 11).
234
4 Modelle zur Analyse latenter Klassen
Tab. 4.7: Modellvarianten, Modellteste und Teststatistik des latenten Markov Modells
Modellvariante LMO (unrestringiert) LM1 (gleiche p' s für gleiche Variablen) LM2 (gleiche ' s) LM3 (gleiche p' s für alle Variablen)
BIG
L" (Prob. Lev.) 65.43 (.030)
df 46
AIC 2128.67
2199.38
.08
79.54 (.013)
54
2126.78
2164.21
.09
80.91 (.016)
56
2124.15
2153.26
.09
120.42 (.000)
58
2159.66
2180145
.12
Die Restriktionen der bedingten Wahrscheinlichkeiten (p) und der Übergangswahrscheinlichkeiten (r) nehmen von Modell Variante LMO nach LM3 zu. Die einzelnen Modellspezifikationen sind im Text, die Teststatistikist in Kapitel 4.1.2 erläutert.
In der Modell Variante LM1 sind die bedingten Wahrscheinlichkeiten jeder manifesten Variablen (V/R/S93 bzw. V/R/S98) über die Meßzeitpunkte gleichgesetzt. Dies bedeutet, daß sich die Meßfehler über die Meßzeitpunkte für inhaltlich gleiche Variablen nicht ändern und damit eine zeithomogene Meßtheorie angenommen wird. In der Modell Variante LM2 sind zusätzlich die Übergangswahrscheinlichkeiten zwischen dem ersten und zweiten bzw. dem zweiten und dritten Meßzeitpunkt gleichgesetzt. Dies bedeutet, daß neben einer zeithomogenen Meßtheorie auch eine zeithomogene Stabilität zwischen den latenten Variablen angenommen wird. In der Modellvariante LM3 sind alle bedingten Wahrscheinlichkeiten über Variablen und Meßzeitpunkte gleichgesetzt. Dies bedeutet, daß eine zeithomogene Meßtheorie unabhängig vom Inhalt der manifesten Variablen angenommen wird. Der Vergleich der Teststatistik für die einzelnen Modellvarianten zeigt, daß die Restriktionen der dritten Modellvariante (LM3) zu einer signifikanten Verschlechterung der Modellanpassung führen (L^jj = 120.42 - 80.91 = 39.51; dfdifj = 58 - 56 = 2; Q-Ratio = 19.76). Die Modell Variante LM2 kann somit zunächst akzeptiert werden. In Tab. 4.8 sind die geschätzten Parameter dieser Modellvariante aufgeführt. In der ersten Spalte der Tab. 4.8 sind die prozentualen Anteile der Befragten an der jeweiligen Klasse aufgeführt (ij=.155 und #2=-845). Danach ist eine deutliche Mehrheit der Befragten (ca. 85%) der zweiten Klasse und der Rest der ersten Klasse (ca. 15%) zugeordnet worden. Die bedingten Wahrscheinlichkeiten in den Spalten 2 bis 7 der Tab. 4.8 beschreiben die beiden latenten Klassen. Von den 85% der zweiten Klasse haben rund 93% der Befragten Erfolgserlebnisse (V/R/S93) und 96% das Gefühl, etwas geschafft zu haben (V/R/S98).
4.3 Die Spezifikation von Markov Modellen
235
Tab. 4.8: Geschätzte Parameter des latenten Markov Modells mit Restriktionen der Modellvariante LM2
4
3
1
2
«i
1 1 PV93|a
-1 1 PV98|a
.807
.567 (.054) .433 (.054) .040 (.009) .960 (.009)
5
6
P«93|6
PÄ98|6
-33 PS93|c
-33 PS96\c
.807 (.063) .193 (.063) .074 (.012) .926 (.012)
.567 (.054) .433 (.054) .040 (.009) .960 (.009)
.807 (.063) .193 (.063) .074 (.012) .926 (.012)
.567 (.054) .433 (.054) .040 (.009) .960 (.009)
ta
* =
*.*\\.ntäl.?stälA^ s=l
• • • • •
46
(4.67)
=1 4=1 e=l
, parametrisiert den Anteil der S Markov Ketten an der Gesamtstichprobe. i*, bezeichnet den Anteil der Klasse a an den A Klassen zum Zeitpunkt 11 für die Teilgruppe s. Pi\a» ßikt die bedingte Wahrscheinlichkeit für die Klasse a zum Zeitpunkt für die Teilgruppe s an. Pj l!» S*kt die bedingte Wahrscheinlichkeit für die Klasse b zum Zeitpunkt 12 für die Teilgruppe s an. p%?cs gibt die bedingte Wahrscheinlichkeit für die Klasse c zum Zeitpunkt i 3 für die Teilgruppe s an. Auch hier wird von einem Modell mit drei Meßzeitpunkten ausgegangen.
4.3
Die Spezifikation von Markov Modellen
247
* Tb\a» ls^ d*6 tatente Übergangswahrscheinlichkeit der Klasse a zur Klasse b für die Teilgruppe s (Zeitpunkt ti zu Zeitpunkt t^). * Tc\be ^ ^e lateBte Übergangswahrscheinlichkeit der Klasse b zur Klasse c für die Teilgruppe s (Zeitpunkt 0 (vgl. Kmenta 1986: 741).
23 24
Programm 8D im Programmpaket BMDP, vgl. Dixon et al. (1988: 679ff). Die Bezeichnungen V, R und S stehen für den 1.2. und 3. Meßzeitpunkt.
5.2
265
Analyse von Paneldaten mit fehlenden Werten
Tab. 5.4: Mittelwerte und Standardabweichungen der Streßvariablen für drei Meßzeitpunkte
Variable
N
V343 V346 V349 V350 R343 R346 R349 R350 S343 S346 S349 S350
540 540 540 540 540 540 540 540 540 540 540 540
LISTWISE MittelStandardwert abweichung 2.1741 1.0424 2.0685 0.9343 0.9942 1.8111 1.6593 0.9311 2.1537 0.9993 2.0556 0.9302 1.7611 0.9786 1.6352 0.9088 2.1870 1.0029 0.9069 2.1111 1.7407 0.9335 1.6130 0.8828
N 762 758 759 761 665 662 668 668 588 589 590 588
PAIRWISE StandardMittelabweichung wert 2.2060 1.0422 2.0765 0.9419 1.7826 0.9794 1.6873 0.9442 2.1910 1.0185 0.9385 2.0650 0.9846 1.7635 1.6542 0.9221 2.1769 1.0022 2.1019 0.9165 1.7339 0.9280 1.5884 0.8721
Tab. 5.5: Produkt-Moment-Korrelationsmatrizen der Streßvariablen 343 und 346 LISTWISE *1
V343 V346 R343 R346 S343 S346
*3
2ia· l £ L «W. ya*a J
(5-19)
Matrizen BCAT21 und BCAT22 sind ML-Schätzungen der korrespondierenden Populationsparameter. Die Matrix AS WEPT wird mit den Matrizen BCAT21, BCAT12 (invertierten Matrix BCAT21) und BCAT22 zur Matrix BCAT zusammengefaßt:
_ ASWEPT ifUAi - ^ BCAT21
BCAT11 l BCAT22 \
(t> Z(})
'
Abschließend wird (analog zu den Matrizen A und B) aus dem Mittelwertsvektor und der Kovarianzmatrix für die Variablen des ersten, zweiten und dritten Meßzeitpunktes (x, y und z) eine Matrix C gebildet, wiederum mit der Konstante l in der Position (1,1). Die Matrix C wird um "sweep"-Operatoren ausgedehnt und man erhält die Schätzungen für die Mittelwerte ( , , ) und für die Varianz/Kovarianzmatrix ( **. E*y · Eyy · · « > **) der Variablen des ersten, des zweiten und des dritten Meßzeitpunktes. Diese Matrix wird CSWEPT genannt.32 Danach wird eine Regression der Variablen des ersten und zweiten Meßzeitpunktes (x und y) auf die Variablen des dritten Meßzeitpunktes (z) durchgeführt. Als Resultat erhält man wieder eine Matrix mit Regressionskoeffizienten und eine Matrix mit Residualvarianzen bzw. -kovarianzen. Die erste Matrix wird CCAT21 und die zweite Matrix CCAT22 genannt (Marini et al. 1980: 332; Rovine/Delaney 1990: 67): CCAT21 = [ BZI.y Bzy.f ] = A.
32
*.
Matrizen C und CSWEPT werden hier nicht weiter aufgeführt, da sie im Aufbau den o. a. Eingabematrizen bzw. ausgedehnten Matrizen entsprechen. Vgl. hierzu auch das Beispiel weiter unten.
274
[
5 Das Problem fehlender Werte und die Panelmortalität
,
ziXi
ziVi
(5
OtZ
CCAT22 = V = f f**·*» ff ~
**?·*» l
(5.22)
*ai... *3 -xy J
L
Matrizen CCAT21 und CCAT22 sind ML-Schätzungen der korrespondierenden Populationsparameter. Die Matrix BSWEPT wird mit den Matrizen CCAT21, CCAT12 (invertierte Matrix CCAT21) und CCAT22 zur Matrix CG AT zusammengefaßt:
\ BSWEPT CCAT12 ] ^ CCATn CCAT11 J
,
Um die gewünschten ML-Schätzungen des Mittelwertsvektors und der Varianz/Kovarianzmatrix aller Variablen (x, y und z) zu erhalten, wird die Ausdehnung der Matrix CCAT umgekehrt (reverse sweep).33 Dadurch erhält man die Matrix MAXEST mit allen geschätzten Parametern (vgl. Marini et al. 1980: 332; Rovine/Delaney 1990: 68):
MAXEST =
l
ß'
(5.25)
wobei die ML-Schätzung des Mittelwertsvektors aller Variablen x, y und z ist und £) die ML-Schätzung der Varianz/Kovarianzmatrix der genannten Variablen. Um zu beurteilen, ob die Schätzungen brauchbar sind, sollte ein Vergleich zu den Ergebnissen mit fallweisem Ausschluß fehlender Werte (listwise deletion) und zu den Ergebnissen mit paarweisem Ausschluß fehlender Werte (pairwise deletion) durchgeführt werden. Die ML-Schätzungen sollten in ihren Werten zwischen diesen beiden Ergebnissen liegen (vgl. Rovine/van Eye 1991: 21). Beispiel für die ML-Schätzung kontinuierlicher Variablen Im folgenden wird ein Beispiel für die ML-Schätzung von Mittelwerten und Kovarianzmatrizen nach der nicht-iterativen schrittweisen Methode erläutert. Zunächst werden mit Hilfe des Programms BMDPAM die Voraussetzungen für diese Schätzung (fehlende Werte als MÄR und die monotone Ausfallstruktur) geprüft. 33
Die Umkehrung der Ausdehnung (reverse sweep) erfolgt analog zu den Gl. (5.15). Im Unterschied dazu werden hier Elemente m,-j aus den Elementen njj berechnet (vgl. Marini et al. 1980: 333): (5.24) fifcj/ttfcfc
für alle j ^ t und k i. Vgl. auch die einzelnen Programmschritte des SAS/IMLProgramms am Ende des Abschnitts.
5.2 Analyse von Paneldaten mit fehlenden Werten
275
Datenbasis des Beispiels sind die Variablen V/R/S14 (subjektive Einschätzung der eigenen Schulleistungen) und V/R/S30 (subjektive Belastung durch die Schule).34 Beide Variablen werden als kontinuierliche Variablen behandelt. Zum ersten Meßzeitpunkt fehlen den Variablen 1.3% (V/R/S14) bzw. 3.1% (V/R/S30), zum zweiten Meßzeitpunkt 15.3% bzw. 16% und zum dritten Meßzeitpunkt 24.9% bzw. 27.1% der Werte. Der überwiegende Teil der fehlenden Werte im zweiten und dritten Meßzeitpunkt ist auf die Panelmortalität (panel attrition) zurückzuführen. Bei paarweiser Betrachtung läßt sich feststellen, daß Varianzen und Kovarianzen im ersten Meßzeitpunkt auf etwa 760 Fällen, im zweiten Meßzeitpunkt auf etwa 650 Fällen und im dritten Meßzeitpunkt auf etwa 560 Fällen basieren.35 Die folgende Tab. 5.7 zeigt die Korrelationen der dichotomisierten Variablen innerhalb und zwischen den Meßzeitpunkten. Die Variablen erhalten die Ausprägung 0, wenn der Variablenwert fehlt und die Ausprägung l, wenn der vorgesehene Variablenwert vorhanden ist. Die M AR-Annahme für die fehlenden Werte kann anhand dieser Tabelle überprüft werden. Die Querschnittskorrelationen im zweiten und dritten Meßzeitpunkt (.899 und .925) zeigen an, daß fast alle fehlenden Werte auf Panelmortalität zurückzuführen sind und das Pattern gültiger und fehlender Werte nahezu identisch ist. Die deutlich niedrigere Korrelation der beiden Variablen zum ersten Meßzeitpunkt (.244) zeigt, daß im Querschnitt die MAR-Annahme nur eingeschränkt zutrifft. Es gibt demnach Personen, für die systematisch auf beiden Variablen fehlende Werte vorliegen, die auf Non-Response zurückzuführen sind. Die niedrigen Korrelationen im Längsschnitt (1. mit 2. bzw. 1. mit 3. Meßzeitpunkt) zeigen demgegenüber eine Bestätigung der MAR-Annahme. Auf Panelmortalität zurückzuführende fehlende Werte im 2. Meßzeitpunkt werden durch die Höhe der Korrelationen zwischen 2. und 3. Meßzeitpunkt belegt (> .50).
34
Variable V/R/S14 hat 5 Ausprägungen: "sehr gut" bis "sehr schwach"; Variable V/R/S30 hat 10 Ausprägungen: "gleich Null" bis "sehr stark". Die Bezeichnungen V, R und S stehen für den 1 . 2 . und 3. Meßzeitpunkt.
35
Das Programm BMDPAM zeigt entsprechende Tabellen (absolut und relativ), die hier nicht weiter aufgeführt werden.
276
5 Das Problem fehlender Werte und die Panelmortalität
Tab. 5.7: Korrelationsmatrix der dichotomisierten Variablen (N=782) *2
Jl
V14 V30 R14 R30 S14 S30
V14 1.000 0.244 -0.017 -0.019 -0.039 -0.044