Techniken der empirischen Sozialforschung: Band 8 Kausalanalyse [Reprint 2014 ed.] 9783486819502, 9783486449310


190 57 23MB

German Pages 199 [200] Year 1986

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
1. Grundzüge der Regressions· und Korrelationsanalyse
1.1 Variablen und ihre Zusammenhänge
1.1.1 Variablen, Kovarianz und Korrelation
1.1.2 Symmetrische und asymmetrische Sichtweise: Korrelation und Regression
1.2 Einfache und multiple Regressionsanalyse
1.2.1 Datenmatrix, Variable und Vektoren
1.2.2 Modellgleichungen und Modellannahmen
1.2.3 Anwendungskontexte von Regressionsmodellen
1.2.4 Schätzung der Regressionskoeffizienten im nicht-statistischen deskriptiven Regressionsmodell
1.2.5 Konsequenzen der Kleinstquadrateschätzung
1.2.6 Problem der Orthogonalität von Residue und Regressoren und die Verwendung von instrumenteilen Variablen
1.3 „Kausalmodelle“ und allgemeine lineare Abhängigkeitsstrukturen
1.3.1 Regressionsmodell als einfache lineare Abhängigkeitsstruktur
1.3.2 „Kausalmodelle“ und ihre graphische Darstellung
1.3.3 Allgemeine strukturelle Systeme und Identifikationsprobleme
1.3.4 Rekursive Strukturen als Spezialfälle identifizierter Systeme
1.4 Die Analyse der Korrelationen in rekursiven Mehr-Variablen-Systemen
1.4.1 Identifikation der Koeffizienten in vollständigen rekursiven Systemen
1.4.2 Pfadtheorem für vollständige und gerade identifizierte Systeme
1.4.3 Korrelationszerlegung: Direkte, indirekte und konfundierte Effekte
1.4.4 Unvollständige Strukturen und über-identifizierte Systeme: Konsistenztests
2. Pfadmodelle mit latenten Variablen: Eine Einführung in das allgemeine lineare Modell LISREL
Einleitung
2.1 Das Modell LISREL
2.1.1 Modellgleichungen, Modellannahmen und Spezifikation
2.1.2 Interpretation der Variablen und Beziehungen
2.1.3 Meßniveau der beobachteten Variablen
2.1.4 IK-Gleichungen, Parameter- und Modellidentifikation
2.1.5 Parameterschätzung
2.1.6 Modell- und Hypothesentestung
2.1.7 Korrektur bei Fehlspezifikationen
2.2 Spezielle Modelle und empirische Anwendungen
2.2.1 Meßfehler und konfirmatorische Faktorenanalyse
2.2.2 Rekursive und nichtrekursive Modelle mit latenten Variablen
2.2.3 Längsschnittmodelle
2.2.4 Gruppenvergleiche
2.3 Schlußbemerkung und Nachtrag
Anmerkungen
Literaturverzeichnis
3. Log-lineare Modelle
3.1 Einleitung
3.2 Log-lineare Modelle für eine bivariante Kontingenztabelle
3.2.1 Saturiertes Modell
3.2.2 Unsaturierte Modelle
3.2.3 Hierarchische Hypothesen und Modelltests auf der Basis der angepaßten Randverteilungen
3.3 Log-lineare Modelle für 2 x 2 x 2 Kontingenztabellen
3.3.1 Simultane Tests von Effekten im saturierten Modell
3.3.2 Hierarchische Hypothesen und Modelltests auf der Basis der angepaßten Randverteilungen
3.3.3 Quantifizierung von Effekten mittels Chi-Quadrat Zerlegung
3.4 Logitanalyse: Varianz- und Regressionsananlyse
3.4.1 Logitanalyse für 2 x 2 x 2 Kontingenztabellen
3.4.2 Logitanalyse für eine 2 x 3 x 2 x 3 Kontingenztabelle
3.5 Spezielle Probleme
3.5.1 Unvollständige Tabellen
3.5.2 Zusammenfassung von Kategorien und Variablen
3.5.3 Substantielle versus statistische Signifikanz
3.5.4 Strategien zur Bestimmung eines „besten“ Modells
3.5.5 Nichthierarchische Modelle
3.5.6 Nichtlineare Effekte
3.5.7 Konkurrenten log-lineare Modelle
3.5.8 Computerprogramme
3.6 Rekursive Pfadmodelle
3.6.1 Rekursive und nicht-rekursive Systeme
3.6.2 „The american soldier“: Ein konkretes Beispiel
3.6.3 Zur Kausalstruktur von Schulnoten: Ein zweites Beispiel
3.7 Manifeste und latente Variablen: Latente Klassen- und Strukturanalyse
3.7.1 Vorbemerkung
3.7.2 Maximum Likelihood Latent Structure Analysis
3.7.3 MLLSA als Spezialfall log-linearer Modelle
Literaturverzeichnis
Namenregister
Sachwortregister
Recommend Papers

Techniken der empirischen Sozialforschung: Band 8 Kausalanalyse [Reprint 2014 ed.]
 9783486819502, 9783486449310

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Techniken der empirischen Sozialforschung

Techniken der empirischen Sozialforschung

Bearbeitet von G. Albrecht Η. v. Alemán Κ. R. Allerbeck C. Besozzi D. Betz B. Biervert G. Buttler M. Dierkes R. Dolíase E Erbslöh H. Esser E. Helten W. Herkner Th. Herz

P. Höhmann H. Huber H. J. Hummel W. Jagodzinski H. D. Klingemann K. Knorr J. v. Koolwijk H. Kreutz R. Langeheine H. Lück W. Manz E. Mochmann H. Nowotny G. Ortlieb

F. U. Pappi Κ. R. Scherer H. Schmerkotte 1. Stelzl M. Sturm E. Timaeus S. Titscher Th. Vajna R. Wegner Α. Weidmann Κ. Wieken G. Wiendieck H. Zehnpfennig

Herausgegeben von Jürgen van Koolwijk und Maria Wieken-Mayser

(|$f) R. Oldenbourg Verlag München

Techniken der empirischen Sozialforschung 8. Band Kausalanalyse

dargestellt von Hans J. Hummell/Wolfgang Jagodzinski/Rolf Langeheine

flbk

TO m

R. Oldenbourg Verlag München

Hinweis: Mit dem vorliegenden Band 8 ist das Werk abgeschlossen; Band 1 wird nicht erscheinen.

CIP-Kurztitelaufnahme der Deutschen Bibliothek Techniken der empirischen Sozialforschung

/ beaib.

von G. Albrecht... Hrsg. von Jürgen van Koolwijk u. Maria Wieken-Mayser. - München : Oldenbourg. Teilw. mit d. Erscheinungsorten MUnchen, Wien NE: Albrecht, Günter [Bearb.] ; Koolwijk, Jürgen van [Hrsg.] Bd. 8. Kausalanalyse / dargest. von Hans J. Hummell ... - 1986. ISBN 3-486-44931-1 NE: Hummell, Hans J. [Mitverf.]

© 1986 R. Oldenbourg Verlag GmbH, München Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, der Funksendung, der Wiedergabe auf photomechanischem oder ähnlichem Wege sowie der Speicherung und Auswertung in Datenverarbeitungsanlagen, bleiben auch bei auszugsweiser Verwertung vorbehalten. Werden mit schriftlicher Einwilligung des Verlages einzelne Vervielfältigungsstücke für gewerbliche Zwecke hergestellt, ist an den Verlag die nach § 54 Abs. 2 Urh.G. zu zahlende Vergütung zu entrichten, über deren Höhe der Verlag Auskunft gibt. Umschlagentwurf: Günter Mittermeier, München Druck: Grafik + Druck, München Bindearbeiten: R. Oldenbourg Graphische Betriebe GmbH, MUnchen

ISBN 3-486-44931-1

Inhaltsverzeichnis

1.

Grundzüge der Regressions- und Korrelationsanalyse von Hans J. Hummell

9

1.1 1.1.1 1.1.2

Variablen und ihre Zusammenhänge Variablen, Kovarianz und Korrelation Symmetrische und asymmetrische Sichtweise: Korrelation und Regression

1.2 1.2.1 1.2.2 1.2.3 1.2.4

Einfache und multiple Regressionsanalyse 14 Datenmatrix, Variable und Vektoren 14 Modellgleichungen und Modellannahmen 15 Anwendungskontexte von Regressionsmodellen 19 Schätzung der Regressionskoeffizienten im nicht-statistischen deskriptiven Regressionsmodell 20 Kleinstquadrateschätzung im bivariaten Fall 21 Verallgemeinerung der Kleinstquadrateschätzung für m - 1 Regressoren (multiple Regression) 25 Konsequenzen der Kleinstquadrateschätzung 34 Orthogonalitätsbeziehungen und quadratische Zerlegungen 34 Zusammenfassung der Beziehungen zwischen Varianzen und Kovarianzen 35 Multiple Determination und multiple Korrelation 36 Problem der Orthogonalität von Residue und Regressoren und die Verwendung von instrumenteilen Variablen 38

1.2.4.1 1.2.4.2 1.2.5 1.2.5.1 1.2.5.2 1.2.5.3 1.2.6 1.3 1.3.1 1.3.2 1.3.3 1.3.3.1

10 10 12

„Kausalmodelle" und allgemeine lineare Abhängigkeitsstrukturen . . 41 Regressionsmodell als einfache lineare Abhängigkeitsstruktur 41 „Kausalmodelle" und ihre graphische Darstellung 42 Allgemeine strukturelle Systeme und Identifikationsprobleme 46 Identifikation der strukturellen Parameter durch Anwendung instrumenteller Variablen 48 13.3.2 Methode der indirekten kleinsten Quadrate 52 1.3.3.3 Weitere Beispiele für nicht-identifizierte und identifizierte Systeme . 54 1.3.4 Rekursive Strukturen als Spezialfälle identifizierter Systeme 57

6

1.4 1.4.1 1.4.2 1.4.3 1.4.4

Inhaltsverzeichnis

Die Analyse der Korrelationen in rekursiven Mehr-VariablenSystemen Identifikation der Koeffizienten in vollständigen rekursiven Systemen Pfadtheorem für vollständige und gerade identifizierte Systeme . . . . Korrelationszerlegung: Direkte, indirekte und konfundierte Effekte . Unvollständige Strukturen und iiber-identifizierte Systeme: Konsistenztests Literaturverzeichnis

2.

59 59 63 66 68 75

Pfadmodelle mit latenten Variablen: Eine Einführung in das allgemeine lineare Modell L I S R E L von Wolfgang Jagodzinski

77

Einleitung

77

2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.4.1 2.1.4.2 2.1.5 2.1.6 2.1.7

Das Modeü LISREL Modellgleichungen, Modellannahmen und Spezifikation Interpretation der Variablen und Beziehungen Meßniveau der beobachteten Variablen IK-Gleichungen, Parameter-und Modeilidentifikation Indikatorvarianz-und-koVarianzgleichungen Identifikation Parameterschätzung Modell- und Hypothesentestung Korrektur bei Fehlspezifikationen

79 79 82 83 83 83 84 89 91 92

2.2 2.2.1 2.2.2 2.2.3 2.2.4

Spezielle Modelle und empirische Anwendungen Meßfehler und konfirmatorische Faktorenanalyse Rekursive und nichtrekursive Modelle mit latenten Variablen Längsschnittmodelle Gruppenvergleiche

2.3

3.

94 94 98 100 102

Schlußbemerkung und Nachtrag

103

Anmerkungen

107

Literaturverzeichnis

111

Log-lineare Modelle von Rolf Langeheine

122

3.1

Einleitung

122

3.2 3.2.1 3.2.2 3.2.3

Log-lineare Modelle für eine bivariante Kontingenztabelle Saturiertes Modell Unsaturierte Modelle Hierarchische Hypothesen und Modelltests auf der Basis der angepaßten Randverteilungen

125 126 130 133

Inhaltsverzeichnis

3.3 3.3.1 3.3.2

7

136 137

3.3.3

Log-lineare Modelle für 2 χ 2 χ 2 Kontingenztabellen Simultane Tests von Effekten im saturierten Modell Hierarchische Hypothesen und Modell tests auf der Basis der angepaßten Randverteilungen Quantifizierung von Effekten mittels Chi-Quadrat Zerlegung

3.4 3.4.1 3.4.2

Logjtanalyse: Varianz- und Regressionsananlyse Logitanalyse für 2 χ 2 χ 2 Kontingenztabellen Logitanalyse für eine 2 x 3 x 2 x 3 Kontingenztabelle

143 143 148

3.5 3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 3.5.6 3.5.7 3.5.8

Spezielle Probleme Unvollständige Tabellen Zusammenfassung von Kategorien und Variablen Substantielle versus statistische Signifikanz Strategien zur Bestimmung eines „besten" Modells Nichthierarchische Modelle Nichtlineare Effekte Konkurrenten log-lineare Modelle Computerprogramme

152 152 153 155 157 159 160 160 163

3.6 3.6.1 3.6.2 3.6.3

Rekursive Pfadmodelle Rekursive und nicht-rekursive Systeme „The american soldier": Ein konkretes Beispiel Zur Kausalstruktur von Schulnoten: Ein zweites Beispiel

164 164 167 171

Manifeste und latente Variablen: Latente Klassen- und Strukturanalyse . 3.7.1 Vorbemerkung 3.7.2 Maximum Likelihood Latent Structure Analysis 3.7.2.1 GOODMAN'S Version der MLLSA 3.7.2.2 Quantifizierung von Effekten in Pfaddiagrammen 3.7.3 MLLSA als Spezialfall log-linearer Modelle

138 142

3.7

Literaturverzeichnis

173 173 174 175 186 187 190

Namenregister

196

Sachwortregister

198

1. Grundzüge der Regressions- und Korrelationsanalyse von Hans J. Hummell

Im folgenden wird eine einführende Darstellung des Regressionsmodells und seiner Verallgemeinerung zur Analyse von Korrelationen in rekursiven Mehr-VariablenSystemen gegeben. Die grundlegenden Konzepte und die Logik der Vorgehensweise bei der Analyse linearer Abhängigkeitsstrukturen sind anhand dieser elementaren Modelle so allgemein dargestellt, daß der Bezug zu komplexeren Modellen deutlich wird. Statistische Probleme werden dabei grundsätzlich ausgeklammert. Auf nicht-rekursive Systeme werden wir nur kurz eingehen. Weitere Spezialprobleme werden in den beiden anderen Beiträgen dieses Bandes ausführlich behandelt: -*• Bd. VIII: Jagodzinski befaßt sich mit der Berücksichtigung von systematischen Meßfehlern und hypothetischen Konstrukten und Bd. VIII: Langeheine mit der Verwendung nicht metrischer Variablen. Zunächst noch einige Anmerkungen zu den im Literaturverzeichnis genannten Titeln: Die klassischen Beiträge zur Anwendung linearer Abhängigkeitsstrukturen und Gleichungssysteme in den Sozialwissenschaften von HERBERT SIMON (1954), OTIS DUDLEY DUNCAN (1966) und RAYMOND BOUDON (1968) finden sich in deutscher Übersetzung in dem von H. J. HUMMELL und R. ZIEGLER (1976a) herausgegebenen Sammelband; ebenso wie wichtige Teile des Kapitels 3 von H. M. BLALOCK (1961). Eine Sammlung von Einzelbeiträgen und Artikeln enthält auch H. M. BLALOCK (1971). Versuche einer Gesamtdarstellung, in deutscher Sprache, sind: K. D. OPP / P. SCHMIDT (1976); H. J. HUMMELL und R. ZIEGLER (1976b); E. WEEDE(1977); K. HOLM (1979). Zur Regressionsanalyse siehe auch: D. URBAN (1982). Als wichtige englischsprachige Darstellung sei 0 . D. DUNCAN (1975) genannt. Weiterführende Beiträge zu Spezialproblemen findet man regelmäßig in den jährlich erscheinenden Bänden von „Sociological Methodology". Hinsichtlich der statistischen Aspekte sei auf die ökonometrische Literatur verwiesen: neben der Einführung von R. J. WONNACOTT und TH. WONNACOTT (1970) auch A. S. GOLDBERGER (1964), C. F. CHRIST (1966), F. M. FISHER (1966), P. SCHÖNFELD (1969) und J. JOHNSTON (1972) sowie Beiträge in ->· Bd. VI: Statistische Forschungsstrategien.

10

8. Band: Kausalanalyse

1.1

Variablen und ihre Zusammenhänge

1.1.1

Variablen, Kovarianz und Korrelation

Als Ausgangspunkt für die folgende Darstellung sei vorausgesetzt, daß man sich für Zusammenhänge einer Reihe von Variablen Χγ ... Xm in einer gegebenen Gesamtheit von η Einheiten interessiert, welche bezüglich der Werte der Variablen betrachtet werden. Es sei unterstellt, daß die Variablen metrisch sind, d.h. die Regeln, nach denen den Einheiten (durch „Beobachtung" bzw. „Messung") Werte zugewiesen werden, genügen insgesamt den Kriterien mindestens von Intervallskalen. Im einfachsten Fall werden die η Einheiten nur durch die („beobachteten", „gemessenen") Werte von zwei (Beobachtungs-)Variablen X und Y charakterisiert, Während bei asymmetrischer Sichtweise eine der beiden Variablen als abhängige (determinierte, zu erklärende) und die andere als erklärende (explikative, „unabhängige") ausgezeichnet werden, kommt es bei symmetrischer Sichtweise allein auf die Frage an, ob und in welchem Grade beide gemeinsam variieren. Als wichtige Maßzahl für die Richtung und das Ausmaß gemeinsamer Variation von zwei Variablen in einer Untersuchungsgesamtheit steht die (empirische) Kovarianz von X und Y zur Verfügung, deren Eigenschaften kurz rekapituliert werden sollen. Gegeben seien die η Paare (x¡, y¡) (/' = 1 , 2 . . η) der η Beobachtungswerte von Χ und Y. Betrachtet man diese Wertepaare lediglich unter dem Aspekt, ob ihre beiden Komponenten unter bzw. über den jeweiligen Mittelwerten χ bzw.fliegen, also nur die jeweiligen Abweichungen ( * , - - * ) bzw. ( y ¡ - y ) ,

so erhält man für die Verteilung der beobachteten η Einheiten folgende Vierfeldertabelle mit dem eingetragenen Muster der Vorzeichen der beiden Abweichungen (hierbei wurden die Fälle mit x¡ = χ bzw.y¡ = y den Fällen zugeordnet, für welche die Abweichungen positiv sind):

Oi - y ) > 0 iyi-y)

-

+

< o (x¡ — x)

< 0

( X j - X ) > 0

Bildet man die Summe der Abweichungsprodukte (x¿ - χ) · (y,·-y),so bedeutet ein Überwiegen von Fällen mit den Vorzeichenmustern (++) und ( — ) , daß diese Summe tendenziell positiv wird, und zwar wird sie um so eher positiv sein und um so größer sein, je größer die individuellen Abweichungen sind und je häufiger große Abweichungen bei X mit gleichgerichteten großen Abweichungen bei Y einher-

gehen.

1. Kapitel: Grundzüge der Regressions- und Korrelationsanalyse

11

In analoger Weise wird die Summe der Abweichungsprodukte tendenziell negativ werden, wenn Fälle mit den Vorzeichenmustern (+—) und (—+) überwiegen. Dementsprechend gibt die Verteilung der Fälle nach den Vorzeichenmustern einen Hinweis auf die Richtung und das Ausmaß der Beziehung zwischen X und Y in der betrachteten Gesamtheit von η Einheiten. Man kann zeigen, daß im Falle der statistischen Unabhängigkeit beider Beobachtungsvariablen in der betreffenden Gesamtheit diese Summe der Abweichungsprodukte Null ist. Um den Effekt der Zahl der beobachteten Einheiten auszuschalten, dividiert man die Summe der Abweichungsprodukte durch η und erhält damit als empirische Kovarianz von zwei Beobachtungsvariablen X und Y in einer gegebenen Gesamtheit: 1 " Cov {X, y): = — Σ (*,• - χ) • (yi - y) η

1

i= 1 π

_ _ = η ί=1 , χ$ί-χ ·y 1 η 1 η 1 η = - Σ xiyi - (— Σ *,-)•(Σ yt) η i=1 η ι=1 η ι=1 Nun gilt fur Kovarianzen, daß diese sich zwischen den folgenden Grenzen bewegen, die für jede Gesamtheit durch die Varianzen bestimmt sind: -

Σ

- v / V a r ( X ) V V a r ( y ) < Cov (X, Y) < v/Var(X) · VVar(y). Mit Var (X) bzw. Var (y) sind die empirischen Varianzen von X und Y in der vorliegenden Gesamtheit gemeint. Hieraus wird ersichtlich, daß sich die Kovarianz standardisierter Variablen zwischen —1 und +1 bewegt. Für die Eigenschaften der Kovarianz ist festzuhalten : 1. Das Vorzeichen der Kovarianz definiert die Richtung der gemeinsamen Beziehung zwischen zwei Variablen. 2. Sind die beiden Variablen statistisch unabhängig, so verschwindet ihre Kovarianz. 3. Ober- und Untergrenzen der Kovarianz variieren zwar von Gesamtheit zu Gesamtheit, sind aber für jede Gesamtheit fest. Die dritte Eigenschaft gibt Anlaß, die Kovarianz durch den Absolutbetrag ihrer festen Grenzen zu dividieren, so daß sie sich nunmehr zwischen - 1 und +1 bewegt. Man erhält dann den Koeffizienten der linearen Korrelation zwischen X und Y (Pearson Bravais-Korrelationskoeffizienten) Corr (X, Y) (auch: rxy oder einfach: r). Die erste und zweite Eigenschaft werden durch diese Normierung nicht berührt. Damit kann man auch sagen: Die lineare Korrelation von zwei Variablen ist ihre standardisierte Kovarianz oder die Kovarianz der beiden aus ihnen durch Standardisierung erhaltenen Variablen. Entsprechend ist die Korrelation von X und Y auch ein Ausdruck für ihre gemeinsame Variation: Corr (X, Y) : =

Cov (X, y) W a r (AO W a r ( y )

12

1.1.2

8. Band:

Kausalanalyse

Symmetrische und asymmetrische Sichtweise: Korrelation und Regression

Kovarianz und Korrelation bringen eine symmetrische Sichtweise zum Ausdruck. Es bleibt damit offen, ob der gemeinsame Zusammenhang zwischen X und Y möglicherweise auf eine gerichtete Abhängigkeitsbeziehung von X nach Y oder von Y nach X zurückzuführen ist. Grundsätzlich sind beide Sichtweisen möglich, auch die Vorstellung, daß es zwischen X und Y eine wechselseitige Abhängigkeit in beiden Richtungen (Interdependenz) gibt. Allerdings ist aufgrund einer gegebenen gemeinsamen Verteilung der Einheiten nach den beiden Variablen X und Y keine Entscheidung über die drei konkurrierenden Annahmen (oder noch komplexere) möglich. Hierzu bedarf es weiterer über die bivariate gemeinsame Häufigkeitsverteilung hinausgehender Informationen. In dem einfachen bivariaten Regressionsmodell wird vorausgesetzt, daß es sinnvoll ist, eine der beiden Richtungen einer Abhängigkeit anzunehmen, so daß dann die asymmetrische Abhängigkeitsbeziehung entweder von X auf Y oder von Y auf X weiter untersucht werden kann. (Die dritte mögliche Annahme — Interdependenz - würde im bivariaten Regressionsmodell zu Widersprüchen führen und verlangt daher komplexere Mehr-Variablen-Modelle; siehe 1.3). Unter Vorwegnahme der Resultate der Regressionsanalyse läßt sich das Konzept der gemeinsamen Variation von X und Y noch weiter erläutern. Unterstellen wir, daß es „gute Gründe" gibt (diese können logisch-analytischer, deskriptiv-empirischer oder auch theoretischer Natur sein), eine einseitige Abhängigkeitsbeziehung von X nach Y anzunehmen. Dann bedeutet dies, daß wir die beobachtbare Variation in den F-Werten teilweise auf die Tatsache zurückführen können, daß die .Y-Werte variieren und daß zwischen X und Y eine Abhängigkeit besteht. Ein linearer Zusammenhang von X nach Y liegt dann vor, wenn die K-Werte für die η Einheiten als lineare Funktion ihrer X-Werte und eventuell anderer (nicht beobachteter oder nicht gemessener) Variablen e beschrieben werden können. Falls additive Konstante nicht auftreten heißt dies, daß für die η Wertepaare (x¡, y,·) folgende Beziehung gilt y i = a x¡ + e¡ (i =

1 ... n).

Aufgrund der Bedingungen, die im Zusammenhang mit der Regressionsanalyse im einzelnen diskutiert werden (vgl. 1.2.4.1 und 1.2.5.2), gilt dann für die empirischen Varianzen von X und Y Var (Y)

= a2 Var ( X ) + Var (e)

Var (y) = Cov2 (.X, Y)/Var (X) + Var (e) 1

= Cov2 (X, Y)/Var (X) • Var (F) + Var (e)/Var ( y )

1

= Corr 2 {X, Y) + Var (e)/Var (7)

D.h. die Variation der K-Werte wird in zwei Komponenten zerlegt, die einmal auf den linearen Zusammenhang von X nach Y und einmal auf weitere Variablen zurückzuführen sind.

1. Kapitel: Grundzüge der Regressions· und Korrelationsanalyse

13

Hierbei ist die symmetrische Kovarianz eine Funktion des Ausmaßes, in dem Varianz in Y durch Varianz in X erzeugt wird. Das Quadrat des symmetrischen Korrelationskoeffizienten gibt gerade anteilmäßig die Varianz in 7 an, die auf einen linearen Zusammenhang mit X zurückzuführen ist. Da die Richtung der Abhängigkeitsbeziehung auch von Y nach X angesetzt werden kann, zeigt ein analoges Argument, daß Kovarianz und Korrelation auch als Funktionen des Ausmaßes interpretierbar sind, in welchem X als durch Y linear „determiniert" angesehen werden kann. Welche der beiden asymmetrischen Interpretationen der symmetrischen Koeffizienten erlaubt sind, ist durch die gemeinsame Verteilung von X und Y jedoch nicht entscheidbar. Unter Verwendung dieses Resultats und der Tatsache, daß die Korrelation eine standardisierte Kovarianz ist, kann man zusammenfassend festhalten: 1. Das Vorzeichen des Korrelationskoeffizienten gibt an, ob beide Variablen gleichsinnig oder entgegengesetzt variieren. 2. Falls die beiden Variablen statistisch unabhängig sind, verschwindet ihre Korrelation. 3. Die Korrelation variiert zwischen —1 und +1; diese Grenzen werden dann erreicht, wenn zwischen beiden Variablen ein perfekter negativer bzw. perfekter positiver linearer Zusammenhang besteht. 4. Das Quadrat des Korrelationskoeffizienten gibt den Anteil der Varianz der einen Variable an, der auf einen linearen Zusammenhang mit der jeweils anderen zurückzuführen ist. zur Notation: Analog zu den Erwartungswerten und Momenten von Zufallsvariablen lassen sich im Falle endlicher Gesamtheiten von beobachteten Einheiten empirische Momente für (Beobachtungs-) Variablen definieren.

Bemerkungen

Das (nicht zentrale) Produktmoment von zwei Beobachtungsvariablen X und Y ist definiert als: ι m (Χ,

Y):

= η

η Σ

ι= 1

x¡y¡

η = Σ

1 - χ ^ η

ι=1

Mit Hilfe einer fiktiven Variablen 1, deren Werte konstant gleich 1 sind, ist definiert als m(X):

= m (Χ,

1 η 1) = - Σ «ι = 1



η = Σ

m(X)

ι

/= 1

—χ,· η

Unter Verwendung der empirischen Momente lassen sich nun die üblichen statistischen Maßzahlen wie Mittelwert, Kovarianz und Varianz einführen: χ

: = m (X)

C o v ( X , Y) : = m(X~x,

Y - y )

= m (X, Y ) - m (X) m

(Y)

14

8. Band: Kausalanalyse

Var (Χ)

: = Cov (Χ, Χ) =

m (Χ, Χ ) - m ( Χ ) m ( Χ )

mit m (Χ2) : = m (Χ, Χ )

= m ( Χ 2 ) - [m (Χ)]2

(Falls die Ausdrücke eindeutig interpretierbar sind, wird im folgenden das Komma in m (X, Y), m (Χ, Χ), Cov (Χ, Υ) weggelassen.) Für zentrierte Variablen U und V lassen sich die Ausdrücke für Kovarianz und Varianz weiter vereinfachen: Cov (U, V) = m {U, V) und Var {U) = m

(U2).

Zwei Variablen X und Y, deren nicht zentrales Produktmoment verschwindet, heißen

orthogonal·.

X und Y orthogonal : g.d.w. m(X, Y) = 0 Sind zwei Variablen unkorreliert, verschwindet ihre Kovarianz. Ist weiterhin mindestens eine von ihnen zentriert, dann sind sie auch orthogonal: m (X, U) = 0 falls X und U unkorreliert und m (Ü) = 0. m{ , ) ist ein Operator, der linear ist in beiden Argumenten. D.h. es gilt insbesondere folgende allgemeine Rechenregel: m (οίΧ + β Y,y

U + δ V) = ay m (X, U) + αδ m (Χ, V) + β γ m (7, U) + βδ m (Y,

Der Zusammenhang mit dem Skalarprodukt von Vektoren läßt sich auf folgende Weise herstellen: 1 m (Χ, Y) = — xy η

1 =-y'x

(vgl. 1.2.1).

η

1.2

Einfache und multiple Regressionsanalyse

1.2.1

D a t e n m a t r i x , Variable u n d V e k t o r e n

Nachdem gezeigt wurde, daß Kovarianzen und Korrelationen wesentlich symmetrische Konzepte sind, soll zur asymmetrischen Sichtweise übergangen werden. Verallgemeinernd wird unterstellt, daß mehr als zwei Beobachtungsvariablen gegeben sind. Ausgegangen wird also von η Einheiten, die durch die Ausprägungen einer gegebenen Menge von m Variablen Χγ, X2, ••• Xm gleichzeitig charakterisiert werden. Vorausgesetzt wird weiterhin, daß die m Variablen metrisch sind. Das Resultat der Beobachtungen (Messung) der η Einheiten läßt sich durch eine η χ m-dimensionale Matrix

der Beobachtungswerte

oder Datenmatrix

darstellen,

V)

1. Kapitel: Grundzüge der Regressions· und Korrelationsanalyse

15

indem man den η Zeilen der Matrix die Einheiten und den m Spalten die Variablen zuordnet: X

UX12

X

x

21 22

x

lm

x

2m

χ = (*,',·) = x

nlxn2

Der allgemeine Eingang x if · der Matrix X = {χ φ in der /-ten Zeile und /-ten Spalte gibt an, welchen Wert die /'-te Einheit bezüglich der /-ten Variable besitzt. Die Datenmatrix kann auf zweierlei Weise gelesen werden: 1. Sie besteht aus η (Zeilen-)Vektoren mit jeweils m Komponenten. Der/'-te Zeilenvektor •*'(/') = x¡2 x i m ) stellt eine vollständige Charakterisierung der /'-ten untersuchten Einheit in bezug auf alle m berücksichtigten Variablen dar. 2. Sie besteht aus m (Spalten-) Vektoren mit jeweils η Komponenten. Jeder dieser Spaltenvektoren χ j = {x\p X2j, ·•·>*„>·)' ist die Folge aller Werte einer bestimmten Variablen Xj für alle η untersuchten Einheiten. Wenn man von einer endlichen Untersuchungsgesamtheit ausgeht und die Beobachtungsergebnisse durch eine Datenmatrix darstellt, kann man jede Variable mit der Folge ihrer Werte für alle Einheiten, also mit einem Spaltenvektor identifizieren. Statt über eine Variable Xj zu sprechen, kann man auch über einen Vektor Xj mit η Komponenten sprechen, nämlich die /-te Spalte der Datenmatrix. Unter Verwendung der Zeilenvektoren x' (/) (/' = 1 ... n) bzw. der Spaltenvektoren Xj (J = 1 ... m) läßt sich die Datenmatrix auch alternativ darstellen als: fx'( 1) X =1 χ'(2)

\ = (xl,x2,

-,xm)

(Hierbei und im folgenden werden Vektoren grundsätzlich als Spaltenvektoren geschrieben; Zeilenvektoren sind dann als transponierte Spaltenvektoren darzustellen; " ' " ist das Transp'ositionszeichen.) 1.2.2

Modellgleichungen und Modellannahmen

In der Regressionsanalyse unterstellt man für die m Variablen (zumindest approximativ) einen funktionalen Zusammenhang, der es erlaubt, eine Variable auszusondern und als „abhängige" oder zu „prognostizierende" Variable (Regressand) den restlichen Variablen gegenüberzustellen, welche dann als „explikative" oder „erklärende" („unabhängige") Variablen (oder als Regressoren, Prädiktoren) bezeichnet werden. Die bei weitem wichtigste, weil einfachste, Klasse mathematischer

16

8. Band: Kausalanalyse

Funktionen, die zur Beschreibung der Variablenzusammenhänge in Frage kommen, ist die der linearen (bzw. allgemeiner: affinen) Funktionen. Zwischen drei Variablen X^, X2 und X 3 würde beispielsweise tin perfekter affiner Zusammenhang bestehen, wenn sie einer linearen Gleichung mit den Koeffizienten γ 0 , γ ] , γ 2 , γ 3 genügen, wobei , γ 2 und γ 3 nicht alle gleich Null sind. (1)

7i

+ T2*2

+

?3*3

+

0

Ύθ =

(Ist γ 0 = 0, heißt der Zusammenhang linear im strengen Sinne, ansonsten affin.) Die Variablen Xif X2 und Λ"3 erfüllen genau dann die lineare Gleichung (1), wenn alle beobachteten Wertetripel x' (/) = (χ,·1( x¡2, die Gleichung erfüllen, d.h. wenn η Gleichungen mit konstanten Koeffizienten 7o> Τι> 72 Ύ3 gegeben sind: y i x i l + y2 x i2 + Τ 3 *j3 + To = 0 (i = l . . . η) Durch Verwendung von Spaltenvektoren (für die Folgen von Beobachtungswerten für die drei Variablen) läßt sich dieses Gleichungssystem kompakter schreiben als Tl*l

+

7 2 *2 + ? 3 * 3



01

=

0

(1 ist der η-dimensionale Spaltenvektor, dessen Eingänge alle gleich 1 sind). Wenn nun 7 j Φ 0, y2 Φ 0, γ 3 Φ 0, kann man jede der drei Variablen aussondern und als Linearkombination der beiden restlichen sowie der Konstanten 1 darstellen (2.1) (2.2)

χ

= - Ί ΐ χ Τι

h

χ

Τι

Δ ΐ \ Τ!

χ2 = - — * ι - — *3 _2Qi

oder oder

Τ2 (2.3)

*3 = - 2 λ



?3

Τ3

χ

2*1 γ3

In der ersten Gleichung ζ. Β. ist Χι eine Linearkombination von X2, X 3 und 1 mit den Koeffizienten — T2/T1 » - Ύ3/Τ1 bzw. — Το/Τι · Falls 7 0 = 0, aber weiterhin yk Φ 0 (k = 1,2,3) besteht zwischen den Xlt X2 und X3 ein perfekter linearer Zusammenhang, der es z.B. erlaubt, Χγ als Linearkombination nur von X2 und X^ zu schreiben. Ist z.B. γ 1 = 0, kann nicht als Linearkombination der beiden anderen dargestellt werden, aber dann würde bei sonstiger Gültigkeit von Gleichungen (1) zwischen X2 und ein perfekter affiner (γ 0 Φ 0) oder linearer (γ 0 = 0) Zusammenhang bestehen, der es erlauben würde, entweder X2 als Linearkombination von X3 (und ggfs. 1) oder umgekehrt. Λ"3 als Linearkombination von X2 (und ggfs. 1) darzustellen. Variablen, die in einem perfekten linearen oder affinen Zusammenhang stehen, heißen linear abhängig. Man erkennt also, daß ein gegebener linearer Zusammenhang zwischen m Variablen mit bis zu m verschiedenen Modellvorstellungen darüber vereinbar ist, welche der m Variablen nun als „abhängig" zu betrachten ist und welche dementsprechend als „erklärend".

1. Kapitel: Grundzüge der Regressions- und Korrelationsanalyse

\7

Die Regressionsanalyse setzt nun voraus, daß es sinnvoll ist, eine ganz bestimmte Variable als abhängig auszusondern. Seien die Variablen im folgenden so numeriert, daß mit Χι ...Xm_i die m — 1 erklärenden Variablen gemeint sind; Xm ist dann die abhängige Variable, die auch mit Y bezeichnet werden soll. Nach einer Umordnung, durch welche die erste Spalte den 7-Werten zugeordnet wird, lautet die Datenmatrix: X = iy,X\,X2

χ

·

πι-0

X = 0 . ^ ( 1 . . . m-1))' wobei ,X{1 _ i) die Matrix der Beobachtungswerte der m—1 erklärenden Variablen bezeichnet. Besteht zwischen den m Variablen ein perfekter linearer bzw. affiner Zusammenhang und kann man Xm = Y als abhängige Variable aussondern, so genügen die beobachteten Werte folgenden η Gleichungen (3)

y ι = βι χη + α 2 x ¿2 + ... am _ ι xim _1+cc0

0 = 1 ... ri)

Die Vektorenschreibweise verdeutlicht, daß Y als Linearkombination der erklärenden Variablen sowie evtl. eines konstanten Vektors a 0 = α 0 1 , dessen Komponenten alle gleich a 0 sind, angesetzt wird: y =

βι

* ! +a2X2

m-1 y = .ς

+

- xi2> •·· xim-0 Einheiten, die entweder beobachtet oder durch geeignete Transformation der beobachteten Werte gewonnen wurden. Gesucht sind Koeffizienten α.· (J = 0, 1 , 2 , ..., m - 1), mit deren Hilfe aus den Werten der Variablen Xj (j = 1 , 2 m - 1) unter Verwendung einer linearen Funktion ( 4 ) y r Werte berechnet werden können, die die tatsächlichen 7¿-Werte möglichst gut approximieren, dJi. eine vorgegebene Fehlerfunktion minimieren. (Falls eine Lösung gefunden wurde, hat man auch die η Abweichungen e¡ der prognostizierten von den tatsächlichen Werten gefunden.)

20

8. Band: Kausalanalyse

Dieses einfachste Modell der Regressionsanalyse ist deskriptiv: es geht um eine möglichst gute Beschreibung einer gegebenen Menge von Daten durch lineare Funktionen. Im Unterschied dazu werden bei einer strukturellen Interpretation Hypothesen dahingehend formuliert, daß die Beziehungen zwischen den betrachteten Variablen (zumindest in der Untersuchungsgesamtheit) linear sind. Das Problem ist dann nicht, die Koeffizienten so zu bestimmen, daß die Beschreibung möglichst gut wird, sondern die unbekannten Parameter der linearen Strukturgleichungen zu schätzen. Weiterhin ist das einfachste Modell der Regressionsanalyse· nicht statistisch : Ziel ist eine Approximation der Werte in der gegebenen Untersuchungsgesamtheit. In die Lösung gehen keine statistischen Überlegungen darüber ein, wie die Beobachtungsresultate zustande gekommen sein können; insbesondere ist es irrelevant, ob die untersuchte Gesamtheit eine (Zufalls-) Stichprobe aus einer bestimmten Population ist. In statistischen Regressionsmodellen geht es hingegen darum, anhand der Daten einer Stichprobe die Koeffizienten bzw. (im Falle der Linearitätshypothese) die strukturellen Parameter der Population zu schätzen und Aussagen über die Güte der Schätzung zu formulieren, z.B. auch mit welchen Schätzfehlern zu rechnen ist (ausführlich

Bd. V I : Sturm und Vajna, Zufallsstichproben 2.5.4 u n d

Buttler, Testverfahren 4.7). Den Anwendungen der nicht-statistischen Versionen der Regressionsanalyse liegen keine Voraussetzungen über die Verteilungsform der Variablen zugrunde; derartige Annahmen sind erst in den statistischen Modellen erforderlich. 1.2.4

Schätzung der Regressionskoeffizienten im nicht-statistischen deskriptiven Regressionsmodell

Für das folgende sei die Datenmatrix gegeben, die nach Aussonderung einer Variablen Y als abhängige Variable geschrieben wird als Χ = (γ X^ m_ j)). Die Variablen von X seien wiederum metrisch. Die Werte aller erklärenden Variablen seien fehlerfrei gemessen. (Falls die erklärenden Variablen durch Transformationen aus anderen hervorgegangen sind, müssen die Werte der Ausgangsvariablen fehlerfrei gemessen sein.) Etwaige Meßfehler von Y hingegen können im Sinne von Abschnitt 1.2.2 als eine Komponente der Residualvariable berücksichtigt wer-, dem. Allerdings ist dann die unten in 1.2.6 diskutierte Bedingung der Orthogonalität von Residuen mit den Regressoren zu beachten. Zusätzlich sei vorausgesetzt, daß die erklärenden Variablen Xj (J = 1 ... m — 1) linear unabhängig sind. Dies bedeutet, daß zwischen ihnen kein perfekter linearer Zusammenhang besteht, der es erlauben würde, eine erklärende Variable als perfekte Linearkombination der restlichen darzustellen. Diese Forderung ist jedoch nicht so streng, daß approximative lineare Zusammenhänge im Sinne der Regressionsanalyse zwischen den Xj nicht zugelassen wären. Allerdings können derartige Zusammenhänge, die sog. Multikollinearität der erklärenden Variablen, zu Schätzproblemen führen. Falls jedoch einzelne (oder alle) erklärenden Variablen paarweise unkorreliert sind, sind diese auch linear unabhängig.

1. Kapitel: Grundzüge der Regressions- und Korrelationsanalyse

21

12.4.1 Kleinstquadrateschätzung im bivariaten Fall Betrachten wir zunächst das Regressionsproblem für den Spezialfall von zwei Variablen. Gegeben sind η Paare (y¿, x¡) von Werten der abhängigen Variable Y und der erklärenden Variable X. Wären die Regressionskoeffizienten α, α 0 bekannt, so könnte man für die Γ-Werte η Prognosegleichungen erstellen. (8)

j>,· = αχ,· + α 0

0 = 1...«).

Tatsächlich werden die — aufgrund des unterstellten linearen Zusammenhangs zwischen X und Y mit den Koeffizienten α und α 0 — prognostizierten von den tatsächlichen K-Werten um jeweils einen Wert e¡ abweichen, (9)

e.

;

=

y.

_ p.

(/' = 1 ... n).

Unter Berücksichtigung der Definition von e¡ wären also für y¡ folgende lineare Regressionsgleichungen anzusetzen : (10)

yi=yi^ei

0 = 1...«)

(11)

y i = ax¡ + a0 + e¡.

Aus den Regressionsgleichungen folgt, daß für die Mittelwerte gilt (12)

y=? +ë

(13)

y = ajc+ctQ + e

(14)

y - y = e

(15)

y - αχ = a 0 + ë .

bzw.

Um die Güte der Approximation der y¡ durch die y¡ zu messen, gibt es verschiedene Möglichkeiten einer Berücksichtigung der Abweichungen e¡. Im allgemeinen nimmt man eine quadratische Fehlerfunktion Q (e), durch welche der bei der Approximation insgesamt gemachte Fehler definiert ist als Summe aller quadrierten Abweichungen der tatsächlichen von den prognostizierten Werten (16)

Q(e):=

Σ e] = Σ (y,·-?,·) 2 . /= 1 ί= 1

Um auszudrücken, daß Q davon abhängig ist, welche Werte man für die unbekannten Koeffizienten α und a 0 in die Prognosegleichungen einsetzt, schreibt man für den quadratischen Fehler auch Q (α, α 0 ). Gesucht sind solche Werte für die unbekannten Koeffizienten, die die Summe der quadrierten Abweichungen der tatsächlichen von den (aufgrund der X-We rte unter Verwendung einer linearen Prognosegleichung) prognostizierten /-Werten insgesamt minimieren. Um festzustellen, welche a- bzw. α0-Werte die quadratische Fehlerfunktion Q minimieren, sind deren partielle Ableitungen nach a und a 0 zu bilden und gleich Null zu setzen; es stellt sich heraus, daß man tatsächlich ein Minimum und kein Maximum oder einen Sattelpunkt von Q erhält.

22

8. Band: Kausalamlyse

Die Berechnung ergibt: (17)

(18.1)

(18.2)

β ( α , α 0 ) = Σ (γ{-Ρ{Υ ι= 1

= Σ (y¡ - ax¿ ι'= 1

-aQY

η = Σ ( y f - 2 α xiy¡ - 2 aQy¡ + 2 α 0 αχ,· + α2 χ] + < φ ι=η η 3ß — = - 2 Σ χρι + 2α Σ xf + 2α0 Σ x¡ da ι=1 í=1 í'= 1 30 « η η — = - 2 Σ y¡ + 2a Σ x¡ + 2 Σ α 0 ί=1 ι=1 bar ί= 1

3β θβ Setzt man — = — = Ο, so erhält man die beiden sog. Normalgleichungen da 3a0 (19.1)

0 = - Σxtfj + αΣχ(?+α0Σχ,·

(19.2)

0 = - Σ .y,· + α Σ χ { + α 0 · «

(20.1)

Σ χ μ = α Σ χ 2 + α 0 Σλγ,-

(20.2)

Σ^,·

bzw.

= αΣχ,· + η α 0

und nach Division durch η (21.1)

ι η - Σ xiy¡ «ί=1

1 η 1 η, = α—Σ xf + α0 — Σ x¡ η i= 1 η i= 1

(21.2)

1 η - Σ yt η ι=1

i n = α-Σ x¡ + aQ. η i=l

Die zweite Normalgleichung ergibt also unter Berücksichtigung von und (22)

Σ y¿ = y

Σ Xj = χ die Kleinstquadrateschätzung fir α 0 : α 0 = y — αχ.

Durch Einsetzen von (22) erhält man aus der ersten Normalgleichung (21.1): — Σχ&, η

= α — Σχί η

— Σ χ¡y i -xy η

= α

+ (y — Σχ2

aχ)χ



2

1. Kapitel: Grundzüge der Regressions- und Korrelationsanalyse

23

und hieraus wiederum unter Berücksichtigung von (.XY) und - Σχ2 - χ2 η

— Σχ,γ, η

= m (Χ2)

schließlich (23)

m(XY)

= a m

(Χ2).

Hieraus folgt unter Voraussetzung m (Χ2) Φ 0 die a als (24)

α =

m(XY) m(X 2)

Kleinstquadrateschätzungßr

'.

Durch die Bedingung der Minimierung des quadratischen Fehlers erhält man also aus der ursprünglichen Regressionsgleichung mit zwei Unbekannten α und a 0 genau zwei Schätzgleichungen in Form der Normalgleichungen, aus denen i.a. die Unbekannten eindeutig berechnet werden können. Sind die Werte der Koeffizienten bekannt, sind gemäß (8) auch die prognostizierten Werte für Y berechenbar und damit auch gemäß (9) Kleinstquadrateschätzungen ßr e bestimmbar. Weiterhin ist aus (22) in Verbindung mit (15) ersichtlich, daß der Mittelwert 1 der Residuen gleich Null ist. Aus diesem Grund ist dann wiederum der Mittelwert der prognostizierten y-Werte gleich dem Mittelwert der tatsächlichen y-Werte und das Mittelwertepaar (x,y) erfüllt Prognose-und Regressionsgleichung: (25)

7 = 0

(26)

y = 3 A _ _ y = αχ +α0 = y.

(27)

Setzt man die Kleinstquadrateschätzung für a 0 in die Regressionsgleichung (11) ein, so erhält man y¿ = aXj + (y -ax) (28)

+ e¡

y¡ - y = α (x¡ - ϊ ) + e¡

also bzw.

y i - y = ot (Xj - x) + (ei - ê) wegen 7 = 0 . Wenn also für die ursprünglichen Werte von X und Y eine affine Regressionsfunktion (mit α 0 ^ 0) gilt, dann besteht zwischen den zentrierten Werten y*. =y¡ - y, χ*. = x¡ -x,e*j = e¡ - e eine Regressionsfunktion die linear (im strengen Sinne ist: y* = αχ* + e*.

24

8. Band: Kausalanalyse

Für die Prognosefunktion gilt Entsprechendes. Denn aus (8) folgt mit (22): Pi = ax¡ + y -

(29)

αχ

Pi-y

=

ΰ ( α * , α * ) = Σ e?2 = min! i=n

'

die beiden Normalgleichungen 0 = - Σ x* y* + α* Σ χ*2 + α* Σ χ* 0 = - Σ y f + a*Σxf

+

a^•n

und daraus wiederum nach Division durch η 0 = - m (.XY) + α *-m

( Χ 2 ) + a* • 0

0 = 0 + α*0 + α^η,

also α ί = 0 und

a* =

— Σ ν* χ* η yi i

— Σ xi"2 η *

m

{XY)

= — — r " , sofern m(X2) Φ 0. m ' '

Durch vorheriges Zentrieren der Variablen ist also die Konstante aus Regressionsund Prognosegleichung eliminierbar. Am Ende der Berechnung kann man sie dann aufgrund des Resultats (22)

û0 = y — αχ

zurückgewinnen. Der andere Regressionskoeffizient bleibt

davon unberührt. Sind die Variablen jedoch nicht zentriert und setzt man in der Regressionsgleichung mit y ι = a x¡ + e¡ keine Konstante an, dann erzeugt man aufgrund der Mittelwertbeziehungen (15) für die Residue: ~e = y - a x . In der Regressionsanalyse wird daher im allgemeinen entweder mit zentrierten Variablen gearbeitet, so daß die Konstante im Ansatz vernachlässigt werden kann,

1. Kapitel: Grundzüge der Regressions- und Korrelationsanalyse

25

oder es wird im Falle nicht-zentrierter Variablen eine Konstante explizit berücksichtigt. Aus der ohne Einschränkung für eine vorherige Zentrierung geltenden Gleichung (28) folgt für die Kovarianzen m (.XY)

= am

(.X2) + m

(Xe),

also nach Einsetzen der Kleinstquadrateschätzung (24) für ot: m (XY) = m ^(XY) · m (.X2) + m (Xe), also schließlich m (X, e) = 0. Andererseits ergibt die ebenfalls ohne weitere Einschränkung geltende Gleichung (29) für die Kovarianzen m(Ye)

= am(Xe)

= 0.

Die mit Hilfe der Methode der kleinsten Quadrate geschätzten Regressionskoeffizienten sind also so beschaffen, daß die Fehlervariable in der Untersuchungsgesamtheit a) mit der erklärenden (sowie der prognostizierten abhängigen) Variable unkorreliert, b) im Durchschnitt gleich Null und c) von minimaler Varianz ist; denn mit Q (e) wird auch —Q(e) = Var (e) minin miert. 1.2.4.2 Verallgemeinerung der Kleinstquadrateschätzung für m - 1 Regressoren (multiple Regression) Die folgende Darstellung der multiplen Regression erfolgt in drei Schritten: (1) mit zentrierten Variablen ohne Anpassung einer Konstanten, (2) mit nicht-zentrierten Variablen unter zusätzlicher Anpassung einer Konstanten, (3) mit standardisierten Variablen. 1. Betrachten wir statt einer nun m - 1 erklärende Variablen X¡ für Y. Dabei wird zunächst davon ausgegangen, daß alle Variablen zentriert sind. Zusätzlich soll vorerst unterstellt werden, daß auch im Fall der multiplen Regression bei Zentrierung die Konstante a 0 vernachlässigt werden darf. (Die Rechtfertigung hierfür wird nachgeholt, wenn mit nicht-zentrierten Variablen gearbeitet wird). Prognosegleichungen, Regressionsgleichungen und Definition des Fehlerterms lauten im allgemeinen Fall (30)

9t

= ttj xn

+ a2xi2

+ ... + am _ 1 xim _ χ

(31)

y i = û ! χη

+ a2xi2

+ ... + am _ 1 xim _ í + e¡

(32)

yi

-Pi.

26

8. Band: Kausalanalyse

In Vektorschreibweise: (30a)

y =

(31a)

j = 0Llxi +so

kann man mit dem Koeffi-

die Prognose- und Regressionsgleichungen auch schreiben als (30b)

ρ = (xítx2,

...xm_0

α = Xa

(31b)

y = (x1,x2,

...xm_ì)

a + e = Xa + e.

(Solange Mißverständnisse nicht zu befürchten sind, wird statt „Aq m _ n " zur Bezeichnung des Teils der Datenmatrix, der lediglich die m — 1 erklärenden Variablen betrifft, ebenfalls das Symbol verwandt). In der Gleichung (31b) sind^ und X gegeben; unbekannt sind a und e. Gesucht ist insbesondere der Vektor der Koeffizienten a. In Verallgemeinerung des bivariaten Falles kann man sagen, daß eine Lösung des Problems der deskriptiven nicht-statistischen multiplen Regression dann gefunden wurde, wenn unter den möglichen Werten für die Regressionskoeffizienten α.· solche identifiziert werden können, die die Summe der Fehlerquadrate über alle η Beobachtungen bzw. die Varianz des Fehler-bzw. Residuenvektors e („Fehlervarianz") in der Untersuchungsgesamtheit minimieren: Q(e) = 2 e ? = e'e = min!

bzw.

1 — Q(e) = Var (e) = min!. η Da die Residuen bzw. der Residuenvektor definiert sind als

1. Kapitel: Grundzüge der Regressions· und Korrelationsanalyse

e,· = ν,· (32b)

τη - 1 Σ diXii 7=1 7 7

27

bzw.

e = y - X a ,

lautet die zu minimierende Funktion ß(e)

= Q(alt...

α

θ)·

Somit läßt sich (40) auch schreiben als (41)

y

=

m-1 Σ

cijXj + e

/=0

'

bzw.

'

(41a)

y = X*a* + e

(39a)

p =

und dementsprechend

X*a*.

Für den Residuenvektor gilt dann e =y

-

X*a*

und die zu minimierende Fehlerfunktion lautet Q(a*)

= e'e

= ( y - X*a*)'(y

-X*a*)·

Bildet man die m partiellen Ableitungen von Q nach den m Koeffizienten a j , . . . a m _ J, c*o und setzt diese gleich Null, so erhält man 0 = -2X*'y

+2

X*'X*a*

und nach Vereinfachung und Umordnung das System der Normalgleichungen (42)

X*'X*a*

(43)

— X*'X*a* η

1

= X*'y =

1 η

bzw. nach Division durch « —X*'y.

Dies ist die Verallgemeinerung der Normalgleichugnen (36) bzw. (37) für den Fall nicht-zentrierter Variablen unter Berücksichtigung einer anzupassenden Konstanten αφ. Aus diesen Gleichungen lassen sich unter Voraussetzung der Existenz von (X*'X*)~1 die Koeffizienten eindeutig bestimmen.

30

8. Band: Kausalanalyse

Die Parallelität zum Fall mit zentrierten Variablen läßt sich deutlich machen, wenn man bedenkt, daß X*'y bzw. X*'X* in folgender Weise gebildet sind: XX X*'y

=

Χ*'Χ*

=

l'l/

XX

Unter Berücksichtigung von l'y

I 'Χ - ( ΣΛ:(1 , ΣΧ,'2 ,..., ΣΧΪm _ ι )

= Xy¡

X ' \ = (l'A-)'

II

= η

lassen sich Matrix und der Vektor nach Division durch rt auch schreiben als X

1

1 -X*y

= \

— χ*·χ* η

±-X'y

=\

η

*2 XX *m-1

1 Hebt man die ersten m - 1 Gleichungen des Systems (42) der Normalgleichungen hervor, so erhält man X'Xa

bzw.

+ X'Xa,

1

- X ' X a + a0\ η Ι

=

X'y

:

= - X ' y . \ η

1

Dies entspricht (37) und ist die Verallgemeinerung von (21,1). Entsprechend lautet die letzte Gleichung des Systems der Normalgleichungen (42) bzw. (43): I Xa + l ' I α 0 = l y

bzw. also:

1 — η

1 1 = —1'ΛΓβ+—Γ1α0 η

y =

η

(xvx2,...xm_1)

/

α

1 + a ο·

Dies ist die Verallgemeinerung von (20.2) und (21.2) und liefert als Verallgemeine-

1. Kapitel: Grundzüge der Regressions- und Korrelationsanalyse

31

rung von (22) für α 0 (44)