179 25 33MB
German Pages 408 [412] Year 1994
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen
Okonometrische Analyse von Zeitreihen Von
Andrew C. Harvey London School of Economics Aus dem Englischen übertragen von
Dr. Gerhard Untiedt Institut für Ökonometrie WWU Münster
Zweite Auflage
R. Oldenbourg Verlag München Wien
Titel der Originalausgabe: .Andrew C. Harvey, The Econometric Analysis of Time Series, 2nd Edition' © 1990 Andrew C. Harvey
Die Deutsche Bibliothek — CIP-Einheitsaufnahme Harvey, Andrew C.: Ökonometrische Analyse von Zeitreihen / von Andrew C. Harvey. Aus dem Engl, übertr. von Gerhard Untiedt. - 2. Aull. - München ; Wien . Oldenbourg, 1994 (Lehr- und Handbücher der Statistik) Einheitssacht.: The econometric analysis of time series (dt.) ISBN 3 - 4 8 6 - 2 2 8 3 3 - 1
© 1994 R.Oldenbourg Verlag GmbH, München Das Werk außerhalb lässig und filmungen
einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzustrafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverund die Einspeicherung und Bearbeitung in elektronischen Systemen.
Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München
ISBN 3-486-22833-1
Inhaltsverzeichnis Vorwort
IX
Abkürzungsverzeichnis
XI
1
Einleitung 1.1 Schätzen, Testen und Modellauswahl 1.2 Zeitreihenbeobachtungen 1.3 Mathematische und statistische Vorbemerkungen 1.4 Asymptotische Theorie 1.5 Zeitreihenanalyse und Modellentwicklung 1.6 Ökonometrische Modelle
1 1 6 13 18 22 32
2
Regression 2.1 Lineare Regressionsmodelle 2.2 Kleinste-Quadrate Schätzung 2.3 Eigenschaften der einfachen Kleinste-Quadrate Schätzfunktion 2.4 Verallgemeinerte Kleinste-Quadrate Methode 2.5 Prognosen 2.6 Rekursive Kleinste-Quadrate Methode 2.7 Residuen 2.8 Teststatistiken und Konfidenzintervalle 2.9 Gleichungssysteme: Scheinbar unverbundene Regressionsgleichungen 2.10 Multivariate Regression 2.11 Die Instrumentvariablenmethode 2.12 Autoregression
37 37 40 44 48 51 53 56 59 66 72 76 80
3
Die 3.1 3.2 3.3 3.4 3.5 3.6 3.7
Maximum-Likelihood Methode Einführung Suffizienz und die Cramer-Rao Untergrenze Eigenschaften der Maximum-Likelihood Schätzfunktion Maximum-Likelihood Schätzfunktionen für Regressionsmodelle Abhängige Beobachtungen Identifizierbarkeit Robustheit
. . . .
85 85 90 94 96 105 111 116
VI
4
Numerische Optimierung
123
4.1 4.2 4.3 4.4 4.5 4.6
123 124 131 135 142 145
Einführung Prinzipien der numerischen Optimierung Newton-Raphson Maximierung einer Likelihoodfunktion Zweistufige Schätzfunktionen Teststatistiken und Konfidenzintervalle
5 Testprozeduren und Modellauswahl 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8
6
7
8
Einführung Fehlspezifikationstests Klassische Test verfahren: Der Likelihoodverhältnis-Test Wald-Tests Der Lagrange-Multiplikator Test Nichtgeschachtelte Modelle Uberprüfung der Prognosegüte Eine Strategie zur Modellauswahl
149 149 153 164 169 172 180 184 188
Regressionsmodelle mit seriell korrelierten Störgrößen
195
6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9
195 199 204 209 212 215 217 220 223
Autoregressive Störgrößen erster Ordnung Vergleich der Schätzfunktionen Die Überprüfung auf autokorrelierte Störgrößen 1.Ordnung Autoregressive Störgrößen höherer Ordnung Moving-average und gemischte Störgrößen Uberprüfung auf serielle Korrelation Prognose Gleichungssysteme ARCH-Störgrößen
Dynamische Modelle I
229
7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8
229 236 242 248 250 254 256 261
Einführung Systematische Dynamiken Schätzung einer Transferfunktion mit unabhängigen Störgrößen Serielle Korrelation Modellauswahl Trend und Saisonalität Prognosen und Vorhersagen Polynomial verteilte Lags
Dynamische Modelle II
269
8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8
269 272 279 285 293 300 307 313
Einführung Schätzung U b e r p r ü f u n g auf serielle Korrelation Modellauswahl Fehlerkorrekturmodelle und Kointegration Gleichungssysteme Kausalität Exogenität*
VII 9
Simultane Gleichungsmodelle 9.1 Einführung 9.2 Identifizierbarkeit 9.3 Maximum-Likelihood Schätzung 9.4 Zweistufige und dreistufige Kleinste-Quadrate 9.5 Uberprüfung der Gültigkeit von Modellrestriktionen 9.6 Dynamische Modelle 9.7 Schätzung und Identifikation von dynamischen Modellen
317 317 322 332 335 344 346 350
9.8
354
Vorhersagen, Prognosen und Kontrolle
A n h a n g zur Matrizenalgebra
363
Tabellen
365
A n t w o r t e n zu a u s g e w ä h l t e n Ü b u n g e n
373
Literaturverzeichnis
375
Stichwortverzeichnis
385
Autorenverzeichnis
395
Vorwort Wie aus dem Titel hervorgeht, konzentriert sich dieses Buch primär auf die mit Zeitreihendaten verbundene ökonometrische Theorie. Da in den einführenden Kapiteln allgemeine Grundsätze vorgestellt werden, gibt es nur wenige Themenbereiche der Ökonometrie, die nicht direkt oder indirekt berührt werden. Faktisch korrespondieren die in diesem Buch enthaltenen Themenbereiche ungefähr mit der ökonometrischen Theorie, die in Kursen für final year undergraduates an der London School of Economics vermittelt wird. Dieses Buch kann als eine Abhandlung über die statistischen Aspekte ökonomischer Modellbildung angesehen werden. Es enthält drei Hauptthemen. Das erste befaßt sich damit, in welcher Weise neuere Erkenntnisse im Bereich der Zeitreihenanalyse die Entwicklung einer dynamischen Theorie der Ökonometrie beeinflußt haben. Das zweite befaßt sich mit der Darstellung eines integrierten Ansatzes für die Probleme der Schätzung und der U b e r p r ü f u n g auf der Basis der Maximum-Likelihood-Methode. Da es enorme Fortschritte im Bereich der Computertechnologie und begleitend eine Entwicklung von Algorithmen zur numerischen Optimierung gab, ist ein solcher Ansatz möglich, während dies vor fünfzehn J a h r e n noch nicht der Fall war. Das abschließende T h e m a ist der Versuch, eine vernünftige kohärente Strategie zur Modellauswahl vorzustellen. Das Auffinden einer angemessenen Spezifikation ist der schwierigste Teil jeder Anwendung ökonometrischer Modellbildung. Unglücklicherweise ist dieser Aspekt immer noch in seinem Anfangsstadium und das hier vorgestellte Material repräsentiert nur die Anfänge einer Lösung. Fragen, die mit dem Schätzen, dem Testen und der Spezifikation dynamischer Modelle verbunden sind, die nicht auf verhaltenstheoretischen Aussagen beruhen, sind ausführlicher in dem korrespondierenden Band Time Series Models erörtert, das im folgenden an den zitierten Stellen mit TSM gekennzeichnet wird. Dieses Buch ist dennoch in sich geschlossen; ein Student, der die ökonometrische Theorie in einiger Tiefe studieren möchte, wäre gut beraten, sich mit dem in TSM enthaltenen Material vertraut zu machen. Das Hauptanliegen dieses Textes liegt darin, ein Verständnis für die wesentlichen Ideen und Konzepte der Ökonometrie zu erzeugen und weniger darin, eine Reihe von exakten Beweisen zu präsentieren. Als Resultat ergibt sich, daß die mathematischen und statistischen Voraussetzungen nicht unangemessen schwer sind. Es wird vorausgesetzt, daß der Leser einen einführenden Kursus in Matrizenalgebra besucht hat; komplizierte Matrizenmanipulationen werden, wo immer es möglich ist, vermieden. Verschiedene Schlüsselbegriffe, wie zum Beispiel Matrizendifferentiation, werden in der Einführung und im A n h a n g behandelt. F ü r den Bereich der Statistik wird angenommen, daß der Leser mit den Grundideen der statistischen Inferenz und der Regressionsanalyse vertraut ist. Die Gleichungen sind bezogen auf jeden Abschnitt numeriert. Auf die Angabe des Kapitels wird dann nicht verzichtet, wenn auf eine Gleichung in einem anderen Kapitel Bezug genommen wird. Beispiele werden analog zu den Gleichungen für jeden Abschnitt numeriert und es wird entsprechend zu den Gleichungen zitiert. Tabellen und Abbildungen werden innerhalb eines Kapitels fortlaufend numeriert, unabhängig davon, in welchem Abschnitt sie stehen. Die Anmerkungen, die am Ende eines jeden Kapitels stehen, sind primär als Literaturhinweise zu verstehen, auf die im Text kein Hinweis erfolgt und sie sind gleichzeitig zum vertieften Studium geeignet. Einige Abschnitte sind mit einem Stern (*) gekennzeichnet. Sie enthalten Ausführungen, die komplizierter oder esoterischer oder beides sind. Sie können, ohne daß der Zusammenhang verlorengeht, ausgelassen werden, obgleich die meisten in einem graduate course enthalten sein würden.
X Die Übungen am Ende eines jeden Kapitels sind speziell entwickelt worden, um das Verständnis verschiedener Punkte im Text zu überprüfen. Sie sollten nicht als examenstypische Fragen betrachtet werden. Das Buch von Phillips und Wickens Excercises in Econometrics stellt eine exzellente Quelle für weitere Fragen zu den hier präsentierten Inhalten dar. Ebenso bietet diese Veröffentlichung dem Leser die Möglichkeit, sein Wissen in verschiedenen Punkten zu erweitern. Fettdruck ist in diesem Text nicht benutzt worden. Als generelle Regel kann angegeben werden, daß Kleinbuchstaben ein Skalar oder einen Vektor, während Großbuchstaben, von einigen Ausnahmen abgesehen, Matrizen kennzeichnen. Mein Verständnis der Ökonometrie hat beträchtlichen Nutzen aus Diskussionen mit Kollegen an der LSE erhalten. Insbesondere haben die Ideen von Denis Sargan und David Hendry einen starken Einfluß auf meine Einstellung zu diesem Gegenstand gehabt, wenn sie auch in keiner Weise dafür verantwortlich sind, wie ich meine Ansichten in diesem Buch dargestellt habe. In ähnlicher Weise sind alle Kollegen und Freunde, die verschiedene Versionen der Kapitel freundlicherweise kommentiert haben, von der Verantwortung für die verbliebenen Fehler befreit. In diesem Sinne muß mein besonderer Dank an Dick Baillie, James Davidson, Katarina Juselius und Hugh Wills gehen. Der größte Teil des Manuskripts ist an der LSE von Maggie Robertson und Sue Kirkbride getippt worden. Sue Pratt, Hazel Rice und Anne Usher hatten ebenso Anteil an der Bewältigung der Arbeiten. Einige der früheren Versionen wurden in Vancouver von Maryse Ellis getippt. Ich bin allen gegenüber dankbar für ihre Effizienz beim Schreiben dieses schwierigen Manuskripts. Letzlich, aber auf keinen Fall am wenigsten, möchte ich Lavinia Harvey für ihre Hilfe beim Schreiben, Zitieren und Indizieren danken. London März 1980
Die zweite Auflage enthält neues Material zu einer Reihe von Themen und mehrere Abschnitte sind komplett neu geschrieben worden. Ich möchte allen Kollegen und Studenten danken, deren Kommentare und Anregungen zu einer Verbesserung im Text geführt haben. Seitdem die erste Auflage erschienen ist, ist eine Vielzahl ökonometrischer Software für Personal Computer verfügbar geworden. Die Systeme PC-GIVE von David Hendry und MICRO FIT von Bahram und Hashem Pesaran stimmen in ihren Anwendungsmöglichkeiten gut mit den Techniken und der Methodologie überein, die in diesem Buch beschrieben wird. London März 1989
Abkürzungsverzeichnis ACF AD AIC AR ARCH ARIMA ARMA AN BHHH BLUE BLUP BLUS CES CSS CUSUM D-W ECM EWMA FIML FIVE GLS IV KQ LIML LIVE LM LR LUS MA MAD ML MSE MMSE MMSLE MVB MVUE NID(m, 7ii
(2.9)
erfüllt sein muß, damit das Modell stabil ist. (Es wird implizit unterstellt, daß 7 n > 0 und 721 < 0 ist.) Falls das Modell (2.8) geschätzt wäre und die Bedingung (2.9) wäre nicht erfüllt, würde die Angemessenheit der Spezifikation ernsthaft in Frage
1.2.
11
ZEITREIHENBEOBACHTUNGEN
zu stellen sein. Der letzte P u n k t , den es über dieses Modell festzuhalten gilt, ist mit der Verfügbarkeit der Daten verbunden. Angenommen, (2.8) ist ein angemessenes Bild über die Funktionsweise des Marktes, wenn der Zeitraum einen Monat b e t r ä g t , die Beobachtungswerte werden aber nur alle sechs Monate aufgezeichnet. Falls Veränderungen in xt relativ selten vorkommen, wird all das, was beobachtet wird, einer Serie von Gleichgewichtspositionen zuneigen. Infolgedessen - in Werten der Beobachtungsperiode - ist das Modell tatsächlich ein simultanes und die Nachfragekurve kann nicht identifiziert werden.
Zeitreihenmodelle
Ein univariates Zeitreihenmodell versucht, das Verhalten einer Variable yt durch Elemente aus ihrer eigenen Vergangenheit zu erklären. Der aussichtsreichste Ansatz ist, yt als einen stochastischen Prozeß zu betrachten, in dem sich die Beobachtungen über die Zeit gemäß bestimmter Wahrscheinlichkeitsgesetze entwickeln. Das autoregressive Modell 1. Ordnung: yt = (f>yt—\ + e,
(2.10)
ist ein einfaches Beispiel. Das Element et kennzeichnet eine Folge von unkorrelierten Störtermen mit Mittelwert Null und konstanter Varianz. Ist der Absolutbetrag von (f> kleiner 1, so werden die Beobachtungen, die über (2.10) erzeugt sind, um einen Mittelwert von Null schwanken. Falls auf der anderen Seite || größer als Eins ist, ist das Modell explosiv. Ein Modell, das der Bedingung || < 1 genügt, wird als stationär bezeichnet. Stationarität ist ein wichtiges Konzept in der Zeitreihenmodellierung, wenn auch sehr wenige Zeitreihen die Charakteristiken, die impliziert sind, aufweisen. Dennoch kann die Theorie, die die stationären Zeitreihen u m f a ß t , oftmals auch auf nichtstationäre Reihen durch die Verwendung des einfachen Mittels der ersten oder zweiten Differenzen angewandt werden. Sei Ayt = Ayt-i + e«,
(2.11)
mit Ayt = yt — yt-\- Ist \4>\ < 1, ist Ayt stationär, selbst dann, wenn yt es nicht ist. Das dynamische Regressionsmodell (2.3) kann als eine Verallgemeinerung von (2.10) betrachtet werden. Jede Erkenntnis, die mit der Schätzung oder dem Testen von (2.10) verbunden ist, ist deshalb direkt relevant für (2.3). Weiterhin wird jedes andere Modell, das analog zu (2.10) konstruiert wird, offensichtlich erhebliche Bedeutung für die Entwicklung einer Methodologie für die dynamische Ökonometrie haben. Die einfachste Möglichkeit zur Erweiterung von (2.10) ist, yt von vergangenen Werten bis zu einer Lag-Länge von beispielsweise p abhängig sein zu lassen. Dies f ü h r t zu einem autoregressiven Prozeß pter Ordnung: yt = 4>\yt-\
+
foyt-2
+ -
+ 4>Pyt-P
+ u
(2.12)
wobei 4>\,..., (j>p die Parameter sind. Eine alternative Möglichkeit zur Erfassung der Abhängigkeit von yt von ihrer Vergangenheit ist das Moving-Average-Modell. Der Moving-Average-Prozeß 1. Ordnung ist definiert durch: yt = et +
0et-i.
(2.13)
12
KAPITEL 1.
EINLEITUNG
Wenn er auch in den Größen zweier nichtbeobachtbarer Zufallsvariablen formuliert wird, ergibt fortwährende Substitution: oo j=1 vorausgesetzt, daß |0| < 1 ist. Modell (2.13) ist deshalb ein autoregressiver Prozeß mit einer unendlichen Zahl von Lags, aber die Koeffizienten 4>\,4>2, ••• sind so begrenzt, daß sie auf nur einem Parameter basieren. Die verschiedenen Charakeristika der autoregressiven und der Moving-Average-Prozesse können in einem gemischten Modell kombiniert werden: Vt = 4>\Vt-\ + ••• + pyt-p +
ff +
+
... +
0
q
e
t
-
r
(2.15)
Es ist als autoregressiver moving-average (ARMA^-Prozeß bekannt und stellt die flexibelste Modellklasse für univariate Zeitreihen dar. Angenommen, 6\,...,6q genügen verschiedenen Bedingungen, dann kann (2.15) in der gleichen Weise wie (2.13) als ein autoregressiver Prozeß dargestellt werden. Bei der Auswahl eines geeigneten Modells aus der Klasse der ARMA-Prozesse sollte yt so in Abhängigkeit ihrer Vergangenheit modelliert werden, daß eine minimale Anzahl von Parametern verwandt wird. Die obigen Überlegungen lassen sich auf multivariate Zeitreihen übertragen. Ist yt ein Vektor von Beobachtungen, kann dieser in Form eigener Vergangenheitswerte durch einen multivariaten oder Vektor ARMA-Prozeß modelliert werden: Vt =
+ - +
h-p + d + 0 i « t - i + - + ©,£«-,.
(2.16)
Die P a r a m e t e r sind nun in den quadratischen Matrizen ..., 0 ] , . . . , 0 , enthalten, während et der Vektor der zufälligen Störgrößen ist. Ein rein autoregressiver Prozeß Vt =
$i2/t-i +
-
+
$p2/t-p +
U
ist das statistisch am einfachsten zu behandelnde Modell. Es ist als Vektorautoregression bekannt und wird abgekürzt als VAR bezeichnet.
Datengenerierung Das Querschnittsmodell (1.2) wird für eine Stichprobe bestehend aus N Haushalten verwendet, die zufällig ausgewählt wurden. Die G r u n d a n n a h m e , die der statistischen Inferenz in einen solchen Modell unterliegt, ist diejenige, daß die realisierte Stichprobe einfach eine aus einer unendlichen Zahl möglicher Stichproben ist. Die gesamte Vorgehensweise des Ziehens einer Stichprobe und der Schätzung der P a r a m e t e r auf dieser Basis könnten so oft wiederholt werden, wie man es wünscht. Ahnliche Überlegungen wurden für die Modellierung von Zeitreihen angenommen. Die Beobachtungen werden als einfache Realisationen von einem unterliegenden datengenerierenden Prozeß angesehen. Abweichend von dem Querschnittsdatenfall kann in der Praxis aber nur ein Satz an Beobachtungen erhalten werden. Dennoch ist es möglich, den unterliegenden datengenerierenden Prozeß als - im Prinzip - fähig zu betrachten, über dieselbe Zeitperiode eine unendliche Anzahl von Realisationen hervorzubringen. Auf
1.3.
MATHEMATISCHE UND STATISTISCHE VORBEMERKUNGEN
13
dieser Basis werden die Eigenschaften dynamischer Modelle abgeleitet und statistische Inferenzaussagen g e m a c h t . Dies ist alles, was gesagt werden muß, wenn es sich um ein reines Zeitreihenmodell analog (2.10) h a n d e l t . Das Modell generiert einen Satz von Beobachtungen y\,...,yr> deren W e r t e auf den zufälligen S t ö r t e r m e n € i , . . . , c t u n d auf dem S t a r t w e r t yo basieren. F ü r ein Regressionsmodell analog (2.3) ergibt sich eine zusätzliche Komplikation durch die erklärende Variable. Sie kann als fest oder stochastisch b e t r a c h t e t werden. Sofern sie fest ist, werden die beobachteten Werte reproduziert, wenn ein anderer Satz von Beobacht u n g e n f ü r y generiert wird. Ist sie stochastisch werden sich ihre W e r t e bei wiederholten Realisationen ä n d e r n , dadurch wird eine zusätzliche Quelle für Variationen in y eingeführt. Im Q u e r s c h n i t t s d a t e n m o d e l l wie z. B. (1.2) ist es relativ einfach, sowohl feste als auch stochastische erklärende Variablen zu verdeutlichen: Die E r h e b u n g k ö n n t e wiederholt werden mit denselben Haushaltungen oder mit einer Stichprobe vollständig verschiedener H a u s h a l t u n g e n . F ü r ein dynamisches Modell ist die Unterscheidung weniger klar, aber als allgemeine Regel ist es angemessener, die erklärenden Variablen als stochastisch zu b e t r a c h t e n . Jedoch ist vom statistischen S t a n d p u n k t die Unterscheidung zwischen stochastischen und nichtstochastischen Variablen oftmals unwichtig. Sofern keine Inform a t i o n e n verloren gehen, wenn die erklärenden Variablen b e s c h r ä n k t werden, m . a . W . , wenn diese als fest behandelt werden, werden diese Variablen als exogen bezeichnet. Bis auf weiteres wird eine exogene Variable mit dem Symbol ' x ' gekennzeichnet und kann tatsächlich als fixiert in Stichprobenwiederholungen b e t r a c h t e t werden.
Extrapolation
(Schätzung)
und
Prognosen
Modell (2.3) enthält eine Verhaltenshypothese, in der versucht wird, die Veränderungen in yt durch Veränderungen der Werte in xt zu erklären. Ein Test auf Gültigkeit der Theorie, d a ß y durch x bedingt ist, wird vorgenommen über einen Vergleich von Ex-post Beobachtungen von y mit den Schätzwerten aus Gleichung (2.3), die auf Ex-post Beobacht u n g e n von x basieren. Dieses wird m a n c h m a l als Ex-post-Prognose bezeichnet. Sie sollte sorgfältig von £x-anie-Prognosen unterschieden werden, die u n b e d i n g t e S c h ä t z w e r t e für z u k ü n f t i g e W e r t e von y sind. Eine Ausgestaltung in vorgenannter Weise setzt Schätzwerte f ü r z u k ü n f t i g e W e r t e von x voraus. U n b e d i n g t e Schätzwerte werden als Prognosen bezeichnet. Die Verwendung des Termini Schätzwert ohne irgendeine Einschränkung impliziert, d a ß die z u k ü n f t i g e n W e r t e der exogenen Variable bekannt sind. F ü r reine Zeitreihenmodelle wie (2.15) gilt natürlich, d a ß es keine Unterscheidung zwischen beschränkten und u n b e s c h r ä n k t e n Schätzwerten gibt.
1.3
Mathematische und statistische Vorbemerkungen
Es wird u n t e r s t e l l t , daß der Leser über Grundwissen in Wahrscheinlichkeitstheorie u n d statistischer Inferenz verfügt und mit höherer Analysis und M a t r i z e n a l g e b r a v e r t r a u t ist. Dieser Abschnitt ist lediglich dazu b e s t i m m t , einige G r u n d k o n z e p t e in diesen Bereichen
14
K A P I T E L 1.
EINLEITUNG
im Überblick darzustellen und einige Vereinbarungen bezüglich der Notation einzuführen. Kenntnisse der asymptotischen Theorie werden nicht vorausgesetzt und Abschnitt 4 befaßt sich mit einer relativ heuristischen Einführung in diesen Bereich.
Matrizenalgebra
Ein eingehendes Verständnis der Basisoperationen der Matrizenalgebra, wie z.B. der Addition und der Inversion, ist notwendig. Zusätzlich sollte der Leser mit dem Konzept der Spur einer Matrix, d.h. der Summe der Elemente auf der Hauptdiagonalen, und den Definitionen einer positiv definiten (p.d.) und positiv semi-definiten (p.s.d.) Matrix vertraut sein. Eine symmetrische Matrix A ist p.d., falls x'Ax > 0, f ü r jeden Vektor x f ü r den gilt x ^ 0; sie ist p.s.d., falls x'Ax > 0 gilt. Kronecker-(Tensor-) P r o d u k t e sind im Anhang im Uberblick wiedergegeben. Die Faktorisierung einer p.d. Matrix erscheint im Text an einigen Stellen. Kennzeichnet A eine solche Matrix, kann sie immer faktorisiert werden als A — L'L, wobei L nichtsingulär ist. Eine Möglichkeit um diese Faktorisierung durchzuführen, ist beispielsweise die Cholesky Dekomposition. In diesem Fall ist L eine untere Dreiecksmatrix mit positiven Elementen auf der Hauptdiagonalen; siehe z. B. Wolfe (1978, S. 275 - 277). Eine alternative Formulierung ist A = L'DL, mit L als unterer Dreiecksmatrix mit Einsen auf der Hauptdiagonalen und D als Diagonalmatrix. Vektor- und Matrizendifferentiation spielen eine wichtige Rolle bei der Schätzung und folgende Definitionen werden verwandt. Ist f ( x ) eine Funktion eines n X 1 Vektors der Variablen x = ( 1 1 , 1 2 , . . . , % ) , dann ist der Vektor der ersten partiellen Ableitungen: d f dx
=
( d l d l V^i ' '
dj_ ' dxn
(3.1)
Die Bezeichnung df /dx' kennzeichnet den Zeilenvektor ( d f / d x ) ' . Die n x n Matrix der zweiten partiellen Ableitungen ist:
2
df dxdx'
d2f dx\
d2f dxidx2
dx-idx\
92f dx]
82f dxndx\
dxndx2
d2f
dxidx, d2f •
dxidx-
(3.2)
Ö2f dxl
Diese Matrix ist bekannt als Hessesche. Sie ist symmetrisch, sofern die zweiten partiellen Ableitungen eine stetige Funktion der x sind. Einige spezielle Resultate aus der Vektor- und Matrizendifferentiation sind im A n h a n g wiedergegeben.
1.3.
MATHEMATISCHE U N D STATISTISCHE VORBEMERKUNGEN
Zufallsvariablen
und der
15
Erwartungswertoperator
Die Wahrscheinlichkeitsdichtefunktion (p.d.f.) für eine Zufallsvariable y wird mit p(y\ tp) bezeichnet, dabei ist ip der Vektor der Parameter. Sie wird oftmals abgekürzt als p(y). Der Erwartungswert von y ist der Mittelwert dieser Verteilung; ist y im Bereich — oo < y < oo stetig, ist: y oo E(y) = n = / yp(y)dy. (3.3) J—oo
Die Varianz ist definiert als: oo
/
-oo (y
- iifp{y)dy.
(3.4)
Für einige Aussagen ist es nur notwendig - oder wünschenswert - den Mittelwert und die Varianz einer Verteilung zu spezifizieren. Wenn dieses der Fall ist, wird manchmal die Abkürzung y ~ VKS(/x, L)( 1 — ' L*)yt = ct mit < 1 und | NXi
u12X'nX2
•••
UnnX'nXn
Die Kovarianzmatrix der b ist einfach die invertierte Matrix in Gleichung (9.11); vergleiche (4.5).
Effizienz
der
SURE-Schätzfunktion
Der mögliche Effizienzgewinn, der aus der Verwendung der SURE-Schätzfunktion entstehen kann, hängt von einer Anzahl von Faktoren ab. Wenn die erklärenden Variablen aber paarweise orthogonal sind und = a2g für alle i jt j gilt, hat Zellner (1963, S. 354) gezeigt, daß die relative Effizienz bezogen auf eine KQ-Schätzfunktion für einen ausgewählten Schätzwert durch: Varjb) _ ( l - g ) ( l -Q+QN) Var(b) 1 - 2 e-gN
K
'
gegeben ist. Wie erwartet werden kann, wird die KQ-Schätzfunktion umso ineffizienter sein, je mehr g —• 1 strebt. Andererseits ist das KQ-Verfahren vollständig effizient, falls q — 0 gilt. In der Tat ist nicht schwierig aus (9.11) zu schließen, daß SURE und der KQ-Ansatz identisch sein werden, wenn = 0 für alle i ^ j ist. Das ist aber nur dann zu erwarten, wenn die Störgrößen über die Gleichungen unkorreliert sind und dann besteht kein Grund, diese zu verbinden. Ein zweites Ergebnis, das aus (9.12) folgt, ist, daß für g > 0 der relative Effizienzgewinn der SURE-Schätzfunktion bezogen auf die KQ-Schätzfunktion mit zunehmender Anzahl an Gleichungen steigt. Die Monte-Carlo Ergebnisse in Kmenta und Gilbert (1968) legen den Schluß nahe, daß das selbst dann gilt, wenn die erklärenden Variablen nicht orthogonal sind, vorausgesetzt T ist ausreichend groß. Wie bereits festgestellt, ist die KQ-Schätzfunktion vollständig effizient, wenn die Störgrößen über verschiedene Gleichungen unkorreliert sind. Es gibt aber einen anderen Fall, in dem das KQ-Verfahren zu effizienten Schätzwerten führt. Er tritt auf, wenn alle Regressoren in allen Gleichungen identisch sind, d.h. X,- = X , i = 1 ,...,N. Der Beweis ist wie folgt. In Größen von (9.6) ist X = I&X und somit folgt unter Verwendung von (A.8): x ' v 1 x = (/ ® x y t i r 1 ® /)(/ ® x ) = r r 1 ® ( x ' x ) . (9.13)
2.9.
SURE-REGRESSIONEN
69
Die GLS-Schätzfunktion ist deshalb gleich: {ii®(Ji'X)-1}(/®X,)(ii-1®/)i/
6=
{/«(X'X)-1}!/.
-
Bei der Überprüfung dieser Gleichung ist zu sehen, daß die SURE-Schätzfunktion in der iten Gleichung gleich: bi = (X'X)-lX'yi, (9.14) für alle i = 1 ,...,N identisch.
Eine
alternative
ist.
Mit anderen Worten, die KQ- und SURE-Schätzwerte sind
Formulierung
des
SURE-Modells
Eine alternative Möglichkeit ZUT Entwicklung der SURE-Schätzfunktion - die nicht die Kroneckerprodukte verwendet - ist, die N Gleichungen gemeinsam als: yt = X t ß + €t
t = 1, ...,
T
(9.15)
zu schreiben. Dabei ist yt ein TV x 1 Vektor und Xt ist eine N X k Matrix: 0 Xt
0
2t
0
0
=
0 0
(9.16)
t
NT
J
wobei xn ein fc; X 1 Vektor der Beobachtungswerte der unabhängigen Variablen ist. Der k x 1 Vektor ß ist wie in (9.5) definiert, während die t seriell unkorreliert sind mit Mittelwert 0 und Kovarianzmatrix E(tt€'t) = fi. Werden die T Gleichungen in (9.15) auf die übliche Art gestapelt, ist die Kovarianzmatrix der Störvariablen u* = (e\,..., e'T)' gleich: 0
/ i l E{u*u")
=
0
0 \ 0
ü
V o o
n
Sie kann kürzer als E(u*u*') = / ® ii geschrieben werden. Es ist aber nicht notwendig, die Algebra der Kroneckerprodukte zu benutzen, um zu sehen, daß der GLS-Schätzwert für ß gleich:
(
T
\
T
^Xiir1*, -'yt (9.17) ¡=i / t=i ist. Aus der Definition der Xt in (9.16) ist leicht zu ersehen, daß (9.17) identisch zu dem durch (9.11) gegebenen SURE-Schätzwert ist.
70
KAPITEL 2. REGRESSION
Einschränkungen
über
Gleichungen
Die Formulierung in dem vorhergehenden Unterabschnitt ist insbesondere angemessen, um Restriktionen in ein Modell einzuführen. Angenommen, es sei bekannt, daß in dem Zweigleichungssystem:
2/11 = ßixu + ß2*2t + fji 3/21 = ß3*3t + ß&il + f21
(9.18)
ß2 = ß4 ist. Die Darstellung des Modells in der Form ( 9 . 1 5 ) führt zu:
X\t *2t
' 2/11 .
0
Vit .
231
0
%4t
ß +
«lt
(9.19)
¿21
Die Schätzung der Koeffizienten wird unter Berücksichtigung der
mit ß — (ßi,ß2,ß3)'-
Restriktionen selbst dann effizientere Schätzwerte der Elemente in ß hervorbringen, wenn die Störvariablen in den beiden Gleichungen unkorreliert sind. Eine allgemeinere Methode zur Berücksichtigung von Restriktionen ist, sie in der Form ( 2 . 1 6 ) zu schreiben. Ubernimmt man die Notation ( 9 . 6 ) , führt dies zu einer natürlichen Verallgemeinerung der restringierten Kleinste-Quadrate Schätzfunktion, es folgt:
b* = b + (X'V^X^R'
[R(X'V~l
X)~l R'\
1
(r - Rh);
(9.20)
dabei ist b der nichtrestringierte GLS-Schätzwert.
Eine realisierbare
SURE-Schätzfunktion
I m allgemeinen wird 0 unbekannt sein, so daß (9.11) nicht direkt angewandt werden kann, f i kann aber geschätzt werden, indem man das KQ-Verfahren auf jede Gleichung separat anwendet. Kennzeichnet e, den T x 1 Vektor der KQ-Residuen in der iten Gleichung, ist ein Schätzwert für das ijte Element in il gleich: üij = efa/T,
i,j=l,...,N.
(9.21)
Durch Substitution von fl in (9.11) oder ( 9 . 1 7 ) ergibt sich dann eine realisierbare
SURE-
Schätzfunktion. Die Diskussion zum Abschluß des Abschnittes 4 legt nahe, daß die resultierenden Schätzwerte für ß unter geeigneten Bedingungen dieselbe asymptotische Verteilung wie ( 9 . 1 1 ) haben werden. Die Schätzfunktion für die asymptotische Kovarianzmatrix der realisierbaren S U R E - S c h ä t z f u n k t i o n lautet: avar(b) Beispiel
1
=
(9.22)
Die Anwendung von Grunfelds Investitionstheorie auf D a t e n zweier
Unternehmungen,
General
Electric
und Westinghouse
ist
ein
klassisches
Beispiel für die Anwendung der S U R E - T e c h n i k ; vergleiche Theil ( 1 9 7 1 ) , dort
2.9.
71
SURE-REGRESSIONEN sind die Daten auf S. 296 wiedergegeben. Die Theorie postuliert, daß die Investitionen im nächsten Jahr y v o m 'Marktwert der Unternehmung' x\, der definiert ist als der Gesamtwert der umlaufenden Aktien bewertet mit der Jahresendnotierung an der Börse, und dem Kapitalstock x^ abhängen.
Die
seperate KQ-Schätzung jeder Gleichung erbringt die folgenden Ergebnisse: General Electric
¿/j =
-10,0
+0,027zn
+ 0 , 152x 2 i
Westinghouse
y2 =
-0,5
+0,053x12
+ 0 , 092x 2 2 ,
/g
wobei der zweite Index an x i und x2 die Gleichung indiziert und der Zeitindex zweckmäßigerweise vernachlässigt worden ist. Der Schätzwert für i i aus den KQ-Residuen ist:
Sl =
660,83
176,46
176,46
88,67
(9.24)
Die Korrelation zwischen den Störgrößen in den beiden Gleichungen b e t r ä g t 0,53, dadurch wird nahegelegt, daß eine gemeinsame Schätzung angemessen wäre.
Tatsächlich erscheint dieses aus theoretischer Sicht sinnvoll, da zu
erwarten ist, daß die Investitionen bis zu einem gewissen A u s m a ß
durch
Überlegungen, die mit der Gesamtwirtschaft verbunden sind, bestimmt werden. Speziell solche Variablen sind nicht in dem Modell enthalten und so muß ihr Einfluß in den Störtermen sichtbar werden. Verwendet
man
die
Schätzung
für
ft
aus (9.24),
führt
die
realisierbare
SURE-Schätzfunktion zu:
Die
Einführung
2/1 =
-27,7
+0,038xn
+ 0 , 139x 2 i
y2 =
-1,3
+0,058x12
+0,064X22.
der
Restriktion,
daß
die
Koeffizienten
'
der
erklärenden
Variablen für jede Unternehmung gleich sind, ergibt: S/i =
-23,0
+0,036x„
+0,139x21
2/2 =
6,9
+0,036x12
+0,139X22-
'
Vergleiche (9.19). Beispiel
2
Hart, Hutton und Sharot (1975) schlagen zur Erklärung
Zuschauerzahl
bei
einem
Fußballspiel
in
der
englischen
Fußballiga
der das
folgende Modell vor: log y t -
a + ßi\og xlt
+ ß2log x2t + /53log x 3 e (9.27)
+/34log x4t + /35log x 5 ( + e ( , mit
yt als der Zuschauerzahl
Ligapositionen Einwohnerzahl
beim
tten
Saisonspiel,
xi
und x 2
sind
der Heim- und Auswärtsmannschaft vor dem Spiel, x 3 im
Einzugsgebiet
der
Heimmannschaft,
X4
ist
die die die
Reiseentfernung für die auswärtigen Fußballanhänger und X5 ist ein Zeittrend.
72
K A P I T E L 2.
REGRESSION
Gleichung (9.27) wurde für vier Mannschaften geschätzt: Leeds, Newcastle, Nottingham Forest und Southampton. Die Resultate der KQ-Schätzung für Newcastle sind typisch: logyt=
8,85 (0,84)
+0,06*1« (0,12)
-0,08x2( (0,04)
+0,31z3f (0,08)
—0,22x4t (0,06)
-0,08x5
XiXt-T
t=T+l
für T = 0 , . . . , r existiert und nichtsingulär für r = 0 ist. (iii) Die Wurzeln des AR-Polynoms des Lag-Operators a(L) = 1 — a\L —
arLr
außerhalb des Einheitskreises liegen. Die A n n a h m e n (ii) und (iii) implizieren: T
plimT"1
ztz't = Q,
(12.2)
f=r+l wobei z ( = (j/i-i, • • •, 3/t-r, x't)' un< ^ Q e ' n e Matrix ist. Dies ist tatsächlich dieselbe Bedingung, die weiter oben in (3.13) angegeben wurde. Die andere Bedingung, die am
2.12.
81
AUTOREGRESSION
E n d e des 3. A b s c h n i t t e s angesprochen wurde, daß die Störgrößen u n a b h ä n g i g von den e r k l ä r e n d e n Variablen zu allen Zeitpunkten sind, ist hier offensichtlich nicht e r f ü l l t , d a t t T 0 f ü r alle T > 0 ist. Im E r g e b n i s werden die K Q - S c h ä t z w e r t e für die P a r a m e t e r a u n d ß in kleinen Stichproben allgemein verzerrt sein, und es wird sehr schwierig, i r g e n d e t w a s P o s i t i v e s über die E i g e n s c h a f t e n in kleinen S t i c h p r o b e n zu s a g e n . F o l g t m a n a b e r einer A r g u m e n t a t i o n s l i n i e , die auf M a n n und Wald ( 1 9 4 3 ) z u r ü c k g e h t , kann gezeigt werden, daß:
E(y e - )
plim T - 1 ^ und
z t €t — 0
T- 1' 2^^
(12.3)
N(0,a 2Q).
(12.4)
...,a ,ß')'
E s sei 7 = ( q j , T und sind ihre K Q - S c h ä t z w e r t e mit c gekennzeichnet, d a n n folgt a u s ( 1 2 . 2 ) und ( 1 2 . 3 ) , d a ß c ein konsistenter S c h ä t z w e r t für 7 ist. Weiterhin kann C r a m e r s T h e o r e m ( 1 . 4 . 1 7 ) eingeführt werden u m zu zeigen, d a ß T 1 / , 2 ( c — 7 ) als Grenzverteilung eine m u l t i v a r i a t e N o r m a l v e r t e i l u n g mit Mittelwert Null u n d K o v a r i a n z m a t r i x Q _ 1 < t 2 Q Q _ 1 =