Angewandte Zeitreihenanalyse 9783486710953

Dieses Buch präsentiert die wichtigsten Modelle und Verfahren der Zeitreihenanalyse in einer für Studierende und Anwende

218 34 7MB

German Pages 211 [212] Year 2011

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Kapitel 1 Einführung
Kapitel 2 Grundlagen und einfache Methoden
Kapitel 3 Lineare Zeitreihenmodelle
Kapitel 4 Periodizitäten in Zeitreihen
Kapitel 5 Mehrdimensionale Zeitreihen
Kapitel 6 Zeitreihen mit exogenen Einflüssen
Kapitel 7 Zustandsraummodelle und Kalman-Filter
Kapitel 8 Nichtlineare Modelle
Kapitel 9 Spezielle Probleme
Recommend Papers

Angewandte Zeitreihenanalyse
 9783486710953

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Böhning, Allgemeine Epidemiologie Caspary · Wichmann, Lineare Modelle Chatterjee • Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen · Lorscheid, Statistik-Lehrbuch Degen • Lorscheid, Statistik-Aufgabensammlung, 4. Auflage Härtung, Modellkatalog Varianzanalyse Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler • Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller (Übers. Schlittgen), Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatik Oerthel • Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer • Heine · Härtung, Statistik für Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 2. Auflage

Fachgebiet

Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch · Herrendörfer u.a., Verfahrensbibliothek, Band I und Band 2 Riedwyl • Ambühl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage Rinne, Statistische Analyse multivariater Daten - Einführung Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I: Grundlagen Schlittgen, Statistik, 9. Auflage Schlittgen, Statistische Inferenz Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Angewandte Zeitreihenanalyse Schlittgen · Streitberg, Zeitreihenanalyse, 9. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten

Biometrie

Herausgegeben von Dr. Rolf Lorenz Bisher erschienene Werke: Bock, Bestimmung des Stichprobenumfänge

Brunner · Langer, Nichtparametrische Analyse longitudinaler Daten

Angewandte Zeitreihenanalyse Von Universitätsprofessor

Dr. Rainer Schlittgen

R.01denbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Sehlingen, Rainer: Angewandte Zeitreihenanalyse / von Rainer Sehlingen. München ; Wien : Oldenbourg, 2001 (Lehr- und Handbücher der Statistik) ISBN 3-486-25805-2

© 2001 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung.· Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-25805-2

Vorwort Das Buch geht zurück auf eine Reihe von Kursen über Zeitreihenanalyse, die ich für Forscher aus verschiedenen Anwendungsbereichen gehalten habe. Von den Teilnehmern wurde immer wieder nach einem Text gefragt, der sie schnell in die Lage versetzen würde, selber Zeitreihenanalysen durchzuführen; er sollte das Gebiet ohne 'formalen Ballast' darstellen. Dies habe ich nun zu realisieren versucht. Daneben hat sich auch in der kontinuierlichen Lehrpraxis am wirtschaftswissenschaftlichen Fachbereich gezeigt, dass Studierende immer mehr an einem nicht-technischen Überblick über das Gebiet interessiert sind als an einer formalmethodisch ausgerichteten Darstellung. So soll das Buch zudem einen Uberblick über den etablierten Stand der Zeitreihenanalyse geben. Auch wenn der formale Rahmen für ein Verständnis der Zeitreihenanalyse recht eng gehalten werden kann, ist es wichtig, bei der Anwendung der Verfahren über einen ausreichenden Hintergrund zu verfügen; man muss verstehen, was man tut. Daher wird hier auch die jeweilige Grundlage der Methoden angesprochen. (Jedoch, wie bereits gesagt, unter möglichster Vermeidung von mathematischen Ausführungen und ohne Beweise.) Hinweise zur Literatur sind an das Ende des jeweiligen Kapitels verbannt, um den Text möglichst leserfreundlich zu gestalten. Generell wird zur weiteren Beschäftigung mit dem Gebiet der Zeitreihenanalyse das in der gleichen Reihe erschienene Werk 'Zeitreihenanalyse' von Schlittgen und Streitberg empfohlen. Dem Anwendungsgesichtspunkt wird weiter Rechnung getragen durch die Kommentierung von Software. Anstatt ein Programm-Paket auszuwählen und eine Art Manual dazu zu verfassen, wird hier auf die Auswertungsmöglichkeiten mittels verschiedener Software-Produkte eingegangen. Zudem werden Hinweise gegeben auf Programme, die über das Internet zugänglich sind. Neben kompletten kleinen Programmpaketen gibt es auch (i.d.R. kostenfreie) Programme in verschiedenen Programmiersprachen. Eine Mischung aus beidem bietet die Programmiersprache GAUSS mit vielen Modulen und vielen einzelnen Prozeduren. Auf diese recht einfach zu erlernende mächtige Programmiersprache, die speziell unter Wirtschaftswissenschaftlern sehr verbreitet ist, wird ein besonderes Augenmerk gelegt. Allen, die mich bei der Erstellung des Buches unterstützt haben, möchte ich herzlich danken, besonders Thomas Noack, der mir beim Layout fachkundig zur Seite stand und den ganzen Text Korrektur gelesen hat. Rainer

Schlittgen

Inhaltsverzeichnis 1

2

3

4

Einführung

1

1

Fragestellungen und Datensituation

1

2

Zur kommentierten Software

6

3

Datenquellen

9

G r u n d l a g e n u n d einfache M e t h o d e n

11

1

Stationäre Zeitreihen

11

2

Das Komponentenmodell

17

3

Deterministische Trends

18

4

Transformationen

27

5

Stochastische Trends

30

6

Saisonbereinigung

32

7

Einfache Extrapolationsverfahren

37

8

Hinweise zu Literatur und Software

41

Lineare Z e i t r e i h e n m o d e l l e

45

1

Autoregressive Modelle

45

2

MA-Modelle

58

3

ARMA-Modelle

62

4

ARIMA-Modelle

69

5

Prognosen mit ARIMA-Modellen

73

6

Hinweise zu Literatur und Software

77

P e r i o d i z i t ä t e n in Zeitreihen

81

1

Periodizitäten

81

2

Periodische Trends

82

3

Das Periodogramm

83

VIII

5

6

7

8

9

INHALTSVERZEICHNIS

4

Spektren

92

5

Spektralschätzung

97

6

Hinweise zu Literatur und Software

104

Mehrdimensionale Zeitreihen

107

1

Kenngrössen im Zeitbereich

107

2

VAR-Prozesse

114

3

Kointegration

121

4

Kreuzspektren

124

5

Hinweise zu Literatur und Software

127

Zeitreihen mit exogenen Einflüssen

133

1

Regression mit autokorrelierten Störungen

133

2

Interventionsanalysen

136

3

Transferfunktionsmodelle

141

4

Hinweise zu Literatur und Software

146

Zustandsraummodelle und Kaiman-Filter

149

1

Zustandsraummodelle

149

2

Kaiman-Filter

154

3

Hinweise zu Literatur und Software

158

Nichtlineare Modelle

161

1

Modelle mit nichtlinearer bedingter Erwartung

164

2

Bedingt heteroskedastische Modelle

170

3

Zur Auswahl nichtlinearer Modelle

173

4

Hinweise zu Literatur und Software

177

Spezielle Probleme

183

1

Fehlende Werte

183

2

Nicht gleichabständige Beobachtungen

185

3

Ausreisser und robuste Verfahren

187

4

Hinweise zu Literatur und Software

193

Abkürzungen und Symbole

197

Index

199

Kapitel 1 Einführung 1

Fragestellungen und Datensituation

Zeitreihen sind zeitlich geordnete Beobachtungswerte des jeweils gleichen Sachverhaltes. Beispiele sind etwa 1. Monatliche Auftragseingänge (in Währungseinheiten) f ü r eine Fertigungss t ä t t e eines Unternehmens; 2. Tägliche Niederschlagsmenge (in m m ) ; 3. Konzentration eines Hormons im Blut; 4. Sauerstoffgehalt (mg/1) in der Leine bei Neustadt; 5. Das kontinuierlich abgenommene E E G . In den ersten vier Fällen liegen Beobachtungen yt zu gleichen Zeitabständen Δ ί vor. Konkret ist Δ ί ein Monat bei 1.; bei 2. gilt Δ ί = 1 Tag, bei 3. b e t r ä g t der A b s t a n d 15 min. und beim vierten Beispiel 30 min. Wir sprechen d a n n von Beobachtungen in diskreter Zeit und nummerieren die Zeitpunkte einfach durch: t = 1 , 2 , 3 , . . . , N. Diese Situation ist sicherlich die einfachste. Sie bildet die G r u n d l a g e für das folgende und wird im M i t t e l p u n k t der Diskussion stehen. Im f ü n f t e n Beispiel wird die interessierende Variable stetig beobachtet. Zeitreihen mit stetigem (Zeit-) P a r a m e t e r werden für die Auswertung i.d.R. diskret abgetastet (mit kleinem Δ ί ) und d a n n so analysiert, als ob sie von vornherein diskret beobachtet worden wären. Wir gehen daher auf Zeitreihen mit stetigem Zeitparameter hier nur insoweit ein, als die Frage der Wahl von Δ ί angesprochen wird. Das vierte Beispiel zeichnet sich dadurch aus, dass die automatischen Aufzeichnungsgeräte gerne auch einmal ausfallen. Es resultieren d a n n Zeitreihen mit Lücken oder allgemeiner mit nicht gleichabständigen Beobachtungen. Wieweit

2

KAPITEL

1.

EINFÜHRUNG

sich die Methoden für die Standardsituation zur Erfassung auch dieser Situation modifizieren lassen, wird an geeigneter Stelle besprochen. Zu Beginn der Beschäftigung mit einer Zeitreihe yi,...,yn sollte stets eine Problemstellung formuliert sein. Daraus ergibt sich auch, welche der Methoden zur Analyse von Zeitreihen anzuwenden ist.

Beispiel 1.1 Seit alters her bemühen sich die Menschen um Vorhersagen der Zukunft. Ein einfaches Beispiel sind Wetterprognosen. In der Frühzeit gab es hier sehr einfache Ansätze. Man schaute in die Zukunft mit Hilfe der Eingeweide geopferter Tiere u.ä. Spätere Wettervorhersagen basierten dann wie die Bauernregeln schon auf Beobachtungen. Heutzutage erstellt man Prognosen auf der Basis von Beobachtungen und geeigneten mathematischen Modellen, die in der Regel sehr komplex und rechenaufwendig sind. Speziell besteht bei wirtschaftlichen Zeitreihen ein Hauptinteresse in der Prognose. Aufgrund des bisherigen, bekannten Verlaufes möchte man diesen zumindest einige Zeitpunkte in die Zukunft hinaus extrapolieren. Das gilt sowohl für betriebswirtschaftliche als auch für volkswirtschaftliche Reihen. Ein Beispiel für den ersten Bereich ist etwa die Prognose der Anforderung von Teilen, um eine vernünftige Vorratshaltung zu ermöglichen. Dabei ergibt sich nicht selten das Problem, gleichzeitig viele Zeitreihen in die Zukunft extrapolieren zu müssen. Eine typische volkswirtschaftliche Zeitreihe sind die Arbeitslosenzahlen, deren Prognose immer wieder auf der Tagesordnung steht. •

Beispiel 1.2 Praktisch alle Lebensprozesse weisen rhythmische Schwankungen auf. Bereits bei Einzellern bestehen Zellteilungs- und Wachstumsrhythmen. Bei höher entwickelten Organismen überlagern sich eine Vielfalt von rhythmischen Vorgängen und machen häufig eine Analyse sehr schwierig. Nach ihrer Zykluslänge werden Rhythmen im biologischen Bereich als infradian (Zykluslänge > 24 Stunden; Beispiel: Menstruationszyklus), circadian (Zykluslänge « 24 Stunden; Beispiel: Schlaf/Wach-Rhythmus) und ultradian (Zykluslänge < 24 Stunden; Beispiel: Schlafphasen-Rhythmus von « 90 — 105 Minuten) eingeteilt. Im Bereich der hormonellen Steuerung des Säugetierorganismus -einschließlich des Menschen- finden sich viele derartige rhythmische Vorgänge. So erzeugt die Nebennierenrinde in den frühen Morgenstunden einen relativ hohen und in den Abendstunden einen nur sehr niedrigen Blutspiegel des wichtigen Hormons Cortisol. Diesem circadianen Rhythmus sind Schwankungen kleinerer Amplitude überlagert, die durch kurzdauernde Sekretionsschübe des Cortisols verursacht werden. Der circadiane Rhythmus wird durch Modulation der Frequenz und der Amplitude der kurzfristig-episodischen Sekretionsschübe erzeugt. Allgemein wird der Sekretions-Rhythmus vieler Hormone wird durch äußere oder innere Einflüsse moduliert. Dies kann durch den Licht/Dunkel-Wechsel, durch den Schlaf/Wach-Rhythmus oder sogar durch den Schlaf-Phasen-Rhythmus gesche-

1. FRAGESTELLUNGEN

UND

DATENSITUATION

3

hen. Diese können sich dann circadianen oder kurzfristigen episodischen Schwankungen überlagern. Die Frage ist dann, ob in einer Reihe von Blutspiegeln, die in kurzen Abständen erhoben wurden, neben dem ausgeprägten circadianen Rhythmus auch andere deutlich hervorstechende ultradiane Rhythmen bei der Hormonausschüttung zu erkennen sind. • Beispiel 1.3 Im Rahmen der Dendrochronobiologie wird das Wachstum von Bäumen untersucht. Dieses wird durch die Stärke der Jahresringe ermittelt; je mehr ein Baum pro Jahr wächst, desto breiter ist der zugehörige Jahresring. Die Jahresringe sind ja gut an einer Schnittfläche zu erkennen und zu messen. Das Interesse an diesem Wachstum resultiert aus der Möglichkeit der Datierung anhand von Jahresringen. So kann das Alter eines Hauses anhand der Untersuchung von Balken, die zum Bau verwendet wurden, ebenso wie die Entstehungszeit eines Bildes, das auf Holz gemalt ist, eingegrenzt werden. Eine aktuelle Anwendung ist etwa ein wieder entdecktes Gemälde Shakespeares, von dem man wissen wollte, ob es zu seinen Lebzeiten gemalt wurde. Zu den verschiedenen Untersuchungsmethoden zur Altersbestimmung gehörte auch die Analyse der Jahresringe. Diese ergab, dass das Bild frühestens 1597 hergestellt wurde. Die Stärke eines Jahresringes Yt wird dabei natürlich von den klimatischen Größen abhängen. Bei Berücksichtigung der jährlichen Durchschnittstemperatur Tt und dem jährlichen Niederschlag Nt führt dies etwa zu dem Ansatz Yt = f{Tt, T ( _ x , . . . , Tt-pl,Nt,

Nt-!,...,

Nt.P2)

+ Ut.

Die Frage ist dann, welche Funktion / hier geeignet ist um die Abhängigkeit zu erfassen und welche Zeitverzögerungen P\,P2 zu berücksichtigen sind. • Beispiel 1.4 Am 9. November 1965 gingen in New York aufgrund eines Defektes in der Elektrizitätsversorgung die Lichter aus und blieben es die ganze Nacht. Hatte dieser Black-Out tatsächlich neun Monate später ein Ansteigen der Anzahlen der Geburten zur Folge, wie immer wieder in der Presse behauptet wird? Dann müsste sich ein "Interventionseffekt" in der Zeitreihe der wöchentlichen Geburten nachweisen lassen. Gesucht ist also ein Modell für die "normale" Zeitreihe und eine Möglichkeit, den Black-Out-Effekt zu testen. • Die Fragen, die in den Beispielen angeschnitten worden sind, gehören zu dem Katalog von Fragestellungen, die im Rahmen der Zeitreihenanalyse untersucht werden: •

Weist die Zeitreihe einen Trend auf, d.h. ein langfristiges Ansteigen oder Abfallen des Niveaus der Werte? Welche Gestalt hat er?



Gibt es eine Saison, ein durch die Jahreszeit bedingtes, regelmäßig wiederkehrendes Muster? Welche Gestalt hat es? Gibt es sonstige zyklische Schwankungen? Welche Länge haben die Zyklen bzw. wie oft kehren die Schwankungen wieder? Wie stark sind sie?



4

KAPITELL • • • •

EINFÜHRUNG

Weist die Zeitreihe noch andere Veränderungen im Zeitverlauf auf? Sind einzelne Werte als Ausreißer anzusehen, d.h. sind sie so extrem, dass sie nicht mit dem sonstigen Verlauf der Reihe in Einklang zu bringen sind? Wie wird sich die Größe, die durch die Zeitreihe dargestellt ist, weiterentwickeln? Gibt es Zusammenhänge zwischen verschiedenen Zeitreihen?

Bei systematischen Niveauveränderungen wird in ökonomischen Zeitreihen oft noch zwischen Trend und Konjunkturzyklus unterschieden. Saisonfiguren sind etwa von den monatlichen Arbeitslosenzahlen sowie von Umsätzen von Konsumgütern wie Speiseeis bekannt. Zyklische Muster sind etwa im Schlaf/WachRhythmus des Menschen zu beobachten. Um solche Fragen, zu beantworten, ist es unabdingbar, Annahmen über das Zustandekommen der jeweiligen Reihe(n) zu machen, m. a. Worten ein geeignetes Modell zu unterstellen. Den Vorstellungen der Statistik entsprechend werden als erstes die beobachteten Werte als Realisationen von Zufallsvariablen aufgefasst. Das bedeutet, dass man eine Folge von Zufallsvariablen Yi,...,YN zu betrachten hat. Schon wegen der Prognosen, aber auch aus theoretischen Gründen ist es sinnvoll, einen größeren Zeithorizont als den, in dem die vorliegenden Werte beobachtet wurden, zuzulassen. Definition 1.5 Ein stochastischer Prozess ist eine Folge (Yt) von Zufallsvariablen. Der Index t, t € N,N 0 ,oderZ, wird i.d.R. als Zeit aufgefasst. Eine Zeitreihe ist eine Folge V\, • • •; VN von Realisationen eines Ausschnittes von (Yt). Man diese auch Zeitpfad oder Trajektorie des Prozesses. Oft wird (y t ) oder Y i , . . . , Υχ selbst als Zeitreihe bezeichnet. • Als grundlegende Annahme unterstellt man in der Statistik üblicherweise, dass die den Beobachtungen zugrundeliegenden Zufallsvariablen Yt eine Folge von unabhängigen, identisch verteilten Zufallsvariablen darstellen. Solche Folgen sind auch in der Zeitreihenanalyse von großer Bedeutung; sie sind zumindest Bausteine für interessantere Prozesse. Definition 1.6 Ein White-Noise-Prozess ist eine Folge von unabhängigen identisch verteilten Zufallsvariablen. Derartige Prozesse werden im folgenden meist mit (ε() bezeichnet. Definition 1.7 Sei (et)teNo ein White-Noise-Prozess. Der stochastische Prozess Yt = Y^i=0£i heißt Random- Walk. •

1. FRAGESTELLUNGEN

UND DATENSITUATION

5

Abbildung 1.1: Drei Realisationen eines White-Noise-Prozesses

Abbildung 1.2: Fünf Realisationen eines Random-Walk

Allgemein dient der Random-Walk als Modell für einen Irrfahrsprozess. Können speziell die zur Definition eines Random-Walk benötigten e t nur die Werte -1 und 1 annehmen, so kann er als Auszahlungsmodell für Glücksspiele dienen. Nach t Spielen hat sich ein Gewinn bzw. Verlust von Yt Geldeinheiten angesammelt. Mit stetig verteilten et bilden Random-Walks vielfach Modelle für Aktienkursreihen. In den meisten zeitreihenanalytischen Anwendungen wird es schwierig sein, den zugrundeliegenden Zufallsvorgang substanziell zu spezifizieren. Ein stochastischer Prozess dient dann als Modellvorstellung, in die bestimmte Annahmen über den Mechanismus eingehen, der die beobachtete Zeitreihe produziert hat. Anders als bei der klassischen Statistik liegt in der Zeitreihensituation streng genommen nur eine Beobachtung, genauer eine Beobachtungssequenz, vor. Zu jedem Zeitpunkt t wird ja nur eine Beobachtung der jeweiligen Zufallsvariablen Yt gemacht; für verschiedene Zeitpunkte t, s sind die zugehörigen Yt, Ys ja unterschiedliche Zufallsvariablen. Damit es dennoch möglich ist, daraus Schlussfolgerungen zu ziehen, sind geeignete Annahmen zu treffen. Die zentrale Forderung ist die Stationarität. Diese sichert, dass sich die stochastischen Charakteristika über die Zeit nicht ändern. Gegebenenfalls ist die Statio-

6

KAPITEL

1.

EINFÜHRUNG

narität 'herzustellen'. Dies ist das zentrale Thema des ersten Abschnittes des folgenden Kapitels. Zusätzlich wird noch die Ergodizität benötigt. Grob gesprochen ergibt diese Forderung, dass Charakteristika der Verteilungen je endlich vieler Zufallsvariablen Ytl,..., Ytk wie Erwartungswerte, Varianzen und Kovarianzen sich durch geeignete, aus dem zeitlichen Verlauf bestimmte Größen konsistent schätzen lassen. Wie bei der klassischen Statistik basieren viele Methoden und Aussagen in der Zeitreihenanalyse auf Verfahren, welche die Normalverteilung voraussetzen. Demgemäß bildet die Voraussetzung eines Normalprozesses die zweite, für weite Teile der Praxis wesentliche Annahme in der Zeitreihenanalyse. Definition 1.8 Ein stochastischer Prozess (Yt), bei dem für alle möglichen Indizes ίχ, t 2 , . . . , die Variablen Yti,Yt2,. •., Ytk multivariat normalverteilt sind, heißt Normalprozess oder Gauß-Prozess. • Eine besondere Bedeutung kommt in der Zeitreihenanalyse den Gaußschen WhiteNoise-Prozessen zu, also den Folgen (ε;) von unabhängigen, identisch normalverteilten Zufallsvariablen st ~ Αί(μΕ,σ^). Solche Prozesse sind zwar in der Praxis bei zeitlich geordneten Beobachtungsdaten kaum anzutreffen; sie spielen jedoch eine große Rolle beim Modellieren. Wird nämlich ein Modell für eine Zeitreihe gesucht, so orientiert man sich wesentlich daran, ob die nicht erklärten 'Reste' oder Störungen als Realisation eines WhiteNoise-Prozesses angesehen werden können. Ist dies erreicht, so kann man davon ausgehen, dass alle systematischen Komponenten der Zeitreihe im Modell erfasst sind. Die Normalverteilung erleichtert dabei das Überprüfen der Relevanz der Parameter des Modells bzw. der Einschätzung der Variablität von Schätzungen und Prognosen.

2

Zur kommentierten Software

Es gibt zahlreiche Programme zur Zeitreihenanalyse. Eine erste, keineswegs eindeutige Klassifizierung unterteilt die vorhandenen Pakete bzw. Programme in drei Gruppen. Da sind zunächst die großen Programmpakete für Statistik und Ökonometrie. Diese haben meist schon eine jahrzehntelange Entwicklung hinter sich. Aufgrund ihrer langen Entwicklungszeiten verfügen diese Pakete über einen ausgesprochen großen Leistungsumfang. Zum Teil ist ihre Entwicklung im Rahmen von Projekten an Universitäten zu "Großrechnerzeiten" gestartet worden. Allerdings verfügen sie nunmehr alle über grafische Oberflächen und sind auf einer Vielzahl von Rechnerplattformen verfügbar. Zum Teil ist aber den Programmen ihre Herkunft noch anzumerken.

2. ZUR KOMMENTIERTEN

SOFTWARE

7

Wesentlicher Pluspunkt der Programme dieser Gruppe ist ihr mächtiger Funktionsumfang und das Vorhandensein einer "Programmiersprache", mit der auch komplexe Analyseabläufe automatisiert werden können. Kritisch ist hier allenfalls der Preis anzumerken. Soweit normale Listenpreise gezahlt werden müssen, sind sie bei erstmaliger Anschaffung und voller Ausbaustufe sehr teuer. Zum Teil können Sie auch nur über eine jahresweise Lizenzgebühr genutzt werden. Dann ist für den Privatpersonen sowieso nach einer Alternative zu suchen. Mitunter verfolgen die Anbieter dieser Software ein Modulkonzept, so dass der Anwender nicht benötigte Funktionen auch nicht erwerben (und bezahlen) muss. In der Basisversion erscheinen diese Pakete daher zunächst recht preisgünstig. Will man jedoch das gesamte Spektrum der Zeitreihenanalyse abdecken, sind in der Regel mehrere Zusatzmodule notwendig. Von dieser Gruppe werden bei den Anmerkungen zur Software die StatistikPakete SAS (Version 8.0), SPSS (Version 10.0) und Statistica (Version 6.0) sowie das Ökonometrie-Paket EViews (Version 4.0) einbezogen. Alle drei StatistikPakete bieten jeweils recht umfangreiche Module zur Zeitreihenanalyse. Nur der Funktionsumfang wird bei der Kommentierung berücksichtigt, auf den ein NichtSpezialist ohne weiters Zugang hat. Sicher können mit den Programmier-Möglichkeiten, die alle drei Pakete bieten, weitere Verfahren realisiert werden. Die Zielgruppe dieses Textes besteht aber eher aus Personen, die einen Einstieg in die Zeitreihenanalyse suchen und gegebenenfalls kleinere Auswertungen durchführen wollen. SPSS und Statistica bieten eine Menü-Oberfläche, die eine einfache und schnelle Analyse mit den implementierten Standardauswertungen ermöglicht. Weiter gehende Optionen sind dann über die angesprochenen Programmier-Möglichkeiten zu realisieren. SAS ist in Bezug auf die Handhabung generell anspruchsvoller. Wenn man sich aber damit einmal vertraut gemacht hat, eröffnet SAS aber weitaus mehr Möglichkeiten als die beiden anderen Pakete. Als Ökonometrie-Paket ist EViews wegen der Relevanz der Zeitreihenanalyse praktisch auf gewisse Aufgabenstellungen der Zeitreihenanalyse zugeschnitten. Auch EViews verfügt über eine eigene Programmiersprache. Es handelt sich eher um eine Kommandoprozedursprache, die eine Teilmenge des Sprachumfangs von TSP darstellt. TSP selbst ist eine Art rein "kommandoprozedurorientiertes" (aber zugleich sehr mächtiges) Ökonometrie-Paket. In gewisser Weise stellt es den Vorgänger von EViews dar. Anders ausgedrückt lässt sich EViews als "vereinfachtes TSP" mit grafischer Benutzeroberfläche ansehen. Diese Beziehung zwischen TSP und EViews erleichtert einen eventuell geplanten Umstieg von TSP auf EViews (oder umgekehrt). Kleinere Programme, welche Zeitreihenanalysen verschiedensten Typs und unterschiedlichster Fragestellung erlauben, sowie Programme für spezifische zeitreihenanalytische Fragestellungen bilden die zweite Gruppe von Software zur Zeitreihenanalyse. Diese Programme sind i.d.R. Büchern zur Zeitreihenanalyse auf Diskette beigefügt oder aus dem Netz herunterladbar.

8

KAPITELL

EINFÜHRUNG

Ein kleineres Paket mit dem Namen ITSM begleitet das Buch von Brockwell & Davis (1996). Sehr spezifisch ist TIMESLAB von Newton (1988). Das Buch zu dieser Diskette ist praktisch ein Manual, vereint aber die grundlegende Theorie und die dazugehörigen Methoden und Algorithmen zur Analyse uni- und bivariater Zeitreihen. Sicher ist es von der Oberfläche her nicht mehr zeitgemäß; jedoch bietet es viele Möglichkeiten. ASTSA ist frei aus dem Netz herunterladbar. Dieses Programm von McQuarrie L· Shumway (1994) bietet eine nette grafische Oberfläche und für eine Freeware viele Möglichkeiten. Shumway & Stoffer (2000) geben hierfür zwei Web-Adressen an: www.stat.ucdavis.edu/~shumway/tsa.html www.stat.pitt.edu/~stoffer/tsa.html. Weitere, spezifischere Programme werden in den entsprechenden Kapiteln erwähnt. Trotz einer "Programmiersprache" bei den Statistik- und Ökonometrie-Paketen kann die Implementation eines aufwendigen, komplizierten Analyse- und Modellierungsvorhabens mit ihnen schnell zu umständlich oder gar unmöglich werden. Flexiblere und leistungsfähigere Lösungen sind mit speziellen Statistik-Programmiersprachen, wie GAUSS, Matlab, R oder SPlus möglich. Diese Programmiersprachen oder, besser gesagt, -Umgebungen, enthalten zudem vorgefertigte Module zur Zeitreihenanalyse. Hier wird nur auf die Programmiersprache GAUSS (Version 3.6) eingegangen; GA USS von der Firma Aptech Systems Inc. ist eine schnelle Matrizenprogrammiersprache mit integrierten mathematischen und statistischen Bibliotheken sowie hochqualitativen Grafikroutinen. Es ist speziell entwickelt für rechenintensive, numerische Analysen. Eine Einführung in GAUSS gibt Schlittgen (2001). In Deutschland wird GAUSS von der FA. Additive1 vertrieben. Die Studentenversion, GAUSS Light, kann sehr preiswert (zur Zeit sogar kostenfrei!) aus dem Netz herunter geladen werden. Sie hat den vollen Funktionsumfang der Vollversion; lediglich die Dimensionen der Matrizen unterliegt einer Begrenzung. Für GA USS gibt es den wohl größten Vorrat an Modulen zur Zeitreihenanalyse unter den genannten Programmierumgebungen; das rührt von seiner großen Verbreitung unter Ökonometrikern her. Neben den zahlreichen Modulen, die kommerziell von Aptech zu beziehen sind, und freien Progamm-Bibliotheken, die über das WWW herunter geladen werden können, wurden auch vom Autor viele der hier besprochenen Verfahren in GAUSS implementiert. Diese Programme können aus dem WWW heruntergeladen werden; die URL ist http://www.rrz.uni-hamburg.de/IfStOek/schlittgen/schlitt.htm

.

Hingewiesen sei weiter auf im folgenden nicht mehr kommentierte umfangreiche Sammlung von Pascal- und C-Progammen, die auf CD dem Buch von Pollock (1999) beigegeben ist. Janacek (2001) hat eine Sammlung von Ä-Programrnen l

Additive GmbH, Rohrwiesenstr. 2, D-61381 Friedrichsdorf. Die Web-Site ist: http://www.additive-net.de

3.

9

DATENQUELLEN

geschrieben; auch sie können aus dem Web herunter geladen werden. Die WebAdresse lautet http://www.mth.uea.ac.uk/h200/book

.

Einen Werkzeugkasten mit Matlab-Programmen zur Zeitreihenanalyse offeriert A. Schlögl auf seine Homepage; auch darauf wird hier nicht weiter Bezug genommen: http://www-dpmi.tu-graz.ac.at/~schloegl/matlab/tsa/. Dieser Überblick ist nicht vollständig; einmal können nicht alle Programme berücksichtigt werden, zum anderen kommen ständig neue auf den Markt. Zudem sind die Anmerkungen auch in dem Sinne verfälscht, dass der Blickwinkel des Autors und seine Vorlieben in die Bewertungen eingehen.

3

Datenquellen

So wie es für die Anwendung unabdingbar ist, über eine geeignete Software zu verfügen, ist es für das Vertrautwerden mit den Methoden essentiell, sie auf reale Daten und simulierte Reihen anzuwenden. Während die Simulationen mit fast allen der oben angesprochenen Programme möglich sind, muss man sich Daten zusammensuchen. Dies ist heutzutage keine Schwierigkeit mehr. Im Internet sind unter verschiedenen Adressen Sammlungen von Zeitreihen abgelegt. Erste Adresse ist die Time Series Data Library http://www-personal.buseco.monash.edu.au/"hyndman/TSDL/ Nicht weniger relevant ist die Adresse http://lib.stat.cmu.edu. Hier sind unter Andrews die Daten aus Andrews L· Herzberg (1985) abgelegt. Viele Zeitreihen sind unter Hipel-McLeod zu finden. Eine Quelle von ökonomischen Zeitreihen gibt es an der University of Maryland unter http://www.inform.umd.edu/EdRes/Topic/ Economics/EconData/Econdata.html Während früher, wie etwa bei Schlittgen & Streiberg (1986, 8te Auflage 1999), in Beispielen verwendete Zeitreihen im Anhang noch gelistet waren, sind inzwischen Daten bei vielen Bücher über Zeitreihenanalyse auf Diskette bzw. CD beigefügt; oftmals sind einfach Internet-Adressen genannt. Drei solche Adressen sind den Büchern Janacek (2001), Pena, Tiao & Tsay (2001) und Shumway & Stoffer (2000) entnommen: http://www.mth.uea.ac.uk/h200/tsbook/data http://gsb.uchicago.edu/f ac/ruey.tsay/teaching/ecas/ http://www.stat.pitt.edu/~stoffer/tsa.html

KAPITELL

10

EINFÜHRUNG

Die in Schlittgen & Streiberg (1999) im Anhang gelisteten Zeitreihen hat jetzt Otto Czepa ins Netz gestellt: http://otto.czepa.bei.t-online.de. Schließlich sei darauf hingewiesen, dass sämtliche Zeitreihen, die in diesem Buch verwendet werden, auf der bereits genannten Homepage des Autors abgelegt sind.

Literaturverzeichnis Andrews, D.F. and Herzberg, A.M. (1985). Data. New York: Springer. Brockwell, P. J . and Davis, R.A. (1996). Introduction casting. Berlin: Springer. Janacek, G. (2001). Practical

to Time Series and Fore-

Time Series. London: Arnold.

Newton, H.J. (1988). TIMESLAB: Wadsworth & Brooks/Cole.

A Time Series Laboratory. Pacific Grove, CA:

Pena, D. Tiao, G.C. and Tsay, R.S. (eds.) (2001). A Course in Time Analysis. New York: Wiley. Pollock, D.S.G. (1999). A Handbook of Time-Series and Dynamics. San Diego: Academic Press.

Analysis, Signal

Schlittgen, R. (2001). GAUSS für statistische Berechnungen. bourg Verlag. Schlittgen, R. und Streitberg, B.H.J. (1999). Zeitreihenanalyse, chen: R. Oldenbourg Verlag.

Series

Processing

München: R. Olden8te Auflage. Mün-

Shumway, R.H. and Stoffer, D.S. (2000). Time Series Analysis and Its Applications. Berlin: Springer.

Kapitel 2 Grundlagen und einfache Methoden 1

Stationäre Zeitreihen

Die Analyse und Modellierung von Zeitreihen hat das Ziel, Strukturen und Regelmäßigkeiten in Zeitreihen aufzuspüren und zur Beschreibung oder Modellierung auszunutzen. Darauf basieren ja, wie in der Einleitung angeführt, die weiteren Schritte. Dies wird etwa an folgendem Beispiel deutlich.

Beispiel 2.1 Am Ende eines verregneten Januars tröstete die Los Angeles Times die sonnenverwöhnten Südkalifornier: "Wenn Sie anfangen, das Ende des Regens herbeizusehnen, vertrauen Sie auf die Zyklen der Natur. Wie die historische Darstellung zeigt, ist Los Angeles unbeständig, was den Regen betrifft. Im Juni mögen dann einige Leute sich nach diesen feuchten Januartagen sehnen." (LA Times vom 28.1.1997) Diesem Trost wurde eine verschönerte Version der Abbildung 2.1 der jährlichen Niederschlagsmengen (in Inches) beigefügt. •

Abbildung 2.1: REGEN in Los Angeles

Wie in diesem Beispiel ist es stets der erste Schritt bei der Analyse einer Zeitreihe, sich eine grafische Darstellung, einen Plot, der Reihe anzusehen. Dabei ergibt die Darstellung der linearen Verbindungslinien meist einen besseren Eindruck der Gesamtstruktur der Reihe als eine Darstellung einzelner Punkte. Manchmal ist eine Überlagerung von Punkten und Verbindungslinien günstig.

12

KAPITEL

2. GRUNDLAGEN

UND EINFACHE

METHODEN

Abbildung 2.2: Weitere Darstellungen von REGEN in Los Angeles

Anhand eines solchen Plots können wichtige Charakteristika der Reihe erkannt werden; dazu zählen etwa das Vorliegen eines Trends, einer Saison, die Existenz von Ausreißern, d.h. von einzelnen Werten, die stark aus dem sonstigen Verlauf der Werte herausfallen, und auch das Vorhandensein von Lücken. Beispiel 2.2 Das Beispiel 2.1 wird fortgesetzt. Gefragt ist nun, welche Strukturen aus dem Plot der REGEN-Reihe zu ersehen sind. Zuerst sieht man, dass das Niveau der jährlichen Niederschläge über die dargestellte Zeit nicht steigt oder fällt. Würde man aus verschiedenen, nicht zu kurzen Segmenten der Reihe die zugehörigen arithmetischen Mittel y t = Wr berechnen, so wären diese nicht sehr verschieden. Auch die Streuung der Werte um das langjährige Mittel ist weitgehend konstant. Dies zeigt sich auch anhand entsprechend geringer Unterschiede bei den Varianzen von Reihensegmenten, ^ E S + i f f t - S i f / r · Andere der angegebenen Charakteristika wie Lücken, Ausreißer oder saisonales Verhalten sind ebenfalls nicht zu erkennen. Man kann nun noch versuchen, weiter gehende Regelmäßigkeiten eventuell aus der Abfolge von hohen und niedrigen Niederschlagsmengen zu erkennen. Folgten etwa jedesmal auf sieben regenreiche Jahre stets sieben trockene, so ließe sich das zur Prognose ausnutzen. • Die im Beispiel als letztes genannte Struktur lässt sich mittels der Kovarianz erfassen. Dazu wird aus den Werten y\,· •• ,y Ν für jeden zeitlich konstanten Abstand, jedes Lag τ, ein künstlicher zweidimensionaler Datensatz gebildet: (yi,yi+r),---,(i/jv-r,yjv)· Daraus werden dann die Kovarianzen bzw. die Korrelationskoeffizienten berechnet. Unterscheiden sich Mittelwert und Varianz der verschiedenen Segmente nicht relevant, so können jeweils die globalen Werte y, Sy eingesetzt werden.

1. STATIONÄRE

ZEITREIHEN

13

Definition 2.3 Die empirische Autokovarianzfunktion (c T ) einer Zeitreihe (yt) sowie ihre empirische Autokorrelationsfunktion, kurz ACF, (r T ) sind definiert durch ^

N-T

(r>0)

(2.1)

(=1 Tr

=

-

Co

(r > 0).

(2.2)

Für τ < 0 wird einfach cT = c_T und r T = r_ T gesetzt.



Wegen c0 = Sy entspricht rT tatsächlich dem Korrelationskoeffizienten. Er misst für τ > 0 die lineare Abhängigkeit zwischen den entsprechend weit auseinander liegenden Zeitpunkten. Für jedes Lag τ ist eine Korrelation zu bestimmen; so ergibt sich eine ganze Funktion. Da sich die beide Funktionen cT und rT nur um einen Faktor unterscheiden, wird bisweilen auch für die Autokovarianzfunktion das Kürzel ACF verwendet.

Beispiel 2.4 Für eine Reihe der Länge Ν = 10 soll die Bestimmung der ACF beispielhaft illustriert werden. Sie ist bereits zentriert, d.h. es ist der Mittelwert von allen einzelnen Zeitreihenwerten abgezogen worden. Deutlich wird insbesondere, dass mit größer werdendem Lag immer weniger Summanden in die Berechnung der zugehörigen Kovarianz eingehen. t

yt

(yt, yt)

1

0 -2

( 0 , 0) (-2,-2) (-1.-1) ( 3 , 3)

2 3 4 5 6 7 8 9 10 cT

-1

3 1

-2 -2 5 1

-3

( 1, 1) (-2,-2) (-2,-2) ( 5, 5) ( i , i) (-3,-3) 5.8

(yt,yt+Ο

(yt,yt+2)

( 0,-2) (-2,-1) (-1. 3) ( 3 , 1) ( 1,-2) (-2,-2) (-2, 5) ( 5 , 1) ( 1,-3)

(0,-1)

-0.4

-4.2

(-2, 3) (-1, 1) ( 3,-2) ( 1,-2) (-2, 5) (-2, 1) ( 5,-3)

(yt,yt+3)

( 0 , 3) (-2, 1) (-1,-2) ( 3,-2) (1,5) (-2, 1) (-2,-3)

0.3

Die Bestimmung der Kovarianzen bzw. Korrelationen gemäß (2.1) und (2.2) ist natürlich nur dann sinnvoll, wenn sich die Abhängigkeitsstruktur über die Zeit nicht ändert. Zusammen mit der bei der Ableitung unterstellten Konstanz von Mittelwerten und Varianzen aus zeitlichen Segmenten bedeutet dies für die zugrundeliegende Folge von Zufallsvariablen, dass alle Yt den gleichen Erwartungswert μ sowie die gleiche Varianz σ 2 haben und dass auch die Korrelationen Corr(F ( , Yt+T) nur von dem Lag τ und nicht von dem Zeitpunkt t abhängen.

14

KAPITEL

2. GRUNDLAGEN

UND EINFACHE

METHODEN

Definition 2.5 Ein stochastischer Prozess (Yt) mit E(y t ) = μ, Var(Y t ) = σ\

Cov(Y t , Yt+T) =

Ίτ

für alle t und τ heißt stationär.



Strenger genommen zielt die Definition der Stationarität auf die Gleichheit der gemeinsamen Verteilungen jedes Ausschnittes von Prozess variablen. Hier werden nur die ersten und zweiten Momente betrachtet. Damit wird nur die schwache Stationarität erfasst. Für das Weitere reicht dies aber, so dass etwas lax einfach von Stationarität gesprochen wird.

Definition 2.6 Bei einem stationären stochastischer Prozess (Yt) wird die Funktion 7r = Cov(y t ,y t + T )

(r = 0, ±1, ± 2 , . . . )

(2.3)

des Lags τ als (theoretische) Autokovarianzfunktion bezeichnet. Sie stimmt für τ — 0 mit der Varianz Var(y t ) überein. Für r < 0 wird 7T = 7_ T gesetzt. Die (theoretische) Autokorrelationsfunktion, kurz ACF ist Ρτ = TV / To

(r = 0, ±1, ± 2 , . . . ) .

(2.4)

Wie bei den empirischen Größen wird auch die Autokovarianzfunktion mitunter als ACF bezeichnet. Da sich die Funktionen (7,.) und (pT) nur um den Faktor 70 unterscheiden, ist die gelegentliche Verwendung des Akronyms ACF auch für die Autokovarianzfunktion unproblematisch. Soll im folgenden die Zugehörigkeit der eingeführten Größen zu einem speziellen Prozess, etwa (y t ), herausgehoben werden, so wird 7 γ (τ) für jT, ργ(τ) für pT und μγ sowie σ\ für μ bzw. σ2 geschrieben.

Beispiel 2.7 White-Noise-Prozesse (e t ) sind stationär sofern Erwartungswert und Varianz existieren; es ist ja Cov(e t ,e s ) = 0 für t φ s. Random-Walk-Prozesse sind dagegen nicht stationär. Z.B. ist die Varianz abhängig von der Zeit: t V a r ( y t ) = X ] V a r ( e i ) = (i + l)a e 2 . i=0

"

Ob die Stationarität eines zugrundeliegenden Prozesses unterstellt werden kann, lässt sich schon am Beginn der Analyse einer Zeitreihe am Plot der Reihe erkennen. Die theoretischen Eigenschaften sollten sich in der empirischen Reihe widerspiegeln. Es sollte eine angenäherte Konstanz von Niveau, Streuung und Abhängigkeitsstruktur zu beobachten sein. Andersherum liegt keine Stationarität vor, wenn die Reihe eines der genannten Charakteristika Trend, Saison oder gar eine mit dem Niveau ansteigende Varianz aufweist.

1. STATIONÄRE

15

ZEITREIHEN

Beispiel 2.8 Die Zeitreihe REGEN macht einen offensichtlich stationären Eindruck. Es ergeben sich die folgenden empirischen Kenngrößen: £ = 15.008571,

4 = 47.064863.

Abbildung 2.3: ACF der Reihe REGEN

Aus der Darstellung der Autokorrelationsfunktion erkennt man, dass hier die Autokorrelationen nur wenig von Null abweichen. Das lässt Zweifel darüber aufkommen, ob in dem der Reihe zugrunde liegenden Prozess wesentliche Abhängigkeiten enthalten sind. • Beispiel 2.9 Die jährlichen Anzahlen der Pelze von Luchsen, die in den Jahren 1821 bis 1934 in Kanada im McKenzie River District gefangen wurden, werden üblicherweise logarithmisch transformiert (gemäß log 10 ). Die Reihe der transformierten Werte wird hier mit LUCHS bezeichnet. Die grafische Darstellung der Reihe LUCHS Abbildung 2.4: LUCHS

zeigt, dass sie keinen Trend aufweist, d.h. dass keine Veränderung des Niveaus stattfindet. Sie weist ein relativ zyklisches Verhalten auf. Die Gipfelpunkte sind alle etwa 9.5 Jahre voneinander entfernt. Das drückt sich auch in der Autokorrelationsfunktion aus. Ob diese Zyklen durch systematische Komponenten, analog zur Saison, zu erfassen sind, ist noch zu entscheiden. • Modelle für stationäre Reihen bilden die Basis der Methoden zur Analyse von Zeitreihen. Verschiedene Modelle erlauben unterschiedliche Parametrisierungen der Abhängigkeitsstruktur. Diese versucht man dann mit Hilfe der empirischen ACF zu erkennen und daraufhin die Parameter des entsprechenden Modells zu schätzen. In diesem Sinne ist der folgende Satz fundamental. Er sagt, dass die empirischen Mittelwerte, Varianzen und Autokorrelationen unter milden Bedingungen sinnvolle Schätzer für die theoretischen Größen des zugrundeliegenden

16

KAPITEL 2. GRUNDLAGEN

UND EINFACHE

METHODEN

Abbildung 2.5: ACF der Reihe LUCHS

I I I

• 1 1 1

a l l ·

- I I I -

l | | | -

- H l

Prozesses sind. Die Basis ist die Stationarität; ohne sie ist es unmöglich, an die theoretischen Größen überhaupt heranzukommen. Daneben muss aber auch die Abhängigkeit zwischen den Zeitreihenvariablen mit wachsendem zeitlichen Abstand genügend schnell abnehmen, um geeignete Verallgemeinerungen der Aussagen für unabhängige Zufallsvariablen zuzulassen. Dies ist mit dem Begriff der Ergodizität verknüpft. Die Aussagen des folgenden Satzes sind asymptotischer Natur, geben also Eigenschaften von Funktionen der Zeitreihenvariablen für Ν —> oo an. Gekennzeichnet werden asymptotische Eigenschaften wie üblich durch einen Punkt über dem Gleichheitszeichen oder dem jeweils geeigneten Symbol. Var(i//V(Ϋ Ν — μ)) = σ 2 bedeutet also, dass die links stehende Varianz für Ν —> oo gegen σ 2 strebt. In praktischen Umsetzungen wird schon von einer hinreichenden Gleichheit bei genügend langen Reihen ausgegangen. Diese Verwendung von asymptotischen Aussagen ist typisch für das gesamte Gebiet der Zeitreihenanalyse. Für 'endliche' Reihen sind statistische Aussagen über Funktionen von Zeitreihenvariablen in den seltensten Fällen verfügbar. Satz 2.10 Sei (F ( ) ein stationärer Gauß-Prozess mit Erwartungswert μ = Efi^) und ACF 7T = E((F t — μ)(Υί+τ — μ)). (7T) sei absolut summierbar, d.h. ^ |7T| < oo. Dann gilt: OO • V a r ( V N ( ? N - μ)) =

7o

+ 2^

7t.

T=1

• Y/N(ΫΝ — Μ) ist asymptotisch normalverteilt mit Erwartungswert Null und oben angegebener Varianz. 1 • Für die empirischen Kovarianzen

7A?(T)

=



N

~T

J2(Yt t=ι

-

?N){Yt+T

- ΫΝ) gilt

asymptotisch: Ε(7ΛΓ(Τ)) = 7Τ,

V a r ^ r ) ) = 0.

• Für die empirischen Korrelationen PW(R) =7ΛΤ(τ)/7ΛΤ(0) gilt asymptotisch: Ε {βΝ(τ)) = Ρτ, und VN(pn( 1) — p i ) , . . . ,y/N(pN(k) ptotisch gemeinsam normalverteilt.

Var(p^(r)) = 0, —

pk)

sind für jeweils festes k asym•

2. DAS KOMPONENTENMODELL

17

Asymptotisch sind die empirischen Autokorrelationen unverfälscht. In kürzeren Zeitreihen kann der Bias, d.h. die Differenz zwischen dem Erwartungswert des Schätzers und dem zu schätzenden Parameter, also von PN(T) und pT, aber erheblich sein. Beispiel 2.11 Für einen Gaußschen White-Noise-Prozess erhält man E(Mt)) « - 1 Οον(ρΝ(τ),βΝ(κ))ή

2

I l

(2.5) / N

(2.6)

Das Komponentenmodell

Viele der in der Praxis vorkommenden Reihen sind von Vornherein nicht als Realisationen stationärer Prozesse anzusehen. Dafür kann jede der weiter oben genannten Eigenschaften, wie Vorliegen eines Trends, einer Saison oder einer nicht konstanten Varianz als Grund in Frage kommen. Ein häufig eingeschlagener Weg bei der Analyse solcher nichtstationärer Zeitreihen basiert auf der Vorstellung, dass sich die Zeitreihe aus unterschiedlichen Komponenten zusammensetzt. Definition 2.12 Komponentenmodelle der Form

für (ökonomische) Zeitreihen gehen aus von Zerlegungen

Yt = Tt + St + et Yt = Tt-Sf

et

(additives Modell) ;

(2.7)

(multiplikatives Modell).

(2.8)

Dabei bezeichnet (Yt) den beobachteten Prozess, Tt erfasst die langfristige Veränderung des Mittels, die glatte Komponente oder den Trend, und St ist die Saisonkomponente. e t ist dann der Rest, in dem die Abweichungen von den beiden Komponenten 'untergebracht' werden. • In seinen verschiedenen Varianten stellt dieses Modell die wesentliche Basis für die Abschnitte 'Trend' und 'Saisonbereinigung' dar. Dabei wird die additive Variante in der Regel gewählt, wenn die Saisonausschläge über den gesamten Beobachtungsbereich in etwa gleich stark sind. Falls andererseits die Reihe einen Trend und mit dem Niveau zunehmend größere Ausschläge der Saison aufweist, ist meist ein multiplikatives Komponentenmodell angebracht. Auch wenn das Modell nun schon recht betagt ist, gibt es nach wie vor keine eindeutige Definition der Komponenten. Das bewirkt, dass die entsprechenden Modelle über die eingesetzten Verfahren definiert werden. Dies muss nicht unbedingt als Nachteil angesehen werden, erlaubt es doch eine größere Flexibilität.

18

3

KAPITEL

2. GRUNDLAGEN

UND EINFACHE

METHODEN

Deterministische Trends

In diesem Abschnitt werden verschiedene Methoden besprochen, wie der Trend oder die glatte Komponente einer Zeitreihe bestimmt werden kann. Anlass dafür bildet häufig das Bestreben, die Reihe entlang des Trends in die Zukunft zu extrapolieren. Die andere Zielsetzung ist die Bestimmung einer trendbereinigten Reihe zur weiteren Analyse. Wird ein einfaches Komponentenmodell ohne Saison unterstellt, Yt =

Tt+et,

so bietet sich die Modellierung der Trendkomponente durch Polynome an. Die Koeffizienten solcher polynomialen Trends können dann mit Regressionstechniken bestimmt werden. Das lineare Regressionsmodell beschreibt die Abhängigkeit der Zielvariablen Yt von den fest vorgegebenen Werten der unabhängigen Variablen oder Regressoren Xi, i = l , . . . , m mittels Yt = ßo + ßiXit + --- + ßmXmt + £t

( t = 1, ...,7V).

(2.9)

Die Störungen e t werden dabei als unabhängig und identisch verteilt mit E(e t ) = 0 und Var(e ( ) = σ2 vorausgesetzt. Da dann E(y ( ) =ßo+

ßlXlt + · · · + ßmXmt

{t = 1, . . - , N)

gilt, wird also der Erwartungswert von Yt als lineare Funktion der Werte der Regressoren Xi modelliert. Erstes Ziel einer Regressionsanalyse ist es, die Koeffizienten zu bestimmen. Damit können im zweiten Schritt Modellüberprüfungen bzw. andere Analysen durchgeführt oder auch Prognosen erstellt werden. In Regressionsmodellen werden Parameter i.d.R. nach der Methode der kleinsten Quadrate (KQ-Methode) bestimmt, also als Lösung von Ν TXvt

-ßo-

ßlXlt

ßmXmtf = ßo,-,ßm min .

(2.10)

Die Durchführung dieser Minimierungsaufgabe geschieht heutzutage unter Einsatz statistischer Programmpakete. Dabei werden i.d.R. neben den Parameterschätzungen ßi auch die prognostizierten Werte yt = ß0 - ß\X\t - • · · ßmXmt sowie die Residuen i t = yt — Ut ausgegeben. Beispiel 2.13 Bei mehreren Probanden wurde wiederholt die Herzfrequenz (Schläge/Minute) bestimmt. Ziel der Untersuchung war es, die Auswirkung verschiedener Stimuli

3. DETERMINISTISCHE

19

TRENDS

zu analysieren. Dazu war es notwendig, die schon bei Stimulus-freien Messungen stark hervortretende Atemkurve zu modellieren. (Bei der Messung der Herzfrequenz wird übrigens i.d.R. so vorgegangen, dass man die Zeit zwischen zwei Herzschlägen bestimmt und dann den Kehrwert bildet. Das Hochrechnen auf eine Minute ergibt dann die Herzfrequenz.) Gesucht ist also ein Modell der Form Herzfrequenz = Atemkurve + Rest, in formaler Notation: Yt = Tt +

et.

Die Reihe der Herzfrequenzen wird mit dem Titel HERZSCHLAG versehen. Die durch die Atemkurve bewirkten systematischen Effekte Tt werden in der Medizin üblicherweise durch ganzrationale Funktionen vierten Grades modelliert: Yt = ßo + ßit + &*2 + ß3t3 + Ä i 4 + e t

(i = 1 , . . . , N).

Der KQ-Ansatz

Ν Σίνι

- ßo - ßit - Äi 2 - ß3t3 - ßit4)2 = min

(=1 führt bei Ν = 30 Beobachtungen zu den folgenden Schätzungen: ßo = 64.548, ßx = -1.544, ß2 = 0.178, ß3 = -0.0095, ß4 = 0.00015. Die Ausgangsreihe und das angepasste Polynom sind in Abbildung 2.6 dargestellt.

Abbildung 2.6: HERZSCHLAG mit Trendpolynom

Die Ergebnisse einer KQ-Schätzung sind allein i.d.R. wenig zufrieden stellend. Zumindest möchte man sie mit Fehlermargen versehen. Auch wird man zu einer Einschätzung kommen wollen, ob das unterstellte Regressionsmodell überhaupt einen sinnvollen Ansatz darstellt. Sei der letztgenannte Punkt zuerst betrachtet. Die relevante Größe hierfür basiert auf der Streuungszerlegung für die Zielgröße Y

SSTotii = SSModen + SSFehler.

(2.11)

20

KAPITEL

2.

GRUNDLAGEN

UND

EINFACHE

METHODEN

Dabei sind die Quadratsummen (Sums of Squares): Ν

Ν

- y}2,

SSToui =

Ν

SSModel] =

- y)2

Ν

'Fehler

t= 1

t=l

Obwohl yt rein funktional von den xit abhängt, sind die prognostizierten Werte natürlich für verschiedene t unterschiedlich. Daher ist SSwoden i'ä· von Null verschieden. Dieser Streuungsanteil geht einfach darauf zurück, dass die Regressionsfunktion nicht konstant ist. SSFehler gibt an, wie stark die Werte der abhängigen Variablen um die Regressionsfunktion schwanken. Die Zerlegung (2.11) zeigt nun, dass die Fehlerquadratsumme SSFeMtr umso kleiner ausfällt, je größer SSModM ist. Die Varianzanalyse-Tafel einer Regressionsanalyse gibt die globalen Ergebnisse der Kleinste-Quadrate-Schätzung wieder. Sie zeigt diese Zerlegung der Varianz, genauer der Summe der Abstandsquadrate vom Mittelwert, für die abhängige Variable Y. df

Varianzanalyse SS MS

Regr. auf Χ χ , . . . , X P Fehler Gesamt

Total

Die mit df bezeichneten Freiheitsgrade (df=degrees of freedom) ergeben mit σ 2 multipliziert die jeweiligen Erwartungswerte der Summen der quadrierten Abweichungen. Die MS, die mittleren Quadratsummen, erhält man dann einfach mittels Division der SS durch die zugehörigen df. MSFehler gibt eine Schätzung der Varianz der Störungen e t an. Ebenso gibt M5Modell eine Schätzung von σ 2 , wenn das Modell wahr ist. Andernfalls ist MSMOIITN aufgrund der Fehlspezifikation größer. Dementsprechend ist F = M 5 M o d e l l / M S F M „ eine geeignete Prüfgröße zum Testen, ob das Modell sinnvoll ist. Ihre Verwendung erfordert allerdings die zusätzliche Voraussetzung der Normal Verteilung der Fehler e t . Dann hat F unter der Nullhypothese eine F-Verteilung mit Ρ Freiheitsgraden des Zählers und Ν — Ρ — 1 Freiheitsgraden des Nenners, i.Z. F ~ ΤΡ^-Ρ-Ι· Der Test wird als F-Test bezeichnet. Die Eignung des Modells wird gerne anhand des P-Wertes Ρ ( F > F*) ausgedrückt. Der P-Wert gibt an, wie groß die Wahrscheinlichkeit ist, dass die Statistik F einen noch extremeren Wert annimmt als den aktuell erhaltenen F*. Ist die

3. DETERMINISTISCHE

TRENDS

21

Wahrscheinlichkeit sehr klein, etwa < 0.05 oder < 0.01, so gilt dies als Indikator dafür, dass das Modell wesentliches zur Erklärung der Variation der Y-Werte beiträgt. Neben den Werten der Teststatistiken werden P-Werte bei statistischen Auswertungsprogrammen standardmäßig mit ausgegeben. Ein weiteres wichtiges Maß zur Beurteilung der Regression ist das maß R2. Es ist definiert als der Anteil der erklärten Varianz r>2 SSModeil « =~ÖÖ— "J^Total

Bestimmtheits-

5SFeh|er —· ^^Tota!

=

Für das adjustierte Bestimmtheitsmaß werden die erwartungstreuen Varianzschätzungen ins Verhältnis gesetzt. Somit resultiert es zwar nicht genau aus der schönen Zerlegungsformel (2.11), ist aber inhaltlich adäquater: o2 _ , '

_

MSfm„ MS



ue

/oiq\

Die einzelnen Regressionskoeffizienten ßi sind erwartungstreu, sie ergeben also im Mittel den wahren Wert. Für die Beurteilung der ßi sind ihre Standardfehler zentral. Wird die Normalverteilung der Störungen vorausgesetzt, so ist für i = Ι,.,.,ρ der Quotient Ti = ßi/öß unter der Hypothese ßi = 0 t-verteilt mit Ν — ρ Freiheitsgraden. Eine signifikante Teststatistik deutet also auf einen von Null verschiedenen Parameter hin. Signifikanz bedeutet, dass der Parameter und somit der zugehörige Regressor - für den Modellfit bedeutsam ist. Die Signifikanz der i-Tests kann wieder an den üblicherweise mit ausgegebenen P- Werten P(|Tj| > 1771) abgelesen werden. Je kleiner die Wahrscheinlichkeit ist, umso wichtiger ist der zugehörige Regressor für das Modell. Bei der Interpretation ist aber zu beachten, dass die P-Werte sich jeweils auf nur einen Regressor beziehen und mögliche Zusammenhänge zwischen ihnen unberücksichtigt bleiben. Beispiel 2.14 Für die Reihe HERZSCHLAG erhält man folgende Werte:

Regr. auf ί , ί 2 , ί 3 , ί 4 Fehler Gesamt

Varianzanalyse df SS MS 4 14.489 3.622 25 17.958 0.718 29 32.447

F 5.043

P-Wert 0.004

Weiter sind R2 = 0.447, R2^ = 0.358 und Variable Achsenab. ί1 t2 t3 t4

df

Parameterschätzungen β σβ. Τ, 64.5479 0.95813 67.368 -1.5436 0.41320 -3.736 0.05397 0.1980 3.737 -0.0095 0.00355 -3.733 0.0002 0.00004 3.691

Ρ- Wert 0.0001 0.0010 0.0010 0.0010 0.0011

22

KAPITEL

2. GRUNDLAGEN UND EINFACHE

METHODEN

Der hohe Wert der i-Statistik für den Achsenabschnitt bedeutet nur, dass das Mittel der Y-Werte sich deutlich von Null unterscheidet. Aber auch alle anderen Koeffizienten haben P-Werte, die so klein sind, dass die zugehörigen Regressoren als für das Modell bedeutsam anzusehen sind. • Es gibt verschiedene Strategien, bei einem vorgegebenen Satz von Regressoren den günstigsten Teil auszuwählen. Man verzichtet auf Regressoren, wenn dies ohne wesentliche Einbuße an erklärter Varianz möglich ist. Aus statistischer Sicht ist es günstiger, ein möglichst sparsames Modell, d.h. eines mit möglichst wenigen Parametern zu haben. Das stellt sicher, dass das Modell nicht überangepasst ist. Überanpassung liegt vor, wenn das Modell zu den Daten sehr gut passt, aber auch Besonderheiten des einzelnen Datensatzes in das Modell einbezieht und somit eine Generalisierung erschwert. Zur Auswahl einer Teilmenge von Regressoren benötigt man nun ein geeignetes Kriterium. Eine einfache Reduzierung der Varianz des Fehlers kann kein adäquates Optimalitätskriterium darstellen. Die Berücksichtigung eines zusätzlichen Regressors führt nämlich i.d.R zu einer Reduzierung dieser Varianz; schlimmstenfalls bleibt sie gleich groß. Vergleiche der (mittleren) Summen von quadrierten Residuen verschiedener Modelle müssen daher geeignet modifiziert werden. Dies geschieht z.B. bei dem Bayesschen Informationskriterium von Schwarz, SBC. Hier wird zum logarithmierten Wert der Schätzung der Residualvarianz der Strafterm (p+1) ln(7V)/N hinzuaddiert; dabei werden ja ρ Koeffizienten sowie das konstante Glied geschätzt: (2.14)

Ausgewählt wird das Modell, bei dem der Kriteriums wert minimal ist. Es gibt weitere Informationskriterien, die sich vor allem durch die Strafterme unterscheiden. Diese werden im folgenden Kapitel noch eingeführt. Beispiel 2.15 Für die Reihe HERZSCHLAG ergibt sich bei der Betrachtung aller Teilmodelle die folgende Tabelle. Regressoren im Modell t t2 i3 i4

R2

SBC

0.127 0.102 0.085 0.069 0.145 0.138 0.137

5.09 5.91 6.47 7.00 11.25 11.50 11.52

0.138

11.51

Regressoren im Modell

R2

SBC

0.138 0.136 0.135 0.133 0.126 0.122 0.447

8.11 8.18 8.21 8.26 8.50 8.64 1.61

3. DETERMINISTISCHE

TRENDS

23

SBC nimmt den mit Abstand kleinsten Wert an, wenn alle vier Potenzen von t berücksichtigt werden. Hier nimmt auch R2 einen im Vergleich recht großen Wert an; dieser große Unterschied muss aber nicht stets vorkommen. • Die Regressionsanalyse hat als Hintergrund die Idee eines wahren Modells. Bei Gültigkeit des Modells sind die ßi sowie die anderen Größen, die als Ergebnisse anfallen, Schätzungen der Modell-Größen. Die Schätzfunktionen haben unter geeigneten Voraussetzungen Eigenschaften, auf denen die Interpretationen beruhen, die in diesem Abschnitt kurz ausgeführt wurden. Es ist daher einsichtig, dass bei Verletzungen der Modellannahmen die Interpretationen ihre Gültigkeit einbüßen können. Die Interpretation der F- und der t-Werte basiert auf der Normalverteilung der Störungen. Diese Voraussetzung sollte daher stets überprüft werden. Das kann mit Hilfe eines QQ-Diagramm.es geschehen. In einem solchen Diagramm werden die der Größe nach geordneten Residuen et = yt — yt gegen die (t — 0.5)/7V-Quantile der Standardnormalverteilung 1 eingetragen. Die geordneten empirischen Werte i( t ) entsprechen gerade den empirischen t/iV-Quantilen. Bei den theoretischen bringt man die Stetigkeitskorrektur —0.5/Ν an, damit die empirische und theoretische Verteilungsfunktion besser übereinanderliegen. Zudem geht dann der größte Wert nicht verloren. Denn für den Wert 1 ist die Inverse der Standardnormalverteilung nicht definiert (Φ _1 (1) =oo). Da die empirischen Quantile vernünftige Schätzungen der theoretischen sind, sollten die resultierenden Punkte bei Gültigkeit der Normalverteilungsannahme "unsystematisch" um eine Gerade streuen. Werden die empirischen Werte vorab standardisiert, so ist dies die 45°-Achse.

Beispiel 2.16 Die Reihe REGEN erscheint nach der bisherigen Analyse als stationär; auch sind die Autokorrelationen verschwindend gering. Zur Uberprüfung der Normalverteiltheit der Beobachtungen werden sie standardisiert. Die standardisierten und geordneten Werte Z(t) = (j/(t) — y)/sY werden dann gegen die Quantile der Standardnormalverteilung eingezeichnet. (In der Legende ist F - 1 = Φ _ 1 . )

Abbildung 2.7: QQ-Diagramm für die Reihe REGEN

1 Die Verteilungsfunktion der Standardnormalverteilung, d.h. der Normalverteilung mit μ = 0 und σ 2 = 1, wird mit Φ(·) bezeichnet.

24

KAPITEL 2. GRUNDLAGEN

UND EINFACHE

METHODEN

Bei Normalverteiltheit sollten die resultierenden Punkte um die 45°-Achse streuen. Dies ist hier offensichtlich nicht der Fall. Die Abweichung scheint recht systematischer Natur zu sein: Sowohl kleine als auch große empirische Quantile sind größer als unter der Normalverteilung zu erwarten wäre. Dies deutet auf eine rechtsschiefe Verteilung hin; diese resultiert aus der Beschränkung, dass die Regenmenge nicht kleiner sein kann als Null. Oft werden solche Daten mittels einer Box-Cox-Transformation (vgl. Abschnitt 4), speziell der logarithmischen, symmetrisiert. • Eine weitere Voraussetzung ist die Unabhängigkeit der Störungen. Sie ist entscheidend für die Größe der Standardfehler der Schätzungen und damit für die PWerte. Ein Aspekt der Unabhängigkeit kann mit dem Durbin- Watson- Test überprüft werden. (Andere Möglichkeiten werden später besprochen.) Die Prüfgröße des Tests ist gegeben durch D W

~ £t-i) 2 _ Σι=2

_

+

έι ~

2

ΈΗ=2 £t£t-1

^

^

ε

ΣΓ=ι 1 Der Zähler der DW-Statistik ist in etwa das Doppelte des Nenners, vermindert um 2 . Ist die Korrelation aufeinander folgender Residuen in etwa Null, so fällt dieser Teil weg, und der Quotient wird etwa den Wert 2 annehmen. Ist die Korrelation nahe Eins, so ist £t~i ~ it und der Zähler wird in etwa zu 0. Im Fall starker negativer Korrelation wird der Quotient bei dem Wert 4 liegen. Insgesamt gilt also für diese Statistik

{

0 falls die Residuen stark positiv korreliert sind 2 falls die Residuen unkorreliert sind 4 falls die Residuen stark negativ korreliert sind.

Beispiel 2.17 Bei HERZSCHLAG erhält man für die Residuen des Modells Yt = a + bt-1- ε ( : Durbin-Watson-Statistik Anzahl der Beobachtungen

0.636 30

Da der empirische Wert 0.636 kleiner ist als das aus der Tabelle abgelesene 0.25Quantil 1.35 wird die Nullhypothese "die Störungen sind unkorreliert" zum Niveau 0.05 abgelehnt. • Wie im Beispiel werden in aller Regel die Störungen i t bei Regressionen mit Zeitreihendaten nicht unabhängig sein, sondern Autokorrelationen aufweisen. Unter der Annahme, dass für die Abhängigkeiten der ε ( eine weiter unten noch zu diskutierende Struktur gilt, kann dies bei der Regressionsanalyse berücksichtigt werden. Darauf wird im Abschnitt zur Regression mit autokorrelierten Störungen eingegangen. In verschiedenen Situationen ist die Trendbereinigung über die Anpassung eines Polynoms von vornherein suspekt. Das kann etwa der Fall sein, wenn das Verhalten der Reihe durch Zyklen verschiedener Dauer bestimmt wird, oder aus dem

3. DETERMINISTISCHE

TRENDS

25

Plot deutlich wird, dass der Verlauf nicht über den gesamten Zeitraum durch ein Polynom zu erfassen ist. Die Trendfunktion ist dann eher als glatte Komponente anzusehen. Dann sind andere Ansätze für Trendfunktionen mit geeigneten Bestimmungsmethoden heranzuziehen. Als eine Möglichkeit kann man die als glatt unterstellte deterministische Trendkomponente mittels lokaler Mittelwerte schätzen. Das führt zu gleitenden Durchschnitten. Im Wesentlichen wird dabei für alle gleich langen Reihensegmente das zugehörige einfache arithmetische Mittel berechnet und den jeweiligen zeitlichen Mittelpunkten der Segmente zugeordnet. Ein Berechnungs-Schema sieht folgendermaßen aus: 2/1

2/2

2/3 1 TT^d d 2-it=i yt 1 1 d 2-,t=2 yt 1 s^d+2 d Lt=3 yt

yd Vd+\ yd+2 yd+3

In der Regel wird d ungerade gewählt; das Ergebnis dann dem mittleren Zeitpunkt s + (d + l ) / 2 zugeordnet. Ist d gerade, d = 2q, so ist diese Zuordnung zum mittleren Zeitpunkt nicht sinnvoll. Man behilft sich so, dass die Länge um Eins erhöht wird, dafür aber die R a n d p u n k t e nur mit dem halben Gewicht eingehen. Man bildet also (yt-q/2 + yt-q+1 + · · • + yt+q-i + yt+q/2)/d. Zusammen bezeichnet man diese als einfache gleitende Durchschnitte. Bei diesen sind die Gewichte, mit denen die yt~ u versehen werden, bis eventuell auf die der beiden Randpunkte, gleich groß. Beispiel 2.18 In der Abbildung 2.8 ist die Reihe UNFALL, die monatlichen Anzahlen der Verkehrsunfälle in der BRD von Januar 1974 bis Juni 1997, zusammen mit den gleitenden 24er Durchschnitten angegeben. •

Abbildung 2.8: UNFALL mit gleitendem 24er Durchschnitt

26

KAPITEL

2. GRUNDLAGEN

UND EINFACHE

METHODEN

Anstelle der einfachen können über die jeweiligen Stützbereiche auch gewichtete Mittelwerte 5Dt=«+i α ^ 4 > bei denen nicht alle Koeffizienten at gleich groß sind, bestimmt werden. Ein Beispiel dafür ist der symmetrische gleitende 15er Durchschnitt von Spencer·. ^ [ - 3 , - 6 , -5,3,21,46,67,74,67,46,21,3, - 5 , - 6 , - 3 ] . Er wird speziell bei Sterbetafeln zur Glättung eingesetzt. Es lässt sich zeigen, dass die lokale Approximation mittels eines Polynoms einem gleitenden Durchschnitt entspricht. Lokale Approximation meint dabei, dass an einem Abschnitt der Reihe, etwa an die ersten d Werte, ein Trendpolynom angepasst wird. Jedoch wird nur der Wert des Polynoms an dem mittleren Abschnittszeitpunkt als geglätteter Wert genommen. Der Abschnitt wird sodann um eine Zeiteinheit verschoben. Es wird erneut ein Polynom angepasst und wieder der Wert am Abschnittsmittelpunkt genommen. Dieses Verfahren wird dann fortgesetzt, bis man am rechten Rand der Reihe angelangt ist. Ein Beispiel dafür sind die gleitenden Durchschnitte nach Henderson. Hier werden kubische Trendpolynome verwendet. Der Stützbereich richtet sich nach der Stärke der Irregularität der Reihe. Für den symmetrischen 9er Durchschnitt gilt etwa: [-0.041, -0.010,0.119,0.267,0.330,0.267,0.119, -0.010, -0.041], An den Rändern geht bei gleitenden Durchschnitten eine Anzahl von Punkten verloren. Der so genannte Output ist kürzer als der Input, d.h. die ursprüngliche Reihe. Die bereinigte Reihe als Differenz von Input und Output ist dann also "mittelwertstationär" aber kürzer. Einen anderen Ansatz, eine glatte Komponente zu schätzen, bieten Splines. Sie wurden als mathematische Gebilde unter dem Vorzeichen entwickelt, dass über kurze Zeitabschnitte Polynome durch die Datenpunkte gelegt werden und dabei die aneinanderstoßenden Polynome einen glatten Ubergang aufweisen. Glättende Splines sind nunmehr losgelöst von diesem Hintergrund dadurch definiert, dass man eine Funktion g sucht, die einerseits glatt ist und andererseits durch die Punkte des Plots verläuft. Das Ziel der Glattheit wird in der Weise operationalisiert, dass die zweite Ableitung möglichst Null ist. Da in dem hier vorliegenden Kontext die Zeitabstände jeweils eine Einheit betragen, werden die zweiten Differenzen betrachtet: (gt

-

9 t - 1 )

-

(fft-i

-

9 t - 2 )

=

gt

-

2)2y/

Varianz zur Varianz der Ausgangsreihe in einer Tabelle darzustellen als die Varianzen selbst; dann gibt es keine Probleme mit den Größenordnungen.

Beispiel 2.25 Die C 0 2 - E n t w i c k l u n g in der Atmosphäre (monatliche Durchschnitte, Januar 1958 bis Dezember 1999) ist die hauptsächliche Ursache der globalen Erwärmung. Gemessen (in ppmv) am Mauna Loa Observatorium auf Hawaii, ist sie in der folgenden Abbildung dargestellt. Die Reihe wird als MAUNALOA bezeichnet. Die zugehörige Tafel der variaten Differenzen weist darauf hin, dass einmal einfache und einmal saisonale Differenzen zu bilden sind, um Stationarität zu erreichen.

d d d d

= = = =

0 1 2 3

D = 0

D= 1

D = 2

D = 3

1.0000 0.0057 0.0033 0.0048

0.0017 0.0006 0.0015 0.0049

0.0032 0.0017 0.0044 0.0144

0.0094 0.0056 0.0146 0.0480

Abbildung 2.16: MAUNALOA, C 0 2 über Mauna Loa

Es gibt etliche etablierte Saisonbereinigungsverfahren, die von den statistischen Amtern und Institutionen regelmäßig eingesetzt werden. Die wichtigsten sollen kurz angesprochen werden. Das CENSUS X-ll Verfahren wurde von US Bureau

36

KAPITEL 2. GRUNDLAGEN

UND EINFACHE

METHODEN

of the Census entwickelt und ist das wohl verbreitetste Saisonbereinigungsverfahren. Es wird dort allerdings zur Zeit von der Weiterentwicklung X-12 ARIMA abgelöst. Dennoch ist zu erwarten, dass es noch eine ganze Zeit ein praktisch relevantes Verfahren bleiben wird. Es ist zwischen zwei Varianten des CENSUS X-ll Verfahrens zu unterscheiden. Die eine wird als additive Variante bezeichnet und basiert auf der folgenden Zerlegung: Yt = TCt + St + TDt + Ht + It. Dabei bezeichnet Yt den beobachteten Prozess, TCt ist die Trend-Zyklus Komponente, St ist die Saison; TDt und Ht sind die Arbeitstags- und die Feiertagskomponente. I t ist schließlich der irreguläre Rest. Die zweite Version ist die multiplikative; sie basiert auf der Zerlegung Yt = TCt x St χ TDt xHtx

It.

Es wäre nicht notwendig, zwischen diesen beiden Varianten zu unterscheiden, wenn eine logarithmische Transformation der zweiten bedeuten würde, dass die additive Variante zum Einsatz käme. Das ist aber nicht der Fall. Die multiplikative hat Merkmale, die sich von der additiven unterscheiden. Daher spricht man bisweilen auch von der log-additiven Variante des Census X-ll Verfahrens, wenn die additive auf logarithmierte Reihen angewendet wird. Im ersten von mehreren Schritten bei beiden Prozeduren werden die Werktage und Feiertage adjustiert. Typischer Weise werden Regressionen mit der Anzahl der entsprechenden Tage pro Woche u.s.w. durchgeführt. Die Bestimmung der Komponenten TCt, St und It geschieht dann mittels einer Reihe von gleitenden Durchschnitten. Das ist der wichtigste Teil des X-ll Programms. Auch wenn er aus der Anwendung mehrerer gleitender Durchschnitte besteht, ist es wichtig anzumerken, dass nicht notwendigerweise die gleichen Filter über den ganzen Zeitbereich zum Einsatz kommen. Somit kann man die Filtergewichte als zeitabhängig ansehen. Zusätzlich sind beide Varianten, die additive und die multiplikative, mit Unterroutinen zum Erkennen von Ausreißern ausgestattet. Die identifizierten Ausreißer werden dann iterativ adjustiert. Der Behandlung von Ausreißern kommt eine Schlüsselstellung in Saisonbereinigungsverfahren zu. Werden sie nicht erkannt, so geschieht es schnell, dass sie die Saisonfigur stark beeinflussen. Zu Ausreißern sei auf das Kapitel 9 verwiesen. Das Berliner Verfahren wurde ursprünglich mit dem Anspruch entwickelt, von einem geeigneten mathematisch-statistischen Ansatz auszugehen und auf Algorithmen aufzubauen, die von der Wirkung her durchschaubar sind. Jedoch enthielten die ersten Versionen einige Inkonsistenzen. Nunmehr wird es in der Form des Verallgemeinerten Berliner Verfahrens verwendet. Das VBV wurde von Hebbel vollständig auf Spline-Funktionen aufgebaut.

7. EINFACHE

EXTRAPOLATIONSVERFAHREN

37

Im Statistischen Amt der Europäischen Gemeinschaften (Eurostat) wird das Verfahren TRAMO/SEATS eingesetzt. Eine weitere Neuentwicklung im Bereich der Saisonbereinigungsverfahren ist STAMP.

7

Einfache Extrapolationsverfahren

Eine der Standardaufgaben der Zeitreihenanalyse ist die Erstellung von Prognosen. Ist eine Zeitreihe Y\,... ,Υχ gegeben, so sind Prognosen Schätzungen zukünftiger Realisationen von YN+fl,h > 0, auf der Basis der Beobachtungen bis zum Zeitpunkt N. Prognosen werden mit Yjy.A bezeichnet, y^^ steht dann für den realisierten Wert, h ist der Prognosehorizont und Υ^,ιι heißt h-Schritt Prognose. Es ist einsichtig, dass Prognosen von dem unterstellten Modell abhängen. In diesem Abschnitt werden nur zwei einfache Prognoseansätze vorgestellt. Weitere Verfahren basieren auf linearen Modellen, siehe Kapitel 3. Auch durch die Berücksichtigung externer, d.h. nicht in der Reihe enthaltener Informationen versucht man, bessere Prognosen zu erzielen. Dies führt dann zu multivariaten Reihen und in das Gebiet der Ökonometrie. Oft möchte man den Trend bestimmen, um die langfristige Komponente zur Fortschreibung der Entwicklung in die Zukunft zu verwenden. Werden zur Modellierung des Trends Polynome verwendet, so ist eine einfache Trendextrapolation jedoch problematisch. Eine gute Anpassung im beobachteten Abschnitt der Zeitreihe, dem so genannten Stützbereich, ist noch lange keine Gewähr für eine erfolgreiche Prognose. Ein wenig mag die Bestimmung von Prognoseintervallen helfen, um die Unsicherheiten bei der Trendextrapolation zu veranschaulichen. Prognoseintervalle geben mit einer vorgegebenen Wahrscheinlichkeit an, in welchem zentralen Bereich die zukünftige Zeitreihenvariable Yjv+Λ ihren Wert annehmen wird. Bei der einfachen linearen Regression lauten die 1 — α Prognoseintervalle unter der Voraussetzung normalverteilter Störungen ε ( : (2.25) Die Varianzschätzung ist dabei σ\ = ^tLiiVt ~ ν) 2 / ( N — 2) • Für andere Polynomordnungen gelten geeignet verallgemeinerte Prognoseintervalle. Beispiel 2.26 Im Zusammenhang mit der Diskussion über den Bau eines Kraftwerkes war die Prognose des jährlichen Stromspitzenbedarfs, auch Jahreshöchstlast genannt, von Berlin (West) Ende der 70er Jahre von Bedeutung. Nunmehr ist eine nachträgliche Beurteilung der Prognose der Reihe JLAST möglich.

38

KAPITEL

2. GRUNDLAGEN

UND EINFACHE

METHODEN

Die Anpassung eine Polynoms erster Ordnung an die Werte für die Zeiten von 1954/55 bis 1978/79 ergab die geschätzte Trendgerade Γ = 255.14 + 5 1 . 4 5 t Dabei wurden die Zeiten von 1 an durchnummeriert. Die Abbildung der bis Abbildung 2.17: JLAST mit Trend

1991/92 fortgeschriebene Reihe mit der Trendextrapolation und den 95% Prognoseintervallen zeigt, dass die Prognose eindeutig zu hoch lag. Ein Grund dafür ist sicherlich die Ölkrise und die damit einhergehende größere Sparsamkeit beim Energieverbrauch. • Einen zweiten Ansatz zur Prognose bilden rekursive Fortschreibungen. Hier bilden Verfahren des exponentiellen Glättens ein Zentrum. Sie gehen auf Brown (1962) zurück. Sein Ziel war es, eine Prognoseformel zu entwickeln, die mit möglichst wenig Speicherplatz auskommt. Den Hintergrund für diese Aufgabe bildete das Problem, dass die Prognosen häufig aufdatiert werden sollten, dass also stets neue Beobachtungen hinzukamen und die Prognosen unter Verwendung aller vergangenen Werte zu bestimmen waren. Ausgangspunkt sei das simple Modell Yt = ß + et,

,σ2).

et~M{0

Auf der Basis von Ν Beobachtungen ist das arithmetische Mittel y^ die beste Schätzung von μ und auch die beste Prognose zukünftiger Werte. Unterstellt man nun, dass eine neue Beobachtung hinzukommt, so braucht man zur Bestimmung von %/N+I nicht auf alle vergangenen Werte zurückzugreifen. Es reichen vielmehr der letzte Mittelwert und die neue Beobachtung: Ν νΝ+ι =

τ π ι

Λ ν Ν +

Ν

ν ~ Ν τ ϊ )

\ y N + l

-

Nun ist es plausibel, für Prognosezwecke der neuesten Beobachtung nicht stets kleinere Gewichte zu geben, sondern ein festes. Damit erhält man schon die Prognoseformel des einfachen exponentiellen Glättens: VN,I = ßVN-i,i + (1 - ß)VN-

(2.26)

7. EINFACHE

EXTRAPOLATIONSVERFAHREN

39

Der Name ist erklärlich, wenn (2.26) durch iteratives Einsetzen auf der rechten Seite bei Zulassen einer unendlichen Vergangenheit umgeschrieben wird zu oo (2.27) Damit ist

e ne

i

unendliche Summe mit 'exponentiell' abklingenden Gewichten.

Das exponentielle Glätten wird auch als rekursiver Filter bezeichnet, da das Ergebnis des letzten Schrittes, die Bestimmung von i,i, im neuen Schritt, die Bestimmung von τ/λγ,ι, verwendet wird. Für die praktische Bestimmung von Prognosen ist die Rekursion irgendwie zu beginnen. Das kann einmal geschehen durch Verwendung der expliziten Form (2.27), wobei die yt mit t < 0 durch das allgemeine Mittel ersetzt werden. Meist wird aber y^j = j/i gesetzt; die weiteren j/t>1 werden dann gemäß (2.26) rekursiv bestimmt. Neben der rekursiven (2.26) und der expliziten Form (2.27) lässt sich das exponentielle Glätten noch in der Fehlerkorrektur-Darstellung angeben: Vt,\ = yt-i,i + (1 - ß){Vt - Vt~ 1,1)·

(2.28)

Die Rekursionsformel (2.26) macht deutlich, wie die Wahl von β den Verlauf der Einschritt-Prognosen beeinflusst. Bei einem kleinen Wert von β, β « 0, wird der Anteil von VN-I,I heruntergewichtet, es überwiegt der Summand (1 — ß)yNDaher reagiert die Prognose stark auf den jeweils letzten Wert. In der Anwendung wird die Reihe der Ein-Schritt-Prognosen sehr unruhig sein. Umgekehrt sieht die Situation bei einem großen Wert von β aus, β ss 1. Die Prognosen sind recht unempfindlich gegen den jeweils aktuellsten Wert, die Reihe der Ein-SchrittPrognosen ist verhältnismäßig stabil. /i-Schritt Prognosen mit h > 0 erhält man durch Fortschreiben der EinschrittPrognose. Das zugrundeliegende Modell ist ja das eines konstanten Niveaus. Daher wird für h > 1 einfach yN,h = VN,ι gesetzt. Beispiel 2.27 Der Hamburger Sportverein erlebte seit dem Beginn der Fußball-Bundesliga einiges an Auf und Ab. Eine Möglichkeit für einen Nichtfachmann, eine Prognose des Tabellenplatzes der nächsten Saison abzugeben, ist der Einsatz des exponentiellen Glättens. In der Abbildung ist der jeweilige Tabellenplatz angegeben sowie die Ein-Schritt-Prognose mit dem exponentiellen Glätten bei Verwendung des Parameters ,0 = 0.8. Spitzen und Minima werden nicht nur abgeflacht sondern erscheinen auch in Form eines 'Nachhinkens' in der Bewegung. • Zur Rechtfertigung der Anwendung des exponentiellen Glättens reicht schon, dass sich das Niveau nur langsam ändert, so dass es lokal als konstant angesehen werden kann. Weist eine Zeitreihe jedoch einen deutlichen Trend und gegebenenfalls

40

KAPITEL 2. GRUNDLAGEN

UND EINFACHE

METHODEN

Abbildung 2.18: Tabellenplatz HSV mit Prognosen

auch eine Saison auf, so sollte das geeignet berücksichtigt werden. Bei einem linearen Trend ist auch die Steigung mit einer dem einfachen exponentiellen Glätten entsprechenden Rekursion fortzuschreiben. Die zusätzliche Berücksichtigung der Saison führt zum Holt-Winters-Verfahren. Das Holt-Winters-Verfahren gibt es in additiven und multiplikativen Varianten. Hier wird nur auf die additiven mit einfachem lokal linearen Trend eingegangen. Varianten ergeben sich durch die Einbeziehung eines Trends nullter Ordnung, Tt = a, eines quadratischen Trends oder eines Trendpolynoms noch höherer Ordnung. Reihen, die nur trendbehaftet sind, lassen sich durch einfaches Weglassen der Saisonkomponente behandeln. Das zugrundeliegende Modell ist Yt = Tt + St + et

(2.29)

Tt = a + bt, St = St-d.

(2.30)

mit

Dabei ist d die Saisonperiode. Es wird wieder davon ausgegangen, dass dieser Ansatz zumindest lokal gilt. Die Idee ist dann, Schätzungen für die Parameter in der gleichen Rekursion fortzuschreiben, wie es beim einfachen exponentiellen Glätten geschieht. Dabei ist zu beachten, dass für die Schätzung der Parameter auf entsprechende Differenzen zurückgegriffen werden muss. So ist das Niveau etwa anhand der saisonbereinigten Reihe Yt — St fortzuschreiben. Man muss also dafür sorgen, dass die Definition des Verfahrens nicht zirkulär wird, d.h. man darf nicht auf noch nicht berechnete Größen zugreifen. Das führt zu folgenden Rekursionen: bt = ßbt-1 + ( l - ß ) ( f t - l - f t - 2 )

(2.31)

Tt = a(Tt_i + bt) + (1 - a)(yt - St-,)

(2.32)

St = 5St-. + { l - S ) ( y t - f t )

(2.33)

yt,h=ft

+ hbt + St+h-s

(Ä=l,...,a).

(2.34)

Die Rekursion kann erst bei N = s + 1 beginnen. Für die ersten s Werte wählt man plausibe Startwerte, etwa:

8. HINWEISE ZU LITERATUR UND SOFTWARE

Ts_! = Ts = ys =

8

1

s

41

S

St = yt-ys

(t = 1,... ,s),

bs — 0.

1 sind Prozesse, die der Rekursion (3.4) genügen, explodierend, d.h. die Realisationen werden sehr schnell (betragsmäßig) immer größer. Die Diskussion für AR[l]-Prozesse macht deutlich, dass auch für allgemeine AR[p]Prozesse geeignete Stationaritätsbedingungen zu fordern sind. Zunächst erhält man durch Multiplikation von (3.3) mit Yt-T und anschließender Erwartungswertbildung für die Autokovarianzfunktion eines AR[p]-Prozesses:

ί

αι7ι Η

Η Qp7p + σ2ε

QI7T-I Η

für r = 0 (3.6)

1- C-ρΊτ-ρ

für r > 0

Diese Gleichungen werden als Yule-Walker-Gleichungen bezeichnet. Sie können offensichtlich auch in den Korrelationen formuliert werden, d a auf beiden Seiten durch 7o geteilt werden kann. Sofern die so genannte charakteristische Gleichung des AR[p]-Prozesses Yt — αϊy(_! - a2Yt-2 apYt-v = eu 1 — ot\z — Q 2 2 2 — · · · — αpzp = 0, nur Lösungen Zi,... funktion:

,zp mit \zi\ > 1,...

,\zv\

(3.7)

> 1, gilt für die Autokorrelations-

PT A +A2 + +Ap

= iü iü - {yJ;

(38)

·

dabei sind A\,..., Ap Konstanten und τ > 0. Der AR[p]-Prozess ist dann stationär. Dann folgt aus der Gleichung (3.8) auch pT —> 0 für τ —• oo. Da die Lösungen der charakteristischen Gleichung auch komplexe Zahlen sein können, kennzeichnet man diese Eigenschaft damit, dass alle Nullstellen der charakteristischen Gleichung außerhalb des Einheitskreises liegen.

48

KAPITEL 3. LINEARE

ZEITREIHENMODELLE

Beispiel 3.2 Für AR[2]-Prozesse lauten die Lösungen der charakteristischen Gleichung 1 αχ ζ - a 2 z 2 = 0: Zi —

-αϊ - y/a\ + 4a2 ^ , 2a2

-Qi + y/a\ + 4a2

z2 =

2a2

.

Zusammen mit den Beziehungen zwischen Parametern und Autokorrelationen Pi(l - Pi) α ι = —: 2 1 - Pi

u n dA

a

2 =

P2 - p\ γ, 1 - Pi

ergeben sich für die Parameterwerte die folgenden Bedingungen für die Stationarität, da beide Autokorrelationen betragsmäßig kleiner als 1 sein müssen: αι+α2 - 1 .

Das führt zu dem in der Abbildung 3.1 dargestellten Stationaritätsdreieck.

(3.9) •

Abbildung 3.1: Stationaritätsdreieck für AR[2]-Prozesse 17 «1 -2

X

\

2

- 1 a2 Die formale Ähnlichkeit der Definitionsgleichung des AR-Prozesses mit einer Regressionsbeziehung drängt förmlich den Einsatz der Methoden der Regressionsrechnung für autoregressive Modelle auf. Jedoch sind die Voraussetzungen des Regressionsmodells in AR-Modellen nicht gültig. Erst bei hinreichend langen Zeitreihen können alle Resultate eines Regressionsprogrammes wieder als (approximativ) gültig angesehen werden. Daher sind spezifische Methoden zum Schätzen der Parameter in AR-Modellen von Interesse. Die wichtigsten werden im folgenden aufgeführt. Um die Schätzverfahren und ihre Unterschiede zu verdeutlichen, wird jeweils die Situation betrachtet, dass anhand einer zentrierten Zeitreihe yi, •• - ,yν die Parameter eines AR[2]-Prozesses Yt = a\Yt~\ + u 2 Yt- 2 + £t geschätzt werden sollen. CLS (Conditional Least Sums of Squares) Dies ist im wesentlichen die Schätzung nach der Methode der kleinsten Quadrate, wie man sie aus der klassischen Regressionsanalyse kennt. Es wird, wie oben vereinbart, von einer mittelwertbereinigten Reihe, y = 0, ausgegangen. Die CLSMethode bestimmt ά \ , ά 2 dann über u\yt-\ - a2Vt-i] = m i n .

(3.10)

1. AUTOREGRESSIVE

MODELLE

49

Dies führt auf das Gleichungssystem 1 N 1 N 1 N 2 " ^ Σ ^ - ι + ^ ί ν Σ " ^ Λ Ρ Σ » 1 t= 3 ί=3 t=3 j JV JV χ χ Ν άι ] ν Σ fi-lWt-2 + Σ »t-2 = Σ »ifi-2t=3 (=3 t=3

(3·η) (3·12)

Die Summation lässt sich auch bei t = 1 beginnend geschrieben werden, wenn die beiden Werte ι, y0 identisch Null gesetzt werden. Gerechtfertigt wird diese Setzung dadurch, dass die Werte damit dem Erwartungswert der Zeitreihenvariablen gleichgesetzt werden. Die Bedingung, dass sie als 'fest' eingehen, ist die Begründung für die Bezeichnung CLS. ULS (Unconditional Least Sums of Squares) In einer Verfeinerung der CLS-Methode werden zunächst die Werte yo, j/_2,... mit Hilfe von Prognosen der Reihe in die Vergangenheit geschätzt. Auf die Prognosen wird später eingegangen. Die ULS-Methode verwendet dann die Lösung der Gleichungen (3.11), (3.12), wobei die Summation bei t = l beginnt. Für yo,y-i werden die 'prognostizierten' Werte verwendet. ML (Maximum Likelihood) Hier wird ein Gauß-Prozess unterstellt. Für die ML-Schätzung geht man dann von der gemeinsamen Normalverteilung der Zufallsvariablen Υχ,... aus und betrachtet die logarithmierte Likelihoodfunktion. Diese hat bei AR[2]-Prozessen die Gestalt: C(aua2,a2) Ν j 1η(2π) - j 1η(σ2) + I ln[(l + α 2 ) 2 (( 1 - α 2 ) 2 - α?)] 2" 1 + α 2 \ Γ/1 , ((1 Λ [(1 - _ot2\--2 )y\ _- 2alyly2 + - a\_.21 2)yl) 2σ2 -J-ti^iVt - aiVt-i - ol2 yt-2)2· 2(7 ti Diese Loglikelihood wird bzgl. der Parameter maximiert. Die Parameterwerte, bei denen das Maximum angenommen wird, sind dann die Schätzwerte. Da die letzte Summe mit negativem Vorzeichen eingeht, wäre die Maximierung äquivalent zur Minimierung von ^tLsiVt — QiJ/i-i — &2yt-2)2, wenn nur dieser Term relevant wäre. Die Maximierung der Loglikelihood würde dann also auf die CLS Schätzung führen. In den anderen Teilen der Loglikelihoodfunktion kommen nur die Parameter und die ersten beiden Reihenwerte vor. Y W (Yule-Walker) Die den autoregressiven Prozessen eigene Rekursionsbeziehung (3.6) der Autokorrelationsfunktion führt zu einem besonderen Zusammenhang von Koeffizienten und Autokorrelationen. Dieser kann mittels der Levinson-Durbin-Rekursion

50

KAPITEL

3.

LINEARE

ZEITREIHENMODELLE

zu einer numerisch sehr effizienten Schätzung ausgenutzt werden. Die Rekursion hat zugleich den Vorteil, dass in einem Durchgang auch die Schätzungen für alle AR-Modelle mit einer kleineren Ordnung bestimmt werden. Dies ist für die weiter unten zu besprechende Identifikation von Bedeutung. Bei diesem Ansatz werden lediglich die empirischen Autokovarianzen zur Schätzung der Parameter benötigt. Für die Beispielsituation werden die empirischen Autokovarianzen C|j_,-| anstelle der standardisierten Summen j j Σι=3 Vt-iVt-j in der Gleichung (3.11) verwendet. Die Schätzungen ergeben sich damit aus äic 0 + a 2 c 1 - c i »lCi

+ ä2c0

(3.13) (3.14)

= c2.

Burg Um die Parameter eines AR-Modells ohne den Umweg über die ACF zu ermitteln, kann man neben den Residuen der üblichen Vorwärtsrekursion i t = yt — ct-iVt-i — apyt-p auch die aus der rückwärts laufenden Rekursion betrachten: f/t = yt — &iyt+i apyt+p- Die Minimierung der Summe der quadrierten Residuen aus beiden Beziehungen führt dann zu sehr effizient berechenbaren Schätzungen. Hier wird also die Summe der quadrierten Vorwärts- und Rückwärtsresiduen minimiert: Ν

N-2 -

t=3

aiVt-i

- otiVt-if

+ ^ 2 ( y t ~ otiVt+i t=1

~ a2yt+2)2

=

min

Den Hintergrund für diesen Ansatz liefert die Tatsache, dass ein vorwärts laufender stationärer AR[p]-Prozess die gleiche ACF hat wie der zugehörige rückwärts laufende Yt - αλYt+i apYt+p = fy· Die Diskussion der einzelnen Schätz verfahren zeigt, dass sie sich vor allem durch die Behandlung der Werte an den Rändern des Beobachtungsintervalles unterscheiden. Bei längeren Reihen werden die Unterschiede immer weniger relevant. Bei kürzeren Zeitreihen liefert i.d.R. die ML-Schätzung die zufriedenstellensten Ergebnisse. Nur die Yule-Walker-Methode liefert stets Schätzwerte, die zu stationären Prozessen gehören. Bei ihrer Anwendung sollte die Reihe vorher einer Taper-Modifikation unterzogen werden. Diese wird im Abschnitt über Spektralschätzung erklärt. Aus der folgenden asymptotischen Verteilungsaussage für die oben angegebenen Schätzer kann man erkennen, dass bei genügend langen Reihen die Schätzer hinreichend genau mit den tatsächlichen Parameterwerten übereinstimmen. Satz 3.3 Für einen stationären AR[p]-Prozess (Yt —μ) =ai(Yt-i—μ)-\ f-ap(Yt-p— ß)+et mit E(e t ) =0, Var(e t ) =σ 2 gilt für die nach einer der oben angegebenen Methoden

1. AUTOREGRESSIVE

MODELLE

51

bestimmten Schätzer: VN(ä ι - α ϊ ) , . . . , \/~N{ap -

ap)

sind gemeinsam asymptotisch normalverteilt mit Erwartungswerten Null und Kovarianzmatrix σ2 · Σ " 1 , wobei Σ ρ = [7|,-_,|] die Kovarianzmatrix von ρ aufeinander folgenden Variablen des Prozesses (Yt) ist. • Traut man der Asymptotik bei einer kürzeren Zeitreihe nicht und möchte man trotzdem eine Schätzung der Standardfehler der Parameterschätzer heben, so kann das Bootstrap- Verfahren einsetzen. Es wurde 1979 als computergestütztes Simulationsverfahren zur statistischen Inferenz vorgeschlagen. Inzwischen ist es ein Standard verfahren. Die Bootstrap-Methode für AR-Modelle geht davon aus, dass die beobachtete Zeitreihe 2 / I , . . . , 2 / J V ein Ausschnitt aus einer Realisation eines AR-Prozesses Yt = QiYt_i + · · · + apYt-p + et ist. Unter Verwendung des geschätzten Modells und den sich daraus ergebenden Residuen i t wird eine größere Anzahl von Reihen gleicher Länge Ν simuliert; für alle simulierten Reihen werden die Parameter jeweils neu geschätzt. Für jeden Parameterwert lässt sich die Standardabweichung aus der Menge der erhaltenen Schätzwerte bestimmen. Da die simulierten Reihen angenähert als Realisationen des gleichen Modells wie die Ausgangsreihe angesehen werden können, gibt dies unter milden Annahmen eine bessere Schätzung des tatsächlichen Standardfehlers als die auf der asymptotischen Normalverteilung beruhende. Auch Konfidenzintervalle können darüber ermittelt und Tests durchgeführt werden. Die Auswahl eines geeigneten AR-Modells bedeutet, dass die Ordnung ρ bestimmt werden muss. Dies wird als Spezifikation oder Identifikation eines AR-Modells bezeichnet. Dazu zieht man im ersten Schritt die ACF heran. Wenn ein AR[p]-Modell "wahr" ist, so sind bei der Zeitreihe und der empirischen ACF gewisse Verhaltensmuster zu erwarten. Für AR[l]-Prozesse Yt = aYt-1 + st ist etwa p T = a ' r D i e ACF ist exponentiell abkingend. Da für genügend lange Reihen pT ss pT gilt, sollte die empirische ACF in der gleichen Weise gegen Null gehen wie die theoretische. Für einen stationären AR[p]-Prozess ist das folgende Erscheinungsbild der empirischen ACF charakteristisch: • "exponentielles Abklingen" nach dem Lag p. • näherungsweise "Erfüllung" der Rekursion: Ρτ — ά ι ρ τ - ι Η \-άρρτ_ρ, τ > 0. Diese Muster in empirischen Reihen wieder zu erkennen ist sicherlich nicht ganz einfach. Daher wird in aller Regel noch eine zweite Kennfunktion betrachtet, die partielle Autokorrelationsfunktion. Sie wird zunächst beispielhaft für einen AR[1]Prozess eingeführt.

52

KAPITEL 3. LINEARE

ZEITREIHENMODELLE

Beispiel 3.4 Sei y t = ay t _! + e ( . Der Wert der unmittelbaren Vergangenheit, also Yt~i, wird fest gehalten und nach dem Zusammenhang, d.h. der Korrelation, von Yt und Yt-2 gefragt. Das folgende Schema legt nahe, dass es dann keinen Zusammenhang mehr gibt. -»· Yt-2 Yt-1 Yt -»• t t t £t-2 ε p. • πτ ~ N(0,

für |r| > p.



Mit der Aussage des Satzes ist die Möglichkeit für einen Modell-Check gegeben: Man zeichnet für die ersten Lags r die empirischen Größen π τ mit den Grenzen Die doppelte Standardabweichung entspricht wegen der Normalverteilung grob einem 95% Schwankungsintervall. Sobald die Werte von π τ innerhalb

1. AUTOREGRESSIVE

MODELLE

53

Abbildung 3.2: ACF und PACF für AR[2]-Prozesse c*! = 0.6 Modell 2), das SBC das AR[l]-Modell (-» Modell 3) aus. Der Box-Pierce-Ljung-Test (vgl. (3.20)) für die Residuen ist für die Modelle 2 und 3: Modell 2

Modell 3

m

Test

df

P-Wert

Test

df

P-Wert

6 12 18

3.76 15.60 20.46

4 10 16

0.439 0.112 0.200

7.36 21.16 25.69

5 11 17

0.195 0.032 0.080

1. AUTOREGRESSIVE

57

MODELLE

Da beim AR[l]-Modell noch Korrelationen in der Residualreihe verbleiben, ist das Subset-AR[3]-Modell das geeignetste der drei. Parameter

Schätzwert 1.226 0.295 0.167 -0.254

Τ 19.42 2.49 1.36 -2.13

P-Wert 0.0000 0.0128 0.1738 0.0332

AIC :

84.577

SBC:

93.684

Parameter

»3

Schätzwert 1.223 0.338 -0.212

Τ 21.19 2.94 -1.83

P-Wert 0.0000 0.0033 0.0672

AIC:

84.518

SBC :

91.348

Parameter αϊ

Schätzwert 1.229 0.298

Τ 17.02 2.59

P-Wert 0.0000 0.0096

AIC :

85.916

SBC :

90.469

Modell 1

μ »2

Modell 2

μ αι

Modell 3

μ

Abbildung 3.5: QQ-Diagramm für die Residuen von DIABETES (Modell 2)

ο ^ο Ίο 00

Ο CM

7-3

- 2 - 1 0 1 F-'((t-0.5)/n)

2

3

Schließlich wird das im Abschnitt 3 vorgestellte QQ-Diagramm für die Residuen gezeichnet, um zu sehen, ob sie hinreichend normalverteilt sind. Das Diagramm weist auf eine leichte Rechtsschiefe ihrer Verteilung hin. Diese ist aber nicht so stark, dass eine Transformation der Ausgangsdaten notwendig wäre. • Wenn die abschließende Überprüfung der Anpassung eines AR-Modells an eine stationäre Zeitreihe dazu führt, dass ein solches Modell nicht adäquat ist, so ist ein Modell aus einer anderen Modellklasse anzusetzen. Eine der Möglichkeiten bilden die MA-Modelle, die als nächstes vorgestellt werden.

58

2

KAPITEL

3. LINEARE

ZEITREIHENMODELLE

MA-Modelle

Zu einer andern Modellklasse als die der AR-Modelle gelangt man, wenn in der Prozessgleichung für Yt nicht die beobachteten Werte, wohl aber vergangene Störungen explizit auftauchen dürfen. Das ergibt die Moving Average-Prozesse. Ein MA[q]-Prozess (Yt) ist definiert durch die Beziehung Yt = £t~ ßl£t-l — · · · — ßqSt-q. Dabei ist (et) ein White-Noise-Prozess. Das Bildungsgesetz eines MA[q]-Prozesses ist einfacher als das eines AR-Prozesses. Es wird hier ja nur eine gewichtete Summe von unabhängigen Zufallsvariablen gebildet. Das hat zur Konsequenz, dass endliche MA[q]-Prozesse stets stationär sind. MA[oo]-Prozesse sind stationär, wenn die Folge der Gewichte absolut summierbar ist, Σ \ßu\ < oo. Die Autokovarianzfunktion eines MA[q]-Prozesses erhält man mit der Unkorreliertheit der e t sehr leicht zu / al\-ßT 7τ =

+ ßißT+i + ßq-rßg}

l o

|r| < q Irl >



(3 21)

·

Für die Theorie ist die Einfachheit der Überprüfung der Stationarität von MA[oo]Prozessen unter dem Gesichtspunkt wesentlich, dass man nur die Äquivalenz eines Prozesses mit einem entsprechenden MA[oo]-Prozess zu zeigen braucht, um seine Stationarität zu zeigen. Bei AR[p]-Prozessen sichert die Stationaritätsbedingung, dass die Wurzeln der charakteristischen Gleichung außerhalb des Einheitskreises liegen, gerade die Möglichkeit der Darstellung als MA[oo]-Prozess. Beispiel 3.9 Sei Yt = aYt-i +et ein AR[l]-Prozess mit |a| < 1. Dann führt das rekursive Einsetzen der Definitionsgleichung zu Yt = aYt_i + et = a2Yt-2 + aet-i 3

+st

2

- a Yt-3 + a et-2 + aet-i + et

= Σ

auet-u

+ et-

u=l Wegen |a| < 1 ist die Folge (a u ) absolut summierbar.



Umgekehrt kann man sich natürlich auch fragen, wann sich MA- in AR-Prozesse überführen lassen. Diese Frage ist unter Schätz- und Prognosegesichtspunkten ganz wesentlich. Denn für beide Aufgaben stehen ja die beobachteten Zeitreihenwerte zur Verfügung; mit diesen müssen die nicht-beobachtbaren Residuen geschätzt werden. Anhand des folgenden Beispiels wird deutlich, dass hierfür entsprechend geeignete Bedingungen an die Koeffizienten zu stellen sind.

2.

MA-MODELLE

59

Beispiel 3.10 Für einen MA[l]-Prozess erhält man auf die gleiche Weise wie im vorangegangenen Beispiel Yt

=

ε, - ߣt-i =>

et

=

Yt + ßet-l

= Yt + ß{Yt-i+ßet-2)

= ...

OO

=

Yt + ^2ßuYt-u u=l

(3.22)

Damit die letzte Summe tatsächlich einen stationären Prozess darstellen kann, muss offensichtlich \ß\ < 1 gelten. • Die Bedingung \ß\ < 1 für MA[l]-Prozesse kann wieder so formuliert werden, dass die Wurzel der Gleichung 1 — ßz = 0, d.h. 1/ß, außerhalb des Einheitskreises liegt. In dieser Form lässt sich die Aussage folgendermaßen verallgemeinern. D e f i n i t i o n 3.11 Ein MA[q]-Prozess (Yj) heißt invertierbar, Gleichung 1 - ßxzl

wenn die zugehörige charakteristische ßqz" = 0

nur Nullstellen außerhalb des Einheitskreises besitzt. Satz 3.12 Jeder stationäre AR[p]-Prozess lässt sich als MA[oo]-Prozess darstellen. Jeder invertierbare MA[q]-Prozess lässt sich als AR[oo]-Prozess darstellen. • Die Bedeutung der MA-Darstellung liegt, wie bereits erwähnt, nicht zuletzt darin, dass über die gewichteten Summen von unabhängigen Zufallsvariablen ein vergleichsweise einfacher Zugang zur theoretischen Analyse ermöglicht wird. Alle Prozesse, die sich als MA[oo]-Prozesse schreiben lassen, werden auch als lineare Prozesse bezeichnet. Die besondere Relevanz der linearen Prozesse rührt dabei von dem grundlegenden Woldschen Zerlegungssatz her. Dieser sagt, dass jeder stationäre Prozess (Yt) eindeutig als Summe zweier Prozesse geschrieben werden kann, Yt = Dt + Rt. Dabei ist (R t ) ein MA[oo]-Prozess; (D t ) ist deterministisch. Deterministisch heißt ein Prozess, wenn er sich exakt vorhersagen lässt. Grob gesprochen ist Dt dann eine exakte Funktion der vergangenen Prozessvariablen Dt-U. Ein Beispiel dafür ist etwa der Prozess Yt — cos(27r0.25i). Dass sich die Schätzung der Koeffizienten ß\,... ,ßq eines MA-Prozesses schwieriger darstellt als die Schätzung der Koeffizienten von AR-Prozessen, liegt darin begründet, dass die ßu zwar linear mit den (nicht beobachtbaren) ε ( verknüpft sind, zur Schätzung aber die tatsächliche Zeitreihe ( y i , . . . verwendet wird. Mit diesen Werten sind die Koeffizienten nichtlinear verknüpft, wie die Formel (3.22) zeigt. Die Invertierbarkeit eines MA-Prozesses sichert nun die Möglichkeit, die Innovationen e t sowie die Parameter aufgrund einer Beobachtung, d.h. einer empirischen

60

KAPITEL

3. LINEARE

ZEITREIHENMODELLE

Reihe zu schätzen. Da zudem verschiedene MA-Prozesse gleicher Ordnung dieselbe Autokorrelationsfunktion hervorbringen können, ist die Invertierbarkeit ein beliebtes zusätzliches Kriterium bei der Bestimmung eines MA-Modells. Für invertierbare MA[q]-Modelle führt der CLS-Ansatz zu nichtlinearen Schätzungen, die mit numerischen Optimierungsroutinen bestimmt werden müssen. Beim MA[l]-Modell ist etwa

zu minimieren. Das Prinzip des ULS-Ansatzes ist dann wieder, mittels der mit der CLS-Methode gewonnene Schätzung die Reihe in die Vergangenheit zu 'prognostizieren', um so zu besseren Schätzungen zu gelangen. Die ML-Methode basiert auch bei diesen Modellen auf der Maximierung der Likelihood-Funktion. Eine spezielle Schätzmethode für MA-Prozesse ist der Innovationsalgorithmus von Brockwell und Davis. Ausgehend von dem MA[q]-Prozess Yt=et + 0iet-i + • · · + 9 q e t - q werden die Ein-Schritt-Prognosen Ytq können dann für genügend großes t als Schätzwerte

Die Schätzer sind asymptotisch gemeinsam normal verteilt. Für die einzelnen Koeffizienten gilt, wenn ( Y t ) ein MA[q]-Prozess ist und m mit Ν gegen unendlich strebt: (3.24) Für die Identifizierung eines MA-Modells sind wieder die Kennfunktionen wesentlich. Im Fall eines MA[q]-Prozesses gilt: • Die ACF veschwindet für Lags, die größer als die Ordnung des Prozesses sind: pT = 0 für τ > q. • Die PACF (π τ ) ist für r > q exponentiell abklingend. Dass die Autokorrelationen pT eines MA[q]-Prozesses für r > q Null sind, ist dabei leicht zu sehen. Mit E(e t e s ) = 0 für t ψ s und = σ 2 für t = s gilt nämlich: q-T

(3.25) u=0

2.

61

MA-MODELLE Abbildung 3.6: ACF und PACF für MA[2]-Prozesse 1.0

Lag

Lag

Lag

Lag

Die Eigenschaft der PACF ist zumindest für einen MA(1 [-Prozess aufgrund der Darstellung als AR[oo]-Prozess einsichtig. Denn die Gleichung (3.22) macht deutlich, dass bei auch die von Y j _ i , . . . ,Yt-T 'bereinigten' Variablen Yt und Yt-T-i noch eine gewisse Korrelation aufweisen. Das Verschwinden der ACF für Lags, die größer als die Modellordnung sind, hat zur Konsequenz, dass für die empirischen Korrelationen für Lags τ > q gilt: E(/v)

=

0

(3.26)

Var(p T )

-

I ( i + 2 p ? + . . . + 2 p]).

(3.27)

Die als Formel von Bartlett bezeichnete asymptotische Varianz der Autokorrelationen für MA[q]-Prozesse ermöglicht die Spezifikation eines MA-Modells mit Hilfe der empirischen ACF. Dazu werden in der Formel für die Varianzen der pT die theoretischen Korrelationen durch die empirischen ersetzt. Dann wird für jedes Lag τ die empirische Korrelation sowie die Bartlett-Grenzen, das Doppelte der geschätzten Standardabweichung, ± 2 ^ / ( 1 + 2p\ + h 2pD/N, eingezeichnet. Wegen der asymptotischen Normalverteilung der empirischen Autokorrelationen entspricht dies einem zentralen 95% Schwankungsintervall, falls die theoretischen Korrelationen für r ' > τ Null sind. Die grafische Darstellung der Grenzen ist von der Form einer liegenden Parabel. Um die Grenzen richtig zu interpretieren, sind für jedes Lag τ Parallelen beginnend bei τ in dem durch die BartlettGrenzen an dieser Stelle vorgegebenen Abstand parallel zur r-Achse ziehen. Das

62

KAPITEL

3. LINEARE

ZEITREIHENMODELLE

kleinste Lag, von dem an die Parallelen die folgenden Korrelationen einschließen, ist (vorläufig) als Ordnung des MA-Modells zu wählen. Beispiel 3 . 1 3 Für den MA[7]-Prozess Yt=et + 0.80e t _i - 1.80ε ( _ 4 - 1.64e t _ 5 - 2.50e t _7 mit £t ~ λί(0,1) wurde eine Reihe der Länge Ν = 200 simuliert. Die Abbildung zeigt die empirische Autokorrelationsfunktion mit den BartlettGrenzen. Die gestrichelten Hilfslinien entsprechen den Bartlett-Grenzen für das Lag 2. Offensichtlich ist nach dem Lag 7 keine Autokorrelation mehr bedeutsam. Abbildung 3.7: ACF mit Bartlett-Grenzen

So führt das Vorgehen hier auf einen MA[7]-Prozess als Modell.

3

ARMA-Modelle

Die nahe liegende Verknüpfung der AR- und der MA-Prozesse führt zu den Autoregressiven Moving-Average-, kurz ARMA-Prozessen: Yt = a i ^ t - i + · · · + apYt-p + e t - ßtft-i

ßget-q·

(3.28)

Diese werden üblicherweise in der Form Yt - oiiYt-i

apYt-p

= e t - ßist-i

ßqSt-q,

bzw. (1 -

aiB

apBp)Yt

= (1 - ßiB

ßqB")et

oder ganz kurz gemäß a(B)Yt = ß(B)st angegeben. Die Berücksichtigung eines von Null verschiedenen Niveaus geschieht am einfachsten mittels Zentrierung von Yt in der letzten Gleichung: α(Β)(Υι-μ)

= β(Β)εί.

(3.29)

3.

ARMA-MODELLE

63

Ein ARMA-Prozess ist stationär, wenn die Lösungen der charakteristischen Gleichung des AR-Teils außerhalb des Einheitskreises liegen. Er ist invertierbar, wenn die charakteristische Gleichung des MA-Teils nur Lösungen besitzt, die außerhalb des Einheitskreises liegen. Ein stationärer und invertierbarer ARMA-Prozess kann sowohl als AR[oo]-Prozess als auch als MA[oo]-Prozess geschrieben werden. Der Vorteil der ARMA-Modelle liegt in ihrer Sparsamkeit bzgl. der benötigten Parameter. Auch komplexes Verhalten einer Zeitreihe lässt sich durch ARMA-Modelle mit einer eher geringen Zahl von Parametern beschreiben. Eine Motivation für ARMA-Prozesse ergibt sich aus der Eigenschaft, dass Summen von unabhängigen ARMA-Prozessen wieder ARMA-Prozesse sind. Damit werden z.B. ARMA-Modelle für aggregierte Zeitreihen, wie sie in der Ökonomie häufig anzutreffen sind, nahe gelegt. Genauer gilt: ARMA[p, q] + ARMA[p', g'] = ARMA[p + q', max{g + p',p + q'}]· Speziell ist

ΑΙ

φ]

+ W h i t e Noise = ARMA\p,p\.

(3.30) (3.31)

Wird also die Beobachtung eines AR[p]-Prozesses zufällig gestört, so resultiert ein ARMA[p,p]-Modell. Beispiel 3.14 illustriert diesen Sachverhalt. Für die Schätzung der Parameter von ARMA-Prozessen stehen bis auf die YuleWalker- und die Burg-Schätzer die gleichen Methoden zur Verfügung, die schon bei den AR-Prozessen erwähnt wurden. Das sind also die CLS-, ULS- und MLSchätzer. Diese sind wieder asymptotisch gemeinsam normalverteilt mit den wahren Parameterwerten als (asymptotischen) Erwartungswerten. Daher kann man die Signfikanz der einzelnen Parameterschätzungen mittels i-Tests abschätzen, oder äquivalent dazu, mit dem Check, ob das jeweils zugehörige Konfidenzintervall den Wert Null einschließt. Speziell die Anwendung der ML-Methode setzt voraus, dass die Störungen normalverteilt sind. Dies sollte wie bei den AR-Modellen zumindest nach Anpassung des Modells anhand der Residuen überprüft werden. Als spezifisches Schätzverfahren kommt der Ansatz von Durbin-Hannan-Rissanen hinzu. Dabei wird zuerst ein AR-Modell hoher Ordnung geschätzt. Die sich daraus ergebenden Residuen i t werden benutzt, als ob sie die korrekten Beobachtungen des White-Noise-Prozesses wären. Dann liefert der Regressionsansatz Yt = &\Yt-\

+

l·-

CüpYt-p

~ ßl^t-l

ßq£t-q

+ Vi

Schätzungen der Parameter des ARMA-Modells. Mit den Residuen dieses Modells kann das Verfahren dann iteriert werden. Die Schätzer sind asymptotisch normalverteilt, haben aber eine größere Varianz als die drei oben erwähnten. Die Spezifikation von ARMA-Modellen ist nun keine sehr leichte Aufgabe mehr. Im Rahmen des so genannten Box-Jenkins-Ansatzes betrachtet man zuerst die ACF und die PACF der Ausgangsreihe und versucht, aus typischen Mustern die Modellordnungen zu erraten. Die Tabelle 3.1 fasst das Verhalten für allgemeine ARMA[p,q]-Prozesse zusammen. Wie die Abbildung 3.8 für ARMA[l,l]-Prozesse

KAPITEL 3. LINEARE

64

ZEITREIHENMODELLE

Abbildung 3.8: A C F und P A C F für ARMA[l,l]-Prozesse l.Oa = 0.7 0.5 •

1.0 •

0.5 •

0.0 -

β = 0.3-0.5 •

0.0 •

Lag

-1.0-

1.0 •

0.5-

a = 0.3 0.5 0.0 -

0.0-

Lag

1.0 -

1.0 •

0.5 •

a = 0.5 0.5 -

0.0 -

0.0 -

-0.5 •

β = -0.5-0.5 -

1.0 •

1.0 -

0.5 •

α = 0.5 0.5-

0.0 -

0.0 -

Lag

-1.0-

-0.5 -1.0-

Lag

1.0 -

1.0 -

0.5 -

α = - 0 . 6 0.5 -

0.0 •

0.0 -1.0-

Lag

- 1 . 0 •

-1.0 -

β = -0.2-0.5 -

-0.5 • -1.0-

-1.0-

β = -0.5-0.5 -

Lag

- 1 . 0 •

1.0 -

β = 0.7-0.5 -

-0.5 •

Lag

-0.5 -1.0 •

Lag

erkennen lässt, ist das Verhalten dieser Kennfunktionen schon in gemischten Modellen niedrigerer Ordnung durchaus komplex. Somit fällt das Erkennen der zugrundeliegenden Struktur nicht leicht. Hat man sich dennoch für ein Modell entschieden, so werden die Parameter geschätzt. Die Analyse der Residuen, insbesondere der A C F und der P A C F der Residualreihe, gibt Hinweise, ob alle Autokorrelationen erfasst sind. Formal lässt sich dies mit dem Box-Pierce-Ljung-Test überprüfen, vgl. (3.20). Falls noch Autokorrelationen in der Residualreihe verblieben sind, ist die Schätzung für ein neues, die noch vorhandene Abhängigkeiten berücksichtigendes Modell erneut durchzuführen. Dies gibt eine neue Residualreihe. So tastet man sich schließlich auf iterative Weise an ein geeignetes Modell heran.

Beispiel 3.14 Als Tremor bezeichnet man das Zittern, das durch unwillkürliche, weitgehend rhythmisch aufeinander folgende Kontraktionen der Muskeln bewirkt wird. Dabei ist der physiologische Tremor normalerweise nicht sichtbar. Er kann jedoch mit einer besonderen Vorrichtung gemessen werden. Die Reihe T R E M O R gibt einen Ausschnitt aus einer solchen Messung an.

3.

65

ARMA-MODELLE

Tabelle 3.1: Typisches Verhalten von A C F und P A C F in stationären und invertiblen ARMA-Modellen AR[p]

MA[q]

ARMA[p,q]

klingt ab

bricht nach dem Lag q ab

klingt ab

bricht nach dem Lag ρ ab

klingt ab

klingt ab

ACF PACF

Die A C F und die P A C F zeigen beide ein 'exponentielles Abklingen'; sie 'brechen nicht abrupt' ab. Das deutet auf ein gemischtes Modell hin. Das Schwingungsverhalten der A C F legt ein AR-Polynom mindestens der Ordnung 2 nahe. Ebenso weist die P A C F auf eine MA-Ordnung von mindestens 2 hin.

Abbildung 3.9: Physiologischer TREMOR (Ausschnitt)

Abbildung 3.10: A C F und P A C F der Reihe TREMOR

Iiiiii

I·-

................. •••HIIIIIH""·

""""""

In der Tat ergibt das ARMA[2,2]-Modell (1 - 1.95415 + 0.97854B 2 )(r t - 0.19918) = (1 - 1.7901B + 0.82058B 2 )e, eine zufrieden stellende Anpassung. Für alle Koeffizienten sind die Werte der i-Teststatistik so groß, dass die zugehörigen P-Werte praktisch Null sind. Sie werden daher alle im Modell behalten:

KAPITEL 3. LINEARE

66 Parameter

Schätzw.

Std.Fehler

μ ßl ßi

0.19918 1.79009 -0.82058 1.95411 -0.97854 0.61015

0.03096 0.02281 0.02283 0.00838 0.00832

Q2 σ2

ZEITREIHENMODELLE i-Statistik

6.43 78.47 -35.95 233.30 -117.55

Die Korrelationen zwischen den Schätzern ist teilweise recht hoch, insbesondere die zwischen ä\ und ά'2 sowie die zwischen ßi und ß 2 . Das erklärt, dass bei dieser Reihe die Informationskriterien und die Korrelationstafeln eher ein ARMA[1,1] auswählten. Jedoch verbleiben dann relevante Korrelationen in den Residuen. Beim ARMA[2,2]-Modell sind dagegen keine signifikanten Abhängigkeiten mit dem Box-Pierce-Ljung Test mehr festzustellen. Im Gegenteil, die P-Werte sind für die verschiedenen Anzahlen von Summanden alle ausreichend hoch, um das Modell zu akzeptieren. Korrelationen der Schätzer Parameter μ ßl ß2 ai «2

μ

ßi

Ä

αϊ

α2

1.000 0.003 -0.001 0.005 -0.006

0.003 1.000 -0.981 0.587 -0.598

-0.001 -0.981 1.000 -0.546 0.578

0.005 0.587 -0.546 1.000 -0.986

-0.006 -0.598 0.578 -0.986 1.000

Box-Pierce-Ljung-Test für die Residuen m

Test

df

P-Wert

6 12 18 24 30 36 42 48

3.08 8.23 14.94 19.81 23.43 26.70 34.61 36.74

2 8 14 20 26 32 38 44

0.215 0.412 0.383 0.470 0.608 0.732 0.627 0.773

Nach Timmer (1998), dem die Daten zu verdanken sind, stellt ein AR[2]-Prozess für derartige Zeitreihen von den physikalischen Gegebenheiten her ein adäquates Modell dar. Allerdings ist der Messvorgang selbst nicht störungsfrei. Der AR[2JProzess wird durch einen White-Noise-Prozess überlagert. Daher ist es wegen (3.31) nicht verwunderlich, dass für die empirische Reihe ein ARMA[2,2]-Modell resultiert. •

3.

67

ARMA-MODELLE

Als zusätzliches Hilfsmittel wurde die inverse ACF, oder kurz IACF, eingeführt. Die I A C F von a(B)Yt = ß(B)et ist die A C F des Prozesses ß(B)Yt = a{B)et. Dementsprechend vertauschen sich die Verhaltensmuster, und die I A C F sollte bei AR-Prozessen für Lags, die größer sind als die Modellordnung, praktisch Null sein. Diese Kennfunktion ist aber nur wenig hilfreicher, da sie das grundlegende Problem nicht beseitigt. Eine wesentliche Verbesserung stellen die Vektorkorrelationen von Streitberg bzw. die erweiterten Stichprobenautokorrelationen, ES ACF, von Tsay & Tiao dar. Bei den Vektorkorrelationen wird von der Definition der Korrelation zweier Zufallsvariablen X , Y, Corr(X, Y)= Cov{X, Κ ) / y V a r ( X j V a r ( Y ) ausgegangen. Für Zufallsvektoren χ ist die Determinante einer empirischen Kovarianzmatrix proportional zu dem Volumen des durch die Beobachtungen aufgespannten Streuellipsoids. Somit kann det Σ Χ ι ΐ ; als eine Verallgemeinerung der Varianz auf höhere Dimensionen fungieren. Für zwei Zufallsvektoren x,y mit Kovarianzmatrizen Σχ,χ, S y t( und Έχλ wird dann analog zur Korrelation definiert:

A ( X

'y)

(det S X]!1 .) 1 / 2 (det Σ ^ ) 1 / 2

=

(3'32)

Als Zufallsvektoren sind nun Ausschnitte aus dem Prozess (Yt)

interessant.

Definition 3.15 Die Vektorkorrelation lation von χ = (Yt, Yt+U

A P i 9 der Ordnung ( P , q) ist definiert durch die Vektorkorre..., Yt+P)'

und y = (Yt+v+l,Yt+v+2,

Yt+q+P+1)' gemäß

λΡΛ = ( - l ) p A ( x , y )

(3.33)

Für ungeradzahlige ρ wird anstelle von Λ ( x , y ) die negative Größe —X(x,y)

ge-

wählt. Dies geschieht, um eine Vergleichbarkeit mit dem Box-Jenkins Ansatz zu erreichen. Denn dann sind die Vektorkorrelationen APi0 gleich den partiellen Autokorrelationen zum L a g p + 1 , λ ρ ι 0 = π ρ + ι , und die Ao,g gleich den Autokorrelationen zum Lag q + 1, λ 0 ) , = pq+\Die wichtigste Eigenschaft ist nun, dass für einen ARMA[p',q']-Prozess die λ Μ für ρ > ρ', q > q' Null sind und ungleich Null für ρ = p' — 1, q > q' bzw. ρ > p',q = q ' - l . MA AR

0

1

2

3

4

0 1 2 3 4

χ χ χ χ χ

χ χ χ χ χ

χ χ χ χ χ

χ χ 0 0 0

χ χ 0 0 0

5 · · · χ χ 0 0 0

KAPITEL 3. LINEARE ZEITREIHENMODELLE

68

Damit kann anhand eines unendlichen Nullblocks die Ordnung des ARMA-Modells erkannt werden. Zur Einschätzung, wann eine empirische Vektorkorrelation Null ist, kann man simultane Konfidenzintervalle mit dem Bootstrapverfahren, siehe Seite 51, bestimmen. Es stehen auch asymptotische Verteilungsaussagen zur Verfügung; diese sind aber von begrenztem praktischen Nutzen. Zu einer ähnlichen Tabelle mit einem etwas unterschiedlich strukturierten Bereich von Nullen führt die ESACF. Der Ausgangspunkt ist die folgende Überlegung. Sei (y t ) ein ARMA[p,q]-Prozess,

(1 - aiB

apB?)Yt = (1 - ßxB

Dann ist Zt = ( 1 — a\B — · · · — apBp)Yt

ßqB")et.

offensichtlich ein MA[q]-Prozess:

Zt = {l-ß1B

ßqB")et.

Dies legt nahe, einer Zeitreihe sukzessive AR[p]-Modelle mit wachsenden ρ anzupassen und die Residuen daraufhin zu untersuchen, ob sie als Realisationen eines MA[q]-Prozesses aufgefasst werden können. Der Pferdefuß liegt darin, dass die KQ-Schätzungen der AR-Parameter bei einem gemischten Modell nicht konsistent sind. Die direkte Umsetzung der Idee würde folglich leicht zu Fehlspezifikationen führen. Tsay und Tiao haben daher eine iterative KQ-Schätzung entwickelt. Als Resultat ergibt eine analog zu oben aufgebaute Tabelle. Hier führt ein ARMAModell zu einem Keil von Nullen, bei dem die Spitze die Ordnung des Modells anzeigt. Für einen ARMA(l,2)-Prozess sieht das z.B. folgendermaßen aus; die Eintragungen χ sind dabei nicht spezifizierbar:

MA AR 0 0 1 2 3 4

1 2

χ χ χ χ χ

χ χ χ χ χ

χ 0 χ χ χ

3

4

5

χ 0 0 χ χ

χ 0 0 0 χ

χ 0 0 0 0

Neben den Kennfunktionen können wieder die Informationskriterien herangezogen werden, um zwischen verschiedenen, eine Reihe in etwa gleich gut erfassenden Modellen auszuwählen. Sie nehmen hier die Form an: AIC(p) = lnap2„ + ^

^

(3.34) +

SBC(p)=In^

+

^

±

^

(3.35) (3.36)

4.

ARIMA-MODELLE

69

H Q W = .n

( c > 1 )

.

(3.37)

Sie sind auch im Falle von Subsetmodellen von Bedeutung, bei Modellen also, bei denen Parameter Null gesetzt werden können. Dann ist in den Formeln für ρ + q die Anzahl der tatsächlich geschätzten Parameter einzusetzen. Die Auswahl eines Subsetmodells wird in Beispiel 3.17 illustriert. Die Spezifikation von ARMA-Modellen verläuft nun in folgenden Schritten: 1. Analyse von ACF, PACF (IACF) und Vektorkorrelationen (ESACF): Identifizieren von ρ und q über "matching" von empirischen und theoretischen Kennfunktionen bzw. Erkennen des geeigneten Nullblocks der durch die Vektorkorrelationen oder die ESACF gegebenen Tafel. 2. Schätzen des Modells mit einer der im Rahmen der AR-Modelle angesprochenen Methoden (CLS, ULS, ML) bzw. mit dem Verfahren von Durbin, Hannan und Rissanen. 3. Uberprüfen, welche Parameterwerte signifikant von Null verschieden sind. Restringierte Neuschätzung unter Nullsetzen der nichtsignifikanten Parameter. 4. Check der Residuen auf White-Noise. Dazu stehen wieder die im Rahmen der AR-Modelle besprochenen Methoden zur Verfügung. Falls diese noch Abhängigkeiten aufweisen, gehe man zurück nach 2.

4

ARIMA-Modelle

ARMA-Modelle haben sich als Modellklasse für die Behandlung von stationären Zeitreihen u.a. auch deshalb etabliert, weil sie durch die Verbindung der ARMAModelle mit dem Differenzenbilden eine recht einfache und doch sehr mächtige Möglichkeit bieten, Instationaritäten einzubeziehen. Die von Box-Jenkins vorgeschlagenen ARIMA-Modelle unterstellen, dass nach geeignetem Differenzenbilden eine stationärer ARMA-Prozess vorliegt. ARIMA[p,d,q]-Prozesse sind zunächst Modelle für Zeitreihen mit einer Trendkomponente. Sie lassen sich in der folgenden Form schreiben: α (Β) (1 - B)dYt

=

ß(B)et.

stationär Für die Identifikation von ARIMA-Modellen ist nun zusätzlich zu den bei ARMAModellen vorzunehmenden Schritten noch der Grad der Differenzenbildung d zu bestimmen. Zunächst einmal kann auch aus der empirischen ACF erkannt werden, ob Differenzenbilden notwendig ist. Für AR-Prozesse mit einer Einheitswurzel, a(B)( 1 - B)Yt = ε ( ,

70

K A P I T E L

3.

L I N E A R E

Z E I T R E I H E N M O D E L L E

gilt nämlich, dass die ACF nur langsam von +1 herkommend abklingt, vgl Abbildung 3.11. Anschließend (oder alternativ) bietet es sich an, die Methode der variaten D i f f e r e n z e n , vgl. Kapitel 2, einzusetzen. Abbildung 3.11: ACF der Realisation (N = 200) eines integrierten AR-Prozesses

5

TO

I S

2 Ο

2 5

3 0

-3 5

S

CD

SO

S S

G O

Θ 5

7 0

Will man nun einer empirischen Reihe nach Differenzenbildung ein ARMA-Modell anpassen, so empfiehlt es sich, für den MA-Teil eine Ordnung zu unterstellen, die mindestens so groß ist wie der Grad der Differenzenbildung. Wie sich aus dem folgenden Satz ergibt, wird durch jede Differenzenbildung eines ARMA-Prozesses eine Einheitswurzel bei dem MA-Teil produziert. War also die Reihe schon vor der Differenzenbildung stationär, so verliert die den Schätzungen zugrundeliegende Theorie wegen der Einheitswurzel ihre Gültigkeit. Die Standardfehler und die darauf basierenden i-Statistiken und P- Werte für die Koeffizienten stimmen also nicht mehr. Satz 3.16 Sei (Yt) ein stationärer ARMA[p,q]-Prozess, der sich in der Form ρ

q

= j= 0

Τ

ßy£t-T

r=0

darstellen lässt. Die Wurzeln des charakteristischen Polynoms des autoregressiven Teils seien betragsmäßig alle größer als Eins, die des charakteristischen Polynoms des MA-Teils, 1 — ß \ z — • • • — ß z = 0, seien z \ , . . . , z . Dann bilden die ersten Differenzen Yt — Yt~\ einen ARMA[p,q+l]-Prozess, bei dem der autoregressive Teil sich nicht ändert, der MA-Teil die Wurzeln z \ , . . . , z , 1 hat. • q

q

q

q

Die Diskussion über die Differenzenbildung macht deutlich, dass auch statistische Tests zur Überprüfung des Vorliegens einer Einheitswurzel von Interesse sind. Ein solcher Unit-Root-Test wurde von Dickey & Fuller vorgeschlagen. Den Ausgangspunkt bildet ein AR[p]-Prozess Y = a i Y - i + l· a Y - + e . Diese Gleichung kann umgeformt werden zu t

Y

t

=

t

+ a 2 ( r t _ ! - Yt_2) + · · · +

p

a

p

( Y

t

.

p + 1

t

p

-

t

Y

t

.

p

) +

et.

(3.38)

Damit ist αϊ = αχ + · · · + a p und die charakteristische Gleichung 1 — a \ z — · · · — a z = 0 hat genau dann für ζ— 1 eine Lösung, wenn αι = 1. Für |αι| < 1 ist der p

p

4.

ARIMA-MODELLE

71

AR[p]-Prozess stationär (unter geeigneten Bedingungen an die anderen Koeffizienten). Die Gleichung (3.38) kann dann als Regressionsgleichung angesehen werden. Der Dickey-Fuller Test testet die Nullhypothese a = l gegen die Alternative |a| < 1. Die kritischen Werte der Prüfgröße wurden über Simulationen ermittelt. Reihen, die ein saisonales Verhalten aufweisen, können im Prinzip ARMA-Modelle der Form a(B) (1 - B)d( 1 - Bs)°Yt = ß(B)et "

V

'

stationär angepasst werden. Hier wird die Saison (mit der Periode s) durch eine geignete Anzahl (D) von Differenzenbildungen eliminiert; weiter wird die Reihe durch dmaliges einfaches Differenzenbilden trendbereinigt. Solche Reihen weisen jedoch häufig signifikante Werte der ACF bzw. PACF für die ersten Lags und dann für Lags um die Saisonperioden s, 2 s , . . . auf, während die Werte für dazwischenliegende Lags vernachlässigbar sind. Das ist Ausdruck der Tatsache, dass etwa bei Monatsdaten die Werte eines Monats nicht nur von den Werten der unmittelbar davorliegenden Monate abhängen, sondern auch von denen des gleichnamigen Monats des Vorjahres sowie vielleicht noch von dessen Vormonaten. Statt nun ein Modell der Art (1 - axB - asBs

- as+lBs+1)( s

= (1 - ß,B - ßsB

1 - B)d{ 1 -

Bs)DYt

s+l

-

ßs+lB )et

anzupassen, ist es sparsamer, die beiden Polynome a(B) und β (Β) als Produkte anzusetzen: (1 - φΒ){ 1 - J3S)(1 - B)d( 1 - Bs)DYt

= (1 - φΒ)( 1 - ΨΒ 5 )ε ( .

Dies ist der von Box und Jenkins favorisierte Ansatz der Saisonalen ARIMAModelle. Allgemein lässt sich ein SARIMA[p,d,q]x[P,D,Q] s -Prozess in der folgenden Weise schreiben: φ{Β)Φ{Β°){1

- B)d{ 1 - B.)°Yt

= iP(B)V{Bs)et.

(3.39)

Für die additive Variante des Census X - l l Saisonbereinigungsverfahrens für Monatsdaten wurde ein spezielles saisonales ARIMA-Modell gefunden, dessen Anpassung praktisch mit der Saisonbereinigung übereinstimmt. (Jedenfalls wenn bei die Reihe keine Ausreißer oder sonstigen Kalenderunregelmäßigkeiten vorkommen.) Den Ausgangspunkt bildet das Modell Yt = Tt + St + et, bei dem Trend Tt und Saison St einfachen ARIMA-Prozessen folgen. Das gefundene Modell wurde dann von Van Winkel (1982) noch weiter vereinfacht: (1 - B)2{ 1 - Bn)Yt 24

= (1 - 0.34B -I- 0.486B 2 )(1 - 0.485B12 + 0.042Β 24 )ε (

(3.40)

Ohne den ß -Term, der ohnehin nur ein geringes Gewicht besitzt, ist es ein reines SARIMA-Modell vom Typ [0,2,2]x[0,l,l] 12 .

KAPITEL 3. LINEARE ZEITREIHENMODELLE

72

Beispiel 3.17 Die in der Abb.2.8 wiedergegebene Reihe UNFALL weist eine starke Saisonalität, jedoch kaum einen Trend auf. Es wird daher die transformierte Reihe (1 — Bl2)yt untersucht. ACF und PACF legen nahe, mindestens einen MA-Koeffizienten und Abbildung 3.12: ACF und PACF der saisonalen Differenzen von UNFALL ACF (with

Ο

ΙΟ

Bortlett's

20

bounds)

30

PACF (with

Confidence

IIII III·.·

• — I. 1 - • ..——«

Ο

1 Ο

20

40

50

bounds)

—= .—--30

~



40

50

einen AR-Koeffizienten im Modell zu berücksichtigen. Zudem deuten die erhöhten Werte der PACF bei den Lags 12 und 13 auf die Notwendigkeit hin, auch für diese Lags AR-Koeffizienten aufzunehmen. ML-Schätzungen für das Modell 1

(1 - φΒ)(1 - ΦΒ12)(1 - B12)Yt = (1 - 1 angepasst wurde, so ergibt die Rücktransformation (zum Differenzenbilden) Prognosen für die ursprüngliche Zeitreihe. Die Prognoseintervalle öffnen sich dann mit zunehmendem Prognosehorizont. Es können aber auch einfach geeignete Verallgemeinerungen von (3.42) und (3.43) ausgenutzt werden, um die Prognosen und Prognoseintervalle direkt zu bestimmen.

Beispiel 3.19 Die Erstellung einer Prognose mit einem ARIMA-Modell soll anhand einer Zeitreihe von monatlichen Verkäufen eines Unternehmens, siehe Newton (1988), dargestellt werden. Zunächst weist die Reihe VERKÄUFE (vgl. Abbildung 3.13) einen

Abbildung 3.13: VERKÄUFE mit Prognosen und 95% Prognoseintervallen

Trend und eine Saison auf. Die Ausschläge werden dabei mit ansteigendem Niveau größer. Um die Varianz zu stabilisieren, wird also im ersten Schritt ein Box-Cox-Diagramm gezeichnet. Abbildung 3.14: Box-Cox Diagramm für die Reihe VERKÄUFE Slope

of

regression

line.

ln(meon(y.))

0.89

76

KAPITEL

3. LINEARE

ZEITREIHENMODELLE

Das Box-Cox-Diagramm führt auf die Transformation Υ®Λ. Die Methode der variaten Differenzen, angewendet auf die Reihe y°A, ergibt die Tabelle 3.2. Sie legt die einmalige Anwendung des saisonalen Differenzenoperators 1 — B 1 2 nahe. (Man könnte auch noch die zusätzliche einfache Differenzenbildung in Betracht ziehen, da sich die beiden Varianzverhältnisse nur wenig unterscheiden.) Die Werte von Tabelle 3.2: Tabelle der Varianz-Verhältnisse D = 0 d d d d

D=

1

D = 2

£> = 3

= 0 1.0000 0.0980 0.2550 0.7867 = 1 0.2076 0.1140 0.3056 0.8335 — 2 0.2726 0.3564 0.9774 2.7197 = 3 0.8518 1.2445 3.3257 9.2174

ACF und PACF der differenzierten Reihe deuten nun auf ein AR[2]-Modell hin. Bei der Schätzung und der anschließenden Residuenanalyse erweist sich jedoch Abbildung 3.15: ACF und PACF für zt = (1 -

Bl2)y°·1

RACF (with Confidence bounds)

i3

die zunächst nur geringfügig erscheinende Erhöhung der PACF bei einem Lag von 7 als relevant. Daher wird ein Subset-AR-Modell der Form Zt — a\Zt_i — ol^Z^ — a z Z t - i = e t angepasst. Auch dieses ist noch nicht zufrieden stellend. Nunmehr sind beim Lag 11 ACF und PACF erhöht. Dass beim darauffolgenden Lag 12 die ACF betragsmäßig kleiner ist als die PACF führt zur Aufnahme eines MA-Terms. Das schließlich angepasste Modell lautet: Zt - 0.2532 Zt-i - 0.5522 Z t _ 2 + 0.2945 Zt.7 = et + 0.5171 e t _n (0.0017)

(0.0017)

(0.0012)

(0.0021)

In den Klammern unterhalb der Koeffizienten sind die Standardfehler angegeben. Sie sind alle so klein, dass die Relevanz der Koeffizienten schon daraus deutlich wird. Der Box-Pierce-Ljung-Test zeigt keine Korrelationen bei den Residuen mehr an. Bei m = 6 ist der P-Wert 0.2618, bei m = 12 ist er 0.3744.

6. HINWEISE

ZU LITERATUR

UND

SOFTWARE

77

Für die Prognose bis zu 24 Monate in die Zukunft wird nun das geschätzte Modell eingesetzt. Um die Prognosen auf der ursprünglichen Skala zu haben, werden die Prognosen wie auch die Werte der unteren und oberen Grenzen der Prognoseintervalle in die 10te Potenz erhoben. Damit ist dann die Erstellung der Prognose abgeschlossen. •

6

Hinweise zu Literatur und Software

Zur Literatur Die Beweise der in diesem Kapitel zitierten Sätze finden sich bei Schlittgen & Streitberg (1999), Box & Jenkins (1976), Brockwell k Davis (1987) bzw. Fuller (1996). Diese Bücher sind etablierte Texte zur Zeitreihenanalyse. Dabei ist das Buch von Box L· Jenkins der -immer noch lesenswerte- Klassiker; das von Brockwell und Davis ist am anspruchvollsten. Dieses Lehrbuch enthält auch eine ausführliche Darstellung des Innovationsalgorithmus. Als neueres Lehrbuch sei auf Shumway & Stoffer (2000) hingewiesen. Hier findet man vieles zu neueren Entwicklungen, die zum Teil in den folgenden Kapiteln angesprochen werden. Die Schätzung von AR-Modellen mit dem Burg-Algorithmus ist zuerst bei Burg (1975) beschrieben. Eine weitere Textstelle dazu ist Ulrich & Ooe (1979). Zum Bootstrap-Verfahren, das von Efron (1979) eingeführt wurde, sei auf Davison & Hinkley (1997) sowie auf Politis, Romano & Wolf (1999) hingewiesen. Choi (1992) gibt einen Überblick über die verschiedenen Ansätze zur Identifikation von ARMA-Modellen. Dort wird auch auf die von Tsay & Tiao (1984) eingeführte ESACF eingegangen. Die Vektorkorrelationen werden bei Paparoditis & Streitberg (1991) behandelt. Eine Beschreibung der wichtigsten Eigenschaften findet sich auch in Schlittgen & Streitberg (1999). Zeitreihenzerlegungen auf der Basis von ARIMA-Modellen wurden mehrfach betrachtet. Eine Literaturstelle ist Cleveland & Tiao (1976), die für das CENSUSVerfahren ein entsprechendes ARIMA-Modell gefunden haben. Den Ansatz voll ausgebaut zu haben ist das Verdienst von Nerlove, Grether & Carvalho (1979). Weiterentwicklungen stellen die Arbeiten aus dem Kreis von Gomez & Maravall dar; hierzu sei auf Pena et al. (2001) verwiesen. Zur Prognose, nicht nur mit ARIMA-Modellen, ist das Buch von Granger & Newbold (1986) sehr empfehlenswert. Unit-Root-Tests werden in allen neueren Büchern zur Zeitreihenökonometie behandelt. Zwei Bücher dazu sind Dhrymes (1998) und Hatanaka (1996).

78

KAPITEL 3. LINEARE

ZEITREIHENMODELLE

Zur Software Statistik- und Ökonometrieprogramme ARIMA-Modelle sind so fest etabliert, dass jedes umfassendere Statistik- und Ökonometrie-Paket eine entsprechende Prozedur enthält. Die Ausgestaltung der Prozeduren zur Anpassung und Schätzung von ARIMA-Modellen ist im Detail jedoch durchaus unterschiedlich. Das fängt schon bei der Bestimmung der ACF und der PACF an. Bei der ACF werden teilweise nicht die Bartlett-Grenzen dargestellt, sondern die Grenzen, die sich bei einem White-Noise-Prozess ergeben. Das sind die Werte ±2/y/N. Dies macht vor allem Sinn bei der Betrachtung von Residualreihen. Bei SPSS werden die Grenzen für höhere Lags bei einigen Beispielen enger. Was bei diesem Programm angezeigt wird, konnte nicht ermittelt werden. SAS gibt standardmäßig die ACF, IACF und PACF in der Form von 'Quasi- Grafiken' aus, die aus den Frühzeiten der EDV mit alten Druckern stammen. Dafür gibt es in SAS auch eine Option für die Berechnung der ESACF. Die Unterschiedlichkeit der Ausgestaltung im Detail betrifft weiter die implementierten Algorithmen sowie die Spezifizierungsmöglichkeiten bzgl. der Parameter. Die Möglichkeit, SARIMA-Modelle zu schätzen, ist in allen drei Statistik-Paketen SAS, SPSS und Statistica gegeben. Jedoch erlaubt von diesen nur SAS, bestimmte Parameter auf Null zu setzen. Das Methodenspektrum zur Schätzung der ARMAModelle bzw. von AR-Modellen ist bei SAS ebenfalls am größten. Auch wenn saisonale ARIMA-Modelle mit auf Null gesetzten Parametern in Ε Views leicht geschätzt werden können, ist das Programmpaket für den Zeitreihenanalytiker nicht ganz zufrieden stellend. Denn nach der PACF oder anderen Wekzeugen zur Identifikation von ARIMA-Modellen sucht man bei Ε Views vergebens. Spezielle Zeitreihenprogramme Ihrer Bedeutung entsprechend können ARMA-Modellene mit ASTSA, ITSM und TIMESLAB geschätzt und prognostiziert werden. TRAMO/SEATS basiert auf der Zerlegung von Zeitreihen in verschiedene, die einzelnen Komponenten erfassenden ARIMA-Modelle. GAUSS Das Modul TIME SERIES erlaubt die Identifikation, die Schätzung und die Diagnose von ARMA-Modellen sowie die Prognose mit den geschätzten Modellen. Allerdings sind die Modelle eingegrenzt auf nicht-saisonale. Die Schätzung von Subset-Modellen ist seit der Version 4.0 möglich; Unit Root-Tests sind ebenfalls seit dieser Version enthalten.

6. HINWEISE

ZU LITERATUR

UND

SOFTWARE

79

Mit dem Modul TSM können ebenfalls ARMA-Modelle geschätzt und prognostiziert werden. TSAGAUSS hat verschiedene Prozeduren zur Schätzung und Prognose von ARIMAProzessen. Dabei sind auch saisonale Modelle zugelassen, bei denen einzelne Koeffizienten auf Null gesetzt sind. Es gibt eine Prozedur, ein geeignetes subsetautoregressives Modell zu bestimmen. Speziell stehen die Vektorkorrelationen zur Verfügung.

Literaturverzeichnis Box, G.E.P. and Jenkins, G.M. (1976). Time Series Analysis, Control, 2nd ed.. San Francisco: Holden Day.

Forecasting

Brockwell, P. J. and Davis, R.A. (1987). Time Series Analysis, thods. Berlin: Springer.

Theory and Me-

Burg, J. P. (1975). Maximum University, Palo Alto, CA. Choi, B. (1992). ARMA

entropy spectral analysis.

Model Identification.

and

Ph.D. Thesis, Stanford

Berlin: Springer.

Cleveland, W.P. and Tiao, W.P. (1976). Decomposition of seasonal time series: a model for the Census X - l l Program. Journal of the American Statistical Association 71, 581-587. Davison, A.C. and Hinkley, D.V. (1997). Bootstrap Methods and their Cambridge: Cambridge University Press. Dhrymes, P. (1998). Time Series, Academic Press.

Unit Roots,

and Cointegration.

Application. San Diego:

Efron, B. (1979). Bootstrap methods: Another look at the jackknife. The of Statistics, 7, 1-26. Fuller, W.A. (1996). Introduction Wiley.

to Statistical

Time Series, 2nd ed.. New York:

Granger, C.W.J, and Newbold, P. (1986). Forecasting Economic Diego: Academic Press. Hatanake, M. (1996). Time-Series-Based-Econometrics. sity Press.

Time Series. San

Oxford: Oxford Univer-

Nerlove, M., Grether, D.M. and Carvalho, J.L. (1979). Analysis Time Series. New York: Academic Press. Newton, H.J. (1988). TIMESLAB: Wadsworth & Brooks/Cole.

Annals

of

Economic

A Time Series Laboratory. Pacific Grove, CA:

Paparoditis, E. and Streitberg, Β.J.Η. (1991). Order identification statistics in stationary autoregressive-moving-average-models; vector autocorrelations and the bootstrap. Journal of Time Series Analysis 13, 415-434.

80

KAPITEL

3. LINEARE

ZEITREIHENMODELLE

Pena, D., Tiao, G. C, and Tsay, R.S. (2001). A Course in Time Series New York: Wiley. Politis, D.N., Romano, J.P. and Wolf, M. (1999). Subsampling. Schlittgen, R. und Streitberg, B.H.J. (1999). Zeitreihenanalyse, chen: R. Oldenbourg Verlag.

Analysis.

Berlin: Springer. 9te Auflage. Mün-

Shumway, R.H. and Stoffer, D.S. (2000). Time Series Analysis and Its ons. Berlin Springer. Timmer, J. (1998). Modeling noisy time series: Physiological tremor. Journal of Bifurcation and Chaos 8, 1505-1516.

Applicati-

International

Tsay, R.S. and Tiao , G.C. (1984). Consistent estimates of autoregressive parameters an extended sample autocorrelation function for stationary and nonstationary ARIMA models. Journal of the American Statistical Association 79, 84-96. Ulrich, T.J. and Ooe, M. (1979). Autoregressive and Mixed Autoregressive-Moving Average Models and Spectra, in: Haykin, S. (ed.): Nonlinear Methods of Spectral Analysis, pp.73-125 Berlin: Springer. Van Winkel, E.G.F. (1982). Interpretation of Time Series Models: A Simplified Model for the Census X-ll Program in: O.D. Anderson (ed.): Time Series Analysis, Theory and Practice 1. Amsterdam: North Holland. Waldhoer, T. Schober, Ε. and Tuomilehto, J. (1997). Long-term patterns in seasonality of insulin-dependent diabetes mellitus in Austrian children. Journal of Clinical Epidemiology 50, 159-165.

Kapitel 4 Periodizitäten in Zeitreihen 1

Periodizitäten

Viele empirische Zeitreihen weisen in offensichtlicher Weise ein "wiederkehrendes Muster" auf. Bei anderen Reihen sind solche Muster auf den ersten Blick nicht zu erkennen. Dennoch stellt sich bisweilen die Frage, ob und gegebenenfalls welche Zyklen auch in solch einer Reihe vorhanden sind. Hier werden nun Ansätze zur Entdeckung und Beschreibung von Zyklen in Zeitreihen sowie der zugehörige modellmäßige Rahmen behandelt. Beispiel 4.1 Die in Abbildung 2.4 dargestellte Zeitreihe LUCHS der logarithmierten Anzahlen von jährlichen Verkäufen von Luchspelzen weist ein relativ zyklisches Verhalten auf. Die Gipfelpunkte sind alle in etwa gleich weit voneinander entfernt. Der Abstand beträgt ca. 9.5 Jahre. • Beispiel 4.2 Die über einen Tag im Stundentakt fotografierte Sonne am Polarkreis bei gleichzeitiger Drehung der Aufnahmerichtung um jeweils 15° zeigt den Tageszyklus des Sonnenstandes. • Die Dauer eines Zyklus in einer Zeitreihe wird als Periode bezeichnet. Formal heißt eine Funktionen / periodisch mit der Periode P , wenn sie die Beziehung f{t + P) = f{t),

(-ooctcoo)

erfüllt. Alternativ kann das zyklische Verhalten auch durch die Frequenz, den Kehrwert der Periode, beschrieben werden. Die Frequenz gibt an, welcher Teil des Zyklus pro Zeiteinheit vergangen ist. Wichtige periodische Funktionen sind die Sinus- und Cosinusfunktion. Sie sind zunächst einmal periodisch mit der Periode 2π. Nach Umrunden des Einheitskreises, der gerade den Umfang 2π hat, starten sie wieder am Ausgangspunkt: sin(i + 2π) = sin(i),

cos(i + 2π) = cos (t).

82

KAPITEL 4. PERIODIZITÄTEN

IN

ZEITREIHEN

Durch den Übergang t —• 2πί erhält man dann Funktionen, die periodisch sind mit der Periode 1. Andere Perioden Ρ lassen sich durch Einfügen der zugehörigen Frequenz X=l/P erreichen; das führt von dem Argument t zu dem Argument 2tτλί. Abbildung 4.1: Sinuskurven

Jede Funktion f(t), die periodisch ist mit der Periode P/k,k = 1 , 2 , . . . , ist auch periodisch mit der Periode P\ f{t + P) = f(t)

mit A = 1,2,.

Die Frequenzen 2Λ, 3Λ, 4Λ,..., die zu den Perioden P/k gehören, werden als Oberschwingungen von Λ bezeichnet. Λ heißt auch Fundamentalfrequenz der Folge Λ, 2Λ, 3λ, Linearkombinationen oder, wie man auch sagt, Uberlagerungen von Sinus- und Cosinuswellen mit gleichen Perioden sind wieder periodisch. Solche Überlagerungen werden als harmonische Wellen bezeichnet. Jede periodische Funktion lässt sich als Überlagerung harmonischer Wellen mit dieser Periode und ihren Oberschwingungen darstellen. Beispiel 4.3 Die Sägezahnfunktion t - An für 4n < t < 4n + 3 f(t) =

(n = 0 , 1 , . . . )

— h(t — 4n) + 12 für 4n + 3 < t < 4n + 4

weist eine Periode von 4 auf. Um diese Funktion als Überlagerung harmonischer Wellen zu beschreiben, sind Sinus- und Cosinusfunktionen sm(2iT\t), cos(27rAi) mit A = 1/4,1/2, 3 / 4 , 1 , 5 / 4 , . . . zu verwenden. •

2

Periodische Trends

Das einfachste Modell, in dem eine Periodizität bei einer Zeitreihe berücksichtigt wird, ist das eines periodischen Trends, bei dem die Frequenz Α bekannt ist, und bei dem die Störungen et einen White-Noise-Prozess mit E(«