Deskriptive Statistik: Mit einer Einführung in das Programm SPSS [4., erweiterte und überarbeitete Auflage. Reprint 2018] 9783486807264, 9783486256543

Auf das Wesentliche konzentriert.

238 30 32MB

German Pages 319 [320] Year 2001

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort zur vierten Auflage
INHALTSÜBERSICHT
0. Allgemeiner Teil
1. Darstellung eindimensionaler empirischer Verteilungen
2. Analyse mehrdimensionaler empirischer Verteilungen
3 Zeitreihenanalyse
4 Verhältniszahlen, insbesondere Indizes
5 Schlußbemerkungen
6 PC-gestützte Datenanalyse mit SPSS
Weiterführende Literatur
Recommend Papers

Deskriptive Statistik: Mit einer Einführung in das Programm SPSS [4., erweiterte und überarbeitete Auflage. Reprint 2018]
 9783486807264, 9783486256543

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Deskriptive Statistik mit einer Einführung in das Programm SPSS

Von

Professor Dr. Heinz-Jürgen Pinnekamp und

Professor Dr. M. Frank Siegmann

4., erweiterte und überarbeitete Auflage

R.01denbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Pinnekamp, Heinz-Jürgen: Deskriptive Statistik : mit einer Einführung in das Programm SPSS / von Heinz-Jürgen Pinnekamp und Frank Siegmann. - 4., erw. und Überarb. Aufl.. - München ; Wien : Oldenbourg, 2001 ISBN 3-486-25654-8

© 2001 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-25654-8

Vorwort zur vierten Auflage Im Vorwort zur 1. Auflage dieser Einführung in die Deskriptive Statistik haben wir auf die Diskrepanz zwischen den Erwartungen der Praxis an die Statistikkenntnisse der Absolventen von Hochschulen und der Dominanz der Schließenden Statistik in der Lehre hingewiesen. Diese Situation hat sich geändert. In der Lehrbuchliteratur überwiegen inzwischen die Titel zur Beschreibenden und Explorativen Statistik. Als zukünftige Führungskräfte werden Studierende zunehmend mit dem Thema Datenanalyse konfrontiert. Gleich ob in der Marktforschung, dem Vertrieb, dem Personal- oder Rechnungswesen; statistische Kenntnisse sind die unerläßliche Voraussetzung, um aussagekräftige Entscheidungsalternativen klar zu formulieren und verständlich darzustellen. Die vorliegende Einführung zeigt deshalb neben der Darstellung der Methoden der Deskriptiven Statistik, wie diese in der konkreten Entscheidungssituation sinnvoll angewendet werden können. Die methodischen Ausführungen werden durch zahlreiche Beispiele ergänzt; anhand der Übungsaufgaben kann der Leser die Verfahren und Probleme selbst nachvollziehen und einüben. Die bewußt einfach gehaltenen Beispiele sollen dazu anregen, die in dieser Einführung dargestellten methodischen Ansätze über die eigene Anwendung zu begreifen. Hierzu muß auch im Zeitalter weitreichender EDV-Unterstützung zunächst einmal selber gerechnet und trainiert werden. Den gesamten Text dieser 4. Auflage haben wir überarbeitet und aktualisiert; gänzlich neu ist beispielsweise das abschließende, die Handhabung eines PC-Statistiksystems erläuternde Kapitel. Hier haben wir uns der Marktentwicklung angepaßt. Die Lösimg der in dieser Einführung benutzten Übungsaufgaben erfolgt jetzt mit SPSS. Außerdem wurde z.B. die Auswertung von Rangkorrelationstabellen um den Gamma-Koeffizienten erweitert und das vierte Kapitel um Ausführungen zur Erwerbslosenquote ergänzt. Die formale Umsetzung leistete diesmal Herr Oliver Burghardt, für dessen Unterstützung wir uns auf diesem Wege nochmals herzlich bedanken.

Heinz-Jürgen Pinnekamp Frank Siegmann

INHALTSÜBERSICHT 0 ALLGEMEINER TEIL 0.1 0.2 0.3 0.4 0.5

DAS ZIEL DER STATISTIK DIE STATISTISCHEN METHODEN IM ÜBERBLICK EINIGE STATISTISCHE GRUNDBEGRIFFE SKALENTYPEN ZUR GLAUBWÜRDIGKEIT DER STATISTIK

1 1 3 5 12 17

1 DARSTELLUNG EINDIMENSIONALER EMPIRISCHER VERTEILUNGEN

23

1.0 1.1 1.2 1.3

23 23 37 51

EINFÜHRUNG DIE TABELLARISCHE DARSTELLUNG DIE GRAPHISCHE DARSTELLUNG DIE PARAMETRISCHE DARSTELLUNG

2 ANALYSE MEHRDIMENSIONALER EMPIRISCHER VERTEILUNGEN

101

2.0 2.1 2.2

101 109 133

EINFÜHRUNG KORRELATIONSRECHNUNG REGRESSIONSANALYSE

3 ZEITREIHENANALYSE

154

3.0 3.1 3.2 3.3 3.4

EINFÜHRUNG EIN TRADITIONELLES VERFAHREN PROFESSIONELLE VERFAHREN PROBLEMBEREICHE DER ZEITREIHENANALYSE PROGNOSEN AUF DER BASIS VON ZEITREIHEN

154 165 194 226 229

4 VERHÄLTNISZAHLEN, INSBESONDERE INDIZES

231

4.0 4.1 4.2

EINFÜHRUNG GLIEDERUNGSZAHLEN BEZIEHUNGSZAHLEN

231 232 237

4.3 4.4

MEBZAHLEN BZW. EINFACHE INDIZES KONSTRUKTION UND AUSSAGE GLOBALER INDIZES

239 247

5 SCHLUßBEMERKUNGEN

266

6 PC-GESTÜTZTE DATENANALYSE MIT SPSS

268

6.0 6.1 6.2

268

EINFÜHRUNG ERFASSUNG UND AUFBEREITUNG VON DATENSÄTZEN STATISTISCHE ANALYSEN

270 277

INHALTSVERZEICHNIS VORWORT

V

INHALTSÜBERSICHT

0

ALLGEMEINERTEIL

VII

1

0.1

D A S ZIEL DER STATISTIK

1

0.2

D I E STATISTISCHEN METHODEN IM ÜBERBLICK

3

0.3

EINIGE STATISTISCHE GRUNDBEGRIFFE

0.4

SKALENTYPEN

12

0.5

ZUR GLAUBWÜRDIGKEIT DER STATISTIK

17

1

DARSTELLUNG EINDIMENSIONALER EMPIRISCHER VERTEILUNGEN

1.0

EINFÜHRUNG

1.1

D I E TABELLARISCHE DARSTELLUNG

1.1.1

5

23

23 23

URLISTE UND HÄUFIGKEITSTABELLE

23

1.1.2

VERTEILUNGSFUNKTIONEN

26

1.1.3

GRUPPIERTE DATEN

30

1.1.4

TABELLENAUFBAU UND SYMBOLIK

35

1.2

D I E GRAPHISCHE DARSTELLUNG

37

1.2.1

DARSTELLUNG NOMINAL SKALIERTER MERKMALE

39

1.2.2

DARSTELLUNG ORDINAL SKALIERTER MERKMALE

40

1.2.3

DARSTELLUNG KARDINAL SKALIERTER MERKMALE

42

1.2.4

DARSTELLUNG GRUPPIERTER WERTE

48

1.3

D I E PARAMETRISCHE DARSTELLUNG

1.3.1

1.3.1.1 1.3.1.2 1.3.1.3 1.3.1.3.1 1.3.1.3.2 1.3.1.3.3 1.3.1.4 1.3.2

1.3.2.1 1.3.2.2 1.3.2.3 1.3.2.4 1.3.3

1.3.3.1 1.3.3.2 1.3.4

1.3.4.1 1.3.4.2

LAGEPARAMETER

Lageparameter nominal skalierter Merkmale Lageparameter ordinal skalierter Merkmale Lageparameter kardinal skalierter Merkmale Das arithmetische Mittel Das harmonische Mittel Das geometrische Mittel Zur Konkurrenz unterschiedlicher Mittelwertkonstruktionen

51 52

54 55 58 58 61 65 67

STREUUNGSPARAMETER KARDINAL SKALIERTER MERKMALE

69

Die Spannweite Der Quartilsabstand Die durchschnittliche absolute Abweichung Varianz, Standardabweichung und Variationskoeffizient

69 70 71 73

FORMMAßZAHLEN

Symmetriemaßzahlen Maßzahlen der Wölbung KONZENTRATIONSMAßE

Graphische Darstellung der Konzentration Maßzahlen der Konzentration

79

81 85 88

89 93

X 2

Inhaltsverzeichnis ANALYSE MEHRDIMENSIONALER EMPIRISCHER VERTEILUNGEN

101

2.0

EINFÜHRUNG

101

2.1

KORRELATIONSRECHNUNG

109

2.1.0

EINFÜHRUNG

2.1.1

AUSWERTUNG VON KONTINGENZTAFELN

110

2.1.2

AUSWERTUNG VON RANGKORRELATIONSTABELLEN

115

2.1.2.1

FECHNER RANGKORRELATIONSKOEFFIZIENT

109

115

2.1.2.2.

G A M M A KOEFFIZIENT

118

2.1.2.3

SPEARMAN'SCHE RANGKORRELATIONSKOEFFIZIENT

122

2.1.3

AUSWERTUNG VON KORRELATIONSTABELLEN

124

2.1.3.1

DER FECHNERSCHE KORRELATIONSKOEFFIZIENT

2.1.3.2

DIE KOVARIANZ

126

2.1.3.3

DER PRODUKTMOMENT KORRELATIONSKOEFFIZIENT

129

2.2

REGRESSIONSANALYSE

124

133

2.2.0

EINFÜHRUNG

2.2.1

FACHBEZOGENE HYPOTHESE EINES MÖGLICHEN ZUSAMMENHANGS

133 134

2.2.2

SPEZIFIKATION DER REGRESSIONSFUNKTION

136

2.2.3

SCHÄTZUNG DER PARAMETER

137

2.2.4

ANALYSE DER RESIDUEN

143

2.2.5

NEUSPEZIFIKATION DES ANSATZES

145

2.2.6

PROGNOSE

147

2.2.7

D A S BESTIMMTHEITSMAß

147

2.2.8

REGRESSION UND KORRELATION VON ZEITREIHEN

150

3

ZEITREIHENANALYSE

3.0

EINFÜHRUNG

154

154

3.0.1

AGGREGATION VON W E R T E N

3.0.2

Z U R ZIELSETZUNG DER ZEITREIHENANALYSE

159

3.0.3

METHODISCHE GRUNDLAGEN

160

3.0.4 3.1

ADDITIVE UND MULTIPLIKATIVE VERKNÜPFUNG E I N TRADITIONELLES VERFAHREN

157

162 165

3.1.1

VERFAHREN ZUR TRENDBESTIMMUNG

3.1.2

BERECHNUNG DER KONJUNKTURKOMPONENTE

179

3.1.3

BERECHNUNG DER SAISONKOMPONENTE

183

3.1.4

BERECHNUNG DER RESTKOMPONENTE

184

3.1.5

ZUSAMMENFASSUNG DER KOMPONENTEN

185

3.1.6

SCHÄTZUNG DER SAISONBEREINIGTEN W E R T E

188

3.1.7

HINWEISE AUF SONSTIGE TRADITIONELLE ANSÄTZE

3.2 3.2.1 3.2.1.1 3.2.1.2 3.2.2

PROFESSIONELLE VERFAHREN KLASSISCHE VERFAHREN DAS BUNDESBANKVERFAHREN DAS CENSUS-VERFAHREN FOURIERANSÄTZE

165

192 194 195 195 202 204

3.2.2.1

DIE HARMONISCHE ANALYSE

205

3.2.2.2

DIE SPEKTRALANALYSE

216

3.2.3

GEMISCHTE VERFAHREN

3.2.3.1

DAS A S A I I - 2

3.2.3.2

A S A III UND BERLINER VERFAHREN

222 223 224

3.3

PROBLEMBEREICHE DER ZEITREIHENANALYSE

226

3.4

PROGNOSEN AUF DER BASIS VON ZEITREIHEN

229

Inhaltsverzeichnis 4

VERHÄLTNISZAHLEN, INSBESONDERE INDIZES

XI 231

4.0

EINFÜHRUNG

231

4.1

GLIEDERUNGSZAHLEN

232

4.2

BEZIEHUNGSZAHLEN

237

4.3

MEBZAHLEN BZW. EINFACHE INDIZES

4.3.1 4.3.2 4.4

BERECHNUNG UMBASIERUNG UND VERKETTUNG KONSTRUKTION UND AUSSAGE GLOBALER INDIZES

239 239 242 247

4.4.1

GRUNDGEDANKEN UND SYMBOLIK

247

4.4.2

PREIS-INDEXTYPEN UND -SCHEMATA

252

4.4.2.1

DAS UNGEWOGENE ARITHMETISCHE MITTEL EINFACHER PREISMEßZIFFERN

252

4.4.2.2

DER LASPEYRES-PREISINDEX

254

4.4.2.3

DER PAASCHE-PREISINDEX

256

4.4.2.4

DER LOWE-PREISINDEX

258

EINIGE SONDERFORMEN

259

4.4.2.5 4.4.3

MENGEN- UND VOLUMENINDIZES

260

4.4.4

EINIGE PROBLEME DER AMTLICHEN PREISSTATISTIK

262

5

SCHLUßBEMERKUNGEN

266

6

PC-GESTÜTZTE DATENANALYSE MIT SPSS

268

6.0

EINFÜHRUNG

6.1

ERFASSUNG UND AUFBEREITUNG VON DATENSÄTZEN

268 270

6.2

STATISTISCHE ANALYSEN

277

WEITERFÜHRENDE LITERATUR

302

STICHWORTVERZEICHNIS

303

0

Allgemeiner Teil

0.1 Das Ziel der Statistik Informationssysteme wie z.B. das Rechnungswesen der Unternehmung, die betriebliche Marktforschung oder die amtliche Statistik haben zunächst die Aufgabe, den Benutzer über vergangene Tatbestände und Entwicklungen zu unterrichten. Darüber hinaus erwartet er Informationen, die es ihm erlauben, Konsequenzen von Maßnahmen abzuschätzen, die erst zur Entscheidung anstehen. Die Abgrenzung relevanter Informationen setzt Vorstellungen über die Wirkungszusammenhänge in der realen Umwelt, d.h. das Vorhandensein einer Theorie voraus. Die Güte erhobener und aufbereiteter Daten wird also in erster Linie von der Güte und Relevanz der Fragestellung bestimmt. Die Verantwortung hierfür trägt die jeweilige Fachdisziplin (Medizin, Technik, Wirtschafts- und Sozialwissenschaften etc.). Ist diese Voraussetzung erfüllt, bleibt die Aufgabe, die von der jeweiligen Theorie benutzten Begriffe (z.B. „die Kaufkraft") in ein operationales meßfähiges Konzept zu übertragen und bereits vorhandene Datenbestände nach korrespondierenden Größen zu durchsuchen (z.B. Volkseinkommen, Verfügbares Einkommen usw.). Nun lehrt die Praxis, daß ein Datenlieferant dazu neigt, die Qualität der Information durch Quantität zu kompensieren: Der Benutzer eines Informationssystems wird mit einer Datenfülle konfrontiert, deren Gehalt von ihm im allgemeinen nicht unmittelbar zu überblicken ist. In dieser Situation stellt sich die Aufgabe, die Fülle der Informationen einzuengen, handhabbar zu machen; Komplexität muß reduziert werden. Aufgabe der statistischen Methodenlehre ist es daher, allgemeine Grundsätze und Regeln zu formulieren, die es den jeweiligen Fachvertretern (Technikern, Medizinern,

Soziologen,

Ökonomen

etc.)

erlauben,

Datensätze

so

zu

komprimieren und darzustellen, daß sie überschaubar werden. Im

Mittelpunkt

dieser

Einführung

stehen

Verfahren

zur

Datenreduktion,

die

im

wirtschaftswissenschaftlichen Bereich zur Anwendung kommen. Dieser erste allgemeine Teil vermittelt grundlegende Begriffe der statistischen Methodenlehre. Wir sprechen über die eingesetzten Methoden und informieren den Leser über den Aufbau dieser Einführung in die deskriptive Statistik; wir enden mit einigen kritischen Anmerkungen, die den Leser für statistische Aussagen sensibilisieren sollen.

2

0 Allgemeiner Teil

Wenn man behauptet, der durchschnittliche Deutsche konsumiere im Jahr 159 Liter Kaffee, so wird diese Aussage gerne bewußt mißverstanden. Natürlich wird man nur wenige finden, die tatsächlich genau 159 Liter pro Jahr trinken; Teefreunde werden gar behaupten, ihnen ordne man unzulässigerweise Kaffeekonsum zu. Angegeben werden soll lediglich eine Größe, die eine gewisse Vorstellung von der Menge vermittelt und unter Umständen Vergleiche ermöglicht. Man versucht wieder, Datenmaterial zu verdichten. Das erste Kapitel beschäftigt sich mit solchen sogenannten eindimensionalen Verteilungen. Eindimensional sind Verteilungen dann, wenn wir es nur mit einer Größe zu tun haben, z.B. dem Alter, dem Geschlecht, dem Notendurchschnitt der Teilnehmer eines Kurses oder eben deren Kaffeekonsum. Das zweite Kapitel behandelt (sinnvolle) Abhängigkeiten zwischen zwei eindimensionalen Verteilungen. Hat beispielsweise das Alter einen Einfluß auf den Notendurchschnitt der Teilnehmer? Und wenn ja, welchen? Die beiden folgenden Abbildungen vermitteln den Eindruck, daß die Gewinne bzw. die CO2Konzentration in der Atmosphäre ohne Grenzen steigen werden. Sicher kann die Entwicklung nicht einfach so fortgeschrieben werden. Wir werden im dritten Kapitel solche Größen im Zeitablauf betrachten. 600 550 500 450 «00 350

/

J

/ /

250 J98S 86 8? 88 8!) 90 91 9.2 93 9Λ 95 9f. 97

4P ^ f f i r x Tvtf>

Der Witz: „Nein, Herr Müller, mit 90 Jahren können sie keine Lebensversicherung mehr abschließen." - „Das verstehe ich nicht. In diesem Alter sterben statistisch doch die wenigsten Menschen!" enthält natürlich eine gewisse Weisheit. In Wirklichkeit ist aber die Zahl der Todesfälle im Alter von 90 Jahren auf die Zahl der lebenden 90jährigen zu beziehen. Mit solchen Fragen der korrekten Beziehung verschiedener Größen zueinander beschäftigen wir uns im letzten Kapitel. Immer ist die Basis der Erhebung von zentraler Bedeutung. Ein achter Platz ist gut bei der Teilnahme am New York Marathon, schlecht bei der Hallenstadtmeisterschaft im Fußball. Daß Formel-1 Rennfahrer selten auf öffentlichen Straßen oder bei niedrigen Geschwindigkeiten verunglücken, erscheint ebenfalls einsichtig. Bei entsprechender Verschleierung der Basis wird das Ergebnis verwässert, es läßt sich nicht mehr korrekt vergleichen.

0.2

Die statistischen Methoden im Überblick

3

0.2 Die statistischen Methoden im Überblick Wir können in der Statistik zwei Hauptrichtungen unterscheiden: • die deskriptive Statistik; eine beschreibende oder empirische Wissenschaft, • die analytische Statistik; eine gesetzesfestlegende theoretische oder Erkenntniswissenschaft. Wenn sich ein Dozent ausschließlich über die Zusammensetzung, also die Struktur der von ihm betreuten Kurse informieren möchte, wird er die Beobachtungswerte mit Hilfe der in den nachfolgenden Kapiteln zu besprechenden Techniken tabellarisch und graphisch darstellen sowie insbesondere statistische Kennziffern berechnen. Sein Ergebnis könnte, auszugsweise, etwa so aussehen: Test: Mathematische Vorkenntnisse im SS 2000 an der Fachhochschule Ostfriesland Kurs 1: 59 Teilnehmer •

Mit 42 Teilnehmern überwiegen die männlichen Kursteilnehmer.



Die Mehrzahl (= 48 Teilnehmer) hat vor Studienbeginn eine berufliche Ausbildung abgeschlossen.



Das „durchschnittliche" Alter der Kursteilnehmer beträgt 21,9 Jahre.



Die mathematischen Vorkenntnisse sind bei den einzelnen Studenten deutlich unterschiedlich ausgeprägt, sie streuen erheblich um den „Durchschnittswert".



Überproportional viele Studenten haben weniger Vorkenntnisse als der Durchschnitt, die Verteilung der Beobachtungswerte selbst verläuft also asymmetrisch.



Die durchschnittliche Abschlußzensur im Fach Mathematik ist bei den männlichen Teilnehmern besser als bei den weiblichen Teilnehmern.



Die durchschnittliche Abschlußzensur aller Teilnehmer hat sich gegenüber früheren Kursen verbessert.

Werden die Daten etwa im Rahmen eines mehrere Hochschulen umfassenden Programms erhoben, um daraus Aussagen über das „soziodemographische Profil von Studienanfängern, ihre Einstellung zum Studienfach und Studienort" zu formulieren, reicht die für die deskriptive Statistik typische Technik des Zählens und Messens nicht aus: Schon weil sich eine Vollerhebung aus Kostengründen verbietet, wäre der Statistiker darauf angewiesen, aus der Beobachtung einer (Zufalls-) Stichprobe vom Umfang η auf die Situation in einer Grundgesamtheit vom Umfang Ν zu schließen (analytische Statistik).

4

0 Allgemeiner Teil

Grundaufgaben der Statistik Ν Elemente

η Elemente Auswahl

Auswertung

Interpretation d. Ergebnisse

(= 1. Phase) Stichprobe Rückschluß (= 2. Phase) Grundgesamtheit

Fragen aus der analytischen (bzw. schließenden) Statistik können sein: •

Die Auswertung von η = 59 Meßwerten liefert ein Durchschnittsalter von 20,9 Jahren; zwischen welchen Grenzen liegt mit einer Wahrscheinlichkeit von 95 Prozent das Durchschnittsalter aller Ν Studienanfänger im Lande?



Vor der Erhebung mag die Vorstellung existieren, daß sich der Anteil weiblicher Studienanfänger in wirtschaftswissenschaftlichen Studiengängen nicht von dem in sozialwissenschaftlichen Studiengängen unterscheidet. Es stellt sich die Frage, ob aufgrund der aktuellen Befragung diese Hypothese aufrechterhalten werden kann oder ob sie zu verwerfen ist.

Insofern

kann

die

Unterscheidung

beider

Grundrichtungen

aus

dem

jeweiligen

Untersuchungs-gegenstand und dem Untersuchungsziel abgeleitet werden. Untersuchungsgegenstand und -ziel der Deskriptiven und Analytischen Statistik Untersuchungsgegenstand

Untersuchungsziel

Deskriptive Statistik

Stichprobe

Beschreibung von Einzelerscheinungen unserer Umwelt

Analytische Statistik

übergeordnete Gesamtheiten

Formulierung allgemeiner Aussagen über Strukturen von übergeordneten Gesamtheiten

0.2

Die statistischen Methoden im Überblick

5

Ein zweites Kriterium unterscheidet zwischen Querschnittsanalysen und Zeitreihenanalysen. •

Querschnittsanalysen

beziehen sich stets auf einen bestimmten Zeitpunkt bzw. eine be-

stimmte Periode, daher werden sie mitunter auch als Zeitpunktanalysen bezeichnet. Angestrebt

werden

Aussagen

Häufigkeitsverteilungen •

über

die

Struktur

empirischer

oder

theoretischer

zu diesem Zeitpunkt.

Zeitreihenanalysen untersuchen die zeitliche Entwicklung von einzelnen Merkmalswerten oder der aus ihnen berechneten statistischen Kennziffern; sie werden daher bisweilen auch als Längsschnitt- oder Zeitraumanalysen bezeichnet. Angestrebt werden Aussagen über die Entwicklung von Strukturen oder die Entwicklung statistischer Merkmale im Zeitablauf.

Die nachfolgende Übersicht verdeutlicht den Aufbau dieser Einfuhrung in die Wirtschaftsstatistik: 1.

Analyse eindimensionaler empirischer Verteilungen,

2.

Analyse mehrdimensionaler empirischer Verteilungen,

3.

Zeitreihenanalyse,

4.

Verhältniszahlen, insbesondere Indizes.

0.3 Einige statistische Grundbegriffe Bevor wir uns einzelnen Methoden zur Auswertung von Datensätzen zuwenden, ist zu klären, wie Erscheinungen unserer Umwelt überhaupt Datencharakter annehmen. Es ist die Frage zu stellen, wie wir die beobachteten Werte erfassen und messen. Hierzu ein Beispiel: Der für das Fach Statistik zuständige Dozent ist naturgemäß daran interessiert, vor Kursbeginn etwas über die Vorkenntnisse der Teilnehmer zu erfahren. Dies deshalb, weil er beabsichtigt, die Form der Darstellung, die Art der Beispiele und auch die Stoffauswahl auf den Teilnehmerkreis abzustimmen. Nach seinen Überlegungen sind derartige Entscheidungen z.B. abhängig von • der mathematischen und • der beruflichen Vorbildung der Studierenden. Um sich einen Überblick über die mathematischen Vorkenntnisse seiner Zuhörer zu verschaffen, bedient sich der Dozent eines Tests, in dem 29 Fragen innerhalb von 60 Minuten zu beantworten sind.

6

0 Allgemeiner Teil

Hier einige Auszüge, jeweils eine Antwort ist richtig. 1.-4. Äußern Sie sich über den Typus der nachfolgenden Zahlen. Handelt es sich zumindest um reelle, irrationale, rationale, ganze und/oder natürliche Zahlen? Zahl

natürlich

ganz

rational

irrational

reell

2,7 e Q - J

2

Bilden Sie die erste Ableitung y' der Funktion y = a + bx 2 . a) y' = 1 + 2bx

c) y' = 2bx

b) y' = a + bx

d) y' = 2b

Bestimmen Sie die Fläche F zwischen der Parabel y = 3x 2 und der x-Achse in den Grenzen von 0 bis 1

7.

29.

a) F = 0,5

c) F = 1,5

b ) F = 1,0

d) F = 2,0

Welche geometrischen Figuren ergeben sich als Kegelschnitte? a) Kreis

c) Kreis, Ellipse, Parabel

b) Kreis, Ellipse

d) Kreis, Ellipse, Parabel, Dreieck

Wo ist in der folgenden Ziffernfolge die Null einzuordnen? 8 3 1 5 9 6 7 4 2 a) nach der 8

c) nach der 9

b) nach der 2

d) nach der 7

Diesen Test läßt unser Dozent regelmäßig in der 1. Sitzung des Statistikkurses bearbeiten. Ein Vorgehen, das nicht ganz unproblematisch ist, denn der Test soll klären, welche Voraussetzungen die Hörer mitbringen, an die sich der Statistikkurs wendet, und das sind in diesem Fall (gemäß Studienverlaufsplan) Studenten des 1. Semesters. Es stellt sich aber die Frage, ob alle in der ersten Sitzung Anwesenden tatsächlich Erstsemester (und nicht Wiederholer) sind und ob tatsächlich alle Erstsemester an dem Test teilnehmen.

0.3

Einige statistische Grundbegriffe

7

Ein zusätzliches Problem soll nicht verschwiegen werden: Es besteht die Möglichkeit, daß die befragten statistischen Objekte bewußt oder unbewußt falsch antworten (z.B. um das Niveau der zu erwartenden Abschlußprüfiing möglichst niedrig zu halten). Dies ist sicherlich nie ganz auszuschließen. Der Statistiker vertraut i.d.R. darauf, daß derartige „Ausreißer" das Ergebnis dann wenig beeinflussen, wenn die Anzahl der erfaßten Objekte hinreichend groß ist. Eine solche statistische Untersuchung ist deshalb sachlich, räumlich und zeitlich genau abzugrenzen; •

Die vorzunehmende sachliche Abgrenzung ist für die Aussage der Statistik von entscheidender Bedeutung. Insbesondere im Hinblick auf u.U. angestrebte Vergleiche mit der Situation an anderen Hochschulen oder zu anderen Zeitpunkten sind die benutzten Identifikationsmerkmale

sorgfältig festzuhalten: Unser Test geht davon aus, daß aus-

schließlich Studienanfänger daran teilnehmen und (z.B. krankheitsbedingte) Datenlücken vor der Auswertung geschlossen werden können. •

Ebenso zu beachten sind die räumliche und zeitliche Abgrenzung der Erhebung: In unserem Fall ist sicherzustellen, daß ausschließlich Studierende der jeweiligen Hochschule eines bestimmten Ortes in die Erhebung eingehen; sonst sind Überschneidungen mit anderen Tests möglich. Schließlich ist festzuhalten, auf welchen Zeitpunkt sich der Test bezieht; Tests zu Beginn des Wintersemesters führen u.U. zu anderen Ergebnissen als zu Beginn des Sommersemesters.

Die einzelnen Studenten können nun als statistische Einheiten und die Gesamtheit der einbezogenen Studenten, die sich hinsichtlich des Untersuchungsmerkmals X: Testergebnis voneinander unterscheiden, als statistische Masse bezeichnet werden. Unser Dozent stützt sich auf einen bestimmten, von Fachexperten entwickelten Test. Ähnlich wie bei beruflichen Eignungstests oder allgemeinen Intelligenztests ist es daher angezeigt, in die Definition des Untersuchungsmerkmals erläuternde Angaben über das benutzte Meßverfahren aufzunehmen. X = Mathematische Vorkenntnisse, gemessen durch den Test... in der Version ... Zur Kennzeichnung des Untersuchungsmerkmals (hier: Testergebnis, Punktzahl) einer statistischen Analyse werden in der deskriptiven Statistik lateinische Großbuchstaben benutzt. Interessiert sich der Statistiker für eine einzelne Beobachtungsgröße, verwendet er hierzu i.d.R. die Größe X.

8

0 Allgemeiner Teil

Die Werte, die ein Merkmal bei den einzelnen statistischen Objekten oder Merkmalsträgern annehmen kann, werden allgemein mit kleinen lateinischen Buchstaben bezeichnet. Zu unserem Merkmal X gehören die Beobachtungswerte b j , b 2 , . . . , b n . Der nachfolgenden Übersicht ist nun zu entnehmen, daß z.B. die statistische Einheit E j (der Student Fritz K.) als Mitglied der statistischen Masse insgesamt 8 Fragen korrekt beantwortet hat (bj = 8 Punkte); sie resultiert aus den Namen und den Punktesummen aller η = 59 Testbögen. 1

η χ 1 Datenvektor (eindimensionale Statistische Einheit Ε | Ε2

Fritz K. Karl Ζ.

Ej

:

E^q

Simone F.

Verteilung)

beobachtete Merkmalsausprägung bzw. Beobachtungswert bj bj = 8 = 6

j = 1,2 η η = Anzahl der einbezogenen Objekte

Vi b« = 2

Entsprechende Übersichten würden sich auch für andere Untersuchungsmerkmale wie z.B. Alter, Geschlecht und Art der beruflichen Vorbildung der Studenten ergeben. Einfacher zu handhaben als eine Vielzahl solcher verschiedenen Übersichten ist eine Datenmatrix, in die sämtliche Beobachtungswerte eingetragen werden. Werden bis zu zwei weitere Variable untersucht, wird häufig auf die Buchstaben Y und Ζ zurückgegriffen. In praktischen Fällen mit mehr als drei Untersuchungsmerkmalen ist es üblich, nur die Größe X einzusetzen und diese dann zu indizieren (Xj, X 2 ,..., X r

X p ).

Im Interesse einer einheitlichen Schreibweise verwenden wir hierbei ausschließlich numerische Werte: Eventuell auftretenden alphanumerischen Zeichen wird ersatzweise eine Ziffer zugeordnet; den beiden Ausprägungen eines Merkmals X3: Geschlecht der Testteilnehmer z.B. die Ziffern 1 für männlich und 2 für weiblich. Die übliche Ausgangssituation der statistischen Analyse stellt sich danach wie folgt dar: Es existiert eine Menge von statistischen Einheiten, Objekten bzw. Merkmalsträgern. Deren Eigenschaften werden durch ρ Untersuchungsmerkmale X j , . . . , X r ,..., X p beschrieben. Jedes dieser Merkmale hat mindestens zwei Merkmalsausprägungen.

Für den Fall, daß sogenannte „Mehrfachnennungen" zugelassen werden, ist die Zahl der Beobachtungswerte größer als die Zahl der Merkmalsträger. Darauf wird im Rahmen dieser Einführung ebensowenig eingegangen wie auf die Frage, wie etwaige Datenlücken bzw. fehlende Werte zu behandeln sind.

0.3

9

Einige statistische Grundbegriffe

nxp Datenmatrix (mehrdimensionale Verteilung) Untersuchungsmerkmal

1

•.

xr

.•

XP

El

bn

·.

blr

.•

b1n

Ei-

bn

..

bjr

.•

Die Zeile bj' bj „

BEI BUNDESSCHATZBRIEFEN STEIGEN DIE ZINSEN VON 7 , 5 0 % AUF 8 , 5 0 % . !

.

1

1

1

!


I

1

1

1

1

I

I

1

1

1

I

1

. .

1

!

1

1

. ,

I

1

1

1 1

nur Typ Β 8,50%

8,50% JÄHRLICH STEIGENDE ZINSEN

8,25% 8,25% 1

8,00%

I

8,00%

-

-

7,50% 1

.

.

.

I.Jahr

.

1

.

.

.

2. Jahr

.

1

.

.

3. Jahr

.

.

1



. . .

4. Jahr

1

.

.

.

B.Jahr

.

1

.

.

.

6. Jahr

.

1

.

.

.

7. Jahr

.

Schließlich sprechen wir auch dann gerne von fehlerhaften Statistiken, wenn wir Zusammenhänge nicht wahrhaben wollen: Trotz gesicherter Aussagen über die Schädlichkeit des Rauchens negiert der Raucher diese Information. Die Gefahr des Straßenverkehrs wird trotz Zehntausender von Toten häufig relativiert 4 ; der angetrunkene Autofahrer übersieht trotz gesicherter Kenntnisse über die nachlassende Reaktionsgeschwindigkeit die Gefahr, die von ihm ausgeht. Den Vorwurf der fehlerhaften Interpretation von Daten trifft nicht die Statistik. Die Auswahl geeigneter Informationen setzt Vorstellungen über die Wirkungszusammenhänge in der realen Umwelt voraus. Man spricht in diesem Zusammenhang auch von einer Theorie, die überprüft werden soll. Die Güte erhobener und aufbereiteter Daten und der daraus abgeleiteten Schlußfolgerungen wird daher in erster Linie von der Güte der Fragestellung bestimmt. Die Verantwortung hierfür trägt die jeweilige Fachdisziplin.

Unter der Überschrift „So wenig Verkehrstote wie vor 39 Jahren" kommentieren die Westfälischen Nachrichten in ihrer Ausgabe vom 9. Dezember 1992 Ergebnisse der Verkehrsstatistik: „Nach Schätzungen des Statistischen Bundesamtes wird die Zahl der Verkehrstoten in diesem Jahr auf den bislang niedrigsten Stand seit 1953 fallen." (1992 7200 Verkehrstote, 1970 19200 Verkehrstote)

1

Darstellung eindimensionaler empirischer Verteilungen

1.0 Einführung Wir beschäftigen uns in diesem

1. Abschnitt zunächst

mit der Darstellung jener

Beobachtungswerte, die sich auf ein einzelnes Untersuchungsmerkmal unserer Erhebung beziehen (eindimensionale Verteilung). Daten aus Querschnittsanalysen können • tabellarisch

(vgl. Kapitel 1.1),

• graphisch

(vgl. Kapitel 1.2),

• parametrisch

(vgl. Kapitel 1.3)

dargestellt werden. Eine Tabelle bietet dem Leser eine exakte Übersicht aller Einzelwerte. Die Graphik will einen visuellen und damit raschen Gesamteindruck der Datenstruktur vermitteln. Beide Darstellungstechniken stellen somit keine Alternativen dar; sie ergänzen sich vielmehr. Im Gegensatz dazu verdeutlichen statistische Parameter oder Kennziffern (z.B. der Mittelwert) stets nur einen bestimmten Teilaspekt der Untersuchung: Sie sollen die vorhandene Information in verkürzter reduzierter Form wiedergeben. Der damit zwangsläufig verbundene Informationsverlust wird im Interesse einer komprimierten knappen Darstellung in Kauf genommen.

1.1 Die tabellarische Darstellung 1.1.1

Urliste und Häufigkeitstabelle

Die Frage nach ihrem Alter haben die η = 59 Studenten, die als Erstsemester den Statistikkurs unseres Dozenten im SS 2000 besucht haben, wie folgt beantwortet: Ungeordnete Zusammenstellung von η = 59 Altersangaben j

1

2

3

57

58

59

b

21

22

22

22

25

20

J

Wir konzentrieren uns also auf eine bestimmte Spalte der η χ p-Datenmatrix des vorigen Kapitels. b' r :

5

b! r , b 2 r , . . . , bj r ,..., b n r

bzw.

b':

b l s b 2 ,..., bj,..., b n

Da wir diese Informationen über eine Beobachtung unserer Umwelt, nicht aber aufgrund theoretischer Überlegungen gewonnen haben, sprechen wir in diesem Zusammenhang von einem empirischen Datensatz.

24

1 Darstellung eindimensionaler empirischer

Verteilungen

Diesen Ausschnitt bezeichnen wir als „Urliste"; ihr sind lediglich die aneinandergereihten beobachteten η Merkmalswerte zu entnehmen: Im Hinblick auf das Untersuchungsziel ist dieser Datensatz noch ungeordnet. Die Urliste ist eine ungeordnete Zusammenstellung, im vorliegenden Fall von η = 59 Altersangaben; sie ist Grundlage der statistischen Analyse und kann auch als Zusammenstellung von etikettierten Beobachtungswerten

bezeichnet werden. Ihre Grundlage sind in unserem

Fall 59 Zettel mit Angaben über das Lebensalter in Jahren. Sonstige Informationen, etwa die Namen der Studenten, sind auf diesen Etiketten nicht vermerkt. Anders ausgedrückt: Ausgangspunkt der statistischen Arbeit sind nichtpersonifizierte Daten. Eine elementare statistische Tätigkeit besteht nun darin auszuzählen, wieviele Studenten jeweils ein bestimmtes Alter besitzen. In unserem Fall waren z.B. die sechs jüngsten Testteilnehmer jeweils 19 Jahre alt und das älteste Erstsemester hatte bereits das 35. Lebensjahr vollendet. Wenn wir die absolute bzw. relative Häufigkeit für das Auftreten der Merkmalsausprägung X] = 19 mit h j bzw. f j , die der Ausprägung x 2 = 20 mit h 2 bzw. f 2 usw. bezeichnen, stellt sich das Erhebungsergebnis übersichtlicher als in der Urliste dar. Nach diesem Wechsel von der Urliste zur Häufigkeitstabelle betrachten wir nun nicht mehr die Beobachtungswerte (b, = 1, 2,..., n), sondern die möglichen Merkmalsausprägungen (xj = 1, 2, ..•, m) und deren Häufigkeiten h, und fj. Häufigkeitsverteilung:

h; = f(xj)

i = 1,2, ...,m

kzw' fi = f(xi)

m = Zahl der Merkmalsausprägungen

Eine Häufigkeitsverteilung oder -funktion ist also eine tabellarische Darstellung aller Ausprägungen xj eines Untersuchungsmerkmals mit den dazughörigen absoluten oder relativen Häufigkeiten hj bzw. f;. In unserem Fall sieht sie folgendermaßen aus:

1.1

25

Die tabellarische Darstellung

Häufigkeitstabelle: lfd. Nr. i

Zusammenstellung der geordneten Altersnennungen unter Angabe der absoluten und relativen Häufigkeiten ihres Auftretens

Ausprägung x;

absolute Häufigkeit hj

relative Häufigkeit fj

1

xj = 19 (Jahre)

hj =

6

2

x 2 = 20 (Jahre)

h2 =

7

f j = (6/59)=0,1017 f 2 = (7/59) =0,1186

3

X3 = 21 (Jahre)

h 3 = 10

f 3 = (10/59)=0,1695

4

x 4 = 22 (Jahre)

h 4 = 13

f 4 = (13/59)=0,2203

5

x 5 = 23 (Jahre)

h5 =

4

f 5 = (4/59) =0,0678

6

x 6 = 24 (Jahre)

h6 =

6

f 6 = ( 6/59) =0,1017

7

X7 = 25 (Jahre)

h7 =

3

f 7 = ( 3/59) =0,0508

8

Xg = 26 (Jahre)

h8 =

2

f 8 = (2/59) =0,0339 f 9 = (2/59) =0,0339

9

X9 = 27 (Jahre)

h9 =

2

10

x 1 0 = 28 (Jahre)

f 1 0 = ( 1/59) =0,0169

x n = 29 (Jahre)

h10= hn=

1

11

-

f

=

n

=

(0/59) =0,0000

12

X|2 30 (Jahre)

h12 =

1

f 1 2 = ( 1/59) =0,0169

13

Xl3=

31 (Jahre)

h13=

-

f 1 3 = (0/59) =0,0000

14

Xj4=

32 (Jahre)

h14=

2

f 1 4 = (2/59) =0,0339

15

Xl5=

33 (Jahre)

h15=

1

f 1 5 = (1/59) =0,0169

16

x

h

" 1

f 1 6 = (0/59) =0,0000

59

1,0000

=

16 34 (Jahre) X l 7 = 35 (Jahre)

17

Summe:

16= h17=

f17=

(1/59)=0,0169

Neben den absoluten Häufigkeiten hj haben wir in die Häufigkeitstabelle die relativen Häufigkeiten fj aufgenommen; sie ergeben sich, indem wir die jeweiligen hj-Werte auf die Gesamtzahl der statistischen Objekte η beziehen. (Sollen die relativen Häufigkeiten in Prozenten ausgedrückt werden, erhält man diesen Prozentsatz durch Multiplikation mit 100.) Da nun jedes statistische Objekt genau einmal einer bestimmten Merkmalsausprägung zugeordnet wurde, gilt (vgl. die Schlußzeile der Häufigkeitstabelle) regelmäßig

• 0

< hj < η

mit i = Laufindex möglicher Merkmalsausprägungen

Σ hj = η . 0 < f j < 1,00 Σή=

(mögliche Rundungsfehler sind zu beachten!)

1,00

in unserem Beispiel (m=17) hj+ h 2 + ... + h 1 7 = n = 5 9 und f j + f 2 + ... + fj7 = 1,00.

26

1 Darstellung eindimensionaler empirischer Verteilungen

Es sollte nicht unerwähnt bleiben, daß sich die Vereinbarung Lebensaltersangaben abzurunden von der ansonsten für stetige Merkmale gültigen Konvention unterscheidet. Wenn wir z.B. die Brenndauer von Glühlampen untersuchen (festgehalten und notiert sind auf ein Zehntel Zeiteinheiten gerundete Beobachtungswerte), werden wir üblicherweise alle jene Lampen der Ausprägung χ = 19 (ZE) zuordnen, fur die gilt: 18,5 (ZE)


{x u x f ) Λ (yf > Y » ) ] U [ ( Χ * < χ - ) Λ (y* < y»)]

Ist die Wertigkeit des Merkmalsträgers Α entweder hinsichtlich der Ausprägimg Xj oder aber der Ausprägung yj entgegengesetzt zur Wertigkeit der Merkmalsträgers B, spricht man von Diskordanz (nicht übereinstimmend). Derartige Fälle werten wir als Indiz für eine negative oder entgegengesetzte Korrelation! Formal kann ein diskordantes Ausprägungspaar für zwei Merkmalsträger Α und Β bezüglich zweier ordinalskalierter Merkmale X und Y mit den Ausprägungen x;, i = 1, 2,..., mx und yj, j = 1,2,... my wie folgt dargestellt werden. > *,B) -

(Yϊ

< Y?)] ^

< *?) -

(Yt

>

YF)]

Gamma-Koeffizient y = K-D K+D

39

Κ = Anzahl der konkordanten Wertepaare D = Anzahl der diskordanten Wertepaare

Vgl. hierzu Eckstein P.P : Angewandte Statistik mit SPSS, Wiesbaden 1997, S. 206.

2.1

121

Korrelationsrechnung

Die Bestimmung konkordanter und diskordanter Ausprägungspaare wird verdeutlicht durch die Kreuztabelle unseres Beispiels: Die im Norden auf Rang 1 piazierte Sorte © nimmt auch im Süden höherwertige Rangplätze, als die Sorten 2, 4, 8, 10 und 11, ein. Allein in diesem Fall ergeben sich 5 konkordante Ausprägungspaare. Vergleichen wir alle Positionen, ermitteln wir auf diese Weise insgesamt 31 übereinstimmende

Ausprägungspaare.

Addieren wir die Häufigkeiten jener Biersorten, die im Vergleich zu Sorte © im Norden schlechter und im Süden besser beurteilt werden, zählen wir 6 diskordante Fälle. Insgesamt sind es 35 diskordante Ausprägungspaare. Biersorten im Urteil ihrer Konsumenten -Kreuztabelle\ R . Rn \ 1 2 3 4 5 6 7 8 9 10 11 12 Κ

1

2

3

4

5

6

7

8

9

γ =

11

12

A . 1 1 1 1 Θ 1 1 1 1 1

= 1 (1+1+1+1)

1 D

= 1 (1+1+1+1)

+ 3(1+1+1)

+ 2(1+1+1)

+ ©(1+1+1+1+1+1)

+ 3(1+1+1+1)

+ © (1+1+1+1+1)

+ © (1+1+1+1+1+1)

+ 7(1+1)

+ 8(1+1+1+1+1+1)

+ 8(1+1+1+1)

+ 9(1)

+ 9(1+1+1+1)

+ 10(1+1)

+ 10(1+1)

+ 11 (1+1+1+1+1+1+1+1+1)

+ 12(1) κ

10

= 31 K-D 31-35 4 = = = -0,6061 K + D 31 + 35 66

D

= 35

122

2 Analyse mehrdimensionaler empirischer Verteilungen

Wir registrieren in unserem Beispiel also ein leichtes Übergewicht der diskordanten Ausprägungspaare. Als Gamma-Koeffizient wird der Wert γ = - 0,6061 ausgewiesen, dies deutet auf einen schwachen, gegenläufigen Zusammenhang zwischen den Präferenzen in Nord und Süd. Charakteristik des Gamma-Koeffizienten • Gamma nimmt Werte nahe 1 an, wenn alle Objekte entlang der Diagonale von 1,1 zu mx, my konzentriert sind; Werte nahe -1 werden erreicht, wenn die Objekte entlang der Diagonale von mx>l zu lm y konzentriert sind. Gamma ist ein normiertes Assoziationsmaß: -1 < γ < 1 • Gamma läßt solche Wertepaare unberücksichtigt, die bei einer der Variablen den gleichen Wert aufweisen (= Bindungen oder ties). Daher steigt der Wert des Koeffizienten relativ stark an, wenn die Kategorienzahl der Variablen durch Gruppierung verringert wird. „Bei der Berechnung von Gamma sollte daher ... die ursprüngliche Kategorisierung der Variablen beibehalten werden". 40 2.1.2.3 Spearman'sche Rangkorrelationskoeffizient Um die Messung zu verfeinern, stellt der Spearman'sche Rangkorrelationskoeffizient

auf die

Rangnummern der Merkmalsausprägungen ab. Dazu ordnet man die Merkmalsausprägungen der Variablen X und Υ der Größe nach und nummeriert sie von 1 bis η durch. 4 1 Jedem Element des statistischen Kollektivs werden also zwei Rangnummern und damit auch eine Distanz der Rangplätze zugeordnet. 1,

• ·,

j,

.,

η

- Variable X

*1,

·

Xj,

·'

x

- Variable Υ

yi>

· ·,

Yj.

·· ·.

yn

Differenz der Rangziffern

dl,

· .,

dj,

. ·,

dn

Element Rangnummer

n

Matiakse, W.: Statistische Datenanlyse mit Mikrocomputern, a. a. O. S. 90. Auf den Fall, daß einzelne Merkmalsausprägungen mehrmals auftreten, Elemente also den gleichen Rangplatz aufweisen, wird hier nicht eingegangen, vgl. hierzu z.B. Ferschl, F., Deskriptive Statistik, a.a.O., S. 287.

2.1

Korrelationsrechnung

123

Der Spearman'sche Rangkorrelationskoeffizient rs ist nun nichts anderes als der später noch genauer zu besprechende Korrelationskoeffizient Ρ nach Bravais-Pearson fur metrische Merkmale, der hier auf die Rangnummern angewandt wird. Deshalb können wir uns hier auf ein Beispiel sowie die Angabe von Rechenrezepten beschränken. - 1 < rs < + 1 Beispiel:

Für eine Gruppe von 6 Studenten soll untersucht werden, ob ihre in der Vorprüfung festgestellten Rangnummern dem späteren Ergebnis im Examen entsprechen.

Student

Rangplatz im Vorexamen X

1 2 3 4 5 6

1 4 3 5 6 2

Σ

21

d=

d2 =

Rangplatz Y

(χ-y)

(x-y)2

1 3 2 6 5 4

0 1 1 -1 1 -2

0 1 1 1 1 4

21

0

8

Diplomergebnis Noten 1 2+ 14 3 3+ -

Der Spearman Rangkorrelationskoeffizient ist dann einfach zu berechnen, wenn man zuerst die Differenz der Rangnummern d bestimmt. Die nachfolgende Formel gilt allerdings nur dann, wenn wie in unserem Beispiel alle χ und y jeweils paarweise verschieden sind, also keine ties auftreten. rs = 1 -

6 Σd2 n · (n 2 -1)

d = Differenz der Rangnummern η = Anzahl der stat. Elemente

6 · 8,00

Der Korrelationskoeffizient nach Bravais-Pearson ist allgemein definiert als l(x-x)»(y-y) rs = • |Z(x-x)2*Z(y-y)2 13,5 = 0,7714 V17,5'17,5

-

21

-y =

21 T

χ = — =3,5 6 ας = 3,5

124

2 Analyse mehrdimensionaler empirischer Verteilungen

Diese Werte erhielten wir durch folgende Hilfstabelle: Element

(x-x)

(x-x)2

( x - x)(y- y)

(y-y)2

(y-y)

1 2 3 4 5 6

-2,5 +0,5 -0,5 +1,5 +2,5 -1,5

6,25 0,25 0,25 2,25 6,25 2,25

-2,5 -0,5 -1,5 +2,5 +1,5 +0,5

6,25 0,25 2,25 6,25 2,25 0,25

+6,25 -0,25 +0,75 +3,75 +3,75 -0,75

Σ

0

17,50

0

17,50

13,50

2.1.3 2.1.3.1

Auswertung von Korrelationstabellen Der Fechnersche Korrelationskoeffizient

Dieses sehr leicht zu berechnende Korrelationsmaß überträgt das der Berechnimg von F zugrundeliegende Prinzip auf die Belange metrischer Merkmale. Als Schwerpunktkoordinaten werden jetzt die arithmetischen Mittelwerte χ ^ und y ^ verwendet. Beide Werte teilen die Korrelationstabelle in vier Quadranten, die Berechnung von F selbst erfolgt analog zu der unter 2.1.2 beschriebenen Vorgehensweise r

_ n i - n2 η

Beispiel:

η, + n 2 = η

Im Rahmen einer Untersuchung über die Einflußgrößen des Energieverbrauchs wurden für 10 ausgewählte Haushalte die nachfolgenden Werte (Jahresdurchschnitte) ermittelt: X:

monatliches Nettoeinkommen (in 1000 DM)

Y:

Ausgaben für Elektrizität je Monat (in 100 DM)

Haushalt

1

2

3

4

5

6

7

8

Einkommen

3,0

0,7

1,9

3,5

1,3

1,6

0,9

2,5

Ausgaben für Elektrizität

1,2

0,4

0,9

1,3

0,6

0,7

0,6

1,1

10

Σ

0,5

1,1

17

0,4

0,7

9

x A = 1700,-:

durchschnittliches monatliches Einkommen

yA =

durchschnittliche Ausgaben für Elektrizität je Monat

79,-:

7,9

2.1 Korrelationsrechnung

125

Wir können nun das Korrelationsmaß nach Fechner für unsere 10 Haushalte berechnen: (-)

(+)

Σ

(-)

6

0

6

(+)

0

4

4

Σ

6

Y X

n F = PI - 2 η

4

xA=

1.700,-

ΫΑ=

79,-

10

n j = 10 n2 = 0

10-0 10 = +1,0 F erreicht in diesem Beispiel seinen maximalen Wert und beschreibt die enge positive Korrelation zwischen dem Haushaltseinkommen und den Ausgaben fur Haushaltsenergie. Der gleiche Wert ergibt sich unter Verwendung des Ansatzes F=

2V - η

V = Σ v, wobei 1: in den Fällen (-,-) und (+,+) ν=1

1/2: sofern x-x oder y - y = 0 1/4: sofern x-x und y - y = 0 0: sonst

im Beispiel: F =

2V-10 10

ν = ι ο · ι + ο · - + ο · - + ο·ο 2 4 = 10

20-10 10 = +1,0

126 2.1.3.2

2 Analyse mehrdimensionaler empirischer Verteilungen Die Kovarianz

Bereits unter 2.1.2 haben wir kritisch angemerkt, daß F die genaue Lage der Wertepaare innerhalb der Quadranten vernachlässigt. Durch den Rückgriff auf ein Verfahren, das bereits den Informationsgehalt ordinal skalierter Merkmale nicht vollständig ausschöpft, geht die wesentliche Information metrischer Daten verloren. Um den Informationsgehalt metrischer Merkmale besser auszunutzen, bilden wir zunächst die Differenzen χ - χ α und y - y α und bestimmen dann die Produkte dieser Differenzen. Durch diese Produktbildung charakterisieren wir die Lage der Wertepaare innerhalb der vier Quadranten sehr viel genauer als durch eine nur auf das Vorzeichen abstellende Betrachtung: Wir erfassen auf diese Weise die Entfernung eines Wertepaares vom Zentrum der zweidimensionalen Verteilung. Als Maß dieser Entfernung verwenden wir die mit Vorzeichen versehene Rechteckfläche (x - XA)(y - yA)· Als Maß fur die Straffheit des Zusammenhanges zwischen den Variablen X und Y verwenden wir die durchschnittliche Entfernung aller η Wertepaare vom Schwerpunkt der Verteilung, die sogenannte Kovarianz βχγ. η _ _ Σ ( χ - x ) ( y - y) s xy = ηr

=

ΙΏχ niy, . Σ Σ ( χ ϊ - x ) ( y j - y ) • h,j :η

10 Haushalte und ihre „Entfernung vom Zentrum der zweidimensionalen empirischen Verteilung"

100

50 1000 2000 3000

α•

α ο

150

D

ο y-y

• x-x P(x.y) ο α

χ ή = 1700,-

VA = 79

Bevor wir einige allgemeinere Betrachtungen über den Wertebereich der Kovarianz anstellen, sollen Möglichkeiten zur Berechnung dieser Größe beispielhaft dargestellt werden.

2.1

Korrelationsrechnung

127

10 Haushalte, Kovarianzberechnung HH

X

y

(X-X)

(y-y)

(x- x)(y- y)

χ*y

1 2 3 4 5 6 7 8 9 10

0,5 0,7 0,9 1,1 1,3 1,6 1,9 2,5 3,0 3,5

0,4 0,4 0,6 0,7 0,6 0,7 0,9 1,1 1,2 1,3

-1,2 -1,0 -0,8 -0,6 -0,4 -0,1 0,2 0,8 1,3 1,8

-0,39 -0,39 -0,19 -0,09 -0,19 -0,09 0,11 0,31 0,41 0,51

0,468 0,390 0,152 0,054 0,076 0,009 0,022 0,248 0,533 0,918

0,20 0,28 0,54 0,77 0,78 1,12 1,71 2,75 3,60 4,55

Σ

17,0

7,9

0

2,870

16,30

SXY XY =

10

0

= +0,287

Rechenvarianten: (1)

Will man das Rechnen mit den Abweichungen vermeiden, kann man analog zur Berechnung der Varianz einer eindimensionalen Verteilung wie folgt vorgehen:

sxy =

η Σχ-y

- **y

ΤΤΙχ m y S

XY

_ Σ Σχί-yi-hii

SXY = x*y - x*y

_ - _ x-y im Beispiel:

16,3 - 1,7 · 0,79 10 = +0,287 (2)

Eine modifizierte Schreibweise ergibt sich, wenn wir von den Beobachtungswerten deren Mittelwert subtrahieren und mit den Differenzen operieren.

2 Analyse mehrdimensionaler empirischer Verteilungen

128

Wie wir bereits am Beispiel eindimensionaler Verteilungen gezeigt haben, ist die Streuung invariant gegenüber Verschiebungen um einen konstanten Betrag. Es gilt daher s

xy =

s

*

— ~~ϊ * * ~* xy = χ * y - χ * y

Da die transformierten Größen x* und y* Mittelwerte von Null aufweisen, gilt: S

XY = x* · y*

Angewandt auf unser Beispiel: *

*

*

*

HH

X

y

X

y

1 2 3 4 5 6 7 8 9 10

0,5 0,7

0,4 0,4

-1,2 -1,0

-0,39 -0,39

0,468 0,390

3,0 3,5

1,2 1,3

1,3 1,8

0,41 0,51

0,533 0,918

Σ

17,0

7,9

0

0

2,870

χ ·y

s X Y = x* · y* = M * = +0,287 10 Abschließend noch einige allgemeine Bemerkungen zur Kovarianz: (1)

Das Vorzeichen informiert uns über die Richtung, in der beide Größen variieren. S

XY > 0

Die Merkmalswerte variieren in gleicher Richtung·, d.h. bei steigenden xWerten steigen tendenziell auch die y-Werte (und umgekehrt!)

S

XY < 0

Die Merkmalswerte variieren in entgegengesetzter Richtung; d.h. bei steigenden x-Werten sinken tendenziell die y-Werte (und umgekehrt!)

Sxy = 0 (2)

Im Unabhängigkeitsfall ist die Kovarianz gleich Null.

Die Kovarianz stellt ab auf lineare Abhängigkeiten. Sind beide Variablen nicht linear verbunden, ist die Kovarianz kein geeigneter Parameter zur Beschreibung der Straffheit des Zusammenhangs. Liegen z.B. sämtliche Wertepaare auf einer Parabel, entsprechen sich die positiven und negativen Rechteckflächen und die Kovarianz wird Null, obwohl ein perfekter nichtlinearer Zusammenhang vorliegt.

2.1

129

Korrelationsrechnung

(3) Auch im Fall einer linearen Abhängigkeit liefert die Kovarianz eine nur unvollkommene Information über das Ausmaß der Entsprechung. Dies deshalb, weil die Varianzen der Variablen den Wert der Kovarianz beeinflussen. Angenommen, wir untersuchen die Beziehungen zwischen den Variablen X und Y1 sowie X und Y11. Als Korrelationsmaß ist jeweils die Kovarianz zu bestimmen. Mittelwert

S2

S

42

XY

X

1

2

3

4

5

3

2

Yl

1

1,5

2

2,5

3

2

0,5

1

γΐΐ

1,25

1

2

3

2,75

2

0,625

1

In beiden Fällen liefert die Kovarianz den Wert 1; während nur im Fall I eine perfekte lineare Abhängigkeit vorliegt (alle Wertepaare liegen auf der Geraden Y = 0,5 + 0,5 · X), streuen im Fall II die Wertepaare um diese Funktion. 2.1.3.3

Der Produktmoment Korrelationskoeffizient

Die Grundidee dieses Parameters ist es, den von den Streuungen der einzelnen Verteilungen ausgehenden störenden Einfluß zu eliminieren. Dieser Effekt wird erreicht, wenn wir die Kovarianz durch das Produkt der Standardabweichungen von X und Y dividieren. ρ

_ X Y

sXY s

_

s

x* Y

Σ ( χ - x ) ( y - y) ^ / Σ ( χ - χ ) 2 · Σ ( γ - y) 2

Dieses normierte Zusammenhangsmaß wird auch bezeichnet als • Korrelationskoeffizient nach Bravais Pearson, • Maßkorrelationskoeffizient, • Linearer Korrelationskoeffizient oder • Bestimmtheitskoeffizient r (vgl. Abschnitt 2.3). -1 < PXY < + 1

Das Beispiel wurde entnommen aus: Yamane, T., Statistik, Ein einführendes Lehrbuch, Band 1, Deutsche Erstausgabe, Frankfurt 1976, S. 394 ff.

130

2 Analyse mehrdimensionaler empirischer Verteilungen

Unser Beispiel von oben zeigt nun differenzierte Parameter: r

r

1

XY ι

= +1

^2*0,5 1 V 2 · 0,625

XY

= +0,89

Unser Demonstrationsbeispiel verdeutlicht, daß wir auf diese Weise, ähnlich wie bei der Berechnung des Variationskoeffizienten, eine Maßzahl erhalten, die unabhängig ist von den Dimensionen der jeweils betrachteten Variablen und hier nur Werte zwischen -1 und +1 annehmen kann. Definitionsbeziehungen sind für praktische Berechnungen in der Regel nicht sonderlich geeignet. Auch für Ρχγ werden alternative Schreibweisen und Berechnungshinweise angeboten. Am Beispiel der 10 Haushalte wird auf einige dieser Varianten hingewiesen. (1)

Die Definitionsbeziehung liefert das Ergebnis

r

s X Y = + 0,287

SXY Vsx2-sY2

XY

„2

0,287 V0,922· 0,0929

_ 38,12 - 1,72 = 0,922 10

= +0,9806...

(2)

1 = —Σ χ 2 · η

syl

= — - 0,792 = 0,0929 10

Will man das Rechnen mit Abweichungen und Mittelwerten vermeiden, kann man direkt mit den Beobachtungswerten operieren (= mittelwertfreie Schreibweise). Aus Ρ

Σχγ - η·χ y XY

ρ

χγ

" V(lx

2

- ηχ2)(Σγ2 - n ? )

_

ηΣχγ - Σ χ Σ γ ^[ηΣχ

2

- ( Σ χ ) 2 ] [ η Σ ν 2 - (Σγ) 2 ]

erhalten wir P

XY

10· 16,3 - 17*7,9 2

_ 2

V(l0*38,12 - 17 )(l0*7,17 - 7,9 ) = +0,9806...

28,7 V92,2 «9,29

2.1

Korrelationsrechnung

131

Bilden wir das Quadrat des linearen Korrelationskoeffizienten, wird die enge Beziehung zur im nächsten Abschnitt 2.2 anzusprechenden (linearen) Regressionsrechnung deutlich sichtbar. o2 Γχ

_ nZxy - Z x l y η Σ χ 2 - (Σχ)2

"

nZxy - Z x Z y nZy 2 - ( l y ) 2

Die beiden Faktoren auf der rechten Seite der Gleichung entsprechen den Steigungen der linearen Regressionsfunktionen. bj: Steigung der yx-Regressionsgeraden

Pxy = b l * b 2

b^. Steigung der xy-Regressionsgeraden (3)

Eine weitere Berechnungsvariante ergibt sich, wenn wir mit den standardisierten Beobachtungswerten operieren. χ- χ

*

sx y * = y- -— yS

Y

Es gilt: —

P

XY

_

X * = 0η y = η0 * 1

^ Σ ( χ * - x*)(y·- y·) *_ η P * * XY s x · sY

Sx

=1

Sy* = 11 Ρ χ γ = χ * · y* Angewandt auf unser Beispiel *

*

HH

X

y

X

y

1 2 3 4 5 6 7 8 9 10

0,5 0,7 0,9 1,1 1,3 1,6 1,9 2,5 3,0 3,5

0,4 0,4 0,6 0,7 0,6 0,7 0,9 1,1 1,2 1,3

-1,2497 -1,0414 -0,8332 -0,6249 -0,4166 -0,1041 0,2083 0,8332 1,3539 1,8746

-1,2795 -1,2795 -0,6234 -0,2953 -0,6234 -0,2953 0,3609 1,0171 1,3452 1,6733

Σ

17,0

7,9

0

0

χ* · y * 1,5990 1,3325 0,5194 0,1845 0,2597 0,0307 0,0752 0,8474 1,8213 3,1368 9,8064

132

2 Analyse mehrdimensionaler empirischer Verteilungen

XY

_ 9,8064 10 = +0,9806...

Abschließend noch einige allgemeine Bemerkungen über die Eigenschaften des linearen Korrelationskoeffizienten: (1)

Der Produktmomentkorrelationskoeffizient basiert auf der Idee der Kovarianz; das für die Kovarianz Gesagte gilt entsprechend. •

Beide Maße unterstellen eine lineare Beziehung zwischen den Variablen X und Y.



Das Vorzeichen beider Maße informiert über die Richtung der (linearen) Variabilität.

Beide Maße unterstellen außerdem, daß sowohl die x-Werte als auch die y-Werte variieren. Ist eine der Variablen konstant, werden beide Größen bedeutungslos. (2)

Im Gegensatz zur Kovarianz ist der lineare Korrelationskoeffizient ein normiertes Zusammenhangsmaß und deshalb leichter zu interpretieren.

(3) Zu berücksichtigen ist stets der deskriptive Charakter des linearen Korrelationskoeffizienten. Werte < 0,5 gelten gemeinhin als Indiz für eine eher schwache Korrelation.

2.2

133

Regressionsanafyse

2.2 Regressionsanalyse 2.2.0

Einführung

Nachdem wir im vorigen Abschnitt die grundsätzliche Abhängigkeit zwischen zwei Merkmalen untersucht haben, wollen wir im folgenden versuchen, eine mathematische Funktion zu formulieren, die diese Abhängigkeit beschreibt.

43

Die Aufgabe der Regressionsanalyse besteht darin, durch eine angemessene und möglichst einfache mathematische Funktion die Änderungen einer Variablen zu beschreiben, die durch Änderungen einer anderen Variablen ausgelöst werden: Y = fPQ + e Es wird angenommen, daß die abhängige Variable Y von der unabhängigen Variablen X erklärt wird; Y bezeichnet man deshalb häufig auch als die zu erklärende (endogene) Variable; X ist danach die erklärende (exogene) Variable. Natürlich wollen wir eine Funktion f(X) finden, die einen Großteil der Variabilität der Daten erklärt und wir den Fehler ε (die sogenannte Störkomponente) vernachlässigen können. Auf den Einfluß von sogenannten latenten Variablen ist es zurückzufuhren, daß die Beziehung Y = f (X) in der Praxis direkt nicht beobachtet werden kann. 44 Wir sind deshalb darauf angewiesen, die Parameter der gesuchten Regressionsfunktion zu schätzen. Um diesen Tatbestand zu verdeutlichen, wird die abhängige Variable (mit dem Dachsymbol) besonders gekennzeichnet: Y - f(X) YX-Regressionsfunktion Unter Beachtung der Definitionsbeziehung έ = Y - Ϋ folgt daraus der Schätzansatz Υ = Ϋ + ε . Um zu verdeutlichen, daß sich die quantifizierten Beziehungen stets auf einen empirischen Datensatz (xi, yj) mit i = 1,2

η beziehen, wechseln wir zur Schreibweise y, = f(x;) yx-Regressionsfunktion

bzw. zu y = yj

+

Die Suche nach einer mathematischen Funktion setzt metrisch skalierte Merkmale voraus; die Regressionsrechnung kann, bis auf hier nicht näher erläuterte Ausnahmen, nicht für nominal- oder ordinalskalierte Merkmale verwandt werden. Im Gegensatz zu den Naturwissenschaften die dem Experiment offenstehen, kann in den Wirtschaftswissenschaften die Wirkung von nicht unmittelbar in die Untersuchung einbezogenen sogenannten latenten Variablen nicht ausgeschaltet werden.

134

2 Analyse mehrdimensionaler empirischer Verteilungen

Im Rahmen dieser Einfuhrung wollen wir uns auf die Berechnung von Einfachregressionen beschränken, die nur zwei Variablen berücksichtigen; Mehrfachregressionen untersuchen Beziehungen zwischen drei und mehr Variablen: Y = f (Xj, X 2 , X 3 ) ..., X n ) Die einzelnen Schritte, die zur Verifizierung geeigneter Funktionen durchgeführt werden, sind: •

Ableitung eines vermuteten Zusammenhangs aus der fachbezogenen Theorie,



Spezifikation bzw. Auswahl einer geeigneten Funktion,



Schätzung der Parameter dieser Funktion,



Überprüfung der Regressionsergebnisse anhand von Streuungsdiagrammen,



eventuelle Neuspezifikation des Ansatzes,



Prognose,



Berechnung des Bestimmtheitsmaßes.

2.2.1

Fachbezogene Hypothese eines möglichen Zusammenhangs

Hypothesen über mögliche Beziehungen zwischen zwei Variablen kann uns nur die fachbezogene Theorie liefern. Die Ökonomie liefert uns beispielsweise den Zusammenhang: „Die Ausgaben der einzelnen Haushalte für Konsumgüter Y werden im wesentlichen bestimmt durch die verfugbaren Einkommen X". Grundsätzlich läßt die Statistik bei zwei Variablen auch zwei Richtungen der Abhängigkeit zu: Y = f (X) und X = f(Y). Von inhaltlichem Interesse ist zumeist aber nur eine dieser beiden Funktionen. In der Regel besteht eine bestimmte Abhängigkeitsvorstellung des Benutzers, die eine der beiden Funktionen auszeichnet. Unter Umständen erlaubt eine makroökonomische Betrachtung über die Beziehungskette „Ausgaben für Konsumgüter führen zu zusätzlichem verfügbaren Einkommen bei den in der Konsumgüterindustrie Beschäftigten" auch die Schlußfolgerung X = f (Y). Eine derartige Umkehrung ist nicht die Regel und im Einzelfall theoretisch abzusichern, auch wenn der reine Rechenvorgang natürlich zu einem Ergebnis führt. Die aus dem jeweiligen Fachgebiet übernommenen Hypothesen sollen nun mit Hilfe der Empirie überprüft werden. Dies ist die Aufgabe der eigentlichen Regressionsrechnung.

2.2 Beispiel:

135

Regressionsanalyse

Im Rahmen unserer Untersuchung über die Einflußgrößen des Energieverbrauchs wurden für 10 ausgewählte Haushalte die nachfolgenden Werte (Jahresdurchschnitte) ermittelt:

X: monatliches Nettoeinkommen (in 1000 DM) Y: Ausgaben für Elektrizität je Monat (in 100 DM) 1

2

3

4

5

6

7

8

9

10

Σ

Einkommen

3,0

0,7

1,9

3,5

1,3

1,6

0,9

2,5

0,5

1,1

17

Ausgaben für Elektrizität

1,2

0,4

0,9

1,3

0,6

0,7

0,6

1,1

0,4

0,7

Haushalt

7,9

Für die Elektrizitätswirtschaft stellt sich die Frage, welcher Anteil des Einkommens auf die Haushaltsenergie Strom entfällt (Diagnose) und wie sich Einkommenszuwächse auf den Stromabsatz auswirken (Prognose). 45 Statistische Lehrbücher sind voll von Beispielen falsch verstandener Abhängigkeiten: Länge der Röcke von Frauen und Aktienkurse, Storchenpopulation und Geburtenrate, Ausländeranteil und Kriminalität (in diesem Fall ist die Größe der Gemeinde wohl eher entscheidend, denn Großstädte ziehen sowohl Ausländer als auch Kriminelle vermehrt an). Auch die Zeit beeinflußt viele Variablen. Neben dem durchschnittlichen Einkommen sind gestiegen: die Zahl der Verkehrsunfalle, die verspeiste Menge Fleisch pro Kopf, die Allergien, die Anzahl der Geldspielautomaten, die Anzahl der Bankautomaten, die importierten Kiwis. Diese und viele andere sind Größen, die sozusagen automatisch im Zeitablauf ansteigen; ein statistisch begründeter Zusammenhang kann deshalb noch lange nicht abgeleitet werden. Schließlich beeinflussen Größen die mathematische Beziehung, die nicht quantifizierbar sind, sondern nur qualitativ vorliegen. Wenn also promovierte Volkswirte eher Karriere machen als unpromovierte, dann liegt das vielleicht daran, daß sie sowohl die lange Zeit bis zur Promotion als auch den langen Weg zur Karriere durchstehen. Ihr Ehrgeiz ist also eine dritte, verursachende Größe.

In diesem Beispiel ist die umgekehrte Fragestellung „Führt ein höherer Stromverbrauch zu Einkommenszuwächsen" wenig sinnvoll.

136 2.2.2

2 Analyse mehrdimensionaler empirischer Verteilungen Spezifikation der Regressionsfunktion

Darüber, wie die Funktionalform im Einzelfall gelagert ist, informiert uns zunächst eine graphische Analyse der Beobachtungswerte. Dazu tragen wir in einem sogenannten Streuungsdiagramm die Wertepaare der beiden Variablen ab. Aus solch einer Punktwolke läßt sich ein Hinweis auf den zugrundeliegenden Zusammenhang ableiten. FIGUR LC

Y

->x FIGUR 2 c

γ

->x

Ob die hier dargestellten Kurven und Geraden durch die jeweilige Punktwolke tatsächlich den tendenziellen Zusammenhang zwischen Y und X korrekt beschreiben, kann über eine graphische Darstellung nicht immer eindeutig beurteilt werden. Die Figur la aber erlaubt die Aussage, daß ein enger Zusammenhang zwischen den beiden Grössen besteht ( Ρ χ γ = 1) 4 6 , der zudem durch eine lineare Funktion beschrieben werden kann. In den Diagrammen lb und lc kann ebenfalls ein linearer Zusammenhang unterstellt werden, aber es gilt 0 < Ρχγ < 1 und Ρχγ 1( , < Ρχγ 1() · Die Figur 2a beschreibt ebenfalls einen linearen Zusammenhang, allerdings fuhrt hier eine Erhöhung von X zu einer Verminderung von Y, es gilt: -1 < P X Y < 0. Streuungsdiagramm 2b läßt einen nichtlinearen Zusammenhang vermuten

47

, während aus 2c

kein Zusammenhang hergeleitet werden kann, weil Variationen von X offensichtlich keine systematische Veränderung der y-Werte zur Folge haben. In beiden Fällen erübrigt sich eine Berechnung.

47

Vgl. zur Größe Ρχγ noch einmal Abschnitt 2.1.3.3 in diesem Fall kann eine Linearisierung des Ansatzes versucht werden. Wir werden im Rahmen der Trendberechnung näher darauf eingehen (vgl. Abschnitt 3.1.1).

2.2

137

Regressionsanalyse

In unserem Beispiel linterstützt das Streuungsdiagramm die Vermutung eines positiven linearen Zusammenhangs. ABB 2.1:

STREUUNGSDIAGRAMM DES EINKOMMENS UND DER AUSGABEN FÜR ELEKTRIZITÄT

Υ 1,4



1,2





1



0,8



0,6



0,4



• •



0,2

0

0

1

1

1

1

1

0,5

1

1,5

2

2,5

f

1

3

3,5

X

4

X: monatliches Nettoeinkommen (in 1000 DM) Y: Ausgaben für Elektrizität je Monat (in 100 DM) 2.2.3

Schätzung der Parameter

Die Beziehung zwischen den Ausgaben für Strom und dem Einkommen unserer 10 Haushalte soll durch eine möglichst optimale Regressionsfunktion beschrieben werden. Dabei können wir uns aus zwei Gründen zunächst auf die rechentechnisch einfache lineare Regressionsfunktion stützen: •

Zusammenhänge zwischen Daten lassen sich zumindest näherungsweise bzw. in bestimmten Intervallen durch lineare Funktionen approximieren,



Variablentransformationen ermöglichen oftmals eine Linearisierung nichtlinearer Funktionen (vgl. dazu z.B. die Trendberechnung in Abschnitt 3.1.1).

Eine solche lineare Regressionsfunktion lautet:

48

y, = a + bx;

Dieser Ansatz findet sich auch bei der Trendberechnung im Rahmen der Zeitreihenanalyse. Dort ist die exogene Größe die Variable t (=Zeit).

2 Analyse mehrdimensionaler empirischer

138

Verteilungen

Dabei bezeichnet a den Ordinatenabschnitt oder das absolute Glied, b die Steigung oder den Winkel α, den die Gerade mit der X-Achse bildet; beide werden als Regressionskoeffizienten bezeichnet, y, ist der an der Stelle x; sich ergebende Schätzwert für y,. Anmerkung:

Im folgenden wird in Anlehnung an die Literatur der Index i als Laufindex für die η Beobachtungswerte eingesetzt. Außerdem wird aus Vereinfachungsgründen in den Formeln auf die Angabe dieses Laufindex verzichtet.

Die Differenz zwischen y; und y, wollen wir als ej, als Residuum bezeichnen, ej gibt uns die Abweichung oder den Fehler an, der z.B. auf den Einfluß der latenten, nicht berücksichtigten Variablen zurückzuführen ist (vgl. Figur 3). FIGUR 3

Wir schätzen also eine lineare Funktion, die so durch die Punktwolke gelegt wird, daß die Tendenz des Zusammenhangs möglichst gut beschrieben wird. Anmerkung: Die Bedingung Σ ej = 0 reicht als Kriterium nicht aus, da sie keine eindeutige Entscheidung ermöglicht. Die folgende Figur 4 zeigt zwei Regressionsgeraden, die beide diese notwendige, aber nicht hinreichende Bedingung erfüllen. FIGUR 4

2.2

139

Regressionsanalyse

Wir wollen stattdessen ein Verfahren finden, daß aus den prinzipiell unendlich vielen Regressionsgeraden diejenige auswählt, die die Summe der quadratischen Abweichungen zwischen y; und yj, also e;2, minimiert. Dies leistet das Schätzprinzip der Kleinsten Quadrate. Es fordert

s = Σ e ; 2 = Σ (yi - y;) 2 => min Σ q 2 = Σ (y, - (a + bxi)) 2 => min Die Summe der Abweichungsquadrate ist jeweils abhängig von der Wahl der Parameter a und b (die xj- und yj-Werte sind als beobachtete Werte feste Größen!). Es handelt sich hier also um das Problem der Extremwertbestimmung einer Funktion mit 2 Veränderlichen. S = f(a,b) Eine notwendige Bedingung fur das Vorliegen eines Extremwertes besteht darin, daß die beiden ersten partiellen Ableitungen Null werden. Sie lauten bei der yx-Regressionsfunktion:

yj = aj + bj xj

2(y; - a j - bjXiX-l) = 0

= Σ

Σ yj = η a j + b j Σ Xj n 5S TT- = Σ 6b, £

2

bzw. (1. Bestimmungsgleichung)

(y. - a i - b i x i ) ( - x i ) = ° b z w ·

Σ XjYi = a j Σ Xj + b j Σ Xj2

(2. Bestimmungsgleichung)

Die Auflösung dieses Gleichungssystems nach a j und b j fuhrt zu folgendem Ergebnis. 49>50

Σ\2Σγ

- ΣχΣχγ

ηΣχ2 - (Σχ)2

b l

ηΣχγ - Σ χ Σ γ " η Σ χ 2 - (Σχ)2

Die genannten Bedingungen sind notwendig, aber nicht hinreichend für ein Minimum von S = f(a,b). Durch eine Untersuchung der höheren (partiellen) Ableitungen kann aber gezeigt werden, daß a und b die Funktion S minimieren. Vgl. auch Abschnitt 3.1.1.

2 Analyse mehrdimensionaler empirischer Verteilungen

140

Für unser Beispiel bilden wir folgende Hilfstabelle: HH

Yi

Yi2

x

1 2

0,4 0,4

0,16 0,16

10

1,3

Σ

7,9

X,2

yi*xi

0,5 0,7

0,25 0,49

0,20 0,28

1,69

3,5

12,25

4,55

7,17

17,0

38,12

16,30

i

Damit ergibt sich =

ai1

10.16,3 - 1 7 . 7 , 9 10*38,12 - 17• 17

_ 38,12.7,9 - 17-16,3 = 10'38,12 - 17* 17

= U.Zo

Die lineare KQ-Regressionsfiinktion lautet somit yi =0,26 + 0,31 »x; Die Regressionsrechnung

liefert also das Ergebnis, daß Einkommenszuwächse

von

1 («1000 DM) zu zusätzlichen Ausgaben für Strom in Höhe von 0,31 («100 DM) bzw. 31 DM fuhren. Bei der xy-Regressionsfunktion:

χ; = &2 + Y i

werden die Abweichungen zwischen den Βeobachtungswerten und einer Regressionsfunktion X = f (Y) ermittelt. (Die Minimierung der Abweichungsquadrate erfolgt dann parallel zur xAchse.) Analog zum obigen Vorgehen erhalten wir _ Σ γ 2 Σ χ - EyZxy 32 =

nlyMly)

2

_ nExy - E x Z y b 2 =

nly2 - (ly)2

2.2

141

Regressionsanatyse

Um die xy-Regressionsfiinktion χ = &2 + ^ y problemlos in einem yx-Koordinatensystem darstellen und mit der yx-Regressionsfunktion vergleichen zu können, lösen wir die xy-Regressionsfiinktion nach y auf und erhalten als Ergebnis der Umkehroperation:

Auf drei wichtige mathematische Eigenschaften der linearen KQ-Schätzfunktion soll an dieser Stelle noch hingewiesen werden: 1.

Die Summe der positiven Abweichungen entspricht der Summe der negativen Abweichungen, d.h. die Summe der Residuen ist gleich 0 Σε; = 0

2.

Gleichermaßen gilt dies für die Summe Σ χ, · ej = 0

3.

Die geschätzten yj liefern den gleichen Mittelwert wie die beobachteten Werte y.

Daraus folgt, daß die KQ-Schätzfunktion durch den Schwerpunkt der beobachteten Punktwolke Μ ( x , y ) verläuft und sich die yx- und xy-Regressionsfunktion im Schwerpunkt der Punktwolke schneiden. Zu ihrer Beschreibung kann deshalb auch der folgende Ausdruck verwandt werden: Λ * , * Yi = b * X j *

X;



= X; - X

Im folgenden sollen noch einige Varianten zur Berechnung der Parameter linearer Einfachregressionsfunktionen dargestellt werden, die durch einfache Umformungen der Normalgleichungen gewonnen werden können. Sie bieten z.T. Hinweise auf weitere Eigenschaften der nach dem Prinzip der Kleinsten Quadrate ermittelten Schätzfunktionen. 1. Variante "1

_ I x y - n*x*y ^ 2 =2~ Σχ^ - η'χ·4

a! = y - b j x Im Beispiel: 16,3 - 10»1,7 1

Andern

C Bereich: Entfernen

Kleinster Wert bis Γ

Bereidi: : bis größter W e r t .

C Alle anderen Werte

Γ

Ausgabe der Variablen als Strings

Γ

Mum Strings in Zahlen umwandeln f 5 ' - > 5 ) '

i.',

Weiter

Abbrechen

Breite:

A

Hilfe

275

6 Erfassung und Aufbereitung von Datensäten Eingabefolge für die Gruppeneingabe von 19 bis 20 - alter Wert: [BEREICH: von:.... bis:....]. Eingabe von: „19 und bis: 20" - neuer Wert: Eingabe „2" (fur 2. Gruppe) - Knopf [HINZUFÜGEN] drücken => Umkodierung erscheint im rechten, mittleren Fenster u.s.w. bis Eingabefolge für die Gruppeneingabe von 37 bis ... - alter Wert: [BEREICH:

bis größter Wert], Eingabe „37"

- neuer Wert: Eingabe „11" (für 11. Gruppe) - Knopf [HINZUFÜGEN] drücken => Umkodierung erscheint im rechten, mittleren Fenster Wenn alle Gruppeneinteilungen vorgenommen worden sind, wird über [WEITER] und [OK] die Gruppeneinteilung durchgeführt. SPSS legt automatisch die Variable „gruppe" neu an. Um nun noch die einzelnen Gruppennamen zu definieren, öffnen wir das Fenster [LABELS] im Variablen-Definitionsfenster. Unter „Wert" gaben wir für die 1. Gruppe „1" ein. Das dazugehörige Werte-Label heißt „bis 18 Jahren". Entsprechend hinterlegen wir die anderen Gruppenbezeichnungen. Das Fenster sieht nach den Eingaben folgendermaßen aus.

OD

L a b e l s definieren: g r u p p e |Gruppennurr

Yarinblenlabel:

Weiter

-Wertelabels

Abbrechen

Wert: Wertelabel: Hinzufugen Andern Entfernen

Hilfe f 1,00 2.00 3.00 - Abhängige Variable

F 200,606

Signifikanz ,000 a

6

Statistische

287

Analysen

Koeffizienterf Nicht standardisierte Koeffizienten Modell 1 a

(Konstante)

Β ,261

Standardfehler ,043

Nettoeinkommen/Monat

,311

,022

Standardisierte Koeffizienten Beta ,981

Τ 6,078

Signifikanz ,000

14,164

,000

- Abhängige Variable

Die lineare KQ-Regressionsfunktion lautet demnach yi = 0,26 + 0,31 xi Um zusätzlich eine grafische Auswertung zu erhalten, wählen wir unter dem Menüpunkt: [GRAFIKEN], [STREUDIAGRAMM...], einen einfachen Scatterplot. Auf der Y-Achse sollen die Ausgaben Y und auf der X-Achse das Einkommen X abgebildet werden. Nach Öffnen des Diagramm-Editors mittels Doppelklick, kann die Kurvenanpassung zur Linearen Regression unter [DIAGRAMM], [OPTIONEN...] vorgenommen werden. Zusätzlich können wir uns die Y-Mittelwertlinie und die Projektionslinien anzeigen lassen.

Regressionsfunktion

Nettoeinkommen/Monat Quelle: Eigene Berechnungen Anhand der Analyse der Residuen kann überprüft werden, ob die gewählte Funktionsform zur Beschreibung des Zusammenhangs geeignet ist, oder ob eventuell ein anderer Funktionstyp spezifiziert werden muß. Die Projektionslinien zeigen sehr deutlich, daß die Residuen unregelmäßig um die Regressionsgerade streuen, so daß man eine ausreichende Spezifizierung der Einfachregression unterstellen kann.

288

6 PC-gestützte Datenanalyse mit SPSS

Aufgabe Nr. 7: Auswertung von Kontingenztabellen Wir betrachten wiederum die 10 Haushalte aus Aufgabe 6. Es ist die Frage zu beantworten, ob die Einkommenssituation (X) xl

=

Haushaltseinkommen bis

2.000 DM

x2

=

Haushaltseinkommen über 2.000 DM

mit der Art der Beschäftigung (Y) yl

=

unselbständig beschäftigter Haushaltsvorstand

y2

=

selbständig beschäftigter

Haushaltsvorstand

korreliert. Die Abhängigkeit zwischen einem nominalen Merkmal (hier: Y) und einem anderen beliebig skandierten Merkmal wird als Kontingenz bezeichnet. Grundlage hierfür ist die sogenannte Kontingenztabelle, in der die Häufigkeiten aufgeführt sind, mit der bestimmte Merkmalskombinationen auftreten. Haushalt

1

2

3

4

5

6

7

8

9

10

X

1

1

1

1

1

1

1

2

2

2

1

2

2

1

Y

2

2

2

1

1

1

Die Variablendefinition mit anschließender Datenerfassung ist bekannt. Wir können die Häufigkeiten unter dem Menüpunkt [STATISTIK], [ZUSAMMENFASSEN], [KREUZTABELLEN] auszählen. Als Zeilen wählen wir unsere X-Variable und als Spalten unsere Y-Variable aus. Unter dem Punkt [STATISTIK...] können wir wieder eine Anzahl von statistischen Parametern angeben. Wir erhalten folgende Auswertung: Kreuztabellen Nettoeinkommen/Monat * Art der Beschäftigung Kreuztabelle Anzahl Art der Beschäftiqunq unselbständig selbständig beschäftigter beschäftigter Haushaltsvorstand Haushaltsvorstand Nettoeinkommen/ Monat

Gesamt

Gesamt

Haushaltseinkommen bis 2.000 DM Haushaltseinkommen über 2.000 DM 5

5

10

6

289

Statistische Analysen

Chl-Quadrat-Tests

Wert Chi-Quadrat nach Pearson

,476

Kontinuitätskorrektui* Likelihood-Quotient

b

Asymptotische Signifikanz (2-seitig)

df 1

,490

,000

1

1,000

,483

1

,487

Exakte Signifikanz (2-seitig)

Exakte Signifikanz (1-seitig)

1,000

,500

Exakter Test nach Fisher

,625 c

McNemar-Test Anzahl der gültigen Fälle

10

β. Wird nur für eine 2x2-Tabelle berechnet b. 4 Zellen (100,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,50. c- Verwendete Binomialverteilung Richtungemate

Nominalbzgl. Nominalmaß

Lambda

Wert ,125

Asymptotischer Standardfehler3 ,195

,000

,000

,200

,310

Nettoeinkommen/ Monat abhängig

,048

,133

d ,513

Art der Beschäftigung abhängig

,048

,132

.513

.037

,104

,354

,040

.111

,354

,487" e ,487

,035

.099

,354

,487

Symmetrisch Nettoeinkommen/ Monat abhängig Art der Beschäftigung abhängig

Goodman-und -Kruskal-Tau

Unsicherheitskoeffizient

Symmetrisch Nettoeinkommen/ Monat abhängig Art der Beschäftigung abhängig

Nähemn^sweises

Näherungsweise Signifikanz ,557

,587 c

,587

c

,557

a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Kann nicht berechnet werden, weil der asymptotische Standardfehler gleich Null ist. d- Basierend auf Chi-Quadrat-Näherong e. Chi-Quadrat-Wahrscheinlichkeit für Likelihood-Quotienten. Symmetrische Ma&ef

Nominal- bzgl. Nominalmaß

Wert ,218

Näherungsweise Signifikanz .490

Cramer-V

,218

,490

Kontingenzkoeffizient

,213

.490

Phi

Anzahl der gültigen Fälle

10

β· Die Null-Hyphothese wird nicht angenommen, b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Die Korrelations-Statistik ist nur für numerische Daten verfügbar.

Angenommen, wir beobachten 75 Kinder im Vorschulalter und halten fest, ob die Jungen (y,) und Mädchen (y2)vorzugsweise mit einer Puppe (x,) oder einem Auto (x 2 ) spielen. Die empirische Verteilung h°j lautet:

290

6 PC-gestützte Datenanalyse mit SPSS Geschlecht

yi Jungen

Y2 Mädchen

Summe

xi: Puppe

5

20

25

X2: Auto

40

10

50

45

30

75

Spielzeug

Summe:

Um diese empirische Kontingenztabelle zu erfassen, müssen wir zuerst die Variablen definieren, es werden folgende Label-Werte hinterlegt: Variable „x"

Variable „y"

1 = Puppe

1= Jungen

2 = Auto

2 = Mädchen

Labels definieien: Yariableniabel:

Labels definieien:

JArt des Spielzeuges

-Wertelabel«

Yariableniabel:



Abbrechen I

Weit:

1

Wert

Wertelafcel:

|

Wertelabel: 1 ="Puppe" 2 » "Auto"

Ändern

jGeschlecht

-Wettelabels

HinryfUpi"!

l I 1 * "Jungen" 2 = "Mädchen"

Enlier^n I

Entfernen

Bei der dritten Variable „anzahl" geben wir die Wertepaare ein. ΙφΙχΙ

ü ] aufg7_2wS5 - SPSS Daten-Editor Datei

Bearbeiten

Ansicht

Daten

Transformieren

«I M&l

\m\m\.

Statistik

Grafiken

m\m\ p l a j Ü

Extras

Fenster

Hilfe

'^M

1:anzahl X

y

an

1

1 1

5

2

1 2

20

3

2 1

40

4

2 2

10

var

var

var

var

var

var

5 6 1 8 9 10 11

d I SPSS-Prozessor ist bereit

6

Die

Statistische

Auswertung

Analysen

starten

291

wir

wiederum

mit

dem

Menüpunkt

[STATISTIK],

[ZUSAMMENFASSEN], [KREUZTABELLEN]. Wir definieren die statistischen Werte wie in der ersten Aufgabenhälfte und erhalten folgende Auswertung (nach der Anzahl gewichtet): Kreuztabellen Art des Spielzeuges * Geschlecht Kreuztabelle Anzahl Geschlecht Jungen Art des Spielzeuges

Puppe

5

Auto

Gesamt

Mädchen 20

Gesamt 25

40

10

50

45

30

75

Chi-Quadrat-Tests

Wert

Asymptotische Signifikanz (2-seitig)

df

Chi-Quadrat nach Pearson

25,000 b

1

,000

Kontinuitätskorrektui®

22,563

1

,000

Likelihood-Quotient

25,891

1

,000

Exakte Signifikanz (2-seitig)

Exakte Signifikanz (1-seitig)

,000

,000

Exakter Test nach Fisher Anzahl der gültigen Fälle a

75

· Wird nur für eine 2x2-Tabelle berechnet

b. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 10,00. Richtungsmaße

Nominalbzgl. Nominalmaß

Lambda

Goodman-und -Kruskal-Tau

Unsicherheitskoeffizient

a

Wert ,455

Asymptotischer Standardfehler 3 ,135

Art des Spielzeuges abhängig

,400

Geschlecht abhängig Art des Spielzeuges abhängig

Näherunjjsweises 2,685

Näherungsweise Signifikanz ,007

,170

1,868

,062

,500

,118

3,198

,001

,333

,111

,000

Geschlecht abhängig

,333

,110

,ooo c

Symmetrisch

Symmetrisch

,264

,093

2,790

,000 d

Art des Spielzeuges abhängig

,271

,095

2,790

,000

Geschlecht abhängig

,256

,092

2,790

,000

- Die Null-Hyphothese wird nicht angenommen.

b- Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c

· Basierend auf Chi-Quadrat-Näherung

d· Chi-Quadrat-Wahrscheinlichkeit für Likelihood-Quotienten.

d

292

6 PC-gestützte Datenanalyse mit SPSS Symmetrische Maße

Nominal- bzgl. Nominalmaß

Näherungsweise Signifikanz ,000

Wert -,577

Phi Cramer-V

,577

,000

Kontingenzkoeffizient

,500

,000

Anzahl der gültigen Fälle

75

β· Die Null-Hyphothese wird nicht angenommen. b- Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.

Aufgabe Nr. 8: Auswertung von Rangkorrelationstabellen Für eine Gruppe von 6 Studenten soll untersucht werden, ob ihre in der Vorprüfung festgestellten Rangnummern (X) dem späteren Ergebnis im Examen (Y) entsprechen. Diplomerg ebnis Rangplatz im Vorexamen X

Noten

Rangplatz

1

1

1

1

2

4

2+

3

3

3

1-

2

4

5

4

6

5

6

3

5

6

2

3+

4

Summe

21

_

21

Student

Die Abhängigkeit zwischen einem ordinalen Merkmal und einem weiteren, zumindest ordinal skalierten Merkmal wird als Rangkorrelation bezeichnet; die entsprechende Mehrfeldertafel heißt

dementsprechend

Rangkorrelationstabelle.

Ihre

Auswertung

erfolgt über

den

Menüpunkt [STATISTIK], [KORRELATION], [BIVARIAT]. Hier werden 3 Rangkorrelationsmaße angeboten: *

Pearson

*

Kendalls tau-b

*

Spearman

Die statistische Auswertung über den Pearson - Rangkorrelationskoeffizienten sieht folgendermaßen aus:

6

Statistische Analysen

293

Korrelationen Korrelationen

Korrelation nach Pearson

X

χ 1,000

Ζ

,771

Ζ ,771 1,000

Signifikanz (2-seitig)

χ ζ

,072

,

Ν

χ

6

6

ζ

6

6

,072

Aufgabe Nr. 9: Auswertung von Korrelationstabellen Die Abhängigkeit zwischen kardinalen Untersuchungsmerkmalen wird als Korrelation im engeren Sinne bezeichnet. Die errechneten Korrelationsmaße werden in Form einer Matrix bereitgestellt. Zur Verdeutlichung dieser Vorgehensweise kommen wir noch einmal auf unsere 10 Haushalte zurück, deren Einkommen (X) und Ausgaben für Elektrizität (Y) wir bereits im Rahmen der Regressionsanalyse analysiert haben. Ein Erklärungsmodell y = f (xi) ist naturgemäß unvollständig. Neben dem genannten • Haushaltseinkommen (xi) bestimmen auch andere Faktoren den Energieverbrauch, z.B. • die Anzahl der Haushaltsmitglieder (X2) oder •

die Größe der Wohnung (X3)

Stellen Sie mit Hilfe von SPSS den Korrelationskoeffizienten zwischen diesen Untersuchungsmerkmalen zu einer Tabelle zusammen. Nehmen Sie an, der folgende Datensatz charakterisiere unsere 10 Haushalte: Haushalt (j)

1

2

Ausgaben fur

0,40 0,40 0,60 0,70 0,60 0,70 0,90 1,10 1,20 1,30 7,90

3

4

5

6

7

8

9

10

Summe

Elektrizität Einkommen

0,50 0,70 0,90 1,10 1,30 1,60 1,90 2,50 3,00 3,50 17,00

(xii)

Haushaltsmitglieder

1

1

1

2

3

2

3

2

3

1

19

25

30

18

45

62

35

79

65

80

100

539

(X2i)

Größe der Wohnung in m2 (x 3l )

294

6 PC-gestützte Datenanalyse mit SPSS

Nach der Datendefinition und -eingäbe, bei der auf die Wertetafel aus Aufgabe 6 zurückgegriffen werden kann, ermöglichen die Kopfspalten und -Zeilen der erscheinenden Korrelationsmatrix zunächst eine Identifikation der Meßwertreihen. Die Korrelationstabelle selbst informiert uns über: *

den Wert des Korrelationskoeffizienten (z.B. ry X j = 0,981),

*

den Umfang der statistischen Masse (n = 10 Elemente),

*

das Signifikanzniveau des Korrelationskoeffizienten.

Wenn Signifikanzniveauwerte kleiner als 0,005 ausgewiesen werden, kann von einer signifikanten Korrelation gesprochen werden. Diesem Anspruch genügen in unserem Beispiel die Beziehungen *

Y = f(Xi) und

*

Y = f(X 3 )

Korrelationen Korrelationen

Korrelation nach Pearson

Signifikanz (2-seitig)

Ν

Ausgaben

Ausgaben 1,000

Nettoeinkommen/ Monat

,981"

Haushaltsmitglieder

,312

Wohnungsgröße Ausgaben

,868"

Nettoeinkommen/ Monat Haushaltsmitglieder Wohnungsgröße Ausgaben

Nettoeinkommen/ Monat Haushaltsmitglieder ,981" ,312 1,000 ,288 ,890" ,000

,000 ,380

,288

,890'

1,000 ,472

1,000

,472

,380

,001

,419

,001 ,168

10

,168 10

10

10

10

10

10

Haushaltsmitglieder

10

10

10

Wohnungsgröße

10

10

10

10 10

Nettoeinkommen/ Monat

,001 10



,419 ,001

Wohnungsgröße ,868*'

" · Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.

Demnach ist davon auszugehen, daß neben der Einkommenssituation auch die Größe der Wohnung den Verbrauch an elektrischer Energie maßgeblich beeinflußt. Allerdings wird auch deutlich, daß ein signifikanter Zusammenhang auch für die Beziehung Einkommen ο

Woh-

nungsgröße ermittelt wird (r XlX3 = 0,890); ein Aspekt, der bei der Konstruktion eines multiplen Schätzansatzes zu berücksichtigen wäre.

6

295

Statistische Analysen

Aufgabe Nr. 10: Berechnung von Zeitreihenkomponenten Gegeben seien Quartalswerte einer Zeitreihe. Gefragt sind Aussagen über die langfristige Grundrichtung der Reihe, die konjunkturelle Situation, das Saisonmuster sowie die saisonbereinigten Zeitreihenwerte. SPSS benötigt für das Zeitreihenmodul mindestens 4 aufeinanderfolgende Jahre. I

II

III

IV

1991

89

51

58

141

1992

172

111

110

181

1993

219

126

106

172

1994

255

120

98

196

Quartale

Zuerst definieren wir eine Werte-Variable. Anschließend muß eine Zeitkomponente definiert werden. Dieses geschieht über den Menüpunkt [DATEN], [DATUM DEFINIEREN...]. Hier kann man die gewünschte Zeitkomponente einstellen z.B. Jahr, Quartal oder Jahr, Monat usw. Für unsere Zeitreihe stellen wir die Zeitkomponente auf Jahre, Quartale ein. Wir tragen anschließend den 1. Fall ein, d.h. Jahr =1991 und Quartal = 1. 0 0 O h n e Titel - S P S S Datei &

Bearbeiten @

H P J E 3

Daten-Editoi

Ansicht

Daten

m

Transformieren

Statistik

1*1

Grafiken ϋM -

Ejjtras

Eenster

hPe

m

1:year_ werte

year_

quarter_

date

89

1991

Q1 1991

51

1991

Q 2 1991

58

1991

Q 3 1991

141

1991

Q 4 1991

172

1992

Q1 1992

111

1992

Q 2 1992

110

1992

Q 3 1992

181

1992

Q 4 1992

219

1993

Q1 1993

10

126

1993

Q 2 1993

11

106

1993

Q31993

var

Zi ISPSS-Prozessor ist bereit "

296

6 PC-gestützte Datenanalyse mit SPSS

Wir finden die saisonale Zerlegung im Menüpunkt [STATISTIK],

[ZEITREIHEN],

[SAISONALE ZERLEGUNG...]· SPSS bietet uns die Möglichkeit zwischen zwei saisonalen Verknüpfungen: *

multiplikative Verknüpfung

*

additive Zerlegung

In die Variablenliste muß die Variable übernommen werden, die zerlegt werden soll. In unserem Fall ist es die Variable „werte". Die Gewichtung der gleitenden Durchschnitte kann entweder über alle Punkte gleich sein, oder so, daß die Endpunkte mit 0,50 gewichtet werden. Wir wählen fur unser Beispiel die additive Verknüpfung mit der genannten Gewichtung. Results of SEASON procedure for variable WERTE Additive Model. Centered M A method. Period = 4. Seasonal index 64,021 -36,271 -45,646 17,896

Period 1 2 3 4

The following new variables are being created: Name

Label

ERR_1 SAS_1 SAF_1 STC_1

Error for WERTE from SEASON, MOD_2 ADD CEN 4 Seas adj ser for WERTE from SEASON, MOD_2 ADD CEN 4 Seas factors for WERTE from SEASON, MOD_2 ADD C E N 4 Trend-cycle for WERTE from SEASON, MOD_2 ADD CEN 4

Die folgenden Saisonwerte wurden also von SPSS ermittelt: Quartal Saisonwert

I

II

III

IV

64,021

-36,271

-45,646

17,896

Um eine fallweise Auflistung der Werte zu erhalten, aktivieren wir den dazugehörigen Menüpunkt und erhalten folgende Auswertung:

6

297

Statistische Analysen

Results of SEASON procedure for variable WERTE. Additive Model. Centered MA method. Period = 4.

Ql Q2 Q3 Q4 Ql Q2 Q3 Q4 Ql Q2 Q3 Q4 Ql Q2 Q3 Q4

DATE_ 1991 1991 1991 1991 1992 1992 1992 1992 1993 1993 1993 1993 1994 1994 1994 1994

Moving WERTE averages 89, 000 51, 000 58, 000 95,. 125 141, 000 113,. 000 172, 000 127, 000 111, 000 138,, 500 110, 000 149,,375 181, 000 157,, 125 219, 000 158,,500 126, 000 156,875 106,000 160,,250 172, 000 164,, 000 255, 000 162,,250 120, 000 164,,250 98, 000 196,. 000

Seasonal Ratios factors 64,, 021 -36,,271 -37,,125 -45, 646 28,, 000 17,, 896 45,, 000 64,, 021 -27,, 500 -36,,271 -39,,375 -45,, 646 23,,875 17,,896 64,, 021 60,,500 -30,875 -36,271 -54,,250 -45,646 17,, 896 8,, 000 92,, 750 64,, 021 -44,,250 -36,,271 -45,, 646 17,, 896

Seasonally Smoothed adjusted trend- Irregular series cycle component 44,, 072 24,, 979 -19,093 15,306 87,,271 71,, 965 103,, 646 96,, 072 7, 574 123,, 104 8, 981 114,, 123 -16,907 107,, 979 124, 887 147,, 271 139,,475 7, 796 155,, 646 150,, 072 5, 574 163,, 104 157,, 789 5,315 154,, 979 -3,130 158,,109 157,,475 4,796 162,,271 -7,648 151,646 159,, 294 154,104 162,, 900 -8,796 25,537 190,, 979 165,,442 156,, 271 163,,363 -7,093 -15,694 143,, 646 159,, 340 19,241 178,, 104 158,, 863

The following new variables are being created: Name

Label

ERR_2 SAS_2 SAF_2 STC_2

Error for WERTE from SEASON, M0D_3 A D D CEN 4 Seas adj ser for W E R T E from SEASON, M0D_3 A D D CEN 4 Seas factors for WERTE from SEASON, M0D_3 A D D CEN 4 Trend-cycle for WERTE from SEASON, M0D_3 A D D CEN 4

Der Originalwert setzt sich demnach wie folgt zusammen: Datum

Glatte +

Originalwert = (Y)

Saison +

Rest

Komponente

Ql 1991

89,000 =

44,072 +

64,021 +

-34,933

Q2 1991

51,000 =

71,965 +

-36,271 +

15,306

0 3 1991

58,000 =

96,072 +

-45,646 +

7,574

141,000 =

114,123 +

17,896 +

8,981

Q4 1991 usw.

Anmerkung: Auf die Problematik, aus zugrundeliegenden Zahlen ohne Nachkommastellen solche mit Dezimalstellen zu errechnen, sei verwiesen. Die nun im Ausgaben-Navigator aufgelisteten Werte finden wir im Daten-Editor wieder. Hier wurden für die ermittelten Werte eigene Variablen erzeugt und unter diesen abgelegt. Wir sind bisher von einer additiven Verknüpfung ausgegangen. Unsere trend- und konjunkturbereinigte Zeitreihe läßt sich also wie folgt berechnen: TKB(t) - Y(t) - G(t) - S(t) + R(t)

298

6 PC-gestützte Datenanalyse mit SPSS Datum

TKB (t) =

Y(t) -

G(t)

Q1 1991

44,982 =

89,000 -

44,072

0 2 1991

-20,965 =

51,000 -

71,965

usw. Wir können aber auch den bereinigten Trend errechnen lassen. Wir gehen hierzu in den Daten-Editor und wählen den Menüpunkt [TRANSFORMIEREN], [BERECHNEN]. Unter dem Punkt „Zielvariable" geben wir den neu zu erstellenden Variablennamen ein, in unserem Fall „TKB". Anschließend können wir Typ und Label dieser Variable bestimmen. Als numerischen Ausdruck können wir die Formel werte - stc l eingeben. Es ergeben sich die trendbereinigten Werte: I

II

III

IV

1991

44,93

-20,97

-38,07

26,88

1992

47,11

-28,47

-40,07

23,21

1993

60,89

-31,47

-53,29

9,10

1994

89,56

-43,36

-61,34

37,14

Quartale

Alle anderen Zeitreihenkomponenten können direkt aus obiger Tabelle abgelesen und über den Menüpunkt [GRAFIKEN], [SEQUENZ...] dargestellt werden.

Zeitreihenkomponenten 300

200 trend-,konjunkturbereinigte Werte Quartalswerte Glatte Komponente Saisonfaktoren saisonbereinigte Werte

-100 Q1 1991

Q1 1992 Q3 1991

Q1 1993 Q3 1992

Quelle: Eigene Berechnungen

Q1 1994 Q31993

Q31994

6 Statistische Analysen

299

Aufgabe Nr. 11: Berechnung eines Periodogramms Errechnen Sie für die Zeitreihe aus Aufgabe 10 das Periodogramm. Im Menü [GRAFIKEN], [ZEITREIHEN], [SPEKTRAL...] findet sich die Möglichkeit der Periodogrammdarstellung. Da Periodogramme nur über sogenannte stationäre Zeitreihen berechnet werden können, ist es notwendig, eine Transformation dergestalt vorzunehmen, daß die Originalwerte um ihren Mittelwert bereinigt werden. Dies erreicht man etwas umständlich durch die Berechnung des arithmetischen Mittels über [STATISTIK],

[ZUSAMMENFASSEN],

[HÄUFIGKEITEN...],

das

in

[TRANSFORMIEREN], [BERECHNEN...] dann manuell abgezogen wird. '! V a r i a b l e b e r e c h n e n Numerischer Ausdruck:

Zielvariable:

werte-137,81 ^

|werte_st

" 3

d

Typ und Label... | date_ < uarter year_

Η

-d-i-Ld ' I s m _l JÜ-5LGJ 1|2|3|

JlAlJj ""I

~|

(]|

0 I I Löschen!

Funktionen:

[ ^

j

ABS(numausdr) ANY(test,wert,wert„..) ARSIN(numausdr) ARTAN(numausdr) CDFNORM(zwert) CDF.ßERNOULLI(q,p]

r j

Falls...

OK

|

Einfügen

Zurücksetzen

Abbrechen

Hilfe

Die neue Variable „werte_st" wird dann der Spektralanalyse unterzogen. Man erhält folgende Ergebnisse, wenn man im SPSS Ausgabe Navigator per Doppelklick auf das Diagramm den Diagramm Editor öffnet und über [DIAGRAMM], [ACHSE] die Y-Achse auf einen linearen Maßstab mit einem Minimum von 0 umgestellt wird:

300

6 PC-gestützte Datenanalyse mit SPSS

Periodogramm von WERTE_ST

Häufigkeiten Quelle: Eigene Berechnungen

Die Frequenzen geben an, wie oft sich Schwingungen im gesamten Untersuchungszeitraum (= 16 Quartalswerte) wiederholen. So bedeutet in unserem Beispiel eine Frequenz von 2, daß sich die Schwingung alle 8 Quartale wiederholt. Beobachtungszeitraum: 16 / Frequenz: 2 = Periode: 8 SPSS setzt die Frequenz stets in Bezug zu einer normierten Periodenlänge von 1; was unter Umständen Interpretationsvorteile bietet. Die Frequenz von 0,50000 repräsentiert beispielsweise in unserem Fall die Periodenlänge 2 (0,50000 · 2) = 1.

Aufgabe Nr. 12: Berechnung einfacher Indizes Der Absatz eines Gutes hat sich in den Regionen Α und Β wie folgt entwickelt: Jahr 1

Jahr 2

Jahr 3

A

40

80

120

Β

200

240

280

Vergleichen Sie die zeitliche Entwicklung in beiden Regionen. Nach

der

Datendefinition

und

-eingäbe

können

die

[TRANSFORMIEREN], [BERECHNEN...] indiziert werden.

Zeitreihen

im

Menüpunkt

6

301

Statistische Analysen

ZiBlyaiatte

regionb" 0.5

FS[b

I l p und Label.. I

w

< 1 >;l I I IFixationen: | *• | _J :J .iJ.il6i ABS(nunausdt) NY(teit.werl.wert,.) •1 -I--I 11 Üal A AHSlNinumausdr) Α II Ρ I I ARTAN[numa«td)i CDFNORM(w i ef)t CDFB . ERNOULUalpi Fjfc,., |

zi *! —i zi

n | gmückigteen j Abbrachen H i e

-Ohle Iilel - SPSS Daten-Editoi jenieten StatistikfirafikenEjfti« £eroter üle ßat« fieafbeiten AnsichtTianD tfoatm aS|H|#| «I e | fc|&| Ml fllilMlsBll 3:reg_a |S23 var var regiona regionb reg_a reg_b 40 200 100 ff) 100.00 1 80 200 ff) 120 ff) 2 240 120 140.00 3 200 300ff)| 4 S 6 .. 7 Iβ 9 1» 1t WJ i S P S S - P r o z e s s o r ist b e f e i t "



[

man

var

Ε

_ Γ

d ιs Π

Dazu wird die Zielvariable reg_a bzw. reg_b eingegeben. Anschließend werden die Formeln definiert; sie lauten: • region a · 2.5 • region b · 0.5 Bei der Berechnung von Preis- und Mengenindizes handelt es sich gleichermaßen um einfache mathematische Manipulationen. Der Einsatz eines aufwendigen Programms wie SPSS lohnt sich nur, wenn komplexere Tatbestände als im vorliegenden Beispiel zu analysieren

302

Literaturverzeichnis

Weiterführende Literatur Abels, H:

Wirtschafits- und Bevölkerungsstatistik, 3.Auflage, Köln, Opladen 1991

Anderson, O.:

Probleme der statistischen Methodenlehre in den Sozialwissenschaften, Würzburg 1954

Bleymüller, J.: Gehlert, G.: Gülicher, H.:

Statistik fur Wirtschaftswissenschaftler, 8. Auflage, München 1992

Chatfield, C.:

Analyse von Zeitreihen, München 1982

Ferschl, F.:

Deskriptive Statistik, 3. Auflage, Würzburg, Wien 1985

Hujer, R.: Cremer, R.:

Methoden der empirischen Wirtschaftsforschung, München 1978

Johnston, J.:

Econometric Methods, 2nd Edition, New York u.a. 1972

Kuchenbecker, H.:

Grundzüge der Wirtschaftsstatistik, 2. Auflage, Herne, Berlin 1973

v.d. Lippe, P.:

Wirtschaftsstatistik, 4. Auflage, Stuttgart 1990

Lohse, H.: Ludwig, R.:

Statistik in Forschung und Beruf. Ein programmierter Lehrgang. Erfassung, Aufbereitung und Darstellung statistischer Daten, 2. Auflage, Leipzig 1977

Wetzel, W.:

Statistische Grundausbildung fur Wirtschaftswissenschaftler. I Beschreibende Statistik, Berlin, New York 1971

Die folgenden Bücher werden vor allem wegen ihrer zahlreichen Beispiele und Übungsaufgaben zur Ergänzung empfohlen: Abels, H.: Degen, H.:

Übungsprogramm Wirtschafts- und Bevölkerungsstatistik., Studienprogramm Statistik für Betriebs- und Volkswirte, 3. Auflage, Wiesbaden 1991

Härtung, J.: Heine, B.:

Statistik Übungen., Deskriptive Statistik., 3. Auflage, München, Wien, 1990

v.d. Lippe, P.:

Klausurtraining in Statistik, 4. Auflage, München, Wien 1992

303

Stichwortverzeichnis

A abhängige Variable 133 Abhängigkeit 106 Ablauf einer traditionellen Zeitreihenanalyse 191 absolute Häufigkeit 24,25 absolute Konzentration 89, 92, 97 absolutes Niveau 239 Abweichungsquadratsumme 78 additiver Ansatz 176 Aggregation 157 Aggregatschreibweise 251 Amplitude 205,207 analytische Statistik 3 , 4 , 7 8 Anteilswert 90 äquidistante Zeitreihe 154, 216 arithmetisches Mittel 52, 58, 252 ASA III-Verfahren 224 ASA II-Verfahren 194,223 ASA I-Verfahren 194 Assoziationskoeffizient nach Fechner 115 asymmetrische Verteilung 81, 82 Ausreißer 227 Autokorrelation 143,217 Autokorrelationskoeffizient 219 Autokovarianz 218 Β Balkendiagramm 40 Basiseffekt 192 Basisjahr 250 Basisperiode 241,249,253 bedingte absolute Häufigkeiten 105 bedingte relative Häufigkeiten 105 bedingte Verteilung 104,105 bedingter Mittelwert 106 beobachtete Häufigkeit 110 Beobachtungswert 3, 8,10,23,28 Beobachtungszeitraum 158 Berichtsjahr 250 Berichtsperiode 249,253 Berichtszeitpunkt 239 Berichtszeitraum 239 Berliner Verfahren 194,224 Bessel-Korrektur 78 Bestandsfortschreibung 238 Bestandsgröße 157 Bestandsmasse 237

Bestimmtheitskoeffizient 129, 149 Bestimmtheitsmaß 147, 175 Bewegungsmasse 237 Beziehungstafel 102 Beziehungszahl 231,237 Binnenklassenstreuung 77 Binnenstreuung 75 Bundesbankverfahren 194, 195 C Carli-Preisindex 252 CENSUS-Verfahren 194,202 D Datenmatrix 8, 23 Datenreduktion 1 Deflationierung 260 deskriptive Statistik 3 , 4 deterministisches Verfahren 194 Dichtefunktion 49, 204 dichtester Wert 52,54 diskretes Merkmal 11 Disparitätsmaß 100 Dispersion 88 Drobisch-Preisindex 259 Dummyvariable 193 durchschnittliche absolute Abweichung 71,72 Durchschnittsbildung 158 Ε eindimensionale Häufigkeitsverteilung, Darstellung 39 eindimensionale Verteilung 23 einfache Indizes 239 einfache Preismeßzahl 250 einfache Transformation 171 einfacher Preisindex 243 Einfachkorrelationskoeffizienten 149 Einfachregression 133, 144 eingipflige Verteilung 81 Einzelobjekte 9 Elastizität 170 empirische Verteilung 74, 87,110 endogene Variable 133 Erhebungszeitraum 157 erwartete Häufigkeit 111 Erwartungswert 218

304

Stichwortverzeichnis

etikettierter Beobachtungswert 24 exogene Variable 133 Exponential Smoothing 181 Exponentialfunktion 171 Exponentialtrend 170 Exponentielle Glättung 181 exponentieller Trend 170 Extremwertbereinigung 203,223 Extremwerte 52, 55, 58, 62, 65, 70

F Fenster 221 Filter 221 Fisher-Preisindex 259 flache Verteilung 79, 85 flächenproportionale Darstellung 39 Formmaßzahl 51,79 Fourier-Analyse 194, 204 Fourier-Integral 220 Fourierkoeffizient 208 Fourier-Koeffizient 209 Fourier-Reihe 194,205 Fourier-Transformation 216 Freihandtrend 165 Frequenz 159,204,205 Frequenzband 221 Frequenzdarstellung 209

G Gamma Koeffizient 118 Geldentwertung 247 geometrisches Mittel 52, 65 gewogener gleitender Durchschnitt 179 gewogenes arithmetisches Mittel 61 gewogenes geometrisches Mittel 65 gewogenes harmonisches Mittel 61 gewöhnliches Moment 80 Gini-Koeffizient 93, 96 Glatte Komponente 161,195 Gleichverteilungsgerade 89 gleitende Durchschnitte 179,195 Gliederungsmerkmal 60 Gliederungszahl 231,232 globale Index 247 globale Indizes 231,247 globale Preisindizes 248 globaler Preisindex 243 Glockenkurve 74, 79 Graphik 23 graphische Darstellung 37

Grundgesamtheit 3, 78,216 gruppierte Daten 30 Gruppierung 30, 32, 33,35 Gruppierung, Darstellung 48 Gruppierungsvorschrift 35 Η Harmonische Analyse 194,205 harmonische Funktion 205 harmonisches Mittel 52,61,258 Häufigkeitsdichte 54 Häufigkeitstabelle 23, 25,26 Häufigkeitsverteilung 5, 24,28, 32, 51 häufigster Wert 54 Herfindahl-Index 97 Heteroskedastizität 143 Histogramm 44,48 höhenproportionale Darstellung 39 I Identifikationsmerkmal 7 , 9 Indexpunkte 239 Indexreihe 242 Index-Schemata 258, 262 Indifferenztafel 108 Indizes 231 Indizierung 239 Inflationsrate 247 institutionelle Faktoren 162 intensitätsmäßiges Merkmal 15 Interkorrelation 146 Intervallskala 14,16, 58 Κ kalenderbedingte Faktoren 162 kalenderbereinigte Werte 204 Kalenderunregelmäßigkeiten 203 Kardinalskala 13, 15, 38, 58 Kardinalskala, Darstellung 42 Klassenbreite 32 Klassengrenze 33,48,49 Klassengrenze, exakte 34 Klassengrenze, obere 34 Klassengrenze, untere 34 Klassenhäufigkeit 48 Klassenhäufigkeiten 31 Klassenmitte 33,49, 54 Klassenmittelwert 59 klassische Zeitreihenanalyse 195

305

Stichwortverzeichnis Klassische Zeitreihenanalyse 194 Kleinste-Quadrate-Verfahren 139,143, 166,211 Komponentenschätzung 189 Komponentenverknüpfung 196 konditionale Verteilung 104 Konjunkturanalyse 226 konjunkturbereinigter Wert 180 Konjunkturkomponente 160,161 Konjunkturschätzung 179 Kontingenz 109 Kontingenzkoeffizient 113 Kontingenzmaß 110 Kontingenzmaße 109 Kontingenztafel 109,110 Konzentrationsmaß 51, 88, 100 Konzentrationsmessung 89 Korrelation 109 Korrelationskoeffizient 218 Korrelationskoeffizient nach BravaisPearson 123 Korrelationskoeffizient nach Fechner 124 Korrelationskoeffizienten nach BravaisPearson 147 Korrelationsmaße 109 Korrelationsrechnung 101, 109 Korrelationstabelle 109,124 Korrelogramm 219 korrigierter Phi-Koeffizient 112 Kovarianz 126, 128,218 KQ-Regressionsfunktion 140,165 Kreisdiagramm 37 Kumulation 26 L Lageparameter 51,52 Längsschnittsdaten 150 Laspeyres-Mengenindex 260 Laspeyres-Preisindex 254 Laspeyres-Volumenindex 261 latente Variable 133,138 Lebenshaltungskostenindex 252 lineare Regression 137 lineare Regressionsfunktion 137 linearer Korrelationskoeffizient 132 Linearer Korrelationskoeffizient 129, 142 linearer Trend 166 lineares einfaches Bestimmtheitsmaß 148 Linienzug 43 links gerichtete Asymmetrie 81

linksschiefe Verteilung 82 linkssteile Verteilung 81 logistischer Trend 170,171 Lorenzkurve 90 Lorenz-Münzner-Konzentrationsmaß 94 Lowe-Preisindex 258 Μ Manipulation einer stat. Analyse 16 Marshal-Edgeworth-Preisindex 259 Maße der Kurtosis 79 Maßkorrelationskoeffizient 129 Median 55 mehrdimensionale Verteilung 101 Mehrfachregression 133 Mehrfeldertafel 102 Mengenindex 247 Mengenindizes 260 Merkmalsausprägung 8,24,30, 35 Merkmalsklasse 30,31,35 Merkmalsträger 8, 26,45 Messen, Meßskala 12 Meßfehler 227 Meßzahl 231,239 metrische Skala 11, 13, 15 Minimumeigenschaft 57 Mittelwerte 51,52 Modalklasse 54 Modus 54 Momente einer Verteilung 79 Momentenkoeffizient 84 multiplikativer Ansatz 162,176 Ν Näherungsverfahren 171 natürliche Ursachen 162 nichtlineare Regression 145 nichtlinearer Trend 171 Niveauunterschied 193 Nominalskala 12,15, 39, 54 Nominalskala, Darstellung 39 Normalgleichung 141, 168 Normalverteilung 74,79,217 Normalverteilungsannahme 216 Nyquistfrequenz 210

Ö ökonometrisches Modell 193 Ordinalskala 13,15, 16, 38, 55

306

Stichwortverzeichnis

Ordinalskala, Darstellung 40 Ordnungsnummer 55 Ordnungsziffer 13 Ρ Paasche-Mengenindex 260 Paasche-Preisindex 256 Paasche-Volumenindex 261 Parameter, statistische 23 parametrische Darstellung 51 Pearson'scher Kontingenzkoeffizient 113 Periodenlänge 204 periodische Funktion 205 Periodogramm 204, 209 Phase 205,207 Phasendurchschnittsverfahren 183, 192 Phi-Koeffizient 112 Polygonzug 43, 45 potentieller Trend 170 Potenztrend 170, 172 Preisbereinigung 260 Preisindex 247,252 Preismeßzahl 243 primäre Verteilungstafel 28,58 Problembereiche der Zeitreihenanalyse 226 Produktmoment-Korrelationskoeffizient 129, 132, 149 Professionelle Zeitreihenanalyse 194 Prognose auf der Basis von Zeitreihen 229 Punktwolke 136

Q qualitatives Merkmal 15 Qualitätsveränderungen 254 Quartilsabstand 70 Quartiisdistanz 71 Quartiiskoeffizient 82 Querschnittsanalyse 5,154 Querschnittsdaten 51, 150 Quoten 232

R Randklasse 49 Randklassen 32 Randverteilung 102 Randwerte 181 Rangdaten 40 Rangkorrelation 109

Rangkorrelationskoeffizient nach Spearman 122 Rangkorrelationsmaß 115 Rangkorrelationsmaße 109 Rangkorrelationstabelle 109,115 Rangordnung 13 Rangziffer 54, 55 räumliche Abgrenzung 7 rechts gerichtete Asymmetrie 82 rechtsschiefe Verteilung 82 rechtssteile Verteilung 82 regelmäßige Saisonfigur 228 Regressionsanalyse 133 Regressionsfunktion 136 Regressionskoeffizient 142 Regressionsparameter 133, 137 Regressionsrechnung 101, 134 relative Häufigkeit 24 relative Häufigkeiten 25 relative Konzentration 88 relative Wachstumsraten 240 Residualanalyse 143 Residuum 138, 147 Resthäufigkeit 28 Restkomponente 161,227 Restkomponentenbestimmung 184 Richtung der Abhängigkeit 134

S sachliche Abgrenzung 7 Saisonanteil 161 Saisonbereinigung 189 Saisonfaktor 184 Saisonkomponente 160,161 Saisonschätzung 183 Sättigungsniveau 171 Schätzfehler 174 Schätzfunktion 133 Scheidewert 57 Schiefekoeffizient 82 Schiefemaße 79 schließende Statistik 3 Schwerpunktkoordinaten 124,141 sekundäre Verteilungstafel 31, 59 Skala, Skalieren 12 Skalenniveau 16 Spannweite 69 Spektralanalyse 194,205,216 Spektrum 219 spitze Verteilung 79, 85

307

Stichwortverzeichnis Stabdiagramm 40 Standardabweichung 73,74 Standardfehler der Schätzung 150 Stationarität 218 statistische Einheit 7, 9 statistische Kennziffer 51 statistische Masse 7, 9, 231 statistische Methodenlehre 1,17 statistisches Objekt 8,25 stetiges Merkmal 11,42 Stichprobe 3,78,216 Stichprobenverteilung 78 stochastischer Zusammenhang 194 Streifendiagramm 40 Streuungsdiagramm 134,136 Streuungsdiagramm 166 Streuungsparameter 51,69 Streuungszerlegung 77 Stromgröße 157 Strukturbruch 145 Strukturveränderungsgeschwindigkeit 234 Strukturwandel 232 Stützbereich 200 Stützfrequenz 210 Summe der quadrierten Abweichungen 175 Summenbildung 158 Summenhäufigkeit 26 Summenhäufigkeitsverteilung 28 Summenpolygon 47,49 Symmetrieeigenschaft 51 Symmetriemaße 79, 81 Systematik der Korrelationsrechnung 109 Τ tabellarische Darstellung 23 Tabelle 23 Tabellenfach 36 Teilgesamtheit 77 Teilgesamtheit 60 Tempo des Strukturwandels 233 theoretische Verteilung 79,110,111 traditionelle Zeitreihenanalyse 165 Trend 160 trendbereinigter Faktor 177 Trendbereinigung 175,209 Trendfaktor 177 Trendkomponente 160, 161 Trendschätzung 165 Trendwert 177

Treppenzug 45 trigonometrische Polynome 207 U Umbasierung 242 Umsatzmeßzahl 251 Umschlagshäufigkeit 238 unabhängige Variable 133,143 Unabhängigkeit 106,143, 216 ungewogener gleitender Durchschnitt 180 univariate Verfahren 164 Untersuchungsgegenstand 4, 242 Untersuchungsmerkmal 7, 9,10,23,26, 242 Untersuchungsziel 4 Urliste 23,24, 53, 96 V Variablentransformation 137 Varianz 73 Varianz der bedingten Verteilung 106 Varianz der Residuen 150 Variationskoeffizient 73, 78 Verhältnisskala 14, 16 Verhältniszahl 231 Verkettung 243 Verteilungsfunktion 28,40,45 Verteilungsfunktionen 26 Verursachungszahlen 237 Verweildauer 238 Vierfelderkoeffizient 112 Vierfeldertafel 112 Vollerhebung 3 Volumenindex 247 Volumenindizes 260 Voijahresvergleich 192

W Wachstumsfaktor 66 Wachstumsrate 66,170,250 Wachstumsratenanalyse 192 Wägungsschema 253 Warenkorb 249 Wellenlänge 205 Wirtschaftsdiagnose 159,160 Wirtschaftsprognose 160 Wölbung 51 Wölbungsmaße 79 Wölbungsmaßzahlen 85

308

Stichwortverzeichnis Ζ

zeitliche Abgrenzung 7 Zeitreihenanalyse 5, 159 Zeitreihenregression 152

zentrales Moment 80 Zentralwert 52 Zufallskomponente 160 Zwischenklassenstreuung 77