238 30 32MB
German Pages 319 [320] Year 2001
Deskriptive Statistik mit einer Einführung in das Programm SPSS
Von
Professor Dr. Heinz-Jürgen Pinnekamp und
Professor Dr. M. Frank Siegmann
4., erweiterte und überarbeitete Auflage
R.01denbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Pinnekamp, Heinz-Jürgen: Deskriptive Statistik : mit einer Einführung in das Programm SPSS / von Heinz-Jürgen Pinnekamp und Frank Siegmann. - 4., erw. und Überarb. Aufl.. - München ; Wien : Oldenbourg, 2001 ISBN 3-486-25654-8
© 2001 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-25654-8
Vorwort zur vierten Auflage Im Vorwort zur 1. Auflage dieser Einführung in die Deskriptive Statistik haben wir auf die Diskrepanz zwischen den Erwartungen der Praxis an die Statistikkenntnisse der Absolventen von Hochschulen und der Dominanz der Schließenden Statistik in der Lehre hingewiesen. Diese Situation hat sich geändert. In der Lehrbuchliteratur überwiegen inzwischen die Titel zur Beschreibenden und Explorativen Statistik. Als zukünftige Führungskräfte werden Studierende zunehmend mit dem Thema Datenanalyse konfrontiert. Gleich ob in der Marktforschung, dem Vertrieb, dem Personal- oder Rechnungswesen; statistische Kenntnisse sind die unerläßliche Voraussetzung, um aussagekräftige Entscheidungsalternativen klar zu formulieren und verständlich darzustellen. Die vorliegende Einführung zeigt deshalb neben der Darstellung der Methoden der Deskriptiven Statistik, wie diese in der konkreten Entscheidungssituation sinnvoll angewendet werden können. Die methodischen Ausführungen werden durch zahlreiche Beispiele ergänzt; anhand der Übungsaufgaben kann der Leser die Verfahren und Probleme selbst nachvollziehen und einüben. Die bewußt einfach gehaltenen Beispiele sollen dazu anregen, die in dieser Einführung dargestellten methodischen Ansätze über die eigene Anwendung zu begreifen. Hierzu muß auch im Zeitalter weitreichender EDV-Unterstützung zunächst einmal selber gerechnet und trainiert werden. Den gesamten Text dieser 4. Auflage haben wir überarbeitet und aktualisiert; gänzlich neu ist beispielsweise das abschließende, die Handhabung eines PC-Statistiksystems erläuternde Kapitel. Hier haben wir uns der Marktentwicklung angepaßt. Die Lösimg der in dieser Einführung benutzten Übungsaufgaben erfolgt jetzt mit SPSS. Außerdem wurde z.B. die Auswertung von Rangkorrelationstabellen um den Gamma-Koeffizienten erweitert und das vierte Kapitel um Ausführungen zur Erwerbslosenquote ergänzt. Die formale Umsetzung leistete diesmal Herr Oliver Burghardt, für dessen Unterstützung wir uns auf diesem Wege nochmals herzlich bedanken.
Heinz-Jürgen Pinnekamp Frank Siegmann
INHALTSÜBERSICHT 0 ALLGEMEINER TEIL 0.1 0.2 0.3 0.4 0.5
DAS ZIEL DER STATISTIK DIE STATISTISCHEN METHODEN IM ÜBERBLICK EINIGE STATISTISCHE GRUNDBEGRIFFE SKALENTYPEN ZUR GLAUBWÜRDIGKEIT DER STATISTIK
1 1 3 5 12 17
1 DARSTELLUNG EINDIMENSIONALER EMPIRISCHER VERTEILUNGEN
23
1.0 1.1 1.2 1.3
23 23 37 51
EINFÜHRUNG DIE TABELLARISCHE DARSTELLUNG DIE GRAPHISCHE DARSTELLUNG DIE PARAMETRISCHE DARSTELLUNG
2 ANALYSE MEHRDIMENSIONALER EMPIRISCHER VERTEILUNGEN
101
2.0 2.1 2.2
101 109 133
EINFÜHRUNG KORRELATIONSRECHNUNG REGRESSIONSANALYSE
3 ZEITREIHENANALYSE
154
3.0 3.1 3.2 3.3 3.4
EINFÜHRUNG EIN TRADITIONELLES VERFAHREN PROFESSIONELLE VERFAHREN PROBLEMBEREICHE DER ZEITREIHENANALYSE PROGNOSEN AUF DER BASIS VON ZEITREIHEN
154 165 194 226 229
4 VERHÄLTNISZAHLEN, INSBESONDERE INDIZES
231
4.0 4.1 4.2
EINFÜHRUNG GLIEDERUNGSZAHLEN BEZIEHUNGSZAHLEN
231 232 237
4.3 4.4
MEBZAHLEN BZW. EINFACHE INDIZES KONSTRUKTION UND AUSSAGE GLOBALER INDIZES
239 247
5 SCHLUßBEMERKUNGEN
266
6 PC-GESTÜTZTE DATENANALYSE MIT SPSS
268
6.0 6.1 6.2
268
EINFÜHRUNG ERFASSUNG UND AUFBEREITUNG VON DATENSÄTZEN STATISTISCHE ANALYSEN
270 277
INHALTSVERZEICHNIS VORWORT
V
INHALTSÜBERSICHT
0
ALLGEMEINERTEIL
VII
1
0.1
D A S ZIEL DER STATISTIK
1
0.2
D I E STATISTISCHEN METHODEN IM ÜBERBLICK
3
0.3
EINIGE STATISTISCHE GRUNDBEGRIFFE
0.4
SKALENTYPEN
12
0.5
ZUR GLAUBWÜRDIGKEIT DER STATISTIK
17
1
DARSTELLUNG EINDIMENSIONALER EMPIRISCHER VERTEILUNGEN
1.0
EINFÜHRUNG
1.1
D I E TABELLARISCHE DARSTELLUNG
1.1.1
5
23
23 23
URLISTE UND HÄUFIGKEITSTABELLE
23
1.1.2
VERTEILUNGSFUNKTIONEN
26
1.1.3
GRUPPIERTE DATEN
30
1.1.4
TABELLENAUFBAU UND SYMBOLIK
35
1.2
D I E GRAPHISCHE DARSTELLUNG
37
1.2.1
DARSTELLUNG NOMINAL SKALIERTER MERKMALE
39
1.2.2
DARSTELLUNG ORDINAL SKALIERTER MERKMALE
40
1.2.3
DARSTELLUNG KARDINAL SKALIERTER MERKMALE
42
1.2.4
DARSTELLUNG GRUPPIERTER WERTE
48
1.3
D I E PARAMETRISCHE DARSTELLUNG
1.3.1
1.3.1.1 1.3.1.2 1.3.1.3 1.3.1.3.1 1.3.1.3.2 1.3.1.3.3 1.3.1.4 1.3.2
1.3.2.1 1.3.2.2 1.3.2.3 1.3.2.4 1.3.3
1.3.3.1 1.3.3.2 1.3.4
1.3.4.1 1.3.4.2
LAGEPARAMETER
Lageparameter nominal skalierter Merkmale Lageparameter ordinal skalierter Merkmale Lageparameter kardinal skalierter Merkmale Das arithmetische Mittel Das harmonische Mittel Das geometrische Mittel Zur Konkurrenz unterschiedlicher Mittelwertkonstruktionen
51 52
54 55 58 58 61 65 67
STREUUNGSPARAMETER KARDINAL SKALIERTER MERKMALE
69
Die Spannweite Der Quartilsabstand Die durchschnittliche absolute Abweichung Varianz, Standardabweichung und Variationskoeffizient
69 70 71 73
FORMMAßZAHLEN
Symmetriemaßzahlen Maßzahlen der Wölbung KONZENTRATIONSMAßE
Graphische Darstellung der Konzentration Maßzahlen der Konzentration
79
81 85 88
89 93
X 2
Inhaltsverzeichnis ANALYSE MEHRDIMENSIONALER EMPIRISCHER VERTEILUNGEN
101
2.0
EINFÜHRUNG
101
2.1
KORRELATIONSRECHNUNG
109
2.1.0
EINFÜHRUNG
2.1.1
AUSWERTUNG VON KONTINGENZTAFELN
110
2.1.2
AUSWERTUNG VON RANGKORRELATIONSTABELLEN
115
2.1.2.1
FECHNER RANGKORRELATIONSKOEFFIZIENT
109
115
2.1.2.2.
G A M M A KOEFFIZIENT
118
2.1.2.3
SPEARMAN'SCHE RANGKORRELATIONSKOEFFIZIENT
122
2.1.3
AUSWERTUNG VON KORRELATIONSTABELLEN
124
2.1.3.1
DER FECHNERSCHE KORRELATIONSKOEFFIZIENT
2.1.3.2
DIE KOVARIANZ
126
2.1.3.3
DER PRODUKTMOMENT KORRELATIONSKOEFFIZIENT
129
2.2
REGRESSIONSANALYSE
124
133
2.2.0
EINFÜHRUNG
2.2.1
FACHBEZOGENE HYPOTHESE EINES MÖGLICHEN ZUSAMMENHANGS
133 134
2.2.2
SPEZIFIKATION DER REGRESSIONSFUNKTION
136
2.2.3
SCHÄTZUNG DER PARAMETER
137
2.2.4
ANALYSE DER RESIDUEN
143
2.2.5
NEUSPEZIFIKATION DES ANSATZES
145
2.2.6
PROGNOSE
147
2.2.7
D A S BESTIMMTHEITSMAß
147
2.2.8
REGRESSION UND KORRELATION VON ZEITREIHEN
150
3
ZEITREIHENANALYSE
3.0
EINFÜHRUNG
154
154
3.0.1
AGGREGATION VON W E R T E N
3.0.2
Z U R ZIELSETZUNG DER ZEITREIHENANALYSE
159
3.0.3
METHODISCHE GRUNDLAGEN
160
3.0.4 3.1
ADDITIVE UND MULTIPLIKATIVE VERKNÜPFUNG E I N TRADITIONELLES VERFAHREN
157
162 165
3.1.1
VERFAHREN ZUR TRENDBESTIMMUNG
3.1.2
BERECHNUNG DER KONJUNKTURKOMPONENTE
179
3.1.3
BERECHNUNG DER SAISONKOMPONENTE
183
3.1.4
BERECHNUNG DER RESTKOMPONENTE
184
3.1.5
ZUSAMMENFASSUNG DER KOMPONENTEN
185
3.1.6
SCHÄTZUNG DER SAISONBEREINIGTEN W E R T E
188
3.1.7
HINWEISE AUF SONSTIGE TRADITIONELLE ANSÄTZE
3.2 3.2.1 3.2.1.1 3.2.1.2 3.2.2
PROFESSIONELLE VERFAHREN KLASSISCHE VERFAHREN DAS BUNDESBANKVERFAHREN DAS CENSUS-VERFAHREN FOURIERANSÄTZE
165
192 194 195 195 202 204
3.2.2.1
DIE HARMONISCHE ANALYSE
205
3.2.2.2
DIE SPEKTRALANALYSE
216
3.2.3
GEMISCHTE VERFAHREN
3.2.3.1
DAS A S A I I - 2
3.2.3.2
A S A III UND BERLINER VERFAHREN
222 223 224
3.3
PROBLEMBEREICHE DER ZEITREIHENANALYSE
226
3.4
PROGNOSEN AUF DER BASIS VON ZEITREIHEN
229
Inhaltsverzeichnis 4
VERHÄLTNISZAHLEN, INSBESONDERE INDIZES
XI 231
4.0
EINFÜHRUNG
231
4.1
GLIEDERUNGSZAHLEN
232
4.2
BEZIEHUNGSZAHLEN
237
4.3
MEBZAHLEN BZW. EINFACHE INDIZES
4.3.1 4.3.2 4.4
BERECHNUNG UMBASIERUNG UND VERKETTUNG KONSTRUKTION UND AUSSAGE GLOBALER INDIZES
239 239 242 247
4.4.1
GRUNDGEDANKEN UND SYMBOLIK
247
4.4.2
PREIS-INDEXTYPEN UND -SCHEMATA
252
4.4.2.1
DAS UNGEWOGENE ARITHMETISCHE MITTEL EINFACHER PREISMEßZIFFERN
252
4.4.2.2
DER LASPEYRES-PREISINDEX
254
4.4.2.3
DER PAASCHE-PREISINDEX
256
4.4.2.4
DER LOWE-PREISINDEX
258
EINIGE SONDERFORMEN
259
4.4.2.5 4.4.3
MENGEN- UND VOLUMENINDIZES
260
4.4.4
EINIGE PROBLEME DER AMTLICHEN PREISSTATISTIK
262
5
SCHLUßBEMERKUNGEN
266
6
PC-GESTÜTZTE DATENANALYSE MIT SPSS
268
6.0
EINFÜHRUNG
6.1
ERFASSUNG UND AUFBEREITUNG VON DATENSÄTZEN
268 270
6.2
STATISTISCHE ANALYSEN
277
WEITERFÜHRENDE LITERATUR
302
STICHWORTVERZEICHNIS
303
0
Allgemeiner Teil
0.1 Das Ziel der Statistik Informationssysteme wie z.B. das Rechnungswesen der Unternehmung, die betriebliche Marktforschung oder die amtliche Statistik haben zunächst die Aufgabe, den Benutzer über vergangene Tatbestände und Entwicklungen zu unterrichten. Darüber hinaus erwartet er Informationen, die es ihm erlauben, Konsequenzen von Maßnahmen abzuschätzen, die erst zur Entscheidung anstehen. Die Abgrenzung relevanter Informationen setzt Vorstellungen über die Wirkungszusammenhänge in der realen Umwelt, d.h. das Vorhandensein einer Theorie voraus. Die Güte erhobener und aufbereiteter Daten wird also in erster Linie von der Güte und Relevanz der Fragestellung bestimmt. Die Verantwortung hierfür trägt die jeweilige Fachdisziplin (Medizin, Technik, Wirtschafts- und Sozialwissenschaften etc.). Ist diese Voraussetzung erfüllt, bleibt die Aufgabe, die von der jeweiligen Theorie benutzten Begriffe (z.B. „die Kaufkraft") in ein operationales meßfähiges Konzept zu übertragen und bereits vorhandene Datenbestände nach korrespondierenden Größen zu durchsuchen (z.B. Volkseinkommen, Verfügbares Einkommen usw.). Nun lehrt die Praxis, daß ein Datenlieferant dazu neigt, die Qualität der Information durch Quantität zu kompensieren: Der Benutzer eines Informationssystems wird mit einer Datenfülle konfrontiert, deren Gehalt von ihm im allgemeinen nicht unmittelbar zu überblicken ist. In dieser Situation stellt sich die Aufgabe, die Fülle der Informationen einzuengen, handhabbar zu machen; Komplexität muß reduziert werden. Aufgabe der statistischen Methodenlehre ist es daher, allgemeine Grundsätze und Regeln zu formulieren, die es den jeweiligen Fachvertretern (Technikern, Medizinern,
Soziologen,
Ökonomen
etc.)
erlauben,
Datensätze
so
zu
komprimieren und darzustellen, daß sie überschaubar werden. Im
Mittelpunkt
dieser
Einführung
stehen
Verfahren
zur
Datenreduktion,
die
im
wirtschaftswissenschaftlichen Bereich zur Anwendung kommen. Dieser erste allgemeine Teil vermittelt grundlegende Begriffe der statistischen Methodenlehre. Wir sprechen über die eingesetzten Methoden und informieren den Leser über den Aufbau dieser Einführung in die deskriptive Statistik; wir enden mit einigen kritischen Anmerkungen, die den Leser für statistische Aussagen sensibilisieren sollen.
2
0 Allgemeiner Teil
Wenn man behauptet, der durchschnittliche Deutsche konsumiere im Jahr 159 Liter Kaffee, so wird diese Aussage gerne bewußt mißverstanden. Natürlich wird man nur wenige finden, die tatsächlich genau 159 Liter pro Jahr trinken; Teefreunde werden gar behaupten, ihnen ordne man unzulässigerweise Kaffeekonsum zu. Angegeben werden soll lediglich eine Größe, die eine gewisse Vorstellung von der Menge vermittelt und unter Umständen Vergleiche ermöglicht. Man versucht wieder, Datenmaterial zu verdichten. Das erste Kapitel beschäftigt sich mit solchen sogenannten eindimensionalen Verteilungen. Eindimensional sind Verteilungen dann, wenn wir es nur mit einer Größe zu tun haben, z.B. dem Alter, dem Geschlecht, dem Notendurchschnitt der Teilnehmer eines Kurses oder eben deren Kaffeekonsum. Das zweite Kapitel behandelt (sinnvolle) Abhängigkeiten zwischen zwei eindimensionalen Verteilungen. Hat beispielsweise das Alter einen Einfluß auf den Notendurchschnitt der Teilnehmer? Und wenn ja, welchen? Die beiden folgenden Abbildungen vermitteln den Eindruck, daß die Gewinne bzw. die CO2Konzentration in der Atmosphäre ohne Grenzen steigen werden. Sicher kann die Entwicklung nicht einfach so fortgeschrieben werden. Wir werden im dritten Kapitel solche Größen im Zeitablauf betrachten. 600 550 500 450 «00 350
/
J
/ /
250 J98S 86 8? 88 8!) 90 91 9.2 93 9Λ 95 9f. 97
4P ^ f f i r x Tvtf>
Der Witz: „Nein, Herr Müller, mit 90 Jahren können sie keine Lebensversicherung mehr abschließen." - „Das verstehe ich nicht. In diesem Alter sterben statistisch doch die wenigsten Menschen!" enthält natürlich eine gewisse Weisheit. In Wirklichkeit ist aber die Zahl der Todesfälle im Alter von 90 Jahren auf die Zahl der lebenden 90jährigen zu beziehen. Mit solchen Fragen der korrekten Beziehung verschiedener Größen zueinander beschäftigen wir uns im letzten Kapitel. Immer ist die Basis der Erhebung von zentraler Bedeutung. Ein achter Platz ist gut bei der Teilnahme am New York Marathon, schlecht bei der Hallenstadtmeisterschaft im Fußball. Daß Formel-1 Rennfahrer selten auf öffentlichen Straßen oder bei niedrigen Geschwindigkeiten verunglücken, erscheint ebenfalls einsichtig. Bei entsprechender Verschleierung der Basis wird das Ergebnis verwässert, es läßt sich nicht mehr korrekt vergleichen.
0.2
Die statistischen Methoden im Überblick
3
0.2 Die statistischen Methoden im Überblick Wir können in der Statistik zwei Hauptrichtungen unterscheiden: • die deskriptive Statistik; eine beschreibende oder empirische Wissenschaft, • die analytische Statistik; eine gesetzesfestlegende theoretische oder Erkenntniswissenschaft. Wenn sich ein Dozent ausschließlich über die Zusammensetzung, also die Struktur der von ihm betreuten Kurse informieren möchte, wird er die Beobachtungswerte mit Hilfe der in den nachfolgenden Kapiteln zu besprechenden Techniken tabellarisch und graphisch darstellen sowie insbesondere statistische Kennziffern berechnen. Sein Ergebnis könnte, auszugsweise, etwa so aussehen: Test: Mathematische Vorkenntnisse im SS 2000 an der Fachhochschule Ostfriesland Kurs 1: 59 Teilnehmer •
Mit 42 Teilnehmern überwiegen die männlichen Kursteilnehmer.
•
Die Mehrzahl (= 48 Teilnehmer) hat vor Studienbeginn eine berufliche Ausbildung abgeschlossen.
•
Das „durchschnittliche" Alter der Kursteilnehmer beträgt 21,9 Jahre.
•
Die mathematischen Vorkenntnisse sind bei den einzelnen Studenten deutlich unterschiedlich ausgeprägt, sie streuen erheblich um den „Durchschnittswert".
•
Überproportional viele Studenten haben weniger Vorkenntnisse als der Durchschnitt, die Verteilung der Beobachtungswerte selbst verläuft also asymmetrisch.
•
Die durchschnittliche Abschlußzensur im Fach Mathematik ist bei den männlichen Teilnehmern besser als bei den weiblichen Teilnehmern.
•
Die durchschnittliche Abschlußzensur aller Teilnehmer hat sich gegenüber früheren Kursen verbessert.
Werden die Daten etwa im Rahmen eines mehrere Hochschulen umfassenden Programms erhoben, um daraus Aussagen über das „soziodemographische Profil von Studienanfängern, ihre Einstellung zum Studienfach und Studienort" zu formulieren, reicht die für die deskriptive Statistik typische Technik des Zählens und Messens nicht aus: Schon weil sich eine Vollerhebung aus Kostengründen verbietet, wäre der Statistiker darauf angewiesen, aus der Beobachtung einer (Zufalls-) Stichprobe vom Umfang η auf die Situation in einer Grundgesamtheit vom Umfang Ν zu schließen (analytische Statistik).
4
0 Allgemeiner Teil
Grundaufgaben der Statistik Ν Elemente
η Elemente Auswahl
Auswertung
Interpretation d. Ergebnisse
(= 1. Phase) Stichprobe Rückschluß (= 2. Phase) Grundgesamtheit
Fragen aus der analytischen (bzw. schließenden) Statistik können sein: •
Die Auswertung von η = 59 Meßwerten liefert ein Durchschnittsalter von 20,9 Jahren; zwischen welchen Grenzen liegt mit einer Wahrscheinlichkeit von 95 Prozent das Durchschnittsalter aller Ν Studienanfänger im Lande?
•
Vor der Erhebung mag die Vorstellung existieren, daß sich der Anteil weiblicher Studienanfänger in wirtschaftswissenschaftlichen Studiengängen nicht von dem in sozialwissenschaftlichen Studiengängen unterscheidet. Es stellt sich die Frage, ob aufgrund der aktuellen Befragung diese Hypothese aufrechterhalten werden kann oder ob sie zu verwerfen ist.
Insofern
kann
die
Unterscheidung
beider
Grundrichtungen
aus
dem
jeweiligen
Untersuchungs-gegenstand und dem Untersuchungsziel abgeleitet werden. Untersuchungsgegenstand und -ziel der Deskriptiven und Analytischen Statistik Untersuchungsgegenstand
Untersuchungsziel
Deskriptive Statistik
Stichprobe
Beschreibung von Einzelerscheinungen unserer Umwelt
Analytische Statistik
übergeordnete Gesamtheiten
Formulierung allgemeiner Aussagen über Strukturen von übergeordneten Gesamtheiten
0.2
Die statistischen Methoden im Überblick
5
Ein zweites Kriterium unterscheidet zwischen Querschnittsanalysen und Zeitreihenanalysen. •
Querschnittsanalysen
beziehen sich stets auf einen bestimmten Zeitpunkt bzw. eine be-
stimmte Periode, daher werden sie mitunter auch als Zeitpunktanalysen bezeichnet. Angestrebt
werden
Aussagen
Häufigkeitsverteilungen •
über
die
Struktur
empirischer
oder
theoretischer
zu diesem Zeitpunkt.
Zeitreihenanalysen untersuchen die zeitliche Entwicklung von einzelnen Merkmalswerten oder der aus ihnen berechneten statistischen Kennziffern; sie werden daher bisweilen auch als Längsschnitt- oder Zeitraumanalysen bezeichnet. Angestrebt werden Aussagen über die Entwicklung von Strukturen oder die Entwicklung statistischer Merkmale im Zeitablauf.
Die nachfolgende Übersicht verdeutlicht den Aufbau dieser Einfuhrung in die Wirtschaftsstatistik: 1.
Analyse eindimensionaler empirischer Verteilungen,
2.
Analyse mehrdimensionaler empirischer Verteilungen,
3.
Zeitreihenanalyse,
4.
Verhältniszahlen, insbesondere Indizes.
0.3 Einige statistische Grundbegriffe Bevor wir uns einzelnen Methoden zur Auswertung von Datensätzen zuwenden, ist zu klären, wie Erscheinungen unserer Umwelt überhaupt Datencharakter annehmen. Es ist die Frage zu stellen, wie wir die beobachteten Werte erfassen und messen. Hierzu ein Beispiel: Der für das Fach Statistik zuständige Dozent ist naturgemäß daran interessiert, vor Kursbeginn etwas über die Vorkenntnisse der Teilnehmer zu erfahren. Dies deshalb, weil er beabsichtigt, die Form der Darstellung, die Art der Beispiele und auch die Stoffauswahl auf den Teilnehmerkreis abzustimmen. Nach seinen Überlegungen sind derartige Entscheidungen z.B. abhängig von • der mathematischen und • der beruflichen Vorbildung der Studierenden. Um sich einen Überblick über die mathematischen Vorkenntnisse seiner Zuhörer zu verschaffen, bedient sich der Dozent eines Tests, in dem 29 Fragen innerhalb von 60 Minuten zu beantworten sind.
6
0 Allgemeiner Teil
Hier einige Auszüge, jeweils eine Antwort ist richtig. 1.-4. Äußern Sie sich über den Typus der nachfolgenden Zahlen. Handelt es sich zumindest um reelle, irrationale, rationale, ganze und/oder natürliche Zahlen? Zahl
natürlich
ganz
rational
irrational
reell
2,7 e Q - J
2
Bilden Sie die erste Ableitung y' der Funktion y = a + bx 2 . a) y' = 1 + 2bx
c) y' = 2bx
b) y' = a + bx
d) y' = 2b
Bestimmen Sie die Fläche F zwischen der Parabel y = 3x 2 und der x-Achse in den Grenzen von 0 bis 1
7.
29.
a) F = 0,5
c) F = 1,5
b ) F = 1,0
d) F = 2,0
Welche geometrischen Figuren ergeben sich als Kegelschnitte? a) Kreis
c) Kreis, Ellipse, Parabel
b) Kreis, Ellipse
d) Kreis, Ellipse, Parabel, Dreieck
Wo ist in der folgenden Ziffernfolge die Null einzuordnen? 8 3 1 5 9 6 7 4 2 a) nach der 8
c) nach der 9
b) nach der 2
d) nach der 7
Diesen Test läßt unser Dozent regelmäßig in der 1. Sitzung des Statistikkurses bearbeiten. Ein Vorgehen, das nicht ganz unproblematisch ist, denn der Test soll klären, welche Voraussetzungen die Hörer mitbringen, an die sich der Statistikkurs wendet, und das sind in diesem Fall (gemäß Studienverlaufsplan) Studenten des 1. Semesters. Es stellt sich aber die Frage, ob alle in der ersten Sitzung Anwesenden tatsächlich Erstsemester (und nicht Wiederholer) sind und ob tatsächlich alle Erstsemester an dem Test teilnehmen.
0.3
Einige statistische Grundbegriffe
7
Ein zusätzliches Problem soll nicht verschwiegen werden: Es besteht die Möglichkeit, daß die befragten statistischen Objekte bewußt oder unbewußt falsch antworten (z.B. um das Niveau der zu erwartenden Abschlußprüfiing möglichst niedrig zu halten). Dies ist sicherlich nie ganz auszuschließen. Der Statistiker vertraut i.d.R. darauf, daß derartige „Ausreißer" das Ergebnis dann wenig beeinflussen, wenn die Anzahl der erfaßten Objekte hinreichend groß ist. Eine solche statistische Untersuchung ist deshalb sachlich, räumlich und zeitlich genau abzugrenzen; •
Die vorzunehmende sachliche Abgrenzung ist für die Aussage der Statistik von entscheidender Bedeutung. Insbesondere im Hinblick auf u.U. angestrebte Vergleiche mit der Situation an anderen Hochschulen oder zu anderen Zeitpunkten sind die benutzten Identifikationsmerkmale
sorgfältig festzuhalten: Unser Test geht davon aus, daß aus-
schließlich Studienanfänger daran teilnehmen und (z.B. krankheitsbedingte) Datenlücken vor der Auswertung geschlossen werden können. •
Ebenso zu beachten sind die räumliche und zeitliche Abgrenzung der Erhebung: In unserem Fall ist sicherzustellen, daß ausschließlich Studierende der jeweiligen Hochschule eines bestimmten Ortes in die Erhebung eingehen; sonst sind Überschneidungen mit anderen Tests möglich. Schließlich ist festzuhalten, auf welchen Zeitpunkt sich der Test bezieht; Tests zu Beginn des Wintersemesters führen u.U. zu anderen Ergebnissen als zu Beginn des Sommersemesters.
Die einzelnen Studenten können nun als statistische Einheiten und die Gesamtheit der einbezogenen Studenten, die sich hinsichtlich des Untersuchungsmerkmals X: Testergebnis voneinander unterscheiden, als statistische Masse bezeichnet werden. Unser Dozent stützt sich auf einen bestimmten, von Fachexperten entwickelten Test. Ähnlich wie bei beruflichen Eignungstests oder allgemeinen Intelligenztests ist es daher angezeigt, in die Definition des Untersuchungsmerkmals erläuternde Angaben über das benutzte Meßverfahren aufzunehmen. X = Mathematische Vorkenntnisse, gemessen durch den Test... in der Version ... Zur Kennzeichnung des Untersuchungsmerkmals (hier: Testergebnis, Punktzahl) einer statistischen Analyse werden in der deskriptiven Statistik lateinische Großbuchstaben benutzt. Interessiert sich der Statistiker für eine einzelne Beobachtungsgröße, verwendet er hierzu i.d.R. die Größe X.
8
0 Allgemeiner Teil
Die Werte, die ein Merkmal bei den einzelnen statistischen Objekten oder Merkmalsträgern annehmen kann, werden allgemein mit kleinen lateinischen Buchstaben bezeichnet. Zu unserem Merkmal X gehören die Beobachtungswerte b j , b 2 , . . . , b n . Der nachfolgenden Übersicht ist nun zu entnehmen, daß z.B. die statistische Einheit E j (der Student Fritz K.) als Mitglied der statistischen Masse insgesamt 8 Fragen korrekt beantwortet hat (bj = 8 Punkte); sie resultiert aus den Namen und den Punktesummen aller η = 59 Testbögen. 1
η χ 1 Datenvektor (eindimensionale Statistische Einheit Ε | Ε2
Fritz K. Karl Ζ.
Ej
:
E^q
Simone F.
Verteilung)
beobachtete Merkmalsausprägung bzw. Beobachtungswert bj bj = 8 = 6
j = 1,2 η η = Anzahl der einbezogenen Objekte
Vi b« = 2
Entsprechende Übersichten würden sich auch für andere Untersuchungsmerkmale wie z.B. Alter, Geschlecht und Art der beruflichen Vorbildung der Studenten ergeben. Einfacher zu handhaben als eine Vielzahl solcher verschiedenen Übersichten ist eine Datenmatrix, in die sämtliche Beobachtungswerte eingetragen werden. Werden bis zu zwei weitere Variable untersucht, wird häufig auf die Buchstaben Y und Ζ zurückgegriffen. In praktischen Fällen mit mehr als drei Untersuchungsmerkmalen ist es üblich, nur die Größe X einzusetzen und diese dann zu indizieren (Xj, X 2 ,..., X r
X p ).
Im Interesse einer einheitlichen Schreibweise verwenden wir hierbei ausschließlich numerische Werte: Eventuell auftretenden alphanumerischen Zeichen wird ersatzweise eine Ziffer zugeordnet; den beiden Ausprägungen eines Merkmals X3: Geschlecht der Testteilnehmer z.B. die Ziffern 1 für männlich und 2 für weiblich. Die übliche Ausgangssituation der statistischen Analyse stellt sich danach wie folgt dar: Es existiert eine Menge von statistischen Einheiten, Objekten bzw. Merkmalsträgern. Deren Eigenschaften werden durch ρ Untersuchungsmerkmale X j , . . . , X r ,..., X p beschrieben. Jedes dieser Merkmale hat mindestens zwei Merkmalsausprägungen.
Für den Fall, daß sogenannte „Mehrfachnennungen" zugelassen werden, ist die Zahl der Beobachtungswerte größer als die Zahl der Merkmalsträger. Darauf wird im Rahmen dieser Einführung ebensowenig eingegangen wie auf die Frage, wie etwaige Datenlücken bzw. fehlende Werte zu behandeln sind.
0.3
9
Einige statistische Grundbegriffe
nxp Datenmatrix (mehrdimensionale Verteilung) Untersuchungsmerkmal
1
•.
xr
.•
XP
El
bn
·.
blr
.•
b1n
Ei-
bn
..
bjr
.•
Die Zeile bj' bj „
BEI BUNDESSCHATZBRIEFEN STEIGEN DIE ZINSEN VON 7 , 5 0 % AUF 8 , 5 0 % . !
.
1
1
1
!
I
1
1
1
1
I
I
1
1
1
I
1
. .
1
!
1
1
. ,
I
1
1
1 1
nur Typ Β 8,50%
8,50% JÄHRLICH STEIGENDE ZINSEN
8,25% 8,25% 1
8,00%
I
8,00%
-
-
7,50% 1
.
.
.
I.Jahr
.
1
.
.
.
2. Jahr
.
1
.
.
3. Jahr
.
.
1
•
. . .
4. Jahr
1
.
.
.
B.Jahr
.
1
.
.
.
6. Jahr
.
1
.
.
.
7. Jahr
.
Schließlich sprechen wir auch dann gerne von fehlerhaften Statistiken, wenn wir Zusammenhänge nicht wahrhaben wollen: Trotz gesicherter Aussagen über die Schädlichkeit des Rauchens negiert der Raucher diese Information. Die Gefahr des Straßenverkehrs wird trotz Zehntausender von Toten häufig relativiert 4 ; der angetrunkene Autofahrer übersieht trotz gesicherter Kenntnisse über die nachlassende Reaktionsgeschwindigkeit die Gefahr, die von ihm ausgeht. Den Vorwurf der fehlerhaften Interpretation von Daten trifft nicht die Statistik. Die Auswahl geeigneter Informationen setzt Vorstellungen über die Wirkungszusammenhänge in der realen Umwelt voraus. Man spricht in diesem Zusammenhang auch von einer Theorie, die überprüft werden soll. Die Güte erhobener und aufbereiteter Daten und der daraus abgeleiteten Schlußfolgerungen wird daher in erster Linie von der Güte der Fragestellung bestimmt. Die Verantwortung hierfür trägt die jeweilige Fachdisziplin.
Unter der Überschrift „So wenig Verkehrstote wie vor 39 Jahren" kommentieren die Westfälischen Nachrichten in ihrer Ausgabe vom 9. Dezember 1992 Ergebnisse der Verkehrsstatistik: „Nach Schätzungen des Statistischen Bundesamtes wird die Zahl der Verkehrstoten in diesem Jahr auf den bislang niedrigsten Stand seit 1953 fallen." (1992 7200 Verkehrstote, 1970 19200 Verkehrstote)
1
Darstellung eindimensionaler empirischer Verteilungen
1.0 Einführung Wir beschäftigen uns in diesem
1. Abschnitt zunächst
mit der Darstellung jener
Beobachtungswerte, die sich auf ein einzelnes Untersuchungsmerkmal unserer Erhebung beziehen (eindimensionale Verteilung). Daten aus Querschnittsanalysen können • tabellarisch
(vgl. Kapitel 1.1),
• graphisch
(vgl. Kapitel 1.2),
• parametrisch
(vgl. Kapitel 1.3)
dargestellt werden. Eine Tabelle bietet dem Leser eine exakte Übersicht aller Einzelwerte. Die Graphik will einen visuellen und damit raschen Gesamteindruck der Datenstruktur vermitteln. Beide Darstellungstechniken stellen somit keine Alternativen dar; sie ergänzen sich vielmehr. Im Gegensatz dazu verdeutlichen statistische Parameter oder Kennziffern (z.B. der Mittelwert) stets nur einen bestimmten Teilaspekt der Untersuchung: Sie sollen die vorhandene Information in verkürzter reduzierter Form wiedergeben. Der damit zwangsläufig verbundene Informationsverlust wird im Interesse einer komprimierten knappen Darstellung in Kauf genommen.
1.1 Die tabellarische Darstellung 1.1.1
Urliste und Häufigkeitstabelle
Die Frage nach ihrem Alter haben die η = 59 Studenten, die als Erstsemester den Statistikkurs unseres Dozenten im SS 2000 besucht haben, wie folgt beantwortet: Ungeordnete Zusammenstellung von η = 59 Altersangaben j
1
2
3
57
58
59
b
21
22
22
22
25
20
J
Wir konzentrieren uns also auf eine bestimmte Spalte der η χ p-Datenmatrix des vorigen Kapitels. b' r :
5
b! r , b 2 r , . . . , bj r ,..., b n r
bzw.
b':
b l s b 2 ,..., bj,..., b n
Da wir diese Informationen über eine Beobachtung unserer Umwelt, nicht aber aufgrund theoretischer Überlegungen gewonnen haben, sprechen wir in diesem Zusammenhang von einem empirischen Datensatz.
24
1 Darstellung eindimensionaler empirischer
Verteilungen
Diesen Ausschnitt bezeichnen wir als „Urliste"; ihr sind lediglich die aneinandergereihten beobachteten η Merkmalswerte zu entnehmen: Im Hinblick auf das Untersuchungsziel ist dieser Datensatz noch ungeordnet. Die Urliste ist eine ungeordnete Zusammenstellung, im vorliegenden Fall von η = 59 Altersangaben; sie ist Grundlage der statistischen Analyse und kann auch als Zusammenstellung von etikettierten Beobachtungswerten
bezeichnet werden. Ihre Grundlage sind in unserem
Fall 59 Zettel mit Angaben über das Lebensalter in Jahren. Sonstige Informationen, etwa die Namen der Studenten, sind auf diesen Etiketten nicht vermerkt. Anders ausgedrückt: Ausgangspunkt der statistischen Arbeit sind nichtpersonifizierte Daten. Eine elementare statistische Tätigkeit besteht nun darin auszuzählen, wieviele Studenten jeweils ein bestimmtes Alter besitzen. In unserem Fall waren z.B. die sechs jüngsten Testteilnehmer jeweils 19 Jahre alt und das älteste Erstsemester hatte bereits das 35. Lebensjahr vollendet. Wenn wir die absolute bzw. relative Häufigkeit für das Auftreten der Merkmalsausprägung X] = 19 mit h j bzw. f j , die der Ausprägung x 2 = 20 mit h 2 bzw. f 2 usw. bezeichnen, stellt sich das Erhebungsergebnis übersichtlicher als in der Urliste dar. Nach diesem Wechsel von der Urliste zur Häufigkeitstabelle betrachten wir nun nicht mehr die Beobachtungswerte (b, = 1, 2,..., n), sondern die möglichen Merkmalsausprägungen (xj = 1, 2, ..•, m) und deren Häufigkeiten h, und fj. Häufigkeitsverteilung:
h; = f(xj)
i = 1,2, ...,m
kzw' fi = f(xi)
m = Zahl der Merkmalsausprägungen
Eine Häufigkeitsverteilung oder -funktion ist also eine tabellarische Darstellung aller Ausprägungen xj eines Untersuchungsmerkmals mit den dazughörigen absoluten oder relativen Häufigkeiten hj bzw. f;. In unserem Fall sieht sie folgendermaßen aus:
1.1
25
Die tabellarische Darstellung
Häufigkeitstabelle: lfd. Nr. i
Zusammenstellung der geordneten Altersnennungen unter Angabe der absoluten und relativen Häufigkeiten ihres Auftretens
Ausprägung x;
absolute Häufigkeit hj
relative Häufigkeit fj
1
xj = 19 (Jahre)
hj =
6
2
x 2 = 20 (Jahre)
h2 =
7
f j = (6/59)=0,1017 f 2 = (7/59) =0,1186
3
X3 = 21 (Jahre)
h 3 = 10
f 3 = (10/59)=0,1695
4
x 4 = 22 (Jahre)
h 4 = 13
f 4 = (13/59)=0,2203
5
x 5 = 23 (Jahre)
h5 =
4
f 5 = (4/59) =0,0678
6
x 6 = 24 (Jahre)
h6 =
6
f 6 = ( 6/59) =0,1017
7
X7 = 25 (Jahre)
h7 =
3
f 7 = ( 3/59) =0,0508
8
Xg = 26 (Jahre)
h8 =
2
f 8 = (2/59) =0,0339 f 9 = (2/59) =0,0339
9
X9 = 27 (Jahre)
h9 =
2
10
x 1 0 = 28 (Jahre)
f 1 0 = ( 1/59) =0,0169
x n = 29 (Jahre)
h10= hn=
1
11
-
f
=
n
=
(0/59) =0,0000
12
X|2 30 (Jahre)
h12 =
1
f 1 2 = ( 1/59) =0,0169
13
Xl3=
31 (Jahre)
h13=
-
f 1 3 = (0/59) =0,0000
14
Xj4=
32 (Jahre)
h14=
2
f 1 4 = (2/59) =0,0339
15
Xl5=
33 (Jahre)
h15=
1
f 1 5 = (1/59) =0,0169
16
x
h
" 1
f 1 6 = (0/59) =0,0000
59
1,0000
=
16 34 (Jahre) X l 7 = 35 (Jahre)
17
Summe:
16= h17=
f17=
(1/59)=0,0169
Neben den absoluten Häufigkeiten hj haben wir in die Häufigkeitstabelle die relativen Häufigkeiten fj aufgenommen; sie ergeben sich, indem wir die jeweiligen hj-Werte auf die Gesamtzahl der statistischen Objekte η beziehen. (Sollen die relativen Häufigkeiten in Prozenten ausgedrückt werden, erhält man diesen Prozentsatz durch Multiplikation mit 100.) Da nun jedes statistische Objekt genau einmal einer bestimmten Merkmalsausprägung zugeordnet wurde, gilt (vgl. die Schlußzeile der Häufigkeitstabelle) regelmäßig
• 0
< hj < η
mit i = Laufindex möglicher Merkmalsausprägungen
Σ hj = η . 0 < f j < 1,00 Σή=
(mögliche Rundungsfehler sind zu beachten!)
1,00
in unserem Beispiel (m=17) hj+ h 2 + ... + h 1 7 = n = 5 9 und f j + f 2 + ... + fj7 = 1,00.
26
1 Darstellung eindimensionaler empirischer Verteilungen
Es sollte nicht unerwähnt bleiben, daß sich die Vereinbarung Lebensaltersangaben abzurunden von der ansonsten für stetige Merkmale gültigen Konvention unterscheidet. Wenn wir z.B. die Brenndauer von Glühlampen untersuchen (festgehalten und notiert sind auf ein Zehntel Zeiteinheiten gerundete Beobachtungswerte), werden wir üblicherweise alle jene Lampen der Ausprägung χ = 19 (ZE) zuordnen, fur die gilt: 18,5 (ZE)
{x u x f ) Λ (yf > Y » ) ] U [ ( Χ * < χ - ) Λ (y* < y»)]
Ist die Wertigkeit des Merkmalsträgers Α entweder hinsichtlich der Ausprägimg Xj oder aber der Ausprägung yj entgegengesetzt zur Wertigkeit der Merkmalsträgers B, spricht man von Diskordanz (nicht übereinstimmend). Derartige Fälle werten wir als Indiz für eine negative oder entgegengesetzte Korrelation! Formal kann ein diskordantes Ausprägungspaar für zwei Merkmalsträger Α und Β bezüglich zweier ordinalskalierter Merkmale X und Y mit den Ausprägungen x;, i = 1, 2,..., mx und yj, j = 1,2,... my wie folgt dargestellt werden. > *,B) -
(Yϊ
< Y?)] ^
< *?) -
(Yt
>
YF)]
Gamma-Koeffizient y = K-D K+D
39
Κ = Anzahl der konkordanten Wertepaare D = Anzahl der diskordanten Wertepaare
Vgl. hierzu Eckstein P.P : Angewandte Statistik mit SPSS, Wiesbaden 1997, S. 206.
2.1
121
Korrelationsrechnung
Die Bestimmung konkordanter und diskordanter Ausprägungspaare wird verdeutlicht durch die Kreuztabelle unseres Beispiels: Die im Norden auf Rang 1 piazierte Sorte © nimmt auch im Süden höherwertige Rangplätze, als die Sorten 2, 4, 8, 10 und 11, ein. Allein in diesem Fall ergeben sich 5 konkordante Ausprägungspaare. Vergleichen wir alle Positionen, ermitteln wir auf diese Weise insgesamt 31 übereinstimmende
Ausprägungspaare.
Addieren wir die Häufigkeiten jener Biersorten, die im Vergleich zu Sorte © im Norden schlechter und im Süden besser beurteilt werden, zählen wir 6 diskordante Fälle. Insgesamt sind es 35 diskordante Ausprägungspaare. Biersorten im Urteil ihrer Konsumenten -Kreuztabelle\ R . Rn \ 1 2 3 4 5 6 7 8 9 10 11 12 Κ
1
2
3
4
5
6
7
8
9
γ =
11
12
A . 1 1 1 1 Θ 1 1 1 1 1
= 1 (1+1+1+1)
1 D
= 1 (1+1+1+1)
+ 3(1+1+1)
+ 2(1+1+1)
+ ©(1+1+1+1+1+1)
+ 3(1+1+1+1)
+ © (1+1+1+1+1)
+ © (1+1+1+1+1+1)
+ 7(1+1)
+ 8(1+1+1+1+1+1)
+ 8(1+1+1+1)
+ 9(1)
+ 9(1+1+1+1)
+ 10(1+1)
+ 10(1+1)
+ 11 (1+1+1+1+1+1+1+1+1)
+ 12(1) κ
10
= 31 K-D 31-35 4 = = = -0,6061 K + D 31 + 35 66
D
= 35
122
2 Analyse mehrdimensionaler empirischer Verteilungen
Wir registrieren in unserem Beispiel also ein leichtes Übergewicht der diskordanten Ausprägungspaare. Als Gamma-Koeffizient wird der Wert γ = - 0,6061 ausgewiesen, dies deutet auf einen schwachen, gegenläufigen Zusammenhang zwischen den Präferenzen in Nord und Süd. Charakteristik des Gamma-Koeffizienten • Gamma nimmt Werte nahe 1 an, wenn alle Objekte entlang der Diagonale von 1,1 zu mx, my konzentriert sind; Werte nahe -1 werden erreicht, wenn die Objekte entlang der Diagonale von mx>l zu lm y konzentriert sind. Gamma ist ein normiertes Assoziationsmaß: -1 < γ < 1 • Gamma läßt solche Wertepaare unberücksichtigt, die bei einer der Variablen den gleichen Wert aufweisen (= Bindungen oder ties). Daher steigt der Wert des Koeffizienten relativ stark an, wenn die Kategorienzahl der Variablen durch Gruppierung verringert wird. „Bei der Berechnung von Gamma sollte daher ... die ursprüngliche Kategorisierung der Variablen beibehalten werden". 40 2.1.2.3 Spearman'sche Rangkorrelationskoeffizient Um die Messung zu verfeinern, stellt der Spearman'sche Rangkorrelationskoeffizient
auf die
Rangnummern der Merkmalsausprägungen ab. Dazu ordnet man die Merkmalsausprägungen der Variablen X und Υ der Größe nach und nummeriert sie von 1 bis η durch. 4 1 Jedem Element des statistischen Kollektivs werden also zwei Rangnummern und damit auch eine Distanz der Rangplätze zugeordnet. 1,
• ·,
j,
.,
η
- Variable X
*1,
·
Xj,
·'
x
- Variable Υ
yi>
· ·,
Yj.
·· ·.
yn
Differenz der Rangziffern
dl,
· .,
dj,
. ·,
dn
Element Rangnummer
n
Matiakse, W.: Statistische Datenanlyse mit Mikrocomputern, a. a. O. S. 90. Auf den Fall, daß einzelne Merkmalsausprägungen mehrmals auftreten, Elemente also den gleichen Rangplatz aufweisen, wird hier nicht eingegangen, vgl. hierzu z.B. Ferschl, F., Deskriptive Statistik, a.a.O., S. 287.
2.1
Korrelationsrechnung
123
Der Spearman'sche Rangkorrelationskoeffizient rs ist nun nichts anderes als der später noch genauer zu besprechende Korrelationskoeffizient Ρ nach Bravais-Pearson fur metrische Merkmale, der hier auf die Rangnummern angewandt wird. Deshalb können wir uns hier auf ein Beispiel sowie die Angabe von Rechenrezepten beschränken. - 1 < rs < + 1 Beispiel:
Für eine Gruppe von 6 Studenten soll untersucht werden, ob ihre in der Vorprüfung festgestellten Rangnummern dem späteren Ergebnis im Examen entsprechen.
Student
Rangplatz im Vorexamen X
1 2 3 4 5 6
1 4 3 5 6 2
Σ
21
d=
d2 =
Rangplatz Y
(χ-y)
(x-y)2
1 3 2 6 5 4
0 1 1 -1 1 -2
0 1 1 1 1 4
21
0
8
Diplomergebnis Noten 1 2+ 14 3 3+ -
Der Spearman Rangkorrelationskoeffizient ist dann einfach zu berechnen, wenn man zuerst die Differenz der Rangnummern d bestimmt. Die nachfolgende Formel gilt allerdings nur dann, wenn wie in unserem Beispiel alle χ und y jeweils paarweise verschieden sind, also keine ties auftreten. rs = 1 -
6 Σd2 n · (n 2 -1)
d = Differenz der Rangnummern η = Anzahl der stat. Elemente
6 · 8,00
Der Korrelationskoeffizient nach Bravais-Pearson ist allgemein definiert als l(x-x)»(y-y) rs = • |Z(x-x)2*Z(y-y)2 13,5 = 0,7714 V17,5'17,5
-
21
-y =
21 T
χ = — =3,5 6 ας = 3,5
124
2 Analyse mehrdimensionaler empirischer Verteilungen
Diese Werte erhielten wir durch folgende Hilfstabelle: Element
(x-x)
(x-x)2
( x - x)(y- y)
(y-y)2
(y-y)
1 2 3 4 5 6
-2,5 +0,5 -0,5 +1,5 +2,5 -1,5
6,25 0,25 0,25 2,25 6,25 2,25
-2,5 -0,5 -1,5 +2,5 +1,5 +0,5
6,25 0,25 2,25 6,25 2,25 0,25
+6,25 -0,25 +0,75 +3,75 +3,75 -0,75
Σ
0
17,50
0
17,50
13,50
2.1.3 2.1.3.1
Auswertung von Korrelationstabellen Der Fechnersche Korrelationskoeffizient
Dieses sehr leicht zu berechnende Korrelationsmaß überträgt das der Berechnimg von F zugrundeliegende Prinzip auf die Belange metrischer Merkmale. Als Schwerpunktkoordinaten werden jetzt die arithmetischen Mittelwerte χ ^ und y ^ verwendet. Beide Werte teilen die Korrelationstabelle in vier Quadranten, die Berechnung von F selbst erfolgt analog zu der unter 2.1.2 beschriebenen Vorgehensweise r
_ n i - n2 η
Beispiel:
η, + n 2 = η
Im Rahmen einer Untersuchung über die Einflußgrößen des Energieverbrauchs wurden für 10 ausgewählte Haushalte die nachfolgenden Werte (Jahresdurchschnitte) ermittelt: X:
monatliches Nettoeinkommen (in 1000 DM)
Y:
Ausgaben für Elektrizität je Monat (in 100 DM)
Haushalt
1
2
3
4
5
6
7
8
Einkommen
3,0
0,7
1,9
3,5
1,3
1,6
0,9
2,5
Ausgaben für Elektrizität
1,2
0,4
0,9
1,3
0,6
0,7
0,6
1,1
10
Σ
0,5
1,1
17
0,4
0,7
9
x A = 1700,-:
durchschnittliches monatliches Einkommen
yA =
durchschnittliche Ausgaben für Elektrizität je Monat
79,-:
7,9
2.1 Korrelationsrechnung
125
Wir können nun das Korrelationsmaß nach Fechner für unsere 10 Haushalte berechnen: (-)
(+)
Σ
(-)
6
0
6
(+)
0
4
4
Σ
6
Y X
n F = PI - 2 η
4
xA=
1.700,-
ΫΑ=
79,-
10
n j = 10 n2 = 0
10-0 10 = +1,0 F erreicht in diesem Beispiel seinen maximalen Wert und beschreibt die enge positive Korrelation zwischen dem Haushaltseinkommen und den Ausgaben fur Haushaltsenergie. Der gleiche Wert ergibt sich unter Verwendung des Ansatzes F=
2V - η
V = Σ v, wobei 1: in den Fällen (-,-) und (+,+) ν=1
1/2: sofern x-x oder y - y = 0 1/4: sofern x-x und y - y = 0 0: sonst
im Beispiel: F =
2V-10 10
ν = ι ο · ι + ο · - + ο · - + ο·ο 2 4 = 10
20-10 10 = +1,0
126 2.1.3.2
2 Analyse mehrdimensionaler empirischer Verteilungen Die Kovarianz
Bereits unter 2.1.2 haben wir kritisch angemerkt, daß F die genaue Lage der Wertepaare innerhalb der Quadranten vernachlässigt. Durch den Rückgriff auf ein Verfahren, das bereits den Informationsgehalt ordinal skalierter Merkmale nicht vollständig ausschöpft, geht die wesentliche Information metrischer Daten verloren. Um den Informationsgehalt metrischer Merkmale besser auszunutzen, bilden wir zunächst die Differenzen χ - χ α und y - y α und bestimmen dann die Produkte dieser Differenzen. Durch diese Produktbildung charakterisieren wir die Lage der Wertepaare innerhalb der vier Quadranten sehr viel genauer als durch eine nur auf das Vorzeichen abstellende Betrachtung: Wir erfassen auf diese Weise die Entfernung eines Wertepaares vom Zentrum der zweidimensionalen Verteilung. Als Maß dieser Entfernung verwenden wir die mit Vorzeichen versehene Rechteckfläche (x - XA)(y - yA)· Als Maß fur die Straffheit des Zusammenhanges zwischen den Variablen X und Y verwenden wir die durchschnittliche Entfernung aller η Wertepaare vom Schwerpunkt der Verteilung, die sogenannte Kovarianz βχγ. η _ _ Σ ( χ - x ) ( y - y) s xy = ηr
=
ΙΏχ niy, . Σ Σ ( χ ϊ - x ) ( y j - y ) • h,j :η
10 Haushalte und ihre „Entfernung vom Zentrum der zweidimensionalen empirischen Verteilung"
100
50 1000 2000 3000
α•
α ο
150
D
ο y-y
• x-x P(x.y) ο α
χ ή = 1700,-
VA = 79
Bevor wir einige allgemeinere Betrachtungen über den Wertebereich der Kovarianz anstellen, sollen Möglichkeiten zur Berechnung dieser Größe beispielhaft dargestellt werden.
2.1
Korrelationsrechnung
127
10 Haushalte, Kovarianzberechnung HH
X
y
(X-X)
(y-y)
(x- x)(y- y)
χ*y
1 2 3 4 5 6 7 8 9 10
0,5 0,7 0,9 1,1 1,3 1,6 1,9 2,5 3,0 3,5
0,4 0,4 0,6 0,7 0,6 0,7 0,9 1,1 1,2 1,3
-1,2 -1,0 -0,8 -0,6 -0,4 -0,1 0,2 0,8 1,3 1,8
-0,39 -0,39 -0,19 -0,09 -0,19 -0,09 0,11 0,31 0,41 0,51
0,468 0,390 0,152 0,054 0,076 0,009 0,022 0,248 0,533 0,918
0,20 0,28 0,54 0,77 0,78 1,12 1,71 2,75 3,60 4,55
Σ
17,0
7,9
0
2,870
16,30
SXY XY =
10
0
= +0,287
Rechenvarianten: (1)
Will man das Rechnen mit den Abweichungen vermeiden, kann man analog zur Berechnung der Varianz einer eindimensionalen Verteilung wie folgt vorgehen:
sxy =
η Σχ-y
- **y
ΤΤΙχ m y S
XY
_ Σ Σχί-yi-hii
SXY = x*y - x*y
_ - _ x-y im Beispiel:
16,3 - 1,7 · 0,79 10 = +0,287 (2)
Eine modifizierte Schreibweise ergibt sich, wenn wir von den Beobachtungswerten deren Mittelwert subtrahieren und mit den Differenzen operieren.
2 Analyse mehrdimensionaler empirischer Verteilungen
128
Wie wir bereits am Beispiel eindimensionaler Verteilungen gezeigt haben, ist die Streuung invariant gegenüber Verschiebungen um einen konstanten Betrag. Es gilt daher s
xy =
s
*
— ~~ϊ * * ~* xy = χ * y - χ * y
Da die transformierten Größen x* und y* Mittelwerte von Null aufweisen, gilt: S
XY = x* · y*
Angewandt auf unser Beispiel: *
*
*
*
HH
X
y
X
y
1 2 3 4 5 6 7 8 9 10
0,5 0,7
0,4 0,4
-1,2 -1,0
-0,39 -0,39
0,468 0,390
3,0 3,5
1,2 1,3
1,3 1,8
0,41 0,51
0,533 0,918
Σ
17,0
7,9
0
0
2,870
χ ·y
s X Y = x* · y* = M * = +0,287 10 Abschließend noch einige allgemeine Bemerkungen zur Kovarianz: (1)
Das Vorzeichen informiert uns über die Richtung, in der beide Größen variieren. S
XY > 0
Die Merkmalswerte variieren in gleicher Richtung·, d.h. bei steigenden xWerten steigen tendenziell auch die y-Werte (und umgekehrt!)
S
XY < 0
Die Merkmalswerte variieren in entgegengesetzter Richtung; d.h. bei steigenden x-Werten sinken tendenziell die y-Werte (und umgekehrt!)
Sxy = 0 (2)
Im Unabhängigkeitsfall ist die Kovarianz gleich Null.
Die Kovarianz stellt ab auf lineare Abhängigkeiten. Sind beide Variablen nicht linear verbunden, ist die Kovarianz kein geeigneter Parameter zur Beschreibung der Straffheit des Zusammenhangs. Liegen z.B. sämtliche Wertepaare auf einer Parabel, entsprechen sich die positiven und negativen Rechteckflächen und die Kovarianz wird Null, obwohl ein perfekter nichtlinearer Zusammenhang vorliegt.
2.1
129
Korrelationsrechnung
(3) Auch im Fall einer linearen Abhängigkeit liefert die Kovarianz eine nur unvollkommene Information über das Ausmaß der Entsprechung. Dies deshalb, weil die Varianzen der Variablen den Wert der Kovarianz beeinflussen. Angenommen, wir untersuchen die Beziehungen zwischen den Variablen X und Y1 sowie X und Y11. Als Korrelationsmaß ist jeweils die Kovarianz zu bestimmen. Mittelwert
S2
S
42
XY
X
1
2
3
4
5
3
2
Yl
1
1,5
2
2,5
3
2
0,5
1
γΐΐ
1,25
1
2
3
2,75
2
0,625
1
In beiden Fällen liefert die Kovarianz den Wert 1; während nur im Fall I eine perfekte lineare Abhängigkeit vorliegt (alle Wertepaare liegen auf der Geraden Y = 0,5 + 0,5 · X), streuen im Fall II die Wertepaare um diese Funktion. 2.1.3.3
Der Produktmoment Korrelationskoeffizient
Die Grundidee dieses Parameters ist es, den von den Streuungen der einzelnen Verteilungen ausgehenden störenden Einfluß zu eliminieren. Dieser Effekt wird erreicht, wenn wir die Kovarianz durch das Produkt der Standardabweichungen von X und Y dividieren. ρ
_ X Y
sXY s
_
s
x* Y
Σ ( χ - x ) ( y - y) ^ / Σ ( χ - χ ) 2 · Σ ( γ - y) 2
Dieses normierte Zusammenhangsmaß wird auch bezeichnet als • Korrelationskoeffizient nach Bravais Pearson, • Maßkorrelationskoeffizient, • Linearer Korrelationskoeffizient oder • Bestimmtheitskoeffizient r (vgl. Abschnitt 2.3). -1 < PXY < + 1
Das Beispiel wurde entnommen aus: Yamane, T., Statistik, Ein einführendes Lehrbuch, Band 1, Deutsche Erstausgabe, Frankfurt 1976, S. 394 ff.
130
2 Analyse mehrdimensionaler empirischer Verteilungen
Unser Beispiel von oben zeigt nun differenzierte Parameter: r
r
1
XY ι
= +1
^2*0,5 1 V 2 · 0,625
XY
= +0,89
Unser Demonstrationsbeispiel verdeutlicht, daß wir auf diese Weise, ähnlich wie bei der Berechnung des Variationskoeffizienten, eine Maßzahl erhalten, die unabhängig ist von den Dimensionen der jeweils betrachteten Variablen und hier nur Werte zwischen -1 und +1 annehmen kann. Definitionsbeziehungen sind für praktische Berechnungen in der Regel nicht sonderlich geeignet. Auch für Ρχγ werden alternative Schreibweisen und Berechnungshinweise angeboten. Am Beispiel der 10 Haushalte wird auf einige dieser Varianten hingewiesen. (1)
Die Definitionsbeziehung liefert das Ergebnis
r
s X Y = + 0,287
SXY Vsx2-sY2
XY
„2
0,287 V0,922· 0,0929
_ 38,12 - 1,72 = 0,922 10
= +0,9806...
(2)
1 = —Σ χ 2 · η
syl
= — - 0,792 = 0,0929 10
Will man das Rechnen mit Abweichungen und Mittelwerten vermeiden, kann man direkt mit den Beobachtungswerten operieren (= mittelwertfreie Schreibweise). Aus Ρ
Σχγ - η·χ y XY
ρ
χγ
" V(lx
2
- ηχ2)(Σγ2 - n ? )
_
ηΣχγ - Σ χ Σ γ ^[ηΣχ
2
- ( Σ χ ) 2 ] [ η Σ ν 2 - (Σγ) 2 ]
erhalten wir P
XY
10· 16,3 - 17*7,9 2
_ 2
V(l0*38,12 - 17 )(l0*7,17 - 7,9 ) = +0,9806...
28,7 V92,2 «9,29
2.1
Korrelationsrechnung
131
Bilden wir das Quadrat des linearen Korrelationskoeffizienten, wird die enge Beziehung zur im nächsten Abschnitt 2.2 anzusprechenden (linearen) Regressionsrechnung deutlich sichtbar. o2 Γχ
_ nZxy - Z x l y η Σ χ 2 - (Σχ)2
"
nZxy - Z x Z y nZy 2 - ( l y ) 2
Die beiden Faktoren auf der rechten Seite der Gleichung entsprechen den Steigungen der linearen Regressionsfunktionen. bj: Steigung der yx-Regressionsgeraden
Pxy = b l * b 2
b^. Steigung der xy-Regressionsgeraden (3)
Eine weitere Berechnungsvariante ergibt sich, wenn wir mit den standardisierten Beobachtungswerten operieren. χ- χ
*
sx y * = y- -— yS
Y
Es gilt: —
P
XY
_
X * = 0η y = η0 * 1
^ Σ ( χ * - x*)(y·- y·) *_ η P * * XY s x · sY
Sx
=1
Sy* = 11 Ρ χ γ = χ * · y* Angewandt auf unser Beispiel *
*
HH
X
y
X
y
1 2 3 4 5 6 7 8 9 10
0,5 0,7 0,9 1,1 1,3 1,6 1,9 2,5 3,0 3,5
0,4 0,4 0,6 0,7 0,6 0,7 0,9 1,1 1,2 1,3
-1,2497 -1,0414 -0,8332 -0,6249 -0,4166 -0,1041 0,2083 0,8332 1,3539 1,8746
-1,2795 -1,2795 -0,6234 -0,2953 -0,6234 -0,2953 0,3609 1,0171 1,3452 1,6733
Σ
17,0
7,9
0
0
χ* · y * 1,5990 1,3325 0,5194 0,1845 0,2597 0,0307 0,0752 0,8474 1,8213 3,1368 9,8064
132
2 Analyse mehrdimensionaler empirischer Verteilungen
XY
_ 9,8064 10 = +0,9806...
Abschließend noch einige allgemeine Bemerkungen über die Eigenschaften des linearen Korrelationskoeffizienten: (1)
Der Produktmomentkorrelationskoeffizient basiert auf der Idee der Kovarianz; das für die Kovarianz Gesagte gilt entsprechend. •
Beide Maße unterstellen eine lineare Beziehung zwischen den Variablen X und Y.
•
Das Vorzeichen beider Maße informiert über die Richtung der (linearen) Variabilität.
Beide Maße unterstellen außerdem, daß sowohl die x-Werte als auch die y-Werte variieren. Ist eine der Variablen konstant, werden beide Größen bedeutungslos. (2)
Im Gegensatz zur Kovarianz ist der lineare Korrelationskoeffizient ein normiertes Zusammenhangsmaß und deshalb leichter zu interpretieren.
(3) Zu berücksichtigen ist stets der deskriptive Charakter des linearen Korrelationskoeffizienten. Werte < 0,5 gelten gemeinhin als Indiz für eine eher schwache Korrelation.
2.2
133
Regressionsanafyse
2.2 Regressionsanalyse 2.2.0
Einführung
Nachdem wir im vorigen Abschnitt die grundsätzliche Abhängigkeit zwischen zwei Merkmalen untersucht haben, wollen wir im folgenden versuchen, eine mathematische Funktion zu formulieren, die diese Abhängigkeit beschreibt.
43
Die Aufgabe der Regressionsanalyse besteht darin, durch eine angemessene und möglichst einfache mathematische Funktion die Änderungen einer Variablen zu beschreiben, die durch Änderungen einer anderen Variablen ausgelöst werden: Y = fPQ + e Es wird angenommen, daß die abhängige Variable Y von der unabhängigen Variablen X erklärt wird; Y bezeichnet man deshalb häufig auch als die zu erklärende (endogene) Variable; X ist danach die erklärende (exogene) Variable. Natürlich wollen wir eine Funktion f(X) finden, die einen Großteil der Variabilität der Daten erklärt und wir den Fehler ε (die sogenannte Störkomponente) vernachlässigen können. Auf den Einfluß von sogenannten latenten Variablen ist es zurückzufuhren, daß die Beziehung Y = f (X) in der Praxis direkt nicht beobachtet werden kann. 44 Wir sind deshalb darauf angewiesen, die Parameter der gesuchten Regressionsfunktion zu schätzen. Um diesen Tatbestand zu verdeutlichen, wird die abhängige Variable (mit dem Dachsymbol) besonders gekennzeichnet: Y - f(X) YX-Regressionsfunktion Unter Beachtung der Definitionsbeziehung έ = Y - Ϋ folgt daraus der Schätzansatz Υ = Ϋ + ε . Um zu verdeutlichen, daß sich die quantifizierten Beziehungen stets auf einen empirischen Datensatz (xi, yj) mit i = 1,2
η beziehen, wechseln wir zur Schreibweise y, = f(x;) yx-Regressionsfunktion
bzw. zu y = yj
+
Die Suche nach einer mathematischen Funktion setzt metrisch skalierte Merkmale voraus; die Regressionsrechnung kann, bis auf hier nicht näher erläuterte Ausnahmen, nicht für nominal- oder ordinalskalierte Merkmale verwandt werden. Im Gegensatz zu den Naturwissenschaften die dem Experiment offenstehen, kann in den Wirtschaftswissenschaften die Wirkung von nicht unmittelbar in die Untersuchung einbezogenen sogenannten latenten Variablen nicht ausgeschaltet werden.
134
2 Analyse mehrdimensionaler empirischer Verteilungen
Im Rahmen dieser Einfuhrung wollen wir uns auf die Berechnung von Einfachregressionen beschränken, die nur zwei Variablen berücksichtigen; Mehrfachregressionen untersuchen Beziehungen zwischen drei und mehr Variablen: Y = f (Xj, X 2 , X 3 ) ..., X n ) Die einzelnen Schritte, die zur Verifizierung geeigneter Funktionen durchgeführt werden, sind: •
Ableitung eines vermuteten Zusammenhangs aus der fachbezogenen Theorie,
•
Spezifikation bzw. Auswahl einer geeigneten Funktion,
•
Schätzung der Parameter dieser Funktion,
•
Überprüfung der Regressionsergebnisse anhand von Streuungsdiagrammen,
•
eventuelle Neuspezifikation des Ansatzes,
•
Prognose,
•
Berechnung des Bestimmtheitsmaßes.
2.2.1
Fachbezogene Hypothese eines möglichen Zusammenhangs
Hypothesen über mögliche Beziehungen zwischen zwei Variablen kann uns nur die fachbezogene Theorie liefern. Die Ökonomie liefert uns beispielsweise den Zusammenhang: „Die Ausgaben der einzelnen Haushalte für Konsumgüter Y werden im wesentlichen bestimmt durch die verfugbaren Einkommen X". Grundsätzlich läßt die Statistik bei zwei Variablen auch zwei Richtungen der Abhängigkeit zu: Y = f (X) und X = f(Y). Von inhaltlichem Interesse ist zumeist aber nur eine dieser beiden Funktionen. In der Regel besteht eine bestimmte Abhängigkeitsvorstellung des Benutzers, die eine der beiden Funktionen auszeichnet. Unter Umständen erlaubt eine makroökonomische Betrachtung über die Beziehungskette „Ausgaben für Konsumgüter führen zu zusätzlichem verfügbaren Einkommen bei den in der Konsumgüterindustrie Beschäftigten" auch die Schlußfolgerung X = f (Y). Eine derartige Umkehrung ist nicht die Regel und im Einzelfall theoretisch abzusichern, auch wenn der reine Rechenvorgang natürlich zu einem Ergebnis führt. Die aus dem jeweiligen Fachgebiet übernommenen Hypothesen sollen nun mit Hilfe der Empirie überprüft werden. Dies ist die Aufgabe der eigentlichen Regressionsrechnung.
2.2 Beispiel:
135
Regressionsanalyse
Im Rahmen unserer Untersuchung über die Einflußgrößen des Energieverbrauchs wurden für 10 ausgewählte Haushalte die nachfolgenden Werte (Jahresdurchschnitte) ermittelt:
X: monatliches Nettoeinkommen (in 1000 DM) Y: Ausgaben für Elektrizität je Monat (in 100 DM) 1
2
3
4
5
6
7
8
9
10
Σ
Einkommen
3,0
0,7
1,9
3,5
1,3
1,6
0,9
2,5
0,5
1,1
17
Ausgaben für Elektrizität
1,2
0,4
0,9
1,3
0,6
0,7
0,6
1,1
0,4
0,7
Haushalt
7,9
Für die Elektrizitätswirtschaft stellt sich die Frage, welcher Anteil des Einkommens auf die Haushaltsenergie Strom entfällt (Diagnose) und wie sich Einkommenszuwächse auf den Stromabsatz auswirken (Prognose). 45 Statistische Lehrbücher sind voll von Beispielen falsch verstandener Abhängigkeiten: Länge der Röcke von Frauen und Aktienkurse, Storchenpopulation und Geburtenrate, Ausländeranteil und Kriminalität (in diesem Fall ist die Größe der Gemeinde wohl eher entscheidend, denn Großstädte ziehen sowohl Ausländer als auch Kriminelle vermehrt an). Auch die Zeit beeinflußt viele Variablen. Neben dem durchschnittlichen Einkommen sind gestiegen: die Zahl der Verkehrsunfalle, die verspeiste Menge Fleisch pro Kopf, die Allergien, die Anzahl der Geldspielautomaten, die Anzahl der Bankautomaten, die importierten Kiwis. Diese und viele andere sind Größen, die sozusagen automatisch im Zeitablauf ansteigen; ein statistisch begründeter Zusammenhang kann deshalb noch lange nicht abgeleitet werden. Schließlich beeinflussen Größen die mathematische Beziehung, die nicht quantifizierbar sind, sondern nur qualitativ vorliegen. Wenn also promovierte Volkswirte eher Karriere machen als unpromovierte, dann liegt das vielleicht daran, daß sie sowohl die lange Zeit bis zur Promotion als auch den langen Weg zur Karriere durchstehen. Ihr Ehrgeiz ist also eine dritte, verursachende Größe.
In diesem Beispiel ist die umgekehrte Fragestellung „Führt ein höherer Stromverbrauch zu Einkommenszuwächsen" wenig sinnvoll.
136 2.2.2
2 Analyse mehrdimensionaler empirischer Verteilungen Spezifikation der Regressionsfunktion
Darüber, wie die Funktionalform im Einzelfall gelagert ist, informiert uns zunächst eine graphische Analyse der Beobachtungswerte. Dazu tragen wir in einem sogenannten Streuungsdiagramm die Wertepaare der beiden Variablen ab. Aus solch einer Punktwolke läßt sich ein Hinweis auf den zugrundeliegenden Zusammenhang ableiten. FIGUR LC
Y
->x FIGUR 2 c
γ
->x
Ob die hier dargestellten Kurven und Geraden durch die jeweilige Punktwolke tatsächlich den tendenziellen Zusammenhang zwischen Y und X korrekt beschreiben, kann über eine graphische Darstellung nicht immer eindeutig beurteilt werden. Die Figur la aber erlaubt die Aussage, daß ein enger Zusammenhang zwischen den beiden Grössen besteht ( Ρ χ γ = 1) 4 6 , der zudem durch eine lineare Funktion beschrieben werden kann. In den Diagrammen lb und lc kann ebenfalls ein linearer Zusammenhang unterstellt werden, aber es gilt 0 < Ρχγ < 1 und Ρχγ 1( , < Ρχγ 1() · Die Figur 2a beschreibt ebenfalls einen linearen Zusammenhang, allerdings fuhrt hier eine Erhöhung von X zu einer Verminderung von Y, es gilt: -1 < P X Y < 0. Streuungsdiagramm 2b läßt einen nichtlinearen Zusammenhang vermuten
47
, während aus 2c
kein Zusammenhang hergeleitet werden kann, weil Variationen von X offensichtlich keine systematische Veränderung der y-Werte zur Folge haben. In beiden Fällen erübrigt sich eine Berechnung.
47
Vgl. zur Größe Ρχγ noch einmal Abschnitt 2.1.3.3 in diesem Fall kann eine Linearisierung des Ansatzes versucht werden. Wir werden im Rahmen der Trendberechnung näher darauf eingehen (vgl. Abschnitt 3.1.1).
2.2
137
Regressionsanalyse
In unserem Beispiel linterstützt das Streuungsdiagramm die Vermutung eines positiven linearen Zusammenhangs. ABB 2.1:
STREUUNGSDIAGRAMM DES EINKOMMENS UND DER AUSGABEN FÜR ELEKTRIZITÄT
Υ 1,4
•
1,2
•
•
1
•
0,8
•
0,6
•
0,4
•
• •
•
0,2
0
0
1
1
1
1
1
0,5
1
1,5
2
2,5
f
1
3
3,5
X
4
X: monatliches Nettoeinkommen (in 1000 DM) Y: Ausgaben für Elektrizität je Monat (in 100 DM) 2.2.3
Schätzung der Parameter
Die Beziehung zwischen den Ausgaben für Strom und dem Einkommen unserer 10 Haushalte soll durch eine möglichst optimale Regressionsfunktion beschrieben werden. Dabei können wir uns aus zwei Gründen zunächst auf die rechentechnisch einfache lineare Regressionsfunktion stützen: •
Zusammenhänge zwischen Daten lassen sich zumindest näherungsweise bzw. in bestimmten Intervallen durch lineare Funktionen approximieren,
•
Variablentransformationen ermöglichen oftmals eine Linearisierung nichtlinearer Funktionen (vgl. dazu z.B. die Trendberechnung in Abschnitt 3.1.1).
Eine solche lineare Regressionsfunktion lautet:
48
y, = a + bx;
Dieser Ansatz findet sich auch bei der Trendberechnung im Rahmen der Zeitreihenanalyse. Dort ist die exogene Größe die Variable t (=Zeit).
2 Analyse mehrdimensionaler empirischer
138
Verteilungen
Dabei bezeichnet a den Ordinatenabschnitt oder das absolute Glied, b die Steigung oder den Winkel α, den die Gerade mit der X-Achse bildet; beide werden als Regressionskoeffizienten bezeichnet, y, ist der an der Stelle x; sich ergebende Schätzwert für y,. Anmerkung:
Im folgenden wird in Anlehnung an die Literatur der Index i als Laufindex für die η Beobachtungswerte eingesetzt. Außerdem wird aus Vereinfachungsgründen in den Formeln auf die Angabe dieses Laufindex verzichtet.
Die Differenz zwischen y; und y, wollen wir als ej, als Residuum bezeichnen, ej gibt uns die Abweichung oder den Fehler an, der z.B. auf den Einfluß der latenten, nicht berücksichtigten Variablen zurückzuführen ist (vgl. Figur 3). FIGUR 3
Wir schätzen also eine lineare Funktion, die so durch die Punktwolke gelegt wird, daß die Tendenz des Zusammenhangs möglichst gut beschrieben wird. Anmerkung: Die Bedingung Σ ej = 0 reicht als Kriterium nicht aus, da sie keine eindeutige Entscheidung ermöglicht. Die folgende Figur 4 zeigt zwei Regressionsgeraden, die beide diese notwendige, aber nicht hinreichende Bedingung erfüllen. FIGUR 4
2.2
139
Regressionsanalyse
Wir wollen stattdessen ein Verfahren finden, daß aus den prinzipiell unendlich vielen Regressionsgeraden diejenige auswählt, die die Summe der quadratischen Abweichungen zwischen y; und yj, also e;2, minimiert. Dies leistet das Schätzprinzip der Kleinsten Quadrate. Es fordert
s = Σ e ; 2 = Σ (yi - y;) 2 => min Σ q 2 = Σ (y, - (a + bxi)) 2 => min Die Summe der Abweichungsquadrate ist jeweils abhängig von der Wahl der Parameter a und b (die xj- und yj-Werte sind als beobachtete Werte feste Größen!). Es handelt sich hier also um das Problem der Extremwertbestimmung einer Funktion mit 2 Veränderlichen. S = f(a,b) Eine notwendige Bedingung fur das Vorliegen eines Extremwertes besteht darin, daß die beiden ersten partiellen Ableitungen Null werden. Sie lauten bei der yx-Regressionsfunktion:
yj = aj + bj xj
2(y; - a j - bjXiX-l) = 0
= Σ
Σ yj = η a j + b j Σ Xj n 5S TT- = Σ 6b, £
2
bzw. (1. Bestimmungsgleichung)
(y. - a i - b i x i ) ( - x i ) = ° b z w ·
Σ XjYi = a j Σ Xj + b j Σ Xj2
(2. Bestimmungsgleichung)
Die Auflösung dieses Gleichungssystems nach a j und b j fuhrt zu folgendem Ergebnis. 49>50
Σ\2Σγ
- ΣχΣχγ
ηΣχ2 - (Σχ)2
b l
ηΣχγ - Σ χ Σ γ " η Σ χ 2 - (Σχ)2
Die genannten Bedingungen sind notwendig, aber nicht hinreichend für ein Minimum von S = f(a,b). Durch eine Untersuchung der höheren (partiellen) Ableitungen kann aber gezeigt werden, daß a und b die Funktion S minimieren. Vgl. auch Abschnitt 3.1.1.
2 Analyse mehrdimensionaler empirischer Verteilungen
140
Für unser Beispiel bilden wir folgende Hilfstabelle: HH
Yi
Yi2
x
1 2
0,4 0,4
0,16 0,16
10
1,3
Σ
7,9
X,2
yi*xi
0,5 0,7
0,25 0,49
0,20 0,28
1,69
3,5
12,25
4,55
7,17
17,0
38,12
16,30
i
Damit ergibt sich =
ai1
10.16,3 - 1 7 . 7 , 9 10*38,12 - 17• 17
_ 38,12.7,9 - 17-16,3 = 10'38,12 - 17* 17
= U.Zo
Die lineare KQ-Regressionsfiinktion lautet somit yi =0,26 + 0,31 »x; Die Regressionsrechnung
liefert also das Ergebnis, daß Einkommenszuwächse
von
1 («1000 DM) zu zusätzlichen Ausgaben für Strom in Höhe von 0,31 («100 DM) bzw. 31 DM fuhren. Bei der xy-Regressionsfunktion:
χ; = &2 + Y i
werden die Abweichungen zwischen den Βeobachtungswerten und einer Regressionsfunktion X = f (Y) ermittelt. (Die Minimierung der Abweichungsquadrate erfolgt dann parallel zur xAchse.) Analog zum obigen Vorgehen erhalten wir _ Σ γ 2 Σ χ - EyZxy 32 =
nlyMly)
2
_ nExy - E x Z y b 2 =
nly2 - (ly)2
2.2
141
Regressionsanatyse
Um die xy-Regressionsfiinktion χ = &2 + ^ y problemlos in einem yx-Koordinatensystem darstellen und mit der yx-Regressionsfunktion vergleichen zu können, lösen wir die xy-Regressionsfiinktion nach y auf und erhalten als Ergebnis der Umkehroperation:
Auf drei wichtige mathematische Eigenschaften der linearen KQ-Schätzfunktion soll an dieser Stelle noch hingewiesen werden: 1.
Die Summe der positiven Abweichungen entspricht der Summe der negativen Abweichungen, d.h. die Summe der Residuen ist gleich 0 Σε; = 0
2.
Gleichermaßen gilt dies für die Summe Σ χ, · ej = 0
3.
Die geschätzten yj liefern den gleichen Mittelwert wie die beobachteten Werte y.
Daraus folgt, daß die KQ-Schätzfunktion durch den Schwerpunkt der beobachteten Punktwolke Μ ( x , y ) verläuft und sich die yx- und xy-Regressionsfunktion im Schwerpunkt der Punktwolke schneiden. Zu ihrer Beschreibung kann deshalb auch der folgende Ausdruck verwandt werden: Λ * , * Yi = b * X j *
X;
—
= X; - X
Im folgenden sollen noch einige Varianten zur Berechnung der Parameter linearer Einfachregressionsfunktionen dargestellt werden, die durch einfache Umformungen der Normalgleichungen gewonnen werden können. Sie bieten z.T. Hinweise auf weitere Eigenschaften der nach dem Prinzip der Kleinsten Quadrate ermittelten Schätzfunktionen. 1. Variante "1
_ I x y - n*x*y ^ 2 =2~ Σχ^ - η'χ·4
a! = y - b j x Im Beispiel: 16,3 - 10»1,7 1
Andern
C Bereich: Entfernen
Kleinster Wert bis Γ
Bereidi: : bis größter W e r t .
C Alle anderen Werte
Γ
Ausgabe der Variablen als Strings
Γ
Mum Strings in Zahlen umwandeln f 5 ' - > 5 ) '
i.',
Weiter
Abbrechen
Breite:
A
Hilfe
275
6 Erfassung und Aufbereitung von Datensäten Eingabefolge für die Gruppeneingabe von 19 bis 20 - alter Wert: [BEREICH: von:.... bis:....]. Eingabe von: „19 und bis: 20" - neuer Wert: Eingabe „2" (fur 2. Gruppe) - Knopf [HINZUFÜGEN] drücken => Umkodierung erscheint im rechten, mittleren Fenster u.s.w. bis Eingabefolge für die Gruppeneingabe von 37 bis ... - alter Wert: [BEREICH:
bis größter Wert], Eingabe „37"
- neuer Wert: Eingabe „11" (für 11. Gruppe) - Knopf [HINZUFÜGEN] drücken => Umkodierung erscheint im rechten, mittleren Fenster Wenn alle Gruppeneinteilungen vorgenommen worden sind, wird über [WEITER] und [OK] die Gruppeneinteilung durchgeführt. SPSS legt automatisch die Variable „gruppe" neu an. Um nun noch die einzelnen Gruppennamen zu definieren, öffnen wir das Fenster [LABELS] im Variablen-Definitionsfenster. Unter „Wert" gaben wir für die 1. Gruppe „1" ein. Das dazugehörige Werte-Label heißt „bis 18 Jahren". Entsprechend hinterlegen wir die anderen Gruppenbezeichnungen. Das Fenster sieht nach den Eingaben folgendermaßen aus.
OD
L a b e l s definieren: g r u p p e |Gruppennurr
Yarinblenlabel:
Weiter
-Wertelabels
Abbrechen
Wert: Wertelabel: Hinzufugen Andern Entfernen
Hilfe f 1,00 2.00 3.00 - Abhängige Variable
F 200,606
Signifikanz ,000 a
6
Statistische
287
Analysen
Koeffizienterf Nicht standardisierte Koeffizienten Modell 1 a
(Konstante)
Β ,261
Standardfehler ,043
Nettoeinkommen/Monat
,311
,022
Standardisierte Koeffizienten Beta ,981
Τ 6,078
Signifikanz ,000
14,164
,000
- Abhängige Variable
Die lineare KQ-Regressionsfunktion lautet demnach yi = 0,26 + 0,31 xi Um zusätzlich eine grafische Auswertung zu erhalten, wählen wir unter dem Menüpunkt: [GRAFIKEN], [STREUDIAGRAMM...], einen einfachen Scatterplot. Auf der Y-Achse sollen die Ausgaben Y und auf der X-Achse das Einkommen X abgebildet werden. Nach Öffnen des Diagramm-Editors mittels Doppelklick, kann die Kurvenanpassung zur Linearen Regression unter [DIAGRAMM], [OPTIONEN...] vorgenommen werden. Zusätzlich können wir uns die Y-Mittelwertlinie und die Projektionslinien anzeigen lassen.
Regressionsfunktion
Nettoeinkommen/Monat Quelle: Eigene Berechnungen Anhand der Analyse der Residuen kann überprüft werden, ob die gewählte Funktionsform zur Beschreibung des Zusammenhangs geeignet ist, oder ob eventuell ein anderer Funktionstyp spezifiziert werden muß. Die Projektionslinien zeigen sehr deutlich, daß die Residuen unregelmäßig um die Regressionsgerade streuen, so daß man eine ausreichende Spezifizierung der Einfachregression unterstellen kann.
288
6 PC-gestützte Datenanalyse mit SPSS
Aufgabe Nr. 7: Auswertung von Kontingenztabellen Wir betrachten wiederum die 10 Haushalte aus Aufgabe 6. Es ist die Frage zu beantworten, ob die Einkommenssituation (X) xl
=
Haushaltseinkommen bis
2.000 DM
x2
=
Haushaltseinkommen über 2.000 DM
mit der Art der Beschäftigung (Y) yl
=
unselbständig beschäftigter Haushaltsvorstand
y2
=
selbständig beschäftigter
Haushaltsvorstand
korreliert. Die Abhängigkeit zwischen einem nominalen Merkmal (hier: Y) und einem anderen beliebig skandierten Merkmal wird als Kontingenz bezeichnet. Grundlage hierfür ist die sogenannte Kontingenztabelle, in der die Häufigkeiten aufgeführt sind, mit der bestimmte Merkmalskombinationen auftreten. Haushalt
1
2
3
4
5
6
7
8
9
10
X
1
1
1
1
1
1
1
2
2
2
1
2
2
1
Y
2
2
2
1
1
1
Die Variablendefinition mit anschließender Datenerfassung ist bekannt. Wir können die Häufigkeiten unter dem Menüpunkt [STATISTIK], [ZUSAMMENFASSEN], [KREUZTABELLEN] auszählen. Als Zeilen wählen wir unsere X-Variable und als Spalten unsere Y-Variable aus. Unter dem Punkt [STATISTIK...] können wir wieder eine Anzahl von statistischen Parametern angeben. Wir erhalten folgende Auswertung: Kreuztabellen Nettoeinkommen/Monat * Art der Beschäftigung Kreuztabelle Anzahl Art der Beschäftiqunq unselbständig selbständig beschäftigter beschäftigter Haushaltsvorstand Haushaltsvorstand Nettoeinkommen/ Monat
Gesamt
Gesamt
Haushaltseinkommen bis 2.000 DM Haushaltseinkommen über 2.000 DM 5
5
10
6
289
Statistische Analysen
Chl-Quadrat-Tests
Wert Chi-Quadrat nach Pearson
,476
Kontinuitätskorrektui* Likelihood-Quotient
b
Asymptotische Signifikanz (2-seitig)
df 1
,490
,000
1
1,000
,483
1
,487
Exakte Signifikanz (2-seitig)
Exakte Signifikanz (1-seitig)
1,000
,500
Exakter Test nach Fisher
,625 c
McNemar-Test Anzahl der gültigen Fälle
10
β. Wird nur für eine 2x2-Tabelle berechnet b. 4 Zellen (100,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 1,50. c- Verwendete Binomialverteilung Richtungemate
Nominalbzgl. Nominalmaß
Lambda
Wert ,125
Asymptotischer Standardfehler3 ,195
,000
,000
,200
,310
Nettoeinkommen/ Monat abhängig
,048
,133
d ,513
Art der Beschäftigung abhängig
,048
,132
.513
.037
,104
,354
,040
.111
,354
,487" e ,487
,035
.099
,354
,487
Symmetrisch Nettoeinkommen/ Monat abhängig Art der Beschäftigung abhängig
Goodman-und -Kruskal-Tau
Unsicherheitskoeffizient
Symmetrisch Nettoeinkommen/ Monat abhängig Art der Beschäftigung abhängig
Nähemn^sweises
Näherungsweise Signifikanz ,557
,587 c
,587
c
,557
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Kann nicht berechnet werden, weil der asymptotische Standardfehler gleich Null ist. d- Basierend auf Chi-Quadrat-Näherong e. Chi-Quadrat-Wahrscheinlichkeit für Likelihood-Quotienten. Symmetrische Ma&ef
Nominal- bzgl. Nominalmaß
Wert ,218
Näherungsweise Signifikanz .490
Cramer-V
,218
,490
Kontingenzkoeffizient
,213
.490
Phi
Anzahl der gültigen Fälle
10
β· Die Null-Hyphothese wird nicht angenommen, b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Die Korrelations-Statistik ist nur für numerische Daten verfügbar.
Angenommen, wir beobachten 75 Kinder im Vorschulalter und halten fest, ob die Jungen (y,) und Mädchen (y2)vorzugsweise mit einer Puppe (x,) oder einem Auto (x 2 ) spielen. Die empirische Verteilung h°j lautet:
290
6 PC-gestützte Datenanalyse mit SPSS Geschlecht
yi Jungen
Y2 Mädchen
Summe
xi: Puppe
5
20
25
X2: Auto
40
10
50
45
30
75
Spielzeug
Summe:
Um diese empirische Kontingenztabelle zu erfassen, müssen wir zuerst die Variablen definieren, es werden folgende Label-Werte hinterlegt: Variable „x"
Variable „y"
1 = Puppe
1= Jungen
2 = Auto
2 = Mädchen
Labels definieien: Yariableniabel:
Labels definieien:
JArt des Spielzeuges
-Wertelabel«
Yariableniabel:
—
Abbrechen I
Weit:
1
Wert
Wertelafcel:
|
Wertelabel: 1 ="Puppe" 2 » "Auto"
Ändern
jGeschlecht
-Wettelabels
HinryfUpi"!
l I 1 * "Jungen" 2 = "Mädchen"
Enlier^n I
Entfernen
Bei der dritten Variable „anzahl" geben wir die Wertepaare ein. ΙφΙχΙ
ü ] aufg7_2wS5 - SPSS Daten-Editor Datei
Bearbeiten
Ansicht
Daten
Transformieren
«I M&l
\m\m\.
Statistik
Grafiken
m\m\ p l a j Ü
Extras
Fenster
Hilfe
'^M
1:anzahl X
y
an
1
1 1
5
2
1 2
20
3
2 1
40
4
2 2
10
var
var
var
var
var
var
5 6 1 8 9 10 11
d I SPSS-Prozessor ist bereit
6
Die
Statistische
Auswertung
Analysen
starten
291
wir
wiederum
mit
dem
Menüpunkt
[STATISTIK],
[ZUSAMMENFASSEN], [KREUZTABELLEN]. Wir definieren die statistischen Werte wie in der ersten Aufgabenhälfte und erhalten folgende Auswertung (nach der Anzahl gewichtet): Kreuztabellen Art des Spielzeuges * Geschlecht Kreuztabelle Anzahl Geschlecht Jungen Art des Spielzeuges
Puppe
5
Auto
Gesamt
Mädchen 20
Gesamt 25
40
10
50
45
30
75
Chi-Quadrat-Tests
Wert
Asymptotische Signifikanz (2-seitig)
df
Chi-Quadrat nach Pearson
25,000 b
1
,000
Kontinuitätskorrektui®
22,563
1
,000
Likelihood-Quotient
25,891
1
,000
Exakte Signifikanz (2-seitig)
Exakte Signifikanz (1-seitig)
,000
,000
Exakter Test nach Fisher Anzahl der gültigen Fälle a
75
· Wird nur für eine 2x2-Tabelle berechnet
b. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 10,00. Richtungsmaße
Nominalbzgl. Nominalmaß
Lambda
Goodman-und -Kruskal-Tau
Unsicherheitskoeffizient
a
Wert ,455
Asymptotischer Standardfehler 3 ,135
Art des Spielzeuges abhängig
,400
Geschlecht abhängig Art des Spielzeuges abhängig
Näherunjjsweises 2,685
Näherungsweise Signifikanz ,007
,170
1,868
,062
,500
,118
3,198
,001
,333
,111
,000
Geschlecht abhängig
,333
,110
,ooo c
Symmetrisch
Symmetrisch
,264
,093
2,790
,000 d
Art des Spielzeuges abhängig
,271
,095
2,790
,000
Geschlecht abhängig
,256
,092
2,790
,000
- Die Null-Hyphothese wird nicht angenommen.
b- Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c
· Basierend auf Chi-Quadrat-Näherung
d· Chi-Quadrat-Wahrscheinlichkeit für Likelihood-Quotienten.
d
292
6 PC-gestützte Datenanalyse mit SPSS Symmetrische Maße
Nominal- bzgl. Nominalmaß
Näherungsweise Signifikanz ,000
Wert -,577
Phi Cramer-V
,577
,000
Kontingenzkoeffizient
,500
,000
Anzahl der gültigen Fälle
75
β· Die Null-Hyphothese wird nicht angenommen. b- Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
Aufgabe Nr. 8: Auswertung von Rangkorrelationstabellen Für eine Gruppe von 6 Studenten soll untersucht werden, ob ihre in der Vorprüfung festgestellten Rangnummern (X) dem späteren Ergebnis im Examen (Y) entsprechen. Diplomerg ebnis Rangplatz im Vorexamen X
Noten
Rangplatz
1
1
1
1
2
4
2+
3
3
3
1-
2
4
5
4
6
5
6
3
5
6
2
3+
4
Summe
21
_
21
Student
Die Abhängigkeit zwischen einem ordinalen Merkmal und einem weiteren, zumindest ordinal skalierten Merkmal wird als Rangkorrelation bezeichnet; die entsprechende Mehrfeldertafel heißt
dementsprechend
Rangkorrelationstabelle.
Ihre
Auswertung
erfolgt über
den
Menüpunkt [STATISTIK], [KORRELATION], [BIVARIAT]. Hier werden 3 Rangkorrelationsmaße angeboten: *
Pearson
*
Kendalls tau-b
*
Spearman
Die statistische Auswertung über den Pearson - Rangkorrelationskoeffizienten sieht folgendermaßen aus:
6
Statistische Analysen
293
Korrelationen Korrelationen
Korrelation nach Pearson
X
χ 1,000
Ζ
,771
Ζ ,771 1,000
Signifikanz (2-seitig)
χ ζ
,072
,
Ν
χ
6
6
ζ
6
6
,072
Aufgabe Nr. 9: Auswertung von Korrelationstabellen Die Abhängigkeit zwischen kardinalen Untersuchungsmerkmalen wird als Korrelation im engeren Sinne bezeichnet. Die errechneten Korrelationsmaße werden in Form einer Matrix bereitgestellt. Zur Verdeutlichung dieser Vorgehensweise kommen wir noch einmal auf unsere 10 Haushalte zurück, deren Einkommen (X) und Ausgaben für Elektrizität (Y) wir bereits im Rahmen der Regressionsanalyse analysiert haben. Ein Erklärungsmodell y = f (xi) ist naturgemäß unvollständig. Neben dem genannten • Haushaltseinkommen (xi) bestimmen auch andere Faktoren den Energieverbrauch, z.B. • die Anzahl der Haushaltsmitglieder (X2) oder •
die Größe der Wohnung (X3)
Stellen Sie mit Hilfe von SPSS den Korrelationskoeffizienten zwischen diesen Untersuchungsmerkmalen zu einer Tabelle zusammen. Nehmen Sie an, der folgende Datensatz charakterisiere unsere 10 Haushalte: Haushalt (j)
1
2
Ausgaben fur
0,40 0,40 0,60 0,70 0,60 0,70 0,90 1,10 1,20 1,30 7,90
3
4
5
6
7
8
9
10
Summe
Elektrizität Einkommen
0,50 0,70 0,90 1,10 1,30 1,60 1,90 2,50 3,00 3,50 17,00
(xii)
Haushaltsmitglieder
1
1
1
2
3
2
3
2
3
1
19
25
30
18
45
62
35
79
65
80
100
539
(X2i)
Größe der Wohnung in m2 (x 3l )
294
6 PC-gestützte Datenanalyse mit SPSS
Nach der Datendefinition und -eingäbe, bei der auf die Wertetafel aus Aufgabe 6 zurückgegriffen werden kann, ermöglichen die Kopfspalten und -Zeilen der erscheinenden Korrelationsmatrix zunächst eine Identifikation der Meßwertreihen. Die Korrelationstabelle selbst informiert uns über: *
den Wert des Korrelationskoeffizienten (z.B. ry X j = 0,981),
*
den Umfang der statistischen Masse (n = 10 Elemente),
*
das Signifikanzniveau des Korrelationskoeffizienten.
Wenn Signifikanzniveauwerte kleiner als 0,005 ausgewiesen werden, kann von einer signifikanten Korrelation gesprochen werden. Diesem Anspruch genügen in unserem Beispiel die Beziehungen *
Y = f(Xi) und
*
Y = f(X 3 )
Korrelationen Korrelationen
Korrelation nach Pearson
Signifikanz (2-seitig)
Ν
Ausgaben
Ausgaben 1,000
Nettoeinkommen/ Monat
,981"
Haushaltsmitglieder
,312
Wohnungsgröße Ausgaben
,868"
Nettoeinkommen/ Monat Haushaltsmitglieder Wohnungsgröße Ausgaben
Nettoeinkommen/ Monat Haushaltsmitglieder ,981" ,312 1,000 ,288 ,890" ,000
,000 ,380
,288
,890'
1,000 ,472
1,000
,472
,380
,001
,419
,001 ,168
10
,168 10
10
10
10
10
10
Haushaltsmitglieder
10
10
10
Wohnungsgröße
10
10
10
10 10
Nettoeinkommen/ Monat
,001 10
•
,419 ,001
Wohnungsgröße ,868*'
" · Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
Demnach ist davon auszugehen, daß neben der Einkommenssituation auch die Größe der Wohnung den Verbrauch an elektrischer Energie maßgeblich beeinflußt. Allerdings wird auch deutlich, daß ein signifikanter Zusammenhang auch für die Beziehung Einkommen ο
Woh-
nungsgröße ermittelt wird (r XlX3 = 0,890); ein Aspekt, der bei der Konstruktion eines multiplen Schätzansatzes zu berücksichtigen wäre.
6
295
Statistische Analysen
Aufgabe Nr. 10: Berechnung von Zeitreihenkomponenten Gegeben seien Quartalswerte einer Zeitreihe. Gefragt sind Aussagen über die langfristige Grundrichtung der Reihe, die konjunkturelle Situation, das Saisonmuster sowie die saisonbereinigten Zeitreihenwerte. SPSS benötigt für das Zeitreihenmodul mindestens 4 aufeinanderfolgende Jahre. I
II
III
IV
1991
89
51
58
141
1992
172
111
110
181
1993
219
126
106
172
1994
255
120
98
196
Quartale
Zuerst definieren wir eine Werte-Variable. Anschließend muß eine Zeitkomponente definiert werden. Dieses geschieht über den Menüpunkt [DATEN], [DATUM DEFINIEREN...]. Hier kann man die gewünschte Zeitkomponente einstellen z.B. Jahr, Quartal oder Jahr, Monat usw. Für unsere Zeitreihe stellen wir die Zeitkomponente auf Jahre, Quartale ein. Wir tragen anschließend den 1. Fall ein, d.h. Jahr =1991 und Quartal = 1. 0 0 O h n e Titel - S P S S Datei &
Bearbeiten @
H P J E 3
Daten-Editoi
Ansicht
Daten
m
Transformieren
Statistik
1*1
Grafiken ϋM -
Ejjtras
Eenster
hPe
m
1:year_ werte
year_
quarter_
date
89
1991
Q1 1991
51
1991
Q 2 1991
58
1991
Q 3 1991
141
1991
Q 4 1991
172
1992
Q1 1992
111
1992
Q 2 1992
110
1992
Q 3 1992
181
1992
Q 4 1992
219
1993
Q1 1993
10
126
1993
Q 2 1993
11
106
1993
Q31993
var
Zi ISPSS-Prozessor ist bereit "
296
6 PC-gestützte Datenanalyse mit SPSS
Wir finden die saisonale Zerlegung im Menüpunkt [STATISTIK],
[ZEITREIHEN],
[SAISONALE ZERLEGUNG...]· SPSS bietet uns die Möglichkeit zwischen zwei saisonalen Verknüpfungen: *
multiplikative Verknüpfung
*
additive Zerlegung
In die Variablenliste muß die Variable übernommen werden, die zerlegt werden soll. In unserem Fall ist es die Variable „werte". Die Gewichtung der gleitenden Durchschnitte kann entweder über alle Punkte gleich sein, oder so, daß die Endpunkte mit 0,50 gewichtet werden. Wir wählen fur unser Beispiel die additive Verknüpfung mit der genannten Gewichtung. Results of SEASON procedure for variable WERTE Additive Model. Centered M A method. Period = 4. Seasonal index 64,021 -36,271 -45,646 17,896
Period 1 2 3 4
The following new variables are being created: Name
Label
ERR_1 SAS_1 SAF_1 STC_1
Error for WERTE from SEASON, MOD_2 ADD CEN 4 Seas adj ser for WERTE from SEASON, MOD_2 ADD CEN 4 Seas factors for WERTE from SEASON, MOD_2 ADD C E N 4 Trend-cycle for WERTE from SEASON, MOD_2 ADD CEN 4
Die folgenden Saisonwerte wurden also von SPSS ermittelt: Quartal Saisonwert
I
II
III
IV
64,021
-36,271
-45,646
17,896
Um eine fallweise Auflistung der Werte zu erhalten, aktivieren wir den dazugehörigen Menüpunkt und erhalten folgende Auswertung:
6
297
Statistische Analysen
Results of SEASON procedure for variable WERTE. Additive Model. Centered MA method. Period = 4.
Ql Q2 Q3 Q4 Ql Q2 Q3 Q4 Ql Q2 Q3 Q4 Ql Q2 Q3 Q4
DATE_ 1991 1991 1991 1991 1992 1992 1992 1992 1993 1993 1993 1993 1994 1994 1994 1994
Moving WERTE averages 89, 000 51, 000 58, 000 95,. 125 141, 000 113,. 000 172, 000 127, 000 111, 000 138,, 500 110, 000 149,,375 181, 000 157,, 125 219, 000 158,,500 126, 000 156,875 106,000 160,,250 172, 000 164,, 000 255, 000 162,,250 120, 000 164,,250 98, 000 196,. 000
Seasonal Ratios factors 64,, 021 -36,,271 -37,,125 -45, 646 28,, 000 17,, 896 45,, 000 64,, 021 -27,, 500 -36,,271 -39,,375 -45,, 646 23,,875 17,,896 64,, 021 60,,500 -30,875 -36,271 -54,,250 -45,646 17,, 896 8,, 000 92,, 750 64,, 021 -44,,250 -36,,271 -45,, 646 17,, 896
Seasonally Smoothed adjusted trend- Irregular series cycle component 44,, 072 24,, 979 -19,093 15,306 87,,271 71,, 965 103,, 646 96,, 072 7, 574 123,, 104 8, 981 114,, 123 -16,907 107,, 979 124, 887 147,, 271 139,,475 7, 796 155,, 646 150,, 072 5, 574 163,, 104 157,, 789 5,315 154,, 979 -3,130 158,,109 157,,475 4,796 162,,271 -7,648 151,646 159,, 294 154,104 162,, 900 -8,796 25,537 190,, 979 165,,442 156,, 271 163,,363 -7,093 -15,694 143,, 646 159,, 340 19,241 178,, 104 158,, 863
The following new variables are being created: Name
Label
ERR_2 SAS_2 SAF_2 STC_2
Error for WERTE from SEASON, M0D_3 A D D CEN 4 Seas adj ser for W E R T E from SEASON, M0D_3 A D D CEN 4 Seas factors for WERTE from SEASON, M0D_3 A D D CEN 4 Trend-cycle for WERTE from SEASON, M0D_3 A D D CEN 4
Der Originalwert setzt sich demnach wie folgt zusammen: Datum
Glatte +
Originalwert = (Y)
Saison +
Rest
Komponente
Ql 1991
89,000 =
44,072 +
64,021 +
-34,933
Q2 1991
51,000 =
71,965 +
-36,271 +
15,306
0 3 1991
58,000 =
96,072 +
-45,646 +
7,574
141,000 =
114,123 +
17,896 +
8,981
Q4 1991 usw.
Anmerkung: Auf die Problematik, aus zugrundeliegenden Zahlen ohne Nachkommastellen solche mit Dezimalstellen zu errechnen, sei verwiesen. Die nun im Ausgaben-Navigator aufgelisteten Werte finden wir im Daten-Editor wieder. Hier wurden für die ermittelten Werte eigene Variablen erzeugt und unter diesen abgelegt. Wir sind bisher von einer additiven Verknüpfung ausgegangen. Unsere trend- und konjunkturbereinigte Zeitreihe läßt sich also wie folgt berechnen: TKB(t) - Y(t) - G(t) - S(t) + R(t)
298
6 PC-gestützte Datenanalyse mit SPSS Datum
TKB (t) =
Y(t) -
G(t)
Q1 1991
44,982 =
89,000 -
44,072
0 2 1991
-20,965 =
51,000 -
71,965
usw. Wir können aber auch den bereinigten Trend errechnen lassen. Wir gehen hierzu in den Daten-Editor und wählen den Menüpunkt [TRANSFORMIEREN], [BERECHNEN]. Unter dem Punkt „Zielvariable" geben wir den neu zu erstellenden Variablennamen ein, in unserem Fall „TKB". Anschließend können wir Typ und Label dieser Variable bestimmen. Als numerischen Ausdruck können wir die Formel werte - stc l eingeben. Es ergeben sich die trendbereinigten Werte: I
II
III
IV
1991
44,93
-20,97
-38,07
26,88
1992
47,11
-28,47
-40,07
23,21
1993
60,89
-31,47
-53,29
9,10
1994
89,56
-43,36
-61,34
37,14
Quartale
Alle anderen Zeitreihenkomponenten können direkt aus obiger Tabelle abgelesen und über den Menüpunkt [GRAFIKEN], [SEQUENZ...] dargestellt werden.
Zeitreihenkomponenten 300
200 trend-,konjunkturbereinigte Werte Quartalswerte Glatte Komponente Saisonfaktoren saisonbereinigte Werte
-100 Q1 1991
Q1 1992 Q3 1991
Q1 1993 Q3 1992
Quelle: Eigene Berechnungen
Q1 1994 Q31993
Q31994
6 Statistische Analysen
299
Aufgabe Nr. 11: Berechnung eines Periodogramms Errechnen Sie für die Zeitreihe aus Aufgabe 10 das Periodogramm. Im Menü [GRAFIKEN], [ZEITREIHEN], [SPEKTRAL...] findet sich die Möglichkeit der Periodogrammdarstellung. Da Periodogramme nur über sogenannte stationäre Zeitreihen berechnet werden können, ist es notwendig, eine Transformation dergestalt vorzunehmen, daß die Originalwerte um ihren Mittelwert bereinigt werden. Dies erreicht man etwas umständlich durch die Berechnung des arithmetischen Mittels über [STATISTIK],
[ZUSAMMENFASSEN],
[HÄUFIGKEITEN...],
das
in
[TRANSFORMIEREN], [BERECHNEN...] dann manuell abgezogen wird. '! V a r i a b l e b e r e c h n e n Numerischer Ausdruck:
Zielvariable:
werte-137,81 ^
|werte_st
" 3
d
Typ und Label... | date_ < uarter year_
Η
-d-i-Ld ' I s m _l JÜ-5LGJ 1|2|3|
JlAlJj ""I
~|
(]|
0 I I Löschen!
Funktionen:
[ ^
j
ABS(numausdr) ANY(test,wert,wert„..) ARSIN(numausdr) ARTAN(numausdr) CDFNORM(zwert) CDF.ßERNOULLI(q,p]
r j
Falls...
OK
|
Einfügen
Zurücksetzen
Abbrechen
Hilfe
Die neue Variable „werte_st" wird dann der Spektralanalyse unterzogen. Man erhält folgende Ergebnisse, wenn man im SPSS Ausgabe Navigator per Doppelklick auf das Diagramm den Diagramm Editor öffnet und über [DIAGRAMM], [ACHSE] die Y-Achse auf einen linearen Maßstab mit einem Minimum von 0 umgestellt wird:
300
6 PC-gestützte Datenanalyse mit SPSS
Periodogramm von WERTE_ST
Häufigkeiten Quelle: Eigene Berechnungen
Die Frequenzen geben an, wie oft sich Schwingungen im gesamten Untersuchungszeitraum (= 16 Quartalswerte) wiederholen. So bedeutet in unserem Beispiel eine Frequenz von 2, daß sich die Schwingung alle 8 Quartale wiederholt. Beobachtungszeitraum: 16 / Frequenz: 2 = Periode: 8 SPSS setzt die Frequenz stets in Bezug zu einer normierten Periodenlänge von 1; was unter Umständen Interpretationsvorteile bietet. Die Frequenz von 0,50000 repräsentiert beispielsweise in unserem Fall die Periodenlänge 2 (0,50000 · 2) = 1.
Aufgabe Nr. 12: Berechnung einfacher Indizes Der Absatz eines Gutes hat sich in den Regionen Α und Β wie folgt entwickelt: Jahr 1
Jahr 2
Jahr 3
A
40
80
120
Β
200
240
280
Vergleichen Sie die zeitliche Entwicklung in beiden Regionen. Nach
der
Datendefinition
und
-eingäbe
können
die
[TRANSFORMIEREN], [BERECHNEN...] indiziert werden.
Zeitreihen
im
Menüpunkt
6
301
Statistische Analysen
ZiBlyaiatte
regionb" 0.5
FS[b
I l p und Label.. I
w
< 1 >;l I I IFixationen: | *• | _J :J .iJ.il6i ABS(nunausdt) NY(teit.werl.wert,.) •1 -I--I 11 Üal A AHSlNinumausdr) Α II Ρ I I ARTAN[numa«td)i CDFNORM(w i ef)t CDFB . ERNOULUalpi Fjfc,., |
zi *! —i zi
n | gmückigteen j Abbrachen H i e
-Ohle Iilel - SPSS Daten-Editoi jenieten StatistikfirafikenEjfti« £eroter üle ßat« fieafbeiten AnsichtTianD tfoatm aS|H|#| «I e | fc|&| Ml fllilMlsBll 3:reg_a |S23 var var regiona regionb reg_a reg_b 40 200 100 ff) 100.00 1 80 200 ff) 120 ff) 2 240 120 140.00 3 200 300ff)| 4 S 6 .. 7 Iβ 9 1» 1t WJ i S P S S - P r o z e s s o r ist b e f e i t "
"Γ
[
man
var
Ε
_ Γ
d ιs Π
Dazu wird die Zielvariable reg_a bzw. reg_b eingegeben. Anschließend werden die Formeln definiert; sie lauten: • region a · 2.5 • region b · 0.5 Bei der Berechnung von Preis- und Mengenindizes handelt es sich gleichermaßen um einfache mathematische Manipulationen. Der Einsatz eines aufwendigen Programms wie SPSS lohnt sich nur, wenn komplexere Tatbestände als im vorliegenden Beispiel zu analysieren
302
Literaturverzeichnis
Weiterführende Literatur Abels, H:
Wirtschafits- und Bevölkerungsstatistik, 3.Auflage, Köln, Opladen 1991
Anderson, O.:
Probleme der statistischen Methodenlehre in den Sozialwissenschaften, Würzburg 1954
Bleymüller, J.: Gehlert, G.: Gülicher, H.:
Statistik fur Wirtschaftswissenschaftler, 8. Auflage, München 1992
Chatfield, C.:
Analyse von Zeitreihen, München 1982
Ferschl, F.:
Deskriptive Statistik, 3. Auflage, Würzburg, Wien 1985
Hujer, R.: Cremer, R.:
Methoden der empirischen Wirtschaftsforschung, München 1978
Johnston, J.:
Econometric Methods, 2nd Edition, New York u.a. 1972
Kuchenbecker, H.:
Grundzüge der Wirtschaftsstatistik, 2. Auflage, Herne, Berlin 1973
v.d. Lippe, P.:
Wirtschaftsstatistik, 4. Auflage, Stuttgart 1990
Lohse, H.: Ludwig, R.:
Statistik in Forschung und Beruf. Ein programmierter Lehrgang. Erfassung, Aufbereitung und Darstellung statistischer Daten, 2. Auflage, Leipzig 1977
Wetzel, W.:
Statistische Grundausbildung fur Wirtschaftswissenschaftler. I Beschreibende Statistik, Berlin, New York 1971
Die folgenden Bücher werden vor allem wegen ihrer zahlreichen Beispiele und Übungsaufgaben zur Ergänzung empfohlen: Abels, H.: Degen, H.:
Übungsprogramm Wirtschafts- und Bevölkerungsstatistik., Studienprogramm Statistik für Betriebs- und Volkswirte, 3. Auflage, Wiesbaden 1991
Härtung, J.: Heine, B.:
Statistik Übungen., Deskriptive Statistik., 3. Auflage, München, Wien, 1990
v.d. Lippe, P.:
Klausurtraining in Statistik, 4. Auflage, München, Wien 1992
303
Stichwortverzeichnis
A abhängige Variable 133 Abhängigkeit 106 Ablauf einer traditionellen Zeitreihenanalyse 191 absolute Häufigkeit 24,25 absolute Konzentration 89, 92, 97 absolutes Niveau 239 Abweichungsquadratsumme 78 additiver Ansatz 176 Aggregation 157 Aggregatschreibweise 251 Amplitude 205,207 analytische Statistik 3 , 4 , 7 8 Anteilswert 90 äquidistante Zeitreihe 154, 216 arithmetisches Mittel 52, 58, 252 ASA III-Verfahren 224 ASA II-Verfahren 194,223 ASA I-Verfahren 194 Assoziationskoeffizient nach Fechner 115 asymmetrische Verteilung 81, 82 Ausreißer 227 Autokorrelation 143,217 Autokorrelationskoeffizient 219 Autokovarianz 218 Β Balkendiagramm 40 Basiseffekt 192 Basisjahr 250 Basisperiode 241,249,253 bedingte absolute Häufigkeiten 105 bedingte relative Häufigkeiten 105 bedingte Verteilung 104,105 bedingter Mittelwert 106 beobachtete Häufigkeit 110 Beobachtungswert 3, 8,10,23,28 Beobachtungszeitraum 158 Berichtsjahr 250 Berichtsperiode 249,253 Berichtszeitpunkt 239 Berichtszeitraum 239 Berliner Verfahren 194,224 Bessel-Korrektur 78 Bestandsfortschreibung 238 Bestandsgröße 157 Bestandsmasse 237
Bestimmtheitskoeffizient 129, 149 Bestimmtheitsmaß 147, 175 Bewegungsmasse 237 Beziehungstafel 102 Beziehungszahl 231,237 Binnenklassenstreuung 77 Binnenstreuung 75 Bundesbankverfahren 194, 195 C Carli-Preisindex 252 CENSUS-Verfahren 194,202 D Datenmatrix 8, 23 Datenreduktion 1 Deflationierung 260 deskriptive Statistik 3 , 4 deterministisches Verfahren 194 Dichtefunktion 49, 204 dichtester Wert 52,54 diskretes Merkmal 11 Disparitätsmaß 100 Dispersion 88 Drobisch-Preisindex 259 Dummyvariable 193 durchschnittliche absolute Abweichung 71,72 Durchschnittsbildung 158 Ε eindimensionale Häufigkeitsverteilung, Darstellung 39 eindimensionale Verteilung 23 einfache Indizes 239 einfache Preismeßzahl 250 einfache Transformation 171 einfacher Preisindex 243 Einfachkorrelationskoeffizienten 149 Einfachregression 133, 144 eingipflige Verteilung 81 Einzelobjekte 9 Elastizität 170 empirische Verteilung 74, 87,110 endogene Variable 133 Erhebungszeitraum 157 erwartete Häufigkeit 111 Erwartungswert 218
304
Stichwortverzeichnis
etikettierter Beobachtungswert 24 exogene Variable 133 Exponential Smoothing 181 Exponentialfunktion 171 Exponentialtrend 170 Exponentielle Glättung 181 exponentieller Trend 170 Extremwertbereinigung 203,223 Extremwerte 52, 55, 58, 62, 65, 70
F Fenster 221 Filter 221 Fisher-Preisindex 259 flache Verteilung 79, 85 flächenproportionale Darstellung 39 Formmaßzahl 51,79 Fourier-Analyse 194, 204 Fourier-Integral 220 Fourierkoeffizient 208 Fourier-Koeffizient 209 Fourier-Reihe 194,205 Fourier-Transformation 216 Freihandtrend 165 Frequenz 159,204,205 Frequenzband 221 Frequenzdarstellung 209
G Gamma Koeffizient 118 Geldentwertung 247 geometrisches Mittel 52, 65 gewogener gleitender Durchschnitt 179 gewogenes arithmetisches Mittel 61 gewogenes geometrisches Mittel 65 gewogenes harmonisches Mittel 61 gewöhnliches Moment 80 Gini-Koeffizient 93, 96 Glatte Komponente 161,195 Gleichverteilungsgerade 89 gleitende Durchschnitte 179,195 Gliederungsmerkmal 60 Gliederungszahl 231,232 globale Index 247 globale Indizes 231,247 globale Preisindizes 248 globaler Preisindex 243 Glockenkurve 74, 79 Graphik 23 graphische Darstellung 37
Grundgesamtheit 3, 78,216 gruppierte Daten 30 Gruppierung 30, 32, 33,35 Gruppierung, Darstellung 48 Gruppierungsvorschrift 35 Η Harmonische Analyse 194,205 harmonische Funktion 205 harmonisches Mittel 52,61,258 Häufigkeitsdichte 54 Häufigkeitstabelle 23, 25,26 Häufigkeitsverteilung 5, 24,28, 32, 51 häufigster Wert 54 Herfindahl-Index 97 Heteroskedastizität 143 Histogramm 44,48 höhenproportionale Darstellung 39 I Identifikationsmerkmal 7 , 9 Indexpunkte 239 Indexreihe 242 Index-Schemata 258, 262 Indifferenztafel 108 Indizes 231 Indizierung 239 Inflationsrate 247 institutionelle Faktoren 162 intensitätsmäßiges Merkmal 15 Interkorrelation 146 Intervallskala 14,16, 58 Κ kalenderbedingte Faktoren 162 kalenderbereinigte Werte 204 Kalenderunregelmäßigkeiten 203 Kardinalskala 13, 15, 38, 58 Kardinalskala, Darstellung 42 Klassenbreite 32 Klassengrenze 33,48,49 Klassengrenze, exakte 34 Klassengrenze, obere 34 Klassengrenze, untere 34 Klassenhäufigkeit 48 Klassenhäufigkeiten 31 Klassenmitte 33,49, 54 Klassenmittelwert 59 klassische Zeitreihenanalyse 195
305
Stichwortverzeichnis Klassische Zeitreihenanalyse 194 Kleinste-Quadrate-Verfahren 139,143, 166,211 Komponentenschätzung 189 Komponentenverknüpfung 196 konditionale Verteilung 104 Konjunkturanalyse 226 konjunkturbereinigter Wert 180 Konjunkturkomponente 160,161 Konjunkturschätzung 179 Kontingenz 109 Kontingenzkoeffizient 113 Kontingenzmaß 110 Kontingenzmaße 109 Kontingenztafel 109,110 Konzentrationsmaß 51, 88, 100 Konzentrationsmessung 89 Korrelation 109 Korrelationskoeffizient 218 Korrelationskoeffizient nach BravaisPearson 123 Korrelationskoeffizient nach Fechner 124 Korrelationskoeffizienten nach BravaisPearson 147 Korrelationsmaße 109 Korrelationsrechnung 101, 109 Korrelationstabelle 109,124 Korrelogramm 219 korrigierter Phi-Koeffizient 112 Kovarianz 126, 128,218 KQ-Regressionsfunktion 140,165 Kreisdiagramm 37 Kumulation 26 L Lageparameter 51,52 Längsschnittsdaten 150 Laspeyres-Mengenindex 260 Laspeyres-Preisindex 254 Laspeyres-Volumenindex 261 latente Variable 133,138 Lebenshaltungskostenindex 252 lineare Regression 137 lineare Regressionsfunktion 137 linearer Korrelationskoeffizient 132 Linearer Korrelationskoeffizient 129, 142 linearer Trend 166 lineares einfaches Bestimmtheitsmaß 148 Linienzug 43 links gerichtete Asymmetrie 81
linksschiefe Verteilung 82 linkssteile Verteilung 81 logistischer Trend 170,171 Lorenzkurve 90 Lorenz-Münzner-Konzentrationsmaß 94 Lowe-Preisindex 258 Μ Manipulation einer stat. Analyse 16 Marshal-Edgeworth-Preisindex 259 Maße der Kurtosis 79 Maßkorrelationskoeffizient 129 Median 55 mehrdimensionale Verteilung 101 Mehrfachregression 133 Mehrfeldertafel 102 Mengenindex 247 Mengenindizes 260 Merkmalsausprägung 8,24,30, 35 Merkmalsklasse 30,31,35 Merkmalsträger 8, 26,45 Messen, Meßskala 12 Meßfehler 227 Meßzahl 231,239 metrische Skala 11, 13, 15 Minimumeigenschaft 57 Mittelwerte 51,52 Modalklasse 54 Modus 54 Momente einer Verteilung 79 Momentenkoeffizient 84 multiplikativer Ansatz 162,176 Ν Näherungsverfahren 171 natürliche Ursachen 162 nichtlineare Regression 145 nichtlinearer Trend 171 Niveauunterschied 193 Nominalskala 12,15, 39, 54 Nominalskala, Darstellung 39 Normalgleichung 141, 168 Normalverteilung 74,79,217 Normalverteilungsannahme 216 Nyquistfrequenz 210
Ö ökonometrisches Modell 193 Ordinalskala 13,15, 16, 38, 55
306
Stichwortverzeichnis
Ordinalskala, Darstellung 40 Ordnungsnummer 55 Ordnungsziffer 13 Ρ Paasche-Mengenindex 260 Paasche-Preisindex 256 Paasche-Volumenindex 261 Parameter, statistische 23 parametrische Darstellung 51 Pearson'scher Kontingenzkoeffizient 113 Periodenlänge 204 periodische Funktion 205 Periodogramm 204, 209 Phase 205,207 Phasendurchschnittsverfahren 183, 192 Phi-Koeffizient 112 Polygonzug 43, 45 potentieller Trend 170 Potenztrend 170, 172 Preisbereinigung 260 Preisindex 247,252 Preismeßzahl 243 primäre Verteilungstafel 28,58 Problembereiche der Zeitreihenanalyse 226 Produktmoment-Korrelationskoeffizient 129, 132, 149 Professionelle Zeitreihenanalyse 194 Prognose auf der Basis von Zeitreihen 229 Punktwolke 136
Q qualitatives Merkmal 15 Qualitätsveränderungen 254 Quartilsabstand 70 Quartiisdistanz 71 Quartiiskoeffizient 82 Querschnittsanalyse 5,154 Querschnittsdaten 51, 150 Quoten 232
R Randklasse 49 Randklassen 32 Randverteilung 102 Randwerte 181 Rangdaten 40 Rangkorrelation 109
Rangkorrelationskoeffizient nach Spearman 122 Rangkorrelationsmaß 115 Rangkorrelationsmaße 109 Rangkorrelationstabelle 109,115 Rangordnung 13 Rangziffer 54, 55 räumliche Abgrenzung 7 rechts gerichtete Asymmetrie 82 rechtsschiefe Verteilung 82 rechtssteile Verteilung 82 regelmäßige Saisonfigur 228 Regressionsanalyse 133 Regressionsfunktion 136 Regressionskoeffizient 142 Regressionsparameter 133, 137 Regressionsrechnung 101, 134 relative Häufigkeit 24 relative Häufigkeiten 25 relative Konzentration 88 relative Wachstumsraten 240 Residualanalyse 143 Residuum 138, 147 Resthäufigkeit 28 Restkomponente 161,227 Restkomponentenbestimmung 184 Richtung der Abhängigkeit 134
S sachliche Abgrenzung 7 Saisonanteil 161 Saisonbereinigung 189 Saisonfaktor 184 Saisonkomponente 160,161 Saisonschätzung 183 Sättigungsniveau 171 Schätzfehler 174 Schätzfunktion 133 Scheidewert 57 Schiefekoeffizient 82 Schiefemaße 79 schließende Statistik 3 Schwerpunktkoordinaten 124,141 sekundäre Verteilungstafel 31, 59 Skala, Skalieren 12 Skalenniveau 16 Spannweite 69 Spektralanalyse 194,205,216 Spektrum 219 spitze Verteilung 79, 85
307
Stichwortverzeichnis Stabdiagramm 40 Standardabweichung 73,74 Standardfehler der Schätzung 150 Stationarität 218 statistische Einheit 7, 9 statistische Kennziffer 51 statistische Masse 7, 9, 231 statistische Methodenlehre 1,17 statistisches Objekt 8,25 stetiges Merkmal 11,42 Stichprobe 3,78,216 Stichprobenverteilung 78 stochastischer Zusammenhang 194 Streifendiagramm 40 Streuungsdiagramm 134,136 Streuungsdiagramm 166 Streuungsparameter 51,69 Streuungszerlegung 77 Stromgröße 157 Strukturbruch 145 Strukturveränderungsgeschwindigkeit 234 Strukturwandel 232 Stützbereich 200 Stützfrequenz 210 Summe der quadrierten Abweichungen 175 Summenbildung 158 Summenhäufigkeit 26 Summenhäufigkeitsverteilung 28 Summenpolygon 47,49 Symmetrieeigenschaft 51 Symmetriemaße 79, 81 Systematik der Korrelationsrechnung 109 Τ tabellarische Darstellung 23 Tabelle 23 Tabellenfach 36 Teilgesamtheit 77 Teilgesamtheit 60 Tempo des Strukturwandels 233 theoretische Verteilung 79,110,111 traditionelle Zeitreihenanalyse 165 Trend 160 trendbereinigter Faktor 177 Trendbereinigung 175,209 Trendfaktor 177 Trendkomponente 160, 161 Trendschätzung 165 Trendwert 177
Treppenzug 45 trigonometrische Polynome 207 U Umbasierung 242 Umsatzmeßzahl 251 Umschlagshäufigkeit 238 unabhängige Variable 133,143 Unabhängigkeit 106,143, 216 ungewogener gleitender Durchschnitt 180 univariate Verfahren 164 Untersuchungsgegenstand 4, 242 Untersuchungsmerkmal 7, 9,10,23,26, 242 Untersuchungsziel 4 Urliste 23,24, 53, 96 V Variablentransformation 137 Varianz 73 Varianz der bedingten Verteilung 106 Varianz der Residuen 150 Variationskoeffizient 73, 78 Verhältnisskala 14, 16 Verhältniszahl 231 Verkettung 243 Verteilungsfunktion 28,40,45 Verteilungsfunktionen 26 Verursachungszahlen 237 Verweildauer 238 Vierfelderkoeffizient 112 Vierfeldertafel 112 Vollerhebung 3 Volumenindex 247 Volumenindizes 260 Voijahresvergleich 192
W Wachstumsfaktor 66 Wachstumsrate 66,170,250 Wachstumsratenanalyse 192 Wägungsschema 253 Warenkorb 249 Wellenlänge 205 Wirtschaftsdiagnose 159,160 Wirtschaftsprognose 160 Wölbung 51 Wölbungsmaße 79 Wölbungsmaßzahlen 85
308
Stichwortverzeichnis Ζ
zeitliche Abgrenzung 7 Zeitreihenanalyse 5, 159 Zeitreihenregression 152
zentrales Moment 80 Zentralwert 52 Zufallskomponente 160 Zwischenklassenstreuung 77