185 48 13MB
German Pages 172 [176] Year 1971
de Gruyter Lehrbuch Wetzel • Statistische Grundausbildung für Wirtschaftswissenschaftler I
Statistische Grundausbildung für Wirtschaftswissenschaftler I. Beschreibende Statistik
Wolfgang Wetzel
mit 40 Abbildungen und 54 Tabellen
w DE
G Walter de Gruyter • Berlin • New York
1971
© Copyright 1971 by Walter de Gruyter & Co., vormals G. J. Göschen'sche Verlagshandlung - J. Guttentag, Verlagsbuchhandlung — Georg Reimer - Karl J. Trübner - Veit & Comp., Berlin 30. - Alle Rechte, einschl. der Rechte der Herstellung von Photoköpien und Mikrofilmen, vom Verlag vorbehalten. - Satz: IBM-Composer, Walter de Gruyter & Co. - Druck: Sala-Druck, Berlin - Printed in Germany ISBN 3 11 0 0 37 4 7 5
Vorwort Bei Konzipierung eines in die Statistik einführenden Buches stellt sich das Problem, ob man den deskriptiven Aspekt der statistischen Methodik herausarbeiten oder ob man diesen Gesichtspunkt ganz in die Problematik statistischer Schlüsse einbetten soll. Die Beantwortung dieser Frage scheint von der persönlichen Einstellung des Autors oder von dessen Aufgeschlossenheit gegenüber moderneren Entwicklungen abzuhängen. Überdenkt man jedoch diese beiden Verfahrensweisen kritisch am statistischen Instrumentarium der empirischen Wirtschaftsforschung, so stellt sich bald heraus, daß manche dieser Methoden nur schwer in das System der induktiven Statistik eingeordnet werden können. Berücksichtigt man weiterhin, daß der Wirtschaftswissenschaftler seine empirische Forschung meist nicht unter eindeutig kontrollierbaren Bedingungen durchfuhren kann, so scheint die Betonung des induktiven Aspektes eine, für wirtschaftliche Sachverhalte, unangemessene Akzentuierung zu sein. Angesichts der Tatsache, daß eine mathematische Propädeutik auch von Studenten der Wirtschaftswissenschaft absolviert wird, kann beim Leser eine gewisse mathematische Fertigkeit vorausgesetzt werden. Dadurch läßt sich einerseits das Stoffgebiet etwas knapper darstellen, andererseits bietet es dem Leser die Möglichkeit, sich im Umgang mit mathematischen Strukturen zu schulen. Die mathematischen Anforderungen beschränken sich im wesentlichen auf das Rechnen mit Summenzeichen. An einigen Stellen wird außerdem auf einige Sätze der Analysis und auf das Lösen linearer Gleichungen bezug genommen. Trotz dieser Beschränkung der mathematischen Hilfsmittel wurde immer versucht, das Stoffgebiet möglichst allgemein darzustellen. Die statistische Grundausbildung wird in zwei Teilen erscheinen. Der vorliegende erste Band befaßt sich mit der beschreibenden Statistik. Er ist so angelegt, daß er zugleich als Einführung in das Stoffgebiet des zweiten Bandes dient. Das trifft insbesondere für die Behandlung der empirischen Häufigkeitsverteilungen zu. Diese Ausführungen sind so konzipiert, daß sie den Leser auf die Wahrscheinlichkeitsrechnung vorbereiten. Dadurch werden vielleicht manche Abschnitte abstrakter formuliert, als es der deskriptiven statistischen Analyse angemessen erscheint, jedoch bringt dieses Verfahren den Vorteil einer größeren theoretischen Geschlossenheit mit sich. Insbesondere wird dadurch erkennbar, daß viele Konzepte der beschreibenden Statistik ganz entsprechend in der Wahrscheinlichkeitsrechnung wieder auftreten nur mit wesentlich allgemeinerer Bedeutung. Auch die Regressionsanalyse erhielt ihr Gepräge mehr vom varianzanalytischen als vom deskriptiven Aspekt her. Dieses Stoffgebiet wird im zweiten Band bei der Behandlung des Modells der allgemeinen linearen Hypothese wieder aufgegriffen, um Entscheidungskriterien für die Güte einer Regressionsanalyse zu behandeln.
6
Vorwort
Die mit einem Stern gekennzeichneten Abschnitte können bei der ersten Lektüre überschlagen werden. Allen Kollegen und Mitarbeitern, die den Inhalt des Buches durch kritische Hinweise und sachkundige Anregungen gestalten halfen, sei herzlich gedankt.
Inhaltsverzeichnis Einleitung
11
1. Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials.
16
1.1 Statistische Gesamtheiten 1.2 Erhebung des Urmaterials 1.21 Abgrenzung des Erhebungssektors 1.22 Definition der Erhebungsmerkmale 1.23 Hinweise auf die Durchführung von statistischen Erhebungen 1.3 Tabellarische Darstellung des Beobachtungsbefundes Übungsaufgaben und ergänzende Hinweise I
16 16 17 19 24 25 29
Erster Abschnitt: Zeitunabhängige deskriptive Analyse
31
2. Häufigkeitsverteilungen qualitativer Merkmale
31
2.1 Häufigkeitsverteilungen eines qualitativen Merkmals 2.11 Häufigkeitsverteilung eines nicht-häufbaren qualitativen Merkmals . . 2.12 Häufigkeitsverteilung eines häufbaren qualitativen Merkmals 2.2 Häufigkeitsverteilungen zweier nicht-häufbarer qualitativer Merkmale . . . . 2.21 Die gemeinsame Häufigkeitsverteilung zweier qualitativer Merkmale und deren Randverteilungen 2.22 Bedingte Häufigkeitsverteilungen 2.23*Verallgemeinerungen Übungsaufgaben und ergänzende Hinweise II
3. Häufigkeitsverteilungen quantitativer Merkmale 3.1 Häufigkeitsverteilung eines quantitativen Merkmals 3.11 Ermittlung der Verteilungsfunktion 3.12 Stabdiagramm und Histogramm 3.13 Prozentpunkte 3.2*Konzentrationskurven (Lorenz-Kurven) 3.3 Häufigkeitsverteilungen zweier quantitativer Merkmale 3.31 Gemeinsame Verteilung zweier quantitativer Merkmale 3.32 Randverteilungen und bedingte Verteilungen der Korrelationstabelle. . Übungsaufgaben und ergänzende Hinweise III
4. Lokalisations- und Streuungsmaße, Momente 4.1 Lokalisationsmaße 4.11 Formale Eigenschaften des arithmetischen Mittels 4.12 Berechnung des arithmetischen Mittels 4.2 Streuungsmaße 4.21 Formale Eigenschaften der Varianz 4.22 Berechnung der Varianz
33 33 35 36 37 39 40 41
45 45 45 49 51 52 55 55 59 61
66 66 67 68 73 74 76
Inhaltsverzeichnis
8
4.3 Momente 4.31 Arten von Momenten 4.32*Zusammenhänge zwischen verschiedenen Arten von Momenten Übungsaufgaben und ergänzende Hinweise IV
....
5. Regressionsbeziehungen 5.1 Empirische Regressionsbeziehungen 5.11 Messung der statistischen Abhängigkeit im Mittel 5.12 Formale Eigenschaften von Korrelationsverhältnissen 5.2 Ausgleichende Regressionsgeraden 5.21 Bestimmung der Regressionsgeraden 5.22 Berechnung der Parameter von Regressionsgeraden 5.3 Formale Eigenschaften von ausgleichenden Regressionsgeraden 5.31 Das arithmetische Mittel und die Varianz der ausgeglichenen Merkmalswerte 5.32 Formale Beziehungen zwischen den ausgleichenden Regressionsgeraden 5.33 Das Bestimmtheitsmaß von ausgeglichenen Regressionen 5.4 Linearisierung von Regressionen 5.5* Verallgemeinerungen des linearen Regressionsmodells Übungsaufgaben und ergänzende Hinweise V
79 79 80 81
84 86 87 90 91 91 94 98 98 99 101 104 106 109
Zweiter Abschnitt: Zeitabhängige deskriptive Analyse
113
6. Veränderung des Umfangs einer Bestandsmasse im Zeitablauf
113
6.1 Fortschreibungsmodelle 6.2* Abgangsmodelle Übungsaufgaben und ergänzende Hinweise VI
7. Relative Veränderung von Merkmalswerten im Zeitablauf 7.1 Gliedziffern, Meßziffern, Wachstumsraten 7.2 Indexziffern Übungsaufgaben und ergänzende Hinweise VII
8. Bewegungskomponenten von Zeitreihen 8.1 Systematische Bewegungskomponenten 8.2 Verknüpfung der Bewegungskomponenten von Zeitreihen 8.3 Schätzung des Trends einer Zeitreihe 8.31 Schätzung des Trends nach der Methode der kleinsten Quadrate . . . . 8.32 Ermittlung eines geradlinigen Trendes nach der Methode der gleitenden Durchschnitte 8.33*Lokale und globale Trendschätzun nach der Methode der kleinsten Quadrate
114 121 128
132 132 135 146
149 149 153 156 156 158 160
Inhaltsverzeichnis 8.4 Beschreibung der zyklischen Bewegungskomponenten von Zeitreihen . . . . 8.41 Berechnung von Zyklus-Indizes nach dem Phasendurchschnittsverfahren 8.42*Beschreibung zyklischer Bewegungskomponenten mittels trigonometrischer Polynome 8.5 Zerlegung von Zeitreihen in verschiedenartige systematische Bewegungskomponenten Übungsaufgaben und ergänzende Hinweise VIII
Sachverzeichnis
9 162 163 164 165 166
169
Man kann wohl ganz allgemein sagen, daß die Mathematiker den Statistiker für eine Art Nationalökonomen, und die Nationalökonomen ihn für einen Mathematiker halten. L. H. C. Tippett
Einleitung Jede rationale Erkenntnis der Realität fußt auf Informationen, die den Zustand und das Geschehen in gewissen Teilbereichen der Erfahrungswelt beschreiben. Durch systematische Auswertung von Beobachtungen lassen sich Zusammenhänge aufdecken, die bestimmte Tatbestände und Abläufe rational erklären. Bei einer Fülle von Phänomenen gelingt es jedoch nicht, die maßgeblichen Einflüsse unter Kontrolle zu bringen; oft können die wesentlichen Ursachen, die das Erscheinungsbild eines Sachverhaltes formen, nicht einmal identifiziert werden, weil der Beobachtungsbefund völlig regellos ist und die charakteristischen Besonderheiten des untersuchten Tatbestandes nicht unmittelbar hervortreten. 1. Wirken auf einen Sachverhalt in erheblichem Ausmaß unkontrollierte Einflüsse ein, so lassen sich dessen charakteristische Eigenschaften nicht am Einzelfall studieren. Würde man nämlich in dieser Weise vorgehen, dann liefe man Gefahr, daß die empirisch festgestellten Merkmalsausprägungen oder der beobachtete Ablauf eines Vorganges nur für den gerade beobachteten Fall typisch sind. Man wird deshalb versuchen, aus mehreren Informationen diejenigen Charakteristika „herauszurechnen", die einen vorgelegten Beobachtungsbefund als Gesamtheit (Kollektiv) kennzeichnen. Dadurch geht zwar die Vielfalt der individuellen Erscheinungsformen eines Sachverhaltes verloren, jedoch gelingt es oft auf diese Weise, die Fülle widersprüchlicher Einzeiinformationen auf das Wesentliche zu reduzieren. Die individuellen Merkmalsausprägungen sind dann nur noch Bausteine eines „kollektiven" Abbildes der Realität. Intersubjektiv nachprüfbare Verfahren, die darauf ausgerichtet sind, einen durch unkontrollierte Einflüsse geformten Beobachtungsbefund zu gewinnen und dessen kollektive Eigenschaften zu ermitteln, nennt man statistische Methoden. Die Entwicklung und die Anwendung dieser Verfahren sind Gegenstand der Statistik. Man rechnet die Statistik deshalb zu den methodischen Wissenschaften und bezeichnet sie auch als Methodenlehre. 2. Die Beobachtungsdaten, die das Ausgangsmaterial der Statistik bilden, sind stets an konkrete Informationsträger — wie Personen oder Gegenstände gebunden.
12
Einleitung Altersgliederung der Wohnbevölkerung der B R D am 6. J u n i 1961 (Bundesgebiet ohne Berlin)
Alter
männlich
weiblich
unter 1 1 -" 2 2- " 3 3 -" 4 4 -" 5 5 -" 6 6- " 7 7 -" 8 8- " 9 9 - " 10
479 163 463 456 447 387 435 346 419 586 404 935 394 664 388 125 386 016 386 082
457 440 424 412 398 385 376 369 367 367
i o - " 11 li - "12 1 2 - "13 13 - " 14 14 - " 1 5 15 - " 16 16 - " 17 17 - " 1 8 18 - " 1 9 19 - " 2 0 2 0 - " 21 21 - " 22 2 2 - " 23 23 - " 24 2 4 - "25 25 - " 2 6 26 - " 27 27 - " 2 8 2 8 - "29 2 9 - " 30 3 0 - "31 31 - " 32 3 2 - "33 33 - " 3 4 34 - " 35 35 - " 36 3 6 - " 37 37 - " 38 38 - " 39 3 9 - "40 4 0 - " 41 41 - " 4 2 4 2 - " 43 43 - " 4 4 4 4 - " 45 45 - " 46 4 6 - " 47 47 - " 48 48 - " 4 9 4 9 - "50
387 962 395 965 390 162 358 484 360 063 264 538 334 570 391 449 381 066 439 882 460 980 515 454 480 535 452 502 445 646 437 484 440 288 365 007 342 965 355 788 382 220 392 969 396 552 379 344 352 213 339 383 319 682 298 691 313 085 332 376
368 606 375 809 369 474 342 343 344 067 255 303 323 180 374 133 360 667 416 084 435 241 491 425 459 108 431 899 421 362 413 995 413 797 342 906 323 121 335 967 361 785 371 611 376 850 372 598 382 267 399 122 410 321 403 128 421 528 450 372 453 903 453 247 245 749 222 368 246 691 277 214 420 424 431 899 442 081 433 867
329 193 328 342 179 200 164 468 182 579 203 825 305 980 321 736 336 359 334 429
372 838 476 430 930 101 062 976 597 705
insgesamt 936 904 871 847 818 790 770 758 753 753
535 294 863 776 516 036 726 101 613 787
756 568 771 774 759 636 700 827 704 130 519 841 657 750 765 582 741 733 855 966 896 221 1 006 879 939 643 884 401 867 008 851 479 854 085 707 913 666 086 691 755 744 005 764 580 773 402 751 942 734 480 738 505 730 003 701 819 734 613 782 748 783 096 781 589 424 949 386 836 429 270 481 039 726 404 753 635 778 440 768 296
unter 50 18 398 176 19 175 999 37 574 175 Quelle: „Wirtschaft
und Statistik",
Nr. 9/1963,
Alter
männlich
unter 50 5 0 - "51 51 - " 5 2 52 - " 5 3 53 - " 54 54 - " 55 55 - " 5 6 56 - " 5 7 57 - " 5 8 5 8 - "59 5 9 - " 60 60 - " 6 1 61 - " 6 2 62 - " 63 63 - " 64 64 - " 65 65 - " 6 6 66 - " 6 7 67 - " 68 68 - " 69 69 - " 70 70 - " 7 1 71 - " 72 72 - " 73 73 - " 74 7 4 - " 75 75 - " 76 76 - " 77 77 - " 78 78 - " 79 79 - " 8 0 80 - " 81 81 - " 82 82 - " 83 83 - " 8 4 84 - " 8 5 85 - " 8 6 86 - " 87 87 - " 88 88 - " 89 89 - " 90 9 0 - "91 91 - " 9 2 92 - " 93 93 - " 94 9 4 - " 95 95 - " 96 96 - " 9 7 97 - " 98 98 - " 99 99 u. mehr
18 398 176 19 175 999 37 574 175 329 120 429 764 758 884 341 911 440 087 781 998 347 024 441 425 788 449 349 187 433 847 783 034 346 475 424 963 771 438 344 865 406 636 751 501 348 776 401 393 750 169 336 972 387 806 724 780 329 712 382 222 711 934 326 308 380 906 707 214 306 814 362 695 669 509 641 638 290 283 351 355 262 183 338 430 600 613 240 109 325 259 565 368 222 186 316 292 538 478 204 506 301 079 505 585 189 258 475 087 285 829 273 681 179 117 452 798 166 432 254 602 421 034 15 9 063 241 717 400 780 151 327 228 681 380 008 142 311 213 778 356 089 133 950 199 957 333 907 127 098 187 624 31'4 722 284 999 115 498 169 501 108 423 157 905 266 328 240 566 98 385 142181 126 317 214 104 87 787 114 178 80 451 194 629 71 918 173 525 101 607 88 488 62 177 150 665 54 838 77 528 132 366 47 308 67 349 114 657 39 946 56 487 96 433 78 914 32 789 46 125 27 275 38 181 65 456 20 288 28 945 49 233 21 997 37 221 15 224 16 245 27 187 10 942 10 605 17 985 7 380 7 793 12 720 4 927 3 626 5 891 9517 3 788 2 142 5 930 1 392 2 558 3 950 2 656 927 1 729 1 634 555 1079 651 960 309 433 625 192 125 263 388 295 104 399
insgesamt
25 468 091 28 474 146 53 942 237
S.
518* Tabelle 0.1
weiblich
insgesamt
Einleitung
13
Da sich aber eine statistische Untersuchung immer nur auf bestimmte Sachverhalte bezieht, ist zunächst festzulegen, auf welche Informationsträger sich die Erhebung der Daten erstrecken soll. Durch diese Vereinbarung wird der Erhebungssektor abgegrenzt. Bevölkeiungspyramide der Wohnbevölkerung der BRD am 6. Juni 1961 (Bundesgebiet ohne Berlin)
FRAUEN
MANNER
Gefallene des 1. Weltkrieges
FRAUENÜBERSCHUSS,
Gefallene des 2. Weltkrieges Geburten ausfall im 1. Weltkrieg
Geburtenausfall wahrend der um 1932
Geburtenausfall Ende des 2. Weltkrieges
MANNERÜBERSCHUSS
500 Tausend P« jenen
«06
400
300
Abbildung 0.1
i>00 Tosend Personen
14
Einleitung
Ein Erhebungssektor umschließt immer eine gewisse Menge an Erhebungselementen. Das können sowohl bestimmte Individuen wie Personen, Tiere und Objekte z. B. Häuser, Betriebe oder auch Ereignisse wie Geburten, Konkurse und Verbrechen sein. Jedem Erhebungselement ist eine Fülle von Merkmalen zugeordnet. Bei „Betrieben" bieten sich als Merkmale u. a. die Anzahl der Beschäftigten, der während eines Jahres erzielte Umsatz an; bei „Geburten" seien beispielsweise das Geburtsdatum, das Alter der Mutter angeführt. Für die sachliche Problemstellung einer statistischen Untersuchung muß man entscheiden, welche Merkmale von Belang sind und deshalb in die Untersuchung einbezogen werden sollen; man nennt sie Erhebungsmerkmale. Die Erhebungsmerkmale haben verschiedene Ausprägungen. Beim Merkmal „Geschlecht" z. B. lassen sich die Ausprägungen „männlich", „weiblich" unterscheiden; die Ausprägungen des Merkmals „Alter" werden bei Personen meist durch die Anzahl der Lebensjahre ausgedrückt. 3. Eine statistische Erhebung dient dazu, die Ausprägungen der Erhebungsmerkmale bei den einzelnen Erhebungselementen festzustellen. Dieses Datenmaterial — auch Urmaterial genannt - ist aufzubereiten, worunter man z. B. das Ordnen der Beobachtungswerte nach ihrer Größe und das Auszählen der Elemente mit gleichen Merkmalsausprägungen versteht. Die Zuordnung der Häufigkeiten zu den Merkmalsausprägungen nennt man die Häufigkeitsverteilung; ihre tabellarische Darstellung bezeichnet man als Häufigkeitstabelle. Als Beispiel eines nach den Ausprägungen zweier Merkmale aufgegliederten Beobachtungsbefundes zeigt die Häufigkeitstabelle auf Seite 12 ein Ergebnis der Volkszählung in der Bundesrepublik Deutschland vom 6. Juni 1961 — nämlich die Häufigkeitsverteilung der Wohnbevölkerung gruppiert nach Altersklassen und nach Geschlecht; die zugehörige Graphik auf Seite 13 bezeichnet man als Bevölkerungspyramide. Die Ermittlung von Häufigkeitsverteilungen und die Beschreibung ihrer formalen Eigenschaften bilden eine wesentliche Aufgabe der Statistik. 4. Erstreckt sich eine statistische Untersuchung darauf, die Häufigkeitsverteilung eines Kollektivs zu ermitteln und deren Struktur durch geeignete statistische Maßzahlen — wie z. B. Mittelwerte — zu charakterisieren, dann spricht man von beschreibender (deskriptiver) Statistik. Die Ergebnisse der beschreibenden Statistik werden oft benutzt, um Unterschiede zwischen zweckdienlich gewählten Vergleichsgrößen aufzudecken und substanzwissenschaftlich zu begründen. Wenn beispielsweise in einem Betrieb der Ausschußanteil einer Woche gegenüber der vergangenen Woche zugenommen hat, so ergibt sich die Frage, ob diese Zunahme nur zufälliger Natur ist oder ob sie auf wesentlichen Änderungen der Produktionsbedingungen beruht. Da ein statistischer
Einleitung
15
Beobachtungsbefund im allgemeinen durch einen Komplex von unkontrollierten Einflüssen geformt wird, können in den Vergleichsgrößen Unterschiede auch auftreten, ohne daß die Allgemeinbedingungen, unter denen die Ausgangsdaten ermittelt wurden, wesentlich voneinander abweichen. Um wieviel müssen aber die betreffenden Vergleichsgrößen differieren, damit man mit einer bestimmten Sicherheit auf einen sachlich bedeutsamen oder — wie man auch sagt — auf einen signifikanten Unterschied der Vergleichsgrößen schließen kann? Die beiden Aufgabenstellungen — nämlich: einerseits die kollektiven Charakteristiken eines Beobachtungsbefundes zu beschreiben und andererseits aus diesen Ergebnissen statistische Schlüsse zu ziehen, heben sich bezüglich der anzuwendenden Methoden stark voneinander ab. Deshalb wird neben die beschreibende Statistik die schließende (induktive) Statistik als gesonderter Problemkreis gestellt. Ein fruchtbares Konzept für eine rationale Begründung statistischer Schlüsse ist die Wahrscheinlichkeitsrechnung; sie bildet das Fundament aller bisher entwickelten Theorien über statistische Schlußweisen.
1. Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials
Die Zuverlässigkeit von statistischen Untersuchungen wird maßgeblich durch die Güte des Urmaterials beeinflußt. Deshalb sind an die Ausgangsdaten gewisse „Qualitätsanforderungen" zu stellen. Um diesen zu genügen, schließt der Aufgabenbereich der Statistik im allgemeinen die Gewinnung des Urmaterials mit ein; man nennt es dann auch ein primärstatistisches Beobachtungsmaterial. Werden dagegen bereits für andere Zwecke erfaßte Informationen nachträglich statistisch ausgewertet, so heißen diese Daten ein sekundärstatistisches Beobachtungsmaterial. Ein primärstatistisches Beobachtungsmaterial besitzt gegenüber sekundärstatistischen Daten den Vorteil, daß es einer sachlichen Fragestellung speziell angepaßt werden kann. Sekundärstatistisches Material ist oft nicht hinreichend genau abgegrenzt und weist mitunter bezüglich der Erhebungsmethodik beträchtliche Mängel auf.
1.1 Statistische Gesamtheiten Die beschreibende Statistik basiert auf der Annahme, daß ein wohldefinierter Erhebungssektor eine endliche Menge an Erhebungselementen umfaßt. Diese bilden ein Kollektiv oder — wie man auch sagt: eine statistische Masse, eine Grundgesamtheit. Die Anzahl der Elemente heißt der Umfang der betreffenden Gesamtheit. Jede (nicht leere) Teilmenge von Elementen eines Kollektivs ist wiederum eine statistische Masse; sie wird eine Teilgesamtheit genannt. Erstreckt sich eine Erhebung auf alle Elemente eines Kollektivs, so spricht man von einer Totalerhebung. Eine Teilerhebung liegt vor, wenn bereits bei der Datenerfassung nicht alle Elemente der Grundgesamtheit einbezogen werden.
1.2 Erhebung des Urmaterials Die statistischen Daten können dazu dienen, die Struktur eines Bestandes von Erhebungselementen bezüglich gewisser Merkmalsausprägungen darzustellen. Die Ermittlung des Altersaufbaus der Wohnbevölkerung! in der Bundesrepublik Deutsch1 Zur Wohnbevölkerung zählen alle Personen, die in der Bundesrepublik Deutschland ihre ständige Wohnung haben, jedoch nicht die Mitglieder der in dem genannten Gebiet stationierten ausländischen Streitkräfte und der ausländischen diplomatischen und konsularischen Vertretungen mit ihren Familienangehörigen. Zur Wohnbevölkerung zählen jedoch alle sonstigen Ausländer ohne Sonderstatus.
Vergl. z. B. Statistisches Jahrbuch für die Bundesrepublik Deutschland 1966, Stuttgart und Mainz 1966, S. 25.
Erhebung des Urmaterials
17
land am 6. 6. 1961 ist ein Beispiel dafür. - Eine Erhebung kann sich aber auch mit bestimmten Charakteristiken von Ereignissen befassen, die sich an den Erhebungselementen vollziehen. Eine Erhebung der nach Ursachen gegliederten Todesfälle während des Jahres 1963 in der Bundesrepublik Deutschland stellt ein Beispiel für den zweitgenannten Fall dar. Bestandsdaten lassen sich immer in einem zweckdienlich gewählten Zeitpunkt gewinnen; sie sind zeitpunktbezogen. Ereignisse müssen dagegen über einen gewissen Zeitraum hinweg erhoben werden, weil ihr Eintreten meist in temporaler Hinsicht fixiert, und deshalb gewöhnlich nicht in jedem beliebigen Zeitpunkt eine hinreichende Anzahl der betreffenden Ereignisse beobachtbar ist. Die während eines Zeitraumes erfaßten statistischen Informationen über Ereignisse nennt man auch Strömungsdaten. Eine Gesamtheit von Bestandsdaten wird als Bestandsmasse, ein Kollektiv von Strömungsdaten als Ereignismasse bezeichnet. Um die Veränderungen eines statistischen Kollektivs im Zeitablauf zu verfolgen, wird eine Erhebung — meist in gleichen Zeitabständen — mehrere Male wiederholt. Auf diese Weise erhält man eine Zeitreihe von Bestands- oder von Strömungsdaten. 1.21 Abgrenzung des Erhebungssektors Die Erhebungselemente sind eindeutig zu definieren; nur dann läßt sich zweifelsfrei entscheiden, ob ein beliebiger Informationsträger Erhebungselement ist oder nicht. Oft ist ein Erhebungssektor auch in zeitlicher und in regionaler Hinsicht zu beschränken. Die das Kollektiv bestimmenden Merkmale lassen sich also auf die kurze Formel bringen: Welche Informationsträger sollen wann und wo erfaßt werden. Die Definitionen, mittels derer man die Erhebungselemente festlegt, sind im Regelfall rein pragmatischer Natur; sie zielen nicht darauf ab, das „Wesen" der Erhebungseinheiten erschöpfend zu beschreiben. Meist werden Arbeitsdefinitionen mit dem Hinweis ,4m Sinne dieser Erhebung" versehen. Als ein Beispiel dafür sei die folgende Definition angeführt: „Eine Arbeitsstätte im Sinne der Arbeitsstättenzählung ist durch folgende drei Merkmale gekennzeichnet: 1. Am Zählungsstichtag mußte mindestens eine Person einschließlich des Inhabers (Leiters) der Arbeitsstätte zur Erzielung eines wirtschaftlichen oder Verwaltungszweckes bzw. eines im öffentlichen Interesse liegenden Zweckes tätig sein. Diese Tätigkeit mußte ständig, d. h. regelmäßig und entgeltlich ausgeführt werden; sie konnte auch nebenberuflich erfolgen. 2. Die beschäftigten Personen waren unter einer einheitlichen technisch-organisatorischen Leitung zur gemeinsamen Tätigkeit zusammengefaßt. Zur Erreichung
18
Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials
dieses Zweckes der Arbeitsstätte waren sie hierfür von der Leitung mit Werkzeugen und (oder) anderen Hilfsmitteln ausgestattet bzw. hatten deren Einrichtung (Maschinen, Geräte, Fahrzeuge, Gebäude) zu bedienen bzw. zu unterhalten. 3. Diese Tätigkeit wurde in der Regel auf einem Grundstück bzw. Grundstückkomplex, also einer räumlich abgegrenzten Einheit, ausgeübt"!. Bei der Bestimmung der Erhebungszeit sind oft Zweckmäßigkeitserwägungen anzustellen; beispielsweise ist es unzweckmäßig, eine Volkszählung während ausgesprochener Urlaubszeiten durchzufuhren (Warum?). Außerdem treten immer dann Probleme auf, wenn die zu ermittelnden Daten im Zeitablauf stark ausgeprägten zyklischen Änderungen unterworfen sind. Einen aussagekräftigen Beobachtungsbefund erhält man unter dieser Bedingung gewöhnlich nur, wenn man die Erhebung während einer längeren Periode in möglichst regelmäßigen Zeitabständen wiederholt. Es ist zu beachten, daß dabei zyklische Abläufe verzerrt dargestellt werden können. In der anglo-amerikanischen Literatur wird diese Verzerrung, die die Abbildung 1.1 schematisch veranschaulicht', „aliasing" genannt.
Führt man eine Erhebung während eines gewissen Zeitraumes mehrmals durch, so kann sich insbesondere bei ökonomischen Strömungsdaten der unregelmäßige Aufbau des gebräuchlichen Kalenders als störend erweisen, weil z. B. die Anzahl der Arbeitstage während der Erhebungsperioden — etwa: Monate unterschiedlich ist. Bisweilen lassen sich derartige von den Unregelmäßigkeiten des Kalenders herrührende Einflüsse bereinigen, indem man die ermittelten Zahlen auf einen „Normalmonat" bezieht. Enthält also ein bestimmter Erhebungsmonat 28, ein „Normalmonat" dagegen 25 Arbeitstage, dann schaltet man bei Strömungsdaten den auf diese Kalenderunregelmäßigkeit zurückfuhrbaren Einfluß durch Multuplikation der beobachteten Größe mit 25/28 aus. Der regionale Erhebungsbereich ist, soweit er für eine anstehende statistische Untersuchung überhaupt ausdrücklich umrissen werden muß, häufig identisch mit politischen Gebieten oder mit Verwaltungsbezirken. 1 Statistik der Bundesrepublik Deutschland, Band 4 4 : Einführung in die methodischen und systematischen Grundlagen der Arbeitsstättenzählung vom 13. 9. 1950. Stuttgart-Köln, 1953, S. 4
Erhebung des Urmaterials
19
1.22 Definition der Erhebungsmerkmale Mit der Vereinbarung des Erhebungssektors liegt der Ausschnitt der Realität fest, innerhalb dessen sich die Gewinnung des statistischen Urmaterials vollziehen soll. Die Erhebungselemente stimmen also bezüglich der, den Erhebungssektor charakterisierenden Merkmale überein. Darüber hinaus besitzen die Erhebungselemente aber weitere Eigenschaften, bezüglich derer sie sich mehr oder minder unterscheiden. Von diesen ist jedoch nur ein kleiner Teil für den Untersuchungsgegenstand von Interesse. Die Ausprägungen dieser Merkmale zu erfassen, ist das Ziel der Erhebung. 1. Häufig bedürfen die im Sprachgebrauch oder in einer Substanzwissenschaft üblichen Bezeichnungen für Erhebungsmerkmale einer operationellen Interpretation, durch die bestimmt wird, wie die Ausprägungen der betreffenden Eigenschaften zu ermitteln sind. Die Definition der Erhebungsmerkmale muß daher praktikable Vorschriften einschließen, nach denen sich die Merkmalsausprägungen eindeutig feststellen lassen. Es genügt also nicht, nur anzugeben, daß z. B. der „soziale Status" von Familien ein Erhebungsmerkmal sein soll; es ist vielmehr auch festzulegen, wie das betreffende Merkmal zu erfassen oder — wie wir generell sagen wollen — zu messen ist. a) Gemeinhin versteht man unter „Messen" einen Vorgang, durch den gewissen Elementen nach bestimmten Regeln Zahlen zugeordnet werden. Diese Meßvorschriften können sich darauf beschränken, nur die Gleichheit oder Ungleichheit von Erhebungseinheiten in Bezug auf die Ausprägungen eines Merkmals zu definieren. Dadurch lassen sich die Elemente, die hinsichtlich dieses Merkmales als gleich anzusehen sind, in einer Klasse zusammenfassen. Man erhält so eine klassifikatorische Einteilung der Erhebungseinheiten. Zum Beispiel sind bei dem Merkmal „Familienstand" von Personen die Ausprägungen „ledig, „verheiratet", „verwitwet", „geschieden" möglich. Die Anwendung einer solchen nominalen Metrik bedeutet im vorliegenden Fall nichts anderes, als daß Personen mit gleichem Familienstand einer Merkmalsklasse zugewiesen werden. Diese Klassen brauchen nicht notwendig verbal bezeichnet zu sein, sie können auch durch Nominalzahlen oder — wie sie in der Statistik gewöhnlich heißen — durch Schlüsselzahlen charakterisiert werden. Vielfach bedient man sich dabei eines Dezimalschlüssels, der die Möglichkeit bietet, zugleich auch eine übersichtliche und handliche Systematik einzuführen. So kennzeichnet man in der amtlichen Statistik etwa die Wirtschaftsabteilungen, Wirtschaftsgruppen und Wirtschaftszweige, denen die einzelnen Arbeitsstätten angehören, mit Hilfe eines Dezimalschlüssels. Tabelle 1.1 enthält einen Auszug aus einer in der amtlichen Statistik gebräuchlichen Systematik der Wirtschaftszweige. Sieht man von möglichen sachlich-systematischen Einteilungsprinzipien ab, dann können die Schlüsselnummern beliebig gewählt werden. Sie erfüllen eine reine Bezeichnungsfunktion. Es ist deshalb sinnlos, mit ihnen arithmetische Operationen anzustellen.
Auszug aus der Systematik der Wirtschaftszweige (Ausgabe 1961) Abt.
Unterabt. Gruppe Land- u. Forstwirtschaft, Tierhaltung u. Fischerei Land- u. Forstwirtschaft Fischerei u. Fischzucht, gewerbliche Gärtnerei und gewerbliche Tierhaltung
0 00 05 1
26 27 28/29
Energiewirtschaft und Wasserversorgung, Bergbau Energiewirtschaft und Wasserversorgung Bergbau Steinkohlenbergbau und Kokerei Braun- und Pechkohlenbergbau u. Braunkohlenschwelerei Erzbergbau Kali- u. Steinsalzbergbau sowie Salinen Gewinnung von Erdöl, Erdgas u. bituminösen Gesteinen Sonstiger Bergbau (einschl. Torfgewinnung) Bergbauliche Tiefbohrung, Aufschi, und Schachtbau(ohne Erdölbohrung) Verarbeitendes Gewerbe (ohne Baugewerbe) Chemische Industrie (einschl. Kohlenwertstoffindustrie) und Mineralölverarbeitung Kunststoff-, Gummi- und Asbestverarbeitung Gewinnung und Verarbeitung von Steinen und Erden; Feinkeramik und Glasgewerbe Eisen- u. NE-Metallerz, Gießerei und Stahlverformung Stahl-, u. Maschinen- und Fahrzeugbau Elektrotechnik, Feinmechanik und Optik; Hersteilung von Eisen-, Blech- und Metallwaren, Musikinstrumenten, Sportgeräten, Spiel- und Schmuckwaren Holz, Papier- und Druckgewerbe Leder-, Textil- und Bekleidungsgewerbe Nahrungs- und Genußmittelgewerbe
30 31
Baugewerbe Bauhauptgewerbe Ausbau- und Bauhilfsgewerbe
40/41 42 43
Handel Großhandel Handelsvermittlung Einzelhandel
10 11 110 111 113 115 116 118 119 2
20 21 22 23 24 25
3
4
5
Verkehr und
6 60 61
Nachrichtenübermittlung
Kreditinstitute und Versicherungsgewerbe Kredit- u. sonstige Finanzierungsinstitute Versicherungsgewerbe
7
Dienstleistungen, soweit von Unternehmen u. Freien Berufen erbracht
8
Organisationen ohne Erwerbscharakter u. Priv. Haushalte
9 90 91 92 93 96
Gebietskörperschaften und Sozialversicherung Gebietskörperschaften insgesamt Bund Länder Gemeinden, Gemeinde- u. Zweckverbände Sozialversicherung
Quelle: Statistisches Bundesamt „Das Arbeitsgebiet der Bundesstatistik - Stand Mitte 1962", S. 272 f f . Tabelle 1.1
Erhebung des Urmaterials
21
b) Wenn die Ausprägungen eines Merkmals intensitätsmäßig abgestuft sind, kann man die Meßmethodik dergestalt erweitern, daß man die Elemente eines Kollektivs nach der „Intensität" anordnet, mit welcher das betreffende Erhebungsmerkmal auftritt. Dieser Fall liegt etwa vor, wenn verschiedene Sorten eines Rohstoffes nach ihrer Qualität beurteilt und in eine Rangordnung — wie: „Sorte Nr. 1 ist schlechter als Sorte Nr. 5 " — gebracht werden. Auch die in der ökonomischen Wahlhandlungstheorie diskutierte Anordnung von Gütermengen nach subjektiv festgelegten Nutzengraden stellt ein Beispiel für die Festlegung einer Rangordnung dar. Die Besonderheit dieser ordinalen Metrik besteht darin, daß sie die Merkmalsausprägungen selbst nicht größenmäßig erfaßt; sie bestimmt lediglich eine Reihenfolge der Elemente. Die Position jedes Elementes in dieser Anordnung läßt sich allerdings auch numeral charakterisieren. Dabei benutzt man normalerweise positive ganze Zahlen, die dann als Rang- oder Ordnungszahlen bezeichnet werden. Die Ausprägungen von intensitätsmäßig abgestuften Merkmalen durch Zahlen zu charakterisieren, ist in der Psychologie und in den Sozialwissenschaften weit verbreitet. Die Aufgabe, geeignete Abbildungsvorschriften für Intensitätsmäßig abgestufte Merkmale auf Zahlen zu entwerfen, wird als das Skalierungsproblem bezeichnet. Die sich aus einer derartigen Abbildung ergebenden Zahlen nennt man Skalenwerte. Bei der Skalierung von sozio-ökonomischen Phänomenen stützt man sich häufig auf subjektive Einschätzungen. Beispielsweise kann man versuchen, das „Sozialprestige" der Betriebsabteilungen eines Luftverkehrsunternehmens numerisch zu charakterisieren, indem man die Beschäftigten befragt, welche drei Abteilungen nach ihrer Meinung das „höchste" und welche das „niedrigste" Sozialprestige besitzen. Aus diesen Angaben läßt sich feststellen, wie oft jede Abteilung zu den „besten" und wie oft zu den „schlechtesten" gerechnet wird; die Differenz dieser beiden Häufigkeiten kann man als „Punkte" auf einer ,Prestige-Skala" auffassen. Die folgende Tabelle 1.2 zeigt das Ergebnis einer solchen Erhebung. Die „Prestige-Skala", über deren Konstruktion eben berichtet wurde, gibt nur die Rangordnung der Betriebsabteilungen bezüglich ihres Prestiges an; die ,^restige-Punkte" sagen selbst nichts über das „Ausmaß an Prestige" der einzelnen Betriebsabteilungen aus: Die ,Prestige-Skala" definiert, wie alle Ordinalskalen, nur eine Reihenfolge der Untersuchungseinheiten. c) Durch die ordinale Meßmethodik lassen sich zwar Rangordnungen bezüglich eines Merkmals definieren, jedoch wird damit — wie wir gesehen haben — nicht auch die „Größe" des Abstandes zwischen den Merkmalsausprägungen zweier beliebiger Erhebungselemente bestimmt. Wenn das Ausmaß eines Unterschiedes in den Merkmalsausprägungen numeral charakterisiert wird, so ist ein Abstandsmaß konstituiert. Diese als kardinale Meßmethoden bezeichneten Verfahren er-
22
Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials
Bemessung des Sozialprestiges von Betriebsabteilungen
Bezeichnung der Abteilung BB WH OM AEM OP FM BH MV IN SP MD AP FS
Häufigkeit, mit der eine Abt. gezählt wurde: zu den zu den „schlechtesten" „besten" 1 096 821 685 581 535 437 459 157 243 249 200 175 148
97 124 95 68 63 188 222 288 388 399 696 1 842 1 904
„PrestigePunkte"
-
999 697 590 513 472 249 237 131 145 150 496 1 667 1 756
Rangzahl 1 2 3 4 5 6 7 8 9 10 11 12 13
Quelle: Mack, Raymond W.: The Prestige System of an Air Base: Squadron Rankings and Morale. American Sociological Review. Vol. 19 (1954). S. 282 Tabelle 1.2
fordern außer einer ordinalen Metrik die Festlegung einer Maßeinheit und die Vereinbarung eines Bezugspunktes (Nullpunkt). Die Ausprägungen eines mit einem kardinalen Meßverfahren gemessenen Merkmals bezeichnet man als Merkmal swerte. Die mit einem Abstandsmaß gemessenen Eigenschaften können in zwei Gruppen eingeteilt werden — nämlich in diskontinuierlich meßbare (abzählbare) und in konstinuierhch meßbare. Die Größe von Haushaltungen, ausgedrückt durch die Anzahl der zu einem Haushalt gehörigen Personen, bildet ein Beispiel für den zuerst genannten Fall; die Größe von landwirtschaftlichen Betrieben definiert durch die in Hektar gemessene Betriebsfläche i stellt ein kontinuierlich meßbares Merkmal dar. 2. Die Meßmethoden bilden in gewisser Hinsicht eine Hierarchie mit der „aufsteigenden" Reihenfolge: Nominale, ordinale, kardinale Metrik. Es ist stets möglich, die Meßergebnisse eines „höherstehenden" Verfahrens in Meßergebnisse zu transformieren, die einer „niederen" Metrik angehören. Ordnet man nämlich die Merkmalswerte eines Beobachtungsbefundes der Größe nach, dann hat man 1 Die Betriebsfläche „umfaßt die selbstbewirtschafteten eigenen Flächen, die gepachteten oder in Bewirtschaftung übernommenen Flächen ohne die verpachteten oder anderweitig zur Bewirtschaftung abgegebenen Flächen; sie enthält auch die zum Betrieb gehörenden Gebäude-, Hof-, Wege-, Öd- und Unlandflächen und Gewässer." Statistisches Jahrbuch für die Bundesrepublik Deutschland 1964, a. a. O., S. 168.
Erhebung des Urmaterials
23
gleichzeitig eine Rangordnung der Elemente festgelegt. Weiterhin kann man Merkmalswerte auch in Größenklassen zusammenfassen und sie auf diese Weise klassifikatorisch einteilen. In umgekehrter Richtung lassen sich jedoch diese Übergänge nicht ohne weiteres vollziehen. 3. In der Statistik heißen Eigenschaften, deren Ausprägungen unter Benutzung einer nominalen Metrik ermittelt werden, qualitative Merkmale. Wir werden sie allgemein mit A, B , . . . bezeichnen; für ihre Ausprägungen schreiben wir Aj (i=l,2,...,k)bzw.Bj(j = l,2,...,/). a) Die klassifikatorische Einteilung der Merkmalsausprägungen muß erschöpfend sein. Auf diese Weise ist sichergestellt, daß jedes Erhebungselement mindestens einer Merkmalsklasse angehört. Steht also A für den Familienstand von natürlichen Personen, dann ist A t - ledig A 2 — nicht ledig eine vollständige Gruppe von Merkmalsausprägungen. Dasselbe trifft aber auch zu, wenn man den Ausprägungen A* die folgenden Bedeutungen zuordnet: Ai - ledig A2 — verheiratet A3 — verwitwet A4 — geschieden An diesem Beispiel ersieht man, daß die Ausprägungen von qualitativen Merkmalen nicht fest vorgegeben, sondern in einer dem Untersuchungsziel adäquaten Weise zu definieren sind. b) Im Fall des Merkmals „Familienstand" besitzt jede Person (Erhebungselement) im Erhebungszeitpunkt genau eine Ausprägung dieses Merkmals. Es ist also unmöglich, daß zwei verschiedene Ausprägungen des betrachteten Merkmals bei einem Element gleichzeitig auftreten; die Merkmalsausprägungen schließen sich gegenseitig aus. Betrachtet man dagegen eine Erhebung, durch welche an einem bestimmten Zeitpunkt u. a. die von den Erwerbspersonen 1 einer Volkswirtschaft erlernten Berufe festgestellt werden sollen, so ist unmittelbar evident, daß auch bei eindeutiger Abgrenzung der einzelnen Ausprägungen des Untersuchungsmerkmals sich die erlernten Berufe nicht gegenseitig ausschließen; das betreffende Merkmal ist, wie man sagt, häufbar. 4. Erhebungsmerkmale, die mittels einer ordinalen Meßmethode gemessen werden, nennen wir intensitätsmäßig abgestufte Eigenschaften. Sie sollen durch 1 Erwerbspersonen sind alle diejenigen Personen, die eine unmittelbar oder mittelbar auf Erwerb gerichtete Tätigkeit auszuüben pflegen, ohne Rücksicht auf die von ihnen tatsächlich geleistete oder vertragsmäßig zu leistende Arbeitszeit. Die Anzahl der Erwerbspersonen setzt sich aus der Anzahl der Erwerbstätigen und der Anzahl der Erwerbslosen zusammen.
Vgl.: Statistisches Jahrbuch für die Bundesrepublik Deutschland 1966, a. a. O., S. 147.
24
Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials
Buchstaben U, V charakterisiert werden. Mißt man nun die Ausprägungen eines Merkmals U mittels einer odinalen Skala, so gibt u„ den Skalenwert an, der dem p-ten Element (i> = 1 , 2 , . . . , n) zugeordnet ist; die Rangzahl dieses Elementes bezüglich des Merkmals U wird mit R (u„) bezeichnet. In der Tabelle 1.2 sind die Merkmalsausprägungen in der vorletzten, die Rangzahlen in der letzten Spalte zu finden. 5. Unter quantitativen Merkmalen versteht man in der Statistik jene Eigenschaften, deren Ausprägungen mit Hilfe eines kardinalen Meßverfahrens festgestellt werden. Die Buchstaben X, Y werden z. B. als Symbole für quantitative Merkmale verwendet; die entsprechenden Merkmalswerte des p-ten Erhebungselements sindx„,y„ (v= 1 , 2 , . . . , n). Ist X kontinuierlich (diskontinuierlich) meßbar, dann spricht man von einem stetigen (unstetigen) quantitativen Merkmal. Bisweilen werden an sich unstetige quantitative Eigenschaften als (nahezu) stetig angesehen, wenn hinreichend viele verschiedene Merkmalsausprägungen auftreten können. So faßt man z. B. ökonomische Größen die — wie Umsätze, Einkommen usw. — in Währungseinheiten gemessen werden, normalerweise als stetige Merkmale auf. 1.23 Hinweise auf die Durchführung von statistischen Erhebungen Das statistische Urmaterial soll sich auf die durch das Untersuchungsziel bestimmten Sachverhalte beziehen. Dieser Forderung kann im allgemeinen nur genügt werden, wenn man die Datengewinnung sorgfältig plant. Bei sozio-ökonomischen Problemen ist es oft schwierig, den Erhebungssektor und die Erhebungsmerkmale zweckgerecht festzulegen, weil die anstehenden Sachfragen meist nicht in operationellen Begriffen formuliert sind. Der Untersuchungsgegenstand ist erst durch die Definition der Erhebungseinheiten und der Erhebungsmerkmale genauer zu umreißen. 1. Für die Planung einer statistischen Erhebung hat die Frage, ob es sich um eine Ein-Zweck-Statistik oder um eine Mehr-Zweck-Statistik handelt, eine gewisse Bedeutung. Bei einer Ein-Zweck-Statistik gelingt es eher, den Erhebungssektor und die Erhebungsmerkmale in einer dem Untersuchungsziel adäquaten Weise festzulegen. Schwieriger ist das bei Mehr-Zweck-Statistiken. Sie sollen für die verschiedenartigsten Probleme geeignete statistische Informationen erbringen. Es gelingt aber nur selten, ein Datenmaterial zu beschaffen, das den sachlich gerechtfertigten Ansprüchen aller möglichen Verwendungszwecke vollauf genügt; das Erhebungsprogramm wird in diesem Fall ein mehr oder minder befriedigender Kompromiß sein. 2. Mit den Vereinbarungen bezüglich des Erhebungssektors und der Erhebungsmerkmale sind wichtige Voraussetzungen für die Ermittlung der Daten erfüllt. Auf die Qualität des Urmaterials wirken sich jedoch auch die organisatorischen
Tabellarische Darstellung des Beobachtungsbefundes
25
Maßnahmen bei der praktischen Durchfuhrung der Erhebung aus. Es muß sichergestellt werden, daß alle Erhebungselemente — und nur diese! — genau einmal erfaßt und daß die Ausprägungen der Erhebungsmerkmale möglichst unverfälscht gemessen werden. Diese Forderungen lassen sich gewöhnlich nur durch eine sorgfältige Planung und Überwachung der Erhebungsarbeit — der sogenannten „Feldarbeit" — erfüllen. 3. Die wichtigsten Techniken der Gewinnung statistischer Daten sind: Das Befragen von Personen, das Beobachten von Sachverhalten und Vorgängen in der Realität sowie das Veranstalten von Experimenten. Im sozio-ökonomischen Bereich ist die Befragung von Personen das weitaus wichtigste Erhebungsverfahren. Es tritt in zwei Grundformen auf: Einmal werden die Ausprägungen der Erhebungsmerkmale von den Auskunftspersonen selbst in Fragebögen eingetragen; zum anderen werden die Auskunftspersonen über ein vorbereitetes Fragenprogramm von Interviewern befragt. Die mündliche Befragung gibt es in einer Reihe von unterschiedlichen Arten, die insbesondere für die empirische Sozialforschung wie auch für die Markt- und Meinungsforschung eine besondere Bedeutung besitzen. Demgegenüber spielt die Gewinnung des Urmaterials durch Beobachtung oder durch Experimente im sozio-ökonomischen Anwendungsbereich eine untergeordnete Rolle. 4. Bei der Befragung von Personen ist man normalerweise auf deren Auskunftswilligkeit angewiesen. In der amtlichen Statistik, d. h. bei statistischen Aktivitäten, die von Dienststellen des Staates ausgehen, können Antworten jedoch auch kraft Gesetzes erzwungen werden. Treten bei einer Befragung Antwortverweigerungen in größerem Umfang auf, so fuhrt das im allgemeinen zu einer Verfälschung oder — wie man sagt — Verzerrung des Urmaterials. Derartige systematische Fehler können nachweislich auch dadurch entstehen, daß Interviewer einen ungewollten Einfluß auf die Antworten der Befragten ausüben.
1.3 Tabellarische Darstellung des Beobachtungsbefundes Das statistische Urmaterial besteht aus Aufzeichnungen über die Ausprägungen der Erhebungsmerkmale bei den einzelnen Erhebungselementen. Diese Daten werden in mehreren Aufbereitungsvorgängen überprüft, gesichtet, geordnet und schließlich in Tabellen zusammengefaßt. 1. In der Statistik verwendet man tabellarische Übersichten, um allgemeine Aufschlüsse über der Beobachtungsbefund zu geben, insbesondere darüber, wie häufig die verschiedenen Ausprägungen von Erhebungsmerkmalen in einem Kollektiv auftreten. Die Häufigkeitstabelle 1.3 veranschaulicht als Beispiel die Gliederung der Wohnbevölkerung der Bundesrepublik Deutschland am 6. 6. 61 nach
Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials
26
Wohnbevölkerung der Bundesrepublik Deutschland am 6. 6. 1961 nach dem Geschlecht, dem Alter und nach der Beteiligung am Erwerbsleben
Wohnbevölkerung (in Tsd.) Alter
Erwerbspersonen männl.
weibl.
unter 15 160 15 bis u. 20 1 531 20 " " 25 2 220 25 " " 30 1 927 30 " " 35 1 924 35 " " 40 1 610 40 " " 45 1 190 45 " " 50 1 502 50 " " 55 1 684 55 " " 60 1 571 60 " " 65 1 005 65 und mehr 554 ohne Angabe 12
142 1 408 1 669 959 858 997 769 890 874 681 376 300 8
Insgesamt:
9 932
16 889
Nichterwerbspersonen zus.
männl.
302 938 889 886 782 607 958 392 558 253 381 854 20
6 085 352 218 75 33 37 35 61 111 200 385 1 928 4
5 798 392 652 933 1 068 1 159 923 1 215 1 420 1 396 1 427 3 437 11
11 883 744 869 1 008 1 100 1 196 958 1 276 1 531 1 596 1 812 5 365 15
12 3 4 3 3 3 2 3 4 3 3 6
26 821
9 524
19 830
29 354
56 175
2 3 2 2 2 1 2 2 2 1
weibl.
zus. 185 682 758 894 882 802 917 668 090 849 193 220 35
Quelle: Statistisches Jahrbuch ßr die Bundesrepublik Deutschland 1964, a. a. O., S. 147 Tabelle 1.3
drei Merkmalen, nämlich dem Geschlecht, dem Alter und nach der Beteiligung am Erwerbsleben. 2. Oft werden in der Statistik stetige quantitative Merkmale in Größenklassen eingeteilt. Diese Größenklassen können zwar willkürlich gebildet werden, man sollte jedoch die folgenden Regeln einhalten: (1) Die Größenklassen sind so festzulegen, daß jeder Merkmalswert nur einer Größenklasse angehört. (2) Es sollen keine Größenklassen gebildet werden, die keine Merkmalswerte enthalten. (3) Offene Größenklassen — wie z. B. „100 000 DM und mehr" — sind möglichst zu vermeiden. Bezüglich der Anzahl der Größenklassen gibt es keine festen Regeln. Für Tabellen, die gut übersichtlich sein sollen, wird man nicht allzu viele, etwa 20 bis höchstens 25, mindestens jedoch 5 Größenklassen wählen. Mit einer Größenklasseneinteilung werden nicht mehr die einzelnen Merkmalswerte, sondern nur noch deren Größenklassen angegeben. Um diesen Informationsverlust zu vermeiden, sollte man auf eine Bildung von Größenklassen verzichten, wenn dies irgend möglich ist.
Tabellarische Darstellung des Beobachtungsbefundes
27
Bruttolohn und Lohnsteuer der Lohnsteuerpflichtigen 1961 nach Bruttolohngruppen
Bruttolohngruppe
Lohnsteuerpflichtige Anzahl
bis unter 1 200 1 200 " " 2 400 2 400 " " 3 600 3 600 " " 4 800 4 800 " " 6 000 6 000 " " 7 200 7 200 " " 8 400 8 400 " " 9 600 9 600 " " 12 000 16 000 12 000 " " 16 000 " " 20 000 25 000 20 000 " " 25 000 " " 36 000 36 000 " " 50 000 50 000 " " 75 000 75 000 " " 100 000 100 000 und mehr Insgesamt
Bruttolohn
Lohnsteuer
in 1 000 DM
1 892 641 1 638 205 1 866 273 2 437 081 2 795 752 2 967 843 2 545 287 1 646 398 1 525 416 834 763 285 345 131 707 66 662 21 088 9 236 2 703 3 056
1 292 952 2 917 361 5 656 915 10 291 733 15 132 131 19 587 893 19 777 808 14 742 541 16 145 659 11 393 377 5 051 631 2 903 648 1 935 383 873 037 549 082 230 474 525 974
7 568 25 160 79 511 381 106 802 312 1 177 237 1 250 726 1 026 351 1 299 507 1 153 973 587 589 377 750 304 625 171 207 129 660 63 913 190113
20 669 456
129 007 604
9 028 306
Quelle: Statistisches Jahrbuch ßr die Bundesrepublik Deutschland 1964, a. a. 0., S. 452 Tabelle 1.4
Die Tabelle 1.4 zeigt als Beispiel für ein nach Größenklassen gegliedertes Merkmal - nämlich den Bruttolohn der Lohnsteuerpflichtigen für die Bundesrepublik Deutschland in Jahre 1961. Die Tabelle enthält außer den (in der zweiten Spalte aufgeführten) Häufigkeiten als zusätzliche Informationen die Summe der Merkmalswerte in jeder Größenklasse sowie den zugehörigen Gesamtbetrag der Lohnsteuer. 3. Bei der Darstellung eines Beobachtungsbefundes in Form von Tabellen haben sich gewisse Konventionen hinsichtlich der Terminologie, der Ausgestaltung und des Aufbaus von Tabellen (s. Abb. 1.2) eingebürgert. Nach Möglichkeit sind die folgenden Regeln einzuhalten i : (1) Jede Tabelle soll eine Überschrift haben, die den wesentlichen Tabelleninhalt in möglichst knapper Form kennzeichnet. Der Titel soll sowohl die wesentlichen Gliederungsmerkmale in Tabellenkopf und Vorspalte als auch den Erhebungssektor kennzeichnen. 1
Vergl. hierzu Deutsche Norm: Gestaltung statistischer Tabellen DIN 55 301.
28
Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials Schematische Darstellung der Bezeichnungsweisen in Tabellen Oberschrift (Titel und widitlge Angeben)
/
1 ViwSPalte
Fach Fach Fach
Fach Fach
Fach
Zeilen
Fußnoten dieses Fach ist: a) gewöhnlich Kopf zur Vorspalte
Kopf zur Vorspalte
b) Vorspalte zum Kopf (Pfeil einsetzen!)
c) beides (Diagonalstrich einsetzen)
Vorspalte zum Kopf
Quelle: Deutsche Norm: Gestaltung statistischer Tabellen DIN 55 301 Abbildung 1.2
(2) Zahlentabellen sollen keine leeren Fächer enthalten. Sind aus irgendwelchen Gründen in bestimmte Tabellenfächer keine Zahlen einzutragen, so hat man statt dessen eines der folgenden Zeichen einzusetzen: (2.1) wenn aus sachlichen Gründen keine Eintragung gemacht werden kann „X" (bei Maschinenschrift „x"); (2.2) wenn der Zahlenwert genau Null ist „—"; aus besonderen Gründen (etwa bei maschineller Auswertung) kann auch „0" geschrieben werden; (2.3) wenn der Zahlenwert von Null verschieden, aber kleiner als die Hälfte der Einheit von dem niedrigsten, in der Tabelle noch angegebenen Stellenwert ist, wird „0" geschrieben; (2.4) wenn der Zahlenwert unbekannt ist oder nicht mitgeteilt wird
Übungsaufgaben und ergänzende Hinweise I
29
(2.5) wenn die Zahlenangabe zwar bei der Berichterstattung noch nicht vorliegt, jedoch in einem späteren Zeitpunkt zu erwarten ist: „ . . . ". (3) Vorläufige Zahlen werden durch beigefugtes „p", berichtigte Zahlen durch „r", geschätzte Zahlen durch „s" gekennzeichnet. Diese Bedeutung der Buchstaber p, r, s ist unter der Tabelle anzugeben.
Wohnbevölkerung der Bundesrepublik Deutschland am 6. 6. 1961 nach dem Geschlecht und nach der Beteiligung am Erwerbsleben
(in 1 000)
darunter: männlich (in 1 000)
Wohnbevölkerung
56 175
26 413
davon: Erwerbspersonen Nichterwerbspersonen
26 821 29 354
16 889 9 524
Insgesamt
Tabelle 1.5
Wird eine Gesamtheit in einer Tabelle vollständig in Teilkollektive gegliedert, so spricht man von einer Aufgliederung; die Teilmassen werden mit dem Zusatz „davon" versehen. Unter einer Ausgliederung versteht man demgegenüber eine unvollständige Hervorhebung von Teilgesamtheiten eines Kollektivs. Zur Kennzeichnung der Ausgliederung wird das Wort „darunter" verwendet. Beispiele für eine Aufgliederung und für eine Ausgliederung zeigt die Tabelle 1.5, deren Inhalt aus der Tabelle 1.3 abgeleitet wurde.
Übungsaufgaben und ergänzende Hinweise I Aufgabe 1 Die Veränderung des Bevölkerungsbestandes in einem bestimmten Gebiet durch Zu- oder Abwanderungen bezeichnet man als mechanische Bevölkerungsbewegung. Man konstruiere das Gerüst einer Tabelle, die über die mechanische Bevölkerungsbewegung innerhalb der Bundesrepublik Deutschland (ohne Berlin) während eines bestimmten Jahres Aufschluß gibt. Die Tabelle soll für jedes der Bundesländer die Anzahl der innerhalb des betreffenden Bundeslandes umgezogenen Personen und die Anzahl der in jedes der übrigen Bundesländer umgezogenen Personen enthalten.
30
Gewinnung und Aufbereitung des statistischen Beobachtungsmaterials
Aufgabe 2 Es seien v = 1 , 2 , . . . , n die „wahren" und x„, v = 1 , 2 , . . n die gemessenen Merkmalswerte. Dann heißen =
v= 1,2,..
,,n
v = 1,2,..
.,n
der absolute und =
=(x„-£„)/£„
der relative Meßfehler. Beide können sowohl positiv als auch negativ sein. a) Man weise nach, daß (x x ± x 2 ) - ß , ± $ 2 ) = e, ± e 2 ist, d. h., daß der absolute Fehler feiner Summe (Differenz) gleich der Summe (Differenz) der absoluten Fehler ist. b) Man zeige, daß der relative Fehler einer Summe (Differenz) durch den Ausdruck (x^XaMS! i y j %i ± &
t
ef ± £ a ef f i ± Sa
gegeben ist. c) Man zeige, daß der relative Fehler von xi - x 2 sehr groß werden kann, wenn sich und £ 2 n u r wenig voneinander unterscheiden und die Vorzeichen von e* und e* verschieden sind. Aufgabe 3 Für den relativen Fehler des Produkts x t • x 2 gibt es die Näherungsformel x
i " x 2 ~ =Si • £2 .e i,# .e 2 — "
1
a) Welche Annahme über die Größenordnung der Fehler e t bzw. e 2 im Vergleich zu ^ bzw. | 2 liegt dieser Näherungsformel zu Grunde? b) Man zeige, daß die entsprechende Näherungsformel für den relativen Fehler des Quotienten x t / x 2 lautet: *i/x2
lUh
1
. c*
c*
1
Das Zeichen „=" bedeutet „ungefähr gleich".
Erster Abschnitt
Zeitunabhängige deskriptive Analyse In der Wirtschaftswissenschaft unterscheidet man bekanntlich zwischen statischer und dynamischer Betrachtungsweise. Dabei hat es sich eingebürgert, eine Beziehung zwischen ökonomischen Variablen als dynamisch zu bezeichnen, wenn die betreffenden wirtschaftlichen-Größen u. a. auch als Funktionen der Zeit angesehen werden; ist das nicht der Fall, so spricht man von statischen Modellen. Wir wollen diese Begriffsbildung aufgreifen und von einer zeitunabhängigen diskriptiven Analyse sprechen, wenn die betrachteten statistischen Charakteristiken sich nicht als Funktionen der Zeit darstellen.
2. Häufigkeitsverteilungen qualitativer Merkmale
Den Elementen eines Kollektivs vom Umfang n seien die Ausprägungen A x , A 2 , . . ., A k bzw. B j , B 2 , . . . , B; der nicht-häufbaren qualitativen Erhebungsmerkmale A und B zugeordnet. Über das Urmaterial gibt die Tabelle 2.1 (mit willkürlich gewählten Merkmalsausprägungen) einen Überblick. Schematische Darstellung eines Urmaterials Element Nr.
Ausprägung des Merkmals B A
1 2
A2 AK
B3 B]
V
A,
B2
n
A2
B,
Tabelle 2.1
1. Durch Auszählen kann man feststellen, wie häufig in dem betreffenden Kollektiv die Ausprägung A, des Merkmals A vorkommt. Diese Anzahl, die auch (absolute) Häufigkeit genannt wird, wollen wir mit n(Aj) bezeichnen. Offen-
32
Häufigkeitsverteilungen qualitativer Merkmale
sichtlich gilt 0 < n(Ai) < n für alle i = 1 , 2 , . . . , k. Entsprechend charakterisiert n(Bj) mit 0 < n(Bj) < n die (absolute) Häufigkeit der Merkmalsausprägung Bj a =
i,2,...,o.
2. Es bezeichnet n(Aj Bj) die Häufigkeit deijenigen Elemente, bei denen die Ausprägungen Aj und Bj gemeinsam auftreten. Oft schreibt man die als Konjunktion bezeichnete Verknüpfung „AiBj" von Merkmalsausprägungen auch in der Form „Aj A Bj". Offensichtlich ist die Menge der Elemente mit den Ausprägungen A;Bj eine Teilmenge deijenigen Elemente, welche die Ausprägungen Aj bzw. Bj aufweisen. Deshalb gelten die Beziehungen 0 < n ( A ^ ) < n (Aj) < n
1
0
> J
< n ( A ^ ) < n
(Bj)
Y (S, f)/n.
(ffl.6)
1 Zur Konzentrationsmessung siehe insbesondere: Bruckmann, G.: Einige Bemerkungen zur statistischen Messung der Konzentration. Metrika 14 (1969) S. 183 ff.
56
Häufigkeitsverteilungen quantitativer Merkmale
Sie gibt die relative Häufigkeit der Elemente eines Kollektivs an, für deren Merkmalswerte (X < £)a (Y < f ) gilt. Ein Kollektiv, das aus 31 Beobachtungspunkten besteht, enthält die Tabelle 3.6. Durch Auszählen dieser Gesamtheit findet man z. B. F X>Y (350, 1.70) = 0.677. Der Leser prüfe dieses Ergebnis nach. 2. Aus einem gegebenen Beobachtungsbefund (x„, y„) läßt sich nicht nur die zweidimensionale Verteilungsfunktion F x _ Y (£, f), sondern lassen sich auch die mit F x (£) und F Y ( f ) bezeichneten eindimensionalen Verteilungsfunktionen der Merkmale X und Y bestimmen. Man nennt F x (£) und F Y ( f ) auch die Randverteilungen der zweidimensionalen Verteilung F x Y (£, f). Die Randverteilung des Merkmals Absatzmenge von Tabelle 3.6 leitet man aus der Rangwertreihe der x„ (ohne Berücksichtigung der y„) ab. Insbesondere ist F x (350) = j y = 0.742. Man überzeuge sich von der Richtigkeit dieses Wertes! Angebotspreise und Absatzmengen einer bestimmten Apfelsorte der Handelsklasse A bei den Filialen eines Einzelhandelsunternehmens Erhebungszeitraum: Ein bestimmter Werktag. Filiale Nr. (f) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Absatzmenge in kg (X)
Angebotspreis in DM/kg (Y)
125 300 275 200 225 250 275 150 300 375 150 200 375 400 425 250
Filiale Nr.
1.68 1.64 1.63 1.63 1.65 1.66 1.66 1.56 1.55 1.55 1.73 1.72 1.63 1.57 1.58 1.60
M
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
Angebotspreis in DM/kg (Y) 350 150 300 175 225 300 300 350 350 425 225 475 400 325 375
Absatzmenge in kg (X) 1.70 1.70 1.65 1.65 1.59 1.58 1.60 1.58 1.60 1.62 1.67 1.56 1.54 1.56 1.58
Tabelle 3.6
Entsprechend läßt sich die Randverteilung des Angebotspreises Y bestimmen. Für diese erhält man beispielsweise F y (1.70) = i g ¿0.935.
Häufigkeitsverteilungen zweier quantitativer Merkmale
57
3. Bei umfangreichen Kollektiven ist die Struktur einer zweidimensionalen Häufigkeitsverteilung besonders im Falle kontinuierlicher Merkmale meist nicht unmittelbar zu erkennen. Durch eine zweckgerechte Gliederung der Merkmalswerte in Größenklassen läßt sich der Beobachtungsbefund raffen und in übersichtlicher Form tabellarisch darstellen. a) Es wird angenommen, daß k Größenklassen bezüglich des Merkmals X und l Größenklassen bezüglich des Merkmals Y gebildet werden. Die Untergrenze der i-ten Größenklasse (i = 1, 2 , . . . , k) von X sei x M , so daß die Klassenspanne durch A(xj) = Xj - Xj_!> 0 bestimmt ist; für das Merkmal Y bezeichnet yj_ t die Untergrenze der j-ten Größenklasse und A(yj) = yj - yj.j > 0 das zugehörige Klassenintervall. Die Klassenmitten ergeben sich als i = 1,2 yj =
k;
j = 1, 2 , . . . , / .
(yj-i + yj)
Dieser Klasseneinteilung entspricht eine Aufteilung des Streuungsdiagrammes in Rechtecke (siehe Abb. 3.9).
h h h h% Abbildung 3.9
b) Die Anzahl der Elemente, deren Merkmalswertepaar (x„, y„) in die i-te Größenklasse von X und in die j-te Größenklasse von Y fallen, sei mit n ( x M < X < x i ( yj. t < Y < yj) = n (x i ; yj) s
njj
bezeichnet; die relativen Häufigkeiten sind definiert durch ny/n. Für die absoluten Häufigkeiten gelten die Gleichungen k i i 2 2 n« = n = 2 i=i j=i j=l i=l sofern die Klasseneinteilung den gesamten Beobachtungsbereich der Merkmale X und Y überdeckt. Die tabellarische Darstellung der absoluten Häufigkeiten n(xj, yj) heißt Korrelationstabelle. Sie entspricht in ihrem Aufbau dem einer zweidimensionalen Kontingenztabelle, wie es das Beispiel der Tabelle 3.7 zeigt.
58
Häufigkeitsverteilungen quantitativer Merkmale
c) Der Inhalt einer Korrelationstabelle läßt sich graphisch veranschaulichen. Im Falle zweier stetiger Merkmale ergibt sich ein sogenanntes Stereogramm, das man als eine Verallgemeinerung des Histogrammes auffassen kann. Die Abbildung 3.10 zeigt ein Stereogramm; es bezieht sich auf die Werte der Tabelle 3.7.
Diskont- und Reservesätze amerikanischer Banken (beides in Prozenten)
Reservesätze 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Insgesamt 1
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10 1
—
—
_
3 1 8 15 15 2 8 7 8 9 19 7 7 8 1 1 2
_
—
_
—
—
10 30 48 12 66 10 4 1 1 1 1 1 1 2 8 3 2 1 5 9 12 10 14 8 11 5 2
9 23 17 10 2 8 1
-
2 14 20 16 8 4 5 -
1
1 - 2 1 2 6 4 4 11 6 13 12 16 6 11 12 15 17 19 9 9 11 7 3 7 1 2 3 6 3 1 - 2 4 4 2 2 1 1 1 1 2 1
-
-
-
1 4 3 2 -
3 6
-
2 7 4 3 2
-
-
-
2 2 2
-
1 2
-
-
-
-
-
-
9
-
3
1
Insgesamt 121 93 125 70 69 4 0 5 2 45 5 1 20 35 10 18 1
Quelle: G. U. Yule, M. G. Kendall: An Introduction 1965 (leicht abgeändert)
-
— -
1 -
-
7
to the Theory of Statistics,
1 1 8 40 81 123 115 108 53 36 53 32 14 14 10 9 11 21 15 10 10 1 1 2 769
London
Tabelle 3.7
In einem Stereogramm sind die Höhen der einzelnen Säulen bestimmt durch die Häufigkeitsdichten
f x y (x i ; y=) =
"(Xi'yj)
n • A (xj) • A (yj)
i = 1,2,..
k;
j = l,2,...,/.
(
Häufigkeitsverteilungen zweier quantitativer Merkmale
59
Auf diese Weise erreicht man, daß das Volumen der Säulen proportional den relativen Häufigkeiten ny/n ist. Die Grundfläche einer solchen Säule ist nämlich A(xj) • A(yj); dann ist aber deren Volumen fx.Y (Xi, yj) A (xj) A ( y j ) = n ( Xj , y^/n, wie es behauptet wurde.
Abbildung 3.10
3.32 Randverteilungen und bedingte Verteilungen der Korrelationstabelle Die Beziehungen, die bei zweidimensionalen Kontingenztabellen zwischen der gemeinsamen Verteilung der beiden Merkmale, ihren Randverteilungen und den bedingten Verteilungen bestehen, lassen sich ohne weiteres auf Korrelationstabellen übertragen. Der Vollständigkeit wegen soll auf diese Zusammenhänge noch einmal hingewiesen werden, wobei allerdings eine den quantitativen Merkmalen angepaßte Symbolik verwendet wird. 1. Die relativen Häufigkeiten der gemeinsamen Verteilung zweier stetiger quantitativer Merkmale X und Y sind durch n(xj, yj)/n bestimmt (i = 1, 2 , . .., k; j = 1, 2 , . .., /). Für die Randverteilung des Merkmals X erhält man die relativen Häufigkeiten n(x;)/n = lij /n (i = 1, 2 , . . . , k).
Häufigkeitsverteilungen quantitativer Merkmale
60
Entsprechend ergeben sich für die Randverteilung des Merkmals Y die relativen Häufigkeiten n(yj)/n = n j/n (j = 1, 2 , . . . , /)• Aus der Tabelle 3.8 ist unmittelbar ersichtlich, daß sich die relativen Häufigkeiten der Randverteilungen aus den Spalten- und aus den Zeilensummen einer Korrelationstabelle ergeben 1 .
Relative Häufigkeiten dei gruppierten Merkmale: abgesetzte Apfelmengen und Angebotspreise
Absatzmenge (in kg)
Angebotspreis (in DM) Y X ^ ^ 100 200 300 400
-
u. u. u. u.
200 300 400 500
Insgesamt
1.50 u. 1.60
1.60 u. 1.65
0.032 0.032 0.194 0.129
0.097 0.129 0.032
0.387
0.258
1.65 u. 1.70
1.70 u. 1.75
0.065 0.129 0.032
0.065 0.032 0.032
-
-
0.129
0.226
Insgesamt 0.161 0.290 0.387 0.161
1.000
Tabelle 3.8
2. Die relativen Häufigkeiten der bedingten Verteilungen des Merkmals X findet man für festes j aus n ( x
!'y ^
n (Yj)
n
i = 1, 2 , . . ., k.
.j
Man ermittelt sie aus den Spalten einer Korrelationstabelle. Ganz analog erhält man die relativen Häufigkeiten der bedingten Verteilungen des Merkmals Y aus den Zeilen einer Korrelationstabelle, indem man für festes i den Ausdruck n
O b Vi) = n(Xi) - n , .
j-i
J
i
bildet. In den Tabellen 3.9 sind die aus Tabelle 3.8 berechneten Werte der relativen Häufigkeiten der bedingten Verteilungen zusammengestellt. Tabelle 3.8 wurde aus den Merkmalswerten der Tabelle 3.6 abgeleitet.
61
Übungsaufgaben und ergänzende Hinweise III Relative Häufigkeiten dei bedingten Verteilung der gruppierten Merkmale: Abgesetzte Apfelmengen und Angebotspreise Angebotspreis menge X 100 200 300 400
-
u. u. u. u.
200 300 400 500
Insgesamt
1.50 u. 1.60
1.60 u. 1.65
0.083 0.083 0.500 0.333
0.375 0.500 0.125
1.000
1.000
_
1.65 u. 1.70
1.70 u. 1.75
0.286 0.571 0.143
0.500 0.250 0.250
-
-
1.000
1.000
Tabelle 3.9a
Absatzmenge X 100 200 300 400
Angebotspreis Y -
u. u. u. u.
200 300 400 500
1.60 u. 1.65
1.50 u. 1.60 0.200
_
0.500 0.800
0.333 0.333 0.200
0.111
1.65 u. 1.70
1.70 u. 1.75
Insges.
0.400 0.444 0.083
0.400
1.000 1.000 1.000 1.000
0.111 0.083
-
-
Tabelle 3.9b
Übungsaufgaben und ergänzende Hinweise III Aufgabe 1 Jemand kauft seinem Sohn 100 Glasmurmeln. Als passionierter Statistiker sieht er in ihnen sogleich ein statistisches Kollektiv und bestimmt deren Durchmesser. Er findet die folgenden Werte (in cm): 1.89, 1.82, 1.87, 1.89, 1.80, 1.73, 1.79, 1.70, 1.96, 1.95,
1.93, 1.81, 1.83, 1.97, 1.98, 1.87, 2.08, 1.88, 1.94, 1.92,
2.04, 1.78, 1.74, 2.01, 1.90, 1.98, 1.94, 1.93, 1.92, 1.97,
2.14, 2.02, 1.63, 1.98, 2.07, 1.98, 2.06, 1.85, 1.79, 1.88,
1.90, 1.96, 2.03, 2.12, 2.01, 2.12, 1.78, 2.06, 1.91, 1.95,
2.05, 2.13, 2.03, 2.08, 1.90, 1.85, 2.18, 2.01, 1.89, 2.00,
1.90, 1.88, 1.89, 2.07, 2.02, 1.90, 1.97, 1.97, 2.00, 2.05,
1.76, 1.94, 2.07, 1.83, 2.06, 1.86, 1.96, 1.90, 1.98, 1.83,
1.92, 2.02, 2.01, 2.01, 1.90, 1.95, 2.12, 1.79, 2.03, 1.82,
2.00, 2.03, 1.84, 1.90, 1.84, 1.98, 2.08, 1.70, 1,84, 2.19.
62
Häufigkeitsverteilungen quantitativer Merkmale
1. Man ermittele die Häufigkeitsverteilung, indem man als konstante Klassenbreite 0.03 cm (0.06 cm, 0.15 cm) und x 0 = 1.625 wählt. 2. Man stelle die drei Häufigkeitsverteilungen graphisch dar! Welche von diesen bringt am besten die Struktur des Beobachtungsbefundes zum Ausdruck? 3. Man zeichne in eine Graphik die empirische Verteilungsfunktion F(£) und die approximierende Verteilungsfunktion F*(£) mit"3f0 = 1.625 und A(xi) = const. 0.06 cm. Aufgabe 2 Ein Einzelhändler hat in den letzten fünf Jahren die Verkaufsmenge für einen bestimmten Artikel an jedem Geschäftstage ermittelt. Die Verkaufsmenge zeigt folgende Verteilung: Verkaufsmenge (in Stück) 0 1 2 3 4 5 6 7 8 9 10 11 12 Insgesamt
Anzahl der Geschäftstage 27 105 208 296 294 236 154 92 47 19 7 4 3 1 492
1. Stelle die Häufigkeitsfunktion graphisch dar. 2. Zeichne die Verteilungsfunktion. 3. Wie groß ist der Anteil der Geschäftstage, an denen eine Verkaufsmenge X a) b) c) d) e)
von weniger als 8 Stück von höchstens 10 Stück von mehr als 4 Stück von mindestens 4 Stück mit 2 < X < 8
erreicht wird? Aufgabe 3 In der Landwirtschaftszählung von 1960 wurden alle landwirtschaftlichen Betriebe bezüglich ihrer Betriebsfläche erfaßt. Die folgende Tabelle gibt Auskunft
Übungsaufgaben und ergänzende Hinweise III
63
über die Anzahl der Betriebe, die jeweils einer bestimmten Größenklasse angehören: Anzahl der Betriebe
Betriebsfläche (in ha) •0,5 2 5 10 20 50 100
488 385 335 301 164 26 7
bis unter 2 bis unter 5 bis unter 10 bis unter 20 bis unter 50 bis unter 100 und mehr
196 680 489 493 578 051 502
1. Wieviel Prozent der Betriebe haben etwa eine Betriebsfläche von mehr als 30 ha? 2. Wieviel Prozent der Betriebe haben etwa eine Betriebsfläche zwischen 2,5 und 7,5 ha? 3. Man berechne den Median x 0
5
approximativ durch F*(x 0 - S ) = 0.5.
Aufgabe 4 Eine Bahnhofsbuchhandlung hatte für den Bezug einer werktäglich erscheinenden ausländischen Zeitschrift einen dreijährigen Abnahmevertrag abgeschlossen (3 Jahre = 1000 Erscheinungstage), in dem sie sich verpflichtet hatte, erscheinungstäglich 20 Exemplare zu beziehen. Die Vertragsklauseln sehen einen Verkaufspreis (p) von 0,50 DM, einen Einkaufspreis (q) von 0,20 DM und eine Rückvergütung (r) von 0,10 DM für jedes nicht abgesetzte Exemplar vor. Der Vertrag soll nun für eine neu festzusetzende Stückzahl um weitere 3 Jahre verlängert werden. Bevor der Inhaber der Bahnhofsbuchhandlung mit dem ausländischen Zeitschriftenverlag verhandelt, stellt er sich aus den Abrechnungsunterlagen die abgesetzten Mengen (X) zusammen und kommt dabei zu folgendem Ergebnis: x
i
"i
1 2 3 4 5 6 7 8 9 10
2 7 21 44 76 106 130 137 130 110
x
i
11 12 13 14 15 16 17 18 19 20
n
i
86 60 40 24 13 7 4 2 1 0
Er rechnet sich dann aus, welchen Gewinn er durch den Verkauf dieser Zeitschrift erzielt hat. Dann meint er, daß er einen höheren Gewinn hätte erzielen können, wenn er erscheinungstäglich nur 15 Exemplare bezogen hätte. Zwar wären an
64
Häufigkeitsverteilungen quantitativer Merkmale
einigen Tagen nicht alle Kunden zufriedengestellt worden; er glaubt aber, daß das die Nachfrage nicht beeinträchtigt hätte, da er keine Stammkundschaft hat. Nachdem er ausgerechnet hat, an wieviel Erscheinungstagen er nicht alle Kunden hätte bedienen können und einen wie großen Gewinn er erzielt hätte, wenn er 15 Exemplare bezogen hätte, führt er die gleiche Berechnung für 14, 1 3 , . . . , 5 Stück durch. Bei dieser Rechnung kommt ihm der Gedanke, ganz allgemein zu ermitteln, um wieviel sich sein Gewinn geändert hätte, wenn er seine vertraglich fixierte Bezugsmenge Y = y 0 + 1 auf Y = y 0 verringert. Aus der Überlegung, daß er durch diese Verminderung der Bezugsmenge solange einen höheren Gewinn erzielt haben würde, wie die damit zusammenhängende Änderung des Gewinns positiv ist, findet er das Maximum des Gewinns an der Stelle, wo die Gewinnänderung zum letzten Mal positiv ist. 1. Führen Sie die Berechnungen des Inhabers der Bahnhofsbuchhandlung durch! 2. Bei welcher Bezugsmenge hätte die Bahnhofsbuchhandlung den größtmöglichen Gewinn erzielt? 3. Wie lautet die allgemeine Bedingung für das Gewinnmaximum? Aufgabe 5 Stellen Sie das Streuungsdiagramm der in Tabelle 3.6 angegebenen Daten dar. Aufgabe 6 Ein Unternehmen gewährt seinen Kunden unterschiedliche Rabatte. Die bedingten Verteilungen der Umsätze nach Rabattklassen und die Verteilung der Kunden auf die Rabattklassen zeigt die folgende Tabelle: Umsätze\_ (in 1000 4-DM) über über über über über
1.0 2.5 5.0 10 25
bis bis bis bis bis bis
Rabatthöhe
0%
5%
10%
20%
25 %
Anteil der Kunden je Rabattklasse 1.0 2.5 5.0 10 25 50
Verteilung der Kunden auf Rabattklassen
0.42 0.29 0.17
0.11 0.01 -
0.22
0.27 0.35 0.19 0.13 0.06 -
0.28
—
_
0.17 0.43 0.25 0.13
0.01
0.04 0.19 0.49 0.24 0.04
0.12 0.32 0.47 0.09
0.21
0.17
0.12
0.01
Die Randverteilung der Umsätze ist zu berechnen und graphisch darzustellen.
Übungsaufgaben und ergänzende Hinweise III
65
Aufgabe 7 Die Häufigkeitsdichten der bedingten Verteilungen zweier in Größenklassen gruppierter quantitativer Merkmale sind definiert durch f
f x l ll Yy j)) (X
n (Xi y } ' i - n(yj)A(Xi)
i=l,2,...,k j = 1, 2 , . . . , /
1. Man bestimme für einige Spalten bzw. Zeilen der Tabellen 3.9 die bedingten Häufigkeitsdichten. 2. Man zeige, daß die folgenden Beziehungen gelten:
Aufgabe 8 Gegeben sei ein beliebiger Punkr F(|) = p und i//(|) = q einer Konzentrationskurve. Man zeige, daß stets MG > p - q ist. Aufgabe 9 Die mittlere Differenz d* ist definiert als d*=_L T-, n
Z
Man zeige, daß
ist.
n
£
1,-1 v=i
n
s
„—1 k=I
|x„-xj.
4. Lokalisations- und Streuungsmaße, Momente
Um einen besseren Einblick in die Struktur des Beobachtungsbefundes zu erhalten, muß man insbesondere bei umfangreichen Kollektiven die vorliegenden Informationen in zweckdienlicher Weise verdichten. Allgemein üblich ist es dabei, Häufigkeitsverteilungen eines quantitativen Merkmals durch Lokalisations- und durch Streuungsmaße zu charakterisieren.
4.1 Lokalisationsmaße Ein Lokalisationsmaß bezeichnet eine Stelle der Merkmalsachse, an der die Merkmalswerte eines Kollektivs im Mittel lokalisiert sind. Abbildung 4.1 zeigt zwei, durch kontinuierlich verlaufende Kurvenzüge dargestellte, Häufigkeitsverteilungen von gleicher Gestalt aber unterschiedlicher Lokalisation.
mw)
Abbildung 4.1
1. Die Lokalisation einer Häufigkeitsverteilung läßt sich auf verschiedene Weise messen. Um einen gewissen Überblick zu geben, sollen zunächst einige dieser Maßzahlen definiert werden. a) Als ein recht plausibles Lokalisationsmaß könnte der Merkmalswert mit der größten Häufigkeitsdichte (dichtester Wert D oder auch Modus genannt) angesehen werden. Bei empirischen Verteilungen läßt sich jedoch diese Maßzahl im allgemeinen nicht eindeutig bestimmen. Deshalb ist der dichteste Wert in der beschreibenden Statistik kaum anzutreffen. b) Gelegentlich wird die, aus den beiden Extremen der Rangwertreihe berechnete, Bereichsmitte ( x ^ j + X[n])/2 als Lokalisationsmaß vorgeschlagen. Ein wesentlicher Nachteil dieser Maßzahl ist, daß sie sich nur auf den größten und auf den kleinsten Merkmalswert eines Kollektivs stützt, weil gerade diese beiden Werte oft von sogenannten „Ausreißern" stammen — also von Elementen mit besonders kleinen oder mit besonders großen Merkmalswerten.
67
Lokalisationsmaße
c) Auch der Median Xo.s basiert, wie aus Formel (III.5) hervorgeht, auf höchstens zwei Elementen der Rangwertreihe. Diesem Nachteil steht — insbesondere bei Kollektiven mit nur wenigen Elementen — die einfache Ermittlung dieses Mittelwertes als (mitunter bedeutsamer) Vorteil gegenüber. d) Das als Lokalisationsmaß meist übliche arithmetische Mittel ist definiert durch x = I 2 x„. n „=i
(IV.l)
Bei gewissen ökonomischen Problemstellungen — wie z. B. bei der Bemessung von relativen Preisänderungen 1 — wird ein gewogenes arithmetisches Mittel verwendet. Man erhält es aus n
x = 2
V=1
x„g„ mit
n
2
V=1
gv = 1 und gv>0
für alle v,
(IV.2)
worin die „Gewichte" g„ beispielsweise eine substanzwissenschaftlich begründete „wirtschaftliche Bedeutung" der Merkmalswerte x„ zum Ausdruck bringen sollen Die Beziehung (IV.2) schließt mit g„ = 1/n die Formel ( I V . l ) als Spezialfall ein. e) Bei einigen recht speziellen Sachzusammenhängen kann es sinnvoll sein, das harmonische Mittel H = —n 0 — i I>=1 Xj,
x„ * 0 für alle v
(IV.3)
zu berechnen. Jedoch läßt sich — wie wir noch sehen werden — immer ein gewogenes arithmetisches Mittel finden, das dem harmonischen Mittel äquivalent ist. 2. Im allgemeinen wird man von einem Lokalisationsmaß verlangen, daß es durch den Beobachtungsbefund eindeutig bestimmt ist. Bei seiner Berechnung sollten, u m die Informationen des betreffenden Kollektivs voll auszuschöpfen möglichst alle Merkmalswerte einbezogen werden. Diese Forderungen implizieren bei quantitativen Merkmalen gewöhnlich die Anwendung des arithmetischen Mittels. 4.11 Formale Eigenschaften des arithmetischen Mittels Für praktische Anwendungen ist es nützlich, die formalen Eigenschaften des arithmetischen Mittels zu kennen. Bei diesen Erörterungen betrachten wir der Einfachheit halber dessen ungewichtete Form - also den Ausdruck
1
Siehe S. 137 ff.
Lokalisations- und Streuungsmaße, Momente
68
1. Aus der Definitionsformel des arithmetischen Mittels ergibt sich unmittelbar: i £ x„ - x = 1 [S x ^ - nx] = i 2 ( x „ - x) = 0. Es gilt also der Satz: Die Summe der Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist gleich Null. 2. Es
sei x„ - Cq + c j z„ bei konstantem Cq und Ci für alle v — 1 , 2 , . . füllt. Unter dieser Voraussetzung ist x = c 0 + Cj z.
n er(IV.4)
Das ist leicht einzusehen, denn aus -
X
1 n n i' 1 1 "
1 n n ^
C
°
+ C l
^
= C
°
+ C l
1 M
n Z
"
ergibt sich sofort die Behauptung. 3. Eine Gesamtheit vom Umfang n besitze das arithmetische Mittel x. Unterteilt man dieses Kollektiv in k elementefremde Teilgesamtheiten des Umfanges nj, so daß s nj = n ist und berechnet man für jedes der Teilkollektive ein arithmetisches Mittel Xj (j = 1, 2 , . . . , k), dann gilt: l k x = i- S Xjnj. n j=i 1 1
(IV.5)
Offenbar stellt x n die Summe der Merkmalswerte des gesamten Kollektivs dar. Entsprechend gibt Xjnj die Summe der Merkmalswerte der j-ten Teilgesamtheiten an (j = 1, 2 , . . ., k). Da die Teilgesamtheiten disjunkt sind, ist mit S nj = n, nj > 0, sichergestellt, daß jedes Element genau einer der k Teilgesamtheiten angehört. Deshalb muß k _ x • n = £ xim l sein, womit die Behauptung bestätigt ist.
4.12 Berechnung des arithmetischen Mittels In welcher Weise man ein arithmetisches Mittel berechnet, hängt sowohl vom Umfang des Kollektivs als auch von den zur Verfügung stehenden technischen Hilfsmitteln ab. Wenn es irgend vertretbar ist, sollte das arithmetische Mittel nicht aus dem in Größenklassen eingeteilten Kollektiv sondern aus den einzelnen Merkmalswerten berechnet werden.
Lokaiisationsmaße
69
Umsätze der 12 Filialen eines Unternehmens im Jahre 1965
Filiale S S S S S W
Umsatz in Mio DM (x„)
1 2 3 4 5 1
Umsatz in Mio DM (x„)
Filiale W W N N N N
1.0 2.7 1.9 1.7 3.2 2.8
2 3 1 2 3 4
1.8 2.9 1.7 1.1 2.0 1.2
Tabelle 4.1
1. Als ein Zahlenbeispiel betrachten wir die Jahresumsätze (in Millionen DM) der 12 Filialen eines Unternehmens im Jahre 1965, die in Tabelle 4.1 dargestellt sind. Als durchschnittlicher Umsatz je Filiale ergibt sich 1 n 1 R = ± • Z x„ = ^ • 24 = 2. n i 12 Die Filialen in Tabelle 4.1 können auf die Verkaufsbezirke Süddeutschland, Westdeutschland und Norddeutschland aufgeteilt werden. Berechnet man den durchschnittlichen Filialumsatz der einzelnen Verkaufsbezirke (Teilkollektive), so erhält man die Werte von Tabelle 4.2.
Umsätze der 12 Filialen eines Unternehmens im Jahre 1965 gegliedert nach Verkaufsbezirken
Verkaufsbezirk Siiddeut schland (1 ) Filiale Umsatz S S S S S
1 2 3 4 5
1.0 2.7 1.9 1.7 3.2
Westdeu schland (2 ) Umsatz Filiale
Norddeu tschland Ci) Filiale Umsatz
W 1 W 2 W 3
N N N N
2.8 1.8 2.9
X2=^=2.5 Tabelle 4.2
1 2 3 4
¡3 = ^ = 1 - 5
1.7 1.1 2.0 1.2
Lokalisations- und Streuungsmaße, Momente
70
Der Durchschnitt des gesamten Kollektivs ergibt sich nach (IV.5) aus x=
-2.1 + 3 • 2.5 + 4 - 1.5] = 2.
2. Oft steht entweder nicht das Urmaterial zur Verfügung, sondern nur ein in Größenklassen gegliederter Beobachtungsbefund, oder es erscheint aus Gründen der Arbeitserleichterung zweckmäßig, das arithmetische Mittel aus einer Häufigkeitstabelle zu berechnen. In diesem Falle sind die Formeln zur Berechnung des arithmetischen Mittels zweckdienlich zu modifizieren. a) Enthält eine Häufigkeitstabelle k Größenklassen, so sind die n Elemente des Kollektivs auf k Teilgesamtheiten (hier: Größenklassen genannt) des Umfanges n(xj) aufgeteilt. Das arithmetische Mittel x läßt sich dann — wie wir gesehen haben — nach der Formel (IV.5) „genau" berechnen. Dabei wird allerdings vorausgesetzt, daß man entweder die arithmetischen Mittel 5q oder (wie in Tabelle 1.4) die Merkmalsbeträge Xjnj der einzelnen Größenklassen kennt. Gewöhnlich sind sowohl die x, als auch die x ^ nicht gegeben. Deshalb nähert man den Merkmalsbetrag der i-ten Größenklasse durch das Produkt aus Klassenmitte Xj und Häufigkeit nj an - also jqn, = Xjnj 1 (i = 1, 2 , . . ., k). Diese Approximation führt für das arithmetische Mittel zu dem Ausdruck 1
k
x =i 2 x^. n i=i
(IV.6)
Konstruiertes Zahlenbeispiel zur Berechnung des arithmetischen Mittels
Klassengrenzen 30 40 50 60 80 100 120
-
unter 40 unter 50 unter 60 unter 80 unter 100 unter 120 unter 140
Insgesamt
Klassenmitten "i 35 45 55 70 90 110 130 -
Häufigkeit n (Xi) = nj
x
i«i
4 80 172 166 92 30 6
3 9 11 8 3
550
37 180
140 600 460 620 280 300 780
Tabelle 4.3
Tabelle 4.3 zeigt ein konstruiertes Zahlenbeispiel. Für das arithmetische Mittel findet man den Wert
1
Das Zeichen ,,=" bedeutet „ungefähr gleich".
Lokalisationsmaße
71
b) Um die unbequemen Berechnungen, wie sie etwa bei der Häufigkeitsverteilung in Tabelle 4.3 vorkommen, zu erleichtern, transformiert man das Erhebungsmerkmal X in Z = (X - c 0 )/ci, worin c 0 und c t zweckdienlich gewählte Konstante sind. Aus (IV.4) folgt dann x = c0 +ctz, worin z bei Vorliegen einer Häufigkeitstabelle entsprechend (IV.6) zu berechnen ist. Mit c 0 = 60 und Cj = 5 ergeben sich für die Zahlen der Tabelle 4.3 die in Tabelle 4.4 verzeichneten Werte. Demnach ist ¿ = ¡4^ -836 = 1.52 und x = 60 + 5-1.52 = 67.60. Arbeitstabelle zur Berechnung eines arithmetischen Mittels aus einer Häufigkeitstabelle Klassenmitten x i 35 45 55 70 90 110 130 Insgesamt
z
_ -
+ +
+
+
i
n
n z
5 3 1 2 6 10 14
4 80 172 166 92 30 6
+ + + +
20 240 172 332 552 300 84
-
550
+
836
i
i i
Tabelle 4.4
c) Durch den Kunstgriff, die Klassenmitte als „stellvertretenden" Merkmalswert aller Erhebungselemente einer Klasse anzunehmen, wird das aus der Häufigkeitstabelle errechnete arithmetische Mittel im allgemeinen nicht genau dem x aus den „Originalwerten" entsprechen. Der Fehler ist aber oft so gering, daß er praktisch vernachlässigt werden kann. Dies trifft gewöhnlich dann zu, wenn die Anzahl der Erhebungselemente groß und die Klassenspannen hinreichend klein sind. 3 * Gewisse Probleme ergeben sich bei der Berechnung eines Mittelwertes aus Prozentzahlen (Anteilen). Soll beispielsweise aus den Angaben der tabellarischen Übersicht 4.5 ein „durchschnittlicher" Stimmenanteil der SPD an den gültigen Zweitstimmen in der Bundesrepublik errechnet werden, so erhielte man mit einem arithmetischen Mittel aus den ungewichteten Anteilswerten ein falsches Ergebnis. Die Zahlen in der letzten Spalte sind nämlich bedingte relative Häufigkeiten. Um das zu zeigen, setzen wir zunächst für die Anzahl der gültigen Zweitstimmen des j-ten Bundeslandes n(Bj); die Zahlenwerte stehen in der zweiten Spalte von Tabelle 4.5. Den Anteil des j-ten Bundeslandes an den gültigen Zweitstimmen erhält man demnach durch f(Bj) = n(Bj)/n. Bezeichnet man weiterhin
72
Lokalisations- und Streuungsmaße, Momente Anteil der SPD an den gültigen Zweitstimmen bei den Wahlen zum Deutschen Bundestag 1965
J
Bundesland Name
Gültige Zweitstimmen (in 1 000)
(0)
cn
1 2 3 4 5 6 7 8 9 10
Schleswig-Holstein Hamburg Niedersachsen Bremen Nordrhein-Westfalen Hessen Rheinland-Pfalz Baden-Württemberg Bayern Saarland
Anteil der SPD an gültigen Zweitstimmen
(2)
(3)
1 416.7 1 187.0 4 052.7 444.2 9 751.4 2 988.4 2 055.7 4 452.2 5 641.5 630.5
0.388 0.483 0.398 0.485 0.426 0.457 0.367 0.330 0.331 0.398
32 620.3
Insgesamt (n)
-
Tabelle 4.5
die Anzahl der gültigen Zweitstimmen, die im j-ten Bundesland für die SPD abgegeben wurden, mit n(Aj Bj), so kann man für die Anteilswerte in der dritten Spalte von Tabelle 4.5 auch f(A x | Bj) = n(A. Bj)/n(Bj) schreiben. Den gesuchten Anteilswert f ( A t ) = n(A x )/n findet man unter Anwendung der Formeln (II.6) und (11,8) aus der Beziehung 10 f(A,) = Z
fiAilBjKp,).
Der Leser führe die Berechnungen durch! 4. Mitunter enthält die Problemstellung implizit ein Gewichtungssystem, das bei der Berechnung des arithmetischen Mittels zu berücksichtigen ist. Als Beispiel sei angenommen, daß 4 Arbeiter 8 Stunden lang mit der Herstellung gewisser Einzelteile beschäftigt sind. Aus den Aufzeichnungen des Betriebes ergeben sich die in Tabelle 4.6 aufgeführten Fertigungszeiten. Konstruiertes Zahlenbeispiel Arbeiter
Fertigungszeit je Stück (Minuten)
A B C D
1.5 2.0 2.4 2.5 Tabelle 4.6
Streuungsmaße
73
Es ist falsch, die Frage nach der durchschnittlichen Fertigungszeit mit \ (1.5 + 2.0 + 2.4 + 2.5) = 2.1 zu beantworten, denn die angegebenen Fertigungszeiten je Stück sind selbst arithmetische Mittel (xj), die aus der Arbeitszeit (480 Minuten) und der gefertigten Stückzahl n} für jeden Arbeiter durch 3q = 480/n { berechnet worden sind (i = 1, 2, 3,4). Unter Anwendung der Beziehung (IV.5) ergibt sich wegen xjnj = 480 für alle i und wegen n = 2 n{ = E (480/xj) der Ausdruck x = I iS xjnj = JLl480 _ _k— _ ^ 59 60 " =1 i=l Xj
i=lXi
Der zuletzt genannte Ausdruck ist ein harmonisches Mittel.
4.2 Streuungsmaße Die Lokalisationsmaße charakterisieren nur eine spezielle Eigenschaft von Häufigkeitsverteilungen. Trotz gleicher Lokalisation brauchen deshalb die Häufigkeitsverteilungen zweier quantitativer Merkmale nicht übereinzustimmen, etwa weil ihr Erscheinungsbild durch eine unterschiedlich starke Streuung der Merkmalswerte geprägt ist. So haben z. B. in Abbildung 4.2 die beiden Häufigkeitsverteilungen ein und dieselbe Lokalisation, die Merkmalswerte streuen jedoch — wie man sieht — bei der Verteilung mit der Häufigkeitsdichte f x (X) im Durchschnitt weniger als bei der Verteilung mit der Häufigjkeitsdichte f2(X).
M).m
Abbildung 4.2
1. Die Streuung der Merkmalswerte eines Kollektivs läßt sich auf recht verschiedene Weise messen. Eine recht „grobe" Maßzahl, die vor allem bei Kollektiven kleinen Umfanges angewendet wird, ist die Spannweite w 0 ; sie ist definiert als w0 = x ( n ] - x U ] .
(IV.7)
74
Lokalisations- und Streuungsmaße, Momente
Die Spannweite hängt also von den beiden Randwerten der Rangwertreihe ab und reagiert deshalb besonders auf „Ausreißer". Dieser Nachteil läßt sich vermeiden, indem man Maßzahlen der Form w
m = x [ n -m] - x ( m + 1 ]
m ganzzahlig, 0 < m
s 2 für b * x; 2
S (b) = i Mx.-b) n. v=i
2
(IV. 10) = s 2 für b = x.
Also nimmt s 2 (b) mit b = x seinen kleinsten Wert an. b) Bei praktischen Berechnungen ist oft der Ausdruck s2=± n
2 x2 - x 2 = x2 - x 2
(IV.ll)
v =i
recht nützlich, der aus (IV.9) mit b = 0 hervorgeht (x 2 bezeichnet das arithmetische Mittel der quadrierten Merkmalswerte). 2. Es sei x„ — CQ + CjZ„ bei konstantem Cq und Cj für alle i> — 1, 2 , . . . , n. Weiterhin bezeichne s | die Varianz des transformierten Merkmals Z und Sx die des Merkmals X. Dann gilt die Beziehung sx = c? s | .
(IV. 12)
Wegen (IV.4) ist x = c 0 + ctz; daraus folgert man: =^
2 [ ( c 0 + c 1 z l , ) - ( c 0 + c 1 z)] 2 = i
2 [ C l ( z y - z ) ] 2 = C? s | .
Eine Konsequenz dieses Satzes ist es, daß die Varianz nicht auf Veränderung des „Nullpunktes" reagiert, die durch X = c 0 + Z mit c 0 * 0 bewirkt wird. Ändert sich dagegen die „Maßeinheit" (und damit die Abweichung jedes Merkmalswertes von seinem arithmetischen Mittel) um den Faktor c 1 , so verändert sich die Varianz um den Faktor c 2 . Für die Standardabweichung gilt demgegenüber SX = CiS z . 3. Gliedert man ein Kollektiv des Umfanges n in Teilgesamtheiten auf, so kann man für jedes der Teilkollektive ein arithmetisches Mittel und eine Varianz berechnen. Zwischen der Varianz des gesamten Kollektivs und den Varianzen der Teilkollektive bestehen bestimmte Beziehungen, die der folgende Satz angibt: Ein Kollektiv vom Umfang n habe das arithmetische Mittel x und die Varianz s 2 ; unterteilt man das Kollektiv in k disjunkte Teilgesamtheiten des Umfanges nj, deren arithmetische Mittel Xj und deren Varianzen s? sind (j = 1, 2 , . . ., k), so gilt: k k s 2 = I 2 s?n,i + ± S (Xj - x) 2 n,. (IV. 13) 1 n j=i > n j=i ' Bevor wir diesen Satz beweisen, sei angemerkt, daß die erste Summe das arithmetische Mittel aus den Varianzen der Teilkollektive darstellt ; man bezeichnet sie als
76
Lokalisations- und Streuungsmaße, Momente
interne (innere) Varianz. Die zweite Summe von (IV. 13) gibt die Varianz der arithmetischen Mittel der Teilkollektive um das arithmetische Mittel des gesamten Kollektivs an; sie heißt die externe (äußere) Varianz. In dem nun folgenden Beweis wird von dem Ausdruck 1 (s? + (Xj - x) 2 ) nj ausgegangen. Er stimmt mit der rechten Seite von (IV. 13) überein. Es ist zu zeigen, daß dieser Ausdruck gleich n • s 2 , den sogenannten Abweichungsquadraten um x, ist. Wegen (IV.9) stellt s 2 + (xj - x) 2 die Varianz der Merkmalswerte der j-ten Teilgesamtheit um das arithmetische Mittel x dar; dann ist aber (s 2 + (xj - x) 2 ) nj gleich den Abweichungsquadraten um x im j-ten Teilkollektiv, Da die Teilgesamtheiten disjunkt sind und das gesamte Kollektiv ausschöpfen, muß gelten k 2 (sf+(xj-x)2)nj = ns2. Die Beziehung (IV. 13) heißt die Formel der einfachen Zerlegung einer Varianz. 4.22 Berechnung der Varianz 1. Die Berechnung der quadratischen Streuungsmaße nach der Definitionsformel (IV.8) und nach der Formel (IV. 11) zeigt Tabelle 4.7 am Beispiel eines fiktiven Kollektivs. Aibeitstabelle zur Berechnung von quadratischen Streuungsmaßen (x„-x)2
X2
7 6 4 3 1 0 3 4 5 9
49 36 16 9 1 0 9 16 25 81
16 25 49 64 100 121 196 225 256 40.0
0
242
1 452
K- X
X
4 5 7 8 10 11 14 15 16 20 110
— -
+
+ + +
n = 10
11
a) s2 = ± £ ( x „ - x ) 2 = 24.2 n b) S2 = i 2 x l - x 2 = 145.2- 121 = 24.2 s = s f l A Ü = 4.92
Tabelle 4.7
2. Wenn ein Kollektiv in Teilgesamtheiten gegliedert ist, dann läßt sich die Varianz auch unter Verwendung des Ausdrucks (IV.13) ermitteln. Um die
Streuungsmaße
77
Berechnungen etwas handlicher zu gestalten, wird in dem Zahlenbeispiel, das in Tabelle 4.8 dargestellt ist, die Varianz des j-ten Teilkollektivs auf die Form —2 s?2 =x?2 -Xj
gebracht, was wegen (IV.l 1) ohne weiteres möglich ist. Berechnung von Varianzen bei einem in Teilgesamtheiten gegliederten Kollektiv Merkmalswerte der Teilgesamtheit 1
Merkmalswerte der Teilgesamtheit 2
Merkmalswerte der Teilgesamtheit 3
1.8 2.8 2.9
1.1 1.2 1.7 2.0
1.0 1.7 1.9 2.7 3.2 n! =5
n2 = 3
n3 = 4
X! = 2.1
x 2 = 2.5
x? = 5.006
x2 = 6.497
x 3 = 1-5 x§ = 2.385
s? = 5 . 0 0 6 - 4 . 4 1 =0.596
s\ = 6.497 - 6.25 = 0.247
sl = 2.385-2.25 =0.135
Gesamtes Kollektiv:
n = 1'2
x 2 = 4.505
x = 2.0
2
s = 4.505 - 4.000 = 0.505 Interne Varianz: Externe Varianz:
- E Si3 n:1 = 0.355 n ì s ( x : - x ) 2 n=1 = 0.150 n ' Tabelle 4.8
Da die Varianzen stets positive Zahlen sind und die Beziehung (IV. 13) gilt, kennzeichnet der Quotient i k ± 2 (x; - x) 2 n j Q= i (IV. 14) s den Anteil der externen Varianz an der Varianz des gesamten Kollektivs. Man sagt auch, die Varianz s 2 werde zu 100Q-Prozent durch die externe Streuung — d. h. durch die Streuung der arithmetischen Mittel der Teilkollektive um das arithmetische Mittel des gesamten Kollektivs - erklärt. Im Zahlenbeispiel der Tabelle 4.8 lassen sich 29.7 % der Gesamtvarianz auf Unterschiede in den arithmetischen Mitteln der Teilkollektive zurückfuhren. 3. Mit der Gruppierung der Beobachtungswerte eines stetigen quantitativen Merkmals in Größenklassen wird die betreffende Gesamtheit - wie wir schon
78
Lokalisations- und Streuungsmaße, Momente
bei den Ausführungen über arithmetische Mittel feststellten — in Teilkollektive zerlegt. Man hätte deshalb bei der Berechnung der Varianz die Formel (IV. 13) anzuwenden. Das ist aber im Regelfall nicht möglich, weil einerseits die Varianzen der Merkmalswerte in den Größenklassen und weil andererseits auch die arithmetischen Mittel aus den Merkmalswerten einer Größenklasse unbekannt sind. Man approximiert deshalb die Varianz unter Verwendung der Klassenmitten Xj durch s 2 = i 2 (x; - x) 2 n i=i
ni;
(IV. 15)
das arithmetische Mittel x ist in diesem Ausdruck durch (IV.6) definiert. Um das Zahlenrechnen zu erleichtern, führt man oft die Transformation Z=
^ ° Cl
durch. Nach (IV. 12) gilt s^ = c 2 s | ; wegen s | = z 2 - z 2 läßt sich dafür auch s x = c j (z 2 - z 2 ) schreiben, d. h. es ist sx=c? [£ S ( ^ ) I II 1' =1 1 1Ii
2
- n , - ^ ) 2 ] . 1Li I l i
(IV. 16)
Aibeitstabelle zur Berechnung der Streuung aus einer Häufigkeitstabelle Klasse nmitten 35 45 55 70 90 110 130
z
— -
+ + + +
Insgesamt
n
i
i
Zi nj
zf
n;
5 3 1 2 6 10 14
4 80 172 166 92 30 6
+ + + +
20 240 172 332 552 300 84
100 720 172 664 3 312 3 000 1 176
-
550
+
836
9 144
Tabelle 4.9
Die Tabelle 4.9 zeigt am Beispiel der Häufigkeitstabelle 4.4 die Berechnung der Streuung nach der Formel (IV. 16) mit c 0 = 60 und Cj = 5. Aus diesen Werten ergibt sich: z = 836/550 = 1.52
z 2 = 9144/550 = 16.63
s | = 16.63 - (1.52) 2 i 14.32 Sx = 25 • 14.32 = 358.0.
Momente
79
4. Um die Streuung zweier Kollektive miteinander zu vergleichen, benutzt man im allgemeinen den Variationskoeffizienten s/x insbesondere dann, wenn die Merkmale der beiden Kollektive in unterschiedlichen Dimensionen gemessen werden, denn der Variationskoeffizient ist eine dimensionslose Zahl und deshalb invariant bezüglich Änderungen der Maßeinheiten. (Man führe den Beweis durch!) Allerdings dürfen die arithmetischen Mittel nicht allzu nahe bei Null liegen, weil dann die Variationskoeffizienten wenig aussagekräftig sind. (Weshalb? ) Man sollte deshalb Variationskoeffizienten nur bei Merkmalen berechnen, die nur für positive Werte definiert sind.
4.3 Momente Bei der Charakterisierung von Häufigkeitsverteilungen eines quantitativen Merkmals sind das arithmetische Mittel als Lokalisationsmaß und die Varianz als Streuungsmaß vorherrschend. Eine Verallgemeinerung des formalen Konzeptes, das diesen beiden Maßzahlen zugrunde liegt, führt zu den Momenten. Unter den Momenten einer Häufigkeitsverteilung versteht man das arithmetische Mittel aus noch zu definierenden Funktionen g eines Erhebungsmerkmales X. Sind die einzelnen Merkmalswerte x„ gegeben, so erhält man die Momente aus ¡T(X) = I 2 g ( x „ ) ; n „=i
(IV. 17)
liegt dagegen die Verteilung nur in Gestalt einer Häufigkeitstabelle vor, dann vereinbart man £ ( X ) = lIL i2= l g ( X i ) n i .
(IV. 18)
Dabei verwendet man Funktionen der Form g(X) = ( ^ o )
K
K= 0 , 1 , 2 , . . . .
(IV. 19)
Setzt man in (IV.19) für K = 1, c 0 = 0 und c x = 1, so geht g(X) in das arithmetische Mittel x über; mit K = 2, c 0 = x und C! = 1 erhält man für g(X) die Varianz. Die theoretische Bedeutung der Momente besteht darin, daß unter gewissen Voraussetzungen mittels der Momente Häufigkeitsverteilungen umkehrbar eindeutig charakterisiert werden können, d. h. zu einer Häufigkeitsverteilung gehört dann ein bestimmter „Satz" von Momenten und zu diesen Momenten nur diese eine Häufigkeitsverteilung.
4.31 Arten von Momenten 1. Wenn in (IV.19) die Parameter c 0 = 0 und Cj = 1 sind, dann nennt man g ( X ) = X"
K = 0, 1, 2 , . . .
80
Lokalisations- und Streuungsmaße, Momente
die K-ten Momente um Null. Man kennzeichnet sie durch m^X5. Spezielle Werte sind: mj, = 1, m'j = x. 2. Die x-ten Momente um das arithmetische Mittel oder — wie sie auch heißen — die K-ten zentralen Momente erhält man aus gPÖ = (X-x)K. In (IV. 19) ist dann c 0 = x = m , und Cj = 1 zu setzen. Meist bedient man sich der Bezeichnung mK=(X-x)\ Spezielle Werte sind: m 0 = 1, m t = 0, m 2 = s 2 . 3. Von K-ten Momenten eines standardisierten Merkmals spricht man, wenn
¡(X) = [(X-x)/sf ist. In diesem Fall wird c 0 = x und c t = s = + diese standardisierten Momente
gesetzt. Wir schreiben für
m j = [(X - x)/s]K = m K /s K . Insbesondere ergibt sich m j = 1, m* = 0 und m | = 1. Standardisierte Merkmale sind dimensionslos; ihr arithmetisches Mittel ist stets gleich Null, ihre Varianz hat immer den Wert Eins. 4 . 3 2 * Zusammenhänge zwischen verschiedenen Arten von Momenten Zwischen den verschiedenen Arten von Momenten bestehen gewisse Zusammenhänge. 1. Es ist
mK = .l ( i H - i y r n ^ m ' ^ . 1=0
Zum Beweis dieser Beziehung betrachte man zunächst (X - x)K = Z (?) ( j=o
iy xK-j x
j
= 2 c, X K " j x j . j=o
Da das arithmetische Mittel aus einer Summe von Merkmalswerten gleich der Summe der entsprechenden arithmetischen Mittel ist, gilt mK=(X-x)K=
^CjX^xj.
Wegen XK"J = m^.j ist der Beweis abgeschlossen.
Übungsaufgaben und ergänzende Hinweise IV
2. Es ist
81
K
mí* = .2 ( p m K - j m ^ . j=o Offensichtlich besteht die Identität XK = ((X - m'i) + mí ) K . Daraus schließt man X* = S ( D m ' ^ i X - m i r . j=0 Da das arithmetische Mittel einer Summe von Merkmalswerten gleich der Summe der arithmetischen Mittel ist, folgt m
K = XK = 2 ( j ) (X - mi)K~J m'jj, j=o
woraus sich sofort die Behauptung ergibt. 3. Es ist •
mK
Die Gültigkeit dieses Ausdruckes ist unmittelbar einzusehen. Übungsaufgaben und ergänzende Hinweise I V Aufgabe 1 Man berechne zu den Merkmalswerten x„ von Tabelle 3.6 das arithmetische Mittel und die Varianz. Aufgabe 2 Es ist der durchschnittliche Umsatz und die Varianz der Umsätze für die Randverteilung von Aufgabe 6 des dritten Kapitels zu berechnen. Hinweis: Man wende die Formeln (IV.5) und (IV. 13) an. Aufgabe 3 Es wird x¡ * 0 angenommen (i = 1, 2 , . . ., k). Man zeige, daß unter dieser Voraussetzung Gewichte k gi = cj / S Cj i ' existieren, für die
Lokalisations- und Streuungsmaße, Momente
82
gilt — d. h. ein harmonisches Mittel kann stets durch ein äquivalentes arithmetisches Mittel ersetzt werden. Aufgabe 4 Bei speziellen Problemen berechnet man aus einem Beobachtungsbefund, der die Bedingung x„ > 0 für alle v = 1, 2 , . . . , n erfüllt, das geometrische Mittel. Es ist definiert durch G = (x x • x 2 •. . . • x n ) 1 / n
x„ > 0 für alle v.
a) Man zeige durch vollständige Induktion, daß x > G ist. b) Aus der Gültigkeit der Beziehung x > G kann geschlossen werden, daß G > H ist. Man führe den Beweis durch. Aufgabe 5 Man zeige, daß im Falle nur positiver Merkmalswerte die folgenden Beziehungen für n = 2 exakt gelten: H =x[l-(f)2] G =x[l -¿Cf)2] G2 = x H Falls die Abweichungen der Merkmalswerte vom arithmetischen Mittel klein sind verglichen mit dem Mittelwert, gelten diese Beziehungen auch für n > 2 approximativ. Die Richtigkeit dieser Behauptung ist nachzuweisen, indem man x„ = x + (x„ - x) schreibt und H" 1 bzw. In G in eine Reihe entwickelt. Aufgabe 6 Die durchschnittliche Abweichung d(b) der Merkmalswerte x„ von einem Bezugswert b ist definiert durch d (b) = I 2 | x„ - b |. n k=i a) Man zeige, daß die durchschnittliche Abweichung d(b) bei gegebenen Merkmalswerten x„ 0 = 1 , 2 , . . ., n) mit b = x 0 . 5 ihren minimalen Wert erreicht. b) Man zeige, daß die durchschnittliche Abweichung d(x) vom arithmetischen Mittel stets kleiner als die Standardabweichung ist. Aufgabe 7 Man weise nach, daß die Spannweite mit wachsendem Umfang eines Kollektivs monoton zunimmt.
Übungsaufgaben und ergänzende Hinweise IV
Aufgabe 8 Man zeige, daß m 4 > m | ist. Aufgabe 9 Man zeige, daß die Momente von standardisierten Merkmalen invariant sind genüber linearen Transformationen Z = c 0 + Cj X. Aufgabe 10 Man zeige, daß der normierte Variationskoeffizient Mv = - j = L = • Jals ein Konzentrationsmaß verwendet werden kann.
5. Regressionsbeziehungen
Viele der Methoden, mittels derer formale Eigenschaften von Häufigkeitsverteilungen eines quantitativen Merkmals beschrieben werden, lassen sich so verallgemeinern, daß sie auch auf Häufigkeitsverteilungen mehrerer quantitativer Merkmale anwendbar sind. Bei diesen mehrdimensionalen Häufigkeitsverteilungen treten jedoch auch Probleme auf, die eine Erweiterung des deskriptiven Instrumentariums erforderlich machen. Mit dieser Aufgabe wollen wir uns im vorliegenden Kapitel befassen. Dabei werden wir uns weitgehend auf den Fall zweier quantitativer Merkmale, sage X und Y , beschränken. Es wird also angenommen, daß den Elementen je ein Paar von Merkmalswerten (x„, y„) zugeordnet ist (v = 1, 2 , . . . , n). Unser Ziel wird es insbesondere sein, Methoden darzustellen, mit deren Hilfe eine im Durchschnitt bestehende Abhängigkeit des Merkmals X vom Merkmal Y deskriptiv charakterisiert werden kann. Derartige Zusammenhänge zwischen quantitativen Merkmalen nennt man Regressionsbeziehungen. In der Wirtschaftswissenschaft ist das Ergebnis einer Regressionsuntersuchung unter der Bezeichnung „Engel'sches Gesetz" bekannt. Es besagt, daß mit steigendem Einkommen der Privathaushalte im D u r c h s c h n i t t die Ausgaben für Nahrungsmittel zwar absolut wachsen, jedoch relativ abnehmen.
Durchschnittliche Ausgaben-Anteile für Nahrungsmittel in Abhängigkeit vom Einkommen belgischer Arbeiterfamilien in Jahre 1853
0
I
500
I
1000
I
1500
I
2000
I
2500 X
J ä h r l . E i n k o m m e n pro Familie ( F r a n c s )
Abbildung 5.1
I
3000
Regressionsbeziehungen
85
Bei belgischen Arbeiterfamilien wurden im Jahre 1853 das Einkommen (X) und die Ausgaben für Nahrungsmittel (Y) erhoben. Aus diesem Beobachtungsbefund hat Engel1 für 29 Einkommensgrößenklassen jeweils die durchschnittlichen AusAbhängigkeit des Ausgaben-Anteils für Nahrungsmittel vom Einkommen Jährl. Familieneinkommen in belg. Francs (X) 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600
Durchschn. Ausgabenanteil für Nahrungsmittel in %d. Fam. Eink. z(X)
Jährl. Familieneinkommen in belg. Francs
72.96 71.48 70.11 68.85 67.70 66.65 65.69 64.81 64.00 63.25 62.55 61.90 61.30 60.75 60.25
(X) 1700 1800 1900 2000 2100 2200 2300 2400 2500 2600 2700 2800 2900 3000
Durchschn. Ausgabenanteil für Nahrungsmittel in % d. Fam. Eink, z(X) 59.79 59.37 58.99 58.65 58.35 58.08 57.84 57.63 57.45 57.30 57.17 57.06 56.97 56.90
Quelle: Engel, E.: Bull. Inst. Int. Stat., Tome IX, Livr. I, Ani. I, Rom 1895, S. 30 f . Tabelle 5.1
gaben für Nahrungsmittel berechnet. Bezeichnet man mit y(X) den durchschnittlichen Ausgabenbetrag für Nahrungsmittel bei einem Jahreseinkommen von X belgischen Franken, so gibt z(X) =100 y(X)/X den durchschnittlichen Anteil der Ausgaben für Nahrungsmittel in Prozent des Einkommens von Familien an, deren Jahreseinkommen sich auf X belgische Franken beläuft. Die Ergebnisse der Analyse von Engel zeigt Tabelle 5.1 ; der Verlauf der Regressionsbeziehung z(X) ist in Abbildung 5.1 dargestellt. Zunächst werden wir uns mit empirischen Regressionsbeziehungen befassen, die definiert sind als die arithmetischen Mittel der bedingten Verteilungen von Korrelationstabellen. Anschließend wird auf die Frage der Ausgleichung solcher Regressionsbeziehungen z. B. durch Geraden eingegangen. 1
Engel, E.: Die Productions- und Consumtionsverhältnisse des Königreichs Sachsen. Zeitschrift des Statistischen Bureaus des Königlich Sächsischen Ministeriums des Innern, No. 8 u. 9, Sonntag, den 22. November 1857. Unverändert abgedruckt in: Bulletin de l'Institut International de Statistique, Tome IX, Première Livraison, Rome, 1895.
Regressionsbeziehungen
86
5.1 Empirische Regressionsbeziehungen Nimmt man an, daß ein Beobachtungsbefund in Gestalt einer Korrelationstabelle vorliegt, so können, wie man sich leicht an Hand der Tabelle 5.2 überlegt, aus den bedingten Verteilungen der einzelnen Spalten arithmetische Mittel berechnet werden. Man nennt sie bedingte arithmetische Mittel. Wir bezeichnen sie mit x(yj); sie sind bestimmt durch x(yJ)=lxi^S i=i
j = 1,2
n_j
/.
(V.l)
Diese bedingten Mittelwerte definieren die empirische Regressionsbeziehung des Merkmals X in Abhängigkeit vom Merkmal Y. Ganz entsprechend berechnet man aus den bedingten Verteilungen, die in den Zeilen der Korrelationstabelle stehen, die bedingten arithmetischen Mittel y ( x i ) = 2 y j n^ J=1
i=l,2,..,k.
i.
(V.2)
Sie definieren die empirische Regressionsbeziehung des Merkmals Y in Abhängigkeit vom Merkmal X. Konstuiertes Zahlenbeispiel zur Berechnung von empirischen Regressionslinien
\ X
Y
10u. 20
20 u. 30
30 u. 40
40 u. 50
50 u. 60
60 u. 70 i-
y (x^
15
25.667
25
35.000
n
\
x
y
i
i
\
15
25
35
45
55
65
20 u. 30
25
4
6
5
30 u. 40
35
1
8
8
6
2
40 u. 50
45
1
6
17
5
1
30
44.667
50 u. 60
55
1
7
9
3
20
52.000
60 u. 70
65
5
4
1
10
51.000
35
20
5
100
48.143
52.500
55.000
n
-j
x(yj)
5
15
27.000
31.667
20 36.500
Tabelle 5.2
87
Empirische Regressionsbeziehungen
Y. y CXI 701— X
60 /
u /
20
30
40 50 X.5r(Y)
60
70
Abbildung 5.2
Für ein konstruiertes Zahlenbeispiel zeigt die Tabelle 5.2 die bedingten arithmetischen Mittel. Mit ihnen sind die empirischen Regressionbeziehungen bestimmt; die Abbildung 5.2 veranschaulicht den Verlauf der beiden Regressionslinien. An diesem Zahlenbeispiel kann man sich verdeutlichen, daß die beiden Regressionen von einander verschieden sind. Man folgert daraus, daß Regressionsbeziehungen im allgemeinen nicht umkehrbar sind. Wir wollen das noch an einem weiteren Beispiel erläutern: Hat man bei einem Kollektiv von Eheschließenden festgestellt, daß 25jährige Männer im Durchschnitt 22jährige Frauen heiraten, daß also x(y=25) = 22 ist, so läßt doch dieses Ergebnis durchaus zu, daß y(x=22) = 28 ist — d. h. daß 22jährige Frauen im Durchschnitt 28jährige Männer heiraten. Man mache sich das am Schema einer Korrelationstabelle klar! 5.11 Messung der statistischen Abhängigkeit im Mittel Eine empirische Regressionsbeziehung charakterisiert die Veränderungen der bedingten arithmetischen Mittel eines Merkmals in Abhängigkeit von einem anderen Merkmal; sie beschreibt also einen im Durchschnitt bestehenden Zusammenhang. Da aber die Einzelbeobachtungen im Regelfall mehr oder minder um die empirische Regressionslinie streuen, ist es sinnvoll, danach zu fragen, wie stark ausgeprägt eine Regression bei einem Beobachtungsbefund ist und wie man das Ausmaß dieser Abhängigkeit messen kann. 1. Je weniger die Beobachtungspunkte um eine zugehörige Regressionslinie streuen, desto stärker tritt eine statistische Abhängigkeit im Mittel hervor
88
Regressionsbeziehungen
(s. Abb. 5.3). Man wird deshalb versuchen, die „Stärke" eines Regressionszusammenhanges durch quadratische Streuungsmaße auszudrücken. Mit diesem Vorgehen reduziert sich — wie noch gezeigt wird — das Problem, die „Intensität" einer statistischen Abhängigkeit im Mittel zu messen, auf die einfache Zerlegung von Varianzen.
Abbildung 5.3
Des besseren Überblicks wegen sei noch einmal darauf hingewiesen, daß bei der einfachen Zerlegung einer Varianz ein Kollektiv in eine Anzahl disjunkter Teilgesamtheiten eingeteilt ist. Unter dieser Bedingung läßt sich — wie wir gesehen haben 1 - die Varianz eines Merkmals zerlegen in die interne und in die externe Varianz. In einer Korrelationstabelle sind die bedingte Häufigkeitsverteilungen eines Merkmals disjunkte Teilgesamtheiten eines Kollektivs. Demnach kann für die Varianz werden: sx = i .2 s2x.y. n j + i
des Merkmals X analog zu (IV. 13) geschrieben i [x (yj) - x] 2 n.j,
(V.3)
worin das Symbol Sx.y. (j = 1 , 2 , . . . , / ) für die Varianzen der bedingten Häufigkeitsverteilungen des Merkmals X steht — also: 1 k sx.yj =
(xi - x f y ) ) 2
nij
Der Quotient
I s [ x ( y j ) - x ] 2 n.j Hx.Y = — Sx
1
Siehe S. 75
(V.4)
89
Empirische Regressionsbeziehungen
der entsprechend der Beziehung (IV.14) aufgebaut ist, charakterisiert jenen Anteil an der Varianz s ^ , der sich auf Unterschiede in den Werten der empirischen Regressionslinie x(yj) zurückführen läßt, während 1 - H x . y den Anteil an der Varianz sx angibt, der durch die Streuung der Beobachtungspunkte um die Regressionslinie x ( y j ) hervorgerufen wird. 2. Für die Varianz Sy erhält man ganz analog zu ( V . 3 ) die Zerlegungsformel s ^ = l I s^. X i n,. + i 2 [y ( X i ) - y ] 2 1 n i=i n 1=1
ni
.,
(V.5)
Konstruiertes Zahlenbeispiel zur Berechnung der Korrelationsverhältnisse
\
Y
10 u. 20
20 u. 30
30 u. 40
40 u. 50
50 u. 60
60 u. 70
V j x i \
15
25
35
45
55
65
20 u. 30
25
4
6
5
30 u. 40
35
1
8
8
6
2
40 u. 50
45
1
6
17
5
50 u. 60
55
1
7
60 u. 70
65
X
n
5
-j
15
20
y(Xi)
15
25.667
59.56
25
35.000
104.00
1
30
44.667
63.22
9
3
20
52.000
61.00
5
4
1
10
51.000
44.00
35
20
5
100
27.000 31.667 36.500 48.143 52.500 55.000
x(yj) 2 sx.yj
16.00
35.56
72.75
40.00
y = 41.5
»k = 142.75
sy = 152.75 =67.9762
1 1 - X [ x ( y : ) - x ] 2 n | = 74.7738 n j=i h
78.75
84.43
x = 43.5
1 1 2 — £ «y v. n j n j=l A y J J
X . Y = 0-524
2 Y.Xi
i
n
1 k 2 - E s y x . n: 1 n i=i k i - 2 [y (xi) - y f ni n i=i h
Y.X =
Tabelle 5.3
0
-538
= 70.50 =82.75
s
90
Regressionsbeziehungen
worin Sy.x. (i = 1, 2 , . . ., k) die Varianzen der bedingten Häufigkeitsverteilungen des Merkmales Y charakterisiert. Weiterhin kennzeichnet der Quotient
I
H
2x=IL-1
!t[?(xd-7?nL
(v. 6)
sy denjenigen Anteil an der Varianz Sy, der durch die Varianz der Werte der empirischen Regressionslinie y(xj) erklärt werden kann. Schließlich ist mit 1 - Hy.x jener Anteil an der Varianz Sy bestimmt, der auf Abweichungen der Beobachtungspunkte von der Regressionslinie y(xj) zurückzuführen ist. 3. Man nennt H X-Y das Korrelationsverhältnis der Regression x(Y) und Hy das der Regression y (X). Die Berechnung der Korrelationsverhältnisse zeigt Tabelle 5.3 an einem Zahlenbeispiel.
x
5.12 Formale Eigenschaften von Korrelationsverhältnissen Die Korrelationsverhältnisse eignen sich als Regressionsmaße. Davon überzeugt man sich, indem man die formalen Eigenschaften beispielsweise von Hy x betrachtet. Entsprechende Überlegungen lassen sich auch bezüglich H x Y anstellen. 1. Zunächst soll konstatiert werden, daß stets 0 < Hy x < 1 gilt. Das ergibt sich aus der Definitionsformel, da in (V.3) keiner der Summanden negativ ist. 2. Wenn sämtliche Beobachtungspunkte auf der empirischen Regressionslinie liegen, besteht eine vollständige Abhängigkeit im Mittel. Genau dann ist Hy x = 1. Die Gültigkeit dieser Aussage folgt aus der Tatsache, daß bei vollständiger Abhängigkeit im Mittel — und nur dann — die Varianzen Sy x . der bedingten Verteilungen alle gleich Null sind. Unter dieser Voraussetzung ist dann X [y (xj) - y] 2 n,., n 1=1 woraus man unmittelbar die Behauptung erhält. k 3. Aus Hv x = 0 schließt man, daß 2 [y (x;) - y] 2 nj /n = 0 ist. i=l Dies kann aber nur mit y(xj) = y für alle i = 1, 2 , . . ., k eintreten. Die Regressionslinie hat also den in Abbildung 5.4 dargestellten Verlauf; das Merkmal Y ist also im Mittel unabhängig von dem Merkmal X. y (X) y CXI
X
Abbildung 5.4
Ausgleichende Regressionsgeraden
91
4. Im allgemeinen fallen bei einem vorgegebenen Beobachtungsmaterial die Korrelationsverhältnisse H x y und H y . x nicht zusammen. Es k a n n also eintreten, d a ß etwa H x . y = 0 u n d x > 0 ist.
5.2 Ausgleichende Regressionsgeraden Mit den bedingten arithmetischen Mitteln k e n n t m a n — genau g e n o m m e n — nur einzelne P u n k t e von empirischen Regressionsbeziehungen. Das erweist sich bei vielen substanzwissenschaftlich orientierten Untersuchungen als hinderlich. Deshalb approximiert m a n häufig empirische Regressionen mittels geeignet gewählter F u n k t i o n e n . Den speziellen T y p einer solchen ausgleichenden Regressionsf u n k t i o n b e s t i m m t m a n relativ selten d u r c h substanzwissenschaftlich begründete H y p o t h e s e n . Im Regelfall wird vielmehr der spezielle F u n k t i o n s t y p d e n bedingten arithmetischen Mitteln angepaßt. Dabei werden meist G e r a d e n bevorzugt. Der G r u n d besteht n i c h t allein in der Tatsache, daß sich das regressionsanalytische Problem im Falle einer Geraden besonders einfach lösen läßt, er ist vielmehr auch darin zu suchen, d a ß statistische Abhängigkeiten im Mittel — zumindest in erster Näherung — o f t hinreichend gut d u r c h Gerade beschrieben werden können. Die ausgleichende Regressionsfunktion besitzt gewisse Parameter; bei der Geraden Y = a 0 + a j X sind das a 0 u n d a j . Diese Größen sind numerisch so zu bestimmen, d a ß sich die b e t r e f f e n d e F u n k t i o n möglichst gut an einen vorliegenden Beobachtungsbefund a n p a ß t . Die „ G ü t e " dieser Anpassung wird d u r c h eine Maßzahl gemessen, die d e m Korrelationsverhältnis ähnlich ist. 5.21 Bestimmung der Regressionsgeraden Die paarweise erhobenen Merkmalswerte liegen im Regelfall nicht genau auf einer Geraden. Deshalb lassen sich die Parameter der Regressionsgeraden gewöhnlich nur u n t e r der Voraussetzung eindeutig b e r e c h n e n , daß m a n allgemeine Bedingungen festlegt, d e n e n die ausgleichende Regressionsgerade genügen soll. 1. Es sei Y(X) = a 0 + a t X die ausgleichende Regressionsgerade des Merkmals Y in Abhängigkeit von X. Man bezeichnet a x als Regressionskoeffizienten. Er bestimmt die Steigung der Regressionsgeraden. Ist a j > 0, so spricht m a n von einer positiven, b e i a ! < 0 von einer negativen Regression. a) Der Einfachheit halber wollen wir zunächst einmal a n n e h m e n , daß die beiden Parameter a 0 u n d a x numerisch b e s t i m m t sind. D a n n gehört zu j e d e m Merkmalswert \ v einerseits ein Beobachtungswert yv, andererseits aber auch ein — wie wir ihn n e n n e n wollen — ausgeglichener Wert Y(x„) auf der Regressionsgeraden (s. A b b . 5.5).
92
Regiessionsbeziehungen
YY . (X) Y(X) = aQ+a1 X; a^tga
Abbildung S.S
b) Bei unbekannten Parametern der Regressionsfunktion bestimmt man normalerweise die Werte von a 0 und a j derart, daß die Varianz der beobachteten Merkmalswerte y„ um die ausgeglichenen Werte Y(x„) minimiert wird - also: j- 2 ( y „ - Y ( x „ ) ) 2 = ± 2 ( y i , - ( a 0 + a l X ^ = M i n ! . n v=i n v =i ao> a i
(V.7)
Dieses Verfahren zur Ermittlung der Parameter a 0 und a t nennt man die Methode der kleinsten Quadrate. 2. Mit (V.7) ist eine Funktion der Parameter a 0 und a t gegeben — also: ty (a 0 , a x ) = 2 (y„ - a 0 - aix„) 2 /n, V
die zu minimieren ist. Dieses Minimum kann durch partielle Differentiation bestimmt werden. Auf diese Weise findet man die so genannten Normalgleichungen I 2 y^-ao-a! I II p
2x„=0
II j;
(V.8)
i 2 x y y v - a 0 i 2 x„ - a, ± 2 x 2 = 0. n p
n p
n p
Der Leser überzeuge sich davon, daß dieses in den Parametern a 0 und a j lineare Gleichungssystem wirklich das Minimum der Funktion ^ angibt. a) Aus der ersten der beiden Normalgleichungen folgert man unmittelbar, daß ao = y - a! x
(V.9a)
ist. Setzt man das in die zweite Gleichung ein, so erhält man, wie gleich noch gezeigt wird, für den Regressionskoeffizienten a! den Ausdruck
1
± 2 (x„ - x) (y„ - y) —. s«2 x
(V.9b)
Der Ausdruck im Zähler dieses Bruches heißt die Kovarianz der beobachteten Merkmalswerte x„ und y„; im Nenner steht die Varianz des Merkmals X. Da die Varianz s^ > 0 ist, wird das Vorzeichen des Regressionskoeffizienten nur durch die Kovarianz festgelegt.
93
Ausgleichende Regressionsgeraden
b) Um die Gültigkeit der Formel (V.9b) nachzuweisen, schreiben wir zunächst die zweite Normalgleichung nach Einsetzen von (V.9a) hin. Sie lautet dann: i 2 x ^ - x y - a , (± 2 4 - x 2 ) = 0 11
V
II
[;
Nach ( I V . l l ) ist I L,y vX2 n w v
tz2 _- qS2
- X
x
•
Deshalb brauchen wir nur noch zu zeigen, daß für die Kovarianz gilt: i ! (x„-x)(y„-y) = I 2 x „ y t , - x y = 5cy-xy. n y=l II y = l
(V.10)
Die Gültigkeit dieser Beziehung läßt sich zeigen, wenn man i 2 (x„ - x) (y„ - y) = 1 2 (x„ - x) y„ - y I 2 (x„ - x) n. V = 1 n y=X n y=l bildet und bedenkt, daß 2 (x„ - x) = 0 ist 1 . Demnach ist I E (x» - x ) ( y , - y) = J S (xp - x ) y , = I Z x»y„ - x i 2 y„. n „ n k n y n u Setzt man in diesem Ausdruck 5Ty = I 2 x„y„ n i> so folgt unmittelbar die Behauptung. c) Die Werte der Parameter a 0 und a t der Regressionsgeraden Y (X) = a 0 + a x X lassen sich mittels der Lösungen der Normalgleichungen (V.9a) und (V.9b) aus dem Beobachtungsbefund numerisch bestimmen. Setzt man diese Lösungen für a 0 und a t ein und schreibt man für die Konvarianz abkürzend cv (X, Y), so ergibt Si h
°
wVx - , cv(X, Y) Y (X) = y + \ ( X - x). (V.ll) s x _ 3. Bisher haben wir uns nur mit der ausgleichenden Regressionsgeraden Y(X) befaßt. Entsprechende Überlegungen, wie die vorangegangenen, kann man durchführen, um die Parameter der Regressionsgeraden X(Y) = b0 + b j Y zu bestimmen; sie gibt an, wie das Merkmal X im Durchschnitt von dem Merkmal Y abhängt. Im allgemeinen ist, wie wir noch sehen werden, die Regressionsgerade X(Y) verschieden von der Regressionsgeraden Y(X). Auf einen entsprechenden Sachverhalt wurde bereits bei empirischen Regressionsbeziehungen hingewiesen. 1
Siehe S. 68
94
Regressionsbeziehungen
Die Parameter b 0 und t>! der Regressionsgeraden X(Y) lassen sich nach der Methode der kleinsten Quadrate bestimmen, indem man fordert: I "
2 (x v - (b 0 + b j y v ) ) 2 = Min!
V=1
u
u
Aus den zugehörigen Normalgleichungen ± Sx^-bo-b!^ n p
i
S x ^ - b o i
U p
Sy^O
n v
Sy^-bi I Sy2 = 0
l l p
U p
findet man nach einigen Umformungen X(Y) = x + =
^ i X ) sSy Y
(V.12)
Der Leser führe die Ableitung im Einzelnen durch. 5.22 Berechnung der Parameter von Regressionsgeraden Bei der Berechnung von ausgleichenden Regressionsgeraden unterscheidet man zweckmäßig zwei Fälle: Einmal, daß die Wertepaare (x„, y„) einzeln gegeben sind und zum anderen, daß der Beobachtungsbefund in Gestalt einer Korrelationstabelle vorliegt. Aus dem jeweiligen Datenmaterial sind zunächst die arithmetischen Mittel, die Varianzen und die Kovarianz zu berechnen, mittels derer sich dann die Parameter der Regressionsgeraden numerisch bestimmen lassen. 1. Aus den Wertepaaren (x„, y„) der Merkmale X und Y eines Kollektivs mit dem Umfang n ermittelt man die in der Arbeitstabelle 5.4 verzeichneten Werte. Man erhält dann: s£ = 3 ? - x 2 = 9 2 7 0 1 . 6 - 8 4 2 8 7 . 2 = 8414.4; Sy = y i - y 2 = 2.627161 - 2 . 6 2 4 4 = 0.002761; cv(X, Y) = x y - x y = 467.5081 - 470.3226 = - 2.8145. Demnach ist ai1 = ~ l f } f S A = - 0.0003349 8414.4
Es ergibt sich somit für Y(X) der Ausdruck Y (X) = 1.62 - 0.0003349 (X - 290.32),
Ausgleichende Regressionsgeraden
95
Aibeitstabelle zur Berechnung der Parameter von Regressionsgeraden aus dem Beobachtungsbefund von Tabelle 3.6 (ungruppierte Merkmale) yv 125 150 150 150 175 200 200 225 225 225 250 250 275 275 300 300
1.68 1.56 1.70 1.73 1.65 1.63 1.72 1.59 1.65 1.67 1.60 1.66 1.63 1.66 1.55 1.58
4 15625 22500 22500 22500 30625 40000 40000 50625 50625 50625 62500 62500 75625 75625 90000 90000
2.8224 2.4336 2.89 2.9929 2.7225 2.6569 2.9584 2.5281 2.7225 2.7889 2.56 2.7556 2.6569 2.7556 2.4025 2.4964 Insgesamt:
n = 31 x = 9000 31 50.22 y= 31
yv
yl
= 290.32 = 1.62
210.00 234.00 255.00 259.50 288.75 326.00 344.00 357.75 371.25 375.75 400.00 415.00 448.25 456.50 465.00 474.00
300 300 300 325 350 350 350 375 375 375 400 400 425 425 475 9000
1.60 1.64 1.65 1.56 1.58 1.60 1.70 1.55 1.58 1.63 1.54 1.57 1.58 1.62 1.56
90000 90000 90000 105625 122500 122500 122500 140625 140625 140625 160000 160000 180625 180625 225625
2.56 2.6896 2.7225 2.4336 2.4964 2.56 2.89 2.4025 2.4964 2.6569 2.3716 2.4649 2.4964 2.6244 2.4336
480.00 492.00 495.00 507.00 553.00 560.00 595.00 581.25 592.50 611.25 616.00 628.00 671.50 688.50 741.00
50.22 2873750 81.4420 14492.75
_ 2873750 31 _ 81.442 7 n — _ 14492.75 31 Tabelle 5.4
Wv
vi
= 92701.6 = 2.6271613 = 467.5081
Regressionsbeziehungen
96 woraus folgt: Y (X) = 1.71711 - 0.00033449 X. Auf dieselbe Weise findet man X (Y) = 1941.552 - 1019.278 Y.
In das Streuungsdiagramm der Abbildung 5.6 sind die beiden Regressionsgeraden eingezeichnet. Wie man sieht, handelt es sich um eine negative Regression. 2. Hat man den Beobachtungsbefund in Gestalt einer Korrelationstabelle vorliegen, so berechnet man die arithmetischen Mittel und die Varianzen der Merkmale X und Y zweckmäßigerweise aus den Randverteilungen. Um die Kovarianz zu bestimmen, geht man von der Formel aus: cv(X,Y) = I
.Mxi-xHyj-yK.
a) Durch Transformation der Merkmale (X - C 0 i)/Cu = Z t
(Y - C02)/Ci2 = Z 2 ,
läßt sich bei geeigneter Wahl der Konstanten c 0 i , c 0 2 , c t t und c 1 2 oft eine wesentliche Verminderung der Rechenarbeit erreichen. Es ist: CV(X,Y) = C U C 1 2
( Z ^ - Z ^ ) .
Um die Gültigkeit dieser Beziehung nachzuweisen, bilde der Leser zunächst ( x i - x ) = ( x i - c 0 i - x + c01) = c n ( ( X i - c 0 1 ) / c n - ( x - c 0 1 ) / c n ) =
C,1 (zU - Z i )
und entsprechend (yj - y) = c 1 2 ((yj - c 0 2 )/c 1 2 - (y - c 0 2 ) / c 1 2 ) = c i 2 (z 2 j - z 2 ). Damit erhält man cv(X, Y) = c n c 1 2 . i 2 2 (zu - z t ) (z 2 j - z 2 ) n u . n i j Dieser Ausdruck läßt sich umformen zu cv(X, Y) = c u c 1 2 M l S z jj z 2 j ny + z t z 2 Ln i J - z 2 I 2 z u n; - z j i 1. z 2 j n . j j , 1 1 '—* ' ^ z1
z2
woraus ohne weiteres die Behauptung folgt. b) Die Daten der Arbeitstabelle 5.5 wurden aus denen der Tabelle 5.4 durch Gruppierung der Wertepaare abgeleitet.
Regressionsbeziehungen
97
98
Formale Eigenschaften von ausgleichenden Regressionsgeraden
Vergleicht man die Ergebnisse der Berechnungen von Tabelle 5.4 mit denen der Tabelle 5.5, so stellt man Abweichungen zwischen den einander entsprechenden Werten fest. Der Grund dafür liegt — abgesehen von geringen Rundungsfehlern — vornehmlich in der Tatsache, daß bei Gruppierung der Merkmale in Größenklassen nicht mehr die einzelnen Paare von Merkmalswerten sondern nur noch Paare von Klassenmitten mit den zugehörigen Häufigkeiten gegeben sind. Vor allem bei Kollektiven geringen Umfangs kann das zu recht erheblichen Verzerrungen führen. Mit den in Tabelle 5.5 verzeichneten Ergebnissen kann man die Parameter der beiden Regressionsgeraden wie im vorangegangenen Beispiel ermitteln. Der Leser führe die Berechnungen durch.
5.3 Formale Eigenschaften von ausgleichenden Regressionsgeraden In diesem Abschnitt sollen zunächst das arithmetische Mittel und die Varianz der ausgeglichenen Merkmalswerte berechnet werden. Anschließend werden einige Beziehungen zwischen den Regressionsgeraden X(Y) und Y(X) erörtert. Schließlich wird auf die Messung der Bestimmtheit von ausgeglichenen Regressionen eingegangen. 5.31 Das arithmetische Mittel und die Varianz der ausgeglichenen Merkmalswerte Aus einem Beobachtungsbefund (x l f yj), (x 2 , y 2 ), • •., (x n , y n ) seien die Koeffizienten a 0 und a j der Regressionsgeraden Y(X) sowie die Koeffizienten b 0 und b j der Regressionsgeraden X(Y) nach der Methode der kleinsten Quadrate ermittelt. Setzt man in diese numerisch bestimmten Regressionsbeziehungen die Merkmalswerte x„ bzw. y„ ein, so erhält man die ausgeglichenen Merkmalswerte Y(x„) und X(yi,). Das arithmetische Mittel und die Varianz dieser ausgeglichenen Merkmalswerte kann man durch Mittelwerte, Varianzen und Kovarianz der Beobachtungswerte darstellen. Das wollen wir für die ausgeglichenen Werte Y(x„) beweisen (i> = 1, 2 , . .., n). 1. Das arithmetische Mittel der ausgeglichenen Werte Y(x„) sei Y; es ist definiert durch
Setzt man in diesen Ausdruck die Beziehung (V.l 1) ein, so erhält man (x„ - x) | = y +
cv (X, Y) Sx
1 n
«n 2 (x„-x).
V=1
99
Formale Eigenschaften von ausgleichenden Regressionsgeraden
Nun ist aber 2 (x„ - x) = 0; demnach ergibt sich Y = y.
(V.13)
Die Varianz der Werte Y(x„) sei mit s^. . bezeichnet - also:
Setzt man in diesen Ausdruck die Beziehung (V.l 1) ein, so folgt
Wegen Y = y vereinfacht sich diese Beziehung zu
woraus man s|(x)=(cv(X,Y)/sx)2
(V.l 4)
erhält. 2. Entsprechende Zusammenhänge lassen sich auch für die ausgeglichenen Merkmalswerte X(y„) formulieren. Wir wollen diese Beziehungen ohne Beweis angeben; der Leser möge sie nachprüfen. Für das arithmetische Mittel X =
I 2 X (y„) n v =i
findet man X = x;
(V.l 5)
für die Varianz
ergibt sich der Ausdruck s | ( Y ) = (cv (X, Y)/s y ) 2 .
5.32 Formale Beziehungen zwischen den beiden ausgleichenden Regressionsgeraden Zwischen den beiden Regressionsgeraden Y(X) und X(Y) bestehen gewisse Zusammenhänge, mit denen wir uns näher befassen wollen.
100
Regressionsbeziehungen
1. Die beiden Regressionsgeraden Y(X) und X(Y) fallen normalerweise nicht zusammen. Sie haben jedoch immer mindestens einen Punkt gemeinsam — nämlich den mit den Koordinaten (x, y). Die Gültigkeit dieser Aussage ist aus (V.l 1) und (V.12) unmittelbar zu ersehen, denn es ist Y(x) = y und X(y) = x. Y.Y(X)
x-
X, X ( Y )
Abbildung 5.7
2. Mit Y(X) = y für alle X verläuft die betreffende Regressionsgerade parallel zur Abszisse. Man sagt dann auch, daß das Merkmal Y mit dem Merkmal X nicht geradlinig korreliert ist. Dieser Fall kann — wie man aus (V.l 1) sofort ersieht — nur eintreten, wenn die Kovarianz Null ist. Genau dann geht aber (V.12) über in X(Y) = x für alle Y. Daraus folgt, daß mit cv(X, Y) = 0 auch das Merkmal X mit dem Merkmal Y nicht geradlinig korreliert ist. Unter dieser Voraussetzung sind die beiden Regressionsgeraden orthogonal (s. Abb. 5.8). Y.Y(X) > -
IX
Y (X) K
X.X(Y)
Abbildung 5.8
3. Wenn eine der beiden Regressionsgeraden einen positiven (negativen) Regressionskoeffizienten besitzt, genau dann ist der Regressionskoeffizient der anderen Regressionsgeraden positiv (negativ). Dieser Sachverhalt beruht darauf, daß das Vorzeichen der beiden Regressionskoeffizienten a t und b x allein durch die Kovarianz bestimmt wird. 4.* Die beiden Regressionsgeraden fallen nur zusammen, wenn sämtliche Beobachtungspunkte (x„, y„j auf einer Geraden liegen, die dann mit der Regressionsgeraden identisch ist. Y.Y(X)
Formale Eigenschaften von ausgleichenden Regressionsgeraden
101
Um die Gültigkeit der Behauptung zu beweisen, sei zunächst angenommen, daß sämtliche Beobachtungspunkte auf einer Geraden g(x y , y„) liegen. Dann werden offensichtlich die beiden Minimierungsbedingungen erfüllt, wenn die beiden Regressionsgeraden (V.l 1) und (V.12) mit der Geraden g(x„, y„) zusammenfallen. - Setzt man dagegen voraus, daß die beiden Regressionsgeraden Y (X) und X(Y) zusammenfallen, dann ist Y(X) zu X(Y) invers - es gelten also die Beziehungen Y(X(Y)) = Y und X(Y(X)) = X. Daraus folgt aber - wie man sich auch anhand von Abbildung 5.9 überlegen kann - die Gültigkeit des behaupteten Satzes. Wenn alle n Beobachtungspunkte (x v , y„) eines Kollektivs auf einer Geraden liegen, dann sagt man, daß zwischen den beiden Merkmalen X und Y eine vollständige geradlinige Korrelation besteht. 5.33 Das Bestimmtheitsmaß von ausgeglichenen Regressionen In einem gegebenen Kollektiv mit paarweise erhobenen Merkmalswerten (x„, y„) kann eine geradlinige Korrelation unterschiedlich stark ausgeprägt sein. Je weniger die Beobachtungen um die Regressionsgeraden streuen, desto „intensiver" tritt in dem empirischen Erhebungsbefund eine geradlinige Korrelation hervor (s. Abb. 5.10). Ihr Ausmaß läßt sich demnach im wesentlichen durch die Varianz der Beobachtungswerte um die Regressionsgerade numeral charakterisieren. Y.y(X)
Y.y(X)
x
x
Abbildung 5.10
1. Wenn die Parameter einer Regressionsgeraden nach der Methode der kleinsten Quadrate bestimmt sind, dann läßt sich die Varianz des abhängigen Merkmals additiv zerlegen in die Varianz innerhalb der Regressionslinie und in die Varianz um die Regressionslinie. Das wollen wir für eines der beiden Merkmale — sagen wir etwa Y — zeigen. a) Für die Varianz des Merkmals Y kann man schreiben 2(y„-y)2=I
Ii i>=i
n
2 ((y„ - Y (x„)) + (Y (x„) - y)) 2 .
v=i
102
Regressionsbeziehungen
Da y = Y ist, ergibt sich durch Auswertung des Binoms 4=1
£ (y„- Y (xj)2 + 1 2 (Y (x„) - Y) 2 + 2 1 2 ( y „ - Y (x,)) (Y (x,)-Y). n v =i n „=i n v =i
In die letzte Summe kann man (V.l 1) einsetzen; dann erhält man:
11
n
Sx
v=\
Sx
Demzufolge ist $ = £11 J (y„ . y (x,)) 2 + I 2 (Y (x„) - Y) 2 . f-i n d=i
(V.17)
In dieser Zerlegungsformel der Varianz charakterisiert der Ausdruck
die Varianz innerhalb der Regressionsgeraden Y(X); nach (V.l4) ist 4 (X) = ( c v Y)/s x ) 2 • Weiterhin gibt
die Varianz um die Regressionsgerade Y (X) an. b) Die Varianzen s^ ^
und s2 ^
sind definitionsgemäß nicht negativ.
Demnach läßt sich
als jener Teil der Varianz Sy interpretieren, der — wie man oft sagt — durch die Regressionsgerade Y(X) erklärt wird. Aus (V.17) folgt unmittelbar 0
0
ist. Dann charakterisiert aber 0-R2Y.X1,....Xk>-(1-RY.X1
1 R2
Y.X! =
d2
R
Xk+1)
Xk
Y.Xi
Xk+1
11 _ R 2
_ D2
Y.Xi
^Y.X!
Xk
1 0 0
Xk
die prozentuale Abnahme der Unbestimmtheit 1 - Ry X j
Xfc ,
die durch
Einbeziehung des Merkmals X k + 1 verursacht wird. Man bezeichnet _ Y . X k + i ; X t , X 2 , . . ., X k
Y.X!, • • ., X k + 1 Y.Xj, • • ., X k 1_R2 Y.Xj Xk
als partielles Bestimmtheitsmaß. 4. Die Erörterungen dieses Paragraphen lassen sich ohne weiteres auf den Fall einer polynomialen Regression zwischen zwei Merkmalen übertragen, d. h. auf Regressionsbeziehungen der Form Y (X) = a 0 + a j X + a 2 X 2 + . . , + a k X k . Setzt man nämlich Xj = Xj, so geht dieser Ausdruck in (V.22) über. Die formalen Zusammenhänge, die für multiple lineare Regressionsbeziehungen gelten, können somit auch auf polynomiale Regressionsfunktionen übertragen werden. Insbesondere gibt dann das partielle Bestimmtheitsmaß an, um welchen Anteil sich die Unbestimmtheit vermindert, wenn der Grad des Polynoms von k auf k+1 erhöht wird.
109
Übungsaufgaben und ergänzende Hinweise V
5. Die Schätzwerte für die Parameter von Regressionsmodellen ergeben sich in den bisher betrachteten Fällen als Lösungen von linearen Gleichungssystemen. Solche linearen Parameterschätzungen erhält man bei allen Regressionsmodellen der Form Y (X„ X 2 , . . X k ) = I a, hjOCt, X j , . . . , X k ), j=0 worin die hj geeignet gewählte Funktionen der Merkmale X l t X 2 , . . bezeichnen.
Xk
Übungsaufgaben und ergänzende Hinweise V Aufgabe 1 Die folgende Tabelle zeigt für die Bundesrepublik Deutschland die in den Jahren 1950 bis 1965 im Monatsdurchschnitt geschlachtete Menge an Schweinen sowie den durchschnittlichen Preis pro kg Kotelett.
Jahr 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965
Schlachtmenge in 1000 t 54.3 70.9 76.9 79.8 89.2 100.1 103.9 111.2 115.4 116.7 122.9 130.8 139.7 141.3 148.2 157.2
Preis 4.28 4.64 4.73 4.82 5.19 5.01 5.45 5.65 5.73 6.40 6.50 6.85 7.02 7.46 7.80 7.91
1. Zeichnen Sie das Streuungsdiagramm. 2. Läßt sich dieser Beobachtungsbefund nach ihrer Meinung hinreichend gut durch eine Gerade ausgleichen? 3. Man berechne eine ausgeglichene Regressionsbeziehung nach der Methode der kleinsten Quadrate.
Regressionsbeziehungen
110
Aufgabe 2 Aus den Aufzeichnungen eines Betriebes über die wöchentlichen Ausstoßmengen und die zugehörigen Herstellkosten ergibt sich die folgende Häufigkeitstabelle: Y Herstell tosten (in 1000 DM]
X Ausstoßmenge (int)
15 bis 25 bis 35 bis 20 bis 30 bis unter 20 unter 25 anter 30 unter 35 unter 40
Insgesamt
40 bis unter 50
2
3
-
-
-
5
50 bis unter 60
3
4
3
-
-
10
60 bis unter 70
2
4
3
1
-
10
70 bis unter 80
-
8
9
2
1
20
80 bis unter 90
-
1
1
2
1
5
Insgesamt
7
20
16
5
2
50
1. Bestimmen Sie die empirischen Regressionsbeziehungen und stellen Sie diese graphisch dar. 2. Wie groß sind die Korrelationsverhältnisse H 2
x
und H 2
y
?
3. Berechnen Sie die ausgleichenden Regressionsgeraden Y(X) und X(Y). 4. Wie lassen sich die beiden Regressionsgeraden sachlich interpretieren?
Aufgabe 3 a) Es ist zu zeigen, daß aus y(jq) = ao + a!X; und x(yj) = b 0 + b t yj für alle i und j die Beziehung H 2 y = H 2 folgt. b) Kann man aus Hx.y = Hy.x schließen, daß y(xj) = a 0 + a x Xj und x(yj) = b 0 + b j y j für alle i und j ist? c) Gilt mit Hx.y = Hy.x und y(x 4 ) = a 0 + a j x , für alle i auch x(yj) = b 0 + b ! y j für alle j?
Aufgabe 4 a) Man zeige, daß H y
x
= r 2 ist.
b) Es ist nachzuweisen, daß die empirische Regressionslinie y(X) dann und nur dann eine Gerade ist, wenn H y = r 2 gilt. c) Folgt aus H y x = r 2 stets auch H 2 y = r 2 ?
111
Übungsaufgaben und ergänzende Hinweise V
Aufgabe 5 Sei \p der kleinere Winkel zwischen den beiden Regressionsgeraden Y(X) und X(Y). Man zeige, daß
Aufgabe 6 Es sei x„ = v und y„ = j„, wobei j„ das i>-te Element einer Permutation der ersten n natürlichen Zahlen ist. a) Man zeige, daß unter diesen Voraussetzungen gilt: 6 r = 1-
2 (x„ - y„) 2 , = rs. n(n2-l)
V=1
Hinweis: Man nennt einen unter der genannten Bedingung berechneten Korrelationskoeffizienten einen Spearman'sehen Rangkorrelationskoeffizienten; die x„ und die y„ können im vorliegenden Fall auch als Rangzahlen interpretiert werden. b) Man zeige, daß unter den genannten Voraussetzungen 6
Z {((n+O-xJ-y,,}2
= n(n2-l)
= - rs
ist.
Aufgabe 7 Man zeige, daß der Korrelationskoeffizient r = 0 ist, wenn y^ = a 0 + a 2 x 2 und x„ = k - v für v = 1, 2 , . . 2 k-1 gilt.
Aufgabe 8 Man zeige, daß 2 2 R > R Y.Xi, ^ Y . X l X 2 , • • ., x k " x2
güt.
xk_!
112
Regressionsbeziehungen
Aufgabe 9 Es werde eine lineare Abhängigkeit der Variablen Y von den beiden Variablen X und X 2 betrachtet. Zeigen Sie, welche der folgenden Schlüsse bezüglich der Bestimmtheitsmaße richtig sind: Aus
folgt
«>
R
Y.X1>X2=°
fl
R
Y.Xl)X2=0
rt
^.Xj.Xi"1
R
Y.X I ; X 2
= 1
R
R
Y.X 2 ; X ,
= 1
Y.XI, X2
=
^
R
Aus
Y.XI;X2=°
Klxy.xr
e
)
0
^
folgt
R
Y.XI;X2=0
R
R
Y.XI;X2=0
R
Y.X2;XI =
R
= 1
R
Y.XI,X2=1
= 1
R
Y.X I ; X 2
R
Y.X,;X 2
Y.X1>X2 =
Y.X2;XJ
=
0 0
Zweiter Abschnitt
Zeitabhängige deskriptive Charakteristiken Die bisher behandelten statistischen Problemstellungen waren in ihrem wesentlichen Kern zeitunabhängig. Wir wollen uns nunmehr den zeitabhängigen diskriptiven Charakteristiken zuwenden. Dabei werden allerdings nur einige der Modelle behandelt, die für ökonomische Anwendungen von Bedeutung sind.
6. Veränderung des Umfangs einer Bestandsmasse im Zeitablauf Der Umfang einer Bestandsmasse ändert sich im Zeitablauf durch Zugänge und Abgänge. Beispielsweise erhöht sich die Wohnbevölkerung eines Landes durch Zuwanderungen und durch Geburten, sie vermindert sich durch Abwanderungen und durch Sterbefälle. Ein Element, das im Zeitpunkt t' dem Bestand zuwächst, gehört dem betreffenden Kollektiv eine Zeit lang an und scheidet im Zeitpunkt t " aus dem Bestand aus. Die Zeitspanne t " - t' = t* > 0 nennt man die Verweildauer dieses Elementes. Beobachtet man die Bestandsänderungen, beginnend in einem Zeitpunkt t 0 , kontinuierlich im Zeitablauf, so kann man die Zugangszeit t' eines Elementes und den Zeitpunkt t " seines Ausscheidens erfassen. Dieser Beobachtungsbefund läßt sich durch eine, nach ihrem Erfinder benannte, Beckersche Graphik veranschaulichen (s. Abb. 6.1). Zugangszeit
to
o
VI
V 2 Abbildung 6 . 1
114
Veränderung des Umfangs einer Bestandsmasse im Zeitablauf
Die Beckersche Graphik besteht aus einem rechtwinkligen Koordinatensystem; auf der Abszisse ist die Beobachtungszeit t, auf der Ordinate die Zugangszeit t' abgetragen. Die Verweildauer jedes Elementes wird durch eine Strecke — die sogenannte Verweillinie charakterisiert. Sie verläuft im Abstand t' parallel zur Abszisse und hat den Abszissenwert t' als Anfangspunkt und t" als Endpunkt. Die Anfangspunkte sämtlicher Verweillinien liegen in der Beckerschen Graphik auf der Zugangsachse t* = 0. Deshalb kann die Verweildauer jedes Elementes auch durch den Abstand einer Parallelen zur Zugangsachse bestimmt werden. Ein Element, das im Zeitpunkt T dem Bestand angehört, ist in der Beckerschen Graphik dadurch gekennzeichnet, daß seine Verweillinie das Lot auf die Abszisse in t schneidet. In Abb. 6.1 sind diese Schnittpunkte markiert.
6.1 Fortschreibungsmodelle Im Zeitpunkt t 0 des Beginnes einer Beobachtungsperiode sei ein Kollektiv des Umfanges B(to) > 0, der Anfangsbestand, gegeben. Die Zugangsmenge im Zeitraum (to, t] wird mit Z(t), die entsprechende Abgangsmenge mit A(t) bezeichnet. Der Umfang des Kollektivs im Zeitpunkt t läßt sich dann darstellen als B(t) = B ( t 0 ) + Z ( t ) - A ( t ) .
(VI.l)
Diese Beziehung heißt die Formel der Bestandsfortschreibung. Obwohl bei manchen wirtschaftswissenschaftlichen Problemen zweckmäßigerweise auch negative Bestände (Fehlmengen) zugelassen werden, wollen wir das ausschließen. Es wird also B(t) > 0 vorausgesetzt. Die Zugänge Z(t) und die Abgänge A(t) sind empirisch bestimmbare Funktionen der Zeit. Demnach kann auch B(t) als eine temporale Bestandsfunktion aufgefaßt werden. Bei praktischen Anwendungen kommt häufig der individuellen Verweildauer der einzelnen Elemente keine besondere Bedeutung zu. Unter dieser Voraussetzung kann man von der Annahme ausgehen, daß die Elemente in der Reihenfolge ihres Zuganges — d. h. immer zuerst die Elemente mit der längsten Verweildauer - aus dem Bestand ausscheiden. Wenn diese Annahme eingeführt wird, so wollen wir von einem Fortschreibungsmodell sprechen. 1. Der Anfangsbestand B(to) zu Beginn einer Beobachtungsperiode sei gegeben; der Verlauf der Zugangs- und der Abgangsfunktion sei während eines Zeitraumes der Länge T erfaßt worden. Stellt man diesen Beobachtungsbefund - wie in Abbildung 6.2 - graphisch dar, so erhält man den Verlauf der Bestandsfunktion B(t) aus dem parallel zur Ordinate gemessenen Abstand der Funktionen B(to) + Z(t) und A(t). Unter den
Fortschreibungsmodelle
115
A n z a h l d e r Elemente
/ Bit)
B(t„)»Z(t)
P
j>B(t0*T)
A(t)
J B(tn)
-i-t
t0*T
tn
Abbildung 6.2
Annahmen des Fortschreibungsmodells kann die Verweildauer t* eines Elementes durch den parallel zur Zeitachse gemessenen Abstand zwischen der Zugangsfunktion und der Abgangsfunktion veranschaulicht werden. In einem Fortschreibungsmodell läßt sich demnach der Abstand zwischen der Zugangsfunktion und der Abgangsfunktion zweifach interpretieren: Einmal als die Menge der Elemente, die im Zeitpunkt t dem Bestand angehören; zum anderen als die Verweilzeit eines Elementes. Deshalb nennt man auch die in Abbildung 6.2 markierte Fläche eine Zeitmengenfläche. Von einer beiderseits geschlossenen Zeitmengenfläche spricht man, wenn für eine Beobachtungsperiode von der Dauer T gilt B(to) = B(to + T) = 0 (s. I. in Abb. 6.3). Falls B(to) > 0 und B(to + T) = 0 ist, heißt die Zeitmengenfläche linksseitig offen (s. II. in Abb. 6.3). Entsprechend wird mit B(to) = 0 B(1o + T) > 0 eine Zeitmengenfläche rechtsseitig offen und mit B(to) > 0, B(to + T) > 0 beidseitig offen genannt (s. III. bzw. IV. in Abb. 6.3). Menge
Menge
B(t04)
Alt)
B(t
o> to
Abbildung 6.3
116
Veränderung des Umfangs einer Bestandsmasse im Zeitablaut'
2. Der zu einem Fortschreibungsmodell gehörige Beobachtungsbefund besteht aus dem Anfangsbestand B(to), aus der Zugangsfunktion Z(t) und der Abgangsfunktion A(t) während eines Zeitraumes der Länge T. Aus diesen Angaben kann man statistische Maßzahlen berechnen, die den Prozeß der Vermehrung und der Verminderung eines Bestandes charakterisieren. Dabei wollen wir — um eine einfachere Notierung zu erhalten - den Beginn der Beobachtungsperiode t 0 = 0 setzen. a) Da vereinbarungsgemäß = 0 ist, bezeichnet Z(T) die Zugangsmenge während einer Beobachtungsperiode von der Dauer T. Die durchschnittliche Zugangsmenge je Zeiteinheit stellt sich dann dar als 7 - 1 rZ(T).
(VI.2)
Analog ist die durchschnittliche Abgangsmenge je Zeiteinheit definiert: Ä = IA(T).
(VI.3)
b) Zur Ermittlung des durchschnittlichen Bestandes in der Beobachtungsperiode wird von der Zeitmengenzahl M z ausgegangen, deren Wert der Zeitmengenfläche entspricht. Wenn die Bestandsfunktion B(t) — was in den meisten Anwendungsfällen zutrifft - während der Beobachtungsperiode nur in endlich vielen Zeitpunkten t 1 ; t 2 , . . ., t n ihren Wert ändert, so besteht die Zeitmengenfläche, wie in Abbildung 6.4, aus Rechtecken, deren Flächen durch B(t„) (t,*. 1^) gegeben ist. Dann erhält man die Zeitmengenzahl aus M z = S B (t„) ( t v + 1 - t„), y=0
(VI.4)
worin t n + i = T ist. Anzahl der Elemente
Abbildung 6.4
tn*1 =T Den durchschnittlichen Bestand der Beobachtungsperiode erhält man dann aus B =JMz.
(VI.5)
Fortschreibungsmodelle
117
Setzt man (VI.4) in diesen Ausdruck ein, so ergibt sich B = ± £ B(tv)(t„+1-t„), 1 p=0 woraus mit g„ = (t y + 1 - t„)/T folgt: n
B= 2 B(t„) g l ,. Diese Formel kennzeichnet den Durchschnittsbestand als ein gewichtetes arithmetisches Mittel. 3. Bei praktischen Anwendungen werden häufig sogenannte Kennziffern als deskriptive Maßzahlen von Fortschreibungsmodellen angeführt. a) Die Zugangsziffer Z* charakterisiert die durchschnittliche Zugangsmenge je Zeiteinheit bezogen auf den Durchschnittsbestand in der Beobachtungsperiode. Es ist demnach Z* = Z/B.
(VI-6)
Entsprechend ist die Abgangsziffer A* definiert als (VI.7)
A* = Ä/B.
Die in der Bevölkerungsstatistik ermittelten allgemeinen Geburtenziffern sind gemäß Formel (VI.6) aufgebaut; sie besagen, wieviele Lebendgeborene auf 1000 Personen der durchschnittlichen Wohnbevölkerung eines Landes in einem Kalendeijahr beobachtet wurden. Die allgemeine Sterbeziffer ist ein Spezialfall der Abgangsziffern; sie gibt die Anzahl der Gestorbenen je 1000 Personen der durchschnittlichen Wohnbevölkerung eines Landes in einem Kalenderjahr an. b) Die Verweildauerziffer V* soll die durchschnittliche Verweildauer eines Elementes ausdrücken. Um diese Maßzahl zu konstruieren, müssen bei offenen Zeitmengenflächen besondere Vereinbarungen getroffen werden. b i ) Zunächst wollen wir den Fall einer beidseitig geschlossenen Zeitmengenfläche betrachten. Unter dieser Voraussetzung sind B(0) = 0 und B(T) = 0. Dann kennzeichnet die Zeitmengenfläche oder — anders ausgedrückt — die Zeitmengenzahl M z die Summe der Verweilzeiten aller Elemente, die in der Beobachtungsperiode dem betreffenden Kollektiv angehört haben. Die Anzahl dieser Elemente ist, da ja B(0) = 0 und B(T) = 0 sind, durch Z(T) = A(T) gegeben. Im Fall einer beiderseits geschlossenen Zeitmengenfläche ist demnach die Verweildauerziffer durch y*
=
M
Z
Z (T)
=
_Mz
A (T)
118
Veränderung des Umfangs einer Bestandsmasse im Zeitablauf
bestimmt. Für die weiteren Überlegungen formt man diesen Ausdruck zweckmäßigerweise um. Wegen Z(T) = A(T) güt Z(T) = XZ(T) + (1 -X) A(T) = A(T) für 0 < X < 1; demnach läßt sich für V* auch schreiben: V
*%Z(T)V)A(T)
«x**1-
b 2 ) Bei offenen Zeitmengenflächen ist die Verweildauer gewisser Elemente nur teilweise bekannt. Mit B(0) > 0 gehören nämlich dem Kollektiv Elemente an, deren Zeitpunkt des Zugangs vor Beginn der Beobachtungsperiode liegt und deren Verweildauer gewöhnlich nicht gegeben ist. Entsprechend kennt man bei den Elementen des Endbestandes denjenigen Teil der Verweilzeit nicht, der über die Beobachtungsperiode hinausreicht. Um diese Schwierigkeiten auszuräumen, wird angenommen, daß die Elemente, die dem Anfangsbestand angehören, im Durchschnitt den X-ten Teil der Verweildauer V* bereits hinter sich haben, 0 < X < 1, und daß die zum Endbestand gehörigen Elemente im Durchschnitt eine restliche Verweildauer von (1-X) V* noch vor sich haben. Dann erhält man mit XV* B(0) + Mz +(1-X) V* B(T) einen Schätzwert für die Summe der Verweilzeiten aller Elemente, die in der Beobachtungsperiode einmal dem Bestand angehört haben. Die Anzahl dieser Elemente ist B(0) + Z(T) = A(T) + B(T), weswegen man auch B (0) + Z (T) = X (B (0) + Z (T)) + (1-X) (A (T) + B (T)) = A (T) + B (T) schreiben kann. Demnach ergibt sich *_
XV* B (0) + M z + (1-X) V* B (T) X (B (0) + Z (T)) + (1-X) (A (T) + B ( T ) ) '
Nach einigen Umformungen folgt daraus Mz V* = XZ (T) + (1-X) A (T) also: die Definitionsformel (VI.8). Die Verweildauerziffer kann also auch bei offenen Zeitmengenflächen immer dann gemäß der Beziehung (VI.8) bestimmt werden, wenn bei einem Beobachtungsbefund die Annahmen über die nicht erfaßten Verweilzeiten hinreichend gut erfüllt sind. Um die Verweildauerziffer aus einem Beobachtungsbefund numerisch zu berechnen, müssen gewisse Vereinbarungen hinsichtlich des Parameters X getroffen werden. Weit verbreitet ist es, stets den Wert X = 0.5 zu wählen. Es ist aber auch möglich, in der Weise vorzugehen, daß man X =
B(0?+(B(T)
B (0) + B ( T ) > 0
(VI.9)
setzt; falls B (0) + B (T) = 0 ist, folgt A (T) = Z (T), und es kann X im Bereich 0 < X < 1 beliebig gewählt werden.
Fortschieibungsmodelle
119
b 3 ) Die Verweildauerziffer steht in engem Zusammenhang mit der Zugangsziffer und der Abgangsziffer. Man kann nämlich V * , wie unmittelbar einzusehen ist, auch in der Form v
* =
schreiben.
s—'—T-* X Z + (1-X)A
0 0 überwiegen die Einwanderungen, mit W(g, a) < 0 die Auswanderungen. Bei Berücksichtigung des Wanderungssaldos kann die altersspezifische Sterbeziffer durch ^=V(g,xM)?k!)W(g,a)
mit x < a < x + 1,
(VI.20)
definiert werden, worin k x , 0 < k x < 1, einen Gewichtungsfaktor bezeichnet. Es ist üblich, k x = 0.5 zu setzen — in der Annahme, daß die im Wanderungssaldo zusammengefaßten Personen durchschnittlich ein halbes Jahr unter Beobachtung standen.
125
Abgangsmodelle
b) In der Bevölkerungsstatistik sind die Sterbeziffern q x , auch rohe Sterbewahrscheinlichkeiten genannt, die Grundlage zur Konstruktion von Sterbetafeln, in denen für beide Geschlechter getrennt u. a. die Wahrscheinlichkeit q x angegeben wird, daß eine x-jährige Person vor Vollendung des (x+l)-ten Lebensjahres stirbt. Die rohen Sterbewahrscheinlichkeiten bilden, in ihrer altersmäßigen Aufeinanderfolge graphisch dargestellt, eine mehr oder minder sprunghaft verlaufende Folge von Punkten. Man approximiert sie durch einen glatt verlaufenden Kurvenzug. Diese recht schwierige und methodisch nicht eindeutig lösbare Aufgabe liefert als Ergebnis die ausgeglichenen Sterbewahrscheinlichkeiten q x . Die Abbildung6.8 zeigt für die allgemeine Sterbetafel der Bundesrepublik Deutschland 1960/62 die rohen und die ausgeglichenen Sterbewahrscheinlichkeiten.
"ROHE' UND "AUSGEGLICHENE" STERBEWAHRSCHEINLICHKEITEN OER ALLGEMEINEN STERBETAFEL FÜR DIE BUNDESREPUBLIK DEUTSCHLAND 1960/62 Sterbewählscheinlichkeit •>/ r ~ Sterbewahrscheinliclikeit n „,,„„,„„ 0,60001
r
OrdinatenmaBstat V - l o g q x
.0,6000
0,5000
I Männer
Frauen Rohe S t e r b e w a l i r s c h e i n l i c h k e i t e n - Ausgeglichene Sterbewahrscheinlichkeiten
40
50
Alter
in
60 Jahren
STAT. BUNDESAMT 4391
70
80
90
100
Bundesgebiet einschl. Berlin (West)
Quelle: Statistisches Bundesamt Wiesbaden: Fachserie A „Bevölkerung und Kultur", Reihe 2 „Natürliche Bevölkerungsbewegung", Sonderbeitrag „Allgemeine Sterbetafel fiir die Bundesrepublik Deutschland 1960/62", S. 9. Abbildung 6.8
126
Veränderung des Umfangs einer Bestandsmasse im Zeitablauf Auszug aus der Allgemeinen Sterbetafel für die BRD 1960/62. Männliche Bevölkerung Vollendetes Lebensjahr X
Überlebende h
Einjährige Sterbewahrscheinlichkeit q x
Durchschnittliche Lebenserwartung e°X
1 2 3 4
100 96 96 96 96
000 467 244 108 013
0,03533 0,00231 0,00141 0,00099 0,00086
66,84 68,28 67,44 66,53 65,60
5 6 7 8 9
95 95 95 95 95
930 853 782 720 666
0,00080 0,00074 0,00065 0,00056 0,00049
64,65 63.71 62,75 61,79 60,83
10 11 12 13 14
95 95 95 95 95
619 577 537 405 448
0,00044 0,00042 0,00044 0,00049 0,00059
59,86 58,88 57,91 56,93 55,96
15 16 17 18 19
95 95 95 95 94
392 321 230 116 976
0,00074 0,00095 0,00120 0,00147 0,00170
54,99 54,03 53,08 52,15 51,22
20 22 24 26 28
94 94 94 93 93
815 462 119 798 486
0,00184 0,00185 0,00172 0,00167 0,00167
50,31 48,49 46,67 44,82 42,97
30 35 40 45 50
93 92 91 89 87
173 329 225 668 249
0,00170 0,00209 0,00295 0,00440 0,00738
41,11 36,46 31,87 27,38 23,06
55 60 65 70 75
83 76 66 54 39
244 664 918 411 694
0,01297 0,02210 0,03445 0,05102 0,07932
19,04 15,45 12,31 9,55 7,15
24 012 10 606 2 981 429 34
0,12405 0,19047 0,28402 0,37147 0,42354
5,19 3,71 2,65 2,07 1,85
0
80 85 90 95 100
Quelle: Statistisches Jahrbuch für die Bundesrepublik Deutschland 1965, a.a.O., S. 67f. Tabelle 6.2
Abgangsmodelle
127 Auszug aus der Allgemeinen Sterbetafel für die BRD 1960/62. Weibliche Bevölkerung
Vollendetes Lebensjahr
Überlebende ¡x
X
Einjährige Sterbewahrscheinlichkeit q x
Durchschnittliche Lebenserwartung e° X
0 1 2 3 4
100 97 97 96 96
000 222 027 923 845
0,02778 0,00201 0,00107 0,00080 0,00066
72,34 73,41 72,55 71,63 70,69
5 6 7 8 9
96 96 96 96 96
781 727 682 643 610
0,00056 0,00047 0,00040 0,00034 0,00031
69,73 68,77 67,80 66,83 65,85
10 11 12 13 14
96 96 96 96 96
580 553 526 498 468
0,00028 0,00028 0,00029 0,00031 0,00035
64,87 63,89 62,91 61,93 60,95
15 16 17 18 19
96 96 96 96 96
434 395 351 302 248
0,00040 0,00046 0,00051 0,00056 0,00060
59,97 59,00 58,02 57,05 56,08
20 22 24 26 28
96 96 95 95 95
190 070 948 814 660
0,00062 0,00063 0,00067 0,00078 0,00089
55,11 53,18 51,25 49,32 47,40
30 35 40 45 50
95 94 94 93 91
485 949 185 081 451
0,00099 0,00138 0,00202 0,00297 0,00444
45,48 40,72 36,03 31,43 26,94
55 60 65 70 75
89 85 79 70 56
073 490 841 819 986
0,00673 0,01086 0,01865 0,03298 0,06010
22 59 18,42 14,54 11,05 8,08
80 85 90 95 100
38 19 6 1
302 207 221 110 120
0,10440 0,16916 0,25564 0,33873 0,38031
5,77 4,09 2,93 2,32 2,08
Quelle: Statistisches Jahrbuch fir die Bundesrepublik Deutschland 1965, a.a.O., S. 67 f . Tabelle 6.2
Veränderung des Umfangs einer Bestandsmasse im Zeitablauf
128
c) Eine Sterbetafel beschreibt das Absterben eines fiktiven Bevölkerungsbestandes von 100 000 lebendgeborenen Personen gleichen Geschlechtes. Die Anzahl der Personen, die das x-te Lebensjahr vollenden, wird im allgemeinen mit l x bezeichnet. Unter dx versteht man die Anzahl der Personen, die im Alter a, x < a < x + 1, sterben (x = 0, 1, 2 , . . . , co). Vereinbarungsgemäß ist l 0 = 100000. Weiterhin gelten definitionsgemäß die Beziehungen dx=/x-/x+i=/xqx-
(V!-21)
Daraus folgt unmittelbar, daß Qx = d x // x ist, und daß man auch schreiben kann: 'x+i ='x (i - q x ) Meist setzt man 1 - q x = p x und nennt p x die einjährige Überlebenswahrscheinlichkeit eines x-jährigen Elementes. Die durchschnittliche Lebenserwartung einer Person, die gerade ihr x-tes Lebensjahr vollendet hat, wird gewöhnlich mit bezeichnet; sie ist bestimmt durch lx
l
y = X+1
Die in diesem Ausdruck vorkommende Summe entspricht der nach Formel (VI.13) approximierten Zeitmengenfläche M z (0) (s. Abb. 6.7). Diese Übereinstimmung der Formeln (VI.13) und (VI.22) wird evident, wenn man beachtet, daß die ly (y = x, x + 1 , . . . , co) den Beständen B(t,) von (VI. 13) äquivalent sind, und daß der Endbestand eines Abgangsmodells gleich Null ist. In Tabelle 6.2 ist die allgemeine Sterbetafel für die Bundesrepublik Deutschland 1960/62 auszugsweise dargestellt.
Übungsaufgaben und ergänzende Hinweise V I
Aufgabe 1 Im Fertigungslager eines Betriebes wurden während des Jahres 1958/59 die folgenden Zu- und Abgänge einer bestimmten Güterart verzeichnet:
Übungsaufgaben und ergänzende Hinweise VI
129
Monat
Zugänge Stück
Juü August September Oktober November Dezember Januar Februar März April Mai Juni
36 43 39 27 29 33 33 35 31 30 42 43
Abgänge Stück 35 55 63 57 125 115 16 18 13 19 21 28
Der Bestand am 30. Juni 1958 war 270 Stück. 1. Stellen Sie die Zugangslinie und die Abgangslinie graphisch dar! 2. Wie groß war der Bestand am 31. 3. 1959? 3. War der durchschnittliche Lagerbestand im Monat Mai höher oder niedriger als während der gesamten Periode? 4. Wie groß ist die mittlere Verweildauer der Stücke, die während der Berichtszeit in das Lager eingetreten und auch wieder ausgeschieden sind, wenn angenommen wird, daß die Stücke in der Reihenfolge ihres Eingangs dem Lager entnommen werden? 5. Wie groß ist a) die Verweildauerziffer, b) die Umschlagsziffer (Zeiteinheit: 1 Jahr)? Aufgabe 2 An einer Ladestelle werden auf der Zulaufseite halbstündlich 24 Wagen herangefahren und auf der Ablaufseite in Abständen von 20 Minuten 16 volle Wagen abgefahren. Der erste Zulauf erfolgt 10 Minuten nach Beginn der Zählung (t 0 ), der erste Ablauf 5 Minuten später. Die Beladung geschieht kontinuierlich. Im Zeitpunkt t t = S gj Mj. t0>t mit S gj = 1, gj > 0 für alle j
(VII.l)
heißt eine Indexzahl. Das Subskript t nennt man die Berichtszeit, t 0 die Bezugszeit der betreffenden Indexzahl. 2. Je nach der sachlichen Bedeutung der ökonomischen Variablen Xj unterscheidet man im wesentlichen drei Arten von Indexzahlen — nämlich: Preis-, Mengenund Umsatzindizes. Zunächst wollen wir - ohne auf die Frage der Gewichtung näher einzugehen — diese Indexzahlen definieren. a) Wenn die temporale Folge x j t eine zeitliche Reihe von Preisen des j-ten Gutes (j = 1, 2 , . . . , k) darstellt, wird die Indexzahl (VII.l) als ein Preisindex bezeichnet. Wichtige Beispiele hierfür sind der Preisindex der Lebenshaltung, der Index der Einzelhandelspreise und der der Großhandelspreise sowie der Index der durchschnittlichen Bruttowochenverdienste der Industriearbeiter. Allgemein verwendet man für die beobachteten Preisreihen das Symbol „p". Man schreibt also für einen Preisindex mit der Berichtszeit t und der Bezugszeit t 0 : P
to,t= A ^ g j J-l rj.to
(VII.2)
b) Falls die Zeitreihe Xj.t eine temporale Folge von Mengen — etwa: Verbrauchsmengen des j-ten Gutes (j = 1, 2 , . . . , k) charakterisiert, so setzt man Xj.t = qj - t und nennt die Indexzahl (VII.l) einen Mengenindex. Damit geht die Beziehung (VII.l) über in S ^ g j • (VII.3) Jf 1 % t 0 Beispiele dafür sind der Index der industriellen Nettoproduktion, die Indizes des Volumens der Einfuhr und des Volumens der Ausfuhr. Qto.t=
c) Der wertmäßige Umsatz des j-ten Gutes in der Berichtszeit t sei mit Xj t = pj t qj t und in der Bezugszeit t 0 durch Xj.t = pj t() qj t o gegeben (j = 1, 2 , . .., k). Dann definiert der Ausdruck U
t0.t=
gj (VII.4) J=1 Pj.to Qj.to einen Umsatzindex oder — wie man auch sagt — einen Wertindex. Beispielsweise spricht man in der Außenhandelsstatistik in diesem Zusammenhang von Indizes der tatsächlichen Werte der Einfuhrgüter (der Ausfuhrgüter).
138
Relative Veränderung von Merkmalswerten im Zeitablauf
3. Die Gewichtungsfaktoren, die in den Indexformeln auftreten, sollen gewissermaßen die „ökonomische Bedeutung" der einzelnen Güterarten hinsichtlich einer bestimmten Problemstellung charakterisieren. Weit verbreitet ist ein nach Laspeyres benanntes Verfahren, das im allgemeinen jedem Gut seinen anteiligen Umsatzwert in der Bezugszeit — also: k gj =Pj.t 0 % t 0 / n=l SPh.to ^ . t o j = 1, 2 , . . . , k (VII.5) als Gewicht zumißt. Setzt man die so definierten Gewichtungsfaktoren in die Beziehungen (VII.2) und (VII.3) ein, so spricht man von Laspeyres'schen Preisund Mengenindizes. Für einen Preisindex nach Laspeyres mit der Bezugszeit t 0 und der Berichtszeit t wollen wir L P t() t schreiben. Aus der Formel (VII.2) ergibt sich in Verbindung mit (VII.5) ohne weiteres k Pi t ? - 7 - • pj.to qj.to
iPto, t = ^
k
? Pj.t qj.to = ^
2
n=l
ph.to ^h.to
n=l
•
(VII.6)
Ph.to I h . t o
Entsprechend erhält man durch Einsetzen von (VII.5) in (VII.3) für einen Laspeyres'schen Mengenindex die Beziehung
L Qt 0 ,t
«?i t v
' Pj 'o
qj t
"
Ph.to ^h.to
J
£ PJ-to =^
•
(VII. 7)
J j Ph.to I h . t o
Der Umsatzindex (VII.4) schließlich, geht über in
Uto> t
jlDPjtajt = ^LloAlo s
n=l
-Pj.toqj.to
Ph.to ^h.to
=
£ n—l
Pj.tqj.t
(VII.8)
Ph.to °lh.to
Bei praktischen Anwendungen von Laspeyres'schen Preis- und Mengenindizes sind zunächst die Gewichtungsfaktoren (im Regelfall durch eine besondere Erhebung) festzulegen. Die Gewichtungsschemata werden normalerweise über einen längeren Zeitraum hinweg beibehalten. Die Erhebungen der Preismeßziffern Pj.t/Pj.to e i n e s Preisindex und der Mengenmeßziffern qj. t /qj.t 0 eines Mengenindex werden demgegenüber in kürzeren, meist gleichen Zeitabständen wiederholt. — Bei Wertindizes (Umsatzindizes) braucht im allgemeinen ein Gewichtungsschema nicht gesondert ermittelt zu werden, weil sich diese Indexzahlen auch als Meßziffern der Umsatzwerte Sj pj. t qj. t interpretieren lassen.
Indexziffern
139
4. Das methodische Vorgehen zur Ermittlung eines Laspeyres'sehen Preisindex wollen wir am Spezialfall eines Preisindex für die Lebenshaltung andeuten. Diese Indexzahl bezieht sich auf einen „Warenkorb"; er soll die in einem Land herrschenden Verbrauchsgewohnheiten von gewissen Bevölkerungsgruppen repräsentieren — beispielsweise von Vier-Personen-Haushalten, die ungefähr einen gleichhohen Betrag für die Lebenshaltung ausgeben, und die außerdem einer sozialen Schicht angehören und eine ähnliche Altersstruktur haben. Der Inhalt des Warenkorbes wird durch Erhebungen über den Verbrauch bei zweckdienlich ausgewählten Haushaltungen ermittelt. Aus diesen Unterlagen lassen sich in der Bezugszeit die durchschnittlichen Verbrauchsausgaben für einzelne Wareh — d. h. die pj - t o q j t o — sowie die Verbrauchsausgaben für den gesamten Warenkorb — also: 2 h p h tQ qj, ^ berechnen. Aus diesen Zahlenwerten ermittelt man die Zahlenwerte des Gewichtungsschemas (VII.5). Die Tabelle 7.5 zeigt als Beispiel ein derartiges nach Ausgabengruppen gegliedertes Wägungsschema. Nach Bedaifsgruppen zusammengefaßtes Wägungsschema für die mittlere Verbrauchergruppe des Preisindex der Lebenshaltung (Bezugszeit 1962)
Bedarfsgruppe
Ausgabenanteil
Ernährung Getränke, Tabakwaren Wohnung Heizung und Beleuchtung Hausrat Bekleidung Reinigung und Körperpflege Bildung, Unterhaltung, Erholung Verkehr
0.3500 0.0818 0.0993 0.0466 0.0952 0.1248 0.0495 0.0852 0.0676
Insgesamt
1.0000
Quelle: Wirtschaft und Statistik 1964, S. 438 Tabelle 7.5
Temporale Unterschiede in den Verbrauchsgewohnheiten bleiben bei der Aufstellung des Wägungsschemas eines Preisindex für die Lebenshaltung außer Betracht. Insbesondere werden jahreszeitliche Einflüsse auf den Verbrauch, wie z. B. der höhere Verbrauch von Obst und Gemüse in den Sommermonaten, von Strom und Gas in den Wintermonaten — nicht berücksichtigt. Der Warenkorb
140
Relative Veränderung von Merkmalswerten im Zeitablauf
bezieht sich vielmehr auf einen monatlichen Verbrauch im Jahresdurchschnitt. Auch regional bedingte Unterschiede in den Verbrauchsgewohnheiten — etwa zwischen Norddeutschland und Süddeutschland — weist der Warenkorb nicht aus. Das Wägungsschema eines Preisindex der Lebenshaltung, der in der Laspeyres'schen Form aufgebaut ist, bleibt gewöhnlich während eines Zeitraumes von einigen Jahren konstant. Die Preismeßziffern Pj.t/Pj.t 0 ^ Güter und Dienstleistungen des Warenkorbes werden in kürzeren Zeitabständen (z. B. monatlich) erhoben. Bei der Erhebung der Preise versucht man, regionale Preisunterschiede dadurch auszugleichen, daß man aus einer Anzahl von lokalen Preisangaben einen Durchschnittspreis für die relevanten Güter und Dienstleistungen berechnet. Der Warenkorb eines Preisindex für die Lebenshaltung läßt sich — wie beispielsweise Tabelle 7.5 zeigt — in Bedarfsgruppen untergliedern. Um zu ermitteln, wie sich — verglichen mit der Bezugszeit — die Preissituation in jeder dieser Bedarfsgruppen in der Berichtszeit geändert hat, berechnet man Preisindizes auch für die
Preisindex für die Lebenshaltung der mittleren Verbrauchergruppe gegliedert nach Bedarfsgruppen (Berichtszeit: Januar 1966; Bezugszeit 1962)
Bedarfsgruppe (1) Ernährung Getränke, Tabakwaren Wohnung Heizung, Beleuchtung Hausrat Bekleidung Reinigung, Körperpflege Bildung, Unterhaltung, Erholung Verkehr
Ausgabenanteil
(ßh)
Preisindex der Bedarfsgruppen P h;t0,t
Ih p h; t 0 , t
(2)
(3)
0.3500 0.0818 0.0993 0.0466 0.0952 0.1248 0.0495
1.131 1.048 1.256 1.077 1.038 1.093 1.102
(4) 0.396 0.086 0.124 0.050 0.099 0.136 0.054
0.0852 0.0676
1.149 1.069
0.098 0.072
Preisindex für die Lebenshaltung (alle Bedarfsgruppen)
1.115
Quellen: Wirtschaft und Statistik 1964, S. 438 Statistisches Jahrbuch fir die Bundesrepublik Deutschland 1966 a.a.O. S. 495 Tabelle 7.6
einzelnen Bedarfsgruppen. In Spalte 3 von Tabelle 7.6 sind derartige Bedarfsgruppenindizes angegeben.
141
Indexziffern
Aus den Preisindizes der einzelnen Bedarfsgruppen läßt sich der zugehörige Preisindex der (gesamten) Lebenshaltung nach den gleichen Prinzipien ermitteln, wie sie im Zusammenhang mit der Berechnung des arithmetischen Mittels eines Kollektivs aus den arithmetischen Mitteln einer Anzahl von Teilgesamtheiten dargestellt wurden 1 . Bezeichnet man nämlich die Bedarfsgruppenindizes mit L P h . t()> t und den Ausgabenanteil der h-ten Bedarfsgruppe in der Bezugsperiode mit g h , dann gilt die Beziehung / LPt0,t = 2
n=l
^ ^ L P h ; t 0 , t 8h.
sofern die Bedarfsgruppen disjunkt sind. Die Tabelle 7.6 enthält ein durchgerechnetes Zahlenbeispiel. 5. Die durchschnittliche relative Änderung der industriellen Produktionsmengen von der Bezugszeit t 0 zur Berichtszeit t wird in der Bundesrepublik Deutschland durch den Index der industriellen Nettoproduktion charakterisiert. Ihrem formalen Aufbau nach gehört diese Indexzahl zu den Laspeyres'schen Mengenindizes. Bei der Ermittlung eines Produktionsindex kann man methodisch in der Weise verfahren, daß man von einer Anzahl verschiedener Güterarten ausgeht, die für die Produktion der einzelnen Industriezweige als „repräsentativ" angesehen werden. Für jedes dieser Erzeugnisse bestimmt man die relative Veränderung der Produktionsmenge der Berichtszeit gegenüber der entsprechenden Ausstoßmenge der Bezugszeit. Diese Mengenmeßziffern qj t /qj t o gewichtet man mit demjenigen Anteil gj an der Nettoproduktion, den der betreffende Industriezweig zum Nettoproduktionswert der gesamten Industrie beigetragen hat. Würde man das Gewichtungsschema auf den Bruttoproduktionswerten aufbauen — d. h. also im wesentlichen auf der Summe aus den Umsätzen an Waren und Dienstleistungen, aus den Bestandsänderungen bei Fertig- und Halbfertigerzeugnissen sowie aus dem Wert von selbsterstellten Anlagen, so würde einem Industriezweig, der im wesentlichen nur die Leistungen anderer, vorgeschalteter Industriezweige umsetzt, ein zu großes Gewicht zugemessen. Das ist am Beispiel der Bekleidungsindustrie leicht einzusehen, denn der Preis (gleich Bruttoproduktionswert) etwa für einen Anzug enthält außer der Wertschöpfung der Bekleidungsindustrie auch die Wertschöpfung der Webereien, Spinnereien usw. Um den Beitrag eines Industriezweiges zum volkswirtschaftlichen Produktionsprozeß zu charakterisieren, vermindert man deshalb deren Bruttoproduktionswert um die Vorleistungen der anderen Industriezweige. Die auf diese Weise festgelegten Nettoproduktionswerte liegen dem Gewichtungsschema des Index der industriellen Nettoproduktion zugrunde. 1
Siehe S. 68
Relative Veränderung von Merkmalswerten im Zeitablauf
142
Gewichtungsschema und Werte des Index der industriellen Nettoproduktion der Bundesrepublik Deutschland (ohne West-Berlin) Anteiliger Nettoproduktionswert (Basisjahr 1958)
Industriezweig
Wert des Index d. Nettoproduktion Januar 1966
(2)
(3)
Bergbau
0.0786
1.056
Grundstoff- und Produktionsgüterindustrien Investitionsgüterindustrien Verbrauchsgüterindustrien Nahrungs- und Genußmittelindustrien
0.2542 0.2963 0.1664 0.1246
1.694 1.547 1.546 1.202
Verarbeitende Industrien
0.8415
1.540
Elektrizitätserzeugung Gaserzeugung
0.0385 0.0055
2.092 2.035
Energieversorgungsbetriebe
0.0440
2.085
Bauhauptgewerbe
0.0359
0.898
Industrie (insgesamt)
1.0000
1.503
(1)
Quelle: Statistisches Jahrbuch ßr die Bundesrepublik Deutschland 1966 a.a.O. S. 240 f . Tabelle 7.7
Die Tabelle 7.7 zeigt neben dem nach Industriezweigen zusammengefaßten Gewichtungsschema die Werte des Index der industriellen Nettoproduktion. Den Indexwert z. B. für die verarbeitende Industrie berechnet man als gewichtetes arithmetisches Mittel aus den Indexzahlen der zu dieser Gruppe gehörenden Industriezweige. 6. Die Laspeyres'sehen Indexformeln sind — wie wir gesehen haben — ein gewichtetes arithmetisches Mittel. Ein anderes Konzept basiert auf einem gewichteten harmonischen Mittel von Meßziffern: H (M t 0 ( t ) =
1
mit Z g* = l, g* > 0 für alle j.
(VII.9)
¿(gjKto.t) Definiert man in diesem Ausdruck die Gewichtungsfaktoren g* als anteilige Umsatzwerte in der Berichtszeit, so spricht man von einer Indexzahl nach Paasche. In diesem Fall ist gj* = Pj.t qj.t / 2 p h . t q h . t h=l
j = 1,2
k.
(VII.10)
143
Indexziffern
Im Unterschied zu den Indexformeln nach Laspeyres, deren Gewichtungsschema stets in der Bezugszeit erhoben wird, gehört das Gewichtungsschema der Paascheschen Indexformeln immer der Berichtszeit an. a) Den Preisindex nach Paasche mit der Bezugszeit t 0 und der Berichtszeit t erhält man mit Mj t o t = Pj. t /Pj.t 0 a u s (YH- 9 ) und (VII.10) nach einigen elementaren Umformungen: k k £ Ph.t qn.t 2 Ph.t qh.t p p to, t = h f j r t = f • (viLii) j-1 € f
P j t q j t
Pj t0 qj t
Ä
In derselben Weise ergibt sich mit Mj. to> t = qj.t/qj.t 0 für einen Mengenindex nach Paasche der Ausdruck
pQt0> 4 =
^
k 2 Ph.t qh.t
ÍTPi-*^-* Ji?i - l "4j.t
=
^
k 2
Ph.t qh.t
•
( V I U 2 )
¡?, J-1 PJ-t%to
Setzt man schließlich Mj. t o > t = Pj. t qj. t /Pj.t 0 ^ - t o ' s 0 S e h t d i e Beziehung (VII.9) bei Verwendung der Gewichtungsfaktoren (VII.10) über in den Umsatzindex (Wertindex) k iT u
t0,t
= ir!
Pj.t qj.t
k
J=1
Pj.to qi.to
Dieser Ausdruck stimmt mit der Formel (VII .8) für den Umsatzindex überein, die bei den Laspeyres'schen Indexzahlen hergeleitet wurde. b) Bei den Preis- und Mengenindizes, die auf dem nach Paasche benannten Ansatz beruhen, stammt das Gewichtungsschema — wie wir festgestellt haben — aus der Berichtszeit. Demnach hat man bei der Anwendung dieses formalen Konzeptes außer den Preismeßziffern (den Mengenmeßziffern) in der Berichtszeit stets auch das Gewichtungsschema zu ermitteln. Das bringt — verglichen mit Laspeyres'schen Indexzahlen — nicht nur zusätzliche Erhebungs- und Aufbereitungsarbeit mit sich, sondern es wird darüber hinaus wegen der Änderung der Gewichtungsfaktoren beispielsweise unmöglich, die durchschnittliche Preisentwicklung in verschiedenen Berichtszeiten t j und t 2 unter Verwendung eines Paasche-Index zu vergleichen. Stellt man nämlich fest, daß p P t 0 ) t l < pP t 0 ) t 2 ist, so braucht das nicht zu bedeuten, daß die betrachteten Güter zur Zeit t 2 im Durchschnitt teurer als zur Zeit t i waren; der Unterschied
144
Relative Veränderung von Merkmalswerten im Zeitablauf
in den Indexzahlen kann auch durch Veränderungen des Gewichtungsschemas verursacht sein. Das einfache Zahlenbeispiel von Tabelle 7.8 veranschaulicht das.
Konstruiertes Zahlenbeispiel zur Darstellung des Einflusses des Gewichtungsschemas auf den Wert des Paasche-Index
Güterart j
Berichtszeit t j Pj.tl/Pj.to
2 Pj.t! Qj.ti / 2 P h - t l q h . t ,
1.2 1.1
0.6 0.4
1 2 Güterart
Berichtszeit t 2
j
Pj-t2 / Pj.t 0
1 2
1.2 1.1
pP t o >
tl
2 Pj.t 2 qj.t 2 / 2 Ph.t 2 1h.t 2 0.4 0.6
= 1 {0.6/1.2 + 0.4/1.1} = 1.27
p
P t 0 > t 2 = 1 {0-4/1.2 + 0.6/1.1} = 1.18
Tabelle 7.8
7. Die nach Paasche benannten Indizes sind in der praktischen Statistik weniger gebräuchlich, vorherrschend ist vielmehr die Anwendung von Laspeyres'sehen Indexzahlen. Gewisse formale Zusammenhänge, die zwischen diesen beiden Arten von Indexzahlen bestehen, offenbaren jedoch ihre enge Verwandtschaft. Einige dieser Beziehungen wollen wir betrachten. Zur Veranschaulichung der Zusammenhänge kann das Zahlenbeispiel von Tabelle 7.9 benutzt werden. a) Normalerweise stimmen die Werte von Laspeyres'schen Indizes nicht mit denen der entsprechenden Paasche'schen Indizes überein. Im allgemeinen gilt: Lpt1>t2 * p P t l , t a
LQtLtj+pQtLt,-
(VII. 13)
b) Die Laspeyres'schen und die Paasche'schen Indexzahlen genügen stets den Beziehungen: LP t l ,t 2
pPt 2 > t l = i
LQtLtj p Q t 2 ) t l = i-
(Vii. 14)
145
Indexziffern Konstruiertes Zahlenbeispiel zur Berechnung von Indexzahlen
j 1 2 3 4 5
Pj.t,
Pj-t2
1.2 4.8 0.6 2.3 3.1
1.3 5.2 0.4 2.3 2.9
22
15 40 8 17
1j.t2 20 15 36 9 19
Summe
Pj.tilj.ti
Pj.t21j.t2
Pj.ti1j.t2
Pj t 2 Ij-ti
26.4 72.0 24.0 18.4 52.7
26.0 78.0 14.4 20.7 55.1
24.0 72.0 21.6 20.7 58.9
28.6 78.0 16.0 18.4 49.3
193.5
194.2
197.2
190.3
= 98.3
L P t 2 ,ti
?Pj J _ 1 ti 1j-t2-¿=101.5 ? P j t 2 1j-t2 J
i 98.5
PPt2,t!
?Pj J _ 1 ti qj.ti = 101.7 ? P j t 2 ij.ti J
? Pj ti «lj.t2 =101.9 LQtj.tj - J fPj.tilj.ti
LQt 2 ,ti
l—L
f1 Pj-t2 qj.t!
L P tl,t 2 P P tl,t 2
fPj-tllj.t! :
p Q ti,t 2 =
u
tl,t2 =
? Pj.tj %t2
1
fPj.tiqj.t 2
? Pj t2
1
f Pj-t2 1?
%t2
-=102.0
Pj-tj %t2
fPj.tj1j.ti
?Pi t 2 q j-ti
- i 98.0
?} P j t 2 1j.t2
? P j ti Ij-ti -= 98.1 P Q t2.ti - j 1 ? P j t j 1j.t2 J
= 100.4
U.t 2 , t i
? P j ti ij.ti J_1 -,= 99.6 ? P j t2 q j t 2
Tabelle 7.9
Die Gültigkeit dieser Relation folgt unmittelbar aus den Definitionen; beispielsweise erhält man LQtl>t2
?Pj.t,qj.t2 ? Pj.ti Ij.ti p Q t ^ t , = ¿ p . t i q . t i • s P j . t i q j . t 2 = 1-
Die sachliche Bedeutung der Beziehung (VII. 14) soll für den Spezialfall eines Laspeyres'schen Preisindex erläutert werden. Angenommen, es ist L P t l > t 2 = 2 — d. h. die Preise der betrachteten Güter sind von der Bezugszeit t ! zur Berichtszeit t 2 im Durchschnitt auf das Zweifache gestiegen. Vertauscht man nun die Bezugszeit und die Berichtszeit miteinander, wählt man also die Bezugszeit t 2 und die Berichtszeit t j , dann wäre es wünschenswert, wenn der Laspeyres'sche Preisindex L P t 2 t l unter diesen Voraussetzungen den Wert 0.5
146
Relative Veränderung von Merkmalswerten im Zeitablauf
hätte. Dieses Ergebnis stellt sich jedoch nicht generell ein, denn aus (VII. 13) und (VII. 14) folgt, daß im allgemeinen ist.
=
l/lPti,t2
p P t 2 , t l +1,^2,11
c) Ein Umsatzindex kann stets als Produkt aus einem Preisindex und einem Mengenjndex dargestellt werden. Es gelten nämlich die Identitäten L ^ t j , t 2 ' p Q t i , t 2 - U t l i t 2 = pPti,t 2
LQt 1 ) t 2 -
Durch einfache Umformungen läßt sich die Gültigkeit dieser Beziehungen nachweisen. Es ist nämlich ? Pj.t 2 %t2
_
"^'¿PM j .qj.tt
=
=
? Pj.t 2 %t2 n
? Pi-ti % t 2 yTT iT_
j
J
f' pj.ti qj.t2 fPj.ti qj.ti
= pPt
l ' t 2 'LQti,t2-
Ganz entsprechend zeigt man, daß L P t l > t 2 • P Q t l ) t 2 = u t i , t 2 güt.
Übungsaufgaben und ergänzende Hinweise VII
Aufgabe 1 Eine temporale Folge y t ( ) , y t l , . . . , y t Zeitintervallen t y - V i =A(t„)
sei in nicht notwendig äquidistanten
v = 1 , 2 , . .
.,n
über eine Beobachtungsperiode der Dauer T = t n - t 0 definiert. Es gelte: yt„
=
yt„.1(l+n„)tl'-t''-1
*>=l,2,...,n.
Man zeige, daß in dem Ausdruck für das gewichtete geometrische Mittel G= n
(1 + n v f » = (1 + T?*)
V= 1
die gv = A (t p )/T zu setzen sind, damit gilt.
y t n = yo ( i + r?*)T
Übungsaufgaben und ergänzende Hinweise VII
147
Aufgabe 2 Die folgende Tabelle enthält das Wägungsschema für die Berechnung des Index der Einzelhandelspreise und die Preismeßzahlen für die Jahre 1954 und 1960. Dem Wägungsschema hegen die Umsätze des Jahres 1950 zugrunde. 1. Berechnen Sie die Preismeßzahlen x und y (das Ergebnis ist auf ganze Zahlen abzurunden). 2. Wie groß ist der Index der Einzelhandelspreise für das Jahr 1960 bezogen auf 1950? 3. Ermitteln Sie den Index der Einzelhandelspreise für das Jahr 1950 bezogen auf 1954. 4. Welchen Aussagewert haben die zu 2 und 3 berechneten Indizes? Um welche Indizes handelt es sich?
Branchen
Wägungsschema
Lebensmittel
404
Textilwaren und Schuhwerk
305
Wägungsschema bezogen auf die Hauptbranche Textilwaren und Schuhwerk
Preismeßzahlen (1950 = 100) 1954
1960
106
115
1000
X
100
Textilwaren aller Art
505
90
96
Spezialgeschäfte für Textilien
341
93
y
Schuhwaren
154
103
117
Hausrat und Wohnbedarf
103
110
124
Sonstige Branchen
188
113
124
Insgesamt
1000
-
-
Aufgabe 3 Das Gewichtungsschema gj eines Laspeyres Preisindex L P t ( ) j t stimme mit dem Gewichtungsschema g* eines Paasche'schen Preisindex P P t ( ) i t l überein; es sei also gj = gj für alle j = 1, 2 , . . . , k. Berechnet man aus den Preismeßzahlen Pj. t l /Pj.t 0 (j = 1> 2 , . . . , k) die Indizes L P t 0 i t l und P P t ( ) ; t l , so gilt stets PPt0,ti
tl) •
- lAo.t,)
ist.
TJ-to
Bortkiewicz hat diese Beziehung benutzt, um notwendige Bedingungen dafür anzugeben, daß pPto.t! > iPto.n; P p t 0 ,t! = L p t 0 , ty P p t 0 ,ti < L P to,t| istAufgabe 5 Die Fisher'sche Indexformel ist definiert als das geometrische Mittel aus einem Index nach Laspeyres und einem nach Paasche — also: F p t 0 , ti
=
+VL P t 0 , ti ' P p t 0 , ti»
FQt 0 ,ti = +VLQto,ti Man zeige, daß und
F p t 0 , tx u
ist.
=
pQto.ti-
1/F p ti, t 0
t 0 , ti = F p t 0 , t i • FQt 0 , tx
Aufgabe 6 Die Lowe'sche Preisindesformel geht von einem zeitunabhängigen Mengenschema q^ aus (V = 1 , . . , , n ) , d . h . n
Pi>.t! q^ p _ v=l LoMo, ti " — • 2 Pv.to Iv 1>=1 Man zeige, daß Lo P t 0 , ti ist. Aufgabe 7
=
1/LoPt i, t 0
Falls für eine Indexformel gilt Iti,t3 = I t , . t 2 • I t 2 , t 3 . nennt man I t l > t 3 einen verkettbaren Index. 1. Man zeige, daß im allgemeinen weder ein Laspeyres- noch ein Paasche-Index (Mengen- oder Preisindex) verkettbar ist. 2. Stellt die Indexformel nach Fisher (s. Aufgabe 5) einen verkettbaren Index dar? 3. Ist der Lowe'sche Preisindex (s. Aufgabe 6) verkettbar?
8. Bewegungskomponenten von Zeitreihen
Die statistische Analyse von Zeitreihen wirtschaftlicher Größen — wie z. B. Absatzmengen, Preise, Einkommen, Konsum- und Investitionsausgaben — zielt darauf ab, Regelmäßigkeiten in der temporalen Entwicklung chronologisch geordneter Beobachtungswerte nachzuweisen und durch geeignete Modelle zu charakterisieren. Normalerweise werden in der empirischen Wirtschaftsforschung die Merkmalswerte diskontinuierlich im Zeitablauf gemessen, also an diskreten, meist sogar an äquidistanten, Zeitpunkten t t , t 2 , . . ., t n . Die statistische Untersuchung von wirtschaftlichen Zeitreihen stellt gewöhnlich die temporale Entwicklung einzelner ökonomischer Variabler dar. Diese, wie wir sie nennen, univariable Analyse erfaßt jedoch nur einen Aspekt des Zeitverhaltens ökonomischer Größen; insbesondere wird die temporale Interdependenz zwischen mehreren ökonomischen Variablen ausgeklammert. Die multivariable Zeitreihenanalyse charakterisiert demgegenüber die Regelmäßigkeiten im Zeitverhalten einer ökonomischen Größe nicht nur aus dem Beobachtungsbefund dieser Variablen selbst, sondern sie bezieht bei der statistischen Analyse der zeitlichen Entwicklung auch die Wechselwirkungen zu weiteren Einflußgrößen mit ein. Die folgenden Erörterungen beschränken sich auf die univariable Analyse äquidistanter Zeitreihen. In der empirischen Wirtschaftsforschung wiederholt festgestellte Formen des zeitlichen Verlaufs von ökonomischen Größen bilden den Ansatzpunkt, verschiedene Arten von temporalen Bewegungskomponenten zu unterscheiden. Dabei geht man gewöhnlich von der Vorstellung aus, daß eine Zeitreihe gewisse systematische Bewegungskomponenten enthält, die sich als glatt verlaufende Funktionen der Zeit darstellen. Die unregelmäßigen Abweichungen der beobachteten Zeitreihenwerte von den systematischen Bewegungskomponenten werden als Restschwankungen gedeutet. Sie verwischen als Auswirkungen von „zufälligen" Einflüssen zwar mehr oder weniger stark die glatte Komponente, sind aber im übrigen, so meint man, strukturneutral. Diese Auffassung braucht nicht notwendig zuzutreffen. Es kann also durchaus eintreten, daß die zufälligen Schwankungen nicht einen strukturneutralen „Rest" darstellen, sondern die Struktur eines temporalen Prozesses wesentlich mit bestimmen.
8.1 Systematische Bewegungskomponenten Bei der begrifflichen Einteilung der systematischen Bewegungskomponenten einer Zeitreihe unterscheidet man gewöhnlich zwischen der allgemeinen Grundrichtung, auch Trend genannt, und den zyklischen Komponenten/Zunächst sollen einige Beispiele von Zeitreihen gezeigt werden, aus denen typische Erscheinungsformen von systematischen Bewegungskomponenten ersichtlich sind.
150
Bewegungskomponenten von Zeitreihen Nettosozialprodukt
zu
Faktortosten
der
BRD
-Jahr
1950
Abbildung 8.1 Anteil des
195-
^955
umlaufenden
«6
Borgeldes
1957
am
1958
Geldvolumen
1959
der
BRD
1960
Abbildung 8.2
1. Wenn die Merkmalswerte einer Zeitreihe während der gesamten Beobachtungsperiode im großen und ganzen zunehmen (abnehmen), so spricht man von einem steigendem (fallenden) Trend. Die Abbildung 8.1 veranschaulicht am Beispiel des Nettosozialproduktes der Bundesrepublik Deutschland einen zunehmenden Trend. Es liegt nahe, den Fall einer konstanten allgemeinen Grundrichtung, wie er in Abbildung 8.2 am Beispiel des Bargeldanteils am Geldvolumen der Bundesrepublik Deutschland gezeigt wird, als Spezialfall eines Trends anzusehen.
Systematische Bewegungskomponenten
151
2. Ökonomische Zeitreihen enthalten mitunter zyklische Schwankungen, die sich mit ziemlicher Regelmäßigkeit in festen Zeitabständen wiederholen (s. Abb. 8.3). S o betrachtet man in der empirischen Wirtschaftsforschung häufig Zyklen mit Perioden von einem Jahr. Man nennt sie jahreszeitliche Schwankungen oder Saisonschwankungen. Es lassen sich bei wirtschaftlichen Größen aber auch Zyklen empirisch nachweisen, deren Perioden kürzer oder länger als 12 Monate sind. Besondere Bedeutung haben in der Wirtschaftswissenschaft zyklische Schwankungen, deren Perioden länger als ein Jahr sind. Man bezeichnet diese als Konjunkturschwankungen. Bargeldumlauf, Bestand an Sichtguthaben von inländischen Nicht-Banken bei Kreditinstituten in der Bundesrepublik Deutschland 1954 bis 1960 Jahr
Quartal
1954
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1955
1956
1957
1958
1959
1960
umlaufende Bargeldmenge in Mio. DM
Bestand am Sichtguthaben von NichtBanken bei Kreditinst, in Mio. DM
Geldvolumen in Mio. DM
Anteil des umlaufenden Bargeldes an Geldvolumen V(t)
11.776 11.913 12.340 12.751 12.839 13.159 13.755 14.041 14.515 14.575 14.802 14.876 15.067 15.825 16.300 16.461 16.950 17.239 17.584 17.940 18.027 18.433 18.987 19.369 19.465 19.971 20.946 20.772
17.897 18.738 19.518 21.404 20.744 19.874 20.950 23.928 23.305 24.260 24.752 26.209 24.313 24.731 25.069 25.936 24.190 25.694 26.269 28.909 26.260 27.189 27.940 29.486 29.488 31.125 31.516 33.684
29.673 30.651 31.858 34.155 33.583 33.033 34.705 37.969 37.820 38.835 39.554 41.085 39.380 40.556 41.369 42.397 41.140 42.933 43.853 46.849 44.287 45.622 46.927 48.855 48.953 51.096 52.462 54.456
0.40 0.39 0.39 0.37 0.38 0.40 0.40 0.37 0.38 0.38 0.37 0.36 0.38 0.39 0.39 0.39 0.41 0.40 0.40 0.38 0.41 0.40 0.40 0.40 0.40 0.39 0.40 0.38
Quelle: Monatsberichte der Deutschen Bundesbank, 12. Jahrgang (1960), Heft 2, S. 24 fir die Werte der Jahre 1954-1958; 13. Jahrgang (1961), Heft 2, S. 20 fir die Werte des Jahres 1959; 16. Jahrgang (1964), Heft 5, S. 64 fir die Werte des Jahres 1960. Tabelle 8.1
152
Bewegungskomponenten von Zeitreihen Durchschnittlicher
Milchertrag
j«
Kuh
und
Tag
in
der
BRD
Kg
i
1962
1963
1964
1965
Abbildung 8.3
Während die saisonalen Zyklen eine feste Periodenlänge aufweisen, stellt man bei Konjunkturschwankungen häufig Zyklen mit Perioden von variabler Länge fest. Ein Beispiel dafür gibt die Abbildung 8.4. Der Verlauf dieser Zeitreihe zeigt anschaulich, daß man bei Konjunkturschwankungen nicht ohne weiteres von der Hypothese gleichlanger Perioden und gleichbleibender Amplituden ausgehen kann.
Auch bei saisonalen Schwankungen beobachtet man im Bereich der Wirtschaft gewöhnlich Zyklen mit veränderlichen Amplituden. Man spricht dann auch von einer variablen Saisonfigur. Mitunter kann man auch eine gewisse Regelmäßigkeit in der zeitlichen Veränderung der Saisonfigur nachweisen.
Verknüpfung der Bewegungskomponenten von Zeitreihen
153
3. Ein in der Vergangenheit beobachteter regelmäßiger Verlauf einer ökonomischen Zeitreihe rechtfertigt im allgemeinen nicht den Schluß, daß diese Regelmäßigkeiten auch in Zukunft nachweisbar sind. Das Erscheinungsbild einer temporalen Funktion wird im sozio-ökonomischen Bereich durch eine Fülle institutioneller Sachverhalte geprägt, die sich im Zeitablauf ändern können. Solche Änderungen ereignen sich mitunter abrupt und ziehen tiefgreifende strukturelle Umbrüche in einer Volkswirtschaft, sogenannte Strukturbrüche, nach sich. Obwohl es Möglichkeiten gibt, die Bewegungskomponenten von Zeitreihen auch dann zu untersuchen, wenn sie Strukturbrüche enthalten, sollen diese bei den weiteren Erörterungen außer Betracht bleiben.
8.2 Verknüpfung der Bewegungskomponenten von Zeitreihen Gewöhnlich treten in ökonomischen Zeitreihen die systematischen Bewegungskomponenten nicht isoliert, sondern vielmehr miteinander vermischt auf. Eine schematische Übersicht über diesen Sachverhalt soll die Abbildung 8.5 vermitteln. x«)
Bewegungskomponenten
von
Zeitreihen
Abbildung 8.5
1. Bei der Analyse von wirtschaftlichen Zeitreihen stellt sich häufig die Aufgabe, diese temporalen Folgen in ihre systematischen Bewegungskomponenten zu zerlegen. Dieses Problem läßt sich nur so lösen, daß man von gewissen Annahmen über die Struktur der betreffenden Zeitreihe ausgeht. Gewöhnlich setzt man dabei voraus, daß sich die verschiedenen Bewegungskomponenten einer Zeitreihe
Bewegungskomponenten von Zeitreihen
154
X(t) additiv überlagern. Bezeichnet man die allgemeine Grundrichtung mit m(t), die zyklische Komponente mit z(t) und die Restschwankungen mit u(t), so läßt sich das additive Modell durch die Beziehung x (t) = m (t) + z (t) + u (t) charakterisieren. Seltener verwendet man in der empirischen Wirtschaftsforschung Modelle mit multiplikativ verknüpften Bewegungskomponenten — also x(t) = m(t)z(t)u(t). Sofern x(t) > 0 ist, führt man meist diesen Ansatz durch Logarithmieren auf die additive Form zurück.
Abbildung 8.6
Beispielsweise kann man bei der Zeitreihe von Abbildung 8.6 eine additive Verknüpfung der Bewegungskomponenten annehmen, während man bei der Zeitreihe von Abbildung 8.7 ein multiplikatives Modell unterstellen kann. 2. Die Einfuhrung von Zeitreihenmodellen, die gewisse Bewegungskomponenten in bestimmter Weise miteinander verknüpfen, darf nicht zu der Vorstellung fuhren, daß die in der Realität beobachteten Abläufe das Resultat des Zusammenwirkens solcher Bewegungskomponenten sind. Solche Zeitreihenmodelle sind in substanzwissenschaftlicher Hinsicht inhaltsleer, d. h. sie definieren nur eine for-
Verknüpfung der Bewegungskomponenten von Zeitreihen
Produktionsinita
für dos Bouhquptgtwcrbt
1950 = XX)
155
(arbwtstäglich)
Abbildung 8.7
male Verknüpfung von temporalen Funktionen, ohne eine kausale Erklärung für das spezielle Erscheinungsbild einer Zeitreihe zu liefern. Die formale Verknüpfung von Bewegungskomponenten ist im wesentlichen pragmatischer Natur. So kann man etwa bei der zuletzt gezeigten Zeitreihe auch von einem additiven Ansatz ausgehen. Dann wird die sich kontinuierlich im Zeitablauf ändernde Saisonfigur etwa durch periodische Funktionen beschrieben, deren Parameter selbst wieder Funktionen der Zeit sind. 3. Die herkömmlichen Methoden der Zeitreihenanalyse werden in der empirischen Wirtschaftsforschung meist unter praktischen Gesichtspunkten beurteilt. Man berücksichtigt zwar, wenn auch nicht immer sehr konsequent, gewisse Modellvorstellungen hinsichtlich der systematischen Komponenten, die Restschwankungen jedoch werden bei diesen Überlegungen gewöhnlich vernachlässigt, vielleicht weil man von der Vorstellung ausgeht, daß es sich dabei um strukturneutrale Einflüsse auf die Reihenwerte handelt. 4. Die folgenden Erörterungen beziehen sich zunächst auf additive Modelle, die eine einzige systematische Bewegungskomponente enthalten. An temporalen Folgen der Form y (t) = m (t) + u (t) werden Methoden behandelt, die zur Beschreibung bestimmter Trend Verläufe geeignet sind. Anschließend werden, ausgehend von dem Ansatz y ( t ) = z(t) + u(t),
156
Bewegungskomponenten von Zeitreihen
Verfahren zur Darstellung von zyklischen Komponenten diskutiert. Dann erst soll auf gemischte Zeitreihenmodelle, d. h. auf Ansätze kurz eingegangen werden, die außer einem Trend auch Zyklen als systematische Bewegungskomponenten enthalten.
8.3 Schätzung des Trends einer Zeitreihe Gegeben sei eine äquidistante Zeitreihe; ihren Beobachtungswerten y„ seien die Erhebungszeiten t„ zugeordnet (v = 1, 2 , . . . , n). Die Bewegungskonponenten dieser Zeitreihen sollen additiv aus einem Trend und aus Restschwankungen zusammengesetzt sein. Die Aufgabe bestehe darin, die allgemeine Grundrichtung m(t) dieser temporalen Folge aus den Beobachtungswerten zu schätzen. 8.31 Schätzung des Trends nach der Methode der kleinsten Quadrate Wenn der Trend der betreffenden Zeitreihe — was oft zutrifft — hinreichend gut durch ein Polynom k-ter Ordnung (ganze rationale Funktion) m (t) = a 0 + a t t + a 2 t 2 + . . . + a k t k angenähert werden kann, dann lassen sich die unbekannten Koeffizienten ao, a 1 ; . . . , a k nach der Methode der kleinsten Quadrate ermitteln. Man setzt also die Parameter numerisch in der Weise fest, daß die Varianz der Beobachtungswerte um die Trendfunktion m(t) minimiert wird — also: ( y „ - ( a 0 + a 1 t i ; + . . . + a k t k )) 2 =Min! (VIII.l) 30' al> • • a k Durch partielle Differentiation erhält man das in den Parametern lineare Gleichungssystem |
2 y„tj, = a 0 2 t[ + a i 2 tj,+1 + . . . + a k 2 t{,+k j = 0, 1 , . . . , k. V
V
V
V
Es ist eindeutig lösbar. Wir wollen den allgemeinen Fall eines polynomialen Trends k-ter Ordnung nicht weiter erörtern, weil das methodische Vorgehen bereits für k = 1, d. h. für einen geradlinigen Trend erläutert werden kann. Außerdem begnügt man sich bei praktischen Anwendungen oft damit, den Trend durch eine Gerade zu approximieren. 1. Nimmt man einen Trend der Form m(t) = a 0 + a x t an, dann geht der allgemeine Ansatz (VIII.l) über in 2 (y„ - (a 0 + ajty)) 2 = Min! e=l
Schätzung des Trends einer Zeitreihe
157
Bekanntlich 1 lassen sich aus dieser Forderung die beiden Normalgleichungen ableiten: n n 2 y„ = a 0 n + aj 2 t„. 2 y„ t„ = a 0 2 t„ + at 2 t* l l l Daraus ergibt sich als Lösung 2(y„-y)(t„-t) m (t) = y +
(t - 1 )
(VIII.2a)
V
Durch diese nach der Methode der kleinsten Quadrate ermittelte Trendgerade werden - wie man sich leicht überzeugt — die Restschwankungen derart festgelegt, daß z
(y,-ft(t„)) = o
ist. Berechnung eines geradlinigen Trends für das Volkseinkommen der Bundesrepublik Deutschland 1951-1960 (Methode der kleinsten Quadrate) Jahr ty 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
transform. Zeitkoord. 0v + + + + +
Volkseinkommen (Mrd. DM) yv
9 7 5 3 1 1 3 5 7 9
Insgesamt
yvov -
91.1 103.8 112.1 121.1 139.5 154.4 168.3 180.1 194.0 216.9 1481.3
el
819.9 726.6 560.5 363.3 139.5 154.4 504.9 900.5 1358.0 1952.1
81 49 25 9 1 1 9 25 49 81
2260.1
330
ev = 2 (t„ - 1 ) = 2 ( t „ - 1955.5) y = 148.13
2 yvev=
= 330
Trend in transformierten Zeitkoordinaten
m (0) = 6.85 0 + 148.13
Trend in ursprünglichen Zeitkoordinaten
fn (t) = 13.6976 t - 2 6 6 3 7 . 4 8
Tabelle 8.2 1
2260.1
Siehe S. 92 ff.
Bewegungskomponenten von Zeitreihen
158
2. Bei numerischen Berechnungen transformiert man meist die Zeitkoordinaten t„ in der Weise, daß die transformierten Zeitkoordinaten 0„ der Bedingung £ 0„ = O v=l
genügen. Zu diesem Zweck braucht man nur 6„ = t„ - 1 zu setzen. Unter dieser Voraussetzung geht (VIII.2a) über in £ y V6V =y+ 6. (VIII.2b) 2/ a v v
Die Tabelle 8.2 zeigt die Durchführung der Berechnung an einem Zahlenbeispiel. In dieser Tabelle sind die ursprünglichen Zeitkoordinaten t„ so transformiert, daß die d v nur ganze Zahlen annehmen. Bei äquidistanten Zeitreihen erreicht man das dadurch, daß man setzt: tj, - t
bei ungeradzahligem n;
2 (t„ - 1 )
bei geradzahligem n.
9„ = {
(VIII.3)
8.32 Ermittlung eines geradlinigen Trends nach der Methode der gleitenden Durchschnitte Neben der Methode der kleinsten Quadrate werden in der empirischen Wirtschaftsforschung häufig gleitende Durchschnitte benutzt, um in Zeitreihen der Form y(t) = m(t) + u(t) die Restschwankungen auszuschalten. Inwieweit mit diesem Vorgehen das gesteckte Ziel erreicht wird, wollen wir erörtern, nachdem das Verfahren dargestellt ist. 1. Die Merkmalswerte y„ einer äquidistanten Zeitreihe seien den Zeitpunkten t„ zugeordnet (v = 1, 2 , . . . , n). Bildet man aus je 2 k+1 zeitlich aufeinander folgenden Beobachtungswerten, wobei k eine zweckdienlich gewählte natürliche Zahl ist, das arithmetische Mittel 2^1
h£k
yj+h = yj
j = k+l,k+2,.. .,n-k-l,
(VIII.4)
so nennt man die y-} gleitende arithmetische Mittel oder auch gleitende Durchschnitte. Den yj ordnet man die Zeitkoordinate tj des „in der Mitte" der Teilfolge yj_k,. .., y^ . . . , yj+k liegenden Reihenwertes yj zu. Wegen dieser Zuordnungsregel ist die temporale Folge der gleitenden Durchschnitte am Anfang und am Ende um je k Werte kürzer als die ursprüngliche Zeitreihe. Die Tabelle 8.3 veranschaulicht die Berechnung eines funfgliedrigen (d. h. 2 k+l = 5) gleitenden Durchschnittes. Bisweilen erweist es sich als nützlich, gleitende Durchschnitte anzuwenden, die eine gerade Anzahl - etwa 2 k Reihenglieder umfassen. Allerdings bereitet
Schätzung des Trends einer Zeitreihe
159
Berechnung eines fünfgliedrigen gleitenden Durchschnittes fiir den Bestand von Spareinlagen in der Bundesrepublik Deutschland 1953 bis 1962 Jahresende (tj)
Stand der Spareinlagen (in Mill. DM)
1953 1954 1955 1956 1957 1958 1959 1960 1961 1962
11 17 21 24 29 36 45 53 60 69
547 225 374 276 388 102 039 114 424 705
yj X
>
X
> •
_
20 25 31 37 44 52
762 673 236 584 813 877 X X
Quelle: Statistisches Jahrbuch fiir die Bundesrepublik Deutschland 1959, S. 333; 1963, S. 387. Tabelle 8.3
dann die zeitliche Zuordnung des gleitenden Durchschnittes gewisse Schwierigkeiten. Um diese auszuräumen, definiert man yj als arithmetisches Mittel zweier gleitender Durchschnitte — nämlich:
Dafür läßt sich auch schreiben:
* -2U5
+
h
| , )
+
? ***} •
( VIIL5 >
In der Teilfolge y j . k , . . y j , . . . , yj + k gibt es einen „in der Mitte liegenden" Reihenwert yj, dessen Zeitkoordinate tj dem gleitenden Durchschnitt (VIII.5) zugeordnet wird. 2. Unter bestimmten Voraussetzungen läßt sich die allgemeine Grundrichtung einer äquidistanten temporalen Folge der Form y(t) = m(t) + u(t) mittels der gleitenden Durchschnitte yj genau darstellen. Damit dies der Fall ist, muß die Restkomponente die Bedingung +k
j:
u (t j + h ) = 0
für alle j = k+1,. .., n-k-1 (VIII. 6)
erfüllen. Wenn die Restkomponente regellos um den Wert Null schwankt, darf man im allgemeinen davon ausgehen, daß bei nicht allzu kleinen Werten von k meist dieser Forderung zumindest annähernd genügt wird. Die Gleichung (VIII.6) ist nur eine notwendige Bedingung dafür, daß der Trend einer Zeitreihe durch gleitende Durchschnitte „richtig" oder, wie man meist sagt, unverzerrt dargestellt wird. Man kann sich das an einem einfachen Beispiel überlegen.
Bewegungskomponenten von Zeitreihen
160
Es sei y t = m(t) = a 0 + a x t + a 2 t 2 eine Zeitreihe, deren Restkomponente identisch verschwindet. Die Bedingung (VIII.6) ist demnach erfüllt. Weiterhin gilt * =
j.
k
= 2"kTT j .
k
(a
°
+
+
(t+h)2)
'
Daraus erhält man y t = a 0 + a t (t + ^
| h) + a 2 (t 2 +
(2 1 1 h + |
h 2 )).
Nun ist aber S h = 0 und h=-k
I h 2 = 2 I h 2 = | k (k+1) (2 k+1). h=-k h=l J
Demnach ergibt sich y^ao +a ^ + a j ^ + i i ^ i ) ) . Aus diesem schematischen Beispiel folgt: Gleitende Durchschnitte stellen unter der Voraussetzung die allgemeine Grundrichtung m(t) einer temporalen Folge unverzerrt dar, daß die Bedingung (VIII. 6) erfüllt ist und außerdem der Trend geradlinig verläuft. 3. Die gleitenden Durchschnitte lassen sich so verallgemeinern, daß sie einen polynomialen Trend k-ter Ordnung unverzerrt darstellen. Man erreicht das durch eine zweckdienliche Gewichtung der Merkmalswerte. Ein Beispiel ist die sogenannte 15-Punkte-Formel von Spencer: y t = 35ö
(" 3 y t _ 7 - 6 y t _ 6 - 5 y t _ 5 +
3yt_4+21yt_3
46
+ yt-2 + 67 y t _ j + 74 y t + 67 y t + 1 + 46 y t + 2 + 2 1 y t + 3 + 3 yt+4 — 5 yt+s - 6 yt+6 - 3 yt+7). Dieser gleitende Durchschnitt stellt einen polynomialen Trend bis zur dritten Ordnung unverzerrt dar. 8.33* Lokale und globale Trendschätzung nach der Methode der kleinsten Quadrate Die herkömmlichen statistischen Methoden der Trendschätzung beruhen im wesentlichen auf der Annahme, daß sich die allgemeine Grundrichtung einer temporalen Folge, zumindest in einem gewissen Zeitbereich, durch eine ganze rationale Funktion der Zeit beschreiben läßt. Wenn eine derartige Funktion den Verlauf des Trends über die gesamte Beobachtungsperiode hinweg darstellt, so wollen wir von einem globalen Trendmodell sprechen. Bei einem lokalen Trendmodell geht man demgegenüber von der wesentlich schwächeren Voraussetzung aus, daß der Trend nicht mehr während der gesamten, sondern nur für einen zusammenhängenden Teil der Beobachtungsperiode hinreichend gut durch eine ganze rationale Funktion angenähert wird.
161
Schätzung des Trends einer Zeitreihe
1. In einem lokalen Modell wird, wie wir eben festgestellt haben, die allgemeine Grundrichtung einer temporalen Folge nur für einen Teil der Beobachtungsperiode durch eine geeignete Trendfunktion ausgeglichen. Im Fall einer äquidistanten Zeitreihe umfaßt der Approximationsbereich oder, wie man auch sagt, der Stützbereich T* jeweils p zeitlich aufeinanderfolgende Werte, wobei r die mittlere Zeitkoordinate des Stützbereichs bezeichnet. Einen Überblick gibt die Abbildung 8.8. Wenn der Stützbereich mit der Beobachtungsperiode T identisch ist, also T* = T gilt, dann geht der lokale Ansatz in ein globales Modell über.
-«
Beobachtungsperiode T h«
J
2V
1
J
t
I
U1
Stützbereich T* I
I
L-H—I
1
* H
1
1
t*p
—]
L
n-1 n
Abbildung 8.8
2. Wenn auch das Vorgehen bei der lokalen Trendschätzung nach der Methode der kleinsten Quadrate keine anderen verfahrenstechnischen Probleme als bei der globalen Trendschätzung aufwirft, so kann man doch zeigen, daß die lokale Trend Schätzung nach der Methode der kleinsten Quadrate die Trendschätzung mittels gleitender Durchschnitte als Spezialfall einschließt. Wir wollen das am Beispiel einer geradlinigen Trendfunktion für einen Stützbereich der Länge p = 2 k+1 zeigen. Nimmt man an, daß die Zeitkoordinaten des Stützbereichs gemäß (VIII.3) transformiert wurden, so kann man für die lokale Schätzung der Trendfunktion m T (d) = ao;T + a t .T 6 im Stützbereich T, nach (VIII.2b) schreiben: ^
w
=
rbr
2 . y„ + ( 2
L K+1 VeTf
veTf
y, Ö, / 2 . tf) • veTf
Setzt man nun 6 = 0, so geht dieser Ausdruck über in worin yT gemäß (VIII.4) definiert ist. Durch ein ganz entsprechendes Vorgehen kann man aus lokalen Trendschätzungen nach der Methode der kleinsten Quadrate Gewichtungssysteme für gleitende Durchschnitte bestimmen, die polynomiale Trendfunktionen einer beliebigen Ordnung unverzerrt schätzen.
Bewegungskomponenten von Zeitreihen
162
8.4 Beschreibung der zyklischen Bewegungskomponenten von Zeitreihen Die in der empirischen Wirtschaftsforschung gebräuchliche statistische Methodik zur Analyse periodischer Bewegungskomponenten von ökonomischen Zeitreihen ist wenig entwickelt. Vielleicht hat das seinen Grund in der Tatsache, daß sich einerseits Zyklen mit veränderlichen Perioden, wie sie etwa bei Konjunkturschwankungen auftreten, dem Zugriff der konventionellen Verfahren entziehen, und daß andererseits streng periodische Schwankungen, die in ökonomischen Zeitreihen gewöhnlich als Saisoneinflüsse vorkommen, in der empirischen Wirtschaftsforschung eher als unerwünschte Einflüsse angesehen werden, welche die interessantere mittel- und längerfristige Entwicklung ökonomischer Größen verdecken. 1. Eine äquidistante Zeitreihe yv > 0 habe die Erhebungszeiten t„, mit ty = 1 (v = 2, 3 , . . . , n). Von dieser temporalen Folge wird angenommen, daß sie von der Form y(t) = z(t) + u(t) ist. Weiterhin soll die zyklische Komponente z(t) der beobachteten Zeitreihe eine im Zeitablauf gleichbleibende (starre) „Figur" mit einer konstanten Periode der Länge X aufweisen. Die Abbildung 8.9 veranschaulicht diesen Sachverhalt.
Z(t)
x+i > y(k-D \ + 2 . YkxIn diesem Schema sind die Werte, die zu einem Zyklus gehören, zeilenweise angeordnet. In den Spalten des Schemas stehen alle diejenigen Werte der Zeitreihe, die jeweils an der gleichen Stelle der Zyklen auftreten; die j-te Spalte (j = 1 , 2 , . . . , X) enthält also die Beobachtungswerte yj, yj+x,..., yj+(k-i)\Der Durchschnitt der j-ten Spalte ergibt sich aus 1 yj = V
k_1 S
yj+K*
j=l,2,...,X;
K=0
für das arithmetische Mittel der gesamten Zeitreihe erhält man den Ausdruck , j=l \ A
, j=i A. Kk-i kA =o '
Voraussetzungsgemäß ist y„ > 0; deshalb gilt yj > 0 für alle j und y > 0. Nunmehr läßt sich der Zyklus-Index nach dem so benannten Phasen-Durchschnittsverfahren definieren als y* = 100 yj / y
j = l,2,...,X.
(Vffl.7)
Die Tabelle 8.4 zeigt für ein konstruiertes Zahlenbeispiel die Berechnung eines Zyklus-Index.
164
Bewegungskomponenten von Zeitreihen Schematisches Beispiel fiii die Berechnung eines Zyklus-Index nach dem Phasendurchschnittsverfahren
I
II
III
IV
2. 3. 4. 5.
1.
8.4 14.1 7.0 8.6 8.2
10.0 9.4 11.1 12.2 9.1
7.5 9.3 8.1 9.0 9.3
14.1 15.0 15.2 16.1 16.0
40.0 47.8 41.4 45.9 42.6
E
46.3
51.8
43.2
76.4
217.7
Zyklus
yj Zyklusindex = 100 • yj/y
9.26 85.1
10.36 95.2
8.64 79.4
15.28
£
y = 10.885
140.4
Tabelle 8.4
Der in dieser Tabelle berechnete Wert y* = 85.1 besagt, daß die Merkmalswerte der ersten Spalte im Durchschnitt um 14.9 % niedriger liegen als das arithmetische Mittel der gesamten Zeitreihe. Mit = 140.4 ist der betreffende Durchschnittswert um 40.4 % höher als das Zeitreihenmittel y.
8.42* Beschreibung zyklischer Bewegungskomponenten mittels trigonometrischer Polynome Zyklische Bewegungskomponenten von Zeitreihen lassen sich mittels trigonometrischer Polynome als eine Überlagerung von harmonischen Schwingungen beschreiben: z
(t) = bo + £ {bj cos (cjjt) + Cj sin (wjt)}.
Gewöhnlich setzt man in dieser Beziehung = 2 7rj/X mit j = 1, 2 , . .., X/2 bei geradzahligem X und j = 1, 2 , . . . , (X-l)/2 bei ungeradzahligem X. Die Parameter b 0 , b j , . . ., b k , C i , . . . , c k lassen sich sowohl lokal wie auch global nach der Methode der kleinsten Quadrate ermitteln. Durch „Anpassung" eines trigonometrischen Polynoms charakterisiert man den in gewisser Hinsicht „mittleren" Bewegungsablauf einer beobachteten Zeitreihe. Daraus darf man nicht folgern, daß den einzelnen periodischen Funktionen einer bestimmten Frequenz auch eine substanzwissenschaftlich relevante Bedeutung zukomme.
Zerlegung von Zeitreihen in verschiedenartige systematische Bewegungskomponenten
165
8.5 Zerlegung von Zeitreihen in verschiedenartige systematische Bewegungskomponenten Wenn eine äquidistante Zeitreihe nicht - wie die bisher betrachteten Fälle — nur eine einzige systematische Bewegungskomponente enthält, sondern von der Form y(t) = m(t) + z(t) + u(t) ist, so stellt sich bei praktischen Anwendungen oft die Frage, ob aus einem vorgegebenen Beobachtungsbefund die einzelnen Bewegungskomponenten isoliert werden können. Das Problem besteht also darin, die in einer temporalen Folge vermischten systematischen Komponenten voneinander zu trennen. Man kann das entweder durch simultane oder durch sukzessive Schätzung der verschiedenartigen Bewegungskomponenten erreichen. 1. Simultane Schätzungen lassen sich nach der Methode der kleinsten Quadrate durchführen, wenn man den Trend etwa durch eine ganze rationale Funktion und zugleich die zyklische Komponente z. B. durch ein trigonometrisches Polynom approximiert. 2. Die in der empirischen Wirtschaftsforschung meist praktizierten sukzessiven Schätzverfahren zielen gewöhnlich auf die Bereinigung der beobachteten Zeitreihenwerte von Saisoneinflüssen ab, um die „mittelfristigen" Konjunkturschwankungen und die „längerfristige" Entwicklung einer ökonomischen Variablen im Zeitablauf darzustellen. Die üblichen sukzessiven Schätzverfahren für systematische Bewegungskomponenten von gemischten Zeitreihen bestehen gewöhnlich aus einem Bündel von Methoden. Es gibt viele solcher Vorschläge. Die herkömmlichen Verfahren enthalten etwa die folgenden Schritte: (1) Berechnung eines Trends m(t) meist nach der Methode der gleitenden Durchschnitte. (2) Trendbereinigung der originären Zeitreihe — d. h. im additiven Modell y ( t ) - m ( t ) = z*(t). (3) Ermittlung einer ausgeglichenen Saisonkomponenten z*(t) aus den trendbereinigten Werten z*(t) jeweils für die gleichnamigen Monate getrennt. (4) Saisonbereinigung der originären Zeitreihe — d. h. im additiven Ansatz: y(t) = y(t)-z*(t). Es ist im allgemeinen schwierig, die Auswirkungen eines derartigen Methodenbündels zur sukzessiven Schätzung der systematischen Bewegungskomponenten voll zu überblicken. Es hat aber den Anschein, als ob man bei der Zusammenstellung derartiger Bündel vielfach von der Annahme ausgeht, daß die Zusammenfassung von Methoden, die — jede für sich — durchaus brauchbar sein mag, um isolierte systematische Bewegungskomponenten zu schätzen, ein taugliches Methodenbündel auch zur Analyse von gemischten Zeitreihen ergibt.
Bewegungskomponenten von Zeitreihen
166
Übungsaufgaben und ergänzende Hinweise V I I I Aufgabe 1 Eine Unternehmung verzeichnet während des Zeitraums 1956 bis 1964 nachfolgende Jahresumsätze: Jahr 1956 1957 1958 1959 1960 1961 1962 1963 1964
Umsatz (in Mio. DM) 14.2 16.1 19.6 24.1 27.9 35.7 42.1 51.3 56.8
1. a) Nach der Methode der kleinsten Quadrate ist ein linearer Trend für den Logarithmus des Umsatzes zu errechnen. b) Es ist zu zeigen, daß der gewählten Trendform die Annahme einer konstanten jährlichen Wachstumsrate entspricht. 2. Es ist die mittlere Wachstumsrate aus dem geometrischen Mittel der jährlichen Wachstumsfaktoren zu berechnen. 3. Worauf ist es zurückzuführen, daß die nach der Methode der kleinsten Quadrate berechnete mittlere Wachstumsrate von der aus dem geometrischen Mittel der Wachstumsfaktoren berechneten mittleren Wachstumsrate abweicht? Aufgabe 2 Die Einfuhr der Bundesrepublik Deutschland hatte in den Jahren 1950 bis 1958 folgenden Umfang: Jahr 1950 1951 1952 1953 1954 1955 1956 1957 1958
Einfuhr (in Mrd. DM) 11,4 14,7 16,2 16,0 19,3 24,5 28,0 31,7 31,1
Übungsaufgaben und ergänzende Hinweise VIII
167
1. Stellen Sie die Zeitreihe graphisch dar! 2. Berechnen Sie einen linearen Trend nach der Methode der kleinsten Quadrate und zeichnen Sie die gefundene Trendlinie in die Graphik ein! 3. Welchen Wert würden Sie auf Grund der Trendgeraden für die Jahre 1959 und 1964 erwarten? 4. Die tatsächliche Einfuhr hatte 1959 eine Höhe von 35.8 Mrd. DM und 1964 eine Höhe von 58.8 Mrd. DM. Nehmen Sie danach Stellung zur Trendextrapolation! Aufgabe 3 Der durchschnittliche Verbraucherpreis für 1 Ei (Klasse B) entwickelte sich in den Jahren 1957 bis 1962 wie folgt (in Pfg/Stck.): Jahr
März
Juni
Sept.
Dez.
17 20 19 18 21 18
20 21 19 19 21 19
25 24 22 23 22 21
26 25 24 24 22 25
1957 1958 1959 1960 1961 1962
Errechnen Sie den Saisonindex. Aufgabe 4 Ein Einzelhändler notiert seine vierteljährlichen Umsätze und kommt zu folgendem Ergebnis (in 1000 DM): Vierteljahr 1960
1961
1962
Umsatz I II III IV I II III IV I II III IV
21.8 29.5 24.6 32.3 26.2 26.7 27.4 35.9 26.6 33.5 29.4 39.5
Vierteljahr 1963
1964
1965
Umsatz I II III IV I II III IV I II III IV
32.6 34.7 37.8 44.7 38.6 39.1 39.8 46.7 39.8 43.5 42.6 49.5
Berechnen Sie aus diesen Angaben einen Trend nach der Methode der gleitenden Durchschnitte.
168
Bewegungskomponenten von Zeitreihen
Aufgabe 5 Im Baugewerbe der Bundesrepublik Deutschland wurden in den Jahren 1959 bis 1961 nachfolgende Lohnsummen gezahlt: (in Mio. DM) Jan; Febr. März April 1959 1960 1961 1962
306 384 453 579
283 388 547 517
493 579 709 610
569 612 694 850
Mai
Juni
585 677 775 962
617 688 821 940
Juli 637 695 820 971
Aug.
Sept. Okt.
Nov.
Dez.
611 712 859 984
635 633 694 657 823 832 935 1017
595 672 802 930
559 595 621 682
Berechnen Sie zu dieser Zeitreihe saisonbereinigte Werte.
Sachverzeichnis
Abgangsfunktion 114 ff Abgangsmenge 114 durchschnittliche — 116 Abgangsmodell 121 Abgangsziffer 117, 119 Abhängigkeit statistische - 43 f statistische - im Mittel 84 ff Abweichung durchschnittliche - 82 (Standardabweichung) 74 -squadrat 76 Aliasing 18 Anteilswert 34 Arbeitsstätte 17 f Aufbereitung 14, 25 f Aufgliederung 29 Ausgliederung 29 Basiswert (Bezugswert) 132 Becker'sche Graphik 113 Bedarfsgruppen 139 -indizes 140 Beobachtungsmaterial primärstatistisches - 16 sekundärstatistisches — 16 Bereichsmitte 66 Berichtszeit 137 Bestand 16, 113 ff durchschnittlicher- 116,120 —sdaten 17 —sfortschreibung 114 -sfunktion 114 -smasse 17, 113 Bestimmtheitsmaß 101 ff partielles - 108 totales - 107 Betriebsfläche 22 Bevölkerungsbewegung mechanische - 29, 124 natürliche - 124 Bevölkerungspyramide 13 Bewegungskomponenten von Zeitreihen 149 ff systematische - 149 Verknüpfung der - 153 zyklische - 151, 154, 162 Bezugszeit 137
Chi-Quadrat 43 Dezimalschlüssel 19 Dichtester Wert (Modus) 66 Differenz mittlere - 65 Durchschnitte gleitende- 158 f, 161, 163 Engel'sches Gesetz 84 f Ereignismasse 17 Erhebung 14, 16 ff Durchfuhrung von - e n 24 f -sbereich, regionaler 1 7 / -selement 14, 16 -smerkmal (siehe auch Merkmal) 19 ff -speriode 18 -ssektor 14, 17 —sverfahren 25 Erwerbsperson 23 Erwerbsquote 34 Fisher'scher Index 148 Fortschreibungsmodell 114 Freiheitsgrad 42 Geburtenziffer 117 Gesamtheit statistische - 16 Umfang von statistischen - e n 16 Gewichtungsschema (Wägungsschema) 138 ff Gleichverteilungsgerade 53 Gliederungszahl 34 Gliedziffer 132 Größenklasse 26, 47, 57 Grundgesamtheit 16 Halbwertzeit 122 Häufigkeit absolute - 31 allgemeiner Additionssatz für relative - e n 36 bedingte relative - 39 f, 60 f prozentuale — 34 relative - 34, 37, 45, 55 Häufigkeitsdichte 47, 50, 58
14,
170 Häufigkeitsverteilung 14 bedingte - 39f, 59 ff gemeinsame - 56 zweidimensionale — 36, 55 Histogramm 51 Indexzahlen 135 ff - der industriellen Nettoproduktion 141 ff - nach Fisher 148 - nach Laspeyres 138 ff - nach Lowe 148 - nach Paasche 142 ff verkettbare - 148 Kennzahl betriebswirtschaftliche - 120 Klasseneinteilung 26, 47, 57 Klassengrenzen 47, 57 Klassenmitte 47, 57 Klassenspanne (Klassenintervall) 47, 57 Kollektiv (Grundgesamtheit, statistische Masse) 16 Konjunkturschwankung 151 f Kontingenz mittlere quadratische - 43 —tabelle 37 f Konzentrationskurve 52 ff Konzentrationsmaß 53 ff Korrelation geradlinige - 91 ff negative - 91 positive - 91 -skoeffizient 103 -Stabelle 57 -sverhältnis 88 f Kovarianz 92 f Laspeyres'scher Index 138 ff Lebensdauer durchschnittliche - 122 durchschnittliche restliche - 123 Lebenserwartung durchschnittliche- 123,128 Lebenshaltung Preisindex der - 139 ff Lokalisationsmaß 66 ff Lorenzkurve 52 ff Lowe'scher Index 148
Sachverzeichnis Masse statistische - 16 Median 51 f, 122 Mengenindex 137 - nach Fisher 148 - nach Laspeyres 138, 141 ff - nach Paasche 143 Mengenmeßziffer 138, 141 Merkmal häufbares - 23 intensitätsmäßig abgestuftes - 21 nicht-häufbares — 23 qualitatives - 23 quantitatives — 24 -sausprägung 23 f —sklasse 19, 26 f standardisiertes - 80 stetiges (kontinuierlich meßbares) — 21 f, 24 -swert 24 unstetiges - 22 f, 24 vollständiges System von -sausprägungen 23 Meßfehler 30 Meßziffer 132 Methode der gleitenden Durchschnitte 158 f, 161, 163 Methode der kleinsten Quadrate 92 ff, 156 ff Mittel arithmetisches - 67 ff bedingtes arithmetisches - 86 f geometrisches - 135, 146 harmonisches - 67, 72 f, 142 f Modus (dichtester Wert) 66 Momente 79 ff Normalgleichung 92, 107, 157 Normalmonat 18 Paasche'scher Index 142 ff Phasendurchschnittsverfahren 163 Preisindex 137 - der Lebenshaltung 139 f - nach Fisher 148 - nach Laspeyres 138 ff - nach Lowe 148 - nach Paasche 143 Preismeßziffer 138 Prozentpunkt 51 f
Sachverzeichnis Randverteilung 37 f, 59 Rangkorrelationskoeffinzient Spearman'scher - 111 Rangordnung 21 f Rangwertreihe 45, 52 Rangzahl 21, 24, 45 Regression einfache, lineare — 91 ff empirische - 84 ff multiple - 106 ff einfache, nichtlineare 104 ff, 108 polynomiale - 108 Regressionsbeziehung 84 ff Regressionsgerade 91 ff Regressionskoeffizient 91 f Restschwankung 149, 153 ff Saisonfigur 152, 162 Saisonindex 163 f Saisonschwankung 151 Schwankungen zyklische- 151 Skalierung 21 Spannweite 73 Spearman'scher Rangkorrelationskoeffizient 111 Spencer'sche 15-Punkte Formel 160 Stabdiagramm 49 f Standardabweichung 74, 79 Statistik amtliche - 25 beschreibende (deskriptive) - 14 Ein-Zweck - 24 induktive (schließende) - 15 Mehr-Zweck - 24 Sterbetafel 125 ff Sterbewahrscheinlichkeit ausgeglichene - 125 rohe - 125 Sterbeziffer 117, 124 Stereogramm 58 f Streuungsdiagramm 55 Streuungsmaße 73 ff Strömungsdaten 17 Strukturbruch 153 Stützbereich 161 Summenfunktion 45, 55 Tabellentechnik 25 ff Teilerhebung 16
Teilgesamtheit 16 Teilkollektiv 16 Totalerhebung 16 Tschuprow-Maß 44 Trend 149 geradliniger - 156 ff polynomialer - 156 Trendschätzung 156 ff g l o b a l e - 160 f lokale - 160 f Überlebenswahrscheinlichkeit 128 Umsatzindex (Wertindex) 137 Umschlagsziffer 119 Unabhängigkeit statistische - 43 f statistische - im Mittel 90 Urmaterial 14, 16 ff Varianz 74 ff Formel der einfachen Zerlegung einer - 75 f, 88 ff, 102 f, 107 - innerhalb der Regressionsfläche 1 - innerhalb der Regressionsgeraden 102 f interne (innere) - 75 f externe (äußere) - 75 f Minimaleigenschaft der — 75 - um die Regressionsfläche 107 - um die Regressionsgerade 102 f Verschiebungssatz der - 74 Variationskoeffizient 79 normierter - 83 Venn'sches Diagramm 36 Verteilung (siehe Häufigkeitsverteilung) Verteilungsfunktion approximierende - 47 f empirische - 45, 55f gemeinsame - 55 f Verweildauer 113, 115 -Ziffer 117 ff Verweillinie 113 Vierfeldertafel 43 Wachstum arithmetisches- 133 exponentielles - 133 geometrisches — 133 Wachstumsfaktor 135
Sachverzeichnis
172 Wachstumsrate 135 Wägungsschema (Gewichtungsschema) 138 f, 142 ff Wanderungssaldo 124 Warenkorb 139 f Wertindex (Umsatzindex) 137, 143, 145 Wohnbevölkerung 16 Zeitmengenfläche 115, 119 f Zeitmengenzahl 116 Zeitreihe 17, 149 ff
äquidistante - 132 multivariable - 149 univariable - 149 Zerlegung von - n 165 f Zeitreihenmodell 154 f Zugangsfunktion 114 ff Zugangsmenge durchschnittliche - 117 Zugangsziffer 117,119 Zyklus-Index 163 f
w DE
G W. Wetzel
Walter de Gruyter Berlin • New York Statistische Grundausbildung für Wirtschaftswissenschaftler 2. Bände II: Schließende Statistik 278 Seiten. Mit 77 Abbildungen und 79 Tabellen. 1973. Kartoniert DM 32,- ISBN 3 1 1 0 0 3 7 4 8 3 (de Gruyter Lehrbuch)
J. Pfanzagl
Allgemeine Methodenlehre der Statistik I: Elementare Methoden unter besonderer Berücksichtigung der Anwendungen in den Wirtschafts- und Sozialwissenschaften. 6. Auflage. 254 Seiten. 49 Abbildungen. 24 Tabellen. 1983. Kartoniert DM 22,80 ISBN 311 009674 9 (Sammlung Göschen, Band 2046) II: Höhere Methoden unter besonderer Berücksichtigung der Anwendungen in Naturwissenschaften, Medizin und Technik 5. Auflage. 321 Seiten. 42 Abbildungen. 1978. Kartoniert DM 19,80 ISBN 311 007704 3 (Sammlung Göschen, Band 2047)
C. L. Sandblom
Elementary Statistics for Business and Economics 1983. 352 pages. Cloth DM 48,- ISBN 311 008302 7
H.W. Gottinger
Elements of Statistical Analysis 1980. 244 pages. Numerous figures. Cloth DM 60,ISBN 311 007169 X
Multivariate statistische Verfahren Herausgegeben von L. Fahrmeir und A. Hamerle unter Mitarbeit von W. Häußler, H. Kaufmann, P. Kemeny, C. Kredler, F. Ost, H. Pape, G. Tutz XIV, 796 Seiten. Mit 81 Abbildungen. 1984. Gebunden DM 198,- ISBN 311 008509 7
H. Büning G. Trenkler G. D. Kleiter
Nichtparametrische statistische Methoden 435 Seiten. Mit mehreren Abbildungen, Tabellen und einem Tabellenanhang. 1978. Kartoniert DM 48,ISBN 311008134 2 (de Gruyter Lehrbuch)
Bayes-Statistik Grundlagen und Anwendungen XIV, 570 Seiten. 72 Abbildungen. 9 Tabellen. 1981. Gebunden DM 160,- ISBN 311 008273 X Preisänderungen vorbehalten
w DE
G Wetzel/Skarabis/ Naeve/Büning
Walter de Gruyter Beriin • New York Mathematische Propädeutik für Wirtschaftswissenschaftler 4., völlig neu bearbeitete und erweiterte Auflage 289 Seiten. Mit zahlreichen Abbildungen. 1981. Kartoniert DM 32,80 ISBN 311008502 X (de Gruyter Lehrbuch)
T. Gal H. G. Gehring
Betriebswirtschaftliche Planungsund Entscheidungstechniken X, 228 Seiten. Mit 116 Abbildungen und 68 Tabellen. 1981. Kartoniert DM 48,- ISBN 311 0083159 (de Gruyter Lehrbuch)
w. Dinkelbach
Entscheidungsmodelle XVI, 285 Seiten. 1982. Kartoniert DM 32,- ISBN 311 0042061 Gebunden DM 62,- ISBN 3110089319 (de Gruyter Lehrbuch)
J. Frohn
Grundausbildung in Ökonometrie X, 303 Seiten. 1980. Broschiert DM 39,50 ISBN 3110067463 (de Gruyter Lehrbuch)
W. Elben
Entscheidungstabellentechnik Logik, Methodik und Programmierung 140 Seiten. 1973. Kartoniert DM 24,ISBN 3110043181 (de Gruyter Lehrbuch)
S. Krüger
Simulation Grundlagen, Techniken, Anwendungen 223 Seiten. 1975. Kartoniert. DM 38,ISBN 311004210X (de Gruyter Lehrbuch)
H. Noltemeier
Graphentheorie mit Algorithmen und Anwendungen 239 Seiten. Mit zahlreichen Abbildungen. 1976. Gebunden DM 48,- ISBN 3110042614 (de Gruyter Lehrbuch) Preisänderungen vorbehalten