262 112 37MB
German Pages 388 [384] Year 2010
ML
#
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Bönning, Allgemeine Epidemiologie Caspary Wichmann, Lineare Modelle Chatterjee Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen Lorscheid, Statistik-Lehrbuch, •
2.
Auflage
Degen Lorscheid, Statistik-Aufgabensammlung, 4. Auflage Härtung, Modellkatalog Varianzanalyse Harvey (Übers. Untiedt), Ökonometrische Analyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden
Miller (Übers. Schlittgen), der Angewandten Statistik
Grundlagen
Naeve, Stochastik für Informatik Oerthel Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer Heine Härtung, Statistik für
Wirtschaft- und Sozialwissenschaften: Deskriptive Statistik, 2. Auflage Pflaumer Heine Härtung, Statistik für Wirtschafts- und Sozialwissen-schaften: Induktive Statistik
Pokropp, Lineare Regression und Varianzanalyse Rasch Herrendörfer u. a., Verfahrensbibliothek, Band I und Band 2 Riedwyl Ambiihl, Statistische Auswertungen mit Regressionsprogrammen Rinne, Wirtschafts- und Bevölkerungs-
statistik, 2. Auflage
Rinne, Statistische Analyse
Einführung
multivariater Daten
Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, -
Band I
Rüger, Test- und Schätztheorie, Band II: Statistische Tests
Schlittgen, Statistik, 9. Auflage Schlittgen, Statistik-Trainer Schlittgen, Statistische Inferenz Schlittgen, GAUSS für statistische Berechnungen Schlittgen, Angewandte Zeitreihenanalyse Schlittgen Streitberg, Zeitreihenanalyse, 9. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten
Fachgebiet Biometrie
Herausgegeben von Dr. Rolf Lorenz Bisher erschienene Werke: Brunner Langer, Nichtparametrische Bock, Bestimmung des StichprobenAnalyse longitudinaler Daten umfangs
Statistik-Lehrbuch mit Wirtschafts- und Bevölkerungsstatistik Methoden der Statistik im wirtschaftswissenschaftlichen Grundstudium
Von
Dr. Horst Degen Univ.-Professor für Statistik und Ökonometrie und
Dr. Peter Lorscheid Wissenschaftlicher Assistent
Wirtschaftswissenschaftliche Fakultät der Heinrich-Heine-Universität Düsseldorf
2., bearbeitete Auflage
R.Oldenbourg Verlag München Wien
ClP-Einheitsaufnahme
Die Deutsche Bibliothek -
Degen, Horst:
Statistik-Lehrbuch : mit Wirtschafts- und Bevölkerungsstatistik ; Methoden der Statistik im wirtschaftswissenschaftlichen Grundstudium / von Horst Degen und Peter Lorscheid. 2., bearb. Aufl.. München ; Wien : Oldenbourg 2002 (Lehr- und Handbücher der Statistik) ISBN 3-486-27240-3 -
-
© 2002 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0
www.oldenbourg-verlag.de
Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-27240-3
Inhaltsverzeichnis 0 0.1
Einführung: Statistik historische Entwicklung und heutige Arbeitsgebiete Der Begriff .Statistik' -
0.2 Geschichte der Statistik 0.3 Arbeitsgebiete der Statistik 0.4 Phasen statistischen Arbeitens
Teil A: Beschreibende Statistik 1 Grundbegriffe der Statistik 1.1 Statistische Massen 1.2 Statistische Merkmale
1.3 Skalierung von Merkmalen 1.4 Skalentransformationen und Klassenbildung 2 2.1 2.2 2.3 2.4 2.5 2.6 3
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken Absolute und relative Häufigkeiten Kumulierte Häufigkeiten Quantile von Häufigkeitsverteilungen Tabellarische Darstellung von Häufigkeiten Grafische Darstellung von Häufigkeiten Typen von Häufigkeitsverteilungen Statistische Maßzahlen für eindimensionale Häufigkeitsverteilungen Vorbemerkungen
1 1
3 5 7 9 10 10 12 14 16 21 21 23 23 25 27 35
3.1 3.2 Mittelwerte 3.3 Steuungsmaße 3.4 Formmaße 3.5 Grafische Darstellung und statistische
37 37 38 44 51 54
4 4.1 4.2 4.3 4.4 4.5
62 62 62 66 69 81
Messung der Konzentration Beschreibung zweidimensionaler Häufigkeitsverteilungen Zur Bedeutung mehrdimensionaler Häufigkeiten Zweidimensionale und bedingte Häufigkeitsverteilungen Grafische Darstellung zweidimensionaler Häufigkeiten Korrelationsanalyse Regressionsanalyse
VI
5 Zeitreihenanlyse 5.1 Zum Begriff der Zeitreihe und ihrer Komponenten 5.2 Methoden der Komponentenbestimmung 5.3 Einfache Prognosetechniken 6 Maßzahlen des statistischen 6.1 Verhältniszahlen 6.2 Veränderungszahlen 6.3 Indexzahlen
Vergleichs
Teil B: Wirtschafts- und Bevölkerungsstatistik
87 87 89 96 99 99 104 108 115
7 Aufgaben und Organisationsstrukturen der Wirtschaftsstatistik 116 7.1 Zum Begriff,Wirtschaftsstatistik' 116 7.2 Das Adäquationsproblem der Wirtschaftsstatistik 117 120 7.3 Die amtliche Statistik in der Bundesrepublik Deutschland 8 Bevölkerungsstatistik 8.1 Gegenstand der Bevölkerungsstatistik 8.2 Erhebungsformen 8.3 Statistische Analyse der Bevölkerungszahl und-struktur 8.4 Statistische Analyse der Bevölkerungsbewegung 8.5 Bevölkerungsprognosen
126 126 127 130 135 142
9 Erwerbs- und Arbeitsmarktstatistik 9.1 Erfassung der Erwerbstätigkeit 9.2 Statistische Analyse der Erwerbsbeteiligung
146 146 149
10 Preisstatistik 10.1 Erhebungsprobleme der Preisstatistik 10.2 Berechnung der Preisindizes
158 158 161
11 Außenhandelsstatistik 11.1 Erhebungssysteme 11.2 Auswertungsmethoden der Außenhandelsstatistik
165 165 168
12 Produktionsstatistik 12.1 Erhebungssystem der Produktionsstatistik 12.2 Produktionsbegriff und Produktionswerte 12.3 Produktionsstatistische Verhältniszahlen und Indizes
173 173 174 176
Inhaltsverzeichnis 13 Volkswirtschaftliche Gesamtrechnung 13.1 Aufgabenstellung und historische Entwicklung 13.2 Grundlagen des europäischen Systems der volkswirtschaftlichen
Gesamtrechnung
13.3 Volkswirtschftliche Aggregate und Tabellemechnungen 13.4 Volkswirtschaftliche Kennzahlen 13.5
Input-Output-Rechnung
Teil C: 14 14.1 14.2 14.3 14.4 14.5 14.6
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeiten
Zufallsereignisse Die klassische Definition der Wahrscheinlichkeit Die Häufigkeitsdefinition der Wahrscheinlichkeit Die axiomatische Definition der Wahrscheinlichkeit Folgerungen aus den Axiomen Abhängigkeit von Ereignissen und bedingte Wahrscheinlichkeiten
VII
182 182 183 195 197 200 211 212 212 213 219 221 223 225
15 Zufallsvariablen und Verteilungen 15.1 Begriff der Zufallsvariablen 15.2 Wichtige Verteilungstypen 15.3 Verteilungen mehrdimensionaler Zufallsvariablen 15.4 Bedingte Verteilungen und Unabhängigkeit 15.5 Funktionen von Zufallsvariablen
230 230 237 249 255 257
16 16.1 16.2 16.3 16.4
260 260 264 265 269
Kennzahlen für Verteilungen Kennzahlen für eindimensionale Verteilungen Kennzahlen für zweidimensionale Verteilungen Kennzahlen für Funktionen von Zufallsvariablen Die Ungleichung von TSCHEBYSCHEFF
17 Approximation von Verteilungen 17.1 Das Gesetz der großen Zahl und der zentrale Grenzwertsatz 17.2 Faustregeln zur Approximation von Verteilungen
271 271 274
TeilD: Schließende Statistik
279
18 Grundeigenschaften von Stichproben 18.1 Grundbegriffe der Stichprobentheorie 18.2 Vor- und Nachteile von Stichprobenuntersuchungen 18.3 Einfache Zufallsstichproben 18.4 Stichprobenfunktionen und ihre Verteilungen
280 280 282 283 286
VIII
19 Punktschätzungen 19.1 Aufgabenstellung des Parameterschätzens 19.2 Qualitätseigenschaften von Schätzfunktionen 19.3 Gebräuchliche Schätzfunktionen und ihre Eigenschaften
290 290 291 294
20 Intervallschätzungen 20.1 Grundidee des Konfidenzintervalls 20.2 Spezielle Methoden der Intervallschätzung 20.3 Bestimmung des notwendigen Stichprobenumfangs
299 299 300 307
21 Signifikanztests 21.1 Testentscheidungen und Fehlerarten 21.2 Allgemeine Vorgehensweise bei Signifikanztests 21.3 Signifikanztests für eine einfache Zufallsstichprobe 21.4 Signifikanztests für verbundene Stichproben 21.5 Signifikanztests für mehrere unabhängige Stichproben 21.6 Gütefunktion und notwendiger Stichprobenumfang
310 310 312 315 322 331 343
22 Komplexere Stichprobenverfahren 22.1 Überblick 22.2 Geschichtete Stichproben
346 346 347 352 355
Anhang A.l Verteilungstabellen
358 358 368 370
22.3 22.4
Klumpenstichproben Hochrechnungsverfahren
A.2 Literaturverzeichnis A.3 Stichwortverzeichnis
Vorwort zur zweiten
Auflage
Lehrbuch richtet sich an Studierende im wirtschaftswissenschaftlichen Grundstudium und ist aus einem Skript zur statistischen Grundausbildung im Studiengang Betriebswirtschaftslehre an der Heimich-HeineUniversität Düsseldorf hervorgegangen. Die zugehörigen Veranstaltungen haben einen Umfang von insgesamt acht Semesterwochenstunden Vorlesungen und zwei Semesterwochenstunden Übungen ergänzt um zwei vertiefende Semesterwochenstunden Übungen am Computer. Sie werden im dritten und vierten Semester abgehalten und setzen ebenso wie dieses Buch Kenntnisse in Wirtschaftsmathematik voraus.
Das
vorliegende
-
-
-
Inhaltlich behandelt das Lehrbuch die folgenden Themenbereiche: beschreibende (deskriptive) Statistik, Wirtschafts- und Bevölkerungsstatistik, Wahrscheinlichkeitsrechnung sowie schließende Statistik (Stichprobentheorie). Im Gegensatz zu den meisten Lehrbüchern zur Statistik für Wirtschaftswissenschaftler enthält das Buch auch einen substanzwissenschaftlichen Teil, nämlich die Wirtschafts- und Bevölkerungsstatistik, der in die statistische Methodenlehre eingebettet ist. Der Bereich der Wirtschafts- und Bevölkerungsstatistik sollte unserer Meinung nach unbedingt zum statistischen Basiswissen gehören; er ist deshalb hinter der beschreibenden Statistik zu finden, weil einige Methoden beim Umgang mit der amtlichen Statistik bereits beherrscht werden müssen (wie z. B. Maßzahlen und Indextheorie). Das Buch kann allerdings auch ohne den Teil über die Wirtschafts- und Bevölkerungsstatistik durchgearbeitet werden, da die beiden letzten Teile hierauf nicht aufbauen.
Konzeptionell orientiert sich das Lehrbuch an unserer 1994 erstmals erschienen
Statistik-Aufgabensammlung^,
die ebenfalls die vier oben erwähnten Gebiete abdeckt. Die Gliederungspunkte beider Bücher sind soweit wie möglich aufeinander abgestimmt. Da die Aufgabensammlung parallel zum Lehrbuch verwendet werden soll, haben wir im Lehrbuch die Zahl der Beispiele stark beschränkt und keine Übungsaufgaben aufgenommen. Zur Erläuterung der Methoden benutzen wir soweit es die Verfahren erlauben ein durchgehendes ökonomisches Beispiel eines fiktiven Unternehmens, wobei die Berechnungen häufig auf den zuvor ermittelten Ergebnissen aufbauen. Dies gilt gleichermaßen für die Beispiele in der Wirtschafts- und Bevölkerungsstatistik, die anhand möglichst aktueller amtlicher Daten die Berechnung der wesentlichen wirt-
'
H. DEGEN & P. LORSCHEID:
Statistik-Aufgabensammlung.
-
X
Vorwort
schaftsstatistischen Ergebnisse vorstellen. Wir hoffen, durch die aufeinander aufbauenden Beispiele nicht nur den Zusammenhang zwischen den Methoden aufzeigen, sondern auch eine gewisse Motivation zur Vor- und Rückschau geben zu können. Denn detailliertes Formelwissen ist für das Verständnis der Statistik weit weniger entscheidend als das Erkennen von Zusammenhängen, Unterschieden und Gemeinsamkeiten der Verfahren, die sich erst aus einer Gesamtschau der Methoden ergeben. Die Texte des Lehrbuchs sind möglichst knapp gehalten, andererseits so ausführlich, dass sie in sich verständlich sein sollten. Formeln werden grundsätzlich erläutert meist unter Verzicht auf mathematisch-statistische Herleitungen. Dadurch ist das Lehrbuch sowohl zum Selbststudium als auch als Begleittext zum -
Besuch von Vorlesungen und Übungen geeignet.
Herrn Prof. Dr. Rainer Schlittgen danken wir für die Aufnahme des Lehrbuches und der Aufgabensammlung in die von ihm herausgegebene Reihe ,Lehr- und Handbücher der Statistik' und Herrn Dipl.-Volkswirt Martin Weigert vom Oldenbourg-Verlag für die gute Zusammenarbeit sowie für die weitgehende Freiheit bei der Gestaltung dieses Buches. Leider hatten sich trotz gewissenhafter Durchsicht in die Erstauflage Fehler eingeschlichen. Wir haben für die zweite Auflage die Gelegenheit genutzt, diejenigen Fehler zu korrigieren, die uns selbst aufgefallen sind oder die uns dankenswerterweise von Lesern unseres Buches mitgeteilt wurden.2 Horst Degen Peter Lorscheid
2
Soweit auch in dieser Neuauflage Fehler im Text verblieben sind, können uns diese unter der e-mailAdresse ,[email protected]' mitgeteilt werden. Eine jeweils aktuelle Fehlerliste findet sich auf unserer Internetseite ,www.wiwi.uni-duesseldorf.de/stat'.
0
Statistik historische Entwicklung und heutige Arbeitsgebiete
0.1
Der
-
Begriff,Statistik'
Ursprünglich wurde der Begriff, Statistik' zur Beschreibung der Verhältnisse im staatlichen Gemeinwesen benutzt; Gegenstand der Statistik war somit der ,Zustand des Staates'. Etymologisch konnte nicht eindeutig geklärt werden, ob das Wort direkt auf das lateinische ,status' (Stand, Zustand) zurückgeht oder auf die hieraus entlehnte Bezeichnung ,Staat'.1 Im Laufe der Zeit gesellten sich zu dieser ursprünglichen Bedeutung des Wortes ,
Statistik' andere hinzu:
# materiell: Eine Statistik' ist eine tabellarische oder grafische Darstellung von ,
zahlenmäßig erhobenen Daten oder von Ergebnissen statistischer Untersuchungen bestimmter Sachverhalte. • instrumental: ,Die Statistik' ist die Zusammenfassung von Methoden, die zur
zahlenmäßigen Untersuchung (Beschreibung, Analyse) von Massenerscheinungen dienen.
# institutionell: Begriffe wie ,Arbeitsmarktstatistik' oder ,Bankenstatistik' bezeichnen die an der Durchführung bestimmter statistischer Erhebungen beteiligten Bereiche oder Institutionen. • speziell: ,statistic' ist der englische Ausdruck für eine Stichprobenfunktion, der zum Teil auch im deutschen Sprachraum verwendet wird. Definitionen
von
Statistik
Diese Vielzahl von Bedeutungen des Begriffes Statistik' führte dazu, dass es kaum möglich ist, eine allgemein gültige Definition hierfür anzugeben. Jede Definition von Statistik ist darauf angewiesen, innerhalb dieser vielschichtigen Bedeutungen Schwerpunkte zu setzen. Eine Auswahl von unterschiedlichen Statistik-Definitionen bekannter Statistiker soll die verschiedenen Schwerpunkte verdeutlichen: ,
Dies liegt nicht zuletzt daran, dass im das gleiche Wort verwendet wird.
Englischen und Französischen bis heute für beide Bedeutungen
2
Einführung:
Horst Rinne: „Statistik als wissenschaftliche Disziplin ist die Lehre Umgang mit quantitativen Informationen."2
von
den Methoden zum
Peter Bohley: „Statistik entsteht und besteht aus dem Zählen und Messen und dem Aufbereiten von Dingen und Phänomenen, die wiederholt oder meist sogar massenhaft
auftreten."3
Josef
Bleymüller, Günther Gehlert & Herbert Gülicher: „Heute wird das Wort
Statistik' im doppelten Sinn gebraucht: Einmal versteht man darunter quantitative Informationen über bestimmte Tatbestände schlechthin, wie z. B. die Bevölkerungsstatistik' oder die .Umsatzstatistik', zum anderen aber eine formale Wissenschaft, die sich mit den Methoden der Erhebung, Aufbereitung und Analyse numerischer Daten ,
beschäftigt."4
Günter Bamberg & Franz Baur: „Statistik bedeutet die Gesamtheit der Methoden, die für die Gewinnimg und Verarbeitung empirischer Informationen relevant sind."5
Heinz-Jürgen Pinnekamp & Frank Siegmann: „Aufgabe der statistischen Methodenlehre ist es, allgemeine Grundsätze und Regeln zu formulieren, die es den jeweiligen Fachver-
(Technikern, Medizinern, Soziologen, Ökonomen etc.) erlauben, Datensätze so komprimieren und darzustellen, daß sie überschaubar werden."6 Werner Neubauer: „Statistik ist eine Methodik empirischer Erkenntnis von Massenerscheinungen, die quantifizierende, numerische Urteile über kategorial wohldefinierte tretern zu
Phänomene produziert."7
Jochen Schwarze: „In unserer Sprache hat das Wort Statistik' zwei, allerdings miteinander verwandte Bedeutungen. Einmal versteht man unter Statistik eine Zusammenstellung von Zahlen oder Daten, die bestimmte Zustände, Entwicklungen oder Phänomene beschreiben. [...] Die andere Bedeutung des Begriffs ,Statistik' umfaßt die Gesamtheit aller Methoden zur Untersuchung von Massenerscheinungen."8 ,
Werner Voss:
treffen."9
„Die Statistik dient dazu, Entscheidungen in Fällen
2
H. rinne: Taschenbuch der Statistik, s. 1.
3
p. bohley:
4
J.
5
g. Bamberg & f. Baur:
6
H.-J. pinnekamp & f. siegmann:
7
w. neubauer: Statistische
8
J. schwarze:
9
W. voss: Statistische Methoden und PC-Einsatz, s. 16.
Statistik, S.
von
Ungewißheit
1.
bleymüller, g. gehlert & H. gülicher: Statistikfür Wirtschaftswissenschaftler, S. Statistik, s.
1.
Deskriptive Statistik, s.
Methoden, s. 6.
Grundlagen der Statistik I, s.
11.
1.
1.
zu
0 Statistik -
historische Entwicklung und heutige Arbeitsgebiete_3
Volksmund: „Es
gibt drei Arten von Lügen: einfache Lügen, Notlügen und Statistiken."10
Angesichts dieser Anzahl und Vielfalt von Definitionen fällt es nicht leicht, sich für eine zu entscheiden. Alle angeführten Begriffsbestimmungen sind angemessen und heben dem jeweiligen Autor besonders wichtige Bestandteile des Begriffs Statistik' hervor. Eine knappe Formulierung, die alle im Rahmen dieses Buches wesentlichen Elemente enthält, haben wir in einem der großen Standard,
Lexika gefunden:"
BROCKHAUS-Lexikon: Statistik ist eine „methodische Hilfswissenschaft zur
zahlenmäßigen Untersuchung von Massenerscheinungen." Jedes einzelne Wort dieser Definition muss man sorgfältig lesen, um den Sinngehalt der Formulierung zu erkennen: ,Methodisch' bedeutet, dass die Vorgehensweise der Statistik in der planmäßigen Anwendung von Verfahren zur Lösung von Aufgaben besteht. ,Hilfswissenschaft' betont, dass statistisches Arbeiten kein Selbstzweck ist, sondern stets innerhalb einer bestimmten Fachdisziplin erfolgt. ,Zahlenmäßige Untersuchung' heißt, dass es bei der statistischen Arbeit vor allem um die quantitative Analyse von durch Zahlen geprägten Sachverhalten geht. Massenerscheinungen' schließlich weist darauf hin, dass Statistik sich grundsätzlich nicht mit Einzelfällen näher befasst, sondern stets die Bearbeitung (Beschreibung, Analyse, Interpretation) von großen Datenmengen zum Ziel hat. ,
0.2
Geschichte der Statistik
Als
(Hilfs-)Wissenschaft ist die Statistik erst im 20. Jahrhundert entstanden. Statistisches Arbeiten und Denken gibt es jedoch schon seit etwa 4000 Jahren in Form von agrar- und bevölkerungsstatistischen Erhebungen. Bei der geschichtlichen Entwicklung der Statistik bis ins 20. Jahrhundert hinein unterscheidet man üblicherweise vier große Phasen, die sich zum Teil zeitlich überschneiden:
10
Dies zeugt von dem großen Misstrauen gegenüber der Statistik, das in weiten Teilen der Bevölkerung herrscht, was nicht zuletzt darauf zurückzufuhren ist, dass schon bei der Definition des Begriffes große
Unsicherheiten auftreten. 11
Der
Große Brockhaus,
16. Aufl. 1957, Bd.
11, S. 178.
Einführung:
4
Praktische Statistik
ausgerichtet auf staatliche Phänomene und Bedürfnisse (gemeinsame Großbaustellen, Versorgungssicherung, Kriegsführung, fiskalische Zwecke). Volkszählungen zur Erfassung der arbeitsfähigen, waffentragenden und/oder steuerpflichtigen Männer waren in Ägypten seit 2500 v. Chr., in China seit 2200 Sie ist
Chr. und in Persien seit 500 v. Chr. üblich. Seit 435 v. Chr. wurden im römischen Reich Einkommens- und Vermögenslisten (,Zensus') eingeführt, die in einem Rhythmus von 5 Jahren (später 15 Jahren) erstellt wurden. Das Mittelalter war dagegen eine wenig statistikfreundliche Zeit. Es gab nur vereinzelt Zählungen (England 1086, Italien 1154, Dänemark 1231).
v.
Universitäts- und Kathederstatistik Es entstand eine erste Schule der Statistik (Coming 1606-1681) und damit eine Ausweitung und Systematisierung umfassender Staatsbeschreibungen in Italien, Holland und Deutschland zwischen dem 16. und 18. Jahrhundert (meist auf privater, d. h. universitärer Ebene). Statistik wird als ,Lehre von den Staatsmerkwürdigkeiten' betrachtet. Im Mittelpunkt stehen rein beschreibende Darstellungen ohne Zahlenangaben. Da er erstmals den Begriff,Statistik' verwendete, wurde der deutsche Historiker und Jurist GOTTFRIED ACHENWALL (1719-1772) auch Vater der Statistik' genannt und als Mitbegründer der wissenschaftlichen Statistik in die Lexika aufgenommen. Bei PLAYFAIR (1786) findet man erste Versuche einer übersichtlichen Darstellung mittels Tabellen und Schaubildern. Ende des 19. Jahrhunderts kam es zum Zusammenbruch der Staatenkunde, als sich die Wissenschaften immer mehr spezialisierten und verselbstständigten (National,
ökonomie, Geographie usw.). Erste staatliche statistische Ämter findet man in Schweden (1756), Frankreich (1796) und Bayern (1801). Bis 1870 kam es allgemein zur Institutionalisierung statistischer Ämter in allen europäischen Staaten. In Deutschland wurde im Jahre 1872 das Kaiserliche Statistische Amt gegründet. Seit 1880 erfolgte die regelmäßige Herausgabe des „Statistischen Jahrbuchs für das Deutsche Reich". Umfassende Volks-, Berufs- und Betriebszählungen fanden bereits in den Jahren 1882, 1895 und 1907 statt. Politische Arithmetik Sie entstand im 17. Jahrhundert unabhängig, aber auch als Gegenpol zur Universitätsstatistik und betonte die Erforschung der Bevölkerungsverhältnisse in Form einer mathematisch-statistischen Analyse, verbunden mit der Suche nach Regel-
0 Statistik -
historische Entwicklung und heutige Arbeitsgebiete
5
mäßigkeiten im Wirtschafts- und Sozialleben. Als wichtige Neuerung ist hier z. B. die Aufstellung von Sterbetafeln durch graunt (1662) und petty (1681) 1741 entwickelte der deutsche Statistiker und Nationalökonom JOpeter hann SÜßMILCH statistische Modelle der allgemeinen Bevölkerungsent-
zu nennen.
wicklung.
Wahrscheinlichkeitsrechnung Parallel zu den beiden letztgenannten Entwicklungen kam es zu einer Übertragung von Methoden der Wahrscheinlichkeitsrechung auf die Statistik. Statistik wird hier in erster Linie als Anwendungsgebiet der Stochastik (Zweig der angewandten Mathematik) betrachtet und damit die Grundlagen für die Entwicklung der analytischen Statistik gelegt. Dieser Zweig der Statistik hat vom 17. bis ins 20. Jahrhundert hinein die Geschichte der Statistik geprägt und in neuerer Zeit dominiert. Als wichtige Arbeiten in diesem Bereich gelten diejenigen von pascal (1623-1662), DeMoivre (1667-1754), J. Bernoulli (1654-1705), D. Bernoulli (1700-1782), Bayes (1702-1761), laplace (1749-1827), GAUß (17771855), quetelet (1796-1874), galton (1822-1911), pearson (1857-1936), Fisher (1890-1962), Kolmogoroff (1903-1987) und Wald (1903-1950). Statistik in der zweiten Hälfte des 20. Jahrhunderts Seit dem zweiten Weltkrieg hat sich mit dem Aufkommen des computergestützten Rechnens der Wissenschaftszweig Statistik außerordentlich schnell weiterentwickelt: Nichtparametrische Statistik [siegel (1956), BlCKEL und lehmann
(1975/76)], Explorative Datenanalyse [tukey (1977)]; Computerabhängige Methoden, wie z. B. das Bootstrappen [efron (1979)]; Ausbau multivariater statistischer Verfahren, wie z. B. der LISREL-Ansatz [jöreskog (1982)] um nur einige herausragende Entwicklungen zu nennen. Im Zentrum der Diskussion steht die Polarisierung zwischen konfirmatorischem (induktivem) und explorativem (deskriptivem) statistischen Denken, d. h. zwischen der Nutzung von Wahrscheinlichkeitsmodellen zur statistischen Prüfung vorgegebener Hypothesen einerseits und der hypothesenbildenden statistischen Datenanalyse andererseits. -
0.3
Arbeitsgebiete der Statistik
Die Arbeitsgebiete der Statistik gliedern sich in zwei Hauptbereiche: Einerseits handelt es sich um die Methodenlehre der Statistik, die statistische Verfahren und Techniken zur Analyse von Daten bereitstellt, ohne die Besonderheiten des
6
Einführung:
fachwissenschaftlichen Ursprungs der zu analysierenden Daten zu beachten. Mit der Umsetzung der statistischen Methodik im Rahmen der jeweiligen Fachgebiete (insbesondere Wirtschafts- und Bevölkerungswissenschaften, Medizin, Soziologie, Physik, Psychologie, Rechtswissenschaft, Biologie, technische Wissenschaften usw.) beschäftigen sich andererseits die fachbezogenen Statistiken, wobei es neben der Anpassung der statistischen Methodik an die speziellen fachbezogenen Bedürfnisse vor allem auf die Operationalisierung fachlicher Begriffe für eine statistische Arbeit ankommt. Statistische Methodenlehre Unter diesem Sammelbegriff fasst man sowohl die Entwicklung und Bereitstellung statistischer Techniken (Verfahren, Methoden, Prozeduren) als auch die mathematischen Beweisführungen für ihre Richtigkeit zusammen. Ebenfalls zählen die Beschreibung typischer Anwendungsbereiche und die Erläuterung von Anwendungsgrenzen dazu. Seit etwa 1980 ist im Zusammenhang mit der Entwicklung statistischer Auswertungssysteme und geeigneter Software die Zusammenarbeit zwischen Informatikern und Statistikern sehr eng geworden. Man unterscheidet traditionell folgende Teilgebiete der statistischen Methodenlehre:
• Beschreibende oder deskriptive Statistik: Hierunter versteht man nicht nur das Erheben, Ordnen, Aufbereiten und Darstellen von Datenmengen in Tabellen und Schaubildern, sondern auch das Berechnen von charakteristischen Kenngrößen und deren Interpretation. Dabei beziehen sich Aussagen und Ergebnisse stets nur auf die untersuchten Daten. Seit den Arbeiten von J. W. TUKEY Ende der 70er Jahre ist zusammen mit der deskriptiven Statistik auch die so genannte explorative Datenanalyse (EDA) zu erwähnen.
Wahrscheinlichkeitsrechnung: Sie ist ein Teilbereich der Mathematik, der als Bindeglied zwischen beschreibender und schließender Statistik dient. Die Untersuchung stochastischer Vorgänge mit Hilfe von Zufallsmodellen und darauf basierenden Zufallsvariablen steht im Mittelpunkt. • Schließende, induktive, inferentielle oder analytische Statistik (Stichprobenverfahren): Meist findet man die angeführten Bezeichnungen alternativ und gleichwertig nebeneinander. Allen ist gemeinsam, dass aufgrund der deskriptiven Untersuchung eines Teils der Datenmenge (Stichprobe) von einer Teilmasse Rückschlüsse auf die zugrunde liegenden Gesetzmäßigkeiten in der Gesamtmasse gezogen werden sollen. Regeln aufzustellen für das stichprobenbasierte Schätzen unbekannter Parameter, Testen von Hypothesen und Fällen optimaler Entscheidungen sind die wichtigsten Aufgaben in diesem Bereich der Statistik. •
0 Statistik -
historische Entwicklung und heutige Arbeitsgebiete
7
Angewandte Statistiken Hierunter versteht man die sogenannte praktische Statistik für spezielle Fachgebiete. Dies meint nicht nur die Anwendung der statistischen Methoden, sondern auch die Operationalisierung der verwendeten Begriffe. Zu diesem Zweck wird die praktische Statistik sehr tief gegliedert, z. B. die Wirtschaftsstatistik in betriebliche und amtliche Statistik, und dort weiter in institutionelle Ressorts (Agrarstatistik, Bankenstatistik, Industriestatistik, Verkehrsstatistik) und funktionelle Ressorts (Erwerbsstatistik, Preisstatistik, Außenhandelsstatistik, Einkommens- und Verbrauchsstatistik, Finanzstatistik, Statistik des produzierenden Gewerbes und volkwirtschaftliche Gesamtrechnung). Im Mittelpunkt steht die umfassende, kontinuierliche und aktuelle Information über wirtschaftliche, soziale und ökologische Zusammenhänge. Wegen der großen Bedeutung wird in den Industrieländern seit Beginn des 19. Jahrhunderts auch die Bevölkerungsstatistik in enger Verbindung mit der Wirtschaftsstatistik als Teil der amtlichen Statistik geführt.
0.4 Phasen des statistischen Arbeitens Der Ablauf des statistischen Arbeitens umfasst sämtliche Phasen einer Studie, ausgehend von den ersten Vorüberlegungen über die eigentliche statistische Datenanalyse bis zur Interpretation der Ergebnisse. Im Einzelnen unterscheidet man folgende fünf Phasen:
# Vorbereitung und Planung: Zunächst muss eine Präzisierung der Ziele erfolgen, die mit der Untersuchung verfolgt werden. Hieraus ist eine sachliche, räumliche und zeitliche Abgrenzung des Problems und damit des Datenbedarfs abzuleiten. Insbesondere ist festzulegen, wie viele Objekte bzw. Fälle untersucht werden sollen. Dabei müssen auch die technisch-organisatorischen Abläufe der Untersuchung und ihre Kosten berücksichtigt werden. # Datenerfassung: Hierunter versteht man die Gewinnung des statistischen Datenmaterials durch eine eigene Erhebung (Primärstatistik) oder durch den Rückgriff auf vorhandenes, für einen anderen Untersuchungszweck erhobenes Datenmaterial (Sekundärstatistik). Primärstatistiken können genau auf das jeweilige Untersuchungsziel abgestellt werden, sind jedoch i. d. R. auch teurer als Sekundärstatistiken. Bei einer Primärstatistik unterscheidet man weiter zwischen Voll- und Teilerhebung. Vollerhebungen sind wegen der größeren Zahl von zu untersuchenden Einheiten kostspieliger und zeitraubender als Teilerhebungen.
8
Einführung:
Demgegenüber sind Vollerhebungen nicht notwendigerweise genauer in den Ergebnissen als Teilerhebungen, was u. a. daran liegt, dass man angesichts der geringeren Anzahl von zu untersuchenden Einheiten in einer Teilerhebung bei der Bearbeitung der einzelnen Einheiten mehr Sorgfalt walten lassen kann. Die Techniken der Teilerhebungen sind vielfältig und werden im Rahmen der ,Stichprobentheorie' ausführlich besprochen. Die Erhebung selbst erfolgt entweder durch Experiment, durch automatisches Erfassen, durch Beobachtung oder durch mündliche bzw. schriftliche Befragung. • Datenkontrolle und -aufbereitung: Zunächst wird eine Kontrolle des Datenmaterials auf sachliche Richtigkeit (Plausibilitätskontrolle), Vollzähligkeit und Vollständigkeit durchgeführt. Das erklärte Ziel ist die Umwandlung des durch die Erhebung gewonnenen Urmaterials zu Aussagen über die zugrunde liegende Datenstruktur. Dazu werden die ungeordneten Daten verschlüsselt, sortiert und eventuell zu bestimmten Gruppen (Klassenbildung) zusammengefasst, um für die Anwendung statistischer Methoden vorbereitet zu sein. Gegebenenfalls sind auch Transformationen der Daten notwendig (z. B. Wechselkursumrechnungen, Veränderung der Skalenform). • Datenauswertung und -analyse: Den Kern des statistischen Arbeitens bildet die Untersuchung des Datenmaterials mit Hilfe geeigneter statistischer Methoden. Hier kommen die Verfahren der deskriptiven und analytischen Statistik zum Einsatz. Die Arbeit in dieser Phase wird meist mit Hilfe von speziellen rechnergestützten Statistik-Programmpaketen durchgeführt. Gegenwärtig gibt es mehr als 200 kommerziell angebotene Programme, z. B. SPSS, SAS, S-PLUS, ISP.'2 • Datenpräsentation und Interpretation: Die Darstellung der Ergebnisse in Tabellen und statistischen Schaubildern wird ebenfalls von rechnergestützten Programmen übernommen und dient als Ausgangspunkt für eine Interpretation der gefundenen Resultate. Vor allem bei der Interpretation sollte der Statistiker auf die Mithilfe von Experten der jeweiligen Fachdisziplin zurückgreifen. In allen fünf Phasen des statistischen Arbeitens können Fehler gemacht II werden (von einer falschen Einschätzung der Problemlage bis zu fehlerhaften Interpretationen der Resultate). "
12
Zu einer vergleichenden Übersicht vgl. G. BAMBERG & F. BAUR: Statistik,
Kapitel 20.
Teil A
Beschreibende Statistik beschäftigt sich, so die in Kapitel 0 gegebene Definition, mit der „zahlenmäßigen Untersuchung von Massenerscheinungen". Eine solche Untersuchung bedingt offenbar, dass Daten in großen Mengen anfallen, die aufgrund ihres Umfangs einer unmittelbaren inhaltlichen Erfassung durch den Menschen nicht mehr zugänglich sind. Deshalb ist es unabdingbar, den Informationsgehalt der Daten in wenigen aussagekräftigen Zahlen und Grafiken zu verdichten: Maßzahlen für die Lage sollen die Größenordnung der erhobenen Werte wiedergeben, Streuungsmaße die Variationsbreite der Werte charakterisieren, Korrelationskoeffizienten den Zusammenhang der Beobachtungswerte für Statistik
verschiedene Sachverhalte kennzeichnen.
Die sachgerechte Verdichtung der erhobenen Beobachtungswerte erfordert fundiertes Wissen über die Eigenschaften und Anwendungsvoraussetzungen der unterschiedlichen Methoden, welche die beschreibende Statistik zur Bewältigung dieser Aufgabe anbietet. Dieses Wissen stellt die Basis für eine angemessene Interpretation der statistischen Ergebnisse dar.
1
Grundbegriffe der Statistik
1.1
Statistische Massen
Statistische Untersuchungen haben häufig Massenerscheinungen zum Gegenstand, die jedoch sehr unpräzise beschrieben sein können, wie Wirtschaftswachstum, Arbeitslosigkeit oder Umweltverschmutzung. Wie misst oder zählt man z. B. ,Umweltverschmutzung'? Zunächst müssen geeignete statistische Massen definiert werden, die den zu untersuchenden Begriff den statistischen Methoden zugänglich machen. Bei der statistischen Untersuchung von 'Umweltverschmutzung' müssen zähl- oder messbare statistische Massen gefunden werden: Gewässer verschiedener Wassergüteklassen, Schwefeldioxidmengen in der Luft, Investitionen für Lärmschutz, Primärenergieverbräuche der Einwohner. Welche Daten jeweils verwendet werden sollten, ist im Einzelfall zu klären. sich den Methoden zur Untersuchung von Daten zuwendet, ist zu klären, auf welche Weise Daten überhaupt entstehen, d. h. erfassbar und messbar werden. In diesem Zusammenhang sind einige Begriffe zu erläutern: Bevor
man
Statistische Einheit Eine statistische Einheit ist ein Einzelobjekt einer statistischen Untersuchung, das Träger der Information(en) ist, für die man sich interessiert (Merkmalsträger). Statistische Masse Eine statistische Masse ist die Zusammenfassung aller in Verbindung mit dem Untersuchungsziel interessierenden statistischen Einheiten mit (mindestens) einer übereinstimmenden Eigenschaft, die durch sachliche, räumliche und zeitliche Abgrenzung exakt beschrieben und somit von den in diesem Zusammenhang nicht zu berücksichtigenden statistischen Einheiten deutlich zu unterscheiden sind.
Beispiel 1.1
Bei der statistischen Untersuchung eines Unternehmens kommen als statistische Massen beispielsweise der Personalbestand, der Materialbestand, der Auftragsbestand, aber auch die Gesamtheit der Zahlungsein- oder -ausgänge des Unternehmens in Betracht. Die einzelnen Beschäftigten, Materialien, Aufträge bzw. Zahlungsvorgänge bilden jeweils die einzelnen
statistischen Einheiten.
1
Grundbegriffe der Statistik
11
Die Abgrenzung der statistischen Massen muss in zeitlicher, räumlicher und sachlicher Hinsicht erfolgen, so dass fur jede statistische Einheit unzweifelhaft ist, ob sie zur fraglichen statistischen Masse gehört oder nicht. Beim Personalbestand ist in zeitlicher Hinsicht ein Zeitpunkt (d. h. ein Stichtag) festzulegen, zu dem die statistische Masse erhoben werden soll. Die räumliche Abgrenzung besteht in der Definition des Unternehmens selbst; fur die sachliche Abgrenzung des Unternehmens ist der Begriff,Personal' zu definieren: Gehören zum Personal z. B. auch die Teilzeitbeschäftigten, die Unternehmenseigner und die in Erziehungsurlaub befindlichen Personen?
Nach der Art der zeitlichen Abgrenzung lassen sich die statistischen Massen in zwei Grundtypen untergliedern: Haben die Einheiten einer statistischen Masse nebensind sie von Dauer und können zu einem bestimmten Zeitpunkt (Punktmasse) durch eine statistische Erhebung erfasst werden. In Beispiel 1.1 ist dies beim Personalbestand, Materialbestand und Auftragsbestand der Fall. • Bestandsmassen
einander Bestand,
(stock):
so
Bewegungsmassen (flow): Ereignisse können dagegen nicht stichzeitmäßig erfasst werden, da sie im Allgemeinen nicht in genügender Anzahl gleichzeitig auftreten. Diese Ereignismassen müssen innerhalb eines längeren Zeitabschnittes
•
durch laufende Registrierung der betreffenden Ereignisse erfasst werden. In Beispiel 1.1 handelt es sich bei den Zahlungsein- und -ausgängen um Bewegungsmassen.
Veränderungen der Bestandsmassen im Zeitablauf ergeben sich ebenfalls aufgrund von Bewegungsmassen, beim Personalbestand beipielsweise handelt es sich dabei um Kündigungen, Neueinstellungen usw. Zu jeder Bestandsmasse lassen sich Bewegungsmassen angeben, aufgrund derer sich der Bestand der Bestandsmassen im Zeitablauf ändert. Für die Bestandsmasse kann ausgehend von ihrem Anfangsbestand über die zugehörigen Bewegungsmassen mittels Fortschreibung der Bestand zum Endzeitpunkt ermittelt werden, auch wenn für diesen Endzeitpunkt keine erneute Erhebung vorliegt:
(1.1)
nt
=
nt_x
+
z,_,
,
-
a,_u.
Dabei bezeichnen nt den Umfang der Bestandsmasse zum Zeitpunkt t, z(_, ( den den Umfang der Bewegungsmasse der Zugänge zwischen t-l und t und / Umfang der ensprechenden Bewegungsmasse der Abgänge. Bei der Fortschreibung ist jedoch zu berücksichtigen, dass die Ungenauigkeit der Ergebnisse, die man mittels Fortschreibung erhält, mit dem zeitlichen Abstand zur letzten Erhebung der Bestandsmasse ansteigt, da sich Fehler bei der Erhebung der Bewegungsmassen mit der Fortschreibung der Bestandsmasse kumulieren.
Teil A: Beschreibende Statistik
12
1.2 Statistische Merkmale Nach der Abgrenzung einer statistischen Masse müssen nun noch die erhebenden Untersuchungstatbestände genau umrissen werden:
an
ihr
zu
Merkmal Die Eigenschaft einer statistischen Einheit (Merkmalsträger), für die man sich im Rahmen der statistischen Untersuchung interessiert, heißt Merkmal. An einer statistischen Masse können mehrere Merkmale gleichzeitig untersucht werden.
Merkmalsausprägung Merkmalsausprägung versteht man eine der grundsätzlich möglichen Ausformungen eines Merkmals bei einem Merkmalsträger. Dies betrifft sowohl die verschiedenen Zahlen, die ein quantitatives Merkmal annehmen kann, als auch die unterschiedlichen Kategorien, die bei einem qualitativen Merkmal auftreten können. Beobachtungswert Die bei der statistischen Untersuchung an einer bestimmten statistischen Einheit (Merkmalsträger) einer statistischen Masse hinsichtlich eines bestimmten Merkmals festgestellte Merkmalsausprägung heißt Beobachtungswert. Beobachtungswerte sind der Ausgangspunkt für sämtliche Anwendungen statistischer
Unter einer
Methoden.
Bei einer statistischen Erhebung wird an sämtlichen n statistischen Einheiten einer statistischen Masse ein Merkmal X beobachtet, d. h., an jeder Einheit wird die Ausprägung dieses Merkmals festgestellt. Sind ava2,...,ak die möglichen Ausprägungen des Merkmals X, so wird der i -ten statistischen Einheit (/= 1,2,...,«) seine Ausprägung a. als Beobachtungswert jc( zugeordnet:
(1.2)
x.
=
a//)-
Die insgesamt n Beobachtungswerte xvx2,...,xn heißen Urliste. Die Urliste umfasst i. d. R. so viele Daten in ungeordneter Form, dass die Übersichtlichkeit nicht mehr gewährleistet ist. Eine gewisse Abhilfe kann hier die geordnete Urliste bringen, bei der sämtliche in der Urliste vorkommenden Merkmalsausprägungen der Größe nach sortiert sind:
(1.3) x(l)
°k
=
ak+{dV 2
dk=0ruk-
Wenn nach der Klassenbildung nur noch die klassierten Daten vorliegen, besitzt man keine Informationen mehr über die Verteilung der Beobachtungswerte innerhalb der Klassen. Man unterstellt dann als naheliegende Annahme eine der beiden Arbeitshypothesen, dass alle Beobachtungswerte, die in eine Klasse fallen, sich entweder gleichmäßig über diese Klasse verteilen oder sich auf den Punkt der Klassenmitte konzentrieren. Bei der Festlegung der Klassengrenzen sollte die Gesamtzahl K der zu bildenden Klassen wesentlich kleiner als n sein, andernfalls würde sich eine Klassenbildung erübrigen. Zudem sollten die Klassen (vor allem im Hinblick auf grafische Darstellungsmöglichkeiten) möglichst gleich breit gewählt werden. II
Konstante Klassenbreiten führen jedoch immer dann zu Verzerrungen, wenn hierdurch homogen besetzte Intervalle zerschnitten und heterogene Bereiche zusammengefasst werden. Auch wenn in bestimmten Bereichen sehr dünne Klassenbelegungen auftreten, sollten ungleiche Klassenbreiten, d. h. breitere Klassen bei Bereichen mit geringerer Anzahl von Merkmalsausprägungen, verwendet werden. So empfiehlt es sich beispielsweise bei der Klassenbildung für das Jahreseinkommen von Steuerpflichtigen im oberen Einkommensbereich breitere Klassen zu wählen.
Die Klassen werden links von der Form:
(1.5) Ik
=
[a/
1 -
geschlossen und rechts offen gewählt,
dk ; «;
+
1
dk)
=
[uk ; ok).
d.
h., sie sind
1
Grundbegriffe der Statistik
19
Diese Regel besagt, dass alle Werte von uk (inklusive) bis unter ok> d. h. ok selbst exklusive, zur Klasse Ik gehören. Auch die Klassen an den unteren und oberen Enden des Gesamtintervalls sollten möglichst nicht offen bleiben, sondern mit sachlogisch vernünftigen Werten geschlossen werden (Problem so genannter offener Randklassen). Falls gleiche Klassenbreiten vorliegen, kann meist empfohlen werden, die offenen Randklassen ebenfalls mit entsprechend identischer Klassenbreite zu schließen. zu bildenden Klassen steht im gegenläufigen Verhältnis zum Informationsverlust durch den Übergang zu klassierten Daten, da nach der Klassenbildung keine Aussage mehr darüber möglich ist, wie die Beobachtungswerte innerhalb der Klassen verteilt sind. Eine zu große Klassenanzahl führt nicht zu der mit der Klassenbildung bezweckten Informationsverdichtung. Eine zu geringe Anzahl an Klassen verschleiert möglicherweise die charakteristische Struktur der ursprünglichen Verteilung der Merkmalsausprägungen. Sofern die Aufgabenstellung nicht bereits eine feste Anzahl von Klassen vorgibt, fallt diese Entscheidung in den Gestaltungsrahmen des Statistik-Anwenders. Die Klassenbildung ist jedoch stets so vorzunehmen, dass die ursprüngliche Struktur der Daten möglichst wenig verändert wird, d. h. dass der Informationsverlust gering ausfällt. Folgende Faustregeln können einen Anhaltspunkt liefern: Die Anzahl der zu bildenden Klassen bei bis zu 100 Beobachtungswerten sollte nicht größer sein als die Quadratwurzel aus der Zahl der Be-
Die Anzahl der
-
obachtungswerte.
-
-
II
Nach STURGES sind bei n Beobachtungswerten bis zu 1 +3,31og(«) Klassen zu bilden. Nach DIN 55302 (Blatt 1) sind bei 100 Beobachtungswerten mindestens 10, bei 1.000 mindestens 13, bei 10.000 mindestens 16 Klassen zu bilden. Bei diesen Regeln wird grundsätzlich davon ausgegangen, daß alle Beobachtungswerte verschieden sind. Wenn nur wenige Merkmalsausprägungen mit großen absoluten Häufigkeiten vorkommen, lassen sich die Regeln in der beschriebenen Weise nicht anwenden!
Eine besondere Form der Klassenbildung ist die Erstellung einer Systematik, die bei nominalskalierten Merkmalen angewendet wird, wenn diese eine große (vielfach praktisch unendliche) Anzahl möglicher Merkmalsausprägungen zulassen. Für derartige Merkmale ist nur dann eine statistische Analyse möglich, wenn ähnliche Ausprägungen zusammengefasst werden. Dabei bildet man oft eine hierarchische Struktur, wobei zunächst nur sehr ähnliche Ausprägungen zusammengruppiert und diese auf höheren Stufen weiter zusammengefasst werden.
20
Teil A: Beschreibende Statistik
Derartige Systematiken treten u. a. in der Wirtschaftsstatistik auf, wenn nominal-
skalierte Merkmale wie die Warenart, der Beruf oder die Branche, in der ein Unternehmen arbeitet, statistisch zu erfassen sind (vgl. auch Beispiel 7.3).
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
2.1
Absolute und relative
Häufigkeiten
Die Anzahl der Beobachtungswerte xj in der Urliste (vom Umfang n), die mit der Merkmalsausprägung a. übereinstimmen, nennt man absolute Häufigkeit von Oj. Sie wird mit h(a) bezeichnet. Dabei gilt: k
(2.1)
A(a,)
*
Ka2)
+
+
...
h(ak)
=
£ h{a)
=
n.
H
Da die absoluten Häufigkeiten stark vom Umfang n der Erhebung abhängen, eignen sie sich nicht zum Vergleich von Erhebungen unterschiedlichen Urafanges. Daher geht man zu einem Häufigkeitsmaß über, das unabhängig vom Umfang n ist, zur relativen Häufigkeit:
(2.2)
fia)
=
-
Ka)
für/ 1,2,...,Ä:. =
Die relative Häufigkeit gibt den Anteil der Beobachtungswerte an, welche die Merkmalsausprägung a. aufweisen. nimmt unabhängig von n stets Werte zwischen null und eins an. Die Summe der relativen Häufigkeiten ist stets
fia)
f{a)
gleich eins: (2.3)
£ fia )
=
1.
7-1
Häufig werden die relativen Häufigkeiten mit 100 % multipliziert und als relativ prozentuale Häufigkeiten angegeben. Diese nehmen entsprechend Werte zwischen 0 und 100 Prozent an.
Man gewinnt die absoluten und relativen Häufigkeiten einer Strichliste. Die
am
besten durch Anlegen
Folge der Zahlen h{ax),h(a2), ...,h{a^ nennt man die absolute Häufigkeitsverteilung des beobachteten Merkmals. Analog sind die relative und die relativ prozentuale Häufigkeitsverteilung definiert. Bei ordinalen und metrischen Merkmalen ist es zu empfehlen, zur Ermittlung der Häufigkeitsverteilung die Merk-
Teil A: Beschreibende Statistik
22
malsausprägungen ava2,...,ak der Größe nach zu ordnen, wobei mit der kleinsten Merkmalsausprägung begonnen wird. Bei gruppierten, d. h. in Klassen eingeteilten Daten treten die Klassen /,,/2, ;IK an die Stelle der Merkmalsausprägungen, so dass nun zur Ermittlung der Häufigkeiten festzustellen ist, wie viele Beobachtungswerte jeweils in die einzelnen Klassen fallen.
Beispiel 2.1
Tarifvertrag der Arbeitnehmer der Statistik AG sieht die Tarifgruppen 1 bis 8 vor. Eine Erhebung der Tarifgruppen, des Alters und des Geschlechts der insgesamt 20 Mitarbeiterinnen und Mitarbeiter der EDV-Abteilung des Unternehmens hat folgendes Ergebnis erbracht (angegeben sind jeweils untereinander die Tarifgruppe in Zahlen von 1 -8, das Geschlecht, wobei Der
,m' für männlich und ,w' für weiblich stehen, sowie das Alter in Jahren):
12432152632127321432 mwmmwmmwmmmwwmmwmmwm
21
37 30 35
25 44 52 40 60 33
22 27 35
Die Auswertung der Häufigkeiten des Merkmals
AGm')=13, Ä(.w')=7;
55 40 22
18
46 44 28
.Geschlecht' bringt folgendes Ergebnis:
/,m>^=0,65, y(,w')=^=0,35.
ergeben sich folgende Häufigkeiten: /i(l)=4, /i(2)=7, ä(3)=4, ä(4)=2, a(5)=l, ä(6) 1, fc(7)=l, a(8)=0; =0,20, /(4)=-=0,10, y(2)=—=0,35, ß3)=— 7(l)=-=0,20, 20 20 20 20 /8)=-°-=0,00. fll)=±=Q,05, y(5)=_L=0,05, y(6)=-=0,05, 20 20 20 20
Beim Merkmal,Tarifgruppe'
=
JK
'
Für das Merkmal .Alter' bietet es sich an, wegen der Vielzahl der möglichen Merkmalsausprägungen und der Tatsache, dass bei den meisten der möglichen Merkmalsausprägungen keine Häufungen auftreten, Klassen zu bilden und zu den Klassenhäufigkeiten überzugehen. Die erste Klasse kann sinnvollerweise bei 15 Jahren geöffnet, die letzte Klasse bei der Altersruhegrenze von 65 Jahren geschlossen werden. Man erhält damit im 10-Jahres-Abstand die folgenden äquidistanten Klassen:
[15;25), [25; 35), [35;45), [45; 55), [55;65). Häufigkeiten: /z([15;25))=4, Ä([25;35))=5, Ä([35;45))=7, Ä([45;55))=2, Ä([55;65))=2;
Hierfür ergeben sich folgende
X[15;25))=^=0,20,7([25;35))=A=0)25, y([35;45))=^=0,35, X[45;55))=^=0,10,X[55;65))=^=0,10.
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
23
2.2 Kumulierte Häufigkeiten Bei
die sich ordnen
lassen, werden oft Fragen gestellt, wie viele unterhalb oder oberhalb einer bestimmten MerkBeobachtungswerte insgesamt Zu diesem Zweck definiert man absolute und relative malsausprägung liegen. kumulierte Häufigkeiten. Man bestimmt für jede mögliche Merkmalsausprägung die Anzahl aller Beobachtungswerte, die diese Ausprägung oder einen kleineren Wert annehmen. Die kumulierte absolute Häufigkeit ist definiert als:
Merkmalen,
H(ap
(2.4)
H{a)
=
£
Ha),
;
=
l,2,...,/c.
Entsprechend berechnet man die kumulierte relative Häufigkeit F{a) (bzw. mit 100% multipliziert die kumulierte relativ-prozentuale Häufigkeit): (2.5)
F(a)
=
£ fia) £
I Ha)
=
i-i
=
H(a,), j 1,2,...,*. =
n
n
m
-
Beispiel 2.2
Da das Merkmal .Geschlecht' aus Beispiel 2.1 nicht mindestens ordinales Skalenniveau aufweist, ist die Bildung kumulierter Häufigkeiten hier nicht sinnvoll. Für das Merkmal .Tarifgruppe' ergeben sich folgende kumulierte absolute Häufigkeiten:
#(1)=4, ff(2)=ll, ff(3)=15, H(4) 17, /7(5) 18, //(6) 19, /7(7)=20, tf(8)=20. Für die kumulierten relativen Häufigkeiten ergibt sich entsprechend (nach Division durch die Gesamthäufigkeit 20): F(l)=0,20, F(2)=0,55, F(3)=0,75, F(4)=0,85, F(5)=0,90, F(6)=0,95, F(7) l,00, F(8) l,00. Für das klassierte Merkmal Alter' sollen nur noch die kumulierten relativen Häufigkeiten betrachtet werden. An den Klassengrenzen ergeben sich folgende Werte: F( 15) =0,00, F(25)=0,20, F(35)=0,45, F(45)=0,80, F(55)=0,90, F(65) l,00. =
=
=
=
=
,
=
2.3
Quantile von Häufigkeitsverteilungen
Im Falle mindestens ordinalen Skalenniveaus des betrachteten Merkmals, d. h. wenn das Bilden kumulierter Häufigkeitsverteilungen sinnvoll ist, interessiert man sich vielfach auch für die umgekehrte Fragestellung: An welcher Stelle
Teil A: Beschreibende Statistik
24
erreicht bzw. überschreitet die kumulierte relative Häufigkeit einen vorgegebenen Wert ae(0;l)? Eine Merkmalsausprägung xa wird dementsprechend als aPunkt oder a-Quantil der Häufigkeitsverteilung bezeichnet, wenn die relative Häufigkeit der Beobachtungswerte, die kleiner oder gleich xa sind, mindestens a und diejenige der Beobachtungswerte, die größer oder gleich a sind, mindestens 1 -a
beträgt.
Ausgangspunkt der Bestimmung der Quantile ist die so genannte geordnete Urliste x(1)
x0 2$ 26, =
-
=
*(15)=*(16)=44,
x05=35,
*
*o,75=^-
"*
Verwendet man beim Merkmal ,Alter' die Klasseneinteilung gemäß Beispiel 2.1, so sich aufgrund der kumulierten Klassenhäufigkeiten folgende feinberechnete Quartile:
F(25)=0,20, F(35) 0,45 =
F(35)=0,45, F(45)=0,80 F(35) 0,45, F(45)=0,80 =
-
-
-
x*0,25 je*05
x0*7, 0,75
=
=
=
25 35 35
+
+
+
°'25 0,45 0,5 0,80 °'75 0,80
'
-
"
-
"
°'2° 0,20 0,45 0,45 °'45 0,45
•
(35
ergeben
25)
=
27,0;
35)
=
36,4;
35)
=
43,6.
-
•
(45 -
(45 -
-
2.4 Tabellarische Darstellung von
Häufigkeiten
Im Anschluss an die Berechnung der Häufigkeiten gilt es, diese in übersichtlicher Form darzustellen. Grundsätzlich sind hierbei zwei Arten zu unterscheiden: die tabellarische und die grafische Darstellung. Der Vorteil der tabellarischen
ihrer Übersichtlichkeit und der Möglichkeit, eine Vielzahl von Detailinformationen wiederzugeben. Demgegenüber ist der Vorteil der im nächsten Abschnitt vorgestellten grafischen Darstellung ihre größere Anschaulichkeit bei Verzicht auf detailierte Informationen.
Darstellung liegt in
Die Übersichtlichkeit einer Tabelle ergibt sich aus ihrem klaren Aufbau, der beispielsweise in der DIN 55301 geregelt ist. Jede Tabelle besteht aus einem Textund einem Zahlenteil. Zum Textteil gehören Überschrift, Tabellenkopf, Vorspalte, Quellenangaben und Fußnoten; zum Zahlenteil gehören Zeilen, Spalten, Tabellenfelder, Summenzeilen und Summenspalten. Durch diesen Aufbau sind
26
Teil A: Beschreibende Statistik
Überschrift
Ergänzungen zur Überschrift *)
Tabellenkopf Spalte
Vorspalte
1
Spalte 2
Sunrmenspalte
Zeile 1
Tabellenfeld
Tabellenfeld
Zeilensumme
Zeile 2
Tabellenfeld
Tabellenfeld
Zeilensumme
Zeile 3
Tabellenfeld
Tabellenfeld
Zeilensumme
Spaltensumme *) Fußnote: Quellenangabe; gegebenenfalls weitere Erläuterungen Spaltensumme
Summenzeile
Abbildung 2.1
Gesamtsumme
Mustertabelle
Tabellen im Gegensatz zu Grafiken auch gut zur Darstellung zweidimensionaler Häufigkeiten geeignet, die in Kapitel 4 vorgestellt werden. Der grundsätzliche Tabellenaufbau lässt sich der Mustertabelle in Abbildung 2.1 entnehmen. -
-
Beim Anfertigen von Tabellen ist auf Übersichtlichkeit, leichte Lesbarkeit und unmissverständliche Bezeichnung zu achten. In der amtlichen Statistik werden zur Bezeichnung besonderer Sachverhalte die in der folgenden Tabelle dargestellten Symbolefür Tabellenfelder verwendet. Deren Verwendung ist zwar für die nichtamtliche Statistik nicht vorgeschrieben, kann aber zum Teil sinnvoll sein. Tabelle 2.1 Besondere
Symbol 0
Symbole in Tabellen der amtlichen Statistik
Bedeutung des Symbols weniger als die Hälfte von eins in der letzten besetzten Stelle, jedoch mehr als null
/
nichts vorhanden (Zahlenwert genau gleich null) Angabe fallt später an Angabe entfallt, da Zahlenwert nicht sicher genug Zahlenwert unbekannt oder geheimzuhalten Aussagewert des eingeklammerten Zahlenwerts eingeschränkt (Wert ist statistisch relativ unsicher)
grundsätzliche Änderung innerhalb der Datenreihe, die den zeitlichen Vergleich beeinträchtigt Zahlenwert xist vorläufig
Xr x
Zahlenwert x wurde berichtigt Tabellenfeld gesperrt, da gemäß Sachverhalt nicht
sinnvoll_
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
27
Beispiel 2.4
Die in Beispiel 2.1 berechneten absoluten und relativen Häufigkeiten des klassierten Merkmals Alter' lassen sich wie folgt tabellarisch darstellen: ,
Personalerhebung der DV-Abteilung der Statistik AG: Absolute und relative Häufigkeiten des Merkmals Alter' Altersklasse absolute relative Häufigkeit (in %) Häufigkeit ,
15 bis unter 25 25 bis unter 35 35 bis unter 45 45 bis unter 55 55 bis unter 65
4 5 7 2 2
20 25 35 10 10
insgesamt
20
100
2.5 Grafische
Darstellung von Häufigkeiten
grafische Darstellung statistischer Daten bezeichnet man als statistisches Schaubild. Statistische Schaubilder können einfache statistische Ergebnisse klar und einprägsam veranschaulichen. Dennoch ersetzen Schaubilder i. d. R. keine Tabelle, sondern ergänzen sie. Voraussetzung für die Verwendng statistischer Schaubilder ist die Beschränkung auf wenige Daten, die durch Verwendung geDie
eigneter grafischer Mittel zu visualisieren sind. Für die meisten Schaubilder stellt das ebene, rechtwinklige Koordinatensystem einen äußeren Bezugsrahmen dar. Ein derartiges Koordinatensystem ergibt sich, wenn sich zwei Skalen senkrecht schneiden. Der Schnittpunkt der beiden Skalen (Geraden) heißt Koordinatenursprung. Folgende Faustregeln basieren z. T. auf der DIN-Norm 461 „Graphische Darstellung in Koordinatensystemen": An den Enden der Achsen des Koordinatensystems sind Pfeilspitzen anzubringen, welche die Ableserichtung betonen. Beide Achsen sind bei den -
-
-
Pfeilen zu beschriften. Werden in einem Diagramm mehrere Datenreihen gleichzeitig dargestellt, dann sind die einzelnen Reihen durch Linientypen, Farben, Markierungen an den Beobachtungswerten, Hinweisziffern oder Abkürzungen zu unterscheiden, deren Bedeutungen in einer Legende erläutert werden. Das Koordinatensystem ist durch einen äußeren Rahmen (z. B. gegenüber dem umgebenden Text) abzugrenzen. Der Rahmen sollte in Form eines in
28
Teil A: Beschreibende Statistik
Leserichtung länglichen Rechtecks mit den Seitenverhältnissen maximal 2:1 gewählt werden. Man unterscheidet drei
:
1 bis
grundsätzliche Arten statistischer Schaubilder:
# Geschäftsgrafik: Diese soll vor allem im kaufmännisch-betriebswirtschaftlichen Bereich optisch schnell und genau über Zahlen und Zahlenverhältnisse informieren. Genau' beinhaltet, dass sich der Konstrukteur auf eindimensionale geometrische Grundformen beschränkt (Linien, Stäbe, gleich breite Rechtecke); ,schnell' heißt, dass der Konstrukteur einfache und bekannte Darstellungstypen benutzt, wie Stab-, Rechteck-, Kreis-, Balken-, Flächen- und Liniendiagramme. Häufig finden normierte Schaubilder Anwendung, deren Aufbau über längere Zeit unverändert bleibt. Neben den nachfolgend dargestellten Diagrammtypen für Querschnittsdaten (absolute Zahlen und Prozentzahlen, insbesondere absolute und relative Häufigkeiten) gibt es auch Diagrammtypen für Längsschnittdaten (zeitlich geordnete Daten), die im Zusammenhang mit der Zeitreihenanalyse erläutert werden (vgl. Kapitel 5). -
-
,
# Präsentationsgrafik: Hierbei soll durch einen Blickfang die Aufmerksamkeit des Betrachters auf das Diagramm gelenkt werden. Zu diesem Zweck werden sämtliche journalistische Gestaltungsmöglichkeiten (einschließlich dreidimensionaler Darstellungen) angewendet. Präsentationsgrafik wird überwiegend in den Bereichen Werbung und Öffentlichkeitsarbeit (d. h. außerbetrieblich) eingesetzt. Die korrekte geometrische Übertragung der statistischen Grundinformation tritt meist in den Hintergrund, da der Zweck der Grafik allein darin besteht, das Augenmerk des Betrachters auf sich zu ziehen. Hauptsächlich verwendet werden
auffällige Fonts, Clip-Art-Objekte, mehrfarbige 3D-Darstellungen, Bildsymbole und Piktogramme. # Analysegrafik: Solche Diagramme werden im technischen, kaufmännisch-be-
triebswirtschaftlichen und vor allem auch im wissenschaftlichen Bereich mit unterschiedlichen Zielsetzungen benutzt. Frequenzdiagramme und Leistungsprofile sind typische Beispiele. Die Arbeit mit Nomogrammen, Regel- und Kontrollkarten oder logarithmischen Papieren reduziert komplizierte statistische Auswertungsverfahren auf einfache und optisch umsetzbare Techniken. Qualitäts-
regelkarten beispielsweise stellen eine grafische Umsetzung eines Signifikanztests (vgl. Kapitel 21) dar; sie gestatten die wiederholte Anwendung einer gleichartigen Testprozedur, um so die Qualitätslage eines Fertigungsprozesses zu überwachen.
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
29
Diagrammformen für Querschnittsdaten Querschnittsdaten werden meist in der Form einer Geschäfts- oder Präsentationsgrafik dargestellt. Dabei haben alle Daten denselben zeitlichen Bezugszeitpunkt oder -Zeitraum, d. h. die zeitliche Komponente rückt entweder in den Hintergrund oder ist weder Anlass noch Bestandteil der Untersuchung. Im Mittelpunkt stehen dann die Häufung, die Gruppierung oder die Strukturierung des Datenmaterials. Beispiele zu den im Folgenden erläuterten Diagrammformen finden sich in Beispiel 2.5. • Stab- oder Säulendiagramm: Der einfachste und für Querschnittsdaten am weitesten verbreitete Diagrammtyp zur optischen Wiedergabe von Häufigkeiten ist das Abtragen von senkrechten Höhen bzw. Längen ('Stäben') auf einer waagerechten Achse, auf der die Merkmalsausprägungen liegen. Das Stabdiagramm findet hauptsächlich bei nominal oder ordinal skalierten Daten Anwendung (qualitative und diskrete Merkmale). Häufig werden die Stäbe zu Rechtecken oder Säulen verbreitert. Hierdurch ist es möglich, die Rechtecke oder Säulen durch Aufteilung der Gesamthäufigkeit in Untergruppen zu untergliedern (Strukturvergleich). Die absolute Breite der Rechtecke oder Säulen ist für den statistischen Vergleich unerheblich, da alle gleich breit sind. Zur leichteren Möglichkeit der Beschriftung der Merkmalsausprägungen im Diagramm werden häufig die Achsen des Stabdiagramms vertauscht; man spricht dann von einem waagerechten Stab- oder Säulendiagramm. # Kreisdiagramm: Dieses ist ebenso wie das ähnlich aufgebaute Balkendiagramm besonders beliebt bei der Darstellung der Struktur einer statistischen Masse, d. h. ihrer Aufgliederung in die verschiedenen prozentualen Anteile an der Gesamtmasse, wie sie beispielsweise bei der Darstellung relativer Häufigkeiten entsteht. Da beim Kreisdiagramm nur eine Dimension, nämlich der Kreissektorenwinkel, zur Verfügung steht, beschränken sich die Anwendungsmöglichkeiten -
auf nominal und ordinal skalierte Merkmale. Man setzt die Gesamtmasse gleich 100 Prozent. Dies entspricht beim Kreisdiagramm dem gesamten Kreis mit 360 Grad. Jede darzustellende Prozentzahl als Anteil an der Gesamtmasse ist mit 360/100, also mit 3,6 zu multiplizieren. Das Ergebnis liefert den gesuchten Winkel im Kreisdiagramm. Abgesehen davon, dass es dem menschlichen Auge schwerer fällt, nicht rechtwinklige geometrische Formen wie hier die Kreisausschnitte miteinander optisch zu vergleichen, ist die Verwendung von Kreisdiagrammen vor allem dann wenig informativ, wenn zu viele Prozentzahlen in einem Kreis gleichzeitg dargestellt werden. Der Betrachter kann dann die Unterschiede in den Winkeln bzw. in den Kreissegmenten nicht mehr wahrnehmen. Bei mehr als 5 bis 6 Prozentzahlangaben sollte statt-
-
30
Teil A: Beschreibende Statistik
dessen auf ein Stabdiagramm zurückgegriffen werden, bei dem die Prozentanteile gegenübergestellt werden.
• Histogramm: Liegen Daten stetiger, metrisch skalierter Merkmale vor, verbreitert man üblicherweise die ursprünglichen Stäbe des Stabdiagramms, bis die so entstehenden Rechtecke aneinanderstoßen. Dieses Vorgehen ist folgerichtig, da die gesamte waagrechte Achse nun lückenlos für Merkmalsausprägungen zur Verfügung steht. Diese Darstellung heißt Rechteck-, Flächendiagramm oder Histogramm. Im Gegensatz zum Stab- oder Säulendiagramm kommt es beim Histogramm nicht nur auf die Länge bzw. Höhe der Rechtecke zur Darstellung von Häufigkeiten an, sondern auch auf die Breite der Rechtecke. Dies mag bei gleich breiten Rechtecken auf den ersten Blick nicht auffallen, aber bei einem Histogramm handelt es sich im Grunde um einen zweidimensionalen Vergleich: Betrachtet werden nämlich beim Histogramm i. d. R. gruppierte, d. h. in Klassen eingeteilte Daten. Die unteren (und oberen) Klassengrenzen werden auf der waagerechten Achse abgetragen und bilden die Grenzen der Rechtecke. Die Klassenhäufigkeit wird durch den Flächeninhalt des zugehörigen Rechteckes (Klassenbreite multipliziert mit Klassenhäufigkeit) wiedergegeben. Erst bei ungleichen Klassenbreiten wird diese Besonderheit der flächenbezogenen Häufigkeitsdarstellung deutlich: Im Falle ungleicher Klassenbreiten sind die Rechteckhöhen nicht mehr Maßstab für den Häufigkeitsvergleich, sondern wie gesagt die Flächeninhalte. Die Höhe der Rechtecke wird in diesem Fall ermittelt als Quotient aus Klassenhäufigkeit und Klassenbreite. Um den optischen Vergleich von Rechteckflächen zu erleichtern, werden die Flächen oft durch zusätzliche Schraffierung betont. -
-
Häufigkeitspolygon: Aus dem Histogramm entwickelt man das Häufigkeitspolygon: Verbindet man die Mitten der Rechteck-Oberkanten miteinander, so erhält man eine vieleckige Linie, ein ,Polygon'.' Dabei werden von dem Histogramm dreieckige Flächen abgeschnitten und an anderer Stelle gleichgroße dreieckige Flächen wieder angefügt. Wenn man das Häufigkeitspolygon bis zur waagrechten Achse entsprechend verlängert, ist die Summe der abgeschnittenen Flächen identisch mit den hinzugefügten, so dass die Fläche unter dem Häufigkeitspolygon genauso groß wie die Summe der Flächeninhalte aller Rechtecke des Histogramms ist. Das eben Gesagte gilt natürlich nur bei gleichen Klassenbrei•
1
Im Grunde wird der Begriff des Häufigkeitspolygons nur benötigt, um das Entstehen von empirischen Häufigkeitsverteilungen (vgl. Kapitel 2.4) zu erläutern: Wenn man die Klassenbreite immer kleiner wählt, rücken die Punkte des Polygons so nahe zusammen, dass man einen geglätteten Kurvenzug erkennen kann, die sog. Verteilungskurve. Diese Verteilungskurven (die wohl bekannteste ist die GAUß'sche Normalverteilung) sind wichtige Begriffe der Wahrscheinlichkeitstheorie und der schließenden Statistik.
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
31
ten, weswegen das Häufigkeitspolygon auch nur in diesem Fall verwendet werden sollte. • Grafische Darstellung kumulierter Häufigkeiten: Derartige Darstellungen sind für Ungeübte weitaus schwieriger zu interpretieren, was nicht zuletzt daran liegt, dass sich hieran die Grundstrukturen der Verteilung wesentlich schwieriger ablesen lassen. Verwendet werden diese Grafiken daher vor allem dann, wenn der Betrachter unmittelbar daran interessiert ist, bestimmte kumulierte Häufigkeiten abzulesen bzw. für mehrere Verteilungen zu vergleichen. Den Betrachter interessiert die Fragestellung, wie viel Prozent der Beobachtungen einen bestimmten Wert mindestens erreichen. Die Darstellung erfolgt in diesem Fall in Form eines Liniendiagramms, welche die Form einer Treppe annimmt. An den Sprungstellen ist der Wert der oberen, weiter rechts liegenden Linie maßgeblich, die Senkrechte an der Sprungstelle wird i. d. R. nicht mitgezeichnet. Bei klassierten Daten sollten (gleichmäßige Verteilung der Daten innerhalb der Klassen unterstellend) die Koordinatenpunkte, die den kumulierten Häufigkeiten benachbarter Klassengrenzen entsprechen, gradlinig verbunden werden.
# Boxplot (Schachteldiagramm): Dieses Diagramm stellt die Form der Häufigkeitsverteilung unter Verwendung bestimmter Quantile dar. Der Boxplot besteht aus einer Linie, die den Wertebereich der Häufigkeitsverteilung darstellt und vom minimalen bis zum maximalen Wert reicht. Diese Linie wird im Zentrum der Verteilung von einer ,Box' überlagert, die den Bereich vom unteren bis zum oberen Quartil darstellt und die an der Stelle des Medians nochmals durch eine senkrechte Linie unterteilt ist. In der ,Box' liegen somit die ,mittleren 50 Prozent' der Daten.2 Der Boxplot gibt einen schnellen, groben Überblick über die Form einer Häufigkeitsverteilung und ist da er im Gegensatz etwa zum Histogramm nur eine Dimension beansprucht vor allem zum Vergleich verschiedener Häufigkeitsverteilungen geeignet. Die zugehörigen Boxplots werden dann in einer Grafik neben- bzw. untereinander gezeichnet. -
-
2
Neben dieser Grundform gibt es weitere Verfeinerungen des Boxplots, in denen beispielsweise Ausreißer gesondert dargestellt werden. Vgl. z. B. S. HEILER & P. MICHELS: Deskriptive und explorative Datenanalyse, S. 129-145.
Teil A: Beschreibende Statistik
32
Häufigkeitsverteilung des Geschlechts absolute
Häufigkeiten
Beispiel 2.5
Beispiel 2.1 berechneten Häufigkeiten sollen nun grafisch Die in
dargestellt werden. Das Merkmal
.Geschlecht' ist nominalskaliert, so dass hierfür die
männlich
Darstellungen in Form eines Stabdiagramms oder eines Kreisdiagramms geeignet sind. Man erhält die in den Abbildungen 2.2 und 2.3 dargestellten Ergeb-
weiblich
nisse.
Geschlecht
Abbildung 2.2 waagerechtes Stabdiagramm
Häufigkeitsverteilung des Geschlechts
Für die Häufigkeitsdarstellung des ordinalskalierten Merkmals ,Tarifgruppe' bietet sich ein
waagerechtes Stabdiagramm an.
Dies hat insbesondere den Vorteil, dass dann die Bezeichnungen der Tarifgruppen einfacher einzutragen sind (vgl. Abbil-
dung 2.4).
weiblich 7
Abbildung 2.3 Kreisdiagramm
Häufigkeitsverteilung der Tarifgruppen Tarifgruppen Tarifgruppe 1 Tarifgruppe 2 Tarifgruppe 3 Tarifgruppe 4 Tarfigruppe 5 Tarifgruppe 6 Tarifgruppe 7 Tarifgruppe 8
Die kumulierten Häufigkeiten der Tarifgruppen sollten hier durch unverbundene Punkte dargestellt werden (vgl. Abbildung 2.5). Denn im Gegensatz zu einer Intervallskala sind in diesem Fall zwischen den beobachteten Merkmalsausprägungen der Ordinalskala keine weiteren Ausprägungen denkbar, so dass keine Zwischenwerte existieren, für welche die Angabe einer kumulierten Häufigkeit nicht sinnvoll wäre.
Die Häufigkeiten des metrischen Merkmals Alter' können mit Hilfe eines Histogramms dargestellt werden, wobei die Einteilung der Merkmalswerte in Klassen gleicher Breite, wie sie in Beispiel 2.1 eingeführt wurde, angemessen ist (vgl. Abbildung 2.6). Für diese äquidistante ,
2
3
absolute
4
5
6
Häufigkeiten
Abbildung 2.4 waagerechtes Stabdiagramm
7
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
Klasseneinteilung ist alternativ auch die Darstellung in Form eines Häufigkeitspolygons möglich (vgl. Abbildung 2.7). Die kumulierten Häufigkeiten können aufgrund der Originalbeobachtungen oder der Klasseneinteilung gezeichnet werden. Bei Verwendung der Original-
33
Kumulierte Häufigkeiten der Tarifgruppen kumulierte absolute Häufigkeiten
15
10
L
5
verbindet man die Beob0 TG 1 TG 2 TG 3 TG 4 TG 5 TG 6 TG 7 TG f achtungswerte durch waagerechda kumulierten die Tarifgruppen te Linien, zwar die für geHäufigkeiten Abbildung 2.5 kumulietes Häufigkeitsdiagramm für samte Merkmalsachse definiert ordinales Skalenniveau sind, aber von einem Beobachtungswert bis zum nächsten jeweils nicht ansteigen (vgl. Häufigkeitsverteilung des Alters Abbildung 2.8). Verwendet man Klassenhäufigkeit hingegen klassierte Daten, so für benachbarte sind die Punkte werte
Klassengrenzen geradlinig
zu
verbinden. Denn hier unterstellt man innerhalb der gebildeten Klassen eine gleichmäßige Verteilung der Beobachtungswerte und damit auch einen gleichmäßigen Anstieg der kumulierten
0
10
5
15
20
25
30
35
40
45
50
55
60
65
70
Häufigkeiten (vgl. Abbildung Alter in Jahren 2.9). Abbildung 2.6 Histogramm bei Klassen gleicher Breite Schließlich soll der Boxplot der Häufigkeitsverteilung des MerkHäufigkeitsverteilung des Alters mals ,Alter' gezeichnet werden (vgl. Abbildung 2.10). Dieser stellt die beiden Quartile sowie den zentralen, den minimalen und den maximalen Wert der Verteilung dar, wobei diese Größen hier auf Basis der ori-
ginalen Beobachtungswerte
be-
rechnet wurden.
10
15
20
25
30
35
40
45
Alter in Jahren
Abbildung 2.7 Häufigkeitspolygon
50
55
60
65
70
34
Teil A: Beschreibende Statistik
kumulierte Häufigkeitsverteilung des Alters kumulierte absolute Häufigkeiten
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
Alter in Jahren
Abbildung 2.8 kumuliertes Häufigkeitsdiagramm auf Basis der Beobachtungswerte kumulierte Häufigkeitsverteilung des Alters kumulierte absolute Häufigkeiten 20
15
10 ..
5 _
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
Alter in Jahren
Abbildung 2.9 kumuliertes Häufigkeitsdiagramm aufBasis der klassierten Daten
Häufigkeitsverteilung des Alters
H i—i—i—i—i—i—i—i—i—i—i—i—i—i—i 5 10 15 20 25 30 35 40 45 50 55 60 65 70
0
Alter in Jahren
Abbildung 2.10 Boxplot
2
Häufigkeiten und ihre Darstellung in Tabellen und Grafiken
2.6
35
Typen von Häufigkeitsverteilungen
Anhand der tabellarischen, besonders aber der grafischen Häufigkeitsdarstellung, lassen sich verschiedene Grundtypen von Häufigkeitsverteilungen unterscheiden. Die wichtigsten sind:
Eingipflige, symmetrische Vertei lung: Jeweils ungefähr die Hälfte der Daten liegt über bzw. unter dem mitt•
leren Wert, und die meisten Beobachtungswerte liegen in der Mitte, wo sich das Maximum der Verteilung (der ,Gipfel') befindet (vgl. Abbildung 2.11). Typisches Beispiel hierfür ist
die Verteilung des Körpergewichts einer Gruppe von Menschen.
Abbildung
2.11
eingipflige, symmetrische
• Schiefe Verteilung: Es ist zwar ein Verteilung Maximum vorhanden, aber es liegt nicht in der Mitte. Die Verteilung ist asymmetrisch im Sinne von schief (engl.: skew): Sie läuft nach rechts weiter aus als nach links oder umgekehrt. Man spricht dann von einer rechtsschiefen oder linkssteilen bzw. linksschiefen oder rechtssteilen Verteilung. Beispiel: Die Zahl der Krankheitstage einer Gruppe von Leuten ist häufig eine sog. gespiegelt Abbildung 2.12 linksschiefe Verteilung J-förmige Verteilung, ist also rechtsschief oder linkssteil. Die Abbildung 2.12 zeigt demgegenüber eine linksschiefe oder rechtssteile Ver-
teilung. • U-förmige Verteilung: Die meisten Beobachtungswerte liegen weit außen am Rand der Verteilung, und zwar
sowohl am linken als auch am rechten Rand der Skala. Der mittlere Bereich der Skala ist verhältnismäßig dünn Abbildung 2.13 U-förmige Verteilung
Teil A: Beschreibende Statistik
36
belegt. Die Verteilung ist ziemlich symmetrisch, besitzt jedoch zwei Maxima, d. h., sie ist mehrgipflig (vgl. Abbildung 2.13). Typisches Beispiel: Eine Umfrage, wie viele Ausgaben eines Jahrgangs des Wochenmagazins ,Der Spiegel' eine Person gelesen habe, wurde am häufigsten mit 0,1,2,3 oder mit 49, 50, 51, 52 beantwortet. Die übrigen Zahlen 4 bis 48 kamen wesentlich seltener vor. Hier liegt also eine zweigipflige Häufigkeitsverteilung vor. # Gleichverteilung: Für alle möglichen Merkmalsausprägungen tritt eine ungefähr gleiche Anzahl von Beobachtungswerten auf. Es gibt keine typischen oder weniger typischen (d. h. häufigen) Beobachtungswerte. Es existieren daher auch keine 'Gipfel' (vgl. Abbildung 2.14). Beispiel: Das Auftreten der Zahlen 1, 2,49 beim Lottospiel sollte kumuliert seit Einführung dieses Glückspiels bis heute eine weitgehend gleichverteilte Häufigkeitsverteilung aufweisen, da davon ausgegangen werden darf, dass alle Zahlen 1 bis 49 in etwa gleich häufig aus der Trommel 2.14 Abbildung
Gleichverteilung
gezogen worden sin(j
3
Statistische Maßzahlen für eindimensionale Häufigkeitsverteilungen
3.1
Vorbemerkungen
Tabellen und grafische Darstellungen geben ein anschauliches und übersichtliches Bild und somit einen ersten Überblick über die Datenlage. Für die Gewinnung eindeutiger Aussagen und vor allem für einen Vergleich mehrerer statistischer Massen sind diese Techniken jedoch weniger geeignet. Man versucht vielmehr, die Datensituation durch charakteristische Kennzahlen zu beschreiben und diese verdichtete Information zum Vergleich zu benutzen. Diese charakteristischen Kennzahlen heißen statistische Maßzahlen. -
-
gibt viele verschiedene Maßzahlen, je nachdem, welche Skalierung die untersuchten Daten besitzen und welche Gesichtspunkte der Daten man in den Vordergrund stellen will. Im Mittelpunkt steht meist die Beschreibung der empirischen Häufigkeitsverteilung der statistischen Masse. Zur umfassenden Charakterisierung reicht i. d. R. eine einzige Maßzahl nicht aus, da sie für sehr unterschiedliche Typen von Häufigkeitsverteilungen stehen kann. Will man diese Varianten genauer eingrenzen, muss man mehrere, einander ergänzende Maßzahlen verwenden. Bei einer eindimensionalen Häufigkeitsverteilung sind dies: Mittelwerte, Streuungsmaße und Formmaße wie Schiefe und Wölbung.
Es
Für die im Folgenden betrachteten statistischen Maßzahlen wird deren Berechnung i. d. R. in zweierlei Varianten dargestellt: einerseits ausgehend von den Beobachtungswerten xx,...,xn und andererseits ausgehend von der Häufigkeits-
verteilung h(a,),...,h(ak) der möglichen Merkmalsausprägungen. Bei gruppierten Daten liegen dem Anwender statistischer Methoden meist keine Informationen mehr über die einzelnen Beobachtungswerte vor. In diesem Fall lassen sich die Maßzahlen nur näherungsweise berechnen. Man benutzt hierzu die auf den Häufigkeitsverteilungen beruhenden Formelvarianten, wobei die Häufigkeiten der Merkmalsausprägungen h(a) durch die Klassenhäufigkeiten h(Ik), k= \,...,K, zu ersetzen sind und die Merkmalsausprägungen selbst durch die Klassenmitten ak* \{uk + ok). Die Verwendung der Klassenmitten beruht auf der hilfsweisen Annahme, dass sich die Beobachtungswerte innerhalb der Klassen auf die Klassenmitten konzentrieren. Auf die gesonderte Darstellung dieser Formelvariante wird im Folgenden in der Regel verzichtet. Ein Stern (*) hinter =
38
Teil A: Beschreibende Statistik
Formelsymbol einer statistischen Maßzahl soll kennzeichnen, dass es sich eine solche näherungsweise Berechnung mit Hilfe von Klassenmitten klassierter Daten handelt. Ein besonderes Problem bilden hierbei mögliche offene Randklassen, für die sich Klassenmitten nur schätzungsweise festlegen
dem um
lassen. Üblicherweise behält man für offene Randklassen die Klassenbreite bei, die im Datensatz grundsätzlich verwendet wurde.
3.2 Mittelwerte Die gesamte Urliste der Beobachtungswerte wird durch eine einzige Zahl einen sogenannten Lageparameter oder Mittelwert charakterisiert. Ein Lageparameter ist ein Maß der zentralen Tendenz. Er soll die Gesamtheit der Beobachtungswerte möglichst gut im Rahmen der jeweils verwendeten Skala repräsentieren. Theoretisch bietet sich zunächst jeder beliebige Wert an, wenn er nur im Bereich der beobachteten Ausprägungen liegt. Gleichzeitig ist einsichtig, dass Extremwerte oder Beobachtungswerte in den Randbereichen der Häufigkeitsverteilung den gestellten Anforderungen nicht entsprechen: Sie sind nicht typisch oder repräsentativ für die Lage einer Häufigkeitsverteilung. -
-
Bei den Mittelwerten unterscheidet man zwei Hauptgruppen: lagetypische Mittelwerte wie Modus und Median, für die nur bestimmte, besonders charakteristische Beobachtungswerte Mittelwert-prägend sind; rechnerische Mittelwerte, in die i. d. R. alle Beobachtungswerte einer statistischen Masse eingehen, z. B. arithmetisches, geometrisches und harmonisches Mittel. -
-
Modus oder Modalwert
diejenige Merkmalsausprägung einer statistischen Masse, größte Beobachtungshäufigkeit aufweist, der ,häufigste' oder ,dichteste' Wert. So besitzen z. B. eingipflige Häufigkeitsverteilungen genau einen Modalwert. Der Modus ist der einzig sinnvolle Lageparameter für
Der Modus xmod ist
welche die
nominalskalierte Merkmale, kann aber auch bei ordinaler und kardinaler Skalierung benutzt werden. Man sollte seine Anwendung jedoch grundsätzlich auf den Fall unimodaler, d. h. eingipfliger Verteilungen beschränken, obwohl er im Einzelfall auch bei bimodalen und multimodalen Verteilungen Verwendung finden kann. (Dabei empfiehlt es sich, dann neben dem Hauptmodus als häufigstem Wert auch weitere Nebenmodi anzugeben.) Die Beliebtheit des Modus beruht besonders auf seiner Realitätsnähe (z. B. der Ausdruck ,normaler
3 Statistische Maßzahlen für eindimensionale Häufigkeitsverteilungen_39
Preis' beschreibt im Allgemeinen den vorherrschenden Preis).
am
häufigsten anzutreffenden, d.
h. den
gruppierten Daten mit gleichen Klassenbreiten benutzt man als NäherungsModus die Klassenmitte der häufigsten Klasse. Bei unterschiedlicher Klassenbreite ist die modale Klasse nicht zwingend diejenige mit der größten Häufigkeit. Vielmehr muß hierbei die Klassenhäufigkeit auf die Klassenbreite bezogen werden, sodass sich als Modus die Mitte derjenigen Klasse ergibt, die im Histogramm den größten Ordinatenwert aufweist. Bei
wert für den
Median oder Zentralwert Der Median x oder auch x05 ist jener Beobachtungswert, der in der geordneten Urliste der Beobachtungswerte genau in der Mitte liegt. Es handelt sich also um den 0,5-Punkt der Häufigkeitsverteilung. Die Mittenposition bzw. Halbierungseigenschaft dieser Maßzahl versucht das Gefühl der Mitte, z. B. bei einem ,mittelguten' Schüler, zu berücksichtigen. Diese Formulierung ist bei ungerader Anzahl von Beobachtungswerten eindeutig. Bei geradem n kommen die beiden mittleren Werte in Betracht, da sie die geordnete Urliste in zwei gleiche Teile zerlegen. Meist (bei metrischer Skalierung) verwendet man das arithmetische Mittel dieser beiden Werte, d. h., man addiert die beiden Beobachtungswerte in der Mitte der geordneten Urliste und dividiert das Ergebnis durch 2, um einen praktikablen Median zu erhalten (vgl. Formel (2.7)). Der Median kann nur angewendet werden, wenn das Merkmal zumindest ordinalskaliert ist, da seine Ermittlung eine Aussage über die Rangplätze der einzelnen Beobachtungswerte (geordnete Urliste) verlangt. Er ist somit der wichtigste Lageparameter für ordinalskalierte Merkmale. Besonders einfach ist der Median grafisch aus der kumulierten relativen Häufigkeitskurve zu bestimmen. Man braucht nur die zugehörige Merkmalsausprägung zu ermitteln, für welche die kumulierte relative Häufigkeit den Wert 0,5 annimmt. Im Übrigen kann zur Berechnung des (feinberechneten) Medians auf die Ausführungen des Abschnitts 2.3 verwiesen werden. Der Median besitzt folgende Minimaleigenschaft: Die Summe der absoluten Abweichungen metrisch skalierter Beobachtungswerte von einem beliebigen Wert m wird dann ein Minimum, wenn man für m den Median wählt. Der Median ist also repräsentativ für die Verteilung eines metrischen Merkmals in dem Sinne, dass vom Median alle übrigen Beobachtungswerte im Durchschnitt am wenigsten absolut abweichen:
40
Teil A: Beschreibende Statistik
n
(3.1) Sa(m)
|*
=
-
min!
m=x.
Beispiel 3.1
Für die Daten des
Beispiels 2.1 sollen nun lagetypische Mittelwerte bestimmt werden. Beim Merkmal, Geschlecht' handelt es sich um ein nominalskaliertes Merkmal, so dass hier nur die Bestimmung des Modalwertes sinnvoll ist. Da in Beipiel 2.1 die Häufigkeiten der Merkmalsausprägungen für ,m' 13 und für ,w' 7 betragen, ist der Modelwert hier die Ausprägung ,m', also männlich. Bei der ,Tarifgruppe' ist zu untersuchen, für welche Merkmalsausprägung die kumulierte relative Häufigkeit den Wert 0,5 überschreitet. Nach den Berechnungen des Beispiels 2.2 ist F(l)=0,20 und F(2)=0,55, so dass die Schwelle 0,5 bei der Merkmalsausprägung ,2' überschritten wird. Als Median erhält man also die Tarifgruppe 2. Für das Merkmal, Alter' ergibt sich aufgrund der geordneten Urliste 18 21 22 22 25 27 28 30 33 35 35 37 40 40 44 44 46 52 55 60
als Median der Wert 35, da sowohl der zehntgrößte als auch der elftgrößte Wert gleich 35 sind. Greift man auf die Klassenhäufigkeiten zurück, so ergibt sich wegen F(35)=0,45 und F(45)=0,80 als Einfallsklasse die Klasse [35;45). Für den feinberechneten Median berechnet man mit Formel (2.9) den Wert °'5
=
35
+
0,5-0,45 0,80-0,45
.
(45-35)
=
35
+
Ml 0,35
.
i0
=
36,4.
Arithmetisches Mittel oder »Durchschnittswert' Der geläufigste der rechnerischen Mittelwerte ist das arithmetische Mittel. Sind xx,x2, —,xn die Beobachtungswerte einer statistischen Masse, dann ergibt sich das arithmetische Mittel als
(3.2)
_
=
+
...+ *
x1 -1-2-"x.
x
+
n
i
=
I n
"
£ ,=i
xr
Das arithmetische Mittel kann nur dann berechnet werden, wenn es sich um ein quantitatives Merkmal handelt, das metrisch skaliert ist. So ist z. B. die Berechnung von ,Durchschnittszensuren' statistisch nicht zu vertreten, da bei diesen von lediglich ordinalem Skalenniveau auszugehen ist. Idealerweise sollten die Beobachtungswerte in der geordneten Urliste, aus denen ein arithmetisches Mittel berechnet werden soll, in etwa eine sogenannte arithmetische Reihe bilden, bei der die Abstände zwischen aufeinanderfolgenden Einzelwerten gleich sind (daher der Name ,arithmetisches Mittel').
3 Statistische Maßzahlen für eindimensionale
Häufigkeitsverteilungen
41
Im Gegensatz zu Modus und Median gehen in die Berechnung des arithmetischen Mittels sämtliche Beobachtungswerte ein. Dadurch wird das arithmetische Mittel in vielen Fällen einen Wert annehmen, der als Beobachtungswert in der statistischen Masse nicht vorkommt und der (insbesondere bei absolutskalierten Merkmalen) auch in der Menge der möglichen Merkmalsausprägungen nicht enthalten sein kann. Beim Vorliegen von Ausreißern' in Form von extremen Beobachtungswerten ist die Annahme verletzt, dass die geordnete Urliste einer arithmetischen Reihe gleicht, so dass die Eignung des arithmetischen Mittels als repräsentativer, typischer Verteilungswert stark beeinträchtigt sein kann. ,
Sind nicht alle Beobachtungswerte unterschiedlich, sodass sich das Arbeiten mit Häufigkeiten lohnt, dann berechnet man das arithmetische Mittel, indem man die einzelnen Merkmalsausprägungen a} mit ihren jeweiligen absoluten Häufigkeiten multipliziert, die so entstandenen Produkte über alle Merkmalsausprägungen addiert und durch die Summe der absoluten Häufigkeiten dividiert:
h(aß
(3.3)
x
=
Das arithmetische Mittel kann als einfaches oder als gewogenes arithmetisches Mittel berechnet werden. Bei der in (3.3) vorgestellten Berechnung handelt es sich im Grunde bereits um eine Anwendung des gewogenen arithmetischen Mittels: Bei den gruppierten Daten verwendet man die Klassenhäufigkeiten als Gewichte. Auch in Fällen, in denen die Gewichte keine Häufigkeiten darstellen, sondern geschätzt oder anderweitig sinnvoll festgelegt werden müssen, spricht man von einem gewogenen arithmetischen Mittel. Häufig legt man die Gewichte so fest, dass sie der Formel n
(3.4)
w{,w2,...,wn
mit
00,
-rBPxy, falls b-d -
k=\
Der statistischen Analyse der Bevölkerungsstruktur dient zum einen deren grafische Darstellung in der Bevölkerungspyramide, zum anderen deren Charakterisierung durch geeignete Kennzahlen.
Teil B: Wirtschafts- und Bevölkerungsstatistik
132
Grundtypen der Bevölkerungspyramide Normalform
Pyramidenform
ID
Männer
1
Frauen
Männer
Frauen
Urnenform
I
ID
Männer
Abbildung 8.1 typische Formen der Bevölkerungspyramide • Bevölkerungspyramide: Zur grafischen Darstellung des Altersaufbaus wird ei-
Pyramide verwendet, bei der die Merkmalsausprägungen (Altersklassen) auf der senkrechten Achse abgetragen sind und die absoluten bzw. relativen Häufigkeiten auf der waagerechten Achse (Männer auf der linken, Frauen auf der rechten Halbachse). Typische Formen der Bevölkerungspyramide zeigt Abbildung 8.1. Die sog. Pyramiden- oder Dreiecksform als ursprüngliche Grundform der Bevölkerungspyramide ist heute nur noch in Entwicklungsländern mit stabil wachsender Bevölkerung (z. B. Tunesien, Indonesien) zu beobachten. Typisch für die Altersstruktur der westeuropäischen Industrieländer ist eine überalterte Bevölkerung mit starken Geburtenrückgängen in den letzten Jahrzehnten (sog. Urnenform). Die Normal- oder Glockenform ergibt sich bei stationärer Bevölkerung.
ne
Neben dem mittleren Alter der Bevölkerung, das als arithmetischer Mittelwert, aber auch als Median oder Altersmodus berechnet werden kann, sind weitere spezielle Kenngrößen zur Charakterisierung der Altersstruktur gebräuchlich: Jugendlastquote bzw. Alterslastquote, die den Anteil der gewöhnlich noch nicht bzw. nicht mehr erwerbsfähigen Bevölkerung an der Gesamtbevölkerung ausweisen:
• Kennzahlen der Altersstruktur:
-
(8.2) JLQ
-
N,[0;20)
ALQ
N,[65;°°)
N N dabei kennzeichnen Ar,0.20) bzw. N^6S.^ den Anteil der unter 20-Jährigen bzw. mindestens 65-Jährigen in der Gesamtbevölkerung; Jugendbelastung bzw. Altersbelastung, welche die Belastung der gewöhnlich erwerbsfähigen Bevölkerung durch die noch nicht bzw. nicht mehr
8
Bevölkerungsstatistik
133
erwerbsfähige Bevölkerung darstellen (im Sinne nicht erwerbsfähiger Personen bezogen auf die erwerbsfähigen Personen): jbl
(8.3)
^»
=
abl
N
[20;65)
=
N iv[20;65)
dabei bezeichnet die Bevölkerungszahl der Personen ab 20 Jahren bis unter 65 Jahren; die ,Greis-Kind-Relatiori~ als Maßzahl für die Überalterungstendenz:
Af[20.65)
-
(8.4)
GKR
wobei
A^[0.15)
-J&ZL, N
=
[0;15)
die Zahl der Kinder unter 15 Jahren bezeichnet.
• Sexualproportionen: Die Geschlechterrelationen werden als Zahlenverhältnis
Männer zu Frauen (bzw. umgekehrt) wiedergegeben. Dabei lassen sich allgemeine und altersspezifische Sexualproportionen unterscheiden:
(8.5)
SP
-
^,
AT"
SP.
,
m
=
Beispiel 8.2
Die Bevölkerung der Bundesrepublik Deutschland soll nun auf ihre Alters- und Geschlechterstruktur untersucht werden. Grundlage ist der Bevölkerungsstand am 31.12.96 (Quelle: Statistisches Jahrbuch 1998, S. 61). Die folgende Tabelle gibt die Bevölkerungszahlen für eine 10-
jährige Untergliederung des Merkmals Alter wieder.
Bevölkerung in Deutschland am 31.12.1996 nach Alter und Geschlecht (in 1.000 Pers.) Altersklasse
[ 0; 10) [10; 20) [20; 30) [30; 40) [40; 50) [50 ; 60) [60 ; 70) [70 ; 80) [80 ; 90) [90; co) insgesamt
Sexual-
weiblich
insgesamt
proportion
4.414 4.632 5.648 7.199 5.682 5.369 4.147 1.997 749 91
4.211 4.390 5.321 6.732 5.502 5.330 4.587 3.659 2.007 318
8.625 9.022 10.969 13.931 11.184 10.699 8.734 5.656 2.756 409
1,048 1,055 1,061 1,069 1,033 1,007 0,904 0,546 0,373 0,286
39.928
42.057
81.985
0,949
männlich
Teil B: Wirtschafts- und Bevölkerungsstatistik
134
Bevölkerung in Deutschland am 31.12.1996
Alter in Jahren
ILL
90-100 80-90 70-80
60-70 50-60 40-50
30-40 20-30 10-20
0-10 ._
7
6
5
3
4
2
2
1
Männer (in Mio.)
4
3
Frauen
6
5
7
(in Mio.)
Abbildung 8.2 Bevölkerungspyramide für Deutschland zum Jahresende 1996 Darüber hinaus enthält die Tabelle für jede Altersklasse sowie für die Gesamtbevölkerung die Sexualproportionen. Hier wird der nach zunächst leichtem Anstieg rasch abfallende Anteil der Männer an den Altersklassen deutlich. Die zugehörige Alterspyramide zeigt die Abbildung 8.2. Man sieht deutlich die urnenförmige Gestalt der Bevölkerungspyramide, insbesondere verursacht durch die geringe Besetzung der Altersklassen unter 30 Jahren. Dies zeigt eine überalterte, schrumpfende Bevölkerung an. Diese Tatsache lässt sich auch anhand der oben vorgestellten deutlichen. Ihre Berechnung liefert folgende Resultate: A
=
JLQ
ALQ JBL
8.625-5+...+409-95 81.985 =
40,2,
17.647 8.625+9.022 0,215 81.985 81.985 8.734+5.656+2.756+409 =
=
=
Bevölkerungs-Kennzahlen ver-
=
21,5%,
13.188 81.985
81.985 8.625+9.022 10.969 +13.931 +11.184 +10.699 +--8.734
0,161
=
16,1%,
17.647 51.150
=
0,345
=
34,5%,
2
-!-• 8.734 +5.656 +2.756 +409 ABL
=
10.969 +13.931 +11.184 +10.699 +--8.734
13.188 51.150
=
0,258
2
•8.734+5.656+2.756+409 ACR
=
8.625+--9.022 2
1 13.136
=
1,004
=
100,4%.
=
25,8%,
8
Bevölkerungsstatistik
135
Dabei wurde die Bevölkerungszahl der Altersklassen [10;20) bzw. [60;70) zur Berechnung von ACR bzw. ALQ, ABL, ACR jeweils hälftig aufgeteilt.
8.4 Statistische Analyse der Bevölkerungsbewegung Die natürliche Bevölkerungsbewegung (Geburten- und Sterbefälle) wird über Zählkarten der Standesämter erfasst; die räumliche Bevölkerungsbewegung (Binnen- und Außenwanderung) wird über die Registrierung beim Einwohnermeldeamt ermittelt. Die Erfassung der Geburten, Sterbefälle und Wanderungen dient insbesondere der Fortschreibung der Bevölkerungszahl. Geburtenstatistik
Zunächst werden Lebend- und Totgeburten (sog. ,Vitalität') unterschieden. Neben der Gesamtzahl der Geburten ist vor allem deren Aufgliederung nach dem Alter der Mutter von besonderem Interesse. Die in einem Zeitraum der Länge d (z. B. 1 Jahr, 5 oder 10 Jahre) beobachtete Gesamtzahl G der Lebendgeburten zerfällt je nach Alter der Mutter in folgende Teile:
(8.6)
G
=
£G
G[„t;0t)
die Zahl der Lebendgeburten von Müttern in der Altersklasse bezeichnet. Darüber hinaus werden u. a. ehelich und nichtehelich Gebo[uk; ok) rene (sog. Legitimität') sowie der Geburts- und der Wohnort erfasst. wobei
Nach dem Geburtszeitpunkt zeigen sich deutliche Saisonschwankungen der Zahl der Lebendgeborenen mit einem Maximum in den Monaten Januar bis März und einem Minimum im Monat November. Insgesamt ist seit Mitte der 60er Jahre ein starker Rückgang der Geburtenzahlen in der Bundesrepublik Deutschland festzustellen. Die Gründe liegen zum einen in der Änderung des generativen Verhaltens, zum anderen im steigenden Heiratsalter sowie in der rückläufigen Heiratshäufigkeit und im negativen Saldo der Eheschließungen und -lösungen. Genaueren Aufschluss über das Ausmaß der Veränderungen bei der Geburtenhäufigkeit gibt allerdings erst die Berechnung von Maßzahlen der Fertilität, welche die Geburtenzahl zum Bevölkerungsbestand in Beziehung setzen:
Allgemeine Geburtenziffer. Diese mit g bezeichnete Maßzahl gibt das Verhältnis der Zahl der Lebendgeborenen G zum durchschnittlichen Bevölkerungsbestand N an. Dieser wird häufig der Einfachheit halber als Durchschnitt aus Jahresanfangs- und Endbestand festgelegt. Es gilt also: •
Teil B: Wirtschafts- und Bevölkerungsstatistik
136
(8.7)
g-f.
Diese Maßzahl wird meist in Promille
(g-1.000%o) angegeben. Da die allvon Geburtenziffer auch der Altersstruktur abhängt, benutzt man dagemeine neben auch standardisierte Geburtenziffern, denen als Berechnungsgrundlage ein Standardaltersaufbau der Bevölkerung zu einem Stichtag zugrunde liegt. Spezielle Geburtenziffer: Diese auch als allgemeine Geburtenrate oder allgemeine Fruchtbarkeitsziffer bezeichnete Größe g gibt das Verhältnis aus der Zahl der Lebendgeborenen eines Jahres zur Anzahl der Frauen im Alter von 15 •
bis unter 45 Jahren an, d. h.
(8.8)
g,
yv[15 ;45) Dieser Maßzahl liegt die Idee zugrunde, dass für die Geburtenzahl letztlich nur die Zahl der Frauen im gebärfähigen Alter entscheidend ist, welches hier durch die Spanne 15 bis unter 45 Jahre festgesetzt ist.
Altersspezifische Geburtenziffer: Diese auch als besondere Fruchtbarkeitsziffern bezeichneten Größen geben das Verhältnis der Zahl der Lebendgeborenen von Müttern in der Altersklasse [uk;ok) zum Bevölkerungsbestand von Frauen in dieser Altersklasse an:
•
Von Interesse ist auch die Summe aller
Multipliziert
Altersklassen, so
(8-10)
altersspezifischen Geburtenziffern. diese mit d, der Verweildauer der Frauen in den einzelnen ergibt sich die zusammengefasste Geburtenziffer
man
g^d-Yg^,
Dieser Wert kann als durchschnittliche Zahl der Kinder interpretiert werden, die eine Frau im Laufe ihres Lebens zur Welt bringt, sofern auch für die Zukunft konstante altersspezifische Geburtenziffern unterstellt werden können. • Sexualproportion für Neugeborene:
können auch die
Ähnlich wie für den Bevölkerungsbestand
Sexualproportionen für Neugeborene betrachtet werden:
8
137
Bevölkerungsstatistik
(g.ll) Sq
=
91
Mortalitätsstatistik Erfasst werden die im Berichtszeitraum beurkundeten Sterbefälle (nicht die Totgeborenen und gerichtlichen Toterklärungen). Saisonal bedingt ist die Zahl der Gestorbenen im Sommer niedrig und im Winter hoch. Neben der Statistik der Todesursachen sind insbesondere das Alter und das Geschlecht der Gestorbenen von besonderem Interesse, hierbei wiederum erfährt die Säuglingssterblichkeit besonderes Augenmerk. Dabei lässt sich die Gesamtzahl M der Gestorbenen des Berichtszeitraums wie folgt aufgliedern: K
(8.12)
M
=
Mm
+
Mw
=
EM™ k=\
K +
AT,",
=
T M, k=l
Beurteilung der Sterblichkeit (Mortalität) einer Bevölkerung dienen die folgenden Maßzahlen der Sterbestatistik: • Allgemeine Sterbeziffer: Diese Maßzahl m gibt das Verhältnis der Zahl der Gestorbenen des Beobachtungszeitraumes zum (mittleren) Bevölkerungsbestand
Zur
an:
(8.13)
m
=
—.
N
Wie bei den Geburten betrachtet man darüber hinaus auch hier standardisierte Sterbeziffern, die auf den Altersaufbau der Bevölkerung zu einem bestimmten Stichtag bezogen sind. • Alters- und geschlechtsspezifische Sterbeziffern: Die Zahl der Gestorbenen der
Bevölkerungsgruppen werden in Bezug gesetzt Bevölkerungsbestand in dieser Bevölkerungsgruppe: einzelnen
m
,a,M (8-14) mM
-
M^k'Ok) ——
.
bzw.
w
mM
-
zu
dem
jeweiligen
M[»k;°k>
——.
Die alters- und geschlechtsspezifischen Sterberaten können als einjährige Sterbewahrscheinlichkeiten für die betroffene Bevölkerungsgruppe interpretiert werden. Da insbesondere bei kürzeren Berichtszeiträumen (1 Jahr) die ermittelten Sterberaten von außergewöhnlichen Ereignissen abhängen können (z. B. Witterungs-
Teil B: Wirtschafts- und Bevölkerungsstatistik
138
besonderheiten wie besonders kalten Wintern oder besonders heißen Sommern, Krankheits-Epidemien usw.), nimmt man i. d. R. noch eine Glättung dieser Sterberaten über einen längeren Zeitraum hinweg vor.
Aufgrund der alters- und geschlechtspezifischen Sterbewahrscheinlichkeiten bzw. Sterberaten wird für Männer und Frauen jeweils die Entwicklung eines hypothetischen Anfangsbestands von 100.000 Neugeborenen über 100 Jahre betrachtet und für jedes Altersjahr zwischen 1 und 100 die voraussichtliche Zahl der Überlebenden bestimmt. Ausgehend von einer gegebenen Altersklasseneinteilung mit konstanten Klassenbreiten ok-uk d ergibt sich die erwartete Anzahl l0k der überlebenden Männer bzw. Frauen des Alters x ok auf folgende Weise:
• Absterbeordnung:
=
=
(8.15)
C
C1
c
°k =
/.
w .
n
\d
w m
/0m /0W
=
100.000
-
100.000.
Lebenserwartung: Für x -Jährige wird, wiederum getrennt nach Geschlecht, aufgrund der Absterbeordnung ein Mittelwert für die noch verbleibenden Lebensjahre bestimmt. Dabei wird aufgrund der Klasseneinteilung mit der Klassenbreite d für die Personen, die das Alter uk noch erreichen, das Alter ok aber nicht mehr, eine fernere Lebenszeit von ^ d angenommen. Geht man von der Anzahl /„™ der Überlebenden im Alter x=uk gemäß der Absterbeordnung aus, so ergibt sich die Anzahl der Personen, die ein in die Altersklasse [uk+T; ok+ß fallendes Sterbealter aufweisen, als /„k -Lk+z =Lk -Lk +t+1 Der Anteil der u.I Jährigen, die in dem angegebenen Alter sterben, ist damit gleich iKk^~hkt)/KkWeiterhin ergibt sich für die mittlere fernere Lebenszeit dieser Personen der Wert + x-d +..2^-d (x+±)-d. Damit errechnet sich das arithmetische u 2 2
• Fernere
.
+t
=
t+k
*t
m
=
*
Mittel der ferneren Uberlebenszeit einer männlichen Person im Alter uk wie
folgendermaßen:
Eine erhebliche Reduzierung des Rechenaufwands erreicht man durch die folgende Ableitung einer Rekursionsformel:
8
Bevölkerungsstatistik
139
Analoge Berechnungen der ferneren Lebenserwartung sind natürlich auch für Frauen möglich. Unter dem Begriff Lebenserwartung versteht man die mittlere -
Dauer der gesamten Lebenszeit einer Person einschließlich der bereits erlebten. Daher ergibt sich für die Lebenserwartung eines x-Jährigen x + ex.
• Mittleres Sterbealter. Diese Maßzahl sollte nicht mit dem Durchschnittsalter
der Bevölkerung verwechselt werden. Sie ist definiert als das mittlere Alter der im Erhebungszeitraum Verstorbenen. Die Aussage ist somit ähnlich wie diejenige der Lebenserwartung, welche sich im Gegensatz dazu jedoch auf die voraussichtlichen Lebenszeiten der im Erhebungszeitraum Geborenen bezieht. Räumliche
Bevölkerungsbewegungen Wanderungsstatistik unterscheidet zwischen Außenwanderung (Verlegung
Die des Wohnsitzes zwischen Ausland und Inland auf Basis von An- und Abmeldescheinen) und Binnenwanderung (Verlegung des Wohnortes im Inland auf Basis von Anmeldescheinen). Die statistischen Angaben sind stark fehlerbehaftet, da insbesondere Fortzüge ausländischer Arbeitnehmer häufig nicht gemeldet werden. Wichtige Begriffe sind in diesem Zusammenhang (Binnen-)Wanderungsvolumen und Mobilitätsziffer für die Binnenwanderung sowie Wanderungssalden der Ausländer. Mit der Diskussion über Asylbewerber und Asylberechtigte sowie Aus- und Übersiedler sind die Wanderungszahlen in den Mittelpunkt des öffentlichen Interesses gerückt. Neben der Anzahl der Zuwanderungen spielt in der Diskussion auch die Altersstruktur der Wandernden eine Rolle.
Teil B: Wirtschafts- und Bevölkerungsstatistik
140
Die wichtigsten Maßzahlen des Zuzugs bzw. Fortzugs aus einem Erhebungsgebiet sind die Abwanderungsrate a und die Zuwanderungsrate z, die wie folgt definiert sind:
(8.18)
a
=
Dabei ist Z die Anzahl der in einer Zeiteinheit in das Erhebungsgebiet Zugewanderten, A die entsprechende Anzahl der Abgewanderten.
Beispiel 8.3
Vereinfachung der Berechnungen sind die Maßzahlen der Bevölkerungsbewegungen des Jahres 1997 nicht auf den durchschnittlichen Bevölkerungsstand bezogen, sondern auf den Anfangsbestand zum 31.12.96 (vgl. Beispiel 8.2).
Zur
Die Zahl der Lebendgeborenen des Jahres 1997 lässt sich aufgrund der Angaben des Statistischen Jahrbuchs 1999 nach dem Alter der Mutter wie in der nachfolgenden Tabelle angegeben aufgliedern. Zusätzlich finden sich in der Tabelle die Bevölkerungszahlen der Frauen, wie sie in Beispiel 8.3 angegeben wurden, sowie die altersspezifischen Geburtenziffern: -
-
Lebendgeborene weibliche Bevöl- altersspezif. kerung (in 1.000) Geburtenziffer (in 1.000)
Alter der Mutter in Jahren
[10 ; 20) [20; 30) [30; 40) [40; 50)
21,1 391,6 383,2 15,6
4.390 5.321 6.732 5.502
Summe
812,2
42.057
[15; 45)
811,5
16.999
Die allgemeine Geburtenziffer errechnet sich unter N 81.985 aus Beispiel 8.2 als
0,005 0,074 0,057 0,003
Verwendung des Bevölkerungsbestandes
=
812,2 0,009.9 9,9 %o. 81.985 Die spezielle Geburtenziffer ergibt sich als g
=
812,2
16.999
0,047.8
=
47,8 %o.
Die zusammengefasste Geburtenziffer lautet
10-(0,005+0,074+0,057+0,003) 1,39. Geschlechterverteilung der Lebensgeborenen des Jahres 1997 war nach den Angaben des Statistischen Jahrbuchs wie folgt: G =417,0, G 395,2. Damit ergibt sich als Sexualder Neugeborenen: proportion Die
gz
=
=
m
S°
=
G^_ Gw
=
417,0 395,2
1,055.
w
=
8
141
Bevölkerungsstatistik
folgenden Tabelle sind die Gestorbenen des Jahres 1996 nach Alter und Geschlecht aufgegliedert angegeben (in 1.000). Setzt man diese zu den Bevölkerungsbeständen des Beispiels 8.3 in Beziehung, so erhält man die ebenfalls in der Tabelle angegebenen alters- und geschlechtsspezifischen Sterbeziffern. In der
Alter in Jahren
[0;10) [10; 20) [20 ; 30) [30; 40) [40; 50) [50 ; 60) [60 ; 70) [70 ; 80) [80; 90) [90 ;») insgesamt
männl. Gestorbene (in 1.000)
altersspez. Ster-
weibl. Gestorbene (in 1.000)
beziffer (Männer)
3,1 2,1
altersspez.
Ster-
beziffer (Frauen)
5,1 10,0 19,4 45,3 88,7 103,1 97,2 24,2
0,000.7 0,000.5 0,000.9 0,001.4 0,003.4 0,008.4 0,021.4 0,051.6 0,129.8 0,265.9
2,3 0,9 1,7 4,5 9,8 21,5 45,5 107,4 190,6 77,8
0,000.5 0,000.2 0,000.3 0,000.7 0,001.8 0,004.0 0,009.9 0,029.4 0,095.0 0,244.7
398,3
0,010.0
462,1
0,011.0
Die allgemeine Sterbeziffer ergibt sich als m
398,3+462,1
860,4
=
0,010.5
=
10,5%o.
39.928+42.057 81.985 Mit Hilfe der alters- und geschlechtsspezifischen Sterbeziffern kann man die folgenden Absterbeordnungen für Männer und Frauen berechnen:
erreichtes Alter in Jahren 0 10 20 30 40 50 60 70 80 90 100
Sterbewahrsch. der nächsten 10 Jahre (Männer)
0,007.0 0,005.0 0,009.0 0,013.9 0,033.5 0,080.9 0,194.5 0,411.3 0,751.0 0,954.5 1,000.0
Überlebende (Männer) 100.000 99.300 98.804 97.914 96.553 93.319 85.769 69.087 40.671 10.127 461
Sterbewahrsch. der nächsten 10 Jahre (Frauen)
0,005.0 0,002.0 0,003.0 0,007.0 0,017.9 0,039.3 0,098.4 0,171.2 0,537.4 0,933.2 1,000.0
Überlebende (Frauen) 100.000 99.500 99.301 99.003 98.310 96.550 92.756 83.629 69.311 32.063 2.142
Hieraus wiederum lassen sich die ferneren Lebenserwartungen für Männer bzw. Frauen ermitteln. Dabei ist unterstellt, dass Männer wie Frauen, die das Alter 100 erreichen, innerhalb der nächsten 10 Jahre mit Sicherheit sterben, so dass die fernere Lebenszeit der 100-Jährigen im Mittel 5 Jahre beträgt.
Teil B: Wirtschafts- und Bevölkerungsstatistik
142
Für die übrigen ferneren Lebenserwartungen gilt die folgende Rekursionsformel (vgl. 10 Jahre breite Altersklassen: e.
=
s
10,
,5
+
8.17) für
(1-W'(W10).
wobei sl0j die in der vorigen Tabelle angegebenen 10-jährigen Sterbewahrscheinlichkeiten bezeichnet. Mit dieser Formel lassen sich die folgenden ferneren Lebenserwartungen für Männer bzw. Frauen berechnen: erreichtes Alter in Jahren
fernere Lebenserwartung für Männer (Jahre)
100 90 80
fernere Lebenserwartung für Frauen (Jahre)
5,0 5,5 7,6 12,4 19,0 27,1 36,0 45,4 54,9 64,6 74,1
70
60 50 40 30 20 10 0
5,0 6,0 10,1 17,5 25,3 34,1 43,4 53,1 62,9 72,8 82,4
Als letzte Maßzahl der Sterbestatistik sei das durchschnittliche Sterbealter betrachtet. Dieses berechnet sich als
j-.
=
(3,l-5+...+24,2-95)
+
(2,3-5+...+77,8-95)
398,3
+
462,1
74,9.
Dem statistischen Jahrbuch 1999 ist für das Jahr 1997 eine Auswanderer-Zahl von 746.969 und eine Zuwanderer-Zahl von 840.633 zu entnehmen. Dies ergibt einen Zuwanderungs-Überschuss von 93.664. Die Auswanderungs- bzw. Zuwanderungsrate betragen A N
746969 81.985.000
Bildet man hieraus die
1,2
%o.
=0,009.1 =9,1%»,
z
Z N
840633 81.985.000
=
0,010.3 10,3 96o. =
Differenz, so ergibt sich für das Jahr 1996 ein jährlicher Wanderungs-
gewinn
von
8.5
Bevölkerungsprognosen
Bei dem Bevölkerungsbestand handelt es sich um eine relativ gut prognostizierbare Größe. Dies begründet sich darin, dass sich die zukünftige Bevölkerungsentwicklung im Wesentlichen aus dem heutigen Bevölkerungsbestand sowie den Geburten- und Sterbezahlen ergibt. Die einfachste mögliche Annahme ist hier, dass sich Geburten- und Sterbeziffern im Zeitablauf nicht ändern und sich so die
8
Bevölkerungsstatistik_143
künftigen Geburten- und Sterbezahlen aus dem heutigen Bevölkerungsbestand errechnen lassen. Die einzige wesentliche Fehlerquelle der Bevölkerungsprognose wären dann die Aus- und Zuwanderungen, die sich i. d. R. nur sehr ungenau prognostizieren lassen. Aus Vereinfachungsgründen sollen hier nur Prognosen der Bevölkerungsentwicklung um h d Jahre errechnet werden, wobei h eine ganze Zahl ist. Die Prognose•
horizonte beschränken sich damit auf Vielfache der Altersklassenbreite, und die Prognosen hierfür ergeben sich aus der wiederholten Anwendung des Vorgehens zur Prognose um d Jahre.
Man kann näherungsweise davon ausgehen, dass sich die gesamte Bevölkerung einer Altersklasse auf deren Mitte ak konzentriert. Diese Alterskohorte hat d Jahre später das mittlere Alter ak +d ak+x. Anhand der alters- und geschlechtsspezifischen Sterbeziffern ist nun zu bestimmen, wie viele Personen dieser Kohorte nach dem Verlauf der d Jahre erwartungsgemäß überleben. Da diese Alterskohorte sich durchschnittlich noch Jahre in der Altersklasse [uk; ok) befindet und dann j Jahre in der folgenden Altersklasse [uk+i ;oJk+1), ergibt sich die Besetzungszahl dieser Altersklasse nach d Jahren als =
j(uk+ok)
=
-|
d
(8.19)
N.
.„
.
=
N,u.nAl-mIu.ny-(l-m.
d .„
X
für k=0,...,K-i.
Da die letzte Altersklasse
[uK;°°) rechtsoffen zu wählen ist, befinden sich in dieAltersklasse bei der Prognose neben den Überlebenden der vorletzten Altersklasse auch diejenigen der letzten Altersklasse, sodass sich Formel (8.19) wie folgt ändert: ser
d
d
Die erste Altersklasse [0;«,) wird bei der Prognose aus den Geburten besetzt, die während des d-jährigen Prognosezeitraums stattfinden. Diese Geburtenzahl ergibt sich aufgrund der altersspezifischen Geburtenziffern wie folgt:
(8.21) Gd
-
EC/[f
oj
Diese Geburtenzahl ist anschließend anhand der Sexualproportion für Neugeborene auf die beiden Geschlechter aufzuteilen. Zudem ist zu berücksichtigen, dass auch diese Neugeborenen bis zum Prognosehorizont eine durchschnittliche Lebenszeit von Jahren verbringen, während der sie mit der Sterbewahrscheinlichkeit der ersten Altersklasse versterben können. Damit ergibt sich folgende Prognose für die erste Altersklasse:
^
Teil B: Wirtschafts- und Bevölkerungsstatistik
144
(8.22)
j£
-
^-0/(1
--,„"„,,)'.
#^
Selbstverständlich ist die Annahme konstanter Geburten- und Sterbeziffern streng genommen nicht realistisch. So hat sich etwa die Lebenserwartung in Deutschland im 20. Jahrhundert für Männer wie Frauen um über 60 % erhöht, was u. a. auf medizinische Fortschritte zurückzuführen ist und naturgemäß mit entsprechend gesunkenen Sterbeziffern einhergeht. Zudem ist, insbesondere seit den 60er Jahren, die Geburtenrate deutlich zurückgegangen, was im Wesentlichen auf gesellschaftliche Veränderungen zurückzuführen ist: steigendes Heiratsalter, Vergrößerung der Geburtenabstände, sinkende Zahl von Ehen mit drei oder mehr Kindern. Verbesserungen der Genauigkeit lassen sich demnach (neben einer Verfeinerung der Berechnung durch schmalere Altersklassen) dadurch erzielen, dass verlässliche Prognosen über die Entwicklung der Geburten- und Sterbeziffern an die Stelle der Annahme ihrer Konstanz treten. Neben der natürlichen Bevölkerungsbewegung durch Geburten und Todesfälle ist noch die Veränderung des Bevölkerungsbestands durch Zu- und Fortzüge zu berücksichtigen. Diese Größen zu prognostizieren, fällt naturgemäß wesentlich schwerer, da Migrationen von rechtlichen, wirtschaftlichen und sozialen Faktoren im In- und Ausland bestimmt werden. Meist werden daher verschiedene Szenarien durchgespielt, die jeweils unterschiedliche mögliche Entwicklungen der Wanderungsbewegungen unterstellen.
Beispiel 8.4
Ausgehend von den Berechnungen der Beispiele 8.2 und 8.3 soll eine Prognose der Bevölkerungsentwicklung um 10 Jahre (also für das Jahresende 2006) erfolgen, wobei unterstellt wird, dass keine Wanderungsbewegungen der Bevölkerung stattfinden. Anhand von Formel (8.21) ergibt sich die folgende Anzahl an Geburten für den Zeitraum von 1997-2006: G10 4.211 (5 0,000+5 0,005) +4.390 (5 0,005 +5 0,074)+5.321 (5 0,074+5 0,057) =
Nach (8.22)
10-Jährigen:
•
•
•
•
•
+6.732-(5-0,057+5-0,003)+5.502-(5-0,003+5-0,000)
•
=
•
•
7.427.
ergeben sich daraus die folgenden prognostizierten Bevölkerungszahlen für die 0-
Üfo-M [0-l0) #m-im [0'l0) Die
•
=
=
1,055 1+1,055
•
-"-•
1+1,055
7.427-(l-0,000.7)5'
=
3.800;
7.427-(l-0,000.5)5
=
3.605.
Besetzungszahlen der folgenden Altersklassen werden mit (8.19) prognostiziert: #™0;20) 4.414-(1-0,000.7)5-(l-0,000.5)5 4.388; =
^[10:20)
=
=
4.211-(l-0,000.5)5-(l-0,000.2)5
=
4.205.
8
Bevölkerungsstatistik
145
In analoger Weise lassen sich auch die übrigen Altersklassen prognostizieren, bis auf die letzte,
für die nach (8.20)
A>™^
=
=
zu
rechnen ist:
749-(l-0,129.8)5-(l-0,265.9)5 91-(1-0,265.9)'° 84; 2.007-(l-0,095.0)5-(l-0,244.7)5 318-(1-0,244.7)'° 319. +
=
+
=
Insgesamt ergibt sich damit die folgende Bevölkerungsprognose für 2005:
Bevölkerungsprogose für Deutschland zum 31.12.2006 (in 1.000 Personen) Altersklasse männlich weiblich insgesamt 7.405 3.800 3.605 [ 0 ; 10) 8.593 4.388 4.205 [10; 20) [20 ; 30) [30; 40) [40; 50) [50 ; 60) [60 ; 70) [70 ; 80) [80 ; 90) [90 ; -)
4.600 5.583 7.028 5.355 4.620 2.856 765 84
4.379 5.294 6.648 5.344 4.971 3.759 1.913 319
8.979 10.877 13.676 10.699 9.591 6.615 2.678 403
insgesamt
39.134
40.432
79.566
Den Prognosedaten ist ein Schrumpfen der Bevölkerung bei zunehmender Überalterung zu entnehmen. So fallt die Jugendlastquote innerhalb des Zehnjahreszeitraums von 21,5 % auf 20,1 %, während gleichzeitig die Alterslastquote von 16,1 % auf 18,2 % ansteigen wird.
9
Erwerbs- und Arbeitsmarktstatistik
9.1
Erfassung der Erwerbstätigkeit
Am
Übergang von der Bevölkerungs- zur Wirtschaftsstatistik steht die Erwerbs-
statistik.
Eng mit der Bevölkerungsstatistik verzahnt sind Fragen nach der Erwerbsneigung der Bevölkerung, die im Rahmen von Mikrozensus und Volkszählung erfasst werden. Hiermit soll die Arbeitsnachfrage auf dem Arbeitsmarkt dokumentiert werden. Umgekehrt wird das Arbeitsangebot im Rahmen der Betriebs- und Unternehmensstatistik erhoben. Wirtschaftspolitisch entscheidender Gesichtspunkt der Erwerbsstatistik ist die Frage nach der Unterversorgung der Bevölkerung mit Arbeitsplätzen, auf die über die Definition der Begriffe Erwerbsloser' und ,Arbeitsloser' eine Antwort gegeben wird. Als weitere Aspekte der Erwerbsstatistik lassen sich u. a. die Lohn- und Gehaltsstatistik sowie die statistische Erfassung der Hauptquelle des Lebensunterhalts anführen.
Die Vielzahl der Fragestellungen, denen die statistische Erfassung der Erwerbstätigkeit und des Arbeitsmarkts dienen soll, bedingt eine recht große Vielfalt statistischer Erhebungsmethoden in diesem Bereich. Weitere Unübersichtlichkeiten ergeben sich aus der Tatsache, dass sich wegen dieser Vielfalt die Begriffsab-
grenzungen international deutlich voneinander unterscheiden. Dies wiederum hat harmonisierten Begriffsabgrenzungen von EUROSTAT und OECD geführt, die von den in Deutschland bislang noch verwendeten Definitionen abweichen.
zu
Im Folgenden sollen nun einige der wesentlichen Datenquellen und die dort verwendeten Begriffsabgrenzungen vorgestellt werden.
Erwerbsstatistiken im Rahmen des Mikrozensus Die Zahl der Erwerbstätigen wird neben der Erhebung im Rahmen von Volksund Berufszählungen einmal jährlich im Rahmen von Mikrozensus-Befragungen erfasst. Haushaltsstichproben sind auch international das übliche Erhebungsinstrument, um die Stellung einer Person zum Erwerbsleben zu erfassen. Zur statistischen Abgrenzung der Erwerbsbevölkerung wird dabei auf unterschiedliche
Konzepte zurückgegriffen: • Arbeitskräftepotenzial: Eine theoretische ,Obergrenze' der Erwerbsbevölkerung wird durch das sog. Arbeitskräftepotenzial (Bevölkerung im erwerbsfähigen Alter) festgelegt; hierunter fällt in Deutschland die gesamte Bevölkerung zwischen 15 und 65 Jahren.
9 Erwerbs- und Arbeitsmarktstatistik
147
Erwerbskonzept: In dieser arbeitsmarktpolitisch ausgerichteten Fragestellung wird die Stellung der Personen bzw. Haushalte zum Erwerbsleben erfasst. Nach diesem Konzept, das in erster Linie im Mikrozensus und bei Volkszählungen verwendet wird, teilt man die Wohnbevölkerung in Erwerbspersonen diese wiederum unterteilt in Erwerbstätige und Erwerbslose und Nichterwerbspersonen ein. Als Erwerbslose gelten nach diesem Konzept alle Personen, die, unabhängig von einer Meldung beim Arbeitsamt, eine Arbeit suchen und zum Erhebungszeitpunkt keiner Erwerbstätigkeit nachgehen. Alle Personen mit Wohnsitz im Erhebungsgebiet, die unmittelbar eine Tätigkeit gegen Geld ausüben, zählen zu den Erwerbstätigen, und zwar unabhängig von der Dauer der Tätigkeit und der wöchentlichen Arbeitszeit. Somit zählen auch alle geringfügig Beschäftigten zu den Erwerbstätigen. Diese lassen sich weiter untergliedern in Selbständige, mithelfende Familienangehörige und abhängig Erwerbstätige (Beamte, Angestellte, Arbeiter und Auszubildende). • Unterhaltskonzept: In dieser sozialpolitisch ausgerichteten Fragestellung wird die Wohnbevölkerung gegliedert nach den überwiegenden Lebensunterhalts- bzw. Einkommensquellen. Ausgehend von der Frage, ob der überwiegende Lebensunterhalt aus Erwerbstätigkeit, Arbeitslosengeld bzw. -hilfe, Unterstützung durch Angehörige oder Renten und sonstigen Quellen (z. B. Pensionen, eigenem Vermögen, Vermietung, Zinsen, Altenteil, Sozialhilfe) finanziert wird, versucht man anhand dieses Konzeptes zu erfassen, wie viele Erwerbstätige von ihrem Verdienst leben oder auf andere Unterhaltsquellen angewiesen sind. • Arbeitskräfte-Konzept: Für den internationalen Vergleich wird seit 1949 das sog. Arbeitskräfte-Konzept (Labor-Force-Konzept) empfohlen, nach dem alle am Reproduktionsprozeß Beteiligten mit einer Mindestarbeitszeit von 15 Stunden erfasst werden. Die Ergebnisse sind geringfügig niedriger als diejenigen nach dem Erwerbskonzept. •
-
-
Statistiken der Bundesanstalt für Arbeit Bei diesen Statistiken handelt es sich um sekundärstatistische Erhebungen, die sich vorwiegend auf den wirtschaftspolitisch bedeutendsten Teil der Erwerbsbeteiligung beziehen, nämlich den Bereich der abhängig Beschäftigten bzw. der Suche nach abhängiger Beschäftigung. • Integriertes Meldeverfahren zur Sozialversicherung: Die Daten der abhängigen
Beschäftigungsverhältnisse werden von den Arbeitgebern an die zuständigen Krankenversicherungsträger übermittelt. Diese prüfen die Meldungen auf Richtigkeit und geben sie an die Rentenversicherung bzw. die Bundesversicherungsanstalt für Angestellte weiter. Von diesen schließlich gelangen die für die Ar-
Teil B: Wirtschafts- und Bevölkerungsstatistik
148
beitsverwaltung wesentlichen Daten zur Bundesanstalt für Arbeit, die mit deren statistischer Auswertung betraut ist. Dabei werden folgende Merkmale erhoben: Alter, Geschlecht, Staatsangehörigkeit, Stellung im Beruf, wöchentliche Arbeitszeit, Art der Ausbildung, Beschäftigungsdauer, Bruttoentgelt. Neben detaillierten Strukturerkenntnissen über die abhängig Beschäftigten ergeben sich hieraus auch Informationen über das Lohn- und Gehaltsniveau. • Arbeitslosenstatistik:
Die Zahl der Arbeitslosen wird sekundärstatistisch über die Auszählung der Karteien der Arbeitsämter erfasst (jeweils um den 20. Tag eines Monats). Abweichend von den Empfehlungen des Internationalen Arbeitsamtes und der Mikrozensusdefinition zählen zu den registrierten Arbeitslosen alle Personen im Alter von unter 65 Jahren mit Wohnsitz in der Bundesrepublik
Deutschland, -
-
die bei den Arbeitsämtern als arbeitssuchend erfasst und für eine sofortige Arbeitsaufnahme im In- oder Ausland verfügbar sind, die (gleichzeitig) nicht erwerbstätig oder nur geringfügig (d.h. weniger als 18
Stunden) beschäftigt sind,
die (gleichzeitig) eine auf Dauer gerichtete (für länger als 3 Monate) nicht geringfügige Beschäftigung suchen (mindestens 15 Stunden pro Woche), die (gleichzeitig) nicht mehr in (schulischer) Ausbildung stehen. Nicht eingeschlossen sind daher Teilnehmer berufsfordernder Maßnahmen, Kurzarbeiter, Ausländer ohne Arbeitserlaubnis, Schulentlassene, die nur Ausbildungsstellen suchen sowie arbeitsunfähig erkrankte Arbeitslose. Neben der Zahl der Arbeitslosen wird u. a. auch die Dauer der Arbeitslosigkeit erfasst. Eingeschlossen in die Arbeitslosenzahlen sind auch Fälle sogenannter unechter Arbeitslosigkeit (auch: freiwillige Arbeitslosigkeit). Damit sind Personen angesprochen, die nicht (mehr) die Absicht haben, eine Arbeitsstelle anzunehmen, jedoch aus der (weiteren) Registrierung beim Arbeitsamt Vorteile (z. B. durch Wahrung sozialer Ansprüche) haben. -
-
Offene Stellen: Gemeint sind damit Vermittlungsaufträge inländischer Arbeitgeber an das Arbeitsamt auf Zuweisung inländischer oder ausländischer Arbeitskräfte zur Einstellung innerhalb der nächsten 3 Monate für die Dauer von mindestens einer Woche. Es besteht jedoch generell keine Verpflichtung zur Einschaltung des Arbeitsamtes bei der Suche nach Arbeitskräften. In der Praxis wird das Arbeitsamt nur in etwa einem Drittel aller Fälle in Anspruch genommen. In konjunkturellen Aufschwungphasen lässt sich auch eine steigende Anzahl von Vermittlungsaufträgen feststellen.
•
9 Erwerbs- und Arbeitsmarktstatistik
149
Die Differenz zwischen den registrierten Arbeitslosen und registrierten offenen Stellen ist daher nur sehr eingeschränkt als Nachfrage- oder Angebotsüberhang auf dem Arbeitsmarkt zu interpretieren. • Weitere Statistiken:
Neben der eigentlichen Arbeitslosenstatistik führt die Bundesanstalt für Arbeit noch eine Vielzahl weiterer Statistiken, von denen einige hier erwähnt seien: Statistiken der Arbeitsvermittlung durch die Arbeitsämter, Statistiken der Berufsberatung, Statistiken der Leistungszahlung bei Arbeitslosigkeit, d. h. der statistische Nachweis von Kurzarbeit sowie der Zahlung von Arbeitslosengeld und -hilfe und Unterhaltsgeld, Statistischer Nachweis von Streiks und Aussperrungen. -
-
-
-
Erwerbspersonenpotenzial und stille Reserve: Der Begriff des Erwerbspersonenpotenzials wird definiert als die Summe der Erwerbstätigen, der registrierten Arbeitslosen und der sogenannten stillen Reserve (vgl. in den USA:,discouraged workers'). Diese Begriffsbildung soll also den Umfang an Personen angeben, die im Falle der Vollbeschäftigung zur Aufnahme einer Beschäftigung zur Verfügung •
stünden. Bei der stillen Reserve handelt es sich um den Teil des Erwerbspersonenpotenzials, der weder erwerbstätig noch bei den Arbeitsämtern als arbeitslos gemeldet ist. Hierunter fallen Personen, die sich wegen fehlender Leistungsansprüche nicht arbeitslos melden oder Personen, die bei schlechten Arbeitsmarktverhältnissen auf Erwerbsbeteiligung verzichten, aber bei Besserung der Situation wieder arbeiten wollen. Man unterscheidet qualitative stille Reserve, die sich in für ihre ausgeübte Tätigkeit Überqualifizierten manifestiert, und quantitative stille Reserve, die zu unfreiwilliger Teilzeitarbeit führt. Die Ermittlung des Umfangs und der Struktur der stillen Reserve basiert auf besonderen Modellrechnungen, Schätzungen und Umfragen des Instituts für Arbeitsmarkt- und Berufsforschung der Bundesanstalt für Arbeit. Die Daten sind i. A. sehr fehlerbehaftet.
9.2
Statistische Analyse der Erwerbsbeteiligung
Bei der statistischen Analyse der Erwerbsbeteiligung sind als Hauptgebiete die Analyse der Daten zur Erwerbsbeteiligung (als Ergebnis der Mikrozensuserhebung) sowie die statistische Analyse des Arbeitsmarkts (auf der Grundlage der Daten der Bundesanstalt für Arbeit) zu unterscheiden.
150
Teil B: Wirtschafts- und Bevölkerungsstatistik
Bestandsanalyse der Erwerbsbeteiligung Gemeinsam mit der Erwerbsbeteiligung nach dem Erwerbskonzept werden zahlreiche Kovariablen erhoben, u. a. der überwiegende Lebensunterhalt nach dem Unterhaltskonzept und für Erwerbstätige die Stellung im Beruf und die Branche der Tätigkeit, das Alter und das Geschlecht. Interessant sind daher im Rahmen der Bestandsuntersuchung unterschiedliche bivariate Aufgliederungen der Erwerbsbeteiligung. Neben den absoluten Zahlen ist dabei jeweils auch die Berechnung von Gliederungszahlen von Interesse. • Aufgliederung nach dem Erwerbs- und Unterhaltskonzept: Aus der Erhebung der Daten nach dem Erwerbs- und dem Unterhaltskonzept im Rahmen des Mikrozensus ergibt sich deren gemeinsame Darstellung im Rahmen einer kombinierten Aufgliederung. • Aufgliederung der Erwerbstätigen nach Stellung im Beruf und Wirtschaftsbereich: Hiermit sollen vor allem die arbeitsplatzbezogene Bedeutung der einzelnen Branchen in der Gesamtwirtschaft sowie der Umfang abhängiger bzw. selbstständiger Tätigkeit aufgezeigt werden. Eine gemeinsame Darstellung beider Tatbestände ermöglicht den Vergleich der Branchen in Bezug auf die Stellung im Beruf der dort Tätigen. • Alters- und geschlechtsmäßige Aufgliederung: Hier wird die Erwerbsbeteiligung in Abhängigkeit von Alter und Geschlecht dargestellt. Interessant ist u. a. der Vergleich der relativen bedingten Alters- und Geschlechtsverteilung für Erwerbstätige, Erwerbslose und Nichterwerbspersonen. Maßzahlen der Erwerbsbeteiligung Für die Interpretation der absoluten Zahlen der Erwerbsstatistik ist von Nachteil, dass sie nicht auf den Bevölkerungsbestand bezogen sind und daher z. B. über die Erwerbsneigung der Bevölkerung wenig aussagen. Diesen Zusammenhang
zwischen der Erwerbsstatistik und der Bevölkerungsstatistik stellen entsprechende Maßzahlen her. Eigentlich fallen diese Zahlen nur einmal jährlich mit der Erhebung des Mikrozensus an. Unterjährige Resultate für die Erwerbslosenquote erhält man, indem die Zahl der Erwerbslosen zwischenzeitlich fortgeschrieben wird, wobei eine parallele Entwicklung wie bei der monatlich erhobenen Arbeitslosenzahl unterstellt wird.
Allgemeine Quoten der Erwerbsbeteiligung: Bezeichnen E die Anzahl der Erwerbspersonen, ET und EL die Anzahlen der Erwerbstätigen und Erwerbslosen, ET die Anzahl der abhängig Erwerbstätigen sowie N die Gesamtzahl der •
9 Erwerbs- und Arbeitsmarktstatistik
151
Bevölkerung zu einem gegebenen Stichtag,
so
lassen sich
folgende Maßzahlen
berechnen:
allgemeine Erwerbsquote e als Verhältnis von Erwerbspersonen zur Bevölkerungszahl, die allgemeine Erwerbstätigenquote et als Verhältnis von Erwerbstätigen zur Bevölkerungszahl (der Kehrwert dieses Quotienten gilt auch als Abhängigkeitsrate) und die allgemeine Erwerbslosenquote el als Verhältnis von Erwerbslosen zur Zahl der Erwerbspersonen (d. h. der Summe aus Erwerbstätigen und Erdie
-
-
-
werbslosen)1,
*
die allgemeine Erwerbslosenquote el bezogen auf die Zahl der abhängig Erwerbstätigen, bei der anstelle aller Erwerbstätigen nur die abhängig Erwerbstätigen im Nenner auftreten, d. h. die Erwerbstätigen vermindert um die Selbständigen und mithelfenden Familienangehörigen. Es gelten also folgende Formeln: E ET EL EL mn et el, —; el* —; (9.1) e -; N ETabh + EL N E -
=
=
=
=
Spezifische Quoten der Erwerbsbeteiligung: Neben den allgemeinen Quoten werden wie in der Bevölkerungsstatistik auch entsprechende Quoten für spezielle Bevölkerungsgruppen berechnet. Neben alters- und geschlechtsspezifischen Quoten werden auch Quoten in Abhängigkeit vom Familienstand (insbesondere für verheiratete Frauen) und spezifische Quoten für Ausländer berechnet. Von besonderer Bedeutung sind auch Quoten bezogen auf die 15- bis unter 65-Jährigen (also auf den erwerbsfähigen Teil der Bevölkerung). •
Beispiel 9.1
Die Mikrozensus-Erhebung im April 1997 hat für die Erwerbstätigkeit nach dem Erwerbs- und Unterhaltskonzept folgende Ergebnisse geliefert (vgl. Statistisches Jahrbuch 1998, S. 101): Zu unterscheiden ist hiervon die EU-Erwerbslosenquote, bei der im Zähler nur die sogenannten EUErwerbslosen betrachtet werden; im Nenner stehen hier die Erwerbspersonen insgesamt, wofür neben dem Mikrozensus auch andere Quellen, insbesondere der volkswirtschaftlichen Gesamtrechnung herangezogen werden. Die EU-Erwerbslosen orientieren sich dabei an den Kriterien des Internationalen Arbeitsamtes (ILO). Diese Kriterien sind in Bezug auf die Verfügbarkeit (Bereitschaft zur Aufnahme einer Tätigkeit innerhalb von zwei Wochen) strenger ausgelegt als bei der Abgrenzung der Erwerbslosen im deutschen Mikrozensus. Der Bestand an EU-Erwerbslosen wird im Rahmen der EU-Arbeitskräftestichprobe parallel mit dem Mikrozensus bei einem Teil der Befragten erhoben. Die EU-Erwerbslosenquote wird bei internationalen Untersuchungen oft auch (irrtümlich) als ,Arbeitslosenquote' bezeichnet, da es international die in Deutschland übliche Unterscheidung von Erwerbslosen und Arbeitslosen nicht gibt (d. h. diese Zahl geht in die internationalen .Arbeitslosenstatistiken' ein).
Teil B: Wirtschafts- und Bevölkerungsstatistik
152
Aufgliederung der Bevölkerung nach dem Erwerbs- und Unterhaltskonzept 1997 (in 1.000) Personen mit überwiegendem ErwerbsErwerbs- Nichterwerbs- insgesamt Lebensunterhalt aus lose personen tätige 33.395 33.395 Erwerbstätigkeit 89 3.169 3.259 Arbeitslosengeld / -hilfe 727 durch 22.783 25.048 1.539 Unterstützung Angehörige X
-
X
-
-
-
Rente und sonstiges
insgesamt
781
579
18.966
20.326
35.805
4.475
41.749
82.029
Bezüglich der Aufgliederung der Erwerbstätigen nach der Stellung im Beruf ergab sich folgendes Bild (vgl. Statistisches Jahrbuch 1998, S. 109) :
Erwerbstätige nach Wirtschaftsbereichen und Stellung im Beruf 1997 (in 1.000) Land- und produzieHandel, sonstige insgesamt DienstForstwirtrendes GastgeGewerbe schaft, werbe, leistungen Verkehr Fischerei Stellung im Beruf Selbstständige und mithel3.988 827 1.393 1.171 497 fende Familienangehörige 11.460 12.891 31.917 7.014 552 abhängig Erwerbstätige 1.049
insgesamt
12.287
8.185
14.284
35.805
Zur Erwerbsbeteiligung in Abhängigkeit von Alter und Geschlecht finden sich im Stat. Jahrbuch (1998, S. 108) folgende Angaben:
Erwerbspersonen, Nichterwerbspersonen, Erwerbstätige und abhängig Erwerbstätige in Abhängigkeit von Alter und Geschlecht 1997 (Personenzahlen in 1.000) Altersklasse
[15; 25) [25 ; 35) [35 ; 45) [45 ; 55) [55 ; 65) [65 ;») [15 ; 65) [Q;~)
K;o4)
[yot) weibl.
ET.K;o>>
ET,
männl.
weibl.
männl.
weibl
1.398 1.159 3.408 8.021
2.291 5.450 5.457 4.425 2.699 227
1.834 4.156 4.173 3.319 1.636 139
2.244 4.962 4.714 3.738 2.166 77
1.809 3.923 3.825 2.991
10.267 24.708
20.322 20.549
15.178 15.256
17.824 17.900
13.972 14.016
männl.
weibl.
männl.
2.598 6.020 5.967 4.870 3.244 231
2.070 4.642 4.692 3.766 2.034 142
2.024 1.079 425 173 2.075 4.463
2.338
22.698 22.930
17.208 17.350
5.795 17.041
1.968
1.424 73
9 Erwerbs- und Arbeitsmarktstatistik
153
folgenden alters- und geschlechtsspezifischen Kennzahlen Erwerbsbeteiligung (entsprechend (9.1), bezogen auf die jeweilige Altersgruppe): Hieraus errechnen sich die
der
Erwerbsquote, Erwerbstätigenquote, Erwerbslose (in 1.000) und Erwerbslosenquote in Abhängigkeit von Alter und Geschlecht 1997 Altersklasse
EL
et
iViL
uK°i>
männl.
weibl.
236 486 519 447 338 3
0,118 0,095 0,085 0,091 0,168 0,017
0,114 0,105 0,111 0,119 0,166 0,021
0,105
0,122 0,121
männl.
weibl.
männl.
weibl.
[15; 25) [25 ; 35) [35 ; 45) [45 ; 55) [55 ; 65) [65;-)
0,560 0,848 0,934 0,966 0,610 0,049
0,470 0,702 0,770 0,765 0,374 0,017
0,494 0,768 0,853 0,877 0,507 0,048
0,416 0,629 0,685 0,673 0,301 0,017
445 545 4
[15 ; 65)
0,797
0,626 0,411
0,713 0,514
0,552 0,316
2377 2381
0,574
el
lut;ok) männl. weibl. 307 570 510
2092 2095
0,104
Es zeigt sich also ein deutlich unterschiedliches Verhalten der Erwerbsbeteiligung bei Männern und Frauen; Frauen weisen in allen Altersgruppen deutlich geringere Erwerbs(tätigen)quoten auf. Demgegenüber ist die Erwerbslosenquote für Frauen größer, insbesondere in den Altersgruppen zwischen 35 und 55 Jahren.
Darüber hinaus lassen sich die folgenden allgemeinen Quoten der Beteiligung am Erwerbsleben berechnen: 40.280 E ET 35.805 „ „ 0,491; et 0,436; N 82.029 N 82.029 4.475 EL EL 4.475 el =-r 0,111, el' 0,123. 40.280 +EL 31.916+4.475 E ET.. abh =
=
=
...
—
=
=
——
=
Analyse der sozialversicherungspflichtig Beschäftigten Aufgrund der von den Sozialversicherungsträgern übermittelten Daten lassen sich relativ tiefe Aufgliederungen der sozialversicherungspflichtig Beschäftigten ermitteln. Das Statistische Bundesamt veröffentlicht beispielsweise Aufgliederungen nach Wirtschaftszweigen, nach der Stellung im Beruf, nach Altersgruppen, nach Berufen und Ausbildung. Statistische
Statistische
Analyse der Arbeitsmarktdaten der Bundesanstalt für Arbeit Hier ist neben der Berechnung von Quoten wie der Arbeitslosenquote die Analyse der Dauer der Arbeitslosigkeit von Interesse:
Teil B: Wirtschafts- und Bevölkerungsstatistik
154
• herkömmliche
*
Diese mit al bezeichnete Maßzahl beschreibt das Verhältnis der Zahl der Arbeitslosen AL zur Zahl der abhängigen Erwerbspersonen. Der Nenner wird dabei definiert als die Summe der Zahl der abhängig Erwerbstätigen und der Arbeitslosenzahl:2
(9.2)
al*
=
Arbeitslosenquote:
-—-.
ET+AL abh
Auch die Arbeitslosenquote kann ebenso wie die Erwerbslosenquoten alters- und geschlechtsspezifisch ermittelt werden. Diese von der Bundesanstalt für Arbeit seit den 50er Jahren berechnete Arbeitslosenquote ist als Maßzahl des Ausmaßes an Unterbeschäftigung vielfacher Kritik ausgesetzt: Beim Zähler wird kritisiert, dass die stille Reserve nicht miterfasst sei und so die Arbeitslosenzahlen tendenziell zu niedrig ausfallen. Andererseits sei zu berücksichtigen, dass bei den Arbeitslosen zahlreiche nicht Vermittlungsfähige und -willige enthalten seien. Beim Nenner wird kritisiert, dass viele Erwerbstätige enthalten seien, die praktisch kein Arbeitsplatzrisiko tragen, beispielsweise Beamte auf Lebenszeit. Andererseits drängen Selbstständige und mithelfende Familienangehörige, die nicht im Nenner enthalten sind, im Falle der Betriebsaufgabe auf den Arbeitsmarkt, sodass diese Personen durchaus ein Arbeits-
platzrisiko tragen. • Arbeitslosenquote bezogen auf alle Erwerbspersonen: Ergänzend zu der oben als herkömmliche Arbeitslosenquote' bezeichneten Quote bestimmt die Bundesanstalt für Arbeit seit den 80er Jahren auch eine Quote, bei der die Arbeitslosenzahl auf die Gesamtzahl aller Erwerbspersonen (also einschließlich der Selbständigen und mithelfenden Familienangehörigen) bezogen wird: al (9.3) v ' E =
—.
Als Begründung für diese zweite Form der Arbeitslosenquote wird angeführt, dass dieser Nenner international üblich sei und dass Selbständige und mithelfende Familienangehörige in der heutigen Zeit in intensivem Arbeitskräfteaustausch mit den übrigen Beschäftigtengruppen stehen. • Mittlere Dauer der
Arbeitslosigkeit: Diese wird i. d. R. im Rahmen einer einem bestimmten Stichtag ermittelt und betrachtet die Bestandsanalyse bisherige Dauer der Arbeitslosigkeit. Zu unterscheiden hiervon ist die Analyse der vollendeten Dauer der Arbeitslosigkeit, die anhand einer Bewegungsmasse zu
Darüber hinaus wird bei der amtlichen Berechnung von den abhängig Erwerbstätigen noch die Zahl der Soldatinnen und Soldaten abgezogen.
9 Erwerbs- und Arbeitsmarktstatistik
155
untersucht werden kann, welche diejenigen Personen umfasst, die ihre Arbeitslosigkeit in einem bestimmten Zeitraum beenden konnten. Zu beachten ist hierbei die unterschiedliche Art der Retrospektion dieser beiden Mittelwertbildungen, die dazu führt, dass sich beide Zahlenergebnisse deutlich voneinander unterscheiden
und dass beide nicht ohne weiteres als Maß für die voraussichtliche Dauer der Arbeitslosigkeit eines Arbeitslosen verwendet werden können. Erstaunlicherweise ist in der Praxis die mittlere bisherige Dauer, ermittelt an der Bestandsmasse, größer als die mittlere Dauer der vollendeten Arbeitslosigkeit, da in der Bestandsmasse im Vergleich zur Bewegungsmasse Langzeitarbeitslose erheblich überrepräsentiert sind.
Beispiel 9.2
Die sozialversicherungspflichtig Beschäftigten gliedern sich nach Berufsbereich wie folgt auf (vgl. Statistisches Jahrbuch 1998, S. 118):
Berufsausbildung
Sozialversich.-pfl. Beschäftigte nach Berufsausbildung und Berufsbereich ohne
abgeschlossener Berufsausbildung
Berufsbereich
Agrarberufe, Fischereiberufe Bergleute, Mineralgewinner Fertigungsberufe technische Berufe
Dienstleistungsberufe sonstige Arbeitskräfte
mit
Hochschulaus-
1997
ohne
und
(in 1.000) Summe
Angabe
bildung
117,7 21,7 2.287,4 84,4 2.455,0 88,7
283,7 39,8 5.392,6 1.113,3 10.749,5 39,7
18,4 0,2 28,3 650,9 1.496,9 6,2
40,3 3,7 665,5 85,0 1.429,7 14,0
460,0 65,5 8.373,7 1.933,5 16.131,1 148,5
5054,8
17.618,6
2.200,8
2.238,2
27.112,3
Summe
Die Arbeitslosen lassen sich für das Jahr 1997 wie folgt nach Alter bzw. Dauer der Arbeitslosigkeit aufgliedern (vgl. Statistisches Jahrbuch 1998, S. 122): Arbeitslose nach Geschlecht und Arbeitslosigkeitsdauer bzw. Alter im Dauer d.
Arbeitlosigk.
unter 1 Monat 1 bis unter 3 Monate 3 bis unter 6 Monate 6 bis unter 12 Monate 12 bis unter 24 Monate
24 Monate und mehr
insgesamt_
Sept. 1997 (in 1.000)
Frauen
Alter in Jahren
Männer
Frauen
264 407 338 491 407 314
209 361 317 454 405 341
15 bis unter 25 25 bis unter 35
294 518
230 483
35 bis unter 45 45 bis unter 55 55 bis unter 65
484 416 509
508 445 421
2.221
2.087
2.221
2.087
Männer
insgesamt
Teil B: Wirtschafts- und Bevölkerungsstatistik
156
Aus der Tabelle ergibt sich für die durchschnittliche Dauer der Arbeitslosigkeit (wobei die Mitte der letzten Klasse auf 48 Monate festgesetzt wurde) für Männer: 13,2 Monate; für Frauen: 14,4 Monate; -insgesamt: 13,8 Monate. -
-
In Abhängigkeit von Alter und Geschlecht lassen sich nach (9.2) die folgenden Arbeitslosenquoten berechnen (zu den abhängig Erwerbstätigen vgl. Beispiel 9.1):
Arbeitslosenquoten je abhängiger Erwerbsperson nach Alter und Geschlecht (in %) 15 b.
Alter Männer Frauen
u.
25 b.
u.
35 b.
35
u.
45
45 b.
u.
55
55 b.
u.
65
gesamt
11,6 11,3
9,5 11,0
9,3 11,7
11,4
10,1
10,4_ILß_20^6_11,9
I gesamt [ Die
25
10,0 13,0
19,0 22,8
11,0 13,0
allgemeine Arbeitslosenquote bezogen auf die abhängigen Erwerbspersonen beträgt also
11,9%.
Bezogen auf alle Erwerbspersonen ergeben sich gemäß (9.3) folgende Quoten:
Arbeitslosenquoten je Erwerbsperson nach Alter und Geschlecht (in %) 15 b.
Alter Männer Frauen
| gesamt
u.
25
25 b.
11,2
35 b.
35
8,6 10,4
11,3 11,1
1
u.
|
9,4
|
u.
45
45 b.
u.
55
55 b.
u.
65
gesamt
8,1 10,8
8,5 11,8
15,7 20,7
9,7 12,0
9,3
10,0
17,6
10,7
Die allgemeine Arbeitslosenquote bezogen aufdie abhängig Erwerbstätigen beträgt also 10,7 %. Durch den Unterschied zur zuvor berechneten Quote wird deutlich, dass die Interpretation einer Arbeitslosenquote nur möglich ist, wenn klar gestellt ist, auf welchen Nenner sich diese Quote bezieht.
10 Preisstatistik 10.1
Erhebungsprobleme der Preisstatistik
Die Überlegungen zur Konstruktion eines preisstatistischen Berichtsystems fußen naturgemäß auf der Indextheorie der deskriptiven Statistik. Allerdings erfordert das Vorhaben, den Preisanstieg in einer Volkswirtschaft statistisch zu messen, darüber hinausgehende Überlegungen. Das Preisniveau für eine abgelaufene Periode wird i. d. R. als gewogenes arithmetisches Mittel aller gezahlten Einzelpreise definiert, wobei die Gewichtung über die ökonomische Bedeutung der jeweiligen Güter, Dienstleistungen oder Forderungen erfolgt. Der reziproke Wert des Preisniveaus ist der Geldwert. Preisniveau- und Geldwertstabilität liegen immer dann vor, wenn dieses gewogene arithmetische Mittel aller Einzelpreise im Zeitablauf etwa konstant bleibt.
Diese umfassende Definition des Begriffes Preisniveau' ist für den Wirtschaftsstatistiker nicht operational, da sich nicht in regelmäßigen Abständen von allen Güterarten die Preise erfassen lassen und zudem für jedes einzelne Gut an verschiedenen Verkaufsstellen unterschiedliche Preise gelten. Man beobachtet deshalb die Preisstabilität nur in Teilbereichen der Wirtschaft und nur für ,typische' Waren und Dienstleistungen an ausgewählten Orten. Für diese kann die erforderliche Mittelwertbildung dann in Form von Preisindexzahlen erfolgen. Ziel der Berechnung von Preisindizes ist es, Preisveränderungen unbeeinflusst von der zugrunde liegenden Güterstruktur aufzuzeigen. Der in der Praxis am häufigsten verwendete Preisindex ist der Preisindex für die Lebenshaltung, der ein Maßstab für alle Preisveränderungen sein soll, von denen die privaten Haushalte ungeachtet der Änderungen ihres Konsumverhaltens unmittelbar betroffen sind. Er ist ein wichtiger Indikator für die Beurteilung der Geldwertstabilität und dient nicht nur der allgemeinen Wirtschaftspolitik, sondern auch individuell zur Absicherung der Wertbeständigkeit geldwerter Forderungen. Nutzer der Ergebnisse sind die Öffentlichkeit, Bundesregierung und Bundesbank, die Tarifparteien, Banken und Finanzdienstleister, Mieter und Vermieter von Wohnungen und Geschäften, ehemalige Betriebsinhaber, die ihren Betrieb auf Rentenbasis verkauft haben, u. a.
Als weitere wichtige Preisindizes seien genannt: Index der Erzeugerpreise gewerblicher Produkte, -
-
Index der Erzeugerpreise landwirtschaftlicher und forstwirtschaftlicher Produkte,
Teil B: Wirtschafts- und Bevölkerungsstatistik
158
-
-
-
-
Preisindizes für Bauwerke, Index der Großhandelsverkaufspreise, Index der Einzelhandelspreise, Index der Ausfuhrpreise und Index der Einfuhrpreise.
Bei der Konstruktion dieser Indizes sind unter anderem lösen:
folgende
Probleme
zu
• Auswahl von Preisrepräsentanten eines Warenkorbs: Ein operational er Preisindex kann stets nur eine begrenzte Anzahl von genau beschriebenen Gütern und
Dienstleistungen enthalten, die sogenannten Preisrepräsentanten. Die Preisentwicklung eines Repräsentanten steht damit nicht nur für dieses spezielle Gut, sondern darüber hinaus für eine ganze Warengruppe ähnlicher Güter. So kann beispielsweise die Preisentwicklung eines ,Knabenschuhs mittlerer Qualität' die Preisentwicklung der gesamten Warengruppe Kinderschuhe widerspiegeln. Die Gesamtheit der Preisrepräsentanten bildet den Warenkorb. Dieser umfasst für die Preisindizes der Lebenshaltung derzeit etwa 750 Waren und Dienstleistungen. Er ist identisch für das gesamte Bundesgebiet und für die jeweils speziell abgegrenzten Haushaltstypen (siehe unten). Diese Güterauswahl muss von Zeit zu Zeit überprüft werden, ob sie noch den aktuellen Verbrauchergewohnheiten entspricht. So wurde etwa in der letzten Zeit der Schallplattenspieler aus dem Warenkorb entfernt und durch den CD-Player ersetzt. • Festlegung des Wägungsschemas: Viel wichtiger als die Auswahl der einzelnen Preisrepräsentanten, also die Festlegung des Warenkorbs, ist die Bestimmung des Gewichts, mit dem die Preisentwicklung einzelner Preisrepräsentanten in die Gesamtindizes eingeht. Das Wägungsschema quantifiziert, welchen Anteil z. B. die Mietausgaben an den gesamten Verbrauchsausgaben der privaten Haushalte haben. Dabei ist zu berücksichtigen, dass die Preisrepräsentanten nicht nur mit ihrer eigenen Bedeutung in den Index eingehen, sondern ihr Gewicht die Bedeutung der gesamten Warengruppe, die repräsentiert wird, widerspiegeln soll. So könnte etwa das Gewicht des Preisrepräsentanten ,schwarzer Tee' für die ökonomische Bedeutung des gesamten Teekonsums stehen. Die Gewichte repräsentieren die Ausgaben- bzw. Umsatzanteile der einzelnen Warengruppen und werden vom Statistischen Bundesamt für alle Haushaltstypen bei jeder Neubasierung des Indexes aufgrund von repräsentativen Stichproben bestimmt. Die Grobstruktur der Gewichtung wird anhand der alle fünf Jahre durchgeführten Einkommens- und Verbrauchsstichproben bei über 50.000 Haushalten, die Feinstruktur aufgrund der monatlich durchgeführten laufenden Wirtschaftsrechnung von bis zu 2.000 ausgewählten privaten Haushalten festgelegt. Die Wägungsanteile unterscheiden sich sowohl zwischen dem früheren Bundes-
10 Preisstatistik
159
gebiet und den neuen Ländern als auch zwischen den speziell abgegrenzten Haushaltstypen. Üblicherweise sollen die Neubasierungen der Indizes zur Anpassung an die aktuellen Verbrauchsgewohnheiten aufgrund von Vorgaben der Europäischen Union in regelmäßigen, fünfjährigen Abständen vorgenommen werden.
• Auswahl der Berichtsorte: Zur Monatsmitte werden in 190 Berichtsgemeinden
Bundesgebiet die Preise erhoben. Die Berichtsgemeinden sind reüber die gesamte Bundesrepublik Deutschland verteilt (118 Gemeinden im gional Gemeinden im Osten), Großstädte werden ebenso abgedeckt wie 72 Westen, mittlere und kleine Gemeinden (bis zu einer Einwohnerzahl von mindestens 5000). Zur Berechnung der Indizes sind die Preise der einzelnen Güter mit der Bedeutung der Berichtsorte gewichtet zu mittein. Die Berücksichtigung der zahlreichen Berichtsorte erlaubt zudem eine regional oder nach sonstigen Kriterien (z. B. Stadt / Land bzw. Ost / West) aufgegliederte Berechnung der Preisindizes. Insgesamt waren allein bei der Berechnung der Preisindizes für die Lebenshaltung bundesweit etwa 350.000 Preisreihen zu erheben. im ganzen
Feststellung der Preise: Die Preise der in einem Warenkorb enthaltenen Güter und Dienstleistungen festzustellen, erscheint nur auf den ersten Blick als eine leichte Aufgabe. Eingesetzt werden hierbei sogenannte Preisermittler, die festzustellen haben, welcher konkrete Schuh beispielsweise in welchem Geschäft des Berichtsort dem geforderten ,Knabenschuh mittlerer Qualität' entspricht. In vielen Fällen sind zur Ermittlung des eigentlichen Preises auch die Zahlungs- und Lieferbedingungen des fraglichen Geschäftsvorgangs geeignet zu berücksichtigen. Bei manchen Dienstleistungen kann es zudem äußerst schwierig sein, eine angemessene Aufgliederung des Preises in eine Menge und einen Preis je Mengeneinheit vorzunehmen. Einige Saisonartikel werden möglicherweise nicht ganzjährig angeboten, sodass hierfür entsprechende Fortschreibungen ihrer Preise
•
angesetzt werden müssen.
Außerdem müssen mögliche Qualitätsänderungen der betrachteten Güter berücksichtigt werden. Deshalb kann es passieren, dass sich ein Gut in genau der qualitativen Umschreibung, wie sie bei der Erstellung des Warenkorbes vorgenommen wurde, zum Berichtszeitpunkt am Markt gar nicht mehr erwerben lässt. Ein Beispiel hierfür sind Personal Computer, deren handelsübliche Qualitätsmerkmale sich wesentlich schneller ändern als im 5-Jahres-Abstand, in dem die Warenkörbe üblicherweise aktualisiert werden. Zur Ermittlung der Preisindizes müssen dann die erhobenen Preise um die Qualitätsänderung bereinigt werden, die hierzu monetär bewertet werden muss. Dies ist ein äußerst schwieriges Unterfangen, da die Qualitätsbewertung von subjektiven Empfindungen abhängt und sich damit
Teil B: Wirtschafts- und Bevölkerungsstatistik
160
kaum auf eine für jedermann akzeptierbare Basis stellen lässt. (Wie viel beträgt der Qualitätszuwachs eines Kraftfahrzeugs, das ab einem bestimmten Zeitpunkt serienmäßig mit Klimaanlage ausgestattet wird? Eher fraglich ist, ob sich dieser mit dem vorherigen Aufpreis für die Klimaanlage angemessen bewerten lässt.) Im Zweifel werden die statistischen Ämter die Qualitätszuwächse eher vorsichtig bewerten (d. h. zu hohe Preiszuwächse ausweisen), was tendenziell zu einer Überzeichnung des Preisanstiegs durch den Preisindex führen dürfte.
10.2
Berechnung der Preisindizes
Sind die Erhebungsfragen gelöst, kann die Berechnung der Preisindizes angegangen werden. In Bezug auf die verwendete Indexformel wird in der amtlichen Preisstatistik heute nahezu ausschließlich auf den LASPEYRES-Index zurückgegriffen. Die Bedeutung des PAASCHE-Index ist damit weitgehend auf Kontrollberechnungen beschränkt, mit denen überprüft werden soll, ob sich durch zwischenzeitliche Verschiebungen der Gewichtungen keine allzu großen Effekte auf die Indexwerte ergeben. Da die amtlichen Warenkörbe in hierarchisch gegliederter Form aufgebaut sind (z. B. Bedarfshauptgruppen, Bedarfsgruppen und Bedarfsuntergruppen), bietet es sich an, die Indexstände außer für den gesamten Warenkorb auch für diese Teile des Warenkorbs zu berechnen. Hierzu kann die Mittelwertformel des LASPEYRES-Preisindex entsprechend modifiziert werden: Bezeichnen P0t(ij) bzw. P0,(0 die Subindizes der untergeordneten bzw. übergeordneten Aggregationsstufe und u0(ij) bzw. w0(z) die entsprechenden Umsatzanteile, so errechnet sich der übergeordnete Indexwert aus den untergeordneten wie folgt:
(6.20^
(10.1)
p£(i) 7-1£ ^— p£(ij), MnW =
•
wobei
£Mo(y) a0(0. 7-1 =
In den zelnen
Veröffentlichungen von Indextabellen findet man demnach für die einBedarfshauptgruppen, Bedarfsgruppen und Bedarfsuntergruppen ihre Indexgewichte (d. h. Umsatzanteile im Basisjahr, i. d. R. angegeben in Promille) sowie die zugehörigen Indexstände (i. d. R. bezogen auf das Basisjahr 100). Eine weitere Schwierigkeit ergibt sich aus der Unterjährigkeit der Indexberechnung, d. h., dass das Basisjahr gewöhnlich ein Kalenderjahr ist, die Berichtszeiträume jedoch unterjährig auftreten (zumeist monatlich). Die bei der Be=
rechnung der Subindizes
der untersten Stufe eingehenden Preismesszahlen bestehen somit im Zähler aus den zur Monatsmitte gemessenen Preisen der
10 Preisstatistik
161
Berichtszeitpunkte, im Nenner jedoch aus den Durchschnittspreisen der entsprechenden Güter während des gesamten Basisjahrs. Damit errechnen sich auch für die einzelnen Monate des Basisjahrs von 100 verschiedene Indexstände. Bei der Berechnung der Preisindizes für die Lebenshaltung werden verschiedene Haushaltstypen unterschieden. Konkret ermitteln die statistischen Ämter einen umfassenden Preisindex, den Preisindex aller privaten Haushalte, der dem 2,3köpfigen ,Durchschnittshaushalt' entspricht. Derzeit werden daneben noch drei Preisindizes für ausgewählte Haushaltstypen ermittelt, und zwar -
-
-
der Preisindex für einen 2-Personen-Haushalt von Renten- und Sozialhilfeempfängern mit geringem Einkommen, der Preisindex für einen 4-Personen-Haushalt von Arbeitern und Angestellten mit mittlerem Einkommen, der Preisindex für einen 4-Personen-Haushalt von Angestellten und Beamten mit höherem Einkommen.
Basisjahr 2000 wird der Nachweis von Ergebnissen für die speziellen Haushaltstypen entfallen, da sie als nicht mehr repräsentativ angesehen werden. Seit 1997 werden jedoch zusätzlich harmonisierte Verbraucherpreisindizes (HVPI) für die Mitgliedsstaaten der EU berechnet. Für alle EU-Länder ist verbindlich festgelegt, welche Güterkategorien in die Berechnung einbezogen werden. Das Wägungsschema berührt (leicht abgewandelt) auf der international gebräuchlichen ,Classification of Individual Consumption by Purpose'.
Ab dem
Beispiel 10.1
Der Preisindex der Lebenshaltung beruht nach der Systematik der Einnahmen und Ausgaben der
privaten Haushalte auf einer vierstufig-hierarchischen Gliederung der Bedarfsgüter: Bedarfshauptgruppen, Bedarfsgruppen, Bedarfsuntergruppen sowie Bedarfsklassen. Insgesamt gibt es 8 Bedarfshauptgruppen. Davon trägt etwa die Hauptgruppe 1 die Bezeichnung ,Nahrungsmittel, Getränke, Tabakwaren'. Diese wiederum zergliedert sich in die neun Bedarfsgruppen 11-19, von denen die erste Bedarfsgruppe 11 die Bezeichnung ,Fleisch, Fleischerzeugnisse, Fisch, Fischerzeugnisse' trägt. Diese wiederum zerfallt in 8 Bedarfsuntergruppen 111-118, deren erste mit der Nummer 111 die Bezeichnung ,Fleisch, frisch, gefroren oder tiefgefroren' hat. Hierzu gibt es nun wiederum 5 verschiedene Bedarfsklassen, deren erste 1111 als ,Rindfleisch' bezeichnet ist. Alle Bedarfsklassen werden nun durch einen oder mehrere Preisrepräsentanten im Warenkorb vertreten. Beim .Rindfleisch' sind dies vier: Rindfleisch zum Kochen, Rindfleisch zum Schmoren, Rinderrouladen und Rinderlendenfilets. Auf diese vier Preisrepräsentanten wird das Gewicht der Bedarfsart .Rindfleisch' nach der ökonomischen Bedeutung dieser Preisrepräsentanten aufgeteilt. Dabei spielt aber nicht nur die Bedeutung dieser Güter selbst eine Rolle, sondern auch die Bedeutung artverwandter Güter, die nicht im Warenkorb repräsentiert sind.
Nachfolgend soll die Berechnung der Subindizes des Preisindexes der Lebenshaltung auf dieser Grundlage demonstriert werden. Dabei werden die nicht weiter betrachteten Bedarfsgruppen jeweils zu einem Subindex zusammengefasst (etwa 12-19 .sonstige Nahrungsmittel, Getränke
Teil B: Wirtschafts- und Bevölkerungsstatistik
162
und Tabakwaren'), während hierfür in der Praxis natürlich mehrere weitere Subindizes stehen. Die Berechnung erfolgt aufgrund der Gewichtung des Preisindexes für die Lebenshaltung aller privaten Haushalte zur Basis 1991 (z. T. mit fiktiven Daten).
Berechnungsbeispiel zum Preisindex der Lebenshaltung für alle privaten Haushalte 1997(1991 100) DurchschnittsPreisrepräsentant, Bedarfsklasse, Bedarfsuntergruppe, Bedarfsgruppe preise (DM/kg) =
bzw.
Bedarfshauptgruppe
Rindfleisch zum Kochen Rindfleisch zum Schmoren Rinderrouladen
Rinderlendenfilets
Index-
1991
1997
gewicht (in %o)
11,78 21,52 24,38 62,70
12,73 23,48 26,45 68,66
0,90 2,15 0,43 0,11
108,1 109,1 108,5 109,5
3,59 6,88
108,8 110,5
10,47 26,10
109,9 110,5
36,57 188,33
110,3 111,4
224,90 775,10
111,2 117,5
1000,00
116,1
1111 Rindfleisch 1112-1115 sonstiges Fleisch (ohne
Geflügel) 111 Fleisch, frisch, gefroren oder tiefgefroren 112-118 Geflügel, Fleischerzeugnisse, Fische, Fischerz. 11 Fleisch, Fleischerzeugnisse, Fische, Fischerzeugnisse 12-19 sonstige Nahrungsmittel, Getränke, Tabakwaren 1 Nahrungsmittel, Getränke, Tabakwaren 2-8 sonstige Bedarfsgruppen Gesamtindex Dabei errechnet sich
Indexstand
der Indexstand des Subindexes für die Bedarfsklasse
beispielsweise
,1111 Rindfleisch' aufgrund der vier Preisrepräsentanten wie folgt:
12/73 + 2,15.23,48 + 0A3.26A5 + 0J1._6M6 3,59 11,78 3,59 21,52 3,59 24,38 3,59 62,70 Der Subindex auf der folgenden Stufe, der für die Bedarfsuntergruppe ,111 Fleisch, frisch, gefroren oder tiefgefroren' steht, errechnet sich dann gemäß Formel (10.1) aus den beiden
(11,1)
=
=
Subindizes für 1111 und 1112-1115 wie folgt:
Pgl91(\\\)
=
i^9--108,8 ^rLL.-108,8 10,47
+
A*± •110,5 10,47
=
109,9.
Die Subindizes der folgenden höheren Stufen ermittelt man analog.
Deflationierung Als Hauptzweck der Berechnung von Preisindizes gilt der Ausweis der Inflationsrate sowie die Deflationierung monetärer Beträge: • Preisindex und Inflationsrate: Der Indexstand des Preisindexes für die Lebenshaltung aller privaten Haushalte wird als Indikator des Preisniveaus benutzt. Die Inflationsrate und
10 Preisstatistik:
163
Indexentwicklung wird in Form von Wachstumsraten in Prozent berechnet und gilt als Maßstab für die Inflationsrate. Unterjährige Wachstumsraten sind dabei i. d. R. auf den Indexstand zum entsprechenden Zeitraum des Vorjahres bezogen. • Deflationierung: Hierbei geht es darum, die in einem Geldbetrag enthaltenen Preissteigerungen herauszurechnen und somit einen Betrag zu ermitteln, der sich unter der Annahme konstanter Preise des Basisjahres ergäbe. Grundlage hierfür ist der Zusammenhang zwischen Mengen- und Preisindex nach Formel (6.27): (10.2)
^
=
U„
=
Pl Qi.
Dividiert man demnach den aktuellen Aggregatwert U durch den Preisindexstand (den sog. Deflator), so ergibt sich
P0P
n
(10.3) U,
i Pl UQ q£ U0 -
=
±!-
=
£/V9Ä-
Dabei handelt es sich um den mit der mengenmäßigen Entwicklung multiplizierten Wert des Aggregats zum Basiszeitpunkt, d. h. um denjenigen Wert, der sich ergäbe, wenn keinerlei Preisveränderungen eingetreten wären. Formel (10.3) ist natürlich nur korrekt, wenn der Wert eines Aggregates durch einen PAASCHE-Preisindex für genau dieses Aggregat dividiert wird. So lassen sich etwa Importumsätze deflationieren, indem durch den zugehörigen PAASCHEImportpreisindex dividiert wird. Dies lässt es wünschenswert erscheinen, für möglichst viele Aggregate solche Preisindizes zur Verfügung zu stellen, damit diese geeignet deflationiert werden können. In der Praxis wird man sich in vielen Fällen näherungsweise mit der Division durch einen verwandten' Preisindex begnügen müssen, d. h. durch einen LASPEYRES-Index für ein Aggregat, von dem man hofft, dass es möglichst ähnlichen Preisveränderungen unterliegt wie das eigentlich interessierende. Insbesondere ist davor zu warnen, komplizierte Rechenwerke wie die volkswirtschaftliche Gesamtrechnung durch einen einzigen Deflator zu dividieren, da hierbei völlig verschiedene Aggregate auftreten und teilweise sogar Größen, die sich nicht in eine Mengen- und eine Preiskomponente zerlegen lassen (so z. B. die Faktoreinkommen). Man beschränkt sich daher darauf, einzelne Aggregate der volkswirtschaftlichen Gesamtrechnung durch jeweils geeignete Preisindizes zu dividieren und auf diese Weise in konstanten Preisen auszuweisen.
11 Außenhandelsstatistik 11.1
Erhebungssysteme
Unter Außenwirtschaft versteht man sämtliche wirtschaftliche Transaktionen, die Inländer mit Ausländern durchfuhren und die zu Veränderungen der Zahlungsbilanz führen. Neben dem eigentlichen Außenhandel geht es dabei um Transfers von Kapital, Dienstleistungen, Rechten und Arbeitskräften sowie um Zahlungen an internationale Institutionen.
der Außenhandelsstatistik ist es, den grenzüberschreitenden Warenverkehr der Bundesrepublik Deutschland mit dem Ausland darzustellen. Hierbei handelt es sich um die größte und teuerste zentral geführte Statistik des Statistischen Bundesamtes. Früher wurden die grenzüberschreitenden Warenströme grundsätzlich sekundärstatistisch zusammen mit den Zollformalitäten erfasst. Dies ist jedoch seit dem Wegfall der Zollformalitäten aufgrund der Einführung des europäischen Binnenmarktes nur noch für den Warenverkehr mit Nicht-EULändern möglich (sog. Extrahandelsstatistik). Der Warenverkehr mit den Partnerstaaten der Europäischen Union muß hingegen primärstatistisch erfasst werden; dies geschieht im Rahmen der sog. Intrahandelsstatistik.
Aufgabe
Extrahandelsstatistik Die Erfassung der Daten des Warenverkehrs der Bundesrepublik Deutschland mit Ländern, die nicht der Europäischen Union angehören, erfolgt in den Zollämtern durch statistische Anmeldescheine. Seit 1988 wird hierzu EU-einheitlich das sog. Einheitspapier (EP) verwendet. Diese Ausfuhr- bzw. Einführanmeldungen sind Bestandteil der von den Ex- und Importeuren von Warensendungen zu erledigenden Zollformalitäten. DV-mäßig werden in den Zollverwaltungen auf diese Weise mehrere Millionen Anmeldungen je Monat erfasst und an das Statistische
Bundesamt zur statistischen Auswertung weitergeleitet.
Seit 1980 gilt in der Außenhandelstatistik ein ,Cut-off-Verfahren', d. h., in der Außenhandelsstatistik sind folgende Warenströme nicht mehr enthalten: Sendungen mit Waren bis 800 Euro Warenwert oder bis 1.000 kg Gewicht, Silber und Gold, das zu internationalen Zahlungszwecken verwendet wird, Reise-, Übersiedlungs- und Heiratsgut, Waren, die von ausländischen Streitkräften, die in der Bundesrepublik stationiert sind, ein- oder ausgeführt werden, -
-
-
-
-
Diplomaten- und Konsulargut.
11 Außenhandelsstatistik
165
Erhebungsgebiet für die Außenhandelsstatistik ist definiert an den Übergangsstellen der Staats- und Zollgrenzen zuzüglich der Zollanschlußgebiete (Enklaven) und abzüglich der Zollausschlußgebiete (Exklaven). Der Begriff Zollgebiet umfasst auch das Zolllager und die Zollfreigebiete, d. h., zum Zollinland kommen hier noch Gebiete innerhalb des Erhebungsgebietes wie Helgoland, die Freihäfen Hamburg, Bremen, Cuxhaven, Emden, Kiel, Rostock sowie alle Flughäfen hinzu. Unter grenzüberschreitendem Warenverkehr versteht man Ein- und Ausfuhr, Das
Durchfuhr und Zwischenauslandsverkehr. Bei der Durchfuhr wird die Ware unter Zollaufsicht ins Zollinland gebracht, veredelt und wieder ausgeführt (aktive Veredelung). Umgekehrt wird beim Zwischenauslandsverkehr die Ware unter Zollaufsicht zu Veredelungszwecken ins Ausland transportiert und anschließend wieder eingeführt (passive Veredelung). Die Ein- und Ausfuhr wird noch weiter untergliedert in direkte Beförderung von Waren aus dem Ausland in das Zollinland bzw. aus dem Zollinland in das Ausland und den Lagerverkehr. Bei Letzterem handelt es sich um die zollrechtliche Einfuhr aus dem Ausland auf ein Zolllager (Einfuhr auf Lager). Diese Waren können anschließend entweder unverzollt wieder ins Ausland gebracht werden (Ausfuhr aus Lager) oder endgültig eingeführt werden (Einfuhr aus Lager), wobei die Zölle im Vergleich zur direkten Einfuhr erst verzögert fällig werden. Der theoretisch ebenfalls denkbare Fall der Ausfuhr auf Lager (mit verfrühter Zollzahlung) ist hingegen ökonomisch nicht sinnvoll.
Die Unterscheidung zwischen direktem Warenverkehr und Lagerverkehr ist wesentlich für die Abgrenzung der Ein- und Ausfuhr im Sinne des General- bzw. Spezialhandels. Der Begriff des Generalhandels zielt auf die Außenhandelsverflechtungen ab und erfasst den Umfang des grenzüberschreitenden Warenverkehrs an der Grenze des Erhebungsgebietes (nach Abzug von Durchfuhr und Zwischenauslandsverkehr). Er umfasst also direkte Ein- und Ausfuhr sowie Einfuhr auf Lager und Ausfuhr aus Lager. Der Begriff des Spezialhandels erfasst demgegenüber die Warenströme an der Grenze des Zollinlandes (d. h. die direkte Ausfuhr, die direkte Einfuhr und die Einfuhr aus Lager). Die ökonomisch bedeutsamere Außenhandelsabgrenzung im Sinne des Spezialhandels zielt auf die Produktion von Exportgütern bzw. die Versorgung des Inlands mit Importware ab. Die
erfassten Merkmale der Extrahandelsstatistik sind: Art der Ware (vgl. die entsprechende Systematik), Menge und Wert der Ware (für jede Warensendung nur insgesamt erfasst) sowie das Handelspartnerland gemäß sog.,Länderausweis'.
Teil B: Wirtschafts- und Bevölkerungsstatistik
166
In diesem Länderausweis wird mit unterschiedlichen Konzepten -
-
-
gearbeitet:
Versendungs- bzw. Einladeland ist das Land, aus dem die Ware bei der Einfuhr in das Erhebungsgebiet gebracht wurde; Bestimmungsland (auch Empfangs- oder Ausladeland) ist das Land, in das die Ware bei der Ausfuhr transportiert wird; Handelsland (auch Käufer- bzw. Verkäuferland) ist das Land, in dem die Person ansässig ist, an welche die Ware verkauft bzw. von der die Ware erworben wurde; Ursprungs- oder Herstellungsland ist bei der Einfuhr das Land, in dem die Ware her-
gestellt wurde oder in dem sie die wirtschaftlich relevante Verarbeitung erfahren hat; Verbrauchsland ist bei der Ausfuhr das Land, in dem die Ware verbraucht bzw. arbeitet werden soll.
ver-
In der Praxis wird meist nach der Herstell- und Verbrauchsmethode vorgegangen.
Grundsätzlich wird der Wertansatz auf den Grenzübergangswert der Waren bezogen, d. h. auf den Verkaufspreis (,normaler Preis') einschließlich der bis zum Grenzübertritt anfallenden Vertriebs- und Versicherungskosten. Im Warenverkehr werden die Werte an den Grenzübergangsstellen bei der Einfuhr mit ,cif (cost, insurance, freight) und bei der Ausfuhr mit ,fob' (free on board) angesetzt. Auf diese Weise werden die Einfuhrwerte im Vergleich zu den Ausfuhrwerten systematisch zu hoch angesetzt; der zusätzliche Dienstleistungswertanteil der Einfuhr beträgt durchschnittlich 5 bis 8 Prozent.
Intrahandelsstatistik Ausland im Sinne der Außenhandelsstatistik war bis zum 31.12.1992 das Gebiet außerhalb des Erhebungsgebietes. Seit dem 1.1.1993 gibt es für den Warenverkehr innerhalb des EU-Binnenmarktes keine Zollgrenzen mehr. Das herkömmliche Erhebungssystem der Außenhandelsstatistik bezieht sich seitdem nur noch auf den Handel mit Drittländern (Extrahandelsstatistik der Ein- bzw. Ausfuhr). Hiervon zu unterscheiden ist der Handel innerhalb der Europäischen Union. Dieser sogenannte Binnenhandel betrifft den Eingang bzw. die Versendung von Gemeinschafts- und Nichtgemeinschaftswaren im Rahmen des Handels mit den Mitgliedsländern der Europäischen Union. In der Intrahandelsstatistik fiel mit der Abschaffung der Zollformalitäten und -kontrollen (EWG-Verordnung Nr. 3330/91) das EP bei Versendung und Eingang im innergemeinschaftlichen Warenverkehr weg. Die statistische Erfassung ist daher nicht mehr an den Warenverkehr gekoppelt, sondern ist durch eine Direktmeldung durch die Anmeldepflichtigen an die für die amtliche Statistik zuständigen Stellen ersetzt worden. Hierbei sind sog. Intrastat-Meldevordrucke zu benutzen, die monatlich direkt dem Statistischen Bundesamt zuzuleiten sind. Anmeldepflichtig ist jede am Warenverkehr beteiligte natürliche oder juristische Person, die eine vom zuständigen Finanzamt zugewiesene Umsatzsteuernummer
11 Außenhandelsstatistik:
167
besitzt. Dabei gibt es keine auf die einzelne Warensendung bezogenen Freigrenzen mehr. Jedem Meldepflichtigen wird vom Statistischen Bundesamt zur computergestützten Meldung eine Kennnummer zugeteilt. Ausnahmen von der Meldepflicht gibt es nur für folgende Fälle: alle Privatpersonen; Kleinunternehmer, landwirtschaftliche Erzeuger sowie institutionelle NichtMehrwertsteuerpflichtige (z. B. staatliche Verwaltungen) mit einem Versendungs- oder Eingangsumfang von jeweils weniger als 200.000 Euro im Vorjahr; hier gilt die Umsatzsteueranmeldung zugleich auch als statistische Anmeldung. Bei Überschreitung des Schwellenwertes besteht ab dem -
-
Folgemonat Meldepflicht. Es sind Handels-, Lager- und Durchfuhrstatistiken zu erstellen. Zu melden sind je Kalendermonat folgende Merkmale: Warenart,
-
-
-
Warenmenge, Art des Geschäfts,
-
-
-
Warennummer (8-stellig),
Warenwert,
-
Verkehrszweig,
-
-
Versendungsmitgliedstaat, Bestimmungsmitgliedstaat, Lieferbedingung.
Die bisherigen Erfahrungen mit der Binnenhandelsstatistik zeigen, dass die Qualität des erhobenen Datenmaterials hinsichtlich seiner Aktualität und Zuverlässigkeit im Vergleich zur Extrahandelsstatistik als eher unbefriedigend zu beurteilen ist. Da die Wirtschaftsverbände für diese Daten hohes Interesse zeigen, erscheint trotz der genannten Mängel die Fortführung dieser Statistik unverzichtbar.
11.2
Auswertungsmethoden der Außenhandelsstatistik
Mittelpunkt des Interesses der Außenhandelsstatistik steht die mengen- und preismäßige Entwicklung der Ein- und Ausfuhr im Zeitablauf. Neben globalen (allgemeinen) Maßzahlen können auch spezifische Maßzahlen berechnet werden, etwa bezogen auf bestimmte Exportländer(gruppen) oder auf bestimmte Güterarten. Für die Auswertung werden die Daten des Intra- und Extrahandels i. d. R. gemeinsam analysiert, ungeachtet ihrer unterschiedlichen Erhebungstechnik und der damit einhergehenden unterschiedlichen Datenqualität. Im
Es werden zu diesen Zwecken überwiegend Daten verwendet, die auf den Spezialhandel bezogen sind. Berechnet werden einerseits Indizes der Außenhandelsstatistik, die bezogen auf die Ein- oder Ausfuhr deren mengen- oder preismäßige Entwicklung darstellen sollen. Kombiniert man Indexzahlen der Ein- und Ausfuhr, so erhält man andererseits sog. ,Terms of Trade \ welche dem Vergleich der Entwicklung von Ein- und Ausfuhr dienen.
Teil B: Wirtschafts- und Bevölkerungsstatistik
168
Indizes der Außenhandelsstatistik
Grundlage sind die statistisch erfassten Warenlieferungen, die zu ihren tatsächlichen (d. h. nominalen) Werten angesetzt werden. Dabei werden die gehandelten Güter aufgrund des Warenverzeichnisses für die Außenhandelsstatistik' in über 10.000 Warennummern (also Warenarten) und in vier Ländergruppen aufgeschlüsselt erfasst. Für alle vorkommenden Warennummer-LändergruppenKombinationen lassen sich dann neben den tatsächlichen Warenwerten auch die gehandelten Mengen (z. B. in Stück, Tonnen oder Hektolitern) ermitteln. Dividiert man für die Warenarten die tatsächlichen Handelswerte ujt durch die Handelsmengen qü, so erhält man für diese jeweils die Durchschnittswerte p (im Sinne eines Durchschnittspreises pro Stück, Tonne oder Hektoliter). Aus diesen Daten lassen sich nun die
folgenden Indizes bestimmen:
• Indizes der tatsächlichen Werte: Hierbei handelt es sich um einen Wertindex im üblichen Sinne, d. h., es gilt für die Einfuhr bzw. Ausfuhr:
E",mp
i)pimp-
OX)
S 2
op
T3 x
C
a
2
6 Sc
N
03 1)
u
>
o
«
CD
c
o
a,
-a c
-
a.
cu
On
c5 cu
x!
C3
a
a
,u
(3
so
«
«3
o
ft c
i sp £
.9 U
"C
Oh
t» Oh
202
Teil B: Wirtschafts- und Bevölkerungsstatistik
In der Darstellung der Tabelle 13.9 stehen in der Zentralmatrix X als Einträge x.. die vom z'-ten Sektor an den y'-ten Sektor gelieferten Vorleistungen. Bei der letzten Verwendung werden als Arten der Endnachfrage privater und staatlicher Konsum, Anlage- und Vorratsinvestitionen sowie Exporte unterschieden. Als Primärinputs schließlich betrachtet die Input-Output-Tabelle Importe (als Vorleistungen ausländischer Herkunft), Einkommen aus unselbständiger Arbeit, Einkommen aus Unternehmertätigkeit und Vermögen (einschließlich Produktionssteuern abzüglich Subventionen) sowie Abschreibungen. Die Summe der Primärinputs jedes Produktionsbereichs ohne die Importe stellt den Beitrag dieses Produktionsbereichs zur Bruttowertschöpfung dar; zieht man hiervon noch die Abschreibungen ab, erhält man die Nettowertschöpfung des betreffenden Sektors. Die Bewertung der inländischen Produktion erfolgt zu Herstellungspreisen. Die Importe werden nach Gütergruppen zu cif-Preisen (,cost, insurance, freight') bewertet, wohingegen sie sonst innerhalb der VGR und in der Zahlungsbilanz zu fob-Preisen (,free on board') nachgewiesen werden. Der Übergang erfolgt in der Aufkommens- und Verwendungstabelle jeweils in einer Korrekturzeile (cif/fobKorrektur). Die Herstellungspreise und die cif-Preise umfassen nicht die Gütersteuern, wohl aber die Gütersubventionen. Auch die Wertschöpfung wird zu Herstellungspreisen dargestellt. Das Input-Output-Tabellenprogramm wird sowohl in jeweiligen als auch in konstanten Preisen (d. h. inflationsbereinigt) ermittelt. Die Inlandsproduktberechnung auf Basis der Entstehungs- und Verwendungsseite des BIP und die Input-Output-Rechnung sollen möglichst voll integriert werden, d. h. auf einer vergleichbaren Datenbasis aufbauen.
Beispiel 13.3
Die nachfolgend dargestellte Input-Output-Tabelle beruht auf den Angaben im Statistischen Jahrbuch 1999 (S. 678 f.). Aus Gründen der Übersichtlichkeit ist die dort verwendete 12-SektorDarstellung allerdings nochmals weiter auf die drei traditionellen Sektoren Oprimär, sekundär, tertiär) verdichtet worden: Der primäre Sektor G{ umfasst die Produktionsbereiche ,Produkte der Land- und Forstwirtschaft, Fischerei' sowie ,Energie, Wasser, Bergbauerzeugnisse'. Im sekundären Sektor G2 sind folgende Produktionsbereiche enthalten: .chemische und Mineralölerzeugnisse, Steine, Erden', .Eisen, Stahl, NE-Metalle, Gießereierzeugnisse',,Stahl- und Maschinenbauerzeugnisse, AVDEinrichtungen, Fahrzeuge', elektrotechnische und feinmechanische Erzeugnisse, EBM-Waren', ,Holz-, Papier-, Lederwaren, Textilien, Bekleidung', .Nahrungsmittel, Getränke, Tabakwaren' sowie,Bauleistungen'. Der tertiäre Sektor schließlich besteht aus Dienstleistungen des Handels und Verkehrs sowie Postdienste', .übrige marktbestimmte Dienstleistungen' sowie .nicht marktbestimmte Dienstleistungen'. Die Endnachfragearten wurden gegenüber der Darstellung im Statistischen Jahrbuch wie folgt zusammengefasst: £(: Konsumausgaben private und staatliche), E2: Bruttoinvestitionen (Anlageinvestitionen und Vorratsveränderungen), E : Exporte.
13 Volkswirtschaftliche Gesamtrechnung
203
Als Primärinputs sollen hier nur die folgenden unterschieden werden: p{: Importe, p2: Einsatz des Produktionsfaktors Arbeit, erfasst durch den Anteil der Arbeitnehmerentgelte an der Nettowertschöpfung, p : Einsatz des Produktionsfaktors Kapital, erfasst durch den Anteil der Einkommen aus Unternehmertätigkeit und Vermögen an der Nettowertschöpfung, die Nettogütersteuern sowie die Abschreibungen. Mit diesen Abgrenzungen erhält man für das Jahr 1995
folgende Input-Output-Tabelle:
Ye
Eg
712 561
46 274 1.027
184 1.022 1.627
65 430 1.802
115
1.371
1.347
2.833
2.297
23 60 63
281 730 269
106 1.094 1.020
410 1.884 1.352
146
1.280
2.220
3.646
261
2.651
3.567
6.479
40 36 39
98
3 595 42
9 604 96
77 1.629 1.940
261 2.651 3.567
640
709
3.646
6.479
Input-Output-Analyse Methoden der Input-Output-Analyse dienen der Interpretation der durch die InputOutput-Tabelle zur Verfügung gestellten Daten. Diese Methoden gliedern sich in folgende Bereiche: Strukturuntersuchungen für die Zentralmatrix, deskriptive Berechnung von Strukturkoeffizienten, Aufstellung von Koeffizentengrundmodellen. • Strukturuntersuchungen: Hierbei geht es um die Frage, ob sich bestimmte Strukturen innerhalb der durch die Matrix x beschriebenen Vorleistungsverflechtungen aufdecken lassen. Von Interesse sind: die Gestalt einer Diagonalmatrix (alle Elemente außerhalb der Hauptdiagonalen von links oben nach rechts unten sind null), was darauf schließen lässt, dass sämtliche Produktionsbereiche voneinander unabhängig arbei-
-
-
-
-
-
ten; die Blockdiagonalgestalt, bei der nur Verflechtungen innerhalb bestimmter Gruppen von Produktionsbereichen auftreten, zwischen diesen Gruppen jedoch keine Verflechtungen vorkommen; die Dreiecksgestalt, bei der die Vorleistungsmatrix x die Form einer oberen Dreiecksmatrix annimmt (alle Elemente unterhalb der Hauptdiago-
Teil B: Wirtschafts- und Bevölkerungsstatistik
204
nalen sind null), was sich so interpretieren lässt, dass die Sektoren nur an weiter unten bzw. rechts stehende Sektoren liefern und somit von einer Produktionshierarchie gesprochen werden kann. Unter Umständen muss zunächst ein Vertauschen der Reihenfolge der Sektoren in der Input-Output-Tabelle vorgenommen werden, damit die Zentralmatrix eine dieser Formen aufweist (Diagonalisierung bzw. Triangulation). In der Regel wird sich aber auch hiermit keine der obigen Formen exakt erreichen lassen, da Vorleistungsverflechtungen mit Werten exakt gleich null praktisch nicht vorkommen. Man wird sich dann damit begnügen, dass die entsprechenden Werte ,nahe bei null' liegen.
Inputkoeffizienten: Diese sollen die Struktur der Inputs in Form von Gliederungszahlen angeben. Die Vorleistungs-Inputkoeffizienten sind dabei definiert •
als x..
(13.1)
a
-0-
=
y
für
i
=
v.
l,...,«, j=\,...,«.
j
Für die Matrix der Primärinputs erhält man entsprechend die Primär-Inputkoeffizienten z
(13.2) Die
c
-2. für
=
r
.
n
=
v j
l,...,k,j=l,...,n.
Inputkoeffizienten geben an, wie sich der zur Produktion einer Einheit des
Produktionsbereichs G. erforderliche Einsatz an Vorleistungen und Primärinputs wertmäßig auf die verschiedenen Vorleistungen und Primärinputs aufgliedert. Dabei
(13.3) •
gilt:
J> 1=1
+ J
Yc r=l
=
J
1
für alle j=\,...,n,
Outputkoeffizienten: Auch hier lassen sich wieder zweierlei Vorleistungs-Outputkoeffizienten sind definiert als
Arten unter-
scheiden: Die
(13.4) b 1
=
X-l
für
v.
i
=
l,...,n, 7 1,...,«. =
Für die Matrix der
Endnachfrage ergeben sich entsprechend die EndnachfrageOutputkoeffizienten
(13.5)
dIS
-
y
für i= 1,...,«,
s
=
1,...,m.
—
Die Outputkoeffizienten geben Auskunft über die Aufgliederung der Verwendung einer Einheit der in Sektor G. produzierten Güter. Hier gilt analog zu (13.3)
13 Volkswirtschaftliche Gesamtrechnung n
(13.6)
205
m
J>
+
7=1
Y>.
=
1
für
s=l
alle/=1,...,«.
• Inputkoeffizienten-Grundmodell: Die im Folgenden verwendeten Bezeichnun-
gen wurden bereits in Tabelle 13.9 benutzt. Darüber hinaus seien noch
Vektorbezeichnungen eingeführt:
folgende
Summenvektor sektorspezifischer letzter Verwendung: y1 (y y J, Summenvektor letzter Verwendung nach Endnachfrageart: £7 (y >> ), z ), Summenvektor der sektorspezifischen Primärinputs: z7 (z z ), Summenvektor der Primärinputs nach Inputart: p1 (z^ Summenvektor der sektorspezifischen Güteraufkommen: v1 (vt v^). Dabei kennzeichnet der Strich hinter einem Vektorsymbol, dass es sich nicht um einen Spalten-, sondern um einen Zeilenvektor handelt. Zudem seien noch folgende Matrizen definiert: B D C (13.7) A =
...
-
=
-
...
=
-
...
=
...
-
=
...
-
(a..),
-
-
-
y,
-
(rfj.
Zunächst gilt aufgrund der Definition der Inputkoeffizienten: n
(13.8)
v.
Y,xij
=
n
+
;=i
V..
=
E0,5 ist, lässt sich diese Tabelle mit Hilfe folgender Überlegung nutzen: Man betrachtet statt der Binomialverteilung X~ B(«;7t) die Zufallsvariable Y=n-X~ B(rc; 1 -7t), deren Parameter 1 -7t9,4«)
1
0,95 -
=
=
W(Y94 S-3'282 -t(*,-^ iT\
=
unter
-
-in
=
-
-
n
-£(V32 -E*2
=
-
49
=
3'88
1,97,
p=3,5:
t
=
sfn-3—^s*
=
yßÖ-
3'28"3'5 1 '97
=
_0,79.
Da eine Auswahl ohne Zurücklegen vorgenommen wurde, ist für die Maße der Stichprobenstreuungen streng genommen eine Endlichkeitskorrektur vorzunehmen. Allerdings ist der Auswahlsatz 0,0073 deutlich kleiner als 0,05, sodass man auf eine Endlichkeitskorrektur verzichten kann. Will man diese dennoch durchführen, so wäre hierfür der Korrekturfaktor 0,993 zu verwenden, und es ergäben sich die korrigierten Werte Tsrnr= =
=
~
y$o4 -5i° d2
=
=
3,85-0,993
3,82,
=
s2 3,80-0,993 3,77, r2 3,88-0,993 3,85, =
=
=
=
r also
=
^3,88-0,993
=
1,96,
lediglich geringfügige Abweichungen von den nicht korrigierten Werten.
19
Punktschätzungen
19.1
Aufgabenstellung des Parameterschätzens
Die Verteilung des Untersuchungsmerkmals in der Grundgesamtheit ist im Rahmen der Stichprobentheorie entweder vollständig oder zumindest teilweise unbekannt. Diese Unkenntnis soll durch die Berücksichtigung der Stichprobenresultate verringert werden. Dabei können zweierlei Situationen vorliegen:
Schätzproblem bei bekanntem Verteilungstyp: In diesem Fall ist der Typ der Verteilung des Untersuchungsmerkmals in der Grundgesamtheit bekannt oder wird zumindest als bekannt unterstellt. Beispielsweise könnte bekannt sein, dass ein betrachtetes Merkmal in der Grundgesamtheit normalverteilt ist. Im Allgemeinen liegt ein Verteilungstyp vor, der von endlich vielen Verteilungsparametern abhängt, d. h., es gilt für die Wahrscheinlichkeits- bzw. Dichtefunktion: (19.1) //*) =fAx\Qv...,Qk). Dabei können u. U. bestimmte dieser Verteilungsparameter bekannt sein; so ist etwa bei Anwendungen der Binomialverteilung ihr Parameter n i. d. R. bekannt, während der Parameter n häufig unbekannt ist. Anhand der Stichprobe versucht man nun, Informationen über die unbekannten Parameter 8^ 02,0^ zu gewinnen. • Schätzproblem bei unbekanntem Verteilungstyp: Hier ist der Verteilungstyp des Untersuchungsmerkmals in der Grundgesamtheit unbekannt; es wird lediglich unterstellt, dass die ersten k Momente der Verteilung existieren. Die ersten k Momente der Verteilung um null sind im Folgenden mit u^, j l,...,k, bezeichnet. In dieser Situation versucht man, anhand der Stichprobe Informationen über die Form der Verteilung zu gewinnen. Meist werden die ersten beiden Momente betrachtet (k=2). Aufgrund dieser Momente macht man Aussagen über den Mittelwert u und die Streuung o\ Genaueren Aufschluss über die Form der betrachteten Verteilung erhält man für k-A; in diesem Fall wird neben Mittelwert und Streuung auch noch die Schiefe u und die Wölbung a> herangezogen. Im Folgenden sollen jedoch die Betrachtungen auf den Fall k=2 beschränkt bleiben. Zu schätzen sind daher die beiden folgenden Parameter: •
=
e, (19.2) e2
=
u
=
u
,-r
K) Weise hat
Auf diese bekanntem
-a
=
-
man
v
auch hier ein
Schätzproblem, das mit demjenigen bei
Verteilungstyp vergleichbar ist.
19
Punktschätzungen
289
In beiden Fällen besteht die
Aufgabe nun darin, aufgrund der gegebenen Stichprobenwerte x ,x ,...,x die unbekannten Parameter 9],...,9i zu bestimmen, welche die Verteilung des Untersuchungsmerkmals X in der Grundgesamtheit charakterisieren. Hierzu müssen Funktionsvorschriften h. angegeben werden, welche den Stichprobenwerten Schätzwerte für die 8 zuordnen: (19.3) 9. hixv...,xn) für j=\,...,k. =
Formal sind die Schätzwerte 9 Realisationen von Stichprobenfunktionen 0 die wie folgt definiert sind: ,
(19.4) 0.
=
h.(X{,...,Xn) ßkj=l,...,k.
Man bezeichnet 0 als Schätzfunktion für den Parameter 9. und die Realisation 9
als Schätzwert für 9..
19.2
Qualitätseigenschaften von Schätzfunktionen
Nach welchen Kriterien soll nun eine Schätzfunktion 0. für einen zu schätzenden Parameter 9. festgelegt bzw. ausgewählt werden? Um die Qualität einer möglichen Schätzfunktion beurteilen zu können, gilt es, sich zunächst Gedanken über
wünschenswerte
Eigenschaften von Schätzfunktionen zu machen. Als Stichprobenfunktion ist 0 eine Zufallsvariable. Besitzt das Untersuchungsmerkmal in der Grundgesamtheit eine stetige Verteilung, so sind die Stichprobenvariablen stetig verteilt und auch die Schätzfunktion 0 wird im Allgemeinen eine stetige Verteilung aufweisen. In diesem Fall gilt aber stets W(® 9 ) 0. Man kann fast sicher sein, den unbekannten, aber wahren Wert 9. mit der Schätzfunktion 0 nicht zu treffen. Doch auch im diskreten Fall ist die Situation nicht wesentlich besser, auch hier ist der größtmögliche Wert für die Wahrscheinlichkeit W(®. 9.) häufig sehr klein. Diese Maximierungsüberlegungen sind zwar die Idee des so genannten Maximum-Likelihood-Prinzips1, eine qualitativ gute Schätzung garantieren sie jedoch nicht zwangsläufig. Um die Qualität einer Schätzfunktion zu beurteilen, muss man daher auf andere Eigenschaften übergehen. Üblicherweise betrachtet man in diesem Zusammen=
=
=
Maximum-Likelihood-Prinzip definiert eine Schätzfunktion dadurch, dass fur den nach diesem Prinzip bestimmten Schätzwert die Wahrscheinlichkeit bzw. die Wahrscheinlichkeitsdichte der Stichprobenrealisation maximal wird. Zu Einzelheiten vgl. z. B. G. bamberg & F. baur: Statistik, S. Das
153
ff; J. Härtung, b. Elpelt & K.-H. Klösener: Statistik,
S. 126 ff.
290
Teil D: Schließende Statistik
hang die Erwartungstreue, die Wirksamkeit und die Konsistenz. Da in den nachfolgenden Betrachtungen z. T. zusätzlich auf den Stichprobenumfang Bezug
wird, werden die Schätzfunktionen hier zusätzlich mit dem Stichprobenumfang n indiziert: & • Erwartungstreue (Unverzerrtheit): Die Funktionsvorschrift h soll so gewählt werden, dass ®. im Durchschnitt den wahren Wert des Parameters 0. trifft, dass also E6(0. )=rj. gilt. Dabei soll der Index an dem Erwartungswert-Operator kennzeichnen, dass der Erwartungswert von dem zu schätzenden Verteilungsparameter abhängt. Da man diesen wahren Parameterwert 0. a priori nicht kennt, muss für eine erwartungstreue Schätzfunktion gefordert werden, dass die Gleichung E6(0.n) 0. für alle möglichen Werte von 0. gilt. genommen
.
=
Unter Umständen ist eine Schätzfunktion 0. zwar nicht erwartungstreu, doch ihre Verzerrung wird für wachsenden Stichprobenumfang immer kleiner und verschwindet schließlich. Es gilt also lim Ee(0.) 0 ; in diesem Fall spricht man =
asymptotischer Erwartungstreue.1 • Wirksamkeit {Effizienz): Hier wird als Kriterium die Größe der Varianz einer Schätzfunktion betrachtet. Je kleiner Var^©^) ist, umso geringer ist i. d. R. die Wahrscheinlichkeit, dass eine erwartungstreue Schätzung um einen bestimmten Wert A (oder mehr) von 0. abweicht. Wenn 0. und i. zwei erwartungstreue Schätzfunktionen für 0 sind, dann heißt 0. wirksamer {effizienter) als i. falls gilt: < (19.5) Var9(y. Innerhalb einer vorgegebenen Menge M9 von erwartungstreuen Schätzfunktionen für die Schätzung des Parameters 0. heißt eine Schätzfunktion 0. wirksam {effij y
von
,
Var^Sy
...
zient), wenn gilt:
(19.6) v
'
Var9v(0.jn')