189 31 13MB
German Pages 185 [192] Year 1996
Statistik Einführung in die statistische Methodenlehre für Wirtschaftsund Sozialwissenschaftler
Von Diplom-Volkswirt
Klaus Urban Lehrbeauftragter für Statistik 4., aktualisierte Auflage
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Urban, Klaus: Statistik : Einführung in die statistische Methodenlehre für Wirtschafts- und Sozialwissenschaftler / von Klaus Urban. - 4., aktualisierte Aufl. - München ; Wien : Oldenbourg, 1996 ISBN 3-486-23633-4
© 1996 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gesamtherstellung: Grafik + Druck, München ISBN 3-486-23633-4
Vorwort zur 4. Auflage Für diese 4. Auflage wurden die Beispiele aus der Bevölkerungsstatistik an Hand des Statistischen Jahrbuchs 1995 aktualisiert. Außerdem wurde das Literaturverzeichnis überarbeitet und um einige empfehlenswerte Neuerscheinungen ergänzt. Der Aufbau des Buches, der sich in den Vorlesungen bewährt hat, blieb unverändert. Klaus Urban
Vorwort zur 1. Auflage Die vorliegende Einführung in die statistische Methodenlehre richtet sich in erster Linie an Studenten der Wirtschafts- und Sozialwissenschaften, zu deren Lehrplan durchweg mindestens ein Grundschein oder eine Klausur in Statistik gehört. Ohne diesen Schein bzw. ohne Erfolg in dieser Klausur kann das Grundstudium nicht abgeschlossen werden. Die Beschäftigung mit der Statistik ist für diesen Personenkreis deshalb zunächst oft ein schlichtes Muß; die Einsicht in die große Bedeutung statistischer Methoden im Wirtschaftsleben - auch und gerade für (künftige) Manager - fehlt meist noch. Groß sind dagegen vielfach die Vorbehalte gegenüber der Statistik, die nicht zuletzt auf den bekannt-hohen Durchfallquoten und der stark mathematischen Ausrichtung der meisten Lehrstühle und Lehrbücher beruhen dürften Um den Zugang zur Statistik nicht durch Überfrachtung mit Formeln zu versperren, wurde möglichst einfachen Zahlenbeispielen der Vorzug vor mathematischen Ableitungen gegeben; soweit Formeln oder mathematische Ableitungen zweckmäßig oder unvermeidbar erschienen, wurden sie ausführlich und nachvollziehbar erklärt. Durch bewußten Verzicht auf ein Streben nach Vollständigkeit und auf allgemeingültige Darstellung möchte der Verfasser dem Leser zunächst den Einstieg in die statistische Methodenlehre erleichtern, in der Absicht, dabei gleichzeitig das Interesse des Lesers für die Materie zu wecken und die Einsicht in die Notwendigkeit der Kenntnis statistischer Methoden - auch über die gefürchtete Klausur hinaus - zu fördern. Für eine weitergehende Beschäftigung mit der Statistik gibt es hervorragende Lehrbücher, auf die im Literaturverzeichnis hingewiesen wird, deren hohes Anspruchsniveau von Anfängern aber oft als abschreckend empfunden wird. Die Einführung wendet sich außerdem an diejenigen in Studium und Praxis, die erst in der täglichen Arbeit die große Bedeutung der Statistik erkannt haben und ihre Kenntnisse statistischer Methoden auffrischen möchten, um entweder selbst statistische Arbeit professionell leisten zu können oder um die statistischen Arbeiten anderer besser beurteilen zu können. Der ständigen Konfrontation mit den Ergebnissen statistischer Arbeit anderer kann man sich im Berufsleben kaum entziehen. Die Kenntnis statistischer Methoden kann davor bewahren, falsche Schlüsse zu ziehen und dazu beitragen, besser fundierte Entscheidungen zu treffen. Methoden, die in der Praxis häufiger vorkommen, werden ausführlicher dargestellt als solche, die eher von Spezialisten angewendet werden. Besonderes Gewicht wird auf die Deskriptive Statistik gelegt und hier wiederum auf die grafische Darstellung. Besonderes Augenmerk gilt den vielfältigen Möglichkeiten, durch falsche Anwendung statistischer Methoden Fehlinterpretationen zu bewirken und dadurch irre zu führen; nicht um Manipulationen zu ermöglichen, sondern um vor unbeabsichtigter Falschanwendung zu warnen und den Blick für absichtliche Irreführungen, die in der Statistik leider leicht möglich sind, zu schärfen. - Dagegen wird die Einführung in die Schließende Statistik bewußt knapp gehalten. Hier soll lediglich versucht werden, einige grundlegende Gedankengänge und Zusammenhänge verständlich
VI
Vorwort
zu machen. Auf eine möglichst vollständige und allgemeingültige Darstellung wird bewußt verzichtet. Das Manuskript ist auf APPLE MACINTOSH S E Personal Computer geschrieben, mit Software-Programmen MICROSOFT WORD, MICROSOFT EXCEL, EXPRESSIONIST, CLARIS MACDRAW 11 und CRICKET DRAW, die Druckvorlage ist auf APPLE LASER WRITER ausgedruckt. Dadurch wurde eine besonders lesefreundliche typografische Gestaltung möglich. Herrn Diplom-Betriebswirt Hans Bilger danke ich für die Beratung bei der Auswahl der bestgeeigneten Standardsoftware, Herrn Thomas Schubert, Student der Wirtschafts-informatik an der TH Darmstadt, für die Hilfestellung beim Gebrauch der Softwareprogramme, insbesondere von MICROSOFT WORD und Herrn Diplom-Betriebswirt Michael Janetschek für die Mithilfe beim Korrekturlesen und beim Zusammenstellen der Verzeichnisse. Das Galton'sehe Brett GEOMIX und die Abbildung davon wurden freundlicherweise von der Lehrmittelfirma RATEC, Frankfurt/Main, zur Verfügung gestellt. Mein ganz besonderer Dank gilt Herrn Diplom-Volkswirt Martin Weigert, Lektoratsleiter beim Oldenbourg-Verlag, für die Anregung, meine Erfahrungen als Lehrbeauftragter in dieser Einführung niederzulegen und für die außerordentliche Freiheit, die er mir bei der Gestaltung dieser Einführung einräumte. Klaus Urban
Inhaltsverzeichnis
I.
Vorwort
v
Grundbegriffe
1
A.
Begriff "Statistik"
1
B.
Ziele und Anwendungsgebiete der Statistik
1
C.
"Massenerscheinung" und "statistische Masse"
3
D.
Statistische
4
E.
F.
Massen
1.
Begriff
4
2.
Arten statistischer Massen a) nach der Zählbarkeit der Einheiten b) nach der Realität der Einheiten c) nach der zeitlichen Dauer der Einheiten
4 4 4 4
3.
Abgrenzung statistischer Massen
5
4.
Umfang statistischer Massen
6
Statistische
Einheiten
6
1.
Begriff
6
2.
"reale Einheiten" und "Fälle"
7
Statistische Merkmale und Merkmalsausprägungen
7
1.
Begriff
7
2.
Begriffs-Merkmale und Erhebungs-Merkmale
8
3.
qualitative und quantitative Merkmale
8
4.
Arten von Skalen a) Nominal-Skala b) Ordinal-Skala c) Kardinal-Skala (= metrische Skala) d) Unterschiede zwischen den Skalen
,
9 9 9 9 10
5.
häufbare und nicht häufbare Merkmale
10
6.
diskontinuierliche und kontinuierliche Merkmale
10
VIII
II.
Inhaltsverzeichnis
Die Phasen statistischer Arbeit A.
B.
Erfassung ( = Erhebung)
12
1.
Primär-Statistik und Sekundär-Statistik
12
2.
Voll-Erhebung und Teil-Erhebung
13
Aufbereitung
13
1.
Verschlüsseln
14
2.
Auszahlen a) b) c) cl) c2)
14 14 14 15 15 17
3.
Ur-Liste Strich-Liste Häufigkeitstabelle Aufbau einer Häufigkeitstabelle Häufigkeitstabelle bei quantitativen Merkmalen
Gruppieren a) b) b1) b2) b3)
Bildung statistischer Gruppen Arten statistischer Gruppen geographische Gruppen zeitliche Gruppen sachlich-qualitative Gruppen Zuordnung häufbarer Merkmale b4) sachlich-quantitative Gruppen "Größenklassen"
C.
III.
Auswertung
B.
C.
19 19 19 19 19 20 20 22 22 28
Darstellung der Ergebnisse A.
12
29
Gegenüberstellung von tabellarischer und grafischer Darstellung
29
Tabellarische
30
Darstellung
1.
Aufbau einer Tabelle
30
2.
Schema einer Tabelle
30
Grafische Darstellung
31
1.
Grundsätzliches zur grafischen Darstellung
31
a)
Zielsetzung grafischer Darstellungen
31
b)
Darstellungsprobleme und -methoden Systematik Größen-Vergleich Struktur-Vergleich kombinierter Größen- und Struktur-Vergleich.
31 31 31 33 33
bl) b2) b3) b4)
IX
Inhaltsverzeichnis
2.
Grundtypen grafischer Darstellungen
34
a)
Übersicht
34
b)
Säulen-Diagramm (= Stab-Diagramm = Balken-Diagramm)
34
c)
d)
e)
Darstellung von Zeitreihen d1) Säulen-Diagramm d2) Kurven mit arithmetischem Maßstab d3) Kurven mit logarithmischem Maßstab
42 43 44 45
Summen-Kurve und Lorenz-Kurve f1) Summen-Kurve f2) Lorenz-Kurve ( = Konzentrations-Kurve)
g)
IV.
38 39 41 41
Kreis-Diagramm
f)
3.
Histogramm, Häufigkeits-Polygon und Verteilungskurven c1) Histogramm c2) Häufigkeits-Polygon c3) Verteilungskurven
Schaubilder
Zusammenfassung
Statistische
Maßzahlen
46 50 50 52 54 55
55
A.
Problem-Situation
55
B.
Mittelwerte
55
1.
Begriff und Arten
55
2.
Arithmetisches Mittel a) Symbole b) Berechnung des arithmetischen Mittels b1) Berechnung als "einfaches" arithmetisches Mittel b2) Berechnung als "gewogenes" arithmetisches Mittel b3) Berechnung bei in Größenklassen zusammengefaßtem Material c) mathematische Eigenschaften des arithmetischen Mittels c1) Ersatzwert-Eigenschaft c2) Null-Eigenschaft c3) Gesetz der großen Zahl c4) Rechnerische Abstraktion d) Voraussetzung für die Anwendung des arithmetischen Mittels e) Bedeutung und Grenzen des arithmetischen Mittels
56 56 56 56 57
Geometrisches Mittel a) Symbol b) Berechnung des geometrischen Mittels c) Anwendung des geometrischen Mittels c1) bei zeitlichen Reihen mit Entwicklungstendenz c2) bei Zuwachsraten (= Wachstumsraten) d) Voraussetzung für die Anwendung des geometrischen Mittels
62 62 62 63 63 63
3.
58 59 59 59 60 61 61 62
66
X
Inhaltsverzeichnis
C.
4.
Harmonisches Mittel
66
5.
Zentralwert ("Median") a) Bestimmung des Zentralwertes al) Bestimmung des Zentralwerts bei Vorliegen aller Einzelwerte a2) Bestimmung des Zentralwerts bei Vorliegen einer Häufigkeitsverteilung b) Bedeutung des Zentralwerts
67 67 67 68 69
6.
Häufigster Wert ("Modus") a) Bestimmung des Häufigsten Wertes b) Bedeutung des Häufigsten Wertes
69 69 70
7.
Vergleich der Mittelwerte a) Gegenüberstellung b) bei eingipflig symmetrischen Verteilungen
71 71 71
Streuungsmaße
73
1.
Problem-Situation
73
2.
Spannweite (Variationsbreite)
74
3.
Varianz (Streuung i.e.S.) und Standardabweichung
74
a)
b)
Berechnung von Varianz, Standardabweichung und Variationskoeffizient a.1) Berechnung der Varianz a.2) Berechnung der Standardabweichung ("mittlere quadratische Abweichung") a.3) Berechnung des Variationskoeffizienten Bedeutung der Standardabweichung Einfluß des Zufalls Versuchsreihe am Galton'schen Brett b2) Die Berechenbarkeit des Zufalls Gesetz der großen Zahl und Gauß'sche Normalverteilung
75 75 77 77 79
b.1)
D.
Schiefemaße
und Wölbungsmaße
79 84 86
1.
Problem-Situation
86
2.
Schiefemaße
86
3.
Wölbungsmaße
87
XI
Inhaltsverzeichnis
V.
Verhältniszahlen
88
A.
Begriff und Arten
88
B.
Gllederungs-,
VI.
und
Meßzahlen
88
1.
Unterscheidungskriterium
88
2.
Gliederungszahlen a) Berechnung von Gliederungszahlen b) Problematik von Gliederungszahlen b1) Wahl der Beziehungsgrundlage b2) Bedeutung der Grundzahlen b3) relative Zahlen als Grundzahlen "Prozent" und "Prozent-Punkte" c) Beispiele für Gliederungszahlen
89 89 89 89 91
3.
Beziehungszahlen a) Berechnung von Beziehungszahlen b) Beispiele für Beziehungszahlen c) Bedeutung von Beziehungszahlen
93 93 94 94
4.
Meßzahlen a) Berechnung von Meßzahlen b) Problematik der Meßzahlen: Bestimmung des Basiszeitraums c) Meßzahlen "mit fester Basis" und "mit Ketten-Basis" d) Bedeutung der Grundzahlen e) Sonderprobleme bei zeitlichen Meßzahlenreihen Umbasieren
95 95
100
Zusammenfassung
101
5. C.
Bezlehungs-
92 93
95 97 99
Allgemeine, spezifische und besondere Verhältniszahlen
101
1. 2. 3. 4. 5.
101 101 102 103 103
Unterscheidungskriterium Allgemeine Verhältniszahlen Spezifische Verhältniszahlen Besondere Verhältniszahlen Zusammenfassung
Index-Zahlen
104
A.
Problem-Situation
104
B.
Methodik der Index-Zahlen
105
1.
Symbole
105
2.
"Wert-Index", Preis-Index und Mengen-Index a) "Wert-Index" b) Preis-Index und Mengen-Index
106 106 106
3.
Index nach Laspeyres und Index nach Paasche
106
4.
Konstruktion der Index-Formeln
107
XII
Inhaltsverzeichnis
C.
Aussage der Index-Zahlen
107
D.
Berechnung
108
E.
Vergleich der Indizes
109
1.
Unterschiede
109
2.
Zusammenhänge ("Preisbereinigung")
109
F.
VII.
der Index-Zahlen
Anwendung der Index-Zahlen
110
1.
Ausgewählte Anwendungen
110
2.
Warenkorb
110
Schließende Statistik
111
A.
Einführung
111
B.
Fragestellungen
Stichprobentheorie
112
1.
Materielle und formale Fragestellungen
112
2.
Schätzung unbekannter Parameter
112
a) b) c)
112 112 113 113 114 115 116 116
d) e) f) 3. C.
der
Begriff "Parameter" homograde und heterograde Fragestellung Urnen-Modell c l ) Urnen-Modell bei homograder Fragestellung c2) Urnen-Modell bei heterograder Fragestellung Ziehen "mit" und "ohne" Zurücklegen Punkt- und Intervall-Schätzung Symbole
Prüfen von Hypothesen
117
Grundbegriffe der Wahrscheinlichkeitsrechnung
118
1.
Definition "Wahrscheinlichkeit" a) klassische Definition der Wahrscheinlichkeit
118 118
b)
118
Grenzwert-Definition der Wahrscheinlichkeit
2.
Zufallsvariable
119
3.
Verteilungsgesetz (= Wahrscheinlichkeitsverteilung)
119
a) b)
119 121 121 121
c)
d) 4.
Begriff Verschiedene Wahrscheinlichkeitsverteilungen b1) diskrete Wahrscheinlichkeitsverteilungen b2) stetige Wahrscheinlichkeitsverteilungen Wahrscheinlichkeits-Funktion und Verteilungs-Funktion (bei diskreter Verteilung)
121
Dichte-Funktion und Verteilungs-Funktion (bei stetiger Verteilung)
122
Das Gesetz der gro ßen Zahl
123
Inhaltsverzeichnis
D.
XIII
5.
Das Rechnen mit Wahrscheinlichkeiten a) Die Summe der Wahrscheinlichkeiten b) Der Additions-Satz c) Der Multiplikations-Satz
124 124 124 125
6.
Permutation und Kombination / Binomial-Koeffizient a) Permutation b) Kombination c) Binomial-Koeffizient
126 126 127 128
Grundbegriffe 1.
der Stichprobentheorie
Heterograder Fall
129
a)
Grundgesamtheit a1) Häufigkeitsverteilung und grafische Darstellung der Grundgesamtheit a2) Parameter der Grundgesamtheit
129
Stichproben beim Ziehen "mit" Zurücklegen b1) 2er-Stichproben b2) 4er-Stichproben b3) Vergleich der Stichproben-Ergebnisse mit der Grundgesamtheit
131 131 135
b)
c) cl) c2) c3) c4) d)
e)
2.
129
Stichproben beim Ziehen "ohne" Zurücklegen Korrektur-Faktor Auswahlsatz Näherungsformel Quadratwurzel-Gesetz
Zusammenfassung d1) * = H d2) Zentraler Grenzwertsatz / Gauß'sche Normalverteilung d3) Korrektur-Faktor und Näherungsformel d4) Quadratwurzel-Gesetz Anwendung der bisherigen Erkenntnisse (heterograder Fall) e1) direkter Schluß: Schluß von der Grundgesamtheit auf die Stichprobe "Inklusionsschluß" e2) indirekter Schluß: Schluß von der Stichprobe auf die Grundgesamtheit "Repräsentationsschluß" e3) Vertrauensbereich und Sicherheitsgrad
129 130
139 142 142 143 143 144 145 145 145 145 145 146 146 148 149
Homograder Fall
149
a)
Urnen-Modell
149
b)
Symbole
149
c)
Grundgesamtheit Häufigkeitsverteilung und grafische Darstellung der Grundgesamtheit c2) Parameter der Grundgesamtheit
150
c1)
150 150
XIV
Inhaltsverzeichnis
3.
d)
Stichproben d1) Stichproben beim Ziehen "mit" Zurücklegen d2) Stichproben beim Ziehen "ohne" Zurücklegen
151 151 155
e)
Anwendung der Erkenntnisse (homograder Fall) e1) direkter Schluß: Schluß von der Grundgesamtheit auf die Stichprobe "Inklusionsschluß" e2) indirekter Schluß: Schluß von der Stichprobe auf die Grundgesamtheit "Repräsentationsschluß"
156 156 157
Gegenüberstellung: heterograder Fall und homograder Fall
157
a)
Grundgesamtheit
157
b)
Stichproben b1) generell b2) "mit" Zurücklegen b3) "ohne" Zurücklegen b4) Näherungsformeln
158 158 158 158 158
c)
Vertrauensbereiche c1) direkter Schluß c2) indirekter Schluß
159 159 159
4.
Zusammenfassung
159
5.
Voraussetzung für die Anwendung der Stichprobentheorie
160
a)
160
b)
Zufallsauswahl Verfahren der Zufallsauswahl b1) Uneingeschränkte Zufallsauswahl: einfache Zufallsstichprobe (echte Zufallsauswahl) b2) Systematische Zufallsauswahl (unechte Zufallsauswahl) b3) geschichtete Zufallsstichprobe b4) Klumpenstichprobe b5) Mehrstufige Stichprobenauswahl
c)
Sonstige Verfahren
Zusammenfassung
160 160 160 161 161 161 161 162
Verzeichnis der Symbole
163
Literaturverzeichnis
167
Register
169
Kapitel I Grundbegriffe
I.
Grundbegriffe
A.
Begriff "Statistik"
1
Statistik hat zwei Bedeutungen: ®
Die quantitativen Methoden zur Beschreibung und Analyse von Massenerscheinungen
®
Die Ergebnisse der Anwendung statistischer Methoden (Tabellen, Grafiken etc.)
Gegenstand der vorliegenden Einführung ist die Darlegung der Methoden. Ergebnisse zur Veranschaulichung herangezogen.
Dabei werden
Im Sinne der ersten Bedeutung ist Statistik eine Methodenlehre, und zwar von Methoden zur Beschreibung (= Deskriptive Statistik) und Analyse (= Schließende Statistik) von Massenerscheinungen. Der Begriff "Massenerscheinung" ist dabei - wie noch zu zeigen ist - ein unpräziser Oberbegriff. Nicht jede Methode zur Beschreibung und Analyse von Massenerscheinungen aber ist Statistik. Als Statistik bezeichnet man nur die quantitativen Methoden, also die Methoden des Zählens und Messens und der Anwendung mathematischer Verfahren. Dagegen gelten sonstige Methoden, z.B. Romane, Reportagen, Features, Bilddokumentationen und vieles andere, was ebenfalls geeignet ist, Massenerscheinungen zu beschreiben und zu analysieren, nicht als Statistik.
B.
Ziele und Anwendungsgebiete der Statistik
® Statistik will Global-Aussagen über Massenerscheinungen gewinnen. Massen bestehen aus Individuen. Aussagen über Individuen gelten nicht als Statistik. Statistik liefert anonyme Aussagen, die keine Rückschlüsse auf bestimmte Individuen zulassen. Eine "Statistik der weitbesten Tennisspieler" ist in diesem Sinne keine Statistik, wenn damit die Rangliste gemeint ist. Statistik will die Fülle verfügbarer Informationen durch Verdichtung so reduzieren, daß die wichtigsten Informationen Sichtbarwerden. Was im konkreten Einzelfall "wichtig" ist, hängt ab vom Untersuchungsziel. ®
® Statistik will Entscheidungshilfen liefern. Die Ergebnisse der Anwendung statistischer Methoden werden in Politik, Wirtschaft und Verwaltung als Grundlage für Entscheidungen herangezogen und benötigt. Die Bedeutung der Statistik als Entscheidungshilfe kann kaum überschätzt werden. Ob Parteien, Verbände (Arbeitgeberverbände und Gewerkschaften, schlechthin alle Interessenverbände), Regierung auf allen Ebenen oder Unternehmen (nach außen - z.B. gegenüber Aktionären oder Geschäftspartnern und nach innen - z.B. des Mittel-Managements gegenüber der Geschäftsleitung oder der Geschäftsleitung gegenüber den Mitarbeitern) - sie alle bedienen sich der Ergebnisse statistischer Methoden zur Stützung ihrer Argumentation und zur Begründung von Entscheidungen oder Empfehlungen.
® Gefahr falscher Anwendung statistischer Methoden Dabei werden oft handfeste Interessen vertreten und alle Möglichkeiten der Darstellung eines Sachverhalts ausgeschöpft. Die Grenze zur Manipulation ist nicht immer leicht zu ziehen und wird oft überschritten. Wer im Kampf der Interessengruppen nicht unterliegen will, muß die statistischen Methoden schon sehr gut kennen, um methodische Unsauberkeiten oder gar Manipulationen als solche erkennen und entlarven zu können.
2
Kapitel I Grundbegriffe
Wer aus diesen Gründen Statistik schlechthin als "Lüge" abqualifiziert, macht es sich zu einfach. Es geht nicht (mehr) ohne Statistik. Nicht "die Statistik" ist schlecht, sondern die Kenntnis ihrer Methoden ist oft mangelhaft oder ihre Anwendung ist von Interessen beeinflußt. Neben der Erklärung einiger wichtiger statistischer Methoden ist der Hinweis auf die Gefahren ihrer Falsch-Anwendung ein zentrales Anliegen des Verfassers. ® Statistik ist eine Hilfswissenschaft. Die Anwendung ihrer Methoden ist grundsätzlich unabhängig vom jeweiligen Anwendungsbereich. So werden statistische Methoden in vielen Zweigen der Wissenschaft eingesetzt, insbesondere in den Wirtschaftswissenschaften Sozialwissenschaften Naturwissenschaften. Trotzdem gibt es gewisse Unterschiede, insbesondere zwischen der Anwendung in den Wirtschafts- und Sozialwissenschaften einerseits und in den Naturwissenschaften andererseits. So wie eine Nagelschere etwas anders aussieht als eine Blechschere, auch wenn das Konstruktionsprinzip "Schere" bei beiden das gleiche ist.
®
Besonderheit der wirtschafts- und sozialwissenschaftlichen Statistik:
Adäquationsproblem
Die Besonderheit der wirtschafts- und sozialwissenschaftlichen Statistik ist das sogenannte "Adäquationsproblem". Damit ist gemeint, daß die Begriffe zuerst klar abgegrenzt ("adäquat gemacht") werden müssen, bevor quantitative Methoden angewendet werden können. Das sei an zwei Beispielen veranschaulicht: Beispiel: Was ist ein Einwohner? Bevor man bei der Volkszählung mit dem Zählen anfangen kann, muß erst festgelegt werden, nach welchem Prinzip die statistische Masse "Bevölkerung" abgegrenzt werden soll. Es gibt grundsätzlich zwei Möglichkeiten: Abgrenzung nach dem >inwesen/ie/isprinzip (so früher) Abgrenzung nach dem Wohnort prinzip (so heute). Man stelle sich den Unterschied in den Ergebnissen vor, je nachdem, ob die Einwohnerzahl von Sylt im Sommer oder im Winter nach dem Anwesenheitsprinzip erhoben würde. Beispiel: Was ist ein Verkehrstoter? In den verschiedenen Ländern sind sehr unterschiedliche Abgrenzungen in Anwendung, z. B.: in Portugal: wer bei einem Unfall bzw. während des Transports ins Krankenhaus stirbt in Österreich: dito, aber zusätzlich innerhalb von 3 Tagen in Deutschland: dito, zusätzlich innerhalb von 30 Tagen in USA: dito, zusätzlich innerhalb eines Jahres (Quelle: Schneider, Wolf: Der gute Glaube an die Statistik) Man stelle sich vor, wie sich die Zahl der Verkehrstoten in USA schlagartig reduzieren würde, wenn dort auf die in Portugal übliche Abgrenzung übergegangen werden würde. Beide Beispiele verdeutlichen zugleich die Notwendigkeit, bei internationalen Vergleichen (Querschnittsanalyse) und bei Langzeitvergleichen (Längsschnittanalyse) sehr behutsam vorzugehen und erst zu prüfen, ob die Abgrenzung nach den gleichen Prinzipien erfolgte, ehe aus Unterschieden kühne Schlußfolgerungen gezogen werden. Die vorliegende Einführung ist vor allem auf die Anwendung der statistischen Methoden in den Wirtschafts- und Sozialwissenschaften ausgerichtet. ®
Wichtigste Anwendungsgebiete
®
die amtliche Statistik und
®
die Betriebsstatistik.
der wirtschaftswissenschaftlichen Statistik sind
Kapitel I Grundbegriffe
3
Von der Entwicklung der Methoden her stand zunächst die amtliche Statistik im Vordergrund. Mit zunehmender Größe der Unternehmungen und Komplexität des Wirtschaftslebens, auch mit zunehmender Kenntnis der statistischen Methoden ist die betriebliche Statistik in ihrer Bedeutung gleichberechtigt neben die amtliche Statistik getreten. ®
Man unterscheidet zwei Erkenntnisziele
der Statistik:
® Deskriptive Statistik Die Deskriptive Statistik beschränkt sich auf die Beschreibung (Deskription) von Massenerscheinungen, ihr Gegenstand sind z.B. Umfang, Gliederung, grafische Darstellung oder Darstellung der zeitlichen Entwicklung von Massenerscheinungen sowie des Verhältnisses verschiedener Massen zueinander. • Schließende Statistik Die Schließende Statistik verwendet die Methoden der deskriptiven Statistik, geht aber über die reine Beschreibung hinaus und versucht allgemeingültige Aussagen durch den Schluß insbesondere von einer Teilmasse auf die Gesamtmasse. Ihr Gegenstand ist die Schätzung unbekannter Parameter und das Prüfen von Hypothesen.
C.
"Massenerscheinung" und "statistische Masse"
Gegenstand der Statistik sind, wie die Definition besagt, Massenerscheinungen. "Massenerscheinung" ist ein sehr unpräziser Oberbegriff, der am besten durch Beispiele veranschaulicht wird: Erwerbstätigkeit Hunger in Afrika Umweltverschmutzung sind Massenerscheinungen. Die direkte Anwendung quantitativer Methoden auf Massenerscheinungen ist nicht möglich. Wie sollte man "die Erwerbstätigkeit" oder "den Hunger in Afrika" etc. zählen oder messen? Die Statistik hat deshalb den Begriff "Statistische Masse" entwickelt. ®
Massenerscheinungen manifestieren sich in statistischen Massen, z. B.
Massenerscheinunq Erwerbstätigkeit
Hunger in Afrika
Umweltverschmutzung
statistische Massen Erwerbspersonen Erwerbstätige Erwerbslose offene Stellen Zahl der unterernährten Kinder Zahl der an Hunger gestorbenen Personen Nahrunqsmittelvorräte Schadstoffgehalt der Luft oder des Trinkwassers Zahl der Reaktorunfälle Zahl der Neuzulassunqen von Pkw mit qereqeltem Katalysator
Tabelle 1-1 Diese statistischen Massen lassen sich nun zählen (Personen, Pkw) bzw. messen (Schadstoffgehalt der Luft) bzw. sind überhaupt der Anwendung quantitativer Methoden zugänglich.
4
Kapitel I Grundbegriffe
D.
Statistische
Massen
1.
Begriff
®
Statistische Massen sind Gesamtheiten von gleichartigen, aber variablen Einheiten.
Die Gleichartigkeit erlaubt die Zusammenfassung. Nur Gleichartiges kann man zusammenzählen (aus dem gleichen Grund, aus dem man Äpfel und Birnen nicht zusammenzählen soll). Gleichartigkeit liegt vor, wenn die einzelnen Einheiten sich einem gemeinsamen Oberbegriff unterordnen lassen. Gleichartigkeit bedeutet jedoch nicht völlige Gleichheit. Hinsichtlich anderer Merkmale können sich die einzelnen Einheiten der Masse sehr wohl unterscheiden. Diese Variabilität ist sogar die einzige Rechtfertigung der Statistik überhaupt. Wenn die einzelnen Einheiten völlig gleich wären, bliebe nichts mehr zu beschreiben und zu analysieren, allenfalls zu zählen! Dazu bedurfte es aber keiner statistischen Methoden. Neben dem Begriff "Statistische Masse" wird (in der Schließenden Statistik) der Ausdruck "Grundgesamtheit" gleichbedeutend verwendet.
2.
Arten statistischer
Massen
Man kann statistische Massen nach verschiedenen Unterscheidungskriterien a)
b)
c)
nach der Zählbarkelt
der
gliedern:
Einheiten
®
diskontinuierliche Massen die Einheiten der Masse sind zählbar, z. B. Personen, Pkw, Unfälle, Konkurse
®
kontinuierliche Massen die Einheiten sind nicht zählbar, sondern nur meßbar, z. B. Flächen, Strecken, Inhalte Hierbei ist zu beachten, daß die Zahl der Einheiten nicht eindeutig ist, sondern abhängt von der gewählten Maßeinheit, z.B. bei Rohöl (ob barrel oder Tonne).
nach der Realität
der Einheiten
®
reale Massen, z.B. Bevölkerung, Beschäftigte, Unfälle
®
hypothetische Massen z.B. Ziehungen von Kugeln, Werfen von Würfeln oder Münzen. Diese Massen spielen in der Schließenden Statistik eine Rolle.
nach der zeitlichen ®
Dauer
der Einheiten
Bestandsmassen Gesamtheiten von gleichzeitig nebeneinander z.B. Bestand an Pkw am 31.12.19x0 Erfassung in einem Zeitpunkt
bestehenden Einheiten,
Kapitel I Grundbegriffe
5
•
Bewegungsmassen Gesamtheiten von zeitlich nacheinander folgenden Einheiten, z.B. Zahl der im Jahr 19x1 neu zugelassenen Pkw Erfassung in einem Zeitraum
®
korrespondierende Massen zusammengehörige Bestands- und Bewegungsmassen. Bei korrespondierenden Massen verandern Bewegungsmassen den Umfang und/oder die Struktur der zugehörigen Bestandsmasse Beispiel: Bestand an Pkw am 31.12.19x0 (Bestandsmasse), Neuzulassungen in 19x1 (Bewegungsmasse) Stillegungen von Pkw in 19x1 (Bewegungsmasse)
Bei korrespondierenden
Massen ist die Anwendung der Methode der Fortschreibung möglich.
®
Unter Fortschreibung versteht man die Berechnung einer Bestandsmasse für einen Zeitpunkt, für den keine Erhebung vorliegt, aus dem Anfangsbestand (aus einer zurückliegenden Erhebung) unter Hinzurechnung der Zugänge und Abrechnung der Abgänge.
®
Fortschreibungsformel: Neuer Bestand = Anfangsbestand + Zugänge - Abgänge Formel 1-1
Die Fortschreibung hat große Bedeutung für die amtliche und für die betriebliche Statistik Beispiel für die Anwendung in der amtlichen Statistik: Die Zahl der Einwohner, der Haushalte, Wohnungen etc. wird in großen zeitlichen Abständen früher etwa alle 10 Jahre - im Rahmen einer Volkszählung erhoben. Für den langen Zeitraum zwischen zwei Volkszählungen - zwischen der letzten (1987) und der vorletzten (1970) lagen 17(1) Jahre - können aktuellere Zahlen nur im Wege der Forlschreibung ermittelt werden, z.B. für die Zahl der Einwohner durch Hinzurechnung der Geburten und Zuwanderungen und durch Abrechnen der Todesfälle und Abwanderungen. Selbst im Zeitpunkt der Veröffentlichung der Ergebnisse einer neuen Volkszählung sind diese schon über ein Jahr alt und bedürfen der Aktualisierung durch Fortschreibung Beispiel für die Anwendung in der betrieblichen Statistik: Die Ermittlung der Bestände an Vorräten und Anlagevermögen erfolgt jährlich einmal durch Inventur. Dazwischen können aktuelle Werte nur durch Fortschreibung ermittelt werden, bei den Lagerbeständen z.B. durch Hinzurechnen der Materialzugänge und Abrechnen der Materialentnahmen Je länger allerdings die letzte Vollerhebung zurückliegt, um so ungenauer werden die Ergebnisse der Fortschreibung, da die vollständige Erfassung der Zu- und Abgänge nicht gewährleistet ist und sich Fehler kumulieren
3.
Abgrenzung statistischer Massen
Jede statistische Masse muß nach drei Kriterien möglichst eindeutig abgegrenzt werden: ®
zeitlich
®
geographisch
®
sachlich.
Beispiel: Die in der Bundesrepublik zugelassenen Pkw am 31.12 19x0. Zeitliche Abgrenzung: am 31.12 19x0 geographische Abgrenzung: Bundesrepublik Sachliche Abgrenzung: Pkw Auf die verschiedenen Möglichkeiten sachlicher Abgrenzung wurde bereits unter "Adäquationsproblem" hingewiesen.
Kapitel I Grundbegriffe
6
4.
Umfang statistischer Massen
Ein für die gesamte Statistik wichtiger Begriff ist der Umfang einer statistischen Masse: ®
Unter Umfang einer statistischen Masse versteht man die Anzahl der Einheiten.
®
Symbol für den Umfang einer statistischen Masse: (von lat. numerus)
N
Symbol 1-1
In der Schließenden Statistik unterscheidet man zwei Symbole; ®
N
("groß N")
Symbol für den Umfang der Grundgesamtheit
Symbol I-2
®
n
("klein n")
Symbol für den Umfang einer Stichprobe.
Symbol 1-3
E.
Statistische
1.
Begriff
®
Die Einheiten statistischer Massen bezeichnet man als statistische Einheiten.
Einheiten
Beispiele für statistische Einheiten: Personen
Sachen soziale Gebilde Geschehensverläufe Ereignisse Handlungen
Beschäftigte Arbeitslose Benutzer von Verkehrsmitteln Inhaber von Kreditkarten zugelassene Pkw Kreditkarten in Umlauf Aktiengesellschaften Familien Haushalte schwebende Gerichtsverfahren Vergleichsverfahren Geburten Todesfälle Unfälle Einkäufe Gründungen
Tabelle I-2 Statt des Begriffs "statistische Einheiten" oder einfach "Einheiten" werden verwendet die Begriffe: ®
gleichbedeutend
Elemente
• Fälle Die Begriffe "Einheiten" und "Elemente" lassen offen, ob es sich um Bestands- oder Bewegungsmassen handelt. Der Begriff "Fälle" wird vorwiegend für Bewegungsmassen (z.B. für Geburten, Todesfälle, Unfälle etc.) verwendet.
7
Kapitel I Grundbegriffe
2.
"reale Einheiten" und "Fälle"
®
Von Bedeutung ist die Unterscheidung zwischen "realen Einheiten" und "Fällen".
Beispiele: "reale Einheiten" "FälleZahl der Kreditkarten Inhaber von Kreditkarten Personen, die an einem Ostermarsch teilnehmen Zahl der Teilnehmer an den Ostermärschen Zahl der Unfälle bei Unfällen verunglückte Personen Tabelle 1-3 ®
Die Zahl der "Fälle" ist meist größer als die Zahl der "realen Einheiten", Beispiele: Die Zahl der Kreditkarten ist größer als die Zahl der Kreditkarteninhaber, da ein Kreditkarteninhaber mehrere Kreditkarten besitzen kann. Die Zahl der Teilnehmer an den Ostermärschen kann größer sein als die Zahl der Personen, die daran teilgenommen haben, da einzelne Personen an mehreren Tagen teilgenommen haben können. Es gibt allerdings auch den umgekehrten Fall, daß nämlich die Zahl "Fälle" kleiner ist als die Zahl der realen Einheiten, Beispiel: Die Zahl der Personen, die bei Unfällen verunglückt sind, kann größer sein als die Zahl der Unfälle, da an einem Unfall mehrere Personen beteiligt sein können. Letzteres ist zugleich ein Beispiel dafür, daß beides vermischt vorkommen kann, da natürlich ebenso eine Person mehrmals an Unfällen beteiligt sein kann. Oft möchte der Statistiker die Zahl der "realen Einheiten", erhält aber statt dieser die Zahl der "Fälle", da diese oft leichter zu ermitteln ist. Wichtig ist, daß man sich des Unterschieds bewußt ist, um keine falschen Schlüsse - z.B. über das Potential an Kreditkarten - zu ziehen. Durch Verwendung der Zahl der "Fälle" statt der Zahl der "realen Einheiten" kann ein Sachverhalt auch leicht dramatisiert werden (Beispiel: Bericht über Teilnehmer an den Ostermärschen). Daß diese Unterscheidung nicht immer einfach ist, ist zu erahnen, wenn sie selbst in den offiziellen Nachrichten - denen eine Absicht zur Manipulation gewiß nicht unterstellt werden soll - nicht immer gemacht wird. Schließlich ist noch anzumerken, daß die eine Zahl nicht "besser" oder "richtiger" ist als die andere. Es kommt darauf an, was ausgesagt werden soll. Beispiel: Für die Beurteilung der Auslastung der öffentlichen Nahverkehrsmittel ist es völlig unbeachtlich, ob eine Person mehrmals oder verschiedene Personen je einmal fahren. Es kommt nur auf die Gesamtzahl der Benutzer an. Hier wäre die Zahl der "Fälle" genau richtig. Will man dagegen Informationen als Grundlage für die Preisgestaltung, z. B. für einfache Fahrten und für Rückfahrkarten, braucht man die Zahl der "realen Einheiten".
F.
Statistische Merkmale und
1.
Begriff
Merkmalsausprägungen
®
Die statistischen Einheiten unterscheiden sich durch Merkmale.
®
Merkmale kommen vor in verschiedenen
Ausprägungen.
Kapitel I G r u n d b e g r i f f e
8 Beispiele: Merkmale Haarfarbe Familienstand Kinderzahl Tabelle 1-4
2.
Merkmalsauspräqunqen s c h w a r z , braun, blond ledig, verheiratet, verwitwet, g e s c h i e d e n 1 Kind, 2 Kinder, 3 Kinder
Begriffs-Merkmale und Erhebungs-Merkmale
M e r k m a l e k ö n n e n sein: ®
Segr/'ffs-Merkmale o d e r
®
Erhebungs-
Merkmale.
Beqriffs-Merkmale geographisch zeitlich sachlich sind für alle Elemente einer statistischen M a s s e gleich sichern die Gleichartiqkeit Tabelle 1-5
Erhebunqs-Merkmale geographisch zeitlich sachlich k ö n n e n bei den e i n z e l n e n E l e m e n t e n einer statistischen M a s s e unterschiedlich sein repräsentieren die Variabilität
Die Begriffs-Merkmale d i e n e n d e r Abgrenzung der statistischen Masse. Den ErhebungsM e r k m a l e n gilt d a s eigentliche Interesse des Statistikers. N e b e n der Feststellung des Umfangs d e r s t a t i s t i s c h e n M a s s e ( A n z a h l d e r E l e m e n t e ) ist die Gliederung der statistischen Masse nach M e r k m a l e n (genauer: n a c h E r h e b u n g s - M e r k m a l e n ) erstes Ziel der statistischen Arbeit. Das gleiche M e r k m a l k a n n bei einer U n t e r s u c h u n g Seg/v'ffs-Merkmal, bei einer anderen Unters u c h u n g Erhebungs-Merkmal sein. Beispiele: Wohnort: Bei einer E r h e b u n g d e r Einwohner Frankfurts ist der W o h n o r t BegriffsMerkmalI; bei einer E r h e b u n g der Nahverkehrsströme ist d e r W o h n o r t ErhebungsMerkmal. Geburtsdatum: Bei einer E r h e b u n g d e r über 6 5 j ä h r i g e n ist d a s G e b u r t s d a t u m Segr/ffs-Merkmal, bei einer U n t e r s u c h u n g d e r Altersstruktur d e r Belegschaft eines U n t e r n e h m e n s ist d a s G e b u r t s d a t u m Erhebungs-Merkma\. Beruf: Bei einer U n t e r s u c h u n g der N e b e n e r w e r b s t ä t i g k e i t der L a n d w i r t e ist d e r Beruf "Landwirt" Begriffs-Merkmal. Bei einer U n t e r s u c h u n g d e r Erwerbstätigkeit schlechthin ist der Beruf " L a n d w i r t " ein Erhebungs-Merkmal. ®
M e r k m a l e k ö n n e n sein:
®
g e o g r a p h i s c h e M e r k m a l e , z. B. Geburtsort, Wohnort, Unfallort, Studienort
®
zeitliche M e r k m a l e , z. B. Geburtsdatum, G r ü n d u n g s d a t u m , Unfallzeit
®
sachliche M e r k m a l e , z. B. Beruf, Kinderzahl, E i n k o m m e n , Mitgliedschaft in V e r e i n
3.
qualitative und quantitative Merkmale
V o n b e s o n d e r e r B e d e u t u n g f ü r d i e g e s a m t e Statistik ist d i e U n t e r s c h e i d u n g d e r M e r k m a l e in
sachlichen
®
sachlich-qualitative M e r k m a l e , meist einfach "qualitative" M e r k m a l e g e n a n n t , Beispiele: Beruf, H a a r f a r b e , Familienstand, F r e m d s p r a c h e n k e n n t n i s s e , S t a a t s a n g e h ö r i g k e i t ; B r a n c h e , R e c h t s f o r m , Publizitätspflicht, Mitgliedschaft in A r b e i t g e b e r v e r b a n d
®
sachlich-quantitative M e r k m a l e , meist einfach "quantitative" M e r k m a l e genannt, Beispiele: Kinderzahl, E i n k o m m e n , Alter, G e w i c h t ; Zahl d e r Beschäftigten, U m s a t z , G e w i n n
9
Kapitel I Grundbegriffe
Die Unterscheidung ist deshalb so wichtig, weil die quantitativen Merkmale den quantitativen Methoden der Statistik erheblich besser zugänglich sind als die qualitativen Merkmale. Denn: ®
quantitative Merkmale haben ein eindeutiges Ordnungsprinzip
® qualitative Merkmale haben kein eindeutiges Ordnungsprinzip. Um das zu zeigen, muß kurz auf die Arten von Skalen eingegangen werden.
4.
Arten von Skalen
Der Unterschied ergibt sich aus der Art der Skala, mit der die Merkmalsausprägungen gemessen werden können. Man unterscheidet drei Arten von Skalen: ®
Nominal-Skala
•
Ordinal-Skala
®
Kardinal-Skala (= metrische Skala)
a)
Nominal-Skala
Eine Nominal-Skala ordnet den Merkmalsausprägungen lediglich Namen zu, eine eindeutige Rangordnung der Namen ist nicht möglich. Beispiele: männlich/weiblich ist nicht besser oder richtiger als weiblich/männlich Arbeiter/Angestellte/Beamte ist nicht besser oder richtiger als Beamte/Angestellte/Arbeiter Arbeiter ist etwas anderes als Angestellter, nicht aber weniger oder mehr. b)
Ordinal- Skala
Eine Ordinal-Skala ordnet den Merkmalsausprägungen nicht nur Namen zu, sondern ermöglicht darüber hinaus eine eindeutige Rangordnung. Beispiele: Medaillen: Gold / Silber/Bronze Noten: sehr gut / gut / befriedigend Bundesliga: Erster / Zweiter / Dritter Gold ist nicht nur etwas anderes als Silber, es ist auch begehrter als Silber, und Silber ist begehrter als Bronze etc. Allerdings läßt sich bei einer Ordinal-Skala nicht sagen, um wieviel Gold begehrter ist als Silber. Der Abstand Gold : Silber muß nicht gleich sein dem Abstand Silber : Bronze. Und in der Bundesligatabelle kann der Abstand des Ersten zum Zweiten sehr viel geringer (oder auch größer) sein als der des Zweiten zum Dritten etc. Vor allem läßt eine Ordinal-Skala keinen Vergleich zwischen verschiedenen Ranglisten zu: Der Erste in einer Rangliste kann besser (oder schlechter) sein als der Erste in einer anderen Rangliste. c)
Kardinal-Skala
(= metrische Skala)
Eine Kardinal-Skala ordnet den Merkmalsausprägungen nicht nur Namen zu und gibt eine eindeutige Rangordnung an, sie ermöglicht zusätzlich eine Aussage über die Abstände zwischen zwei Merkmalen. Beispiele: Kinderzahl: 1 Kind, 2 Kinder, 3 Kinder Einkommen: 1000,--DM, 2000,--DM, 3000,-DM Umsatz: 1 Mio DM, 2 Mio DM, 3 Mio DM 2 Kinder sind mehr als 1 Kind und 3 Kinder sind mehr als 2. Und zwar sind 3 Kinder genauso viel mehr als 2 wie 2 mehr sind als 1. D.h. die Abstände sind jeweils gleich. Streng genommen ist dies zwar die häufigste Form der Kardinal-Skala, aber nicht die einzige. Gleiche Abstände entsprechen einer arithmetischen Reihe: 1, 2, 3, 4, 5, etc. : 2-1 =3-2 = 4-3 = 1 Daneben gibt es noch die geometrische Reihe, bei der nicht die Abstände gleich sind, sondern die Quotienten: 1, 2, 4, 8,16, etc.: 2 _ 4 _ 8 = 1 6 1 2 4 8
Kapitel I Grundbegriffe
10
d)
Unterschiede zwischen den Skalen
Die Unterscheidung ist wichtig für die Deskriptive Statistik und für die Schließende Statistik. In der Deskriptiven Statistik werden wir der Unterscheidung wieder begegnen bei den Mittelwerten: der Nominal-Skala beim Häufigsten Wert der Ordinal-Skala beim Zentralwert der Kardinalskala beim arithmetischen Mittel (bei arithmetischer Reihe) und beim geometrischen Mittel (bei geometrischer Reihe). In der Schließenden Statistik: der Nominal-Skala beim homograden Fall der Kardinal-Skala beim heterograden Fall.
5.
häufbare und nicht häufbare Merkmale
Bei den qualitativen Merkmalen ist es wichtig, zwischen häutbaren und nicht häufbaren Merkmalen zu unterscheiden. ®
Bei häufbaren Merkmalen können bei einer Einheit gleichzeitig mehrere Merkmalsausprägungen vorkommen.
®
Bei nicht häufbaren Merkmalen ist immer nur eine Merkmalsausprägung möglich.
Beispiele: häufbare Merkmale Beruf Sprachkenntnisse Staatsangehörigkeit
nicht häufbare Merkmale Familienstand Publizitätspflicht Rechtsform
Tabelle I-6 Eine Person kann gleichzeitig mehrere Berufe ausüben (z. B. Metzger und Gastwirt) oder erlernt haben (z. B. Friseurin und Kosmetikerin), mehrere Sprachen sprechen (z. B. Englisch und Französisch) oder sogar mehrere Staatsangehörigkeiten haben (z. B. holländisch und schweizerisch). Man kann aber gleichzeitig nur einen Familienstand haben (man ist entweder ledig oder nicht ledig), ein Unternehmen ist entweder publizitätspflichtig oder nicht, kann nicht zugleich zwei verschiedene Rechtsformen haben etc. Der Unterschied ist vor allem wichtig im Rahmen der Erfassung, da es für häufbare Merkmale keine zwingende Vorschrift für die Zuordnung gibt (siehe II B 3.b3).
6.
diskontinuierliche und kontinuierliche Merkmale
Bei quantitativen Merkmalen ist es wichtig, zwischen diskontinuierlichen Merkmalen zu unterscheiden.
und
kontinuierlichen
®
Bei diskontinuierlichen ( = diskreten) Merkmalen können nur ganzzahlige Werte der Merkmalsausprägungen vorkommen.
®
Bei kontinuierlichen ( = stetigen) Merkmalen sind zwischen zwei Merkmalsausprägungen beliebig viele Zwischenwerte denkbar, allenfalls praktisch begrenzt durch unsere unzureichende Meßgenauigkeit.
Kapitel I Grundbegriffe Beispiele: diskontinuierliche Merkmale Zahl der Kinder Zahl der Beschäftigten Zahl der zugelassenen Pkw Zahl der Unfälle
kontinuierliche Merkmale Alter Größe Länge des Autobahnnetzes landwirtschaftlich genutzte Fläche
Tabelle 1-7 Man kann nur ein Kind oder zwei Kinder oder drei Kinder haben, nie zweieinhalb oder dreieinviertel Kinder. Entweder es wäre in Unfall oder es war keiner, ein "halber" Unfall wäre ein Unding. Ein Beinahe-Unfall ist glücklicherweise kein Unfall - oder eine Kategorie für sich. Die Altersangabe "1 Jahr" oder "2 Jahre" ist damit nicht vergleichbar. Man könnte das Alter in Monaten, Tagen, Stunden, Minuten, Sekunden etc. ausdrücken und doch nie genau genug. Einen wichtigen Grenzfall stellen die quasi-kontinuierlichen Merkmale dar. Darunter versteht man alle Größen, die in Geldeinheiten (DM, $ etc.) ausgedrückt werden, also Einkommen, Umsatz, Kosten, Gewinn etc. An sich handelt es sich hierbei um diskontinuierliche Merkmale, denn die kleinste Einheit ist z.B. bei der DM der Pfennig. Üblicherweise kostet etwas z. B. DM -,99 oder DM 1 , - . Die Preisgestaltung an Tankstellen zeigt jedoch, daß man den Pfennig durchaus noch in Zehntel-Bruchteile zerlegen kann, und bei der Wechselkursfeststellung des Dollar lautet die Notierung oft auf Tausendstel. Man behandelt deshalb Geldgrößen als quasi-kontinuierliche Merkmale. Der Unterschied ist vor allem wichtig bei der grafischen Darstellung (der Abszissenmaßstab beim Histogramm ist unterschiedlich) und bei der Bildung von Größenklassen (die Abgrenzung der Größenklassen ist unterschiedlich).
12
II.
Kapitel II Die Phasen statistischer Arbeit
Die Phasen statistischer Arbeit
Die statistische Arbeit wird üblicherweise in folgende drei Phasen eingeteilt: ®
Erfassung
®
Aufbereitung
®
Auswertung.
A.
Erfassung ( = Erhebung)
®
Erfassung ( = Erhebung) nennt man die Gewinnung des statistischen
Ausgangsmaterials.
Für die praktische Statistik spielt diese Phase eine bedeutende Rolle. Hier sollen nur zwei Problemkreise dargestellt werden.
1.
Primär-Statistik
®
Man spricht von Primär-Statistik , wenn das Material eigens ("primär") für eine bestimmte statistische Untersuchung erhoben wird. Beispiele: Volkszählung, Meinungsumfrage.
®
Man spricht von Sekundär-Statistik , wenn für eine statistische Untersuchung bereits vorliegendes Material verwendet wird. Beispiel: Die Umsatzstatistik eines Unternehmens wird aufgrund der Ausgangsrechnungen erstellt. Die Ausgangsrechnungen wurden keineswegs für statistische Zwecke, sondern für Zwecke der Buchhaltung und Steuererklärung erstellt. Die Verwendung in der Statistik ist nur Nebenzweck. Um Sekundär-Statistik handelt es sich auch dann, wenn das verwendete Material zwar ursprünglich für eine (frühere) statistische Untersuchung erhoben wurde, nun aber nochmals für eine andere Untersuchung verwendet werden soll. Obwohl hierbei die Verwendung für statistische Zwecke durchaus Hauptzweck war, wurde das Material doch nicht eigens für diese (aktuelle), sondern eben für eine andere Untersuchung erhoben.
Vorteile
Nachteile
und
Sekundär-Statistik
Primär-Statistik Die verwendeten Begriffe können exakt auf das Ziel der Untersuchung abgestellt werden
Sekundär-Statistik vergleichsweise einfache Erfassung preiswert schnell
hohe Kosten hoher Zeitaufwand
Die Begriffe des vorliegenden Materials decken sich oft nicht mit den für die Untersuchung an sich erforderlichen Begriffen
Tabelle 11-1 Wegen der hohen Kosten und des hohen Zeitaufwands versucht man üblicherweise zunächst, die Untersuchung mit sekundär-statistischem Material durchzuführen. Nur wenn sekundärstatistisches Material nicht zugänglich oder überhaupt nicht verfügbar ist oder wenn die Begriffe zu weit auseinanderklaffen oder wenn das sekundär-statistische Material zu alt ist, wird eine PrimärErhebung durchgeführt.
Kapitel II Die Phasen statistischer Arbeit
13
2.
Voll-Erhebung
®
Eine l/o//-Erhebung liegt vor, wenn alle Elemente einer statistischen Masse in die Untersuchung einbezogen werden. Beispiele: Volkszählung, klassische Inventur.
®
Eine 7e//-Erhebung liegt vor, wenn nur ein Teil der Elemente einer statistischen Masse in die Untersuchung einbezogen werden. Beispiele: Meinungsumfrage, Stichproben-Inventur.
Vorteile
Nachteile
und Teil-Erhebung
Voll-Erhebunq Das erhobene Material spiegelt die wahren Proportionen der statistischen Masse hohe Kosten hoher Zeitaufwand nicht immer möglich nicht immer sinnvoll nicht immer politisch durchsetzbar
Teil-Erhebunq vergleichsweise preiswert vergleichsweise schnell/aktuell die Ergebnisse können verzerrt sein Aussagen über die statistische Masse ("Grundgesamtheit") sind nur über die Wahrscheinlichkeitsrechnung möglich (Stichprobentheorie)
Tabelle II-2 Die hohen Kosten und der hohe Zeitaufwand einer Voll-Erhebung leuchten von selbst ein. Beispiel für Unmöglichkeit Blutprobe Beispiel für nicht sinnvoll Qualitätstest bei Streichhölzern, Blitzlampen und dgl., der komplette Bestand würde zerstört Beispiel für nicht politisch durchsetzbar die nächste Volkszählung tendiert in diese Richtung. Ein erheblicher Teil der statistischen Methodenlehre widmet sich den Möglichkeiten und speziellen Problemen der Teil-Erhebung ("Schließende Statistik"). Für viele Statistiker fängt Statistik überhaupt erst damit an. Von besonderer Bedeutung dabei ist die ®
Repräsentativ-Erhebung.
Repräsentativ-Erhebung nennt man eine Teil-Erhebung ( = Stichproben-Erhebung), wenn durch besondere Auswahl der Elemente, die in die Stichprobe gelangen ("Zufallsauswahl") sichergestellt ist, daß mit Hilfe der Wahrscheinlichkeitsrechnung von der Stichprobe auf die Grundgesamtheit geschlossen werden darf.
B.
Aufbereitung
®
Aufbereitung nennt man das Auszählen
und Gruppieren der Merkmale.
Die Aufbereitung erfolgt in folgenden Schritten: Verschlüsseln Auszählen Ur-Liste Strich-Liste Häufigkeits-Tabelle. Gruppieren (Bilden statistischer Gruppen).
14
1.
Kapitel II Die Phasen statistischer Arbeit
Verschlüsseln
Eine Verschlüsselung ist erforderlich bei örtlichen, zeitlichen und qualitativen Merkmalen. Bei diesen Merkmalen erleichtert die Verschlüsselung das Auszählen der verschiedenen Merkmalsausprägungen oder macht es überhaupt erst möglich. Durch die Verschlüsselung werden den verschiedenen Merkmalsausprägungen SchlüsselNummern zugeordnet. Einfaches Beispiel: Familienstand (nur 4 Ausprägungen): 1 ledig 2 verheiratet 3 verwitwet 4 geschieden Bei großen Datenmengen kann eine systematische Klassifikation erforderlich sein, z. B. bei der Umsatz-Statistik eines großen Versandhauses mit vielen Tausend verschiedenen Artikeln im Sortiment. Beispiele für systematische Klassifikationen sind: Industriekontenrahmen, Postleitzahlen. Bei quantitativen Merkmalen erübrigt sich die Verschlüsselung, da bei diesen eine eindeutige Zuordnung möglich ist.
2.
Auszählen
a)
Ur-Liste
Erstes Ergebnis des Auszählens ist die Ur-Liste, in der die Merkmalsausprägungen der einzelnen erhobenen Einheiten in beliebiger Ordnung, z. B. alphabetisch (oder auch nach Eintrittsdatum), aufgelistet sind. Beispiel: Beschäftigte eines Betriebes nach Familienstand und Kinderzahl Name Adam Bertram Caesar Demmer Erhardt Franz Gabriel Haller Imann Jordan Tabella II-3 b)
Familienstand geschieden verheiratet ledig ledig verheiratet ledig verwitwet verheiratet geschieden ledig
Zahl der Kinder 1 1 0 0 3 1 2 4 1 0
Name Konrad Lehmann Müller Niemann Ott Paulus Quandt Riehls Sieger Theobald
Familienstand ledig verheiratet ledig geschieden ledig ledig geschieden verwitwet ledig ledig
Zahl der Kinder 0 2 0 5 0 1 1 2 0 0
Strlch-Llste
Aus der Ur-Liste wird die Strich-Liste entwickelt, indem Einheiten ausprägungen zusammengefaßt werden. Merkmal:
Tabelle II-4
Familienstand
Merkmalsausprägunq ledig verheiratet verwitwet geschieden
Schlüssel-Nr. 1 2 3 4
mit gleichen kommt vor II 11 i m IUI II IUI
Merkmals-
15
Kapitel II Die Phasen statistischer Arbeit
Merkmal:
Zahl der Kinder
Merkmalsauspräqung keine Kinder 1 Kind 2 Kinder 3 Kinder 4 Kinder 5 Kinder
kommt vor Uli. III W4- I III I I I
Tabelle II-5
c)
Häufigkeitstabelle
c1)
Aufbau einer Häufigkeitstabelle
Die Häufigkeitstabelle Merkmal:
ist nichts anderes als eine Umformung der
Familienstand
Merkmalsauspräqunq ledig verheiratet verwitwet qeschieden Gesamt
Strich-Liste.
Schlüssel-Nr. 1 2 3 4
Häufiqkeit 10 4 2 4 20
Tabelle II-6 Um die Häufigkeitstabelle in allgemeiner ® ®
Form schreiben zu können, werden Symbole verwendet:
Symbole f
|
Häufigkeit einer (beliebigen) Merkmalsausprägung
Symbol 11-1
Das "f" steht für Häufigkeit (von engl, frequency), der tiefgestellte Index "i" steht für die SchlüsselNummern der verschiedenen möglichen Merkmalsausprägungen. f f
1
Häufigkeit der Merkmalsausprägung mit der Schlüssel-Nr. 1 (hier: ledig)
2
Häufigkeit der Merkmalsausprägung mit der Schlüssel-Nr. 2 (hier: verheiratet), etc.
Außerdem wird für "Gesamt" das sogenannte Summen-Zeichen verwendet: ®
X
(lies: Summe)
Symbol II-2
Unter Verwendung dieser Symbole (und des bereits eingeführten Symbols N für den Umfang der statistischen Masse) erhält die Häufigkeitstabelle folgendes Bild: Häufiqkeitstabelle in allgemeiner Merkmal:
Familienstand
Form: Merkmalsauspräqunq
Schlüssel-Nr.
CO c o
Staaten der Europäischen Union, Bevölkerung in Mio c)
® -
e X
Quelle: Stat Jb. 1995
Histogramm, Häufigkeits-Polygon und Verteilungskurven
Die in diesem Abschnitt zusammengefaßten Darstellungsarten hängen eng miteinander zusammen Ausgangspunkt ist das Histogramm. Aus dem Histogramm wird das Häufigkeits-Polygon entwickelt, aus dem Häufigkeits-Polygon werden die Verteilungskurven entwickelt. Alle drei Formen dienen der grafischen Darstellung quantitativer Merkmale Die Darstellung erfolgt in einem Achsenkreuz mit den Merkmalsausprägungen ("Merkmalswerten") x, auf der einen Achse (üblicherweise werden die Merkmalswerte auf der waagerechten Achse der Abszisse - abgetragen) und den Häufigkeiten f, auf der anderen Achse, üblicherweise der senkrechten Achse (Ordinate).
Kapitel III Darstellung der Ergebnisse
39
Histogramm, Häutigkeits-Polygon und Verteilungskurven sind die adäquate Darstellungsform für Sachverhalte, die sich durch X| * f, symbolisieren lassen
c1)
Histogramm
Das Histogramm könnte bei flüchtiger Betrachtung mit dem Säulen-Diagramm verwechselt werden, ist aber etwas ganz anderes. Während es beim Säulen-Diagramm nur auf die Länge der Säulen das f \ - ankommt, spielt beim Histogramm auch die Breite der Säulen - das x, - eine Rolle. Charakteristika des Histogramms: ®
Die Anordnung der Säulen ist durch den Abszissen-Maßstab festgelegt
® Eskommtauf die Fläche der Säulen - X j ' f j - a n . Im Grunde handelt es sich beim Histogramm deshalb um einen zweidimensionalen Vergleich Meist werden die Säulen jedoch gleich breit gewählt, so daß es trotzdem nur auf die Höhe der Säulen ankommt und letztlich ein eindimensionaler Vergleich vorliegt. Auf die Darstellung des Histogramms mit verschieden breiten Säulen - die durchaus ihre Vorzüge hat, aber nicht mehr anschaulich ist - wird hier verzichtet. ®
Beim Histogramm ist es wichtig, zwischen diskontinuierlichen und kontinuierlichen Merkmalen zu unterscheiden, da der Maßstab für das x, bei beiden Arten verschieden ist:
®
Bei diskontinuierlichen Merkmalen kommt die Maßeinheit für x, jeweils in die Mitte eines Abszissenabschnitts.
®
Bei kontinuierlichen Merkmalen kommt die Maßeinheit für x, jeweils an die Grenze zwischen zwei Abszissenabschnitte.
Beispiel für Histogramm bei diskontinuierlichem Merkmal (Zahlenbeispiel aus Tabelle 11-10):
Beispiel für Histogramm bei kontinuierlichem Merkmal (Beispiel aus Tabelle II-22):
Umsätze der größten Werbeagenturen 1987 in Mio DM
Zahl der Kinder
100
200
Abb. 111-18
300 400 500 600 xi
Die Unterscheidung zwischen beiden Formen des Abszissenmaßstabs ist wichtig für eine korrekte Darstellung. Leider wird dieser Unterschied in der Praxis häufig vernachlässigt. Auch hier wiederum bieten die gängigen Computer-Programme wenig Hilfestellung für eine korrekte Darstellung.
Kapitel III Darstellung der Ergebnisse
40
Das wohl bekannteste Histogramm ist die sogenannte Bevölkerungspyramide, die den Altersaufbau der Bevölkerung zeigt. Bei dieser sind allerdings die Merkmalswerte Xj ausnahmsweise auf der Ordinate abgetragen und die Häufigkeiten f auf der Abszisse. Es handelt sich eigentlich um zwei Histogramme in einer Darstellung, in der rechten Hälfte der Altersaufbau der weiblichen Bevölkerung, in der linken Hälfte der Altersaufbau der männlichen Bevölkerung:
Altersaufbau der Bevölkerung Deutschlands am 31.12.1993
Alter in Jahren
Männlich
Weiblich
FRAUENÜBERSCHUSS
Gefallene d e s 2. Weltkriegs
Geburt enausfall im t . Weltkrieg
Geburtenausfall im 1. Weltkrieg
Geburtenausfall während der Wirtschaftskrise um 1932
Geburtenausfall während der Wirtschaftskrise um 1932
Geburtenausfall Ende d e s 2. Weltkriegs
Geburtenausfall Ende des 2. Weltkriegs
UBERSCHUSS
~i 100
1
1
200
300
r—i 400
500
Tausend je Altersjahr
1
1
1
600
700
800
Tausend je Altersjahr
Statistisches Bundesamt 95-1-0208
Abb. 111-19 Altersaufbau (Bevölkerungspyramide) Quelle: Statistisches Jahrbuch 1995
41
Kapitel III Darstellung der Ergebnisse c2)
Häufigkeits-Polygon
Das Häufigkeits-Polygon ist eine Weiterentwicklung des Histogramms. Da die Anordnung der Säulen beim Histogramm festliegt, ist es zulässig und durchaus zweckmäßig, die Mitten der Säulen-Oberkanten miteinander zu verbinden. Der Kurvenzug ergibt eine vieleckige Linie, ein Vieleck ("Polygon"):
Häufigkeits-Polygon
fi
XI
Abb. lil-20 Das Häufigkeits-Polygon schneidet von dem zugrunde liegenden Histogramm dreieckige Flächen ab und fügt gleichgroße dreieckige Flächen dazu. Wenn man - wie in der Darstellung geschehen das Häufigkeits-Polygon jeweils bis zur Abszisse verlängert, ist die Summe der hinzugefügten Flächen gleich der Summe der abgeschnittenen Flächen, so daß die Fläche unter dem Häufigkeits-Polygon der Fläche unter dem Histogramm gleich ist. Da es beim Histogramm nur auf die Fläche - X| * f, - ankommt, kann man das Häufigkeits-Polygon als verdichtete Darstellung des Histogramms ansehen. Das Häufigkeits-Polygon hat nur Bedeutung zum besseren Verständnis der nun folgenden Verteilungskurven.
c3)
Verteilungskurven
Wenn die Häufigkeiten - das fj - genügend groß ist und die Merkmalswerte X| genügend dicht beieinander liegen, dann rücken die Eckpunkte des Polygons sehr eng zusammen, so daß man schließlich einen geglätteten Kurvenzug ziehen kann. ®
Einen solchen geglätteten Kurvenzug nennt man
®
Verteilungskurven sind nichts anderes als schematisch vereinfachte Histogramme.
Verteilungskurve.
Mit Hilfe der Verteilungskurven lassen sich typische Verteilungsformen anschaulich darstellen. Typische Verteilungskurven sind: ®
eingipflig-symmetrisch
®
asymmetrisch / links-steil
= rechts-schief
®
asymmetrisch / rechts-steil
= links-schief
®
zweigipflig
®
U-förmig.
42
Kapitel III Darstellung der Ergebnisse
eingipflig symmetrisch
XI
Abb. 111-21 eingipflig-asymmetrisch rechts-steil oder links-schief
eingipflig-asymmetrisch links-steil oder rechts-schief
XI
XI
Abb. III-23
Abb. III-22 zweigipflig
U-förmig
XI
XI
Abb. III-25
Abb. III-24
Die bekannteste Verteilungskurve ist die Gauß'sche Normalverteilung, im Rahmen der Schließenden Statistik kennenlernen werden.
d)
Darstellung v o n
die wir bei der Varianz und
Zeitreihen
Zeitliche Merkmale nehmen eine Zwischenstellung ein zwischen geogratischen und qualitativen Merkmalen einerseits und quantitativen Merkmalen andererseits. Ähnlich wie bei quantitativen Merkmalen ist die Anordnung der Merkmalsausprägungen nicht beliebig, sondern durch die Aufeinanderfolge von Zeitpunkten oder Zeiträumen festgelegt. Andererseits gibt es - ähnlich wie bei den geografischen und den qualitativen Merkmalen - keine Merkmalswerte, also läßt sich auch kein x j * f j berechnen. Man spricht von zeitlichen Reihen oder Zeitreihen, weil ein Sachverhalt für verschiedene Zeitpunkte oder Zeiträume ausgewiesen wird.
Kapitel III Darstellung der Ergebnisse
43
Zeitreihen lassen sich auf vielerlei Art darstellen, die wichtigsten sind: ®
das Säulen-Diagramm
®
Kurven mit arithmetischem Maßstab
®
Kurven mit logarithmischem Maßstab.
Die drei Möglichkeiten seien am Beispiel der Entwicklung der Zahl der Arbeitslosen dargestellt: Entwicklung Jahr 1978 1979 1980 1981 1982 Tabelle III-9
dl)
der Zahl der Arbeitslosen in 1000 Jahr Arbeitslose Arbeitslose 1983 2258 993 1984 876 2266 2304 889 1985 1272 1986 2228 1987 2229 1833 Quelle: Institut der deutschen Wirtschaft, Zahlen, 16
Säulen-Diagramm Arbeitslose 1978 bis 1987 in 1000
9 '80 1 2
3
4
5
6 '87
Abb. III-26
Arbeitslose 1983 bis 1987 in 1000
'83
'84
'85
'86
'87
Abb. III-27
Die Darstellung erfolgt in einem Achsenkreuz. Es ist üblich, die Zeiträume in aufsteigender Reihenfolge auf der Abszisse
abzutragen.
Es kommt nur auf die Höhe der Säulen an. Die Säulen sind beliebig breit, sofern gleich breit, ebenso sind die Abstände zwischen den Säulen beliebig breit, sofern gleich breit. Die Zeiträume werden in den Mitten der Abschnitte auf der Abszisse angeordnet. Anders als beim Säulen-Diagramm bei geografischen und qualitativen Merkmalen ist die Reihenfolge der Säulen testgelegt. Die Darstellung von Zeitreihen mit Säulen-Diagramm ist stark abhängig vom gewählten Maßstab. Durch Änderung des Maßstabs läßt sich ein Sachverhalt verharmlosen oder dramatisieren. Die Darstellung der Entwicklung für den Zeitraum 1983 bis 1987 zeigt ein Beispiel für Dramatisierung. Während die Darstellung des Zeitraums 1978 bis 1987 für die letzten fünf Jahre praktisch keine nennenswerte Veränderung ausweist, zeigt nun die Darstellung des Zeitraums 1983 bis 1987 einen dramatischen Rückgang in den letzten beiden Jahren. Die Lösung des "Rätsels" ist allein die Maßstabsänderung, die zusätzlich mit einer Verkürzung des Ordinatenmaßstabs verbunden ist, ohne daß ein Hinweis auf die Verkürzung des Maßstabs erfolgt ist. Obwohl diese Praxis sich schon so weit durchgesetzt hat, daß selbst im Monatsbericht der Bundesbank ständig damit gearbeitet wird, muß sie als bedenklich angesehen werden, da sie geeignet ist, Sachverhalte zu dramatisieren oder zu verharmlosen.
44
Kapitel III Darstellung der Ergebnisse
Daß die Zeitreihe auf der Abszisse nicht bei Null beginnt, ist nicht als Verkürzung des Abszissenmaßstabs anzusehen, da es sich bei der Folge der Zeiträume nicht um einen Maßstab handelt. d2)
Kurven mit arithmetischem Maßstab
Da die Anordnung der Säulen durch die aufsteigende Folge der Zeiträume festgelegt ist, können hier - wie beim Histogramm - die Mitten der Säulen-Oberkanten durch gerade Linien zu einer Kurve verbunden werden: Arbeitslose Arbeitslose 1983 bis 1987 in 1000 2500 1978 bis 1987 in 2000 1500 1 000
/
500
' 7 8 ' 8 0 '82; ' 8 4
'86 '83
Abb. III-28
'84
'85
'87
Abb. III-29
Auch hier bestehen das Maßstabs-Problem und das Problem der Verkürzung des OrdinatenMaßstabs. Die Darstellung rechts kann so nicht als korrekt angesehen werden. Es fehlt der Hinweis auf die Verkürzung des Ordinaten-Maßstabs. Allerdings muß auch hier festgestellt werden, daß diese inkorrekte Form zunehmend üblich wird, selbst in Veröffentlichungen z. B. der Deutschen Bundesbank. Korrekt wäre folgende Darstellung, in der die Verkürzung durch eine Zickzacklinie augenfällig gemacht wird: Arbeitslose 2310 1983 bis 1987 in 1000 2300 2290 2280 2270 2260
'83
'84
'85
Abb.lll-30 Die Frage, welcher Maßstab "richtig" ist, läßt sich nicht allgemeingültig beantworten. Mit gewissem Recht läßt sich praktisch jeder Maßstab vertreten, so lange bei Vergleichen jeweils der gleiche Maßstab angewendet wird. Schlicht unseriös allerdings wäre es, bei einem Vergleich (z. B. der Umsätze mit den Kosten) bei den Umsätzen einen anderen Maßstab zu wählen als bei den Kosten. ®
Zu beachten ist, daß hier die Bezeichnung der Zeiträume den Grenzlinien zwischen den Abschnitten auf der Abszisse zugeordnet werden.
Kapitel III Darstellung der Ergebnisse
45
d3)
Kurven mit logarithmischem
Maßstab
Die Darstellung kann schließlich auf Papier mit logarithmischem Maßstab erfolgen:
1 0000
10000-
Arbeitslose | 1 9 7 8 bis 1987 in 1000i ;logarithmischer Maßstab
-Arbeitslose-1983 bis 1987 in 1000. •logarithmischer Maßstab
1 0 0 0 « « sSS3KS
1 00 '78
'80
'82
'84
'86
1 000 '83
Abb. 111-31
'84
'85
'86
'87
Abb. II1-32
®
Beim logarithmischen Maßstab werden nicht die Originalwelte, sondern deren Logarithmen dargestellt.
®
Der Maßstab der Ordinatenachse beginnt beim logarithmischen Maßstab nicht mit 0, sondern mit 1 (bei Verkürzung des Ordinatenmaßstabs mit 10, 100, 1000 etc.).
Die Darstellung mit logarithmischem Maßstab hat durchaus ihren eigenen Aussagewert, der allerdings kaum noch als anschaulich anzusehen ist. Die logarithmische Darstellung ist deshalb auch recht selten. Sie eignet sich bestens, um relative Veränderungen sichtbar zu machen. Beispiel: relativ gleiche arithmetische Reihe absolut gleiche geometrische Reihe Zuwachse Zuwachse + 100 % + 100% 11Q0 %
+1 +1 Tabelle 111-10 arithmetische Reihe (gleiche absolute Zuwächse) bei arithmetischem Maßstab:
arithmetische Reihe (gleiche absolute Zuwächse) bei logarithmischem Maßstab:
8 7 6 5 4 3 2 1 0 2
3
4
5
6
7
8
1
2
Zeit Abb III-33
Abb. III-34
3
4 5 Zeit
6
7
8
46
Kapitel III Darstellung der Ergebnisse geometrische Reihe (gleiche relative Zuwächse) bei arithmetischem Maßstab:
geometrische Reihe (gleiche relative Zuwachse) bei logarithmischem Maßstab:
/
1 4 01 1 201 008060-
4 0J
1000
2 0i 0 1
2
3
• 5
4
6
7
8 Zeit
Zeit Abb. III-35
Abb. III-36
Linearer Verlauf der Kurve zeigt bei logarithmischem Maßstab relativ gleiche Zuwächse an. Die Darstellung mit logarithmischem Maßstab eignet sich vor allem dann, wenn die Entwicklung von Sachverhalten verglichen werden soll, die stark unterschiedliche Werte-Niveaus ausweisen. Beispiel: Entwicklung der Gold- und Silber-Preise (der Preis für Gold liegt erheblich höher als der Preis für Silber), oder der Dalmler-Benz-Aktie und der AEG-Aktie. Gleiche absolute Zuwächse sagen dann wenig aus. Für solche Vergleiche ist der logarithmische Maßstab bestens geeignet. Nicht geeignet ist der logarithmische Maßstab - obwohl er dafür in der Praxis gern irrtümlich angewendet wird - um einen größeren Wertebereich besser darstellen zu können. Beispiel: Werte:
1
50
100
500
50000
1000
5000
10000
50000
100000
40000
10000
30000
1 000
20000 1 0000 0 1
2
3
4
Abb. III-37
5
6
7
8 Abb. III-38
Bei arithmetischem Maßstab lassen sich die ersten fünf Werte praktisch nicht darstellen, da sie in Relation zu den späteren Werten winzig klein sind. Anders bei logarithmischer Darstellung. Da anfangs die relativen Zuwächse sehr groß sind, sind auch die ersten Werte gut sichtbar. Die logarithmische Darstellung ist hier nicht schlechthin falsch, sie sagt nur etwas anderes aus, als wahrscheinlich gewollt ist.
e)
Kreis-Diagramm
Das Kreis-Diagramm eignet sich besonders für die Darstellung der Struktur einer Masse (d. h. ihrer Aufgliederung in Teil-Massen) und für den eindimensionalen Struktur-Vergleich verschiedener Massen, am besten für den Vergleich zweier oder weniger Massen. Für den Struktur-Vergleich einer größeren Anzahl von Massen eignet sich das Säu/en-Diagramm (mit gleich hohen Säulen) besser.
47
Kapitel III Darstellung der Ergebnisse
Beispiel (vgl. Tabelle 111-2): Darstellung einer Strukturer
19x0): 19x0
grau
schwarz
mittel
Abb. III-39 Man setzt die Gesamt-Masse gleich 100 %: 360
100 %
3,6°
1 %
x ' 3,6°
x % z. B.
50 %
180°
25 %
90°
Auch die Darstellung als Halbkreis ist möglich und wird wegen der Platzersparnis häufig verwendet: 100 %
=
1 %
=
x %
180° 1,8° x * 1,8
z. B. 50 %
90°
25 %
45°
Obwohl es sich beim Kreis-Diagramm grundsätzlich um ein Flächen-Diagramm (also eine zweidimensionale Darstellung) handelt, eignet es sich bestens für einen e/ndimensionalen Vergleich. Indem beide Kreise gleich groß gewählt werden, kommt es nur noch auf eine Dimension - den Winkel - an:
Abb. III-40 Das Kreis-Diagramm wird häufig auch für den Größen-Vergleich verwendet, obwohl es dafür nicht besonders gut geeignet ist. Es handelt sich dabei dann um einen zweidimensionalen Vergleich, weil nicht nur der Winkel, sondern auch der Radius zu berücksichtigen ist. Die Größenverhältnisse werden dann häufig auch falsch dargestellt. Es darf nicht der Radius des Kreises proportional der darzustellenden Größe gewählt werden, sondern es muß die Fläche der Größe proportional sein.
Kapitel III Darstellung der Ergebnisse
48
Beispiel: Es soll das Größenverhältnis von A und B durch entsprechend große Kreise dargestellt werden. A = 400 B = 200 Wie groß muß der Kreis für Bsein, wenn der Kreis für A vorgegeben ist? Man wählt für den A-Kreis einen beliebigen Radius, z. B. 2 cm und setzt die Fläche dieses Kreises = 100 %. Die Fläche (nicht der Radius!) des B-Kreises muß dann 50 % der Fläche des A-Kreises betragen. Fläche des A-Kreises:
F
A = *
f2
r = 2 cm, * = 3,141
= 3,141 * 2 2 = 12,564 Fläche des B-Kreises:
50 % von 12,564 = 6,282 F B = ji r 2 = 6,282 6,282
2 f
=
=
6,282 3,141 =
2
r = V2 = 1,414 Der Radius des B-Kreises muß 1,414 cm gewählt werden, damit die Fläche des B-Kreises halb so groß ist wie die des A-Kreises: richtige Darstellung:
Abb. III-42 falsch wäre:
Abb. III-43 Das Kreis-Diagramm wird besonders gern für kombinierte Größen- und Struktur-Vergleiche verwendet. Davon ist jedoch dringend abzuraten. Eine sichere Beurteilung der Größenverhältnisse kann nicht erwartet werden. Erfreulicherweise ist es mit den gängigen ComputerProgrammen ziemlich mühsam, solche kombinierten Größen- und Struktur-Vergleiche darzustellen, so daß für die Zukunft ein Rückgang ihrer Verwendung erwartet werden kann.
49
f)
Kapitel III Darstellung der Ergebnisse
Summen-Kurve
und
Lorenz-Kurve
Bei quantitativen Merkmalen ist die Bildung kumulativer Größenklassen (siehe II B 3 b4.4) möglich. Die grafische Darstellung solcher kumulativer Größenklassen ergibt entweder eine Summen-Kurve oder eine Lorenz-Kurve. f 1) S u m m e n - K u r v e ®
Die Summen-Kurve ist die grafische Darstellung der kumulativen Größenklassen eines quantitativen Merkmals.
Beispiel (aus Tabelle ll-23a): Größenklasse absolute Häufigkeit in Mio DM aufwärts abwärts «i kumuliert kumuliert *i 4 5 5 7 7 28
100 bis < 120 120 bis < 150 150 bis < 200 200 bis < 300 300 bis < 600 s Tabelle 111-11
4 9 14 21 28
28 24 19 14 7
-
Prozentwert ' ¡ / N * 100 14,2 17,9 17,9 25,0 25,0 100,0
kumuliert 14,2 32,1 50,0 75,0 100,0 -
Die Summen-Kurve kann "aufwärts kumuliert" oder "abwärts kumuliert" dargestellt werden. 30 • 30 25
t
Summen-Kurve # aufwärts k u m u l i e r t /
/
25
\
Summen-Kurve abwärts kumuliert
20
20 Anzahl 1 5 10 5 0 1 00
yl
Anzahl 1 5
y
10 5
150 Umsatz
300
100
150 300 Umsatz
Abb. III-44 Abb. III-45 Die "aufwärts kumulierte" Summen-Kurve sagt z.B. aus: 14 Agenturen haben einen Umsatz "bis unter" 200 Mio DM Umsatz. Die "abwärts kumulierte" Summen-Kurve sagt z. B. aus: 14 Agenturen haben einen Umsatz von "mindestens" 200 Mio DM . Will man verschiedene Massen vergleichen, so ist ein Vergleich der Summen-Kurven der absoluten Werte wenig aussagefähig, da die Werte-Niveaus sehr unterschiedlich sein können. Für Vergleiche empfiehlt sich daher die Darstellung der kumulierten Häufigkeiten in Prozentwerten, da dann trotz unterschiedlicher Werte-Niveaus der gleiche Maßstab verwendet werden kann. Die Gestalt der Summen-Kurve ändert sich dadurch nicht, nur der Ordinalen- Maßstab verschiebt sich:
50
Kapitel III Darstellung der Ergebnisse
Summen-Kurve a u f w ä r t s kumuliert in %
150 Umsatz
300
Abb. III-46 Das Achsenkreuz für die Summen-Kurve sieht also aus: entweder so:
oder so:
%
fi
XI
XI
Abb. III-47
Abb. IM—48
Die Gestalt der Summen-Kurve hängt ab von der zugrundeliegenden Verteilung. Die Abhängigkeit läßt sich erkennen, wenn man die Summen-Kurven verschiedener Verteilungen vergleicht. Kommen alle Merkmalsausprägungen gleich häufig vor ("Gleichverteilunif), dann verläuft die Summenkurve als Gerade. Man nennt sie deshalb "Gleichverteilungs-Gerade". Summen-Kurve bei Gleichverteilung
f i
xi Abb. III-49
• /
51
Kapitel III Darstellung der Ergebnisse
Bei eingipflig-symmetrlscher Verteilung hat die Summen-Kurve eine S-förmige Gestalt, und zwar ist die S-Form um so stärker ausgeprägt, je steiler der Gipfel der Verteilung ausgeprägt ist: 1 00 80 60 40
Abb. III-50
Abb. 111-51
Dabei dient die Gleichverteilungsgerade als Maßstab: 100
i\GleichverteilungsTàerade
Abb. III-52 f2)
Lorenz-Kurve ( =
Konzentratlons-Kurve)
®
Wie die Summen-Kurve, dient auch die Lorenz-Kurve der Darstellung kumulativer Größenklassen. Bei oberflächlicher Betrachtung besteht auch durchaus Verwechslungsgefahr. ®
Während aber die Summen-Kurve der Darstellung einer Verteilung dient, werden durch die Lorenz-Kurve zwei Verteilungen in einer Kurve dargestellt! Die Lorenz-Kurve sei am Beispiel der Werbeagenturen (Tabellen 11-21 und II-22) dargestellt. Größenklassen
Umsatz in Mio DM % % kum. 100-