Statistik: Einführung in die statistische Methodenlehre für Wirtschaft- und Sozialwissenschaftler [4., aktualisierte Auflage. Reprint 2018] 9783486790023, 9783486236330

Im besten Sinne einführendes Lehrbuch, das sich im besonderen Maße um vom Anfänger sicher als wohltuend empfundene Verst

190 31 13MB

German Pages 185 [192] Year 1996

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort
Inhaltsverzeichnis
I. Grundbegriffe
II. Die Phasen statistischer Arbeit
III. Darstellung der Ergebnisse
IV. Statistische Maßzahlen
V. Verhältniszahlen
VI. Index-Zahlen
VII. Schließende Statistik
Verzeichnis der Symbole
Literaturverzeichnis
Register
Recommend Papers

Statistik: Einführung in die statistische Methodenlehre für Wirtschaft- und Sozialwissenschaftler [4., aktualisierte Auflage. Reprint 2018]
 9783486790023, 9783486236330

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Statistik Einführung in die statistische Methodenlehre für Wirtschaftsund Sozialwissenschaftler

Von Diplom-Volkswirt

Klaus Urban Lehrbeauftragter für Statistik 4., aktualisierte Auflage

R. Oldenbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Urban, Klaus: Statistik : Einführung in die statistische Methodenlehre für Wirtschafts- und Sozialwissenschaftler / von Klaus Urban. - 4., aktualisierte Aufl. - München ; Wien : Oldenbourg, 1996 ISBN 3-486-23633-4

© 1996 R. Oldenbourg Verlag GmbH, München Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gesamtherstellung: Grafik + Druck, München ISBN 3-486-23633-4

Vorwort zur 4. Auflage Für diese 4. Auflage wurden die Beispiele aus der Bevölkerungsstatistik an Hand des Statistischen Jahrbuchs 1995 aktualisiert. Außerdem wurde das Literaturverzeichnis überarbeitet und um einige empfehlenswerte Neuerscheinungen ergänzt. Der Aufbau des Buches, der sich in den Vorlesungen bewährt hat, blieb unverändert. Klaus Urban

Vorwort zur 1. Auflage Die vorliegende Einführung in die statistische Methodenlehre richtet sich in erster Linie an Studenten der Wirtschafts- und Sozialwissenschaften, zu deren Lehrplan durchweg mindestens ein Grundschein oder eine Klausur in Statistik gehört. Ohne diesen Schein bzw. ohne Erfolg in dieser Klausur kann das Grundstudium nicht abgeschlossen werden. Die Beschäftigung mit der Statistik ist für diesen Personenkreis deshalb zunächst oft ein schlichtes Muß; die Einsicht in die große Bedeutung statistischer Methoden im Wirtschaftsleben - auch und gerade für (künftige) Manager - fehlt meist noch. Groß sind dagegen vielfach die Vorbehalte gegenüber der Statistik, die nicht zuletzt auf den bekannt-hohen Durchfallquoten und der stark mathematischen Ausrichtung der meisten Lehrstühle und Lehrbücher beruhen dürften Um den Zugang zur Statistik nicht durch Überfrachtung mit Formeln zu versperren, wurde möglichst einfachen Zahlenbeispielen der Vorzug vor mathematischen Ableitungen gegeben; soweit Formeln oder mathematische Ableitungen zweckmäßig oder unvermeidbar erschienen, wurden sie ausführlich und nachvollziehbar erklärt. Durch bewußten Verzicht auf ein Streben nach Vollständigkeit und auf allgemeingültige Darstellung möchte der Verfasser dem Leser zunächst den Einstieg in die statistische Methodenlehre erleichtern, in der Absicht, dabei gleichzeitig das Interesse des Lesers für die Materie zu wecken und die Einsicht in die Notwendigkeit der Kenntnis statistischer Methoden - auch über die gefürchtete Klausur hinaus - zu fördern. Für eine weitergehende Beschäftigung mit der Statistik gibt es hervorragende Lehrbücher, auf die im Literaturverzeichnis hingewiesen wird, deren hohes Anspruchsniveau von Anfängern aber oft als abschreckend empfunden wird. Die Einführung wendet sich außerdem an diejenigen in Studium und Praxis, die erst in der täglichen Arbeit die große Bedeutung der Statistik erkannt haben und ihre Kenntnisse statistischer Methoden auffrischen möchten, um entweder selbst statistische Arbeit professionell leisten zu können oder um die statistischen Arbeiten anderer besser beurteilen zu können. Der ständigen Konfrontation mit den Ergebnissen statistischer Arbeit anderer kann man sich im Berufsleben kaum entziehen. Die Kenntnis statistischer Methoden kann davor bewahren, falsche Schlüsse zu ziehen und dazu beitragen, besser fundierte Entscheidungen zu treffen. Methoden, die in der Praxis häufiger vorkommen, werden ausführlicher dargestellt als solche, die eher von Spezialisten angewendet werden. Besonderes Gewicht wird auf die Deskriptive Statistik gelegt und hier wiederum auf die grafische Darstellung. Besonderes Augenmerk gilt den vielfältigen Möglichkeiten, durch falsche Anwendung statistischer Methoden Fehlinterpretationen zu bewirken und dadurch irre zu führen; nicht um Manipulationen zu ermöglichen, sondern um vor unbeabsichtigter Falschanwendung zu warnen und den Blick für absichtliche Irreführungen, die in der Statistik leider leicht möglich sind, zu schärfen. - Dagegen wird die Einführung in die Schließende Statistik bewußt knapp gehalten. Hier soll lediglich versucht werden, einige grundlegende Gedankengänge und Zusammenhänge verständlich

VI

Vorwort

zu machen. Auf eine möglichst vollständige und allgemeingültige Darstellung wird bewußt verzichtet. Das Manuskript ist auf APPLE MACINTOSH S E Personal Computer geschrieben, mit Software-Programmen MICROSOFT WORD, MICROSOFT EXCEL, EXPRESSIONIST, CLARIS MACDRAW 11 und CRICKET DRAW, die Druckvorlage ist auf APPLE LASER WRITER ausgedruckt. Dadurch wurde eine besonders lesefreundliche typografische Gestaltung möglich. Herrn Diplom-Betriebswirt Hans Bilger danke ich für die Beratung bei der Auswahl der bestgeeigneten Standardsoftware, Herrn Thomas Schubert, Student der Wirtschafts-informatik an der TH Darmstadt, für die Hilfestellung beim Gebrauch der Softwareprogramme, insbesondere von MICROSOFT WORD und Herrn Diplom-Betriebswirt Michael Janetschek für die Mithilfe beim Korrekturlesen und beim Zusammenstellen der Verzeichnisse. Das Galton'sehe Brett GEOMIX und die Abbildung davon wurden freundlicherweise von der Lehrmittelfirma RATEC, Frankfurt/Main, zur Verfügung gestellt. Mein ganz besonderer Dank gilt Herrn Diplom-Volkswirt Martin Weigert, Lektoratsleiter beim Oldenbourg-Verlag, für die Anregung, meine Erfahrungen als Lehrbeauftragter in dieser Einführung niederzulegen und für die außerordentliche Freiheit, die er mir bei der Gestaltung dieser Einführung einräumte. Klaus Urban

Inhaltsverzeichnis

I.

Vorwort

v

Grundbegriffe

1

A.

Begriff "Statistik"

1

B.

Ziele und Anwendungsgebiete der Statistik

1

C.

"Massenerscheinung" und "statistische Masse"

3

D.

Statistische

4

E.

F.

Massen

1.

Begriff

4

2.

Arten statistischer Massen a) nach der Zählbarkeit der Einheiten b) nach der Realität der Einheiten c) nach der zeitlichen Dauer der Einheiten

4 4 4 4

3.

Abgrenzung statistischer Massen

5

4.

Umfang statistischer Massen

6

Statistische

Einheiten

6

1.

Begriff

6

2.

"reale Einheiten" und "Fälle"

7

Statistische Merkmale und Merkmalsausprägungen

7

1.

Begriff

7

2.

Begriffs-Merkmale und Erhebungs-Merkmale

8

3.

qualitative und quantitative Merkmale

8

4.

Arten von Skalen a) Nominal-Skala b) Ordinal-Skala c) Kardinal-Skala (= metrische Skala) d) Unterschiede zwischen den Skalen

,

9 9 9 9 10

5.

häufbare und nicht häufbare Merkmale

10

6.

diskontinuierliche und kontinuierliche Merkmale

10

VIII

II.

Inhaltsverzeichnis

Die Phasen statistischer Arbeit A.

B.

Erfassung ( = Erhebung)

12

1.

Primär-Statistik und Sekundär-Statistik

12

2.

Voll-Erhebung und Teil-Erhebung

13

Aufbereitung

13

1.

Verschlüsseln

14

2.

Auszahlen a) b) c) cl) c2)

14 14 14 15 15 17

3.

Ur-Liste Strich-Liste Häufigkeitstabelle Aufbau einer Häufigkeitstabelle Häufigkeitstabelle bei quantitativen Merkmalen

Gruppieren a) b) b1) b2) b3)

Bildung statistischer Gruppen Arten statistischer Gruppen geographische Gruppen zeitliche Gruppen sachlich-qualitative Gruppen Zuordnung häufbarer Merkmale b4) sachlich-quantitative Gruppen "Größenklassen"

C.

III.

Auswertung

B.

C.

19 19 19 19 19 20 20 22 22 28

Darstellung der Ergebnisse A.

12

29

Gegenüberstellung von tabellarischer und grafischer Darstellung

29

Tabellarische

30

Darstellung

1.

Aufbau einer Tabelle

30

2.

Schema einer Tabelle

30

Grafische Darstellung

31

1.

Grundsätzliches zur grafischen Darstellung

31

a)

Zielsetzung grafischer Darstellungen

31

b)

Darstellungsprobleme und -methoden Systematik Größen-Vergleich Struktur-Vergleich kombinierter Größen- und Struktur-Vergleich.

31 31 31 33 33

bl) b2) b3) b4)

IX

Inhaltsverzeichnis

2.

Grundtypen grafischer Darstellungen

34

a)

Übersicht

34

b)

Säulen-Diagramm (= Stab-Diagramm = Balken-Diagramm)

34

c)

d)

e)

Darstellung von Zeitreihen d1) Säulen-Diagramm d2) Kurven mit arithmetischem Maßstab d3) Kurven mit logarithmischem Maßstab

42 43 44 45

Summen-Kurve und Lorenz-Kurve f1) Summen-Kurve f2) Lorenz-Kurve ( = Konzentrations-Kurve)

g)

IV.

38 39 41 41

Kreis-Diagramm

f)

3.

Histogramm, Häufigkeits-Polygon und Verteilungskurven c1) Histogramm c2) Häufigkeits-Polygon c3) Verteilungskurven

Schaubilder

Zusammenfassung

Statistische

Maßzahlen

46 50 50 52 54 55

55

A.

Problem-Situation

55

B.

Mittelwerte

55

1.

Begriff und Arten

55

2.

Arithmetisches Mittel a) Symbole b) Berechnung des arithmetischen Mittels b1) Berechnung als "einfaches" arithmetisches Mittel b2) Berechnung als "gewogenes" arithmetisches Mittel b3) Berechnung bei in Größenklassen zusammengefaßtem Material c) mathematische Eigenschaften des arithmetischen Mittels c1) Ersatzwert-Eigenschaft c2) Null-Eigenschaft c3) Gesetz der großen Zahl c4) Rechnerische Abstraktion d) Voraussetzung für die Anwendung des arithmetischen Mittels e) Bedeutung und Grenzen des arithmetischen Mittels

56 56 56 56 57

Geometrisches Mittel a) Symbol b) Berechnung des geometrischen Mittels c) Anwendung des geometrischen Mittels c1) bei zeitlichen Reihen mit Entwicklungstendenz c2) bei Zuwachsraten (= Wachstumsraten) d) Voraussetzung für die Anwendung des geometrischen Mittels

62 62 62 63 63 63

3.

58 59 59 59 60 61 61 62

66

X

Inhaltsverzeichnis

C.

4.

Harmonisches Mittel

66

5.

Zentralwert ("Median") a) Bestimmung des Zentralwertes al) Bestimmung des Zentralwerts bei Vorliegen aller Einzelwerte a2) Bestimmung des Zentralwerts bei Vorliegen einer Häufigkeitsverteilung b) Bedeutung des Zentralwerts

67 67 67 68 69

6.

Häufigster Wert ("Modus") a) Bestimmung des Häufigsten Wertes b) Bedeutung des Häufigsten Wertes

69 69 70

7.

Vergleich der Mittelwerte a) Gegenüberstellung b) bei eingipflig symmetrischen Verteilungen

71 71 71

Streuungsmaße

73

1.

Problem-Situation

73

2.

Spannweite (Variationsbreite)

74

3.

Varianz (Streuung i.e.S.) und Standardabweichung

74

a)

b)

Berechnung von Varianz, Standardabweichung und Variationskoeffizient a.1) Berechnung der Varianz a.2) Berechnung der Standardabweichung ("mittlere quadratische Abweichung") a.3) Berechnung des Variationskoeffizienten Bedeutung der Standardabweichung Einfluß des Zufalls Versuchsreihe am Galton'schen Brett b2) Die Berechenbarkeit des Zufalls Gesetz der großen Zahl und Gauß'sche Normalverteilung

75 75 77 77 79

b.1)

D.

Schiefemaße

und Wölbungsmaße

79 84 86

1.

Problem-Situation

86

2.

Schiefemaße

86

3.

Wölbungsmaße

87

XI

Inhaltsverzeichnis

V.

Verhältniszahlen

88

A.

Begriff und Arten

88

B.

Gllederungs-,

VI.

und

Meßzahlen

88

1.

Unterscheidungskriterium

88

2.

Gliederungszahlen a) Berechnung von Gliederungszahlen b) Problematik von Gliederungszahlen b1) Wahl der Beziehungsgrundlage b2) Bedeutung der Grundzahlen b3) relative Zahlen als Grundzahlen "Prozent" und "Prozent-Punkte" c) Beispiele für Gliederungszahlen

89 89 89 89 91

3.

Beziehungszahlen a) Berechnung von Beziehungszahlen b) Beispiele für Beziehungszahlen c) Bedeutung von Beziehungszahlen

93 93 94 94

4.

Meßzahlen a) Berechnung von Meßzahlen b) Problematik der Meßzahlen: Bestimmung des Basiszeitraums c) Meßzahlen "mit fester Basis" und "mit Ketten-Basis" d) Bedeutung der Grundzahlen e) Sonderprobleme bei zeitlichen Meßzahlenreihen Umbasieren

95 95

100

Zusammenfassung

101

5. C.

Bezlehungs-

92 93

95 97 99

Allgemeine, spezifische und besondere Verhältniszahlen

101

1. 2. 3. 4. 5.

101 101 102 103 103

Unterscheidungskriterium Allgemeine Verhältniszahlen Spezifische Verhältniszahlen Besondere Verhältniszahlen Zusammenfassung

Index-Zahlen

104

A.

Problem-Situation

104

B.

Methodik der Index-Zahlen

105

1.

Symbole

105

2.

"Wert-Index", Preis-Index und Mengen-Index a) "Wert-Index" b) Preis-Index und Mengen-Index

106 106 106

3.

Index nach Laspeyres und Index nach Paasche

106

4.

Konstruktion der Index-Formeln

107

XII

Inhaltsverzeichnis

C.

Aussage der Index-Zahlen

107

D.

Berechnung

108

E.

Vergleich der Indizes

109

1.

Unterschiede

109

2.

Zusammenhänge ("Preisbereinigung")

109

F.

VII.

der Index-Zahlen

Anwendung der Index-Zahlen

110

1.

Ausgewählte Anwendungen

110

2.

Warenkorb

110

Schließende Statistik

111

A.

Einführung

111

B.

Fragestellungen

Stichprobentheorie

112

1.

Materielle und formale Fragestellungen

112

2.

Schätzung unbekannter Parameter

112

a) b) c)

112 112 113 113 114 115 116 116

d) e) f) 3. C.

der

Begriff "Parameter" homograde und heterograde Fragestellung Urnen-Modell c l ) Urnen-Modell bei homograder Fragestellung c2) Urnen-Modell bei heterograder Fragestellung Ziehen "mit" und "ohne" Zurücklegen Punkt- und Intervall-Schätzung Symbole

Prüfen von Hypothesen

117

Grundbegriffe der Wahrscheinlichkeitsrechnung

118

1.

Definition "Wahrscheinlichkeit" a) klassische Definition der Wahrscheinlichkeit

118 118

b)

118

Grenzwert-Definition der Wahrscheinlichkeit

2.

Zufallsvariable

119

3.

Verteilungsgesetz (= Wahrscheinlichkeitsverteilung)

119

a) b)

119 121 121 121

c)

d) 4.

Begriff Verschiedene Wahrscheinlichkeitsverteilungen b1) diskrete Wahrscheinlichkeitsverteilungen b2) stetige Wahrscheinlichkeitsverteilungen Wahrscheinlichkeits-Funktion und Verteilungs-Funktion (bei diskreter Verteilung)

121

Dichte-Funktion und Verteilungs-Funktion (bei stetiger Verteilung)

122

Das Gesetz der gro ßen Zahl

123

Inhaltsverzeichnis

D.

XIII

5.

Das Rechnen mit Wahrscheinlichkeiten a) Die Summe der Wahrscheinlichkeiten b) Der Additions-Satz c) Der Multiplikations-Satz

124 124 124 125

6.

Permutation und Kombination / Binomial-Koeffizient a) Permutation b) Kombination c) Binomial-Koeffizient

126 126 127 128

Grundbegriffe 1.

der Stichprobentheorie

Heterograder Fall

129

a)

Grundgesamtheit a1) Häufigkeitsverteilung und grafische Darstellung der Grundgesamtheit a2) Parameter der Grundgesamtheit

129

Stichproben beim Ziehen "mit" Zurücklegen b1) 2er-Stichproben b2) 4er-Stichproben b3) Vergleich der Stichproben-Ergebnisse mit der Grundgesamtheit

131 131 135

b)

c) cl) c2) c3) c4) d)

e)

2.

129

Stichproben beim Ziehen "ohne" Zurücklegen Korrektur-Faktor Auswahlsatz Näherungsformel Quadratwurzel-Gesetz

Zusammenfassung d1) * = H d2) Zentraler Grenzwertsatz / Gauß'sche Normalverteilung d3) Korrektur-Faktor und Näherungsformel d4) Quadratwurzel-Gesetz Anwendung der bisherigen Erkenntnisse (heterograder Fall) e1) direkter Schluß: Schluß von der Grundgesamtheit auf die Stichprobe "Inklusionsschluß" e2) indirekter Schluß: Schluß von der Stichprobe auf die Grundgesamtheit "Repräsentationsschluß" e3) Vertrauensbereich und Sicherheitsgrad

129 130

139 142 142 143 143 144 145 145 145 145 145 146 146 148 149

Homograder Fall

149

a)

Urnen-Modell

149

b)

Symbole

149

c)

Grundgesamtheit Häufigkeitsverteilung und grafische Darstellung der Grundgesamtheit c2) Parameter der Grundgesamtheit

150

c1)

150 150

XIV

Inhaltsverzeichnis

3.

d)

Stichproben d1) Stichproben beim Ziehen "mit" Zurücklegen d2) Stichproben beim Ziehen "ohne" Zurücklegen

151 151 155

e)

Anwendung der Erkenntnisse (homograder Fall) e1) direkter Schluß: Schluß von der Grundgesamtheit auf die Stichprobe "Inklusionsschluß" e2) indirekter Schluß: Schluß von der Stichprobe auf die Grundgesamtheit "Repräsentationsschluß"

156 156 157

Gegenüberstellung: heterograder Fall und homograder Fall

157

a)

Grundgesamtheit

157

b)

Stichproben b1) generell b2) "mit" Zurücklegen b3) "ohne" Zurücklegen b4) Näherungsformeln

158 158 158 158 158

c)

Vertrauensbereiche c1) direkter Schluß c2) indirekter Schluß

159 159 159

4.

Zusammenfassung

159

5.

Voraussetzung für die Anwendung der Stichprobentheorie

160

a)

160

b)

Zufallsauswahl Verfahren der Zufallsauswahl b1) Uneingeschränkte Zufallsauswahl: einfache Zufallsstichprobe (echte Zufallsauswahl) b2) Systematische Zufallsauswahl (unechte Zufallsauswahl) b3) geschichtete Zufallsstichprobe b4) Klumpenstichprobe b5) Mehrstufige Stichprobenauswahl

c)

Sonstige Verfahren

Zusammenfassung

160 160 160 161 161 161 161 162

Verzeichnis der Symbole

163

Literaturverzeichnis

167

Register

169

Kapitel I Grundbegriffe

I.

Grundbegriffe

A.

Begriff "Statistik"

1

Statistik hat zwei Bedeutungen: ®

Die quantitativen Methoden zur Beschreibung und Analyse von Massenerscheinungen

®

Die Ergebnisse der Anwendung statistischer Methoden (Tabellen, Grafiken etc.)

Gegenstand der vorliegenden Einführung ist die Darlegung der Methoden. Ergebnisse zur Veranschaulichung herangezogen.

Dabei werden

Im Sinne der ersten Bedeutung ist Statistik eine Methodenlehre, und zwar von Methoden zur Beschreibung (= Deskriptive Statistik) und Analyse (= Schließende Statistik) von Massenerscheinungen. Der Begriff "Massenerscheinung" ist dabei - wie noch zu zeigen ist - ein unpräziser Oberbegriff. Nicht jede Methode zur Beschreibung und Analyse von Massenerscheinungen aber ist Statistik. Als Statistik bezeichnet man nur die quantitativen Methoden, also die Methoden des Zählens und Messens und der Anwendung mathematischer Verfahren. Dagegen gelten sonstige Methoden, z.B. Romane, Reportagen, Features, Bilddokumentationen und vieles andere, was ebenfalls geeignet ist, Massenerscheinungen zu beschreiben und zu analysieren, nicht als Statistik.

B.

Ziele und Anwendungsgebiete der Statistik

® Statistik will Global-Aussagen über Massenerscheinungen gewinnen. Massen bestehen aus Individuen. Aussagen über Individuen gelten nicht als Statistik. Statistik liefert anonyme Aussagen, die keine Rückschlüsse auf bestimmte Individuen zulassen. Eine "Statistik der weitbesten Tennisspieler" ist in diesem Sinne keine Statistik, wenn damit die Rangliste gemeint ist. Statistik will die Fülle verfügbarer Informationen durch Verdichtung so reduzieren, daß die wichtigsten Informationen Sichtbarwerden. Was im konkreten Einzelfall "wichtig" ist, hängt ab vom Untersuchungsziel. ®

® Statistik will Entscheidungshilfen liefern. Die Ergebnisse der Anwendung statistischer Methoden werden in Politik, Wirtschaft und Verwaltung als Grundlage für Entscheidungen herangezogen und benötigt. Die Bedeutung der Statistik als Entscheidungshilfe kann kaum überschätzt werden. Ob Parteien, Verbände (Arbeitgeberverbände und Gewerkschaften, schlechthin alle Interessenverbände), Regierung auf allen Ebenen oder Unternehmen (nach außen - z.B. gegenüber Aktionären oder Geschäftspartnern und nach innen - z.B. des Mittel-Managements gegenüber der Geschäftsleitung oder der Geschäftsleitung gegenüber den Mitarbeitern) - sie alle bedienen sich der Ergebnisse statistischer Methoden zur Stützung ihrer Argumentation und zur Begründung von Entscheidungen oder Empfehlungen.

® Gefahr falscher Anwendung statistischer Methoden Dabei werden oft handfeste Interessen vertreten und alle Möglichkeiten der Darstellung eines Sachverhalts ausgeschöpft. Die Grenze zur Manipulation ist nicht immer leicht zu ziehen und wird oft überschritten. Wer im Kampf der Interessengruppen nicht unterliegen will, muß die statistischen Methoden schon sehr gut kennen, um methodische Unsauberkeiten oder gar Manipulationen als solche erkennen und entlarven zu können.

2

Kapitel I Grundbegriffe

Wer aus diesen Gründen Statistik schlechthin als "Lüge" abqualifiziert, macht es sich zu einfach. Es geht nicht (mehr) ohne Statistik. Nicht "die Statistik" ist schlecht, sondern die Kenntnis ihrer Methoden ist oft mangelhaft oder ihre Anwendung ist von Interessen beeinflußt. Neben der Erklärung einiger wichtiger statistischer Methoden ist der Hinweis auf die Gefahren ihrer Falsch-Anwendung ein zentrales Anliegen des Verfassers. ® Statistik ist eine Hilfswissenschaft. Die Anwendung ihrer Methoden ist grundsätzlich unabhängig vom jeweiligen Anwendungsbereich. So werden statistische Methoden in vielen Zweigen der Wissenschaft eingesetzt, insbesondere in den Wirtschaftswissenschaften Sozialwissenschaften Naturwissenschaften. Trotzdem gibt es gewisse Unterschiede, insbesondere zwischen der Anwendung in den Wirtschafts- und Sozialwissenschaften einerseits und in den Naturwissenschaften andererseits. So wie eine Nagelschere etwas anders aussieht als eine Blechschere, auch wenn das Konstruktionsprinzip "Schere" bei beiden das gleiche ist.

®

Besonderheit der wirtschafts- und sozialwissenschaftlichen Statistik:

Adäquationsproblem

Die Besonderheit der wirtschafts- und sozialwissenschaftlichen Statistik ist das sogenannte "Adäquationsproblem". Damit ist gemeint, daß die Begriffe zuerst klar abgegrenzt ("adäquat gemacht") werden müssen, bevor quantitative Methoden angewendet werden können. Das sei an zwei Beispielen veranschaulicht: Beispiel: Was ist ein Einwohner? Bevor man bei der Volkszählung mit dem Zählen anfangen kann, muß erst festgelegt werden, nach welchem Prinzip die statistische Masse "Bevölkerung" abgegrenzt werden soll. Es gibt grundsätzlich zwei Möglichkeiten: Abgrenzung nach dem >inwesen/ie/isprinzip (so früher) Abgrenzung nach dem Wohnort prinzip (so heute). Man stelle sich den Unterschied in den Ergebnissen vor, je nachdem, ob die Einwohnerzahl von Sylt im Sommer oder im Winter nach dem Anwesenheitsprinzip erhoben würde. Beispiel: Was ist ein Verkehrstoter? In den verschiedenen Ländern sind sehr unterschiedliche Abgrenzungen in Anwendung, z. B.: in Portugal: wer bei einem Unfall bzw. während des Transports ins Krankenhaus stirbt in Österreich: dito, aber zusätzlich innerhalb von 3 Tagen in Deutschland: dito, zusätzlich innerhalb von 30 Tagen in USA: dito, zusätzlich innerhalb eines Jahres (Quelle: Schneider, Wolf: Der gute Glaube an die Statistik) Man stelle sich vor, wie sich die Zahl der Verkehrstoten in USA schlagartig reduzieren würde, wenn dort auf die in Portugal übliche Abgrenzung übergegangen werden würde. Beide Beispiele verdeutlichen zugleich die Notwendigkeit, bei internationalen Vergleichen (Querschnittsanalyse) und bei Langzeitvergleichen (Längsschnittanalyse) sehr behutsam vorzugehen und erst zu prüfen, ob die Abgrenzung nach den gleichen Prinzipien erfolgte, ehe aus Unterschieden kühne Schlußfolgerungen gezogen werden. Die vorliegende Einführung ist vor allem auf die Anwendung der statistischen Methoden in den Wirtschafts- und Sozialwissenschaften ausgerichtet. ®

Wichtigste Anwendungsgebiete

®

die amtliche Statistik und

®

die Betriebsstatistik.

der wirtschaftswissenschaftlichen Statistik sind

Kapitel I Grundbegriffe

3

Von der Entwicklung der Methoden her stand zunächst die amtliche Statistik im Vordergrund. Mit zunehmender Größe der Unternehmungen und Komplexität des Wirtschaftslebens, auch mit zunehmender Kenntnis der statistischen Methoden ist die betriebliche Statistik in ihrer Bedeutung gleichberechtigt neben die amtliche Statistik getreten. ®

Man unterscheidet zwei Erkenntnisziele

der Statistik:

® Deskriptive Statistik Die Deskriptive Statistik beschränkt sich auf die Beschreibung (Deskription) von Massenerscheinungen, ihr Gegenstand sind z.B. Umfang, Gliederung, grafische Darstellung oder Darstellung der zeitlichen Entwicklung von Massenerscheinungen sowie des Verhältnisses verschiedener Massen zueinander. • Schließende Statistik Die Schließende Statistik verwendet die Methoden der deskriptiven Statistik, geht aber über die reine Beschreibung hinaus und versucht allgemeingültige Aussagen durch den Schluß insbesondere von einer Teilmasse auf die Gesamtmasse. Ihr Gegenstand ist die Schätzung unbekannter Parameter und das Prüfen von Hypothesen.

C.

"Massenerscheinung" und "statistische Masse"

Gegenstand der Statistik sind, wie die Definition besagt, Massenerscheinungen. "Massenerscheinung" ist ein sehr unpräziser Oberbegriff, der am besten durch Beispiele veranschaulicht wird: Erwerbstätigkeit Hunger in Afrika Umweltverschmutzung sind Massenerscheinungen. Die direkte Anwendung quantitativer Methoden auf Massenerscheinungen ist nicht möglich. Wie sollte man "die Erwerbstätigkeit" oder "den Hunger in Afrika" etc. zählen oder messen? Die Statistik hat deshalb den Begriff "Statistische Masse" entwickelt. ®

Massenerscheinungen manifestieren sich in statistischen Massen, z. B.

Massenerscheinunq Erwerbstätigkeit

Hunger in Afrika

Umweltverschmutzung

statistische Massen Erwerbspersonen Erwerbstätige Erwerbslose offene Stellen Zahl der unterernährten Kinder Zahl der an Hunger gestorbenen Personen Nahrunqsmittelvorräte Schadstoffgehalt der Luft oder des Trinkwassers Zahl der Reaktorunfälle Zahl der Neuzulassunqen von Pkw mit qereqeltem Katalysator

Tabelle 1-1 Diese statistischen Massen lassen sich nun zählen (Personen, Pkw) bzw. messen (Schadstoffgehalt der Luft) bzw. sind überhaupt der Anwendung quantitativer Methoden zugänglich.

4

Kapitel I Grundbegriffe

D.

Statistische

Massen

1.

Begriff

®

Statistische Massen sind Gesamtheiten von gleichartigen, aber variablen Einheiten.

Die Gleichartigkeit erlaubt die Zusammenfassung. Nur Gleichartiges kann man zusammenzählen (aus dem gleichen Grund, aus dem man Äpfel und Birnen nicht zusammenzählen soll). Gleichartigkeit liegt vor, wenn die einzelnen Einheiten sich einem gemeinsamen Oberbegriff unterordnen lassen. Gleichartigkeit bedeutet jedoch nicht völlige Gleichheit. Hinsichtlich anderer Merkmale können sich die einzelnen Einheiten der Masse sehr wohl unterscheiden. Diese Variabilität ist sogar die einzige Rechtfertigung der Statistik überhaupt. Wenn die einzelnen Einheiten völlig gleich wären, bliebe nichts mehr zu beschreiben und zu analysieren, allenfalls zu zählen! Dazu bedurfte es aber keiner statistischen Methoden. Neben dem Begriff "Statistische Masse" wird (in der Schließenden Statistik) der Ausdruck "Grundgesamtheit" gleichbedeutend verwendet.

2.

Arten statistischer

Massen

Man kann statistische Massen nach verschiedenen Unterscheidungskriterien a)

b)

c)

nach der Zählbarkelt

der

gliedern:

Einheiten

®

diskontinuierliche Massen die Einheiten der Masse sind zählbar, z. B. Personen, Pkw, Unfälle, Konkurse

®

kontinuierliche Massen die Einheiten sind nicht zählbar, sondern nur meßbar, z. B. Flächen, Strecken, Inhalte Hierbei ist zu beachten, daß die Zahl der Einheiten nicht eindeutig ist, sondern abhängt von der gewählten Maßeinheit, z.B. bei Rohöl (ob barrel oder Tonne).

nach der Realität

der Einheiten

®

reale Massen, z.B. Bevölkerung, Beschäftigte, Unfälle

®

hypothetische Massen z.B. Ziehungen von Kugeln, Werfen von Würfeln oder Münzen. Diese Massen spielen in der Schließenden Statistik eine Rolle.

nach der zeitlichen ®

Dauer

der Einheiten

Bestandsmassen Gesamtheiten von gleichzeitig nebeneinander z.B. Bestand an Pkw am 31.12.19x0 Erfassung in einem Zeitpunkt

bestehenden Einheiten,

Kapitel I Grundbegriffe

5



Bewegungsmassen Gesamtheiten von zeitlich nacheinander folgenden Einheiten, z.B. Zahl der im Jahr 19x1 neu zugelassenen Pkw Erfassung in einem Zeitraum

®

korrespondierende Massen zusammengehörige Bestands- und Bewegungsmassen. Bei korrespondierenden Massen verandern Bewegungsmassen den Umfang und/oder die Struktur der zugehörigen Bestandsmasse Beispiel: Bestand an Pkw am 31.12.19x0 (Bestandsmasse), Neuzulassungen in 19x1 (Bewegungsmasse) Stillegungen von Pkw in 19x1 (Bewegungsmasse)

Bei korrespondierenden

Massen ist die Anwendung der Methode der Fortschreibung möglich.

®

Unter Fortschreibung versteht man die Berechnung einer Bestandsmasse für einen Zeitpunkt, für den keine Erhebung vorliegt, aus dem Anfangsbestand (aus einer zurückliegenden Erhebung) unter Hinzurechnung der Zugänge und Abrechnung der Abgänge.

®

Fortschreibungsformel: Neuer Bestand = Anfangsbestand + Zugänge - Abgänge Formel 1-1

Die Fortschreibung hat große Bedeutung für die amtliche und für die betriebliche Statistik Beispiel für die Anwendung in der amtlichen Statistik: Die Zahl der Einwohner, der Haushalte, Wohnungen etc. wird in großen zeitlichen Abständen früher etwa alle 10 Jahre - im Rahmen einer Volkszählung erhoben. Für den langen Zeitraum zwischen zwei Volkszählungen - zwischen der letzten (1987) und der vorletzten (1970) lagen 17(1) Jahre - können aktuellere Zahlen nur im Wege der Forlschreibung ermittelt werden, z.B. für die Zahl der Einwohner durch Hinzurechnung der Geburten und Zuwanderungen und durch Abrechnen der Todesfälle und Abwanderungen. Selbst im Zeitpunkt der Veröffentlichung der Ergebnisse einer neuen Volkszählung sind diese schon über ein Jahr alt und bedürfen der Aktualisierung durch Fortschreibung Beispiel für die Anwendung in der betrieblichen Statistik: Die Ermittlung der Bestände an Vorräten und Anlagevermögen erfolgt jährlich einmal durch Inventur. Dazwischen können aktuelle Werte nur durch Fortschreibung ermittelt werden, bei den Lagerbeständen z.B. durch Hinzurechnen der Materialzugänge und Abrechnen der Materialentnahmen Je länger allerdings die letzte Vollerhebung zurückliegt, um so ungenauer werden die Ergebnisse der Fortschreibung, da die vollständige Erfassung der Zu- und Abgänge nicht gewährleistet ist und sich Fehler kumulieren

3.

Abgrenzung statistischer Massen

Jede statistische Masse muß nach drei Kriterien möglichst eindeutig abgegrenzt werden: ®

zeitlich

®

geographisch

®

sachlich.

Beispiel: Die in der Bundesrepublik zugelassenen Pkw am 31.12 19x0. Zeitliche Abgrenzung: am 31.12 19x0 geographische Abgrenzung: Bundesrepublik Sachliche Abgrenzung: Pkw Auf die verschiedenen Möglichkeiten sachlicher Abgrenzung wurde bereits unter "Adäquationsproblem" hingewiesen.

Kapitel I Grundbegriffe

6

4.

Umfang statistischer Massen

Ein für die gesamte Statistik wichtiger Begriff ist der Umfang einer statistischen Masse: ®

Unter Umfang einer statistischen Masse versteht man die Anzahl der Einheiten.

®

Symbol für den Umfang einer statistischen Masse: (von lat. numerus)

N

Symbol 1-1

In der Schließenden Statistik unterscheidet man zwei Symbole; ®

N

("groß N")

Symbol für den Umfang der Grundgesamtheit

Symbol I-2

®

n

("klein n")

Symbol für den Umfang einer Stichprobe.

Symbol 1-3

E.

Statistische

1.

Begriff

®

Die Einheiten statistischer Massen bezeichnet man als statistische Einheiten.

Einheiten

Beispiele für statistische Einheiten: Personen

Sachen soziale Gebilde Geschehensverläufe Ereignisse Handlungen

Beschäftigte Arbeitslose Benutzer von Verkehrsmitteln Inhaber von Kreditkarten zugelassene Pkw Kreditkarten in Umlauf Aktiengesellschaften Familien Haushalte schwebende Gerichtsverfahren Vergleichsverfahren Geburten Todesfälle Unfälle Einkäufe Gründungen

Tabelle I-2 Statt des Begriffs "statistische Einheiten" oder einfach "Einheiten" werden verwendet die Begriffe: ®

gleichbedeutend

Elemente

• Fälle Die Begriffe "Einheiten" und "Elemente" lassen offen, ob es sich um Bestands- oder Bewegungsmassen handelt. Der Begriff "Fälle" wird vorwiegend für Bewegungsmassen (z.B. für Geburten, Todesfälle, Unfälle etc.) verwendet.

7

Kapitel I Grundbegriffe

2.

"reale Einheiten" und "Fälle"

®

Von Bedeutung ist die Unterscheidung zwischen "realen Einheiten" und "Fällen".

Beispiele: "reale Einheiten" "FälleZahl der Kreditkarten Inhaber von Kreditkarten Personen, die an einem Ostermarsch teilnehmen Zahl der Teilnehmer an den Ostermärschen Zahl der Unfälle bei Unfällen verunglückte Personen Tabelle 1-3 ®

Die Zahl der "Fälle" ist meist größer als die Zahl der "realen Einheiten", Beispiele: Die Zahl der Kreditkarten ist größer als die Zahl der Kreditkarteninhaber, da ein Kreditkarteninhaber mehrere Kreditkarten besitzen kann. Die Zahl der Teilnehmer an den Ostermärschen kann größer sein als die Zahl der Personen, die daran teilgenommen haben, da einzelne Personen an mehreren Tagen teilgenommen haben können. Es gibt allerdings auch den umgekehrten Fall, daß nämlich die Zahl "Fälle" kleiner ist als die Zahl der realen Einheiten, Beispiel: Die Zahl der Personen, die bei Unfällen verunglückt sind, kann größer sein als die Zahl der Unfälle, da an einem Unfall mehrere Personen beteiligt sein können. Letzteres ist zugleich ein Beispiel dafür, daß beides vermischt vorkommen kann, da natürlich ebenso eine Person mehrmals an Unfällen beteiligt sein kann. Oft möchte der Statistiker die Zahl der "realen Einheiten", erhält aber statt dieser die Zahl der "Fälle", da diese oft leichter zu ermitteln ist. Wichtig ist, daß man sich des Unterschieds bewußt ist, um keine falschen Schlüsse - z.B. über das Potential an Kreditkarten - zu ziehen. Durch Verwendung der Zahl der "Fälle" statt der Zahl der "realen Einheiten" kann ein Sachverhalt auch leicht dramatisiert werden (Beispiel: Bericht über Teilnehmer an den Ostermärschen). Daß diese Unterscheidung nicht immer einfach ist, ist zu erahnen, wenn sie selbst in den offiziellen Nachrichten - denen eine Absicht zur Manipulation gewiß nicht unterstellt werden soll - nicht immer gemacht wird. Schließlich ist noch anzumerken, daß die eine Zahl nicht "besser" oder "richtiger" ist als die andere. Es kommt darauf an, was ausgesagt werden soll. Beispiel: Für die Beurteilung der Auslastung der öffentlichen Nahverkehrsmittel ist es völlig unbeachtlich, ob eine Person mehrmals oder verschiedene Personen je einmal fahren. Es kommt nur auf die Gesamtzahl der Benutzer an. Hier wäre die Zahl der "Fälle" genau richtig. Will man dagegen Informationen als Grundlage für die Preisgestaltung, z. B. für einfache Fahrten und für Rückfahrkarten, braucht man die Zahl der "realen Einheiten".

F.

Statistische Merkmale und

1.

Begriff

Merkmalsausprägungen

®

Die statistischen Einheiten unterscheiden sich durch Merkmale.

®

Merkmale kommen vor in verschiedenen

Ausprägungen.

Kapitel I G r u n d b e g r i f f e

8 Beispiele: Merkmale Haarfarbe Familienstand Kinderzahl Tabelle 1-4

2.

Merkmalsauspräqunqen s c h w a r z , braun, blond ledig, verheiratet, verwitwet, g e s c h i e d e n 1 Kind, 2 Kinder, 3 Kinder

Begriffs-Merkmale und Erhebungs-Merkmale

M e r k m a l e k ö n n e n sein: ®

Segr/'ffs-Merkmale o d e r

®

Erhebungs-

Merkmale.

Beqriffs-Merkmale geographisch zeitlich sachlich sind für alle Elemente einer statistischen M a s s e gleich sichern die Gleichartiqkeit Tabelle 1-5

Erhebunqs-Merkmale geographisch zeitlich sachlich k ö n n e n bei den e i n z e l n e n E l e m e n t e n einer statistischen M a s s e unterschiedlich sein repräsentieren die Variabilität

Die Begriffs-Merkmale d i e n e n d e r Abgrenzung der statistischen Masse. Den ErhebungsM e r k m a l e n gilt d a s eigentliche Interesse des Statistikers. N e b e n der Feststellung des Umfangs d e r s t a t i s t i s c h e n M a s s e ( A n z a h l d e r E l e m e n t e ) ist die Gliederung der statistischen Masse nach M e r k m a l e n (genauer: n a c h E r h e b u n g s - M e r k m a l e n ) erstes Ziel der statistischen Arbeit. Das gleiche M e r k m a l k a n n bei einer U n t e r s u c h u n g Seg/v'ffs-Merkmal, bei einer anderen Unters u c h u n g Erhebungs-Merkmal sein. Beispiele: Wohnort: Bei einer E r h e b u n g d e r Einwohner Frankfurts ist der W o h n o r t BegriffsMerkmalI; bei einer E r h e b u n g der Nahverkehrsströme ist d e r W o h n o r t ErhebungsMerkmal. Geburtsdatum: Bei einer E r h e b u n g d e r über 6 5 j ä h r i g e n ist d a s G e b u r t s d a t u m Segr/ffs-Merkmal, bei einer U n t e r s u c h u n g d e r Altersstruktur d e r Belegschaft eines U n t e r n e h m e n s ist d a s G e b u r t s d a t u m Erhebungs-Merkma\. Beruf: Bei einer U n t e r s u c h u n g der N e b e n e r w e r b s t ä t i g k e i t der L a n d w i r t e ist d e r Beruf "Landwirt" Begriffs-Merkmal. Bei einer U n t e r s u c h u n g d e r Erwerbstätigkeit schlechthin ist der Beruf " L a n d w i r t " ein Erhebungs-Merkmal. ®

M e r k m a l e k ö n n e n sein:

®

g e o g r a p h i s c h e M e r k m a l e , z. B. Geburtsort, Wohnort, Unfallort, Studienort

®

zeitliche M e r k m a l e , z. B. Geburtsdatum, G r ü n d u n g s d a t u m , Unfallzeit

®

sachliche M e r k m a l e , z. B. Beruf, Kinderzahl, E i n k o m m e n , Mitgliedschaft in V e r e i n

3.

qualitative und quantitative Merkmale

V o n b e s o n d e r e r B e d e u t u n g f ü r d i e g e s a m t e Statistik ist d i e U n t e r s c h e i d u n g d e r M e r k m a l e in

sachlichen

®

sachlich-qualitative M e r k m a l e , meist einfach "qualitative" M e r k m a l e g e n a n n t , Beispiele: Beruf, H a a r f a r b e , Familienstand, F r e m d s p r a c h e n k e n n t n i s s e , S t a a t s a n g e h ö r i g k e i t ; B r a n c h e , R e c h t s f o r m , Publizitätspflicht, Mitgliedschaft in A r b e i t g e b e r v e r b a n d

®

sachlich-quantitative M e r k m a l e , meist einfach "quantitative" M e r k m a l e genannt, Beispiele: Kinderzahl, E i n k o m m e n , Alter, G e w i c h t ; Zahl d e r Beschäftigten, U m s a t z , G e w i n n

9

Kapitel I Grundbegriffe

Die Unterscheidung ist deshalb so wichtig, weil die quantitativen Merkmale den quantitativen Methoden der Statistik erheblich besser zugänglich sind als die qualitativen Merkmale. Denn: ®

quantitative Merkmale haben ein eindeutiges Ordnungsprinzip

® qualitative Merkmale haben kein eindeutiges Ordnungsprinzip. Um das zu zeigen, muß kurz auf die Arten von Skalen eingegangen werden.

4.

Arten von Skalen

Der Unterschied ergibt sich aus der Art der Skala, mit der die Merkmalsausprägungen gemessen werden können. Man unterscheidet drei Arten von Skalen: ®

Nominal-Skala



Ordinal-Skala

®

Kardinal-Skala (= metrische Skala)

a)

Nominal-Skala

Eine Nominal-Skala ordnet den Merkmalsausprägungen lediglich Namen zu, eine eindeutige Rangordnung der Namen ist nicht möglich. Beispiele: männlich/weiblich ist nicht besser oder richtiger als weiblich/männlich Arbeiter/Angestellte/Beamte ist nicht besser oder richtiger als Beamte/Angestellte/Arbeiter Arbeiter ist etwas anderes als Angestellter, nicht aber weniger oder mehr. b)

Ordinal- Skala

Eine Ordinal-Skala ordnet den Merkmalsausprägungen nicht nur Namen zu, sondern ermöglicht darüber hinaus eine eindeutige Rangordnung. Beispiele: Medaillen: Gold / Silber/Bronze Noten: sehr gut / gut / befriedigend Bundesliga: Erster / Zweiter / Dritter Gold ist nicht nur etwas anderes als Silber, es ist auch begehrter als Silber, und Silber ist begehrter als Bronze etc. Allerdings läßt sich bei einer Ordinal-Skala nicht sagen, um wieviel Gold begehrter ist als Silber. Der Abstand Gold : Silber muß nicht gleich sein dem Abstand Silber : Bronze. Und in der Bundesligatabelle kann der Abstand des Ersten zum Zweiten sehr viel geringer (oder auch größer) sein als der des Zweiten zum Dritten etc. Vor allem läßt eine Ordinal-Skala keinen Vergleich zwischen verschiedenen Ranglisten zu: Der Erste in einer Rangliste kann besser (oder schlechter) sein als der Erste in einer anderen Rangliste. c)

Kardinal-Skala

(= metrische Skala)

Eine Kardinal-Skala ordnet den Merkmalsausprägungen nicht nur Namen zu und gibt eine eindeutige Rangordnung an, sie ermöglicht zusätzlich eine Aussage über die Abstände zwischen zwei Merkmalen. Beispiele: Kinderzahl: 1 Kind, 2 Kinder, 3 Kinder Einkommen: 1000,--DM, 2000,--DM, 3000,-DM Umsatz: 1 Mio DM, 2 Mio DM, 3 Mio DM 2 Kinder sind mehr als 1 Kind und 3 Kinder sind mehr als 2. Und zwar sind 3 Kinder genauso viel mehr als 2 wie 2 mehr sind als 1. D.h. die Abstände sind jeweils gleich. Streng genommen ist dies zwar die häufigste Form der Kardinal-Skala, aber nicht die einzige. Gleiche Abstände entsprechen einer arithmetischen Reihe: 1, 2, 3, 4, 5, etc. : 2-1 =3-2 = 4-3 = 1 Daneben gibt es noch die geometrische Reihe, bei der nicht die Abstände gleich sind, sondern die Quotienten: 1, 2, 4, 8,16, etc.: 2 _ 4 _ 8 = 1 6 1 2 4 8

Kapitel I Grundbegriffe

10

d)

Unterschiede zwischen den Skalen

Die Unterscheidung ist wichtig für die Deskriptive Statistik und für die Schließende Statistik. In der Deskriptiven Statistik werden wir der Unterscheidung wieder begegnen bei den Mittelwerten: der Nominal-Skala beim Häufigsten Wert der Ordinal-Skala beim Zentralwert der Kardinalskala beim arithmetischen Mittel (bei arithmetischer Reihe) und beim geometrischen Mittel (bei geometrischer Reihe). In der Schließenden Statistik: der Nominal-Skala beim homograden Fall der Kardinal-Skala beim heterograden Fall.

5.

häufbare und nicht häufbare Merkmale

Bei den qualitativen Merkmalen ist es wichtig, zwischen häutbaren und nicht häufbaren Merkmalen zu unterscheiden. ®

Bei häufbaren Merkmalen können bei einer Einheit gleichzeitig mehrere Merkmalsausprägungen vorkommen.

®

Bei nicht häufbaren Merkmalen ist immer nur eine Merkmalsausprägung möglich.

Beispiele: häufbare Merkmale Beruf Sprachkenntnisse Staatsangehörigkeit

nicht häufbare Merkmale Familienstand Publizitätspflicht Rechtsform

Tabelle I-6 Eine Person kann gleichzeitig mehrere Berufe ausüben (z. B. Metzger und Gastwirt) oder erlernt haben (z. B. Friseurin und Kosmetikerin), mehrere Sprachen sprechen (z. B. Englisch und Französisch) oder sogar mehrere Staatsangehörigkeiten haben (z. B. holländisch und schweizerisch). Man kann aber gleichzeitig nur einen Familienstand haben (man ist entweder ledig oder nicht ledig), ein Unternehmen ist entweder publizitätspflichtig oder nicht, kann nicht zugleich zwei verschiedene Rechtsformen haben etc. Der Unterschied ist vor allem wichtig im Rahmen der Erfassung, da es für häufbare Merkmale keine zwingende Vorschrift für die Zuordnung gibt (siehe II B 3.b3).

6.

diskontinuierliche und kontinuierliche Merkmale

Bei quantitativen Merkmalen ist es wichtig, zwischen diskontinuierlichen Merkmalen zu unterscheiden.

und

kontinuierlichen

®

Bei diskontinuierlichen ( = diskreten) Merkmalen können nur ganzzahlige Werte der Merkmalsausprägungen vorkommen.

®

Bei kontinuierlichen ( = stetigen) Merkmalen sind zwischen zwei Merkmalsausprägungen beliebig viele Zwischenwerte denkbar, allenfalls praktisch begrenzt durch unsere unzureichende Meßgenauigkeit.

Kapitel I Grundbegriffe Beispiele: diskontinuierliche Merkmale Zahl der Kinder Zahl der Beschäftigten Zahl der zugelassenen Pkw Zahl der Unfälle

kontinuierliche Merkmale Alter Größe Länge des Autobahnnetzes landwirtschaftlich genutzte Fläche

Tabelle 1-7 Man kann nur ein Kind oder zwei Kinder oder drei Kinder haben, nie zweieinhalb oder dreieinviertel Kinder. Entweder es wäre in Unfall oder es war keiner, ein "halber" Unfall wäre ein Unding. Ein Beinahe-Unfall ist glücklicherweise kein Unfall - oder eine Kategorie für sich. Die Altersangabe "1 Jahr" oder "2 Jahre" ist damit nicht vergleichbar. Man könnte das Alter in Monaten, Tagen, Stunden, Minuten, Sekunden etc. ausdrücken und doch nie genau genug. Einen wichtigen Grenzfall stellen die quasi-kontinuierlichen Merkmale dar. Darunter versteht man alle Größen, die in Geldeinheiten (DM, $ etc.) ausgedrückt werden, also Einkommen, Umsatz, Kosten, Gewinn etc. An sich handelt es sich hierbei um diskontinuierliche Merkmale, denn die kleinste Einheit ist z.B. bei der DM der Pfennig. Üblicherweise kostet etwas z. B. DM -,99 oder DM 1 , - . Die Preisgestaltung an Tankstellen zeigt jedoch, daß man den Pfennig durchaus noch in Zehntel-Bruchteile zerlegen kann, und bei der Wechselkursfeststellung des Dollar lautet die Notierung oft auf Tausendstel. Man behandelt deshalb Geldgrößen als quasi-kontinuierliche Merkmale. Der Unterschied ist vor allem wichtig bei der grafischen Darstellung (der Abszissenmaßstab beim Histogramm ist unterschiedlich) und bei der Bildung von Größenklassen (die Abgrenzung der Größenklassen ist unterschiedlich).

12

II.

Kapitel II Die Phasen statistischer Arbeit

Die Phasen statistischer Arbeit

Die statistische Arbeit wird üblicherweise in folgende drei Phasen eingeteilt: ®

Erfassung

®

Aufbereitung

®

Auswertung.

A.

Erfassung ( = Erhebung)

®

Erfassung ( = Erhebung) nennt man die Gewinnung des statistischen

Ausgangsmaterials.

Für die praktische Statistik spielt diese Phase eine bedeutende Rolle. Hier sollen nur zwei Problemkreise dargestellt werden.

1.

Primär-Statistik

®

Man spricht von Primär-Statistik , wenn das Material eigens ("primär") für eine bestimmte statistische Untersuchung erhoben wird. Beispiele: Volkszählung, Meinungsumfrage.

®

Man spricht von Sekundär-Statistik , wenn für eine statistische Untersuchung bereits vorliegendes Material verwendet wird. Beispiel: Die Umsatzstatistik eines Unternehmens wird aufgrund der Ausgangsrechnungen erstellt. Die Ausgangsrechnungen wurden keineswegs für statistische Zwecke, sondern für Zwecke der Buchhaltung und Steuererklärung erstellt. Die Verwendung in der Statistik ist nur Nebenzweck. Um Sekundär-Statistik handelt es sich auch dann, wenn das verwendete Material zwar ursprünglich für eine (frühere) statistische Untersuchung erhoben wurde, nun aber nochmals für eine andere Untersuchung verwendet werden soll. Obwohl hierbei die Verwendung für statistische Zwecke durchaus Hauptzweck war, wurde das Material doch nicht eigens für diese (aktuelle), sondern eben für eine andere Untersuchung erhoben.

Vorteile

Nachteile

und

Sekundär-Statistik

Primär-Statistik Die verwendeten Begriffe können exakt auf das Ziel der Untersuchung abgestellt werden

Sekundär-Statistik vergleichsweise einfache Erfassung preiswert schnell

hohe Kosten hoher Zeitaufwand

Die Begriffe des vorliegenden Materials decken sich oft nicht mit den für die Untersuchung an sich erforderlichen Begriffen

Tabelle 11-1 Wegen der hohen Kosten und des hohen Zeitaufwands versucht man üblicherweise zunächst, die Untersuchung mit sekundär-statistischem Material durchzuführen. Nur wenn sekundärstatistisches Material nicht zugänglich oder überhaupt nicht verfügbar ist oder wenn die Begriffe zu weit auseinanderklaffen oder wenn das sekundär-statistische Material zu alt ist, wird eine PrimärErhebung durchgeführt.

Kapitel II Die Phasen statistischer Arbeit

13

2.

Voll-Erhebung

®

Eine l/o//-Erhebung liegt vor, wenn alle Elemente einer statistischen Masse in die Untersuchung einbezogen werden. Beispiele: Volkszählung, klassische Inventur.

®

Eine 7e//-Erhebung liegt vor, wenn nur ein Teil der Elemente einer statistischen Masse in die Untersuchung einbezogen werden. Beispiele: Meinungsumfrage, Stichproben-Inventur.

Vorteile

Nachteile

und Teil-Erhebung

Voll-Erhebunq Das erhobene Material spiegelt die wahren Proportionen der statistischen Masse hohe Kosten hoher Zeitaufwand nicht immer möglich nicht immer sinnvoll nicht immer politisch durchsetzbar

Teil-Erhebunq vergleichsweise preiswert vergleichsweise schnell/aktuell die Ergebnisse können verzerrt sein Aussagen über die statistische Masse ("Grundgesamtheit") sind nur über die Wahrscheinlichkeitsrechnung möglich (Stichprobentheorie)

Tabelle II-2 Die hohen Kosten und der hohe Zeitaufwand einer Voll-Erhebung leuchten von selbst ein. Beispiel für Unmöglichkeit Blutprobe Beispiel für nicht sinnvoll Qualitätstest bei Streichhölzern, Blitzlampen und dgl., der komplette Bestand würde zerstört Beispiel für nicht politisch durchsetzbar die nächste Volkszählung tendiert in diese Richtung. Ein erheblicher Teil der statistischen Methodenlehre widmet sich den Möglichkeiten und speziellen Problemen der Teil-Erhebung ("Schließende Statistik"). Für viele Statistiker fängt Statistik überhaupt erst damit an. Von besonderer Bedeutung dabei ist die ®

Repräsentativ-Erhebung.

Repräsentativ-Erhebung nennt man eine Teil-Erhebung ( = Stichproben-Erhebung), wenn durch besondere Auswahl der Elemente, die in die Stichprobe gelangen ("Zufallsauswahl") sichergestellt ist, daß mit Hilfe der Wahrscheinlichkeitsrechnung von der Stichprobe auf die Grundgesamtheit geschlossen werden darf.

B.

Aufbereitung

®

Aufbereitung nennt man das Auszählen

und Gruppieren der Merkmale.

Die Aufbereitung erfolgt in folgenden Schritten: Verschlüsseln Auszählen Ur-Liste Strich-Liste Häufigkeits-Tabelle. Gruppieren (Bilden statistischer Gruppen).

14

1.

Kapitel II Die Phasen statistischer Arbeit

Verschlüsseln

Eine Verschlüsselung ist erforderlich bei örtlichen, zeitlichen und qualitativen Merkmalen. Bei diesen Merkmalen erleichtert die Verschlüsselung das Auszählen der verschiedenen Merkmalsausprägungen oder macht es überhaupt erst möglich. Durch die Verschlüsselung werden den verschiedenen Merkmalsausprägungen SchlüsselNummern zugeordnet. Einfaches Beispiel: Familienstand (nur 4 Ausprägungen): 1 ledig 2 verheiratet 3 verwitwet 4 geschieden Bei großen Datenmengen kann eine systematische Klassifikation erforderlich sein, z. B. bei der Umsatz-Statistik eines großen Versandhauses mit vielen Tausend verschiedenen Artikeln im Sortiment. Beispiele für systematische Klassifikationen sind: Industriekontenrahmen, Postleitzahlen. Bei quantitativen Merkmalen erübrigt sich die Verschlüsselung, da bei diesen eine eindeutige Zuordnung möglich ist.

2.

Auszählen

a)

Ur-Liste

Erstes Ergebnis des Auszählens ist die Ur-Liste, in der die Merkmalsausprägungen der einzelnen erhobenen Einheiten in beliebiger Ordnung, z. B. alphabetisch (oder auch nach Eintrittsdatum), aufgelistet sind. Beispiel: Beschäftigte eines Betriebes nach Familienstand und Kinderzahl Name Adam Bertram Caesar Demmer Erhardt Franz Gabriel Haller Imann Jordan Tabella II-3 b)

Familienstand geschieden verheiratet ledig ledig verheiratet ledig verwitwet verheiratet geschieden ledig

Zahl der Kinder 1 1 0 0 3 1 2 4 1 0

Name Konrad Lehmann Müller Niemann Ott Paulus Quandt Riehls Sieger Theobald

Familienstand ledig verheiratet ledig geschieden ledig ledig geschieden verwitwet ledig ledig

Zahl der Kinder 0 2 0 5 0 1 1 2 0 0

Strlch-Llste

Aus der Ur-Liste wird die Strich-Liste entwickelt, indem Einheiten ausprägungen zusammengefaßt werden. Merkmal:

Tabelle II-4

Familienstand

Merkmalsausprägunq ledig verheiratet verwitwet geschieden

Schlüssel-Nr. 1 2 3 4

mit gleichen kommt vor II 11 i m IUI II IUI

Merkmals-

15

Kapitel II Die Phasen statistischer Arbeit

Merkmal:

Zahl der Kinder

Merkmalsauspräqung keine Kinder 1 Kind 2 Kinder 3 Kinder 4 Kinder 5 Kinder

kommt vor Uli. III W4- I III I I I

Tabelle II-5

c)

Häufigkeitstabelle

c1)

Aufbau einer Häufigkeitstabelle

Die Häufigkeitstabelle Merkmal:

ist nichts anderes als eine Umformung der

Familienstand

Merkmalsauspräqunq ledig verheiratet verwitwet qeschieden Gesamt

Strich-Liste.

Schlüssel-Nr. 1 2 3 4

Häufiqkeit 10 4 2 4 20

Tabelle II-6 Um die Häufigkeitstabelle in allgemeiner ® ®

Form schreiben zu können, werden Symbole verwendet:

Symbole f

|

Häufigkeit einer (beliebigen) Merkmalsausprägung

Symbol 11-1

Das "f" steht für Häufigkeit (von engl, frequency), der tiefgestellte Index "i" steht für die SchlüsselNummern der verschiedenen möglichen Merkmalsausprägungen. f f

1

Häufigkeit der Merkmalsausprägung mit der Schlüssel-Nr. 1 (hier: ledig)

2

Häufigkeit der Merkmalsausprägung mit der Schlüssel-Nr. 2 (hier: verheiratet), etc.

Außerdem wird für "Gesamt" das sogenannte Summen-Zeichen verwendet: ®

X

(lies: Summe)

Symbol II-2

Unter Verwendung dieser Symbole (und des bereits eingeführten Symbols N für den Umfang der statistischen Masse) erhält die Häufigkeitstabelle folgendes Bild: Häufiqkeitstabelle in allgemeiner Merkmal:

Familienstand

Form: Merkmalsauspräqunq

Schlüssel-Nr.

CO c o

Staaten der Europäischen Union, Bevölkerung in Mio c)

® -

e X

Quelle: Stat Jb. 1995

Histogramm, Häufigkeits-Polygon und Verteilungskurven

Die in diesem Abschnitt zusammengefaßten Darstellungsarten hängen eng miteinander zusammen Ausgangspunkt ist das Histogramm. Aus dem Histogramm wird das Häufigkeits-Polygon entwickelt, aus dem Häufigkeits-Polygon werden die Verteilungskurven entwickelt. Alle drei Formen dienen der grafischen Darstellung quantitativer Merkmale Die Darstellung erfolgt in einem Achsenkreuz mit den Merkmalsausprägungen ("Merkmalswerten") x, auf der einen Achse (üblicherweise werden die Merkmalswerte auf der waagerechten Achse der Abszisse - abgetragen) und den Häufigkeiten f, auf der anderen Achse, üblicherweise der senkrechten Achse (Ordinate).

Kapitel III Darstellung der Ergebnisse

39

Histogramm, Häutigkeits-Polygon und Verteilungskurven sind die adäquate Darstellungsform für Sachverhalte, die sich durch X| * f, symbolisieren lassen

c1)

Histogramm

Das Histogramm könnte bei flüchtiger Betrachtung mit dem Säulen-Diagramm verwechselt werden, ist aber etwas ganz anderes. Während es beim Säulen-Diagramm nur auf die Länge der Säulen das f \ - ankommt, spielt beim Histogramm auch die Breite der Säulen - das x, - eine Rolle. Charakteristika des Histogramms: ®

Die Anordnung der Säulen ist durch den Abszissen-Maßstab festgelegt

® Eskommtauf die Fläche der Säulen - X j ' f j - a n . Im Grunde handelt es sich beim Histogramm deshalb um einen zweidimensionalen Vergleich Meist werden die Säulen jedoch gleich breit gewählt, so daß es trotzdem nur auf die Höhe der Säulen ankommt und letztlich ein eindimensionaler Vergleich vorliegt. Auf die Darstellung des Histogramms mit verschieden breiten Säulen - die durchaus ihre Vorzüge hat, aber nicht mehr anschaulich ist - wird hier verzichtet. ®

Beim Histogramm ist es wichtig, zwischen diskontinuierlichen und kontinuierlichen Merkmalen zu unterscheiden, da der Maßstab für das x, bei beiden Arten verschieden ist:

®

Bei diskontinuierlichen Merkmalen kommt die Maßeinheit für x, jeweils in die Mitte eines Abszissenabschnitts.

®

Bei kontinuierlichen Merkmalen kommt die Maßeinheit für x, jeweils an die Grenze zwischen zwei Abszissenabschnitte.

Beispiel für Histogramm bei diskontinuierlichem Merkmal (Zahlenbeispiel aus Tabelle 11-10):

Beispiel für Histogramm bei kontinuierlichem Merkmal (Beispiel aus Tabelle II-22):

Umsätze der größten Werbeagenturen 1987 in Mio DM

Zahl der Kinder

100

200

Abb. 111-18

300 400 500 600 xi

Die Unterscheidung zwischen beiden Formen des Abszissenmaßstabs ist wichtig für eine korrekte Darstellung. Leider wird dieser Unterschied in der Praxis häufig vernachlässigt. Auch hier wiederum bieten die gängigen Computer-Programme wenig Hilfestellung für eine korrekte Darstellung.

Kapitel III Darstellung der Ergebnisse

40

Das wohl bekannteste Histogramm ist die sogenannte Bevölkerungspyramide, die den Altersaufbau der Bevölkerung zeigt. Bei dieser sind allerdings die Merkmalswerte Xj ausnahmsweise auf der Ordinate abgetragen und die Häufigkeiten f auf der Abszisse. Es handelt sich eigentlich um zwei Histogramme in einer Darstellung, in der rechten Hälfte der Altersaufbau der weiblichen Bevölkerung, in der linken Hälfte der Altersaufbau der männlichen Bevölkerung:

Altersaufbau der Bevölkerung Deutschlands am 31.12.1993

Alter in Jahren

Männlich

Weiblich

FRAUENÜBERSCHUSS

Gefallene d e s 2. Weltkriegs

Geburt enausfall im t . Weltkrieg

Geburtenausfall im 1. Weltkrieg

Geburtenausfall während der Wirtschaftskrise um 1932

Geburtenausfall während der Wirtschaftskrise um 1932

Geburtenausfall Ende d e s 2. Weltkriegs

Geburtenausfall Ende des 2. Weltkriegs

UBERSCHUSS

~i 100

1

1

200

300

r—i 400

500

Tausend je Altersjahr

1

1

1

600

700

800

Tausend je Altersjahr

Statistisches Bundesamt 95-1-0208

Abb. 111-19 Altersaufbau (Bevölkerungspyramide) Quelle: Statistisches Jahrbuch 1995

41

Kapitel III Darstellung der Ergebnisse c2)

Häufigkeits-Polygon

Das Häufigkeits-Polygon ist eine Weiterentwicklung des Histogramms. Da die Anordnung der Säulen beim Histogramm festliegt, ist es zulässig und durchaus zweckmäßig, die Mitten der Säulen-Oberkanten miteinander zu verbinden. Der Kurvenzug ergibt eine vieleckige Linie, ein Vieleck ("Polygon"):

Häufigkeits-Polygon

fi

XI

Abb. lil-20 Das Häufigkeits-Polygon schneidet von dem zugrunde liegenden Histogramm dreieckige Flächen ab und fügt gleichgroße dreieckige Flächen dazu. Wenn man - wie in der Darstellung geschehen das Häufigkeits-Polygon jeweils bis zur Abszisse verlängert, ist die Summe der hinzugefügten Flächen gleich der Summe der abgeschnittenen Flächen, so daß die Fläche unter dem Häufigkeits-Polygon der Fläche unter dem Histogramm gleich ist. Da es beim Histogramm nur auf die Fläche - X| * f, - ankommt, kann man das Häufigkeits-Polygon als verdichtete Darstellung des Histogramms ansehen. Das Häufigkeits-Polygon hat nur Bedeutung zum besseren Verständnis der nun folgenden Verteilungskurven.

c3)

Verteilungskurven

Wenn die Häufigkeiten - das fj - genügend groß ist und die Merkmalswerte X| genügend dicht beieinander liegen, dann rücken die Eckpunkte des Polygons sehr eng zusammen, so daß man schließlich einen geglätteten Kurvenzug ziehen kann. ®

Einen solchen geglätteten Kurvenzug nennt man

®

Verteilungskurven sind nichts anderes als schematisch vereinfachte Histogramme.

Verteilungskurve.

Mit Hilfe der Verteilungskurven lassen sich typische Verteilungsformen anschaulich darstellen. Typische Verteilungskurven sind: ®

eingipflig-symmetrisch

®

asymmetrisch / links-steil

= rechts-schief

®

asymmetrisch / rechts-steil

= links-schief

®

zweigipflig

®

U-förmig.

42

Kapitel III Darstellung der Ergebnisse

eingipflig symmetrisch

XI

Abb. 111-21 eingipflig-asymmetrisch rechts-steil oder links-schief

eingipflig-asymmetrisch links-steil oder rechts-schief

XI

XI

Abb. III-23

Abb. III-22 zweigipflig

U-förmig

XI

XI

Abb. III-25

Abb. III-24

Die bekannteste Verteilungskurve ist die Gauß'sche Normalverteilung, im Rahmen der Schließenden Statistik kennenlernen werden.

d)

Darstellung v o n

die wir bei der Varianz und

Zeitreihen

Zeitliche Merkmale nehmen eine Zwischenstellung ein zwischen geogratischen und qualitativen Merkmalen einerseits und quantitativen Merkmalen andererseits. Ähnlich wie bei quantitativen Merkmalen ist die Anordnung der Merkmalsausprägungen nicht beliebig, sondern durch die Aufeinanderfolge von Zeitpunkten oder Zeiträumen festgelegt. Andererseits gibt es - ähnlich wie bei den geografischen und den qualitativen Merkmalen - keine Merkmalswerte, also läßt sich auch kein x j * f j berechnen. Man spricht von zeitlichen Reihen oder Zeitreihen, weil ein Sachverhalt für verschiedene Zeitpunkte oder Zeiträume ausgewiesen wird.

Kapitel III Darstellung der Ergebnisse

43

Zeitreihen lassen sich auf vielerlei Art darstellen, die wichtigsten sind: ®

das Säulen-Diagramm

®

Kurven mit arithmetischem Maßstab

®

Kurven mit logarithmischem Maßstab.

Die drei Möglichkeiten seien am Beispiel der Entwicklung der Zahl der Arbeitslosen dargestellt: Entwicklung Jahr 1978 1979 1980 1981 1982 Tabelle III-9

dl)

der Zahl der Arbeitslosen in 1000 Jahr Arbeitslose Arbeitslose 1983 2258 993 1984 876 2266 2304 889 1985 1272 1986 2228 1987 2229 1833 Quelle: Institut der deutschen Wirtschaft, Zahlen, 16

Säulen-Diagramm Arbeitslose 1978 bis 1987 in 1000

9 '80 1 2

3

4

5

6 '87

Abb. III-26

Arbeitslose 1983 bis 1987 in 1000

'83

'84

'85

'86

'87

Abb. III-27

Die Darstellung erfolgt in einem Achsenkreuz. Es ist üblich, die Zeiträume in aufsteigender Reihenfolge auf der Abszisse

abzutragen.

Es kommt nur auf die Höhe der Säulen an. Die Säulen sind beliebig breit, sofern gleich breit, ebenso sind die Abstände zwischen den Säulen beliebig breit, sofern gleich breit. Die Zeiträume werden in den Mitten der Abschnitte auf der Abszisse angeordnet. Anders als beim Säulen-Diagramm bei geografischen und qualitativen Merkmalen ist die Reihenfolge der Säulen testgelegt. Die Darstellung von Zeitreihen mit Säulen-Diagramm ist stark abhängig vom gewählten Maßstab. Durch Änderung des Maßstabs läßt sich ein Sachverhalt verharmlosen oder dramatisieren. Die Darstellung der Entwicklung für den Zeitraum 1983 bis 1987 zeigt ein Beispiel für Dramatisierung. Während die Darstellung des Zeitraums 1978 bis 1987 für die letzten fünf Jahre praktisch keine nennenswerte Veränderung ausweist, zeigt nun die Darstellung des Zeitraums 1983 bis 1987 einen dramatischen Rückgang in den letzten beiden Jahren. Die Lösung des "Rätsels" ist allein die Maßstabsänderung, die zusätzlich mit einer Verkürzung des Ordinatenmaßstabs verbunden ist, ohne daß ein Hinweis auf die Verkürzung des Maßstabs erfolgt ist. Obwohl diese Praxis sich schon so weit durchgesetzt hat, daß selbst im Monatsbericht der Bundesbank ständig damit gearbeitet wird, muß sie als bedenklich angesehen werden, da sie geeignet ist, Sachverhalte zu dramatisieren oder zu verharmlosen.

44

Kapitel III Darstellung der Ergebnisse

Daß die Zeitreihe auf der Abszisse nicht bei Null beginnt, ist nicht als Verkürzung des Abszissenmaßstabs anzusehen, da es sich bei der Folge der Zeiträume nicht um einen Maßstab handelt. d2)

Kurven mit arithmetischem Maßstab

Da die Anordnung der Säulen durch die aufsteigende Folge der Zeiträume festgelegt ist, können hier - wie beim Histogramm - die Mitten der Säulen-Oberkanten durch gerade Linien zu einer Kurve verbunden werden: Arbeitslose Arbeitslose 1983 bis 1987 in 1000 2500 1978 bis 1987 in 2000 1500 1 000

/

500

' 7 8 ' 8 0 '82; ' 8 4

'86 '83

Abb. III-28

'84

'85

'87

Abb. III-29

Auch hier bestehen das Maßstabs-Problem und das Problem der Verkürzung des OrdinatenMaßstabs. Die Darstellung rechts kann so nicht als korrekt angesehen werden. Es fehlt der Hinweis auf die Verkürzung des Ordinaten-Maßstabs. Allerdings muß auch hier festgestellt werden, daß diese inkorrekte Form zunehmend üblich wird, selbst in Veröffentlichungen z. B. der Deutschen Bundesbank. Korrekt wäre folgende Darstellung, in der die Verkürzung durch eine Zickzacklinie augenfällig gemacht wird: Arbeitslose 2310 1983 bis 1987 in 1000 2300 2290 2280 2270 2260

'83

'84

'85

Abb.lll-30 Die Frage, welcher Maßstab "richtig" ist, läßt sich nicht allgemeingültig beantworten. Mit gewissem Recht läßt sich praktisch jeder Maßstab vertreten, so lange bei Vergleichen jeweils der gleiche Maßstab angewendet wird. Schlicht unseriös allerdings wäre es, bei einem Vergleich (z. B. der Umsätze mit den Kosten) bei den Umsätzen einen anderen Maßstab zu wählen als bei den Kosten. ®

Zu beachten ist, daß hier die Bezeichnung der Zeiträume den Grenzlinien zwischen den Abschnitten auf der Abszisse zugeordnet werden.

Kapitel III Darstellung der Ergebnisse

45

d3)

Kurven mit logarithmischem

Maßstab

Die Darstellung kann schließlich auf Papier mit logarithmischem Maßstab erfolgen:

1 0000

10000-

Arbeitslose | 1 9 7 8 bis 1987 in 1000i ;logarithmischer Maßstab

-Arbeitslose-1983 bis 1987 in 1000. •logarithmischer Maßstab

1 0 0 0 « « sSS3KS

1 00 '78

'80

'82

'84

'86

1 000 '83

Abb. 111-31

'84

'85

'86

'87

Abb. II1-32

®

Beim logarithmischen Maßstab werden nicht die Originalwelte, sondern deren Logarithmen dargestellt.

®

Der Maßstab der Ordinatenachse beginnt beim logarithmischen Maßstab nicht mit 0, sondern mit 1 (bei Verkürzung des Ordinatenmaßstabs mit 10, 100, 1000 etc.).

Die Darstellung mit logarithmischem Maßstab hat durchaus ihren eigenen Aussagewert, der allerdings kaum noch als anschaulich anzusehen ist. Die logarithmische Darstellung ist deshalb auch recht selten. Sie eignet sich bestens, um relative Veränderungen sichtbar zu machen. Beispiel: relativ gleiche arithmetische Reihe absolut gleiche geometrische Reihe Zuwachse Zuwachse + 100 % + 100% 11Q0 %

+1 +1 Tabelle 111-10 arithmetische Reihe (gleiche absolute Zuwächse) bei arithmetischem Maßstab:

arithmetische Reihe (gleiche absolute Zuwächse) bei logarithmischem Maßstab:

8 7 6 5 4 3 2 1 0 2

3

4

5

6

7

8

1

2

Zeit Abb III-33

Abb. III-34

3

4 5 Zeit

6

7

8

46

Kapitel III Darstellung der Ergebnisse geometrische Reihe (gleiche relative Zuwächse) bei arithmetischem Maßstab:

geometrische Reihe (gleiche relative Zuwachse) bei logarithmischem Maßstab:

/

1 4 01 1 201 008060-

4 0J

1000

2 0i 0 1

2

3

• 5

4

6

7

8 Zeit

Zeit Abb. III-35

Abb. III-36

Linearer Verlauf der Kurve zeigt bei logarithmischem Maßstab relativ gleiche Zuwächse an. Die Darstellung mit logarithmischem Maßstab eignet sich vor allem dann, wenn die Entwicklung von Sachverhalten verglichen werden soll, die stark unterschiedliche Werte-Niveaus ausweisen. Beispiel: Entwicklung der Gold- und Silber-Preise (der Preis für Gold liegt erheblich höher als der Preis für Silber), oder der Dalmler-Benz-Aktie und der AEG-Aktie. Gleiche absolute Zuwächse sagen dann wenig aus. Für solche Vergleiche ist der logarithmische Maßstab bestens geeignet. Nicht geeignet ist der logarithmische Maßstab - obwohl er dafür in der Praxis gern irrtümlich angewendet wird - um einen größeren Wertebereich besser darstellen zu können. Beispiel: Werte:

1

50

100

500

50000

1000

5000

10000

50000

100000

40000

10000

30000

1 000

20000 1 0000 0 1

2

3

4

Abb. III-37

5

6

7

8 Abb. III-38

Bei arithmetischem Maßstab lassen sich die ersten fünf Werte praktisch nicht darstellen, da sie in Relation zu den späteren Werten winzig klein sind. Anders bei logarithmischer Darstellung. Da anfangs die relativen Zuwächse sehr groß sind, sind auch die ersten Werte gut sichtbar. Die logarithmische Darstellung ist hier nicht schlechthin falsch, sie sagt nur etwas anderes aus, als wahrscheinlich gewollt ist.

e)

Kreis-Diagramm

Das Kreis-Diagramm eignet sich besonders für die Darstellung der Struktur einer Masse (d. h. ihrer Aufgliederung in Teil-Massen) und für den eindimensionalen Struktur-Vergleich verschiedener Massen, am besten für den Vergleich zweier oder weniger Massen. Für den Struktur-Vergleich einer größeren Anzahl von Massen eignet sich das Säu/en-Diagramm (mit gleich hohen Säulen) besser.

47

Kapitel III Darstellung der Ergebnisse

Beispiel (vgl. Tabelle 111-2): Darstellung einer Strukturer

19x0): 19x0

grau

schwarz

mittel

Abb. III-39 Man setzt die Gesamt-Masse gleich 100 %: 360

100 %

3,6°

1 %

x ' 3,6°

x % z. B.

50 %

180°

25 %

90°

Auch die Darstellung als Halbkreis ist möglich und wird wegen der Platzersparnis häufig verwendet: 100 %

=

1 %

=

x %

180° 1,8° x * 1,8

z. B. 50 %

90°

25 %

45°

Obwohl es sich beim Kreis-Diagramm grundsätzlich um ein Flächen-Diagramm (also eine zweidimensionale Darstellung) handelt, eignet es sich bestens für einen e/ndimensionalen Vergleich. Indem beide Kreise gleich groß gewählt werden, kommt es nur noch auf eine Dimension - den Winkel - an:

Abb. III-40 Das Kreis-Diagramm wird häufig auch für den Größen-Vergleich verwendet, obwohl es dafür nicht besonders gut geeignet ist. Es handelt sich dabei dann um einen zweidimensionalen Vergleich, weil nicht nur der Winkel, sondern auch der Radius zu berücksichtigen ist. Die Größenverhältnisse werden dann häufig auch falsch dargestellt. Es darf nicht der Radius des Kreises proportional der darzustellenden Größe gewählt werden, sondern es muß die Fläche der Größe proportional sein.

Kapitel III Darstellung der Ergebnisse

48

Beispiel: Es soll das Größenverhältnis von A und B durch entsprechend große Kreise dargestellt werden. A = 400 B = 200 Wie groß muß der Kreis für Bsein, wenn der Kreis für A vorgegeben ist? Man wählt für den A-Kreis einen beliebigen Radius, z. B. 2 cm und setzt die Fläche dieses Kreises = 100 %. Die Fläche (nicht der Radius!) des B-Kreises muß dann 50 % der Fläche des A-Kreises betragen. Fläche des A-Kreises:

F

A = *

f2

r = 2 cm, * = 3,141

= 3,141 * 2 2 = 12,564 Fläche des B-Kreises:

50 % von 12,564 = 6,282 F B = ji r 2 = 6,282 6,282

2 f

=

=

6,282 3,141 =

2

r = V2 = 1,414 Der Radius des B-Kreises muß 1,414 cm gewählt werden, damit die Fläche des B-Kreises halb so groß ist wie die des A-Kreises: richtige Darstellung:

Abb. III-42 falsch wäre:

Abb. III-43 Das Kreis-Diagramm wird besonders gern für kombinierte Größen- und Struktur-Vergleiche verwendet. Davon ist jedoch dringend abzuraten. Eine sichere Beurteilung der Größenverhältnisse kann nicht erwartet werden. Erfreulicherweise ist es mit den gängigen ComputerProgrammen ziemlich mühsam, solche kombinierten Größen- und Struktur-Vergleiche darzustellen, so daß für die Zukunft ein Rückgang ihrer Verwendung erwartet werden kann.

49

f)

Kapitel III Darstellung der Ergebnisse

Summen-Kurve

und

Lorenz-Kurve

Bei quantitativen Merkmalen ist die Bildung kumulativer Größenklassen (siehe II B 3 b4.4) möglich. Die grafische Darstellung solcher kumulativer Größenklassen ergibt entweder eine Summen-Kurve oder eine Lorenz-Kurve. f 1) S u m m e n - K u r v e ®

Die Summen-Kurve ist die grafische Darstellung der kumulativen Größenklassen eines quantitativen Merkmals.

Beispiel (aus Tabelle ll-23a): Größenklasse absolute Häufigkeit in Mio DM aufwärts abwärts «i kumuliert kumuliert *i 4 5 5 7 7 28

100 bis < 120 120 bis < 150 150 bis < 200 200 bis < 300 300 bis < 600 s Tabelle 111-11

4 9 14 21 28

28 24 19 14 7

-

Prozentwert ' ¡ / N * 100 14,2 17,9 17,9 25,0 25,0 100,0

kumuliert 14,2 32,1 50,0 75,0 100,0 -

Die Summen-Kurve kann "aufwärts kumuliert" oder "abwärts kumuliert" dargestellt werden. 30 • 30 25

t

Summen-Kurve # aufwärts k u m u l i e r t /

/

25

\

Summen-Kurve abwärts kumuliert

20

20 Anzahl 1 5 10 5 0 1 00

yl

Anzahl 1 5

y

10 5

150 Umsatz

300

100

150 300 Umsatz

Abb. III-44 Abb. III-45 Die "aufwärts kumulierte" Summen-Kurve sagt z.B. aus: 14 Agenturen haben einen Umsatz "bis unter" 200 Mio DM Umsatz. Die "abwärts kumulierte" Summen-Kurve sagt z. B. aus: 14 Agenturen haben einen Umsatz von "mindestens" 200 Mio DM . Will man verschiedene Massen vergleichen, so ist ein Vergleich der Summen-Kurven der absoluten Werte wenig aussagefähig, da die Werte-Niveaus sehr unterschiedlich sein können. Für Vergleiche empfiehlt sich daher die Darstellung der kumulierten Häufigkeiten in Prozentwerten, da dann trotz unterschiedlicher Werte-Niveaus der gleiche Maßstab verwendet werden kann. Die Gestalt der Summen-Kurve ändert sich dadurch nicht, nur der Ordinalen- Maßstab verschiebt sich:

50

Kapitel III Darstellung der Ergebnisse

Summen-Kurve a u f w ä r t s kumuliert in %

150 Umsatz

300

Abb. III-46 Das Achsenkreuz für die Summen-Kurve sieht also aus: entweder so:

oder so:

%

fi

XI

XI

Abb. III-47

Abb. IM—48

Die Gestalt der Summen-Kurve hängt ab von der zugrundeliegenden Verteilung. Die Abhängigkeit läßt sich erkennen, wenn man die Summen-Kurven verschiedener Verteilungen vergleicht. Kommen alle Merkmalsausprägungen gleich häufig vor ("Gleichverteilunif), dann verläuft die Summenkurve als Gerade. Man nennt sie deshalb "Gleichverteilungs-Gerade". Summen-Kurve bei Gleichverteilung

f i

xi Abb. III-49

• /

51

Kapitel III Darstellung der Ergebnisse

Bei eingipflig-symmetrlscher Verteilung hat die Summen-Kurve eine S-förmige Gestalt, und zwar ist die S-Form um so stärker ausgeprägt, je steiler der Gipfel der Verteilung ausgeprägt ist: 1 00 80 60 40

Abb. III-50

Abb. 111-51

Dabei dient die Gleichverteilungsgerade als Maßstab: 100

i\GleichverteilungsTàerade

Abb. III-52 f2)

Lorenz-Kurve ( =

Konzentratlons-Kurve)

®

Wie die Summen-Kurve, dient auch die Lorenz-Kurve der Darstellung kumulativer Größenklassen. Bei oberflächlicher Betrachtung besteht auch durchaus Verwechslungsgefahr. ®

Während aber die Summen-Kurve der Darstellung einer Verteilung dient, werden durch die Lorenz-Kurve zwei Verteilungen in einer Kurve dargestellt! Die Lorenz-Kurve sei am Beispiel der Werbeagenturen (Tabellen 11-21 und II-22) dargestellt. Größenklassen

Umsatz in Mio DM % % kum. 100-