218 19 34MB
German Pages 273 [280] Year 2009
Statistiken verstehen und richtig präsentieren von
Prof. Dr.Thomas Sauerbier
Oldenbourg Verlag München
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2009 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Lektorat: Wirtschafts- und Sozialwissenschaften, [email protected] Herstellung: Anna Grosser Coverentwurf: Kochan & Partner, München Coverbild: www.sxc.hu Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Kösel, Krugzell ISBN 978-3-486-59060-9
Vorwort Dieses Buch gibt umfassende Antworten auf zwei wesentliche Fragen: •
Wie liest man eine Statistik?
•
Wie präsentiert man selbst eine Statistik?
Aber warum braucht es dazu ein weiteres Buch, wo es doch allein im deutschsprachigen Raum einige hundert Statistikbücher gibt? Der Grund liegt darin, dass die allermeisten dieser Bücher dazu dienen, Studierenden beim Bestehen einer Statistikklausur zu helfen - sei es als Lehrbuch oder Aufgabensammlung. Die übrigen Statistikbücher sind meist Nachschlagewerke oder behandeln Spezialthemen fur fortgeschrittene Statistiker. Das Lesen oder das Darstellen von Statistiken in Form von Grafiken o.ä. kommt dort - wie auch in den entsprechenden Vorlesungen - bestenfalls am Rande vor. Aber auch Bücher zum Thema Präsentationstechnik bieten hier keinen Ersatz. Sofern dort überhaupt statistische Darstellungen angesprochen werden, beschränkt sich dies eher auf Fragen der Optik. Und wenn tatsächlich Diagramme & Co ausfuhrlicher thematisiert werden, muss man in der Regel leider erkennen, dass die Autoren als Grafiker oder „Visual Communications Director" von der Statistik selbst offensichtlich meist nur wenig verstehen oder berücksichtigen. Was man braucht, ist ein Buch, das ohne großen Ballast - aber trotzdem statistisch exakt - erläutert, wie man Daten versteht bzw. Statistiken liest und daraus sachlich richtige und optisch ansprechende Darstellungen macht. Diese Lücke will das vorliegende Buch schließen. Auf leicht verständliche Art wird es damit auch Einsteigern ermöglicht, inhaltlich korrekte und professionell wirkende Präsentationen zu realisieren und dabei häufig zu beobachtende Fehler zu vermeiden. Aber auch Personen mit umfangreicheren Statistik-Kenntnissen bietet dieses Buch viel Neues und Hilfreiches für noch bessere Ergebnisse. Zudem enthält es zahlreiche Tipps zur Realisierung mit Excel, die man sonst kaum findet. Das Buch richtet sich damit an alle, die präsentieren oder veröffentlichen müssen: von Studierenden beim Seminarvortrag über Praktiker bei einer Projekt- oder Kundenpräsentation bis hin zu Journalisten oder Wissenschaftlern bei einer professionellen Veröffentlichung.
VI
Vorwort
Danken möchte ich an dieser Stelle meinem Freund und Kollegen Prof. Dr. Harald Ritz, meinem Vater Josef Sauerbier und meiner Frau Birgit Sauerbier fur das Korrekturlesen des Manuskripts. Auf Seiten des Oldenbourg Verlages danke ich Herrn Dr. Jürgen Schechler für die angenehme und unkomplizierte Zusammenarbeit sowie Frau Cornelia Horn für ihre Unterstützung in drucktechnischen Details. Thomas Sauerbier
Inhaltsverzeichnis Abbildungsverzeichnis
XIII
Tabellenverzeichnis
XIX
1
Einleitung
1
1.1
Grundsätzliches
1
1.2
Zu diesem Buch
3
1.3
Kapitelübersicht
4
1.4
Hinweise für Excel-Nutzer
6
2
Ausgewählte Grundlagen der Statistik
9
2.1
Merkmale und Merkmalsausprägungen
9
2.2
Skalenarten
11
2.3
Diskrete und stetige Merkmale
14
2.4
Ein- und mehrdimensionale Verteilungen
15
2.5
Bestände und Ereignisse
16
3
Grundlagen der Darstellung
19
3.1 3.1.1 3.1.2 3.1.3
Zahlenangaben Formatierung von Zahlen Zahlwörter und Einheiten Genauigkeit von Zahlenangaben
19 19 21 22
3.2 3.2.1 3.2.2
Tabellen Grundlagen Praktische Gestaltung
24 24 28
Inhaltsverzeichnis
VIII 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 3.3.7
Säulen-Diagramm & Co für eindimensionale Verteilungen Einführung Säulen-Diagramm Balken-Diagramm Pareto-Diagramm Piktogramm-Menge Stab-Diagramm Histogramm
33 33 34 40 42 44 46 49
3.4 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 3.4.6
Kreis-Diagramm & Co Einführung Kreis-Diagramm Ring-Diagramm Halbring-Diagramm Stapelsäule Zweistufiges Kreis-Diagramm
53 53 53 57 58 60 62
3.5 3.5.1 3.5.2 3.5.3 3.5.4
Linien-Diagramm & Co Einführung Linien-Diagramm Flächen-Diagramm Häufigkeits-Polygon
63 63 64 67 69
3.6 3.6.1 3.6.2 3.6.3 3.6.4 3.6.5 3.6.6 3.6.7
Säulen-Diagramm & Co für zweidimensionale Verteilungen Einführung Gruppensäulen-Diagramm Gruppenbalken-Diagramm Stapelsäulen-Diagramm Stapelbalken-Diagramm 3D-Säulen-Feld Paarbalken-Diagramm
71 71 72 76 77 81 82 84
3.7 3.7.1 3.7.2 3.7.3
Streu-Diagramm & Co Einführung Streu-Diagramm Blasen-Diagramm
87 87 87 93
3.8 3.8.1 3.8.2 3.8.3 3.8.4
Details der grafischen Darstellung Titel, Quellenangabe & Co Größen-Achse (Y-Achse) Merkmals-Achse (X-Achse) und Legende Gebrauch von Farben
96 96 98 105 106
Inhaltsverzeichnis
IX
3.8.5 3.8.6 3.8.7
3 D-Darstellungen Beschriftungen Verschiedenes
109 113 114
4
Welches Diagramm für welche Art von Aussage?
117
4.1
Allgemeines
117
4.2
Struktur
117
4.3
Einzelwerte
119
4.4
Rangfolge
120
4.5
Zeitliche Entwicklung
121
4.6
Zusammenhang von Merkmalen
121
4.7
Vergleich von Verteilungen
122
5
Eindimensionale Verteilungen
123
5.1
Allgemeines
123
5.2 5.2.1 5.2.2 5.2.3 5.2.4
Nominale Merkmale Merkmalsausprägungen Gruppierung Anordnung der Merkmalsausprägungen Darstellung
123 123 125 127 128
5.3 5.3.1 5.3.2
Ordinale Merkmale Merkmalsausprägungen Darstellung
132 132 134
5.4 5.4.1 5.4.2
Metrische Merkmale Merkmalsausprägungen und Klassenbildung Darstellung
136 136 141
6
Zweidimensionale Verteilungen
147
6.1
Allgemeines
147
6.2
Nominale Merkmale
147
6.3
Ordinale Merkmale
151
6.4
Metrische Merkmale
152
6.5
Gemischte Merkmalsskalen
157
χ
Inhaltsverzeichnis
7
Zeitreihen
161
7.1
Grundlagen
161
7.2
Besonderheiten der Zeitachse
165
7.3
Glätten von Zeitreihen
170
7.4
Gleichzeitige Darstellung mehrerer Zeitreihen
177
7.5
Normierte Zeitreihen
186
7.6
Absolute Größen vs. Wachstumsraten
191
Κ
Prozentwerte
199
8.1
Grundlagen
199
8.2
Anteile und Quoten
200
8.3
Prozent - aber wovon?
201
8.4
Prozentuale Unterschiede und Veränderungen
203
8.5
Prozente und Prozentpunkte
206
8.6
Prozentwerte und absolute Größen
207
8.7
Prozentwerte in Stichproben
210
9
Durchschnitt & Co
213
9.1
Einfuhrung
213
9.2 9.2.1 9.2.2
Häufigster Wert (Modus, Modalwert) Grundlagen Berechnung
214 214 216
9.3 9.3.1 9.3.2
Zentralwert (Median) Grundlagen Berechnung
217 217 220
9.4
Übersicht zu den Mittelwerten
222
9.5 9.5.1 9.5.2
Arithmetisches Mittel Grundlagen Berechnung
223 223 224
9.6 9.6.1 9.6.2
Geometrisches Mittel Grundlagen Berechnung
226 226 226
Inhaltsverzeichnis
XI
9.7 9.7.1 9.7.2
Harmonisches Mittel Grundlagen Berechnung
229 229 231
9.8
Zusammenfassung zu den Mittelwerten
234
10
Streuung
235
10.1
Grundlagen
235
10.2
Darstellung
237
11
Besonderheiten bei Stichproben
243
11.1
Einführung
243
11.2
Genauigkeit von Schätzwerten
244
Literaturhinweise
249
Stichwortverzeichnis
251
Abbildungsverzeichnis Abb. 1-1:
Der Weg zum optimalen Diagramm
2
Abb. 2-1:
Vermischen zweier Merkmale
9
Abb. 2-2:
Übersicht zu den Skalenarten
13
Abb. 3-1:
Grundstruktur einer Tabelle
26
Abb. 3-2:
Kopf der Vorspalte bzw. Vorspalte zum Kopf des Tabellenfeldes... 27
Abb. 3-3:
Tabellenkopf mit dreistufiger Gliederung der Spaltenköpfe
28
Abb. 3-4:
Vorspalte zur ausländischen Bevölkerung in Deutschland
30
Abb. 3-5:
Säulen-Diagramm
34
Abb. 3-6:
Säulen-Diagramm mit negativen Werten
37
Abb. 3-7:
Säulen-Diagramm mit Zeitreihe
38
Abb. 3-8:
Säulen-Diagramm 3D
39
Abb. 3-9:
Balken-Diagramm
40
Abb. 3-10:
Pareto-Diagramm
43
Abb. 3-11:
Piktogramm-Menge (nur ganze Symbole)
44
Abb. 3-12:
Piktogramm-Menge (inkl. Teilsymbole)
45
Abb. 3-13:
Stab-Diagramm
46
Abb. 3-14:
Histogramm (vereinfachte Version!)
49
Abb. 3-15:
Echtes Histogramm (u.a. mit unterschiedlichen Klassenbreiten)
51
Abb. 3-16:
Kreis-Diagramm
54
Abb. 3-17:
Kreis-Diagramm mit herausgezogenem Segment
56
Abb. 3-18:
Ring-Diagramm
57
Abb. 3-19:
Halbring-Diagramm
59
Abb. 3-20:
Stapelsäule
61
Abb. 3-21:
Kombination: Kreis-Diagramm und Stapelsäule
62
Abb. 3-22:
Linien-Diagramm
64
XIV
Abbildungsverzeichnis
Abb. 3-23:
Linien-Diagramm mit senkrechten Gitternetzlinien
65
Abb. 3-24:
Linien-Diagramm mit zwei Zeitreihen
66
Abb. 3-25:
Flächen-Diagramm
67
Abb. 3-26:
Flächen-Diagramm mit zwei Zeitreihen
68
Abb. 3-27:
Häufigkeits-Polygon mit unterlegtem Histogramm
70
Abb. 3-28:
Gruppensäulen-Diagramm
72
Abb. 3-29:
Gruppensäulen-Diagramm - Merkmal 1 und 2 getauscht
73
Abb. 3-30:
Gruppensäulen-Diagramm mit überlappenden Säulen
74
Abb. 3-31:
Gruppensäulen-Diagramm mit zwei Zeiträumen als Merkmal 2
75
Abb. 3-32:
Gruppenbalken-Diagramm
77
Abb. 3-33:
Stapelsäulen-Diagramm
78
Abb. 3-34:
Normiertes Stapelsäulen-Diagramm
79
Abb. 3-35:
Stapelbalken-Diagramm
81
Abb. 3-36:
3D-Säulen-Feld
82
Abb. 3-37:
Paarbalken-Diagramm
84
Abb. 3-38:
Streu-Diagramm für die Punkteverteilung zweier Klausuren
87
Abb. 3-39:
Streu-Diagramm für die Notenverteilung zweier Klausuren
89
Abb. 3-40:
Streu-Diagramm mit linearer Regressionsfunktion
90
Abb. 3-41:
Streu-Diagramm mit logarithmischer Regressionsfunktion
90
Abb. 3-42:
Streu-Diagramm mit drittem Merkmal
91
Abb. 3-43:
Blasen-Diagramm für klassierte Merkmale
94
Abb. 3-44:
Blasen-Diagramm fur ein Produkt-Portfolio
95
Abb. 3-45:
Säulen-Diagramm mit Größen-Achse und Gitternetzlinien
100
Abb. 3-46:
Säulen-Diagramm mit Wertangaben an den einzelnen Säulen
100
Abb. 3-47:
Säulen-Diagramm mit Nullpunkt an der Größen-Achse
101
Abb. 3-48:
Säulen-Diagramm ohne Nullpunkt an der Größen-Achse
101
Abb. 3-49:
Zeitreihe mit dargestelltem Nullpunkt der Größen-Achse
102
Abb. 3-50:
Zeitreihe ohne dargestellten Nullpunkt der Größen-Achse
102
Abb. 3-51:
Pareto-Diagramm mit verkürzter Größen-Achse
103
Abb. 3-52:
Hervorheben durch Farbe beim Pareto-Diagramm
107
Abb. 3-53:
Kreis-Diagramm mit Schraffuren
109
Abb. 3-54:
Säulen-Diagramm 3D (Säulen freistehend)
110
Abbildungsverzeichnis
XV
Abb. 3-55:
Säulen-Diagramm 3D (Säulen am hinteren Rand)
110
Abb. 3-56:
3D-Linien-Diagramm
111
Abb. 3-57:
3D-Linien-Diagramm - andere Perspektive
111
Abb. 3-58:
Kreis-Diagramm in 3D
112
Abb. 3-59:
Größenverhältnisse bei 1D-, 2D- und 3D-Darstellungen
112
Abb. 3-60:
Automatisch erzeugter grauer Hintergrund
114
Abb. 3-61:
Manuell auf Weiß geänderter Hintergrund
115
Abb. 5-1:
Säulen-Diagramm mit Stimmanteilen
130
Abb. 5-2:
Säulen-Diagramm mit der Veränderung der Stimmanteile
130
Abb. 5-3:
Ring-Diagramm mit Sitzverteilung
131
Abb. 5-4:
Kreis-Diagramm mit 112 %
132
Abb. 5-5:
Gruppensäulen-Diagramm mit kumulierten Anteilen
136
Abb. 5-6:
Säulen-Diagramm für die Haushaltsgröße
143
Abb. 5-7:
Histogramm für die Altersverteilung in Deutschland
144
Abb. 5-8:
Ring-Diagramm fur die Betriebsgröße in der Landwirtschaft
146
Abb. 6-1:
Gruppensäulen-Diagramm mit Schulart und Geschlecht
149
Abb. 6-2:
Stapelsäulen-Diagramm mit Schulart und Geschlecht
150
Abb. 6-3:
Stapelsäulen-Diagramm in normierter Form
151
Abb. 6-4:
Streu-Diagramm fur Körpergröße und Gewicht
153
Abb. 6-5:
Blasen-Diagramm fur Körpergröße und Gewicht
155
Abb. 6-6:
Stapelsäulen-Diagramm fur Körpergröße und Gewicht
155
Abb. 6-7:
3D-Säulen-Feld für Körpergröße und Gewicht
156
Abb. 6-8:
Normiertes Stapelsäulen-Diagramm mit metrischem Merkmal
158
Abb. 6-9:
Paarbalken-Diagramm (Paar-Histogramm) mit Alterspyramide.... 159
Abb. 6-10:
Gruppensäulen-Diagramm fur drei metrische Verteilungen
160
Abb. 7-1:
Säulen-Diagramm für Zeitreihe
162
Abb. 7-2:
Linien-Diagramm fur Zeitreihe
162
Abb. 7-3:
Flächen-Diagramm fur Zeitreihe
163
Abb. 7-4:
Arbeitslosenzahlen - Jahreswerte
166
Abb. 7-5:
Arbeitslosenzahlen - Monatswerte
166
Abb. 7-6:
Säulen-Diagramm mit linearer Zeitachse
167
Abb. 7-7:
Säulen-Diagramm mit verstecktem Bruch in der Zeitachse
168
XVI
Abbildungsverzeichnis
Abb. 7-8:
Korrektes Hervorheben des Bruchs in der Zeitachse
168
Abb. 7-9:
Fehlerhaftes Abknicken der Zeitreihe am Ende
169
Abb. 7-10:
Arbeitslosenzahlen (Monatswerte)
172
Abb. 7-11:
Glättung mit (zentriertem) 3-Monats-Durchschnitt
174
Abb. 7-12:
Glättung mit (zentriertem) 12-Monats-Durchschnitt
174
Abb. 7-13:
Glättung mit nicht-zentriertem 12-Monats-Durchschnitt
176
Abb. 7-14:
Zeitreihe mit linearer Trendlinie
177
Abb. 7-15:
Linien-Diagramm mit zwei Zeitreihen
178
Abb. 7-16:
Darstellen von Zeitreihen mit unterschiedlicher Strichart
178
Abb. 7-17:
Flächen-Diagramm mit zwei Zeitreihen
180
Abb. 7-18:
Flächen-Diagramm: Gestapelte Darstellung oder nicht?
180
Abb. 7-19:
3D-Flächen-Diagramm mit zwei Zeitreihen
181
Abb. 7-20:
Stapelsäulen-Diagramm mit Zeitreihen
182
Abb. 7-21:
Normiertes Stapelsäulen-Diagramm mit Zeitreihen
182
Abb. 7-22:
Gruppensäulen-Diagramm mit Zeitreihen
183
Abb. 7-23:
Linien-Diagramm mit zwei unterschiedlichen Y-Achsen
184
Abb. 7-24:
Zwei Linien-Diagramme übereinander
185
Abb. 7-25:
Vergleich der Kursentwicklung in Euro/Aktie
186
Abb. 7-26:
Vergleich der Kursentwicklung in normierter Darstellung
187
Abb. 7-27:
Relative oder absolute Entwicklung der Einkommen?
188
Abb. 7-28:
Absolute Entwicklung der Umsätze zweier Unternehmen
189
Abb. 7-29:
Verzerrte Aussage durch normierte Darstellung
190
Abb. 7-30:
Relativer Wertzuwachs eines Bundesschatzbriefs
192
Abb. 7-31:
Jährliche Zinssätze eines Bundesschatzbriefs
193
Abb. 7-32:
Darstellung suggeriert konstante Wachstumsraten
193
Abb. 7-33:
Darstellung zeigt sinkende Wachstumsraten
194
Abb. 7-34:
Neubaupreise wirklich im Keller?
195
Abb. 7-35:
Absolute Werte entlarven Fehlinterpretation
195
Abb. 7-36:
Untertitel steht in deutlichem Widerspruch zu den Daten
196
Abb. 8-1:
Individuelle regionale Anteile sind keine Marktanteile!
208
Abb. 9-1:
Arithmetisches Mittel einer Häufigkeitsverteilung in Excel
225
Abb. 9-2:
Geometrisches Mittel einer Häufigkeitsverteilung in Excel
228
Abbildungsverzeichnis
XVII
Abb. 9-3:
Harmonisches Mittel einer Häufigkeitsverteilung in Excel
233
Abb. 10-1:
Linien-Diagramm mit Minimum und Maximum
238
Abb. 10-2:
Box-Plot
238
Abb. 10-3:
Schwebebalken-Diagramm als rudimentäres Box-Plot-Diagramm 240
Abb. 10-4:
15-Tage-Trend mit Flächen-Diagramm
241
Tabellenverzeichnis Tab. 3-1:
Tabelle mit eindimensionaler Verteilung
31
Tab. 3-2:
Tabelle mit zweidimensionaler Verteilung
32
Tab. 5-1:
Wahlergebnis
128
Tab. 5-2:
Ergebnis 1. Juristisches Staatsexamen
135
Tab. 5-3:
Eignung der Diagrammarten für metrische Merkmale
142
Tab. 5-4:
Privathaushalte nach der Personenzahl
143
Tab. 5-5:
Bevölkerung nach dem Alter
144
Tab. 5-6:
Landwirtschaftliche Betriebe nach Betriebsgröße
145
Tab. 6-1:
Schüler/-innen nach Schularten und Geschlecht
148
Tab. 6-2:
Personen nach Körpergröße und Gewicht
154
Tab. 6-3:
Gehalt in der IT-Beratung
158
Tab. 7-1:
Allgemeine Zeitreihe
161
Tab. 7-2:
Arbeitslosenzahlen inkl. Glättung
175
Tab. 8-1:
Individuelle Umsatzanteile zweier Unternehmen
208
Tab. 11-1:
Hilfstabelle für das Ermitteln des Schätzfehlers
247
1
Einleitung
1.1
Grundsätzliches
In Büchern zum Thema Präsentationstechnik findet man zum Teil Aussagen wie diese: „Die richtige Wahl der Schaubildform hängt auf Gedeih und Verderb davon ab, daß Sie sich über Ihre spezielle Aussage klar sind. Nicht die Daten ... bestimmen die Form Ihres Schaubildes ... Worauf es ankommt, ist allein Ihre Aussage, der Aspekt, den Sie zeigen und hervorheben wollen."' Wer solche Aussagen macht, setzt sich dem Vorwurf aus, ohne Rücksicht auf die Daten und die darin enthaltenen Informationen - oder im Extremfall sogar im Widerspruch zu diesen! - in seinen Präsentationen oder Veröffentlichungen Statistiken zurecht zu biegen und den Leser zu manipulieren, getreu dem bekannten Motto: „Mit Statistiken kann man alles beweisen, auch das Gegenteil." 2 Natürlich muss man sich bei Präsentationen oder Veröffentlichungen an dem orientieren, was man aussagen will. Den Rahmen dazu und die formalen Voraussetzungen bestimmen jedoch die Daten und ihre statistischen Eigenschaften. Es ist deshalb unbedingt Krämer zuzustimmen, wenn dieser betont: „Am wichtigsten für die Wahl der Grafik sind jedoch die Daten selbst." 3 Wer dies übersieht, zeigt, dass er mit statistischen Daten nicht umgehen kann. Und da immer mehr Leser einer Statistik z.B. im Studium statistische Grundlagen erworben haben, fallen Ersteller von Statistiken, die solche Kenntnisse nicht besitzen oder nicht berücksichtigen, schnell negativ auf. Grundsätzlich sollte man auf dem Weg von den Daten zu einem Diagramm, einer Tabelle o.ä. so vorgehen: !
Zunächst sind die Daten möglichst gründlich zu analysieren. Dabei muss feststellt werden, welche Informationen sie wirklich enthalten. Das gilt auch - oder
Zelazny, „Wie aus Zahlen Bilder w e r d e n " , 5. Aufl., 2002, S. 21. J a m e s Callaghan, früherer britischer Premierminister. Krämer. „ S o überzeugt man mit Statistik", 1994, S. 13.
2
1 Einleitung gerade - dann, wenn sie nicht die Aussagen erlauben, die man gerne machen würde.
2
Aus den gewonnenen Informationen wird der Teil festgelegt, den man präsentieren will.
:
Die Daten, die diesen Informationen zugrunde liegen, bestimmen, welche Darstellungsformen oder Kennzahlen (z.B. Durchschnitt) möglich sind. Von den möglichen Varianten werden dann diejenigen ausgewählt, die für die konkrete Zielsetzung bzw. gewünschte Aussage am besten geeignet sind.
4.
Bei der praktischen Realisierung von Diagrammen usw. sind die jeweiligen Regeln zu beachten. Sowohl bewusstes als auch versehentliches Abweichen von den zwingenden Vorgaben führt zu formal oder gar inhaltlich falschen Darstellungen. Man sollte unbedingt auch der Versuchung widerstehen, Daten in manipulativer Weise wiederzugeben. Solche Versuche werden von kundigen Betrachtern oft leicht erkannt und verursachen einen enormen Vertrauensverlust sei es in die Fähigkeiten oder in die Redlichkeit des Erstellers.
Abb. 1-1:
Der Weg zum optimalen Diagramm
1.2 Zu diesem Buch
3
Eine andere Sichtweise auf dieselbe Grundproblematik - konkret fur die Verwendung von Diagrammen - verdeutlicht Abb. 1-1. Es nützt nichts, z.B. von Excel mehrere Dutzend Diagrammvarianten angeboten zu bekommen. Zunächst muss man wissen, welche davon überhaupt für die betreffenden Daten infrage kommen. Im nächsten Schritt sollte man davon diejenigen in die engere Wahl nehmen, mit denen der verfolgte Zweck bzw. die gewünschte Aussage am besten realisiert werden kann. Anschließend muss man - u.a. mit Kenntnis der formalen Regeln - das konkrete Diagramm so gestalten, dass es inhaltlich korrekt, formal sauber und optisch ansprechend ist.
1.2
Zu diesem Buch
In diesem Buch wird das Wissen vermittelt, Daten richtig zu verstehen und inhaltlich sowie formal korrekt und möglichst optimal zu präsentieren. Ein wichtiger Zusatzaspekt besteht darin, dass man damit zugleich auch fremde Statistiken mit ganz anderen Augen sieht. Man versteht sie mit den hier vermittelten Kenntnissen besser und erkennt insbesondere Fehler oder Manipulationsversuche wesentlich leichter. Um den Rahmen dieses Buches nicht zu sprengen, beschränken sich die Ausführungen auf die besonders wichtige Kategorie der sogenannten Präsentationsgrafik. Spezielle Formen, wie sie z.B. in der Kern-Statistik oder bei der Analyse von Börsenkursen eingesetzt werden, sind deshalb nicht Thema dieses Buches. Auch Randthemen, die eher schon den Übergang zum Bereich der „Infografiken" überschreiten, wie Kartogramme oder Organigramme, werden hier nicht behandelt. Dafür wird der Kern der Präsentationsgrafik mit Säulen-, Balken-, Kreis-, Linen- und StreuDiagramm sowie deren Variationen bis ins Detail und mit vielen Beispielen dargestellt. Um die Ausführungen einerseits zu verdeutlichen und andererseits ein wenig aufzulockern, werden auch Negativbeispiele vorgestellt, die vor allem in Zeitungen und Zeitschriften erschienen sind. Dort finden sich sowohl typische Fehler, die wohl der Unkenntnis des Autors zuzuschreiben sind, als auch offensichtliche Manipulationsversuche. Da es hier nicht darum geht, einzelne Autoren oder Medien bloßzustellen, wurden diese Beispiele in anonymer, z.T. zur Verdeutlichung auch etwas abgewandelter Form neu erstellt. Trotzdem handelt es sich um authentische Belege für Statistiken, wie sie einem täglich begegnen und - ob man das will oder nicht - die eigene Mei-
1 Einleitung
4
nung beeinflussen. Mit dem Wissen dieses Buches ist man dem zumindest nicht mehr völlig schutzlos ausgesetzt. An vielen Stellen im Buch werden zu den einzelnen Darstellungsvarianten konkrete Vorschläge gemacht oder Alternativen in wertender Form verglichen. Hierzu ist zu sagen, dass es meist keine wirklich verbindlichen Regeln gibt. Zu einigen Punkten existieren zwar DIN-Normen, ironischerweise werden diese aber z.T. selbst bei der Formulierung anderer DIN-Normen nicht immer befolgt. Die Vorschläge und Vorgaben in diesem Buch basieren deshalb auf verschiedenen Grundlagen. Neben den teilweise vorhandenen DIN-Normen werden insbesondere Veröffentlichungen der Profis des Statistischen Bundesamtes als Richtschnur angesehen. Daneben wird - vor allem für die statistischen Grundlagen - selbstverständlich die in der statistischen Literatur vertretene Linie (soweit vorhanden) beachtet. Weiterhin wurden die Standards führender Tageszeitungen und Zeitschriften berücksichtigt. Insgesamt wird hier zwar ein wissenschaftlich fundierter, im Ergebnis aber eher pragmatischer Ansatz verfolgt. Sofern bestimmte Darstellungen - insbesondere aus statistischer Sicht - nicht möglich sind, wird sehr deutlich daraufhingewiesen; ebenso auf Regeln, die man unbedingt einhalten sollte. Darüber hinaus werden aber eher Empfehlungen ausgesprochen und deren Vorteile gegenüber alternativen Varianten erläutert. Mit diesem Wissen sollten die Leser dieses Buches dann in der Lage sein, für einen konkreten Fall selbst eine inhaltlich angemessene, formal korrekte und den Betrachter ansprechende Darstellungsform zu finden. Abschließend noch ein Hinweis zu den abgebildeten Diagrammen: Die Beispiele in diesem Buch dienen oft dazu, grundlegende Eigenschaften bestimmter Diagrammarten oder einzelne, im jeweiligen Abschnitt behandelte Details zu visualisieren und zu verdeutlichen. Um von diesen Punkten nicht abzulenken und den Blick auf das jeweils Wesentliche zu richten, wurden oft sonst notwendige Bestandteile (z.B. Titel, Quellenangabe usw.) weggelassen. Nicht alle Beispiele eignen sich deshalb als direkte Vorlage für eigene Veröffentlichungen, in denen Diagramme und Tabellen natürlich vollständig sein müssen (siehe dazu z.B. Abschnitt 3.8).
1.3
Kapitelübersicht
Bei der Konzeption dieses Buches wurde versucht, zwei entgegengesetzten Leserinteressen Rechnung zu tragen: •
Zum einen soll das Buch Lesern ohne statistische Vorbildung in leicht verständlicher Form alles vermitteln, was an Grundlagen und praktischem Wissen not-
1.3 Kapitelübersicht
•
5
wendig ist, um Daten optimal darzustellen. Dazu soll sich das Buch nach Art eines Lehrbuchs angenehm lesen lassen. Andererseits sollen Leser mit Vorkenntnissen (bzw. Einsteiger nach dem ersten Durchlesen) in der Lage sein, wie bei einem Nachschlagewerk gezielt die Informationen zu finden, die sie bei einer konkreten Problemstellung wirklich benötigen.
Um diese beiden, sich widersprechenden Zielsetzungen möglichst gut zusammenzubringen, wurde für das vorliegende Buch folgender Aufbau gewählt: In Kapitel 2 werden die elementaren statistischen Grundlagen vermittelt, ohne die ein sinnvoller Gebrauch von Diagrammen nicht möglich ist. Leser mit Vorkenntnissen in Statistik sollten dieses Kapitel zumindest überfliegen und prüfen, ob sie die blau hervorgehobenen Begriffe wirklich verstehen. Wenn nicht, empfiehlt sich das Lesen des betreffenden Abschnitts. Der Kern des Buches sind die Kapitel 3 und 4, die sich mit der Darstellung von Zahlen allgemein, Tabellen und vor allem Diagrammen sowie den damit möglichen Aussagen innerhalb einer Präsentation beschäftigen. Diese Teile sollten für alle Leser Pflichtlektüre sein, da erst die umfassende Kenntnis der verschiedenen Diagrammarten mit ihren Voraussetzungen, Vor- und Nachteilen sowie formalen Details eine optimale Auswahl und Gestaltung ermöglicht. Später eignet sich speziell Kapitel 3 dann als Nachschlageteil, der insbesondere über die Gliederung im Inhaltsverzeichnis schnellen Zugriff auf die jeweils benötigten Informationen erlaubt. Unterstützt wird dies auch durch Excel-Tipps und Zusammenfassungen mit den wichtigsten Daten in Kurzform. Während die Kapitel 3 und 4 gewissermaßen den „Werkzeugkoffer", also vor allem die nutzbaren Diagramme, enthalten, behandeln die anschließenden Kapitel 5, 6 und 7 mit ein- und zweidimensionalen Verteilungen sowie Zeitreihen die wichtigsten Arten von Daten sowie ihre optimale Darstellung. Dies trägt der eingangs dieses Buches erhobenen Forderung Rechnung, dass die Daten die möglichen Diagramme bestimmen. Durch zahlreiche konkrete Beispiele wird deutlich, welche der in Kapitel 3 vorgestellten Darstellungsarten - insbesondere also Diagramme - sich für die einzelnen Daten grundsätzlich eignen bzw. im jeweiligen Fall optimal sind. Statistische Daten werden aber nicht nur in Form von Diagrammen oder Tabellen präsentiert. Typisch sind vielmehr auch Kennzahlen wie Prozentwerte und Durchschnitte, die in den Kapiteln 8 und 9 ausfuhrlich behandelt werden. Obwohl sie in Präsentationen und Veröffentlichungen geradezu allgegenwärtig sind, gibt es bei vielen, die sie anwenden, offensichtlich Unkenntnis über ihren Inhalt und ihre korrekte Verwendung. Um den Lesern hier einen fundierten Überblick zu geben, ohne sie mit Formeln zu verschrecken, wurden die speziellen Berechnungen der Durch-
6
1 Einleitung
schnitte in eigene Abschnitte ausgelagert, die man zunächst überschlagen kann und erst bei konkretem Bedarf durcharbeiten muss. Dort finden sich auch detaillierte Tipps, wie man die Berechnungen ohne großen Aufwand mit Excel durchführen kann. Die abschließenden Kapitel 10 und 11 beschäftigen sich mit der Streuung von Daten und der Genauigkeit von Stichproben, die vielen Statistiken zugrunde liegen. Diese Themen runden die Ausführungen zur Präsentation von Daten ab, indem sie einerseits zusätzliche interessante Möglichkeiten der Darstellung aufzeigen und andererseits die Genauigkeit von Statistiken generell hinterfragen. Um den Gebrauch als Nachschlagewerk zu erleichtern, wurden manche zentrale Informationen in mehreren Abschnitten - dann meist aus verschiedenen Blickwinkeln heraus - wiederholt. Diese Redundanz ist gewollt und erleichtert insbesondere dem weniger versierten Leser das Durcharbeiten.
1.4
Hinweise für Excel-Nutzer
Sämtliche Diagramme in diesem Buch wurden mit Hilfe des Tabellenkalkulationsprogramms Excel erstellt. Dies zeigt, dass man keine speziellen Programme benötigt, sondern auch mit einem weitverbreiteten Office-Programm zu sehr guten Ergebnissen kommen kann. 4 Um wirklich professionell wirkende Darstellungen zu erhalten, ist es jedoch immer notwendig, die mit dem Diagramm-Assistenten erzeugten Diagramme nachzuarbeiten. Typische Operationen dazu sind vor allem folgende: •
Verändern von Beschriftungen (z.B. Größe, Position, Ausrichtung)
•
Entfernen einer überflüssigen Legende
•
Verändern der Achsen-Beschriftungen (z.B. Minimum, Maximum, Schrittweite, Zahlenformat)
•
Verändern von Säulen, Linien usw. (z.B. Farben, Dicken, Abstände)
•
Überarbeiten des Diagramm-Hintergrunds (z.B. Farbe auf Weiß ändern, Entfernen von Gitternetzlinien)
•
Ergänzen zusätzlicher Angaben (z.B. Quelle, Ersteller, Werteangaben an Säulen)
Natürlich eignen sich auch das kostenlose OpenOffice und ähnliche Produkte in gleicher Weise.
1.4 Hinweise fur Excel-Nutzer
7
Es kann nicht die Aufgabe dieses Buches sein, die entsprechende Handhabung in Excel zu behandeln, zumal sich diese zwischen den Versionen unterscheidet (insbesondere große Änderungen mit Version 2007). Hier muss auf die einschlägigen Werke verwiesen werden, die im Umfang dieses Buch oft deutlich übersteigen. Sofern jedoch zum Erzeugen der gezeigten Diagramme Operationen notwendig sind, die den Rahmen des Üblichen überschreiten und nur selten in Excel-Büchern zu finden sind, werden sie ausfuhrlich in optisch hervorgehobenen „Excel-Tipps" beschrieben. Das gilt insbesondere fur das Erzeugen von Diagrammarten, die in Excel standardmäßig gar nicht vorhanden sind (z.B. Halbring-Diagramm, Stab-Diagramm und Paarbalken-Diagramm). Auch bei den Bezeichnungen wurde darauf geachtet, dass die in Excel vorkommenden Begriffe und Namen zumindest ergänzend erwähnt werden, wenn sie nicht den in der Fachliteratur üblichen und damit hier verwendeten entsprechen. An den (wenigen) Stellen, die Berechnungen anhand von Formeln behandeln, werden zudem die entsprechenden Excel-Funktionen genannt oder sogar - wenn nicht direkt vorhanden - durch passende Excel-Formeln nachgebildet. Obwohl sich dieses Buch keineswegs als Anleitung für Excel versteht, bietet es also dennoch für Excel-Nutzer einen besonderen Mehrwert und ist damit eine ideale Ergänzung zu den üblichen Excel-Büchern, die sich - wie mein früherer Chef gern zu sagen pflegte - eher mit dem „Griffe-Klopfen", also der reinen Bedienung, innerhalb des Programms beschäftigen. Abschließend noch ein genereller Tipp zur Nutzung von Excel-Diagrammen in Präsentationen, die mit Word oder Powerpoint erstellt werden. Excel-Tipp: Das einfache, übliche Kopieren von Diagrammen mit Copy&Paste in ein Word- oder Powerpoint-Dokument hat mehrere Nachteile. Zum einen wird jeweils faktisch die gesamte Excel-Datei mitkopiert (und kann aus dem Word-Dokument problemlos durch einfaches Anklicken wiedergewonnen werden). Zum anderen haben solche Diagramme die unangenehme Eigenschaft. beim Skalieren ein Eigenleben zu entwickeln und z.B. die Ausrichtung und Größe von Schriften usw. einfach zu verändern. Um diese Effekte zu vermeiden, könnte man eine Hardcopy (also eine PixelGrafik) erzeugen (in Windows Vista ist dazu z.B. das „Snipping Tool" enthalten). Die Qualität ist jedoch durch Unscharfen und Pixel-Treppen (speziell beim Vergrößern) eingeschränkt. Die beste Lösung besteht in der Regel darin, das Excel-Diagramm als Bild (d.h. als Vektor-Grafik) zu kopieren. Diese Funktion ist in Excel allerdings
8
1 Einleitung recht gut versteckt. Z u m A u f r u f e n ist das D i a g r a m m anzuklicken und mit gedrückter Shift-Taste das Menü „ B e a r b e i t e n " a u f z u r u f e n . Dort erscheint dann der sonst nicht v o r h a n d e n e M e n ü p u n k t ..Bild kopieren ...". In dem sich ö f f nenden Dialogfenster wird als Darstellung „ w i e a n g e z e i g t " und als „ F o r m a t " „ B i l d " gewählt. W e n n man (nach D r ü c k e n von „ O K " ) das Bild in ein W o r d oder P o w e r p o i n t - D o k u m e n t e i n g e f ü g t hat. kann es dort bei Bedarf sogar wie ein selbst erstelltes Bild nachbearbeitet werden. Damit sind auch p r o b l e m l o s E f f e k t e m ö g l i c h , die sich in Excel nicht realisieren lassen.
2
Ausgewählte Grundlagen der Statistik
2.1
Merkmale und Merkmalsausprägungen
Zum Einstieg sei mit einem ersten Beispiel begonnen, das zeigt, wie man es nicht machen soll: Negativ-Beispiel 2.1: In einer Broschüre gab eine Volkshochschule an, wie sich ihre Hörerschaft zusammensetzte. Dazu wurde das in Abb. 2-1 dargestellte Kreis-Diagramm verwendet.
Teilnehmer der Volkshochschule Sonstige
Abb. 2-1:
V e r m i s c h e n zweier M e r k m a l e
10
2 Ausgewählte Grundlagen der Statistik Auf den ersten Blick wirkt die Darstellung plausibel. Als flüchtiger Leser könnte man sich angesichts des zahlenmäßig übergroßen Unterschiedes zwischen Beamten und Angestellten fragen, warum Beamte offensichtlich ihre Weiterbildung vernachlässigen. Dass die Statistik jedoch einen fundamentalen Fehler enthält, zeigt sich, wenn man versucht anzugeben, was denn (welches Merkmal) überhaupt dargestellt wird. Dann wird deutlich, dass fast alle Ausprägungen zu einem Merkmal passen, das man z.B. als „Berufsstatus" bezeichnen kann. Dagegen stellt „Akademiker" einen Ausbildungsstatus dar, der selbst als Merkmal mit den Ausprägungen , j a " und „nein" in einer eigenen Statistik dargestellt werden müsste. Schließlich können Akademiker Angestellte, Beamte usw. sein. Wie sehr sich das Bild gerade im Hinblick auf die Beamten durch diese Unachtsamkeit verzerrt, wird deutlich, wenn man berücksichtigt, dass rund ein Drittel aller Akademiker als Beamte tätig sind. Trifft dieses Verhältnis auch für die Stichprobe im Beispiel zu, so müssten zu den 2 % Beamten (die offensichtlich Nichtakademiker sind) noch ca. 3 % akademische Beamte hinzukommen. Insgesamt läge dann der Anteil der Beamten bei ca. 5 %, also mehr als doppelt so hoch, wie in der gezeigten Statistik ausgewiesen. Das ist ein relativer Fehler von rund 150 %!
Um Fehler wie diesen zu vermeiden, muss man zunächst in drei Schritten die entscheidenden Fragen klären: 1.
YV er wird untersucht? Es muss exakt definiert werden, welche Objekte - der Statistiker nennt sie „statistische Einheiten" - untersucht werden. Dabei sind diese in sachlicher, räumlicher und zeitlicher Hinsicht von Objekten abzugrenzen, die nicht untersucht werden. Im Beispiel wurden die Teilnehmer an Kursen (sachlich) einer bestimmten Volkshochschule (räumlich) innerhalb eines bestimmten Semesters (zeitlich) betrachtet. Die Menge aller so bestimmten Elemente nennt man < irundgesamtheit.
2.
\ \ as wird untersucht? Bei den untersuchten Objekten interessiert man sich für bestimmte Eigenschaften bzw. Merkmale. Bei einfachen Fragestellungen wird nur ein Merkmal untersucht. Man spricht dann von eindimensionalen Untersuchungen. Sofern der Zusammenhang mehrerer Merkmale untersucht werden soll (z.B. „Besuchen
2.2 Skalenarten
11
Frauen häufiger VHS-Kurse als Männer?"), handelt es sich um zwei- bzw. mehrdimensionale Untersuchungen. 3.
Welche möglichen Ergebnisse gibt es? Hier geht es um die möglichen Merkmalsausprägungen. Schon das oben vorgestellte Beispiel zeigt eine Reihe von Möglichkeiten auf. So kann das Merkmal „Akademiker" die Ausprägungen J a " und „nein" besitzen. Bei einem Merkmal wie „Berufsstatus" oder gar „ B e r u f ' gibt es jedoch eine große Zahl von Möglichkeiten. So kann die oben genannte Gruppeneinteilung verwendet werden. Aber auch eine wesentlich feinere Untergliederung (z.B. nach technischen und kaufmännischen Angestellten oder Beamten im mittleren, gehobenen und höheren Dienst) ist denkbar. Bei messbaren Merkmalen wie der Körpergröße sind sogar theoretisch unendlich viele Ausprägungen möglich, wenn man nur genau genug misst. Kann es bei einem Objekt bzw. einer Person gleichzeitig mehrere Merkmalsausprägungen geben, spricht man von einem häufbaren Merkmal Beispiele fur ein solches Merkmal sind Hobbys und beherrschte Fremdsprachen.
2.2
Skalenarten
Zentral fur die Auswertung und Darstellung von Zahlenmaterial ist die Art der Merkmale bzw. die Frage, welche Merkmalsausprägungen grundsätzlich möglich sind. In der Statistik werden dabei drei Skalenarten unterschieden, die man fur eine korrekte Darstellung des Zahlenmaterials unbedingt kennen muss: Nominalskala: Nominale Merkmale besitzen abzählbare Ausprägungen, die keine Reihenfolge aufweisen. Im einfachsten Fall liegt ein sogenanntes dichotomes Merkmal vor, bei dem es nur zwei Ausprägungen gibt. Typische Beispiele dafür sind die Ausprägungen , j a " und „nein" sowie das Merkmal „Geschlecht" mit den beiden möglichen Ausprägungen „weiblich" und „männlich". Es gibt aber auch nominale Merkmale wie „Nationalität" oder „ B e r u f , bei denen Hunderte möglicher Ausprägungen unterschieden werden können. Ordinalskala:
Ordinale Merkmale ähneln den nominalen Merkmalen. Im Gegensatz zu diesen gibt es bei den Ausprägungen jedoch eine (mehr oder weniger) natürliche Reihenfolge. Ein Beispiel sind Dienstgrade beim Militär („Schütze", „Gefreiter", „Obergefrei-
2 Ausgewählte Grundlagen der Statistik
12
ter" usw.) oder mit - nicht immer unstrittigen - Wertigkeiten versehene Merkmale wie „Schulbildung" (z.B. „ohne Abschluss", „Hauptschulabschluss", „mittlere Reife", „Abitur"). Metrische Skala: Metrische Merkmale (auch als kardinale Merkmale bezeichnet) sind quantitativ (in Form von Zahlenwerten) messbar. Damit ergibt sich gegenüber ordinalen Merkmalen nicht nur eine definierte Reihenfolge (z.B. größer, schwerer, teurer), vielmehr sind auch die Abstände mess- und vergleichbar. Innerhalb der metrischen Skala muss eine weitere Unterscheidung vorgenommen werden: •
Von einer Intervallskala spricht man dann, wenn man zwar Abstände (Intervalle) vergleichen kann, aber sowohl die Maßeinheit als auch der Nullpunkt willkürlich festgelegt sind. Ein sehr typisches Beispiel ist die Temperaturskala, bei der 0 °C willkürlich auf den Schmelzpunkt von Wasser gelegt wurde, während die Einheit 1 °C (ebenso willkürlich) dem Hunderstel der Temperaturdifferenz zwischen Schmelzund Siedepunkt von Wasser entspricht. Dass diese Festlegung beliebig ist, zeigt sich u.a. daran, dass in den USA mit Fahrenheit eine völlig andere Skala mit einem anderen Nullpunkt verwendet wird. Besonders häufig vorkommende Beispiele fur eine Intervallskala sind ferner Uhrzeiten und Jahreszahlen.
•
Eine Verhältnisskala liegt dann vor, wenn der Nullpunkt natürlich gegeben ist, während die Maßeinheit willkürlich ist. Ein typisches Beispiel sind Längenangaben. Diese können in Metern, cm oder auch Zoll, Meilen usw. angegeben werden. Hier ist jedoch - im Gegensatz zu den beiden betrachteten Temperaturskalen - der Nullpunkt immer gleich: 0,0 cm = 0,0 Meilen = 0,0 Zoll usw.
•
Bei einer Absolutskala sind sowohl der Nullpunkt als auch die Maßeinheit natürlich gegeben. Dieser Fall liegt immer dann vor, wenn man die betrachtete Größe letztlich in Stück misst (z.B. Einwohner, Geburten, Verkehrsunfalle usw.).
2.2 Skalenarten
13
Details und weitere Beispiele zu den einzelnen Skalenarten finden sich in den entsprechenden Abschnitten in Kapitel 5. Die Anforderungen an die Skala steigen von der Nominalskala bis hin zur Absolutskala. Damit gilt zugleich, dass eine höhere Skala auch die Anforderungen der niedrigeren Skalenarten erfüllt. Nominale und ordinale Merkmale werden auch als qualitative Merkmale bezeichnet, metrische Merkmale als quantitative Merkmale.
qualitative Merkmale
r
quantitative Merkmale
r Nominalskala nur gleich/ungleich definiert
Abb. 2-2:
Ordinalskala auch Reihenfolge definiert
Λ Metrische Skala auch Abstände definiert
Ü b e r s i c h t zu d e n S k a l e n a r t e n
Die Zuordnung der Daten zu einer Skala bestimmt maßgeblich, welche Diagramme angewendet werden können, welche Maßzahlen (z.B. Durchschnitte) sich berechnen lassen und welche sonstigen Aussagen möglich sind. Um dies zu verdeutlichen, nachfolgend einige Beispiele: Beispiele 2.2: •
Geschlecht ist ein nominales Merkmal. Erkennbar ist fur dieses die Berechnung eines „durchschnittlichen Geschlechts" unsinnig.
14
2 Ausgewählte Grundlagen der Statistik
•
Auch Postleitzahlen, Kontonummern, Telefonnummern usw. sind - obwohl in Form von Zahlen dargestellt - in Wahrheit ebenfalls nominale Merkmale. Offensichtlich ist auch hier eine „durchschnittliche Telefonnummer" purer Unsinn.
•
Bei intervallskalierten Größen wie der in °C angegebenen Temperatur klingt eine Aussage der Art „2 °C ist doppelt so warm wie 1 °C" im ersten Moment durchaus plausibel. Wenn man die beiden Werte jedoch in Fahrenheit umrechnet, stellt sich die Frage, warum 35,6 °F (= 2 °C) doppelt so warm sein soll wie 33,8 °F (= 1 °C).
•
Bei den verhältnisskalierten Längenangaben hingegen sind 2 Zoll eindeutig doppelt so lang wie 1 Zoll, auch wenn man sie als 5,08 cm (= 2 Zoll) bzw. 2,54 cm (= 1 Zoll) angibt.
•
Das gleiche gilt auch für Geldbeträge, bei denen die Umrechnung (nicht der reale, mit Kosten verbundene Umtausch) zwischen zwei Währungen am Verhältnis von Beträgen (z.B. „doppelt so viel") nichts ändert.
Insbesondere die Unterschiede zwischen nominalen und ordinalen Merkmalen auf der einen Seite und metrischen Merkmalen auf der anderen Seite sind bezüglich ihrer Auswertung und Darstellung so groß, dass sie jeweils getrennt behandelt werden müssen und z.B. ein entscheidendes Kriterium dafür sind, welche Diagrammarten verwendet werden können oder sollten.
2.3
Diskrete und stetige Merkmale
Liegt eine metrische Skalierung vor, ist weiter nach diskreten und stetigen Merkmalen zu unterscheiden. Diskrete Merkmale liegen dann vor, wenn es nur endlich viele oder „abzählbar unendlich viele" Merkmalsausprägungen gibt. In vielen Fällen handelt es sich bei den Ausprägungen diskreter Merkmale um natürliche Zahlen (inkl. 0). Das ist jedoch nicht zwingend. Z.B. gibt es eine begrenzte Anzahl von Notenstufen, die an vielen Hochschulen mit 1,0, 1,3, 1,7 ... 5,0 festgelegt sind.5 Auch Geldbeträge werden in Deutschland als Euro mit zwei Nachkom-
An dieser Stelle sei angemerkt, dass Statistiker in der Regel darauf bestehen, dass es sich bei Noten um ordinale Merkmale handelt, weil z.B. der Abstand zwischen 1 und 2 nicht mit dem zwischen 4 und 5 vergleichbar ist. In der Praxis (auch durch Verordnungen und Gesetze gedeckt) werden mit solchen Noten jedoch Rechenoperationen (z.B. Notendurchschnitt) durchgeführt, die nur bei metrischen Merkmalen möglich sind. Für die praktische Anwendung können sie deshalb - trotz der Bedenken - i.d.R. als metrisch angesehen werden.
2.4 Ein- und mehrdimensionale Verteilungen
15
mastellen angegeben, womit 0,01 Euro die kleinste Stufe für tatsächlich verwendete (abgerechnete) Geldbeträge ist. Eine ganz wichtige praktische Unterscheidung innerhalb der diskreten Merkmale ist nach Anzahl der möglichen Ausprägungen zu treffen. Handelt es sich nur um (sehr) wenige, so lassen sich solche Merkmale bei der Darstellung in Tabellen oder Diagrammen weitgehend wie ordinale Merkmale verwenden. Typische Beispiele sind z.B. die Anzahl der Kinder oder die Haushaltsgröße. Gegebenenfalls kann man dabei die wenigen Ausprägungen oberhalb einer bestimmten Grenze zu einer Gruppe (hier Klasse genannt) zusammenfassen (z.B. „5 und mehr Kinder"). Handelt es sich dagegen um sehr viele Ausprägungen, ist in der Regel eine Klassenbildung (siehe Abschnitt 5.4.1) notwendig. Bei stetigen Merkmalen sind (zumindest innerhalb eines endlichen Bereichs) unendlich viele mögliche Zwischenwerte möglich. Typische Beispiele sind nahezu alle physikalischen Größen, wie Länge, Gewicht, Temperatur usw. Als einen - nicht exakt definierten - Übergang kann man quasi-stetige Merkmale ansehen. Einerseits handelt es sich dabei um diskrete Merkmale mit einer so großen Anzahl von Ausprägungen, dass der einzelne Schritt vernachlässigbar klein ist. Z.B. liegen die Staatsausgaben zwar diskret als Euro und Cent vor, die Einheit Cent erscheint jedoch angesichts von dreistelligen Milliardenbeträgen praktisch als stetig. Umgekehrt lassen sich auch stetige physikalische Größen nicht beliebig genau messen, so dass sich faktisch durch die kleinste bei der Messung bestimmbare Stelle eine Diskretisierung ergibt.
2.4
Ein- und mehrdimensionale Verteilungen
Im einfachsten Fall wird von den untersuchten Personen oder Objekten jeweils nur die Ausprägung eines einzigen Merkmals erhoben bzw. betrachtet. Z.B. kann von Personen der Familienstand oder die Körpergröße ermittelt werden. Man spricht in diesem Fall von einer eindimensionalen V erteilung (der Statistiker nennt dies auch eine univariate Verteilung). Werden von jeder Person bzw. jedem Objekt dagegen jeweils die Ausprägungen zweier Merkmale erhoben, handelt es sich um eine zweidimensionale (bivariate) Verteilung. Es werden also anstelle von Einzelwerten Wertepaare ermittelt. Diese Daten erlauben es, einen Zusammenhang zwischen den beiden Merkmalen darzustellen und gegebenenfalls auch zu quantifizieren. Man kann also in entsprechenden Diagrammen sehen, dass der Anteil verwitweter Personen bei Frauen höher
2 Ausgewählte Grundlagen der Statistik
16
als bei Männern ist, oder berechnen, dass Männer eine größere durchschnittliche Körpergröße aufweisen. Liegen Daten einer zweidimensionalen Verteilung vor, kann man davon natürlich auch die beiden Merkmale einzeln betrachten und darstellen. Dies wäre dann für die Auswertung und Darstellung so, als hätte man zwei unabhängige eindimensionale Verteilungen vorliegen. In der Statistik werden auch mehrdimensionale (multivariate) Verteilungen betrachtet und mit oft recht aufwändigen Verfahren untersucht. Da sowohl die Darstellung als auch die Interpretation solcher Daten recht schwierig ist, kommen solche Verteilungen in der normalen Präsentationsgrafik eher selten vor.
2.5
Bestände und Ereignisse
Eine wichtige Unterteilung statistischer Massen ist die nach Beständen und Ereignissen: •
Bei Bestandsmassen hat man Elemente mit einer endlichen Lebensdauer (also einer größer 0), die für eine bestimmte Zeit der untersuchten Masse angehören. Die Messung, wie viele Elemente der Masse angehören, wird zu einem bestimmten Zeitpunkt vorgenommen. Konkrete Beispiele für Bestandsmassen sind z.B. die Einwohner einer Stadt. Der Zugang zur Masse (Menge der Einwohner der Stadt) erfolgt durch Geburt oder Zuzug, der Abgang erfolgt durch Wegzug oder Tod. Die Einwohnerzahl muss immer zu einem bestimmten Stichtag (bei Angaben dieser Art oft der 31.12. eines Jahres) erfolgen.
•
Bei I reignismassen betrachtet man hingegen Ereignisse, die (theoretisch) eine unendlich kurze Dauer aufweisen, also zu einem bestimmten Zeitpunkt stattfinden. Die Erfassung der Ereignisse findet immer über einen bestimmten Zeitraum statt, z.B. über ein Jahr. Typische Beispiele für Ereignismassen sind Geburten, Todesfälle, Verkehrsunfalle usw., die sich in einem bestimmten Zeitraum (z.B. während eines bestimmten Jahres) ereignen. Auch Verbrauchsmengen (z.B. für Strom, Gas, Wasser oder Benzin) gehören zu den Ereignismassen, auch wenn sie eventuell eher einem stetigen Strom von Mengen entsprechen. Bei Ereignissen, die ja theoretisch unendlich kurz sind, wäre es unsinnig zu fragen, wie viele davon zu einem bestimmten Zeitpunkt stattfinden - es wären
2.5 Bestände und Ereignisse
17
dann nämlich 0. Betrachtet man hingegen die Geburten am 31.12. eines Jahres, so wäre dies kein Zeitpunkt, sondern der Zeitraum eines ganzen Tages. Dass ein Vermischen von Ereignissen und Beständen zu unsinnigen Ergebnissen fuhren kann, zeigt das folgende Beispiel: Negativ-Beispiel 2.3: 1995 machte eine Untersuchung des statistischen Bundesamtes in der Presse die Runde und wurde dort in unterschiedlicher Form - in der Regel aber falsch - wiedergegeben. Hintergrund war das Ergebnis einer Bevölkerungsstichprobe im April 1995. Darin hatten 12,3 % der Befragten angegeben, in den letzten 43 Wochen vor dem Befragungstag unter gesundheitlichen Beeinträchtigungen (Krankheiten oder Unfallverletzungen) gelitten zu haben. Eine Lokalzeitung titelte daraufhin „Über 12 Prozent krank" und ergänzte dies im Text mit der Aussage, dass „durchschnittlich über 12 Prozent der Bundesbürger krank" wären. Bei einem unvoreingenommenen Leser müsste diese Aussage eigentlich zwangsläufig so interpretiert werden, dass zu jedem Zeitpunkt 12 % der Bevölkerung krank wären. Bei den Unternehmen müsste demnach ständig im Schnitt ein Achtel der Mitarbeiter aufgrund von Krankheit fehlen (tatsächlich sind es aktuell ca. 4 - 5 %). Dass eine solche Aussage nicht stimmt, ergibt sich aus der eingangs beschriebenen Tatsache, dass es sich um eine Aussage über einen Zeiträum von 43 Wochen handelt. Wie unsinnig der Titel des Zeitungsartikel ist, wird deutlich, wenn man - fiktiv - die Frage gestellt hätte, ob in den letzten 43 Jahren eine Krankheit vorgelegen hätte. Dann müsste der Titel wohl lauten: „Alle sind krank". Immerhin wurde im Text des Artikels die Information über die gestellte Frage (also u.a. den Zeitraum von 43 Wochen) wiedergegeben, so dass der Leser - wenn er mehr als nur die Überschrift liest und über etwas statistisches Verständnis verfugt - in der Lage war, die Überschrift als unsinnig zu erkennen. Im Gegensatz dazu wurde in einer der auflagenstärksten deutschen Zeitschriften - ohne nähere Erläuterungen - wörtlich geschrieben: „12,3 Prozent der Bevölkerung waren im April '95 krank oder verletzt." Dies ist natürlich eindeutig falsch. Das Problem besteht darin, dass man es hier im Prinzip mit einer Ereignismasse zu tun hat. Der betrachtete Zustand „Kranksein" hat zwar nicht die
18
2 Ausgewählte Grundlagen der Statistik Dauer 0. Gemessen am langen Betrachtungszeitraum von 43 Wochen kann er aber - bis auf die wenigen Altfalle, die in den Zeitraum „hereinragen" weitgehend mit dem Ereignis „Krankwerden" gleichgesetzt werden. Dass der Wert von 12,3 % zudem praktisch keine Aussagekraft besitzt, zeigt sich auch darin, dass ein Verkürzen des betrachteten Zeitraums auf einen Tag oder eine Verlängerung auf mehrere Jahre den Wert zwischen wenigen Prozent bis fast 100 % variieren lassen würde.
Generell lässt sich sagen, dass die Länge des betrachteten Zeitraums bei Ereignismassen praktisch immer entscheidenden Einfluss auf das Ergebnis hat. Je länger er ist, desto größer wird der ermittelte Wert. Sowohl bei Ereignismassen als auch bei Bestandsmassen ist es von großer Bedeutung, den Einfluss der Sa isonabhängigkeit zu berücksichtigen. •
Bei Ereignismassen zeigt sich bei einigen Größen ein sehr geringer saisonaler Einfluss (z.B. allgemeiner Verbrauch an Lebensmitteln), während andere sehr starke saisonale Schwankungen aufweisen (z.B. Gasverbrauch der Heizung). Will man nicht bewusst diese Unterschiede betrachten, sondern z.B. die langfristige Entwicklung verdeutlichen, sollte man den Zeitraum jeweils so festlegen, dass er genau eine Saisonperiode (oder auch ein Vielfaches davon) umfasst. Bei den meisten Größen ist eine Periodenlänge von einem Jahr sinnvoll; gegebenenfalls kann dies auch ein Monat oder eine Woche (z.B. Einkaufen von Lebensmitteln) sein.
•
Bei Bestandsmassen hat man oft geringere Schwankungen, sofern die (träge) Masse kurzfristige Schwankungen ausgleicht. Selbst wenn also z.B. ein Geschäftsmann stark vom Saisongeschäft abhängig ist, wird zwar sein Einkommen (Ereignismasse) stark schwanken, sein über Jahre angesammeltes Vermögen (Bestandsmasse) hingegen wird sich zumindest prozentual wesentlich weniger deutlich verändern. Auch bei der Einwohnerzahl von Städten werden die Veränderungen innerhalb eines Jahres meist bei unter einem Prozent liegen, selbst wenn z.B. die Zahl der Geburten im Jahresverlauf gewissen Schwankungen unterliegt. Aber auch hier gibt es natürlich Ausnahmen. So weist z.B. die Zahl der Arbeitslosen deutliche Schwankungen innerhalb eines Jahres auf. Dies ist bei der Betrachtung einer solchen Größe zu berücksichtigen (z.B. mit Hilfe von Jahresdurchschnitten).
3
Grundlagen der Darstellung
3.1
Zahlenangaben
3.1.1
Formatierung von Zahlen
Sofern man nicht mit Zahlwörtern arbeitet (siehe nächsten Abschnitt), ist zu klären, wie Zahlen mit einer großen Stellenzahl dargestellt werden sollen. Grundsätzlich gibt es dabei drei Varianten, wie die nachfolgenden Beispiele zeigen: •
12300000
•
12.300.000
•
12 300 000
Die erste Version ist offensichtlich ungeeignet, da der Betrachter erst mühsam die Stellen zählen muss, um auch nur die Größenordnung zu erkennen. Die beiden anderen Varianten kommen hingegen häufig vor. Es stellt sich damit die Frage, ob sie beliebig alternativ verwendet werden können oder ob eine davon vorzuziehen ist. Die DIN-Norm 1333 legt dazu fest, dass längere Ziffernfolgen vom Komma ausgehend durch Zwischenräume in Dreierblöcke gegliedert werden dürfen, aber nicht müssen. Die Verwendung von Punkten als Gliederungszeichen wird dagegen ausdrücklich als „nicht zulässig" bezeichnet. Begründet wird dies damit, dass z.B. im Amerikanischen und Englischen nicht der Punkt, sondern das Komma zur 1000erTrennung genutzt wird, während dort umgekehrt der Punkt als Dezimaltrennung unser K o m m a ersetzt. Auch der Duden schließt sich der Vorgabe der DIN an. Beim Einfügen eines Zwischenraums innerhalb einer Zahl sollte dieser nicht zu groß ausfallen. Schon ein Leerzeichen könnte etwas groß wirken. Das gilt insbesondere im Fließtext mit Blocksatz, bei dem eine Zahl durch die Formatierung auseinandergerissen werden könnte. Insbesondere ist natürlich die Trennung einer Zahl durch Zeilenumbruch zu verhindern.
3 Grundlagen der Darstellung
20 Word-Tipp:
Um den Abstand zwischen den Ziffern nicht unnötig (und bei Blocksatz zudem unterschiedlich) groß zu machen, sollte möglichst kein Leerzeichen zur 1 OOOer-Trennung eingesetzt werden. Stattdessen empfiehlt es sich, jeweils das Zeichen vor dem vergrößerten Zwischenraum zu markieren und bei der Zeichen-Formatierung unter „Zeichenabstand" die Laufweite auf „erweitert" mit z.B. 2 pt einzustellen. Bei der Tabellenkalkulation wird i.d.R. automatisch davon ausgegangen, dass das lOOOer-Trennzeichen ein Punkt ist. Das lässt sich jedoch abändern: Excel-Tipp: Um zur 1 OOOer-Trennung ein Leerzeichen einzusetzen, lässt sich in Excel z.B. folgendes benutzerdefinierte format verwenden: # ### ##o,oo Damit werden - sofern vorhanden - die 1000er und die Millionen jeweils mit einem Leerzeichen abgetrennt. Sollen nicht zwei Nachkommastellen angezeigt werden, lässt man einfach das Komma und beide Nullen rechts davon weg. Von der Regel, Zahlen mit vielen Ziffern in Dreierblöcke zu untergliedern, gibt es jedoch auch Ausnahmen: •
Jahreszahlen und Postleitzahlen werden grundsätzlich nicht gegliedert.
•
Einige andere Zahlen (z.B. Telefonnummern, Bankleitzahlen usw.) besitzen z.T. eine spezielle Form der Gliederung, die dann jeweils anzuwenden ist.
•
Bei vierstelligen Zahlen kann auf eine Gliederung verzichtet werden. Es wird an dieser Stelle jedoch empfohlen, bei Tabellen auf eine einheitliche Schreibweise zu achten, wenn Zahlen mit unterschiedlicher Stellenzahl vorkommen.
Die DIN sieht ebenfalls eine Gliederung bei mehr als drei Nachkommastellen vor, wobei auch hier - vom Komma ausgehend - Dreierblöcke durch vergrößerte Zwischenräume gebildet werden. Für eine gut gestaltete Präsentation sollte dies aber nicht relevant sein, da mehr als drei Nachkommastellen vom Betrachter nur schlecht erfasst werden können. Wenn wirklich Bedarf fur eine solche Genauigkeit besteht, sollte stattdessen eine entsprechend kleinere Einheit (z.B. m statt km oder cm bzw. mm statt m) verwendet werden, so dass die dargestellten Stellen wieder vor dem Komma stehen. In der Praxis wird die Realisierung der Gliederung weniger dogmatisch gesehen. So verwenden z.B. das Statistische Bundesamt und die FAZ in den meisten Fällen die DIN-gerechte Form, gelegentlich wird jedoch auch der Punkt als Trennzeichen ein-
3.1 Zahlenangaben
21
gesetzt. Und auch sonst findet man in vielen, selbst formal gut gemachten Publikationen immer wieder die Variante mit dem Punkt als Trennung. Gefördert wird dies sicherlich dadurch, dass Programme wie Excel, die sehr oft beim Erstellen von Präsentationen verwendet werden, bei einer entsprechenden Gliederung automatisch den Punkt einfügen. Zusammenfassende Empfehlung: Es wird an dieser Stelle empfohlen, zur besseren Lesbarkeit eine Trennung in Dreierblöcke vorzunehmen. Bei Veröffentlichungen mit professionellem Anspruch - insbesondere, wenn auch mit Lesern bzw. Zuhörern aus dem angloamerikanischen Sprachraum zu rechnen ist - sollte die Trennung mit einem Zwischenraum nach DIN erfolgen, wie dies auch bei führenden deutschen Medien der Fall ist. Ansonsten erscheint auch die Verwendung von Punkten als Trennzeichen akzeptabel.
3.1.2
Zahlwörter und Einheiten
Bei großen Zahlen wird - sofern keine größere Genauigkeit gefordert ist - häufig eine Angabe mit Zahlwörtern gemacht. Statt 1 2 0 0 000 wird üblicherweise 1,2 Millionen geschrieben. Das gilt sowohl in Texten als auch bei Tabellen und Diagrammen. Oft geschieht dies auch in abgekürzter Form. Nach DIN 1333 sind ausschließlich folgende Abkürzungen zulässig: Tsd.
für 1000
Mio. für Million Mrd. für Milliarde Allerdings verwendet z.B. das Statistische Bundesamt bei seinen Publikationen durchgängig die Abkürzung „Mill." statt „Mio." für Million. Da dies jedoch sowohl für „Million" als auch für „Milliarde" passen könnte, wird hier eindeutig zur Abkürzung „Mio." geraten. Im Zusammenhang mit Zahlwörtern ist übrigens zu beachten, dass im Amerikanischen die deutsche Milliarde mit „billion" und die deutsche Billion mit „trillion" zu übersetzen ist. Manche unsinnigen Zahlenangaben zu Daten aus den USA haben darin ihren Ursprung. Statistische Angaben weisen neben dem Zahlenwert häufig noch eine Einheit auf, also z.B. Meter, Tonnen, Kilogramm, Euro usw. Diese Einheiten sind mit einem Abstand bzw. Leerzeichen hinter der Zahl anzugeben. Das gilt auch dann, wenn die
22
3 Grundlagen der Darstellung
entsprechende Abkürzung verwendet wird (z.B. „1 cm"). Gleiches gilt für das Prozentzeichen (z.B. „4 %"). Im Fließtext ist die Trennung (Zeilenumbruch) zwischen der Zahl und der Einheit möglichst zu vermeiden. Das kann entweder mit einem geschützten Leerzeichen oder einem größeren Zeichenabstand (wie bei der Gliederung innerhalb großer Zahlen) erreicht werden. Bei Tabellen und Diagrammen werden die Einheiten (inkl. des Prozentzeichens) oft ausschließlich im Tabellenkopf bzw. an der Achsenbeschriftung angegeben, nicht aber bei den einzelnen Werten. Details dazu finden sich in den entsprechenden Abschnitten weiter unten in diesem Kapitel. Bei Diagrammen - insbesondere bei der Beschriftung der Achsen - sieht man gelegentlich auch, dass die Einheit in eckige Klammern eingerahmt wird (z.B. „[kg]"). Diese Form ist nach DIN 1313 unzulässig und auch bei formal sauberen Publikationen in Technik und Naturwissenschaften völlig unüblich.
3.1.3
Genauigkeit von Zahlenangaben
Bei der Genauigkeit einer Zahl - also letztlich der Anzahl der angegebenen (signifikanten) Stellen - sind mehrere Aspekte zu berücksichtigen: 1
Zunächst ist zu fragen, in welcher Genauigkeit die Daten vorliegen. Handelt es sich z.B. um Hochrechnungen einer Stichprobe, so ergibt sich schon allein dadurch ein Messfehler. Bei der üblichen Meinungsumfrage zu politischen Parteien liegt der Fehler bei den großen Volksparteien bei ca. 2,5 Prozentpunkten. Es erscheint deshalb kaum sinnvoll, die Werte auf eine Nachkommastelle anzugeben, wenn schon die erste Vorkommastelle unsicher ist. Ansonsten wird dem Leser eine Genauigkeit vorgegaukelt, die nicht existiert.
2
Daten, die sich ständig ändern, liegen oft nur zu bestimmten Stichtagen vor. Wenn man also z.B. die aktuelle Einwohnerzahl oder den aktuellen Schuldenstand Deutschlands darstellen möchte, muss man die (nicht genau bekannten) Änderungen seit den letzten verfügbaren Daten berücksichtigen. In der Wirkung entspricht dies Punkt 1.
3
Selbst wenn Daten exakt verfugbar sind, ist zu fragen, ob die mögliche Genauigkeit im konkreten Zusammenhang wirklich interessiert. Soll z.B. der Jahresumsatz oder Gewinn eines Weltkonzerns in einer Anlage zur Steuererklärung ausgewiesen werden, muss dies wohl auf 1 Cent oder zumindest 1 Euro genau erfolgen. Wenn man jedoch in der Zeitung eine Angabe dazu macht, dann ist
3.1 Zahlenangaben
23
eine Angabe wie 87,5 Milliarden Euro schon mehr als ausreichend (eventuell kann man die Nachkommastelle auch noch weglassen). 4.
Weiterhin muss unterschieden werden, ob eine Präsentation vor Publikum oder eine schriftliche Veröffentlichung vorliegt. Da Zuschauer in einer Präsentation nur eine sehr begrenzte Aufnahmefähigkeit besitzen, sollten i.d.R. maximal 3 Stellen zur Darstellung verwendet werden. Bei größeren Zahlen wird dann im Titel einer Tabelle oder im Kopf oder an den Achsen eines Diagramms z.B. geschrieben, dass die Angabe in Millionen erfolgt. Nur wenn die dargestellten Werte sehr unterschiedliche Größe haben (z.B. 100 bis 10 000) könnte eine höhere Stellenzahl für die größeren Werte sinnvoll sein, wenn die Genauigkeit der kleineren Werte relevant ist. Aber auch dann sollten maximal die ersten drei Ziffern der Zahlen ungleich 0 sein.
5.
Zuletzt ist natürlich die verwendete Darstellung von Bedeutung. In einer Tabelle (bei schriftlichen Artikeln) lassen sich natürlich umfangreichere, also auch genauere Zahlenangaben machen als in einem Säulen- oder Kreis-Diagramm.
Bei Prognosen sollte man sich mit übertriebener Genauigkeit zurückhalten, wie das folgende Beispiel zeigt. Negativ-Beispiel 3.1: Bei einer Präsentation vor Bürgern gab eine Stadt Anfang 2009 in einem Diagramm unter anderem die fur das Jahr 2011 erwarteten Kosten für die Straßenreinigung mit genau 842 643 Euro an. Grundsätzlich ist es nicht sinnvoll, in einem Diagramm im Rahmen einer Präsentation mehrere Zahlen mit sechs signifikanten Stellen zu verwenden, da dies von den Zuhörern nicht aufgenommen werden kann. Gravierender ist jedoch, dass diese Zahl schlicht falsch sein muss. Schließlich ist es definitiv unmöglich, angesichts von unkalkulierbaren Preis- und Lohnsteigerungen (insb. die Benzinkosten spielen hier eine Rolle) sowie nicht vorhersehbaren Reparaturen, Ersatzbeschaffungen usw. eine über fast drei Jahre laufende Kostenschätzung auf 0,0001 % genau durchzuführen. Das wirkt nicht präzise, sondern fast schon lächerlich. Ein weiterer, häufig zu beobachtender Grund für unsinnige (vermeintliche) Genauigkeit ist das Umrechnen von Währungsangaben. Dies geht aus folgendem Beispiel sehr deutlich hervor: Negativ-Beispiel 3.2: In einer Zeitung fand sich folgende Meldung:
24
3 Grundlagen der Darstellung „In New York entstand gestern bei einem Brand in einer Fabrik ein Schaden von weit über 7 694 000 Euro." Die unsinnig genaue Zahlenangabe muss jedem Betrachter sofort ins Auge stechen. Da wird also die Höhe des Schadens, der gerade erst vor wenigen Stunden entstanden ist, bereits auf 1 000 Euro, also auf ca. 0,01 %, genau angegeben. Zum einen kann die Schadenshöhe nach dieser kurzen Zeit definitiv nicht mit dieser Genauigkeit bestimmt werden. Zum anderen widerspricht die dargestellte Genauigkeit dem Zusatz „weit über".
Bereits kurzes Nachdenken bringt in diesem Fall die Lösung. Ein übereifriger Redakteur hat einfach die sehr grobe Angabe „weit über 10 Mio. Dollar" der amerikanischen Kollegen ohne Nachzudenken mit dem aktuellen Wechselkurs in einen unsinnig genauen Euro-Wert umgerechnet. Bei Zahlenangaben, die über eine Umrechnung entstehen (meist bei Währungen, aber auch Meilen in km o.ä.), sollte unbedingt die ursprüngliche Genauigkeit berücksichtigt und entsprechend übertragen werden. Gegebenenfalls ist die Originalangabe (z.B. in Dollar) zu zitieren und in Klammern dahinter die ungefähre Umrechnung zu ergänzen. Zusammenfassende Empfehlungen: •
Zahlenangaben dürfen nicht genauer wirken, als es den zugrunde liegenden Daten entspricht.
•
Zahlenangaben sollten nicht genauer sein, als es dem aktuellen Informationsbedürfnis der Zuhörer oder Leser entspricht.
•
Zahlenangaben in Präsentationen sind besonders stark zu runden; in Veröffentlichungen (dort besonders in Tabellen) sind auch genauere Angaben möglich.
3.2
Tabellen
3.2.1
Grundlagen
Tabellen sind neben Diagrammen das zentrale Mittel, um größere Datenmengen in geeigneter Weise zu strukturieren und zu präsentieren. Gegenüber Diagrammen können innerhalb von Tabellen in der Regel mehr und genauere Einzelwerte untergebracht werden. Allerdings sollte man unterscheiden, ob eine Tabelle im Rahmen einer Präsentation oder einer Veröffentlichung verwendet wird. Da die Zuhörer in einer Präsentation in der pro Folie zur Verfugung stehenden Zeit nur eine sehr begrenzte Informations-
3.2 Tabellen
25
menge aufnehmen können, muss sich die Detailliertheit der dort eingesetzten Tabellen daran orientieren. Umgekehrt können Tabellen in Veröffentlichungen durchaus wesentlich umfangreicher ausfallen. Oft ergänzen sich in diesem Rahmen Diagramme und Tabellen, indem die Diagramme einen schnellen Überblick bieten und der interessierte Leser detailliertere Informationen bei Bedarf in den zusätzlichen Tabellen nachlesen kann. Die Ausführungen zu den Tabellen an dieser Stelle orientieren sich eher an den Anforderungen fur Veröffentlichungen. Für Tabellen in Präsentationsfolien gelten jedoch dieselben Regeln, nur in etwas vereinfachter Form und mit deutlich weniger Details. Wie eine Tabelle auszusehen hat, ist in der DIN 55 301 festgelegt. Man muss zwar nicht alle der dortigen Regelungen berücksichtigen, in professionellen Veröffentlichungen werden jedoch meist die wesentlichen Vorgaben daraus umgesetzt. Solche Tabellen heben sich dann auch wohltuend von den Versuchen ab, die viele Autoren in Excel, Word oder Powerpoint nach eigenem Gutdünken oder mit den dortigen Assistenten zusammenbasteln. Abb. 3-1 zeigt zunächst im Überblick, wie eine Tabelle als Ganzes auszusehen hat. Der Tabellentitel sollte den Inhalt der Tabelle sachlich, räumlich und zeitlich eindeutig bezeichnen. Zum Teil wird die vorgenommene Gliederung getrennt durch das Wort „nach" angehängt. Beispiel: „Bevölkerung in Deutschland 2009 nach Alter". Nähere Angaben können in einem Untertitel oder in Zusatzangaben gemacht werEine Tabelle soll auch ohne die Lektüre des Begleittextes verständlich sein. Dies ist der Maßstab für die Angaben innerhalb der Tabelle. Aufgrund der exponierten Anordnung spielen dabei die Informationen im Titel und unmittelbar darunter die wesentliche Rolle. Der Kopf des Tabellenfeldes enthält die Überschriften für die Spalten des darunter liegenden Datenteils. Dort werden nicht nur die Bezeichnungen der entsprechenden Merkmale, sondern auch - sofern relevant und nicht schon eindeutig im Titel oder Untertitel angegeben - die verwendeten Einheiten (z.B. „1000", „%", „Mio. Euro", „m 2 " usw.) genannt. Die Texte in der Vorspalte geben an, welche Daten in der entsprechenden Zeile des Datenteils dargestellt werden. Dabei ist auch eine - gegebenenfalls mehrstufige Gliederung möglich.
26
3 Grundlagen der Darstellung
Tabellentitel (evtl. inkl. Nummerierung) bei Bedarf Untertitel und Zusatzangaben i.d.R. Kopf der Vorspalte
Kopf des Tabellenfeldes
Datenteil Vorspalte
Spalte
Zeile
Tabellenfach
Zusatzangaben, Fußnoten, Quellenangaben
Abb. 3-1:
Grundstruktur einer Tabelle
Der Bereich links oben ist in der Regel der Kopf der Vorspalte gibt also z.B. an, zu welchem Merkmal die in der Vorspalte aufgeführten Ausprägungen gehören. Alternativ kann sich dort auch die Vorspalte zum Kopf des Tabellenfeldes befinden oder auch eine Kombination aus beidem. Sofern keine besondere Kennzeichnung erfolgt, handelt es sich um den Kopf der Vorspalte, anderenfalls muss dies wie in Abb. 3-2 gezeigt dargestellt werden. Die Variante links oben zeigt den Normalfall. Dort steht eine nähere Erläuterung zu den Informationen in der Vorspalte. In dieser werden dann nur noch Angaben der Art „0 - 1", „1 - 2" usw. gemacht. Die Version links unten wird verwendet, wenn in der Tabelle - und damit auch in der Vorspalte - zwei (oder auch mehr) unabhängige Merkmale aufgeführt werden. In der Tabelle selbst wird die Trennung dann mit einem etwas größeren Abstand (ohne waagerechten Strich) vorgenommen.
3.2 Tabellen
27
Alter von ... bis unter... Jahren
^ ^ ^ Herkunftsland
Jahr Bundesland Abb. 3-2:
Zielland \
Familienstand I d e s Mannes
der Frau—»
Kopf der Vorspalte bzw. Vorspalte zum Kopf des Tabellenfeldes
Bei den beiden Varianten rechts handelt es sich um eine kombinierte Angabe für die Vorspalte und den Kopf des Tabellenfeldes. Durch den diagonalen Strich bzw. die beiden Pfeile wird die Zuordnung unmissverständlich dargestellt. Sofern nur ein waagerechter Pfeil vorhanden ist, handelt es sich ausschließlich um die Vorspalte zum Kopf des Tabellenfeldes. Der Datenteil enthält die Fabellenfächer (auch: Tabellenfelder) mit den einzelnen Werten. In der Regel handelt es sich dabei um Zahlen ohne die im Titel oder Tabellenkopf bereits genannten Einheiten (auch „ % " wird dort nicht angegeben). Die Zahlen sind innerhalb einer Spalte mit einheitlicher Anzahl von Nachkommastellen sowie identischer Formatierung (i.d.R. Bilden von 3er-Blöcken, um die lOOOer-Stellen zu verdeutlichen) zu schreiben. Die Prozentsumme 100 (z.B. in einer Summenzeile) und die Indexangabe 100 (z.B. im Bezugsjahr einer Zeitreihe) werden übrigens immer ganzzahlig geschrieben, auch wenn die übrigen Zahlenwerte der Spalte Nachkommastellen besitzen. Neben „normalen" Zahlenangaben werden in den Tabellenfächern auch folgende genormte Angaben verwendet: 0
weniger als die Hälfte von 1 in der letzten besetzten Stelle, jedoch mehr als nichts
-
nichts vorhanden
... Angabe fallt später an /
Zahlenwert nicht sicher genug Zahlenwert unbekannt oder geheim zu halten
χ
Tabellenfach gesperrt, weil Aussage nicht sinnvoll
Sofern Daten von anderen Quellen übernommen wurden, muss ihre Herkunft in den Quellenangaben unterhalb der Tabelle genannt werden. Zum Teil wird auch bei eigenen Daten gefordert, diese durch den Hinweis „eigene Berechnungen" o.ä. als
28
3 Grundlagen der Darstellung
solche kenntlich zu machen. Wenn aber unzweifelhaft klar ist, dass die Daten vom Autor selbst stammen (z.B. Unternehmensdaten bei einer Veröffentlichung des Unternehmens selbst), dürften solche Angaben überflüssig sein. Unterhalb der Tabelle können auch /.usatzangaben zur gesamten Tabelle sowie Fußnoten, die sich nur auf einzelne Teile der Tabelle (z.B. bestimmte Zeilen, Spalten oder Einzelwerte) beziehen, untergebracht werden.
3.2.2
Praktische Gestaltung
Zunächst wird der Tabellenkopf behandelt, der im Normalfall aus dem Kopf der Vorspalte und dem Kopf des Tabellenfeldes besteht. Abb. 3-3 zeigt ein etwas vereinfachtes Beispiel aus dem Statistischen Jahrbuch, bei dem von der eigentlichen Tabelle nur die ersten beiden Zeilen abgebildet sind.
Bevölkerung am 31.12.2006 nach Altersgruppen und Familienstand Alter von... bis unter... Jahren unter 15 15-20 Abb. 3-3:
ledig männlich weiblich 1 000 % 1 000 % 5 869 100 5 572 100 2 440 99,0 2 308 99,4
verheiratet männlich weiblich 1 000 % 1 000 % 0 0,0 0 0,0 2 0,1 12 0,6
Tabellenkopf mit dreistufiger Gliederung der Spaltenköpfe
Links ist der Kopf der Vorspalte zu sehen. Dieser beschreibt die Angaben in der darunter befindlichen Vorspalte. Dadurch ist z.B. eindeutig festgelegt, dass die Angabe „15 - 20" das Alter von genau 15 noch enthält, nicht aber das von 20, da es zur folgenden Klasse gehört. Der Kopf des Tabellenfeldes zeigt eine dreistufige Gliederung. Zunächst wurde nach Familienstand 6 unterteilt und für jeden der aufgeführten Familienstände jeweils noch nach Geschlecht unterschieden. Man spricht hier übrigens auch von „Spaltengruppenköpfen". In der dritten Zeile befinden sich die eigentlichen Spaltenköpfe. Diese geben hier konkret an, dass links jeweils die absolute Angabe steht (in der Einheit 1 000) und rechts die relative (also z.B. „Wie viel Prozent der unter 15-jährigen männlichen Personen sind ledig?")
Im Statistischen Jahrbuch wird genauer ledig, verheiratet, verwitwet und geschieden aufgeführt.
3.2 Tabellen
29
Das Beispiel zeigt auch sehr anschaulich, wie im Kopf des Tabellenfeldes eine mehrstufige Gliederung optisch durch die Anordnung von Linien dargestellt wird. Auch wenn theoretisch noch mehr Gliederungsebenen im Tabellenkopf möglich sind (die DIN empfiehlt eine Obergrenze von vier), wird man sich bei den meisten Tabellen - insbesondere bei Präsentationen - auf ein bis zwei Ebenen beschränken. Beim Tabellenkopf, noch mehr aber in der Vorspalte, wird häufig eine A u f t e i l u n g einer G e s a m t h e i t (oder auch Teilgesamtheit) vorgenommen. Dabei werden folgende drei Varianten unterschieden: •
Aufgliederung: •
die Gesamtheit ist vollständig in Teilmengen aufgeteilt Kennzeichnung mit „davon" („dav."); kann entfallen, wenn eindeutig Beispiel: Frauen; davon ledig, verheiratet, verwitwet, geschieden
•
Ausgliederung: » die Gesamtheit ist unvollständig in Teilmengen aufgeteilt • Kennzeichnung mit „darunter" („dar.") • Beispiel: Männer; darunter verwitwet, geschieden
•
Zergliederung: • es wird nach verschiedenen, nicht summierbaren Merkmalen aufgeteilt Kennzeichnung mit „und zwar" • Beispiel: Deutsche; und zwar Akademiker, männlich, ledig
Innerhalb der Vorspalte wird eine solche Gliederung üblicherweise in der Weise vorgenommen, dass oben die jeweilige Gesamtmenge steht und darunter eingerückt die Teilmengen aufgeführt werden. Die Werte hinter der jeweiligen Gesamtmenge im Datenteil der Tabelle entsprechen bei einer (vollständigen) Aufgliederung damit der Summe der Werte darunter. Abb. 3-4 zeigt ein typisches, etwas vereinfachtes Beispiel für eine entsprechende Vorspalte. Merkmale können sowohl im Tabellenkopf als auch in der Vorspalte aufgeführt werden. Damit ist es bis zu einem gewissen Maße möglich, die Anordnung der waagerechten und senkrechten Merkmale frei zu bestimmen. Eine Rolle spielt dabei oft der zur Verfügung stehende Platz. Innerhalb der Gliederung ist bereits die Frage von S u m m e n z e i l e n angesprochen worden. Für deren Anordnung innerhalb der Tabelle gibt es keinen vorgeschriebenen Platz. Bei Aufgliederungen enthält meist die übergeordnete Zeile die Summe für das entsprechende Merkmal und in den Zeilen darunter befinden sich die Teilmengen, aus denen sie sich zusammensetzt.
30
3 Grundlagen der Darstellung
Staatsangehörigkeit Europa dar.: EU-Länder dar.: Frankreich Österreich Schweiz Afrika Amerika dar.: USA Asien Australien und Ozeanien Staatenlos Ungeklärt und ohne Angabe Insgesamt Abb. 3-4: Vorspalte zur ausländischen Bevölkerung in Deutschland Eine alternative Möglichkeit einer solchen Aufgliederung besteht darin, Blöcke mit meist fett geschriebenen und über die gesamte Breite der Tabelle zentrierten Zwischenüberschriften zu bilden. Dann befindet sich in der Regel am Ende eines solchen Blocks eine eigene Zeile für die Zwischensumme, die dann mit dem Wort „Zusammen" bezeichnet wird. Gibt es eine eigene Zeile für die Gesamtsumme, befindet sich diese meist am Ende der gesamten Tabelle und wird mit dem Wort „Insgesamt" bezeichnet. Wenn vorhanden, sollte die Zeile alternativ mit einem Wort für die Gesamtheit bezeichnet werden (z.B. erhält die Summenzeile nach einer Liste aller deutschen Bundesländer die Bezeichnung „Deutschland"). Solche Zeilen mit der Gesamtsumme werden oft über die gesamte Breite der Tabelle fett geschrieben. Im Zusammenhang mit der Summe stellt sich die Frage nach möglichen Rundungsfehlern. Hier gilt, dass die Angabe in der Summenzeile der tatsächlichen Gesamtzahl entsprechen muss, selbst wenn die Summe der gerundeten Teilwerte in der Tabelle zu einem anderen Ergebnis fuhren würde. Besonders deutlich wird dies bei Prozentangaben, die in Summe genau 100 % entsprechen müssen. Wie oben schon erwähnt, wird dabei immer „100" ohne Nachkommastellen geschrieben, auch wenn die Teilwerte Nachkommastellen aufweisen sollten. Weiterhin sei hier noch die Frage des Layouts der Tabelle, insbesondere durch Linien, Abstände und Farben (z.B. graue Hinterlegungen), behandelt.
3.2 Tabellen
31
Linien sollten im Tabellenkopf zur übersichtlichen Gliederung verwendet werden, wie dies in Abb. 3-3 gezeigt wurde. Der Tabellenkopf sollte dabei auch oben und unten durch waagerechte Linien begrenzt sein, die etwas stärker sein können als die übrigen Linien. Die Abtrennung zwischen der Vorspalte und dem Datenteil erfolgt mittels einer senkrechten Linie, die ebenfalls etwas dicker sein darf. Waagerechte Linien innerhalb des Tabellenfeldes sollten nur direkt oberhalb von Summenzeilen verwendet werden, auf senkrechte Linien wird dort in der Regel verzichtet. Ein vollständiges Einrahmen der gesamten Tabelle ist nicht erforderlich, aber möglich. Ein vorhandener Rahmen bietet optisch eine etwas bessere Abgrenzung, wenn Tabellen innerhalb eines laufenden Textes verwendet werden. Entfallt der äußere Rahmen, so wird lediglich oben eine Linie zur Abgrenzung des Tabellenkopfes vom Titel gezogen; an den Seiten und unten ist die Tabelle dann offen. Bei längeren Tabellen ist es nicht immer leicht, den optischen Lesefluss von der Vorspalte bis zum rechten Rand des Datenteils zu halten. Um dies zu erleichtern, sollte in der Regel nach jeweils höchstens fünf Zeilen ein größerer A b s t a n d verwendet werden. Dies ist jedoch nicht schematisch anzuwenden, sondern sollte sich am Inhalt orientieren. Bei Gliederungen ergeben sich die sinnvollen Stellen meist automatisch; bei Zeitreihen bietet sich z.B. ein größerer Abstand jeweils nach Jahreszahlen an, die auf 0 oder 5 enden. Linien sollten nicht zur Verbesserung des waagerechten Leseflusses eingesetzt werden. Ebenso ist die Verwendung von abwechselndem Fett- und Normaldruck oder eine graue oder farbige Unterlegung jeder zweiten Zeile kritisch zu sehen, da den Zeilen damit optisch eine unterschiedliche Gewichtung (ähnlich einer Summenzeile) gegeben wird. Gerade beim Layout von Tabellen gilt: Man muss nicht alles machen, nur weil es das Tabellenkalkulationsprogramm auf Knopfdruck anbietet. Weniger ist hier oft mehr! Zum Abschluss folgen zwei Beispieltabellen mit Daten, die in einigen nachfolgenden Abschnitten dieses Kapitels noch in Diagrammform dargestellt werden. Tab. 3-1 zeigt eine einfache Tabelle mit einer eindimensionalen Verteilung. Es wird die Verteilung des Merkmals Familienstand sowohl mit absoluten als auch relativen Häufigkeiten dargestellt. Im Titel der Tabelle ist der Sachverhalt sachlich (Bevölkerung), räumlich (Deutschland) und zeitlich (31.12.2005) exakt definiert.
32
3 Grundlagen der Darstellung
Tab. 3-1:
Tabelle mit eindimensionaler Verteilung
Bevölkerung Deutschlands am 31.12.2005 nach Familienstand Familienstand ledig verheiratet verwitwet geschieden Insgesamt
1 000 33 954 36 679 6 042 5 764 82 438
% 41,2 44,5 7,3 7,0 100
Quelle: Statistisches Jahrbuch 2007, S. 43 Der Tabellenkopf enthält jeweils die Angabe zum Merkmal bzw. zur Einheit der Spalte darunter. Der Datenbereich enthält die Werte in der darüber angegebenen Einheit, so dass z.B. 33 954 den Wert 33,954 Millionen repräsentiert. Die Summenzeile ist etwas abgerückt und fett geschrieben. Die Summe stellt den exakten Wert dar, auch wenn dieser nicht genau der Summe der darüber angegebenen, gerundeten Einzelwerte entspricht. Die Summe 100 % wird nur als 100 (ohne Nachkommastellen) geschrieben. Unter der Tabelle befindet sich die Quellenangabe zur Herkunft der Daten. In Tab. 3-2 ist eine zweidimensionale Verteilung zu sehen. Dabei ist die Bevölkerung Deutschlands nach den beiden Merkmalen „Familienstand" und „Geschlecht" mit den jeweils absoluten Häufigkeiten zu sehen. Tab. 3-2:
Tabelle mit zweidimensionaler Verteilung
Bevölkerung Deutschlands am 31.12.2005 nach Familienstand und Geschlecht Familienstand
ledig verheiratet verwitwet geschieden Insgesamt
Insgesamt
33 954 36 679 6 042 5 764
Geschlecht männlich weiblich 1 000 18313 15 641 18 294 18 385 1 112 4 930 2 622 3 142
82 438
40 340
Quelle: Statistisches Jahrbuch 2007, S. 43
42 098
3.3 Säulen-Diagramm & Co für eindimensionale Verteilungen
33
Für eine Tabelle, mit der zweidimensionale Verteilungen dargestellt werden, gibt es zahlreiche Bezeichnungen. In der Statistik wird eine solche Tabelle meist als Kontingenztabelle bezeichnet. 7 In einigen Anwendungsbereichen - insbesondere in der Marktforschung - spricht man oft von einer Kreuztabelle (auch kurz englisch: „cross tab"). Innerhalb von Excel wird sie Pivot-Tabelle genannt. Wie in Tab. 3-2 zu sehen ist, werden oft die Randsummen für beide Merkmale als eigene Zeile bzw. Spalte hinzugefügt. Die Summenspalte befindet sich meist ganz rechts, während sie hier - wie im Statistischen Jahrbuch - vor den aufgegliederten Einzelhäufigkeiten angeordnet ist. In dem Tabellenfach, in dem sich Summenzeile und -spalte treffen, befindet sich die Anzahl aller betrachteten Objekte, also die Größe der Grundgesamtheit (bei relativen Häufigkeiten muss dort immer „100" stehen). Bei Tabellen mit zweidimensionalen Verteilungen kann man anstelle von absoluten auch relative Häufigkeiten angeben. Sofern man absolute und relative Häufigkeiten parallel darstellt, muss man speziell bei Tabellen innerhalb von Präsentationen aufpassen, dass darunter nicht die Übersichtlichkeit leidet.
3.3
Säulen-Diagramm & Co für eindimensionale Verteilungen
3.3.1
Einführung
Das Säulen-Diagramm ist wohl die universellste und am häufigsten eingesetzte Diagrammart. Es bietet sich vor allem dort an, wo es einzelne, exakt abgegrenzte Ausprägungen gibt, für die jeweils eine Häufigkeit oder ein anderer Wert angegeben werden soll. Das ist insbesondere bei nominalen und ordinalen Merkmalen der Fall. In reiner Form wird dies durch das Säulen-Diagramm und seine um 90° gedrehte Version, das Balken-Diagramm, realisiert. Bei diesen beiden Diagrammarten besteht auch - im Gegensatz zu vielen anderen Typen - die Möglichkeit, negative Werte (z.B. Veränderungen) darzustellen. Das Pareto-Diagramm stellt grundsätzlich keinen eigenständigen Diagrammtyp dar, sondern ist lediglich ein Säulen-Diagramm (oder auch Balken-Diagramm), bei dem die Ausprägungen nach fallenden Werten sortiert sind, um deren Reihenfolge direkt darzustellen.
Etwas genauer wird sie z.T. bei nominalen Merkmalen „Assoziationstabelle", bei ordinalen ..Kontingenztabelle" und bei kardinalen „Korrelationstabelle" genannt.
34
3 Grundlagen der Darstellung
Eine bildliche Variante von Säulen- oder Balken-Diagramm sind PiktogrammMengen, bei denen der jeweilige Wert (bzw. die jeweilige Menge) durch mehrere gleich große (bzw. kleine) Bilder repräsentiert wird. Aufgrund ihrer engen Verwandtschaft zum Säulen-Diagramm wurden in diesem Abschnitt auch das Stab-Diagramm und das Histogramm aufgenommen. Der wesentliche Unterschied zum Säulen-Diagramm besteht bei beiden darin, dass mit ihnen metrisch skalierte Daten dargestellt werden und die X-Achse einer in der Mathematik üblichen Zahlengeraden entspricht.
3.3.2
Säulen-Diagramm
Abb. 3-5 zeigt ein typisches Säulen-Diagramm 8 .
Bevölkerung Deutschlands am 31.12.2005
ledig
verheiratet
verwitwet
Famiiienstand Quelle: Statistisches Jahrbuch 2007. s . 43
Abb. 3-5:
Säulen-Diagramm
Beim Säulen-Diagramm werden die Werte für die einzelnen Merkmalsausprägungen durch senkrecht stehende Säulen repräsentiert. Die Säulen sind alle gleich breit und mit jeweils gleichen Abständen nebeneinander angeordnet; der entsprechende Wert wird durch die Höhe wiedergegeben. Für die einzelnen Elemente und Details eines Säulen-Diagramms gilt Folgendes:
In der (insbesondere älteren) Literatur wird das Säulen-Diagramm gelegentlich auch als StabDiagramm bezeichnet. Diese Bezeichnung wird hier jedoch - der heute üblichen Praxis entsprechend - auf den in Abschnitt 3.3.6 verwendeten Diagrammtyp beschränkt.
3.3 Säulen-Diagramm & Co für eindimensionale Verteilungen
35
•
Die Höhe der Säulen sollte grundsätzlich proportional zum dargestellten Wert sein. Das bedeutet u.a., dass die Y-Achse immer bei Null beginnen sollte. Beginnen die Säulen erst bei einem Wert größer Null (z.T. bei annähernd gleich großen Werten verwendet), werden die Unterschiede zwischen den Werten optisch größer dargestellt, als sie es in Wirklichkeit sind. Der Autor könnte sich dann dem Vorwurf der Manipulation ausgesetzt sehen. Details dazu befinden sich im Abschnitt 3.8.2.
•
Die Beschriftung an den Säulen ist optional und gibt - wenn vorhanden - den Wert der Merkmalsausprägung an. Die waagerechten Gitternetzlinien, die hier zur Verdeutlichung zusätzlich gezeichnet wurden, können dann entfallen. Die Beschriftung wird zum Teil auch innerhalb der Säule platziert. Dies kann jedoch bei schmalen oder niedrigen Säulen problematisch sein. Zudem ist oft die Lesbarkeit wegen der Farbfüllung innerhalb der Säule schlechter als oberhalb.
•
Die Breite und der Abstand der Säulen wird zunächst automatisch vom verwendeten (Tabellenkalkulations-)Programm bestimmt, kann aber auf Wunsch verändert werden. In der Literatur wird üblicherweise propagiert, dass der Abstand zwischen den Säulen der halben Säulenbreite entsprechen muss. Das erscheint jedoch zu dogmatisch. Man sollte sich vielmehr an den konkreten Proportionen des gesamten Diagramms orientieren und eine ästhetisch ansprechende Darstellung wählen. Die Säulen dürfen aber auf keinen Fall direkt aneinander stoßen (das wäre dann ein Histogramm, das nur bei metrischen Merkmalen zulässig ist).
•
Die Farbe der Säulen wird in der Regel für alle gleich sein. Eine Ausnahme sind z.B. Wahlprognosen oder -ergebnisse, bei denen die Parteien üblicherweise durch für sie charakteristische Farben symbolisiert werden.
•
Die Beschriftung der X-Achsc enthält immer die Namen der Merkmalsausprägungen. Wenn der Platz - z.B. aufgrund längerer Bezeichnungen oder einer größeren Zahl von Säulen - nicht ausreicht, kann die Schrift auch um 45° oder 90° gegen den Uhrzeigersinn gedreht werden, obwohl dies die Lesbarkeit verschlechtert. Die Beschriftung ganz unten, die üblicherweise den Namen des Merkmals zeigt, kann auch entfallen, wenn der Sachverhalt eindeutig ist.
•
Die Beschriftung der Y-Achse besteht aus einem Raster von Zahlenwerten, mit denen die Höhe der Säulen schnell quantifiziert werden kann. Sofern die Einheit nicht 1 Person, 1 Stück o.ä. ist, wird oben an der Y-Achse die entsprechende Einheit (z.B. %, Euro usw.) und/oder das benötigte Zahlwort (im Beispiel „Millionen" bzw. eine Abkürzung) angegeben.
•
Die waagerechten Gitternetzlinien verbessern das Ablesen der Säulenhöhen, können aber weggelassen werden, insbesondere wenn - wie im Beispiel - die
36
3 Grundlagen der Darstellung genauen Werte oberhalb, innerhalb oder unterhalb der Säulen eingezeichnet sind. Umgekehrt können auch die Werte an den Säulen entfallen, wenn es mehr um die Größenordnung als um den exakten Wert geht.
•
Der Hintergrund der Diagrammfläche wird z.T. von den Programmen beim Erstellen der Grafik automatisch farbig (meist grau) hinterlegt, um ihn vom Rest des Diagramms mit seinen Beschriftungen usw. besser abzuheben. Dies mag bei Bildschirmpräsentationen, bei denen die farbige Wiedergabe der Säulen garantiert ist, sinnvoll sein. Bei Schwarz-Weiß-Darstellungen in Print-Medien hingegen ist der Kontrast zwischen Hintergrund und Säulen z.T. so gering, dass die Ablesbarkeit darunter leidet. Deshalb ist in der Regel ein weißer Hintergrund zu bevorzugen.
Gelegentlich findet man Säulen-Diagramme, bei denen die oberen Kanten benachbarter Säulen mit Linien verbunden sind, so dass sich über das gesamte Diagramm ein durchgehender Linienzug ergibt. Dies ist bei nominalen Merkmalen grundsätzlich abzulehnen. Zum einen würde dies einen fließenden Übergang zwischen den einzelnen Ausprägungen (den es nicht gibt) nahelegen und zum anderen eine inhaltliche Nachbarschaft zwischen zwei bestimmten Ausprägungen implizieren, obwohl deren Anordnung (nahezu) willkürlich ist. Bezüglich der Reihenfolge der Ausprägungen gibt es verschiedene Möglichkeiten: •
Sofern Merkmale ordinal oder metrisch skaliert sind, sollte immer die vorgegebene Reihenfolge der Ausprägungen eingehalten werden.
•
Ist keine solche Reihenfolge vorhanden, bietet sich die Sortierung nach steigenden oder fallenden Werten an. Dann handelt es sich um den Spezialfall eines Pareto-Diagramms (siehe dazu Abschnitt 3.3.4).
•
Eine weitere Anordnung ist die nach dem Alphabet. Dies ist zum einen neutral und erlaubt zum anderen ein schnelles Auffinden der gewünschten Ausprägung.
Weitere Details zur Sortierung der Ausprägungen nominaler Merkmale finden sich in Abschnitt 5.2.3. Das Säulen-Diagramm ist nicht nur für absolute oder relative Häufigkeiten geeignet, sondern grundsätzlich immer dann, wenn einzelnen Ausprägungen ein Wert zugeordnet ist. Dabei kann es sich z.B. um Geldbeträge (wie Umsätze oder Gewinne), Bestände (z.B. in Tonnen) oder auch um Veränderungen von Anteilen handeln. Die in solchen Fällen möglicherweise vorkommenden negativen Werte sind ebenfalls problemlos im Säulen-Diagramm darstellbar, wie Abb. 3-6 zeigt.
3.3 Säulen-Diagramm & Co f ü r eindimensionale Verteilungen
37
Veränderung bei den Parteien in Prozentpunkten % +4
+1,8 +0,8 +0,1
+0 ABC
DEF
GHI
JKL
MNO
Sonstige
•1
-1,5
-2
-3 -4
-3,5
-5
Abb. 3-6:
Säulen-Diagramm mit negativen Werten
Ein wichtiger Punkt bei jeder Art von D i a g r a m m ist die Frage, f ü r welche Art von M e r k m a l e n es geeignet ist. Da ftir j e d e dargestellte Merkmalsausprägung eine eigene, immer gleich breite Säule vorhanden ist, m u s s es sich um ein diskretes (oder zumindest klassiertes) Merkmal handeln. In der Regel wird es sich also um nominale oder ordinale Merkmale handeln. Für metrische M e r k m a l e ist das Säulen-Diagramm vor allem dann geeignet, w e n n nur eine kleine Anzahl von Ausprägungen möglich ist (z.B. Haushaltsgröße, Zahl der Kinder usw.). Für klassierte metrische M e r k m a l e sei auf die A u s f ü h r u n g e n z u m Histogramm in Abschnitt 3.3.7 verwiesen. Eine wichtige Eigenschaft des Säulen-Diagramms besteht darin, dass die Werte der einzelnen Säulen unabhängig voneinander sind und sich nicht zu einer G e s a m t s u m m e addieren müssen (aber können). Damit ist es - im Gegensatz z.B. z u m KreisD i a g r a m m - möglich, Prozentangaben darzustellen, deren S u m m e nicht 100 % beträgt. Z u m einen kann man deshalb unwichtigere Ausprägungen weglassen und muss sie nicht zu einer Säule „Sonstige" z u s a m m e n f a s s e n . Die S u m m e aller Säulen liegt dann unter 100 %. Z u m anderen lassen sich damit auch h ä u f b a r e M e r k m a l e darstellen, also solche, bei denen ein untersuchtes Objekt mehrere Ausprägungen aufweisen kann. Typische Beispiele wären die N e n n u n g von Hobbys, beherrschten Fremdsprachen, durchlebten Kinderkrankheiten usw. Die S u m m e aller Säulen kann dann beliebige Werte a n n e h m e n und sowohl unter als auch über 100 % liegen. Sofern es sich nicht für
38
3 Grundlagen der Darstellung
jeden Betrachter unmittelbar erkennbar aus dem Merkmal ergibt, sollte im Diagramm ausdrücklich auf diese Eigenschaft hingewiesen werden. Üblich ist dabei ein Zusatztext der Art „Mehrfachnennung möglich". Eine weitere, recht häufig genutzte Anwendung von Säulen-Diagrammen ist die Darstellung von Zeitreihen. Dazu werden auf der X-Achse möglichst äquidistante Zeitpunkte oder Zeiträume aufgetragen und die Höhe der Säulen entspricht dem jeweiligen Wert. Ein Beispiel dazu ist in Abb. 3-7 dargestellt.
Abb. 3-7:
Säulen-Diagramm mit Zeitreihe
Detaillierte Informationen zur Darstellung von Zeitreihen finden sich in Kapitel 7. Neben der bisher gezeigten 2D-Darstellung lassen sich Säulen-Diagramme auch in unterschiedlicher Weise in dreidimensionaler Form realisieren. Abb. 3-8 zeigt die bereits in Abb. 3-5 dargestellten Daten jetzt in 3D-Form. Neben dreidimensionalen Säulen werden in Programmen wie Excel auch andere Formen als Alternativen angeboten, z.B. Zylinder, Kegel und Pyramiden. Bei professionellen Darstellungen werden auch bildhaftere Formen (z.B. Säcke, Häuser, usw.) verwendet. Grundsätzlich geeignet sind dabei immer nur solche Formen, die lediglich in einer Dimension - beim Säulen-Diagramm also konkret der Höhe - verändert werden und deren Volumen proportional dazu variiert.
3.3 Säulen-Diagramm & Co für eindimensionale Verteilungen
39
Abb. 3-8: Säulen-Diagramm 3D Zylinder und Röhren sind dabei unproblematisch. Bei Kegeln und Pyramiden muss jedoch sichergestellt sein, dass bei einer Änderung der Höhe die Grundfläche unverändert bleibt. Das ist z.B. bei Excel der Fall. Da sich die Proportionen der Körper dann allerdings sehr deutlich mit der Höhe ändern und zudem der entscheidende Punkt oben, der ja den darzustellenden Wert repräsentiert, der kleinste Teil des Körpers ist, wird hier von solchen Formen abgeraten. Das Für und Wider von 3D-Darstellungen sowie mögliche Probleme werden ausführlich in Abschnitt 3.8.5 behandelt, so dass hier auf nähere Ausführungen verzichtet wird. Steckbrief des Säulen-Diagramms Allgemeines • • • •
alternative Bezeichnungen: z.T. Stab-Diagramm, Balken-Diagramm englische Bezeichnungen: column chart, (vertical) bar chart übliches Standard-Diagramm für die meisten Fälle betont Einzelwerte
Eignung • • • •
nominale und ordinale Merkmale; metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen; Zeitreihen häufbare Merkmale möglich Summe der Werte muss nicht 100 % entsprechen negative Werte möglich
3 Grandlagen der Darstellung
40 Realisierung • • • •
Säulen besitzen alle die gleiche Breite und den gleichen Abstand voneinander Höhe der Säulen ist proportional zur Merkmalsausprägung Farben aller Säulen i.d.R. gleich; eventuell unterschiedliche Farben, wenn diese Merkmalsausprägungen symbolisieren (z.B. in der Politik) i.d.R. maximal ca. 7 Säulen; bei Zeitreihen auch deutlich mehr
3.3.3
Balken-Diagramm
Ein Balken-Diagramm ist letztlich nur ein um 90° gedrehtes Säulen-Diagramm. Positive Werte werden dabei nach rechts, negative nach links dargestellt. Abb. 3-9 zeigt ein Balken-Diagramm für die bereits im letzten Abschnitt verwendeten Daten.
Bevölkerung Deutschlands am 31.12.2005 Familienstand ledig
verheiratet
verwitwet
geschieden
0
10
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-9:
20
30
40
50 Millionen
Balken-Diagramm
Aufgrund der Ähnlichkeit zum Säulen-Diagramm gelten nahezu alle dort gemachten Ausführungen auch hier, so dass sie nicht noch einmal wiederholt werden. Nachfolgend werden deshalb nur die Punkte aufgeführt, in denen sich Unterschiede zum Säulen-Diagramm ergeben. Durch die mit der Drehung verbundene waagerechte Anordnung der Balken und ihrer Beschriftungen ergeben sich zwei Hauptvorteile:
3.3 Säulen-Diagramm & Co fur eindimensionale Verteilungen
41
•
Für die Beschriftung steht deutlich mehr Platz zur Verfügung, ohne dass sie gegen die normale Leserichtung verdreht werden muss.
•
Es können meist wesentlich mehr Balken als Säulen dargestellt werden, da die Balken zum einen (aufgrund der anderen Anordnung der Beschriftung) dichter gezeichnet werden können und zum anderen - insbesondere auf Papier - untereinander mehr Platz als nebeneinander zur Verfügung steht.
Als weiterer Vorteil wird oft gesehen, dass bei der Anordnung untereinander die Reihenfolge neutraler wahrgenommen wird als bei einer Abfolge von links nach rechts (was gegebenenfalls auch zeitlich interpretiert werden könnte). Angesichts dieser Vorteile - unter Beibehaltung aller sonstigen Eigenschaften stellt sich die Frage, warum das Balken-Diagramm nicht das Säulen-Diagramm verdrängt hat. Offensichtlich wirkt das Säulen-Diagramm auf die meisten Betrachter intuitiv besser als das Balken-Diagramm, so dass dieses - ungeachtet seiner objektiven Vorteile - i.d.R. nur dann den Vorzug erhält, wenn eine größere Zahl von Ausprägungen darzustellen ist oder die Beschriftungen beim Säulen-Diagramm problematisch wären. Natürlich lassen sich auch Balken-Diagramme in 3D-Form realisieren. Da hier jedoch das Gleiche wie bei Säulen-Diagrammen gilt, kann an dieser Stelle auf weitere Ausführungen verzichtet werden. Das Balken-Diagramm wird gelegentlich auch zur Darstellung von Zeitreihen eingesetzt. Es ist jedoch zu bedenken, dass die meisten Betrachter den Verlauf der Zeitachse intuitiv von links nach rechts annehmen und nicht von oben nach unten. Entsprechend sollte für die Darstellung von Zeitreihen anstelle des BalkenDiagramms besser das Säulen-Diagramm verwendet werden. Steckbrief des Baiken-Diagramms Allgemeines • • •
englische Bezeichnung: bar chart Alternative zum Säulen-Diagramm, insb. wenn mehr Ausprägungen dargestellt werden sollen oder mehr Platz für Beschriftung nötig ist betont Einzelwerte
Eignung • • • •
nominale und ordinale Merkmale; metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen häufbare Merkmale möglich Summe der Werte muss nicht 100 % entsprechen negative Werte möglich
42
3 Grundlagen der Darstellung
Realisierung • • • •
Balken besitzen alle die gleiche Dicke und den gleichen Abstand voneinander Länge der Balken ist proportional zur Merkmalsausprägung Farben aller Balken i.d.R. gleich; eventuell unterschiedliche Farben, wenn diese Merkmalsausprägungen symbolisieren (z.B. in der Politik) maximale Anzahl der Balken weitgehend vom Platz abhängig; bei Präsentationen i.d.R. maximal ca. 7 Balken
3.3.4
Pareto-Diagramm
Ein Pareto-Diagramm stellt eigentlich keinen eigenständigen Diagrammtyp dar, sondern ist lediglich ein Säulen-Diagramm oder Balken-Diagramm, bei dem die Ausprägungen von links nach rechts bzw. von oben nach unten nach fallenden Häufigkeiten bzw. Werten sortiert wurden. Ausnahmsweise können auch die kleinsten Werte zuerst aufgeführt werden, wenn diese als besser gelten (z.B. Inflationsrate, Staatsverschuldung o.ä. im Ländervergleich). Ein Pareto-Diagramm dient dazu, die größten bzw. häufigsten Werte hervorzuheben und die Ausprägungen nach einer Rangfolge zu ordnen. Damit ist es dem Betrachter möglich, sofort die wichtigsten Ausprägungen zu erfassen und von den unwichtigeren zu trennen. Nähere Ausführungen dazu finden sich auch in Abschnitt 4.4. Abb. 3-10 zeigt ein Beispiel einer solchen Darstellung. Bezüglich der Art der dargestellten Merkmale ist gegenüber dem normalen Säulenbzw. Balken-Diagramm eine Einschränkung vorzunehmen. Es sollte vermieden werden, dass die aufgrund der Häufigkeiten bzw. Werte gewählte Reihenfolge der Merkmalsausprägungen im Widerspruch zu deren natürlicher Ordnung steht. Damit sollte sich der Einsatz des Pareto-Diagramms auf nominale Merkmale beschränken, da es für ordinale und metrische Merkmale weniger geeignet ist. In der Regel werden die Farben aller Säulen bzw. Balken im Pareto-Diagramm gleich sein, sofern sich nicht ausnahmsweise (z.B. bei politischen Parteien) eine „natürliche" Farbzuordnung zu den Ausprägungen anbietet. Wenn man die Position einer bestimmten Ausprägung (z.B. das eigene Land oder das eigene Unternehmen) innerhalb der Rangfolge hervorheben möchte, bietet sich dafür eine andere, auffallende Farbgebung fur diese einzelne Säule bzw. diesen einzelnen Balken an.
3.3 Säulen-Diagramm & Co fur eindimensionale Verteilungen
43
Die g r ö ß t e n Staaten in der E U Einwohnerzahl 2 0 0 4 in Millionen
182,5
Deutschland
Frankreich
160.2
Vereinigtes Königreich
j 59,8
| 57,9
Italien 142,3
Spanien
| 38,2
Polen 0
20
40
60
80
100
Quelle: Statistisches Jahrbuch Ausland 2006, S. 33 ff
Abb. 3-10: Pareto-Diagramm
Steckbrief des Pareto-Diagramms Allgemeines • • •
englische Bezeichnung: pareto chart Säulen- oder Balken-Diagramm mit Sortierung beim größten bzw. besten Wert beginnend betont Rangfolge der Einzelwerte
Eignung • • • •
i.d.R. nur nominale Merkmale häufbare Merkmale möglich Summe der Werte muss nicht 100 % entsprechen negative Werte möglich
Realisierung •
siehe Säulen- bzw. Balken-Diagramm
44
3 Grundlagen der Darstellung
3.3.5
Piktogramm-Menge
Wie in Abschnitt 3.8.5 noch näher erläutert wird, sind 2D- und 3D-Grafiken, die proportional vergrößert werden, um Größenverhältnisse darzustellen, sehr problematisch. Dies liegt daran, dass das Verhältnis von Flächen oder Volumen vom Betrachter kaum korrekt erfasst werden kann. Wenn man nicht auf Grafiken verzichten will, ist es deshalb besser, mehrere gleich große Bilder - insbesondere Piktogramme - zu verwenden und die Mengenverhältnisse durch deren jeweilige Anzahl zu symbolisieren. In Abb. 3-11 wird die Einwohnerzahl zweier Städte dargestellt, indem für j e 10000 Einwohner ein Piktogramm einer Person gezeichnet wird.
Stadt X
Stadt Y
400 MMM35500
MM |
=10000
Abb. 3-11: Piktogramm-Menge (nur ganze Symbole) Sofern jeweils die exakte Zahlenangabe vorhanden ist, kann grundsätzlich auf die in der Abbildung unten ergänzte Legende, welche die Äquivalenz eines Symbols angibt, verzichtet werden. Der Nachteil dieser Darstellungsform besteht darin, dass die Schritte mit 10 000 recht grob ausfallen. Im Beispiel fuhrt dies dazu, dass nach Anzahl der Piktogramme ein Größenverhältnis von 6:4 = 1 , 5 visualisiert wird, obwohl es korrekt mehr als 1,8 beträgt. Der Grund liegt hier in der Rundung auf ganze 10 000. Zur Lösung könnte man eine feinere Auflösung verwenden, also z.B. ein Piktogramm pro 5000, 2000 oder 1000 Einwohner. Die beiden erstgenannten Werte haben aber den Nachteil, für den Betrachter nicht so leicht erfassbar wie Werte auf ganze 1... zu sein. Bei einem Piktogramm pro 1000 Einwohner wäre allerdings eine unverhältnismäßig große Anzahl von Piktogrammen nötig. Diese müssten dann so klein gezeichnet werden, dass sie sich kaum noch von einer grauen Fläche unterscheiden würden. Der Effekt eines Bildes wäre damit nicht mehr gegeben. Eine andere Variante, die öfters verwendet wird, besteht darin, das letzte Piktogramm nur anteilig zu zeichnen. Dies zeigt Abb. 3-12 als Variation des letzten Beispiels.
3.3 Säulen-Diagramm & Co für eindimensionale Verteilungen
Stadt X
Stadt Y
MÄMI AMI |
45
-
=10000
Abb. 3-12: Piktogramm-Menge (inkl. Teilsymbole) Über die ästhetische Wirkung dieses Vorgehens kann man sicherlich geteilter Meinung sein. Die Alternative, die letzte Person kleiner darzustellen, ist aufgrund der schon genannten Problematik bei der Flächenabschätzung auch nicht besser. Das generelle Vorgehen kann natürlich in vielfältiger Weise variiert werden. Z.B. können aufeinander getürmte Geldstücke eine Säule nachbilden, während die hier gezeigte Form eher einem Balken-Diagramm entspricht. Da letztlich die reine Darstellung und nicht die konkrete Anordnung der Piktogramme die jeweilige Größe symbolisiert, ist es - anders als bei Säulen- oder BalkenDiagrammen - bei Piktogramm-Mengen nicht möglich, negative Werte darzustellen. Ebenso erscheint es sehr problematisch, Piktogramm-Mengen bei häufbaren Merkmalen einzusetzen. Würde man z.B. durch Piktogramme die Anzahl von Personen darstellen, die ein bestimmtes Hobby betreiben, könnte eine Person faktisch innerhalb eines Diagramms mehrfach abgebildet sein. Das würde aber dem intuitiven Erfassen, das man ja gerade mit den konkret abgebildeten Personen bzw. Objekten erreichen möchte, völlig zuwiderlaufen. Steckbrief der Piktogramm-Menge Allgemeines • •
Alternative zum Säulen- oder Balken-Diagramm betont Einzelwerte
Eignung • • • •
nominale und ordinale Merkmale; Visualisierung eines einzelnen Wertes häufbare Merkmale sollten vermieden werden Summe der Werte muss nicht 100 % entsprechen negative Werte nicht möglich
Realisierung • •
Anzahl der Piktogramme ist proportional zur Merkmalsausprägung bei Rundungen evtl. Teil-Piktogramme verwenden, keine Verkleinerungen
46
3 Grundlagen der Darstellung
3.3.6
Stab-Diagramm
In manchen - insbesondere älteren - Büchern wird die Bezeichnung „StabD i a g r a m m " für das verwendet, was man heute üblicherweise „Säulen-Diagramm" nennt. Gelegentlich wird dabei noch die Breite der Säulen reduziert, so dass optisch eine Stabform entsteht. Inhaltlich aber ist das Säulen-Diagramm gemeint. Im Gegensatz dazu unterscheidet sich das Stab-Diagramm, wie es heute interpretiert wird, nicht nur optisch, sondern auch inhaltlich vom Säulen-Diagramm. Während beim Säulen-Diagramm auf der Merkmals-Achse (X-Achse) diskrete, meist nominale Merkmale aufgetragen werden, befinden sich dort beim StabDiagramm Zahlenwerte, also ausschließlich metrische Merkmale. Die Stäbe werden an der Stelle auf der X - A c h s e platziert, die ihrer Ausprägung entspricht. Die Stäbe befinden sich also nicht in einer Reihe mit äquidistanten Abständen, sondern verdeutlichen eher die ihrem oberen Ende zugeordneten Punkte in einem zweidimensionalen Koordinatensystem, wie es in der Mathematik üblich ist. Die Höhe der einzelnen Stäbe entspricht der absoluten oder relativen Häufigkeit der jeweiligen Merkmalsausprägung, wobei sich die Unterscheidung zwischen absoluten und relativen Häufigkeiten nur auf die Beschriftung der Größen-Achse (Y-Achse), nicht aber auf das Diagramm selbst auswirkt.
Punkteverteilung in Klausur Häufigkeit 5
-
-
4 3 2 1
0
0
5
10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Punkte
Abb. 3-13: Stab-Diagramm Abb. 3-13 zeigt ein typisches Stab-Diagramm, bei dem die in einer Klausur erreichten Punkte dargestellt sind.
3.3 Säulen-Diagramm & Co fur eindimensionale Verteilungen
47
Es lässt sich sofort ablesen, welche Punktzahlen vorkommen (es wurden nur ganze Punkte vergeben) und wie viele Teilnehmer die jeweilige Punktzahl erreicht haben. Damit ersetzt das Diagramm faktisch eine Tabelle mit 101 Zeilen und 202 Einträgen in einer wesentlich kompakteren und übersichtlicheren Form. Ebenso lassen sich auch eine Reihe von Details direkt ablesen, z.B. die niedrigste und höchste vorkommende Punktzahl sowie die Frage, wie viele Teilnehmer die Bestehensgrenze von 50 Punkten nur knapp verfehlt haben. Excel-Tipp: Da Excel kein Stab-Diagramm zur Verfugung stellt, muss man dieses mit einem Säulen-Diagramm nachbilden. Dazu werden in einer Spalte der Excel-Tabelle alle möglichen Werte (oder auch Werteklassen) mit äquidistanten Abständen aufgetragen. Wenn also z.B. Werte zwischen einschließlich 0 und 100 möglich sind, sind diese 101 Zahlenwerte aufzutragen. Um nicht letztlich nur wieder ein Säulen-Diagramm zu erzeugen, sollte die Anzahl der Werte relativ hoch sein. 101 Werte wie im Beispiel dürften dabei eine gute Größenordnung sein. In der zweiten Spalte daneben werden die Häufigkeiten zu den Werten in der ersten Spalte eingetragen. Dabei muss gegebenenfalls eine Zuordnung durch Runden erfolgen. Bei einem Stab-Diagramm bleiben hier typischerweise viele Zellen unbesetzt (entspricht dem Wert 0). Anschließend wird zunächst ein normales Säulen-Diagramm mit dem Diagramm-Assistenten erzeugt. Die Daten in der zweiten Spalte sind dabei die Werte, die Daten in der ersten Spalte die Namen („Beschriftung der Rubrikenachse")· Die notwendige Nacharbeit umfasst insbesondere die Skalierung der Merkmals-Achse (Rubriken-Achse). Zunächst ist mit „Achse formatieren ..." die Skalierung der Rubriken-Achse passend vorzunehmen. In der Regel sollte bei „die Größenachse (Y) schneidet bei Rubrikennr." der Wert 1 angegeben werden (das entspricht dann z.B. der 0 als erstem Wert) und für „Rubrikenanzahl zwischen Teilstrichbeschriftungen" ein sinnvoller Wert (im Beispiel 5). Um die Säulen genau auf den Hilfsstrichen der Beschriftung zu platzieren, ist die Option „Größenachse (Y) schneidet zwischen Rubriken" zu deaktivieren. Ferner ist oft noch die Größen-Achse anzupassen, damit z.B. bei nur ganzzahligen Häufigkeiten keine (unmöglichen) Zwischenwerte von 0,5 angezeigt werden.
48
3 Grundlagen der Darstellung Da die Stäbe keine andersfarbige Füllung enthalten sollten, ist diese mit „Datenreihe formatieren ..." unter „Muster" und „Fläche" wie der Rahmen z.B. auf Schwarz zu setzen.
Das Stab-Diagramm besitzt eine vergleichsweise hohe Informationsdichte, da in der Regel jeder einzelne vorkommende Wert im Diagramm mit seiner individuelle Häufigkeit dargestellt ist. Die Menge an Einzelinformationen entspricht eher dem, was man sonst bei umfangreichen Tabellen statt bei Diagrammen findet. Dies ist zugleich ein wesentlicher Nachteil dieses Diagrammtyps, wenn es darum geht, Informationen im Rahmen einer Präsentation aufzubereiten. Eine entscheidende Aufgabe der Statistik besteht nämlich darin, Informationen sinnvoll zu verdichten - im Extremfall auf einen einzigen Zahlenwert wie z.B. bei Durchschnitten. Dem normalen Betrachter fallt es insbesondere schwer, die wirkliche Verteilung der Häufigkeit über die Merkmalswerte (im Beispiel die Klausurpunkte) zu erkennen. Der Grund liegt darin, dass man dafür nicht nur die Höhe der Stäbe, sondern auch ihren Abstand berücksichtigen muss. Ein Vergleich mit dem Histogramm im nächsten Abschnitt, bei dem dieselben Daten grafisch dargestellt werden, verdeutlicht dies. Dort, wo die Detailinformationen benötigt werden, ist das Stab-Diagramm sicherlich eine sinnvolle Darstellungsform. Im Rahmen üblicher Präsentationen sollte man stattdessen jedoch besser ein Histogramm verwenden. Steckbrief des Stab-Diagramms Allgemeines • • •
alternative Bezeichnung: z.T. Linien-Diagramm englische Bezeichnungen: bar chart, rod chart visualisiert Verteilung eines metrischen Merkmals
Eignung • • •
Häufigkeitsverteilung eines metrischen Merkmals mit (möglichst unklassierten) Ausprägungen keine häufbaren Merkmale möglich Summe der Häufigkeiten sollte 100 % entsprechen
Realisierung • •
X-Position der Stäbe entspricht der Merkmalsausprägung Höhe der Stäbe ist proportional zur relativen bzw. absoluten Häufigkeit der Merkmalsausprägung
3.3 Säulen-Diagramm & Co für eindimensionale Verteilungen
3.3.7
49
Histogramm
Wie beim Stab-Diagramm wird im Histogramm die Häufigkeitsverteilung eines eindimensionalen metrischen Merkmals dargestellt. Der wesentliche Unterschied besteht darin, dass hier nicht die einzelnen vorkommenden Werte betrachtet werden, sondern zuvor eine Klassierung der Daten vorgenommen wird. Dabei werden überlappungsfreie Werteklassen gebildet (also z.B. „0 bis unter 10 Punkte", „10 bis unter 20 Punkte" usw.), die den gesamten Wertebereich abdecken. Eine umfassende Darstellung zur Klassierung befindet sich in Abschnitt 5.4.1. Die Häufigkeiten der einzelnen Klassen können nun in einer Art Säulen-Diagramm dargestellt werden, wie dies Abb. 3-14 zeigt.
Punkteverteilung in Klausur Häufigkeit
18 j 16-14 12 10
6 4 2
0 J90
von ... bis unter... Punkte
Abb. 3-14: Histogramm (vereinfachte Version!)
Da die einzelnen Klassen mit ihren Grenzen unmittelbar aneinanderstoßen, werden die Säulen ohne Abstand gezeichnet. Sie bilden damit eine durchgehende Fläche, die lediglich durch die senkrechten Striche, die die Klassengrenzen markieren, unterteilt wird. Excel-Tipp: Der Abstand zwischen den Säulen kann mit „Datenreihen formatieren ..." unter „Optionen" auf 0 festgelegt werden. Die Werte an der X-Achse sind im
50
3 Grundlagen der Darstellung Beispiel reine Texte, die in die Spalte vor den entsprechenden Häufigkeiten geschrieben wurden.
Im Vergleich mit dem Stab-Diagramm im letzten Abschnitt, das dieselben Daten repräsentiert hat, lässt sich die Verteilung der Punkte und ihr Schwerpunkt im Bereich von 50 bis 89 Punkten wesentlich einfacher erkennen. Es muss an dieser Stelle jedoch betont werden, dass die Darstellung in der Abbildung nach statistischen Maßstäben noch kein Histogramm ist. Für ein Histogramm im engeren Sinne gelten folgende Regeln: •
Der gesamte Wertebereich ist in überlappungsfreie Klassen einzuteilen. Diese können, müssen aber nicht dieselbe Klassenbreite besitzen.
•
Jede Klasse wird im Histogramm durch ein Recheck repräsentiert, dessen Fläche proportional zur Häufigkeit innerhalb der entsprechenden Klasse ist.
•
Die Breite der Rechtecke entspricht der jeweiligen Klassenbreite. Die seitlichen Ränder der Rechtecke befinden sich an der X-Koordinate, die der jeweiligen Klassengrenze entspricht.
•
Auf der Y-Achse wird die Dichte aufgetragen. Diese berechnet sich aus der relativen Häufigkeit innerhalb einer Klasse geteilt durch die jeweilige Klassenbreite. Nur wenn alle Klassen dieselbe Breite besitzen, ist die Dichte - und damit die Höhe der Rechtecke - proportional zur Häufigkeit in den Klassen. Da es sich bei der Dichte um einen recht abstrakten Wert handelt, ist die Angabe konkreter Zahlenwerte an der Y-Achse weitgehend ohne Aussagekraft und kann weggelassen werden.
•
Die Gesamtfläche eines Histogramms ist 1. Dies ergibt sich automatisch durch die Definition der Dichte.
•
Die Beschriftung an der X-Achse entspricht der eines Koordinatensystems in der Mathematik. Damit werden die Werte an die entsprechenden Stellen der XAchse geschrieben und nicht mittig unter den Rechtecken platziert. Allerdings sollte dann (z.B. durch einen Zusatztext unter der X-Achse) deutlich werden, zu welcher von zwei benachbarten Klassen die jeweilige Grenze (also der entsprechende X-Wert) zwischen ihnen gehört.
Abb. 3-15 zeigt ein solches „echtes" Histogramm 9 .
Dieses Histogramm wurde zwar originär mit Excel erzeugt, jedoch manuell so stark nachbearbeitet, dass nicht mehr von einem Excel-Diagramm gesprochen werden kann.
3.3 Säulen-Diagramm & Co fur eindimensionale Verteilungen
Dichte
51
Verteilung der K ö r p e r g r ö ß e
150
160
170
180
190
200
Körpergröße von ... bis unter ... cm
Abb. 3-15: Echtes Histogramm (u.a. mit unterschiedlichen Klassenbreiten)
In der Realität werden aber überwiegend Histogramme in vereinfachter Version, also z.B. mit identischen Breiten aller Klassen, verwendet. In diesem Fall kann man u.a. an der Y-Achse auch die (absolute oder relative) Häufigkeit anstelle der doch recht abstrakten Dichte auftragen, weil beide dann proportional zueinander sind. Ein wesentlicher Grund dafür, dass echte Histogramme in Präsentationen oder Veröffentlichungen außerhalb des engeren Bereichs der Statistik die absolute Ausnahme darstellen, dürfte auch darin liegen, dass Excel und andere Programme, die zum Erzeugen von Diagrammen eingesetzt werden, solche Histogramme nicht beherrschen. Das gilt ausdrücklich auch für die „Histogramm" genannte Analyse-Funktion in Excel, die nichts anderes als ein normales Säulen-Diagramm erzeugt, in dem die Säulen sogar getrennt dargestellt werden und unterschiedliche Klassenbreiten auf die grafische Darstellung keinerlei Einfluss haben. Ein zusätzliches Problem bei der Darstellung von Daten als Histogramm besteht darin, dass die Daten oft sehr ungleich verteilt sind. Z.B. liegen die meisten Jahreseinkommen im Bereich von 0 bis 100 000 Euro, während es auch Einkommen von weit über 1 Million Euro geben kann. Selbst mit offenen Randklassen ist das nur unzureichend zu visualisieren. Leichter ist es dagegen, mehrere gleich breite Säulen in gleichmäßigen Abständen zu zeichnen und die sehr ungleichen Klassengrenzen einfach darunter zu schreiben. Selbst das Statistische Bundesamt verwendet in seinen Jahrbüchern auch bei Daten, für die nach der Theorie ein Histogramm angezeigt wäre, alternative Darstellungsformen wie Säulen- oder sogar KreisDiagramme.
52
3 Grundlagen der Darstellung
Deshalb seien in diesem Buch mit dem Schwerpunkt Präsentationsgrafik - entgegen der reinen statistischen Lehre - folgende pragmatische Empfehlungen gegeben: •
Zur Darstellung klassierter metrischer Merkmale kann Histogramms auch ein Säulen-Diagramm verwendet werden.
anstelle
eines
•
Sofern Klassen mit gleicher Breite und ohne Definitionslücken vorliegen, sollten die Säulen ohne Zwischenraum aneinanderstoßen.
•
In anderen Fällen wird ein normales Säulen-Diagramm (also mit Abstand zwischen den Säulen) verwendet.
•
Die Beschriftung, aus der eindeutig die Zuordnung der Klassengrenzen hervorgehen muss, wird mittig unterhalb der Säulen platziert.
Steckbrief des Histogramms Allgemeines • •
englische Bezeichnung: histogram visualisiert Verteilung eines metrischen Merkmals
Eignung • • •
Häufigkeitsverteilung eines metrischen, möglichst klassierten Merkmals keine häufbaren Merkmale möglich Summe der Häufigkeiten muss 100 % entsprechen
Realisierung •
• • •
•
Fläche eines Rechtecks ist proportional zur Häufigkeit innerhalb der jeweiligen Klasse (bei gleicher Breite aller Klassen ist auch die Höhe des Rechtecks proportional zur Häufigkeit innerhalb der Klasse) alle Rechtecke besitzen die gleiche Farbe X-Achse entspricht Wertebereich des Merkmals Y-Achse gibt Dichte an (bei gleicher Breite aller Klassen ist diese proportional zur absoluten und relativen Häufigkeit, die dann auch alternativ angegeben werden kann) oft wird eine vereinfachte Version in Form eines Säulen-Diagramms verwendet
3.4 Kreis-Diagramm & Co
3.4
Kreis-Diagramm & Co
3.4.1
Einführung
53
Während beim Säulen-Diagramm die Anteile bzw. Werte der einzelnen Merkmalsausprägungen als getrennte Säulen dargestellt werden, bilden alle Elemente eines Kreis-Diagramms eine geschlossene Einheit. Das Kreis-Diagramm und seine Varianten werden deshalb immer dann verwendet, wenn man vor allem den Anteil der Merkmalsausprägungen an der Gesamtheit verdeutlichen will. Umgekehrt ist es beim Kreis-Diagramm allerdings schwerer, die Größe der einzelnen Werte untereinander zu vergleichen. Gegenüber dem Säulen-Diagramm gibt es beim Kreis-Diagramm zwei Einschränkungen, die bei Fehlen der Voraussetzungen seinen Einsatz definitiv ausschließen: •
Es können keine häufbaren Merkmale dargestellt werden, weil die Summe aller Anteile im Kreis-Diagramm immer exakt 100 % entsprechen muss.
•
Es können keine negativen Werte dargestellt werden.
3.4.2
Kreis-Diagramm
Beim Kreis-Diagramm - auch als Torten- oder Kuchen-Diagramm bezeichnet werden die Merkmalsausprägungen als Segmente eines Kreises dargestellt, wie dies in Abb. 3-16 zu sehen ist. Auch wenn die Anordnung der Merkmalsausprägungen theoretisch freigestellt ist, beginnen die meisten Leser mit der Betrachtung intuitiv oben und folgenden den Ausprägungen dann im Uhrzeigersinn. Deshalb sollten die wichtigsten Ausprägungen (oft die mit den größten Anteilen) bei „12 Uhr" beginnen und dann entsprechend aufeinanderfolgen. Sofern man (nur in Ausnahmefallen!) ein ordinales oder (klassiertes) metrisches Merkmal darstellt, sollte die vorgegebene Reihenfolge ebenfalls rechts oben beginnen und im Uhrzeigersinn fortlaufend eingehalten werden.
54
3 Grundlagen der Darstellung
Abb. 3-16: Kreis-Diagramm
Beim Kreis-Diagramm geht es vor allem um die relativen Anteile an einer Gesamtheit, so dass zahlenmäßige Beschriftungen - sofern vorhanden - fast immer als Prozentwerte erfolgen (Ausnahme: Sitzverteilung in Parlamenten). Dies entspricht z.B. auch der Praxis beim Statistischen Bundesamt. 10 Sofern es ausschließlich um eine grobe Orientierung geht oder die exakten Werte zusätzlich in einer Tabelle angegeben werden, können die Prozentwerte auch weggelassen werden. Während es beim Säulen-Diagramm relativ schwierig ist, die Größe einer einzelnen Säule in Relation zur Summe aller Säulenlängen abzuschätzen, sticht dieses Verhältnis beim Kreis-Diagramm unmittelbar ins Auge. Das gilt vor allem für die Frage, ob eine Ausprägung unterhalb oder oberhalb von 25 %, 50 % oder 75 % liegt. Sofern mehrere Segmente direkt nebeneinander angeordnet sind, kann man auch direkt den Anteil einer solchen Gruppierung abschätzen. Insbesondere bei Wahlergebnissen lässt sich bei geeigneter Anordnung sofort sicher erkennen, ob eine Koalition die absolute Mehrheit errungen hat. Bei der Anordnung der Kreissegmente ist also unbedingt auf solche inhaltlich gebotenen Zusammenfassungen zu achten, um dem Betrachter die entsprechenden Informationen unmittelbar zu präsentieren. Umgekehrt ist es beim Kreis-Diagramm im Gegensatz zum Säulen-Diagramm fur den Betrachter schwierig, die Größe einzelner Kreissegmente direkt miteinander zu vergleichen. Beim Einsatz des Kreis-Diagramms sind zwei grundsätzliche Punkte zu entscheiden: Dennoch gibt es Autoren, die absolute Angaben mit der Begründung fordern, dass sich die relativen Anteile schon durch die grafisch dargestellten Größenverhältnisse erkennen lassen.
3.4 Kreis-Diagramm & Co
55
•
Für die Beschriftung der Ausprägungen gibt es zwei Möglichkeiten. Zum einen kann sie wie in Abb. 3-16 direkt am jeweiligen Kreissegment angebracht sein. Bei einer größeren Anzahl von Ausprägungen führt dies regelmäßig zu Platzproblemen, insbesondere wenn einzelne Segmente sehr klein sind und auch die Prozentwerte dargestellt werden sollen. Zum anderen kann man eine Legende verwenden, die getrennt vom Kreis in einer Ecke des Diagramms angeordnet ist. Für den Betrachter ist jedoch ein ständiger Wechsel von KreisDiagramm zu Legende und zurück sehr mühsam. Zudem ist es bei Schraffuren, Graustufen oder auch sehr kleinen Segmenten manchmal kaum möglich, die richtige Zuordnung zu finden. Von einer Legende ist deshalb eher abzuraten.
•
Anders als beim Säulen-Diagramm, wo alle Säulen meist dieselbe Farbe besitzen, müssen fur die Segmente beim Kreis-Diagramm zwingend unterschiedliche Farben verwendet werden. Dies kann nicht nur für Menschen mit Farbfehlsichtigkeit problematisch sein. Auch bei Ausdrucken oder Kopien des Diagramms in Schwarz-Weiß kann es passieren, dass vorher deutlich unterschiedliche Farben zu fast identischen und damit nicht mehr unterscheidbaren Grautönen werden. Alternativ zu Farben werden deshalb auch Schraffuren eingesetzt, die jedoch optisch meist unbefriedigend sind. Zu weiteren Details sei auf die Ausführungen in Abschnitt 3.8.4 verwiesen.
Man sollte deshalb die Anzahl der dargestellten Merkmalsausprägungen nicht zu groß wählen (maximal 5-7), die Beschriftung immer unmittelbar an den jeweiligen Segmenten platzieren und die (insbesondere nebeneinanderliegenden) Farben so wählen, dass man sie auch bei einem Schwarz-Weiß-Ausdruck sicher auseinanderhalten kann. Eine interessante - in Abb. 3-17 gezeigte - Möglichkeit des Kreis-Diagramms ist es, ein bestimmtes Segment (selten auch mehrere) aus dem Kreis herauszuziehen, um es damit optisch sehr deutlich hervorzuheben. Bezüglich der Eigenschaften der darzustellenden Merkmale sind einige Einschränkungen zu beachten: •
Der Kreis repräsentiert die Gesamtheit aller untersuchten Werte, so dass die Summe aller Ausprägungen exakt 100 % entsprechen muss.
•
Das bedeutet zum einen, dass bei Vorliegen vieler kleinerer Ausprägungen diese z.B. zu einer Ausprägung „Sonstiges" zusammenzufassen sind.
•
Zum anderen folgt daraus, dass keine häufbaren Merkmale dargestellt werden können.
56
3 Grundlagen der Darstellung
Bevölkerung Deutschlands am 31.12.2005 geschieden
7,0%
ledig
41,2%
verhi
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-17: Kreis-Diagramm mit herausgezogenem Segment •
Anders als Säulen-Diagramme & Co besitzt die Kreisanordnung weder einen Anfang noch ein Ende, so dass keine sichere Reihenfolge von Merkmalsausprägungen darstellbar ist. Damit ist das Kreis-Diagramm vor allem f ü r nominale M e r k m a l e geeignet. Lediglich dann, wenn man bei ordinalen Merkmalen auf deren Reihenfolge verzichten kann und sie auch beim Betrachter eine untergeordnete Rolle spielt, können auch ordinale Merkmale dargestellt werden. Die Ausprägungen sollten dann bei „12 Uhr" beginnend im Uhrzeigersinn dargestellt werden. Metrische Merkmale sollten nur in Ausnahmefallen dargestellt werden (vgl. Abschnitt 5.4.2).
•
Da sich im Kreis-Diagramm keine negativen Flächen (als Analogie zu Säulen unter der Nulllinie) darstellen lassen, sind hier keine negativen W e r t e möglich.
Steckbrief des K r e i s - D i a g r a m m s Allgemeines • • •
alternative Bezeichnungen: Torten-Diagramm, Kuchen-Diagramm englische Bezeichnungen: pie chart, circle graph betont Struktur einer Gesamtheit bzw. Anteil der Ausprägungen am Ganzen
Eignung • •
bevorzugt nominale Merkmale; bedingt: ordinale und metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen häufbare Merkmale nicht möglich
3.4 Kreis-Diagramm & Co • •
57
Summe der Werte muss 100 % entsprechen negative Werte nicht möglich
Realisierung • •
• • • •
Kreisanteil ist proportional zur Häufigkeit der Merkmalsausprägung alle Kreissegmente müssen unterschiedliche Farben oder Schraffuren besitzen; bei nebeneinanderliegenden Kreissegmenten ist auf deutliche Unterscheidbarkeit zu achten Hervorheben einzelner Segmente durch Herausziehen möglich Beschriftung der Ausprägungen möglichst an den Segmenten; alternativ in einer Legende Wertangaben: meist relative Häufigkeiten in % (selten: absolute Werte) i.d.R. maximal ca. 7 Kreissegmente
3.4.3
Ring-Diagramm
Beim Ring-Diagramm handelt es sich um ein Kreis-Diagramm, bei dem lediglich der innere Teil freigelassen wurde, so dass eine Ringstruktur verbleibt.
Bevölkerung Deutschlands am 31.12.2005 geschieden 7,0%
Quelle: Statistisches Jahrbuch 2007. S. 43
Abb. 3-18: Ring-Diagramm
Wie in Abb. 3-18 zu sehen ist, kann der innere Bereich für eine zusätzliche Zahlenangabe (z.B. die absolute Zahl der Gesamtheit) oder ein Bild bzw. Piktogramm genutzt werden, so dass sich gegenüber dem Kreis-Diagramm grundsätzlich ein Informationsvorteil ergibt.
58
3 Grundlagen der Darstellung
Damit ist das Ring-Diagramm oft die bessere Alternative zum Kreis-Diagramm. Lediglich das Herauslösen einzelner Segmente zur Hervorhebung wirkt beim RingDiagramm weniger ansprechend und sollte nicht verwendet werden. Steckbrief des Ring-Diagramms Allgemeines • • •
englische Bezeichnung: doughnut (donut) chart Alternative zum Kreis-Diagramm (mit Möglichkeit zur Angabe der Gesamtheit) betont Struktur einer Gesamtheit bzw. Anteil der Ausprägungen am Ganzen
Eignung • • • •
bevorzugt nominale Merkmale; bedingt: ordinale und metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen häufbare Merkmale nicht möglich Summe der Werte muss 100 % entsprechen negative Werte nicht möglich
Realisierung • •
• • • • •
Ringanteil ist proportional zur Häufigkeit der Merkmalsausprägung alle Ringsegmente müssen unterschiedliche Farben oder Schraffuren besitzen; bei nebeneinanderliegenden Ringsegmenten ist auf deutliche Unterscheidbarkeit zu achten möglichst kein Hervorheben einzelner Segmente durch Herausziehen Beschriftung der Ausprägungen möglichst an den Segmenten; alternativ in einer Legende Wertangaben: meist relative Häufigkeiten in % (selten: absolute Werte) in der Ringmitte möglichst die absolute Summe aller Werte angeben i.d.R. maximal ca. 7 Ringsegmente
3.4.4
Halbring-Diagramm
Das Halbring-Diagramm als eine Untervariante des Ring-Diagramms dient - z.T. auch grafisch entsprechend aufbereitet - vor allem dazu, die Sitzverteilung in einem Parlament darzustellen. Dabei wird die Sitzanordnung im Parlament durch eine entsprechende Halbkreisstruktur visualisiert, wie dies das Beispiel in Abb. 3-19 zeigt. Wie schon beim Ring-Diagramm kann man den freien Platz im Zentrum für die wichtige Zusatzangabe der Sitzzahl nutzen.
3.4 Kreis-Diagramm & C o
59
Sitzverteilung LMN
Abb. 3-19: Halbring-Diagramm
Auch hier zeigt sich als wesentlicher Vorteil des Kreis-Diagramms und seiner Varianten, dass man - eine geeignete Anordnung vorausgesetzt - unmittelbar die Mehrheitsverhältnisse ablesen kann. So lässt sich im gezeigten D i a g r a m m direkt erkennen, dass sowohl eine Koalition der Parteien A B C und L M N als auch eine von L M N , RST und X Y Z über eine absolute Mehrheit im Parlament verfugen würde. Excel-Tipp: Excel bietet das Halbring-Diagramm nicht standardmäßig an. Es kann j e d o c h mit etwas Nacharbeit aus dem Ring-Diagramm erzeugt werden. Zunächst muss in der zugrunde liegenden Tabelle neben den dazustellenden Ausprägungen eine weitere mit der S u m m e über all diese Ausprägungen ergänzt werden. A m einfachsten geschieht dies mit der Excel-Funktion SUMME. Im nächsten Schritt wird zunächst ein normales Ring-Diagramm generiert. U m die zusätzliche Ausprägung, die genau die Hälfte des Rings ausmacht, nach unten zu drehen, ist mit „Datenreihen formatieren ..." unter „ O p t i o n e n " der „Winkel des ersten S e g m e n t s " auf 270° festzulegen. Anschließend wird das Zusatz-Segment selektiert und mit „Datenpunkt formatieren ..." wird unter „ M u s t e r " sowohl dessen Rahmen als auch dessen Fläche unsichtbar geschaltet (jeweils „keine" anklicken). Der wesentliche Einsatzbereich des Halbring-Diagramms ist die symbolische Darstellung von Parlamentssitzen. Außerhalb dieses sehr begrenzten Gebiets wird es k a u m verwendet, da Kreis- oder Ring-Diagramm die „rundere" Darstellung bieten. Auch das meist deutlich schwierigere Erzeugen eines solchen Diagramms spricht gegen die häufigere V e r w e n d u n g .
60
3 Grandlagen der Darstellung
Steckbrief des Halbring-Diagramms Allgemeines •
Alternative zum Kreis- oder Ring-Diagramm; nur dann verwenden, wenn die Verteilung von Parlamentssitzen visualisiert werden soll
Eignung • •
möglichst nur für absolute Anzahl von Parlamentssitzen Summe der Werte muss der gesamten Sitzzahl entsprechen
Realisierung •
Ringanteil ist proportional zur Sitzzahl
•
alle Ringsegmente müssen unterschiedliche Farben besitzen (i.d.R. durch Symbolik der Parteien vorgegeben) Anordnung der Segmente möglichst so, dass Mehrheiten wahrscheinlicher oder tatsächlicher Koalitionen direkt erkannt werden können
• • • •
möglichst kein Hervorheben einzelner Segmente durch Herausziehen Beschriftung der Ausprägungen möglichst an den Segmenten; alternativ in einer Legende Wertangaben: absolute Zahl der Sitze der jeweiligen Partei
•
in der Mitte des Halbrings möglichst die Gesamtzahl der Sitze angeben
3.4.5
Stapelsäule
Eine Stapelsäule entspricht in der Anwendung weitgehend dem Kreis-Diagramm. Anstelle eines Kreises mit seinen Kreissegmenten wird hier jedoch eine Säule aus einzelnen Rechtecken zusammengesetzt. In Abb. 3-20 werden die schon in den letzten Abschnitten verwendeten Daten als Stapelsäule dargestellt. Im Vergleich zum Kreis-Diagramm können die Beschriftungen bei der Stapelsäule meist etwas besser platziert werden. Allerdings lassen sich die Anteile etwas schlechter erfassen. Insbesondere Grenzen wie 25 % oder 50 % , die beim KreisDiagramm durch die Winkel 90° bzw. 180° sofort ins Auge fallen, sind hier deutlich schlechter zu erkennen. Die grafische Form, die einerseits nicht abgeschlossen ist und andererseits eine klare Richtung mit Anfang und Ende (bzw. oben und unten) besitzt, erlaubt bezüglich der darstellbaren Merkmale gegenüber dem Kreis-Diagramm gewisse Unterschiede: •
Neben nominalen Merkmalen sind bei der Stapelsäule auch ordinale und metrische Merkmale möglich (letztere klassiert oder mit wenigen diskreten Ausprägungen).
61
3.4 Kreis-Diagramm & C o
Bevölkerung Deutschlands am 31.12.2005 7,0%
geschieden
7,3%
verwitwet
44,5%
verheiratet
ledig
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3 - 2 0 : Stapelsäule
•
•
Auch wenn im Regelfall durch die Stapelsäule eine Gesamtheit vollständig repräsentiert wird, kann man in begründeten Fällen auch Daten darstellen, die nur eine Teilmenge des G a n z e n umfassen, also in Summe weniger als 100 % . W i e beim Kreis-Diagramm gilt allerdings auch hier, dass keine negativen W e r t e und keine h ä u f b a r e n M e r k m a l e möglich sind.
Die einzelne Stapelsäule wird bei eindimensionalen Verteilungen eher selten eingesetzt, sondern hat ihre Berechtigung vor allem bei der Darstellung von zweidimensionalen Verteilungen (siehe Abschnitt 3 . 6 . 4 ) und von Veränderungen der Anteile über die Zeit (Abschnitt 7.4), wo mehrere Stapelsäulen innerhalb eines Diagramms nebeneinander dargestellt werden. Auch für die Präsentation einer Untergruppe ist sie in Verbindung mit einem Kreis-Diagramm geeignet (siehe dazu nächsten Abschnitt). S t e c k b r i e f d e r Stapelsäule Allgemeines •
alternative Bezeichnung: Komponentensäule
•
englische Bezeichnung: stacked bar
•
betont Struktur einer Gesamtheit bzw. Anteil der Ausprägungen am Ganzen
•
Einsatz vor allem als Element innerhalb anderer Diagrammarten
62
3 Grundlagen der Darstellung
Eignung • • • •
bevorzugt nominale und ordinale Merkmale; bedingt: metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen häufbare Merkmale nicht möglich Summe der Werte sollte 100 % entsprechen (das kann sich aber auch auf eine Teilmenge beziehen) negative Werte nicht möglich
Realisierung • •
• • •
Flächenanteil ist proportional zur Merkmalsausprägung alle Segmente müssen unterschiedliche Farben oder Schraffuren besitzen; bei nebeneinanderliegenden Segmenten ist auf deutliche Unterscheidbarkeit zu achten Beschriftung der Ausprägungen möglichst an den Segmenten; alternativ in einer Legende Wertangaben: meist relative Häufigkeiten in % (selten: absolute Werte) i.d.R. maximal ca. 7 Segmente
3.4.6
Zweistufiges Kreis-Diagramm
Bei Tabellen wurde bereits gezeigt, dass eine zwei- bzw. mehrstufige Gliederung auch bei eindimensionalen Verteilungen sinnvoll sein kann, um bestimmte Teilmengen besser hervorzuheben und die entsprechenden Werte für den Betrachter unmittelbar ablesbar zu machen (siehe Abschnitt 3.2.2).
Bevölkerung Deutschlands am 31.12.2005
verheiratet 45% verwitwet 7%
nicht verheiratet 55%
geschieden 7%
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-21: Kombination: Kreis-Diagramm und Stapelsäule
3.5 Linien-Diagramm & Co
63
Abb. 3-21 zeigt eine grafische Form einer solchen Gliederung, die eine Kombination von Kreis-Diagramm und Stapelsäule verwendet. Ein zweites Kreis-Diagramm anstelle der Stapelsäule wäre in diesem Fall nicht angebracht, da sich u.a. die Prozentwerte dort nicht auf 100 % addieren. Bei der Stapelsäule stört diese Beschränkung auf eine Teilmenge von kleiner als 100 % jedoch nicht.
3.5
Linien-Diagramm & Co
3.5.1
Einführung
Das Linien-Diagramm und seine Varianten unterscheiden sich vom SäulenDiagramm vor allem dadurch grundlegend, dass auf der X-Achse nicht diskrete, meist nominale oder ordinale Werte aufgetragen sind, sondern ein metrisches Merkmal, das zumindest potenziell stetig ist. Die durchgezogene Linie zwischen j e zwei benachbarten Werten impliziert geradezu einen stetigen Übergang zwischen ihnen. Damit verbietet sich ein Einsatz des Linien-Diagramms bei nominalen oder ordinalen Merkmalen. Leider findet man solche Darstellungen aber dennoch. Insbesondere in der Marktforschung oder der Psychologie werden bestimmte Eigenschaften von Personen oder Unternehmen in Form von „Profilen" dargestellt. Dabei werden dann Ausprägungen wie „Gewissenhaftigkeit" und „Extrovertiertheit" in willkürlicher Reihenfolge angeordnet und die oft in Prozent oder Punkten ermittelten Werte benachbarter Ausprägungen durch Linien miteinander verbunden, als ob hier eine Verbindung oder gar ein fließender Übergang bestünde. Aus statistischer Sicht ist so etwas Unsinn und deshalb abzulehnen. Gleiches gilt auch für die z.B. von Excel angebotenen Netz-Diagramme. Der in der Präsentationsgrafik eindeutig wichtigste Einsatzbereich für LinienDiagramme ist die Darstellung von Zeitreihen. Auf der X-Achse werden dann die Zeitpunkte bzw. -räume angegeben. Bei einem stetigen Merkmal wie der Zeit bietet sich die Darstellung mit kontinuierlichen Übergängen an. Z.B. wird die Einwohnerzahl einer Großstadt in der Regel nur in Jahreschritten veröffentlicht, aber es erscheint selbstverständlich, dass die Änderungen mehr oder weniger gleichmäßig zwischen diesen Zeitpunkten stattfinMehr im Bereich von Mathematik, Naturwissenschaft und Technik findet man die Linien-Diagramme mit anderen Merkmalen auf der X-Achse. Dies sind dann oft Darstellungen von mathematischen Funktionen, die hier nicht betrachtet werden
64
3 Grundlagen der Darstellung
sollen. Sofern es sich dabei um eine Funktion handelt, die aus einem empirisch ermittelten Zusammenhang gewonnen wurde, bietet sich - wenn die zugrunde liegenden Messpunkte verfugbar sind - eher die Form des Streu-Diagramms an, in das eine Regressionsfunktion eingezeichnet wird (siehe dazu Abschnitt 3.7.2). Als Spezialfall ist das Häufigkeits-Polygon zu betrachten. Dieses basiert zwar auf dem in Abschnitt 3.3.7 behandelten Histogramm, gehört aber zeichnerisch zu den Linien-Diagrammen und wird deshalb an dieser Stelle beschrieben.
3.5.2
Linien-Diagramm
Das Linien-Diagramm (auch Kurven-Diagramm genannt) entspricht im Prinzip dem Säulen-Diagramm, jedoch werden die Werte hier statt durch Säulen durch Punkte repräsentiert, die durch Linien verbunden sind. Abb. 3-22 zeigt ein typisches Linien-Diagramm für eine Zeitreihe.
Die Punkte können dabei auch weggelassen werden, was insbesondere dann sinnvoll ist, wenn sehr viele Werte dargestellt werden. Andererseits erleichtern die sichtbaren Punkte jedoch die Ablesbarkeit, wenn keine deutlichen Knicke vorhanden sind. Eine alternative Darstellung besteht darin, die Punkte wegzulassen und stattdessen die Knickpunkte durch senkrechte Gitternetzlinien zu verdeutlichen, wie dies Abb. 3-23 zeigt.
3.5 Linien-Diagramm & Co
65
Um das Diagramm nicht zu überfrachten, wurden dafür die waagerechten Linien weggelassen. Die schlechtere Ablesbarkeit der Werte wurde dann durch das Hinzufügen von Zahlenangaben mehr als ausgeglichen. Welche der Varianten man wählt, ist letztlich Geschmackssache. Die in Abb. 3-22 gezeigte Form ist die übliche und wird von Computer-Programmen meist auch automatisch erzeugt, während für die Version nach Abb. 3-23 manuelle Nacharbeit erforderlich ist. In diesem Buch wird durchgängig die gebräuchliche erste Form verwendet. Es ist möglich, in einem Linien-Diagramm nicht nur eine, sondern auch zwei o d e r m e h r Z e i t r e i h e n darzustellen. Abb. 3-24 zeigt ein Beispiel dazu. Die l n t e r s c h e i d u n g d e r Linien kann auf verschiedene Arten erfolgen, die auch kombiniert werden können: •
unterschiedliche Farbe (Vorsicht bei Schwarz-Weiß-Ausdrucken oder -Kopien!)
•
unterschiedliche Linienart (durchgezogen, gestrichelt usw.); gegebenenfalls auch unterschiedliche Liniendicke (Achtung: Linien wirken dann nicht mehr gleichwertig)
•
unterschiedliche Symbole für die Datenpunkte (Kreis, Quadrat, Dreieck usw.)
66
3 Grundlagen der Darstellung
250 Wert 1 200
150
100
50
0 2000
τ 2001
τ 2002
. 2003
τ 2004
,
,
,
,
I
2005
2006
2007
2008
2009
Abb. 3-24: Linien-Diagramm mit zwei Zeitreihen
Für die Beschriftung der Zeitreihen gibt es zwei Möglichkeiten: •
Die Bezeichnung wird jeweils direkt im Diagramm an die jeweilige Zeitreihe geschrieben.
•
Es wird eine Legende hinzugefugt, in der Zeitreihen über ihre Farbe usw. einer Bezeichnung zugeordnet werden.
In der Regel ist die Beschriftung direkt an der Zeitreihe zu bevorzugen, weil das Lesen einer Legende vom Betrachter immer einen zusätzlichen Aufwand erfordert. Zudem kann die Erkennbarkeit bei Schwarz-Weiß-Darstellungen problematisch sein. Weitere Details zur Darstellung einer oder mehrerer Zeitreihen - nicht nur mit Linien-Diagrammen - finden sich in Kapitel 7. Steckbrief des Linien-Diagramms Allgemeines • • • •
alternative Bezeichnung: Kurven-Diagramm englische Bezeichnungen: line chart, line graph Standard-Diagramm für Zeitreihen betont Verlauf einer Zeitreihe
Eignung • •
metrische Merkmale bzw. Werte im Zeitverlauf über mehrere Perioden Wert kann Bestände oder Ereignisse repräsentieren
3.5 Linien-Diagramm & Co • •
67
mehrere Zeitreihen in einem Diagramm möglich negative Werte möglich
Realisierung • • • • •
jeder Punkt (wenn vorhanden) repräsentiert den Wert für eine Periode Punkte werden durch gerade Linien miteinander verbunden X-Skala entspricht betrachtetem Zeitraum; Perioden sollten äquidistant sein Y-Skala entspricht Wertebereich; sollte möglichst 0 einschließen bei mehreren Zeitreihen Beschriftung möglichst direkt an jeweiliger Zeitreihe; Unterscheidung der Zeitreihen durch Farbe, Linienart und Art der Punkte
3.5.3
Flächen-Diagramm
Eine direkte Variante des Linien-Diagramms ist das Flächen-Diagramm. Dabei wird die Fläche zwischen der Linie und der X-Achse mit einer Farbe, Graustufe oder Schraffur ausgefüllt. Gegenüber dem Linien-Diagramm werden die Punkte an den Knickstellen weggelassen. Abb. 3-25 zeigt die bereits im letzten Abschnitt verwendeten Daten in einem entsprechenden Diagramm.
2000
2001
2002
2003
2004
2005
2006
2007
200B
2009
Abb. 3-25: Flächen-Diagramm
Auch wenn man dies gelegentlich (sogar im Statistischen Jahrbuch) sieht, sollte man von Flächen-Diagrammen Abstand nehmen, wenn Werte nicht nur positiv, sondern auch negativ werden.
68
3 Grundlagen der Darstellung
Grundsätzlich ist es auch bei Flächen-Diagramm möglich, mehr als eine Zeitreihe darzustellen. Dass dies allerdings problematisch ist, lässt sich in Abb. 3-26 zu erkennen.
Diese Darstellung erlaubt zwei Interpretationen: •
Die Fläche fur „Süd" reicht von der X-Achse bis zur Oberkante dieser Fläche, so dass für das Jahr 2000 der Wert 150 dargestellt wird.
•
Die Fläche für „Süd" reicht von der Oberkante der Fläche für „Nord" bis zur Oberkante von „Süd, entspricht also damit einer Analogie zu einer Stapelsäule. Für das Jahr 2000 wird damit ein Wert von 45 (= 150 - 105) dargestellt.
Ohne nähere Erläuterungen ist es für den Betrachter nicht möglich, sich zwischen diesen beiden - im Ergebnis völlig unterschiedlichen Varianten - zu entscheiden. Selbst wenn unzweifelhaft feststeht, dass beide Flächen jeweils von der X-Achse ab zu rechnen sind, kann sich bei bestimmten Wertekombinationen noch das Problem ergeben, dass die vordere Fläche Teile der hinteren verdeckt. Insgesamt ist die Darstellung von mehr als einer Zeitreihe mittels FlächenDiagramm als problematisch anzusehen und sollte deshalb möglichst unterbleiben. Da dies aber in der Praxis immer wieder zu sehen ist, sind im Kapitel über Zeitreihen weitere Informationen zu dieser Darstellungsform zu finden (Abschnitt 7.4).
3.5 Linien-Diagramm & Co
69
Steckbrief des Flächen-Diagramms Allgemeines • • •
englische Bezeichnung: area chart alternative Diagrammart zum Linien-Diagramm betont Verlauf einer Zeitreihe
Eignung metrische Merkmale bzw. Werte im Zeitverlauf über mehrere Perioden Wert kann Bestände oder Ereignisse repräsentieren mehrere Zeitreihen in einem Diagramm möglich, aber ungünstig negative Werte sollten vermieden werden Realisierung • • • • •
jede (potentielle) Knickstelle repräsentiert den Wert für eine Periode Knickstellen werden durch gerade Linien miteinander verbunden und die Fläche bis zur Nulllinie wird farbig ausgefüllt X-Skala entspricht betrachtetem Zeitraum; Perioden sollten äquidistant sein Y-Skala entspricht Wertebereich; sollte möglichst 0 einschließen bei mehreren Zeitreihen: Beschriftung direkt in jeweiliger Fläche Unterscheidung durch Farbe oder Schraffur • Verdecken der hinteren Fläche durch vordere vermeiden » eventuell 3D-Effekt verwenden, um Interpretationsprobleme (kumulierte Darstellung?) zu vermeiden
3.5.4
Häufigkeits-Polygon
Ein Häufigkeits-Polygon (auch: Häufigkeitsdichte-Kurve) ist ein Linienzug, mit dem die Häufigkeitsverteilung eines metrischen Merkmals dargestellt wird. Es lässt sich aus dem Histogramm (siehe Abschnitt 3.3.7) ableiten. Dazu werden Punkte gesetzt, die in der Mitte des oberen Randes der Rechtecke im Histogramm liegen. Diese Punkte werden dann mit einem durchgehenden Linienzug von der kleinsten bis zur größten Klassen verbunden. Als Diagramm sieht dies wie in Abb. 3-27 aus.
70
3 Grundlagen der Darstellung
Punkteverteilung in Klausur Häufigkeit 18 T
1614
1210 8 6 4 2
0 < 10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
>90
von ... bis unter... Punkte
Abb. 3-27: Häufigkeits-Polygon mit unterlegtem Histogramm Bei der Darstellung eines Häufigkeits-Polygons wird in der Regel natürlich das zugrunde liegende Histogramm, das hier zur Verdeutlichung eingezeichnet wurde, weggelassen. Ein Problembereich, der beim Häufigkeits-Polygon immer besteht, sind die Ränder rechts und links, die hier bewusst nicht dargestellt wurden. Im Wesentlichen gibt es folgende Varianten: •
Die Linienzüge werden an beiden Seiten bis zur unteren bzw. oberen Klassengrenze an die Nulllinie (X-Achse) verlängert. Das führt jedoch dazu, dass die beiden Randklassen optisch deutlich kleiner dargestellt werden, als es ihrer Häufigkeit entspricht. Grundsätzlich sollte die Fläche unterhalb des Häufigkeits-Polygons exakt der des Histogramms entsprechen, und zwar auch für jede einzelne Klasse.
•
Die Linienzüge werden an beiden Seiten bis zur Mitte der nicht mehr vorhandenen nächsten Nachbarklasse der Randklasse auf die Nulllinie verlängert. Damit werden die Flächen jetzt korrekt wiedergegeben. Allerdings wird nun fälschlicherweise eine positive Dichte in einem Wertebereich dargestellt, in dem überhaupt keine Werte liegen oder gar liegen können. Konkret für das Beispiel in Abb. 3-27 würde ein solches Häufigkeits-Polygon suggerieren, dass es auch Klausuren mit negativen Punkten (bis -5) gegeben hat.
•
Um beide Probleme zu vermeiden, kann man die beiden äußeren Enden weglassen. Allerdings wirkt dies so, als ob die Grafik „in der Luft hängt". Zudem wird dann nicht unmittelbar deutlich, wie weit sich der Wertebereich erstreckt.
3.6 Säulen-Diagramm & Co für zweidimensionale Verteilungen
71
Wie sich zeigt, gibt es keine wirklich befriedigende Lösung des Problems der äußeren Enden des Häufigkeits-Polygons. Da auch die restliche Darstellung letztlich nur das wiedergibt, was auch dem wesentlich plastischeren und eingängigeren Histogramm entspricht, gibt es keinen Grund, anstelle des Histogramms ein HäufigkeitsPolygon zu verwenden. Es sei an dieser Stelle noch erwähnt, dass mit dem Summenhäufigkeits-Polygon (auch: Ogive) eine Variante existiert, bei der statt der einzelnen Häufigkeiten die kumulierten Häufigkeiten bis zur jeweils aktuellen Klasse dargestellt werden. Damit lässt sich z.B. direkt ablesen, in welcher Klasse der 50%-Wert (der Zentralwert; siehe Abschnitt 9.3) liegt. Angesichts der insgesamt eher ungünstigen Darstellungsform wird jedoch auf weitere Ausführungen dazu verzichtet. Steckbrief des Häufigkeits-Polygons Allgemeines • • • •
alternative Bezeichnung: Häufigkeitsdichte-Kurve englische Bezeichnung: frequency polygon Alternative zum Histogramm (dieses ist zu bevorzugen) visualisiert Verteilung eines metrischen Merkmals
Eignung • • •
Häufigkeitsverteilung eines metrischen, möglichst klassierten Merkmals keine häufbaren Merkmale möglich Summe der Häufigkeiten muss 100 % entsprechen
Realisierung • •
entspricht einem Linienzug, der die Mittelpunkte der oberen Kanten der Rechtecke eines Histogramms verbindet (Histogramm selbst wird nicht gezeichnet) problematische Darstellung der beiden äußeren Klassen (s.o.)
3.6
Säulen-Diagramm & Co für zweidimensionale Verteilungen
3.6.1
Einführung
Zweidimensionale Verteilungen lassen sich insbesondere bei nominalen und ordinalen Merkmalen sehr gut mit Säulen- oder Balken-Diagrammen darstellen. Dabei gibt
72
3 Grundlagen der Darstellung
es für die Art und Weise, in der die zweite Dimension repräsentiert wird, recht unterschiedliche Lösungen, die in den nächsten Unterabschnitten vorgestellt werden.
3.6.2
Gruppensäulen-Diagramm
Abb. 3-28 zeigt das Prinzip des Gruppensäulen-Diagramms.
Bevölkerung Deutschlands am 31.12.2005 Millionen 20
18
12
10 8 6 4 2
0 männlich
weiblich
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-28: Gruppensäulen-Diagramm
Wie beim normalen (eindimensionalen) Säulen-Diagramm gibt es ein übergeordnetes Merkmal 1, dessen Ausprägungen unterhalb der X-Achse aufgetragen sind. Anstelle einzelner Säulen befindet sich darüber aber jeweils eine Gruppe von Säulen. Diese Säulen repräsentieren die Verteilung des Merkmals 2 für die Wertepaare, bei denen Merkmal 1 den Wert besitzt, der unter der Gruppe angegeben ist. Im Prinzip handelt es sich beim Gruppensäulen-Diagramm faktisch um mehrere getrennte Säulen-Diagramme, die mit einem Abstand nebeneinander im selben Diagramm platziert sind. Während fur die Darstellung von Merkmal 1 grundsätzlich dieselben Regeln wie beim normalen Säulen-Diagramm gelten, ergeben sich für die Darstellung von Merkmal 2 folgende Unterschiede: •
Die Säulen innerhalb einer Gruppe müssen sich alle durch die Farbe, die Graustufe oder (bei Schwarz-Weiß-Darstellung) die Schraffur unterscheiden.
3.6 Säulen-Diagramm & Co f u r zweidimensionale Verteilungen
73
•
Die Säulen innerhalb einer G r u p p e werden ohne Abstand (manchmal sogar überlappend) angeordnet.
•
Die N a m e n der Ausprägungen von Merkmal 2 werden üblicherweise nicht an die Säulen geschrieben, sondern über die Farben zugeordnet und in einer Legende angegeben.
Welches der beiden Merkmale als M e r k m a l 1 übergeordnet und welches als Merkmal 2 untergeordnet ist, hängt vor allem davon ab, was man ausdrücken oder betonen möchte. Dabei gilt, dass die direkt nebeneinanderliegenden Säulen innerhalb einer G r u p p e leichter untereinander vergleichbar sind als die entsprechenden Säulen zwischen den einzelnen Gruppen. Auch die Anzahl der Ausprägungen kann hier von Bedeutung sein, da man möglichst nicht mehr als vier Säulen innerhalb der Gruppen darstellen sollte. In Abb. 3-28 kann man besonders gut die Verteilung der Familienstände f ü r j e d e s der beiden Geschlechter getrennt erkennen. O b es hingegen bei den Geschiedenen oder Verwitweten mehr Frauen als Männer gibt, springt nicht besonders stark ins Auge. Das ändert sich, w e n n man die A n o r d n u n g der beiden Merkmale vertauscht, wie dies in Abb. 3-29 zu sehen ist.
Bevölkerung Deutschlands am 31.12.2005 Millionen
20 18
16 14 12
10 8 6 4
2
0 ledig
verheiratet
verwitwet
geschieden
Quelle; Statistisches Jahrbuch 2007, S. 43
Abb. 3-29: Gruppensäulen-Diagramm - Merkmal 1 und 2 getauscht Jetzt zeigt sich sehr deutlich der Frauenüberschuss bei Geschiedenen und vor allem bei Verwitweten.
74
3 Grundlagen der Darstellung
Die Beispiel-Diagramme zeigen, dass für jede Kombination der Ausprägungen beider Merkmale (im Beispiel also 2 - 4 = 8) eine eigene Säule vorhanden ist. Damit kann der Wert fur jede Kombination unmittelbar aus dem Diagramm abgelesen werden. Gelegentlich werden die Säulen auch so angeordnet, dass sie sich innerhalb einer Gruppe überlappen. Dies zeigt Abb. 3-30.
Bevölkerung Deutschlands am 31.12.2005 Millionen 20 18 16
14 12 Η männlich
10
0 weiblich
«Γ
, Β ledig
verheiratet
verwitwet
.
geschieden
Quelle: Statistisches Jahrbuch 2007, S 43
Abb. 3-30: Gruppensäulen-Diagramm mit überlappenden Säulen
Der Vorteil überlappender Säulen besteht darin, Platz zu sparen, da eine Gruppe jeweils kompakter dargestellt wird. Wenn dies allerdings relevant ist, besteht ohnehin die Gefahr, dass das Diagramm zu viele Einzelwerte enthält. Der Nachteil besteht darin, dass die vorderen Säulen die hinteren teilweise verdecken und damit den optischen Eindruck verzerren. Zum einen könnte die Reihenfolge von vorne nach hinten als Wertung interpretiert werden und zum anderen besitzt die Farbe der vorderen Säule automatisch einen wesentlich größeren Flächenanteil am Diagramm als es den Anteilswerten der jeweiligen Ausprägungen entspricht. Tendenziell sollte man bei überlappender Anordnung der Säulen die Reihe mit den kleineren Ausprägungen vorne platzieren und mit einer helleren, weniger dominanten Farbe darstellen. Insgesamt sei von überlappenden Säulen aber eher abgeraten. Sowohl für Merkmal 1 als auch Merkmal 2 können neben nominalen, ordinalen und metrischen Merkmalen mit wenigen (möglichst diskreten) Ausprägungen auch Zeitpunkte bzw. Zeiträume angegeben werden. Damit lassen sich Vergleiche der Ver-
3.6 Säulen-Diagramm & Co fur zweidimensionale Verteilungen
75
teilung eines Merkmals zwischen zwei oder mehr Zeitpunkten bzw. -räumen anstelAbb. 3-31 zeigt ein Beispiel für den wohl häufigsten Fall, bei dem zwei Zeiträume als Merkmal 2 dargestellt werden, also in jeder Säulengruppe jeweils zwei Säulen für die beiden betrachteten Zeiträume vorhanden sind.
Deutsche Exporte in ausgewählte Länder Mrd. Euro
90
Belgien
Frankreich
Italien
Niederlande
UK
Quelle: Statistisches Jahrbuch 2008. S. 478
Abb. 3-31: Gruppensäulen-Diagramm mit zwei Zeiträumen als Merkmal 2 Dadurch, dass die entsprechenden Werte für die beiden Zeiträume unmittelbar nebeneinander stehen, lässt sich sofort erkennen, ob eine Zunahme oder Abnahme stattgefunden hat. Ein Beispiel, bei dem die Zeit als Merkmal 1 auf der X-Achse aufgetragen ist, findet sich im Kapitel über Zeitreihen in Abschnitt 7.4. Steckbrief des Gruppensäulen-Diagramms Allgemeines • • •
englische Bezeichnungen: clustered column chart, grouped bar chart Standard-Diagramm für zweidimensionale Verteilungen qualitativer Merkmale betont Einzelwerte und deren Vergleich
76
3 Grundlagen der Darstellung
Eignung •
• • •
zweidimensionale Verteilung zweier nominaler oder ordinaler Merkmale; alternativ: metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen oder Zeitreihen mit sehr wenigen Perioden häufbare Merkmale möglich Summe der Werte muss nicht 100 % entsprechen negative Werte möglich
Realisierung • • • • • * •
jede Gruppe entspricht weitgehend einem eigenen Säulen-Diagramm alle Säulen besitzen die gleiche Breite die Säulen innerhalb einer Gruppe haben unterschiedliche Farben und berühren oder überlappen sich die Gruppen haben untereinander jeweils den gleichen Abstand Beschriftung der Säulen innerhalb der Gruppen über Legende i.d.R. maximal ca. 6 Gruppen i.d.R. maximal ca. 4 - 6 Säulen in jeder Gruppe
3.6.3
Gruppenbalken-Diagramm
Anstelle von Gruppensäulen können natürlich auch Gruppenbalken verwendet werden, wie Abb. 3-32 zeigt. Der wesentliche Vorteile gegenüber der Säulenform ist - wie schon bei eindimensionalen Verteilungen - der größere Platz für Beschriftungen. Das gilt für die Angabe der Ausprägungen von Merkmal 1, aber auch fur die Angabe der exakten Werte für jeden einzelnen Balken. Diese Angaben lassen sich bei Gruppensäulen normalerweise aufgrund des knappen Raums überhaupt nicht realisieren. Sofern die Werte als Beschriftung der einzelnen Balken vorhanden sind, werden üblicherweise die Gitternetzlinien weggelassen. Ansonsten entspricht das Gruppenbalken-Diagramm in seinen Eigenschaften dem Gruppensäulen-Diagramm, so dass hier auf die dortigen Ausführungen verwiesen werden kann.
3.6 Säulen-Diagramm & Co fur zweidimensionale Verteilungen
77
Bevölkerung Deutschlands am 31.12.2005 18,31
ledig
118,29 3 18,39
verheiratet
verwitwet
ι jP1111 ] 4,93
Θ männlich E3 weiblich
12.62 β 3,14
geschieden
0
5
10
15
20 Millionen
Quelle: Statistisches Jahrbuch 2007, S. 43 Abb. 3-32:
Gruppenbalken-Diagramm
Steckbrief des Gruppenbalken-Diagramms Allgemeines • • •
englische Bezeichnungen: clustered bar chart, grouped bar chart Alternative zum Gruppensäulen-Diagramm, wenn mehr Gruppen oder längere Beschriftungen notwendig sind weitere Details siehe unter Gruppensäulen-Diagramm
3.6.4
Stapelsäulen-Diagramm
Eine alternative Möglichkeit zu Gruppensäulen stellen Stapelsäulen dar. Bei diesen werden die Säulen einer Gruppe (also für jeweils eine Ausprägung von Merkmal 1) aufeinandergestapelt dargestellt. Dies zeigt Abb. 3-33.
78
3 Grundlagen der Darstellung
Bevölkerung Deutschlands am 31.12.2005 Millionen 40 35 30 25 20
Ξ weiblich
15
Ξ männlich
10 5
0 ledig
verheiratet
verwitwet
geschieden
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-33: Stapelsäulen-Diagramm Diese Form der Darstellung ist vor allem dann sinnvoll, wenn man sich für die Randverteilung von Merkmal 1 interessiert und diese direkt ablesbar sein soll. Damit ist die Summe der Merkmalskombinationen gemeint, bei der Merkmal 1 jeweils die eine an der X-Achse angegebene Ausprägung besitzt, während alle Ausprägungen von Merkmal 2 zusammengefasst werden. Im Ergebnis handelt es sich also um ein Säulen-Diagramm für Merkmal 1, bei dem lediglich die einzelnen Säulen nach der sogenannten bedingten Verteilung" von Merkmal 2 in Form einer Stapelsäule untergliedert wurden. Im Beispiel lässt sich die Anzahl der Ledigen direkt ablesen, während man bei Gruppensäulen erst rechnen müsste. Umgekehrt besitzen die genauen Werte für die Ausprägungen innerhalb einer Stapelsäule (also des Merkmals 2) bei diesem Diagrammtyp nur untergeordnete Bedeutung. Insbesondere lässt sich lediglich der Wert für die Ausprägung der jeweils untersten Teilsäule (im Beispiel „männlich") direkt ablesen, während die darüberliegenden Teilsäulen in ihrer Höhe nur geschätzt werden können. Man kann zwar die Werte der Teilsäulen auch in das jeweilige Segment hineinschreiben, allerdings ist der Kontrast zur Farbe bzw. Schraffur oft recht gering. Zudem gibt es Probleme bei kleinen Teilsäulen (in Abb. 3-33 z.B. bei den verwitweten Männern).
Unter einer bedingten Verteilung versteht man hier die Verteilung für Merkmal 2, wenn man nur die Merkmalskombinationen betrachtet, bei denen Merkmal 1 einen bestimmten Wert besitzt.
3.6 Säulen-Diagramm & Co für zweidimensionale Verteilungen
79
Eine Voraussetzung für den Einsatz von Stapelsäulen ist, dass zumindest Merkmal 2 nicht häufbar ist, da sonst die Summe nicht sinnvoll wäre. Würde man z.B. Angaben von Hobbys übereinander stapeln, so könnte sich eine Stapelsäule ergeben, deren Gesamtgröße über der Anzahl der betrachteten Personen liegt. Weiterhin sollte jede einzelne Stapelsäule die jeweilige Teilmenge, die durch die Ausprägung auf der XAchse gegeben ist, vollständig (also zu genau 100 %) abdecken. Eine Variante der gezeigten Diagrammform sind normierte Stapelsäulen (auch 100%-Säulen-Diagramm genannt), wie sie in Abb. 3-34 für dieselben Daten zu sehen sind.
Bevölkerung Deutschlands am 31.12.2005
Eg weiblich Eä männlich
ledig
verheiratet
verwitwet
geschieden
Quelle: Statistisches Jahrbuch 2007, S. 43 A b b . 3-34: N o r m i e r t e s S t a p e l s ä u l e n - D i a g r a m m
Diese Darstellung ist interpretationsbedürftig und ihre Verwendung damit nicht unkritisch. Innerhalb jeder Ausprägung von Merkmal 1 (hier Familienstand) wird getrennt von den anderen Ausprägungen! - auf 100 % normiert. Damit lässt sich z.B. direkt ablesen, dass von den Ledigen gut 50 % männlich sind, während dies bei den Verwitweten nur knapp 20 % sind. Die Gefahr besteht jedoch darin, dass man unzulässigerweise die Höhe der Teilsäulen von verschiedenen Stapeln vergleicht. Z.B. könnte man anhand der Größen annehmen, dass es mehr geschiedene als verheiratete Frauen gibt, obwohl umgekehrt die Zahl der verheirateten Frauen die der geschiedenen fast um den Faktor 6 übersteigt.
80
3 Grundlagen der Darstellung
Das Diagramm mit normierten Stapelsäulen sollte deshalb nur sehr eingeschränkt und in einem eindeutigen Kontext verwendet werden, um mögliche Fehlinterpretationen beim Betrachter, der oft einen erklärenden Begleittext nicht sorgfältig liest, zu vermeiden. Wie beim Gruppensäulen-Diagramm ist es auch beim Stapelsäulen-Diagramm möglich, die Entwicklung über die Zeit darzustellen. Hier kann allerdings - wie leicht nachvollziehbar sein dürfte - ausschließlich Merkmal 1 die Zeitachse bilden. Beispiele dazu finden sich im Kapitel über Zeitreihen in Abschnitt 7.4. Steckbrief des Stapelsäulen-Diagramms Allgemeines t • t •
alternative Bezeichnungen: additives oder gegliedertes Säulen-Diagramm, Komponentensäulen-Diagramm englische Bezeichnungen: stacked column chart, stacked bar chart, divided bar chart Alternative zum Gruppensäulen-Diagramm, wenn beide Merkmale ungleiche Gewichtung erhalten sollen liefert Einzelwerte für Merkmal 1 und deren Gliederung bzw. Vergleich bedingter Verteilungen nach Merkmal 2
Eignung •
• • •
zweidimensionale Verteilung zweier nominaler oder ordinaler Merkmale; alternativ: metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen; Zeitreihenwerte nur für Merkmal 1 möglich häufbare Merkmale nur für Merkmal 1 möglich Summe der Werte muss bei Merkmal 1 nicht 100 % entsprechen, bei Merkmal 2 sollte dies der Fall sein negative Werte nicht möglich
Realisierung • • • • •
entspricht einem Säulen-Diagramm für Merkmal 1, bei dem die einzelnen Säulen als Stapelsäulen für die bedingte Verteilung von Merkmal 2 ausgeführt sind alle Stapelsäulen besitzen die gleiche Breite und haben untereinander jeweils den gleichen Abstand bei Zeitverläufen in Merkmal 1 können die Übergänge der Teilsäulen zwischen den Perioden verbunden werden Beschriftung der Teilsäulen innerhalb der Stapelsäule über Legende i.d.R. maximal ca. 7 Stapelsäulen (bei Zeitreihen auch mehr)
3.6 Säulen-Diagramm & Co fur zweidimensionale Verteilungen • •
81
i.d.R. maximal ca. 7 Teilsäulen in einer Stapelsäule Spezialfall normierte Stapelsäulen: alle Stapelsäulen sind gleich hoch (= 100 %) • die Teilsäulen geben nur relative bedingte Anteile wieder
3.6.5
Stapelbalken-Diagramm
Auch zu Stapelsäulen gibt es - wie Abb. 3-35 zeigt - natürlich die Stapelbalken als Alternative.
Bevölkerung Deutschlands am 31.12.2005
ledig
verheiratet a männlich • weiblich verwitwet
geschieden
0
10
20
30
40 Millionen
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-35: Stapelbalken-Diagramm
Da die übrigen Eigenschaften mit denen des Stapelsäulen-Diagramms identisch sind, wird hier auf die dortigen Ausführungen verwiesen. Steckbrief des S t a p e l b a l k e n - D i a g r a m m s Allgemeines • • • • •
alternative Bezeichnungen: additives oder gegliedertes Balken-Diagramm englische Bezeichnungen: stacked bar chart, divided bar chart Alternative zum Stapelsäulen-Diagramm, wenn mehr Gruppen oder längere Beschriftungen notwendig sind für Zeitreihen weniger geeignet als Stapelsäulen-Diagramm weitere Details siehe unter Stapelsäulen-Diagramm
82
3 Grundlagen der Darstellung
3.6.6
3D-Säulen-Feld
Bei der Darstellung einer zweidimensionalen Verteilung geht es darum, in Abhängigkeit von zwei Werten einen dritten (die Häufigkeit) darzustellen. Damit bietet es sich geradezu an, eine dreidimensionale Form zu wählen, bei der die beiden untersuchten Merkmale auf den Achsen X und Y aufgetragen werden, während die Häufigkeit (oder auch ein sonstiger Zahlenwert) als dritte Dimension der Z-Achse entspricht. Mit heutigen Computer-Programmen ist es sehr einfach, solche Darstellungen mit wenigen Tastendrücken zu erzeugen. Für die Daten aus den letzten Abschnitten kann dies wie in Abb. 3-36 gezeigt aussehen.
Bevölkerung Deutschlands am 31.12.2005 Millionen
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-36: 3D-Säulen-Feld In ihren Eigenschaften entspricht diese Diagrammart weitgehend dem Gruppensäulen-Diagramm. Optisch gilt das insbesondere dann, wenn dort überlappende Säulen dargestellt werden. Unterschiede können sich jedoch für die Farbgestaltung und die Beschriftung ergeben: •
Analog zu den Gruppensäulen kann man fur die Ausprägungen eines der beiden Merkmale jeweils eine eigene Farbe wählen. Dies ist hier zwar nicht zwingend, verbessert aber die Übersichtlichkeit.
3.6 Säulen-Diagramm & Co für zweidimensionale Verteilungen •
83
Die dreidimensionale Anordnung erlaubt eine direkte Beschriftung für die Ausprägungen beider Merkmale. Damit ist eine Legende in der Regel nicht mehr notwendig.
Das bereits bei 3D-Säulen-Diagrammen für eindimensionale Verteilungen auftretende Problem, die Höhe von Säulen abzulesen, verschärft sich hier dadurch, dass die vordere Reihe eine größere Entfernung zu den Wänden aufweist. Weiterhin können die Säulen im Vordergrund die im Hintergrund verdecken. Wenn beide Merkmale noch mehr Ausprägungen besitzen (und nicht wie hier nur zwei Reihen existieren), wird die Übersichtlichkeit und Ablesbarkeit noch weiter eingeschränkt. Deshalb sollte man sich ernsthaft überlegen, ob man wirklich dem (vermeintlichen) Trend zu 3D-Darstellungen folgt oder doch lieber auf die informativeren 2D-Formen zurückgreift. Weitere Ausführungen zur Problematik von 3D-Darstellungen finden sich in Abschnitt 3.8.5. Steckbrief des 3D-Säulen-Feldes Allgemeines • •
Alternative zum Gruppensäulen-Diagramm betont Einzelwerte und (eingeschränkt) deren Vergleich
Eignung •
• • •
zweidimensionale Verteilung zweier nominaler oder ordinaler Merkmale; alternativ: metrische Merkmale mit wenigen (diskreten oder klassierten) Ausprägungen oder Zeitreihen mit sehr wenigen Perioden häufbare Merkmale möglich Summe der Werte muss nicht 100 % entsprechen negative Werte praktisch nicht möglich
Realisierung • • • • • • • •
die beiden Merkmale werden auf den Achsen Breite und Tiefe aufgetragen, ihre Werte entsprechen der Höhe der 3 D-Säulen für jede Merkmalskombination gibt es eine eigene Säule durch geeignete Anordnung möglichst Verdecken kleiner Säulen vermeiden die Säulen haben untereinander jeweils den gleichen Abstand alle Säulen besitzen die gleiche Grundfläche die Säulen können alle die gleiche Farbe haben oder alternativ zeilen- oder spaltenweise unterschiedliche Farben Beschriftung der Säulen an beiden liegenden Achsen i.d.R. maximal ca. 6 Säulen für jede Dimension
84
3.6.7
3 Grundlagen der Darstellung
Paarbalken-Diagramm
Das Paarbalken-Diagramm dient dazu, für zwei Personen, Objekte (z.B. Unternehmen) oder Gruppen (z.B. männlich/weiblich) die Ausprägung verschiedener Eigenschaften gegenüberzustellen. Diese Gegenüberstellung erfolgt durch zwei Reihen von Balken, die fur das eine Objekt nach links und für das andere Objekt nach rechts gezeichnet werden. Abb. 3-37 zeigt ein typisches Beispiel, bei dem die Einschätzung der Kompetenzen zweier Parteien durch die Wähler verglichen wird.
Abb. 3-37: Paarbalken-Diagramm
Das Merkmal 1 ist hier die Aufteilung in die beiden betrachteten Personen, Objekte oder Gruppen. Es muss entsprechend dichotom sein, darf also - zumindest für die hier vorgenommene Betrachtung - nur zwei Ausprägungen besitzen. Im Beispiel sind diese beiden Ausprägungen des Merkmals „Partei" die Werte „XY-Partei" und „ABC-Partei". Die Beschriftung für dieses Merkmal wird üblicherweise über den jeweiligen Balkenreihen platziert, manchmal auch darunter. Das zweite Merkmal wird in der Senkrechten aufgetragen, wobei die Beschriftung meist links, manchmal auch zwischen den Balkenreihen steht. Die Werte für die Ausprägungen dieses Merkmals dürfen nicht negativ sein. Für dieses zweite Merkmal gibt es sehr unterschiedliche Möglichkeiten. Hier einige wenige Beispiele, die die Bandbreite aufzeigen:
3.6 Säulen-Diagramm & Co fur zweidimensionale Verteilungen
85
•
Eigenschaften oder Kompetenzen, die mit Prozentwerten von 0 bis 100 oder auch auf einer Skala (z.B. von 0 bis 10) bewertet werden
•
Umsätze, Verkaufszahlen o.ä., die in einer Währung, Stück usw. angegeben werden
•
nominale, ordinale oder auch klassierte metrische Merkmale, bei denen absolute oder relative Häufigkeiten angegeben werden (z.B. eine Alterspyramide für die beiden Geschlechter; siehe dazu Abschnitt 6.5)
Dabei sind alle Werte in derselben Einheit bzw. Skalierung (z.B. in %) anzugeben. Excei-Tipp: Excel bietet das Paarbalken-Diagramm nicht direkt als Diagrammart an. Es kann jedoch mit vertretbarem Aufwand aus einem Gruppenbalken-Diagramm abgeleitet werden. Dazu müssen die Werte, die den nach links zeigenden Balken entsprechen, negiert werden, also ein negatives Vorzeichen erhalten. Dann wird zunächst auf normale Art ein Gruppenbalken-Diagramm erzeugt. Durch Anklicken einer Datenreihe und dem Aufruf von Datenreihen formatieren ..." wird unter „Optionen" eine Überlappung (von z.B. 100) eingestellt, bei der sich die entsprechenden Balken der beiden Reihen genau gegenüber stehen. Um das negative Vorzeichen der Werte der linken Datenreihe (und bei Bedarf auch einer Achsen-Beschriftung) optisch zu entfernen, wird mit „Datenbeschriftungen formatieren ..." unter „Zahlen" das benutzerdefinierte Format „0;0" eingetragen (oder bei Bedarf auch .,0%;0%" o.a.). Damit werden auch negative Werte ohne Vorzeichen dargestellt. Um die Beschriftung der vertikalen Achse (Merkmal 2) nach links zu verschieben, wird „Achse formatieren" aufgerufen und unter „Muster" die Auswahl „Teilstrichbeschriftungen" auf „ T i e f gesetzt. Optional kann jetzt noch der senkrechte Strich zwischen den beiden Balkenreihen durch einen kleinen Abstand ersetzt werden, indem man die Achse dick und mit weißer Farbe darstellen lässt (unter „Achse formatieren" und „Muster"). Grundsätzlich entspricht ein Paarbalken-Diagramm weitgehend einem Gruppenbalken-Diagramm, jedoch mit der Besonderheit, dass die Gruppen nur genau zwei Balken enthalten und diese Balken gegenüber statt nebeneinander angeordnet sind. In Zeitungen oder im Fernsehen findet man das Paarbalken-Diagramm relativ häufig, wenn es um die Gegenüberstellung zweier Personen, Unternehmen oder Grup-
86
3 Grundlagen der Darstellung
pen geht. Das gilt insbesondere für die politische Berichterstattung, bei der z.B. zwei führende Parteien oder Spitzenkandidaten miteinander verglichen werden. Eine recht häufig anzutreffende Variante des Paarbalken-Diagramms ist das PaarHistogramm. Dabei wird in der Senkrechten ein metrisches, meist klassiertes Merkmal aufgetragen und die einzelnen Balken werden - wie beim Histogramm bündig aneinander gezeichnet. Diese Darstellung ist vor allem in Form von Alterspyramiden bekannt. Ein Beispiel dazu befindet sich in Abschnitt 6.5. Dass das Paarbalken-Diagramm in Präsentationen oder Veröffentlichungen nicht sehr häufig genutzt wird, könnte damit zusammenhängen, dass es in Excel (leider) nicht als Standard-Diagramm angeboten wird. Der Excel-Tipp oben zeigt jedoch, wie man dieses aussagekräftige Diagramm mit vertretbarem Aufwand dennoch erzeugen kann. Steckbrief des Paarbalken-Diagramms Allgemeines • • • •
alternative Bezeichnungen: Spiegel-Diagramm, Rücken-an-Rücken-Diagramm, Tornado-Diagramm, Paar-Histogramm, Doppel-Histogramm, ...-Pyramide englische Bezeichnungen: tornado diagram,... pyramid Alternative zu einem Gruppenbalken-Diagramm mit Zweier-Gruppen vergleicht zwei Verteilungen
Eignung • • • •
Merkmal 1 muss dichotom sein; Merkmal 2 ist nominal, ordinal oder metrisch mit wenigen (diskreten oder klassierten) Ausprägungen häufbare Merkmale möglich Summe der Werte muss nicht 100 % entsprechen negative Werte nicht möglich
Realisierung • • • • •
wie ein Gruppenbalken-Diagramm mit Zweier-Gruppen, bei dem die Balken für das zweite Merkmal nicht nebeneinander, sondern gegenüber platziert sind bei klassiertem metrischen Merkmal 2 werden die Balken ohne Abstand gezeichnet und bilden damit ein Histogramm die Balken rechts und links können gleiche oder unterschiedliche Farbe besitzen Beschriftung für Merkmal 1 oben oder unten, für Merkmal 2 links oder zwischen den Balkenreihen i.d.R. maximal ca. 7 Balkenpaare; bei Histogrammen auch deutlich mehr
87
3.7 Streu-Diagramm & C o
3.7
Streu-Diagramm & Co
3.7.1
Einführung
Sofern eine zweidimensionale Verteilung unklassierter metrischer Daten vorliegt, bietet sich deren Darstellung in F o r m eines Streu-Diagramms an. Damit lassen sich besser als in allen anderen F o r m e n auch Z u s a m m e n h ä n g e zwischen den beiden Merkmalen erkennen. Eine Variante davon, die sich in speziellen Fällen besser eignet, ist das BlasenDiagramm, das hier ebenfalls vorgestellt wird.
3.7.2
Streu-Diagramm
Ausgangspunkt eines Streu-Diagramms (auch P u n k t - D i a g r a m m genannt) ist die Erhebung einer zweidimensionalen Verteilung, bei der beide Merkmale metrisch sind und die Werte j e w e i l s in unklassierter Form vorliegen. Für j e d e s untersuchte Objekt gibt es dann eine Kombination zweier Zahlenwerte, die als Punkt in ein zweidimensionalen Koordinatensystem eingetragen werden kann.
Punkteverteilung zweier Klausuren Punkte Klausur 2 100 * *
80 -
• : ••• v • * • %V *
„ • * • • * •* • • * ν -y
60
•
40
»
20
•
•
*•
•
*
•
»
¥»
0 0
20
40
60
80
Punkte Klausur 1
Abb. 3-38: Streu-Diagramm für die Punkteverteilung zweier Klausuren
100
88
3 Grundlagen der Darstellung
In Abb. 3-38 sind die (fiktiven) Ergebnisse von hundert Studierenden eingetragen, die jeweils an zwei zusammengehörigen Klausuren teilgenommen haben. In jeder Klausur konnten zwischen 0 und 100 Punkten erreicht werden. Jeder Punkt im Streu-Diagramm repräsentiert also einen einzelnen Studierenden mit seinen beiden Klausurergebnissen. Sofern ein Merkmal vom anderen (kausal) abhängig ist, wird das unabhängige Merkmal immer auf der X-Achse und das abhängige Merkmal auf der Y-Achse aufgetragen. Der wesentliche Vorteil dieser Darstellung besteht darin, dass man sofort sieht, ob ein auffallender (statistischer) Zusammenhang zwischen den beiden Merkmalen besteht und wie dieser gegebenenfalls aussieht. In der Abbildung kann man direkt erkennen, dass größere Punktzahlen bei Klausur 1 tendenziell zusammen mit größeren Punktzahlen in Klausur 2 auftreten. Es liegt also offensichtlich eine positive Korrelation vor. Ob man den Nullpunkt (0; 0) auch dann angibt, wenn sich alle Werte relativ weit davon entfernt konzentrieren, lässt sich nicht allgemeingültig sagen. Grundsätzlich dürfte aber hier die Gefahr von Fehlinterpretationen oder gar Manipulationen geringer als z.B. bei Linien-Diagrammen mit Zeitreihen sein. Würde man bei der Darstellung von Körpergröße und Körpergewicht erwachsener Personen z.B. die Körpergröße von 0 bis 200 cm skalieren, so würde rund Dreiviertel des verfügbaren Platzes in dieser Dimension verschenkt und die Ablesbarkeit im verbleibenden Teil stark eingeschränkt. Um ein Streu-Diagramm sinnvoll einsetzen zu können, sollte zumindest eine gewisse Anzahl von Wertepaaren vorhanden sein. Umgekehrt kann bei vielen Wertepaaren - insbesondere im Verhältnis zu den möglichen Merkmalskombinationen - der Fall eintreten, dass zwei oder mehr Punkte genau aufeinanderliegen. Sofern es sich nur um wenige solcher Fälle handelt, wird das Gesamtbild nicht beeinträchtigt. Sollte jedoch ein nennenswerter Teil der Punkte betroffen sein, sieht das anders aus. Im nachfolgenden Beispiel wurden die Punkte der Klausuren aus dem letzten Beispiel in ganze Notenstufen von 1 bis 5 umgewandelt. Trägt man jetzt die Kombination dieser Noten anstelle der Punkte in ein Streu-Diagramm, ergibt sich die Darstellung von Abb. 3-39.
89
3.7 Streu-Diagramm & C o
Notenverteilung zweier Klausuren Note Klausur 2
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
1
2
3
4
5
Note Klausur 1
Abb. 3-39: Streu-Diagramm für die Notenverteilung zweier Klausuren Für die 100 Wertepaare stehen jetzt nur noch 25 mögliche Kombinationen und damit Plätze im Streu-Diagramm zur Verfugung. Damit repräsentieren die meisten der Punkte im D i a g r a m m mehrere Studierende, ohne dass dies sichtbar wird. Faktisch zeigt das D i a g r a m m nur noch die Notenkombinationen an, die v o r g e k o m m e n sind. A u ß e r der recht dürftigen Aussage, dass Personen mit einer 1 in Klausur 2 nicht schlechter als 3 in Klausur 1 geschrieben haben (und ähnlich im umgekehrten Fall), ist nichts mehr an Informationen zu entnehmen. In diesem Fall ist das Streu-Diagramm durch ein Blasen-Diagramm zu ersetzen (siehe nächsten Abschnitt). Die Alternativen, die gelegentlich genannt werden (z.B. unterschiedliche Darstellung von Doppel- und Dreifachpunkten - was faktisch die Schmalspurversion eines Blasen-Diagramms wäre - oder das Hinzufugen eines kleinen Zufallsfehlers, u m übereinanderliegende Punkte etwas versetzt zu zeichnen), überzeugen nicht und werden deshalb auch nicht weiter beschrieben. Die Punkte im Streu-Diagramm können durch eine Linie ergänzt werden, die den Z u s a m m e n h a n g zwischen beiden M e r k m a l e n verdeutlichen soll. In der Statistik spricht man von einer Regressionsfunktion, in Excel wird dies als „Trendlinie" bezeichnet. Diese lässt sich bei der heute üblichen Software mit wenigen Mausklicks realisieren, ohne dass hierzu irgendwelche statistischen Kenntnisse notwendig wäAbb. 3-40 zeigt dies f ü r das bereits oben verwendete Streu-Diagramm.
90
3 Grundlagen der Darstellung
Punkteverteilung zweier Klausuren Punkte Klausur 2
Punkte Klausur 1
Abb. 3-40: Streu-Diagramm mit linearer Regressionsfunktion
Der Benutzer kann in Excel u.a. zwischen einer linearen, einer logarithmischen oder einer exponentiellen Trendlinie wählen. Obwohl es sich jeweils um das identische Streu-Diagramm handelt, wird dem Betrachter eine der völlig konträren Trendlinien als Interpretation geradezu aufgedrängt. Abb. 3-41 zeigt für identische Punkte eine ganz andere - jetzt logarithmische - Regressionsfunktion.
Punkteverteilung zweier Klausuren Punkte Klausur 2
Punkte Klausur 1
Abb. 3-41: Streu-Diagramm mit logarithmischer Regressionsfunktion
91
3.7 Streu-Diagramm & Co
Es muss an dieser Stelle betont werden, dass die Regressionsanalyse, die zu einer solchen Trendlinie fuhren kann (!), eine umfassende inhaltliche und statistische Beschäftigung mit den Daten sowie entsprechende Kenntnisse voraussetzt. Ob überhaupt ein Zusammenhang zwischen den beiden Merkmalen plausibel ist und um welche Art von Zusammenhang (z.B. positiv oder negativ; linear oder exponentiell) es sich handelt, muss zunächst inhaltlich geklärt werden. Dazu sind in der Regel umfangreiche Erfahrungen und theoretisches Wissen im jeweiligen Sachgebiet erforderlich. Im nächsten Schritt kann man dann mit statistischen Methoden (die man beherrschen muss!) daran gehen, zu überprüfen, ob ein vermuteter Zusammenhang statistisch nachweisbar ist. Erst anschließend kann man sich von einem Programm die passende Regressionsfunktion berechnen und als Trendlinie in das StreuDiagramm einzeichnen lassen. Jede andere Vorgehensweise muss als willkürlich bezeichnet werden und setzt den Ersteller des Diagramms eventuell dem Vorwurf der Manipulation aus. Das Streu-Diagramm kann auch bei dreidimensionalen Verteilungen eingesetzt werden, bei denen neben den beiden (unklassierten) metrischen Merkmalen noch ein drittes, qualitatives Merkmal mit wenigen Ausprägungen vorhanden ist. Ein Beispiel dazu ist in Abb. 3-42 zu sehen.
Personen nach Körpergröße und Gewicht Gewicht in kg
120-1 100 80 60
•
•
• männlich • weiblich
••
40 20
0 150
160
170
180
190
200
Körpergröße in cm
Abb. 3-42: Streu-Diagramm mit drittem Merkmal
Es handelt sich um zwei oder mehr getrennte Punktmengen, die durch die Farbe und/oder Form der Punkte unterschieden werden können.
92
3 Grundlagen der Darstellung
Im Beispiel sind die beiden Ausprägungen „weiblich" und „männlich" des dritten Merkmals „Geschlecht" dargestellt. Damit ist z.B. sehr gut erkennbar, dass Männer in der Regel größer als Frauen sind und entsprechend auch ein höheres Gewicht aufweisen. Generell sollte das dritte Merkmal nur sehr wenige Ausprägungen aufweisen. Sofern Farbe zur Unterscheidung verwendet werden kann, dürften vier bis fünf eine sinnvolle Obergrenze bilden, bei Schwarz-Weiß-Darstellungen sind zwei bis höchstens drei Ausprägungen zu empfehlen. Excel-Tipp: Um ein Streu-Diagramm mit mehreren Punktmengen zu erzeugen, wird zunächst ein Diagramm für eine der qualitativen Ausprägungen in normaler Form erstellt. Anschließend kann man mit „Datenquelle ..." unter „Reihe" eine oder mehrere weitere Datenreihen hinzufugen, mit einem Namen versehen (für die Legende) und die Punkte anschließend in gewünschter Weise verändern (z.B. in Farbe, Form und Größe). In der zugrunde liegenden Excel-Tabelle werden die Datenreihen fur die einzelnen Ausprägungen des dritten Merkmals am besten untereinander als jeweils zweispaltige Auflistung eingegeben. Steckbrief des Streu-Diagramms Allgemeines • • • •
alternative Bezeichnung: Punkt-Diagramm englische Bezeichnungen: scatter chart, scatter plot, scatter diagram Standard-Diagramm für zweidimensionale metrische Verteilung visualisiert den Zusammenhang zweier metrischer Merkmale
Eignung • • • •
zweidimensionale Verteilung zweier unklassierter metrischer Merkmale optional zusätzliches qualitatives Merkmal mit wenigen Ausprägungen möglich Problem, wenn identische Merkmalskombinationen mehrfach vorkommen (dann evtl. Übergang zum Blasen-Diagramm) negative Werte als Ausprägung möglich
Realisierung • •
jeder Punkt repräsentiert eine Merkmalskombination (i.d.R. ein Objekt) X- und Y-Skala entsprechen Wertebereich des jeweiligen Merkmals
3.7 Streu-Diagramm & Co • •
93
optionales zusätzliches (qualitatives) Merkmal über verschiedene Arten von Punkten darstellbar Trendlinie darf nur verwendet werden, wenn inhaltlich begründbar
3.7.3
Blasen-Diagramm
Wenn zu einer Merkmalskombination zweier metrischer Merkmale nicht nur jeweils ein Objekt, sondern in zumindest nicht unerheblichem Umfang mehrere Objekte gehören, ist das Streu-Diagramm - wie im letzten Abschnitt dargelegt - nicht besonders geeignet. Das gleiche gilt dann, wenn generell zu einer Merkmalskombination keine Häufigkeitsangabe, sondern ein sonstiger (Mess-)Wert gehört. Z.B. kann man Unternehmen mit ihren Eigenschaften Beschäftigtenzahl und Eigenkapitalquote in ein zweidimensionales Koordinatensystem eintragen und an diesem Punkt ihren Umsatz visualisieren. Es handelt sich dann nicht mehr um eine zweidimensionale, sondern um eine dreidimensionale Verteilung dreier metrischer Merkmale. In beiden Fällen benötigt man an der Stelle, an der das Objekt anhand der beiden erfassten Merkmale eingetragen wird, eine Darstellung des dortigen Wertes bzw. der entsprechenden Häufigkeit. Hierfür bietet sich das Blasen-Diagramm an. Bei diesem werden keine Punkte, sondern ausgefüllte Kreise (Blasen) zur Darstellung verwendet. Die Größe (die Fläche, nicht der Durchmesser!) des Kreises ist dann proportional zur Anzahl identischer Wertepaare, die gemeinsam an der betreffenden Stelle einzuzeichnen sind, bzw. zum dazugehörigen Messwert. Abb. 3-43 zeigt dies für die zwei Klausuren, die bereits im letzten Abschnitt als Beispiel verwendet wurden. Die Blase am Schnittpunkt (1; 2) besagt z.B., dass es 4 Teilnehmer gegeben hat, die in der ersten Klausur eine 1 und in der zweiten Klausur eine 2 geschrieben haben. Dabei handelt es sich faktisch um klassierte metrische Daten, da die Punkte beider Klausuren jeweils in Klassen eingeordnet wurden, denen dann allerdings eine Note statt eines Klassenmittels zugeordnet wurde. Im Beispiel wurden die Blasen durch Zahlenangaben ergänzt, so dass - wie bei einer zweidimensionalen Tabelle - alle Werte exakt abgelesen werden können. Geht es nur um die relative Größenordnung, werden die Zahlenangaben weggelassen.
94
3 Grundlagen der Darstellung
Notenverteilung zweier Klausuren Note Klausur 2
1
2
3
4
5
Note Klausur 1
Abb. 3-43: Blasen-Diagramm für klassierte Merkmale Excel-Tipp: Excel beschriftet die Achsen grundsätzlich jeweils bis zu den Außenrändern. Speziell beim Blasen-Diagramm würde das dazu fuhren, dass entweder die Blasen über die Ränder hinausragen oder unsinnige zusätzliche Werte an den Rändern auftauchen (in Abb. 3-43 z.B. die Noten 0 und 6). Um dies zu vermeiden, wurden diese überflüssigen Ausprägungen an den Rändern im Diagrammbeispiel durch manuell gezeichnete Rechtecke überdeckt, die eine weiße Füllfarbe und keine Randlinie aufweisen. Eine sehr typische Anwendung des Blasen-Diagramms sind Darstellungen von Portfolios für Produkte oder Unternehmensbereiche, wie dies z.B. in der BCG- oder der McKinsey-Matrix der Fall ist. Dort werden meist mehr oder weniger quantifizierbare Größen zur Marktsituation auf den X- und Y-Achsen aufgetragen, während die einzelnen Produkte oder Bereiche durch Blasen dargestellt werden, deren Fläche proportional zum Umsatz ist. Abb. 3-44 zeigt eine typische Darstellung dieser Art.
95
3.7 Streu-Diagramm & Co
Produkt-Portfolio
Marktwachstum
ο -I 0
, 0,5
, 1
, 1,5
, 2
2,5
relativer Marktanteil
Abb. 3-44: Blasen-Diagramm für ein Produkt-Portfolio Analog zum Streu-Diagramm kann auch beim Blasen-Diagramm ein zusätzliches qualitatives Merkmal dargestellt werden, indem unterschiedliche Mengen von Blasen gebildet werden. Es handelt sich dann um eine λ ierdimensionale V e r t e i l u n g mit drei metrischen und einem qualitativen Merkmal. Der Unterschied in der Darstellung des vierten Merkmals darf jedoch ausschließlich über unterschiedliche Farben und nicht über unterschiedliche Formen erfolgen, da der Betrachter die Fläche verschiedener geometrischer Figuren kaum korrekt vergleichen kann. Grundsätzlich kann man das Blasen-Diagramm auch für qualitative M e r k m a l e verwenden. Sofern beide Merkmale ordinal sind, ist dies weitgehend unproblematisch. Ein Beispiel dafür ist in Abb. 3-43 zu sehen, da Noten nach strengen statistischen Gesichtspunkten als ordinal zu betrachten sind. Man muss jedoch berücksichtigen, dass die Abstände zwischen den Ausprägungen eines ordinalen Merkmals nicht quantifiziert sind und deshalb ihre Darstellung mit messbaren geometrischen Abständen eventuell falsche Interpretationen hervorrufen kann. Kritisch und deshalb eher abzulehnen ist der Einsatz eines Blasen-Diagramms dagegen für nominale Merkmale, da die Reihenfolge ihrer Ausprägungen völlig willkürlich ist. Es könnte dann eventuell eine Tendenz in Form einer Regressionsfunktion in die Abbildung hineininterpretiert werden, die es so nicht gibt.
96
3 Grundlagen der Darstellung
Steckbrief des Blasen-Diagramms Allgemeines • • •
englische Bezeichnungen: bubble chart, bubble plot Alternative zum Streu-Diagramm, wenn Merkmalskombinationen mehrfach vorkommen oder ein drittes metrisches Merkmal dargestellt werden soll visualisiert den Zusammenhang zweier metrischer Merkmale
Eignung •
• • • •
zweidimensionale Verteilung zweier metrischer Merkmale (bei Klassierung oder mehrfachem Vorkommen von Merkmalskombinationen); dreidimensionale Verteilung dreier metrischer Merkmale bedingte Eignung fur zwei ordinale Merkmale optional zusätzliches qualitatives Merkmal mit wenigen Ausprägungen möglich negative Werte als Ausprägung der ersten beiden Merkmale möglich bei drittem metrischen Merkmal nur Werte größer 0 möglich
Realisierung • • • •
jede Blase repräsentiert eine Merkmalskombination (i.d.R. ein Objekt) X- und Y-Skala entsprechen Wertebereichen der ersten beiden Merkmale drittes metrisches Merkmal (bzw. Häufigkeit für Kombination der ersten beiden) entspricht der Fläche (nicht dem Durchmesser!) der jeweiligen Blase optionales zusätzliches (qualitatives) Merkmal über verschiedene Farben der Blasen darstellbar
3.8
Details der grafischen Darstellung
3.8.1
Titel, Quellenangabe & Co
Jede Statistik - und entsprechend auch ihre Darstellung in einem Diagramm oder einer Tabelle - muss nach folgenden drei Kriterien eindeutig definiert sein: •
sachlich:
Wer? bzw. Was?
•
räumlich:
Wo?
•
zeitlich:
Wann?
Diese Informationen sollten möglichst im Titel des Diagramms wiedergegeben werden. Um den Titel möglichst kurz und prägnant zu gestalten, kann er - je nach Komplexität des Sachverhaltes - durch einen Untertitel oder zusätzlichen Text ergänzt werden, der weitere Informationen enthält. Dieser ist in einer kleineren
3.8 Details der grafischen Darstellung
97
Schriftgröße zu halten, in der Regel direkt unter dem Titel zu platzieren und sollte ebenfalls nicht zu lang sein. Hier ein einfaches Beispiel für einen Titel: Bevölkerung Deutschlands am 1.1.2009 Damit ist die Abgrenzung sachlich (Bevölkerung), räumlich (Deutschland) und zeitlich (am 1.1.2009) vollständig gegeben. Welches Merkmal der Bevölkerung erhoben wurde, ergibt sich aus der Beschriftung im Diagramm selbst und muss deshalb nicht zwingend im Titel angegeben werden (kann aber). Sofern ein Diagramm im Rahmen einer Folienserie bei einer Präsentation oder in einem ähnlich abgegrenzten Kontext verwendet wird, können eventuell bestimmte Informationen vorausgesetzt werden. Wenn es also beispielsweise in einem Vortrag um die Entwicklung eines bestimmten Unternehmens geht, wäre es überflüssig, dessen Namen in jedem Diagrammtitel erneut anzugeben. Es gibt allerdings sehr unterschiedliche Ansichten darüber, was ein aussagekräftiger Titel ist. In Büchern zum Thema Statistik wird man in der Regel Titel der folgenden Art finden: „Umsatzentwicklung des Unternehmens X Y " Insbesondere in Büchern zum Thema „Präsentieren" wird dagegen die Meinung vertreten, dass der Titel den Inhalt nicht neutral beschreiben, sondern eine Aussage machen soll. Das könnte dann z.B. so aussehen: „Starkes Wachstum bei Unternehmen X Y " Bei der zweiten Variante muss man aber sehr vorsichtig sein. Einerseits wird das Diagramm meist ohnehin dazu verwendet (und auch so gestaltet), eine bestimmte Aussage zu unterstützen. Andererseits sollte ein manipulativer Charakter unbedingt vermieden werden. Unter keinen Umständen darf im Titel jedoch direkt oder indirekt eine Aussage enthalten sein, die sich nicht aus den gezeigten Daten ableiten lässt oder diesen sogar widerspricht. Leider kommt dies in der Praxis immer wieder vor, wie einige aus Veröffentlichungen entnommene Negativ-Beispiele in diesem Buch belegen. Zudem dürfte es z.B. in der Frage, wann man ein Wachstum als „stark" bezeichnen kann, große subjektive Unterschiede unter den Betrachtern geEin wichtiger Punkt, der die Nachprüfbarkeit ermöglicht und damit auch die Glaubwürdigkeit erheblich steigert, ist eine Q u e l l e n a n g a b c für die verwendeten Daten. Diese wird meist in kleiner Schrift am unteren Rand des Diagramms platziert. Bei Diagrammen in Massenmedien findet man häufig neben (oder leider auch oft anstelle) der Quellenangabe eine A n g a b e z u m Ersteller. Dies ist vor allem dann der
98
3 Grundlagen der Darstellung
Fall, wenn das Diagramm von Dritten übernommen wurde und in verschiedenen Medien veröffentlicht wird.
3.8.2
Größen-Achse (Y-Achse)
Bei Säulen- und Linien-Diagrammen werden die Werte bzw. Häufigkeiten in Richtung der Y-Achse dargestellt. Bei Balken-Diagrammen liegt diese Achse waagerecht; die nachfolgenden Ausführungen gelten dafür analog. Wie in der Mathematik üblich, wird die Größen-Achse auch bei Säulen- und LinienDiagrammen in der Regel links dargestellt. Ein Anordnung rechts kommt nur selten vor und wird meist nur dann verwendet, wenn man in einem Diagramm zwei unterschiedliche Sachverhalte visualisiert und dabei mit einer zweiten Einheit bzw. Skalierung arbeitet. Bei Balken-Diagrammen wird die Größen-Achse meist unten, manchmal auch oben angebracht. Diese Achse sollte im Normalfall mit der 1 inheit der dargestellten Werte beschriftet werden. Dazu wird diese meist am Ende mit dem höchsten Wert angeschrieben. Die Einheit umfasst eine vorhandene Messeinheit (z.B. Euro, Liter, km usw.) und/oder einen Multiplikator (z.B. „1000", „Tausend", „Mio.", „Mrd."). Bei Prozentwerten wird meist „ % " als Einheit an das Ende der Achse geschrieben, während die einzelnen Zahlenangaben dann ohne das Prozentzeichen angegeben werden. Gelegentlich wird die Achse durch eine zusätzliche Beschriftung ergänzt, die nähere Angaben zur dargestellten Größe enthält (z.B. „Jahresgewinn vor Steuern"). Auf die Angabe der Dimension und des Multiplikators an der Achse kann dann verzichtet werden, wenn die notwendige Information bereits zweifelsfrei aus dem Titel bzw. Untertitel des Diagramms hervorgeht. Die Beschriftung sollte immer waagerecht, also in normaler Leserichtung erfolgen. Excel erzeugt standardmäßig eine senkrecht stehende Beschriftung der GrößenAchse. Diese sollte entsprechend nachbearbeitet werden (durch Verschieben und Drehen). Die Skalierung bestimmt, welche und wie viele Zahlenangaben an der GrößenAchse platziert werden. Im Idealfall handelt es sich um maximal dreistellige Zahlen ohne Nachkommastellen. Sofern unvermeidlich kommen auch bis zu vierstellige ganze Zahlen oder kleinere Zahlen mit höchstens einer Nachkommastelle in Betracht. Durch eine geeignete Wahl der Einheit kann dies in der Regel erreicht werDie Schrittweite zwischen den angezeigten Zahlenwerten an der Größen-Achse sollte möglichst 1, 2 oder 5 bzw. 10/100/1000, 20/200/2000 usw. betragen. Sofern
3.8 Details der grafischen Darstellung
99
nur ganze Zahlen vorkommen, ist auch 25 bzw. 250 geeignet. Bei einer Schrittweite von 2 (analog bei 20 oder 200) sollte man darauf achten, dass nur gerade Werte vorkommen, bei einer Schrittweite von 5, dass es nur solche sind, die auf 0 oder 5 enden. Die Schrittweite sollte weder zu dicht noch zu weit gewählt werden, sondern so, dass sich eine optisch angenehme Aufteilung ergibt, die auch eine angemessene Schriftgröße berücksichtigt. Je nach Höhe des Diagramms werden meist fünf bis zehn Werte optimal sein. Die von Excel automatisch vorgenommene Skalierung ist oft nicht sehr günstig und sollte dann unbedingt im Sinne der genannten Regeln abgeändert werden. Zum besseren Ablesen der Werte (z.B. Bestimmen der Höhe von Säulen) werden häufig Gitternetzlinien in der Diagrammfläche ergänzt. Sofern sie eingesetzt werden, sollten sie möglichst dezent im Hintergrund bleiben und nicht das eigentliche Diagramm dominieren. Insbesondere sollten die Linien nicht zu dicht verlaufen, um nicht wie eine Schraffur zu wirken. Auch wenn sie das genauere Ablesen erleichtern, sind Gitternetzlinien nicht unbedingt notwendig. Das gilt vor allem dann, wenn es ohnehin nur um eine grobe Aussage statt um ganz exakte Werte geht oder wenn die Werte (vor allem in einer schriftlichen Veröffentlichung) zusätzlich noch als Tabelle vorliegen. Eine Alternative zu Gitternetzlinien ist die individuelle A n g a b e d e r Z a h l e n w e r t e am Ende jeder Säule bzw. jedes Balkens. In diesem Fall sollten die Gitternetzlinien weggelassen werden, weil sie dann keinen Nutzen mehr bieten und eher die Lesbarkeit beim Schneiden der Zahlenangaben behindern. In einem solchen Fall kann gegebenenfalls sogar vollständig auf das Darstellen der Größen-Achse verzichtet werden. Als Beispiel ist in Abb. 3-45 eine Variante mit Größen-Achse und Gitternetzlinien zu sehen. Abb. 3-46 zeigt die gleichen Daten. Diesmal wurden jedoch sowohl die GrößenAchse als auch die Gitternetzlinien weggelassen. Stattdessen wurden die jeweiligen Werte direkt oberhalb der einzelnen Säulen platziert. Ein Vorteil der Version mit Gitternetzlinien besteht darin, dass die Höhe auch von weiter entfernt liegenden Säulen leichter verglichen werden kann. Dagegen wirkt das zweite Diagramm aufgelockerter und weniger formell. Die Entscheidung zwischen beiden Versionen dürfte aber eher Geschmackssache sein.
100
3 Grundlagen der Darstellung
Abb. 3-45: Säulen-Diagramm mit Größen-Achse und Gitternetzlinien
254 188
205
123
Α
Β
C
D
Abb. 3-46: Säulen-Diagramm mit Wertangaben an den einzelnen Säulen Ein wichtiger Punkt im Z u s a m m e n h a n g mit der G r ö ß e n - A c h s e ist die Frage, o b der Nullpunkt dargestellt werden m u s s oder nicht. Dass man durch W e g l a s s e n des Nullpunktes die optische Darstellung in geradezu manipulativer W e i s e verändern kann, zeigen Abb. 3-47 und A b b . 3-48 . In A b b . 3-47 ist die Säule für A - den zugrunde liegenden Werten entsprechend 25 % größer als die Säule f u r Β dargestellt.
3.8 D e t a i l s der g r a f i s c h e n D a r s t e l l u n g
30
-
101
-
- —
:
25
20 15 10
.ι... ,.. j '
-r, >λ,Μ ' - '„ '
...
J
iHSeUfS
'
i
'
1
J
5
oJ
R^ffA^tö'SWa Α
,
te^'^fe^Sl Β
1
Abb. 3-47: Säulen-Diagramm mit Nullpunkt an der Größen-Achse
28 26 24
22
18
η 'SldSsfi
Spii#HI®äS
16
l^aM^ii'i'äSai^il Α
L
τ'.' .Ü"... Β
1
Abb. 3-48: Säulen-Diagramm ohne Nullpunkt an der Größen-Achse In A b b . 3 - 4 8 sieht dies d a g e g e n völlig anders aus. Der fehlende Nullpunkt führt dazu, d a s s die optischen Größenunterschiede z w i s c h e n den S ä u l e n erheblich größer sind, a l s d i e s den Daten entspricht. Statt 2 5 % ist S ä u l e Α hier 125 % größer als Säule B. Ein ähnlicher E f f e k t zeigt sich bei Zeitreihen. A b b . 3 - 4 9 gibt den tatsächlichen V e r l a u f der Zeitreihe wieder.
102
3 Grundlagen der Darstellung
Abb. 3-49: Zeitreihe mit dargestelltem Nullpunkt der Größen-Achse
Der Wert hat sich in sieben Jahren nur um 9 % erhöht, was einer durchschnittlichen jährlichen Steigerung gerade einmal 1,2 % entspricht. Völlig anders wirken dieselben Daten jedoch in Abb. 3-50.
Abb. 3-50: Zeitreihe ohne dargestellten Nullpunkt der Größen-Achse
103
3.8 Details der grafischen Darstellung
Durch das Weglassen des Nullpunktes wird hier eine scheinbar rasante Aufwärtsentwicklung dargestellt, die mit der Realität nichts mehr zu tun hat. Die beiden Vergleiche fur Säulen- und Linien-Diagramme zeigen, dass das Weglassen des Nullpunktes potenziell einer Manipulation gleichkommt und deshalb oft abgelehnt wird. Da dieses Mittel inzwischen allgemein bekannt ist, kann zudem nur dringend davor gewarnt werden, es bewusst zum Verdrehen der Fakten einzusetzen. Das Weglassen des Nullpunktes an der Größen-Achse erscheint deshalb nur dort gerechtfertigt, wo es nicht um die relativen Unterschiede (also z.B. Wachstumsraten oder Größenvergleiche) geht, sondern ausschließlich darum, absolute Änderungen besser darzustellen. Dies darf jedoch nur dort erfolgen, wo eine Fehlinterpretation durch den Betrachter ausgeschlossen ist. Eine Verzerrung der Größenverhältnisse ergibt sich auch durch Verkürzen der Größen-Achse im oberen Bereich. Im Gegensatz zum Weglassen des Nullpunkts werden hier jedoch die Unterschiede optisch nicht vergrößert, sondern verkleinert. Abb. 3-51 zeigt ein typisches Beispiel, bei dem der größte Wert (als einziger) optisch verkürzt wird.
Die größten deutschen Städte Stand: 31.12.2006
Einwohner in Tsd. | 3404
Berlin 11754
Hamburg München
11295
Köln Frankfurt a.M.
j 990 I 653
Quelle: Statistisches Jahrbuch 2008, S. 38 ff.
Abb. 3-51: Pareto-Diagramm mit verkürzter Größen-Achse Der Balken fur Berlin besitzt zwar die korrekte Zahlenangabe von ca. 3,4 Millionen, weist aber nur eine Länge auf, die 2,5 Millionen entspricht. Der Größenunterschied zu Hamburg als zweitgrößter Stadt wird damit optisch wesentlich verringert.
104
3 Grundlagen der Darstellung
Zeichnerisch wird die Verkürzung - wie in der Abbildung zu sehen ist - in der Regel durch eine Lücke symbolisiert, die zum Teil auch gezackt wie eine Bruchkante oder durch ergänzende gestrichelte Linien o.ä. verdeutlicht wird. Sofern eine beschriftete Größen-Achse vorhanden ist, wird eine entsprechende Unterbrechung auch dort vorgenommen. Gerechtfertigt wird diese Verzerrung meist damit, dass ansonsten die übrigen Balken oder Säulen zu klein ausfallen würden. In dem hier gewählten Beispiel ist das kaum stichhaltig, da die Verkürzung vergleichsweise gering ist und das Diagramm zudem problemlos breiter sein könnte. Aber auch bei erheblich größeren Unterschieden kann man sich den Vorwurf der Manipulation einhandeln. Wenn die Unterschiede wirklich so groß sind, sollte man dies auch optisch deutlich machen und nicht verschleiern. In diesem Zusammenhang sei erwähnt, dass bei speziellen Anwendungen in Wissenschaft und Technik auch eine logarithmische Skalierung der Y-Achse Verwendung findet. Dadurch wird z.B. ein exponentielles Wachstum in Form einer Geraden dargestellt. Sofern diese Darstellung der Zielgruppe im konkreten Zusammenhang nicht vertraut ist, kommt eine solche Form jedoch nicht in Betracht. Im Bereich der üblichen Präsentationsgrafik sollte generell auf nichtlineare Skalen verzichtet werden, so dass hier nicht näher darauf eingegangen wird. Zusammenfassung: •
Sofern nicht aus dem Titel oder Untertitel zweifelsfrei die Einheit der GrößenAchse hervorgeht, ist diese entsprechend zu beschriften. Die Anzahl, Formatierung und Schrittweite der Beschriftungswerte ist so zu wählen, dass sie fiir den Betrachter möglichst einfach erfassbar ist.
•
Alternativ zu einer beschrifteten Größen-Achse und optionalen Gitternetzlinien können die Werte auch direkt an die einzelnen Säulen oder Balken geschrieben werden.
•
Der fehlende Nullpunkt der Größen-Achse fuhrt zu einer optischen Vergrößerung von Abständen zwischen den Werten bzw. bei Zeitreihen zu einer optisch wesentlich steiler verlaufenden Entwicklung.
•
Das Weglassen des Nullpunktes kann damit zur Manipulation missbraucht werden und wird von vielen Betrachtern auch so eingestuft.
•
Der Nullpunkt sollte deshalb nur dann weggelassen werden, wenn ausschließlich absolute Veränderungen anstelle relativer betrachtet werden und ein Irrtum beim Betrachter ausgeschlossen werden kann.
•
Eine Verkürzung der Größen-Achse im oberen Wertebereich sollte nur in extremen Ausnahmefalle vorgenommen und grafisch sehr deutlich hervorgehoben
3.8 Details der grafischen Darstellung
105
werden. Auch nach der Verkürzung muss der tatsächliche Größenunterschied zumindest noch annähernd deutlich werden.
3.8.3
Merkmals-Achse (X-Achse) und Legende
Die Merkmals-Achse (bei Excel „Rubriken-Achse" genannt) wird mit den Bezeichnungen für die Ausprägungen des Merkmals - also oft Text oder eine Kombination von Zahlen, Zeichen und Text - versehen. Bei Säulen-Diagrammen ist sie immer unten, bei Balken-Diagrammen meist links angeordnet. Gerade bei SäulenDiagrammen mit ihrem in waagerechter Richtung relativ beschränkten Platz lässt sich der gewünschte Text oft nicht normal unterhalb der jeweiligen Säulen platzieren. Für dieses Problem gibt es mehrere Lösungen: •
Es werden Abkürzungen verwendet.
*
Der Text wird zwei- oder sogar mehrzellig umgebrochen.
•
Der Text wird abwechselnd in zwei Höhen geschrieben (benachbarte Texte haben damit unterschiedliche Höhe, so dass mehr Platz bleibt). Der Text wird um 45° oder 90° gegen den Uhrzeigersinn gedreht.
Insbesondere letzteres wird von den einschlägigen Computer-Programmen oft automatisch vorgenommen, sobald der Platz nicht mehr ausreicht. Man sollte aber trotzdem kritisch prüfen, ob nicht eine der anderen Varianten im Einzelfall besser ist, da sich gedrehter Text schlecht lesen lässt. Bei der Angabe von Jahreszahlen (bei Zeitreihen) gibt es verschiedene Varianten fur die Schreibweise. Hier mehrere grundsätzlich gleichwertige Alternativen fur dieselbe Zahlenreihe: •
1995, 1996, 1997, 1998, 1999, 2000,2001, 2002, 2003 ...
•
1995, 96, 97, 98, 99, 2000, 01, 02, 03 ...
•
95,96,97,98,99,00,01,02,03...
•
'95, '96, '97, '98, '99, '00, O l , Ό2, '03 ...
Bei längeren Zeitreihen und beschränktem Platz kann es auch ausreichen, nur jedes zweite oder fünfte Jahr zu beschriften, was ebenfalls oft automatisch von den verwendeten Computer-Programmen vorgenommen wird. Die zusätzliche Beschriftung der Zeitachse (z.B. mit der Angabe „Jahr") ist überflüssig, da hier eine Fehlinterpretation ausgeschlossen ist. Gitternetzlinien werden meist nur auf der Größen-Achse verwendet, verlaufen bei Säulen also waagerecht, bei Balken senkrecht. Nur selten werden senkrechte Gitternetzlinien für die Zeitachse bei Linien-Diagrammen eingesetzt.
106
3 Grundlagen der Darstellung
Sofern Ausprägungen mehrfach in einem Diagramm vorkommen (z.B. bei Stapeloder Gruppensäulen), ist zu klären, wie die Beschriftung erfolgt. Eine Lösung besteht darin, die den Ausprägungen zugeordneten unterschiedlichen Farben (oder Graustufen bzw. Schraffuren) in einer Legende zu beschriften. Diese wird normalerweise unterhalb oder rechts der Diagrammfläche platziert. Bei Gruppensäulen bzw. -balken kann es auch sinnvoll sein, die Beschriftungen in jeder Gruppe zu wiederholen und damit die Legende zu vermeiden. Bei Zeitreihen sollten die Beschriftungen möglichst direkt an den jeweiligen Zeitreihen stehen, so dass eine Legende überflüssig wird. Die Legende wird üblicherweise nicht eingerahmt (obwohl Excel dies automatisch macht). Bezüglich der Anordnung der Ausprägungen innerhalb der Legende sollte man darauf achten, dass die Reihenfolge der entspricht, welche die korrespondierenden Objekte im Diagramm (z.B. Säulen innerhalb von Gruppen in einem Gruppensäulen-Diagramm) besitzen.
3.8.4
Gebrauch von Farben
Farben sind immer mit Bedacht zu wählen, da sie bestimmte Wirkungen auf den Betrachter haben können. So wird Rot als Signalfarbe wahrgenommen, was z.B. bei einer als für den Betrachter ungünstigen Datenlage als zusätzliche Warnung interpretiert werden kann. Besonders sorgsam muss man bei der Farbwahl sein, wenn man den einzelnen Ausprägungen unterschiedliche Farben zuordnet. Dies kann sich in weitgehend „natürlicher" Weise aus dem dargestellten Sachverhalt ergeben. So stehen in der Politik bestimmte Farben für einzelne Parteien und werden inzwischen schon als Synonym verwendet (z.B. Rot-Grün oder Schwarz-Gelb). Bei der Darstellung von Wahlergebnissen oder politischen Umfragen ist die Wahl der Farbe damit nahezu vorgegeben. Anders sieht es aus, wenn man „farbneutrale" Daten darstellen möchte. Hier kann die Wahl der Farbe auf eine Manipulation hinauslaufen. So werden rote Flächen in der Regel größer wahrgenommen als grüne. Das zeigt sich vor allem dann, wenn man eine Landkarte koloriert und z.B. gefährdete Gebiete kennzeichnet. Je nach Wahl der Farbe kann die vom Betrachter wahrgenommene Größe des betreffenden Gebietes unterschiedlich ausfallen. Sofern es allerdings darum geht, ganz bewusst einen Wert mit anderen zu vergleichen, ist es natürlich angebracht, diesen optisch - insbesondere mit einer auffallenden Farbe - gegenüber den anderen hervorzuheben. Bei Schwarz-Weiß-Darstellungen gilt übrigens reines Schwarz als gute Hervorhebung gegenüber Graustufen.
107
3.8 Details der grafischen Darstellung Beispiel 3.2:
Im Balken-Diagramm in Abb. 3-52 (durch die Sortierung ein Pareto-Diagramm) wird der Preisanstieg der EU-Länder (EU-15) verglichen.
Preisanstieg 2005 in der EU Schweden
~~"~10.8
Finntand Niederlande Dänemark
'
Durchschnitt EU-15: 2,1 %
" 'in,β
• M B B 1.5 1,7
m n i n
Frankreich
gm
Deutschland
1,9 1,9
Vereinigtes Königreich
w : ...
Portugal Österreich
,, . „ , „ ,
2,0 2,1 2,1
Irland
2,2
Belgien
•
2.5
Spanien
Β 3.4
Π Μ |
Griechenland Luxemburg
13»
Italien
\ 0
ib.y
1 2 3 4 5 6 7 8 Veränderung Verbraucherpreise gegenüber Vorjahr
%
Quelle: Statistisches Jahrbuch 2006 für das Ausland. S. 159
Abb. 3-52: Hervorheben durch Farbe beim Pareto-Diagramm Die Balken sind nach zunehmenden Anstiegsraten sortiert, so dass die „besten" Länder oben stehen. Deutschland wird dabei an der richtigen Stelle innerhalb der Sortierung dargestellt, jedoch durch den blauen Balken klar hervorgehoben. Damit kann der Betrachter unmittelbar erkennen, wie Deutschland im EU-Vergleich liegt. Eine alternative, allerdings etwas schwächere Möglichkeit der Hervorhebung besteht darin, den Text („Deutschland") in Fettschrift anzugeben. Ergänzt wird die Darstellung noch durch die senkrechte Linie, die den Durchschnitt der betrachteten Länder markiert. Somit ist sofort zu erkennen, dass Deutschland im betrachteten Jahr besser als der Durchschnitt war. Unabhängig von inhaltlich geprägten Überlegungen gibt es noch eine Reihe praktischer Punkte, die man bei der Wahl der Farben für Vorträge und Veröffentlichungen unbedingt beachten sollte:
3 Grundlagen der Darstellung
108 •
Sofern man mit Beamer präsentiert, sollte man berücksichtigen, dass die Darstellung von Farben zwischen verschiedenen Medien deutlich abweichen kann. Was auf dem Display des Notebooks oder dem heimischen Monitor gut und kontrastreich aussieht, kann sich auf der Leinwand bei einer Projektion mittels Beamer ganz anders darstellen. Es ist deshalb ratsam, bei wichtigen Präsentationen den vom Veranstalter gestellten Beamer vorab zu testen und die Farben der Folien bei Bedarf noch anzupassen.
•
Auch wenn man die Farbdarstellung der Originalveröffentlichung oder des Vortrags in gewünschter Weise sicherstellen kann, sollte man damit rechnen, dass die Grafiken auch in anderer Form weitergegeben werden. Z.B. ist es bei Vorträgen durchaus üblich, Handouts zu verteilen, die jedoch häufig per Schwarz-Weiß-Ausdruck oder Fotokopie erstellt werden. Zudem muss man damit rechnen, dass von den ursprünglichen Ausdrucken auch eigene Kopien erstellt werden, die dann meist Schwarz-Weiß sind.
•
Nicht vergessen sollte man zudem die Tatsache, dass ein gewisser Anteil der Zuhörer bzw. Leser Probleme mit der Färb Wahrnehmung haben kann. Das gilt insbesondere fur die genetisch bedingte Rot-Grün-Blindheit, die ca. 8 % der Männer und 0,5 % der Frauen betrifft. Diese Personen können Rot und Grün nicht als Farben unterscheiden, sondern nur über Graustufen. Entsprechend sollte man vorsichtig bei den Farben Rot und Grün sein und diese möglichst nicht so verwenden (z.B. im Kreis-Diagramm nebeneinander), dass es für betroffene Betrachter zu Interpretationsproblemen oder gar -fehlem kommen kann.
Bei Schwarz-Weiß-Darsteilungen müssen die Farben durch eine geeignete Alternative ersetzt werden. Hier bieten sich zwei Möglichkeiten an: •
Zum einen kann man Graustufen einsetzen. Dies ergibt sich auch automatisch, wenn ursprünglich farbig erstellte Diagramme schwarz-weiß kopiert oder ausgedruckt werden. Es kann sich dann das Problem ergeben, dass die gut unterscheidbaren Farben (z.B. bei nebeneinanderliegenden Flächen) jetzt in einem nahezu identischen Grauton abgebildet werden. Deshalb sollte man gegebenenfalls auch bei Farbdarstellungen prüfen, wie diese bei einer Umwandlung in Graustufen wirken.
•
Zum anderen können auch Schraffuren eingesetzt werden. Diese Form der Darstellung fuhrt jedoch oft zu optisch nicht sehr ansprechenden Ergebnissen, die häufig auch „unruhig" wirken. In Abb. 3-53 ist ein KreisDiagramm mit schraffierten Flächen zu sehen. Auch wenn man durch die Wahl anderer Muster vielleicht eine bessere Wirkung als in diesem Beispiel erzielen kann, muss von der Verwendung von Schraffuren doch eher abgeraten werden.
3.8 Details der grafischen Darstellung
109
Bevölkerung Deutschlands am 31.12.2005 geschieden
Quelle: Statistisches Jahrbuch 2007. S. 43
Abb. 3-53: Kreis-Diagramm mit Schraffuren
3.8.5
3 D-Darstellungen
Dreidimensionale Darstellungen werden von vielen als m o d e r n e r und effektvoller angesehen als herkömmliche zweidimensionale Darstellungen, wie sie in den vorangegangenen Abschnitten überwiegend vorgestellt wurden. Da es heute mit allgemein verfugbaren C o m p u t e r - P r o g r a m m e n f ü r j e d e n möglich ist, solche Darstellungen in kürzester Zeit zu erzeugen, werden sie immer häufiger eingesetzt. Man sollte aber bedenken, dass es neben rein optischen, subjektiven Kriterien auch objektive gibt, die bei der Entscheidung zwischen 2D- und 3D-Darstellung zu berücksichtigen sind. N a c h f o l g e n d werden einige wichtige Punkte behandelt. Abb. 3-54 zeigt eine 3D-Form eines Säulen-Diagramms. Durch die Betrachtung von oben und das Abrücken der Säulen von der hinteren W a n d mit den Hilfslinien der Skala ist es k a u m möglich, die Werte exakt abzulesen. Rein optisch könnte man auch von einem Wert unter 35 % f ü r „verheiratet" ausgehen, obwohl tatsächlich der Wert 36,7 % dargestellt wird. Deshalb sollte man sich auf eine gemäßigte Perspektive beschränken und auf das A b r ü c k e n der Säulen von der hinteren W a n d verzichten, wie dies in Abb. 3-55 zu sehen ist.
110
3 Grundlagen der Darstellung
Bevölkerung Deutschlands am 31.12.2005
Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-54: Säulen-Diagramm 3D (Säulen freistehend)
Bevölkerung Deutschlands am 31.12.2005 Millionen
verwitwet
Quelle: Statistisches Jahrbuch 2007, S. 43
geschieden
Abb. 3-55: Säulen-Diagramm 3D (Säulen am hinteren Rand) Noch schlechter ist in der Regel die Ablesbarkeit bei Linien-Diagrammen in SDDarstellung, wie Abb. 3-56 zeigt.
3.8 Details der grafischen Darstellung
111
Abb. 3-56: 3D-Linien-Diagramm
Aus der Linie ist ein Band geworden, das weitgehend frei im Raum schwebt. Je nach Wahl der Perspektive kann - insbesondere zusammen mit dem schon beschriebenen Verkürzen der Größen-Achse - ein Anstieg deutlich stärker wirken, als dies den Daten entspricht. Abb. 3-57 zeigt eine etwas veränderte Perspektive der gerade dargestellten Daten, die das verdeutlicht.
Abb. 3-57: 3D-Linien-Diagramm - andere Perspektive
112
3 Grundlagen der Darstellung
Eine weitere Gefahr besteht darin, dass sich durch die Perspektive die vom Betrachter wahrgenommenen Größenanteile verschieben. Dazu ist in Abb. 3-58 eine für diesen Aspekt typische Darstellung gegeben.
Abb. 3-58: Kreis-Diagramm in 3D
Schon durch die besonders große sichtbare Kante wirkt der Anteil vorne auf die meisten Betrachter größer als der Anteil rechts, obwohl in beiden Fällen jeweils 30 % dargestellt werden. Gelegentlich findet man sogar Darstellungen von 3DKreis-Diagrammen, bei denen die hinteren Segmente perspektivisch verkleinert werden, was die optische Dominanz der vorderen Segmente weiter verstärkt. Besonders groß wird das Problem einer proportionalen Darstellung dann, wenn man Anstelle von Säulen, Balken o.ä. wirklich dreidimensionale Körper zur Visualisierung verwendet. Abb. 3-59 zeigt jeweils eine Verdoppelung der Kantenlänge und deren Wirkung auf ein-, zwei- und dreidimensionale Formen.
Abb. 3-59: Größenverhältnisse bei 1D-, 2D- und 3D-Darstellungen
Links ist mit der Säule eine weitgehend eindimensionale Form zu sehen, da für die Darstellung lediglich die Länge relevant ist und variiert wird. Dies entspricht einem normalen Säulen-Diagramm. Eine Verdoppelung der darzustellenden Größe resul-
3.8 Details der grafischen Darstellung
113
tiert in einer Verdoppelung der Länge bei unveränderter Breite. Das ist eine korrekte Wiedergabe eines Größenverhältnisses von 1:2. Bei der zweidimensionalen Form des Quadrats in der Mitte wurde die Höhe ebenfalls um den Faktor 2 vergrößert. Da hier aber das Seitenverhältnis beibehalten wurde, hat sich die Fläche um den Faktor 4 vergrößert. Noch drastischer zeigt sich das Beibehalten unveränderter Proportionen beim dreidimensionalen Würfel rechts. Die Verdoppelung der Höhe führt zu einer Vergrößerung des Volumens um den Faktor 8. Wenn man also versucht, anstelle von Säulen z.B. Geldscheine, Mülltonnen, Säcke o.ä. zu verwenden, müsste man diese durch eine unveränderte Breite und Tiefe bei Veränderung der Höhe so verzerren, dass es unpassend aussieht. Anderenfalls besteht das Problem, dass man z.B. die Höhe der Mülltonne um Faktor 2 vergrößert, das Volumen aber um den Faktor 8. Das besondere Problem besteht nun darin, dass die meisten Personen intuitiv den größeren Würfel auf der rechten Seite weder für doppelt noch für achtmal so groß einschätzen, sondern meist ein Größenverhältnis von 1:4 bis 1:6 unterstellen. Angesichts dieser Problematik sollte man grundsätzlich darauf verzichten, zahlenmäßige Größenverhältnisse durch zwei- bzw. dreidimensionale Formen zu visualisieren, da selbst eine mathematisch flächen- bzw. volumengetreue Wiedergabe vom Betrachter i.d.R. falsch interpretiert wird.
3.8.6
Beschriftungen
Beschriftungen finden sich in Diagrammen vom Titel über Achsen-Beschriftungen bis hin zu Quellenangaben an vielen Stellen. Dabei sollten einige generelle Regeln beachtet werden: •
Die Schrift sollte immer normal von links nach rechts angeordnet sein. Insbesondere an den beiden Achsen findet man jedoch häufig senkrecht stehende Schriften. Da der Betrachter dies jedoch ohne Kopfdrehung (wie der „geneigte" Leser sieht ...) nur schwer lesen kann, sollte wenn möglich darauf verzichtet werden.
•
Abkürzungen sollten nur dann verwendet werden, wenn dies aus Platzgründen notwendig ist und die Abkürzungen dem zu erwartenden Kreis der Betrachter vertraut sind.
•
Auch in Überschriften sollte die Schrift den üblichen Wechsel von Groß- und Kleinbuchstaben aufweisen. Wörter, die ausschließlich in Großbuchstaben geschrieben sind, lassen sich schlechter lesen und wirken aufdringlich.
114 •
3 Grundlagen der Darstellung Beschriftungen sollten möglichst immer am betreffenden Objekt angebracht werden und nicht in einer Legende. Lediglich ergänzende Fußnoten gehören an den unteren Rand.
3.8.7
Verschiedenes
Sehr unterschiedlich wird der Hintergrund des Diagramms gehandhabt. Viele Computer-Programme füllen die eigentliche Diagrammfläche automatisch mit einer mehr oder weniger dunklen Graufärbung. Auch bei vielen Veröffentlichungen findet sich eine solche Hinterlegung. Sofern sichergestellt ist, dass der Leser eine farbige Darstellung erhält, kann diese Hervorhebung der Diagrammfläche von der Umgebung (mit Titel, Beschriftungen usw.) sinnvoll sein. Bei vielen Schwarz-WeißWiedergaben in Büchern, Zeitungen, Handouts zu Präsentationen oder auf Fotokopien von ursprünglich farbigen Originalen fuhrt ein grauer Hintergrund jedoch dazu, dass die Säulen, Balken oder Linien wegen des verminderten Kontrasts zum Hintergrund deutlich schlechter erkennbar sind. Das gilt auch für Beschriftungen innerhalb der Diagrammfläche (diese dann wieder weiß zu hinterlegen, wirkt optisch nicht besonders ansprechend). Zur Verdeutlichung ist das Diagramm in Abb. 3-60 so dargestellt, wie es der automatisch erzeugten Farbgebung von Säulen und Hintergrund bei Excel entspricht (die Säulen sind im Original in einem dunkleren Blau gehalten, das allerdings bei Schwarz-Weiß-Ausdrucken oder -Kopien zu dem hier verwendeten Grauton wird).
Bevölkerung Deutschlands am
31.12.2005
Millionen
ledig
verheiratet
verwitwet
geschieden
Familienstand Quelle: Statistisches Jahrbuch 2007. s. 43
Abb. 3-60: Automatisch erzeugter grauer Hintergrund
115
3.8 Details der grafischen Darstellung
Im Vergleich dazu zeigt Abb. 3-61 das gleiche Diagramm, allerdings mit weißem statt grauem Hintergrund.
Bevölkerung Deutschlands am 31.12.2005 Millionen
ledig
verheiratet
verwitwet
geschieden
Familienstand Quelle: Statistisches Jahrbuch 2007, S. 43
Abb. 3-61: Manuell auf Weiß geänderter Hintergrund
Noch kritischer sind die vor allem bei Zeitschriften sehr häufig anzutreffenden Hinterlegungen der zentralen Diagrammfläche oder sogar des gesamten Diagramms (inkl. Titel usw.) mit einer Grafik oder einem Foto. Dies stellt dann manchmal faktisch einen - möglicherweise erwünschten - Schutz vor Kopien dar, beeinträchtigt jedoch immer auch die Lesbarkeit des Originals. Selbst wenn Grafiker eventuell protestieren mögen oder ihre berufliche Betätigung eingeschränkt sehen, sei hier sehr deutlich fur einen Verzicht auf solche „Verschönerungen" plädiert. Auch der 1'orm des D i a g r a m m s , konkret dem Höhen/Breiten-Verhältnis, sollte man Beachtung schenken. Schon in der Antike wurde festgestellt, dass Maßverhältnisse, die dem Goldenen Schnitt entsprechen, von den meisten Betrachtern als ästhetisch empfunden werden. Übertragen auf die Kantenlängen eines Rechtecks ergibt dies ein Verhältnis der Höhe zu Breite von etwa 1:1,62. In der Moderne prägen dagegen oft Bildschirme die Sehgewohnheiten. Dort sind Höhen/Breiten-Verhältnisse von 3:4 (1:1,33) bis aktuell 9:16(1:1,78) üblich. Insgesamt sollte ein Diagramm mit seinen Außenmaßen (Rahmen) etwa zwischen 1:1,4 bis 1:1,8 liegen. Das ist jedoch bei Säulen- und Linien-Diagrammen leichter zu realisieren als bei Balken-Diagrammen, die man oft wegen der großen Zahl von Ausprägungen ver-
116
3 Grundlagen der Darstellung
wendet (und damit mehr Höhe benötigt), oder bei Kreis-Diagrammen, bei denen die zwingend praktisch quadratische Grundform noch durch den Titel in der Höhe vergrößert wird. Speziell beim Kreis-Diagramm kann man aber z.B. Quellenangaben, Beschriftungen, eine eventuell vorhandene Legende o.ä. eher rechts neben dem eigentlichen Diagramm als darunter platzieren, um so eine etwas gefalligere Gesamtform zu erhalten.
4
Welches Diagramm für welche Art von Aussage?
4.1
Allgemeines
Viele Autoren außerhalb des Statistikbereichs, die sich mit dem Thema „Präsentation" beschäftigen, stellen die gewünschte Aussage einer Grafik in den Mittelpunkt aller Überlegungen. Das geht sogar zum Teil soweit, dass die Bedeutung der zugrunde liegenden Daten praktisch bestritten wird. Natürlich ist es von entscheidender Bedeutung, bei seiner Präsentation eine Diagrammart zu wählen, mit der die gewünschte Aussage - wenn sie denn aufgrund der Daten möglich ist! - in geeigneter Weise unterstützt wird. Aber die logische Reihenfolge bei der Auswahl eines Diagramms muss immer folgende sein: 1
Die vorhandenen Daten bestimmen, welche Diagrammtypen überhaupt möglich - sprich: statistisch zulässig - sind.
2
Innerhalb des so vorgegebenen Rahmens wählt man dann die Diagrammart aus, die die gewünschte Aussage jeweils am besten unterstützt.
Im letzten Kapitel wurden die Diagrammarten sowie ihre Anwendungsvoraussetzungen ausfuhrlich erläutert. In diesem Kapitel werden die wichtigsten Arten von Aussagen vorgestellt und die dazu jeweils am besten passenden Diagramme genannt.
4.2
Struktur
Sofern man die Struktur bzw. Gliederung einer Verteilung darstellen möchte, betrachtet man die Gesamtheit zu einem bestimmten Zeitpunkt (bei Bestandsgrößen) oder über einen bestimmten Zeitraum (bei Ereignisgrößen) und möchte sehen, aus welchen Teilen sie sich zusammensetzt. Dabei geht es hier insbesondere um deren relative oder absolute Anteile an der Gesamtheit.
118
4 Welches Diagramm fur welche Art von Aussage?
Voraussetzung dafür, dass man eine Struktur in dieser Weise darstellen kann, ist einerseits, dass man alles erfasst, sich also alle Teilmengen zu 100 % addieren, und andererseits, dass jedes Teil eindeutig genau einer Teilmenge zugeordnet ist. Der zweite Punkt bedeutet unter anderem, dass sich häufbare Merkmale nicht fur die Darstellung einer Struktur eignen. Die Diagrammart, welche die Darstellung der Struktur am besten unterstützt, ist das Kreis-Diagramm und seine Variante Ring-Diagramm (bei Sitzverteilungen in einem Parlament auch das Halbring-Diagramm). Diese Diagramme zeigen auf einen Blick, wie groß der Anteil der einzelnen Ausprägungen an der Gesamtheit ist. Insbesondere lässt sich sofort erkennen, ob die Anteile unter oder über 25 %, 50 % oder 75 % liegen. Das Ring-Diagramm bietet gegenüber dem Kreis-Diagramm den Vorteil, dass man in der freien Mitte den Gesamtwert angeben kann, während an den Segmenten die Prozentwerte stehen. Das Kreis-Diagramm wirkt dann optisch besser als das Ring-Diagramm, wenn einzelne Segmente herausgezogen werden, um sie hervorzuheben. Die Anwendung von Kreis- und Ring-Diagramm sollte jedoch auf nominale und gegebenenfalls noch ordinale Merkmale beschränkt sein. Speziell bei metrischen Merkmalen wird die Struktur am besten mittels Histogramm dargestellt. Hier lässt sich sofort erkennen, in welchem Bereich die meisten Werte zu finden sind und wie der Wertebereich insgesamt aufgeteilt ist. In dem Zusammenhang muss man beachten, dass sich ein Ganzes zwar in der Regel aus lauter Teilen positiver Größe zusammensetzt, dies aber nicht immer gelten muss. Z.B. kann sich das Gesamtvermögen durchaus als Saldo aus positiven und negativen (Krediten, Konten im Minus) Bestandteilen zusammensetzen. Ähnliches gilt fur einen Unternehmensgewinn. Dann sind Kreis- und Ring-Diagramm nicht zur Darstellung geeignet. Säulen- und Balken-Diagramm können ebenfalls einen Überblick über die Gesamtstruktur liefern. Das gilt allerdings nur dann, wenn sämtliche Werte dargestellt werden, also gegebenenfalls mit „Sonstige" eine Säule existiert, mit der in Summe 100 % erreicht werden. Es ist jedoch etwas schwerer, z.B. auf einen Blick zu erkennen, ob eine Ausprägung die 25%- oder 50%-Grenze erreicht hat. Sofern absolute statt relative Werte auf der Skala aufgetragen sind, kann man das nicht einmal ablesen, ohne im Kopf sämtliche Werte zu addieren. Hier ein paar typische Beispiele für Fälle, in denen die Struktur im Mittelpunkt der Aussage steht: •
Sitzverteilung nach Wahlen
•
Marktanteile von Unternehmen
4.3 Einzelwerte
119
•
Aufteilen des Umsatzes eines Unternehmens nach Produktgruppen oder Vertriebsregionen
•
Zusammensetzung von Personengruppen nach Merkmalen wie Alter, Geschlecht, Nationalität usw.
4.3
Einzelwerte
In vielen Fällen ist eine Gesamtheit von 100 % nicht von Interesse oder sie existiert (insbesondere bei häufbaren Merkmalen) überhaupt nicht. Hier einige Beispiele dazu: •
Es sollen die Einwohnerzahlen einiger Städte dargestellt werden. Wie groß deren Anteil an der Gesamtbevölkerung eines Kreises, Bundeslandes oder gar Staates ist, interessiert dabei nicht.
•
Personen werden gefragt, welche Kinderkrankheiten sie hatten (häufbares Merkmal!). Es gibt zwar für jede einzelne Krankheit eine Gesamtheit (die der befragten Personen), nicht jedoch für die Summe aller Krankheiten, wenn jeweils ein eigener Prozentwert berechnet wird.
•
Für einige Städte sollen die aktuellen Temperaturen präsentiert werden. Die Summe über alle Temperaturen wäre dabei genau so unsinnig wie der Anteil einer einzelnen Stadt daran.
•
Es sollen die Veränderungen von mehreren Aktienkursen gegenüber einem Bezugszeitpunkt dargestellt werden.
Allen diesen Beispielen ist gemeinsam, dass es keine Struktur gibt oder diese nicht sinnvoll dargestellt werden kann. Entsprechend sind dafür das Kreis-Diagramm und seine Varianten völlig ungeeignet. Stattdessen sind Diagrammarten zu wählen, mit denen einzelne, gegebenenfalls auch negative Werte optimal dargestellt und untereinander in ihrer Größe gut verglichen werden können. Bei eindimensionalen Verteilungen sind hier das Säulen-Diagramm und das Balken-Diagramm an erster Stelle zu nennen. Das Säulen-Diagramm wird von vielen Personen offensichtlich intuitiv bevorzugt, das Balken-Diagramm bietet dagegen Vorteile bei der Beschriftung und wenn viele Einzelwerte vorliegen. Sofern ausschließlich positive Werte in Bildform dargestellt werden sollen, kommen noch Piktogramm-Mengen in Betracht. Bei zweidimensionalen Verteilungen bietet sich vor allem das Gruppensäulen-Diagramni an.
4 Welches Diagramm fur welche Art von Aussage?
120
Das Stapelsäulen-Diagramm ist hier eher als Mischform zu betrachten, da es für Merkmal 1 die einzelnen Summenwerte, für Merkmal 2 jedoch eher die Struktur in den Mittelpunkt stellt.
4.4
Rangfolge
Sofern vor allem die Rangfolge der einzelnen Werte interessiert, ist das ParetoDiagramm eindeutig die erste Wahl. Es handelt sich dabei um eine nach Werten bzw. Häufigkeiten sortierte Version des Säulen- oder des Balken-Diagramms. Letzteres ist vor allem dann sinnvoll, wenn eine große Anzahl von Werten dargestellt werden soll oder die Beschriftung so besser angebracht werden kann. Das Pareto-Diagramm ist auch dann besonders geeignet, wenn man zeigen möchte, wo innerhalb einer Rangfolge ein bestimmtes Objekt (z.B. das eigene Unternehmen oder Land) liegt. Die entsprechende Säule bzw. der entsprechende Balken sollte dann in geeigneter Weise farbig hervorgehoben werden. Für den Fall, dass man neben der Rangfolge auch die Struktur darstellen möchte, bieten sich auch das Kreis- oder Ring-Diagramm an, bei denen dann - beginnend bei „12 Uhr" - die Werte nach Größe sortiert im Uhrzeigersinn angeordnet werden. Hier einige typische Fragestellungen, bei denen die Rangfolge im Vordergrund steht: •
Welche Unternehmen beherrschen den Markt und wo stehen wir dort?
•
Welches sind unsere wichtigsten Produkte oder Kunden (nach Umsatz)?
•
Welches sind die größten Bevölkerungsgruppen (z.B. nach Nationalität)?
•
Liste der größten Städte eines Landes
Wichtig bei der Sortierung nach Rangfolge ist jedoch, dass es keine (andere) natürliche Reihenfolge der Ausprägungen gibt. Es sollten also nur nominale und keine ordinalen oder metrischen Merkmale nach Größe sortiert werden. So wäre z.B. eine Notenübersicht für eine Klausur, bei der die Noten von links nach rechts in der Reihenfolge 3, 1, 5, 2, 4 dargestellt würden, nicht nur für den Betrachter verwirrend, sondern offensichtlich unsinnig.
4.5 Zusammenhang von Merkmalen
4.5
121
Zeitliche Entwicklung
Oft soll die zeitliche Entwicklung einer einzelnen Größe dargestellt werden. Dabei kann es sich z.B. um den Kurs einer Aktie, den Umsatz eines Unternehmens oder die Einwohnerzahl einer Stadt handeln. Für die Darstellung solcher Daten bieten sich vor allem zwei Diagrammarten an: •
Sofern die Betonung auf den einzelnen Werten liegt (z.B. die Umsätze jeweils eines Jahres) und nicht zu viele Einzelwerte vorliegen, ist vor allem das SäulenDiagramm geeignet.
•
Wenn mehr die Entwicklung der Werte im Vordergrund steht und - zumindest gedanklich - ein mehr oder weniger stetiger Übergang zwischen den einzelnen Werten unterstellt wird, ist das Linien-Diagramm vorzuziehen.
Ausfuhrliche Informationen zur Darstellung von Zeitreihen finden sich in Kapitel 7.
4.6
Zusammenhang von Merkmalen
Sofern eine zweidimensionale Verteilung vorliegt, interessieren oft nicht nur die Häufigkeiten der einzelnen Merkmalskombinationen, sondern auch die Frage, ob es einen Zusammenhang zwischen beiden Merkmalen gibt. Das gilt vor allem dann, wenn beide Merkmale metrisch sind. Dann wird dieser Zusammenhang auch als Korrelation bezeichnet und lässt sich durch ein entsprechendes Maß, den Korrelationskoeffizienten, quantifizieren. Hier typische Beispiele aus unterschiedlichen Bereichen: •
Zusammenhang zwischen Verkaufsfläche und Umsatz bei Supermärkten
•
Zusammenhang zwischen Werbeaufwand und Verkaufszahlen im Vertrieb
•
Zusammenhang zwischen Geschwindigkeit und Energieverbrauch im Transportwesen
Für die Darstellung eines solchen Zusammenhangs ist das Streu-Diagramm in idealer Weise geeignet. Mit den heutigen Programmen (z.B. Excel) lässt sich darin der Zusammenhang auch mit wenigen Mausklicks in Form einer Trendlinie (Regressionsfunktion) einzeichnen. Sofern allerdings keine gesicherten Erkenntnisse über die Kausalität und die Art des Zusammenhangs (z.B. linear, exponentiell usw.) vorliegen, sollte dies nur mit äußerster Zurückhaltung geschehen.
122
4 Welches Diagramm für welche Art von Aussage?
In bestimmten Fällen, z.B. wenn Merkmalskombinationen mehrfach vorkommen oder auch ein drittes metrisches Merkmal dargestellt werden soll, kann das BlasenDiagramm eingesetzt werden. Bei nicht-metrischen, insbesondere nominalen Merkmalen ist die Frage nach dem Zusammenhang nicht so einfach zu beantworten oder darzustellen. 12 Das liegt bei nominalen Merkmalen unter anderem daran, dass die Reihenfolge der Ausprägungen beliebig gewählt werden kann. Bei ordinalen Merkmalen kann mit gewissen Einschränkungen aber das Blasen-Diagramm zur Visualisierung von Zusammenhängen verwendet werden.
4.7
Vergleich von Verteilungen
Oft will man mehrere Verteilungen miteinander vergleichen. Die Unterscheidung wird dabei meist durch ein qualitatives (Auswahl-)Merkmal gemacht, während bei den so definierten bedingten Verteilungen des anderen Merkmals alle Skalenarten möglich sind. Typische Beispiele sind Verteilungen für Merkmale wie Berufs- und Studienwahl, Einkommen, Alter, Familienstand usw., die für zwei Gruppen wie Ost/West oder männlich/weiblich verglichen werden sollen. Sofern das Auswahlmerkmal dichotom ist, also nur zwei Ausprägungen hat, bietet sich vor allem ein Paarbalken-Diagramm für einen direkten Vergleich der Ausprägungen des anderen Merkmals an. Damit lassen sich z.B. zwei Politiker oder zwei Unternehmen oder männliche und weibliche Personen mit ihren Eigenschaften unmittelbar gegenüberstellen. Liegen für das Auswahlmerkmal mehrere Ausprägungen vor, sind vor allem das Gruppensäulen- bzw. Gruppenbalken-Diagramm und das Stapelsäulen- bzw. Stapelbalken-Diagramm fur eine vergleichende Darstellung geeignet. Das Auswahlmerkmal wird bei Stapelsäulen als Merkmal 1 auf der X-Achse aufgetragen, während die Verteilungen innerhalb der einzelnen Stapelsäulen zu sehen sind. Bei Gruppensäulen wird meist über Merkmal 2, nach dem innerhalb der Gruppen unterschieden wird, ausgewählt, während die betrachteten Verteilungen dann zu dem auf der X-Achse aufgetragenen Merkmal 1 gehören.
12
Natürlich kann auch dort die Frage nach einem Zusammenhang beantwortet werden, z.B. mit sogenannten Chi-Quadrat-Tests. Dies ist jedoch eher für Statistiker interessant und nicht Gegenstand normaler Präsentationsgrafiken.
5
Eindimensionale Verteilungen
5.1
Allgemeines
Von eindimensionalen (in der Statistik auch: univariaten) Verteilungen spricht man dann, wenn für jedes Objekt einer Grundgesamtheit nur ein Merkmal erhoben wird. Es handelt sich damit um den einfachsten und in der Praxis statistischer Darstellungen auch häufigsten Fall einer Verteilung. In diesem Kapitel werden die Möglichkeiten zur Darstellung solcher Daten intensiv behandelt. Dabei ist die Skalenart (nominal, ordinal oder metrisch), die hier ausfuhrlich behandelt wird, von entscheidender Bedeutung dafür, welche Darstellungsarten überhaupt angewendet werden können und wie diese zu handhaben sind. Diese Grundlagen sind zentral für das gesamte Verständnis in der Statistik und werden auch bei den zweidimensionalen Verteilungen im nächsten Kapitel vorausgesetzt.
5.2
Nominale Merkmale
5.2.1
Merkmalsausprägungen
Nominale Merkmale besitzen Ausprägungen, die meist als Texte angegeben werden und keine Reihenfolge haben. Die mögliche Anzahl der Ausprägungen kann dabei sehr unterschiedlich sein. Im einfachsten Fall eines sogenannten ilichotomen M e r k m a l s gibt es lediglich zwei Ausprägungen. Beispiele dafür sind , j a " und „nein" oder „weiblich" und „männlich". Dies vereinfacht die Angabe einer Statistik deutlich, weil man z.B. nur noch die Anzahl oder den Anteil der ,ja"-Ergebnisse nennen muss, da sich der Wert für „nein" entsprechend ergibt. Für viele nominale Merkmale lässt sich eine relativ kleine Anzahl von Ausprägungen abschließend benennen. Ein typisches Beispiel ist der Familienstand einer Person. Allerdings gibt es hier eine Reihe von Möglichkeiten, die Merkmalsausprägungen festzulegen. Eine Variante wäre „verheiratet" und „nicht verheiratet", also ein
124
5 Eindimensionale Verteilungen
dichotomes Merkmal. In amtlichen Statistiken werden jedoch meist die vier Ausprägungen „ledig", „verheiratet", „geschieden" und „verwitwet" unterschieden. Gelegentlich wird sogar noch nach „verheiratet, zusammenlebend" und „verheiratet, getrenntlebend" unterschieden. Je nach Zweck der Statistik lassen sich auch andere Ausprägungen festlegen (z.B. für die Steuer „verheiratet, zusammenveranlagt" usw.). Eine dritte Gruppe von Merkmalen besitzt eine sehr große oder gar praktisch unbeschränkte Anzahl von Ausprägungen. Beispiele dafür sind die Nationalität, der Beruf oder der Wohnort. Sofern nicht innerhalb der untersuchten Grundgesamtheit nur eine sehr kleine Zahl der möglichen Ausprägungen tatsächlich vorkommt, muss man fur die Darstellung oder gegebenenfalls auch schon für die Erhebung bzw. Aufbereitung der Daten Zusammenfassungen vornehmen. Neben einer mehr oder weniger gleichmäßigen Aufteilung der möglichen Ausprägungen auf wenige Gruppen (z.B. die inländischen Wohnorte nach den 16 Bundesländern) wird man häufig eine an den jeweiligen Gegebenheiten oder Interessen orientierte Gruppierung wählen, die von einem Fokus ausgehend immer gröber wird. Z.B. könnte man das Herkunftsland von Personen nach „Deutschland", „EU-Ausländ", „übriges Europa" und „Rest der Welt" einteilen. Die letztgenannte Ausprägung ist sehr typisch für eine Gruppierung und läuft oft unter der Bezeichnung „Sonstige". Das Vorhandensein einer solchen Gruppe ist wichtig, um damit alle Möglichkeiten vollständig abzudecken. Näheres zur Gruppierung von Merkmalsausprägungen befindet sich im nächsten Abschnitt. Es wurde einleitend gesagt, dass die Ausprägungen nominaler Merkmale in der Regel in Form von Texten angegeben werden. Das ist jedoch nicht zwingend. Ein entsprechendes Beispiel sind Postleitzahlen. Diese liegen als „normale" Zahlen vor und können damit deren übliche mathematische Möglichkeiten suggerieren. Wenn man sich aber vor Augen hält, dass z.B. eine „durchschnittliche Postleitzahl" völliger Unsinn ist, so wird deutlich, dass die Zahlen hier lediglich die Bedeutung von Kodierungen besitzen. Ähnliches gilt z.B. für die ebenfalls als Zahl angegebene Steuerklasse oder die in Computer-Listen üblichen Codes (z.B. 1 fur „männlich", 2 für „weiblich"). Insbesondere bei nominalen Merkmalen kann es vorkommen, dass diese h ä u f b a r sind. Damit ist gemeint, dass ein Objekt zu diesem Merkmal mehr als eine Ausprägung besitzen kann. Z.B. kann jemand mehr als eine Sportart betreiben oder mehrere Ausbildungsabschlüsse besitzen. Bei der Darstellung von Statistiken wird in diesem Fall meist durch einen Zusatz der Art „Mehrfachnennung möglich" darauf hinge-
5.2 Nominale Merkmale
125
wiesen. Man muss daran denken, dass sich dann die Häufigkeiten nicht zu 100 % addieren werden, sondern dass die Summe oft über 100 % liegt. Damit ist u.a. die Verwendung eines Kreis-Diagramms ausgeschlossen.
5.2.2
Gruppierung
Unter Gruppierung versteht man die Zusammenfassung mehrerer Merkmalsausprägungen zu einer Gruppe, die dann wie eine neue (künstliche) Merkmalsausprägung verwendet werden kann. Zum einen kann man damit erreichen, dass man die für die aktuelle Darstellung besonders interessanten Aspekte besser hervorhebt, und zum anderen lässt sich so bei Bedarf die Anzahl der darzustellenden Ausprägungen auf ein sinnvolles Maß reduzieren. Bei der Frage nach Art und Umfang der Gruppierung lassen sich mehrere Aspekte bzw. Ebenen unterscheiden: !
Zunächst ergibt sich eine Obergrenze für die Anzahl der Ausprägungen durch das Merkmal selbst bzw. die in der Erhebung tatsächlich vorhandenen Ausprägungen.
2.
Im nächsten Schritt ist zu überlegen, ob fur den Zweck der Darstellung überhaupt alle vorhandenen Ausprägungen notwendig oder sinnvoll sind. Hat man beispielsweise das Merkmal Staatsangehörigkeit mit rund 50 vorhandenen Ausprägungen erfasst, möchte aber - z.B. in Hinblick auf eine bevorstehende Wahl - nur zwischen Deutschen und Ausländern unterscheiden, ergibt sich nahezu automatisch eine Einteilung in die ursprüngliche vorhandene Ausprägung „deutsch" und die künstlich gebildete Gruppe „ausländisch".
3.
Weiterhin ist zu unterscheiden, mit welchem Medium bzw. in welchem Kontext die statistischen Daten dargestellt werden sollen. Dabei sind vor allem zwei Möglichkeiten zu unterscheiden: Es handelt sich um eine Präsentation vor Publikum. Dann muss die Informationsdichte grundsätzlich so gering gehalten werden, dass sie von den Zuhörern in der kurzen Zeit verarbeitet werden kann. Da aus der Psychologie bekannt ist, dass das Kurzzeitgedächtnis nur ca. 5 - 7 Elemente speichern kann, ist die Anzahl der Ausprägungen - gleichgültig ob in einer Tabelle oder einer Grafik - entsprechend zu begrenzen. Sofern es sich um eine schriftliche Darstellung handelt, kann die Anzahl der Merkmalsausprägungen bzw. Gruppen deutlich höher ausfallen. Das gilt insbesondere dann, wenn die Daten auch zum Nachschlagen verwendet
126
5 Eindimensionale Verteilungen werden sollen oder sich jeder Leser gezielt die für seine Belange interessierenden Aspekte herausziehen kann.
4.
Zuletzt ist darauf zu achten, dass die gewählte Art der Darstellung (z.B. Tabelle oder eine bestimmte Form von Grafik) die Anzahl der Ausprägungen nach oben begrenzt. Während Tabellen problemlos eine ganze Seite mit entsprechend vielen Ausprägungen füllen können (im Extremfall auch mehrere Seiten), sollte bei Balken-Diagrammen ca. 20 und bei Säulen- oder Kreis-Diagrammen ca. 7 die Grenze sein.
Aus diesen Aspekten folgt letztlich eine Obergrenze für die Anzahl der darzustellenden Merkmalsausprägungen bzw. Gruppen davon. Dabei gilt die kleinste Grenze, die aus den eben genannten vier Schritten abgeleitet wurde. Sofern die vorhandene Anzahl von Ausprägungen darüber liegt, muss eine Gruppierung vorgenommen werden. Für diese sind vor allem folgende Varianten geeignet: 1. Sofern es für den Zweck der Darstellung keine vorgegebene Zielrichtung gibt und letztlich alle potenziellen Ausprägungen gleichwertig sind, bietet es sich an, die (je nach Obergrenze ca. 5 - 20) Ausprägungen mit den größten Häufigkeiten direkt aufzuführen und alle übrigen zur Gruppe „Sonstige" zusammenzufassen. Dies ist jedoch nur dann sinnvoll, wenn die sonstigen Ausprägungen zusammen nicht mehr als bei der Hälfte der untersuchten Elemente vorkommen. 2
Als eine Variante von 1. kann man Gruppen der häufigsten Ausprägungen bilden. Bei Studiengängen könnten so z.B. Gruppen wie „Ingenieurwissenschaften", „Naturwissenschaften" usw. gebildet werden. Auch hier ist eine Gruppe „Sonstige Studienfacher" sinnvoll, wenn sich sonst zu viele oder zu grobe Gruppen ergäben.
3.
Sofern letztlich nur eine einzige Merkmalsausprägung bzw. deren Anteil an der Gesamtheit von Interesse ist, werden alle übrigen Ausprägungen zur Gruppe „Sonstige" zusammengefasst. Es entsteht somit ein dichotomes Merkmal.
4.
Der in Variante 3. bestehende Fokus auf ausschließlich eine einzige Merkmalsausprägung lässt sich ausweiten, indem man - ausgehend von einer solchen herausgehobenen Ausprägung - Gruppen bildet, die mit zunehmendem inhaltlichen Abstand immer gröber werden. Ein typisches Beispiel für die Staatsangehörigkeit wären die Ausprägungen „deutsch", „EU-Ausland", „Sonstiges Europa" und „Restliche Welt" (für die letzte Ausprägung alternativ auch die einzelnen Kontinente).
Bei allen Varianten ist es wichtig, dass sämtliche vorkommenden Merkmalsausprägungen erfasst werden. Sofern die vorhandenen Merkmale und Gruppen dies nicht abdecken, ist deshalb eine Gruppe „Sonstige" einzufügen.
5.2 Nominale Merkmale
5.2.3
127
Anordnung der Merkmalsausprägungen
Wie bereits erläutert besitzen die Ausprägungen nominaler Merkmale keine natürliche Reihenfolge. Bei der tabellarischen oder grafischen Darstellung kommt man jedoch nicht umhin, eine solche Reihenfolge festzulegen. 1 3 Man sollte sich darüber im Klaren sein, dass damit - gewollt oder nicht - eine Beeinflussung des Betrachters stattfinden kann, indem er z.B. die oben bzw. links stehenden Ausprägungen als wichtiger ansieht. Hier einige mögliche Kriterien für die Anordnung, die sich als sinnvoll erwiesen haben: •
Sofern man die Gleichberechtigung der Merkmalsausprägungen hervorheben will, bietet sich eine alphabetische Anordnung an. Bei einer größeren Anzahl von Ausprägungen wird damit auch das Auffinden eines bestimmten Wertes erleichtert.
•
Eine Reihenfolge nach Wichtigkeit ergibt sich oft durch die Häufigkeit der dargestellten Werte. Es ist deshalb durchaus üblich, die Ausprägungen nach fallenden Häufigkeiten zu sortieren, so dass die häufigsten Ausprägungen links bzw. oben stehen.
•
Bei manchen Merkmalen kann sich - obwohl grundsätzlich nominal skaliert doch eine gewisse natürliche Reihenfolge ergeben. Z.B. kann man bei den in Statistiken üblicherweise verwendeten Ausprägungen fur den Familienstand die Reihenfolge „ledig", „verheiratet", „verwitwet" und „geschieden" (bis auf die Anordnung der letzten beiden) als zeitlich bzw. kausal sinnvoll betrachten.
•
Wie schon bei der Gruppierung beschrieben, können Merkmalsausprägungen von einem bestimmten Blickwinkel aus eine Richtung von wichtiger zu unwichtiger besitzen. Bei dem bereits dort verwendeten Beispiel der Staatsangehörigkeit ist - für eine Deutschland betreffende oder einen deutschorientierten Adressatenkreis ansprechende Darstellung - die Reihenfolge von „deutsch" über „Europa" bis zum „Rest der Welt" nahezu vorgegeben.
t
Eher selten findet man bei Vergleichen (z.B. zwischen Deutschland und anderen Ländern) die Variante, dass Deutschland an erster Stelle steht und die übrigen Länder nach Häufigkeit oder Alphabet sortiert dahinter folgen. Gerade bei Vergleichen bietet sich eher die einheitliche Sortierung nach Größe an, wobei die besonders interessierende Ausprägung (z.B. Deutschland) innerhalb der Liste
Lediglich beim K r e i s - D i a g r a m m b e f i n d e n sich die A u s p r ä g u n g e n weitgehend gleichberechtigt u m die Mitte verteilt. Allerdings gibt es bei vielen Betrachtern auch dort eine Leserichtung, die bei „12 U h r " beginnend im Uhrzeigersinn verläuft.
128
5 Eindimensionale Verteilungen optisch (z.B. farbig) hervorgehoben wird (ein Beispiel hierzu findet sich in Abschnitt 3.8.4).
5.2.4
Darstellung
Um die typischen Möglichkeiten der Darstellung nominaler Merkmale zu zeigen, wird in diesem Abschnitt das (echte) Ergebnis einer Wahl als durchgehendes Beispiel verwendet. Gegeben ist dazu die Tabelle Tab. 5-1 mit dem Wahlergebnis. Tab. 5-1:
Wahlergebnis
Ergebnis der Landtagswahl in Hessen 2009 Partei
CDU SPD FDP GRÜNE DIE LINKE Sonstige Parteien dar.: FREIE WAHLER Insgesamt:
Anteil an gültigen Stimmen Veränderung Ergebnis 2009 zu 2008 % %-Punkte 37,2 0,4 23,7 -13,0 16,2 6,8 13,7 6,2 5,4 0,3 3,8 1,6 100
-0,7 0,7 —
Sitze Ergebnis Veränderung 2009 zu 2008 Anzahl 4 46 29 -13 9 20 8 17 6 -
-
-
-
118
8
Quelle: Hessisches Statistisches Landesamt Die Tabelle zeigt zahlreiche Details, die im Grundlagenabschnitt 3.2 behandelt wurden: In der Tabellenüberschrift ist der behandelte Gegenstand sachlich, räumlich und zeitlich exakt definiert. Der Tabellenkopf bezeichnet den Inhalt der darunter befindlichen Spalten. Auch wenn es mehrere Spalten sind, handelt es sich nicht um eine zweidimensionale Verteilung, sondern vielmehr um insgesamt vier eindimensionale Verteilungen, weil die Spalten jeweils unterschiedliche Merkmale enthalten. Der Datenbereich ist nicht mittels waagerechter Linien, sondern mit Abständen strukturiert. Die Zeile „Sonstige Parteien" umfasst mehrere Parteien, von denen nur
5.2 Nominale Merkmale
129
eine (die nach Stimmanteil größte) mit dem Kürzel „dar.:" („darunter") als Ausgliederung aufgeführt ist. Die Veränderungen sind als Prozentpunkte und nicht als Prozent angegeben, da es sich um absolute und nicht um relative Unterschiede zwischen zwei Prozentwerten (den Stimmanteilen in zwei getrennten Wahlen) handelt. Die Summenzeile enthält die Summe der Werte darüber (natürlich ohne den Wert für „FREIE WÄHLER", der ja bereits in „Sonstige Parteien" enthalten ist). Der Wert für 100 % ist normgerecht ohne die Nachkommastelle angegeben worden. Die Datenwerte 0 werden durch das Symbol „ - " repräsentiert. Für die grafische Darstellung eindimensionaler Verteilungen nominal skalierter Merkmale gibt es allgemein verschiedene geeignete Möglichkeiten: •
Sofern die einzelnen Werte im Mittelpunkt stehen, sollten Säulen- oder Balken-Diagramme verwendet werden. Sofern eine Sortierung nach absteigenden Werten erfolgt, liegt dabei ein Pareto-Diajiramm vor. Alternativ können wenn nur positive Werte vorhanden sind und ein geeignetes Bild zur Verfügung steht - auch I'iktogramm-Mengen eingesetzt werden.
•
Soll dagegen mehr die (relative) Aufteilung einer Gesamtheit von exakt 100 % visualisiert werden, sind in der Regel das Kreis- oder Ring-Diagramm besser geeignet. Bei der Verteilung von Parlamentssitzen kann alternativ auch das Halbring-Diagramm zum Einsatz kommen. Sofern eine Aufgliederung eines einzelnen Segments gewünscht ist, wird das zweistufige Kreis-Diagramm eingesetzt. Es ist zu beachten, dass sich diese Darstellungsformen nicht für häufbare Merkmale oder negative Werte eignen.
Für das Beispiel des Wahlergebnisses folgen hier einige konkrete Diagramme. Für die Darstellung der einzelnen Stimmanteile eignet sich das in Abb. 5-1 gezeigte Säulen-Diagramm am besten. Da hier die exakten Werte von besonderem Interesse sind, wurden keine Gitternetzlinien eingezeichnet, sondern die Prozentwerte über die einzelnen Säulen geschrieben. Damit kann - muss aber nicht - die Y-Achse mit ihrer Beschriftung entfallen. Wie man sieht, muss man - im Gegensatz zum KreisDiagramm - nicht alle Ausprägungen bzw. Parteien auffuhren, sondern kann sich auf die wichtigsten beschränken. Hier im Buch wurden die Säulen aus drucktechnischen Gründen mit einer einheitlichen Farbe versehen. Bei farbigen Abbildungen werden in dieser speziellen Anwendung natürlich die Farben verwendet, die man mit den jeweiligen Parteien assoziiert.
130
5 Eindimensionale Verteilungen
Ergebnis der Landtagswahl in Hessen 2009 Anteil an den gültigen Stimmen
CDU
SPD
FDP
GRÜNE
DIE LINKE
Quelle: Hessisches Statistisches Landesamt
Abb. 5-1:
Säulen-Diagramm mit Stimmanteilen
Für die Darstellung der Veränderungen gegenüber der letzten Wahl bietet sich ebenfalls ein Säulen-Diagramm an, wie dies in Abb. 5-2 zu sehen ist.
E r g e b n i s d e r L a n d t a g s w a h l in H e s s e n 2 0 0 9 Veränderung der Stimmanteile gegenüber 2008 %-Punkte 10 6,2
CDU
SPD
FDP
GRÜNE
DIE LINKE
-10
Quelle: Hessisches Statistisches Landesamt
Abb. 5-2:
Säulen-Diagramm mit der Veränderung der Stimmanteile
Wie man erkennen kann, eignet sich das Säulen-Diagramm auch sehr gut fur die Darstellung negativer Werte, die sofort optisch auffallen.
131
5.2 Nominale Merkmale
Abschließend zu diesem Beispiel zeigt Abb. 5-3 noch eine Darstellung der Sitzverteilung.
Ergebnis der Landtagswahl in Hessen 2009 Sitzverteilung DIE LINKE
GRÜNE /
/
\
6
17
\
V_ \
I
j
118 Sitze
16
CDU
\
i
j
29
SPD
/
20
V FDP
Quelle: Hessisches Statistisches Landesamt
Abb. 5-3:
Ring-Diagramm mit Sitzverteilung
Der Ring bietet gegenüber dem Kreis die Möglichkeit, die Gesamtzahl der Sitze an zentraler Stelle anzugeben. Gegenüber der Darstellung in Form eines Halbrings, die sonst bei Sitzverteilungen in Parlamenten öfters zum Einsatz kommt, bietet der Halbring den Vorteil, dass man unmittelbar für verschiedene mögliche Koalitionen die Mehrheitsverhältnisse erkennen kann. Dies setzt natürlich eine den politischen Verhältnissen entsprechende Anordnung der Segmente voraus, die hier bewusst von der Reihenfolge in den Säulen-Diagrammen abweicht. Zum Abschluss noch ein Beispiel dafür, wie man es nicht machen sollte: Negativ-Beispiel 5.1: Im Magazinteil einer fuhrenden deutschen TV-Zeitschrift wurde ein Diagramm abgebildet, wie es in Abb. 5-4 zu sehen ist. Die Darstellung als Kreis-Diagramm ist hier völlig unsinnig, da das Merkmal „konsumierte Drogen" häufbar ist, was auch aus dem Untertitel („Mehrfachnennung möglich") klar hervorgeht.
132
5 Eindimensionale Verteilungen
Anteil legaler und illegaler Drogen Konsum bei Abhängigen (Mehrfachnennung möglich)
Abb. 5-4: Kreis-Diagramm mit 112 % Kreis-Diagramme dienen immer dazu, eine Gesamtheit überlappungsfrei in einzelne Teilmengen aufzuteilen. Die Summe muss also genau 100 % ergeben. Wie man leicht sehen kann, beträgt die Summe der angezeigten Prozentwerte jedoch 112 %. Allgemein können bei häufbaren Merkmalen beliebige Summen von unter oder auch weit über 100 % entstehen. Zudem suggeriert das Diagramm eine Abgeschlossenheit, die nicht existiert. Es gibt natürlich neben den aufgeführten Drogen noch viel mehr, die hier nur nicht dargestellt worden sind. Das Kreis-Diagramm steht zumindest optisch in klarem Widerspruch dazu.
5.3
Ordinale Merkmale
5.3.1
Merkmalsausprägungen
Ordinale Merkmale unterscheiden sich von nominalen dadurch, dass es eine vorgegebene Reihenfolge der Merkmalsausprägungen gibt. In der Regel werden die Ausprägungen in Form eines verbalen Ausdrucks angegeben. Typische Beispiele dafür sind die Dienstgrade beim Militär sowie die bei Fragebogen üblichen Bewertungskategorien von „schlecht" über „mittel" bis „sehr gut". Gerade bei ordinalen Merkmalen gibt es jedoch häufiger Grenzfalle, wie die folgenden Beispiele zeigen:
5.3 Ordinale Merkmale •
133
Bei einem Merkmal wie „Schulabschluss" kann man sicherlich grundsätzlich von einem ordinalen Merkmal ausgehen, da sich hier eine Hierarchie der Art „Hauptschule", „Realschule" und „Gymnasium" anbietet. Angesichts der vielen Möglichkeiten gibt es jedoch zahlreiche Fälle, in denen die Reihenfolge nicht eindeutig ist. Da man z.B. mit einem Meisterabschluss in manchen Bundesländern inzwischen die allgemeine Hochschulzugangsberechtigung besitzt, müsste demnach ein Hauptschulabschluss plus Meisterbrief mehr sein als die fachgebundene Hochschulreife, die man an einer Fachakademie erworben hat. Auch wenn sich für ein Merkmal eine Rangfolge der Ausprägungen anbietet, kann es - wie die Beispiele zeigen - dennoch schwierig sein, dies exakt für alle Möglichkeiten durchzuhalten. Im Zweifelfall muss man ein solches Merkmal dann doch als nominal bezeichnen.
•
Die andere Grenze ordinaler Merkmale bilden Wertungskategorien. Neben den bereits oben erwähnten Bewertungen in Fragebögen sind hier vor allem Noten zu nennen. Gerade bei letzteren hat man sich an einen Dualismus gewöhnt, indem neben die verbalen Stufen „sehr gut", „gut" usw. die numerischen Stufen 1, 2 usw. gestellt werden. Auch bei anderen Bewertungen werden die verbalen Stufen oft durch Zahlen - z.B. von 1 bis 10 - ergänzt oder ersetzt. Werden die Ausprägungen in Form von Zahlen dargestellt, rückt das entsprechende Merkmal schnell in die Nähe einer metrischen Skalierung. Statistiker weisen immer wieder auf den ordinalen Charakter von Noten hin und betonen zu Recht, dass z.B. die Abstände zwischen 1 und 2 auf der einen und 4 und 5 (durchgefallen!) auf der anderen Seite eben nicht gleich groß sind, obwohl sie dies bei einem metrischen Merkmal mit den Ausprägungen von 1 bis 5 sein müssten. In der Praxis aber werden Noten als metrisch behandelt, und es wird mit dem Notendurchschnitt ein Wert gebildet, der zwingend metrische Skalierung voraussetzt.
•
Umgekehrt werden z.T. auch metrische Merkmale zu ordinalen, wenn man eine Klassenbildung (siehe Abschnitt 5.4.1) vornimmt. Z.B. kann man Unternehmen nach den metrischen Merkmalen Beschäftigtenzahl oder Umsatz in Größenklassen wie „Kleinunternehmen", „mittelständisches Unternehmen" und „Großunternehmen" einordnen, die dann letztlich wie Ausprägungen eines ordinalen Merkmals „Unternehmensgröße" aufgefasst werden können.
Die Beispiele zeigen die Problematik bei der Einordnung und Behandlung ordinal skalierter Merkmale auf. Insgesamt lässt sich sagen, dass ordinale Merkmale eher wie nominale zu behandeln sind, deren Ausprägungen lediglich zusätzlich noch eine Rangordnung aufweisen. Sie wie metrische Merkmale zu behandeln (z.B. beim
134
5 Eindimensionale Verteilungen
Berechnen von Mittelwerten) und darzustellen (z.B. in einem Streu-Diagramm), sollte dagegen unterbleiben.
5.3.2
Darstellung
Ordinale Merkmale unterscheiden sich nur durch die vorhandene Reihenfolge von nominalen Merkmalen. Damit lassen sich prinzipiell alle dort möglichen tabellarischen und grafischen Darstellungsformen ebenfalls einsetzen, so dass an dieser Stelle auf die Ausführungen in Abschnitt 5.2.4 verwiesen wird. Es sind jedoch folgende Besonderheiten zu bedenken, die sich aus der festen Rangfolge der Ausprägungen bei ordinalen Merkmalen ergeben: •
Bei der grafischen oder tabellarischen Darstellung sollte in der Regel die vorgegebene Reihenfolge der Ausprägungen eingehalten werden. Wird also z.B. ein Säulen-Diagramm verwendet, ist die Reihenfolge vorgegeben, wobei - je nach gewünschter Aussage - zwischen auf- und absteigender Richtung gewählt werden kann.
•
Das Pareto-Diagramm als nach Häufigkeiten sortierte Variante sollte nur mit Bedacht gewählt werden, da es die Ausprägungen in einer Reihenfolge darstellt, die der natürlichen in der Regel widerspricht, und damit zu Irritationen beim Betrachter fuhren kann.
•
Das Kreis-Diagramm ist wegen des Fehlens eines festen Startpunkts und einer festen Leserichtung ebenfalls nur bedingt geeignet. Da die meisten Betrachter das Diagramm jedoch bei „12 Uhr" beginnend im Uhrzeigersinn lesen, kann man das Kreis-Diagramm einsetzen, wenn diese Anordnung eingehalten wird.
Die Tatsache, dass die Ausprägungen ordinaler Merkmale eine feste Reihenfolge besitzen, erlaubt im Gegensatz zu nominalen Merkmalen zusätzlich auch eine kumulierte Darstellung. Dabei wird - oft neben den jeweiligen Einzelanteilen - für eine Ausprägung angegeben, wie groß der Anteil der Ausprägungen ist, die gleich oder kleiner als das jeweilige Merkmal sind. Eine tabellarische Darstellung, die das zeigt, ist in Tab. 5-2 zu sehen. In der ersten Spalte sind die Noten eingetragen. Hier sieht man, dass Noten - auch wenn sie in der Praxis meist als Zahlenwerte geschrieben werden - in Wirklichkeit eigentlich als ordinale Merkmale zu betrachten sind. Das zeigt sich besonders deutlich an der wohl nur bei Juristen üblichen Ausprägung „vollbefriedigend".
5.3 Ordinale Merkmale Tab. 5-2:
135
Ergebnis 1. Juristisches Staatsexamen
1. Juristisches Staatsexamen in Bayern 2007 nach Noten Note
kumulierter Anteil
Anteil
% sehr gut gut vollbefriedigend befriedigend ausreichend nicht bestanden
0,36 2,77 10,14 25,03 27,11 34,59
0,36 3,13 13,27 38,30 65,41 100
Quelle: Bericht des Bayerischen Landesjustizprüfungsamtes für das Jahr 2007 In der ersten Spalte sind die Noten eingetragen. Hier sieht man, dass Noten - auch wenn sie in der Praxis meist als Zahlenwerte geschrieben werden - in Wirklichkeit eigentlich als ordinale Merkmale zu betrachten sind. Das zeigt sich besonders deutlich an der wohl nur bei Juristen üblichen Ausprägung „vollbefriedigend". In der zweiten Spalte sind die relativen Anteile der Noten am Gesamtergebnis in Form von Prozentwerten aufgelistet. Neu ist hier die dritte Spalte. In ihr ist jeweils der Anteil der Ergebnisse enthalten, die besser oder gleich der Note der jeweiligen Zeile sind. In der Zeile mit der ersten Note muss dieser Wert natürlich identisch mit dem Anteilswert sein. In der nächsten Zeile ist der kumulierte Wert gleich der Summe fur die Noten „sehr gut" und „gut". Dies setzt sich fort bis zur letzten Ausprägung, bei der dann zwingend (auch bei Rundungsfehlern in der Tabelle) als kumulierter Wert 100 % stehen muss. Ein Vorteil der kumulierten Werte besteht darin, dass man direkt Summen ablesen kann. Speziell bei Juristen ist das „Prädikatsexamen" von entscheidender Bedeutung. In Bayern umfasst es die Notenstufen „sehr gut" bis einschließlich „befriedigend" (in anderen Bundesländern z.T. nur bis „vollbefriedigend"). Es lässt sich unmittelbar ablesen, dass 38,30 % ein solches Prädikatsexamen erhalten haben. Ebenso lässt sich der Tabelle der Anteil der bestandenen Prüfungen mit 65,41 % direkt entnehmen. Die Daten lassen sich auch in Form eines Diagramms wie in Abb. 5-5 darstellen.
136
5 Eindimensionale Verteilungen
1. Juristisches Staatsexamen 2007 in Bayern % 100 η
100
80 4
65,4
60 -
0 Anteil 38,3
40 20 -
0,4
0,4
3,1
13,3 10,1
34,6
• kumuliert
25,0 F
2,8
0 sehr gut gut
vollbefriedigend ausreichend befriedigend nicht bestanden Note
Quelle: Bericht des Bayerischen Landesjustizprüfungsamtes für das Jahr 2007
Abb. 5-5: Gruppensäulen-Diagramm mit kumulierten Anteilen Es wurden beide Werte (einzelner und kumulierter Anteil) nebeneinander in einem Gruppensäulen-Diagramm abgebildet. Das entspricht grundsätzlich der Darstellungen einer zweidimensionalen Verteilung, wobei die zweite Dimension hier allerdings kein eigenständiges Merkmal, sondern die Unterscheidung zwischen Einzelanteilen und kumulierten Anteilen ist. Diese beiden Wertereihen werden durch Säulen unterschiedlicher Farbe oder Schraffur dargestellt, wobei dies in einer Legende beschriftet wird.
5.4
Metrische Merkmale
5.4.1
Merkmalsausprägungen und Klassenbildung
Metrische Merkmale unterscheiden sich von nominalen und ordinalen Merkmalen dadurch, dass ihre Ausprägungen Zahlen sind, zwischen denen (anders als z.B. bei den nominalen Merkmalen Postleitzahl oder Kontonummer) Abstände definiert und mit denen Rechenoperationen möglich sind. Nur in manchen Fällen ist es bei einem metrischen Merkmal möglich bzw. sinnvoll, die einzelnen Merkmalsausprägungen direkt für eine Darstellung zu verwenden. Dies ist z.B. dann gegeben, wenn die Ausprägungen kleine natürliche Zahlen sind. Ein typisches Beispiel wäre die Zahl von Personen in einem Haushalt. Aber auch hier müsste man - um die wenigen Ausreißer ebenfalls abzudecken - in der Regel
5.4 Metrische Merkmale
137
eine nach oben offene Klasse wie z.B. „5 und mehr" definieren, die der Gruppe „Sonstige" bei nominalen Merkmalen entspricht. In vielen Fällen gibt es bei metrischen Merkmalen jedoch eine sehr große (manchmal zumindest theoretisch unendlich große) Anzahl möglicher Ausprägungen, so dass eine einzelne Ausprägung oft nur einmal vorkommt. Um zu einer brauchbaren Darstellung zu gelangen, muss dann meist eine Klassenbildung (auch Klassifizierung genannt) vorgenommen werden. Darunter versteht man nach DIN 55 350 Teil 23 die „Aufteilung des Wertebereichs eines Merkmals in Teilbereiche (Klassen), die einander ausschließen und den Wertebereich vollständig ausfüllen". Die konkrete Einordnung der Beobachtungswerte in diese Klassen wird dann als Klassierung bezeichnet. Für die Klassenbildung gelten die folgenden beiden Grundregeln: •
Die Klassen müssen in ihrer Gesamtheit zumindest alle in der aktuellen Erhebung vorkommenden Ausprägungen abdecken, gegebenenfalls sogar alle möglichen.
•
Die Klassen müssen so definiert werden, dass zwischen ihnen keine Definitionslücken verbleiben.
Hierzu ein Beispiel: Angenommen, in einer Erhebung wurde die Körpergröße erwachsener Personen gemessen und die Werte liegen zwischen 152 cm und 197 cm. Dann könnten z.B. folgende Klassen festgelegt werden: [150; 160), [160; 170), [170; 180), [180; 190), [190; 200). Hieran lassen sich eine Reihe wichtiger Begriffe erklären: •
Eine Klasse legt eine Menge von (möglichen) Merkmalsausprägungen innerhalb eines bestimmten, zusammenhängenden Wertebereichs fest, die zusammengefasst werden.
•
Eine Klasse ist definiert durch eine untere und eine obere Klassengrenze. Es ist wichtig, dass die Grenzen benachbarter Klassen unmittelbar aneinanderstoßen und keine Lücke dazwischen verbleibt. Bei Merkmalen, bei denen nur natürliche Zahlen als Ausprägungen möglich sind, könnte man z.B. zwei benachbarte Klassen so definieren: [0; 9] und [10; 19]. Sind jedoch auch nicht ganzzahlige Werte möglich, wäre z.B. der Wert 9,5 keiner Klasse zugeordnet. Ein - leider häufig zu beobachtender - Fehler wäre aber folgende Definition: [0; 10] und [10; 19]. Damit wäre der Wert 10 beiden Klassen zugeordnet. Korrekt wäre dann eine Definition der Art: [0; 10) und [10; 20). Die eckige Klammer zeigt an, dass die Grenze noch zur Klasse gehört, die runde Klammer (z.T. wird auch eine nach außen offene eckige Klammer der Art „[10; 20[" geschrieben) schließt
138
5 Eindimensionale Verteilungen sie aus der Klasse aus. Eine übliche verbale Formulierung dazu lautet: „10 bis unter 20". 14
•
Die Klassenbreite ist der Abstand zwischen unterer und oberer Klassengrenze. Sofern - bei natürlichen Zahlen - die aneinanderstoßenden Grenzen der Nachbarklassen nicht identisch sind, ist die Klassenbreite der Abstand der unteren Grenze der aktuellen Klasse zur unteren Grenze der nächsthöheren Klasse.
•
Da die einzelnen, exakten Werte einer Klasse nach der Klassenbildung nicht mehr verfügbar sind, wird für weitere Berechnungen oder Darstellungen ein „typischer" Wert für die Klasse definiert. Dies ist üblicherweise die k lassenmitte, also der (arithmetische) Mittelwert aus den beiden Klassengrenzen. Bei Rechnungen mit klassierten Daten geht man von der vereinfachenden Annahme aus, dass alle Ausprägungen innerhalb einer Klasse denselben Wert haben und dieser gleich der Klassenmitte ist.
Es sei an dieser Stelle auf ein Problem hingewiesen, das bei gerundeten Beobachtungswerten auftritt. Angenommen, es wird die Körpergröße auf 1 cm genau erfasst, wobei von der üblichen Rundung ausgegangen wird. In einer Klasse [190; 200) befinden sich dann Personen, deren exakte Größe zwischen 189,5 cm (was aufgerundet mit 190 cm erfasst wurde) und 199,499... cm liegt. Es würden also im unteren Bereich (von 189,5 bis 190,0 cm) mehr Personen in die Klasse [190; 200) eingeordnet als es der Angabe entspricht. Da es mehr Personen knapp unter 190 cm als knapp unter 200 cm gibt, wird dies auch nicht durch einen entsprechenden Überhang der nächsthöheren Klasse ausgeglichen. Ebenso ergibt sich bei der Berechnung von Durchschnittswerten aus den klassierten Daten somit ein systematischer Fehler von 0,5 cm. Man sollte sich darüber im Klaren sein, dass Runden im Rahmen von Messungen faktisch eine implizite Klassenbildung darstellt. Wird z.B. bei der Größenmessung auf 1 cm gerundet, werden Klassen der Art [149,5; 150,5), [150,5; 151,5) usw. gebildet. Soweit man dies ermöglichen kann, sollten deshalb die Rundung bei der Messung und die Festlegung der Klassengrenzen aufeinander abgestimmt sein. Auch wenn es in einer späteren Statistik nicht ideal aussieht, wäre bei der üblich gerundeten Messung der Größe auf 1 cm also die korrekte Definition der Klasse [189,5; 199,5).
Sofern die untere Grenze offen wäre, würde die Formulierung „über 10 bis 20" lauten. Üblich - und auch vom Statistischen Bundesamt in seinen Jahrbüchern verwendet - ist jedoch die Variante [10; 20). Dies erscheint auch plausibler, da so genau alle Werte im 1 Oer-Bereich (also zweistellig und mit „1" beginnend) der Klasse zugeordnet sind und es damit keine Ausnahme für genau 10 und genau 20 gibt.
5.4 Metrische Merkmale
139
Liegen die Daten vor, stellt sich bei der Klassierung zunächst die Frage: Wie viele Klassen soll man bilden? Im Normalfall sollten es zwischen 5 und 20 Klassen sein. In der Literatur werden zur genaueren Festlegung verschiedene Regeln angegeben, mit denen die optimale Klassenzahl m anhand der Anzahl η der erhobenen Werte berechnet wird. Eine relativ leicht handhabbare Version ist folgende 1 5 : η < 30:
m= 5
30 < η < 400:
m ~ 4n
η > 400:
m = 20
Dies kann natürlich nur einen Anhaltspunkt bieten, da eine sinnvolle Definition der Klassengrenzen (die dann z.B. immer auf ganze „10" enden) Vorrang hat. Wenn möglich sollten alle Klassen gleich breit sein. Das ist jedoch nicht immer sinnvoll, wie die folgenden drei besonders wichtigen Fälle zeigen: •
Es gibt bestimmte Grenzen, an denen sich die Häufigkeiten sprunghaft ändern. Dann sollte dies zugleich auch eine Klassengrenze sein. Beispielweise steigt die Zahl der Eheschließungen ab dem vollendeten 18. Lebensjahr deutlich an. Es wäre deshalb nicht angebracht, mit einer Klasse [15; 20) so zu tun, als ob 15-Jährige die gleiche Heiratswahrscheinlichkeit wie 19Jährige besitzen.
•
Oft liegt eine sehr ungleiche Besetzung der Klassen vor. Sehr großen Häufigkeiten in einem engen Bereich stehen sehr niedrige in einem anderen, viel größeren Bereich gegenüber. Hier ist es oft sinnvoll, die Klassen im Bereich der größten Häufigkeiten feiner zu staffeln. Damit aber nicht die Gesamtzahl der Klassen zu groß wird, müssen dann umgekehrt die dünner besetzten Bereiche mit gröberen Klassen abgedeckt werden. Ein Beispiel wäre das Alter bei Erwerb des Führerscheins. Hier dürfte es statistisch interessant sein, in den Alterklassen um 18 Jahren eine sehr feine Aufteilung (z.B. jeweils ein Jahr) vorzunehmen, während die wenigen, die z.B. noch zwischen 60 und 70 Jahren den Führerschein machen, durchaus ohne wesentlichen Informationsverlust zu einer Klasse mit der Breite von 10 Jahren zusammengefasst werden können.
•
Eine Erweiterung des im letzten Punkt genannten Problems ist die Möglichkeit, dass Merkmale an den Rändern (insbesondere nach oben) praktisch unbegrenzt sein können, während die allermeisten Werte sich in einem sehr engen Bereich bewegen. Dann ist es üblich, offene Randklassen (auch als Flügelklassen be-
Diese E m p f e h l u n g wird nicht nur häufig in der Literatur verwendet, sondern entspricht auch den Vorgaben der DIN 53 804 Teil 1.
140
5 Eindimensionale Verteilungen zeichnet) zu definieren. Es handelt sich dabei um jeweils eine Klasse am oberen und/oder unteren Rand der Verteilung, die alle Werte oberhalb bzw. unterhalb der jeweils angrenzenden Klasse beinhaltet. Ein sehr häufig vorkommendes Beispiel dazu sind Einkommen oder Vermögen. Während z.B. das Jahreseinkommen der allermeisten Personen deutlich unter 100 000 Euro liegt, einige auch z.B. bis zu 1 Million verdienen, gibt es (z.B. als Unternehmer) auch Personen, die Jahreseinkommen im dreistelligen Millionenbereich oder gar darüber haben. Bei solchen Größenordnungen ist z.B. eine obere offene Randklasse der Art „1 Million und mehr" sinnvoll. Die entsprechende verbale Formulierung für eine untere offene Randklassen lautet allgemein „unter ...", wenn - wie üblich - die Klassengrenze zur jeweils oberen Klasse gehört.
Für die weitere Betrachtung und Verarbeitung der klassierten Daten muss man beachten, dass diese keine Informationen mehr darüber enthalten, wie die Daten innerhalb der einzelnen Klassen ursprünglich (also in der untersuchten Realität) verteilt sind. Zumindest gedanklich muss man deshalb eine Annahme dazu machen. Im wesentlichen lassen sich dabei zwei praktisch verwendete Modelle unterscheiden: •
Man tut so, also ob alle Werte innerhalb einer Klasse gleich wären und der Klassenmitte entsprechen würden. Diese Annahme wird meist bei der Berechnung von Mittelwerten verwendet. Auch bei der grafischen Darstellung der Häufigkeitsverteilung in Form eines Stab-Diagramms wird diese Betrachtung zugrunde gelegt. Bei offenen Randklassen stellt sich dann auch die Frage, wo dort die Klassenmitte anzusiedeln ist. Eine oft verwendete, pragmatische Lösung geht so vor, dass man die Schrittweite der benachbarten Klassenmitten einfach fortschreibt. Wenn also z.B. bei der Körpergröße die Klassenmitten 175 cm, 185 cm und 195 cm lauten, so wird man sinnvollerweise die Klassenmitte einer Klasse „200 cm und größer" bei 205 cm ansetzen.
•
Eine andere Annahme geht davon aus, dass die ursprünglichen Werte innerhalb der Klassen gleichverteilt sind. Auf einer solchen Vorstellung basiert z.B. die grafische Darstellung in Form eines Histogramms.
Beide Modelle fuhren bei den üblichen Verteilungen zu gewissen Verzerrungen. Bei der Klasse [170 cm; 180 cm) für die Körpergröße kann man sicher noch näherungsweise von einer Gleichverteilung innerhalb dieser Klasse ausgehen und damit auch die Klassenmitte von 175 cm als repräsentativen (Durchschnitts-)Wert betrachten. Das gilt jedoch nicht bei den äußeren Klassen. Z.B. dürften die meisten Werte der Klasse [190 cm; 200 cm) eher bei 190 cm als bei 200 cm liegen.
5.4 Metrische Merkmale
141
Damit liegt dann auch die Klassenmitte von 195 cm deutlich über dem Durchschnitt der tatsächlichen Werte in dieser Klasse. In der Praxis hält sich der Fehler bei der Berechnung des Mittelwertes anhand klassierter Daten jedoch meist in Grenzen, weil sich die Verzerrungen an den beiden Enden der Verteilung gegenseitig annähernd ausgleichen. Auch bei der grafischen Darstellung in einem Histogramm erkennt das Auge, dass die Nachbarklasse auf der einen Seite deutlich höher und die auf der anderen deutlich niedriger ist. Dadurch wird beim Betrachter nahezu automatisch eine Art Glättung der Treppenstufen vorgenommen und damit der wirkliche Verlauf der Dichte in der Regel recht gut erfasst. Für die meisten tabellarischen und grafischen Darstellungen ist die Klassierung von Daten unverzichtbar. Sofern man die hier beschriebenen Grundsätze beachtet und mögliche Probleme vermeidet, hat man dafür eine gute Grundlage geschaffen.
5.4.2
Darstellung
Bei der Darstellung metrischer Merkmale müssen im Wesentlichen drei Fälle unterschieden werden, die bereits im letzten Abschnitt ausführlich behandelt wurden: •
es liegen nur wenige diskrete Ausprägungen vor (z.B. Haushaltsgröße mit den Werten 1,2, 3 usw.)
•
es liegt eine stetige Verteilung oder eine diskrete (bzw. pseudo-stetige) mit sehr vielen möglichen Werten vor, die nicht klassiert wurde
•
es liegen klassierte Werte vor
Diese Unterscheidung ist für die Darstellung der Daten von entscheidender Bedeutung. Für die grafische Darstellung eindimensionaler Verteilungen metrisch skalierter Merkmale gibt es verschiedene Möglichkeiten: •
Sofern nur wenige diskrete Ausprägungen vorliegen, ist das Säulen- oder Balken-Diagramm am besten für die Darstellung geeignet. Es sollte ebenfalls dann eingesetzt werden, wenn klassierte Daten mit ungleichen Klassenbreiten darzustellen sind, aber kein „echtes" Histogramm mit ungleichen Säulenbreiten zum Einsatz kommen soll oder kann.
•
Sofern klassierte Daten vorliegen, ist das Histogramm die „klassische", in der Statistik eindeutig präferierte Variante. Wenn allerdings unterschiedliche Klassenbreiten vorkommen, sollten diese auch proportional in den Säulenbreiten abgebildet werden. Ansonsten sind einzelne Säulen mit Abstand untereinander vorzuziehen. Auffallend ist übrigens, dass selbst in den statistischen Jahrbü-
142
5 Eindimensionale Verteilungen ehern des Statistischen Bundesamtes keine „echten" Histogramme als Abbildungen vorkommen, obwohl entsprechende Daten als Diagramme dargestellt werden.
•
Das Stab-Diagramm ist besonders für den eher seltenen Spezialfall geeignet, dass unklassierte Daten mit sehr vielen Ausprägungen vorliegen. Wenn es bei klassierten Daten eingesetzt wird, entspricht die X-Position eines Stabes der Klassenmitte einer Klasse.
•
Das Kreis- oder Ring-Diagramm ist für die Darstellung metrischer Daten weniger geeignet, obwohl es gelegentlich auch dafür eingesetzt wird. Ein sinnvoller Einsatz lässt sich dort erkennen, wo z.B. die Struktur der Verteilung im Mittelpunkt steht. Als Beispiele lassen sich die Altersstruktur von Zuschauern einer TV-Sendung oder Mitgliedern eines Vereins sowie die Aufteilung einer Branche nach Betriebsgrößen (dann können die Klassen der Beschäftigtenzahlen auch ordinal als z.B. Klein-, Mittel- und Großunternehmen interpretiert werden) nennen.
Tab. 5-3 zeigt im Überblick die Eignung der verschiedenen Diagrammarten für die bereits oben aufgeführten Fälle von möglichen Daten. Tab. 5-3:
Eignung der Diagrammarten für metrische Merkmale
Diagrammart
Histogramm Säulen/Balken-Diagramm Stab-Diagramm Kreis/Ring-Diagramm
diskret; wenige Ausprägungen unklassiert mäßig sehr gut gut mäßig/gut
Art der Daten stetig oder diskret mit vielen Ausprägungen klassiert unklassiert sehr gut ungeeignet gut ungeeignet mäßig sehr gut mäßig/gut ungeeignet
Nachfolgend wird anhand einiger Anwendungsbeispiele mit realen Daten jeweils in tabellarischer und Diagrammform eine geeignete Darstellungsart erläutert. Bezüglich des Stab-Diagramms und seines Einsatzes bei unklassierten Daten sei auf die Ausführungen in Abschnitt 3.3.6 verwiesen. Tab. 5-4 zeigt ein typisches Beispiel für metrische Daten mit nur wenigen diskreten Ausprägungen.
5.4 Metrische M e r k m a l e Tab. 5-4:
143
Privathaushalte nach der Personenzahl
Privathaushalte in Deutschland 2006 nach Zahl der Personen Zahl der Personen
l 000
%
l 2 3 4 5 und mehr
15 447 13 375 5 357 4 107 1 479
38,8 33,6 13,5 10,3 3,7
Insgesamt
3 9 766
100
Quelle: Statistisches Jahrbuch 2008, S. 45 Eine geeignete grafische Darstellung f ü r diese Art von Daten ist das S ä u l e n Diagramm , wie es in Abb. 5-6 zu sehen ist.
Privathaushalte in Deutschland 2006 nach Zahl der Personen Millionen
18
16 14 - —
W
,
.
12
10
β β
.".
4
2
SMs ;·.' i
••—•———
.·
ί • i"
'•; V . -
—•—— _
—— .,...,,
^
-
_
...
'
Quelle: Statistisches Jahrbuch 2008, S. 4 5
Abb. 5-6:
Säulen-Diagramm für die Haushaltsgröße
Dass die Ausprägungen hier nach fallenden Werten geordnet vorliegen, ist Zufall. Bei metrischen Daten muss grundsätzlich die natürliche Reihenfolge eingehalten werden. Das nächste Beispiel, dessen Daten in Tab. 5-5 detailliert aufgelistet sind, zeigt einen typischen Fall klassierter metrischer Daten mit gleichen Klassenbreiten (bis auf die nach oben o f f e n e Randklasse).
144
5 Eindimensionale Verteilungen
Tab. 5-5:
Bevölkerung nach dem Alter
Bevölkerung in Deutschland 2006 nach dem Alter Alter von... bis unter... Jahren unter 10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90 und älter
1000 7 404,9 8 798,8 9 767,4 11 187,8 13 743,8 10 808,6 9 763,1 7 035,3 3 236,6 568,2
Insgesamt
82 314,9
Quelle: Statistisches Jahrbuch 2008, S. 44 Bei klassierten Daten ist die genaue Abgrenzung der einzelnen Klassen unverzichtbar. Im Kopf der Vorspalte ist genau festgelegt, dass bei der Angabe „10 - 20" die 10 dazu gehört, während die 20 schon zur nächsten Klasse zählt. Für Daten dieser Art ist das in Abb. 5-7 dargestellte Histogramm die angemessene Diagrammform.
B e v ö l k e r u n g in D e u t s c h l a n d 2 0 0 6 n a c h d e m A l t e r Millionen
16
unter 10 10 - 20
2 0 - 30
30 - 40
40 - 50
50 - 60
60 - 70
Alter von.. . bis unter. . Jahren
70 - 80
80 - 90
90und aller
Quelle: Statistisches Jahrbuch 2008, S 44
Abb. 5-7:
Histogramm fur die Altersverteilung in Deutschland
5.4 Metrische Merkmale
145
Die Säulen stoßen beim Histogramm exakt aneinander, so dass der gesamte Wertebereich auch optisch vollständig und lückenlos abgedeckt ist. Die Beschriftung unter den Säulen entspricht dem heute Üblichen und resultiert aus den Beschränkungen von Excel (siehe dazu auch Abschnitt 3.3.7). Die exakte Definition der Klasseneinteilung muss - wie schon in der Tabelle - auch hier im Diagramm erscheinen. Der Platz unterhalb der Beschriftung der X-Achse ist dafür am besten geeignet. Im nächsten Beispiel, dessen Daten in Tab. 5-6 aufgelistet sind, steht die Struktur der Verteilung im Mittelpunkt. Tab. 5-6:
Landwirtschaftliche Betriebe nach Betriebsgröße
Landwirtschaftliche Betriebe in Deutschland 2007 nach Betriebsgröße landwirtschaftlich genutzte Fläche von ... bis unter ... ha unter 10 10-30 30-50 50-100 100 und mehr Insgesamt
1 000
%
138 566 102 162 48 508 53 399 31 879
37,0 27,3 13,0 14,3 8,5
374 514
100
Quelle: Statistisches Jahrbuch 2008, S. 344 Die Größenklassen unterschiedlicher Breite lassen sich fast schon als Ausprägungen eines ordinal skalierten Merkmals „Betriebsgröße" auffassen. Steht dann bei der grafischen Darstellung noch die Struktur der Branche im Mittelpunkt, kann man dafür - wie in Abb. 5-8 - durchaus auch ein Ring-Diagramm verwenden (so auch im Statistischen Jahrbuch dargestellt). Bei der Platzierung der Klassen ist darauf zu achten, dass diese beginnend mit der Klasse der kleinsten Ausprägungen aufsteigend ab „12 Uhr" im Uhrzeigersinn angeordnet sind. Die Beschriftung erfolgt hier in Form einer Legende. Dadurch ist die Einteilung der Klassen besser lesbar als bei einer Anordnung der einzelnen Beschriftungen an den Segmenten. Zudem könnte die Angabe von Zahlenwerten (anstelle der z.B. bei nominalen Merkmalen üblichen Wortbezeichnungen) möglicherweise zu Verwirrungen oder gar Verwechslungen mit den Anteilswerten fuhren.
146
5 Eindimensionale Verteilungen
Landwirtschaftliche Betriebe in Deutschland 2007 nach Betriebsgröße
von... bis unter... ha • unter 10
• 10-30 Θ30-50 D50-100 • 100 und mehr
Quelle: Statistisches Jahrbuch 2008, S. 344
Abb. 5-8: Ring-Diagramm fur die Betriebsgröße in der Landwirtschaft Der Ring hat gegenüber dem Kreis den Vorteil, dass man die absolute Gesamtzahl zentral innerhalb des Rings platzieren kann, um dem Betrachter die Größenordnung zu verdeutlichen. Alternativ könnte man diese Daten natürlich auch in Form eines Säulen- oder Balken-Diagramms darstellen. Das Histogramm sollte bei den sehr unterschiedlichen Klassenbreiten nur dann verwendet werden, wenn keine Säulen gleicher Breite verwendet werden, sondern ein echtes Histogramm. Die Darstellung als Kreis- oder Ring-Diagramm ist nur dann sinnvoll, wenn die Größe der Segmente nicht zu stark differiert. Wollte man beispielsweise die Größe aller Unternehmen in Deutschland nach Anzahl der Beschäftigten darstellen, besteht das Problem, dass (Stand 2005) ca. 3,2 Millionen Kleinstunternehmen (unter zehn Beschäftigte) nur ca. 10 900 große Unternehmen (mind. 250 Beschäftigte) gegenüberstehen, so dass die Größe der Segmente etwa um den Faktor 300 differieren müsste. Das wäre jedoch nicht mehr sinnvoll darstellbar.
6
Zweidimensionale Verteilungen
6.1
Allgemeines
Bei zweidimensionalen (der Statistiker spricht auch von bivariaten) Verteilungen werden von jedem Objekt die Ausprägungen zweier getrennter Merkmale erhoben. Zum Beispiel könnte von Personen deren Größe und Gewicht erfasst werden. Im Gegensatz zu zwei getrennten eindimensionalen Verteilungen lässt sich bei solchen zweidimensionalen Verteilungen auch ein Zusammenhang zwischen den Merkmalen herstellen. Damit kann man z.B. feststellen, dass größere Personen im Schnitt schwerer sind.
6.2
Nominale Merkmale
Um die Darstellungsmöglichkeiten fur eine zweidimensionale Verteilung zu zeigen, bei der beide Merkmale nominal skaliert sind, wird in diesem Abschnitt ein durchgehendes Beispiel verwendet. Die Daten werden zunächst als Tabelle in Tab. 6-1 dargestellt. Diese zeigt zahlreiche Details, die im Grundlagenabschnitt 3.2 behandelt wurden: In der Tabellenüberschrift ist der behandelte Gegenstand sachlich, räumlich und zeitlich exakt definiert. Zudem werden in der zweiten Zeile auch die Merkmale genannt, nach denen die Tabelle gegliedert ist. Der Tabellenkopf gibt die Gliederung nach Spalten an. Die Summenspalte steht dabei links, dahinter folgt die (vollständige) Aufgliederung, die mit „davon:" gekennzeichnet ist. Die dritte Zeile des Tabellenkopfes gibt die Einheiten der darunterliegenden Spalten an. Die überlappende Angabe „Anzahl" links wirkt möglicherweise etwas ungewöhnlich, entspricht aber den üblichen Vorgaben und wird so auch z.B. im Statistischen Jahrbuch verwendet.
148
6 Zweidimensionale Verteilungen
Tab. 6-1:
Schüler/-innen nach Schularten und Geschlecht
Schüler/-innen in allgemein bildenden Schulen in Deutschland 2006/07 nach Schularten und Geschlecht Schulart
Insgesamt
davon: weiblich
Grundschulen
Anzahl 3 156 524 1 549 312
% 49,1
männlich Anzahl % 1 607 212 50,9
Hauptschulen 1 ' Realschulen 2 ' Gymnasien Integrierte Gesamtschulen 3 '
1 052 946 1 612 524 2 449 752 585 848
465 769 793 820 1 310655 292 518
44,2 49,2 53,5 49,9
587 177 818 704 1 139 097 293 330
55,8 50,8 46,5 50,1
498 263
191 262
38,4
307 001
61,6
9 355 857
4 603 336
49,2
4 752 521
50,8
Sonstige Schulen Insgesamt
'' Einschließlich schulartunabhängiger Orientierungsstufe. Einschließlich Schularten mit mehreren Bildungsgängen. 3) Einschließlich Freier Waldorfschulen. 2)
Quelle: Statistische Jahrbuch 2008, S. 133 Die Aufgliederung gilt hier auch für den Prozentwert, der sich jeweils zeilenweise zu 100 % addiert. Das gilt auch für die Summenzeile, bei der die Prozentwerte somit nicht der Summe der darüberstehenden Werte entsprechen. Der Datenbereich ist nicht mittels waagerechter Linien, sondern mit Abständen strukturiert, die sich an inhaltlichen Kriterien (z.B. weiterführende Schulen als Block) orientieren. Die Daten selbst sind hier völlig exakt (auf den einzelnen Schüler genau) angegeben. Diese Genauigkeit ist ausschließlich in schriftlichen Veröffentlichungen sinnvoll. Dann kann diese Exaktheit jedoch besonderes Vertrauen in die Qualität der Daten und der Ausführung insgesamt fördern. Bei Präsentationen wird man bei diesen Werten normalerweise auf ganze 1 000 runden und diese Angabe dorthin schreiben, wo jetzt „Anzahl" steht. Für die grafische Darstellung zweidimensionaler Verteilungen nominal skalierter Merkmale gibt es generell verschiedene geeignete Möglichkeiten: •
Sofern die einzelnen Werte, die auch so in der Tabelle zu sehen sind, im Mittelpunkt stehen, sollten Gruppensäulen- oder Gruppenbalken-Diagramme verwendet werden.
149
6.2 Nominale Merkmale •
Wenn Summen für eines der Merkmale interessant sind, während beim anderen Merkmal eher die Verteilung interessiert, bieten sich Stapelsäulen- oder Stapelbalken-Diagramme an.
•
Wenn man nicht die absoluten Größen, sondern die relative Verteilung fur jeweils ein Merkmal herausstellen möchte, sind normierte Stapelsäulen- oder Stapelbalken-Diagramme die geeignete Form.
•
Wenn eines der beiden Merkmale dichotom ist, also nur zwei Ausprägungen besitzt (wie hier im Beispiel weiblich und männlich), kann man auch als Variante des Gruppenbalken-Diagramms das I'aarbalken-Diagramm verwenden. Das ist allerdings nur dann sinnvoll, wenn die Unterschiede in den jeweiligen Ausprägungen sehr deutlich sind (was in diesem Beispiel nicht der Fall ist).
Weitere Darstellungsformen sind für diese Art von Daten zwar möglich, aber eher weniger geeignet. Zu nennen sind hier das 3D-Säulen-Feld oder mehrere nebeneinander platzierte Kreis- oder Ring-Diagramme (deren Flächen dann proportional zu den jeweiligen absoluten Größen sind). Nachfolgend werden für die in der Tabelle aufgeführten Daten drei geeignete Diagrammarten gezeigt, die jeweils einen anderen Aspekt betonen. Dies zeigt sehr gut, wie man durch die passende Auswahl des Diagramms eine bestimmte Aussage optimal unterstützen kann. Abb. 6-1 zeigt die Daten in Form eines Gruppensäulen-Diagramms.
SchülerMnnen in allgemein bildenden Schulen 2006/07 nach Schularten und Geschlecht
•männlich Ο weiblich
Grundschulen
Hauptschulen
Realschulen
Gymnasien
Integrierte
Sonstige Schulen
Gesamtschulen Quelle: Statistisches Jahrbuch 2008. S. 133
Abb. 6-1:
Gruppensäulen-Diagramm mit Schulart und Geschlecht
Damit ist jeder Wert zumindest grob direkt anhand der Skala an der Y-Achse links abzulesen. Durch die Gruppierung nach Schularten befinden sich zudem die Werte
150
6 Zweidimensionale Verteilungen
fur die beiden Geschlechter jeweils direkt nebeneinander. Damit kann man unmittelbar ablesen, ob es in der betreffenden Schulart mehr Schülerinnen oder mehr Schüler gibt. Abb. 6-2 zeigt dieselben Daten in Form eines Stapelsäulen-Diagramms.
S c h ü t e r M n n e n in a l l g e m e i n b i l d e n d e n S c h u l e n 2006/07 nach Schularten und Geschlecht
•mannlich
Grundschulen
Hauptschulen
Realschulen
Gymnasien
Integrierte Sonstige Schulen Gesamtschulen
Quelle: Statistisches Jahrbuch 2006, S. 133
Abb. 6-2: Stapelsäulen-Diagramm mit Schulart und Geschlecht Jetzt liegt der Fokus der Darstellung eindeutig auf dem Vergleich der einzelnen Schularten, für die jeweils die Gesamtzahl der Schülerinnen und Schüler unmittelbar ablesbar ist. Diese Summen sind so auch nicht der Tabelle zu entnehmen. Was man jetzt aber praktisch nicht mehr erkennen kann, ist die Frage, ob es jeweils mehr Schülerinnen oder Schüler gibt. Wenn in diesem Punkt nicht die absolute Zahl interessiert (die man sehr gut dem Gruppensäulen-Diagramm entnehmen kann), sondern die prozentuale Aufteilung, so bieten sich normierte Stapelsäulen als Darstellungsform an, wie dies in Abb. 6-3 zu sehen ist. In diesem Diagramm sind keinerlei absolute Zahlen enthalten. Jetzt ist jedoch unmittelbar zu sehen, wie sich - für jede Schulart getrennt - die Schülerschaft auf die beiden Geschlechter verteilt. Damit ist sofort erkennbar, dass männliche Schüler überproportional an Hauptschulen vertreten sind, während weibliche Schülerinnen die Mehrheit an Gymnasien stellen. Um dies gut erkennen zu können, sollte man darauf achten, dass die 50%-Gitternetzline vorhanden ist (Excel würde die Linien standardmäßig in 20%-Schritten darstellen).
151
6.3 Ordinale Merkmale
Schüler/-innen in allgemein bildenden Schulen 2006/07 nach Schularten und G e s c h l e c h t
• männlich
III!
Grundschulen
Hauptschulen
Realschulen
Gymnasien
gweiblich
integrierte Gesamtschulen
Sonstige Schulen
Quelle: Statistisches Jahrbuch 2008. S. 133
Abb. 6-3:
Stapelsäulen-Diagramm in normierter Form
Die drei Beispiele zeigen sehr deutlich, dass die Wahl des Diagrammtyps sehr unterschiedliche Aussagen betonen kann oder umgekehrt - wie bei der normierten Darstellung - bestimmte Daten sogar vollständig ausblendet. Für welches Diagramm man sich entscheidet, hängt also von Zweck der Darstellung bzw. der Art der gewünschten Aussage ab. Gegebenfalls können sogar alle drei Diagramme innerhalb einer Präsentation eingesetzt werden.
6.3
Ordinale Merkmale
Wie schon bei eindimensionalen Verteilungen gibt es auch bei zweidimensionalen Verteilungen in vielen Fällen keinen Unterschied zwischen der Darstellung nominaler und ordinaler Merkmale. Da die Anordnung zweier Merkmale in einer Tabelle und noch stärker in einer Grafik aber beim Betrachter vorhandene Abhängigkeiten aufzeigen kann (mehr dazu im nächsten Abschnitt über metrische Merkmale), muss bei zwei ordinalen Merkmalen zwingend die vorgegebene Reihenfolge der Ausprägungen beider Merkmale eingehalten werden. Eine Sortierung nach Häufigkeiten ist hier also unzulässig, da der Betrachter sonst eventuell eine falsche Korrelationen zwischen beiden Merkmalen herauslesen könnte. Eine zusätzliche Möglichkeit bei zweidimensionalen ordinalen gegenüber nominalen Daten ist die Nutzung von Blasen-Diagrammen. Dazu sei auf die Darstellung von Noten zweier Klausuren in Abschnitt 3.7.3 verwiesen. Ebenso könnte, wenn dies zu
152
6 Zweidimensionale Verteilungen
einer optisch befriedigenden Lösung führt, das in Abschnitt 3.6.6 behandelte 3DSäulen-Feld in Frage kommen.
6.4
Metrische Merkmale
Bei der Darstellung zweidimensionaler Verteilung zweier metrischer Merkmale muss man bezüglich der Art der Daten unterscheiden: •
beide Merkmale sind unklassiert mit vielen unterschiedlichen (vorkommenden) Ausprägungen In diesem Fall ist das Streu-Diagramm die eindeutig beste Form für die grafische Darstellung. Eine tabellarische Darstellung in einer Präsentation oder Veröffentlichung ist faktisch nicht möglich, da nur Rohdaten mit einer Zeile pro Datensatz vorliegen.
•
beide Merkmale sind klassiert oder weisen nur sehr wenige diskrete Ausprägungen auf Die geeignetste grafische Darstellung dürfte in den meisten Fällen das Blasen-Diagramm sein. Als Alternative bietet sich das Stapelsäulen-Diagramm an. Das gilt vor allem dann, wenn es sich bei den Ausprägungen zumindest eines Merkmals um diskrete Einzelwerte handelt. Ob das 3D-Säulen-Feld als grafische Darstellung geeignet ist, hängt von den konkreten Daten ab. Zum einen sollten es möglichst wenig Ausprägungen bzw. Klassen sein und zum anderen sollte vermieden werden, dass die Säulen im Vordergrund die im Hintergrund verdecken. Als gute Alternative zu den grafischen Darstellungen bietet sich hier auch eine Tabelle an.
•
ein Merkmal ist klassiert oder besitzt wenige diskrete Einzelwerte und das andere ist stetig oder quasi-stetig Sofern nur relativ wenige Wertekombinationen doppelt oder gar mehrfach vorkommen, kann auch hier das Streu-Diagramm eine geeignete grafische Darstellungsform sein. Für die Ausprägung eines klassierten Merkmals ist dann jeweils die Klassenmitte zu verwenden.
6.4 Metrische Merkmale
153
Bei häufigeren Mehrfach-Wertekombinationen und insgesamt nicht zu vielen vorkommenden Ausprägungen dürfte eher das Blasen-Diagramm in Frage kommen. Tabellarische Darstellungen sind bei diesen Voraussetzungen in der Regel nicht sinnvoll. Gegebenenfalls sollte man in Betracht ziehen, auch das zweite Merkmal zu klassieren, um die dann möglichen Darstellungsarten nutzen zu können. Die verschiedenen Darstellungsformen werden im Folgenden anhand eines durchgehenden Beispiels erläutert. Es handelt sich dabei um eine fiktive Erhebung der Merkmale Körpergröße (in cm) und Gewicht (in kg) für eine Gruppe von 100 PersoDie prägnanteste Darstellungsform solcher Daten ist das Streu-Diagramm, wie es in Abb. 6-4 zu sehen ist.
Wie in keiner anderen Darstellungsform wird der Zusammenhang zwischen beiden Merkmalen so unmittelbar sichtbar. Sie hat gegenüber allen anderen zudem den Vorteil, dass wirklich alle einzelnen Ursprungsdaten unverfälscht zu sehen sind. Die für die nachfolgenden Darstellungen vorgenommene Klassierung fuhrt dagegen zu einer höheren Abstraktion durch die relativ deutliche Informationsreduktion.
154
6 Zweidimensionale Verteilungen
Wie in der Abbildung zu sehen ist, lässt sich auch eine Regressionsfunktion (in Excel als „Trendlinie" bezeichnet) einzeichnen. Die Problematik solcher Trendlinien wurde bereits in Abschnitt 3.7.2 ausfuhrlich behandelt. Nach der Klassierung lassen sich die Daten wie in Tab. 6-2 als Tabelle darstellen. Tab. 6-2:
Personen nach Körpergröße und Gewicht
Personen nach Körpergröße und Gewicht Gewicht von... bis unter... kg
Insgesamt
40-50 50-60 60-70 70-80 80-90 90-100 100-110 Insgesamt
1 7 22 29 20 16 5 100
Mit einer Körpergröße von ... bis unter ... cm 150160170180190160 170 180 190 200 1 3 4 4 7 9 2 9 11 4 5 5 10 5 3 6 7 4 1 8
25
33
21
13
Quelle: fiktive Daten Für die klassierten Daten ist das Streu-Diagramm ungeeignet, da aus den 100 ursprünglichen Punkten nur noch 19 vorkommende Wertekombinationen geworden sind, die jedoch unterschiedlich stark besetzt sind. Die dem Streu-Diagramm entsprechende Alternative bei klassierten Daten ist deshalb das in Abb. 6-5 gezeigte Blasen-Diagramm. Die Mittelpunkte der Blasen entsprechen den jeweiligen Klassenmitten, die Fläche der einzelnen Blasen (nicht die Durchmesser!) repräsentieren die Anzahl der jeweiligen Personen zu einer Wertekombination. Der Informationsverlust gegenüber dem Streu-Diagramm ist deutlich. Deshalb sollte man dieses - wenn immer die ursprünglichen Einzeldaten verfugbar sind - anstelle von grafischen Darstellungen fur klassierte Werte verwenden.
6.4 Metrische Merkmale
155
Personen nach Körpergröße und Gewicht Gewicht in kg
100 90 80 70 •
©
60 50 4(1
170
180
Körpergröße in cm
Abb. 6-5:
Blasen-Diagramm für Körpergröße und Gewicht
Eine weitere Darstellungsform zweidimensionaler metrischer Verteilungen bei klassierten Daten ist das Stapelsäulen-Diagramm, wie es in Abb. 6-6 zu sehen ist.
Personen nach Körpergröße und Gewicht Anzahl 35-
Ί Gewicht von ... bis unter - j ...hg J
D100-110 |
-j |
Q90 - 1 0 0 • 80 - 90 Θ 70 - 80 060-70 850-60
ΒΒί ί
150-160
160-170
170-180
180-190
• 40-50
190 - 200
Körpergröße von ... bis unter... cm
Abb. 6-6:
Stapelsäulen-Diagramm für Körpergröße und Gewicht
156
6 Zweidimensionale Verteilungen
Diese Darstellungsform hat den Vorteil, dass man die aufsummierten Werte fur eines der beiden Merkmale sofort an der Gesamthöhe der einzelnen Säulen erkennen kann. Man kann die Darstellung deshalb auch als eine Art Histogramm fur die Körpergröße betrachten, das zusätzlich noch Informationen über die jeweilige Verteilung des Gewichts enthält. Die sieben Ausprägungen innerhalb der Stapelsäulen zeigen zugleich die Grenze dessen auf, was bei Schwarz-Weiß-Darstellung mit Graustufen noch vertretbar ist. Bei Farbdarstellung ist dies weniger problematisch. Wenn es eine kausale Abhängigkeit der beiden Merkmale gibt, sollte immer das unabhängige Merkmal auf der X-Achse aufgetragen werden und das abhängige in den Stapelsäulen. Bei unabhängigen Merkmalen kann man hingegen deren Aufteilung weitgehend frei gestalten. Sofern nur eines der beiden Merkmale diskrete Einzelwerte aufweist, bietet es sich aber an, dieses bevorzugt auf der X-Achse aufzutraAls eine Art Variante der Stapelsäulen lassen sich Schwebebalken oder Box-Plots einsetzen, mit denen die Verteilung des zweiten Merkmals durch seine Streuung dargestellt wird. Näheres dazu in Abschnitt 10.2. Eine Diagrammart, die man relativ häufig sieht, seit Computer intensiver eingesetzt werden, ist das in Abb. 6-7 gezeigte 3D-Säulen-Feld.
Personen nach Körpergröße und Gewicht
Abb. 6-7:
3D-Säulen-Feld ftir Körpergröße und Gewicht
6.5 Gemischte Merkmalsskalen
157
Auch wenn man sicherlich noch „kosmetische" Korrekturen vornehmen könnte, zeigen sich doch eine Reihe von Schwachpunkten bei dieser Art von Grafik. Die hinteren Säulen werden durch die im Vordergrund weitgehend verdeckt. Bei den vorliegenden Daten lässt sich dies auch nicht durch Drehen des Diagramms beseitigen, weil dann andere Teile im Hintergrund verschwinden würden. Auch die Höhe der Säulen lässt sich nicht einmal im direkten Vergleich zweier Säulen sicher bestimmen, geschweige denn deren absoluter Wert. Wenn weniger Säulen vorhanden sind und keine so ausgeprägte „Buckelform" der Verteilung vorliegt, ist das 3D-Säulen-Feld sicherlich besser geeignet als in diesem Beispiel. Trotzdem kann seine Verwendung nicht unbedingt empfohlen werden.
6.5
Gemischte Merkmalsskalen
Bisher wurde in diesem Kapitel davon ausgegangen, dass beide Merkmale der zweidimensionalen Verteilung die gleiche Skala besitzen. In der Praxis kommt es allerdings häufig vor, dass die beiden Merkmale verschiedene Skalenniveaus besitzen. Allgemein gilt natürlich, dass eine höhere Skala auch die Eigenschaften der niedrigeren umfasst. Damit könnten z.B. immer alle bei nominalen Merkmalen behandelten Darstellungsformen verwendet werden, wobei metrische Merkmale bei Bedarf zu klassieren sind. Wie bereits beschrieben wurde, unterscheiden sich nominale und ordinale Merkmale bezüglich ihrer Darstellung (sieht man von der Möglichkeit kumulierter Darstellungen ab) lediglich in der festgelegten Reihenfolge ordinaler Merkmale. Sie können deshalb weitgehend identisch betrachtet werden. Damit ist der interessante Fall gemischter Skalen die Kombination eines metrischen Merkmals mit einem nichtmetrischen Merkmal. Im nachfolgenden Beispiel wird die Einkommensverteilung für unterschiedliche Position in der IT-Beratung betrachtet. Dazu ist Tab. 6-3 mit den Daten gegeben. Für das Merkmal „Position" sind drei Ausprägungen vorhanden, die in den Spalten der Tabelle positioniert sind. Für das Gehalt sind fünf Klassen festgelegt worden, wobei die beiden äußeren offene Randklassen sind (die erste ist faktisch aber natürlich nach unten auf 0 Euro begrenzt). Innerhalb der Spalten für die drei Positionen kann abgelesen werden, welcher Anteil an Mitarbeitern der jeweiligen Position sich in der jeweiligen Einkommensklasse befindet. Die Werte addieren sich dabei spaltenweise zu 100 %. Es handelt sich letztlich also um drei voneinander unabhängige metrische Verteilungen.
158 Tab. 6-3:
6 Zweidimensionale Verteilungen Gehalt in der IT-Beratung
Gehalt in der IT-Beratung in Deutschland 2007 Jahresgehalt v o n . . . bis unter... 1 000 Euro unter 40 40-60 60-80 80-100 100 und mehr
Teamleiter -
16 44 29 11
Position Berater
Juniorberater
% 16 57 22 5
48 44 8 -
-
-
Quelle: Werte in Anlehnung an Gehaltsumfrage in c't 6/2008, S. 107 Grafisch lassen sich die Daten besonders gut in Form von normierten Stapelsäulen darstellen, wie die in solchen Fällen typische Abb. 6-8 zeigt.
Jahresgehalt in der IT-Beratung in Deutschland 2007
in 1000 Euro • 100 und mehr • 80 bis unter 100 • 60 bis unter 80 Η 40 bis unter 60 • unter 40
Teamleiter
Berater
Juniorberater
Position Quelle: Werte in Anlehnung an Gehaltsumfrage in c't 6/2008, S. 107
Abb. 6-8: Normiertes Stapelsäulen-Diagramm mit metrischem Merkmal Jede der drei Säulen besteht aus mehreren Teilsäulen. Deren Höhe (und damit auch Fläche) ist proportional zum Anteil der Mitarbeiter mit einer speziellen Position, die ein der Teilsäule entsprechendes Einkommen erhalten. Die Teilsäulen sind durch unterschiedliche Farben gekennzeichnet und über die Legende beschriftet.
6.5 Gemischte Merkmalsskalen
159
Anstelle von Stapelsäulen lassen sich auch Schwebebalken oder Box-Plots einsetzen. Das qualitative Merkmal wird dann (je nach Orientierung des Diagramms) auf der X- bzw. Y-Achse aufgetragen und das metrische Merkmal über seine Streuung mittels Schwebebalken oder Box-Plot dargestellt. Details dazu finden sich in Abschnitt 10.2. Wenn neben dem metrischen Merkmal ein dichotomes vorliegt, bietet sich das Paarbalken-Diagram m als Darstellungsform an. Eine sehr bekannte Diagrammart, bei der ein dichotomes Merkmal mit einem metrischen Merkmal kombiniert wird, zeigt Abb. 6-9 mit der Darstellung der sogenannten Alterspyramide 16 . Das BalkenDiagramm wurde hier durch Verbreitern der Balken zu einem Histogramm, so dass man im Ergebnis von einem Paar-Histogramm sprechen kann.
B e v ö l k e r u n g in D e u t s c h l a n d a m 31.12.2006 Alter von... bis unter... Jahren
männlich
9 0 und älter 80-90 70-80 60-70 50-60 40-50 30-40 20-30 10-20 unter 10 8
7
6
5
4
Quelle: Statistisches Jahrbuch 2008, S. 44
Abb. 6-9:
3
2
1
0
1
2
3
4
5
6
7 8 Millionen
Paarbalken-Diagramm (Paar-Histogramm) mit Alterspyramide
Bei dieser Darstellung sollten die Gitternetzlinien sichtbar sein. Nur so kann man erkennen, dass in den Alterstufen bis etwa 50 Jahren ein Männerüberschuss besteht, der sich dann in einem Frauenüberschuss verändert. Das in Abschnitt 3.6.7 gezeigte Platzieren der einzelnen Werte an beiden Balkenreihen ist hier weniger geeignet. Zum Abschluss dieses Abschnitts noch ein Beispiel, wie man gemischte zweidimensionale Verteilungen mit einem G r u p p e n s ä u l e n - D i a g r a m m darstellen kann.
D i e B e z e i c h n u n g „ P y r a m i d e " ist w e i t e r h i n ü b l i c h , a u c h w e n n s i c h d i e F o r m i n z w i s c h e n d a v o n entfernt hat.
deutlich
160
6 Zweidimensionale Verteilungen
Privathaushalte in Deutschland 2006 nach monatlichem Haushalts-Nettoeinkommen
•
Deutschland
O B alte Bundesländer •
unter 500
9001300
20002600
2600 4500
n e u e Bundesländer
4500 und mehr
von ... bis u n t e r . . . E u r o Quelle: Statistisches Jahrbuch 2008, S. 46
Abb. 6-10: Gruppensäulen-Diagramm für drei metrische Verteilungen
Betrachtet man in Abb. 6-10 von jeder Gruppe nur die Säule einer Datenreihe, so ergibt sich jeweils eine eindimensionale metrische Verteilung, wie sie bereits in Abschnitt 5.4.2 behandelt wurde. Es handelt sich dabei um eine Art Histogramm, allerdings mit Säulen, die nicht aneinanderstoßen, sondern einen Abstand voneinander haben. In dem Gruppensäulen-Diagramm sind nun drei solcher Darstellungen praktisch kammartig ineinander verzahnt worden. Damit kann fur jede Klasse des metrischen Merkmals „Haushalts-Nettoeinkommen" die entsprechende relative Häufigkeit ftir die drei Ausprägungen des nominalen Merkmals „Gebiet" direkt abgelesen werden. Es ist zu beachten, dass durch die relative Darstellung jede der drei verzahnten Säulenreihen in Summe auf 100 % normiert ist. Damit ist es - im Gegensatz zur Angabe mit absoluten Häufigkeiten - möglich, die Einkommensverteilungen der alten und der neuen Bundesländern direkt miteinander zu vergleichen. Zusätzlich wurden noch die Daten für Gesamtdeutschland hinzugefugt, die aufgrund der relativen Angaben nicht den Summen, sondern den gewichteten Mittelwerten der beiden anderen Reihen entsprechen.
7
Zeitreihen
7.1
Grundlagen
Bei einer Zeitreihe wird die V e r ä n d e r u n g einer G r ö ß e über einen Zeitraum dargestellt. Z u m Einstieg wird in Tab. 7-1 ein bewusst abstraktes Beispiel gegeben. Tab. 7-1: Jahr
Allgemeine Zeitreihe Wert
2000 2001 2002 2003 2004
105 107 103 110 112
2005 2006 2007 2008 2009
116 120 121 130 135
Eine Möglichkeit, diese Zeitreihe grafisch darzustellen, ist ein S ä u l e n - D i a g r a m m , wie es schon f ü r Häufigkeiten bei nominalen Merkmalen verwendet wurde. Abb. 7-1 zeigt die entsprechende Darstellung. Im Gegensatz z u m Fall von Häufigkeitsverteilungen kann bei Zeitreihen die Anzahl der Säulen relativ groß sein. Optisch nähert sich das Säulen-Diagramm dann d e m unten gezeigten Flächen-Diagramm an. Sofern die Zeitwerte äquidistant sind, tritt auch kein Problem mit der Beschriftung der X - A c h s e auf, weil es ausreicht, nur j e d e n zweiten oder f ü n f t e n Wert anzugeben.
162
7 Zeitreihen
Abb. 7-1: Säulen-Diagramm für Zeitreihe Eine Alternative ist das Linien-Diagramm, wie es in Abb. 7-2 zu sehen ist.
Abb. 7-2: Linien-Diagramm für Zeitreihe Das Linien-Diagramm entspricht grundsätzlich dem Säulen-Diagramm, jedoch werden die Werte hier durch Punkte repräsentiert, die durch Linien verbunden sind. Beim Vergleich des Säulen-Diagramms und des Linien-Diagramms bezüglich der Darstellung von Zeitreihen lässt sich Folgendes sagen: •
Während das Säulen-Diagramm eher die einzelnen Werte hervorhebt, betont das Linien-Diagramm eher den Verlauf bzw. Trend. Einzelwerte ohne echten Über-
163
7.1 Grundlagen
gang zwischen den Perioden sind insbesondere Ereignismassen (z.B. Anzahl der Geburten in einem Jahr), während es vor allem bei Beständen üblicherweise fließende Übergänge zwischen den (z.B. bei einer Inventur festgestellten) Messwerten gibt. •
Das Linien-Diagramm ist eher geeignet, wenn eine sehr großen Anzahl von Werten dargestellt werden soll.
•
Sofern mehrere Zeitreihen in einem Diagramm dargestellt werden sollen, ist das Linien-Diagramm wesentlich übersichtlicher.
•
Sofern der originäre Verlauf durch einen Trend oder eine (z.B. um saisonale Schwankungen) geglättete Kurve ergänzt werden soll, ist das Säulen-Diagramm im Gegensatz zum Linien-Diagramm nicht mehr geeignet.
Insgesamt lässt sich sagen, dass das Säulen-Diagramm geeignet ist, wenn relativ wenige Werte einer einzigen Zeitreihe dargestellt werden sollen und die Betonung eher auf den Einzelwerten als auf dem Verlauf liegt. Ansonsten ist dem LinienDiagramm der Vorzug zu geben. Zum Teil wird die Fläche unterhalb der Linie bis zur X-Achse gefüllt, so dass sich ein I l ä c h c n - D i a g r a m m wie in Abb. 7-3 ergibt.
160 τ 1 4 0 - — — —
120
loo·"""
~
80
60 j r j 40 •
20 -1Β ο Γ • -•• ' .• '• ' "•• '" 2000
Abb. 7-3:
2001
2002
2003
2004
2005
2006
2007
2008
2009
Flächen-Diagramm für Zeitreihe
Das Flächen-Diagramm sollte möglichst nicht eingesetzt werden, wenn auch negative Werte in der Zeitreihe vorkommen. Neben den drei hier vorgestellten Diagrammtypen - Säulen-Diagramm, LinienDiagramm und Flächen-Diagramm - könnten theoretisch weitere Arten verwendet
164
7 Zeitreihen
werden. Zum Teil handelt es sich dabei nur um leichte Abwandlungen (bei SDDarstellungen z.B. Röhren oder Pyramiden statt Säulen), die keiner weiteren Erläuterung bedürfen. Andere Darstellungsformen sind jedoch eher weniger geeignet: •
Balken-Diagramme entsprechen mit ihrer Orientierung von oben nach unten nicht der üblichen Darstellung zeitlicher Abläufe von links nach rechts. Deshalb wird von ihrer Verwendung bei Zeitreihen in der Literatur meist abgeraten. Allerdings sei erwähnt, dass selbst das Statistische Bundesamt in seinem Statistischen Jahrbuch an einigen Stellen Balken-Diagramme für die Darstellung von Zeitreihen verwendet (dort mit dem jüngsten Wert oben).
•
Stab-Diagramme - also im Prinzip Säulen, die auf Strichstärke geschrumpft sind - waren vor dem Computer-Zeitalter häufig zu finden, da sie leichter manuell zu erstellen waren. Heute gibt es allerdings kaum noch einen Grund, sie Säulen-Diagrammen vorzuziehen. Auch im Sonderfall nicht äquidistanter Zeitschritte sollten nicht Stab-Diagramme, sondern Linien-Diagramme verwendet werden.
•
Gleiches gilt auch für Punkt-Diagramme, also Linien-Diagrammen, bei denen die Verbindungslinien zwischen den Punkten weggelassen wurden.
Bisher wurde im Beispiel bewusst nur von „Wert" gesprochen. Es ist jedoch wichtig, zwischen zwei Arten von Größen zu unterscheiden, die bereits ausführlich in Abschnitt 2.5 behandelt worden sind: •
Bei Ereignismassen repräsentiert der Wert die Anzahl von Ereignissen in einem bestimmten Zeit räum.
•
Bei Bestandsmassen repräsentiert der Wert eine vorhandene Menge zu einem bestimmten Zeitpunkt.
Diese Unterscheidung hat für die korrekte Darstellung sowie die Interpretation der Ergebnisse erhebliche Bedeutung. Bei Ereignismassen entspricht die Zeitangabe einem Zeitraum. So bedeutet im Beispiel „2000" das gesamte Jahr 2000 vom 1.1. bis zum 31.12. Innerhalb dieses Zeitraums wären dann 105 Ereignisse eingetreten. Z.B. könnte ein Autohändler 105 Pkw verkauft haben oder in einem Ort haben 105 Paare geheiratet. Bei Bestandsmassen hingegen wäre die Angabe „2000" unzureichend. Da der Wert einen Bestand zu einem ganz genau bestimmten Zeitpunkt angibt, muss dieser Zeitpunkt innerhalb des Jahres (z.B. in einer Zusatzangabe zur Tabelle bzw. zum Diagramm) genannt werden. Häufig - aber keinesfalls immer - wird bei Zeitangaben in Jahren jeweils der 31.12. des jeweiligen Jahres verwendet, bei monatlichen Werten ist es oft der Monatsletzte.
7.2 Besonderheiten der Zeitachse
165
Die Angabe ist bei Ereignismassen also relativ unproblematisch. Bei Bestandsmassen kann die Wahl des Zeitpunkts dagegen zu systematischen Verzerrungen fuhren oder gar zu bewussten Manipulationen verwendet werden. Das gilt vor allem dort, wo die betrachtete Größe innerhalb eines Zeitraums, welcher der Schrittweite der Zeitachse entspricht, starken - insbesondere saisonalen - Schwankungen unterworfen ist. Beispielsweise würde die Arbeitslosenzahl (oder auch -quote) zum Zeitpunkt 31.12. tendenziell höher liegen als z.B. jeweils zum 30.6. Um der Gefahr von Verzerrungen oder gar einem Manipulationsvorwurf zu entgehen, sollten deshalb bei Bestandsmassen mit starken saisonalen Schwankungen innerhalb der betrachteten Periodendauer sinnvolle Durchschnittswerte (also z.B. die durchschnittliche Arbeitslosenquote über das gesamte Jahr) dargestellt werden.
7.2
Besonderheiten der Zeitachse
Bei der Darstellung von Zeitreihen ist naturgemäß die X-Achse - also die Zeitachse - von besonderer Bedeutung. In diesem Zusammenhang gibt es einige kritische Punkte, die in diesem Abschnitt behandelt werden. Wird die Zeitreihe einer Bestandsgröße in Form eines Linien-Diagramms dargestellt, so werden die Punkte, welche die gemessenen Bestände zu einem bestimmten Zeitpunkt darstellen, durch eine gerade Linie verbunden. Dies suggeriert dem Betrachter, dass sich die dargestellte Größe kontinuierlich in der gezeigten Form entwickelt hat. Tatsächlich kann die Größe jedoch zwischen den der Darstellung zugrunde liegenden Zeitpunkten erheblichen, insbesondere saisonalen Schwankungen unterliegen. Welch ein falsches Bild von vermeintlicher Kontinuität sich für den Betrachter dadurch ergeben kann, zeigt das folgende Beispiel. Das Diagramm in Abb. 7-4 zeigt einen relativ glatten, schwankungsfreien Verlauf der Werte. Betrachtet man jedoch wie in Abb. 7-5 die Monatsdaten, so ergibt sich ein völlig anderes Bild (hier nur der Bereich 2002 bis 2004 vergrößert dargestellt). Abb. 7-4 mit den durchschnittlichen Arbeitslosenzahlen im Jahr verschleiert insbesondere für den nicht fachkundigen Betrachter die tatsächliche Dynamik der Veränderungen, die durch die faktisch geglättete Darstellung (siehe nächsten Abschnitt) der Jahreswerte verborgen bleibt. Konkret lassen z.B. die Jahreswerte für 2003 und 2004 eine nahezu völlig unveränderte Arbeitslosenzahl vermuten, während Abb. 7-5 mit den Monatswerten zeigt, dass in diesem Zeitraum Schwankungen von rund einer halben Million existieren. Die Linien zwischen den Jahreswerten geben also in keiner Weise den wirklichen Verlauf wieder.
166
7 Zeitreihen
Arbeitslose in Deutschland
Quelle: Bundesagentur für Arbeit
Abb. 7-4:
Arbeitslosenzahlen - Jahreswerte
Arbeitslose in Deutschland Millionen
Abb. 7-5:
Arbeitslosenzahlen - Monatswerte
Ein weiterer Punkt ist die Frage, ob die verwendeten Zeitpunkte der Zeitreihe äquidistant sind oder ob unterschiedliche Schrittweiten verwendet werden. Gerade bei längeren Zeitreihen ist es nicht unüblich, die älteren Werte in größeren Abständen
7.2 Besonderheiten der Zeitachse
167
(z.B. in 5-Jahres-Schritten) anzugeben als die neueren Werte (die z.B. in JahresSchritten dargestellt werden). In tabellarischer Form ist dies weitgehend unkritisch, da der Betrachter vor allem Paare von Zeitpunkt und Wert wahrnimmt und nicht den Verlauf bildlich vor sich Bei der grafischen Darstellung, die dann eigentlich nur noch als Säulen-Diagramm und nicht als Linien-Diagramm möglich ist, ergibt sich jedoch - im wahrsten Wortsinn - ein völlig anderes Bild. Abb. 7-6 zeigt zunächst die Darstellung aller Werte einer fiktiven Zeitreihe von 1980 bis 2009.
450 400 350 300 250 200 150 100
50
0
80
Abb. 7-6:
82
84
90
92
94
96
98
00
02
04
06
08
Säulen-Diagramm mit linearer Zeitachse
Wie man sofort sieht, steigt der Wert völlig gleichmäßig von Jahr zu Jahr an. In Abb. 7-7 fur dieselben Daten wurden die ersten 20 Jahre in 5-Jahres-Schritten dargestellt, während die jüngeren Werte in jährlichen Schritten zu sehen sind. Die Grafik zeigt jetzt ein auffallendes Abflachen der Steigerung ab dem Jahr 2000. Dies liegt jedoch nur daran, dass bei den Werten vor 2000 die Steigerung von fünf Jahren beim Übergang von einer Säule zur nächsten kumuliert ist, während ab 2000 jährliche Schritte dargestellt sind.
168
7 Zeitreihen
Abb. 7-7: Säulen-Diagramm mit verstecktem Bruch in der Zeitachse Es dürfte klar sein, dass eine solche Darstellung kaum von einer Geschäftsleitung verwendet wird, um das Wachstum von Umsatz oder Gewinn zu präsentieren. In der Politik aber könnte eine solche Form zur Manipulation verwendet werden, um mit dem künstlichen Knick in der Grafik ein Abflachen ungünstiger Anstiege (z.B. von Schulden o.ä.) nach einem Amtsantritt zu suggerieren.
Γη i β
1 1Λ IiUli 80
85
90
I I
—
I I
I
—
-
1
j
05
06
—
95
00
01
02
03
04
07
08
Abb. 7-8: Korrektes Hervorheben des Bruchs in der Zeitachse
09
7.2 Besonderheiten der Zeitachse
169
Es versteht sich von selbst, dass eine solche Darstellung, die bereits mit einem Säulen-Diagramm als kritisch zu bewerten ist, bei einem Linien- oder FlächenDiagramm, das i.d.R. Linearität auf der X-Achse voraussetzt, unzulässig ist. Ein Kompromiss könnte bei Säulen-Diagrammen darin bestehen, am Übergang der unterschiedlichen Schrittweiten auf der Zeitachse eine Lücke zu lassen. Diese macht deutlich, dass es sich bei dem auftretenden Knick nicht um eine zeitlich gleichmäßige Fortschreibung handelt. Abb. 7-8 zeigt eine entsprechende Darstellung des letzten Beispiels. Ein weiteres Problem, das speziell bei Ereignismengen auftritt, zeigt folgendes Beispiel: Negativ-Beispiel 7.1: Abb. 7-9 ist in nahezu identischer Form in einem der fuhrenden deutschen Nachrichtenmagazine abgedruckt worden.
Man erkennt nach einem steilen Anstieg ein abruptes Ende der Aufwärtsentwicklung und sogar einen merklichen Rückgang im letzten Jahr. Nur wer die mit einem Stern und einer Fußnote angegebene Zusatzinformation liest, merkt, dass der letzte Wert lediglich die Bewerbungen des ersten Halbjahres 1997 umfasst. Sofern zwischen beiden Halbjahren auch nur annähernde Gleichverteilung besteht, handelt es sich im letzten Jahr also nicht um einen Einbruch, sondern im Gegenteil sogar um einen enormen Zuwachs auf fast
170
7 Zeitreihen das Doppeltes des Vorjahreswertes. Die grafische Darstellung suggeriert also genau das Gegenteil der Datenlage.
Hier zeigt sich sehr deutlich, dass zumindest bei Ereignismassen nicht Teilzeiträume mit vollen Zeiträumen zusammen dargestellt werden dürfen. Daran ändert auch die Tatsache nichts, dass das Beispiel noch im Herbst 1997 veröffentlicht wurde, als noch keine endgültigen Werte vorlagen. Sofern Werte faktisch gleichberechtigt nebeneinander dargestellt werden, müssen sie auch vergleichbar sein. Dazu bieten sich im vorliegenden Beispiel zwei Möglichkeiten an: •
Es können auch die Werte der Vergangenheit in Halbjahresschritten angegeben werden.
•
Der Wert fur das laufende Jahr wird hochgerechnet.
Üblich ist die zweite Variante, die natürlich deutlich als „Hochrechnung" oder „Schätzung" zu kennzeichnen ist. Sofern kein ausgeprägter Saisonverlauf vorhanden ist, könnte man vereinfacht den Halbjahreswert verdoppeln. Dass dies natürlich nicht immer geht, liegt z.B. beim Verkauf von Weihnachtsbäumen auf der Hand. Auch wenn die Hochrechnung mangels Informationen (z.B. zur Saisonabhängigkeit) problematisch sein sollte, rechtfertigt dies nicht eine Darstellung der gezeigten Art. Denn wenn sich schon der Autor einer Statistik außer Stande sieht, einen vernünftigen Vergleich von Jahresdaten zu erreichen, kann er dies nicht dem Leser überlassen, der über noch weniger Informationen verfügt.
7.3
Glätten von Zeitreihen
Man kann sich Zeitreihen in der Regel als Überlagerung verschiedener Komponenten vorstellen: •
Ein langfristiger Trend bestimmt die grundsätzliche Steigerung einer Größe.
•
Insbesondere bei wirtschaftsorientierten Größen zeigt sich oft der Einfluss der Konjunktur, die als zyklische Schwankung mit einer Periodenlänge von etwa 5 - 9 Jahren auftritt.
•
Bei der Saison handelt es Periodenlänge von (genau) jahreszeitliche Verlauf des Speiseeis oder touristischen
•
Zusätzlich treten verschiedene unsystematische Anteile auf. Darunter fallen z.B. Kalenderunregelmäßigkeiten, die darauf beruhen, dass z.B. im Juni eines
sich um zyklische Schwankungen, die meist eine einem Jahr haben. Ein wesentlicher Faktor ist der Wetters, der z.B. den Absatz von Gartenmöbeln, Leistungen erheblich beeinflusst.
7.3 Glätten von Zeitreihen
171
Jahres mal mehr oder weniger Arbeits-, Einkaufs- oder Wochenendtage enthalten sind als in einem anderen Jahr. Daneben gibt es natürlich auch rein zufällige (z.B. auch wetterbedingte) Restschwankungen. Generell - nicht nur bei Zeitreihen - besteht eine wesentliche Aufgabe der Statistik darin, sich von einzelnen Werten zu lösen und die dahinterstehenden Regelmäßigkeiten herauszuarbeiten. Speziell bei Zeitreihen bedeutet dies, dass man z.B. die unsystematischen Anteile bei der Darstellung eliminiert, um die systematischen besser zu erkennen. Ebenso wird sehr häufig eine sogenannte Saisonbereinigung vorgenommen, um - unabhängig von den ohnehin zu erwartenden Saisonschwankungen - eine längerfristige Tendenz oder deren Änderung besser und schneller festzustellen. In diesem Abschnitt werden Methoden gezeigt, mit denen Zeitreihen um die kurzfristigen Schwankungen bereinigt werden können. Die Ausführungen fallen dabei zwangsläufig etwas mathematischer aus, als dies bisher der Fall war. Wer sich mit dieser Thematik nicht beschäftigen möchte, kann den Rest dieses Abschnitts überspringen und bei dem für die Darstellung von Zeitreihen wichtigen nächsten Abschnitt 7.4 fortfahren. Eine besonders gute, auch ständig in den Nachrichten und Zeitungen behandelte Anwendung der Glättung von Zeitreihen ist die Arbeitslosenzahl, die bekanntlich eine deutliche Saisonabhängigkeit aufweist. Für die nachfolgenden Ausführungen wird ein Teil der bereits in Abschnitt 7.2 dargestellten Zeitreihe der Arbeitslosenzahlen in Deutschland verwendet. Um bestimmte Effekte besonders gut herauszustellen, wird dazu der Zeitraum Januar 1991 bis Dezember 1994 verwendet, der einen relativ deutlichen Anstieg aufweist. Abb. 7-10 zeigt den entsprechenden Ausschnitt mit Monatswerten. Man erkennt sehr deutlich einerseits den steigehden Trend, andererseits auch die im Jahresrhythmus vorliegenden Saisonschwankungen. Der Anteil der Restschwankungen ist hier eher gering, was unter anderem darauf zurückzuführen ist, dass Arbeitsverhältnisse (schon aus juristischen Gründen) kurzfristig nicht so stark schwanken können wie beispielsweise der Konsum von Luxusgütern oder der Besuch von Freizeiteinrichtungen. Diese Zeitreihe soll nun geglättet werden. Dazu gibt es verschiedene Möglichkeiten. Eine Variante besteht darin, anstelle von Monatswerten Jahreswerte zu verwenden. Dazu würde bei Bestandsmassen (wie der Arbeitslosenzahl) der Durchschnitt der Monatswerte verwendet, bei Ereignismassen (z.B. der Zahl von Geburten) die Summe.
172
7 Zeitreihen
Arbeitslose in
Deutschland
Millionen
Quelle: Bundesagentur für Arbeit
Abb. 7-10: Arbeitslosenzahlen (Monatswerte) Jahreswerte als Mittel zur Glättung von Monatswerten fuhren jedoch zu einer sehr starken Vergröberung, da sich die Anzahl der dargestellten Werte auf ein Zwölftel reduziert, was im Beispiel nur noch vier Werten entspräche. Eine solche Darstellung war fur die gesamte Zeitreihe 1991-2004 bereits in Abschnitt 7.2 zu sehen, so dass hier nicht mehr darauf eingegangen wird. In diesem Abschnitt geht es um Verfahren, die für jeden Zeitpunkt der vorhandenen Zeitreihe (hier also jeden Monat) einen geglätteten Wert liefern. Um die Wirkung zu verdeutlichen, wird die geglättete Zeitreihe nachfolgend jeweils zusätzlich zur Originalreihe im Diagramm dargestellt. Eine besonders häufig angewandte Methode zur Glättung sind die sogenannten »leitenden Durchschnitte. Dabei wird anstelle des Originalwertes in der jeweiligen Periode bzw. zum jeweiligen Zeitpunkt ein Durchschnitt (arithmetisches Mittel) aus den umliegenden Werten verwendet. Für jede Periode werden also andere Werte in die Durchschnittsbildung einbezogen. Diese liegen symmetrisch um die jeweilige Periode herum. Von der Formel her müssen zwei Fälle unterschieden werden. Bei gleitenden Durchschnitten ungerader O r d n u n g wird eine ungerade Anzahl von Einzelwerten einbezogen. Ein einfaches Beispiel ist die Ordnung 3, bei der neben dem jeweiligen Wert auch sein direkter Vorgänger und Nachfolger einbezogen werden. Die Formel bei ungerader Ordnung lautet allgemein:
173
7.3 Glätten von Zeitreihen
k-1
X,
+
+ ··• + •*/ + ... + Xf | ter Ordnung in der Periode t
k
Ordnung
t
Beobachtungsperiode
x,
Beobachtungswert in der Periode t
Die Formel sieht auf den ersten Blick komplizierter aus als sie ist. In der Mitte des Zählers befindet sich der Wert der Originalzeitreihe in der jeweiligen Periode (x,). Von dort aus werden die (k-1)/2 Werte davor und die (k-1)/2 Werte danach hinzuaddiert und durch die Anzahl der Werte (also die Ordnung k) geteilt. Bei einem gleitenden Durchschnitt gerader Ordnung besteht das Problem darin, dass die Mitte einer geraden Anzahl von Perioden nicht genau auf eine Periode fallt, sondern zwischen zwei Perioden liegt. Um dies zu vermeiden, werden statt k Werten k+1 Werte verwendet, die beiden äußeren allerdings jeweils nur mit halber Gewichtung. Die Formel lautet dann: 2
xk, = •
X
i-±
+ x, +... + jr f+ i_,
+ \ x ,
+
l
Zu diesen etwas theoretischen Ausführungen hier die praktische Anwendung: Wenn man nur eine (leichte) Glättung der zufalligen Restschwankungen haben möchte, sollte die Ordnung relativ klein gehalten werden. Besonders einfach ist dann der gleitende Durchschnitt 3. Ordnung, bei dem - wie schon oben beschrieben neben dem Wert der Periode nur die beiden direkten Nachbarwerte in die Mittelwertbildung einbezogen werden. Die Darstellung in Abb. 7-11 zeigt die Wirkung. Die dicker und blau gezeichnete Linie entspricht den gleitenden Durchschnitten 3. Ordnung. Man sieht, dass zwar der Verlauf der Kurve weitgehend unverändert wiedergegeben wird, einzelne Spitzen nach oben oder unten jedoch eingeebnet sind. Bei Zeitreihen mit stärkeren Zufallsschwankungen wäre dieser Effekt natürlich noch deutlicher.
174
7 Zeitreihen
Arbeitslose in Deutschland Millionen
Quelle: Bundesagentur für Arbeit
Abb. 7-11: Glättung mit (zentriertem) 3-Monats-Durchschnitt
Im nächsten Schritt sollen die saisonalen Schwankungen durch Glättung entfernt werden. Dazu ist die Ordnung so zu wählen, dass sie exakt der Anzahl der Perioden einer Saison entspricht. Bei Monatswerten sind dies 12 Perioden, die einem Jahr entsprechen. Die Zeitreihe der gleitenden Durchschnitte 12. Ordnung ist in Abb. 7-12 zu sehen.
Arbeitslose in Deutschland Millionen
Quelle: Bundesagentur für Arbeit
Abb. 7-12: Glättung mit (zentriertem) 12-Monats-Durchschnitt
175
7.3 Glätten von Zeitreihen
Jetzt sind die saisonalen Schwankungen völlig verschwunden. Damit ergibt sich ein Verlauf, der jetzt selbst fur Monate mit saisonal bedingt fallenden Arbeitslosenzahlen den in Wirklichkeit vorhandenen grundsätzlichen Anstieg zeigt. Zur Verdeutlichung und besseren Nachvollziehbarkeit sind in Tab. 7-2 die Originaldaten sowie die berechneten gleitenden Durchschnitte fur die ersten Monate angegeben. Tab. 7-2:
Arbeitslosenzahlen inkl. Glättung
Arbeitslosenzahlen in Deutschland Monat
Originalwerte
gleitende Durchschnitte 12. Ordnung 3. Ordnung
Jan 91 Feb 91 Mrz 91 Apr 91 Mai 91 Jun 91
2631 2 655 2 539 2 488 2 445 2435
151 847 308 886 961 115
2 2 2 2 2
Jul 91 Aug 91 Sep 91 Okt 91 Nov 91 Dez 91
2 2 2 2 2 2
324 455 271 486 999 927
2 644 298 2712017 2 673 737 2 644 919 2 688 471 2 878 817
2 640 2 686 2 725 2 763 2 799 2 832
Jan 92 Feb 92 Mrz 92
3 218 526 3 153 811 2 987 994
3 047 088 3 1 2 0 110 3 028 291
2 860 329 2 881 518 2 902 810
762 735 638 647 648 768
608 561 491 456 547
769 347 385 654 800 951 174 618 237 146 946
Quelle: Bundesagentur fur Arbeit; eigene Berechnungen Was auffallt, ist die Tatsache, dass bei der Ordnung 3 der Wert für die erste Periode fehlt, bei der Ordnung 12 fehlen sogar die Werte für die ersten sechs Perioden. Dies liegt daran, dass für die Berechnung jeweils Werte aus einer bzw. sechs früheren Perioden benötigt werden, die natürlich für die ersten Perioden nicht vorliegen. Analog dazu muss die geglättete Zeitreihe - wie in den Diagrammen zu sehen auch früher als die Originalzeitreihe enden. 17
Dass die Arbeitslosenzahlen außerhalb des hier betrachteten Zeitraums in diesem speziellen Fall natürlich dennoch v e r f ü g b a r sind, bleibt hier unberücksichtigt.
176
7 Zeitreihen
Zur Positionierung der gleitenden Durchschnitte sei hier noch eine Anmerkung vorgenommen: In Statistikbüchern besteht Einigkeit darüber, dass die gleitenden Durchschnitte zentriert zu positionieren sind. Bei Börsen-Charts und bei Excel (wenn man dort die entsprechende Trendlinie automatisch einzeichnen lässt) wird jedoch anders gerechnet. Dort wird der gleitende Durchschnitt am Ende der Werte platziert, aus denen er sich errechnet. Damit wird zugleich die Formel vereinfacht, weil bei gerader Ordnung die beiden halben Gewichte an den Rändern entfallen. Bei einem eindeutig steigenden oder fallenden Trend zeigt sich jedoch ein entscheidender Nachteil dieser Vorgehensweise, wie Abb. 7-13 verdeutlicht.
Arbeitslose in Deutschland Millionen
Quelle: Bundesagentur für Arbeit
Abb. 7-13: Glättung mit nicht-zentriertem 12-Monats-Durchschnitt
Die geglättete Zeitreihe gibt nicht die Werte des entsprechenden Zeitraums, sondern eines davor liegenden wieder. Die Linie verläuft über weite Strecken deutlich unterhalb der Originalreihe und kann damit kaum als „Durchschnitt" dieser Reihe interpretiert werden. Bei eher waagerecht verlaufenden Zeitreihen fallt dies nicht so deutlich auf, obwohl auch dort die geglättete Kurve nicht die aktuellen Werte repräsentiert. Es wird deshalb (sofern man nicht Börsen-Charts analysiert und sich den dortigen Konventionen anpassen muss) davon abgeraten, die alternative Darstellungsform zu verwenden.
7.4 Gleichzeitige Darstellung mehrerer Zeitreihen
177
Sofern es darum geht, den längerfristigen Trend herauszustellen, bietet sich anstelle von gleitenden Durchschnitten eine Regressionskurve an, wie sie auch schon in Abschnitt 3.7.2 behandelt wurde. Mit den üblichen Computer-Programmen ist es in der Regel sehr einfach, sich eine Trendlinie mit einem linearen, exponentiellen oder auch anderen Verlauf automatisch einzeichnen zu lassen. Auch hier muss allerdings warnend darauf hingewiesen werden, dass die Programme ohne jede inhaltliche Fundierung zu jeder beliebigen Funktionsart eine Trendlinie erzeugen können, auch wenn diese fachlich nicht sinnvoll ist. Im Zweifel sollte also eher darauf verzichtet werden. Der Vollständigkeit halber zeigt Abb. 7-14 noch ein Diagramm mit einer linearen Trendlinie,
Arbeitslose in Deutschland Millionen
Quelle: Bundesagentur für Arbeit
Abb. 7-14: Zeitreihe mit linearer Trendlinie
7.4
Gleichzeitige Darstellung mehrerer Zeitreihen
Abb. 7-15 zeigt einen besonders einfachen, unproblematischen Fall, wie zwei Zeitreihen in einem 1 Jnien-Diagramm gleichzeitig dargestellt werden können.
178
7 Zeitreihen
Dadurch, dass beide Linien deutlich voneinander getrennt verlaufen und sich auch nicht kreuzen, ist eine Verwechslung nicht möglich. Deshalb könnten beide Linien sogar mit identischer Farbe, Strichart und Form der Punkte gezeichnet werden. Die Beschriftung direkt an den jeweiligen Zeitreihen, die immer einer getrennten Legende vorzuziehen ist, kennzeichnet beide Linien eindeutig. Sofern die Linien nicht mehr eindeutig voneinander getrennt verlaufen und im ungünstigsten Fall sogar in einem Jahr den gleichen Wert aufweisen, müssen die Linien optisch klar voneinander abgehoben werden, wie dies in Abb. 7-16 zu sehen ist.
7.4 Gleichzeitige Darstellung mehrerer Zeitreihen
179
Für die optische Unterscheidung der beiden Linien stehen mehrere Möglichkeiten (auch kombiniert) zur Verfugung: •
Sofern man sicherstellen kann, dass die Betrachter der Grafik diese in Farbe sehen, handelt es sich dabei eindeutig um die beste Form der Unterscheidung. Das ist z.B. bei Präsentationen mittels Beamer oder Farbfolien direkt vor Publikum gegeben. Man sollte allerdings bedenken, dass z.B. die üblichen Handouts - insbesondere wenn diese kopiert werden - die Farbinformation meist nicht mehr besitzen. Auch mit farbblinden Zuhörern (insb. Rot/Grün) sollte man rechnen. Deshalb sollte die Farbe nie als alleinige Unterscheidung der Linien verwendet werden.
•
Die Art der Linie - z.B. durchgezogen, gestrichelt, gepunktet usw. - stellt eine zweite Möglichkeit dar, die auch in Abb. 7-16 zu sehen ist. Die Varianten müssen jedoch immer gut unterscheidbar sein. Erfahrungsgemäß werden die beim Bearbeiten am Bildschirm sichtbaren Muster von vielen Programmen beim Ausdruck verändert. Dies sollte unbedingt berücksichtigt werden.
•
Als drittes Unterscheidungskriterium kann - möglichst zusätzlich zur Linienart - die Art der Markierungspunkte verwendet werden. Neben den beiden in ihrer Lage unterschiedlichen Quadraten aus Abb. 7-16 können insbesondere noch Kreise und Dreiecke verwendet werden.
Nur bedingt geeignet ist neben den drei genannten Unterscheidungsmöglichkeiten noch die Strichstärke, da Datenreihen mit dickeren Linien gegenüber anderen herausgehoben werden. Nur wenn dies ausdrücklich gewünscht und vom Betrachter nicht als Manipulation angesehen werden kann, darf dieses Mittel eingesetzt werden. Flächen-Diagramme sind generell zur Darstellung mehrerer Zeitreihen nicht besonders geeignet. Das zeigt sich offensichtlich dann, wenn keine der beiden Zeitreihen ohne Verdecken der anderen platziert werden kann, wie dies in Abb. 7-17 der Fall ist. Der Verlauf von Wert 1 kann im Zeitraum 2003 bis 2005 nur vermutet werden. Aber auch dann, wenn die perspektivisch hintere Zeitreihe durchgehend größere Werte als die vordere aufweist und damit nie verdeckt wird, zeigt sich ein Problem bei der Interpretation der Werte. Dies wird in Abb. 7-18 deutlich.
180
7 Zeitreihen
Abb. 7-17: Flächen-Diagramm mit zwei Zeitreihen
Umsätze
Abb. 7-18: Flächen-Diagramm: Gestapelte Darstellung oder nicht? Diese Darstellung lässt zwei völlig unterschiedliche Interpretationen zu: • Die Höhe für den Umsatz Süd reicht von 0 bis zur oberen Kante, so dass z.B. für das Jahr 2000 der Wert 150 abgelesen werden kann.
7.4 Gleichzeitige Darstellung mehrerer Zeitreihen
181
•
Es handelt sich um eine gestapelte Darstellung. Die obere Linie repräsentiert den Gesamtumsatz, also den Wert für Nord und Süd zusammen. Damit entspricht der Wert fur Süd im Jahr 2000 150 - 105 = 45. Da beide Interpretationen möglich sind, kann der Betrachter keine sichere Information über den Umsatz Süd und den Gesamtumsatz aus der Grafik ablesen. Sie ist demnach ungeeignet. Daran würden auch mögliche Erklärungen im Text oder einer Fußnote nichts ändern, weil Grafiken für sich selbst eindeutig sein müssen. In diesem Fall bietet sich die in Abb. 7-19 gezeigte 3D-Darstellung als Lösung an, da hier eindeutig sichtbar wird, dass es sich nicht um eine gestapelte Form handelt.
Umsätze
A b b . 7 - 1 9 : 3 D - F l ä c h e n - D i a g r a m m mit zwei Zeitreihen
Für die gestapelte Form der Darstellung mehrerer Zeitreihen bieten sich vor allem Stapelsäulen an, wie dies in Abb. 7-20 zu sehen ist. Der Vorteil dieser Darstellungsform besteht darin, dass man den Gesamtwert in seinem Verlauf sofort über die Gesamtgröße der einzelnen Säulen erkennen kann. Von den einzelnen Zeitreihen ist jedoch nur die unterste (im Beispiel für Region A) direkt mit ihren Werten an der Y-Achse bzw. den Hilfslinien abzulesen. Dagegen lassen sich die Zahlenwerte der übrigen Zeitreihen (Regionen B, C und D) sowohl in ihrer absoluten Größe als auch ihrer Veränderung nur grob schätzen.
182
7 Zeitreihen
Umsatz in den Regionen Millionen E u r o
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Abb. 7-20: Stapelsäulen-Diagramm mit Zeitreihen
Die eingezeichneten Verbindungslinien zwischen den Übergängen der Teilsäulen sind optional. Sie unterstützen allerdings meist die Lesbarkeit (insbesondere bei schlechter Unterscheidbarkeit von Graustufen) und zeigen durch ihre gut erkennbare Steigung besser Zu- und Abnahmen an. Sofern dies der gewünschten Aussage entspricht, können auch auf 100% normierte Stapelsäulen verwendet werden. Anstelle von absoluten Werten werden dann die Anteile für jedes Jahr dargestellt. Das zeigt Abb. 7-21.
Abb. 7-21: Normiertes Stapelsäulen-Diagramm mit Zeitreihen
7.4 Gleichzeitige Darstellung mehrerer Zeitreihen
183
Eine Gefahr solcher normierter Darstellungen ist die Tatsache, dass diese die absoluten Veränderungen vollständig ausblenden und damit zu Fehlinterpretationen verleiten können. So könnte man aus dem Verlauf für Region Α ohne die absoluten Daten von einem gemäßigten, aber stetigen Abwärtstrend sprechen, obwohl sich der Umsatz in dieser Region im Betrachtungszeitraum fast verdoppelt hat. Eine alternative Form, mit Säulen-Diagrammen mehrere Zeitreihen darzustellen, bieten Gruppensäulen wie in Abb. 7-22.
Umsatz in den Regionen
Abb. 7-22: Gruppensäulen-Diagramm mit Zeitreihen Bei dieser Darstellungsform wird es - insbesondere im Vergleich zu einem LinienDiagramm - zu schwierig, den Verlauf der einzelnen Zeitreihen zu verfolgen. Im Grunde handelt es sich dabei eher um mehrere isolierte Säulen-Diagramme, die für jedes Jahr getrennt die dortige Verteilung zeigen. Der wesentliche Vorteil gegenüber den Stapelsäulen besteht darin, den Wert jeder einzelnen Größe direkt ablesen zu können. Umgekehrt ist es aber kaum möglich, die Entwicklung der Gesamtsumme (z.B. über alle Regionen hinweg) zu erkennen. Ein weiterer Nachteil ist der relativ große Platzbedarf in der Waagerechten. Obwohl gegenüber dem Stapelsäulen-Diagramm nur die Hälfte der Jahre dargestellt wurde, wirkt das Gruppensäulen-Diagramm in der Beispielabbildung relativ voll. Bei allen zehn Jahren würden die einzelnen Säulen zudem so dünn, dass Graustufen oder Schraffuren nur schwer unterscheidbar wären und damit die Ablesbarkeit leiden würde.
184
7 Zeitreihen
Ein Sonderfall bei der gleichzeitigen Darstellung von zwei Zeitreihen liegt dann vor, wenn sich diese in einer völlig anderen Größenordnung befinden oder sogar eine andere Einheit besitzen. Sofern es darum geht, die Entwicklung beider Werte über die Zeit zu vergleichen, können eventuell normierte Zeitreihen verwendet werden, wie sie in Abschnitt 7.5 behandelt werden. Alternativ ist es möglich, beide Zeitreihen in ein Linien-Diagramm mit zwei unterschiedlichen Y-Achsen einzuzeichnen. Dies ist in Abb. 7-23 zu sehen.
Erwerbstätige und Erwerbslosenquote Erwerbstätige in Millionen
Erwerbslosenquote in
%
40,01
10,0
92 93 94 95 96 97
00 01 02 03 04 05 06
Quelle Statistisches Jahrbuch 2007, S. 84
Abb. 7-23: Linien-Diagramm mit zwei unterschiedlichen Y-Achsen
In diesem Beispiel wurden die Anzahl der Erwerbstätigen (in Millionen Personen) und die Erwerbslosenquote (in %) in zwei getrennten Zeitreihen im Diagramm dargestellt. Für die Zeitreihe der Erwerbstätigen gilt die linke Y-Achse, fur die der Erwerbslosenquote die rechte. Die Darstellung ist insoweit informativ, als man recht gut erkennen kann, dass eine sinkende Anzahl an Erwerbstätigen mit einer steigenden Arbeitslosenquote einhergeht und umgekehrt. Allerdings sind die Lesbarkeit und die Verständlichkeit eingeschränkt. Der Betrachter muss darauf achten, zu einer Zeitreihe die jeweils passende Größenangabe rechts bzw. links zu verwenden. Es ist auch angesichts der nicht zueinander passenden
7.4 Gleichzeitige Darstellung mehrerer Zeitreihen
185
Anordnung der Skalierungsstriche links und rechts nicht möglich, zum besseren Ablesen der Werte waagerechte Gitternetzlinien einzublenden. Darstellungen mit unterschiedlichen Skalen sind also möglich und im Einzelfall auch sinnvoll. Sie sollten jedoch nur dann eingesetzt werden, wenn dies für die gewünschte Aussage unumgänglich ist. Alternativ können die beiden Zeitreihen auch getrennt in zwei unmittelbar übereinander platzierten Diagrammen dargestellt werden, wie Abb. 7-24 zeigt.
Erwerbstätige Millionen
Abb. 7-24: Zwei Linien-Diagramme übereinander
In der Regel dürfte diese Darstellungsform trotz ihres etwas höheren Platzbedarfs besser sein, da sie für beide Teildiagramme der üblichen, vertrauten Form entspricht und Verwechslungen der Achsen ausgeschlossen sind.
7 Zeitreihen
186
7.5
Normierte Zeitreihen
Häufig soll die zeitliche Entwicklung zweier Zeitreihen verglichen werden. Ein typisches Beispiel ist die Kursentwicklung zweier Aktien, wie sie Abb. 7-25 zeigt.
Kursentwicklung zweier Aktien Euro/Aktie
Abb. 7-25: Vergleich der Kursentwicklung in Euro/Aktie Aus dieser Darstellung der absoluten Kurse beider Aktien geht nicht unmittelbar hervor, welche Aktie sich seit 2000 besser entwickelt hat. Die Tatsache, dass Aktie 2 ursprünglich einen doppelt so hohen Kurs wie Aktie 1 hatte, ist für Anleger völlig irrelevant. Schließlich konnten sie wählen, ob sie für das gleiche Geld zwei Aktien 1 oder eine Aktie 2 kaufen. Entscheidend ist der relative Wertzuwachs (= Kursanstieg). Um zwei Zeitreihen in ihrer Entwicklung besser vergleichen zu können, werden sie häufig in normierter Form dargestellt. Dazu wird der Wert jeder Zeitreihe für ein bestimmtes, grundsätzlich frei wählbares Basisjahr gleich 100 (ohne Einheit) gesetzt. Die übrigen Werte der jeweiligen Zeitreihe werden dann durch den ursprünglichen Wert der Zeitreihe im Basisjahr geteilt und mit 100 multipliziert. Damit ergibt sich über alle Perioden hinweg eine neue Zeitreihe, die direkt die relative Veränderung erkennen lässt. Die normierte Form für das gerade gezeigte Beispiel ist in Abb. 7-26 zu sehen. Jetzt ist sofort erkennbar, dass die Aktie 1 seit dem Jahr 2000 eine deutlich bessere Entwicklung gezeigt hat. Sie weist eine Wertsteigerung von über 70 % auf, während Aktie 2 im selben Zeitraum lediglich gut 50 % Zuwachs erreicht hat.
7.5 Normierte Zeitreihen
187
Kursentwicklung zweier Aktien 2000 • 100
Abb. 7-26: Vergleich der Kursentwicklung in normierter Darstellung
In der Abbildung ist übrigens zu sehen, dass die Y-Achse bei 80 statt bei 0 beginnt. Da es bei der normierten Darstellung ohnehin immer nur um relative Entwicklungen anstelle absoluter Niveaus geht, ist das Weglassen des Nullpunkts in diesem Fall nicht nur unproblematisch, sondern aus Darstellungsgründen (der untere Bereich wäre sonst meist leer und damit verschenkt) in der Regel auch sinnvoll. Das Basisjahr wird üblicherweise durch eine Angabe der Form „2000 = 100" im Untertitel festgelegt. Nach DIN 55 301 sollte diese Schreibweise zwar vermieden und stattdessen „2000 - 100" (also das mathematische ,,Entspricht"-Zeichen) verwendet werden. Dies hat sich jedoch (selbst beim Statistischen Bundesamt) nicht durchgesetzt - vielleicht auch, weil dieses Symbol in normalen Zeichensätzen nicht enthalten ist. Allgemein gilt für das Normieren von Zeitreihen Folgendes: •
Die betrachteten Größen müssen alle verhältnisskaliert sein (Temperaturen in °C dürfen also nicht normiert werden).
•
Die verglichenen Zeitreihen dürfen (ursprünglich) auch unterschiedliche Einheiten besitzen (z.B. $/Barrel und $/Unze). Sofern darin jedoch unterschiedliche Währungen mit flexiblen Wechselkursen enthalten sind, kann die Veränderung der Wechselkurse über den betrachteten Zeitraum zu Verzerrungen fuhren.
•
Nach der Normierung besitzen die entstandenen neuen Zeitreihen keine Einheit mehr, sondern sind dimensionslos. Es wäre also unsinnig, die Y-Achse z.B. mit einem Kurs in Euro/Stück o.ä. zu beschriften.
188
7 Zeitreihen
Auch wenn normierte Zeitreihen für Anwendungen wie die gerade gezeigte sehr sinnvoll sind und deutliche Vorteile gegenüber der Darstellung der absoluten Werte (z.B. sehr unterschiedlicher Kurse) haben können, muss doch die Gefahr der fehlerhaften Anwendung oder gar der Manipulation beachtet werden. Dies wird in folgendem (fiktiven) Beispiel verdeutlicht. Negativ-Beispiel 7.2: Gegeben sei Abb. 7-27 mit einer entsprechenden Überschrift.
Der unbedarfte Betrachter sollte bei diesem krassen Beispiel schon aufgrund des Diagrammtitels stutzig werden, da Assistenten nach der Lebenserfahrung kaum mehr als ihre Chefs verdienen dürften. Beim Vergleich anderer Berufsgruppen wäre dies aber kaum noch zu erkennen. Das Problem der Darstellung besteht darin, dass daraus nur die relative Entwicklung des Gehalts (also die Gehaltssteigerung) abgelesen werden kann. Diese verläuft in diesem fiktiven Beispiel bei den Assistenten etwas besser als bei den Chefs. Ganz anders sieht dies bei den zugrunde liegenden absoluten Gehältern aus. Für das Beispiel wurde für Chefs im Jahr 2000 ein Gehalt von 70 000 Euro angesetzt, für Assistenten eines von 20 000. Bis zum Jahr 2008 stieg das Gehalt der Chefs um 15 000 Euro auf 85 000 Euro, das der Assistenten um le-
189
7.5 Normierte Zeitreihen
diglich 5000 Euro auf 25 000 Euro. Der absolute Gehaltsvorteil der Chefs ist entsprechend von 50 000 Euro auf 60 000 Euro pro Jahr gestiegen. Von einem „Überflügeln" kann also nicht die Rede sein. Die Überschrift verdreht hier die Fakten schlicht ins Gegenteil. Ein weiterer, ganz wichtiger Punkt bei normierten Zeitreihen ist die Wahl des Bezugsjahres. Auch hierzu ein entsprechendes Beispiel. Negativ-Beispiel 7.3: In Abb. 7-28 wird die Umsatzentwicklung zweier (fiktiver) Unternehmen vergleichend dargestellt.
U m s a t z e n t w i c k l u n g im V e r g l e i c h Jahresumsatz in Millionen Euro
0
, 2000
, 2001
, 2002
, 2003
, 2004
, 2005
, 2006
, 2007
2008
Abb. 7-28: Absolute Entwicklung der Umsätze zweier Unternehmen
Es lässt sich relativ deutlich erkennen, dass Unternehmen 1 die deutlich bessere Entwicklung vorzuweisen hat. Vom Jahr 2000 bis zum Jahr 2008 steigt sein Umsatz um 80 %, während die Steigerung bei Unternehmen 2 lediglich 28 % beträgt. Weiterhin - das ist nicht ganz so deutlich abzulesen - ist auch die jährliche Steigerung bei Unternehmen 1 in jedem Jahr größer als bei Unternehmen 2 - ausgenommen das Jahr 2002, in dem Unternehmen 2 seinen deutlichen Umsatzeinbruch vom Vorjahr wieder hat aufholen können. Genau dieser Umsatzeinbruch von Unternehmen 2 im Jahr 2001 kann nun dazu genutzt werden, die Fakten in einer normierten Darstellung völlig auf den Kopf zu stellen. Dazu wird das Jahr 2001 als Basisjahr genommen und
190
7 Zeitreihen der ungünstige Umsatzeinbruch dadurch verborgen, dass die Zeitreihen erst mit diesem Jahr (statt mit dem Jahr 2000) beginnen. Jetzt stellt sich die Entwicklung beider Unternehmen wie in Abb. 7-29 gezeigt dar.
Nur bei sehr genauem Hinsehen könnte man erkennen, dass der gesamte (vermeintliche) Vorsprung von Unternehmen 2 aus dem deutlichen Anstieg im Jahr 2002 resultiert (der eigentlich nur ein Aufholen des Umsatzeinbruchs in 2001 ist), während Unternehmen 1 in allen übrigen Jahren ein höheres Umsatzwachstum vorweisen kann. Noch kürzer (und ohne Diagramm) kann man die Normierung mit einer Wachstumsrate - bezogen auf einen Bezugszeitpunkt - ausdrücken. Im Beispiel ließe sich sagen: Unternehmen 2 hat seit 2001 beachtliche 72,1 % Umsatzwachstum erreicht, während es bei Unternehmen 1 lediglich 63,6 % waren. Dieses Beispiel zeigt sehr deutlich die Gefahr normierter Darstellungen oder Kennzahlen: Wenn jemand z.B. die Wertentwicklung einer von ihm präferierten bzw. offerierten Anlageform - insbesondere im Vergleich zu konkurrierenden Anlagen - beschönigend hervorheben möchte, wählt er ein Bezugsjahr, in dem seine Anlage gerade einen (historischen) Tiefststand aufzuweisen hatte. Von diesem niedrigen Wert aus
7.6 Absolute Größen vs. Wachstumsraten
191
gerechnet ist natürlich der aktuelle Stand besonders hoch. Umgekehrt wird eine Anlageform schlecht gemacht, wenn man ihren aktuellen Wert mit einem früheren Höchststand vergleicht. Beispiel 7.4: Erklärt ein Anlageberater, dass der von ihm vertriebene Fond seit März 2003 (da hatte der DAX einen Tiefpunkt bei ca. 2 300 Punkten) eine unglaubliche Wertsteigerung erlebt hat, sollte man ihn fragen, wie die Steigerung seit Anfang 2000 aussieht. Da der DAX dort bei knapp 8 000 Punkten stand, wird die Antwort fur ihn erheblich ungünstiger ausfallen. Da es in der Regel keinen „richtigen" Bezugszeitpunkt gibt, ist seine Wahl immer in gewisser Weise willkürlich. Als Manipulation oder gar statistische Lüge muss es aber gelten, wenn man durch Ausnutzen eines einmaligen Extremwertes damit letztlich eine Aussage ableitet, die der Realität nicht gerecht wird. Dem Konsumenten (Leser, Zuhörer) einer solchen Statistik oder Aussage ist zu empfehlen, den gewählten Bezugszeitpunkt kritisch zu hinterfragen und sich im Idealfall auch die entsprechenden Werte für andere (selbstgewählte) Zeitpunkte geben zu lassen. Der Urheber dieser Angaben (z.B. Ersteller der Grafik) darf umgekehrt ein gutes Gewissen haben, wenn er solchen Nachfragen gelassen entgegensehen kann.
7.6
Absolute Größen vs. Wachstumsraten
In vielen Fällen werden mit Zeitreihen absolute Größen dargestellt, also z.B. Umsatz, Gewinn, Aktienkurs usw. Oft ist es aber sinnvoller, anstelle der absoluten Werte deren Veränderung von Periode zu Periode wiederzugeben. Damit können oft die entscheidenden Informationen wesentlich besser hervorgehoben werden. Andererseits besteht auch die Gefahr von Fehlinterpretationen. Die Vorteile und Probleme werden in diesem Abschnitt an mehreren konkreten Beispielen erläutert. Beispiel 7.5: Ein beliebtes Anlagepapier der Deutschen ist der Bundesschatzbrief. Bei seinem Typ Β werden die Zinsen mit dem Kapital kumuliert, so dass der Wert des Papiers über die Laufzeit von sieben Jahren stetig anwächst. Der Zinssatz kann dabei in Jahresschritten steigen oder auch über einige Jahre gleich bleiben.
192
7 Zeitreihen Abb. 7-30 stellt die Wertentwicklung für einen konkreten (echten) Bundesschatzbrief dar.
Das Linien-Diagramm zeigt grundsätzlich die Wertentwicklung auf. Auch die Verbindungslinien zwischen den Punkten haben hier eine wirkliche Bedeutung, da der Wertzuwachs über sogenannte Stückzinsen tatsächlich kontinuierlich verläuft. Andererseits ist die fur den Anleger in der Regel besonders wichtige Information des Zinssatzes (bzw. hier der Zinssätze) praktisch nicht aus dem Diagramm abzulesen. Allenfalls kann man eine Beschleunigung des Anstiegs vermuten, was einem steigenden Zinssatz entspricht. Deshalb ist hier in der Regel eine Darstellung wie in Abb. 7-31, welche die Zinssätze für jedes Jahr angibt (das entspricht der Steigung der Strecken im Linien-Diagramm), wesentlich besser geeignet. Jetzt sind die steigenden Zinssätze für jedes einzelne Jahr unmittelbar ablesbar, was noch durch die Beschriftung der Säulen begünstigt wird. Hier ist übrigens das Säulen-Diagramm besser als das Linien-Diagramm geeignet, weil die Zinssätze jeweils mindestens ein Jahr konstant bleiben und dann sprunghaft steigen. Linien würden hingegen fälschlicherweise einen kontinuierlichen Anstieg suggerieren, der nicht existiert.
7.6 Absolute Größen vs. Wachstumsraten
193
Bundesschatzbrief Β 2008/12 Zinssätze in % 5
4
4.75
4,75
6
7
4,50 4,00
4.25 4,00
3.75
a
nw
-
3
ι-
- ;
2
'.
λ 1 •Mii:.:}
1
2
3
5 Anlagejahr
Abb. 7-31: Jährliche Zinssätze eines Bundesschatzbriefs Auch das nächste Beispiel macht deutlich, dass die Darstellung von Veränderungen oft Informationen zeigt, die bei absoluten Werten verborgen bleiben. Beispiel 7.6: In diesem Beispiel wird die Wertentwicklung eines fiktiven Wertpapierfonds dargestellt. In A b b . 7-32 wird die Entwicklung des Kurses über den betrachteten Zeitraum von elf Jahren in Form eines Linien-Diagramms gezeigt.
194
7 Zeitreihen Man erkennt einen völlig gleichmäßigen Wertzuwachs, der darauf schließen lässt, dass die Qualität des Fonds (gemessen an der Rendite) über die Zeit unverändert geblieben ist. Betrachtet man aber den für den Anleger relevanten jährlichen Wertzuwachs, so ergibt sich ein völlig anderes Bild derselben Daten, wie Abb. 7-33 zeigt.
Wertzuwachs des fiktiven F o n d s Veränderung gegenüber Vorjahr in %
;
—
—
Η -fe —
1
2
3
4
5
6
7
8
9
10
11
Anlagejahr
Abb. 7-33: Darstellung zeigt sinkende Wachstumsraten Wie man bei diesem Diagramm sofort sieht, hat sich die Rentabilität des Fonds über die Zeit halbiert. Aus ursprünglich guten 10 % sind nach elf Jahren nur noch bestenfalls durchschnittliche 5 % übrig geblieben. Dass die Darstellung im ersten Diagramm über diese Tatsache hinweggetäuscht hat, beruht darauf, dass man dort über alle Jahre einen identischen absoluten Zuwachs sieht. Bei Wertpapieren ist aber ausschließlich der relative Zuwachs (z.B. innerhalb eines Jahres) von Bedeutung. Deshalb ist die relative Steigerung des Kurses von 10 Punkten im ersten Jahr von der Basis 100 natürlich viel größer als im letzten Jahr von der Basis 200 aus. Die beiden abschließenden Beispiele zeigen, dass die Fixierung auf Wachstumsraten gegenüber absoluten Größen allerdings auch den Blick auf die Realitäten verstellen kann. Negativ-Beispiel 7.7: In einem großen deutschen Finanzmagazin wurde Ende der 1990er-Jahre mit einer Abb. 7-34 entsprechenden (hier etwas vereinfachten) Grafik propagiert, dass sich die Neubaupreise (so wörtlich!) „im Keller" befinden würden.
7.6 Absolute Größen vs. Wachstumsraten
195
N e u b a u p r e i s e im K e l l e r Veränderung gegenüber Vorjahr in %
Abb. 7-34: Neubaupreise wirklich im Keller? W a s v o m Autor nicht berücksichtigt (oder durch die Überschrift bewusst verschleiert) wurde, ist die Tatsache, dass die Darstellung nicht die Preise, sondern deren V e r ä n d e r u n g zeigt. Das ist hier im Untertitel zu sehen (im Original nur in einem Zusatztext versteckt!). Setzt man den Preis fur einen N e u b a u f ü r das erste betrachtete Jahr (1960) gleich 100, zeigt sich ein völlig anderes Bild bei der Preisentwicklung, wie Abb. 7-35 mit den absoluten (normierten) Werten zeigt.
196
7 Zeitreihen Wie man sieht, haben sich die Preise mehr als versechsfacht. Der moderate Rückgang, der gerade einmal im letzten Jahr zu verzeichnen war, ändert nichts daran, dass man sich - wie jetzt direkt zu sehen ist - nicht „im Keller", sondern auf einem Gipfel befindet. 18 Hier stellt sich die Frage, ob der Autor den Leser manipulieren wollte oder wirklich von einer historisch nahezu einmalig günstigen Konstellation ausgegangen ist.
Negativ-Beispiel 7.8: Noch deutlicher wird die Fehlinterpretation in Abb. 7-36, die (hier in etwas vereinfachter Form) einem führenden deutschen Nachrichtenmagazin aus dem Jahr 1999 entnommen wurde.
verändemngs-
Immobilienpreise
Abb. 7-36: Untertitel steht in deutlichem Widerspruch zu den Daten
Die - auch im Original - wörtlich im Kopf des Diagramms zu lesende Aussage, dass Immobilien seit 1990 „Jahr für Jahr billiger" geworden sind, steht in völligem Widerspruch zum Diagramm, das im Gegenteil sehr deutlich zeigt, dass die Preise zumindest bis 1994 jedes Jahr weiter um ca. 3 bis 5 % gestiegen sind. Was sich verringert hat, sind nicht die Preise, sondern lediglich ihr jährlicher Anstieg. 18
Der Einfluss der Inflation wurde in diesem und im nächsten Negativ-Beispiel im Original von den Autoren nicht berücksichtigt (z.B. über inflationsbereinigte Preisanstiege) und spielt deshalb bei der Bewertung keine Rolle.
7.6 Absolute Größen vs. Wachstumsraten
197
Da der Widerspruch zwischen verbaler Aussage und unmittelbar darunter abgebildeten Daten zu eklatant ist, kann man hier wohl kaum noch von bewusster Manipulation ausgehen (die könnte man geschickter realisieren), sondern nur noch von Problemen des Autors beim Umgang mit Zahlen. Zusammenfassend kann man zu den Ausführungen dieses Abschnitts sagen, dass die Darstellung der Wachstumsraten anstelle von absoluten Werten die wesentlichen Informationen oft besser zeigt. Andererseits muss man sich davor hüten, relative Größen und absolute Größen zu verwechseln, wie es leider häufig vorkommt. Das weist übrigens große Ähnlichkeit zu den Ausführungen in Abschnitt 8.6 im folgenden Kapitel „Prozentwerte" auf.
8
Prozentwerte
In der breiten Bevölkerung werden Prozentwerte fast schon als Synonym für Statistiken betrachtet. Auch wenn sie aus der Sicht eines Statistikers kaum als eigenständiger Teil eines Statistikbuchs geeignet erscheinen mögen, wird hier - der Intension dieses Buches folgend - ein eigenes Kapitel mit ihren Besonderheiten eingefugt.
8.1
Grundlagen
Prozentwerte werden nach DIN 5477 nur dann verwendet, wenn Verhältnisangaben vorliegen, also Quotienten aus zwei Zahlen oder zwei gleichdimensionalen Größen. In der Statistik kommen Prozentwerte vor allem in folgenden Fällen zum Einsatz: •
bei Anteilen bzw. Quoten, z.B.: Marktanteil von 30 % Frauenquote von 50 %
•
bei relativen Größenangaben in Bezug auf eine Vergleichsgröße, z.B.: Produkt Α ist 20 % billiger als Produkt Β Person X verdient 25 % mehr als der Durchschnitt
•
bei relativen Veränderungen einer einzelnen Größe (insb. über die Zeit), z.B.: Umsatzwachstum von 15 % 7 % Rabatt
Prozentwerte besitzen grundsätzlich keine Einheit (wie z.B. Euro, m oder kg), sind also dimensionslos. Das Prozentzeichen „ % " selbst ist nicht als Einheit aufzufassen, sondern vielmehr als Größenvorsatz mit dem Wert 1/100. Es entspricht damit dem „c" („Zenti") in „cm" (Zentimeter). Analog zu 1 cm = 0,01 m gilt: 1 % = 0,01. Anders als bei „c" wird dahinter aber keine Einheit angegeben. Mathematisch gesehen entspricht das Anhängen von „ % " an eine Zahl der Multiplikation mit 0,01. Es gilt also beispielsweise 1 + 5 % = 1,05. Bei dieser Rechnung, die übrigens auch Excel genau so durchfuhrt, muss - anders als z.B. bei der in der Fi-
200
8 Prozentwerte
nanzmathematik oft zu lesenden Formel „1 + p/100" - der Prozentwert nicht noch durch 100 geteilt werden. Beim Schreiben ist zwischen dem Zahlenwert und dem Zeichen „%" ein Abstand zu lassen, also ein Leerzeichen oder besser ein kleiner, gegen Zeilentrennung geschützter Abstand. Bei Gesetzestexten (insb. im Steuerbereich) wird anstelle von „Prozent" die sonst nicht mehr übliche Formulierung „vom Hundert" geschrieben. Neben Prozent wird - allerdings deutlich seltener - auch Promille verwendet und mit dem Symbol „%o" dargestellt. Dabei gilt 1 %o = 0,001 = 1/1000.
8.2
Anteile und Quoten
Die Begriffe „Anteil" und „Quote", die man inhaltlich synonym verwenden kann, finden sich in vielen alltäglichen Daten: Arbeitslosenquote, Frauenanteil, Marktanteil, Einschaltquote usw. Grundsätzlich handelt es sich mathematisch bei Anteilen und Quoten um etwas sehr Einfaches, wie die folgende Formel zeigt 19 : Anteil =
Größe einer Teilgruppe 6 Größe der Gesamtgruppe
· 100 %
Beispiel 8.1: In einem Verein gibt es 120 männliche und 80 weibliche Mitglieder. Damit lässt sich der Frauenanteil wie folgt berechnen: 80 80 Frauenanteil = — — — · 100 % = — · 100 % = 40 % 80 + 120 200 Es ist von entscheidender Bedeutung, sich klarzumachen, dass die Zahl im Zähler auch im Nenner auftauchen muss. Im Beispiel sind also die 80 Frauen auch in den 200 Personen im Nenner enthalten. Dies mag im gerade genannten Beispiel selbstverständlich erscheinen. In anderen Zusammenhängen leuchtet dies nicht immer sofort ein.
19
Der Zusatz „· 100 % " in der Formel ist mathematisch korrekt, aber eigentlich überflüssig, da gilt: 100 % = 1. Für mit der Prozentrechnung ungeübte Leser dürfte die Formel aber in der angegebenen Version leichter handhabbar sein und zu weniger Fehlern fuhren.
201
8.3 Prozent - aber wovon? Negativ-Beispiel 8.2:
In einem Landkreis gibt es 100 000 Erwerbstätige und 10 000 Arbeitslose. Man könnte hier auf folgende - falsche! - Rechnung kommen: Arbeitslosenquote =
10000
100 000
· 100 % = 10 %
Nach dem zuvor Gesagten sollte man erkennen, dass die Rechnung falsch ist. Die 10 000 Arbeitslosen müssen nämlich - neben den 100 000 Erwerbstätigen - im Nenner auftauchen, so dass dort 110 000 steht und sich eine Arbeitslosenquoten von ca. 9,1 % ergibt. Dass die im Negativ-Beispiel verwendete Formel falsch sein muss, kann man sich mit einer Methode verdeutlichen, die auch in vielen anderen Fällen vor Fehlern bewahren kann: Man setzt extreme, aber noch (zumindest theoretisch) mögliche Werte ein und prüft, ob das Ergebnis sinnvoll ist. Wenn man von 60 000 Arbeitslosen bei nur noch 50 000 Erwerbstätigen ausgeht, ergäbe sich nach der Formel im Negativ-Beispiel eine unsinnige Arbeitslosenquote von 120 %. Damit ist die Formel offensichtlich falsch. Regeln: •
Anteile bzw. Quoten müssen immer einen Wert zwischen 0 % und 100 % besitzen (bzw. - mathematisch formuliert - zwischen 0 und 1).
•
Anteile sind dimensionslos, d.h., sie besitzen keine Einheit (wie z.B. Personen, Stück o.ä.).
*
Beim Berechnen von Anteilen bzw. Quoten muss sichergestellt werden, dass die im Zähler aufgeführte Größe auch im Nenner enthalten ist.
8.3
Prozent - aber wovon?
Das Beispiel mit der Arbeitslosenquote im letzten Abschnitt hat eines der Probleme beim Berechnen von Quoten aufgezeigt. Während der Wert im Zähler meist noch relativ einfach zu definieren und zu ermitteln ist, bereitet der Wert im Nenner sehr oft große Probleme. Wenn man z.B. die Einschaltquoten beim Fernsehen betrachtet, kann man (über eine Stichprobe hochgerechnet) in etwa angeben, wie viele Personen eine Sendung verfolgt haben (oder sich zumindest bei eingeschalteter Sendung im Raum aufhielten!). Doch durch welchen Wert ist diese Anzahl zu teilen? Ist die Zahl derjenigen relevant, die zum fraglichen Zeitpunkt irgendeine Sendung gesehen haben? Oder die
202
8 Prozentwerte
aller (angemeldeten?) Besitzer eines Fernsehgerätes und deren Angehörigen? Oder aller Einwohner (inkl. Babys?) im Sendegebiet? Ein anderes typisches Beispiel ist die Angabe eines Marktanteils. Das beginnt bereits bei der Definition des Marktes bzw. des betrachteten Marktsegments. Wenn ein Automobilhersteller eines seiner Modelle als den „fuhrende Wagen seiner Klasse" bezeichnet, stellt sich die Frage, um welche Klasse es sich denn handelt, denn diese Angabe fehlt praktisch immer. Findige Marketingleute könnten durch geeignete Definition „ihrer" Klasse (im Extremfall z.B. die Klasse der mittelasiatischen Kombis zwischen 8000 und 9000 Euro) das eigene Auto fast immer in eine Spitzenposition bringen. Die nächste Frage beim Bestimmen des Marktanteils stellt sich aber auch bei seriöser Betrachtung: Wird der Anteil nach Stückzahl oder Umsatz berechnet? Da der Stückpreis von PKW um mehr als Faktor 10 zwischen den verschiedenen Modellen differiert, ergeben sich je nach Wahl der betrachteten Größe erhebliche Unterschiede. Z.B. dürfte der Marktanteil eines Herstellers wie Porsche bei Zugrundelegen des Umsatzes mehr als doppelt so hoch ausfallen im Vergleich zur Angabe nach Stückzahlen. Da jedoch die zentral erfassten Zulassungen die Stückzahlen wesentlich einfacher bestimmen lassen als den erzielten Umsatz (inkl. Rabatten usw.), ist hier die Größe schon aus praktischen Gründen weitgehend vorgegeben. Es wird deutlich, dass es fur die Berechnung von Quoten selbst bei seriösem Vorgehen nur in einfach gelagerten Fällen eine eindeutige Lösung gibt. Oft muss man aus mehreren möglichen Varianten eine heraussuchen, die dem fraglichen Sachverhalt möglichst gerecht wird. Grundsätzlich besteht jedoch immer die Gefahr, dass die Leser einer Statistik - gewollt oder ungewollt - einer Fehleinschätzung unterliegen, wie das folgende Beispiel zeigt. Negativ-Beispiel 8.3: Ein Mobilfunk-Anbieter stellte in seiner Werbung folgende Angabe heraus: „98 % Netzabdeckung" Die meisten Leser haben sicherlich darunter verstanden, dass man mit seinem Mobiltelefon bei diesem Anbieter auf 98 % der Fläche Deutschlands einen Netzzugang erhält. Dies ist jedoch ein Irrtum. Tatsächlich wurden zum damaligen Zeitpunkt lediglich 75 % der Fläche abgedeckt. Auf dieser Fläche wohnten jedoch 98 % der Bevölkerung. Die verwendete Definition der Netzabdeckung mag zwar formal durch entsprechende Übereinkünfte (auch mit staatlichen Stellen) gedeckt sein. Wenn jedoch parallel dazu in Werbesports die Netzverfügbarkeit bei langen Über-
8.4 Prozentuale Unterschiede und Veränderungen
203
landfahrten gezeigt wird (also gerade nicht in den gut abgedeckten, dicht besiedelten Gebieten), so werden hier die potenziellen Kunden bewusst mit der hohen Prozentzahl manipuliert.
8.4
Prozentuale Unterschiede und Veränderungen
Sofern eine Größe als Prozentwert einer anderen Größe angegeben werden soll, gilt folgende Formel: relativer Wert =
betrachtete Größe
100%
Bezugsgröße Zur Verdeutlichung hier ein Beispiel, dessen Werte auch noch im nächsten Beispiel verwendet werden: Beispiel 8.4: Bei einem Vergleichstest zwischen verschiedenen Kosmetika gebe es einen Artikel Α mit einem Preis von pA = 1 € und einen Artikel Β mit pB = 12 €. Damit lassen sich mit der gerade behandelten Formel folgende Aussagen ableiten: relativer Preis von A =
• 100 % = — PB
· 100 % = 8,33...%
1 2 €
Der Artikel Α kostet nur 8,3 % dessen, was Artikel Β kostet. relativer Preis von Β = PA
• 100 % = — 1€
• 100 % = 1200 %
Der Preis von Artikel Β beträgt 1200 % des Preises von Artikel A. Diese Sichtweise ist eher statisch. Häufig werden stattdessen Veränderungen betrachtet. Dabei stellt sich die Frage, um wie viel Prozent eine Größe zu- oder abgenommen hat. Es geht also um die relative Veränderung. Dabei gilt folgende Formel: , · ,, , neuer Wert - alter Wert relative Veränderung = 100 % alter Wert Nach der Art der Veränderung lassen sich vor allem zwei Fälle unterscheiden:
204 •
8 Prozentwerte Eine einzelne Größe verändert sich im Zeitablauf. Für die Werte in Beispiel 8.4 würde das z.B. bedeuten, dass der Preis für Artikel Α von einem Jahr zum nächsten von 1 € auf 2 € gestiegen ist.
•
Es wird der Übergang zwischen zwei Größen betrachtet. Für die Werte in Beispiel 8.4 stellt sich dann die Frage, wie viel man mehr bzw. weniger zahlen muss, wenn man von Artikel Α auf Artikel Β wechselt oder umgekehrt.
Für den zweiten Fall wird dies für die Daten aus dem letzten Beispiel konkret durchgerechnet: Beispie! 8.5: Für die Ersparnis beim Wechsel vom Β nach Α gilt: relative Veränderung =
P a
~ P b • 100 % = Ρβ
1 €
~
1 2 €
· 100 %
12 €
= - — · 100 % = -91,66... % 12 € Die Ersparnis beträgt also 91,7 %. Umgekehrt gilt: relative Veränderung =
P b
~~ P a • 100 % = Ρa
1 2 €
~1 1€
€
· 100 %
= — •100% = 1100% 1€ Beim Wechsel von Α nach Β muss man also 1100 % mehr bezahlen. Vergleicht man die Ergebnisse mit denen von Beispiel 8.4, fallt z.B. Folgendes auf: Wenn der Preis des Artikels Β 1200 % des Preises von Artikel Α beträgt, so beträgt der Mehrpreis nur 1100 %. Der Unterschied von 100 % ergibt sich daraus, dass man den Preis von A (also 100 %) auch beim Kauf von Α zu zahlen hat; lediglich die Differenz von 11 € entsprechend 1100 % muss man mehr zahlen. Dass diese Zusammenhänge manchen Autoren Probleme bereiten, zeigen die beiden folgenden, leider relativ typischen Beispiele:
8.4 Prozentuale Unterschiede und Veränderungen
205
Negativ-Beispiel 8.6: Eine fuhrende deutsche Fernseh-Zeitschrift betitelte einen Artikel Verbraucher-Informationen wie folgt:
mit
„Sparen Sie über 1000 %!" Wie unsinnig dies ist, zeigt eine einfache Überlegung: Wenn man 50 % spart, zahlt man die Hälfte. Wenn man 100 % spart, zahlt man gar nichts mehr. Demnach müsste man bei einer Ersparnis von 1000 % nicht nur den Artikel kostenlos erhalten, sondern darüber hinaus sogar noch Geld bekommen. Der Fehler, den der Autor gemacht hat, besteht offensichtlich darin, dass er den Prozentwert, der sich beim Wechsel vom billigsten zum teuersten Produkt als relativer Mehrpreis ergibt, fälschlicherweise einfach umgekehrt als mögliche Ersparnis angesehen hat. Negativ-Beispiel 8.7: In einer professionellen Computer-Zeitschrift fand sich innerhalb einer Tabelle zur Entwicklung der Computer-Kriminalität die Information, dass im Vergleich zum Vorjahr 360 % weniger Strafanzeigen bezüglich des Ausspähens von Daten eingegangen wären. Hier wurde beim Berechnen die Differenz der Werte für beide Jahre nicht durch den alten (höheren), sondern fälschlicherweise durch den neuen (niedrigeren) Wert geteilt, so dass sich eine unsinnige Reduzierung um mehr als 100 % ergibt. Dass solche Fehler durchaus von den Lesern bemerkt werden, zeigte ein Leserbrief in der folgenden Ausgabe, in dem empfohlen wurde, dem Autor das Honorar um 360 % zu kürzen. Wie man aus den bisherigen Beispielen sehen kann, sind für die relativen Veränderungen sowohl positive als auch negative Prozentwerte möglich. Nach unten besteht für die prozentuale Veränderung meist eine Grenze. Sofern die betrachteten Größen - was sehr häufig vorkommt - nicht negativ werden können, ist lediglich eine Verringerung von einem endlichen positiven Wert auf 0 möglich. Dies markiert dann mit -100 % (= 100 % Verringerung bzw. Ersparnis) die unterste Grenze der prozentualen Veränderung. Die positiven Werte sind dagegen grundsätzlich nach oben unbeschränkt. Ein häufig zu beobachtender Fehlgriff, der manchen nicht nur verbal, sondern auch schriftlich herausrutscht, ist folgender:
206
8 Prozentwerte
Negativ-Beispiel 8.8: „Der Umsatz in einem neuen Geschäftsbereich ist von 0 € im Vorjahr auf 10 000 € in diesem Jahr gestiegen. Das ist ein Anstieg um 100 %." Das ist natürlich falsch! Ein Anstieg um 100 % läge vor, wenn zuvor 5000 € umgesetzt wurden. Aber wie viel Prozent sind es dann? Wären es zuvor 1000 € gewesen, ergäben sich 900 %, bei 100 € wären es 9900 %. Und bei ursprünglich 0 € ist die Änderung nicht mehr in Prozent auszudrücken, weil sich Unendlich ergeben müsste bzw. der Wert der Formel Undefiniert ist, weil durch 0 geteilt wird. Wenn der alte Wert gleich 0 ist, kann man - da dieser bei der Berechnung im Nenner stehen muss - keine prozentuale Veränderung berechnen. Eine verbale Aussage zur prozentualen Steigerung hat also zu unterbleiben; in einer Tabelle wird an dieser Stelle „x" angegeben. Regeln: *
Bei Veränderungen oder Vergleichen ist der bisherige Wert immer die Bezugsgröße, die im Nenner anzugeben ist.
•
Verändert sich eine Größe von 0 auf einen anderen Wert, so kann keine prozentuale Änderung angegeben werden.
•
Bei Größen, die keine negativen Werte annehmen können, sind Verringerungen (oder „Einsparungen") auf 100 % beschränkt. Dies ergibt sich genau dann, wenn der Wert auf 0 gesunken ist.
8.5
Prozente und Prozentpunkte
Betrachtet man Unterschiede oder Veränderungen von Prozentwerten anstelle von „normalen" Größen, so kommt der Begriff „Prozentpunkt" ins Spiel. Hierzu ein einfaches, aber sehr typisches Beispiel: Beispiel 8.9: Eine Partei hat bei der letzten Wahl einen Stimmenanteil von 10 % erreicht. Dieses Mal liegt ihr Anteil bei 15 %. Der Zuwachs beträgt also absolut 5 Prozentpunkte bzw. relativ 50 Prozent. Der letztgenannte Wert von 50 Prozent relativem Zuwachs entspricht dem, was im letzten Abschnitt behandelt wurde: relativer Zuwachs =
15%-10% 10%
5% • 100 % = — - • 100 % = 50 % 10%
8.6 Prozentwerte und absolute Größen
207
Betrachtet man jedoch keine relativen Unterschiede bei Prozentwerten, sondern reine Differenzen, so werden diese in Prozentpunkten (zum Teil auch kurz „Punkten") angegeben: absoluter Zuwachs = 15 % - 10 % = 5 Prozentpunkte 20 Beides muss sprachlich klar getrennt werden, da sich völlig unterschiedliche Werte mit ganz anderen Aussagen ergeben. Problematisch ist die Tatsache, dass dies bei Verwenden des Symbols „%" nicht deutlich wird. Dass ein Vermischen von Prozent und Prozentpunkten durchaus geeignet ist, die wirklichen Tatsachen zu verschleiern, zeigt das nächste Beispiel: Negativ-Beispiel 8.10: Der Beitragssatz einer Krankenkasse wird von 12 % auf 14 % erhöht. Die Politik erklärt beschwichtigend, dass der Beitrag nur um 2 Prozent steige. Nach den Ausführungen oben ist klar, dass nicht der Beitrag um 2 Prozent, sondern der Beitragsia/z um 2 Prozentpunkte steigt. Dass dies nicht nur eine sprachliche Spitzfindigkeit ist, zeigt sich dann, wenn man die wirkliche Steigerung der Beiträge berechnet, wie dies nachfolgend anhand konkreter Werte geschieht. Wenn das Einkommen 2000 € beträgt, ergibt sich bei einem Beitragssatz von 12 % ein Krankenkassenbeitrag von 2000 €• 12% = 240 € Bei einem Beitragssatz von 14 % steigt der Beitrag auf 2000 € - 1 4 % = 280 € Die relative Beitragssteigerung beträgt damit 28Q€
-240e.100°/o^.100o/o^l6,6...o/o 240 € 240 €
Wenn also jemand erklärt, man müsse nach der Erhöhung ja nur 2 Prozent mehr bezahlen, versteht er den Sachverhalt nicht oder versucht, seine Zuhörer zu manipulieren.
8.6
Prozentwerte und absolute Größen
Dass Prozentwerte generell bei vielen Personen Verständnisprobleme verursachen, hat sich schon in den letzten Abschnitten gezeigt. Besonders häufig hapert es allerIn DIN 5477 wird die Schreibweise „5 % - P u n k t e " verwendet.
208
8 Prozentwerte
dings an der Unterscheidung zwischen relativen Anteilen (in Prozent) und den dahinterstehenden absoluten Größen. Diese Problematik wird hier anhand von zwei Negativ-Beispielen verdeutlicht. Negativ-Beispiel 8.11: Der Autor eines Buches zum Thema Präsentation von Zahlen geht von der in Tab. 8-1 gezeigten individuellen (!) Umsatzstruktur zweier Unternehmen aus. Es handelt sich hier um die Umsatzverteilung des jeweiligen Unternehmens. Über die absolute Größe des Umsatzes liegen keinerlei Aussagen vor. Tab. 8-1:
Individuelle Umsatzanteile zweier Unternehmen
Region A Β C D
relativer eigener Umsatz in % von Unternehmen X Unternehmen Y 13 39 35 6 27 27 25 28
Zu diesen Daten wird die in Abb. 8-1 gezeigte Grafik erzeugt.
V e r g l e i c h zweier U n t e r n e h m e n
E9 Unternehmen X • Unternehmen Y
0
10
20
30
40
50
Regionaler Anteil am eigenen Umsatz in %
Abb. 8-1:
Individuelle regionale Anteile sind keine Marktanteile!
8.6 Prozentwerte und absolute Größen
209
Der Autor erklärt nun, dass man aus diesen Daten und anhand dieser Grafik die Aussage ableiten könne, dass Unternehmen X in Region Β einen deutlichen Vorsprung vor Unternehmen Y hätte. Diese Aussage ist aus den relativen Umsatzanteilen definitiv nicht abzuleiten, da 35 % des Umsatzes von Unternehmen X keinen Bezug zu 6 % des Umsatzes von Unternehmen Y haben. Man stelle sich vor, dass Unternehmen X die Mittel GmbH mit einem Gesamtumsatz von 100 Million Euro ist, während es sich bei Y um die Groß AG mit 1 Milliarde Euro Umsatz handelt. In Region Β stehen also den 35 Millionen Euro (35 % von 100 Millionen) Umsatz von Unternehmen X Umsätze von 60 Millionen Euro (6 % von 1 Milliarde Euro) von Unternehmen Y gegenüber. X hat demnach keinen deutlichen Vorsprung gegenüber Y, sondern sogar einen erheblichen Rückstand. Der Fehler des Autors besteht vereinfacht darin, dass er Äpfel mit Birnen verglichen hat, oder noch besser: Pflaumen mit Melonen. Die 35 % bzw. 6 % sind nur innerhalb des jeweiligen Unternehmens vergleichbar und nicht zwischen den Unternehmen, weil im Beispiel 1 % von X nur 1 Million Euro entspricht, 1 % von Y hingegen 10 Millionen Euro. Dass solche Irrtümer nicht nur beim statischen Vergleich zwischen Anteilen unterschiedlicher Herkunft auftreten, sondern besonders häufig auch bei Veränderungen über die Zeit, zeigt das folgende (anonymisierte) Beispiel, das aus einer Zeitung fur IT-Profis stammt. Negativ-Beispiel 8.12: In dem hier betrachteten Artikel wird ausgeführt, dass die aus dem ABKonzern als Spin-Off hervorgegangene Systemhaus GmbH den Umsatz im fraglichen Jahr um 31,4 % auf 3,15 Mrd. Mark (das Beispiel stammt von vor 2002) habe steigern können. Demgegenüber sei ihr Geschäft innerhalb des AB-Konzerns „weiter zurückgegangen". Während es im Vorjahr noch 42 % des Gesamtumsatzes ausmachte, waren es im aktuellen Jahr nur noch 36 %. Jetzt wäre es natürlich interessant zu erfahren, um wie viel Mark denn der konzerninterne Umsatz konkret zurückgegangen ist. Der Autor des Artikels liefert sogar freundlicherweise alle dafür notwendigen Angaben: Im Vorjahr betrug der Gesamtumsatz 2,4 Mrd. Mark (wie sich aus dem aktuellen Umsatz von 3,15 Mrd. Mark und der Umsatzsteigerung von 31,4 % berechnen lässt: 3,15 Mrd. / 1,314 = 2,4 Mrd.). 42 % davon sind 1,01 Mrd. Mark konzerninterner Umsatz im Vorjahr.
210
8 Prozentwerte Im aktuellen Jahr beträgt der konzerninterne Umsatz 36 % von 3,15 Mrd. Mark, also 1,13 Mrd. Mark. Wie man also sehen kann, ist der konzerninterne Umsatz entgegen der wörtlich dem Artikel zu entnehmenden Aussage nicht „weiter zurückgegangen", sondern sogar um immerhin 11,9 % gestiegen.
Es handelt sich beim Beispiel 8.12 um einen typischen, leider sehr häufig zu beobachtenden Fehler. Ein Rückgang bei einem relativen Anteil wird mit einem Rückgang der dahinterstehenden absoluten Größe (hier des Umsatzes) gleichgesetzt. Das ist aber unzulässig und bei steigendem Gesamtwert oft auch falsch. Steigt der Gesamtwert, so sinkt der relative Anteil von Teilwerten, wenn diese zwar auch wachsen, jedoch unterproportional, d.h. geringer als der Gesamtwert. Auch wenn der Umsatz in allen Teilbereichen wächst, wird er zwingend (außer das Wachstum ist überall zufallig völlig identisch) bei einigen Teilbereichen zu einem sinkenden Anteil fuhren und bei anderen zu einem steigenden Anteil. Umgekehrt können bei einem schrumpfenden Gesamtmarkt Bereiche ihren relativen Anteil vergrößern, obwohl sie absolute Rückgänge zu verzeichnen haben. Auch hier gilt, dass 1 % vom Vorjahr nicht mit 1 % des aktuellen Jahres identisch ist und man damit wieder Äpfel mit Birnen vergleichen würde. Als Fazit bleibt festzuhalten, dass man unbedingt zwischen relativen Anteilen und absoluten Werten scharf trennen muss. Anteile lassen sich nur innerhalb der jeweiligen Gesamtheit vergleichen, im Beispiel 8.11 also innerhalb von Unternehmen X zwischen den Regionen. Ebenso dürfen Anteile nicht zwischen zwei unterschiedlichen Perioden verglichen werden, sondern nur innerhalb einer Periode. Alle anderen verbalen Interpretationen sind falsch. Ebenso sollte man unbedingt von Diagrammen Abstand nehmen, in denen unvergleichbare Prozentwerte (Anteile) einander gegenübergestellt werden und fast zwangsläufig zu den gezeigten Fehlinterpretationen fuhren.
8.7
Prozentwerte in Stichproben
Bisher wurde unterstellt, dass bei den Statistiken eine Menge von Elementen untersucht wurde und über genau diese Elemente dann eine Aussage gemacht wird. Diese Sichtweise der Statistik bezeichnet man als „deskriptiv" (= beschreibend). In vielen Fällen werden die so gewonnenen Daten jedoch verallgemeinert. Wenn man z.B. 1000 Personen befragt hat und 400 davon haben die Meinung χ geäußert, so liest man anschließend in der Zeitung, dass 40 % der Deutschen χ meinen.
8.7 Prozentwerte in Stichproben
211
Die Idee, die dahinter steht, besagt, dass sich die Erkenntnisse, die man durch Untersuchung einer Teilmenge gewinnt, auf die Gesamtmenge übertragen (hochrechnen) lassen. Man bezeichnet dies als „induktive" (= schließende) Statistik. Interessanterweise funktioniert dies zumindest im Falle von Prozentwerten (Anteilen) genau so einfach, wie man sich das naiverweise vorstellt: Der in einer Stichprobe gewonnene Prozentwert stellt einen sogenannten Schätzwert für den entsprechenden Anteilswert der gesamten Menge (Grundgesamtheit) dar. Was jedoch Personen ohne ausreichende Statistikausbildung fast immer übersehen, ist die Frage, wie genau eine solche Schätzung ist. Wenn man lediglich zwei Personen befragt und einer äußert eine bestimmte Meinung, so dürfte wohl jeder daran zweifeln, wenn man daraus die Verallgemeinerung ableiten wollte, dass 50,0 % aller Deutschen dieser Meinung sind. In der Praxis kommt man diesem Extremfall allerdings häufiger nahe, als man vermuten würde. Z.B. werden nahezu täglich im Bereich der Medizin Meldungen veröffentlicht, dass man fur eine bestimmte Krankheit ein vielversprechendes Medikament oder eine neue Behandlungsmethode entdeckt hätte. Bei 83,3 % der behandelten Patienten hätte sich eine deutliche Verbesserung ergeben. Gerade eine solche Prozentzahl sollte misstrauisch machen. Zufallig handelt es sich dabei nämlich (fast) genau um den Wert 5/6. Und so kann man manchmal in einem ausfuhrlicheren Bericht lesen, dass in dieser Studie tatsächlich nur sechs Patienten behandelt wurden, von denen fünf eine Besserung zeigten. Nähere Informationen zum Thema Stichproben und der Genauigkeit von Schätzwerten sind Kapitel 11 zu entnehmen.
9
Durchschnitt & Co
9.1
Einführung
Keine andere statistische Kennzahl ist in der breiten Öffentlichkeit so präsent wie der Durchschnitt. Trotzdem ist die Vorstellung darüber, was ein Durchschnitt eigentlich bedeutet, oft eher nebulös. Anders ist es kaum erklärbar, dass z.B. Kabarettisten erläutern, dass die durchschnittliche Kinderzahl von Frauen 1,3 beträgt, und dies dann dadurch lächerlich machen, dass sie das „0,3-Kind" plastisch darstellen. Sofern das nicht mit deutlichem Augenzwinkern geschieht, offenbart es ein grundsätzliche Missverständnis bezüglich der Aussagekraft von Durchschnitten (wobei schon dieser Begriff ungenau und eher laienhaft ist). Ein Durchschnitt ist kein typischer Wert. Er muss in der untersuchten Menge nicht ein einziges Mal vorkommen und kann - wie das Beispiel der durchschnittlichen Kinderzahl zeigt - im Einzelfall sogar unmöglich sein. Ein Durchschnitt ist also eine abstrakte statistische Kennzahl, mit der eine Aussage über eine Menge als Ganzes und gerade nicht über die einzelnen Objekte darin gemacht wird. Insoweit sind Aussagen der Art „der typische Deutsche hat/macht/usw. ..." in der Regel nicht angebracht. Ein konkretes (Negativ-)Beispiel (mit bewusst groben, aber realitätsnahen Werten) macht dies deutlich: Negativ-Beispiel 9.1: „Der durchschnittliche Deutsche raucht 4 Zigaretten am Tag." Man muss dazu wissen, wie diese Zahl zustande kommt. Dabei wird der gesamte Zigarettenverbrauch (der sich - u.a. wegen des zunehmenden Schmuggels - nur grob anhand der offiziellen Verkaufszahlen abschätzen lässt) durch die Einwohnerzahl Deutschlands geteilt. Damit ergibt sich der Schnitt von 4 Zigaretten unter der Annahme, dass jeder einzelne Deutsche - Säuglinge und Kleinkinder eingeschlossen - raucht. Wenn man bedenkt, dass nur ungefähr ein Viertel der Gesamtbevölkerung raucht, ergibt sich hingegen ein völlig anderes Bild. Es existieren nämlich zwei völlig getrennte Gruppen: Zum einen die Nichtraucher und zum anderen die Raucher, die ca. 16 Zigaretten pro Tag rauchen. Dies spiegelt die Wirk-
214
9 Durchschnitt & Co lichkeit deutlich besser wider, auch wenn man innerhalb der Raucher gegebenenfalls noch weiter z.B. nach Gelegenheitsrauchern und Kettenrauchern differenzieren müsste.
Das Beispiel macht deutlich, dass ein simpler Durchschnittswert eben nicht den typischen Deutschen repräsentiert, denn der raucht nicht 4 Zigaretten am Tag, sondern überhaupt nicht. Für solche Aussagen sind anderen Kennwerte zu verwenden, wie sie auch in der Folge dargestellt werden. Das gilt in der Praxis z.B. in der Marktforschung, wo man den bzw. die typischen Kunden erkennen möchte, um die Werbemaßnahmen optimal auf diese auszurichten. Hier muss man versuchen, die Gesamtmenge in einige (wenige) möglichst homogene Gruppen aufzuteilen, und für diese dann den Durchschnitt o.ä. zu ermitteln. In den nachfolgenden Abschnitten werden verschiedene Kennzahlen beschrieben, mit denen man typische Werte oder Durchschnitte angeben kann. Sie gehören zur Gruppe der sogenannten Lageparameter. Damit sind (im Gegensatz z.B. zu Streuungsmaßen) Kennwerte gemeint, die einen Punkt innerhalb der Häufigkeitsverteilung angeben. Wichtig ist dabei, zum einen zu wissen, wo die jeweilige Kennzahl sinnvoll eingesetzt werden kann, und zum anderen, welche Voraussetzungen fur ihren Einsatz vorliegen müssen.
9.2
Häufigster Wert (Modus, Modalwert)
9.2.1
Grundlagen
Der häufigste Wert - in der Statistik als Modus oder Modalwert bezeichnet - ist die Merkmalsausprägung, welche die größte Häufigkeit besitzt (absolute und relative Häufigkeit führen dabei zum selben Ergebnis). Sollten zwei oder gar mehr Ausprägungen die gleiche Häufigkeit besitzen, gibt es mehrere Modalwerte. Die formalen Voraussetzungen für den häufigsten Wert sind immer erfüllt, da bereits die Nominalskala ausreicht. Für diese ist er sogar der einzig sinnvolle Lageparameter. Dass der häufigste Wert trotzdem nur eingeschränkt einsetzbar ist, zeigen die nachfolgenden Beispielaussagen im Vergleich: •
Der typische Bayer ist katholisch.
•
Der typische Deutsche wohnt in Nordrhein-Westfalen.
•
Der typische Deutsche hat ein Erwerbseinkommen von 0 Euro.
9.2 Häufigster Wert (Modus, Modalwert)
215
Zunächst ist erst einmal die Formulierung „typisch" nicht ganz unproblematisch. Man wird jedoch - zumindest in einem Umfeld von Nicht-Statistikern - kaum eine Formulierung folgender Art wählen: „Der Modus für das Merkmal Religionszugehörigkeit in der bayrischen Bevölkerung ist katholisch." Etwas besser könnte (!) es wie folgt formuliert werden: •
Die meisten Bayern sind katholisch.
•
Die meisten Deutschen wohnen in Nordrhein-Westfalen.
•
Die meisten Deutschen haben ein Erwerbseinkommen von 0 Euro.
Da in Bayern ca. 70 % katholisch sind, ist die erste Aussage angemessen und gibt den wirklichen Sachverhalt eindeutig und fur den Leser verständlich wieder. Problematisch ist jedoch (unabhängig von der hier nicht vorgenommenen Abgrenzung zwischen „Deutscher" und „Bevölkerung") die zweite Aussage - sowohl in der ersten wie auch in der zweiten Formulierung. Das bevölkerungsreichste Bundesland Nordrhein-Westfalen ist zwar ohne Zweifel der korrekte Modus, aber die Aussage könnte missverstanden werden. Sie soll - der Definition des häufigsten Wertes entsprechend - bedeuten, dass es in keinem anderen Bundesland mehr Einwohner gibt. Da aber nur 22 % der Bevölkerung Deutschlands in Nordrhein-Westfalen leben, lebt folglich die weit überwiegende Mehrheit nicht in Nordrhein-Westfalen. Besser ist demnach folgende Aussage: •
Nordrhein-Westfalen hat von allen Bundesländern die meisten Einwohner.
Die dritte Aussage („Die meisten Deutschen haben ein Erwerbseinkommen von 0 Euro.") ist sicherlich besonders problematisch. Allerdings hat tatsächlich bei ca. 36 Millionen Erwerbstätigen und 82 Millionen Einwohner mehr als die Hälfte kein Erwerbseinkommen. Im Gegensatz zu einem Durchschnitt handelt es sich bei diesem häufigsten Wert aber um einen Randwert, der kaum als „typisch" akzeptiert werden dürfte. Geradezu provozierend ist jedoch folgende Aussage: •
Die 35-jährigen männlichen Deutschen haben am häufigsten ein Erwerbseinkommen von 0 Euro.
Obwohl hier auf Begriffe wie „typisch", „normal" oder „die meisten" verzichtet wurde und damit eindeutig kein Durchschnitt, sondern der häufigste Wert genannt wird, dürften die meisten Leser diese Aussage für falsch halten. Schließlich liegt die Erwerbsquote in dieser Altersklasse bei ca. 96 %. Trotzdem ist diese Aussage mit Sicherheit richtig, wie sich aus folgender Überlegung ergibt: Das Einkommen ist aufgrund der riesigen Anzahl möglicher Ausprägungen ein nahezu stetiges Merkmal. Da es sehr viele Branchen, Berufe, Tarifgruppen sowie individuelle Abweichungen gibt, werden nur in sehr wenigen Fällen zwei
216
9 Durchschnitt & Co Erwerbstätige exakt (also auf den Cent genau) das gleiche Einkommen haben. Damit dürfte es keinen anderen Einzelbetrag geben, der als Einkommen häufiger als 0,00 Euro vorkommt.
Was bereits das Beispiel mit Nordrhein-Westfalen angedeutet hat, zeigt sich bei Merkmalen mit sehr vielen (oder theoretisch sogar unendlich vielen) Ausprägungen noch deutlicher. Sobald aufgrund dieser großen Anzahl von Möglichkeiten eine einzelne Ausprägung nur selten - im Extremfall nur ein einziges Mal - vorkommt, ist diese als häufigster Wert auch dann ungeeignet, wenn dies im statistischen Sinne korrekt ist. Bei stetigen Merkmalen könnte allerdings eine Klassenbildung helfen. Beispiel: „Der typische Absolvent eines BWL-Studiengangs verdient als Berufsanfänger zwischen 35 000 und 45 000 Euro." Uneingeschränkt kann ein Wert dann als häufigster genannt werden, wenn er eine relative Häufigkeit von über 50 % aufweist. Bereits Werte knapp darunter sind kritisch und noch geringere relative Häufigkeiten verbieten eigentlich die Anwendung als häufigster Wert, wenn man keine Missverständnisse provozieren will. Zusammenfassung: •
Formal kann der häufigste Wert immer angegeben werden, da bereits nominal skalierte Merkmale geeignet sind.
•
Von einem „typischen" Wert sollte man nur sprechen, wenn die relative Häufigkeit bei über 50 % (oder im Ausnahmefall knapp darunter) liegt.
•
Da es sich bei metrischen Merkmalen beim häufigsten Wert um einen Randwert handeln kann (das kommt relativ häufig vor), sind dort Fehlinterpretationen möglich. Hier ist fast immer der Durchschnittswert vorzuziehen.
9.2.2
Berechnung
Eine Berechnung im engeren Sinne findet beim Modalwert nicht statt. Vielmehr wird durch einfaches Abzählen ermittelt, welcher Wert die größte absolute oder auch relative Häufigkeit besitzt. Sofern mehrere Werte gleich häufig vorkommen, gibt es entsprechend auch mehrere Modalwerte. Berechnung mit Excel Zur Berechnung des Modalwertes steht in Excel die Funktion MODALWERTCßeme/j) zur Verfügung.
9.3 Zentralwert (Median)
217
Der angegebene Bereich muss die zu untersuchenden Werte enthalten. Dabei gelten folgende Einschränkungen: •
Es werden nur Zahlen (inkl. Datums- bzw. Uhrzeit-Werten) verarbeitet. Texte, Wahrheitswerte und leere Zellen werden ignoriert.
•
Zumindest eine der Zahlen muss mehr als einmal vorkommen, sonst liefert die Funktion einen Fehler.
Als Ergebnis wird die Zahl ausgegeben, die am häufigsten im Bereich vorkommt. Sofern mehrere Zahlen die gleiche maximale Häufigkeit besitzen, wird die Zahl ausgegeben, die als erste im Bereich vorkommt. Zusammenfassung zum Häufigsten Wert (Modus, Modalwert) Aussage •
der Modalwert entspricht der Merkmalsausprägung mit der höchsten (relativen) Häufigkeit
Anwendungs-Voraussetzung • •
nominale oder ordinale Skala alternativ: metrische Skala mit (möglichst wenigen) diskreten Ausprägungen (z.B. Haushaltsgröße)
Mögliche Probleme • • t
bei sehr vielen möglichen Ausprägungen kann die relative Häufigkeit des Modalwertes sehr gering sein (z.B. wenige Prozent) es sind mehrere Modalwerte gleichzeitig möglich bei ordinalen oder metrischen Merkmalen kann der Modalwert dem Minimum oder Maximum entsprechen
Weitere Eigenschaften •
reagiert nicht auf einzelne Ausreißer
9.3
Zentralwert (Median)
9.3.1
Grundlagen
Der Zentralwert (auch Median genannt) entspricht dem Wert des mittleren Elements einer nach Größe geordneten Reihe. Das folgende Beispiel veranschaulicht das:
218
9 Durchschnitt & Co Eine Gruppe von 99 Soldaten stellt sich der Größe nach in einer Reihe auf. Der 50. Soldat, der eine Körpergröße von 180 cm aufweist, steht genau in der Mitte. Die 49 Soldaten auf der einen Seite von ihm sind kleiner oder gleich groß wie er, die 49 Soldaten auf der anderen Seite größer oder gleich groß.
Die Körpergröße des mittleren Soldaten wird also von mindestens 50 % der Personen nicht überschritten bzw. nicht unterschritten. Der Zentralwert liegt damit für das Beispiel bei 180 cm. Damit lassen sich folgende Aussagen ableiten: •
Mindestens die Hälfte der Soldaten der Gruppe sind mindestens 180 cm groß.
•
Mindestens die Hälfte der Soldaten der Gruppe sind nicht größer als 180 cm.
Etwas ungenauer, aber üblich und für größere Mengen akzeptabel sind folgende Formulierungen: •
Jeder zweite Soldat der Gruppe ist mindestens 180 cm groß.
•
Jeder zweite Soldat der Gruppe ist höchstens 180 cm groß.
Sachlich falsch und damit nicht mehr akzeptabel wären folgende Ableitungen: •
Jeder zweite Soldat der Gruppe ist größer als 180 cm.
•
Jeder zweite Soldat der Gruppe ist kleiner als 180 cm.
Der Fehler liegt zum einen darin, dass definitiv weniger als die Hälfte größer als 180 cm sind (mindestens 50 der 99 Personen sind 180 cm groß oder kleiner). Zum anderen liegen keinerlei Informationen über die Körpergröße der übrigen Personen als der mittleren vor. Diese könnten im Extremfall alle gleich groß sein, so dass keine einzige größer als 180 cm ist. An Fakten aus dem Sachverhalt ist nur die Größe des 50. Soldaten bekannt. Über die Größe der anderen kann man lediglich spekulieren und keine veröffentlichungsfähigen Tatsachen ableiten. Damit der Zentralwert berechnet werden kann, muss das Merkmal mindestens ordinal skaliert sein, da ansonsten keine Reihenfolge definiert ist. Für das Beispiel der Größe von Soldaten mit einer ungeraden Anzahl von Einzelwerten ist das Bestimmen des Zentralwertes sehr einfach. Bei einer geraden Anzahl von Einzelwerten gibt es aber kein einzelnes mittleres Element. Vielmehr bilden zwei Elemente zusammen die Mitte. Haben beide den gleichen Wert, ist dieser der gesuchte Zentralwert. Sind beide Werte unterschiedlich, wird bei metrisch skalierten Merkmalen das arithmetische Mittel der beiden zentralen Werte verwendet. Bei unterschiedlichen ordinal skalierten Werten sind dann die Aussagen entsprechend anzupassen. Würden die Soldaten beispielsweise nach Dienstrang geordnet und die beiden zentralen Soldaten wären Ober- bzw. Hauptgefreiter, so wären z.B. folgende Aussagen möglich:
9.3 Zentralwert (Median)
219
•
Die Hälfte der Soldaten hat höchstens den Dienstrang eines Obergefreiten.
•
Die Hälfte der Soldaten hat mindestens den Dienstrang eines Hauptgefreiten.
Ein sehr häufig anzutreffender Trugschluss im Zusammenhang mit dem Zentralwert ist folgender: Negativ-Beispiel 9.2: „Ärzte verdienen im Durchschnitt 100 000 Euro pro Jahr. Damit verdient jeder zweite Arzt über 100 000 Euro." Die zweite Aussage, die sich vermeintlich aus der ersten ergeben soll, ist falsch! Sie setzt implizit voraus, dass der Durchschnitt (genauer: das arithmetische Mittel) mit dem Zentralwert übereinstimmt. Das ist jedoch nur sehr selten der Fall. Konkret für dieses Beispiel kann man durch ein einfaches Gedankenexperiment nachweisen, dass Durchschnitt und Zentralwert im Allgemeinen nicht übereinstimmen: Angenommen, in der Ausgangssituation dieses Beispiels würden Durchschnitt und Zentralwert tatsächlich (zufallig) übereinstimmen. Dann würde das Einkommen des „mittleren" Arztes (der nach der Einkommensrangliste an der mittleren Position steht) 100 000 Euro betragen und mit dem Durchschnitt über alle Ärzte übereinstimmen. Würde man jetzt das Einkommen nur der Ärzte, die bereits jetzt über 100 000 Euro verdienen, erhöhen, würde der Durchschnitt entsprechend ansteigen. Der Zentralwert bliebe jedoch unverändert, da der mittlere Arzt das gleiche Einkommen wie zuvor hat. Eine Übereinstimmung von Durchschnitt (arithmetischem Mittelwert) und Zentralwert gibt es in der Regel nur bei Häufigkeitsverteilungen, die symmetrisch um den Mittelwert angeordnet sind. Dies ist z.B. bei der oft schon aus der Schule bekannten Gauß'schen Glockenkurve der Fall. Die meisten realen Häufigkeitsverteilungen (insbesondere zum Einkommen und Vermögen) sind jedoch „rechtsschief' (auch „linkssteil" genannt). Das bedeutet, dass sich die meisten Elemente im linken Bereich (zur 0 hin) konzentrieren, während einige wenige deutlich oder gar extrem weit rechts liegen (z.B. EinkommensMillionäre). Diese sorgen z.B. dafür, dass der Durchschnitt über dem Einkommen liegt, das der mittlere Arzt erhält. Zusammenfassung: •
Der Zentralwert kann für Merkmale bestimmt werden, die mindestens ordinal skaliert sind.
•
Der Zentralwert stimmt in der Regel nicht mit dem Durchschnitt (arithmetisches Mittel) überein, sondern ist meist kleiner als dieser.
220 •
9 Durchschnitt & Co Die typische Form der Darstellung des Zentralwertes sind Formulierungen der Art „die Hälfte der ... ist/hat... mindestens/höchstens ..."
9.3.2
Berechnung
Liegen lauter einzelne Beobachtungswerte vor, müssen diese zunächst zur Berechnung des Zentralwertes nach (aufsteigender) Größe sortiert werden. Dann ist eine Unterscheidung nach Anzahl der Werte vorzunehmen: Sofern eine ungerade Anzahl von Einzelwerten vorliegt, gibt es genau ein mittleres Element. Formal wird dieses nach folgender Formel bestimmt: xZ=x(n+1)/2
Xj Wert der /'-ten Beobachtung η Anzahl der Beobachtungen Liegt hingegen eine gerade Anzahl von Einzelwerten vor, gibt es kein einzelnes mittleres Element. Vielmehr lassen sich eine gleich große untere und obere Hälfte bilden. Wenn das größte Element der unteren und das kleinste der oberen Hälfte den gleichen Wert besitzen, ist dieser Wert zugleich der gesuchte Zentralwert. Sofern diese beiden Elemente jedoch unterschiedliche Werte aufweisen, wird das arithmetische Mittel dieser beiden Werte als Zentralwert verwendet. Das setzt jedoch voraus, dass es sich um ein metrisches Merkmal handelt. Die Formel lautet dann: _
_
Xn/2
+
X(n/2)+1
Wenn anstelle von Einzelwerten nur ein klassiertes metrisches Merkmal gegeben ist, muss über eine etwas aufwändigere Berechnung eine Näherungslösung fur den Zentralwert bestimmt werden. Dazu wird zunächst die mittlere Klasse bestimmt, also die, welche das zentrale Element enthält. Sie ist daran zu erkennen, dass ihre untere Grenze unter 50 % und ihre obere Grenze über 50 % liegt. Dann wird der Zentralwert mit folgender Näherungsformel bestimmt (der linke Teil der Formel gilt für absolute Häufigkeiten, der rechte für relative):
9.3 Zentralwert (Median)
xz=x" +(x°
- JE")
221
-2-HU')
--Xu +{x°
H(x°)-H(x") x"
5-' -x") F{x°)-F{xu)
untere Grenze der zentralen Klasse (Klasse mit mittlerem Element)
x°
obere Grenze der zentralen Klasse
H(xu)
kumulierte absolute Häufigkeiten bis zur unteren Grenze der zentralen Klasse
H(x°) kumulierte absolute Häufigkeiten bis zur oberen Grenze der zentralen Klasse F(xu)
kumulierte relative Häufigkeiten bis zur unteren Grenze der zentralen Klasse
F(x°)
kumulierte relative Häufigkeiten bis zur oberen Grenze der zentralen Klasse
η
Anzahl der Beobachtungswerte
Berechnung mit Excel Zur Berechnung des Zentralwertes auf Basis von Einzelwerten steht in Excel die Funktion MEDIAN(Äerac/0 zur Verfugung. Der angegebene Bereich muss die zu untersuchenden Werte enthalten, wobei ausschließlich Zahlen (inkl. Datums- bzw. Uhrzeit-Werten) verarbeitet werden. Texte, Wahrheitswerte und leere Zellen werden ignoriert. Der Zentralwert wird dann automatisch - je nach gerader bzw. ungerader Anzahl nach den beiden oben angegebenen Formeln für Einzelwerte berechnet. Zusammenfassung zum Zentralwert (Median) Aussage > •
der Zentralwert befindet sich in der Mitte der geordneten vorkommenden Merkmalsausprägungen mindestens 50 % der vorkommenden Merkmalsausprägungen sind kleiner oder gleich dem Zentralwert, mindestens 50 % sind größer oder gleich
222
9 Durchschnitt & Co
Anwendungs-Voraussetzung •
ordinale oder metrische Skala
Mögliche Probleme •
bei ordinaler Skala und gerader Anzahl von Werten nicht bestimmbar, wenn die (geordneten) Werte beiderseits der Mitte ungleich sind
Weitere Eigenschaften •
reagiert nicht auf einzelne Ausreißer
9.4
Übersicht zu den Mittelwerten
Wenn man vom „Durchschnitt" spricht, so wird darunter praktisch immer der Mittelwert verstanden. Bereits in Abschnitt 9.1 wurde die generelle Problematik von Durchschnitten thematisiert. Zusätzlich muss man jedoch wissen, dass es nicht nur einen Mittelwert, sondern mehrere - mit unterschiedlicher Berechnung - gibt. Derjenige, der in der breiten Öffentlichkeit nahezu ausschließlich verwendet wird, ist das arithmetische Mittel. Hierbei werden die einzelnen Werte addiert und die Summe wird durch die Anzahl der Werte geteilt. Wendet man diese Formel jedoch auf beliebige Sachverhalte an, kann man unsinnige Ergebnisse erhalten, wie das folgende Beispiel zeigt: Negativ-Beispiel 9.3: Ein Börsenspekulant hat mit seinen Aktien, die er nicht verkauft hat, in einem Monat 50 % Gewinn und im nächsten Monat 50 % Verlust gemacht. Er tröstet sich damit, dass er im Schnitt mit ±0 herausgekommen ist, da der Durchschnitt aus +50 % und -50 % schließlich 0 % ist. Wie man leicht nachvollziehen kann, ergibt sich in der Realität aber ein Verlust von 25 %. Hatte der Anleger beispielweise ursprünglich Aktien im Wert von 100 Euro, sind diese nach dem 50%igen Anstieg im ersten Monat auf 150 Euro gestiegen. Der Verlust von 50 % im zweiten Monat hat den Wert jedoch auf 75 Euro fallen lassen, so dass sich insgesamt ein Verlust von 25 % ergibt. Das Beispiel zeigt deutlich, dass es problematisch ist, Aussagen über den Durchschnitt zu machen, wenn man nicht über ausreichende statistische Kenntnisse verfugt. Vielmehr muss man, um solche Fehlgriffe zu vermeiden, zumindest die in den nächsten Abschnitten vorgestellten drei Mittelwerte kennen.
9.5 Arithmetisches Mittel
223
Generell gilt für die Anwendung der Mittelwerte, dass sie nur für metrische Daten berechnet werden können. Die beiden anderen Mittelwerte neben dem arithmetischen Mittel, das geometrische und das harmonische Mittel, setzen darüber hinaus sogar eine Verhältnisskala und ausschließlich positive Werte voraus.
9.5
Arithmetisches Mittel
9.5.1
Grundlagen
Der mit Abstand am häufigsten verwendete Mittelwert ist das arithmetische Mittel. Das zugrunde liegende Rechenschema wird meist sogar schon in der Grundschule vermittelt, um dort z.B. den Notendurchschnitt einer Klassenarbeit zu berechnen. Verbal formuliert ist das arithmetische Mittel folgendermaßen definiert: Es wird die Summe aller Werte gebildet und durch die Anzahl der Werte geteilt. Ein entscheidender Punkt bei der Anwendung von Mittelwerten ist die Frage, wann der jeweilige Mittelwert zum Einsatz kommen darf. In den meisten Büchern heißt es dazu, dass das arithmetische Mittel immer dann anzuwenden ist, wenn die Summe der Einzelwerte sinnvoll ist. Das ist insoweit richtig, als eine sinnvolle Summe immer anzeigt, das arithmetische Mittel zu verwenden. Typische Beispiele sind Geldbeträge (Einheiten z.B. Euro, Dollar usw.), Mengen (Einheiten z.B. kg, Tonnen, Liter usw., aber auch Einwohner, Mitarbeiter usw.) oder Längen (z.B. Meter, km usw.). Umgekehrt kann das arithmetische Mittel allerdings auch dann das richtige sein, wenn die Summe der Einzelwerte nicht sinnvoll ist. Ein Beispiel ist die jährliche Durchschnittstemperatur. Werden dazu die täglichen Einzelwerte aufaddiert, ergibt sich ein Wert von z.B. über 4000 °C, der wohl kaum als sinnvoll gelten kann. Auch bei Notendurchschnitten ergibt die Summe von mehreren Dutzenden Einzelnoten z.B. eine Summe von 50, die kaum sinnvoll interpretierbar ist. Deshalb sei hier eine etwas genauere Anleitung dafür gegeben, wann das arithmetische Mittel anzuwenden ist: •
Immer dann, wenn die Summe der Einzelwerte sinnvoll ist, kommt das arithmetische Mittel zum Einsatz.
•
Sofern die Summe der Einzelwerte keine sinnvolle Größe ergibt, wird das arithmetische Mittel dann angewandt, wenn nicht die Voraussetzungen für den Einsatz des geometrischen oder harmonischen Mittels vorliegen.
9 Durchschnitt & Co
224
Wie man erkennt, muss man - um falsche oder gar unsinnige Ergebnisse zu vermeiden - also auch die beiden anderen Mittelwerte kennen, obwohl diese vergleichsweise selten zum Einsatz kommen.
9.5.2
Berechnung
Sofern Kinzelwerte vorliegen, gilt die folgende Formel:
xt Wert der z'-ten Beobachtung η Anzahl der Beobachtungen Oft sind auch Werte mit relativen oder absoluten Häufigkeiten gegeben. Konkret heißt dies, dass zu einzelnen Ausprägungen angegeben ist, wie oft sie vorkommen. Es gelten dann die beiden folgenden Formeln (je nachdem, ob absolute oder relative Häufigkeiten gegeben sind):
hi ft η m
Anzahl der Werte mit der Ausprägung xt relative Häufigkeit der Ausprägung x, (ursprüngliche) Anzahl der Einzelwerte (= ΣΑ,) Anzahl der unterschiedlichen Ausprägungen x,
Sofern es sich um klassierte Werte handelt, werden ebenfalls diese Formeln verwendet. Anstelle der erhobenen Werte werden in diesem Fall jedoch die Klassenmitten verwendet. Der berechnete Mittelwert stellt aber dann auch nur einen Näherungswert für den echten, auf allen Einzelwerten basierenden Mittelwert dar. Berechnung mit Excel Zur Berechnung des arithmetischen Mittels auf Basis von Einzelwerten steht in Excel die Funktion MITTELWERT(ßerac/z) zur Verfugung.
225
9.5 Arithmetisches Mittel
Sofern sich innerhalb des Bereichs Texte, Wahrheitswerte oder leere Zellen befinden, werden diese völlig ignoriert und gehen nicht in die Berechnung ein (auch nicht als 0). Liegen dagegen Häufigkeiten vor, muss eine geeignete Excel-Formel verwendet werden. Abb. 9-1 zeigt die entsprechende Berechnung inkl. der Formel fur ein einfaches Beispiel mit absoluten Häufigkeiten. E2 A 1 Wert 2 i 3 Γ 4 5 ' 6 Ι 7 :
•
SS
Β Häufigkeit 1
2 3 4 5 6
l =SUMMENPRODUKT(A2:A7; B2:B7) / SUMME(B2:B7) C D Ε F
5 6 8 7 3 1
arithmetisches Mittel:
3.0
Abb. 9-1: Arithmetisches Mittel einer Häufigkeitsverteilung in Excel Wären anstelle der absoluten Häufigkeiten relative gegeben, würde im Beispiel folgende, etwas einfachere Formel verwendet: =SUMMENPRODUKT(A2:A7; B2:B7) Zusammenfassung zum arithmetischen Mittel Aussage •
das arithmetische Mittel entspricht meist dem intuitiven Durchschnitt
Anwendungs-Voraussetzung • metrische Skala Wann statt anderer Mittelwerte zu verwenden? •
das arithmetisches Mittel stellt den Normalfall dar und ist immer dann zu verwenden, wenn nicht die Voraussetzungen des geometrischen oder harmonischen Mittels vorliegen
Mögliche Probleme •
der Mittelwert kann als Einzelwert unmöglich sein und wirkt damit eventuell wenig anschaulich (z.B. 1,3 Kinder)
226 •
9 Durchschnitt & Co der Mittelwert wird häufig fälschlicherweise auch als Zentralwert interpretiert, obwohl dieser bei den üblichen Verteilungen (z.B. Einkommen) niedriger ist
9.6
Geometrisches Mittel
9.6.1
Grundlagen
Bereits im Eingangsabschnitt 9.4 zu den Mittelwerten wurde ein Beispiel vorgestellt, das anhand der Veränderung von Aktienkursen zeigt, dass das arithmetische Mittel nicht immer geeignet ist. Das geometrische Mittel kommt immer dann zum Einsatz, wenn nicht die Summe, sondern das Produkt aus den Einzelwerten eine sinnvolle Größe liefert. Das ist im Wesentlichen bei relativen Veränderungen über die Zeit der Fall, also z.B. bei der Verzinsung von Kapital oder den aufeinanderfolgenden relativen Veränderungen von Kursen. Ganz wichtig ist es dabei, nicht die Wachstumsra/e«, sondern die Wachstums\faktoren zu verwenden. Voraussetzung ist ferner, dass alle Werte positiv sind und das Merkmal verhältnisskaliert ist.
9.6.2
Berechnung
Sofern Einzelwerte vorliegen, gilt die folgende Formel für das geometrische Mittel:
Xj Wert der /-ten Beobachtung η
Anzahl der Beobachtungen
Hierzu ein konkretes Beispiel: Beispiel 9.4: Eine Bank bietet einen Sparplan an, bei dem der zu Beginn eingezahlte Betrag in den folgenden drei Jahren mit 2 %, 5 % bzw. 8 % pro Jahr verzinst wird. Dabei werden die Zinsen gesammelt und im Folgejahr ebenfalls verzinst (Zinseszinseffekt).
227
9.6 Geometrisches Mittel
Wenn man den Betrag am Ende der Laufzeit bestimmen will, muss man folgende Rechnung durchführen: ß 3 = Ä0 ( 1 + 0,02) · (1 + 0,05) • (1 + 0,08) = B0 · 1,15668 Nach drei Jahren erhält man also sein ursprüngliches Kapital zuzüglich 15,668 % Zinsen fur die gesamte Laufzeit zurück. Um Anlageformen mit unterschiedlichen Zinsschritten vergleichen zu können, muss man den jährlichen Zinssatz berechnen, der dann zum gleichen Endergebnis nach drei Jahren führt, wenn er fur alle Jahre konstant gelten würde. Dazu wird die oben genannte Formel verwendet:
xc =
[ χ , = V 1,02 · 1,05 · 1,08 =
1,15668 = 1,0497
Der jährliche Durchschnittszinssatz beträgt also 4,97 % Das Beispiel zeigt, dass man nicht die oft vorliegenden Zinssätze (z.B. 5 %) verwenden darf, sondern stattdessen die entsprechenden Wachstumsfaktoren (z.B. 1,05 = 1 + 5 %) in die Formel eingesetzt werden müssen. Umgekehrt ist dann vom erhaltenen Ergebnis wieder 1 abzuziehen und der Wert 0,0497 mit seinem Äquivalent 4,97 % (beide Werte sind identisch!) anzugeben. Weil dieser Fall besonders häufig vorkommt, hier eine angepasste Formel für die Berechnung der durchschnittlichen Wachstumsrate r.
Τ Anzahl der betrachteten Perioden r, Wachstumsrate von der Periode t-1 zur Periode t (also z.B. der nominale Zinssatz im Jahr t) Die durchschnittliche Wachstumsrate r entspricht der bei Geldanlagen wichtigen Durchschnittsrendite. Was man übrigens im Beispiel auch sehen kann, ist die Tatsache, dass das geometrische Mittel zu einem kleineren Wert fuhrt als das arithmetische Mittel. Da die Wachstumsfaktoren im Beispiel sehr eng beieinanderlagen (zwischen 1,02 und 1,08) ist auch das geometrische Mittel hier nur geringfügig kleiner als das arithmetische (4,97 % statt 5,0 %). Wie das Beispiel 9.3 in Abschnitt 9.4 zeigt, können die Unterschiede (insb. bei Kursschwankungen von Aktien) erheblich größer ausfallen.
228
9 Durchschnitt & Co
Für den Fall, dass Werte mit relativen oder absoluten Häufigkeiten gegeben sind, werden folgende Formeln angewandt: Im χ
=ϊΠ '' Ϊ ;=1 hi fi η m
m
= W x ' 1=1
Anzahl der Werte mit der Ausprägung x, relative Häufigkeit der Ausprägung x, (ursprüngliche) Anzahl der Einzelwerte (= Σ/ζ,) Anzahl der unterschiedlichen Ausprägungen x,·
Berechnung mit Excel Zur Berechnung des geometrischen Mittels auf Basis von Einzelwerten steht in Excel die Funktion GEOMITTEL(ßerac/7) zur Verfugung. Sofern sich innerhalb dieses Bereichs Texte, Wahrheitswerte oder leere Zellen befinden, werden diese völlig ignoriert und gehen nicht in die Berechnung ein (auch nicht als 0). Liegen dagegen Häutigkeiten vor, muss eine geeignete Excel-Formel verwendet werden. Da es für die Potenzierung kein Äquivalent zur Funktion SUMMENPRODUKT gibt, die beim arithmetischen Mittel verwendet wurde, muss mit einer sogenannten Matrix-Formel gearbeitet werden. Abb. 9-2 zeigt die entsprechende Berechnung inkl. der Formel für ein einfaches Beispiel mit absoluten Häufigkeiten. F2 J A 1 Zinssatz 2 | 2% 3 ! 5% 4 8% Abb. 9-2:
= :{=PRODUKT(B2:B4 *• C2:C4) A (1/SUMME(C2:C4))} Β C D Ε F Faktor Anzahl Jahre 1,02 2 qeometrisches Mittel: | Ϊ p56402Ö9l 1,05 3 Durchschnitts-Zinssatz: 5,64% 1,08 4
Η
Geometrisches Mittel einer Häufigkeitsverteilung in Excel
In dieser Formel wird das Zeichen ,,Λ" fur die Potenzfunktion verwendet. Die n-te Wurzel, für die es keine eigene Excel-Funktion gibt, muss durch Potenzieren mit dem Kehrwert (1 tri) nachgebildet werden.
9.7 Harmonisches Mittel
229
Wichtig: Bei Matrix-Formeln wie in der Abbildung werden die geschweiften Klammern nicht eingegeben, sondern automatisch angezeigt. Dazu ist die Eingabe der Formeln nicht wie normal mit , sondern mit der Tastenkombination (alle drei gleichzeitig drücken) abzuschließen. Sofern anstelle der absoluten Häufigkeiten relative gegeben sind (statt 2 Jahre also z.B. 11 % der Gesamtzeit), würde im Beispiel folgende, etwas einfachere MatrixFormel verwendet: =PRODUKT(B2:B4
Λ
C2:C4)
Z u s a m m e n f a s s u n g z u m geometrischen Mittel Aussage •
das geometrische Mittel entspricht dem Durchschnitt bei Wachstumsprozessen (z.B. der Durchschnittsrendite)
Anwendungs-Voraussetzung • •
metrische Skala (Verhältnisskala) nur positive Werte
Wann statt anderer Mittelwerte zu verwenden? •
immer dann, wenn Wachstumsfaktoren vorliegen (also nicht 5 %, sondern stattdessen 1,05)
•
das Produkt der Werte ist sinnvoll (entspricht z.B. einer Zinseszins-Rechnung)
Mögliche Probleme • häufig liegen originär Wachstumsraten statt -faktoren vor; diese sind für die Berechnung in Faktoren umzuwandeln (und das Ergebnis anschließend wieder zurück)
9.7
Harmonisches Mittel
9.7.1
Grundlagen
Das harmonische Mittel ist sicherlich der am wenigsten bekannte und wohl auch am wenigsten verwendete der drei Mittelwerte. Allerdings gibt es eine Reihe von Fällen, wo nur das harmonische Mittel zu korrekten Ergebnissen führt.
230
9 Durchschnitt & Co
Ein guter Tipp bei der Frage, welches Mittel zu verwenden ist, besteht darin, die vorhandenen Zahlenwerte bzw. ihre Unterschiede ins Extrem zu steigern. Dann wird in der Regel sofort sichtbar, welche Mittelwerte ausscheiden. In diesem Sinne hier ein etwas drastisches Beispiel: Beispiel 9.5: Jemand möchte eine Strecke von 200 km mit einer Durchschnittsgeschwindigkeit von 100 km/h fahren. Die ersten 100 km bummelt er jedoch mit 50 km/h. Jetzt stellt er sich die Frage, wie schnell er die zweiten 100 km fahren muss, um im Schnitt noch die 100 km/h zu erzielen. Wäre das arithmetische Mittel korrekt, müsste er 150 km/h fahren, da gilt: ( 5 0 + 1 5 0 ) / 2 = 100. Wäre das geometrische Mittel richtig, würde die Lösung 200 km/h lauten, da gilt: V50 -200 = 1 0 0 . Eine von Formeln losgelöste, ganz praktische Betrachtung zeigt jedoch, dass beides nicht stimmen kann. Wenn man nämlich 200 km mit einer Durchschnittsgeschwindigkeit von 100 km/h zurücklegt, ist man nach genau 2 h am Ziel. Da jedoch die ersten 100 km mit nur 50 km/h zurückgelegt wurden, sind die 2 h bereits nach der Hälfte der Strecke vorüber. Die zweiten 100 km müssten damit in 0 h zurückgelegt werden, also unendlich schnell. Das Beispiel zeigt deutlich, dass sowohl das arithmetische als auch das geometrische Mittel in diesem Fall nicht das korrekte Ergebnis liefern kann. Also muss es einen anderen Mittelwert geben, der beim Berechnen der Durchschnittsgeschwindigkeit angewandt werden muss. Es handelt sich dabei um das harmonische Mittel. Allgemein ist das harmonische Mittel genau dann zu verwenden, wenn alle nachfolgenden Voraussetzungen gegeben sind: •
Alle Werte sind positiv.
•
Das Merkmal ist verhältnisskaliert.
•
Die Einheit der betrachteten Werte ist ein Quotient (z.B. km/h).
• Die Bezugsgröße entspricht der Einheit des Zählers des Quotienten (z.B. km). Neben (normalen) Geschwindigkeiten (z.B. in km/h) mit der Bezugsgröße „zurückgelegte Strecke" (z.B. in km) gilt das harmonische Mittel beispielsweise noch für folgende Fälle: •
mittlere Produktionsgeschwindigkeit (in Stück/h) von mehreren Maschinen, wenn die jeweiligen Produktionsmengen (in Stück) gegeben sind
231
9.7 Harmonisches Mittel •
Durchschnittspreis von Aktien (in Euro/Stück), wenn man immer für einen bestimmten Betrag (in Euro) kauft 21
•
durchschnittliche Quote (z.B. Frauenquote, Arbeitslosenquoten, Ausschussquote), wenn die Bezugsgröße der Wert im Zähler ist (z.B. Anzahl der Frauen, Arbeitslosen, fehlerhaften Stücke)
Es muss darauf hingewiesen werden, dass das harmonische Mittel auch bei Quotienten nur dann gilt, wenn die Bezugsgröße der des Zählers entspricht. Würde man stattdessen z.B. die Durchschnittsgeschwindigkeit ermitteln wollen, wenn man j e eine Stunde mit 50 km/h bzw. 2 0 0 km/h fahrt, so ist dafür das arithmetische Mittel anzuwenden, weil sich die Bezugsgröße (hier h) nicht auf den Zähler, sondern auf den Nenner von km/h bezieht.
9.7.2
Berechnung
Die Formel des harmonischen Mittels für Einzelwerte sieht so aus:
Π
Xj Wert der /-ten Beobachtung η
Anzahl der Beobachtungen
Verbal formiert wird das harmonische Mittel so berechnet: Es werden bei der Berechnung nicht die ursprünglichen Werte verwendet, sondern deren Kehrwerte (1 Ix). Von den Kehrwerten ist dann das arithmetische Mittel zu berechnen. Von dem so erhaltenen Zwischenergebnis wird abschließend wieder der Kehrwert gebildet. Dies wirkt möglicherweise etwas unanschaulich, liefert aber das korrekte Ergebnis, wie das nachfolgende (wieder bewusst etwas extreme) Beispiel belegt:
Anlageberater preisen unter der B e z e i c h n u n g „ C o s t - A v e r a g e - E f f e k t " oft die Methode an, j e d e n Monat einen festen Betrag anzulegen. Weil man bei niedrigen Kursen mehr Aktien kauft als bei hohen, ergibt sich damit ein geringerer durchschnittlicher Kaufkurs, als wenn man eine immer gleiche Anzahl von Aktien kaufen würde. Der Grund liegt darin, dass im ersten Fall das kleinere harmonische Mittel gilt, im zweiten Fall das größere arithmetische.
232
9 Durchschnitt & Co
Beispiel 9.6: Jemand legt eine Strecke von 200 km zurück. Die ersten 100 km fahrt er mit 50 km/h, die zweiten 100 km mit 200 km/h. Wie groß ist die Durchschnittsgeschwindigkeit über die gesamte Strecke? Durch Anwenden der Formel für das harmonische Mittel ergibt sich: 1 1 χ^
1
1
1
1ι 1 .+ 1 Ϊι 2 ^ 5 0 km/h 200 km/h
12 200 km/h
(
J
= 80 km/h
Dieses Ergebnis liegt deutlich unter dem arithmetischen Mittel (125 km/h) und dem geometrischen Mittel (100 km/h). Dass es korrekt ist, zeigt die einfache Gegenprobe: Für die ersten 100 km wurden 2 h (= 100 km / 50 km/h) benötigt, für die zweiten 100 km waren es 0,5 h (= 100 km / 200 km/h), in Summe also 2,5 h. Für die gesamten 200 km ergibt sich damit eine Durchschnittsgeschwindigkeit von 80 km/h (= 200 km / 2,5 h). Wenn die mit unterschiedlichen Geschwindigkeiten gefahrenen Teilstrecken unterschiedliche Länge haben, sind die beiden nachfolgenden Formeln für absolute bzw. relative Häufigkeiten zu verwenden. Die Häufigkeiten entsprechen dann den absoluten km bzw. dem jeweiligen relativen Streckenanteil.
X
H
m n
hi β η m
1
Ttxi
1
m . Σ τ *
Anzahl der Werte mit der Ausprägung x, relative Häufigkeit der Ausprägung x, (ursprüngliche) Anzahl der Einzelwerte (= ΣΑ,·) Anzahl der unterschiedlichen Ausprägungen x,
Berechnung mit Excel Zur Berechnung des geometrischen Mittels auf Basis von Einzelwerten steht in Excel die Funktion HARMITTELCSerac/0 zur Verfugung.
233
9.7 Harmonisches Mittel
Sofern sich innerhalb dieses Bereichs Texte, Wahrheitswerte oder leere Zellen befinden, werden diese völlig ignoriert und gehen nicht in die Berechnung ein (auch nicht als 0). Liegen dagegen Häufigkeiten vor, muss eine geeignete Excel-Formel verwendet werden. Wie schon beim geometrischen Mittel (bitte die dortigen Ausführungen beachten!) muss auch hier mit einer sogenannten Matrix-Formel gearbeitet werden. Abb. 9-3 zeigt die entsprechende Berechnung inkl. der Formel für ein einfaches Beispiel mit absoluten Häufigkeiten.
E2
= (=SUMME(B2:B3) / SUMME(B2:B3 / A2:A3)}
_ll A
1
Β
c
i
D
Ε
Geschwindigkeit Strecke
2 3 Abb. 9-3:
50
100
200
400
Iharmonisches Mittel:
1251
Harmonisches Mittel einer Häufigkeitsverteilung in Excel
Sofern anstelle der absoluten Häufigkeiten relative gegeben sind (statt 100 km also z.B. 20 % der Gesamtstrecke), würde im Beispiel folgende, etwas einfachere Matrix-Formel verwendet: =1 / SUMME(B2:B3 / A2:A3) Zusammenfassung zum harmonischen Mittel Aussage •
das harmonische Mittel ist der Durchschnitt von Quotienten (insb. Geschwindigkeiten oder Quoten), soweit nicht das arithmetische Mittel anzuwenden ist
Anwendungs-Voraussetzung • ί
metrische Skala (Verhältnisskala) nur positive Werte
Wann statt anderer Mittelwerte zu verwenden? •
Werte sind als Quotienten zweier Einheiten gegeben (z.B. km/h, Stück/h) und die Gewichte sind in der Einheit des Zählers gegeben (z.B. km bzw. Stück)
Mögliche Probleme •
Unklarheit darüber, wann harmonisches und wann arithmetisches Mittel anzuwenden ist
234
9 Durchschnitt & Co
9.8
Zusammenfassung zu den Mittelwerten
Während man z.B. bei entsprechenden Daten wählen kann, ob man den Zentralwert oder das arithmetische Mittel verwenden will, besteht innerhalb der Mittelwerte keine Wahlmöglichkeit. Vielmehr muss man jeweils anhand der Daten genau den einen korrekten Mittelwert (arithmetisch, geometrisch oder harmonisch) erkennen und (richtig) bestimmen. Als eine Art „Kochrezept" fur die Wahl des korrekten Mittelwertes kann folgendes Schema gelten: !
Prüfen, ob Wachstumsfaktoren oder -raten (im technischen Bereich auch z.B. Dämpfungswerte) vorliegen bzw. Zinssätze mit Zinseszinseffekt. Wenn ja, ist das geometrische Mittel der entsprechenden Wachstums/ätore« zu berechnen.
2.
Prüfen, ob es sich bei den Werten um Quotienten (z.B. Geschwindigkeiten, Stückpreise, Quoten) handelt und ob die Bezugsgröße der im Zähler der Einheit entspricht (z.B. km, Stück, Anzahl Objekte der betrachteten Teilmenge). Wenn beides zutrifft, ist das harmonische Mittel zu verwenden.
3
Treffen die Spezialfälle 1. und 2. beide nicht zu, ist das arithmetische Mittel zu verwenden.
Generell gilt folgende zum groben Abschätzen hilfreiche Größenbeziehung, sofern man die drei Mittelwerte für dieselben Daten berechnen würde: x>xG>xH Die Gleichheit gilt nur dann, wenn alle betrachteten Einzelwerte identisch sind. Dann sind die Mittelwerte natürlich gleich den Einzelwerten. Bei unterschiedlichen Einzelwerten unterscheiden sich die drei Mittelwerte immer. Dabei ist der Unterschied um so größer, je mehr die Einzelwerte differieren.
10
Streuung
10.1
Grundlagen
Im letzten Kapitel wurden Mittelwerte behandelt. Sie bieten eine einfache Kennzahl, um eine Vorstellung über die Größenordnung der auftretenden Werte zu erhalten. Allerdings macht es einen großen Unterschied, ob z.B. bei durchschnittlichen Einstiegsgehältern für Akademiker diese zwischen 35 000 und 45 000 Euro schwanken oder aber zwischen 15 000 und 90 000 Euro. In der Angabe des Mittelwertes ist also keine Information darüber enthalten, wie stark die Werte um den Mittelwert streuen, wie gut dieser also wirklich die einzelnen Werte repräsentiert. Deshalb gibt es verschiedene Möglichkeiten, die Streuung der Werte zu messen und darzustellen. Das ist Thema dieses Kapitels. Sofern bei statistischen Darstellungen für den Normalbürger überhaupt die Streuung vorkommt, wird diese meist statt über einen Streuungsparameter (s.u.) über zwei Lageparameter angegeben. Eine sehr häufige Variante ist die gemeinsame Angabe des Minimums und des Maximums. Damit besitzt der Leser zumindest die Information, in welchem Bereich die einzelnen Werte liegen. Ein sehr typisches Beispiel für diese Form der Angabe ist die Wettervorhersage. Dort heißt es beispielsweise, dass die Höchstwerte zwischen 20 und 24 °C liegen. Sehr oft - insbesondere in Übersichtskarten sowie Prognosen über mehrere Tage findet man Angaben der Art „Tageshöchstwerte bis 24 °C und nächtliche Tiefstwerte bis herunter zu 8 °C". Ein weiterer Bereich, in dem die Angaben von Minimum und Maximum Standard sind, ist die Börse. Dort werden üblicherweise z.B. die Höchst- und Tiefstwerte für einen Tag, aber auch für größere Zeiträume (z.B. 52 Wochen) veröffentlicht. Die Angabe von Minimum und Maximum hat allerdings den Nachteil, vollständig auf jeweils einen einzigen Ausreißer zu reagieren. Wenn also z.B. das höchste Einstellungsgehalt in einer Untersuchung zu einem Spitzenabsolventen einer ausländischen Elite-Uni mit zwei Diplomen, einem Doktortitel und vier verhandlungs-
236
10 Streuung
sicheren Sprachen gehört, so verzerrt dieser eine Wert die gesamte Erhebung, wenn man sie auf Minimum und Maximum reduziert. Deshalb werden stattdessen häufig Quantile verwendet. Diese ähneln dem in Abschnitt 9.3 vorgestellten Zentralwert. Dieser Wert liegt - wie dort beschrieben - in der Mitte der nach aufsteigender Größe sortierten Einzelbeobachtungen, trennt also die unteren 50 % von den oberen 50 % der Werte. Bei Quantilen hingegen liegt die Grenze nicht fix bei 50 %, sondern kann entsprechend gewählt werden. Übliche Quantile sind folgende: •
Quartile:
Einteilungen in vier Abschnitte mit je 25 %
•
Dezile:
Einteilungen in zehn Abschnitte mit je 10 %
•
Perzentile: Einteilungen in 100 Abschnitte mit je 1 %
Bei Quartilen wird die Menge der Beobachtungswerte nicht in zwei, sondern in vier gleich große Gruppen eingeteilt, so dass das 1. Quartil bei 25 % der Werte liegt, das 2. Quartil bei 50 % (und damit dem Zentralwert entspricht) und das 3. Quartil bei 75 %. Häufig werden bei Verteilungen das 1. und das 3. Quartil angegeben bzw. grafisch dargestellt. Damit gibt man den Bereich an, in dem sich die mittleren 50 % der Werte befinden. Einzelne Ausreißer nach oben oder unten besitzen auf diese Grenzen keinerlei Einfluss, so dass z.B. ein durchschnittlicher Berufseinsteiger eine realistische Größenordnung für das von ihm zu erwartende Gehalt erkennen kann. Zum Teil verwendet man auch Grenzen, die näher an Maximum bzw. Minimum liegen. Um einzelne Ausreißer zu eliminieren, aber trotzdem den Bereich der Werte nicht zu sehr zu beschneiden, kann man z.B. bei der Einkommensspanne das 10%Perzentil (= 1. Dezil) und das 90%-Perzentil (= 9. Dezil) angeben. Analog zum 1. und 3. Quartil handelt es sich um die Werte, die bei 10 % bzw. 90 % der sortierten Beobachtungswerte liegen. Ebenfalls öfters eingesetzt werden das 5%-Perzentil und das 95%-Perzentil. Während bei den bisherigen Angaben jeweils zwei Lageparameter verwendet wurden, um den Bereich der Werte vollständig oder um die Werte an den Rändern vermindert anzugeben, verwendet man in der Statistik selbst Streuungsparameter, die mit einem einzigen Wert nur noch die Streuung ohne jede Lageinformation repräsentieren. Der für den Laien sicherlich einfachste Wert ist die Spannweite, die dem Abstand zwischen Minimum und Maximum entspricht. Bei Börsen kann sie z.B. ein Anhaltspunkt dafür sein, wie unruhig die Märkte an einem Tag waren. Von den vielen weiteren Streuungsmaßen, die in der Statistik verwendet werden, seien an dieser Stelle nur noch zwei eng zusammenhängende genannt: die Varianz und die Standardabweichung. Beide spielen in der Statistik eine absolut zentrale
10.2 Darstellung
237
Rolle und ihre genaue Kenntnis ist für jeden, der sich näher mit statistischen Methoden beschäftigen will, unverzichtbar. Da sie jedoch bei der Veröffentlichung von statistischen Daten für den Normalverbraucher zumindest explizit praktisch nie verwendet werden, hier nur einige grundlegende Informationen dazu. Das arithmetische Mittel (vgl. Abschnitt 9.4) ist das wichtigste zentrale Lagemaß. Deshalb ist es von besonderer Bedeutung, zu wissen, wie groß die Streuung als Abweichung von diesem Wert aus ist. Aus bestimmten mathematischen Gründen ist die mittlere (durchschnittliche) quadratische Abweichung der Einzelwerte vom arithmetischen Mittel das zentrale Streuungsmaß in der Statistik und wird als Varianz bezeichnet. Da diese Größe über die quadratische Herleitung nicht mehr die Dimension der Ursprungswerte besitzt (z.B. statt Euro also Euro 2 ) und auch betragsmäßig eine andere Größenordnung als die dort vorkommenden Abweichungen aufweist, wird stattdessen häufig die Standardabweichun«, die der Quadratwurzel aus der Varianz entspricht, als Streuungsmaß verwendet. Eine weitere Form, Streuung anzugeben, besteht darin, ein zentrales Lagemaß (meist den arithmetischen Mittelwert) zu nennen und den Bereich der vorkommenden Werte als absolute oder relative Abweichung davon anzugeben. Dieses Vorgehen findet man häufig in der Technik (z.B. bei Fertigungstoleranzen) oder bei Prognosen. Eine Angabe bei der Prognose des Wahlergebnisses einer Partei könnte dann lauten: 40 ± 2,7 %. Da es aber viele Möglichkeiten für die so gemachte Angabe der Streuung gibt (z.B. bis Min/Max, als 95%-Intervall usw.), sollte diese Information in geeigneter Form hinzugefugt werden.
10.2
Darstellung
Streuung wird - wie im letzten Abschnitt ausgeführt - häufig dadurch angegeben, dass man einen unteren und einen oberen Wert darstellt. Dabei handelt es sich meist um Minimum und Maximum oder um geeignete Quantile. Abb. 10-1 zeigt ein typisches Beispiel, bei dem die minimale und maximale Temperatur fur einen Ort über den Zeitraum einer Woche in Form von zwei Zeitreihen dargestellt wird. Der Abstand zwischen den Punkten eines Tages gibt zugleich anschaulich die Spannweite der Temperatur wieder. Da sich die Kurven fur Minimum und Maximum nie schneiden (und auch bei kaum einer Anwendung berühren), kann man gegebenenfalls die Beschriftungen an den Linien weglassen. Dann sollte aber der Diagrammtitel etwa „Höchst- und Tiefsttemperaturen diese Woche" lauten, um Interpretationsprobleme auszuschließen.
238
10 Streuung
Temperaturen diese Woche °c
0 -I
, Mo
, Di
, Mi
,
,
Do
Fr
> Sa
So
Wochentag
Abb. 10-1: Linien-Diagramm mit Minimum und Maximum
Eine weitere Darstellungsform ftir Streuung ist der Box-Plot (auch Box-andWhisker-Plot genannt), der in Abb. 10-2 zu sehen ist:
1
0
10
j
20
30
40
50
60
70
Abb. 10-2: Box-Plot
Zentrales Element des Box-Plots ist die Box. Sie repräsentiert die mittleren 50 % der Datenwerte. Die beiden Enden der Box entsprechen dem 1. bzw. dem 3. Quartil. Der Strich innerhalb der Box kennzeichnet den Zentralwert (also das 2. Quartil). 22 Die Dicke der Box ist beliebig und besitzt keine Aussagekraft.
Es entspricht nicht den Konventionen, statt des Zentralwertes den Mittelwert zu markieren. Dieser könnte sich zudem sogar außerhalb der Box-Grenzen befinden.
10.2 Darstellung
239
Die Linien an den beiden Seiten der Box werden Whiskers (= Barthaare oder Schnurrhaare) genannt und enden mit kurzen Endstrichen. Sie stehen für die Daten unterhalb bzw. oberhalb des 1. bzw. 3. Quartiis und werden zum Teil auch mit gestrichelten statt durchgezogenen Linien gezeichnet. Bezüglich der Länge dieser Linien werden in der Literatur unterschiedliche Vorgaben gemacht. Hier die beiden wichtigsten: •
Die beiden Endstriche entsprechen dem Minimum bzw. Maximum der beobachteten Werte. Der Nachteil besteht darin, dass die Grenzen dann auch von extremen Ausreißern bestimmt werden.
•
Die beiden Endstriche entsprechen dem Minimum bzw. Maximum der beobachteten Werte, wobei jedoch Werte außerhalb bestimmter Ausreißergrenzen dabei nicht berücksichtigt werden. Diese Grenzen werden meist so gesetzt, dass die beiden Linien maximal die 1,5-fache Länge der Box haben. 23 Die beiden Endstriche entsprechen aber immer einem existierenden Datenwert.
Sofern die zweite Variante verwendet wird, können Ausreißer außerhalb der um die Linien verlängerten Box existieren. Diese werden meist einzeln als Punkte eingezeichnet. Zum Teil werden Datenwerte, die von der Box mehr als das Dreifache der Boxlänge entfernt sind, als extreme Ausreißer mit einem besonderen Symbol (z.B. einem Kreuz oder Stern) dargestellt. Während Box-Plots in der Statistik sowie in speziellen technischen Grafiken (z.B. bei Qualitätskontrollen in der Produktion) durchaus häufiger zum Einsatz kommen, werden sie in Präsentationsgrafiken in reiner Form nur sehr selten eingesetzt. Was jedoch öfters zu sehen ist, sind Darstellungen, bei denen Bereiche durch Schwebesäulen oder Schwebebalken verdeutlicht werden. Abb. 10-3 zeigt ein recht typisches Beispiel für die Darstellung von Einkommensbereichen. Die linke Kante des Schwebebalkens markiert das 1. Quartil, der Strich in der Mitte den Median (Zentralwert) und die rechte Kante das 3. Quartil. Insgesamt repräsentiert ein solcher Balken, der dem zentralen Teil eines Box-Plots entspricht, die mittleren 50 % der jeweiligen Einkommensbezieher. Die unteren und die oberen 25 % wurden bei der Darstellung weggelassen, da sie z.B. Ausreißer und Sonderfalle betreffen können, welche fur die Mehrheit der Betroffenen keine Relevanz haben.
Gelegentlich wird in der Literatur auch die halbe B o x l ä n g e als Grenze festgelegt.
240
10 Streuung
Einkommen von BWLern nach Berufsjahren Angabe: 1. Quartil, Median, 3. Quartil
Berufsjahre 10 10
20
30
40
50
60
70
80
90
Jahresgehalt in Tsd. Euro Quelle: Daten in Anlehnung an www.spiegel.de, 2009
Abb. 10-3: Schwebebalken-Diagramm als rudimentäres Box-Plot-Diagramm
Häufig findet man bei einer solchen Darstellung auch andere Grenzen. Will man wirklich nur die Extremfalle ausblenden, kommen als untere und obere Grenze auch häufig das 1. Dezil bzw. das 9. Dezil zum Einsatz. Dann decken die Balken jeweils die mittleren 80 % der Beschäftigten ab. Sofern zukünftige Entwicklungen prognostiziert werden, kommen oft stochastische Simulationen oder andere Methoden mit unterschiedlichen Szenarien zum Einsatz. Hier gebietet es die Seriosität, nicht nur den vermeintlich wahrscheinlichsten Entwicklungspfad darzustellen, sondern auch die Unsicherheit zu visualisieren. Ein konkretes Beispiel, das täglich einem Millionenpublikum präsentiert wird, ist der 15-Tage-Trend in der ARD für die Höchsttemperaturen, dessen Darstellung etwa wie in Abb. 10-4 aussieht. Dieser Darstellung liegen zahlreiche (Größenordnung: 50-100) Simulationen mit unterschiedlichen Daten (Zufallswerten) zugrunde. Die dickere blaue Linie in der Mitte stellt den Durchschnitt solcher Simulationsläufe dar. Der graue umgebende Bereich visualisiert die Unsicherheit in Form möglicher alternativer Verläufe. Die Grenze des grauen Bereichs wird üblicherweise so gewählt, dass er den späteren tatsächlichen Verlauf mit einer Wahrscheinlichkeit von 80 %, 90 % oder 95 % enthält. Je größer man die Wahrscheinlichkeit dafür machen möchte, dass man sich nicht irrt, desto breiter muss natürlich auch der Unsicherheitsbereich ausfallen.
10.2 Darstellung
241
Excel-Tipp: Die Darstellung schwebender Balken. Säulen oder Flächen wie in den letzten beiden Beispielen ist in Excel zwar nicht als eigene Diagrammart vorgesehen, lässt sich aber sehr einfach aus den jeweils gestapelten Darstellungen erzeugen. Will man z.B. nur einen einfachen Balken (ohne Unterteilung in der Mitte) frei schweben lassen, verwendet man die Diagrammarl Stapelbalken. Der linke Balken besitzt dann genau die Größe der unteren Grenze des schwebenden Balkens. Der zweite, daran anschließende Balken muss als Größe seine Länge erhalten, also die Differenz zwischen unterer und oberer Begrenzung des Schwebebalkens. Dazu ist in der Tabelle einfach eine zusätzliche Spalte mit einer entsprechenden Formel einzufügen. Um den Balken schweben zu lassen, wird die Datenreihe der linken Balkenreihe angeklickt und mit „Datenreihen formatieren ..." unter „Muster" sowohl bei „Rahmen" als auch bei „Fläche" jeweils „keine" markiert. Die linke Balkenreihe ist damit unsichtbar geschaltet und die rechte Reihe „schwebt". Um eine Unterteilung für den Median zu erhalten, werden statt zwei gestapelten Balken drei verwendet. Der linke wird wieder unsichtbar geschaltet und die beiden rechten erhalten dieselbe Farbe. Damit bleibt nur die Grenze zwischen dem zweiten und dem dritten Balken als Strich für den Median sichtbar.
242
10 Streuung Um die zentrale Linie beim Flächen-Diagramm für den 15-Tage-Trend dicker und mit anderer Farbe auszufuhren als die Begrenzungen der grauen Flächen, wurde zwischen den beiden sichtbaren (jedoch mit derselben grauen Farbe dargestellten) Flächen eine weitere eingefügt. Zum Bearbeiten wurde dieser Fläche zunächst die Größe 1 zugewiesen. Nachdem die Farbe und Strichstärke den Wünschen entsprach, wurden die Werte für diese Fläche in der Tabelle auf 0 gesetzt, so dass sie optisch auf den verbleibenden Strich in der Mitte reduziert wurde.
11
Besonderheiten bei Stichproben
11.1
Einführung
Bei praktisch allen bisherigen Ausführungen wurde implizit oder explizit davon ausgegangen, dass sich die Darstellungen und Aussagen auf die Objekte beziehen, von denen sie erhoben wurden. Wenn ein Unternehmen also z.B. die Aussage macht, dass 45 % seiner Beschäftigten Frauen sind, so kann man annehmen, dass dabei jeder einzelne Beschäftigte (z.B. von der Personalabteilung) erfasst wurde. Bei einer Aussage der Art „27 % der Deutschen interessieren sich für Fußball" sieht dies anders aus. Kaum ein deutscher Leser einer solchen Statistik wird sich erinnern können, dazu befragt worden zu sein. Trotzdem wird hier eine Aussage über eine Gruppe gemacht, zu der er auch gehört. Tatsächlich basiert ein großer Teil der Zahlenangaben, die man täglich in den Medien hört und liest, auf Stichproben. Bei diesen werden nicht alle Elemente der betrachteten Menge (also z.B. alle Deutschen) untersucht bzw. befragt, sondern nur ein relativ kleiner Teil davon, die sogenannte Stichprobe. Die Ergebnisse, die man bei der Untersuchung dieser Stichprobe erhält, werden dann auf die Grundgesamtheit (also z.B. auf alle Deutschen) hochgerechnet. Damit dies funktioniert, müssen mehrere Voraussetzungen gegeben sein: •
Die Stichprobe muss repräsentativ sein. Das bedeutet, dass sich die untersuchten bzw. befragten Personen bzw. Objekte so verhalten wie der Durchschnitt der Grundgesamtheit. Dies zu gewährleisten, ist die Aufgabe der mit der Untersuchung beauftragten Personen bzw. Unternehmen. Diese müssen darauf achten, dass die Verteilung wichtiger Merkmale wie Alter, Geschlecht, Beruf und regionale Herkunft in der Stichprobe möglichst gut der Grundgesamtheit entspricht. Es sei hier davon ausgegangen, dass die mit einer solchen Untersuchung beauftragten Personen die entsprechenden Regeln befolgen. Wer eigene Untersuchungen dieser Art anstellen will, muss allerdings über deutlich umfangreichere Kenntnisse verfügen, als sie dieses Buch vermitteln kann bzw. will.
244 •
11 Besonderheiten bei Stichproben Das betrachtete Ergebnis der Stichprobe muss sich auf die Grundgesamtheit übertragen lassen. Für die beiden wesentlichen Größen, die bei Statistiken für die Allgemeinheit interessant sind, nämlich Anteile und Mittelwerte, gilt eine besonders einfache Regel. Im Schnitt ist ein Anteil oder Mittelwert in der Stichprobe gleich dem Anteil bzw. Mittelwert in der Grundgesamtheit (der Statistiker spricht von einem erwartungstreuen [Punkt-]Schätzer).
•
Das durch die Stichprobe ermittelte (Schätz-)Ergebnis sollte genau genug sein.
Dazu muss die Stichprobe eine entsprechende Größe besitzen. Allgemein gilt eine Anzahl zwischen etwa 500 und 2000 Personen als groß genug, um ausreichend genaue Ergebnisse zu erhalten. Dabei ist es erstaunlicherweise von eher geringer Bedeutung, wie groß die Grundgesamtheit ist. Die genannte Zahl gilt deshalb weitgehend unabhängig davon, ob man eine Großstadt, ein Bundesland oder die gesamte Bundesrepublik betrachtet. Auch wenn es mit Sicherheit echten Statistikern Bauchschmerzen bereitet, lässt sich im Rahmen der Zielgruppe und des Zwecks dieses Buches hier vereinfacht feststellen, dass man die Ergebnisse von Stichproben für die Darstellung von Statistiken in gleicher Weise verwenden kann wie Ergebnisse, die durch eine Gesamterhebung erzielt wurden. Lediglich absolute Zahlen (also z.B. 10 Millionen Deutsche) müssen natürlich aus den erhaltenen Prozentwerten der Stichprobe hochgerechnet werden. Man muss sich allerdings immer darüber im Klaren sein, dass man mit einem gewissen Fehler leben muss. Mit dessen Größe beschäftigt sich der nächste Abschnitt.
11.2
Genauigkeit von Schätzwerten
Selbst wenn man sämtliche Wähler vor einer Wahl befragen würde, entsprächen die Ergebnisse der Befragung nicht exakt dem Wahlausgang. Zum einen können die Befragten ihre Meinung bis zur Stimmabgabe ändern und zum anderen können sie bewusst falsche Angaben machen. Auch äußere Umstände wie die Art der Fragestellung, die Person des Fragenden, das aktuelle Wetter usw. beeinflussen die AntworDas sind jedoch Fehler, die sowohl bei Stichproben als auch bei Vollerhebungen entstehen und an dieser Stelle nicht betrachtet werden. Hier geht es darum, abzuschätzen, welcher Fehler dadurch entsteht, dass man nur einen relativ kleinen Teil der Grundgesamtheit befragt bzw. untersucht hat. Es geht
11.2 Genauigkeit von Schätzwerten
245
also um den sogenannten Schätzfehler, der im Wesentlichen von der Größe der Stichprobe abhängt. Ohne auf die umfangreiche Theorie der hier einschlägigen induktiven Statistik einzugehen, soll an dieser Stelle der Versuch gemacht werden, ein eher intuitives Verständnis dafür zu wecken, was ein Schätzfehler ist und wie dieser praktisch zu interpretieren ist. Angenommen, man will herausfinden, wie oft beim Werfen einer Münze durchschnittlich Wappen oben liegt. Wenn man sie dazu beispielweise viermal wirft, müsste Wappen im Schnitt (!) zweimal oben liegen. In der Praxis könnte das aber auch viermal oder keinmal der Fall sein. Das Ergebnis (ein Prozentwert) schwankt also so stark, dass man keine sinnvollen Aussagen machen kann. Wirft man die Münze jedoch 1000 Mal, so wird man bei einer korrekten Münze relativ nahe an einen Anteil von 50 % herankommen. Je größer die Anzahl der Würfe (das entspricht der Größe einer Stichprobe), desto näher wird man im Schnitt dem „echten" Anteilswert kommen. Wenn man also z.B. bei 1000 Würfen 480 Mal Wappen oben hatte, kann man den so erzielten Wert von 48 % als Schätzung fur den echten, aber unbekannten (!) Wappenanteil der Münze werten. Man kennt den echten Wert also nicht genau, vermutet aber, dass er in der Nähe liegt. Die zentrale, relativ einleuchtende Idee besteht nun darin, dass man davon ausgehen kann, dass der echte (gesuchte) Wert zwar etwas von dem Ergebnis der Stichprobe abweichen wird, dass es aber unwahrscheinlich ist, dass die Abweichung extrem groß ist. Konkret wird man auch ohne genaue statistische Berechnungen annehmen können, dass man mit seiner Stichprobe im betrachteten Fall von 1000 Münzwürfen zwar um einige Prozentpunkte danebenliegen kann, es aber extrem unwahrscheinlich ist, dass der echte Wert z.B. unter 20 % oder über 80 % liegt. Genau das ist der Ansatz in der Statistik: Man versucht, einen Bereich zu finden, in dem der gesuchte Wert mit hoher Wahrscheinlichkeit liegt. Dieser Bereich wird Konfidenzintervall (oder auch „Vertrauensbereich") genannt. Als hohe Wahrscheinlichkeit wird meist 95 % angesehen, gelegentlich sind es auch 90 %, 99 % oder gar 99,9 %. Da das Konfidenzintervall (im hier betrachteten Normalfall) symmetrisch um den Anteilswert der Stichprobe herum liegt, kann man das Konfidenzintervall auch angeben als Schätzwert ± Fehler (angegeben in Prozentpunkten). Konkret gilt beim Schätzen von Anteilswerten (im Normalfall sowie einer vorgegebenen Wahrscheinlichkeit von 95 %) folgende Formel:
246
11 Besonderheiten bei Stichproben
absoluter Schätzfehler = 1,96 ·
•100%
η
Stichprobengröße (z.B. Anzahl der befragten Personen)
ρ
Anteilswert in Stichprobe (für z.B. 48 % gilt ρ = 0,48)
Für unser Beispiel mit η = 1000 Würfen der Münze und einem Anteil von ρ = 48 % Wappen gilt also:
Vi 0 0 0 - 1 •100% = 3,1% Konkret bedeutet das für das beschriebene Experiment: •
Der Schätzwert für den Anteil von Wappen liegt bei 48 %.
•
Es wird von einem Fehler von ± 3 , 1 Prozentpunkten ausgegangen.
•
Mit einer Wahrscheinlichkeit von 95 % liegt der gesuchte echte Wert damit zwischen 44,9 % und 51,1 %.
Das Ergebnis entspricht den Erwartungen. Der Wert von 50 %, den eine ideale Münze zeigen sollte, liegt im durch die Stichprobe ermittelten Bereich. Der tatsächliche Fehler ist mit 2 Prozentpunkten etwas geringer als der maximal angenommene Fehler von 3,1 Prozentpunkten. Um dem Leser umständliches Rechnen zu ersparen, gibt Tab. 11-1 die Fehler (in Prozentpunkten) für eine Vielzahl von Anteilswerten und einige übliche Stichprobengrößen an. Dazwischen liegende Werte können grob durch Interpolation angenähert werden. Das im Beispiel berechnete Ergebnis kann hier direkt für ρ = 48 (in der Zeile fur ρ = 50 nachschauen) und η = 1000 als 3,1 % abgelesen werden.
247
11.2 Genauigkeit von Schätzwerten Tab. 11-1: Hilfstabelle fur das Ermitteln des Schätzfehlers
Fehler beim Schätzen des Anteilswertes ρ in Prozentpunkten ρ in %
Stichprobenumfang 1000 1250 0,6 0,6 0,9 0,8 1,4 1,2
η 1500 0,5 0,7
1 2 5
0,9 1,2 1,9
1,1
2000 0,4 0,6 1,0
10 15 20 30 40
2,6 3,1 3,5 4,0 4,3
1,9 2,2 2,5 2,8 3,0
1,7 2,0 2,2 2,5 2,7
1,5 1,8 2,0 2,3 2,5
1,3 1,6 1,8 2,0 2,1
50 60 70 80 85
4,4 4,3 4,0 3,5 3,1
3,1 3,0 2,8 2,5 2,2
2,8 2,7 2,5 2,2 2,0
2,5 2,5 2,3 2,0 1,8
2,2 2,1 2,0 1,8 1,6
90 95 98 99
2,6 1,9 1,2 0,9
1,9 1,4 0,9 0,6
1,7 1,2 0,8 0,6
1,5 1,1 0,7 0,5
1,3 1,0 0,6 0,4
500
Quelle: eigene Berechnungen; gilt für 95%-Konfidenzintervall Dieses Wissen kann man auch ganz praktisch einsetzen, wenn man die Genauigkeit von Aussagen beurteilen will, die auf Stichprobenerhebungen basieren. Wenn also z.B. die Marketingabteilung nach der (hoffentlich repräsentativen) Befragung von 500 potenziellen Kunden für ein neues Produkt einen Marktanteil von 5 % prognostiziert, so ergibt sich für ρ = 5 % und η = 500 ein Schätzfehler von immerhin 1,9 %. Damit könnte der in der Marketingabteilung bestimmte Wert ebenso 6,9 % oder auch nur 3,1 % betragen (5 % ± 1,9 Prozentpunkte). Insgesamt gilt Folgendes (was man auch bei genauer Betrachtung der Tabelle entnehmen kann): •
Der Schätzfehler verringert sich mit zunehmender Stichprobengröße. Dies erfolgt aber nicht proportional, sondern mit der Wurzel (siehe Formel oben). Für eine Halbierung des Fehlers ist also eine Vervierfachung der Stichprobengröße erforderlich.
248
11 Besonderheiten bei Stichproben
•
Der absolute Fehler (angegeben in Prozentpunkten) ist bei einem Anteil von 50 % am größten und verringert sich (symmetrisch) mit der Veränderung in Richtung 0 % oder 100 %.
•
Der relative Fehler, also der Fehler im Verhältnis zum Anteil ρ (bzw. bei ρ > 50 % zur Differenz zu 100 %) nimmt jedoch deutlich zu. So beträgt der relative Fehler bei η = 1000 und einem (geschätzten) Anteilswert von 50 % nur 3,1 % / 50 % = 6,2 %, bei einem Anteilswert von 5 % macht der Schätzfehler von 1,4 Prozentpunkten immerhin 1,4 % / 5 % = 28 % relativen Fehler aus.
Die Ergebnisse dieser Überlegungen sowie der Gebrauch der Tabelle mit den Schätzfehlern seien hier noch an einem besonders häufig veröffentlichten Beispiel durchgespielt, nämlich an Umfragewerten für die Parteien. Beispiel 11.1: Das ZDF-Politbarometer befragt in der Regel jeweils etwa 1250 Personen. Nach Aussagen der Forschungsgruppe Wahlen, die diese Erhebung durchführt, beträgt der Fehler bei Parteien im Bereich von 40 % etwa 2,7 Prozentpunkte, bei Parteien mit etwa 7 % liegt der Fehler bei etwa 1,4 Prozentpunkten. Dies entspricht sehr gut den Werten, die man der Tabelle entnehmen kann. Die 2,7 % lassen sich direkt ablesen (p = 40 %, η = 1250), die 1,4 % liegen zwischen den Werten 1,2 % (für einen Anteilswert von ρ = 5 %) und 1,7 % (fur einen Anteilswert von ρ = 10 %) und dabei etwas näher an 1,2 %. Abschließend sei noch erwähnt, dass man natürlich auch für die Schätzung von Mittelwerten den zu erwartenden Fehler berechnen kann. Dies setzt jedoch einerseits umfangreichere Statistikkenntnisse voraus, als es der Zielsetzung dieses Buches entspricht, und andererseits Angaben, die man bei den üblichen Statistiken nicht mitgeliefert bekommt.
Literaturhinweise Darstellen von Statistiken Benesch, Thomas: Anschauliche und verständliche Graz; Neuer Wissenschaftlicher Verlag; 2005
Datenbeschreibung',
Wien /
Cleveland, William S.: Visualizing Data·, Summit - New Jersey; Hobart Press; 1993 Cleveland, William S.: The Elements of Graphing Data-, 2. Aufl.; Summit - New Jersey; Hobart Press; 1994 Geßler, Jürgen: Statistische Graphit, Basel / Boston / Berlin; Birkhäuser; 1993 Krämer, Walter: So überzeugt man mit Statistik; 10. Aufl.; Frankfurt a. M. / New York; Campus; 1994 Krämer, Walter: So lügt man mit Statistik', 11. Aufl.; München / Zürich; Piper; 2000 Riedwyl, Hans: Graphische Gestaltung von Zahlenmaterial·, 3. Aufl.; Bern / Stuttgart; Paul Haupt; 1987 Seitz, Michael: Tabellen - Tipps und Tricks zur Gestaltung von Tabellen-, Spektrum Bundesstatistik, Band 22; Wiesbaden; Statistisches Bundesamt; 2004 Tufte, Edward R.: The Visual Display of Quantitative Information·, Cheshire - Connecticut; Graphics Press; 1983 Wallgren, Anders et al.: Graphing Statistics & Data·, Newbury Park - California; Sage Publications; 1996
Einschlägige DIN-Normen DIN 1313
Größen
DIN 1333
Zahlenangaben
DIN 1338
Formelschreibweise
DIN 5477
Prozent, Promille; Begriffe,
DIN 53 804 Teil 1
Statistische Auswertungen; male
und Formelsatz Anwendung Messbare (kontinuierliche)
Merk-
250
Literaturhinweise
DIN 55 301
Gestaltung statistischer
Tabellen
DIN 55 350 Teil 23
Begriffe der Qualitätssicherung und Statistik; Begriffe Statistik; Beschreibende Statistik
der
Nachschlagewerke zur Statistik Bosch, Karl: Statistik-Taschenbuch;
3. Aufl.; München / Wien; Oldenbourg; 1998
Rinne, Horst: Taschenbuch der Statistik; 4. Aufl.; Frankfurt a. M.; Harri Deutsch; 2008 Sauerbier, Thomas / Voß, Werner: Kleine Formelsammlung Statistik·, 4. Aufl.; München / Wien; Fachbuchverlag Leipzig im Carl Hanser Verlag; 2009 Statistisches Bundesamt: Statistisches Jahrbuch fiir die Bundesrepublik Deutschland; erscheint jährlich; seit 2006 als kostenloser PDF-Download unter www.destatis.de Voß, Werner [Hrsg.]: Taschenbuch der Statistik; 2. Aufl.; München / Wien; Fachbuchverlag Leipzig im Carl Hanser Verlag; 2004
Stichwortverzeichnis 100%-Säulen-Diagramm · 79 3 3D-Darstellung · 109 3D-Säulen-Feld · 82 A Absolutskala · 12 Alterspyramide · 159 Anteil · 200 area chart · 69 Aufgliederung · 29 Ausgliederung · 29 Β Balken-Diagramm · 40, 42 bar chart -39, 41, 48 BCG-Matrix · 94 Beschriftungen -113 Bestand · 16 Bestandsmasse · 16, 164 Blasen-Diagramm · 93 Box-and-Whisker-Plot · 238 Box-PIot · 238 bubble chart · 96 C circle graph · 56 clustered bar chart • 77 clustered column chart • 75 column chart · 39 Cost-Average-Effekt • 231
D
Dezil · 236 divided bar chart · 80, 81
doughnut (donut) chart · 58 Durchschnitt -213 Durchschnittsgeschwindigkeit · 231 Ε Ereignis · 16 Ereignismasse · 16, 164 Excel · 6
Farbe · 55, 106 Flächen-Diagramm · 67 Flügelklasse • 139 frequency polygon · 71 G Gittemetzlinien · 35, 99, 105 gleitende Durchschnitte · 172 Graustufen · 108 Größen-Achse · 98 grouped bar chart · 75, 77 Grundgesamtheit · 10 Gruppenbalken-Diagramm · 76 Gruppensäulen-Diagramm · 72 Gruppierung · 125 Ii Halbring-Diagramm · 58 Hardcopy · 7 Häufigkeitsdichte-Kurve · 69 Häufigkeits-Polygon · 69 Häufigster Wert -214 Hintergrund des Diagramms -114 Histogramm · 49, 69 Hochrechnung · 170, 211, 243 Höhen/Breiten-Verhältnis -115
Stichwortverzeichnis
252
Intervallskala · 12
Jahreszahlen · 105 Κ Kalenderunregelmäßigkeit • 170 Klasse· 137 Klassenbildung · 136 Klassenbreite -138 Klassengrenze -137 Klassenmitte -138 Klassierung • 137 Klassifizierung · 137 Komponentensäulen-Diagramm • 80 Konfidenzintervall • 245 Konjunktur · 170 Kontingenztabelle · 33 Kreis-Diagramm · 53 zweistufiges · 62 Kreuztabelle • 33 Kuchen-Diagramm · 53 kumulierte Darstellung • 134 Kurven-Diagramm • 64 L Lageparameter • 214, 235 Legende · 55, 105, 106 line chart • 66 Linien-Diagramm · 64 logarithmische Skalierung · 104 Μ Matrix-Formel • 228 Maximum · 235 McKinsey-Matrix · 94 Median -217 Merkmal · 9, 10 dichotomes · 11, 123 diskretes · 14 häufbares · 37 kardinales · Siehe Merkmal, metrisches metrisches • 12, 136 nominales · 11, 123 ordinales · 11, 132 qualitatives · 13
quantitatives · 13 quasi-stetiges · 15 stetiges • 15 Merkmals-Achse · 105 Merkmalsausprägung · 9, 11 Merkmalsausprägungen Anordnung · 127 Reihenfolge · 36 metrische Skala • 12 Minimum · 235 Mittel arithmetisches · 223 geometrisches · 226 harmonisches · 229 Mittelwert · 222 Modalwert· 214 Modus -214 Ν Nachkommastellen · 20 Nominalskala • 11 Ο Ogive · 71 Ordinalskala · 11 Ρ Paarbalken-Diagramm · 84 Paar-Histogramm · 86 Pareto-Diagramm · 42 Perzentil • 236 pie chart · 56 Piktogramm-Menge • 44 Pivot-Tabelle • 33 Powerpoint · 7 Promille · 200 Prozentpunkt · 206 Prozentwert • 199 Punkt-Diagramm · 87, 92
Q Quantil · 236 Quartil · 236 Quellenangabe · 27, 96 Quote · 200
Stichwortverzeichnis R Randklasse, offene · 139 Rangfolge · 42, 120 Regressionsfunktion · 89 Ring-Diagramm · 57 rod chart · 48 Rubriken-Achse · 105 Rundung -138
S Saison · 170 Saisonabhängigkeit· 18 saisonalen Schwankungen · 165 Säulen-Diagramm · 34, 42, 52 scatter chart · 92 Schätzfehler • 245 Schätzwert · 244 Schraffur · 108 Schwarz-Weiß-Darstellung · 108 Schwebebalken · 239 Schwebesäule · 239 Skalenarten · 11 Spannweite · 236 Spiegel-Diagramm · 86 Stab-Diagramm · 46 stacked bar • 61 stacked bar chart · 80, 81 stacked column chart · 80 Standardabweichung · 237 Stapelbalken-Diagramm · 81 Stapelsäule · 60, 63 normierte · 79 Stapelsäulen-Diagramm · 77 statistische Einheiten · 10 Stichprobe · 210, 243 Streu-Diagramm · 87 Streuung · 235 Streuungsparameter · 235, 236 Summenhäufigkeits-Polygon · 71 Τ Tabelle · 24 Fußnoten · 28 Kopf· 25 Layout · 30 Rundungsfehler · 30
253 Summenzeile • 29 Titel · 25 Untertitel · 25 Tabellenfach · 27 Tabellenfeld · Siehe Tabellenfach Tabellenkopf · 28 Titel · 96 Tornado-Diagramm · 86 Torten-Diagramm · 53 Trend· 170 Trendlinie · 89, 177 U Untertitel · 96 V Varianz · 237 Vektor-Grafik · 7 Verhältnisskala · 12 Verteilung bivariate · Siehe Verteilung, zweidimensionale eindimensionale · 15, 123 mehrdimensionale · 16 multivariate · Siehe Verteilung, mehrdimensionale univariate · Siehe Verteilung, eindimensionale zweidimensionale · 15, 147 Vorspalte · 25, 29
W Wachstumsfaktor • 227 Wachstumsrate -191 durchschnittliche · 227 Währungsangaben, Umrechnung · 23 Word · 7 X X-Achse • 105, 165 Y Y-Achse · 98 mit zwei Skalen · 184
254 Ζ Zahlen Abkürzungen · 21 Formatierung • 19 Zahlenangaben, Genauigkeit • 22 Zahlwort · 21
Stichwortverzeichnis Zeitachse · 165 Zeitreihe -161 Glättung · 170 normierte · 186 Zentralwert -217 Zergliederung • 29
Moderne BWL Iiis Heririer Schierenbeck, C l a u d i a B. W ö h l e
GTundzüge der Betriebswirtschaftslehre Grondzüge der Betriebswirtschaftslehre
SSSs
17., völlig überarbeitete und aktualisierte Auflage 2008 | 935 S. | gebunden € 29,80 I ISBN 978-3-486-58772-2 Das Wissen um betriebswirtschaftliche Grundtatbestände ist eine notwendige Voraussetzung für jeden, der in Betrieben an verantwortlicher Stelle tätig ist oder sich als Studierender auf eine solche Tätigkeit vorbereitet. Dabei kommt es häufig nicht so sehr auf ein spezifisches Detailwissen, als vielmehr auf die Fähigkeit an, betriebswirtschaftliche Zusammenhänge konzeptionell zu erfassen und betriebliche Probleme in ihrem spezifisch ökonomischen Wesenskern zu begreifen. Aufbau und Inhalt des Lehrbuches sind von dieser Grundüberlegung geprägt.
\ 'iä
SfeäSSää
8§§gS
Ebenfalls erhältlich ist die Dozentenausgabe mit CD-ROM für € 39,80. Das Buch richtet sich an Studierende der Betriebswirtschaftslehre sowie an Teilnehmer anderer wirtschaftsnaher Studiengänge. Prof. Dr. Dres.h.c. Henner Schierenbeck lehrt am Institut für Betriebswirtschaftslehre an der Universität Basel. Univ.-Prof. Dr. Claudia B. Wöhle lehrt Betriebswirtschaftslehre an der Paris Lodron-Universität Salzburg.
bC