Deskriptive und Explorative Datenanalyse [Reprint 2018 ed.] 9783486785562, 9783486227864

Der Trend in der Statistik heißt Renaissance der datenorientierten Betrachtungsweise. Hierzu das aktuelle Statistik-Lehr

227 35 31MB

German Pages 449 [452] Year 1993

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Vorwort
Inhaltsverzeichnis
1. Einführung
2. Durchführung einer Untersuchung
3. Graphische Darstellungen univariater Daten
4. Maßzahlen univariater Verteilungen
5. Transformation von Daten
6. Graphische Darstellungen multivariater Daten
7. Lage, Streuung und Zusammenhangsanalyse multivariater Daten
8. Korrelationsanalyse
9. Weitere Verfahren der Regression
10. Zeitreihenanalyse
Literaturverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Index
Recommend Papers

Deskriptive und Explorative Datenanalyse [Reprint 2018 ed.]
 9783486785562, 9783486227864

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen

Deskriptive und Explorative

Datenanalyse Von

Univ.-Prof. Dr. Siegfried Heiler und

Dr. Paul Michels

R. Oldenbourg Verlag München Wien

Anschrift der Verfasser: Prof. Dr. Siegfried Heiler Fakultät für Wirtschaftswissenschaften und Statistik Universität Konstanz, Postfach 5560, D-7750 Konstanz Dr. Paul Michels A. C. Nielsen Marketing Research GmbH, Ludwig-Landmann-Str. 405, D-60486 Frankfurt/Main

Die Deutsche Bibliothek — CIP-Einheitsaufnahme Heiler, Siegfried: Deskriptive und Explorative Datenanalyse / von Siegfried Heiler und Paul Michels. - München ;Wien : Oldenbourg, 1994 (Lehr- und Handbücher der Statistik) ISBN 3-486-22786-6 NE: Michels,Paul:

© 1994 R. Oldenbourg Verlag GmbH, München Das Werk außerhalb lässig und filmungen

einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzustrafbar. Das gilt insbesondere fur Vervielfältigungen, Übersetzungen, Mikroverund die Einspeicherung und Bearbeitung in elektronischen Systemen.

Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München

ISBN 3-486-22786-6

Vorwort Es ist schon immer, seit praktische Statistik betrieben wird, üblich gewesen, statistische Daten durch geeignete graphische Darstellungen zu veranschaulichen, in Tabellen zu verdichten und schließlich durch einfache Kenngrößen zu charakterisieren. Dies gehört zu dem Aufgabenbereich der deskriptiven Statistik. Durch die Verdichtung des D a t e n m a t e r i a l s wird ein Verlust an Einzelinformation in Kauf genommen zugunsten eines Gewinns an Aussagekraft.

W ä h r e n d für lange Zeit, ausgehend von der englischen Schule, die am Wahrscheinlichkeitsmodell orientierte mathematische Statistik das Bild unseres Faches geprägt h a t , stellt m a n , etwa zu Beginn der 60er Jahre, eine Renaissance der datenorientierten Betrachtungs- und Vorgehensweise fest. Als richtungsweisend wird in diesem Z u s a m m e n h a n g gern ein Artikel von John Wilder Tukey aus dem J a h r e 1962 genannt mit dem Titel " T h e Future of D a t a Analysis". Zum Aufgabengebiet der deskriptiven Statistik, nämlich der Zusammenfassung, der Konzentration und Präsentation von Daten, k o m m t das Ziel hinzu, in den Daten vorhandene (häufig versteckte) Strukturen und etwaige Auffälligkeiten, Anomalien, aufzudecken. Dazu wird das Bündel der zur Verfügung stehenden Methoden in vielfältiger Weise erweitert.

Eine wesentliche Rolle spielt dabei die ständig wachsende Einsatzmöglichkeit immer

leistungsfähiger werdender C o m p u t e r .

Sie erlaubt früher unmöglich gewesene Kalküle mit

hohem Komplexitätsgrad durchzuführen und eröffnet, was vielleicht noch interessanter ist, der graphischen Analyse und Darstellung neue Wege.

Diese Renaissance der Datenanalyse wird geprägt durch John W . Tukey in den USA und J.P. Benzecri in Frankreich. Das erste Buch auf diesem Gebiet war die 1971 erschienene erste vorläufige Version der "Exploratory D a t a Analysis" von J . W . Tukey. Die endgültige Fassung

VI

VORWORT

ist 1977 erschienen. Das für den französischen Bereich grundlegende Werk "L'Analyse des Données" von J.-P. Benzécri et collaborateurs kam 1973 heraus. Es besteht aus den beiden Bänden "La Taxonomie Numérique" und "L'Analyse des Correspondences".

Die Feststellung, daß die Schwerpunkte der amerikanischen und der französischen Richtung verschieden sind, dürfte nicht überraschen. Zu den Schwerpunkten der Analyse des Données gehören die Clusteranalyse, die Hauptkomponenten- und die Faktorenanalyse, die Korrespondenzanalyse und die automatische Klassifikation. Diese Aspekte werden in dem vorliegenden Buch nicht behandelt mit Ausnahme der Hauptkomponentenanalyse, auf die im Zusammenhang mit der Diskussion der Streuung multivariater Daten eingegangen wird.

Die Einstellung der Amerikaner wird reflektiert in einer Umschreibung, die David Andrews in einer Enzyklopädie gegeben hat: Explorative Datenanalyse ist die Bearbeitung, Zusammenfassung und Darstellung von Daten, um sie dem menschlichen Verständnis zugänglicher zu machen. Auf diese Weise sollen vorhandene Strukturen in den Daten und bedeutsame Abweichungen von diesen Strukturen aufgedeckt werden.

Obwohl gewisse methodische Entwicklungen eine bedeutsame Rolle spielen, kann die EDA nicht als eine Methodensammlung verstanden werden. Es ist vielmehr eine Einstellung und eine Flexibilität im Umgang mit den Daten. So können bestimmte Verfahren sowohl in der explorativen als auch in der konfirmatorischen (d.h.

klassich mathematisch-statistischen)

Analyse Anwendung finden. Verschieden ist dann lediglich die Art der Interpretation der Ergebnisse.

Im Gegensatz zur schließenden Statistik (der konfirmatorischen Datenanalyse CDA), baut die EDA nicht auf einem vorher formulierten Wahrscheinlichkeitsmodell auf, in dem Annahmen gemacht und Hypothesen formuliert werden. Die EDA beginnt vielmehr mit einem Studium der Daten. Werden dabei nichttriviale Strukturen gefunden, so kann man versuchen, diese durch ein statistisches Modell zu beschreiben. Dabei sollten jedoch stark einschränkende Modellannahmen vermieden werden. Deshalb ist die Anwendung robuster (Ausreißer-resistenter) Schätzverfahren geboten.

VORWORT

VII

Typisch für konfirmatorische Datenanalyse ist das Schema der testenden Statistik. Danach steht am Anfang eine Hypothese.

Zu deren U b e r p r ü f u n g wird - etwa über einen geeig-

neten Versuchsplan - eine Zufallsstichprobe durchgeführt, und darauf wird dann ein Test angewandt.

Das Ergebnis ist eine Aussage. In der Praxis ist die Situation meist nicht so

einfach. "Hypothesen fallen nicht vom Himmel" (Victor). Häufig entstehen Fragen aus der Beschäftigung mit Daten. Und Fragestellungen, die aus wissenschaftlichen oder praktischen Problemen entstehen, sind im allgemeinen so vage, daß sie sich nicht direkt in ein präzises Wahrscheinlichkeitsmodell umsetzen lassen, wie es die Anwendung eines Tests erfordert.

"Finding the question is often more i m p o r t a n t t h a n finding the answer", lautet einer der m a r k a n t e n Sätze von J . W . Tukey. Explorative Verfahren geben durch die Suche nach Auffälligkeiten Anstöße zur Bildung von Hypothesen und Modellen und sie helfen bei der Präzisierung der Fragestellung im Sinne eines statistischen Tests.

Das Buch ist entstanden aus Unterlagen zu einer Lehrveranstaltung Statistik I, die in Konstanz für Studenten der Volkwirtschaftslehre und der Verwaltungswissenschaft regelmäßig angeboten wird.

Ein wesentliches Anliegen bei diesen Veranstaltungen bestand darin, die

Studenten auch mit einigen der Gedanken, Konzepten und Verfahren vertraut zu machen, die in der explorativen Datenanalyse e n t s t a n d e n sind und das I n s t r u m e n t a r i u m der deskriptiven Statistik beträchtlich erweitert haben. Der Stoff wurde erweitert um einige Aspekte, die wegen zeitlicher Restriktionen keinen Platz in den Lehrveranstaltungen finden konnten. Dazu kamen weiterführende Ergänzungen zu einigen der angesprochenen Analyseverfahren. Soweit das Verständnis solcher Ergänzungen an etwas tieferliegende m a t h e m a t i s c h e Vorkenntnisse geknüpft ist, wurden die entsprechenden Abschnitte mit drei Sternen gekennzeichnet.

Sie

können bei einem ersten Durcharbeiten des Stoffes überschlagen werden. Allerdings gehen die für das Verständnis notwendigen Anforderungen an keiner Stelle über gewisse Kenntnisse der linearen Algebra, insbesondere des Vektor- und Matrizenkalküls, hinaus. Außerdem sollen die überall eingestreuten und durchgerechneten Beispiele aus verschiedenen Anwendungsbereichen das Verständnis des Stoffes erleichtern und zum Selbststudium anregen.

VIII

VORWORT

Die breite Streuung der Beispiele bringt zum Ausdruck, daß die vorgestellten Methoden in den unterschiedlichsten Anwendungsbereichen und Fachrichtungen einsetzbar sind. So werden Datensätze aus den Bereichen Demographie, Geschichte, Hydrologie, Kriminologie, Landwirtschaft, Marketing, Medizin, Meteorologie, Sozialwissenschaften, Technik, Wirtschaftswissenschaften und der Umweltforschung verwendet und analysiert.

Wir danken allen Mitarbeitern der Fachgruppe Statistik in Konstanz, die in unterschiedlicher Weise zur Fertigstellung dieses Buches beigetragen haben. Für die Erstellung wesentlicher Teile der Textvorlage in M g X danken wir Jeanette Blings, Cristina Fernández de Geiselhart, Katharina Kohn und insbesondere Sonja Schneider, die auch die Koordination und Zusammenstellung übernommen hat. Natürlich sind wir für alle enthaltenen Fehler selbst verantwortlich.

Siegfried Heiler Paul Michels

Inhaltsverzeichnis

1

2

3

4

Einführung

1

1.1

Was ist Statistik?

1

1.2

Zur Geschichte der Statistik

3

1.3

Statistische Institutionen in Deutschland

10

Durchführung einer Untersuchung

19

2.1

Statistische Grundbegriffe

19

2.2

Datenerhebung

24

2.3

Aufbereitung des erhobenen Datenmaterials

27

Graphische Darstellungen univariater D a t e n

33

3.1

Klassische Methoden graphischer Darstellung

34

3.2

Kerndichteschätzung

54

3.3

Stamm-Blätter-Darstellungen (Stem-and-Leaf-Displays)

63

3.4

*** Regeln zur Wahl von Klassen und Bandbreiten

73

Maßzahlen univariater Verteilungen

85

x

5

6

7

INHALTSVERZEICHNIS 4.1

Lagemaße

85

4.2

Streuungsmaße

104

4.3

Schiefe und Wölbung

116

4.4

Box-Plots

129

4.5

Konzentration

146

Transformation von Daten

157

5.1

Transformationen zur Erhöhung der Interpretierbarkeit

158

5.2

Potenztransformationen

159

5.3

Transformationen zur Erhöhung der Symmetrie

163

5.4

Stabilisierung der Varianz mehrerer Datensätze

167

5.5

Angepaßte Transformationen (Matched Transformations)

171

5.6

*** Herleitungen von Transformationsplots

173

5.7

Abschließende Bemerkungen

175

G r a p h i s c h e D a r s t e l l u n g e n multivariater D a t e n

177

6.1

Multivariate Häufigkeitsverteilungen

177

6.2

Graphische Darstellungen multivariater Daten

185

6.3

Darstellung höherdimensionaler Daten (p > 2)

199

Lage, Streuung und Zusammenhangsanalyse multivariater D a t e n

215

7.1

Lagemaße

215

7.2

Streuungsmaße

222

INHALTSVERZEICHNIS

8

9

XI

7.3

Das Ordnen multivariater Daten

231

7.4

*** Weitere Lage-, Streuungs-, sowie Schiefe- und Wölbungsmaße

242

7.5

Einführung in die Regression

244

Korrelationsanalyse

255

8.1

Zusammenhänge in metrisch skalierten Daten

255

8.2

Zusammenhänge in ordinal skalierten Daten

261

8.3

Zusammenhänge in nominal skalierten Daten

274

W e i t e r e V e r f a h r e n der R e g r e s s i o n

283

9.1

Lineare Einfachregression

283

9.2

Transformation auf Linearität

303

9.3

Glättungsverfahren bei nichtlinearen Zusammenhängen

312

9.4

Lokal gewichtete Regression

316

9.5

Modellbildung

320

10 Z e i t r e i h e n a n a l y s e

331

10.1 Trendermittlung

333

10.2 Kernglättung und gleitende Durchschnitte

342

10.3 Konstruktion gleitender Durchschnitte

347

10.4 Behandlung von Saisonschwankungen

354

10.5

Gleitende Durchschnitte mit lokal gewichteter Regression

364

10.6

Resistente Glättungsverfahren

371

XII

INHALTSVERZEICHNIS 10.7 Vorhersage

375

Literaturverzeichnis

307

Abbildungsverzeichnis

407

Tabellenverzeichnis

415

Index

423

Kapitel 1

Einführung 1.1

Was ist Statistik?

Dem Wort "Statistik'1'' werden mehrere Bedeutungen zugeordnet. Zum einen versteht man darunter Tabellen, Graphiken, Zahlenkolonnen, Schaubilder oder daraus gewonnene Kenngrößen wie Mittelwerte oder relative Häufigkeiten. Manchmal verbindet man auch den (amtlichen) A p p a r a t zur Erhebung und Dokumentation von Daten mit diesem Begriff. Zum anderen ist Statistik eine "wissenschaftliche Disziplin, deren Gegenstand die Entwicklung und Anwendung formaler Methoden zur Gewinnung, Beschreibung und Analyse sowie zur Beurteilung quantitativer Beobachtungen ( D a t e n ) ist" (Vogel, 1991). Als solche ist Statistik eine wissenschaftliche Methode zur Vorbereitung von Entscheidungen bei Unsicherheit. Unsicherheit birgt stets das Problem von Fehlentscheidungen in sich. Oft lassen Daten auch unterschiedliche Interpretationen zu. Beides hat dazu g e f ü h r t , daß die Disziplin Statistik gelegentlich in Mißkredit geraten ist. Hier nur eine kleine Auswahl aus einer großen Fülle kritischer, häufig ironischer Bemerkungen:

In der alten Zeit gab es keine Statistik, und daher mußten die Leute lügen. So ist denn die alte Literatur voll von gewaltigen Übertreibungen — es wimmelt nur so von Riesen und Wundern! Damals log m a n also, aber heute hat m a n die Statistik dafür; somit ist alles beim alten geblieben. Trau keiner Statistik, die du nicht selbst gefälscht hast.

(Stephen Leacock)

2

KAPITEL

1.

EINFÜHRUNG

Es gibt drei Arten von Lügen: Notlügen, gemeine Lügen — und dann noch die Statistik.

(Disraeli)

Statistik kann nicht das auf Unsicherheit beruhende Risiko von Fehlentscheidungen ausschalten. Aber sie macht es kalkulierbar. Die Statistik befaßt sich nicht mit

Einzelphänomenen

oder Individuen. Sie trifft deshalb auch keine Aussagen f ü r einzelne Sachverhalte, sondern hat stets ein Gesamtbild

im Auge. In dieses Gesamtbild gehen von den Individuen nur einige

wenige Charakteristika (ihre statistischen " S c h a t t e n " ) ein. Häufig wurde die Statistik auch als Lehre von der Analyse von Massenerscheinungen

bezeichnet. Der mit dem Wort Masse

suggerierte Eindruck ist jedoch falsch. Wir sind es heute durchaus gewohnt, aus Stichproben relativ kleinen Umfangs allgemeine, weitreichende Schlüsse zu ziehen. Die wissenschaftliche Disziplin Statistik wird häufig in die zwei Teilgebiete " D e s k r i p t i v e Statistik" und "Schließende

Statistik"

unterteilt, welche an Fachbereichen deutscher Universitäten

in getrennten Vorlesungen behandelt werden. Aufgabe der deskriptiven Statistik ist die Aufbereitung m i t u n t e r umfangreichen Datenmaterials. Dazu zählt vor allem die graphische Darstellung und die Charakterisierung der Daten durch einige wenige Kenngrößen. Ihre Aussagen beschränken sich auf den untersuchten Datensatz selbst; Schlüsse über die vorliegenden Daten hinaus sind nicht beabsichtigt. Die schließende Statistik bedient sich hingegen formaler (mathematischer) Modellvorstellungen. Das Vorliegen unkontrollierbarer Einflüsse f ü h r t d a n n zu sogenannten stochastischen (d.h. auf der Wahrscheinlichkeitstheorie aufbauenden) Modellen. Innerhalb dieser ist es möglich, Rückschlüsse von einer zufällig ausgewählten Teilmenge auf die G e s a m t h e i t , aus der diese entnommen wurde, zu ziehen.

Nachdem in Anwendung

und Wissenschaft lange Zeit ein vorrangiges Interesse an der schließenden Statistik mit Hilfe von wahrscheinlichkeitstheoretischen Modellen b e s t a n d , rückten Ende der siebziger J a h r e vor allem die Arbeiten von John W. Tukey den datenanalytischen Aspekt der Statistik ins Bewußtsein. Tukeys "Explorative Datenanalyse

(EDA)"

stellt ein modernes, vielfältiges In-

s t r u m e n t a r i u m zur Erkennung und Darstellung von Strukuren in den Daten dar. Neben der Behandlung der klassischen Methoden der deskriptiven Statistik wird daher in diesem Buch besonderer Wert auf diesen datenanalytischen Aspekt gelegt.

1.2.

1.2

ZUR GESCHICHTE

DER

3

STATISTIK

Zur Geschichte der Statistik

Die Statistik in der heutigen Form ist aus vier historischen Wurzeln entstanden.

I. Amtliche Erhebungen Schon im frühen Altertum wurden amtliche Erhebungen als Volkszählungen und andere Registrierungen durchgeführt. Sie dienten vorwiegend militärischen und steuerlichen Zwecken. Als eine erste Quelle wird gern ein ägyptischer Gedenkstein e r w ä h n t , dessen Entstehung auf den Z e i t r a u m um 2600 v. Chr. datiert. Er enthält Bevölkerungszahlen und ist so Zeugnis einer E r h e b u n g , die, so vermutet m a n , der Organisation des P y r a m i d e n b a u s diente. Kung-Fu-Tse (Konfuzius), 552 - 479 v. Chr., der ältere schriftliche Überlieferungen sammelte, berichtet, daß in der Yang-Schao-Kultur am Hoang-Ho neben dem Volk auch G r u n d und Boden sowie Gewerbe und Handel erfaßt wurden. Im 2. Buch Samuel, 34, ist die Zählung der wehrfähigen Männer Israels durch König David erwähnt. bestraft.")

("Schon auf dieser Zählung lastete ein Fluch, und David wurde dafür von G o t t Der römische Kaiser Servius Tullius verfügte um 550 v.

Chr.

einen Zensus

(Volkszählung), der ab 433 periodisch, erst in 5-, dann in 10- und schließlich in 15-jährigem A b s t a n d durchgeführt wurde, insgesamt 69 mal. Dokumentationen dazu sind im "Brevarium Augusti" von Kaiser Augustus (63 v. Chr. - 14 n. Chr.) angelegt und später fortgeführt worden. Die Weihnachtsgeschichte in der Bibel berichtet bekanntlich von so einer Volkszählung. Karl der Große (768 - 814) ordnete eine B e s t a n d s a u f n a h m e all seiner G ü t e r , Domänen, etc. an, in der vielen bis ins kleinste Detail dokumentiert wurde. Wilhelm der Eroberer (1027 1087) ließ das Domesday

Book anlegen, in dem die Ergebnisse einer 1086 durchgeführten Er-

h e b u n g von Land und Bevölkerung aufgezeichnet sind. Dieses "Buch des jüngsten Gerichts" wird auch als Grundkataster des Okzidents bezeichnet. Gegen Ende 19. J a h r h u n d e r t s erfolgte die G r ü n d u n g der ersten nationalen statistischen Ämter. In Deutschland entstanden:

1 8 0 5 das Statistische Bureau in Preussen 1 8 3 4 das Statistische Centraibureau des Deutschen Zollvereins und 1 8 7 1 das Kaiserliche Statistische Reichsamt (in diesem J a h r wurde auch bereits die erste deutsche Volkszählung d u r c h g e f ü h r t )

4

KAPITEL

1.

EINFÜHRUNG

II. Die deutsche Universitäts- oder Kathederstatistik Als älteste Wurzel der Statistik als Wissenschaft kann die (deutsche) thederstatistik

Universitäts-

oder Ka-

im 17. und 18. Jahrhundert angesehen werden. Statistik wurde als Lehre

von den Staatsmerkwürdigkeiten ("merkwürdig" im Sinne von "bemerkenswert") verstanden. Gesammelte Informationen zur Beschreibung der geographischen Gegebenheiten, der Bevölkerung, der Verfassung, der Wirtschaft, der Verwaltung und des Militärs wurden für einen einzelnen Staat oder für den Vergleich mehrerer Staaten zusammengefaßt. Vorgänger dieser Richtung sind

• die Politiken

des Aristoteles

(384-332 v. Chr.),

• das 1562 in Venedig erschienene Buch "Del governo et administratione di diversi regai" von Francesco Sansovino

(1521 - 1586), das auf Reisebeschreibungen von Privatleuten

und Gesandtenberichten beruht, • Arbeiten von Giovanni

Botero (1540 - 1617), der die "vergleichende Methode" verwen-

det, sowie • eine Schriftenreihe mit 36 Bänden des Direktors der holländisch-westindischen Kompanie, Jan de Laet (1583 - 1649).

Die deutsche Universitäts- und Katheterstatistik wurde vom 1656 erschienenen Buch "Teutscher Fürstenstaat" von dem seinerzeit berühmten Historiker und Staatsmann Veit

Ludwig

von Seckendorff

Staats-

(1626 - 1692) geprägt. Daraus entwickelte sich die Lehre von den

merkwürdigkeiten.

Erster Lehrer dieses Faches war Hermann

Conring (1606 - 1681), Profes-

sor für Philosophie, Medizin und Politik in Helmstedt. Seine säamtlichen Schriften sind in Lateinisch und rein verbal gehalten. Die Vorlesung " Collegium politico-statisticum" tin Schmeitzel

von Mar-

(1679 - 1747), Professor in Jena und Halle, hat den Namen Statistik

und Gottfried Achenwall

geprägt

(1719 - 1772), seinen Schüler, zur ersten in deutsch gehaltenen Ver-

anstaltung über Staatenkunde mit dem Titel "Statistik" an der Universität Göttingen (1747) angeregt. In seinem 1749 erschienenen Werk " A b r i ß der Staatswissenschaft

der

Europäischen

Reiche''' wird alles "Bemerkenswerte" in den gegenwärtigen Zuständen des Territoriums, der Bevölkerung und der Verwaltung eines Landes beschrieben. Sein Nachfolger August von Schlözer (1735 - 1809) gilt als Vater der deutschen Publizistik.

Ludwig

1.2.

ZUR GESCHICHTE

DER

STATISTIK

5

Mit der Ausdehnung der amtlichen Statistik wurden zur Darstellung immer mehr Tabellen herangezogen.

Die Vertreter dieser, von der aus England kommenden Politischen

Arith-

metik beeinflußten Richtung wurden von den Anhängern Achenwalls als "Tabellenknechte" beschimpft, die nur "gemeine" s t a t t "höhere" Statistik betrieben und die idealen Faktoren in einem Staatswesen übersahen.

"Die ganze Wissenschaft der Statistik, eine der edelsten, ist durch die politischen Arithmetiker um alles Leben, um allen Geist gebracht und zu einem Skelett, zu einem wahren Kadaver herabgewürdigt, auf das man nicht ohne Widerwillen blicken kann."

Carl Gustav

Adolph

(Göttingische gelehrte Anzeigen 1806, S. 84)

Knies (1821 - 1898) zieht 1850 einen Schlußstrich unter die deutsche

Universitätsstatistik, indem er jener Richtung den Namen Statistik zuerkennt, die auf Beobachtung beruhende Zahlenangaben zu mathematisch fundierten Schlüssen verwendet.

III. Die politische Arithmetik W ä h r e n d die deutschen Universitätsstatistiker gesammelte Daten nur zur Beschreibung ben u t z t e n , dienten sie den politischen Arithmetikern als Grundlage f ü r Analysen. Sie suchten nach Gesetzmäßigkeiten in den bevölkerungs- und sozialstatistischen D a t e n . Die parallel zur deutschen Universitätsstatistik verlaufende Entwicklung der politischen

Arithmetik,

die ihren

U r s p r u n g in England h a t t e , war durch die folgende Arbeiten gekennzeichnet:

1662 ging der Royal Society of London die Schrift " N a t u r a l and political the bills of mortality,

chiefly with reference

air, deseases etc. of the City of London"

to the government,

observations

religion, trade,

upon growth,

von Captain John Graunt zu, deren Aussagen

auf den Geburts- und Sterbelisten Londons seit 1603 beruhten. Hier wurden zum ersten Mal aus Daten allgemeine Schlüsse gezogen. 1693 erschien ein Werk des Astronomen Edmund

Halley (1656 - 1742), das die erste vollständi-

ge Sterbetafel — ermittelt a n h a n d der Kirchenbücher der S t a d t Breslau — und daraus resultierende Prämienberechnungen für Lebensversicherungen enthielt. Die Daten s t a m m -

6

KAPITEL ten von dem Breslauer Pastor Kaspar Neumann,

1.

EINFÜHRUNG

der Aufzeichnungen aus Kirchenbüchern

sammelte. Den Namen erhielt die neue Richtung von William

Petty (1623 - 1687), einem Freund

G r a u n t s , der wirtschaftliche Aspekte in seinen " E s s a y s in Political Arithmetic" zog. Den Höhepunkt erreichte sie durch Thomas

Robert Malthus

einbe-

(1766 - 1834), des-

sen "Gesetze" über die Zunahme der Bevölkerung und der Nahrungsmittelproduktion b e r ü h m t geworden sind.

Inzwischen h a t t e sich die politische Arithmetik über Belgien, Holland, Frankreich, Schweden verbreitet und erst relativ spät, wegen der dort herrschenden Universitätsstatistik, Deutschland erreicht. Erster deutscher Vertreter war der P a s t o r und Dozent Kaspar Neumann

(1648

- 1715), der auf Vorschlag von Leibniz 1706 als einer der ersten zum Mitglied der neugegründeten Akademie der Wissenschaften in Berlin gewählt wurde. Wichtigster deutscher Vertreter wurde der preussische Feldprediger Johann nem Werk " D i e göttliche

Ordnung

Peter Süßmilch

in den Veränderungen

der Geburt, dem Tode und der Fortpflanzung

(1707 - 1767) mit sei-

des menschlichen

desselben erwiesen"

Geschlechts,

aus

(1741). Der Titel gibt am

besten A u s k u n f t über die Intention dieser Richtung. Ihre stärkste Ausprägung, aber auch ihre größte Übertreibung erfuhr die Politische Arithmetik durch den Belgier Lambert phe Jacob Quetelet

Adol-

(1796 - 1874), der die erste Volkszählung nach heutigem Muster 1846 in

Belgien organisierte. Auf seiner Suche nach Gesetzmäßigkeiten in sozialstatistischen Daten glaubte er, der Physik ähnliche Naturgesetze gefunden zu haben und entwickelte in seinem Werk "Sur l'homme et ledeveloppement de ses facultes ou essai de physique sociale" (erstmals 1835 in Paris erschienen) die Lehre vom homme

moyen als Ideal, das sämtliche Merkmale in

mittlerer Ausprägung aufweist.

I V . D i e Wahrscheinlichkeitstheorie Von größter Bedeutung für den Aufschwung der Statistik im 19. und 20. J a h r h u n d e r t war die Entwicklung der Wahrscheinlichkeitstheorie,

die aus der Chancenberechnung f ü r Glück-

spiele im 16. J a h r h u n d e r t entstanden ist. Als erste Ausführungen in dieser Richtung sind die Schriften von Gerolamo

Cardano (1501 - 1576) (beispielsweise das um 1526 erschienene

Buch "Lifter de ludo aleae") sowie die Abhandlung " S o p r a le scorpeste

dei Dadt'

(über die

Wahrscheinlichkeit beim Spiel mit drei Würfeln) von Galileo Galilei (1564 - 1642) zu nennen.

1.2.

ZUR GESCHICHTE

DER

STATISTIK

7

B e r ü h m t geworden sind die Anfragen des Spielers Antoine

Chevalier

de Mère (1610 - 1684)

bei dem französischen Mathematiker Biaise Pascal (1623 - 1662), die zu einem Briefwechsel zwischen Pascal und dem Mathematiker Pierre de Fermât (1602 - 1665) in den Jahren 1651 - 1655 f ü h r t e n , in dem wahrscheinlichkeitstheoretische (kombinatorische) Fragen behandelt wurden. Diese Überlegungen gingen in das erste Buch über Wahrscheinlichkeitstheorie "De Ratiociniis in Ludo Aleae" (1657) des holländischen Physikers Christian

Huygens

1695) ein. Zur Veranschaulichung seiner Ergebnisse verwendete Huygens das

(1629 -

Urnenmodell

(Ziehen von Kugeln unterschiedlicher Farben aus einer gut durchgemischten Urne). Die weitere Geschichte der Wahrscheinlichkeitstheorie ist eng verknüpft mit dem Namen Bernoulli (vgl. etwa Begriffe wie Bernoulli-Verteilung

und das Bernoulli-Theorem).

Die Baseler

Mathematikerfamilie stellte in vier aufeinander folgenden Generationen acht Professoren. Jakob Bernoulli

(1654 - 1705) schrieb das Buch "Ars Conjectandi" ( K u n s t des Vermutens), das

1713 von seinem Neffen Nikolaus Bernoulli (1695 - 1726) veröffentlicht wurde. Es bestand aus 4 Teilen. Teil 1 war von dem Physiker Huygens geschrieben und von Jakob Bernoulli ergänzt, Teil 2 behandelt die Kombinatorik,

Teil 3 die Anwendung auf Glücksspiele, Teil 4

die Anwendung auf wirtschaftliche Probleme. Die Binomialverteilung

und die sogenannten

Gesetze der großen Zahlen werden dort erstmals erwähnt. Der Z u s a m m e n h a n g zwischen der Normalverteilung und der Binomialverteilung wird von Abraham

de Moivre (1667 - 1754) erkannt und in seinem Werk "The

1718 veröffentlicht. Der englische Geistliche Thomas Towards Solving a Problem in the Doctrine

Doctrine

of

Chances"

Bayes (1702 - 1761) schrieb "An

of Chances",

Essay

in dem bedingte Wahrscheinlichkei-

ten und Rückschlüsse auf Wahrscheinlichkeiten bei Kenntnis von Spielausgängen behandelt werden. Das Werk " Théorie analytique

des probabilités"

(1812) von Pierre Simon

de Laplace

(1749 - 1827) enthält einen Uberblick über den Stand der Wahrscheinlichkeitsrechnung. In einem späteren Werk werden der nach ihm b e n a n n t e (auf Bernoulli zurückgehende) cesche Wahrscheinlichkeitsbegriff

Lapla-

eingeführt und Anwendungen auf Zeugenaussagen und Ge-

richtsurteile diskutiert. Die Methode

der kleinsten

Quadrate geht auf Adrien

(1752 - 1833) zurück. Carl Friedrich

Gaufi (1777 - 1855), dessen Portrait den 10-DM-Schein

schmückt, t r u g wesentliche Arbeiten zur Normalverteilung der kleinsten

Quadrate

und zur Theorie

("Gauß-"Verteilung),

der Beobachtungsfehler

bei. Siméon

Marie

zur Methode Denis

(1781 - 1840) erweiterte in seiner Schrift "Le lois des grands nombres" ( G e s e t z der Zahlen)

das Bernoullische T h e o r e m .

Legendre

Poisson großen

8

KAPITEL

1.

EINFÜHRUNG

In Deutschland wurden diese m a t h e m a t i s c h e Methoden der Statistik lange Zeit nicht erkannt oder sogar abgelehnt.

Vor allem Gustav

Rümelin

(1815 - 1889) und der als "Altmeister

der deutschen Statistik" bezeichnete bayrische Landesstatistiker Georg von Mayr (1841 1925) taten sich in der Kritisierung dieser Entwicklung hervor und trugen so zur Verkundung ihrer Ausbreitung in Deutschland bei. Auch an der m a t h e m a t i s c h e n Fakultäten deutscher Universitäten wurde die B e d e u t u n g dieser Fachrichtung lange Zeit nicht erkannt. So entstanden die Grundlagen der modernen sischen R a u m .

mathematischen

Als Vertreter der angelsächsischen

Statistik

vor allen im angelsäch-

Schule sind insbesondere die folgenden

Persönlichkeiten zu nennen: der Biologe Francis Galton (18'2'2 - 1911, Entwicklung des Korrelationskoeffizienten),

Francis

Ysid.ro Edgeworth

2

Wiederentdeckung der x -Verteilung

(1845 - 1926), Karl Pearson (1857 - 1936,

im Jahre 1900, x2-Test

sungsgüte eines Modells an die D a t e n , Korrelation Verteilung,

Gründung der Biometrika

onskoeffizient),

William

und Regression,

ß-Funktion,

ß- und T-

im Jahre 1901), G. U. Yule (1871 - 1951,

Sealy Gossel (1876 - 1937, " S t u d e n t " 'sehe t-Verteilung

lung des Stichprobenmittels) und Sir Ronald Aylmer "The

zur Ü b e r p r ü f u n g der Anpas-

Design of Experiments"

Assoziatials Vertei-

Fisher (1890 - 1962), in dessen Buch

(1935) grundlegende Methoden zur Versuchsplanung

rianzanalyse

behandelt werden. Zu R.A. Fishers Ehren wurde die von Snedecor

F- Verteilung

benannt.

und Vaabgeleitete

Der Entwicklung der statistischen Test- und Entscheidungstheorie

seit dem zweiten Weltkrieg ist vor allem durch die Arbeiten von Jerzy Neyman Pearson sowie von Abraham

und Egon S.

Wald maßgeblich geprägt worden.

Es kann zusammenfassend festgestellt werden, daß die Grundlagen einer modernen m a t h e m a tischen Statistik von der sogenannten "englischen Schule" gelegt wurden. Trotz der erwähnten Probleme im deutschsprachigen Raum kann jedoch auch auf wichtige Entwicklungen der "kontinentalen Schule" hingewiesen werden. Als Vorläufer dieser kontinentalen Schule sind der Phychologe G. T h . Fechner (1801-1887), Untersuchungen über schiefe Verteilungen, Fechnersche Lageregel) sowie der Geodät F. Helmert zu nennen.

Als Hauptvertreter der

kontinentalen Schule gelten die Nationalökonomen W . Lexis (1837-1914), Lexische Dispersionstheorie) und L. von Bortkiewicz (1868-1931), Indextheorie, Poissonsapproximation als "Gesetz der kleinen Zahlen") sowie A. A. Tschuprov (1874-1926), Untersuchung der empirischen Verteilung), A. A. Markov (1857-1922), Gesetze der großen Zahlen, Markov-Ketten) und O. Anderson (1887-1960). L. von Bortkiewicz regte mit Arbeiten zur Variationsbreite einer Stichprobe R. von Mises (1883-1953) sowie E. J. Gumbel (1891-1966) zu ihren Arbeiten

1.2.

ZUR GESCHICHTE

DER

STATISTIK

9

auf dem Gebiet der Extremwerttheorie an. Die Entwicklung der Wahrscheinlichkeitstheorie wurde besonders in Rußland weiter vorangetrieben. Neben A. A. Markov sind hier insbesondere zu nennen P. L. Tschebyschev (18211914), A. M. Liapunov (1857-1918), zentraler Grenzwertsatz) und A. N. Kolmogorov (19031988), axiomatische Begründung der Wahrscheinlichkeitstheorie).

V. N e u e r e Entwicklungen Viele, inzwischen auch schon als klassisch zu bezeichnenden Methoden der mathematischen Statistik basieren auf der Annahme, daß die Meßwerte einer sogenannte Normalverteilung folgen. Untersuchungen haben gezeigt, daß dieser Verteilungstyp in der Praxis weit weniger oft anzutreffen ist als lange Zeit vermutet. Weiter wurde festgestellt, daß die unter Normalverteilung optimalen Verfahren häufig schon bei kleineren Abweichungen von diesem Modelltyp sehr unbefriedigende Ergebnisse liefern. Dies hat in den sechsiger Jahren zur Entwicklung robuster Verfahren geführt, die so konzipiert sind, daß sie auch bei Abweichungen von der Normalverteilung zuverläßige Schätz- und Testergebnisse liefern und sogenannte Ausreißer "verkraften" können. Etwa zur selben Zeit stellt man eine Renaissance der datenorientierten Betrachtung^- und Vorgehensweise fest. Das Ziel dabei ist, in der Daten vorhandene (häufig versteckte) Strukturen und etwaige Auffälligkeiten oder Anomalien aufzudecken, um so erst Hypothesen und Modelle zu finden, die in einer späteren Phase mit mathematisch-statistischen Verfahren überprüft werden können. Zu diesem Zweck wird das Bündel der in der deskriptiven Statistik üblichen Methoden in vielfältiger Weise erweitert. Dabei spielt, wie in der robusten Statistik, die Resistenz gegenüber Ausreißern eine wichtige Rolle - um diese in den Ergebnissen, als möglicherweise interessante Abweichungen, auch klar erkennen zu können und um zu verhindern, daß Ausreißer die für die Mehrzahl der Daten gültigen Aussagen verfälschen. Diesem Aspekt wird in dem vorliegenden Buch besondere Aufmerksamkeit gewidmet. Die obige Ausführungen zur Geschichte der Statistik sind sehr knapp gehalten und setzen teilweise auch schon ein gewisses überblickartiges Wissen voraus, das an dieser Stelle von vielen Lesern noch gar nicht erwartet werden kann. Weiter Interessierte seien auf die Bücher von T. M. Porter (1986), S. Stigler (1986), I. Hacking (1990) und I. Schneider (1988) hingewi-

10

KAPITEL

1.

EINFÜHRUNG

Abbildung 1.1: Statistische Institutionen in der Bundesrepublik Deutschland

sen. Ein Überblick über die Entwicklung der mathematischen Statistik, der besonders auch den deutschsprachigen Raum einbezieht, ist zu finden in dem Beitrag von H. Witting zur Festschrift zum Jubiläum der Deutschen Mathematiker-Vereinigung (1990). Der Beitrag von U. Krengel in derselben Festschrift schildert die Entwicklung der Wahrscheinlichkeitstheorie im deutschen Sprachraum.

1.3

Statistische Institutionen in Deutschland

Die statistischen Institutionen in der Bundesrepublik können in die Bereiche amtliche nicht

amtliche

untergliedert werden (vgl.

Statistik

umfaßt die ausgelösten die Ressorts,

Abbildung 1.1).

und

Die amtliche Statistik

Behörden, die primär für statistische Aufgaben zuständig sind, und

die sich sekundär mit Statistik beschäftigen.

Träger der ausgelösten Statistik sind

• das Statistische

Bundesamt,

• die Statistischen • Kommunalstatistische

Wiesbaden,

Landesämter

und

Amter.

Die Aufgabe dieser statistischen Amter besteht darin, Daten zu erheben, zu sammeln, aufzubereiten und darzustellen. Diese Ergebnisse werden einerseits vom Gesetzgeber, den Regie-

1.3.

STATISTISCHE

INSTITUTIONEN

IN

11

DEUTSCHLAND

rungen und den Verwaltungen als Planungsgrundlage und Erfolgskontrolle staatlicher Maßnahmen benötigt; andererseits bilden diese Daten die Basis für Analysen und Prognosen der gesellschaftlichen und wirtschaftlichen Situation und deren Entwicklung. Die Resultate der Bundesstatistik sind daher von öffentlichen Interesse und für jedermann zugänglich. Nicht alles, was an Datenmaterial anfällt, kommt zur Veröffentlichung. Über den des Statistischen

Bundesamtes

Auskunftsdienst

und die Nutzung der externen Datenbank STATIS-BUND

ist

es möglich, weiteres gegebenfalls auch entsprechend aufgearbeitetes Material zu beziehen. Der Charakter der ausgelösten Statistik ist von drei wesentlichen Prinzipien geprägt.:

• der fachlichen

Konzentration

aller statistischen Arbeiten in statistischen Ämtern als

eigens dafür eingerichtete Fachbehörden, • der regionalen Dezentralisierung

entsprechend dem föderalistischen Staats- und Verwal-

tungsaufbau und • der Legalisierung

der Arbeit der amtlichen Statistik auf der Grundlage von Gesetzen

und Rechtsverordnungen.

Der Ablauf von Bundesstatistiken ist in der Abbildung 1.2 veranschaulicht.

Im umfangreichen Veröffentlichungsprogramm

des Statistischen

Bundesamtes

sind zusam-

menfassende Veröffentlichungen, wie etwa das Statistische

Jahrbuch,

Wirtschaft

sowie speziellere Fachserien

und Statistik und der Statistische

Wochendienst,

die Monatszeitschrift

halten. Derzeit werden vom Statistischen Bundesamt 19 Fachserien herausgegeben.

entEinen

Überblick über die Veröffentlichungen des Statistischen Bundesamtes enthält die Abbildung 1.3. Das Schaubild 1.4 stellt die Einbindung des Statistischen Bundesamtes in ein System internationaler Organisationen dar. Detaillierte Informationen über die Arbeit der ausgelösten Statistik (inbesondere auch über Daten zu diversen Themenschwerpunkten) können vom Statistischen Bundesamt, den Statistischen Landesämtern und den Kommunalstatistischen Amtern direkt bezogen werden. Einen umfassenden Uberblick über die Bundesstatistk bietet die vom Bundesamt in mehrjährigen Abständen herausgegebene Schrift "Bundesstatistik, das Arbeitsgebiet derDas Arbeitgebiet der Bundesstatistik". Vom Bundesamt direkt kann das Veröffentlichungsverzeichnis

des Statistischen

Bundesamtes,

ein Katalog der lieferbaren Pu-

KAPITEL

1.

EINFUHRUNG

A b b i l d u n g 1.2: D e r A b l a u f v o n B u n d e s s t a t i s t i k e n

z c 3 3

Quelle: Bundesstatistik - für wen und wofür, 3.Auflage 1989, Statistisches Bundesamt, Wiesbaden

1.3.

STATISTISCHE

INSTITUTIONEN

IN

DEUTSCHLAND

A b b i l d u n g 1.3: V e r ö f f e n t l i c h u n g s s y s t e m d e s S t a t i s t i s c h e n B u n d e s a m t e s

Zusammenfassende

Veröffentlichungen

Allgemeine

Thematische

Veröffentlichungen

Querschnitts-

Querschnitti-

zu

verölfentlichungen

veröffentlichungen

und

Organisations-

' ;

m %

Kurzbroschüren

Methodenfragen

Fachserien

•M

f i l l

M

1 Bevölkerung und Erwerbstätigkeit

i

m

2 Unternehmen und Arbeitsstätten

-

m

S

M

i p

3 Land- und Forstwirtschaft, Fischerei 4 Produzierendes Gewerbe

I M

5 Bautätigkeit und Wohnungen 6 Handel, Gastgewerbe, Reiseverkehr 7 Außenhandel 8 Verkehr

iSfifÉì

9 Geld und Kredit 10 Rechtspflege

»

11 Bildung und Kultur 12 Gesundheitswesen 13 Sozialleistungen

« ü i

14 Finanzen und Steuern

ïîSgP

15 Wirtschaftsrechnungen

Ü

S

Ä

„:

i

l

16 Löhne und Gehälter

I M

17 Preise 18 Volkswirtschaftliche Gesamtrechnungen 19 Umwelt

Systematische Unternehmensund

Betriebs-

systematiken

Verzeichnisse

Güter-

Personen-

Regional-

Sonstige

systematiken

systematiken

systematiken

Systematiken

. Thematische Karlen zu Groflzählungen

I

Statistik des Auslandes

I

I

P

Fremdsprachige

Veröffentlichungen

]

. - ,

s

mm Ü

Ü

B

• fi>

Quelle: Verzeichnis der Veröffentlichungen 1992/93, Statistisches Bundesarat, Wiesbaden

P

Ü

KAPITEL

14

1.

EINFÜHRUNG

blikationen (mit Bezugspreisen), bezogen werden. Hinzu kommen noch die Publikationen der Statistischen Landesämter und der Kommunalstatistischen Ämter, die eine starke regionale Differenzierung der Ergebnisse beinhalten. Im Gegensatz zur ausgelösten Statistik, die sich zur Dienstleistungseinrichtung mit dem Ziele der Datenlieferung f ü r vielfältigee Nutzungen entwickelt h a t , wird die Ressortstatistik

in

Institutionen (Ressorts) betrieben, deren H a u p t a u f g a b e n auf einem anderen Gebiet liegen. Als Träger dieses Bereiches der amtlichen Statistik sind beispielsweise

• die Bundesanstalt für Arbeit (Erwerbstätigkeit), • die Deutsche Bundesbank (Geld und Kredit), • die Bundesministerien, • das Bundesaufsichtsamt für das Versicherungs- und Bausparwesen, • das K r a f t f a h r t - B u n d e s a m t oder • das Umwelt-Bundesamt

zu nennen, die zum Teil eigene statistische Veröffentlichungen herausgeben. Beispiele hierfür sind die Monatsberichte

der Deutschen

Bundesbank

und die Statistik

der Arbeitslosigkeit.

In

den Ressorts werden Daten gesammelt und analysiert, die für das jeweilige Fachgebiet von besonderem Interesse sind. Die nichtamtliche

Statistik

in der Bundesrepublik kann in die Bereiche Verbandsstatistik,

tistik der Wirtschaftsforschungsinstitute institute

und Statistik

der Markt-

untergliedert werden.

Träger der Verbandsstatistik

sind (auszugsweise)

• Industrie- und Handelskammern, •

Handwerkskammern,

• Landwirtschaftskammern, • Fachorganisationen des Handwerks, • Mitgliederverbände - des Bundesverbandes der Deutschen Industrie,

und

Sta-

Meinungsforschungs-

1.3.

STATISTISCHE

INSTITUTIONEN

IN

DEUTSCHLAND

15

- des Deutschen Bauernverband, - des Bundesverbandes der Freien Berufe, - der Bundesvereinigung der Deutschen Arbeitgeberverbände und • Gewerkschaften.

Die Untersuchungen und die statistischen Auswertungen dienen diesen Verbänden als Informationsquelle f ü r ihre Mitglieder und Argumentationsgrundlage zur Durchsetzung der verbandsorientierten Ziele. Man sollte daher beachten, daß Erhebungs- u n d Analysemethoden sowie Veröffentlichungsstrategien in enger Verbindung zur Zielsetzung des Verbandes stehen können. Wirtschaftsfortchungsinstitute

(wie auch Verbände) greifen häufig auf das von der amtlichen

Statistik bereitgestellte Datenmaterial und auf eigene Untersuchungen zurück und verwenden die Daten zur Beschreibung und Prognose der wirtschaftlichen Entwicklung. Der Arbeitsgemeinschaft deutscher wirtschaftswissenschaftlicher Forschungsinstitute gehören

• das Deutsche Institut für Wirtschaftsforschung e.V. Berlin ( D I W ) , • das IFO-Institut für Wirtschaftsforschung e.V. München, • das Rheinisch-Westfälische Institut für Wirtschaftsforschung e.V. Essen (RWI), • das Institut für Weltwirtschaft Kiel und • das Hamburgische Weltwirtschaftsarchiv ( H W W A )

an. Als weitere Einrichtungen seien hier

• das Wirtschaftswissenschaftliche Institut der Gewerkschaften G m b H , Köln, und • das Deutsche Industrieinstitut e.V., Köln,

genannt. Markt-

und Meinungsforschungsinstitute

führen in der Regel eigene Erhebungen durch, um

Informationen etwa über das Kaufverhalten von K u n d e n , die Einstellung der Bevölkerung zu aktuellen Problemen, die Absatzmöglichkeiten für b e s t i m m t e P r o d u k t e oder die Wahlchancen von politischen Parteien zu gewinnen. Ihre Auftraggeber sind vor allem Unternehmen,

16

KAPITEL

1.

EINFÜHRUNG

denen die Untersuchungsergebnisse als Entscheidungsgrundlage dienen. Aber auch Parteien und öffentliche Institutionen geben Studien in Auftrag. In der Bundesrepublik gibt es eine zunehmend größer werdende Anzahl solcher Institute, von denen hier nur einige genannt werden können:

• Infratest, München, • Gesellschaft für Konsumforschung (GfK), Nürnberg, • A.C. Nielsen GmbH, Frankfurt, • IMS, Frankfurt, • GFM-Getas, Hamburg, • IVE, Hamburg, • Kehrmann, Hamburg, • Infas, Bad Godesberg, • Sample, Mölln, • Marplan, Offenbach, • Emnid, Bielefeld, • Burke, Frankfurt, • Contest Census, Frankfurt, • Institut für Demoskopie, Allensbach,

Viele Marktforschungsintitute haben sich dem Arbeitkreis Deutscher Marktforschungsinstitute (ADM) angeschlossen, bei dem man auch eine detaillierte Beschreibung der Arbeitsgebiete seiner Mitgliedsintitute anfordern kann (Anschrift: Papenkamp 2-6, 2410 Mölln).

1.3. STATISTISCHE

INSTITUTIONEN

IN

17

DEUTSCHLAND

Abbildung 1.4: Internationale Einbindung der Bundesstatistik

IDi 3i O1 =p »P C < E I ? ES • e e o S

I fi ss S È " % O 0) ISlïSi £ a ç TJ C 5 ^ w « ro O «t=

Jp ®

o

iS ç e (I) Hi c rs î5S of tn 2§l§=Is|f§

C t- .2 < j) ist die Merkmalsausprägung bei der j-ten Untersuchungseinheit, j = l , . . . , n .

Gibt es eine verhältnismäßig kleine Anzahl k von Merkmalsausprägungen, wie es bei nichtmetrischen oder diskreten Merkmalen häufig der Fall ist, so weisen im allgemeinen mehrere Untersuchungseinheiten ein und dieselbe Ausprägung auf. Ist A'(fi) = {ai, 0 2 , . . . , aj,} die Menge aller vorkommenden Merkmalsausprägungen, so ist es günstiger, anstelle der n Messungen Xj, j = l , . . . , n , lediglich die k Ausprägungen a,, i — 1

und die Anzahl der

Fälle 71; zu notieren, in denen a, beobachtet wurde. In Termen der sogenannten Indikatorfunktion der Menge A, 1.4(0:) = 1, falls x € A, 1.4(3:) = 0 sonst, ist

n

(3.1) 3=1

34

KAPITEL

3.

GRAPHISCHE

DARSTELLUNGEN

UNIVARIATER

DATEN

Abbildung 3.1: Intervallaufteilung bei Klassenbildung

"0

Ul

[

)[

u

2

U*-1

Uk

)[

)

)[

Die Anzahlen n;, i = 1 , . . . , f c , heißen absolute Häufigkeiten.

Zum Vergleich von Datensätzen

mit unteschiedlichen Erhebungsumfängen sollte m a n anstelle der absoluten die

relativen

Häufigkeiten T{ =

n

,

i = 1,...,

k,

verwenden, welche den Anteilen der Fälle entsprechen, die auf die Ausprägungen a, entfallen. Zur D a t e n a u f b e r e i t u n g für stetige

oder quasistetige

ner Klassen-

Sei dazu xmm

(Gruppen-)

bildung:

Merkmale

bedarf es im allgemeinen ei-

die kleinste und xmax

die größte vorkom-

mende Merkmalsausprägung. Zunächst legt man eine geeignete Anzahl k der Klassen (vgl. dazu Abschnitt 3.4) sowie geeignete Klassengrenzen «o < «i < f o < imin und xmax

< Uk fest (vgl.

das Intervall [m;_i,u;) (lies: von

Abbildung 3.1).

...

Fni Ui l]

U{_1

für

0 und

¡roaK{u)du=l

wird im allgemeinen gefordert, daß K für betragsmäßig wachsende Argument werte schnell gegen Null strebt.

56

KAPITEL

3. GRAPHISCHE

DARSTELLUNGEN

UNIVARIATER

DATEN

Wie für einen Dichteschätzer sinnvoll beträgt die Fläche unter dem Kerndichteschätzer 1, denn mit der Substitution u = (x - xi)/hn

n

J—oo

fH*)dx

gilt wegen J f ^ K(u)du

=

r ^uu ±

J— oo

n

=

^ r H

=

1.

K ( x

= 1

- ^ll ) d x n

hnK(u)du

Tabelle 3.10: Beispiele von Kernfunktionen Name

Kernfunktion

Eigenschaften Treppenfunktion

Rechteckkern

^[-UlW

kompakter Träger stetige Funktion,

Dreieckkern

(1-M)1[-1,1](«0

kompakter Träger optimaler" Kern,

Epaneclmikow-Kern

f(l -«>)![_!.,](«)

stetig, kompakter Träger stetig

Bisquare-Kern

}|(1 -

«^[-UlM

differenzierbar, kompakter Träger Dichte der

Normalkern

Standardnormalverteilung Dichte

Cauchy-Kern

W 1 + «2)]"1

der CauchyVerteilung Dichte

Picard-Kern

iexp(-M)

der LaplaceVerteilung

.2.

KERNDICHTESCHÄTZUNG

57

A b b i l d u n g 3.16: Einige K e r n f u n k t i o n e n Hechteck-Kern

Dreieck-Kern

Epanechn ikow-Kern

Bisquare-Kern

58

KAPITEL

3.

GRAPHISCHE

DARSTELLUNGEN

UNIVARIATER

DATEN

Man beachte, daß sich ferner die Stetigkeits- und Differenzierbarkeitseigenschaften der Kernfunktion auf die Kernschätzer übertragen. Somit kann durch geeignete Wahl des Kernes das Bild des Schätzers den jeweiligen Glattheitsvorstellungen angepaßt werden. Der zweite Nachteil kann also durch stetige oder difFerenzierbare Kernfunktionen vermieden werden. Einige Beispiele geeigneter Kernfunktionen enthält die Tabelle 3.10 und Abbildung 3.16. In den Kerndichteschätzer fließen nicht die Datenpunkte i , selbst ein, sondern ihr empirisches Gewicht wird auf eine Umgebung der Beobachtungswerte verteilt. Die Form dieser Verteilung auf das Umgebungsintervall wird durch die Kernfunktion, die Intervallbreite durch die Bandbreite bestimmt. So führen große Bandbreiten zu glatten Kurven, die auf die Wiedergabe von Einzelheiten verzichten, wohingegen Schätzer mit kleinen Bandbreiten Detailinformationen vermitteln, dafür aber einen weniger glatten, mitunter unruhigen Verlauf aufweisen. Die Vorgehensweise bei der Berechnung von Kerndichteschätzern, kann durch die Abbildung 3.17 veranschaulicht werden. Als Kernfunktion wurde der Dreieckskern, als Bandbreite hn = 1 verwendet. Zunächst wird um jeden Datenpunkt z, die Kernfunktion K(u/hn)

zentriert

um x, eingezeichnet. Für jede Auswertungsstelle x werden dann gemäß Formel (3.6) alle so eingezeichneten Kernfunktionen aufsummiert und durch nhn

dividiert.

Wie bei Histogrammen mit konstanter Klassenbreite ist die Wahl der Bandbreite hn auch für Kernschätzer von zentraler Bedeutung. Eine zu große Bandbreite führt dazu, daß Details im mittleren Bereich weggeglättet werden, wohingegen eine kleine Bandbreite unnatürlich wirkende Ausschläge in den meist dünn besetzten Randbereichen zur Folge h a t . Diese Effekte können vermieden werden, wenn an jeder Stelle x gleich viele Beobachtungen in den Dichteschätzer eingehen, welches gleichen Klassenbesetzungszahlen beim Histogramm entspricht: Ist Hn^(x)

der Abstand zwischen x und demjenigen Beobachtungswert X{, der am

kn-1 nächsten zu x liegt, so wird der kn-Nearest-Neighbour-(kn-NN-)Schätzer

definiert als

n (3.7)

und ist als Kernschätzer mit variabler, datengesteuerter Bandbreite zu interpretieren. Als Kernfunktionen sollten allerdings nur solche verwendet werden, deren Trägermenge das Intervall [ - 1 , 1 ] ist, (d.h. die nur in diesem Intervall von Null verschieden sind), so daß tatsächlich kn oder bei in ± 1 stetigen Kernfunktionen kn — 1 Beobachtungen einfließen.

Da

Hn>k(x)

nicht überall differenzierbar ist, überträgt sich diese Eigenschaft —unabhängig von der Wahl

3.2.

KERNDICHTESCHÄTZUNG

59

des Kernes— auf den NN-Schätzer. Des weiteren divergiert im allgemeinen das Integral über f n N - Diese beiden Nachteile treten nicht auf, wenn man den variablen

Kernschätzer (3.8)

benutzt, der auf Breiman, Meisel und Purcell

(1977) zurückgeht, auf den aber hier nicht

näher eingegangen werden soll.

B e i s p i e l 3 . 9 Für die langjährigen Durchschnittstemperaturen in Tabelle 3.7 (vgl. Beispiel 3.7) sind Kernschätzer, NN-Schätzer und variabler Kernschätzer der Häufigkeitsdichte in den Abbildungen 3.18 bis 3.21 dargestellt. Die Verwendung des Rechteckskernes führt zu einer unstetigen Treppenfunktion (vgl.

Abbildung 3.18), wohingegen die Anwendung des

Bisquare-Kernes einen stetig differenzierbaren Kernschätzer der Häufigkeitsdichte produziert (vgl. Abbildung 3.19). Letzteres gilt nicht für den NN-Schätzer, der auch bei differenzierbarer Kernfunktion nicht überall differenzierbar ist (vgl. Abbildung 3.'20). Die Anwendung des variablen Kernschätzers liefert wiederum stetig differenzierbare Funktionen und ermöglicht wie auch der NN-Schätzer eine lokal variierende Wahl der Bandbreiten (vgl. Abbildung 3.21).

Weitergehende Betrachtungen zur Wahl der Glättungsparameter werden im Abschnitt 3.4 angestellt.

60

KAPITEL

3. GRAPHISCHE

DARSTELLUNGEN

UNIVARIATER

DATEN

Abbildung 3.17: Konstruktion des Kerndichteschätzers bei Verwendungeines Dreieckskernes, b=/in=l (a) Stabdiagramm der Häufigkeitsmassen

n. 5

1

1

1

1

1

l

10

(b) Darstellung der Dreieckskerne über den Beobachtungen

/3 '

(3.12)

78

KAPITEL

3.

GRAPHISCHE

DARSTELLUNGEN

UNIVA RIA TER

DATEN

wobei IQR dem Inter-quartile-range — d.h. dem Abstand der Quartile der Daten — entspricht. (Zur Definition von IQR siehe Abschnitt 4.2.) Diese Regel ist einfacher und kommt dem anderen Vorschlag nahe. Interessanterweise weisen alle diese optimalen Bandbreiten die Ordnung ( i ) 1 / 3 auf.

Dies

1 3

bedeutet für die Anzahl der Klassen eine Größenordnung von n / , eine Funktion, die zwischen logii und \ / n liegt. Ist n genügend groß, so kann dies demnach als Argument für Verwendung der "Kompromißregel" L = [101og 10 n] gewertet werden. Die Bandbreite, die den IMSE des Kernschätzers minimiert, ist durch roo fOO

/ u2K(u)du}~2/5{

2 1/5 2 1 / 5 n-1/5 J/ X Ä-(u) n, log at. (Der Logarithmus des geometrischen n ' n ' 3=1 1=1 Mittels stimmt mit dem arithmetischen Mittel der logarithmierten Daten überein.)

4.1.

LAGEMAßE

93

Tabelle 4.2: Veränderung der Anzahl der Betriebe im Bergbau und im Verarbeitenden Gewerbe Nordrhein-Westfalens von 1980 bis 1991 (Angabe der Veränderung gegenüber dem Vorjahr in %) 1981

1982

1983

1984

1985

Wachstumsrate (pi x 100%):

-2.39%

-1.93%

-1.77%

-1.35%

-0.81%

Wachstumsfaktor (z;):

0.9761

0.9807

0.9823

0.9865

0.9919

1986

1987

1988

1989

1990

1991

Wachstumsrate (p, x 100%):

0.32%

0.10%

0.43%

3.87%

4.03%

1.15%

Wachstumsfaktor (x,):

1.0032

1.0010

1.0043

1.0387

1.0403

1.0115

Jahr:

Jahr:

Quelle: Strukturwandel im westfälischen Ruhrgebiet, 1980-2000, Hrsg. Industrie und Handelskammer zu Dortmund, 1992. (b) Es gilt stets xg < x mit " = " dann und nur dann, wenn xi — x^ — ... = xn.

Diese

Eigenschaft mag neben Unkenntnis ein Erklärungsgrund dafür sein, daß Unternehmen und Politiker zur Mittelung von Wachstumsraten gerne (fälschlicherweise) das arithmetische Mittel benutzen.

B e i s p i e l 4 . 4 Tabelle 4.2 gibt Wachstumsraten und Wachstumsfaktoren der Anzahl der Betriebe im Bergbau und im Verarbeitenden Gewerbe Nordrhein-Westfalens von 1981 bis 1991 an. Stellt man sich die Frage, um wieviel die Betriebszahl durchschnittlich gewachsen ist, so ist zunächst das geometrische Mittel der Wachstumsfaktoren zu bestimmen. Es ergibt sich zu n

xg = ( f j Xj)n = (0.9761 x 0.9807 x • • • x 1.0403 x 1 . 0 1 1 5 ) 1 / n = 1 . 0 1 4 2 4 1 / n = 1.00129. j=i Die Betriebszahl ist demnach pro J a h r durchschnittlich um (1.00129 - 1) x 100% = 0.13% gewachsen.

Tatsächlich ist die Anzahl der Betriebe von 11714 im Jahre 1980 auf 10777

im Jahre 1985 gefallen und dann wieder auf 11880 im Jahre 1991 angestiegen. Anfangswert 11714 kann man über 1 1 7 1 4 x l . 0 0 1 2 9

n

Aus dem

= 11714x1.0124 = 11880.8 den Endwert

11880 bis auf Rundungsfehler rückrechnen. Für die durchschnittliche jährliche Abnahme von 1980 bis 1985 errechnet man mit Hilfe des geometrischen Mittel einen Faktor von i g = 0.9835 (d.h. eine Abnahme von 1.165% pro Jahr) und f ü r die Zunahme von 1986 bis 1991 einen Faktor von x2g = 1.0164 (d.h. eine Zunahme von 1.64% pro Jahr). Mit Hilfe eines gewogenen

94

KAPITEL

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

geometrischen Mittels kann aus xlg und x2g das nun schon bekannte Gesamtmittel errechnet werden: xg = ( x j ) 5 / n x ( x ^ ) 6 = o ^ s a s 5 / 1 1 x 1.0164 6 / 11 = 1.0013. Allgemein eignen sich gewogene geometrische Mittel zur Mittelung von Wachstumsfaktoren, wenn diese sich auf nicht äquidistante Zeiträume beziehen.

M

Das harmonische Mittel

Auch das harmonische Mittel xh kann nur auf ganz bestimmte Situationen bei metrischen Daten mit positiven Ausprägungen angewandt werden und ist folgendermaßen definiert: Xh =

n

, n 1 bzw. Xh — —; = —; • ¿*>j=1 x, ¡=1 a; ¿^¿=1 a,

Sinnvolle Anwendungsbeispiele sind

• die Ermittlung von Geschwindigkeiten, die auf vorgegebenen Wegstrecken gemessen wurden, und • die Ermittlung von Preisen, die sich auf vorgegebene Ausgabensummen oder Umsätze beziehen.

Das harmonische Mittel bestitzt die folgenden Eigenschaften: (a) 1 1 wfU 1 , 1 1 ^ 1 Ti — = — > — bzw. — = — > n;— = > — Xhn n ' Xi3 Xh n a.1 ' a; n j=1 .=1 .=1 1 (b) Für positive X{ gilt stets x^ < xg < x mit " = " dann und nur dann, wenn xj = Xj — ... — x«.

Beispiel 4.5 Ein Pkw fährt von Konstanz (KN) über Stockach (STO) nach Lindau (LI). Die ungefähren Entfernungen dieser Orte, die gefahrenen Zeiten und Geschwindigkeiten sind in

4.1.

LAGEMAßE

95

Tabelle 4.3: Entfernungen, Geschwindigkeiten und Fahrtzeiten bei einer Fahrt von Konstanz nach Stockach und Lindau Strecke

km

km/h

h

min

KN - STO

40

60

2/3

40

STO - LI

60

40

3/2

90

100

7

13/6

130

KN - LI

1 1 km Tabelle 4.3 festgehalten. Die naive Berechnung x = - S^ a,-n; = — ( 4 0 • 60 + 60 • 40) = 4 8 - ^ n 100 h i=l ist falsch! Die Gesamtdurchschnittsgeschwindigkeit beträgt 46

- 100 _ 100 _ X ~ 1 3 7 6 " 4 0 - ^ + 6 0 - ^ ~ E

n ru/oi

und ist somit kleiner als 48 k m / h . Sie ist allgemein als das harmonische Mittel der Einzelgeschwindigkeiten gewichtet mit den Fahrstrecken zu berechnen.

M

Tabelle 4.4: Preise, Mengen und Umsätze Sorten

1

2

...

k

Preise

Pl

P'2

•••

Pk

Mengen

li

Q2

• ••

qk

Umsätze

Pl?l

P2Q2

•••

PkQk

B e i s p i e l 4 . 6 Aus den Angaben zu den Preisen und den Umsätzen von k verschiedenen Produkten soll der durchschnittliche Preis der verkauften Waren ermittelt werden (Angaben in Tabelle 4.4). Beobachtet werden nur die Umsätze und die Preise, nicht die Mengen. Der Durchschnittspreis bestimmt sich dann über -

=

mit rii := piqi , n := ]Cf=i Pili

£ * = i P.9. l r2-,i= 1 oVi a

i

:=

=

T,i=i Pi 302 208 ^i=i

a

2

l -

2

*

144 940 166 302 208

und für die Standardabweichung ergibt sich er = 13.428.

, „2 17.3 = 180.314 N

Die absolute Abweichung vom Median M A D (Median Absolute Deviation) Bei der oben vorgestellten mittleren absolute Abweichung vom Median d j wird das arithmetische Mittel der Distanzen |x,- — x| gebildet. Diese Größe ist jedoch nicht resistent gegenüber

4.2.

111

STREUUNGSMAßE

Ausreißern. Verwendet man anstelle des arithmetischen Mittels den Median, so kommt man zu dem in der robusten Statistik sehr beliebten Median Median

der absoluten

Abweichungen

vom

(MAD), der wie folgt definiert ist: MAD := dw := med{\ xj - x |, j = 1 , . . . , n } .

In Arbeiten der schließenden Statistik wird auch der Begriff "wahrscheinlichste Abweichung" verwendet.

Beispiel 4 . 1 7 In Beispiel 4.14 sind die absoluten Abweichungen vom Median der Lattenlängen aus Beispiel 4.2 angegeben. Anstelle des arithmetischen Mittels dieser Wertes wird beim MAD deren Median gebildet. Man ordnet also die absoluten Abweichungen nach der Größe

0.0

0.05

0.1

0.2

0.9

und erhält als Median MAD = 0.1.

txa

Bei der Standardabweichung, der mittleren absoluten Abweichung und beim Median der absoluten Abweichungen vom Median MAD werden die Abstände der einzelnen Beobachtungen von einem mittleren Wert betrachtet.

Dabei werden positive und negative Abweichungen

gleich behandelt. Diese drei Skalenparameter entsprechen somit der Angabe eines symmetrischen Intervalls um einen mittleren Wert. Dies ist bei einer in etwa symmetrischen Verteilung der Daten durchaus adäquat, erscheint jedoch bei asymmetrischen Verteilungen als in keiner Weise natürlich. Beim Quartilsabstand und bei den Spreads taucht dieses Problem der symmetrischen Betrachtungsweise nicht auf, ebenso wie bei der bereits 1912 von Gini vorgeschlagenen Differenz

^

n

n

" ' ^ ¡ i E E l 1 ' ¡=1 j=l

1

) !

zwischen allen Paaren von Beobachtungen. da läßt sich auch schreiben in der Form 2 n_1 = ^ D ¿=1 oder

1 d = — n

n

¿=1

~ 0[z(.+i) - *(.-)]

2 " - (n + l)]x, = — ^ RiXi - x n i=i

x/n,

112

KAPITEL

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

wobei X(j) die j-te Ordnungsstatistik (die j-te größte Beobachtung) und Ä, der ebenfalls im vorigen Abschnitt eingeführte Rang der Beobachtung x, ist. Ebenso wie die mittlere absolute Abweichung dj. ist da nicht resistent gegenüber Ausreißern. Von Rousseeuw und Croux (1991) werden deshalb zwei robuste Varianten von d a vorgeschlagen. Bei der ersten werden gegenüber Ginis Vorschlag die Mittelwerte durch Mediane ersetzt: ds = medi{medj\xi

— Xj|}.

d s verwendet keinen Lageparameter und kann als typischer A b s t a n d zwischen zwei Datenp u n k t e n - auch bei asymmetrischen Verteilungen - interpretiert werden. Die zweite Variante beruht auf der Ordnung aller Q ) P a a r e von Differenzen dtJ = x

j\i



i < j• Der Median dieser Differenzen, dm = med\x{ — Xj\,

i < j

kann ca. 29% Ausreißer " v e r k r a f t e n " , während das untere Quartil, definiert durch

näherungsweise bis zu 50% "schlechte" Daten "verkraften" kann. Der Unterschied zwischen ds und dm besteht darin, daß bei ds getrennte Mediane über i und j ermittelt werden, während dm den Median über alle

D a t e n p a a r e verwendet.

Von den theoretischen Vorzügen her sind ds und dq vergleichbar, die Ermittlung von dq erfordert jedoch einen höheren Rechenaufwand.

Vergleich unterschiedlicher Streuungsmaße Betrachtet man die unterschiedlichen Streuungsmaße, so fällt auf, daß sie, auf ein und den selben Datensatz angewandt, alle etwas unterschiedliches messen. Von Interesse wären also Umrechnungsfaktoren zum Vergleich unterschiedlicher Streuungsmaße untereinander. Beim Vorliegen einer Normalverteilung ist s das "adäquate" Maß f ü r die Streuung und es ist wegen der Eigenschaft ( f ) auf Seite 110 gut zu interpretieren. Die meisten der anderen Verfahren wurden wegen der Schwächen von s bei Abweichungen von der Normalverteilungsannahme entwickelt. Geeignet umgerechnet führen sie aber auch bei ungefähr normalverteilten D a t e n zu sinnvollen " N ä h e r u n g e n " f ü r 6. In der Dichte (3.10) der Normalverteilung gibt ¡i den Symmetriepunkt und 6 den A b s t a n d der beiden W e n d e p u n k t e vom Symmetriepunkt an. Die

4.2.

STREUUNGSMAßE

113

Tabelle 4.7: Umrechnungsfaktoren zur Adjustierung resistenter Streuungsmaße bei normalverteilten Daten

, Streuungsmaß

Umrechnungsfaktor

dH

1.349

dE

2.301

dp

3.068

de

3.725

dB

4.308

dA

4.835

dz

5.320

dY

5.771

dx

6.195

dw

6.594

ds

0.8385

dg

0.4500

dm

0.9539

MAD

0.6745

114

KAPITEL

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

Tabelle 4.8: Erweiterter Letter Value Display der Olfelddaten n = 26

Lower

Upper

Mid

Spread

M

29.5

H

15

17.0

114.0

65.5

97.0

E

8

8.8

215.0

111.9

206.2

D

4.5

8.45

452.5

230.475

444.05

41.5

41.5

Letter-spreads ergeben sich als Vielfaches der Standardabweichung 9. Die Umrechnungsfaktoren hierzu enthält Tabelle 4.7. Man erhält demnach eine sinnvolle Näherung für 9, indem man die Umrechnungsformel Letter-spread Umrechnungsfaktor verwendet.

Die so berechneten Streuungsparameter werden als Pseudosigmas

bezeichnet

und können ähnlich wie 9, er oder s interpretiert werden (vgl. (f) auf Seite 110). Vor allen ermöglichen sie den Vergleich der unterschiedlichen Streuungsmaße. Tabelle 4.7 enthält auch den etwas schwieriger zu berechnenden Umrechnungsfaktor für den MAD.

Beispiel 4.18 Die Berechnung der Pseudosigmas soll anhand der Olfelddaten aus Beipiel 3.1'2 (vgl. Tabelle 3.13) demonstriert werden. Für sie kann das in Tabelle 4.8 wiedergegebene erweiterte Lettervalue-Display erstellt werden, woraus sich die Pseudosigmas direkt bestimmen lassen: Auf der Grundlage der H-, E-, bzw. D-spead erhält man als Pseudosigmas 97.0/1.349 = 71.905, 206.2/2.301 = 89.613 bzw. 444.05/3.068 = 144.736. Die ausreißeranfällige Standardabweichung beträgt für diese Daten s = 217.676.

txl

Dimensionslose Streuungsmaße Zum Vergleich der Streuungen unterschiedlicher Verteilungen eignen sich dimensionslose Streuungsmaße. Mißt man bei einem Lageparameter von 10000 eine Varianz von 10, so würde man diese als recht gering bezeichnen. Liegt das Lagezentrum der Verteilung jedoch bei 10, so wäre eine Varianz von 10 relativ groß. Vor diesem Hintergrund erweist es sich als nützlich,

4.2.

STREUUNGSMAßE

115

wenn man die Streuungsparameter zu den Lageparametern in Beziehung setzt. Haben alle xj dasselbe Vorzeichen (ohne Einschränkung der Allgemeinheit seien hier Xj > 0,j = 1 , . . . , n ), so eignet sich dazu der

Variationskoeffizient



v

--=l

X

X

Da Zähler und Nenner des Variationkoeffizienten ausreißeranfällig sind, ist natürlich auch V nicht robust. Resistentere dimensionslose Streuungsmaße sind hingegen durch den

Quartils-

dispersionskoeffizienten

oder durch die in der EDA bevorzugten Maße dH = H0- Hu M ~~ M

ZW

"

dE M ~~

EU

M

gegeben.

B e i s p i e l 4 . 1 9 In den Beipielen 4.2, 4.10, 4.14 und 4.15 wurden für die Lattenlängen bereits diverse Streuungsmaße berechnet. Natürlich ist eine Standardabweichung von beipielsweise 0.3945 d.h. von etwa vier mm nicht sehr viel, wenn die mittlere Länge bei einem Meter liegt. Die Maschine wäre jedoch unzureichend genau, wenn diese Streuung bei Werkstücken von 5cm Länge beobachtet würde. Eine Betrachtung des Variationskoeffizienten ermöglicht den Vergleich von Streuungen bei unterschiedlichen Lageparametern (mittleren Lattenlängen). Für den Variationskoeffizienten erhält man damit T, V

=

0.3945 Ä =

0

-004'

wohingegen sich für den Quartilsdispersionskoeffizienten

Q D K

=

1 0 0 . 0 5 - 99.9 99.95 = °-°015-

Der Variationskoeffizient von 0.004 sagt aus, daß die Streuung 0.4 % der mittleren Lattenlänge beträgt.

Wiederum erkennt man, daß der Ausreißer den Variationskoeffizienten

stark vergrößert, wohingegen der Quartilsdispersionskoeffizient von ihm unbeeinflußt bleibt. M

116

4.3

KAPITEL

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

Schiefe und Wölbung

Neben der Lage und der Streuung eines Datensatzes spielen insbesondere die

Formparameter,

die in diesem Abschnitt vorgestellt werden, eine wichtige Rolle. Zunächst werden rameter beha,nde\t.

Schiefepa-

Sie weisen auf Abweichungen der untersuchten Häufigkeitsverteilung von

einer symmetrischen Verteilung hin. Symmetrische Verteilungen besitzen links und rechts vom Lageparameter dieselben Häufigkeitsstruktur. In Abbildung 4.3 sind Histogramme von drei Verteilungen mit unterschiedlicher Schiefe dargestellt. Das Histogramm (a) veranschaulicht die symmetrische Häufigkeitsverteilung der G e s a m t p u n k t z a h l e n im Abitur, die in einer Stichprobenerhebung von 215 Studenten der Universität Konstanz erfaßt wurden. Vergleiche dazu auch Tabelle 3.1'2 und Beispiel 3.11. Die Häufigkeitsdichte einer rechtschiefen (linksschiefen) Verteilungen steigt links steil an (fällt rechts steil ab). Daher werden mitunter die Begriffe linkssteil (rechtssteil) s t a t t rechtsschief (linksschief) verwendet. Als Beispiel für eine rechtschiefe bzw. linkschiefe Verteilung sind in Abbildung 4.3 (b) die Milchkuhbestände in landwirtschaftlichen Betrieben (vgl. Tabelle 3.5 und Beispiel 3.5) bzw. in (c) die mittleren J a n u a r t e m p e r a t u r e n (vgl. Tabelle 3.7) dargestellt. Ein einfaches Kriterium zur Beurteilung der Schiefe kann durch den Vergleich unterschiedlicher Lageparameter gewonnen werden. der Modus

XM, der Median

( ä i _ a + xa)/'2

, 0 < a
SM TO QMMtpuiktz^ll

Ott

8**

( b ) M i l c h k u h b e s t ä n d e landwirtschaftlicher B e t r i e b e als Beispiel für eine rechtschiefe Verte''Un®

MiictlkuhO«.t«od landHirtach.

B«trJ.ato«

«.86 a.»4 JC a ¡< ( . 1 3 -

i

l ...2 • 1- « . « I

-



1*



3t

4*







MllchkulTbMtend ( c ) L a n g j ä h r i g e M i t t e l w e r t e der J a n u a r t e m p e r a t u r e n in 42 deutschen S t ä d t e n als Beispiel für eine linksschiefe V e r t e i l u n g Histogramm dar m i t t l * e.3S -

Januartamparaturan

KAPITEL

118

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

Tabelle 4.9: Kenngrößen zur Schiefeberechnung

Kenngröße

Abiturgesamtnoten (a)

Milchkuhbestände (b)

Januartemperaturen (c)

Modus XM

600

7.5

1.175

Median io.5 (M)

594

13.408

0.25

arithm. Mittel x

590.32

17.3

0.026

unteres Quartil £0.25

521

6.625

-0.8

oberes Quartil io.75

662

25.281

1.0

Quartilsabstand «¿q

141

18.656

1.8

108.72

13.428

1.384

594; 591; 583.25; 591.5

13.408; 15.953

0.25; 0.1; 0.0; -0.425

Standardabweichung a midsummaries

gerade in umgekehrter Größenordnung. Es ergeben sich somit die folgenden Lageregeln:

(I) Zur Beurteilung werden x, x und XM herangezogen: (i) XM — X = X weist auf eine symmetrische Verteilung hin. (ii) XM < x < x ist Indiz für eine rechtsschiefe Verteilung. (iii) XM > i > i ist typisch für eine linksschiefe Verteilung. (II) In der EDA werden stattdessen die Midsummaries verwendet: (i) M = mid(H) — m i d ( £ ) deutet auf eine symmetrische Verteilung hin. (ii) Aus M < m i d ( / / ) < m i d ( £ ) kann auf einen rechtsschiefen Datensatz geschlossen werden. (iii) M > m i d ( ^ ) > m i d ( £ ) ist charakteristisch für linksschiefe Datensätze.

Zur Beurteilung der Schiefe eines Datensatzes können auch weitere Midsummaries (etwa mid(D), mid(C), m i d ( B ) usw.) verwendet werden. Generell weisen aufsteigende (fallende) Midsummaries auf eine rechtschiefe (linksschiefe) Verteilung hin.

Beispiel 4.20 Die in Tabelle 4.9 aufgeführten Kenngrößen erlauben eine erste Beurteilung der Schiefe: Für die Abiturgesamtpunktzahlen (a) sind Modus, Median und arithmetsches

4.3.

SCHIEFE

UND

WÖLBUNG

119

Mittel ungefähr gleich, welches eine symmetrische Verteilung anzeigt.

Die steigende bzw.

fallende Anordnung dieser Lageparameter bei Verteilung (b) bzw. (c) weisen auf eine rechtschiefe bzw. linksschiefe Verteilung hin. Zu den gleichen Schlüssen kommt man, wenn m a n die Anordnung der in der letzten Zeile von Tabelle 4.9 angegebenen midsummaries als Lageregel verwendet. Sie sind für die Verteilung (a) nahezu konstant, für die Verteilung (b) wachsend und für Verteilung (c) fallend.

txl

An dieser Stelle sollte auch das Auge dafür geschärft werden, daß unterschiedliche Werte von Lageparametern bei schiefen Verteilungen (wie eben zum Beispiel Einkommensverteilungen) von gewieften Praktikern zur U n t e r s t ü t z u n g der jeweils eigenen Argumentation ge(miß-) braucht werden können. Je nach S t a n d p u n k t wird etwa mit dem Modus, dem Median oder dem arithmetischen Mittel argumentiert. Neben den Lageregeln benutzt man auch Kennzahlen zur Beurteilung der Schiefe. Ein mit Quantilen arbeitendes Maß der Schiefe ist der a-Quantiiskoeffizient

=

(xi-a

- £) -(X - xa) X\ — Q XQI

{ Ü T 0 < a
0

bei rechtsschiefer

QSa < 0

bei linksschiefer

Verteilung.

Es gilt stets - 1 < Q S a < + 1 und

QSa = +1

genau dann, wenn

xa = x

QSa = - 1

genau dann, wenn

¿ i _ a = x.

Besonders beliebt ist der Quartiiskoeffizient der Schiefe Q S l / 4 . Von Karl Pearson wurden folgende Schiefemaße vorgeschlagen, die beide über die Lageregel (I) motiviert werden können: Der erster Pearsonsche

Schiefekoeffizient

KAPITEL

120

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

a verwendet den Abstand des arithmetischen Mittels vom Modus, und beim zweiten schen

Pearson-

Schiefekoeffizient SK 2 :=

a

wird die Differenz zwischen arithmetischem Mittel und Median verwendet.

Dieser findet

Verwendung, wenn der Modus nicht verfügbar oder seine Angabe nicht sinnvoll ist.

Der

Faktor 3 wird dadurch motiviert, daß bei schiefen, eingipfligen Verteilungen häufig x — xm ss 3 (z — ä) mit guter Näherung gilt.

Beispiel 4.21 Tabelle 4.9 enthält die zur Berechnung der oben eingeführten Schiefekoeffizienten notwendigen Angaben. Die Superskripte a, b und c der Koefizienten entsprechen den in gleicher Weise markierten Verteilungen in Tabelle 4.9. Die Quartilskoeffizienten der Schiefe QSo 25 sind durch QS0.25 =

(662 - 594) - (594 - 521) — = -0.035,

(25.281 - 13.408) - (13.408 - 6.625) QSL* = * ^ ' = 0.273 und Q*>o.25 -

(1.0- 0.25)-(0.25 - ( - 0 . 8 ) ) j-g = -0.167

gegeben. Wiederum wird Verteilung (a) als näherungsweise symmetrisch, Verteilung (b) als rechts- und Verteilung (c) als linksschief ausgewiesen. Für die Schiefekoeffizienten SK\

und

S K i von Pearson ergibt sich nl,a S k

5 9 0 . 3 2 - 600

,

3(590.32- 594)

108.72 = - ° ' 0 8 9 Un (a, - x) 4 n,}/ 6\ und auch

»

jt

c

3 0. • p E •

600

4ee

300 CHEM

MATH

BIOL

PHYS

PSYC

PHIL

Uli

UERU

Fakultaat bzw. Fachgruppe

JURA

SOZI

4.4.

BOX-PLOTS

145

B e i s p i e l 4 . 2 9 Die fakultätsspezifischen Verteilungen der Gesamtnoten sollen anhand von gekerbten Box-Plots auf unterschiedliche Mediane der Gesamtnoten untersucht werden. Aus der Abbildung 4.10 ist ersichtlich, daß sich beispielsweise die Einkerbungen der Box-Plots der Mathematiker nicht mit denen der Wirtschafts-, der Verwaltungs-, der Rechts- und Sozialwissenschaftler überschneiden. Daraus kann die etwa Aussage abgeleitet werden, daß die Mediane der Gesamtpunktzahlen aller Konstanzer Mathematikstudenten höher sind als diejenigen der Konstanzer Jura-Studenten. Die Wahrscheinlichkeit, daß diese auf der Grundlage zufällig erhobener Daten getroffene Aussage falsch ist, beträgt lediglich 5%. Dagegen kann anhand der Stichprobe nicht geschlossen werden, daß ein solcher Unterschied etwa zwischen den Studenten der Mathematischen und der Philosophischen Fakultät besteht.

txl

146

4.5

KAPITEL

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

Konzentration

Bei der Messung der Konzentration geht man von einem extensiven

(sinnvoll summierbaren)

Merkmal mit nicht negativen Ausprägungen aus und fragt, wie sich die Gesamtmerkmalssumme auf die Merkmalsträger aufteilt. Konzentration unterscheidet sich also von Streuung, die darüber Auskunft geben, wie sich die Untersuchungseinheiten auf auf die möglichen Merkmalsausprägungen verteilen. Typischerweise eignen sich Methoden zur Messung und zur Veranschaulichung der Konszentration bei den folgenden Fragestellungen:

(i) Wie verteilen sich Gesamtumsatz oder Beschäftigtenzahl eines Industriezweiges auf die einzelnen Industriebetriebe? (ii) Wie verteilt sich das Gesamteinkommen (Gesamtvermögen) der Bevölkerung auf die Haushalte? (iii) Wie verteilt sich die landwirtschaftliche Nutzfläche einer Region auf die einzelnen landwirtschaftlichen Betriebe? (iv) Wie verteilt sich der Monatsumsatz einer Firma auf die einzelnen Artikel ihres Sortiments? (v) Wie verteilen sich die Studienabgänger auf die Berufsgruppen (Wirtschaftzweige)?

Zur graphischen Veranschaulichung der Konzentration dient die Lorenzkurve. Aus ihr soll n k ablesbar sein, welcher Anteil an der Merkmalssumme ^ x j bzw. auf einen vorgej=l ¿=i gebenen Anteil a (0 < a < 1) der Merkmalsträger mit den kleinsten Merkmalsausprägungen i entfällt. An den Stellen u, = — , 0 < i < n, ist die empirische Lorenzkurve gegeben durch

-(0 Zwischen den Punkten

0

, ¿ = 0 ,

= i/n

i=

l,...,n

i = 0 , . . . , n wird linear interpoliert. Bei gruppierten Daten

definiert man entsprechend für i uo = 0 , U{ = ^ 3=1

Tj , 1 < i < k und

< a-2 < . . . < a^

4.5.

147

K O N Z E N T R A T I O N

0 ¿ n ( « i )

-

{

I T '

a

i

=

0

i

=

1 , . . . ,

n k

x

wobei mit a, die Klassenmitten bezeichnet werden. Zwischen den P u n k t e n

Ui,

L

n

wird wie-

( u { )

derum linear interpoliert. In manchen Fällen sind auch die Summen der Merkmalsausprägungen in den j - t e n Klasse bekannt und können somit direkt anstelle von a j n j eingesetzt werden. Eine Approximation durch die Klassenmitten erübrigt sich dann natürlich. Die empirische Lorenzkurve hat folgende Eigenschaften:

(a) Ln(0)

= 0 , Ln( 1) = 1 und Ln ist konvex im Intervall [0,1].

(b) Ln(x)

< x

und für ein x £ ( 0 , 1 ) gilt Ln(x)

= x genau dann, wenn xi =

= ... = xn

(keine Konzentration) (c) Die Lorenzkurve für gruppierte Daten liegt stets oberhalb (höchstens a u f ) der Lorenzkurve für die ungruppierten D a t e n .

Zum Verständnis der Lorenzkurve und zur Definition eines Konzentrationsmaßes ist es nützlich, die beiden folgenden Grenzfälle zu betrachten.

• Wenn sich die Merkmalssumme gleichmäßig auf die Untersuchungseinheiten verteilt (d.h.

= i(2) = ••• = £(„)), fällt wegen

L

n

( i / n )

=

i / n

die Lorenzkurve mit der

Winkelhalbierenden z u s a m m e n . In diesem Fall liegt keine Konszentration vor, und ein geeignetes Konzentrationsmaß sollte den Wert Null annehmen. • Fällt hingegen einer Untersuchungseinheit die gesamte Merkmalssumme zu, (d.h. x ^ ) = X(2)

=

•••

=

Z( n _i) = 0, z ( t l ) > 0), so gilt

L

n

( i / n )

= 0,

i

=

1,...,

n

-

1,

L

n

(

1)

=

1.

In diesem Falle extremer Konszentration sollte ein Konzentrationsmaß möglichst groß werden.

Es sind viele Maßzahlen zur Messung der Konzentration vorgeschlagen worden, von denen hier jedoch nur zwei vorgestellt werden.

F ü r Vergleichszwecke kann jedes dimensionslose

Streuungsmaß verwendet werden, also etwa der

V a r i a t i o n s k o e f f i z i e n t

a / x .

Je kleiner die

Streuung, desto geringer die Konzentration. Im Extremfall Xi = x 2 = . . . = xn ist a = 0 (Konzentration Null, sogenannte

E i n p u n k t v e r t e i l u n g ) .

KAPITEL

148

4. MAßZAHLEN UNIVARIATER

VERTEILUNGEN

Das am häufigsten verwendete Konzentrationsmaß ist das sogenannte Gini-Maß

renzsches Konzentrationsmaß

(auch:

Lo-

) Fläche zwischen der Winkelhalbierenden und der Lorenzkurve

G kann Werte zwischen Null (keine Konzentration) und

(maximale Konzentration) an-

nehmen. Durch den Faktor 2 wird erreicht, daß für große n und maximale Konzentration ein Wert nahe 1 ausgewiesen wird. Ein Maß, das den Wertebereich [0,1] ganz ausschöpft ist

durch das normierten

Ginimaß

gegeben. Aus der obigen Festlegung folgt

Da die Fläche unter der Verbindungslinie der Punkte mit Höhe 1/n, Grundfläche Ln(^p)

2 f Ln(x)dx J0

=

2-

1

und Deckfläche Ln(^)

L(0) + L(i) 2 - ) - -

.¡=1

und wegen 1 = — 1

nx

^

ist

G

oder

G

, Ln(^-))

2

Ln(±))

ein Trapez

ist, ergibt sich

, L(i) + L($)

+

und

¿ ( 3 = 1 ) + ¿(1)

+ ••• +

2

(denn 1 ( 0 ) = 0 und 1 ( 1 ) = 1)

4.5.

KONZENTRATION

149

Eine entsprechende Überlegung liefert für gruppierte Daten die Berechnungsformel

G

^E

— 1.

Aus der vorigen Eigenschaft (c) folgt, daß das Ginimaß für gruppierte Daten nicht, größer als für ungruppierte Daten sein kann. Abschließend werden einige Sonderprobleme der Konzentrationsmessung betrachtet.

( 1 ) Beim zeitlichen Vergleich kann ein Ausscheiden von Merkmalsträgern aus der Gesamtheit (durch Verdrängung) zu einer 'statistischen' Verringerung der Konzentration führen. Man stelle sich die folgende fiktive Situation vor: Zum Zeitpunkt t = 1 gebe es 98 'kleine' und 2 sehr 'große' Unternehmen. Dies bedeutet eine hohe Konzentration. Zum Zeitpunkt t = 2 sind alle 98 'Kleinen' von den 2 'Großen' aufgekauft. Diese sind hinterher gleichgroß, welches zu einer Konzentration von Null führt. Um solche Fehlschlüße zu vermeiden, sollten ausgeschiedene Merkmalsträger mit Merkmalsausprägung Null weitergeführt werden. (2) Sehr unterschiedliche Situationen können zum selben Ginimaß führen, wie die in Abbildung 4.11 skizzierte Situation verdeutlicht. Abbildung 4.11: Zwei konstruierte Lorenzkurven

In der Situation A vereinigen 50 % der Merkmalsträger auf sich 13.3 % der Merkmalssumme. Dagegen besitzen in Situation B 13.3 % der Merkmalsträger einen Anteil von 50 % an der Merkmalssumme. Dennoch ergeben sich in beiden Situationen die gleichen Ginimaße (GA

=

GB)-

150

KAPITEL

4. MAßZAHLEN

UNIVARIATER

VERTEILUNGEN

Tabelle 4.'25: Berechnung der Lorenzkurve und des Ginimaßes für die Verteilung der Hopfenerntemengen auf die deutschen Hopfenanbaugebiete 1979 und 1990 (a) 1979 i

Anbaugebiete

Erntemengen in [t]

£}=i

X

U)

i/n

Lorenzkurve L(i/n)

1

sonst. Gebiete

1 248

1 248

0.25

0.040

312

2

Spalt

1 344

2 592

0.5

0.084

1 008

3

Tettnang

1 612

4 205

0.75

0.136

2 015

4

Hallerstau

26 674

30 878

1.0

1.0

46 679.5

30 878

50 014.5

D a t e n q u e l l e : Statistisches J a h r b u c h 1980 f ü r die Bundesrepublik D e u t s c h l a n d , Hrsg.: S t a t i s t i s c h e s B u n d e s a m t , K o h l h a m m e r Verlag, S t u t t g a r t , Mainz, Seite 147.

(b) 1990 1

Anbaugebiet

Erntemenge in [t] x

£j=i

x

u)

i/n

Lorenzkurve

2i—1 „ — *(•')

¿(t/n)

(0

1

sonst. Gebiete

168

168

0.2

0.006

33.6

2

Spalt

855

1 023

0.4

0.037

513

3

Jura

1 169

2 192

0.6

0.079

1 169

4

Tettnang

1 852

4 044

0.8

0.146

2 592.8

5

Hallestau

23 580

27 624

1.0

1.0

42 444

27 625

46752.4

Datenquelle: Statistische J a h r b ü c h e r 1980 und 1991 für die B u n d e s r e p u b l i k D e u t s c h l a n d , Hrsg.: S t a t i s t i s c h e s B u n d e s a m t , K o h l h a m m e r Verlag, S t u t t g a r t , Mainz, Seite 147 bzw. S e t e 167.

4.5.

151

KONZENTRATION

Abbildung 4.12: Lorenzkurven zur Veranschaulichung der Konzentration der Hopfenerntemenge auf die deutschen Hopfenanbaugebiete (a) 1979 L o r a n z k u r u a : Hopfenanbau 1979

i/n (b) 1990 Loranzkuruai

Hoprananbau

i/n

1999

152

KAPITEL

4.

MAßZAHLEN

UNIVAR1ATER

VERTEILUNGEN

B e i s p i e l 4 . 3 0 In den Statistischen J a h r b ü c h e r n 1980 u n d 1991 findet m a n A n g a b e n zur Verteilung der g e s a m t e n b u n d e s d e u t s c h e n H o p f e n e r n t e auf die wichtigsten A n b a u g e b i e t e . Die Tabellen 4.25 (a) u n d (b) e n t h a l t e n die zur Berechnung der Lorenzkurve u n d des G i n i m a ß e s wesentlichen D a t e n . Zur Lorenzkurve m u ß jeweils die sechste S p a l t e gegen die f ü n f t e Spalte a b g e t r a g e n werden. Die beiden Lorenzkurven sind in A b b i l d u n g 4.12 dargestellt. Sie zeugen von einer h o h e n K o n z e n t r a t i o n des H o p f e n a n b a u s auf das Gebiet Hallerstau, deren S t r u k t u r 1990 sich nicht wesentlich g e g e n ü b e r 1979 g e ä n d e r t h a t .

Zur Berechnung der G i n i m a ß e

werden die S p a l t e n s u m m e n der d r i t t e n u n d siebten Spalte v e r w e n d e t . D a m i t e r h ä l t m a n 1 1979 =

1\

Z Ü ^ ;

£

( * - i )

1 1990 =

E

^

,

^ £

/2i

-

50 014.5 1

=

1\

w

-

1

=°-

6 1 9 7

u n d

46 752.4 1

V5 " 5)*« -

= 1 7 624- -

1

= °-6925-

Die G i n i m a ß e weisen w i e d e r u m auf ein h o h e K o n z e n t r a t i o n hin, die sich von 1979 bis 1990 etwas e r h ö h t h a t .

ixl

B e i s p i e l 4 . 3 1 Als Beispiel f ü r die Berechnung von Lorenzkurve u n d G i n i m a ß im Falle gruppierter D a t e n dienen die M i l c h k u h b e s t ä n d e landwirtschaftlicher Betriebe. Die z u m Zeichnen der Lorenzkurven erforderlichen W e r t e befinden sich jeweils in den Spalten 5 u n d 6 der Tabellen 4.26. Die zugehörigen Lorenzkurven sind in A b b i l d u n g 4.13 wiedergegeben. Berechnet m a n die L o r e n z k u r v e n direkt aus den D a t e n der Tabellen (a) u n d ( b ) , so fällt a u f , d a ß sich deren Aussehen nicht sehr unterscheidet.

Ein Ablesebeispiel b e s t ä t i g t dies: Im J a h r e 1975

entfielen auf 62.4 % d e r B e t r i e b e (mit den wenigsten K ü h e n ) 30.2 % der Milchkühe, u n d im J a h r e 1989 besaßen 67.6 % der B e t r i e b e 37.3 % der Milchkühe. Die so dargestellte Konzent r a t i o n spiegelt jedoch nicht die Entwicklung der l a n d w i r t s c h a f t l i c h e n Betriebe in den J a h r e n 1975 bis 1989 wieder. In dieser Zeit h a b e n fast die Hälfte der L a n d w i r t e ihre Milchkühe abgeschafft o d e r den g e s a m t e n Betrieb stillgelegt. Berüchsichtigt m a n die Differenz der Anzahlen der B e t r i e b e 1989 u n d 1975 m i t der A n z a h l von Null K ü h e n , so e n t s t e h t die in A b b i l d u n g 4.13 dargestellte Lorenzkurve, die eine erhebliche Vergrößerung der K o n z e n t r a t i o n aufzeigt. Zur B e r e c h n u n g der G i n i m a ß e b e n ö g t m a n die S u m m e n der vierten und siebten S p a l t e n der Tabellen 4.26 u n d e r h ä l t G

«

=

7618510.9

,

539i959- "

1

„ „„ = °'412'

4.5.

KONZENTRATION

153

Tabelle 4.26: Berechnung der Lorenzkurven und Ginimaße für die Milchkuhhaltung in den landwirtschaftlichen Betrieben des früheren Bundesgebietes (a) im Jahre 1975 Milchkuhbestand

Anz. Betriebe

von . . . bis . . .

n;

1

1 -4

187539

2

5 - 9

3

i

Anz. Milchkühe in Tsd

U{

L(u,)

478.733

0.328

0.089

157024.4

169543

1149.911

0.624

0.302

1094715.2

10-14

153402

2056.248

0.892

0.683

3117272.9

4

20-39

56017

1421.610

0.990

0.947

2675470

5

40 und mehr

5645

288.457

1.0

1.0

574029.4

572146

5394.959

(«,_! +

U;)a;7l;

7618510.9

(b) im Jahre 1989 (Die seit 1975 ausgeschiedenen Betriebe finden keine Berücksichtigung) i

Milchkuhbestand

Anz. Betriebe

Anz. Milchkühe in Tsd.

Ui

£(«.•)

(U,'_i

+

U,)

dilli

von . . . bis . . .

iii

1

1-4

48035

124.2

0.159

0.025

19.75

2

5-10

77811

580.4

0.416

0.141

333.73

3

11-19

78585

1157.9

0.676

0.373

1264.43

4

20-39

77332

2066.6

0.932

0.786

3323.09

5

40 und mehr

20445

1068.5

1.0

1.0

2064.34

302208

4997.6

7005.34

(c) im Jahre 1989 (Die seit 1975 ausgeschiedenen Betriebe werden mit dem Milchkuhbestand "0" berücksichtigt.) Milchkuhbestand

Anz. Betriebe

von . . . bis . . .

n;

1

0

"269938"

2

1-4

3

Anz. Milchkühe in Tsd.

Ui

L(ut)

0.0

0.472

0.0

48035

124.2

0.556

0.025

127.68

5-10

77811

580.4

0.692

0.141

724.34

4

11-19

78585

1157.9

0.829

0.373

1761.17

5

20-39

77332

2066.6

0.964

0.786

3705.41

6

40 und mehr

20445

1068.5

1.0

1.0

2098.53

572146

4997.6

1

(«.'-1 + M.')ai«l'

0.0

8417.13

Datenquelle zu (a): Statistisches B u n d e s a m t : Fachserie 3, Land- u n d Forstwirtschat, Fischerei, Reihe 1 Ausgewählte Zahlen f ü r die A g r a r w i r t s c h a f t 1976, S. 95 Datenquelle zu (b) u n d (c): Statistische J a h r b u c h 1991 für die B u n d e s r e p u b l i k D e u t s c h l a n d , Hrsg.: Statistisches B u n d e s a m t , K o h l h a m m e r Verlag, S t u t t g a r t , Mainz, Seite 160.

154

KAPITEL

4. MAßZAHLEN

UNIVAR1ATER

VERTEILUNGEN

Abbildung 4.13: Lorenzkurven für die Milchkuhhaltung in den landwirtschaftlichen Betrieben des früheren Bundesgebietes (a) im Jahre 1975 Loranzkurua: Milchkuhhaltung 1976

u

(b) im Jahre 1989 (Die seit 1975 ausgeschiedenen Betriebe finden keine Berücksichtigung) Loranzkurua: Milchkuhhaltung 1989

u

(c) im J a h r e 1989 (Die seit 1975 ausgeschiedenen Betriebe werden mit dem Milchkuhbestand "0" berücksichtigt.)

Loranzkurua: Milchkuhhaltung 1969

u

4.5.

KONZENTRATION

155

Die Ginimaße bestätigen wiederum, daß sich die tatsächliche Konzentrationsänderung nur dann meßbar ist, wenn die ausgeschiedenen Betriebe mit dem Bestand Null weitergeführt werden.

M

Kapitel 5

Transformation von Daten Allgemein ist eine Transformation eine Abbildung T : IR

—•

Xi

—•

IR, T(xi).

In diesem Sinne ist jede Klassenbildung oder Kategorisierung von Daten eine Transformation. Es gibt verschiedene Gründe, die es nützlich erscheinen lassen, bei gewissen Datensätzen zur Erhöhung der Information von graphischen Darstellungen und von BuchstabenwerteZusammenstellungen, geeignete Transformationen der Beobachtungswerte vorzunehmen. Unterschiedliche Lage- und Skalenniveaus können häufig den Vergleich von Datensätzen erschweren. Ist M ein geeigneter Lageparameter und S > 0 ein dazu passender Streuungsparameter, so werden solche Lage- und Skalenunterschiede durch Lineartransformationen der Art 2H = T(xi) die man als Standardisierung

= (xi-M)/S,

(5.1)

bezeichnet, ausgeglichen.

Solche Lineartransformationen ändern jedoch die Form der Verteilung selbst nicht. Asymmetrische Verteilungen bleiben asymmetrisch, Ausreißer (die etwa auf einer Seite der Verteilung gehäuft auftreten) bleiben Ausreißer. Will man die Form der Verteilungen ändern, so muß nach anderen (nichtlinearen) Möglichkeiten der Transformation gesucht werden. Gründe für die Durchführung einer Transformation können sein:

1. die Erleichterung einer sachbezogenen Interpretation,

158

KAPITEL

5.

TRANSFORMATION

VON

DATEN

2. die Erhöhung der Symmetrie der Verteilung eines Datensatzes, 3. die Stabilisierung der Varianz beim Vergleich mehrerer Datensätze oder 4. die "Linearisierung" von Beziehungen zwischen zwei Datensätzen.

Auf den unter 4. genannten Gesichtspunkt wird später im Kapitel 9.2. eingegangen. Im hier folgenden werden vor allem die unter 1. bis 3. aufgeführten Aspekte behandelt.

5.1

Transformationen zur Erhöhung der Interpretierbarkeit

Datentransformationen führen zu einer anderen Art der I n f o r m a t i o n s ü b e r t r a g u n g , die in manchen Fällen leichter oder natürlicher interpretierbar ist. verhalt ab und erfordert einschlägige Sachkenntnisse.

Dies hängt vom jeweiligen Sach-

Hier sollen einige Beispiele erwähnt

werden.

1. In den USA werden die Temperaturen in Grad Fahrenheit (F) gemessen. In der Wissenschaft ist man auch dort längst zur Messung in Grad Celsius (C) übergegangen, da dort der Nullpunkt und der 100°C-Punkt eine natürliche Interpretation als Gefrierpunkt bzw. Siedepunkt des Wassers zulassen. Die zugehörige Transformation C =

\{F-32)

ist linear. 2. Die Wirtschaftlichkeit eines P K W wird in den angelsächsischen Ländern durch die sogenannte mileage = miles per gallon beurteilt. Will m a n die amerikanischen Messungen in die bei uns übliche Verbrauchsangabe Vebrauch = Liter je 100 km umrechnen, so f ü h r t dies zu einer Transformation 1 mit der Konstanten c =

4.4046 1.60934

5.2.

POTENZTRANSFORMATIONEN

159

3. Bei biologischen Populationen, die keinen N a h r u n g s - oder räumlichen Restriktionen unterliegen, ist häufig die A n n a h m e gerechtfertigt, daß die Veränderung der Population ^ ¡ j in der Zeitspanne At bzw.

die Ableitung ^

proportional zum Bestand P der

Population ist, d.h. AP dP —— = r • P bzw. —r- = r • P. At dt Aus einem solchen Modell mit konstanter Wachstumsrate r resultiert ein exponentielles Wachstum Pt = P 0 ( l + c) i bzw.

Pt=P0eci.

In diesem Fall ergeben die Logarithmen der Populationsbestände Pt eine lineare Funktion der Zeit. Log-Transformationen sind auch bei humanen Populationen und wirtschaftlichen Wachstumsuntersuchungen sehr beliebt. 4. Bei der Säuremessung wird im Labor die Konzentration der freien Wasserstoffionen in einer Lösung ermittelt. Konzentrationen sind Anteilswerte, liegen also zwischen 0 und 1. Je höher die Konzentration Xi, desto saurer die Lösung i. Wegen der besseren Interpretierbarkeit wird jedoch nicht die Messung x der Wasserstoffionenkonzentration, sondern deren negativer dekadischer Logarithmus, der sogenannte pH-Wert (potentio Hydrogenii) pH

=

-log10(i)

angegeben. Einem Anteilwert von x = 1 0 - 7 entspricht also der pH-Wert 7.

Nicht immer liefert eine Datentransformation eine bequeme Interpretation. Dennoch kann eine solche Transformation manchmal nützlich sein. So kann es sinnvoll sein, etwa die Werte yi =

5.2

zu betrachten, obwohl keine physikalische Interpretation damit verbunden ist.

Potenztransformationen

Eine Art der Transformation zur Änderung der Form einer Verteilung, die sich besonders bei Bestands- oder Zähldaten bewährt h a t , ist die sogenannte Potenztransformation. Sie ist für ein Merkmal mit positiven Ausprägungen in der Form

I

axP + b c log x + d

0 ,p = 0

(5.2)

160

KAPITEL

5.

TRANSFORMATION

VON

DATEN

Tabelle 5.1: Lei ter der Potenzen Name

Transformation

p

Bemerkungen

kubisch Quadrat "Roh"daten

keine Transformation

Quadratwurzel

Eine häufig verwendete Transformation

X

Logarithmen

sehr oft verwendet

!_

reziproke Wurzel

Das Minuszeichen erhält die Ordnung der Daten

y/x log _ l

2

-1 -2

i/x 1

reziprok

1 "xi

definiert, wobei a,b,c,d

reziproke Quadrate

£ 1R und sign(a) = sign(p).

Potenztransformationen haben folgende wünschenswerte Eigenschaften:

( 1 ) Tp(x) = a • p • xp

1

> 0 für x > 0. Wegen

sign(a) = sign(p) ist T streng monoton

wachsend (auf I R + ) . Damit erhält die Transformation die Ordnung der Daten, d.h. aus X,- < xj folgt Tp(xi)


IR ist stetig, d.h. zwei Punkte, die im Ausgangsdatensatz nahe beieinander liegen, liegen auch im transformierten Datensatz nahe beieinander. ( 4 ) Die Abbildungen Tp sind glatt, d.h. sie besitzen Ableitungen beliebiger Ordnung.

5.2.

POTENZTRANSFORMATIONEN

161

Abbildung 5.1: Potenzfunktionen Tp für einige Werte von p

~

P=2

x

Abbildung 5.2: Potenzfunktionen T* für einige Werte von p

Laitar dar Potanzan

0

0.6

1

1.6 x

2

2.6

3

3.6

162

KAPITEL

5.

TRANSFORMATION

VON

DATEN

(5) Die Abbildungen Tp sind einfache Funktionen, die leicht zu berechnen sind. Die einfachste Art der Datentransformation erhält man durch die Wahl a = sign(p),

c = 1

und b = d — 0 : fp(x)

:=

xP,

p > 0

logx,

p = 0

-xf,

p < 0

(5.3)

Eine Tabelle dieser Funktionen Tp , angeordnet nach fallenden p-Werten, Leiter der Potenzen,

nennt Tukey

(vgl. Tabelle 5.1). Abbildung 5.1 beinhaltet die Graphen von

Potenzfunktionen Tp für ausgewählte Werte von p. Betrachtet man die Potenztransformationen als eine Familie mathematischer Funktionen mit verwandten Eigenschaften, dann eignet sich besonders die Parameterwahl a = c = 1,

b = —^ für p ^ 0 und

d = 0 für p = 0 :

Die Transformation In x ergibt sich aus

durch den Grenzübergang p —• 0 und

Anwendung der Regel von de l'Hospital. In Abbildung 5.2 sind Transformationen T* für einige Werte von p dargestellt. Zu einer von (5.3) und (5.4) abweichenden Wahl der Parameter kommt man beim 'Matching',

auf das in Kapitel 5.5 eingegangen wird.

(6) Alle gemäß (5.2) definierten Funktionen Tp sind konvex für p > 1 und konkav für p < 1 für alle x € IR. Es gibt keinen Wendepunkt. Deshalb wird die Verteilung der Ursprungsdaten im Fall p < 1 für große Daten x zusammengepreßt und für kleine x auseinandergezogen. Ist p > 1, so werden die Daten für große x weiter auseinandergezogen und für kleine x zusammengepreßt. Kompliziertere Formveränderungen sind nicht möglich, wie etwa das Ausstrecken beider Verteilungsschwänze und ein Zusammendrücken des mittleren Bereichs. Eine Transformation, die dies bewerkstelligt, wäre etwa Tp-m{x)

= (x -

m)p

mit p > 1 und einem mittleren Wert m.

Die Parameterwahl in (5.4) hat zur Folge, daß für alle Tp G {T*\p € R} gilt Tp*( 1) = 0

und

r ; ' ( ! ) = 1,

5.3.

TRANSFORMATIONEN

ZUR ERHÖHUNG

DER

SYMMETRIE

163

d.h. alle Funktionen gehen durch den P u n k t (1,0) und haben dort die Steigung 1. Man nennt Funktionen mit dieser Eigenschaft in diesem

Punkt angepaßt

(matched).

In der Leiter der Potenzen wird eine Transformation als umso stärker bezeichnet, je weiter sie von der Identität T(x)

= x entfernt ist, d.h. je grösser \p — 1| ist. Dies hat etwas mit

der Stärke der K r ü m m u n g zu tun. Mathematisch definiert man als K r ü m m u n g eines Kreises K =

Ra\ius

• Für eine beliebige glatte Kurve nimmt man als K r ü m m u n g K(x)

an einer Stelle

(x,y) den Kehrwert des Radius des größtmöglichen Kreises, der sich an dieser Stelle an die Kurve anschmiegen läßt. Die Ausführung dieses Gedankens f ü h r t zu der Kriimmungsformel

[1 + ( / ' ( * ) ) ^ Für die Funktionen T*(x)

ist T*'(x)

- if"

Kt.{X)

1

und T*"{x)

:

= (p - l ) x P - 2 , also

[1 + X 2 P" 2 ]i

Speziell für x = 1 ist die K r ü m m u n g A ' ( l ) =

d.h. in (1,0) ist die K r ü m m u n g propor-

tional zu |p - 11. Vom S t a n d p u n k t der K r ü m m u n g führen also die Potenzen • • •, - 2 ,

—1,

0,

1, §, 2, • • • zu einer äquidistanten Skalierung der Leiter der Poten-

zen. Potenztransformationen setzen voraus, daß alle Beobachtungswerte i , positiv sind. Treten auch negative Werte auf, dann kann dies beseitigt werden, indem eine K o n s t a n t e zu den Beobachtungen hinzuaddiert wird, bevor die Potenztransformation durchgeführt wird. Jedenfalls sollte in r;,m:={

p

I l n ( i + m),

(5.5)

p= 0

m "klein" sein im Verhältnis zur Größenordnung der meisten Beobachtungen X{. Die Addition einer solchen Konstanten m kann auch bei Transformationen mit p < 0 angebracht sein, wenn bei "kleinen" Meßwerten (nahe Null) sonst sehr starke Verstärkungen auftreten würden. Die Formel (5.5) ist in der Literatur als BOX-COX-Transformation

5.3

bekannt.

Transformationen zur Erhöhung der Symmetrie

Nach Tukey sind symmetrische Verteilungen einfacher zu interpretieren, mitzuteilen und zu vergleichen. Schiefe Verteilungen können zu bewußten oder unbewußten Mißinterpretationen

KAPITEL

164

5.

TRANSFORMATION

VON

DATEN

führen. So fallen bekanntlich bei symmetrischen Verteilungen die Lagemaße Modus, Median und arithmetrisches Mittel zusammen und stimmen auch mit allen Midsummaries überein. Bei schiefen Verteilungen fallen sie auseinander und können so zu Irreführungen b e n u t z t werden. So wurden beispielsweise f ü r den Milchkuhbestand in landwirtschaftlichen Betrieben mit dem arithmetischen Mittel x = 17.3, dem Median io.s = 13.408 und dem Modus %M — 7.5 drei unterschiedliche Lageparameter berechnet. Die damit verbundenen Aussagen

"Die meisten Betriebe besitzen zwischen 7 und 8 K ü h e . " ,

"Es gibt genauso viele Betriebe, die mehr als 13 K ü h e halten wie es solche gibt, die weniger als 14 K ü h e besitzen." und

"Die Landwirtschaftsbetriebe besitzten durchschnittlich zwischen 17 und 18 K ü h e . "

drücken alle etwas anderes aus.

Will m a n nun die Lage zweier solcher Verteilungen ver-

gleichen, kann dies zu durchaus unterschiedlichen Ergebnissen führen, je nach dem, welcher Lageparameter b e n u t z t wird. Wie in Abschnitt 4.3 behandelt, kommt die Schiefe einer Verteilung durch einen Trend in den Midsummaries der Letter-Values zum Ausdruck. Die Eigenschaft (6) h a t zur Folge, daß durch die Anwendung einer P o t e n z t r a n s f o r m a t i o n mit p < 1 (p > 1) auf einen rechtschiefen (linksschiefen) D a t e n s a t z eine Verteilung entsteht, die "symmetrischer" als die der ursprünglichen Daten ist. Inwieweit die Transformation zu mehr Symmetrie geführt h a t , kann wiederum a n h a n d der Midsummaries der transformierten D a t e n festgestellt werden. Um die A r t der Transformation festzulegen, genügt es, die Letter-Values zu transformieren, soweit sie eine ganzzahlige Tiefe h a b e n . Bei einer gebrochenen Tiefe transformiert m a n die beiden benachbarten Werte.

Daraus können dann die neuen Midsummaries und Streuungen berechnet

werden. In der Praxis werden für p meist nur Werte der Art i.O oder x.5 verwendet. Zur Ermittlung einer geeigneten Potenz p für die Transformation schlagen Hoaglin, Mosteller und Tukey (1982) einen Transformationsplot

vor, zu dessen Darstellung die Bezeichnung M

für den Median und Qu bzw. Q0 für den unteren bzw. den oberen Wert des Letter-Values Q (Q = H, E, D, • • • ) verwendet wird.

5.3.

TRANSFORMATIONEN

ZUR ERHÖHUNG

DER

SYMMETRIE

165

Tabelle 5.2: Plot zur T r a n s f o r m a t i o n der E r d ö l d a t e n auf S y m m e t r i e (Qu-MfMCio-Mf f _ 77 = mid(Q) — M W e r t für p >»/i

Q

mid(Q)

M

41.5

0

0

-

-

H

62.5

35.28

24

0.68

0.32

E

111.9

187.78

70.4

0.37

0.63

D

230.5

1024.18

188.98

0.18

0.82

In einem solchen T r a n s f o r m a t i o n s p l o t werden die P u n k t e (£, tj) mit d e n Abszissenwerten (Qu

-

4

M f

+

{Q0 -

M)2

4M

und den O r d i n a t e n w e r t e n t7 =

Q

" + Q°

- M = Mid(Q) - M

a b g e t r a g e n . Ist der resultierende G r a p h u n g e f ä h r linear, d a n n erhält m a n die gesuchte P o t e n z aus p — 1 — Steigung des T r a n s f o r m a t i o n s p l o t s Dieser A n s a t z liefert eine g u t e e r s t e N ä h e r u n g f ü r eine geeignete T r a n s f o r m a t i o n . Die t h e r o tische B e g r ü n d u n g h i e r f ü r wird im A b s c h n i t t 5.6 nachgeliefert. Bei einer s y m m e t r i s c h e n Verteilung gilt 77 = 0 f ü r alle Letter-Values, also 0 = a — 1 — p d.h. j>—\.

Die Abzissenwerte £ sind n i c h t a b n e h m e n d f ü r Q = H,E,

D,

Dies b e d e u t e t ,

daß wachsende M i d s u m m a r i e s zu positiver Steigung a > 0 (also zu p < 1) f ü h r e n , und d a ß a b n e h m e n d e M i d s u m m a r i e s zu a < 0 (also p > 1) f ü h r e n . Zur E r m i t t l u n g der Steigung a des T r a n s f o r m a t i o n s p l o t s wird eine resistente Linie d u r c h den U r s p r u n g eingezeichnet.

Liegen

die W e r t e (£, 77) nicht auf einer G e r a d e n , d a n n k o m m t es bei der W a h l von p d a r a u f a n , ob mehr Wert auf S y m m e t r i e im m i t t l e r e n D a t e n b e r e i c h oder in den Schwänzen gelegt wird.

B e i s p i e l 5 . 1 Die Verteilung der D a t e n zur Ergiebigkeit einer E r d ö l p r o v i n z , die in Tabelle 3.13 a u f g e f ü h r t sind, ist rechtsschief, wie m a n a n h a n d des S t e m - & - L e a f - D i a g r a m m s (vgl. A b b i l d u n g 3.25) u n d a n h a n d des Box-Plots in A b b i l d u n g 5.3 (a) ersehen kann.

Zur Sym-

metrisierung rechtschiefer Verteilungen ist wegen (6) eine T r a n s f o r m a t i o n mit p < 1 geeignet. Eine Möglichkeit b e s t e h t n u n d a r i n aus der Leiter d e r P o t e n z e n geeignete W e r t e (hier p = 0 . 5 , 0 . 0 , - 0 . 5 . . . ) auszuwählen u n d a n h a n d der M i d s u m m a r i e s o d e r der Box-Plots eine

166

KAPITEL

5. TRANSFORMATION

VON

DATEN

Abbildung 5.3: Box-Plots der Ergiebigkeit von Erdölfeldern und der transformierten Daten (a) Box-Plot der Originaldaten

—I

0



30«

~

600 908 Oalfaldgroeaaa

1200

1600

(b) Box-Plot der Quadratwurzeln der Originaldaten

h

10

20

30

40

Uurzal dar Oalfaldgroaaaa

(c) Box-Plot des Logarithmus der Originaldaten

x 0

2 4 6 logarithmlarta Oalfaldgroaaaan

8

5.4.

STABILISIERUNG

DER VARIANZ

MEHRERER

DATENSÄTZE

167

Abbildung 5.4: Transformations-Plot für die Ergiebigkeit von Erdölfeldern

see 188 120

ee 40

see

4ee

eee xi

eee

leee

isee

Entscheidung zu treffen. Zum Bestimmen einer geeigneten Tranformation kann jedoch auch der oben vorgeschlagene Transformationsplot verwendet werden. In Tabelle 5.2 sind die Wertepaare (£, Tj), die Midsummaries und Quotienten 7//£ sowie die sich daraus ergebenen Werte für p = 1 -

eingetragen. Der zugehörige Transformationsplot ist in Abbildung 5.4 wieder-

gegeben. Die in der Tabelle aufgeführten Werten legen eine Transformation mit p — 0.5 für den zentralen Bereich bzw. eine logarithmische Transformation für die Außenbereiche nahe. Nach der Wurzeltransformation erhält man die Midsummaries M — 6.44, mid(H) = 7.40, mid(E) = 8.81 und mid(D) = 12.09 und nach der logarithmischen Transformation M = 3.73, niid(H) = 3.78, mid(E) = 3.77 und mid(D) = 4.12. Die Midsummaries sprechen also für die Wahl einer logarithmischen Transformatin. Dieselben Schlußfolgerungen ergeben sich, wenn man die in Abbildung 5.3 (b) und (c) dargestellten Box-Plots nach den Transformationen To.5 und T 0 betrachtet. Somit ist hier eine logarithmische Transformation der Daten sinnvoll. In weitergehenden Erklärungsmodellen (etwa solchen mit zusätzlichen Einflußgrößen) sollte man also eine logarithmische Transformation in Erwägung ziehen.

5.4

M

Stabilisierung der Varianz mehrerer D a t e n s ä t z e

Bei Bestands- und Zähldaten nehmen die Streuungen oft mit zunehmenden Lageparametern zu. Sollen die Lageparameter von N Datensätzen miteinander verglichen werden, so wirken

KAPITEL

168

5. TRANSFORMATION

VON

DATEN

sich diese Streuungsunterschiede als störend aus. Dies gilt sowohl für die visuelle Darstellung als auch für Vergleiche, die auf Verfahren der schließenden Statistik beruhen. (So gehen etwa Methoden zur klassischen Einfachklassifikation in der Varianzanalyse von konstanten Varianzen in den einzelnen Klassen aus, und es werden lediglich unterschiedliche Lageparameter unterstellt.) Es wird nun eine Potenztransformation derart angegeben, daß die transformierten Datensätze in etwa konstante Streuungen haben. Unterstellt man, daß die Streuung (hier die HingeSpread d f j ) über dH = dH(M)

= k- Ma.

von der Lage (hier dem Median M) abhängt, so erhält man den sogenannten Niveau-Plot (spread-versus-level-plot),

(5.6) Streuungs-

in welchen für die Datensätze 1 , 2 , . . . , TV (mit Media-

nen Mi und H-spreads dn { ) die Abzissen- und Ordinatenwerte fi = In Mi,

bzw.

r){ — In d//,

eingetragen werden. Ist o die Neigung einer resistenten Geraden, so erhält man p — 1 — a als Vorschlag für die geeignete Potenz. Die technischen Überlegungen, mit denen diese Vorgehensweise begründet werden kann, sind im Kapitel 5.6 enthalten.

Beispiel 5.2 Ein Vergleich der länderspezifischen Verteilungen der 20 größten Firmen aus 13 europäischen Ländern, die in den Tabellen 4.12 bis 4.24 aufgeführt sind, wird durch die sehr unterschiedlichen Streuungen erheblich erschwert. Wie man anhand der Box-Plots in der Abbildung 4.9 erkennen kann, nimmt die Streuung mit wachsendem Lageparameter zu. In dieser Situation ist eine Potenztransformation der Daten zur Stabilisierung der Varianz sinnvoll. In Abbildung 5.5 ist der Streuungsniveau-Plot dieser Datensätze enthalten, wobei in Bild (b) die Punkte mit einer Länderkennung versehen sind. In das Koordinatensystem (a) ist zusätzlich die Winkelhalbierende eingetragen. Da die Daten durch diese Gerade schon gut angepaßt werden, ist eine geeignete Transformation durch p = 1 — a = 0 gegeben. Daß die logarithmische Transformation zu einer Stabilisierung der Varianzen führt, demonstrieren die Box-Plots in Abbildung 5.6. Dadurch, daß nun die Varianzen der länderspezifischen Verteilungen in etwa dieselbe Größenordnung aufweisen, wird der Blick auf die Lageunterschiede gelenkt. Auch hier sind also die logarithmierten Daten besser zu analysieren.

M

5.4.

STABILISIERUNG

DER VARIANZ

MEHRERER

DATENSÄTZE

169

Abbildung 5.5: Streuungs-Niveau-Plot für die Umsätze der 20 größten Firmen in 13 europäischen Staaten (a) mit eingezeichneter Winkelhalbierende ie.6 9.6

S

8.6

• L 0. •

7.6

6.6 6.6 4.6 7

ie

8

ln (b) mit Länderkürzeln 18.5 9.5



CH . 1 '

8,5

GB . D . F

• HL

7.5 6.5

IHL- ' D*

5.5 4.5 7 8 In(Median)

ie

170

KAPITEL

5.

TRANSFORMATION

VON DATEN

Abbildung 5.6: Box-Plots für die logarithmierten Umsätze der 20 größten Firmen in 13 europäischen Staaten

+

_i

u

CD

(X}»suin> Bot

5.5.

ANGEPAßTE

5.5

TRANSFORMATIONEN

(MATCHED

TRANSFORMATIONS)

171

Angepaßte Transformationen (Matched Transformations)

In (5.2) ist die allgemeine Form der Potenztransformation Tp(x) zielle Wahl a — 1 und b — Transformation Tp(x)

eingeführt worden. Die spe-

(c = 1, d = 0) führte zu der Familie T*. Nach Durchführung der

werden die transformierten Daten im allgemeinen ein gegenüber den

Ursprungsdaten sehr verschiedenes Aussehen haben. Im mittleren Datenbereich können die transformierten Daten y, = T p { x { ) sehr gut durch eine Lineartransformation der Ausgangsdaten approximiert werden. Die Idee des matching" besteht darin, in der erneuten (Linear-) Transformation z = aTp(x) 4- b die Parameter a und b so zu wählen, daß die transformierten Daten Z{, zumindest im mittleren Bereich, den Ausgangsdaten möglichst nahe kommen. Die beiden freien Parameter n und b sollen nun so bestimmt werden, daß dieses Ziel möglichst gut erreicht wird. Man könnte etwa fordern, daß für zwei ausgewählte Punkte X{ und xj z; = i , und z} — Xj gilt. Dem dürfte jedoch eine Parameterwahl vorzuziehen sein, bei der für einen zentralen Punkt xq z

q



und

xq

= 1 für x = x0

dx

gilt. Damit kommt die Transformation in der Nähe des zentralen Punktes einer Lineartransformation nahe. Mit dieser Überlegung ist b dz dx

=

x0 — aTp(x o)

=

af'p(x

0)

= 1,

X=X0

also a =

1 f;(xo)

und

woraus Tp(x) Z

=

X 0

-

Tp(x0)

+

r;(*o) resultiert. Daraus erhält man z =

V*

0

p=

0.

(5.7)

172

KAPITEL

5.

TRANSFORMATION

VON

DATEN

Abbildung 5.7: Box-Plots für die Daten zur Ergiebigkeit einer Ölprovinz nach logarithmischer Transformation und Matching

I—i

-40

i

e

i

49

i i

88

i

128

i

168

i

20«

M*

2Q

oder i ™ , — natürliche Schranke |zmin — natürliche Schranke|

> 20. -

Als

Kapitel 6

Graphische Darstellungen multivariater D a t e n 6.1

Multivariate Häufigkeitsverteilungen

Für die meisten Problemstellungen ist nicht nur die Beschreibung der Häufigkeitsverteilung eines einzelnen Merkmals von Interesse, sondern es stehen Zusammenhänge zwischen den Verteilungen mehrerer Merkmale im Vordergrund. So ist im Beispiel 2.1 der Befragung der Studenten nach den benutzten Beförderungsmittel zur Universität Konstanz etwa der Zusammenhang zwischen Anfahrtzeit mit öffentlichen Verkehrsmitteln und dem vornehmlich gewählten Beförderungsmittel von Interesse. Auch könnte das gewählte Verkehrsmittel von der Semesterzahl und vom Studienfach oder die Zufriedenheit mit den öffentlichen Verkehrsmitteln von deren Anfahrtzeit abhängen. Zur Behandlung solcher multivariate

Daten betref-

fender Fragestellungen ist die Untersuchung der gemeinsamen Häufigkeitsverteilung mehrerer Merkmale notwendig. Die Merkmale Xi,... zusammengefaßt.

,Xp werden wie auf Seite 21 im Merkmalsvektor X = (X-[, X2, • • • Xp) Die i-te Zeile der Datenmatrix X (vgl.

(2.1)) enthält die Merkmals-

ausprägungen für die i-te Untersuchungseinheit. Um unnötige Indizierungen zu vermeiden, werden bei einer geringen Anzahl von interessierenden Merkmalen zumeist unterschiedliche Großbuchstaben vom Ende des Alphabets verwendet, d.h. X = (X,Y, Z, U,...). der Datenmatrix X hat dann die Gestalt (x,, ?/,, z,,

Die i-te Zeile

. . . ) , i = 1 , . . . , n. Im Falle X = (X, Y)

178

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

Tabelle 6.1: Allgemeine Kreuztabelle für absolute Häufigkeiten Y

bm

b2

Summe

X

Ol

TlH

«21

02

il 2 l

W22 •

.

0,

nn

ni 2

.

ak

nki

ru-2

.

Summe

n.

spricht man von einem

i

n.

bivariaten

2





«Im

ni.

n2j





n2m

n 2.

.

Uij

.

Tlim

ni.

.

nkj

.

Tlkm

nk.

n j

.

Tl.m

n

• • ™13

. ..

Fallen bei diskreten Merkmalen meh-

Merkmalsvektor.

rere Messungen auf eine und dieselbe Ausprägung, so werden anstelle der Urlisten x i , . . . , xn, ? / i , . . . , yn,

z i , . . . , zn

usw. die möglichen Merkmalsausprägungen und die zugehörigen Häufig-

keiten notiert: a, ,

i = 1 , . . . , k für das Merkmal

X,

bj,

j = 1 , . . . , m für das Merkmal Y und

cj,

l = 1 , . . . , q für das Merkmal Z,

usw. Eine tabellarische Aufbereitung erfordert bei stetigen Merkmalen, eventuell auch bei diskreten, eine l =

Klassenbildung

in

die Merkmalskategorien

i

1,

=

. . . , k , j

= 1 , . . . , m , und

1 , . . . , q . In diesem Fall stehen in der Häufigkeitstabelle anstelle der a; und

sengrenzen "von

i bis unter Ui " und "von i>j_i bis unter v j " .

d.h. (a;,

bj,

C[,...)

absolute

Häufigkeit

und mit r,^/ =

v

j ) / 2 gesetzt.

des Auftretens der Merkmalskombination ihre

relative

Häufigkeit

die Klas-

Die Größen a; und bj

werden dann in der Regel auf die Klassenmitten (u;_i + ii;)/2 bzw. (i>j_i + Mit riij/... wird die

bj

(i,j,l,•••)

bezeichnet. Bei einem bivaria-

ten Merkmal bzw. im Fall der paarweisen Aufbereitung eines höherdimensionalen Merkmals erhält man als tabellarische Darstellung eine (zweidimensionale) gemeine S t r u k t u r einer Felder

Tafel

genannt)

bivariaten

Kontingenztabelle.

Häufigkeits-, Kontingenz- oder Kreuztabelle (auch

ist in Tabelle 6.1 angegeben.

Die allk

x

m-

Tabelle 6.2 enthält als Beispiel einer

bivariaten Kontingenztafel die Anzahlen der S t r a f t a t e n gegen die sexuelle Selbstbestimmung im J a h r 1990 nach Deliktart und Ortsgrößenklasse aufgegliedert.

6.1.

M ULTIVA RIATE

HÄ UFIGKEITS

VERTEIL

179

UNGEN

Tabelle 6.2: Straftaten gegen die sexuelle Selbstbestimmung: Bekanntgewordene Fälle nach

Ortsgr.kl. ( V ) : Anzahlen d. Einwohn. u. lfd. Nr. bis

20 000

100 000

500 000 und mehr

20 000

- 100 000

- 500 000

lfd. Nr.

Deliktart ( X )

1

2

3

4

1

Vergewaltigung

1 227

1 288

1 007

1 534

2

Sexuelle Nötigung

857

1 112

830

943

3 742

3

Sex. Mißbrauch von Kindern

3 287

3 911

2 765

2 739

12 702

4

Exhibit. u. Erreg, off. Argern.

2 380

3 212

2 203

1

E

7 751

9 523

6 805

6 319 Fälle konnten keiner speziellen Ortsgrößenklasse z u g e o r d n e t werden.

E

978

7 194

5 056

9 773 31 273

Diese werden in den weiteren

Untersuchungen ausgeschlossen. Datenquelle: Polizeiliche K r i m i n a l s t a t i s t i k 1990, Hrsg.: B u n d e s k r i m i n a l a m t , W i e s b a d e n . S. 114

An den Rändern stehen jeweils die S u m m e n , die absoluten Randhäufigkeiten

der einzelnen

Variablen: n;.

=

« ü + . . . + nim

n.j

=

n\j + ...+

=: n(X

nkj =: n(Y

= a,-),

i =

= bj),

j =

l,...,fc

l,...,m

Die verschiedenen Häufigkeiten erfüllen k

m

Y

k n

Y

1=1 3=1

»

m = Y n - i = j= 1

= Y

i=l

n



Analoge Beziehungen gelten natürlich, wenn in der Häufigkeitstabelle die relativen Häufigkeiten rij = n tJ / n angegeben sind: Ti.

=

r,i + . . . + rim = n(X

= i)/n,

r

=

Tij + ... +rkj

- j)/n

-i

- n(Y

i=l,...,k j =

l,...,m

und H

Y ,

i = i j=i

Ti

> = Y

r i

1=1

• = Y j=i

=

In einer zweidimensionalen k x m-Feldertafel unterscheidet m a n

(a) Die beiden eindimensionalen Randverteilungen (ni.,n2.,...,nfc.)

oder

von X bzw. von Y: (rj., r 2 . , . . . , rk.)

180

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

Tabelle 6.3: Relative Häufigkeitstabelle der Straftaten gegen die sexuelle Selbstbestimmung: Bekanntgewordene Fälle nach Deliktart und Ortsgrößenklasse aufgegliedert Ortsgr.kl. ( y ) : Anzahlen d. Einwohn. u. lfd. Nr.

lfd. Nr. 1

bis

20 000

100 000

500 0 0 0

20 0 0 0

- 100 000

- 500 000

und m e h r

1

2

3

4

Vergewaltigung

0.039

0.041

0.032

0.049

0.161

Deliktart ( X )

£

2

Sexuelle Nötigung

0.027

0.036

0.027

0.030

0.120

3

Sex. Mißbrauch von Kindern

0.105

0.125

0.088

0.088

0.406

4

E x h i b i t . u. Erreg, öff. Ärgern.

0.076

0.103

0.070

0.063

0.312

E

0.247

0.305

0.217

0.230

1.000

bzw. (n.i.n.2,...

wobei r,-. =

( b ) die k + m bedingten

oder

n.m)

nijn

bzw.

( r . l ! f.2) • • • i T.m)

r.j =

n.j/n.

mit den relativen Häufigkeiten

Verteilungen

r,yj = iiij/n.j(

für n.j > 0) , i = 1 , . . . , k

und Ti/i

-

nij/ni.(

für 71,. > 0 ) , j = 1 , . . . , m.

Diese geben die relative Häufigkeitsverteilung des Merkmals X für die j-te Ausprägung (Klasse) des Merkmals Y bzw. die relative Häufigkeitsverteilung des Merkmals Y für die i-te Ausprägung (Klasse) des Merkmals X an. Für die bedingten relativen Häufigkeiten ergeben sich natürlich wiederum die Gleichungen k ^^Ti/j



1

für alle

j = 1,...,m

=

1

für alle

»=l,...,fc.

bzw.

;=i m

^^Tjfi 3=1 ( c ) Die gemeinsame

Verteilung

von X und Y, gegeben durch die absoluten Häufigkeiten

rtij bzw. die relativen Häufigkeiten rt] =

n,j/n.

6.1. MULTIVARIATE

HÄUFIGKEITSVERTEILUNGEN

181

Tabelle 6.4: Straftaten gegen die sexuelle Selbstbestimmung: Bedingte Verteilung der Fälle auf die Deliktarten bei gegebener Ortsgrößenklasse O r t s g r kl. ( K ) : Anzahlen d. Einwohn. u. lfd. Nr. bis

20 000

100 000

500 000

20 000

- 100 000

- 500 000

und m e h r

lfd. Nr.

Deliktart ( X )

1

2

3

4

1

Vergewaltigung

0.158

0.135

0.148

0.213

2

Sexuelle Nötigung

0.111

0.117

0.122

0.131

3

Sex. Mißbrauch von Kindern

0.424

0.411

0.406

0.381

4

E x h i b i t . u. Erreg, öff. Argern.

0.307

0.337

0.324

0.275

£

1.000

1.000

1.000

1.000

Tabelle 6.5: Straftaten gegen die sexuelle Selbstbestimmung: Bedingte Verteilung der Fälle auf die Ortsgrößenklassen bei gegebenen Deliktarten Ortsgr.kl. ( V ) : Anzahlen d. Einwoh n. u. lfd. Nr.

lfd. Nr.

Deliktart ( X )

bis

20 000

100 000

500 000

20 000

- 100 000

- 500 000

und m e h r

1

2

3

4

E

1

Vergewaltigung

0.243

0.255

0.199

0.303

1.000

2

Sexuelle N ö t i g u n g

0.229

0.297

0.222

0.252

1.000

3

Sex. Mißbrauch von K i n d e r n

0.259

0.308

0.218

0.216

1.000

4

E x h i b i t . u. Erreg, öff. Argern.

0.244

0.329

0.225

0.202

1.000

182

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIA

TER

DATEN

Beispiel 6.1 Zur Erläuterung der Begriffe wird die Häufigkeitsverteilung der Straftaten gegen die sexuelle Selbstbestimmung verwendet.

Die absoluten Häufigkeiten n ^ und die

Randhäufigkeiten n,-. bzw. n s i n d in der Tabelle 6.2 eingetragen. Die zugehörigen relativen Häufigkeiten befinden sich in Tabelle 6.3.

Beipielsweise berechnet sich die relative

Häufigkeit der Vergewaltigungen in der Ortsgrößenklasse [20 000,100 000) zu ri2 = ni2/n

=

1 288/31 273 = 0.041, d.h. 4.1% der aller Straftaten gegen die sexuelle Selbstbestimmung im Jahre 1990 waren Vergewaltigungen, die in Orten mit 20 000 bis 100 000 Einwohnern begangen wurden. Die relative Häufigkeitsverteilung der Straftaten auf die Ortsgrößenklassen (ohne Berücksichtigung der Deliktarten) oder auf die Deliktarten (ohne Berücksichtigung der Ortsgrößenklassen) kann an den Randsummen der Tabelle 6.3 abgelesen werden. Zur Beurteilung der Verteilung der Ortsgrößen sollte man berücksichtigen, daß sich die Gesamtbevölkerung der Bundesrepublik Deutschland zum 31.12.89 (alte Bundesländer) auf die vier Ortsgrößenklassen wie folgt verteilte:

Gemeinden unter 20 000 Einwohner:

40.5 %

Städte von 20 000 bis unter 100 000 Einwohner

25.9 %

Großstädte von 100 000 bis unter 500 000 Einwohner

16.8 %

Großstädte ab 500 000 Einwohner

16.7 %

Also sind die Straftaten in den drei oberen Ortsgrößenklassen überrepräsentiert und in der unteren unterrepräsentiert, gemessen an der Bevölkerungszahl dieser Klassen. An der Randverteilung der Deliktarten liest man ab, daß sexueller Mißbrauch von Kindern mit 40.1 % der Fälle am häufigsten erfaßt wurde. Um die Verteilung der Deliktarten in einer speziellen Ortsgrößenklasse zu untersuchen, eignen sich die bedingten Verteilungen. Tabelle 6.4 enthält die bedingten Verteilungen r,|j = n{j/n,j der Deliktarten innerhalb der Ortsgrößenklassen und Tabelle 6.4 die bedingten Verteilungen r^, = n,j/n,. auf die Ortsgrößenklassen für die einzelnen Deliktarten. Ein Vergleich der Spalten der Tabelle 6.4 erkennt man, daß die bedingten Verteilungen der Deliktarten bei gegebenen Ortsgrößenklassen keine allzu deutlichen Differenzen zeigen. In allen Ortsgrößen wurde der sexuelle Mißbrauch von Kindern am häufigsten, Erregung öffentlichen Ärgernisses und Exhibitionismus am zweithäufigsten und sexuelle Nötigung am seltensten registriert. Die Betrachtung der Tabelle 6.5 zeigt an, daß alle Deliktarten in der unteren Klasse weniger oft vertreten sind als es dem Anteil dieser

6.1.

MULTIVARIATE

HÄ UFIGKEITSVERTEIL

UNGEN

183

Klasse an der Gesamtbevölkerung (40.5%) entspräche. Es können eine Vielzahl weiterer Detailinformationen anhand der bedingten Verteilungen abgelesen werden, so zum Beispiel, daß Vergewaltungsfälle in den Großstädten am häufigsten vorkommen.

M

Werden mehr als zwei diskrete Variablen gleichzeitig betrachtet, so kann die Datenmatrix auf eine mehrdimensionale Kontingenztabelle reduziert werden. Dazu werden die gemeinsamen Häufigkeiten, mit denen die Variablen die Kombinationen der jeweiligen Realisat.ionsmöglichkeiten angenommen haben, ausgewählt und in einer geeigneten Form tabellarisch dargestellt. Übersichtlich bleibt eine solche Tabelle allerdings nur bis zu einer beschränkten Anzahl von Variablen und Ausprägungen.

B e i s p i e l 6.2 Als Beispiel für eine fünfdimensionale Kontingenztafel wird wiederum die fiktive Studentenbefragung nach den bevorzugten Verkehrsmittel (vgl. Beispiele 2.1 bis 2.4) herangezogen. Zur übersichtlicheren Darstellung werden dabei auch diskrete Merkmale kategorisiert. So werden

• die vielfältigen Studienfächer in die Gruppen Mathematik und Naturwissenschaften (MN), Wirtschafts- und Sozialwissenschaften (WS) und Geisteswissenschaften (G), • die Semesterzahl in die Klassen < 5 und > 5 Semester, • die Fahrzeiten in die Kategorien < 30 und > 30 Minuten, • die Zufriedenheit in die beiden Gruppen "zufrieden" und "unzufrieden".

eingeteilt.

Aus Tabelle 6.6 erkennt man unter anderem:

• Die Studenten sind mit den öffentlichen Verkehrsmittel vor allen dann unzufrieden, wenn diese mehr als eine halbe Stunde für den Weg zur Universität benötigen. • Die Unzufriedenen kommen vorwiegend mit dem Auto zur Universität. • Die Zufriedenheit mit den öffentlichen Verkehrsmittel hängt nicht von der Semesterzahl oder dem Studienfach ab.

184

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

Tabelle 6.6: Beispiel für eine fünfdimensionale Kontingenztafel: Studentenbefragung nach benutzten Verkehrsmittel zufrieden benötigte

ja

nein

Zeit

Semesterzahl

Semesterzahl

mit öff. Verkehrs-

Verkehrs-

mittel

mittel

< 30

> 30

5

Studienfach

Studienfach


5

Studienfach

MN

WS

G

MN

MN

WS

zu Fuß

3

2

2

2

1

0

10

2

1

Bus

11

6

7

8

6

4

42

5

3

Studienfach G

E

MN

WS

2

1

0

2

8

2

3

2

3

18

G

Auto

4

3

2

4

1

2

16

7

9

7

5

6

7

41

Fahrrad

7

4

4

5

3

2

25

6

3

4

4

3

3

23

sonst.

0

0

1

0

0

0

1

0

1

0

0

0

0

1

E

26

15

15

19

11

8

94

20

17

15

13

11

15

91

zu Fuß

0

0

0

0

0

0

0

0

0

1

0

0

0

1

Bus

3

2

2

2

2

1

12

4

3

4

3

2

2

18

Auto

6

4

3

4

2

3

22

11

10

6

9

5

8

49

Fahrrad

0

0

0

0

0

1

1

2

3

2

1

0

1

9

sonst.

0

1

0

1

0

0

2

0

0

0

0

1

0

1

E

9

7

5

7

4

5

37

17

16

13

13

8

11

78

6.2.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

185

Tabelle 6.7: Beispiel für eine Vierfeldertafel: Studentenbefragung nach benutzten Verkehrsmittel mit öfF. Verkehrsm.

zufrieden

benötigte Zeit

ja

nein

E

< 30 Min.

94

91

185

> 30 Min.

37

78

115

E

131

169

300

Anhand dieses Beispiels wird offenkundig, d a ß aus Gründen der Übersichtlichkeit nicht mehr Variablen oder Ausprägungen in einer Tabelle verarbeitet werden sollten. Die Tatsache, d a ß für einige Variablen Zeilen- oder Spaltensummen ausgewiesen sind, erleichtert den Vergleich der Verteilungen. Auch können zur übersichtlicheren Darstellung die Randverteilungen ausgewählter Merkmale gesondert ausgewiesen werden. Tabelle 6.7 zeigt eine Vierfeldertafel

der

Merkmale "mit öffentlichen Verkehrsmitteln benötigte Zeit" und "Zufriedenheit". Für manche Aussagen wäre natürlich hier die Betrachtung relativer Häufigkeiten und bedingter Verteilungen aufschlußreich.

6.2

N

Graphische Darstellungen multivariater D a t e n

Streuungsdiagramm (Punktwolke, Scatterplot) Bei einem bivariaten, in jeder Komponente metrischen Merkmal ( X , Y ) eignet sich als Darstellungsart das Streuungsdiagramm:

Jeder Beobachtung ( i ; , i/;) wird ein P u n k t in der X — Y-

Ebene zugeordnet. Weitere Merkmalskomponenten können etwa durch Farbschattierungen, besondere Markierungen (Bsp.: • , A , o , 0 ) , Fähnchen etc. optisch veranschaulicht werden. Aus dem Streuungsdiagramm kann auf das Vorhandensein von Zusammenhängen zwischen X und Y geschlossen werden, die wechselseitiger Art ( X

K) oder einseitiger Art ( X => Y )

sein können.

• Ein linearer Trend rechtfertigt klassische Korrelations-

bzw.

Regressionsanalyse

(vgl.

186

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

Abbildung 6.1: Scatterplot: Umsätze versus Beschäftigtenzahlen der umsatzstärksten Großbetriebe in Deutschland im Jahre 1990 (x

10)

4

).4 8.8 1.2 1.6 2 2.4 2 . 8 3 . 2 3.6 4 (X 108080) BHChMftigt« die Abschnitte 7.2, 7.5, 9). • Bei Nichtlinearität suche man nach einer linearisierenden Potenztransformation (vgl. Abschnitt 9.2) oder nach weiteren Einflußgrößen (erklärenden Merkmalen). • Zerfällt die Punktwolke in mehrere Teilwolken, so schließt man auf Heterogenität der Gesamtheit und vermutet eine sachlich bedingte Klassenstruktur. Die Klasseneinteilung kann mittels Methoden der Clusteranalyse gefunden werden, auf die hier nicht weiter eingegangen wird. Mitunter empfiehlt es sich, die Klassen getrennt zu analysieren. Daneben lassen sich Ausreißer visuell leicht erkennen.

Beispiel 6.3 Tabelle 4.12 enthält die Umsätze und die Beschäftigtenzahlen der 50 umsatzstärksten deutschen Firmen und Abbildung 6.1 den Scatterplot der Umsätze gegen die Beschäftigtenzahlen. Auf den ersten Blick erkennt man einen positiven Zusammenhang zwischen dem Umsatz und der Beschäftigtenzahl. Genaueren Aufschluß über die Betriebe, die sich hinter den Punkten des Scatterplots verbergen, liefert eine Kennzeichnung der Punkte durch den zugehörigen Firmennamen. Hierbei empfiehlt es sich, aus Übersichtlichkeitsgründen lediglich einige vom Gros der Punkte abweichende Daten besonders zu markieren. Ein Scatterplot mit markierten Ausreißern ist in Abbildung 6.2 wiedergegeben. Die höchsten Umsätze im Jahre 1990 erzielten also Daimler-Benz, Volkswagen und Siemens. Sie weisen auch zu-

6.2.

GRAPHISCHE

Abbildung 6.2:

DARSTELLUNGEN

MULTIVARIATER

DATEN

Scatterplot mit Markierung ungewöhnlicher Punkte:

187

Umsätze versus

Beschäftigtenzahlen der umsatzstärksten Großbetriebe in Deutschland im Jahre 1990

(x

10)

4

Dainler-Benz Volkswagen

E

o

Sienens

3

•fl

u

E

c

2

N

•P « »

E D

Deutsche Bundesbahn ;r. " v• . - .-

8

0.4



0.8

1.2

I . I•I I• 1.6 2 2.4 Beschaeftigte

2.8

I 3.2

3.6

sammen mit der Deutschen Bundesbahn die höchsten Beschäftigtenzahlen auf. Die Deutsche Bundesbahn erwirtschaftet bei hoher Beschäftigtenzahl ungewöhnlich wenig Umsatz. Insofern stellt das zugehörige Wertepaar einen besonders auffälligen, von den anderen Daten abweichenden Ausreißer dar. Abbildung 5.5 (b) enthält einen Scatterplot, in dem alle P u n k t e markiert sind.

M

Scatter-Plot Matrix

Sollen die bivariaten Randverteilungen eines höherdimensionalen Merkmalsverktors mit Dimension p > 3 dargestellt werden, so eignen sich dazu besonders sogenannteScatterplot Matrizen, in denen alle Kombinationen zweidimensionaler Scatterplots eingetragen und in einem dreieckigen Schema dargestellt werden.

188

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATES.

DATEN

Tabelle 6.8: Durschnittspunktzahlen und Anteile in den Fakultäten Fakultät Math.

Physik

Chemie

Biologie

Wiwi/Stat.

Rechtswiss.

Gesamtnote

655

612.3

634.6

638.6

576.3

532.4

Note Deutsch

9.5

8.2

8.7

9.9

8.6

9.8

0.15

0.09

0.14

0.17

0.14

0.35

Merkmal

Anteil D e u t s c h Note Math.

14.0

12.8

12.1

11.4

10.8

7.8

Anteil M a t h .

0.85

0.86

0.38

0.35

0.32

0.17

Note Naturwiss.

12.4

12.8

13.5

13.1

10.9

9.7

Anteil N a t u r w i s s .

0.5

0.82

0.9

0.78

0.45

0.3

N o t e Gesellsch.

9.8

10.0

10.7

10.5

10.4

10.3

Anteil Gesellsch.

0.1

0.09

0.14

0.09

0.6

0.48

N o t e n e u e Spr.

8.7

8.4

9.2

11.0

10.7

10.0

Anteil n e u e Spr.

0.1

0.0

0.19

0.26

0.41

0.57

N o t e alte S p r .

12.4

7.3

10.5

9.5

10.7

9.3

Anteil a l t e Spr.

0.05

0.0

0.0

0.04

0.05

0.04

N o t e musische F .

12.0

10.4

10.5

11.0

9.7

10.1

Note Sport

12.9

11.6

12.4

11.5

10.1

10.7

N o t e Technik

12.9

13.2

11.8

12.1

9.4

8.4

Frauenanteil

0.26

0.07

0.29

0.5

0.29

0.43

B e i s p i e l 6 . 4 In Tabelle 6.8 sind die fakultätsspezifischen Durchschnittspunktezahlen und Anteile der Leistungskursteilnehmer für einige Gruppen von Schulfächern sowie der fakultätsspezifische Anteil von Studentinnen aufgeführt. Als Datengrundlage diente eine Stichprobenerhebung aus der Studentenkartei der Universität Konstanz, die 1991/92 mit dem Ziel durchgeführt wurde, Aussagen über den Zusammenhang zwischen Abiturleistungen und Studienfachwahl zu gewinnen. Abbildung 6.3 zeigt eine Scatterplot-Matrix eines Teiles der Daten der Tabelle 6.8. Daraus ist eine Vielzahl von Detailinformationen abzulesen — so beispielsweise:

• Die durchschnittliche Gesamtpunktzahlen sind in denjenigen Fakultäten besonders hoch, in denen Studenten eingeschrieben sind die gut in Mathematik, in naturwissenschaftlichen Fächern und in Sport sind.

• In Fakultäten mit hohem Anteil an Studentinnen sind Studenten/Innen mit überduchschnittlichen Leistungen in Deutsch und schwächeren Leistungen in Mathematik eingeschrieben.

6.2.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

189

DATEN

A b b i l d u n g 6.3: S c a t t e r p l o t - M a t r i x v o n f a k u l t ä t s s p e z i f i s c h e n D u r c h s c h n i t t s n o t e n und Frauenanteilen

« i

6

nj H H

ni * oid i ai^d«

HO ^ * '«JHd»' ajo^bn: •

o © • •

• * ®N

* * • «

*H3«TT»**9 **«Js »n»N> •••iJfdl

rn ®

• O •

3



'«nH laods >*»**dl IT»)ueu»nBJj

M e r k m a l e v o n l i n k s n a c h r e c h t s : durchschnittliche Gesamtpunktzahl, Durchschnittspunktzahlen im Fach Deutsch, Mathematik, in naturwissenschaftlichen, gesellschaftswissenschaftlichen, neusprachlichen und musischen Fächern sowie im Fach Sport; M e r k m a l e v o n o b e n n a c h u n t e n : Durchschnittspunktzahlen im Fach Deutsch, Mathematik, in naturwissenschaftlichen, gesellschaftswissenschaftlichen, neusprachlichen und musischen Fächern, im Fach Sport sowie Fauenanteil.

190

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

M ULT IVA RIA TER

DATEN

Tabelle 6.9: Fortsetzung der Tabelle: Durchschnittsnoten in den Fakultäten Fakultät Merkmal Gesamtnote

Philosophie

Psychologie

Sozialwiss.

Verw.wiss.

Gesamt 590.2

595.0

584.5

527.4

546.1

Note Deutsch

11.0

9.7

9.4

9.4

9.4

Anteil D e u t s c h

0.38

0.15

0.3

0.15

0.2

Note Math. Anteil M a t h . N o t e Naturwiss.

7.8

11.0

7.1

8.6

10.3

0.04

0.35

0.05

0.35

0.37

9.3

12.0

10.1

10.2

11.4

0.08

0.6

0.5

0.35

0.53

N o t e Gesellsch.

10.0

9.(1

10.1

10.7

10.2

Anteil Gesellsch.

0.33

0.2

0.55

0.6

0.32

N o t e neue Spr.

12.4

10.4

9.2

9.9

10.0

Anteil n e u e Spr.

0.8

0.4

0.4

0.4

0.35

N o t e alte Spr.

13.1

12.1

14.5

0.0

9.9

Anteil alte Spr.

0.21

0.1

0.05

0.0

0.05 10.6

Anteil N a t u r w i s s .

N o t e musische F .

10.8

10.3

10.8

10.1

Note Sport

11.4

11.2

11.0

11.5

11.4

N o t e Technik

13.0

11.3

7.9

8.1

10.8

Frauenanteil

0.62

0.65

0.4

0.38

0.39

• In Fakultäten, in denen die Studenten im Schnitt gute Sportnoten haben, sind die Durchschnittsleistungen in den musischen und naturwissenschaftlichen Fächern eher besser und in den neusprachlichen Fächern eher schlechter. • Positive Zusammenhänge gibt es weiter zwischen den Leistungen in Mathematik und in den Naturwissenschaften und zwischen den Leistungen in Deutsch und den neusprachlichen Fächern.

txl

Gekreuzte Box-Plots Gekreuzte Box-Plots dienen zur Darstellung eines bivariaten Merkmals (X,Y).

In einem

X-

Y-Streudiagramm werden die Beobachtungen eingetragen. Die zweidimensionale Box wird ersetzt durch ein Kreuz, dessen Schnittpunkt der Medianpunkt (Med(X),

Med(Y))

ist. Die

Linien werden parallel zu den Achsen bis zu den vier Angelpunkten ( H J , H*, Hu und H%)

6.2. GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

191

Abbildung 6.4: Scatterplot mit gekreuztem Box-Plot: Umsätze versus Beschäftigtenzahlen der umsatzstärksten Großbetriebe in Deutschland im Jahre 1990 ( x 10 ) 4

o

6 .2 1.6

2

2

4 2.8 3.2 3.6 4 (X 188080)

Baachavftigta

gezogen. Parallel dazu werden mit selber Länge Querstriche bei den vier Anrainern gezogen. Zur Verdeutlichung können außerhalb der Achsen die jeweiligen eindimensionalen Box-Plots eingezeichnet werden. Bivariate Box-Plots dienen auch zur Herausstellung bivariater Außenund Fernpunkte.

Beispiel 6.5

Abbildung 6.4 enthält eine Scatterplot mit eingezeichnetem gekreuztem Box-

Plot. Zunächst wurden die Mediane Mx

= 49 588.5 und MY

= 7 457Mio. berechnet und ein

Kreuz durch den Medianpunkt (49 588.5,7 457Mio.) eingetragen. Die Enden dieses Kreuzes werden von den Hinges / / * = 17 723, H * bestimmt.

= 86 100,

Die Anrainer ergeben sich zu X(i) =

i/(4i) — 17 209.

= 5 937 und H *

35, £(46) =

= 10 827Mio.

169 516, t/(i) =

4 372 und

Sie sind durch parallel zum Kreuz eingezeichnete Linien gekennzeichnet.

Außerhalb der Achsen sind die univariaten Box-Plots abgetragen worden. Als Ausreißer in beiden Richtungen werden lediglich die drei Punkte im Nordosten des Plots identifiziert. Sie gehören zu den Firmen Daimler-Benz, Siemens und Volkswagen ( v g l . Abbildung 6.2). Fünf weitere Firmen werden als univariate Ausreißer bezüglich der Umsätze ausgewiesen: V E B A , B A S F , Hoechst, Bayer und das R W E . Bezüglich der Beschäftigtenzahlen liegt zusätzlich die Deutsche Bundesbahn außerhalb der inneren Zäune.

Tatsächlich stellt sie aber den insge-

192

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

samt auffälligsten D a t e n p u n k t dar, da bei sehr hoher Beschäftigtenzahl ein vergleichsweise sehr geringer Umsatz erzielt wird.

txl

G l ä t t u n g ( S m o o t h i n g ) von S c a t t e r p l o t s

Die Originalbeobachtungen (i;,?/,), i = l , . . . , n , zeigen des öfteren eine recht große Variabilität auf, derart daß ein etwaiger Trend oder eine deutlicher Zusammenhang nicht ohne weiteres erkennbar ist. Damit die Anschaulichkeit eines Scatterplots erhöht wird, ist es sinnvoll, eine Kurve in die Punktwolke zu legen, die den Z u s a m m e n h a n g zwischen X und Y zusammenfaßt und weniger variiert als die Daten. Dieses Glätten

(Smoothing)

von

Scatterplots

ermöglicht dem Auge, etwaige Trends und Besonderheiten des untersuchten Z u s a m m e n h a n g s zu erkennen.

Methoden dazu werden im neunten Kapitel behandelt.

menhängen eignen sich die Regressionsverfahren

Bei linearen Zusam-

im Abschnitt 9.1. Eigentlich will m a n jedoch

die Strukturen im Scatterplot erst durch die G l ä t t u n g herausarbeiten und nicht im voraus eine lineare unterstellen. Sollen die Daten für sich selbst sprechen, so ist es r a t s a m , zunächst die in Abschnitt 9.3 aufgeführten Techniken anzuwenden, die auf solche Vorabklassifizierungen verzichten.

Z w e i d i m e n s i o n a l e H i s t o g r a m m e , V e r t e i l u n g s f u n k t i o n e n und K e r n d i c h t e s c h ä t z e r

F ü r metrische Merkmale ist das Histogramm

für bivariate

Tu (iIi fn(*,y)

i)(Uj

-1>;-1)

Daten wie folgt definiert:

für

=

z € [u,•_!,«,•) y e [wj-i, Uj)

0

sonst.

In entsprechender Weise kann auch die bivariate

empirische

Verteilungsfunktion

und das

Summenpolygon definiert werden. In Analogie zum univariten Fall ist das bivariate ix lv menpolygon für klassierte Daten durch das Doppelintegral Fn(x, y) = I I J— oo J — oo und die bivariate empirische Verteilungsfunktion durch Fn{x,y)

-

1

"

-!{(- «4 5 s \ i

£g £c c s s ji 3 5 i i | f c i

... »|> s ä 2 i i i

u

^

tj

u

£ i

£

u

i

a

S

u

i

w

£

i

»t

£

u

i

t*

£

Abbildung 6.12: Profilkurven für Fakultäten Rechtswiss. (R), Philosophie (H), Psychologie (Y), Sozialwiss. (S), Verw.wiss. (V) — Jura Philo« -»• P s u c h a -o- S o z i a l

; \

il

a a ss

a s » s

U

13

14

IS



17

R

3



„ | ü

a s i

s -i

J5 t I

u

i

«j

£ i

£

**

s j j s l s i a | £ i *J

V

-

s l i i i j

6.3. DARSTELLUNG

HÖHERDIMENSIONALER

DATEN (P > 2)

205

wendet. Für die i-te Untersuchungseinheit wird die Wellenfunktion fi(t) = xn

v2

+ Xi2 sin t + 1,3 cos t + Xi4 sin 21 + . . .

gezeichnet. Andrews' waves eignen sich im allgemeinen eher zur Identifikation und zur Diskriminierung von Objektgruppen. Auch hier ist in der Regel eine Standardisierung (vgl. (5.1) und (6.1)) sinnvoll.

Beispiel 6.12 Wiederum soll der Datensatz der fakultätsspezifischen Abiturleistungen und Präferenzen aus Beispiel 6.4 (vgl. Tabelle 6.8) untersucht werden. Abbildung 6.13 enthält für jede Fakultät (oder Fachgruppe) eine Andrews' wave der Form

f(t)

=

+ J/ii sini + t/j3cos« + j/15sin(2

-1

-7

-3.2

-2.4

-1.6

-0.8

0.8

1.6

3.2

6.3.

DARSTELLUNG

HÖHERDIMENSIONALER

Ausprägung der Merkmale variieren.

DATEN

(P > 2)

207

Die Repräsentation von Objekten durch Gesichter,

deren Züge die Merkmalsausprägungen widerspiegeln, wurde erstmals von Chernoff (1971, 1973) vorgeschlagen.

Flury und Riedwyl (1981) kritiesieren diese sogenannten ChernofF-

faces, da es nicht möglich ist, die Gesichtsteile unabhängig voneinander zu variieren und entwickeln ihrerseits Darstellungen, die diesen Nachteil nicht aufweisen. Mit Hilfe von FluryRiedwyl-Gesichtern können bis zu 36 Merkmale (18 je Gesichtshälfte) dargestellt werden. Die entsprechenden Gesichtsteile sind in Tabelle 6.11 aufgeführt.

B e i s p i e l 6 . 1 3 Wie in den letzten beiden Beispielen werden Flury-Riedwyl Gesichter für den Datensatz der fakultätsspezifischen Abiturleistungen und -Präferenzen aus Beispiel 6.4 (vgl. Tabelle 6.8) erstellt. 1 Die Ausprägungen (Durchschnittspunkte und Anteile) werden in Zahlen zwischen Null und Eins umgerechnet, welche die Variation des Gesichtsteils steuern. Die Gesichter, in denen alle Variablen auf Null bzw. Eins gesetzt sind, sind in Abbildung 6.15 wiedergegeben. Für die Punktzahlen wird die maximale ( x m a x ) und minimale ( x m l n ) P u n k t zahl aller 215 Studenten in der jeweiligen Fächergruppe gebildet und der den Gesichtszug steuernde Parameter über fakultätsspezifische Durchschnittspunktzahl — x m i n Xmax

*£mtn

berechnet. Für die Anteile wird Minimum und Maximum aus den fakultätsspezifischen Anteilen bestimmt und analog zu oben verfahren. Die Flury-Riedwyl-Gesichter sind in Abbildung 6.14 dargestellt. Es wurde versucht, stark differenzierende oder wichtige Merkmale mit wesentlichen Gesichtszügen zu verbinden. Die Anteile der Studenten, die ein Fach als Leistungskurs wählten und die Durchschnittspunktzahlen in diesem Fach werden in der Regel zwei unterschiedlichen Details desselben Gesichtsteils zugewiesen.

So repräsentieren etwa Krümmung und

Größe des Mundes die durchschnittliche Punktzahl und den Leistungskursanteil im Fach Mathematik, die Größe der Pupillen und der Augen die durchschnittliche Punktzahl und den Leistungskursanteil im Fach Deutsch. Man erkennt eine deutliche Differenzierung der Fakultätsgesichter bezüglich dieser Merkmale. Mathematiker und Physiker haben dick ausgeprägte Lippen und lächeln. Da sie Deutsch nur selten als Leistungskurs gewählt haben, besitzen sie kleine schlitzförmige Augen, obwohl auch sie keine schlechten Deutschnoten erzielten. Insbesondere die Physiker zeichnen sich durch fehlende Haarpracht aus. Sie haben 'Die Autoren danken Herrn Prof. Dr. H. Riedwyl, Bern, für die Überlassung des Computer-Programms.

•208

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

Abbildung 6.14: Fakultätsspezifische Flury-Riedwyl-Gesichter

DATEN

6.3.

DARSTELLUNG

HÖHERDIMENSIONALER

DATEN

(P > 2)

209

Abbildung 6.15: Gegenüberstellung der extremen und durchschnittlichen Ausprägungen einzelner Gesichtszüge der Flury-Riedwyl-Gesichter

weder Präferenzen für gesellschaftswissenschaftliche Leistungskurse (untere Haarlinie), noch gibt es viele Frauen in ihren Reihen (obere Haarlinie). Einen ganz anderen Eindruck vermitteln die Geisteswissenschafter.

Vor allem die Juristen und Philosophen zeichnen sich

durch fehlende Neigung und geringe Punktzahlen in Mathematik (Breite und Krümmung des Mundes) und Präferenzen für das Leistungsfach Deutsch (große, weit aufgerissene Augen) aus. Der üppige Haarwuchs weißt auf einen hohen Frauenanteil und auf eine Vorliebe für gesellschaftswissenschaftliche Leistungskurse hin. In analoger Weise können die anderen Gesichtszüge und die Gesichter anderer Fakultäten interpretiert werden. Sehr aufschlußreich sind hierbei auch die Gesamtpunktzahlen, die durch die Gesichtsfülle repräsentiert werden. Diese und andere Detailinterpretationen mögen jedoch dem Leser überlassen bleiben. Dabei erweist sich ein Vergleich mit den in Abbildung 6.15 dargestellten extremen Gesichtern (jede Ausprägung nimmt ihr Minimum bzw. ihr Maximum an) und dem Durchschnittsgesicht, das den Durchschnittsausprägungen aller erhobenen Studenten entspricht, als hilfreich.

txi

210

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

Sternen-Plots (Star-Symbol-Plots) Anstelle eines Gesichts wird in Sternen-Plots

(Star-Symbol-Plots)

(vgl.

Chambers, Cleve-

land, Kleiner und Tukey, 1983) für jeden Beobachtungsvektor ein " S t e r n " gezeichnet. Jeder Stern besteht aus mehreren Strahlen, die von einem zentralen P u n k t ausgehen und den Wert einer Variablen repräsentieren. Die erste Variable wird durch einen Strahl in Westrichtung dargestellt, und die weiteren folgen nacheinander entgegen der Uhrzeigerrichtung, wobei der Winkel zwischen benachbarten Strahlen konstant (also gleich 3 6 0 ° / p ) ist. Der kürzeste Strahl in einer Richtung stellt die kleinste Ausprägung der zugehörigen Variablen unter allen Objekten, der längste Strahl die größte Ausprägung dar. Die Enden der Strahlen werden durch Linien verbunden, so daß insgesamt für jede Beobachtung ein Polygon entsteht. Der kleinste und der größte Wert unter allen Daten bestimmen die Längen des kürzesten und des längsten Strahles ü b e r h a u p t . Daher sollten auch hier die standardisierten Daten verwendet werden. Sternenplots haben gegenüber Flury-Riedwyl Gesichtern den Vorteil, daß ihr Aussehen nicht wesentlich von der Zuordnung der Merkmale abhängt.

B e i s p i e l 6 . 1 4 Für dieselben Merkmale, die zur Berechnung der Andrew's waves (vgl. Beispiel 6.13) verwendet wurden, sind für alle 10 Fakultäten (bzw. Fachgruppen) der Universität Konstanz Sternen-Plots berechnet und in Abbildung 6.16 eingezeichnet worden.

Die Da-

ten sind vorher standardisiert worden. Die Merkmalszuordnungen findet man in Abbildung 6.17.

Mit ihrer Hilfe ist es leicht möglich, die Fakultäten bezüglich der Abiturleistungs-

profile ihrer Studenten zu vergleichen.

Im Norden- und Nordosten sind die Punktezahlen

in den mathematisch-naturwissenschaftlichen Fächer angeordnet. Iiier weisen Mathematik-, Physik-, Chemie- und Biologiestudenten die längsten Strahlen auf. Dagegen p u n k t e t e n Studenten der Verwaltungs- und Wirtschaftswissenschaften eher in gesellschaftswissenschaftlichen Fächern, welches sich durch einen langen Strahl in Ostrichtung ausdrückt. Interpretationen bleiben auch hier dem Leser überlassen.

Weitere 1*1

Sonnenstrahl-Plots (Sun-Ray Plots) Sonnenstrahl-Plots

(Sun-Ray

Plots) (vgl. auch hier Chambers, Cleveland, Kleiner und Tukey,

1983) bestehen wie Sternen-Plots aus p Strahlen, die von einein zentralen P u n k t ausgehen

6.3. DARSTELLUNG HÖHERDIMENSIONALER DATEN (P > 2)

211

A b b i l d u n g 6 . 1 6 : S t e r n e n - P l o t von fakultätsspezifischen A b i t u r l e i s t u n g e n und dem Anteil von S t u d e n t i n n e n für 10 F a k u l t ä t e n der U n i v e r s i t ä t K o n s t a n z

212

KAPITEL

6.

GRAPHISCHE

DARSTELLUNGEN

MULTIVARIATER

DATEN

Abbildung 6.17: Merkmalszuordnungen für Sternen- und Sonnenstrahl-Plot

Punktezahl im Fach Mathematik

liehen Fächern

und die Ausprägungen der Variablen repräsentieren.

Dabei entspricht der Mittelpunkt ei-

nes jeden Strahls dem arithmetischen Mittel und dessen Länge dem 7-fachen der doppelten Standardabweichung der Beobachtungen der zugehörigen Variablen. (In aller Regel liefern hier Werte von 7 = 2 oder von 7 = 3 befriedigende Resultate.)

Die Datenwerte werden

auf den Strahlen markiert und wiederum durch einen Polygonzug verbunden. Mit Hilfe von Sonnenstrahl-Plots kann also von jedem Objekt ausgesagt werden, in welchen Variablen es höhere oder geringer Werte aufweist als der Durchschnitt.

Beispiel 6.15 Anstelle der im Beispiel 6.14 behandelten Sternen-Plots sind mit Hilfe der gleichen Daten Sonnenstrahl-Plots berechnet und in in Abbildung 6.18 dargestellt worden. Die Variablenzuordnung stimmt mit derjenigen der Sternen-Plots überein und kann somit in Abbildung 6.17 abgelesen werden. Wegen der starken Niveau- und Streuungsunterschied wurden wiederum standardisierte Daten benutzt, so daß alle Strahlen dieselbe Länge besitzen. Der Parameter 7 wurde auf 3 gesetzt. Die vielfältigen Interpretationsmöglichkeiten sind anhand der Sternen-Plots (vgl. Beispiel 6.14) bereits angedeutet worden. Hier können etwa Aussagen der folgenden Form gemacht werden: Physikstudenten liegen über dem Durchschnitt aller Fakultäten, was ihre Noten in Mathematik und in naturwissenschaftlichen Fächer anbetrifft. Philosophiestudenten belegten zu einem vergleichsweise sehr hohen Anteil altsprachliche Leistungskurse.

txi

6.3.

DARSTELLUNG

HÖHERDIMENSIONALER

DATEN

(P > 2)

213

Abbildung 6.18: Sonnestrahlen-Plot von fakultätsspezifischen Abiturleistungen und dem Anteil von Studentinnen für 10 Fakultäten der Universität Konstanz

Kapitel 7

Lage, Streuung und Zusammenhangsanalyse multivariater Daten Z u n ä c h s t ist festzuhalten, daß die in K a p i t e l 4 eingeführten P a r a m e t e r zur B e s c h r e i b u n g univ a r i a t e r D a t e n natürlich auch direkt a n w e n d b a r sind a u f die eindimensionalen R a n d v e r t e i l u n gen und a u f die eindimensionalen b e d i n g t e n Verteilungen eines multivariaten D a t e n s a t z e s . So kann e t w a ein Vergleich der P a r a m e t e r von bedingten Verteilungen schon wertvolle Hinweise auf d a s B e s t e h e n eventueller Z u s a m m e n h ä n g e sowie a u f die A r t solcher Z u s a m m e n h ä n g e zwischen einzelnen Variablen geben. Im folgenden werden einige M a ß z a h l e n zur C h a r a k t e r i s i e r u n g der L a g e und der gemeinsamen S t r e u u n g vorgestellt. Gesucht ist dabei eine Festlegung der M i t t e und eine B e s c h r e i b u n g der A u s d e h n u n g der durch die D a t e n gegebenen p-dimensionalen P u n k t w o l k e . D a b e i wird davon a u s g e g a n g e n , daß in j e d e r Variablen ( K o m p o n e n t e der B e o b a c h t u n g s v e k t o r e n ) gleichviele, nämlich n, B e o b a c h t u n g e n vorliegen.

7.1

Lagemaße

In A b s c h n i t t 4 . 1 wurde als wesentliche Forderung an einen L a g e p a r a m e t e r T zur B e s c h r e i b u n g u n i v a r i a t e r D a t e n die T r a n s l a t i o n s ä q u i v a r i a n z e i n g e f ü h r t . D e m e n t s p r i c h t bei einem multiva-

2 1 6 L A G E , STREUUNG

UND ZUSAMMENHANGSANALYSE

MULTIVARIATER

DATEN

riaten Datensatz die Forderung, daß ein die Mitte der Punktwolke" charakterisierender P u n k t nicht von der Wahl des Koordinatensystems abhängen sollte. Ist

a + Bx*.., k = l . . . , n ,

eine Transformation der Daten mit einer regulären pxp-Matrix B (eine sog. affine Transformation) und y = ( y j , ...yn)', so soll für einen multivariaten Lagevektor T gelten:

T(y) = a + BT(x).

Diese Eigenschaft wird als affine Äquivarianz

bezeichnet.

Es wird sich herausstellen, daß

diese Forderung bei der Ü b e r t r a g u n g einiger Konzepte aus der univariaten Statistik zu Problemen f ü h r t . Als univariate Lagemaße wurden in Abschnitt 4.1 unter anderem eingeführt der Modus, das arithmetische Mittel, die auf einem Ordnen der Daten basierenden Quantile, insbesondere der Median sowie die Ausreißer-resistenten Varianten des arithmetischen Mittels, das getrimmte und das winsorisierte Mittel. Da sich ein multivariater Datensatz nicht so ohne weiteres ordnen läßt wie ein Vektor reeller Zahlen, lassen sich nur der Modus und das arithmetische Mittel ohne weitere Überlegungen auf multivariate Daten übertragen.

Der Modus Sind alle Variablen (Komponenten des Merkmalsvektors) diskret bzw. nominal oder ordinal skaliert, so ist der Modus definiert als die am häufigsten vorkommende Merkmalskombination. Die Definition ist auch anwendbar bei teils stetigen, teils diskreten Merkmalskomponenten, wenn die stetigen Variablen in Klassen aufgeteilt sind. Sind alle Variablen stetig, so ist der Modus der P u n k t mit der größten gemeinsamen Häufigkeitsdichte bzw. der Mittelpunkt des entsprechenden Merkmalsrechtecks bzw. -quaders bei Klassenbildungen. Der Modus ist, wie m a n leicht sieht, affin äquivariant.

B e i s p i e l 7.1 Der Modus der gemeinsamen Verteilung der mittleren Januar- und Junitemperaturen in 42 deutschen Städten ist als der Mittelpunkt des Rechteckes definiert, über dem das in Abbildung 6.5 dargestellte Histogramm für bivariate Daten maximal ist. Die Klassengrenzen, die dieses Rechteck beschreiben, sind für die J a n u a r t e m p e r a t u r e n durch 1/2 = —0.8 und u 3 = 0.8 gegeben und für die Julitemperaturen durch u2 = 16.4 und v3 = 17.6 (vgl. auch Beispiel 6.6). Der Modus liegt demnach bei (0.0, 17.0). Man beachte, daß der so berechnete

7.1.

LAGEMAßE

217 txl

Modus von der Klassenwahl abhängt.

B e i s p i e l 7.2 Der Modus der Straftaten gegen die sexuelle Selbstbestimmung (vgl. Tabelle 6.2) liegt mit 3 911 Fällen in der Ortsgrößenklasse 20 000 bis 100 000 und bei der S t r a f t a t ßexueller Mißbrauch von Kindern".

txl

Der Schwerpunkt Der

Schwerpunkt x = (¿1,12 , . . . , x p ) '

ist der Vektor der arithmetischen Mittel der p Randverteilungen.

Der Schwerpunkt hat

folgende Eigenschaften:

(a) Er ist affin äquivariant und (b) er minimiert die Summe der euklidischen Abstandsquadrate, n

^||x,-x|| k=1

n

2

-^por)

und entsprechender a-Quantilslinien (-ebenen). Darauf soll hier jedoch nicht weiter eingegangen werden.

Beispiel 7.4 Der Mediane der Januartemperaturen und der Julitemperaturen berechnen sich zu 0.25 und 17.45, so daß (¿!, i 2 ) = (0.25, 17.45) gilt. Dieser Medianpunkt ist als Schnittpunkt der beiden achsenparallelen Medianlinien in das Streudiagramm 7.2 eingetragen.

M

7.1.

221

LAGEMAßE

Der Zentralpunkt (Li-Median, Räumlicher Median)

Der Zentralpunkt wurde als erstes von A. Weber (1909) vorgeschlagen, der das Problem untersuchte, einen kostengünstigen Standort für ein Warenhaus zu finden, das n Kunden mit den Ortskoordinaten x i , x 2 , . . . , x n zu bedienen hat. Der Zentralpunkt x ist derjenige P u n k t , der die Summe der euklidischen A b s t ä n d e minimiert, d.h. mit

ist x implizit definiert als Lösung des Minimierungsproblems n

x ist also nicht explizit angebbar, sondern Lösung eines Minimierungsalgorithmus, wozu allerdings mehrere Verfahren zur Verfügung stehen. Wegen der obigen Eigenschaft wird x auch als Li-Median

oder (für p = 2) räumlicher

Median bezeichnet.

x ist nicht äquivariant gegenüber allen affinen Transformationen, sondern nur dann, wenn in yk = a + Bx„, k = l,...,n,

B eine orthogonale M a t r i x (d.h. B ' = B - 1 ) ist (orthogonale

Transformation). Zu solchen Transformationen gehören Translationen, Rotationen des Koordiantensystems und Reflexionen. Orthogonale Äquivarianz dürfte ausreichend sein, wenn die einzelnen Variablen in denselben physikalischen Einheiten gemessen werden. Man sollte jedoch vorsichtig sein bei der Interpretation der Resultate, wenn die Beobachtungsvektoren Variablen unterschiedlichen Typs enthalten, zum Beispiel wenn Entfernungen und Benzinverbrauch in Miles und Gallons oder in Kilometern und Litern gemessen werden. Der Zentralpunkt ist nicht resistent gegenüber Ausreißern. Er reagiert jedoch, da Abstände und nicht A b s t a n d s q u a d r a t e betrachtet werden, weniger stark auf Ausreißer als der Schwerpunkt. Schließlich ist der Zentralpunkt eindeutig bestimmt, falls die Dimension der durch die Daten gegebenen Punktwolke mindestens gleich 2 b e t r ä g t .

(Liegen alle P u n k t e auf einer Gera-

den, dann fällt der Zentralpunkt mit dem Medianpunkt zusammen und braucht somit nicht eindeutig bestimmt zu sein.)

2 2 2 L A G E , STREUUNG

7.2

UND ZUSAMMENHANGSANALYSE

MULTIVARIATER

DATEN

Streuungsmaße

D i e Kovarianz und der Korrelationskoeffizient Auf die eindimensionalen Rand- oder bedingten Verteilungen lassen sich alle Überlegungen bezüglich univariater Daten übertragen. Somit sind alle in den Abschnitt 4.2 und 4.3 eingeführten Maßzahlen der Streuung, der Schiefe und der Wölbung hier zu verwenden. Von vorrangigen Interesse bei mehrdimensionalen Daten sind jedoch Maße, die die Stärke des Zusammenhangs der metrischen Beobachtungspaare [x\, y\),...,

(xn, yn) im Streuungs-

d i a g r a m m zum Ausdruck bringen. Ein dazu geeignetes Maß ist die empirische

Kovarianz (7.1)

bzw.

im Falle einer k x m-Feldertafel mit den Ausprägungen a;, t e n ) für X und b},

j = l,...,m

i = 1 , . . . , k (bzw. G r u p p e n m i t -

(bzw. G r u p p e n m i t t e n ) für Y und den Felderbesetzungs-

zahlen iiij. Überlegungen der schließenden Statistik, auf die hier nicht eingegangen werden soll, legen es nahe, bei einer Zufallsstichprobe durch n — 1 anstatt durch n zu dividieren.

Die Kovarianz kann als Zusainmenhangsmaß wie folgt motiviert werden. In Abbildung 7.3 sind neben einer Punktwolke zwei Linien durch den Schwerpunkt parallel zur x- bzw. 'y-Achse eingezeichnet.

Haben die Messungen ( i i , y , ) eine gemeinsame Tendenz, d.h.

gehen große

(kleine) Ausprägungen des Merkmals X mit großen (kleinen) Ausprägungen des Merkmals Y einher, so fallen die meisten Beobachtungen in den nordöstlichen und in den südwestlichen Q u a d r a n t e n . In diesen Quadranten gilt (.r; — x)(i/,- — y) > 0 und somit liefern die P u n k t e darin positive Beiträge zur Kovarianz. Bei einem negativen Zusammenhang korrespondieren kleine (große) Ausprägungen des Merkmals X mit großen (kleinen) Ausprägungen des Merkmals Y, und somit liegen die meisten Beobachtungspunkte im nordwestlichen und südöstlichen Quad r a n t e n . In diesem gilt (x, — x)()/; — y) < 0, so daß die P u n k t e darin einen negativen Beitrag zur Kovarianz liefern. Daher ist die Kovarianz bei gleichgerichteten Zusammenhängen positiv

STREUUNGSMASSE

223

Abbildung 7.3: Berechnung der empirischen Kovarianz y

{x,

-

x)(yi - y )
o

i



i I

i

+



(z, - x)(yt - y ) >

^ (xi ' +

(.x{ - x ) ( y t - y )