219 27 18MB
German Pages 265 [268] Year 1972
Allgemeine Methodenlehre der Statistik i Elementare Methoden unter besonderer Berücksichtigung der Anwendungen in den Wirtschafts- und Sozialwissenschaften von D r . phil. J o h a n n Pfanzagl Professor an der Universität Köln
5., verbesserte Auflage
Mit 49 Abbildungen und 24 Tabellen
w DE
_G Sammlung Göschen Band 5746 Walter de Gruyter Berlin • N e w Y o r k • 1 9 7 2
Die Darstellung umfaßt folgende Bände: I. Elementare Methoden unter besonderer Berücksichtigung der Anwendungen in den Wirtschafts- und Sozialwissenschaften. II. Höhere Methoden unter besonderer Berücksichtigung der Anwendungen in Naturwissenschaften, Medizin und Technik.
© Copyright 1972 by Walter de Gruyter Sc Co., vormals G. J . Göschen'sche Verlagshandlung - J . Guttentag, Verlagsbuchhandlung - Georg Reimer - Karl J . Trübner Veit 8c Comp., Berlin 30. - Alle Rechte, einschl. der Rechte der Herstellung von Photokopien und Mikrofilmen vom Verlag vorbehalten. - Printed in Germany. Satz und Druck: Courier Druckhaus, Ingolstadt
ISBN 311003476 X
Inhaltsverzeichnis
Seite 1 Grundbegriffe 1.1 Einleitung 1.2 Die Statistik in den Naturwissenschaften 1.3 Die Statistik in den Sozialwissenschaften 1.4 Gegenüberstellung von Natur-und Sozialwissenschaften . .
7 7 7 8 10
2 Häufigkeitsverteilungen 2.1 Artmäßige und zahlenmäßige Merkmale 2.2 Diskrete und stetige Merkmale 2.3 Extensive und intensive Merkmale ,2.4 Häufigkeitsverteilungen
13 13 15 16 16
3 Parameter 3.1 Lage-Parameter 3.2 Streuungs-Parameter 3.3 Der Variationskoeffizient 3.4 Konzentrationsmaße
19 20 26 31 32
4 Allgemeine T h e o r i e der M a ß z a h l e n 4.1 Die Konstruktion von Maßzahlen 4.2 Verhältniszahlen 4.3 Meßzahlen 4.4 Gliederungszahlen 4.5 Beziehungszahlen 4.6 Der Mittelwert von Verhältniszahlen 4.7 Standardisierung 4.8 Transplantation
36 36 41 41 49 50 56 57 64
Seite 5 Die Berechnung von Indexzahlen 5.1 Grundsätzliches 5.2 Die Formeln von Laspeyres und Paasche 5.3 Sub-Indizes 5.4 Repräsentation 5.5 Erweiterung des Index-Schemas 5.6 Substitution
65 65 67 70 71 72 75
6 Einige Beispiele f ü r Indexzahlen 6.1 Index der Großhandelspreise 6.2 Index der Einzelhandelspreise 6.3 Index der Verbraucherpreise 6.4 Kaufkraftvergleiche 6.5 Lohnindizes 6.6 Reallohnvergleiche 6.7 Volumenindizes und Umsatzindizes 6.8 Produktionsindizes 6.9 Produktivitätsindizes
77 78 79 80 84 86 88 89 90 92
7 Bestandsmassen — Bewegungsmassen 7.1 Grundbegriffe 7.2 Der Durchschnittsbestand 7.3 Analyse der Verweildauer 7.4 Die mittlere Verweildauer 7.5 Abgangsordnung und Verteilung der Verweildauer . . . . 7.6 Konstruktion stationärer Massen
94 94 96 100 101 107 110
8 Die 8.1 8.2 8.3
115 115 116
8.4 8.5 8.6 8.7 8.8 8.9 8.10
Analyse v o n Zeitreihen Ausschaltung von irregulären Schwankungen Gleitende Durchschnitte Methodische Bemerkungen zur Berechnung der gleitenden Durchschnitte Die Differenzenmethode Die Ausschaltung von Saisonschwankungen Methoden für konstante Saisonfigur Methoden für Saisonfigur mit variabler Amplitude . . . . Methoden für bewegliche Saisonfigur Harmonische Analyse, Spektralanalyse Schlußbemerkungen
119 123 124 129 133 134 137 138
Seite 9 Stichproben 9.1 Grundbegriffe 9.2 Der Zufallsfehler des Mittelwertes 9.3 Der Zufallsfehler der relativen Häufigkeit 9.4 Die Bestimmung des Stichprobenumfanges 9.5 Fiktive Gesamtheiten 9.6 Die geschichtete Stichprobe 9.7 Die optimale Stichprobe 9.8 Die proportionale Stichprobe 9.9 Die Auswahl der Schichten 9.10 Vergleich zwischen den Schichten 9.11 Die Klumpenstichprobe 9.12 Vergleich von Schichten und Klumpen 9.13 Die mehrstufige Stichprobe 9.14 Die Technik der Zufallsauswahl 9.15 Das Problem der Nichtbeantwortung 9.16 Verhältnis-Schätzung
139 139 142 145 148 151 154 157 161 166 167 169 171 172 173 180 184
10 Statistische Fehler 10.1 Zufällige und systematische Fehler 10.2 Fehler bei der Erfassung der Gesamtheit 10.3 Fehler bei der Erfassung der Daten 10.4 Fehlerkontrolle 10.5 Die Bedeutung systematischer und zufälliger Fehler bei der Stichprobenerhebung 10.6 Die Interpretation fehlerbehafteter Zahlen
Technischer
186 186 189 192 196 198 201
Anhang
11 Die G e w i n n u n g des Z a h l e n m a t e r i a l s 11.1 Die Abgrenzung der Erhebungsmasse und die Festlegung der Erhebungsmerkmale 11.2 Die Auswahl der Erhebungseinheiten und des Erhebungsverfahrens 11.3 Die Aufbereitung
205
12 Die rechnerische B e h a n d l u n g des Z a h l e n m a t e r i a l s 12.1 Die Berechnung von Mittelwert und Varianz
214 214
. . . .
205 209 210
Seite 12.2 Die Berechnung von Median und durchschnittlicher Abweichung 219 12.3 Das Rechnen mit fehlerbehafteten Zahlen 222 12.4 Die Kompensation unabhängiger Fehler 223
13 Die D a r s t e l l u n g des Z a h l e n m a t e r i a l s 224 13.1 Die graphische Darstellung von Häufigkeitsverteilungen . . 224 13.2 Die Gestaltung von Tabellen 227 13.3 Kurvendiagramme 230 13.4 Stabdiagramme, Flächendiagramme 234 13.5 Darstellung einer Struktur 236 13.6 Kartogramme 238 13.7 Bildstatistiken 241
Tabelle Literatur Namen- und Sachverzeichnis
243 245 261
7
1 Grundbegriffe 1.1 Einleitung Vielfach wird die Statistik als die Lehre von der Analyse von Massenerscheinungen definiert. Während sich früher die Anwendung der Statistik tatsächlich auf große Mengen bezog, wie durch das Wort „Masse" suggeriert wird, tritt gerade in der neueren Statistik die Analyse von Stichproben kleinen Umfanges in den Vordergrund, so daß das Wort „Masse" in der obigen Definition heute nur als „Mehrheit von Individuen" interpretiert werden darf. Natürlich ist nicht jede Analyse von Massenerscheinungen Statistik. Das charakteristische Kennzeichen der statistischen Analyse ist, daß sie sich formaler Modellvorstellungen bedient. Die statistischen Methoden sind insbesondere zur Analyse von Erscheinungen geeignet, die unkontrollierten Einflüssen ausgesetzt sind. Dabei spielen sog. stochastische (d. h. auf der Wahrscheinlichkeitstheorie aufbauende) Modelle eine besondere Rolle. 1.2 Die Statistik in den Naturwissenschaften Wenn der Physiker alle Bedingungen eines Experimentes mit beliebiger Präzision festlegen kann, braucht er keine Statistik, um die Ergebnisse dieses Experimentes auszuwerten. Er braucht die Statistik jedoch dann, wenn gewisse unkontrollierte Einflüsse da sind, welche eine merkliche „Streuung" der Meßergebnisse verursachen. Dies trifft in der Physik oder Chemie bei Laboratoriumexperimenten seltener zu als etwa bei biologischen oder psychologischen Experimenten, bei denen sich schon aus der Natur des Materials heraus unkontrollierbare Einflüsse ergeben. Es gilt jedoch vor allem dann, wenn man die Sphäre des Laboratoriumexperimentes ver-
8
1 Grundbegriffe
läßt und sich in die Fabrik, auf das Feld oder in das Krankenhaus begibt: Hier sind die Möglichkeiten des „Experimentierens" sehr beschränkt. Viele maßgebliche Bedingungen sind vorgegeben, können nicht nach Belieben variiert werden — und trotzdem müssen aus den Daten ähnliche Schlüsse gezogen werden wie aus den Laboratoriumexperimenten, bei denen man einen viel größeren Teil der Bedingungen nach Belieben festlegen kann. Wenn man eine Untersuchung darüber anstellt, ob — und wie — die Haltbarkeit von Kokillen von der chemischen Zusammensetzung des gegossenen Eisens abhängt, kann man nicht mit einem großen Experiment beginnen und Eisensorten mit den verschiedensten chemischen Zusammensetzungen unter genormten Bedingungen gießen. Man ist praktisch darauf angewiesen, die Abhängigkeit aus den verfügbaren Aufzeichnungen „herauszurechnen". Und in diesen Aufzeichnungen spiegeln sich natürlich alle Einflüsse des normalen Betriebsgeschehens wider und verdecken den Einfluß der chemischen Zusammensetzung vor dem oberflächlichen Betrachter. Ode,r: Es soll ein neues Mittel zur Behandlung der Rhesus-Inkompatibilität erprobt werden. Auch hier ist man gezwungen, die Erprobung an einem sehr inhomogenen Material vorzunehmen: Frauen, die bereits frühere Geburten hinter sich haben, Frauen, bei denen es sich um die erste Geburt handelt. Die früheren Geburten können mit oder ohne Komplikationen verlaufen sein. Es kann eine Reihe von Interruptionen vorliegen usw. usw. Alle diese Faktoren können auf den Behandlungseffekt von Einfluß sein. Auch wenn man eine gewisse Auslese trifft, verbleibt stets eine große Zahl unkontrollierbarer Einflüsse, die unter Umständen den Effekt der Behandlungsmethode bei oberflächlicher Betrachtung verdecken können.
1.3 Die Statistik in den Sozialwissenschaften Was hier für Technik und Medizin gesagt wurde, gilt in noch wesentlich stärkerem Ausmaß für die Analyse wirtschaftlicher und soziologischer Phänomene. Auch hier ist natürlich die Möglichkeit
1.3 Die Statistik in den Sozialwissenschaften
9
von Experimenten gegeben. Wenn eine große Werbekampagne vorbereitet wird, kann man zwei einander möglichst ähnliche, aber voneinander isolierte Städte auswählen und in einer der beiden Städte eine Probe-Werbekampagne durchführen, um sodann die Umsatzentwicklung in beiden Städten zu vergleichen. M a n hat auf diese Art verschiedene Einflüsse, wie die saisonale und konjunkturelle Entwicklung, unter Kontrolle gebracht, wenn sich saisonale und konjunkturelle Einflüsse in beiden Städten stets in gleicher Weise auswirken. Jeder Unterschied in der Entwicklung zwischen beiden Städten wird daher mutmaßlich auf den Einfluß der Werbekampagne zurückzuführen sein. (Wesentlich zuverlässigere Ergebnisse erhält man natürlich, wenn man dieses Experiment nicht mit einem einzelnen Städtepaar, sondern mit mehreren durchführt.) Die Möglichkeit, unter „kontrollierten" Bedingungen zu arbeiten, ist jedoch bei wirtschaftlichen und soziologischen Analysen beschränkter als in den meisten anderen Wissenschaften 1 ). Eine ähnlich ungünstige Situation wie in den Sozialwissenschaften finden wir übrigens auch in der Meteorologie, und es ist nicht uninteressant, festzustellen, daß die statistischen Methoden in der Meteorologie ähnlich denen in den Sozialwissenschaften sind: emsiges Sammeln von Urmaterial, Korrelationsberechnungen, Zeitreihenanalysen usw. Die typische Aufgabe der Wirtschaftsstatistik ist die Analyse von Daten, die von sehr vielen unkontrollierten Faktoren beeinflußt sind. Hier ein Beispiel: Es ist zu beurteilen, ob das „Niveau" der Konsumentenpreise eine steigende Tendenz aufweist oder nicht. Die Fakten: In den letzten Monaten haben sich bei verschiedenen Waren Preissteigerungen, vereinzelt auch Preissenkungen, ergeben. Hier und da ist eine Ware in einer völlig neuen Qualität auf den M a r k t gekommen und hat — trotz höheren Preises — das Interesse der Konsumenten auf ') Wie Morgenstern betont, sind allerdings auch im Bereiche der "Wirtschaft weit mehr Experimentiermöglichkeiten gegeben, als tatsächlich ausgenutzt w e r d e n .
10
1 Grundbegriffe
sich gezogen. Einige der Preissteigerungen sind lediglich saisonbedingt — vielleicht im konkreten Fall wegen eines kalten Frühjahrs besonders ausgeprägt. Andere Preissteigerungen dürften auf Panikkäufe zurückzuführen sein und sind daher mutmaßlich nur vorübergehender Natur. Wir haben hier eine sehr komplexe Situation vor uns, welche von einer großen Zahl unkontrollierter Faktoren beeinflußt ist. Es ist zu beurteilen, ob das „Preisniveau" tatsächlich in Bewegung ist, ob deflatorische Maßnahmen notwendig erscheinen oder nicht. Hier ist natürlich ein Experiment undenkbar: Man kann nicht das Geschehen der letzten Monate nochmals abrollen lassen unter „kontrollierten" Bedingungen, also den saisonalen Einfluß (oder zumindest die abnorm niedrige Temperatur des Frühjahrs) und die Panikkäufe eliminieren und beobachten, wie sich das von diesen Störungen befreite „Preisniveau" entwickelt hätte. Man ist vielmehr gezwungen, die Schlüsse aus den das tatsächliche Geschehen betreffenden Daten zu ziehen, vor allem durch Zuhilfenahme von Vergleichsdaten aus anderen Perioden (durch Studium der Auswirkungen saisonaler Einflüsse in den vorhergehenden Jahren, durch Studium der Auswirkungen von Panikkäufen in früheren Zeitpunkten oder zur gleichen Zeit in anderen Ländern u. ä.).
1.4 Gegenüberstellung von Natur- und Sozialwissenschaften Die hier skizzierten Beispiele zeigen eine große Variation in der Aufgabe, die der Statistik gestellt ist. Das eine Extrem: das Experiment, bei dem ein großer Teil der Einflußfaktoren beliebig festgelegt werden kann, so daß die Auswirkungen der übrigen — unkontrollierten — Einflüsse mehr oder minder den Charakter von Zufallsschwankungen tragen. Hier besteht die Aufgabe der Statistik darin, bei der Planung des Experimentes mitzuwirken (die Größe der kontrollierten Einflußfaktoren festzulegen usw.) und bei der Auswertung die Größe der zufälligen Einflüsse zu beurteilen. Das andere Extrem: die Analyse von Daten, welche eine unkontrollierte Situation betreffen. Hier ist zu entscheiden: Welche Einfluß-
1.4 Gegenüberstellung von Natur- u. Sozialwissenschaften
11
faktoren sind bei der Erhebung der Daten zu berücksichtigen? Die sorgfältige Aufzeichnung der verschiedenen tatsächlich auftretenden Kombinationen von Einflußfaktoren m u ß jene Informationen liefern, die man im Experiment durch planmäßige Festlegung der Einflußfaktoren erhält. Noch ein zweiter Umstand beeinflußt den Charakter und die Anwendbarkeit der statistischen Methoden entscheidend: „ . . . in allen Fällen wird die statistische Arbeitsweise dadurch charakterisiert, daß sich der Statistiker von vornherein von einem beträchtlichen Teil jener Kenntnisse lossagt, über die er für jede einzelne Beobachtungseinheit verfügt oder wenigstens verfügen könnte, und daß er sich nur mit jenen Angaben über die Einheiten begnügt, die über diese bei der Erhebung registriert werden." (Anderson, „Statistische Methodenlehre", S. 6.) An die Stelle der tatsächlich existierenden Einheit, des tatsächlichen Geschehens, tritt der „statistische Schatten", wie Anderson sagt, in dem nur einzelne Merkmale der Wirklichkeit registriert sind. Der Einzelfall verliert seine Individualität, er geht in einer Gruppe von Fällen auf, die alle die gleiche Merkmalskombination aufweisen, deren „statistische Schatten" identisch sind. Dieser Verlust der Individualität m u ß keine schwerwiegende Einbuße an Informationen mit sich bringen: Die Unfallversicherung weiß nicht, wer im nächsten Jahr einen Unfall erleiden wird und welches die näheren Begleitumstände dieses Unfalles sein werden — aber sie weiß aus der Erfahrung vergangener Jahre, wie viele Unfälle es ungefähr sein werden, wie viele davon tödlich verlaufen werden usw. Für die Zwecke der Versicherung genügen diese Informationen. Entscheidend ist nicht der Verlust der Individualität, sondern die Frage, ob es möglich ist, alle relevanten Umstände im „statistischen Schatten" zu berücksichtigen. Vielfach kann man wirklich alle relevanten Merkmale registrieren: Wenn genetische Untersuchungen mit irgendwelchen Fliegen durchgeführt werden, ist es irrelevant, ob die Tiere gefangen oder gezüchtet wurden, wie alt und wie groß sie sind, ob sie 6 Beine haben oder eines davon durch einen Unglücksfall einbüßten: Wesentlich ist der Genotypus,
12
1 Grundbegriffe
und dieser kann durch seinen „Schatten" genau beschrieben werden. Die Vernachlässigung soundso vieler Merkmale bringt hier keinen Verlust an relevanten Informationen mit sich. Bedenken wir nun anderseits die Probleme, die sich bei einer Untersuchung über den Zusammenhang von Wohlstand und Kinderzahl ergeben. Hier gibt es eine Reihe psychologischer Faktoren (Wunsch nach Ungebundenheit, Angst vor Kriegsgefahr usw.), welche den zu untersuchenden Sachverhalt maßgeblich beeinflussen, die aber in den „statistischen Schatten" kaum aufgenommen werden können, die statistisch schwer erfaßbar sind. Die Vernachlässigungen, zu denen die Statistik bei der Behandlung wirtschaftlicher, soziologischer oder psychologischer Fragen gezwungen ist, sind bedeutend relevanter als in der Technik, Biologie oder Medizin. Daraus und aus dem unterschiedlichen Grad der „Kontrollierbarkeit" ergibt sich eine starke Differenzierung in der Art der zur Anwendung gelangenden statistischen Methoden. So sind es bei sozialwissenschaftlichen Untersuchungen eher die elementaren Methoden, welche sinnvolle Anwendung finden, während die fruchtbarsten Anwendungsgebiete der verfeinerten Methoden in den Naturwissenschaften (Technik, Biologie, Medizin usw.) liegen. Daraus ergibt sich eine natürliche Unterteilung des Stoffgebietes: Band I der vorliegenden Methodenlehre wendet sich vor allem an den Statistiker in den Sozialwissenschaften, Band II an den Statistiker in den Naturwissenschaften. Diese Trennung ist jedoch keineswegs streng: Der Statistiker in den Sozialwissenschaften wird immer wieder auf Fragen stoßen, welche verfeinerte Methoden erfordern, die erst in Band II behandelt werden. Umgekehrt wird der an den höheren Methoden interessierte naturwissenschaftliche Statistiker auf wesentliche Teile des I. Bandes als Vorbereitung angewiesen sein.
13
2 Häufigkeitsverteilungen Wie bereits eingangs ausgeführt wurde, besteht das Wesen der statistischen Methoden darin, daß von jeder bei einer Erhebung erfaßten Einheit gewisse Merkmale registriert werden. Es soll daher zunächst ein systematischer Überblick über die Natur der Merkmale gegeben werden. 2.1 Artmäßige und zahlenmäßige Merkmale Herkömmlicherweise unterscheidet man zwischen artmäßigen (qualitativen) und zahlenmäßigen (quantitativen) Merkmalen. Typische Beispiele für artmäßige Merkmale sind das Geschlecht, der Familienstand und der Beruf; im Falle der Außenhandelsstatistik: die Art einer Ware oder das Bestimmungsland. Zahlenmäßige Merkmale sind etwa das Alter oder das Einkommen einer Person, die exportierte Menge u. ä. Selbstverständlich wird ein artmäßiges Merkmal nicht dadurch zu einem zahlenmäßigen, daß man den einzelnen Ausprägungen Zahlen zuordnet: So ist die Steuerklasse, deren Ausprägungen durch die Zahlen 1, 2, 3, . . . charakterisiert werden, natürlich ein artmäßiges Merkmal und kein zahlenmäßiges (es hätte wenig Sinn, festzustellen, daß sich die durchschnittliche Steuerklasse von 2,1 auf 2,2 verschoben hat). Die Unterscheidung in artmäßige und zahlenmäßige Merkmale erweist sich für die meisten Zwecke der Sozialstatistik als ausreichend. Für die Anwendung verfeinerter statistischer Methoden ist sie jedoch zu oberflächlich. Neben artmäßigen Merkmalen wie Geschlecht oder Beruf, deren einzelne Ausprägungen wirklich verschiedenartig sind, gibt es auch solche, bei denen sich die einzelnen Ausprägungen im wesentlichen nur durch ihre Intensität unterscheiden. Das einfachste Beispiel liefert die Notenskala: „sehr gut", „gut", „befriedigend", „ausreichend", „mangelhaft", „ungenügend". Hier ist eine eindeutige Ordnung (Reihenfolge) vorgegeben, zum Unterschied etwa von dem Merkmal „Beruf", für dessen einzelne
14
2 Häufigkeitsverteilungen
Ausprägungen (Tischler, Schneider, Verkäufer usw.) es keine natürliche Anordnung gibt. Ebenso kann man bei der Qualitätskontrolle die Produkte nach ihrer Fehlerhaftigkeit in Gruppen (1., 2., 3. Wahl) einteilen. Bei diesen Merkmalen ist eine natürliche Ordnung gegeben, die man selbstverständlich auch irgendwie durch Zahlen ausdrücken kann, bei denen diese Zahlen aber eben bloß diese Ordnung angeben und nicht mehr. Die Berechnung von Durchschnittswerten hat in diesem Falle wenig Sinn. (Dies gilt auch für die Schulnoten!) Selbst unter den zahlenmäßigen Merkmalen gibt es eine ganze Reihe, die im Grunde genommen bloß eine Ordnung zum Ausdruck bringen, so z. B. die Dioptrie — aufgefaßt als Maß für die Sehschärfe des Auges. Wir haben für diese Merkmale zwar eine konventionell festgelegte Zahlenskala; sie unterscheiden sich jedoch von den weiter unten besprochenen echten zahlenmäßigen Merkmalen dadurch, daß ihre Skala beliebigen monotonen Transformationen unterworfen werden kann, ohne daß sich deren Aussagegehalt ändert. Solche Skalen werden als topologische Skalen bezeichnet. Geordnete artmäßige Merkmale und zahlenmäßige Merkmale, deren Skala beliebigen monotonen Transformationen unterworfen werden kann, gehören logisch gesehen in eine Klasse: Es sind Merkmale, für die es eine natürliche Ordnung gibt. Ob diese Ordnung durch eine Zahlenskala repräsentiert wird oder nicht, ist im Grunde genommen nebensächlich. Daneben gibt es die sogenannten metrischen Skalen, die wir vor allem in der Physik finden: die Länge, das Gewicht, der elektrische Widerstand usw. Ein Widerstand von 200 Q ist doppelt so groß wie ein Widerstand von 100 Q, denn zwei Widerstände von je 100 Q in Serie geschaltet ergeben tatsächlich einen Widerstand von 200 ß . Hingegen wäre es sinnlos, festzustellen, daß eine Kurzsichtigkeit von 4 Dioptrien doppelt so stark ist wie eine von 2 Dioptrien. Metrische Skalen dürfen nicht mehr beliebigen monotonen Transformationen unterworfen werden: Sie sind in der Regel eindeutig bis auf die Wahl der Maßeinheit.
2.2 Diskrete und stetige Merkmale
15
2.2 Diskrete und stetige Merkmale Ein zweiter Einteilungsgesichtspunkt ist die Unterscheidung von diskreten und stetigen Merkmalen. Bei diskreten Merkmalen sind nur ganz bestimmte Ausprägungen möglich. Diskrete Merkmale basieren in der Regel auf einem Zählvorgang. Beispiele für solche Merkmale sind: Anzahl der Kinder, die eine Frau geboren hat, Anzahl der Beschäftigten eines Betriebes usw. Stetige Merkmale sind solche, die jeden beliebigen Wert — zumindest innerhalb eines gewissen Intervalls — annehmen können. Stetige zahlenmäßige Merkmale basieren in der Regel auf einem Meßvorgang. Beispiele für solche Merkmale sind: das Alter einer Person, ihre Körpergröße, ihr Gewicht usw. Die Unterscheidung zwischen stetigen und diskreten Merkmalen wird in der Regel nur auf zahlenmäßige Merkmale angewendet. Sie ist jedoch auch bei artmäßigen Merkmalen sinnvoll, sofern eine natürliche Ordnung gegeben ist. Selbstverständlich ist die Unterscheidung zwischen diskreten und stetigen Merkmalen eher graduell als prinzipiell. Das Gewicht einer Person ist ein stetiges, ihr Einkommen jedoch ein diskretes Merkmal, denn es kann — in Pfennigen ausgedrückt — nur ganzzahlige Werte annehmen. In der methodischen Behandlung besteht jedoch zwischen so fein abgestuften diskreten Merkmalen wie dem Einkommen (oder gar dem Umsatz eines Betriebes) und einem stetigen Merkmal kein Unterschied. Hingegen besteht ein ausgeprägter Unterschied in der methodischen Behandlung zwischen einem stetigen Merkmal und einem diskreten Merkmal mit einem kleinen Wertevorrat, wie es etwa die Kinderzahl darstellt. Umgekehrt wird ein stetiges Merkmal sehr oft „gruppiert" und dadurch für die statistische Behandlung zu einem diskreten Merkmal: So wurden in Tab. 3, S. 19, die Neugeborenen nach ihrer Größe in Gruppen zusammengefaßt. Ebenso wird oft einfach zwischen Rauchern und Nichtrauchern unterschieden, anstatt die Intensität des Rauchens zu erfassen.
16
2 Häufigkeitsverteilungen 2.3 Extensive und intensive Merkmale
Im Bereiche der zahlenmäßigen Merkmale kann man nach Flaskämper („Allgemeine Statistik", Teil I, S. 40) weiter unterscheiden zwischen extensiven und intensiven Merkmalen. Extensive Merkmale betreffen den Umfang einer Erscheinung, intensive Merkmale ihren Inhalt. Formal gesehen sind extensive Merkmale solche, bei denen die Summe einen Sinn hat, intensive Merkmale solche, bei denen nur Mittelwerte sinnvoll sind. Extensive Merkmale sind z. B. die Anzahl der Einwohner eines Landes, denn man kann sie mit den analogen Zahlen anderer Länder zu einer größeren Einheit zusammenfassen, z. B. die Einwohnerzahlen der europäischen Länder zu einer Einwohnerzahl Europas; ferner Wertangaben, etwa der Umsatz im Monat Januar, der mit den Umsätzen anderer Monate zu einem Jahresumsatz zusammengefaßt werden kann. Intensive Größen sind beispielsweise die Preise: Man kann zwar einen mittleren Preis errechnen, aber die Summe von Preisen für sich hat keine Bedeutung. Extensiv-intensiv schließen einander jedoch nicht aus. Der Lohn beispielsweise kann sowohl als extensives als auch als intensives Merkmal aufgefaßt werden. 2.4 Häufigkeitsverteilungen Um einen Überblick über die Struktur einer Masse zu geben, kann man bei einem diskreten (art- oder zahlenmäßigen) Merkmal einfach angeben, wie viele Fälle (oder welcher Anteil oder Prozentsatz) auf jede einzelne Ausprägung desselben entfallen. Diese Zusammenstellung der Ausprägungen mit den zugehörigen Häufigkeiten nennt man Häufigkeitsverteilung. Oft wird die Häufigkeitsverteilung nicht nur in Form einer Tabelle angegeben (s. Tabelle 1), sondern auch graphisch dargestellt (Bild 1).
17
2.4 Häufigkeitsverteilungen
Tabelle 1 Wohnbevölkerung der BRD am 31.12.1968 nach dem Familienstand Häufi gkeit in °/o in 1000
Familienstand ledig verheiratet verwitwet geschieden
24 577 29 956 4 969 961
40,7 49,5 8,2 1,6
Wohnbevölkerung insgesamt
60 463
100,0
Q u e l l e : S t a t . J a h r b u c h f. d. B R D 1 9 7 0 , S. 3 8 .
% 50-
ledig
403020-
verwitwet F g p geschieden t':":-::::l ii.i.m.'i
Bildl. Wohnbevölkerung der Bundesrepublik Deutschland am 31.12.1968, aufgegliedert nach dem Familienstand. Die in Tab. 1 angegebenen % - Z a h l e n werden relative Häufigkeiten genannt. Es handelt sich dabei um die Besetzungszahlen der einzelnen Ausprägungen, bezogen auf die Gesamtzahl der Fälle. Diese wird entweder gleich 1 gesetzt oder gleich 100, wie in unserem Beispiel. Ein weiteres Beispiel einer Häufigkeitsverteilung über einem diskreten Merkmal gibt folgende Tabelle:
18
2 Häufigkeitsverteilungen Tabelle 2 Privathaushalte in der BRD am 6. 6.1961 nach der Haushaltsgröße Personenzahl 1 2
Häu:figkeit in 1000 3 738 4 977
3
4181
4
2 923
5
1438
6
673
7
245
8 und mehr
195
insgesamt
18 370
Quelle: Wirtschaft und Statistik 1963, S. 604.
Bei den stetigen Merkmalen liegt die Situation etwas anders: Um die Struktur der Masse beschreiben zu können, m u ß man hier erst eine künstliche Gruppeneinteilung schaffen (siehe Tabelle 3, S. 19). Dabei erweist es sich oft als zweckmäßig, die Breite der einzelnen Gruppen unterschiedlich zu wählen, z. B. bei einer Verteilung, bei der die Randgruppen sonst zu schwach besetzt wären.
2.4 Häufigkeitsverteilungen
19
Tabelle 3 Aufgliederung neugeborener Kinder nach der Größe Gruppengrenzen
Häufigkeit
(Die obere Grenze zählt nicht zur Gruppe)
absolut
in °/o
30-35 35-40 40-42 42-44 44-46 46-47 47-48 48-49 49-50 50-51 51-52 52-53 53-54 54-55 55-56 56-58 58-60
31 75 57 70 238 253 485 899 1612 2 506 2 090 1413 721 337 123 58 3
0,28 0,68 0,52 0,64 2,17 2,31 4,42 8,20 14,69 22,84 19,05 12,88 6,57 3,07 1,12 0,53 0,03
insgesamt
10 971
100,00
Quelle: Unveröffentlichte Seminararbeit des Stat. Instituts der Universität W i e n .
Die graphische Darstellung von Häufigkeitsverteilungen wird im Anhang, S. 224 ff., behandelt.
3
Parameter
Bei vielen Problemen ist es zweckmäßig, nicht die Verteilung selbst zu betrachten, sondern nur eine (oder einige) ihrer charakteristischen Größen. Solche charakteristische Größen sind der Mittelwert, der Median, die Varianz, die Schiefe etc. Diese Größen wer-
20
3 Parameter
den als Tarameter bezeichnet. Ihre Definition setzt voraus, d a ß es sich u m z a h l e n m ä ß i g e M e r k m a l e h a n d e l t . Wichtig ist die Unterscheidung zwischen L a g e - P a r a m e t e r n u n d Streuungs-Parametern.
3.1 Lage-Parameter a) Das arithmetische Mittel: G e g e b e n seien « Z a h l e n : ai,a2, . . . « „ . U n t e r d e m arithmetischen Mittel ä dieser n Z a h l e n verstehen w i r : ä = - (a-i + Ö2 + . . . + an) o d e r , u n t e r V e r w e n d u n g des S u m m a 1 " tionszeichens: ä = - y at. n /=i D a s arithmetische Mittel h a t vor allem bei extensiven G r ö ß e n eine anschauliche B e d e u t u n g , da d o r t auch die S u m m e eine anschauliche B e d e u t u n g h a t : D e r durchschnittliche Seifenverbrauch — das ist der gesamte Seifenverbrauch gleichmäßig auf alle Personen aufgeteilt — o d e r u m g e k e h r t : Der Durchschnitts-Verbrauch multipliziert m i t der Anzahl der Personen gibt den G e s a m t - V e r b r a u c h . Allgemein: D a s arithmetische Mittel multipliziert mit der Anzahl der Fälle ergibt die S u m m e . Dies ist eine der wichtigsten Eigenschaften des arithmetischen Mittels. N e b e n seiner anschaulichen B e d e u t u n g gibt es auch gewisse theoretische G r ü n d e , die d e m arithmetischen Mittel eine ausgezeichnete Stellung e i n r ä u m e n : So ist es beispielsweise möglich, aus dem arithmetischen Mittel zweier G r u p p e n u n d den zugehörigen Besetzungszahlen (d. h. der A n z a h l der Einheiten in den einzelnen G r u p p e n ) das gemeinsame arithmetische Mittel zu berechnen: Beispiel: Auf Grund von Erhebungen des Statistischen Bundesamtes in Industriebetrieben mit 10 und mehr Beschäftigten betrug die im Jahre 1969 pro Arbeiter ausbezahlte Lohnsumme im Durchschnitt 11250 DM. Die im Jahre 1969 pro Angestellten ausbezahlte Gehaltssumme betrug 16 926 D M . Die Zahl der Arbeiter betrug 6 284 000, die Zahl der Angestellten 2 024 000. Aus diesen Angaben können wir leicht die Lohn- und Gehaltssumme pro Beschäftigten errechnen, die uns Aufschluß über das durchschnittliche Jahreseinkommen der in der Industrie beschäftigten Personen gibt:
3.1 Lage-Parameter
21
Lohnsumme pro Arbeiter
Anzahl X der Arbeiter
Lohnsumme
11 250 D M X 6 284 000 = 70 697 Mill. D M
Gehaltssumme pro Angestellten
Anzahl X der Angestellten
Gehaltssumme
16 926 D M X 2 024 000 = 34 259 Mill. D M
Lohn- und Gehaltssumme: Anzahl der Beschäftigten: Lohn- und Gehaltssumme pro Beschäftigten:
104 956 Mill. D M 8 308 000 12 633 D M
Die Lohn- und Gehaltssumme wird also als gewogenes arithmetisches Mittel aus der Lohnsumme pro Arbeiter und der Gehaltssumme pro Angestellten berechnet: Gewichte sind die Zahl der Arbeiter bzw. die Zahl der Angestellten. Das Ergebnis ist natürlich verschieden von dem ungewogenen arithmetischen Mittel 11250 + 16926 = 14088 2 Allgemein versteht man unter einem gewogenen arithmetischen Mittel einen Ausdruck der Form
Die Größen G l t G2, ... G„ heißen Gewichte. Ein gewogenes arithmetisches Mittel läßt sich auch noch in folgender Form anschreiben: gl + gi «2 + ... + gn a„, wobei gf =
, daher gi + g2 + . . . + gn = 1. i=i
(Manche Autoren beschränken den Ausdruck „Gewichte" auf die Größen g,-, die aufaddiert die Summe 1 ergeben.) Zerfällt eine statistische Masse in mehrere Teilmassen, so kann man das auf die gesamte Masse bezogene arithmetische Mittel als Mittel aus den arithmetischen Mitteln der Teilmassen durch Gewichtung mit ihren Umfängen darstellen (siehe obiges Beispiel).
22
3 Parameter
Oft sind die Teilmassen in sich homogen (d. h. alle Einheiten einer Teilmasse haben den gleichen Merkmalswert). Dann erhält man das arithmetische Mittel der gesamten Masse, indem man den Merkmalswert jeder Teilmasse mit dem Umfang dieser Masse gewichtet. Beispiel: Ein Betrieb hat ein Sortiment, bestehend aus den Positionen A, B, C und D (Tabelle 4). Die Betriebsspanne errechnet sich aus den Stückspannen der einzelnen Positionen durch Gewichtung mit dem Umsatz. Sie beträgt 40,2: 5,0 = 8,04 °/o. (Eine Gewichtung mit der Stückzahl wäre unrichtig, da sich die in %> ausgedrückte Spanne auf den Wert bezieht.) Tabelle 4 Berechnung der Betriebsspanne aus den einzelnen Stückspannen Position
Umsatz in Mill. DM (1)
Stückspanne in %> (2)
A B C D
0,7 1,3 0,5 2,5
8 12 8 6
2
5,0
8,04
(3) = (1) • (2) 5,6 15,6 4,0 15,0 40,2
Die Frage der möglichst zweckmäßigen numerischen Berechnung des arithmetischen Mittels wird im Anhang, S. 214 ff., behandelt. b) Der Median: Gegeben seien n Zahlen au a2,... an. Wir denken uns diese Zahlen der Größe nach geordnet und durchnumeriert. (Sind zwei Zahlen gleich, so werden diesen beiden Zahlen die Nummern nach Belieben zugeordnet.) Ist n ungerade (n = 2k + 1), so verstehen wir unter dem Median ä das Element au +1. Der Median ä ist also so beschaffen, daß gleichviele Zahlen kleiner und gleichviele größer als ä sind. Ist n gerade {n = 2k), so kann man jeden beliebigen Wert zwischen au und au +1 als Median ansehen. Vielfach wirdä = 1/2(ak + a>c + i) gesetzt. Bei stetigen Merkmalen hat der Median eine sehr anschauliche Bedeutung: Es gibt genau einen Wert,- der die Masse halbiert (d. h.
3.1 Lage-Parameter
23
unterhalb und oberhalb dessen je die Hälfte der Masse liegt). Bei der auf S. 19, Tab. 3, angegebenen Aufgliederung der Neugeborenen nach der Größe liegt der Median etwa bei 50,7 cm: Die Hälfte aller Neugeborenen ist kleiner, die Hälfte größer als 50,7 cm. Bei diskreten Merkmalen ist die Bedeutung des Medians nicht so anschaulich wie bei stetigen. Bei der auf S. 18, Tabelle 2, angegebenen Aufgliederung nach der Haushaltsgröße ist der Median bei Haushaltsgröße 3. Die Median-Gruppe selbst umfaßt etwa 2 3 % aller Fälle. Liegt eine topologische Skala vor, so ist nur der Median, nicht aber das arithmetische Mittel bestimmbar. Die Zahlenangaben der topologischen Skala sind nämlich nicht eindeutig: Jede Skala, die aus der gegebenen durch eine beliebige monotone Transformation hervorgeht, hat genau denselben Aussagegehalt. Nun ist zwar der Median invariant gegenüber solchen Transformationen, nicht aber das arithmetische Mittel. Ausführungen über die zweckmäßige numerische Bestimmung des Medians befinden sich im Anhang, S. 219 ff. c) Häufigster Wert1). Manches Mal wird auch der häufigste Wert — der Wert, bei dem die Häufigkeitsdichte ihr Maximum hat — als Lage-Parameter verwendet. Er ist allerdings nur dann ein plausibler Lage-Parameter, wenn die Verteilung eingipfelig (unimodal) ist, nicht jedoch bei mehrgipfeligen, abfallenden oder U-förmigen Verteilungen.
Bild 2. Eingipfelige Verteilung. ') In Anlehnung an die englische Terminologie wird vielfadi auch der Ausdruck „Modalwert" gebraucht.
24
3 Parameter
Z u m Unterschied v o m arithmetischen Mittel u n d dem M e d i a n k a n n der häufigste W e r t nur d a n n mit brauchbarer Genauigkeit geschätzt werden, w e n n die Stichprobe verhältnismäßig groß ist. Ähnlich wie das arithmetische Mittel ist auch der häufigste W e r t nicht invariant gegenüber beliebigen m o n o t o n e n T r a n s f o r m a t i o n e n : Der transformierte häufigste Wert wird im allgemeinen nicht mehr der häufigste W e r t der transformierten Verteilung sein. d) Das geometrische Mittel: N e b e n den bisher genannten LageParametern wird gelegentlich auch das geometrische Mittel verwendet. Unter dem geometrischen Mittel der Z a h l e n au a2, . •. an verstehen wir die Z a h l n
1/iJi a2...
an.
Die Verwendung des geometrischen Mittels ist auf Fälle beschränkt, in denen die Zahlen ai nicht negativ sein k ö n n e n , da sonst u. U. die Wurzel nicht existiert. Eine sinnvolle A n w e n d u n g des geometrischen Mittels ist z. B. möglich bei der Mittelung relativer Änderungen. Früher w u r d e gelegentlich die A n w e n d u n g des geometrischen Mittels bei der Berechnung von Preisindexzahlen empfohlen. Beispiel: Das geometrische Mittel der Zahlen in der letzten Spalte der Tabelle 5 beträgt 1,027. Es sagt uns, daß eine konstante jährliche Steigerung von 2,7 °/o im Zeitraum 1960/70 zur gleichen Preiserhöhung geführt hätte. Dieser Durchschnittswert liegt übrigens deutlich über dem entsprechenden Wert für 1950/60, der nur 1,9 °/o betrug. Als grobe Faustregel k ö n n t e m a n angeben, d a ß die Verwendung des geometrischen Mittels d o r t sinnvoll ist, w o Unterschiede nicht durch die Differenz, sondern durch das Verhältnis charakterisiert
25
3.1 Lage-Parameter
Tabelle 5 Preisindex für die Lebenshaltung (alle privaten Haushalte, Basis 1962) in der BRD TaVir janr
1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970
Preisindex für die Lebenshaltung bez. auf 1960 = 1
bez. auf Vorjahr = 1
1,000 1,023 1,054 1,085 1,111 1,145 1,188 1,208 1,227 1,260 1,310
1,023 1,030 1,029 1,024 1,031 1,037 1,017 1,016 1,027 1,040
Quelle: Stat. Jahrbuch f. d. BRD 1969, S. 442 und 444 sowie Wirtschaft u n d Statistik 1970.
sind (so wie gleiche Preissteigerung gleiche relative Preissteigerung bedeutet), also dort, w o auch die V e r w e n d u n g einer logarithmischen Skala angemessen ist. Dieser Verwandtschaft entspricht folgende Relation: Entlogarithmiert m a n das arithmetische Mittel der Logarithmen, so erhält m a n das geometrische Mittel. e) Lageregeln: Das geometrische Mittel ist stets kleiner als das arithmetische Mittel. (Grenzfall: Sind alle a; gleich a0, d a n n sind auch arithmetisches und geometrisches Mittel gleich a0.) Ist die Verteilung symmetrisch, so sind arithmetisches Mittel u n d M e d i a n identisch: Sie fallen mit dem Symmetrie-Zentrum zusammen. Ist die Verteilung a u ß e r d e m eingipfelig, so liegt auch der häufigste W e r t im Symmetrie-Zentrum. Ist die Verteilung eingipfelig u n d schief nach rechts, so haben häufigster W e r t (h), M e d i a n (¡1) u n d arithmetisches Mittel (|x) meist die in Bild 5 dargestellte Ano r d n u n g . (Bei einer nach links schiefen Verteilung ist die Reihenfolge umgekehrt.)
26
3 Parameter
Bild 5. Die Anordnung von h, p, und bei einer nach rechts schiefen Verteilung.
3.2 Streuungs-Parameter Ein Lage-Parameter gibt eine wichtige Information über die Verteilung, beschreibt diese aber keineswegs erschöpfend. Neben der Angabe eines Lage-Parameters ist vor allem eine Angabe darüber wichtig, wie stark die Einheiten um den Wert des Lage-Parameters streuen. Für manche Zwecke ist die Angabe eines Streuungs-Parameters sogar wichtiger als die eines Lage-Parameters.
Bild 6. Zwei Verteilungen mit gleichem Mittelwert und verschiedener Streuung. (Vgl. auch Bild 16, S. 107.) 1. Beispiel: Betrachten wir als Beispiel die Reißfestigkeit des Garnes: Wichtig ist, daß bei der weiteren Verarbeitung des Garnes möglichst wenige Fadenbrüche auftreten. Die Zahl der Fadenbrüche hängt davon ab, an wie vielen Stellen des Garnes die Reißfestigkeit einen gewissen kritischen Wert unterschreitet. Dies hängt jedoch nicht nur von der mittleren Reißfestigkeit ab, sondern auch davon, wie stark die Reißfestigkeiten der einzelnen Stellen von diesem Mittelwert abweichen. M. a. W.: von der Streuung.
3.2 Streuungs-Parameter
27
Bild 7. Obwohl Verteilung B ein größeres arithmetisches Mittel h a t als A, wird bei ihr die Toleranzgrenze dennoch häufiger unterschritten. 2. Beispiel: Im allgemeinen wird man die Eignung eines Arbeiters für eine bestimmte Arbeit an H a n d der Durchschnittszeit beurteilen, die er für deren Verrichtung braucht. Wenn es sich jedoch u m einen Arbeitsvorgang handelt, der in einem bestimmten Rhythmus verrichtet werden soll (z. B. Arbeit am Fließband), ist auch die Streuung von Bedeutung. Eine zu große Streuung der Einzelzeiten könnte hier auch bei guter Durchschnittszeit zu Störungen führen. 3. Beispiel: Beim Bau von Staudämmen ist es nicht so sehr die durchschnittliche Niederschlagsmenge, die gefährliche Überschwemmungen hervorruft: W o gewöhnlich viele Niederschläge fallen, h a t sich sozusagen von selbst eine Regulierung ergeben. Die Gefahr von Überschwemmungen besteht dort, w o starke Unregelmäßigkeiten bestehen, d. h. w o die Niederschlagsmenge stark streut. 4. Beispiel: Sehr drastisch wird die Bedeutung der Streuung durch folgendes Beispiel illustriert 1 ): Der Kongreßabgeordnete John Jennings führte am 6. Juni 1946 vor dem Amerikanischen Kongreß aus, daß die durchschnittliche Tiefe des Tombigbee River zu gewissen Zeiten nur 1 Fuß betrage. „Mit anderen Worten, man kann den Fluß von der M ü n d u n g bis zur Quelle durchwaten." Ein Fluß mit einer durchschnittlichen Tiefe von 1 Fuß kann jedoch in Wirklichkeit an manchen Stellen sehr tief sein. Die durchschnittliche Tiefe sagt darüber, ob m a n den Fluß durchwaten kann, gar nichts aus.
Nun besprechen wir einige Streuungs-Parameter: a) Standardabweichung, Varianz: Gegeben seien n Zahlen au a2, ... an. Unter der Varianz dieser Zahlen verstehen wir: ') Zitiert nach Wallis u n d Roberts, S. 66.
28
3 Parameter
S (ai — äV ¡=1 Dabei ist ä das arithmetische Mittel von au a2, . . . an. Die Größe s wird als Standardabweichung bezeichnet. Es ist eher die Standardabweichung als die Varianz, die dem anschaulichen Begriff der „Streuung" entspricht: Wird die Abweichung jedes Einzelwertes vom Mittelwert verdoppelt, so verdoppelt sich die Standardabweichung, während sich die Varianz vervierfacht. Die Standardabweichung hat die gleiche Dimension wie die Ursprungswerte. (Haben diese die Benennung cm, so hat die Standardabweichung gleichfalls die Benennung cm, die Varianz hingegen die Benennung cm 2 .) Die Standardabweichung kann daher — zum Unterschied von der Varianz — sinnvoll mit irgendwelchen Lage-Parametern verglichen werden (siehe Abschnitt 3.3). Trotzdem wird in der mathematischen Statistik fast ausschließlich die Varianz verwendet, weil sich die meisten Formeln der Stichprobentheorie mit der Varianz übersichtlicher ausdrücken lassen als mit der Standardabweichung. Berechnet man die Standardabweichung (oder die Varianz) nicht für die Abweichungen vom arithmetischen Mittel ä, sondern von irgendeinem anderen Lage-Parameter, so erhält man stets einen größeren Wert. Das arithmetische Mittel hat also bei der Berechnung insofern eine besondere Stellung, als es unter allen denkbaren Lage-Parametern jener ist, der den kleinsten Wert der Standardabweichung ergibt. Dies ist die sog. „Minimumseigenschaft: des arithmetischen Mittels". Die Frage der möglichst zweckmäßigen numerischen Berechnung von Varianz und Standardabweichung wird im Anhang, S. 214 ff. behandelt. b) Durchschnittliche Abweichung: Unter der durchschnittlichen Abweichung der Zahlen au a2,... an verstehen wir:
3.2 Streuungs-Parameter
S
1= 1
29
\at—a*\
Für a* wird in der Regel der Median ä, manchmal auch das arithmetische Mittel ä verwendet. Verwendet man bei der Berechnung der durchschnittlichen Abweichungen statt des Medians irgendeinen anderen Lage-Parameter, so erhält man stets einen größeren Wert. Der Median spielt für die durchschnittliche Abweichung eine ähnliche Rolle wie das arithmetische Mittel für die Standardabweichung: Er ist unter allen denkbaren Lage-Parametern jener, der den kleinsten Wert der durchschnittlichen Abweichung ergibt. (Minimumseigenschaft des Medians.) Die durchschnittliche Abweichung hat — ähnlich der Standardabweichung — die gleiche Dimension wie die Ursprungswerte. Die Frage der möglichst zweckmäßigen numerischen Berechnung der durchschnittlichen Abweichung wird im Anhang, S. 219 ff. behandelt. Varianz (Standardabweichung) und durchschnittliche Abweichung sind nur dann sinnvolle Maße, wenn die Skala eindeutig bis auf lineare Transformationen ist. c) Quantile: Es seien n Zahlen au a2,... an gegeben. Diese denken wir uns der Größe nach geordnet und durchnumeriert. Unter dem p-Quantil äp verstehen wir a/c, wobei k die auf np folgende ganze Zahl ist, sofern np nicht selbst ganzzahlig ist. Für ganzzahliges np kann als p-Quantil jeder Wert zwischen anp und anp +! genommen werden. Ein spezielles Quantil haben wir bereits kennengelernt: den Median ä, in der hier eingeführten Schreibweise (J1/2. Der Median wird als Lage-Parameter verwendet. M a n kann Quantile aber auch als Streuungs-Parameter verwenden. Die beiden Quartile äs/4 oder auch die Dezile ¿,/ ) 0 , ä9/10 geben ein sehr anschauliches Bild von der Lage und Größe des Streubereiches. Als Streuungsmaß im eigentlichen Sinne dient ihre Differenz, vor allem der sog. Quartilabstand ä3/4—«1/4.
30
3 Parameter
Manchmal wird als Maß für die Streuung auch der Streubereich angegeben, d. h. a1 und an, bzw. die Spannweite (ränge) an — at (wobei au... an der Größe nach numeriert sind.) Streubereich und Spannweite können bei adäquater Verwendung wertvolle Dienste leisten (vgl. Band II). Sie sind jedoch als Maß für die Streuung nur dann brauchbar, wenn n konstant ist: Die Größe des Streubereiches und der Spannweite wächst nämlich monoton mit der Größe von n: Das Hinzufügen eines weiteren Elementes kann den Streubereich und die Spannweite nur vergrößern (im Grenzfall unverändert lassen), aber nie verkleinern. Tabelle 6 Preise für Schweinefleisch in Wien und Innsbruck am 8. 7 . 1 9 7 0
Fleischsorte
Preise pe kg in ö.S. Wien Innsbruck• c g ü e Min. Max. « « CM to 5 Min. Max. co
«i 23 'S 1
Schopfbraten, abgezogen mit Knochen
40
50
10
48
56
8
Schulter, abgezogen
46
60
14
60
72
12
Bauchfleisch mit Schwarten und Knochen
24
40
16
28
36
8
Schlegel
52
72
20
79
88
9
Quelle: Unveröffentlichte Statistiken der Kammern der gewerblichen Wirtschaft für Wien und T i r o l .
Aus der Tabelle 6 zu schließen, daß die Streuung der Preise in Wien größer ist als in Innsbruck, wäre falsch. Der größere Streubereich in Wien ist vor allem durch eine größere Zahl von Preismeldungen bedingt.
31
3.3 Der Variationskoeffizient 3.3 Der Variationskoeffizient
Für viele Zwecke ist nicht so sehr die Streuung selbst, sondern ihre Relation zu einem Lage-Parameter von Bedeutung. Diese Relation wird durch den Variationskoeffizienten gemessen. 5 Variationskoeffizient: v = a. Manchmal wird als Variationskoeffizient auch die Größe -z a oder averwendet, so z. B. in der Textilindustrie als Maß für die Ungleichmäßigkeit des Garnes nach Sommer. Während die Größen der Standardabweichung und des Mittelwertes davon abhängen, ob man eine Länge in cm, mm oder Zoll mißt, bleibt der Variationskoeffizient als dimensionslose Größe von solchen Änderungen der Maßeinheit unberührt. Der Variationskoeffizient hat vor allem dort eine anschauliche Bedeutung, wo sich die Standardabweichung etwa proportional dem Mittelwert verändert. Beispiel: Aus Preiserhebungen in Köln und Wien ergaben sich für eine spezielle Schweinefleischsorte (Bauchfleisch, wie gewachsen) die Werte in Tabelle 7. Tabelle 7 Preise für Schweinefleisch in Köln und Wien, Jahresdurchschnitt 1969 Stadt Köln Wien
Durchschnittspreis 4,29 DM 31,85 ö.S.
Standardabweichung
Variationskoeffizient in °/o
0,22 DM 0,81 ö.S.
5,1 2,5
Quelle: Unveröffentlichte Statistiken des österr. Stat. Zentralamtes und des Statistischen Amtes der Stadt K ö l n .
Daraus ist zu ersehen, daß die Streuung der Preise in der Kölner Preisstatistik größer ist als in der Wiener Preisstatistik. Dieser Vergleich kann auf Grund des (dimensionslosen) Variationskoeffizienten trotz der ver-
32
3 Parameter
schiedenen Währungen unmittelbar vorgenommen werden. (Ob daraus allerdings geschlossen werden darf, daß auch die Streuung der Preise in Wirklichkeit in Köln größer als in Wien ist, erscheint fraglich: Die Zuverlässigkeit eines solchen Schlusses hängt davon ab, ob die Festlegung der Qualität und die Auswahl der Geschäfte in beiden Städten nach gleichen Grundsätzen erfolgte.) Nicht zu empfehlen ist die Berechnung eines Variationskoeffizienten dann, wenn das Merkmal auch negative Werte annehmen kann. Man erhielte dann beispielsweise für Mittelwerte in der Nähe von Null beliebig große Werte des Variationskoeffizienten. Dies wäre jedoch nicht sinnvoll, da die Null in diesem Falle sachlich keine vor anderen Zahlen ausgezeichnete Stellung hat. So wird manches Mal die Amplitude der Konjunkturschwankung der Nettoinvestitionen auf das arithmetische Mittel der Nettoinvestitionen bezogen, also eine Art Variationskoeffizient errechnet. Da jedoch die Nettoinvestitionen — zumindest grundsätzlich — auch Null oder negativ sein können, liefert der Variationskoeffizient hier keine sinnvolle Aussage. Außer den hier angeführten Lage- und Streuungs-Parametern gibt es noch verschiedene andere Parameter, welche die Eigenschaften der Verteilung beschreiben, so Schiefe und Exzeß. Diese Maße werden jedoch in der Praxis selten verwendet. Der interessierte Leser findet darüber Näheres u. a. in der „Methodenlehre" von Anderson, S. 33 ff. 3.4 Konzentrationsmaße Tabelle 8 zeigt die Aufgliederung von Personengesellschaften (inkl. Einzelunternehmen) einerseits und juristischen Personen andererseits nach der Höhe des Gewerbekapitals. Wir ersehen daraus, daß bei den juristischen Personen das Gewerbekapital in stärkerem Ausmaß bei den großen Unternehmen konzentriert ist als bei den Personengesellschaften. Die Aufgabe, die unterschiedlich starke Konzentration durch eine globale Maßzahl zu charakterisieren, wird oft durch Berechnung
3.4 Konzentrationsmaße
33
des sog. Lorenzschen Konzentrationsmaßes gelöst. Z u diesem Zweck werden die relativen Besetzungszahlen der Gruppen und der relative Anteil des Gewerbekapitals, der auf die betreffenden Gruppen entfällt, bei den niedrigen Werten beginnend sukzessive aufaddiert, wie dies in den Spalten 2 von Tabelle 8 geschehen ist. Sodann werden die aufaddierten Prozente der Steuerpflichtigen auf der Abszisse, die aufaddierten Prozente des Gewerbekapitals auf der Ordinate aufgetragen (siehe Bild 8). Die so entstehende Kurve heißt Lorenz-Kurve. Hätten alle Unternehmen das gleiche Gewerbekapital (Fehlen jeder Konzentration), so müßten die Prozentsätze jeweils miteinander übereinstimmen. Dementsprechend würde die Lorenz-Kurve mit der schrägen Geraden (der Hypotenuse des Dreiecks) zusammenfallen. Konzentriert sich umgekehrt ein immer größerer Anteil des Gewerbekapitals bei einem einzigen Unternehmen, während der Anteil aller anderen Unternehmen gegen Null strebt (im Grenzfall: Anteil des Gewert) ekapitéis in %
Anteil der Steuerpflichtigen in
%
Bild 8. Lorenz-Kurve f ü r die Konzentration des Gewerbekapitals.
ü-g a-S •sä
1ce « c J3O C U — ÜB u •C.S .y u tS &0 Ui aj
3 u 3s LOQ^Q " E U .3 T3 OH C 3
Voo H t •100
•75
•50 -25
•0
25 0 50 75 100 Anteil der Unternehmen in %
A. Eine Hälfte der Unternehmen erzielt den Umsatz 0, die anderen Unternehmen erzielen alle den gleichen Umsatz. B. Ein Unternehmen erzielt die Hälfte des Gesamtumsatzes der Branche; die zweite Hälfte teilt sich gleichmäßig auf alle übrigen Unternehmen auf. Bild 10. Zwei verschiedene Sachverhalte mit dem gleichen Konzentrationsmaß.
Nur wenn man dies als richtig ansieht, kommt das Lorenzsche Maß als Konzentrationsmaß in Betracht. Weitere Schwierigkeiten ergeben sich aus dem Unterschied von absoluter und relativer Konzentration. (Vgl. hierzu die Arbeiten von Bruckmann, Kellerer und Münzner.)
4 Allgemeine Theorie der Maßzahlen 4.1 Die Konstruktion von Maßzahlen „Jede Maßzahl muß ihren Ausgangspunkt von einer sachlichen Fragestellung nehmen, die auf die quantitative Kennzeichnung irgendeines Sachverhaltes zielt. Eine sachliche Aufgabe und die aus ihr erwachsende Fragestellung sind primär; aus ihnen — und nur aus ihnen — sind die Kriterien für den Aufbau und die Eignung einer Maßzahl zu entwickeln" (Koller). Grundlegend für die Konstruktion einer Maßzahl ist der Begriff der äquivalenten Sachverhalte: Äquivalenten Sachverhalten sollen gleiche Werte der Maßzahl entsprechen. Welche Sachverhalte äquivalent sind, hängt von der jeweiligen Problemstellung ab. Oft wird man jene Sachverhalte als äquivalent ansehen, welche gleiche Entscheidungen als
4.1 Die Konstruktion von Maßzahlen
37
K o n s e q u e n z nach sich ziehen. Bei j e d e m P r o b l e m werden gewisse U m s t ä n d e als irrelevant a n g e s e h e n . S a c h v e r h a l t e , die sich n u r in irrelevanten U m s t ä n d e n unterscheiden, sind äquivalent. D i e F o r d e rung, d a ß äquivalenten S a c h v e r h a l t e n gleiche W e r t e der M a ß z a h l entsprechen sollen, besagt also, d a ß die M a ß z a h l v o n irrelevanten U m s t ä n d e n nicht beeinflußt w e r d e n soll. D i e s e r allgemeine G r u n d s a t z für die K o n s t r u k t i o n einer M a ß z a h l soll nun an verschiedenen k o n k r e t e n Beispielen erläutert w e r d e n : 1. Beispiel: Es soll der Ernteertrag von Weizen in zwei verschiedenen Anbaugebieten verglichen werden. Wenn das Ziel dieses Vergleiches darin besteht, ein ungefähres Bild von der unterschiedlichen Produktivität der beiden Anbaugebiete bei der Weizenkultur zu geben, wird man als Maßzahl den Hektarertrag wählen, d. h. die gesamte Erntemenge zur Anbaufläche in Beziehung setzen. Als irrelevant wird dabei angesehen: die Größe der Anbaufläche, die naturgegebenen Unterschiede (Klima, Bodenverhältnisse), institutionelle Unterschiede (Kleinbetriebe, Großbetriebe, Gutsbetriebe), Unterschiede in der Bearbeitungstechnik (Saatgut, Kunstdünger, Motorisierung) usw. Will man den Ursachen für die unterschiedlichen Hektarerträge nachgehen, so wird man den Begriff der äquivalenten Sachverhalte enger fassen, d. h. Umstände, die bisher als irrelevant angesehen wurden, bei der Konstruktion der Maßzahl berücksichtigen. Man wird also beispielsweise den Vergleich auf solche Gebiete beschränken, die hinsichtlich des Klimas und der Bodenverhältnisse ähnlich sind, man wird Gebiete, in denen die Ernteerträge durch eine Naturkatastrophe vermindert wurden, ausschalten. Als irrelevant gelten jedoch weiterhin die institutionellen Unterschiede und die Unterschiede in der Bearbeitungstechnik. Mit der Änderung des Begriffes der äquivalenten Sachverhalte hat sich natürlich auch die Bedeutung der Maßzahl geändert: Die erste Maßzahl stellt nur die unterschiedliche Produktivität fest. Sie sagt jedoch überhaupt nichts über deren Ursachen aus. Durch Beschränkung auf vergleichbare Gebiete erhalten wir eine Maßzahl, die gewisse Anhaltspunkte über die Ursachen des Unterschiedes gibt; zeigt auch diese Maßzahl einen Unterschied der Hektarerträge, so kann dies nicht auf den natürlichen Gegebenheiten beruhen, sondern ist auf institutionelle Unterschiede und Unterschiede in der Bearbeitungstechnik zurückzuführen, also jedenfalls auf Faktoren, die grundsätzlich beeinflußbar sind. 2. Beispiel: Gesucht ist eine Maßzahl, die es gestattet, die Unfallhäufigkeit bei Bahnfahrt und Flug zu vergleichen, mit dem Ziele, Aufschluß über
38
4 Allgemeine Theorie der Maßzahlen
die unterschiedliche Sicherheit dieser beiden Verkehrsmittel zu geben. Zuallererst m u ß man sich darüber klar werden, ob man bei den Unfällen nur die Zahl der getöteten oder auch die Zahl der verletzten Reisenden zählen will. Nachdem dies klargestellt ist, erhebt sich die Frage, worauf man diese Zahl der getöteten oder verletzten Reisenden beziehen soll, um einen richtigen Vergleich zu erhalten, mit anderen Worten, welche Größe als Maßzahl für das Ausmaß der Reisetätigkeit dienen soll. Auf die Anzahl der Reisenden zu beziehen erscheint unbefriedigend. Denn es ist ja gleichgültig, ob der Reisende A von Wien über München nach Köln fährt oder ob er in München aussteigt und sein Platz auf der Strecke München-Köln vom Reisenden B eingenommen wird. Das Risiko eines tödlichen Unfalles ist in beiden Fällen genau das gleiche. Trotzdem haben wir im ersten Falle einen, im zweiten Falle zwei Reisende zu zählen. Der Wechsel in der Person des Reisenden ist jedoch ein irrelevanter Umstand, der die Maßzahl nicht beeinflussen darf. Die Anzahl der Reisenden ist also keine richtige Bezugsgröße. Eine auf Grund der Anzahl der Reisenden konstruierte Maßzahl w ü r d e äquivalenten Sachverhalten unterschiedliche Werte zuordnen und auch umgekehrt nicht-äquivalenten Sachverhalten gleiche Maßzahlen zuordnen: Gleichgültig, ob der Reisende A von Wien nach München oder von Wien nach Köln fährt - es wird stets 1 Reisender gezählt, obwohl das Unfallrisiko natürlich im zweiten Falle wesentlich größer ist als im ersten. M a n m u ß also die Bezugsgröße so konstruieren, daß sie ein adäquates M a ß für das Unfallrisiko darstellt. Ein solches ist die Zahl der Personen-km: gleichgültig, ob der Reisende A von Wien nach Köln fährt oder aber der Reisende A von Wien nach München und der Reisende B von München nach Köln: Es werden in beiden Fällen die gleiche Anzahl Personen-km gezählt, die Zahl der Personen-km ist unabhängig von der Individualität der Reisenden. Auf die Zahl der Personen-km bezogen, sind die Unfallhäufigkeiten von Flug und Bahnfahrt annähernd miteinander vergleichbar. Für einen wirklich sinnvollen Vergleich erscheint es jedoch naheliegend, den Bereich des Vergleiches einzuschränken auf jene Reisen, die man wahlweise mit dem Flugzeug oder mit der Bahn durchführen kann, d. h. den Lokalverkehr der Bahn und die Transozeanflüge auszuschalten. Es gibt zahllose Fälle, in denen die Maßzahl formal analog konstruiert ist wie das oben besprochene M a ß für das Ausmaß der Reisetätigkeit, die Zahl der Personen-km, so z. B. Zahl der Teilnehmer-Stunden bei Kursen, die Zahl der Krankenstandstage, der Arbeiterstunden usw. 3. Beispiel: Als Grundlage für einen Produktivitätsvergleich soll die Produktion zweier Spinnereien vergleichbar gemacht werden. Da Spinnerei A den Schwerpunkt ihrer Produktion bei den niedrigen N u m m e r n (dicke Garne), Spinnerei B bei den höheren N u m m e r n (dünne Garne) hat, ist
4.1 Die Konstruktion von Maßzahlen
39
diese Vergleichbarkeit nicht von vornherein gegeben. Sie kann jedoch dadurch erreicht werden, daß m a n mittels Äquivalenzzahlen auf ein Standardprodukt, z. B. N e 20, umrechnet. Die Äquivalenzzahl 2,57 für N e 40 besagt, daß im Durchschnitt in der gleichen Zeit, in der 1 t N e 40 produziert wird, 2,57 t N e 20 produziert werden können.
Ne
Äquivalenzzahl
16 20 24 40
0,74 1,00 1,29 2,57
Prodi iktion it t A B
Stan dardProduk tion in t A B
45 20 10 5
15 25 40 50
33 20 13 13
11 25 52 129
80
130
79
217
Äquivalenzzahlen werden häufig verwendet, um nicht vergleichbare Größen vergleichbar zu machen. Ein weiteres sehr wichtiges Beispiel ist die Umrechnung auf Vollpersonen. 4. Beispiel: Die Berechnung des Wohnungsdefizits: Bei der österreichischen Volkszählung 1951 wurde der Haushaltsbegriff wie folgt definiert: Einen eigenen Haushalt bilden jene Personen, die zusammen wohnen und eine gemeinsame Hauswirtschaft führen. Die Anzahl der Haushalte im Sinne der Volkszählung gibt daher einen Anhaltspunkt für den Wohnungsbedarf: M a n kann annehmen, daß jeder dieser Haushalte auf eine eigene W o h n u n g reflektiert. Mit gleichem Stichtag wurde eine Häuser- und Wohnungszählung durchgeführt, welche Aufschluß über die Anzahl der Wohnungen gab. Eine einfache Gegenüberstellung der Ergebnisse dieser beiden Zählungen f ü h r t zu folgendem Bild: Haushalte (ohne Anstaltshaushalte) Wohnungen (ohne Notwohnungen) Wohnungsdefizit
Anzahl in 1000 2205 2057 148
Die einfache Gegenüberstellung von Wohnungen und Haushalten berücksichtigt jedoch nicht, daß eine leerstehende W o h n u n g in einer wohnungsdefizitfreien Gemeinde nicht dazu beiträgt, das Wohnungsdefizit einer anderen Gemeinde zu verringern. Die Differenz zwischen der Zahl der Haushalte und der Zahl der Wohnungen ist kein adäquates M a ß für die Größe des Wohnungsdefizits, da die Lage der leerstehenden W o h -
40
4 Allgemeine Theorie der Maßzahlen
nungen wegen der Bindungen der Haushalte an gewisse Arbeitsstätten keineswegs irrelevant ist: 50 000 leerstehende Wohnungen auf dem Lande, 50 000 fehlende Wohnungen in den Städten ist kein Sachverhalt, der mit „Wohnungsdefizit Null" äquivalent ist. Ein sachlich adäquates M a ß für die Größe des Wohnungsdefizits erhält man, indem man die defizitfreien Gemeinden außer Betracht läßt und nur das Defizit in den defizitären Gemeinden aufaddiert. Man k o m m t so zu einem Wohnungsdefizit von 201 000 (statt 148 000) 1 ). Der analoge Grundsatz ist auch bei der Fortschreibung des Wohnungsdefizits anzuwenden: N u r das Bauen in defizitären Gemeinden kann zu einer Verringerung des Defizits führen, nicht jedoch das Bauen in defizitfreien Gemeinden. Daher m u ß die Fortschreibung gemeindeweise erfolgen: Es m u ß gemeindeweise durch Fortschreibung die Zahl der Haushalte einerseits und die Zahl der Wohnungen andererseits ermittelt und sodann das Defizit der nunmehr defizitären Gemeinden aufaddiert werden. Für 1961 wurde eine analoge Berechnung nicht mehr durchgeführt. Es zeigte sich nämlich, daß zu diesem Zeitpunkt auch in Gemeinden mit mehrfach bewohnten Normalwohnungen häufig ein nicht zu vernachlässigender Anteil von Normalwohnungen unbewohnt war. Dieser neue Sachverhalt macht deutlich, daß auch die gemeindeweise Gegenüberstellung von Haushalten und Normalwohnungen nicht unter allen Bedingungen eine sinnvolle Maßzahl ergibt. Vielfach s t e h t nicht eine k o n k r e t e V o r s t e l l u n g ü b e r die Ä q u i v a lenz v o n S a c h v e r h a l t e n an d e r Spitze, s o n d e r n es w i r d einfach eine M a ß z a h l k o n s t r u i e r t u n d d a d u r c h d e r Begriff d e r
äquivalenten
S a c h v e r h a l t e implizite definiert: Als ä q u i v a l e n t w e r d e n jene Sachv e r h a l t e a n g e s e h e n , w e l c h e identische W e r t e d e r M a ß z a h l e r g e b e n . Dieses V o r g e h e n sollte, w e n n m ö g l i c h , v e r m i e d e n w e r d e n ; z u m i n dest w ä r e jedoch kritisch zu a n a l y s i e r e n , o b die d u r c h die M a ß z a h l definierte Ä q u i v a l e n z d e r S a c h v e r h a l t e w e n i g s t e n s p l a u s i b e l ist. Ein Beispiel einer solchen i m p l i z i t e n D e f i n i t i o n d e r Ä q u i v a l e n z d a s L o r e n z s c h e K o n z e n t r a t i o n s m a ß (S. 3 2 ff.).
') Vgl. Stat. Nachrichten, Jg. 8 (1953), S. 91.
wäre
4.2 Verhältniszahlen
41
4 . 2 Verhältniszahlen Eine sehr einfache Klasse von Maßzahlen sind die sogenannten Verhältniszahlen. Unter einer Verhältniszahl versteht man den Quotienten zweier Maßzahlen, von denen jede für sich einen bestimmten Sachverhalt beschreibt. Die beiden zueinander in Beziehung gesetzten Maßzahlen können sehr einfacher, aber auch sehr komplexer Natur sein. Es ist üblich, die Verhältniszahlen wie folgt zu untergliedern: 1. Meßzahlen: Eine Reihe gleichartiger Größen wird auf eine derselben (oder auf einen Durchschnitt) als gemeinsame Basis bezogen. 2. Gliederungszahlen: Eine Reihe von Teilgrößen wird auf die übergeordnete Größe als gemeinsame Basis bezogen. 3. Beziehungszahlen: Zwei verschiedenartige, aber in sachlich sinnvoller Beziehung stehende Größen werden zueinander ins Verhältnis gesetzt. 4.3 Meßzahlen Wir wollen uns zunächst die Verwendung von Meßzahlen an einigen Beispielen veranschaulichen. 1. Beispiel: Tabelle 9 zeigt, wie eine zeitliche Entwicklung durch die Berechnung von Meßzahlen verdeutlicht wird. 2. Beispiel: Manchmal ist es zweckmäßig, nicht einen einzelnen Wert, sondern einen Durchschnitt als Basis zu wählen. Tabelle 10 zeigt die Berechnung von Meßzahlen mit dem Ziele, die Saisonschwankungen der Arbeitslosigkeit in der Bundesrepublik Deutschland und in Österreich zu vergleichen. 3. Beispiel: Der deutsche Fremdenverkehr zeigte in der Sommersaison 1958 einen Rückgang bei Übernachtungen von Franzosen: Die Zahl der Übernachtungen von April bis September betrug im Jahre 1957 rund 612 000, im selben Zeitraum des Jahres 1958 hingegen nur 5 2 4 000, das sind 86°/o. Es lag die Vermutung nahe, daß dieser Rückgang durch die
4 Allgemeine Theorie der Maßzahlen
42
JS tj
C
'C g cd t-i PH o o 1-H II o vo o\ 1—1
00, VC 00, o vo o o" oo* i-T VC i-T (S VO os" t^r o (N m 00 o o o 1 V C t^ i-i -H i—i i-i 1-1 1-11-H (S rs
Q ctf CQ
CD 1-H o . ro "2. TH M" t « « H " f-T vo oo \c o TH oo « !
&
. Bilden diese beiden Länder jedoch einen Bundesstaat, dann wird ein Teil des Außenhandels-
4.5 Beziehungszahlen
55
Bild 12. Illustration zur Verkleinerung des Ausfuhr-Koeffizienten bei Zusammenfassung von Wirtschaftsgebieten. zum Binnenhandel: Die Ausfuhr des Bundesstaates beträgt 30 Einheiten, sein Brutto-Sozialprodukt 200 Einheiten, der Ausfuhr-Koeffizient demnach 15 %>. Die Zusammenfassung der beiden Länder hat also - ohne daß sich an den realen Verhältnissen etwas geändert hätte - zu einer Verringerung des Ausfuhr-Koeffizienten von 20°/o auf 15°/» geführt. Diese Uberlegungen machen es deutlich, daß der Ausfuhr-Koeffizient im allgemeinen um so kleiner wird, je größer das Land ist. Er erreicht daher das eigentlich gesteckte Ziel nicht: nämlich den Export verschieden großer Länder vergleichbar zu machen. Faßt man die in Tabelle 16 angeführten EWG-Länder als eine Einheit auf und betrachtet die Ausfuhr der EWG, so fällt der Außenhandel zwischen den einzelnen EWG-Ländern weg, und es bleibt als gemeinsamer Ausfuhr-Koeffizient 9,2 °/o (gegenüber einem Durchschnittswert von 16,8 °/o, den man für die EWG-Länder erhält, wenn man den Außenhandel innerhalb der EWG mitrechnet). Die gleichen Überlegungen gelten natürlich auch für verwandte Phänomene wie Wanderbewegung, Fremdenverkehr usw., welche die gleiche formale Struktur aufweisen. Die obigen Ausführungen h a b e n gezeigt, d a ß selbst bei so einfachen statistischen M a ß e n wie Beziehungszahlen die Richtigkeit der Interpretation n u r d a n n gewährleistet ist, w e n n die N a t u r der Z u s a m m e n h ä n g e gebührend beachtet wird.
56
4 Allgemeine Theorie der Maßzahlen
4 . 6 Der Mittelwert von Verhältniszahlen Meist hat die Masse, die der Berechnung von Verhältniszahlen zugrunde liegt, eine bestimmte Struktur; sie zerfällt in mehrere Teilmassen. In solchen Fällen erscheint es oft von Interesse, die entsprechende Verhältniszahl für jede Teilmasse zu berechnen. Die Masse A wird aufgegliedert in Ax, A 2 , . . . Am, die Masse A' in A\, A' 2) ... Km m m \
(
wobei 2 Ai = A, 2 Ki = A ' l . Dann können wir nicht nur die •=i