215 6 14MB
German Pages 228 Year 1952
über den Umgang mit Zahlen
Einführung in die Statistik von
Dr. A r n o l d S c h w a r z
2. A u f l a g e
M i t 42 F i g u r e n
Verlag von
R.Oldenbourg
München 1952
Copyright 195i by R O l d e n b o u r g . München Printed im Germany
P a s Leben ist kurz, die Kunst lang, die G e l e g e n h e i t selten, die Erfahrung trügerisch, das U r t e i l e n schwer. Hippokrates.
V o r w o r t z u r 1. A u f l a g e D? der Umgang mit Zahlen heute häufiger ist als der Umgang mit Menschen, tut ein neuer Knigge n o t Die Menschen denken in Zahlen, sie leben in Zahlen; sie beweisen, sie begründen, sie veranschaulichen mit Zahlen, aber sie verstehen sie meist nicht. Tausend falsche Schlüsse, tausend unrichtige Anwendungen richtiger Prinzipien haben darin ihren Grund. Es geht eine eigentümliche Anziehungskraft von der Zahlenfülle unserer Tage aus, der fast jeder erliegt. Um so wichtiger wäre die allgemeine Kenntnis der statistischen Grundsätze und Regeln. In der {¡diule lernt man addieren, aber Statistik ist keine Addition. Das ist der erste Grundfehler, daß jeder denkt, eine Statistik zu machen sei das einfachste Ding von der Welt. Bald wird er einsehen, daß er sich getäuscht hat. Man kann von den vielen, die sich heute der statistischen Methode bedienen wollen, natürlich nicht verlangen, daß sie neben ihrem Beruf noch Fachstatistiker sind. An diese kann man sidi nicht immer wenden. Der I n g e n i e u r , der B e t r i e b s l e i t e r will Privatstatistiken über seinen Betrieb aufstellen, er will Materialproben vornehmen, Rentabilitätsuntersuchungen anstellen, Lohn- und Lagerstatistiken einrichten, den Arbeitsgang oder neue Arbeitsmethoden kontrollieren, Marktanalysen machen, Konjunkturstatistiken lesen und deuten, Graphiken erstellen. Der S t u d e n t , der N a t i o n a l ö k o n o m , der S o z i a l p o l i t i k e r , der A r z t , der T a g e 6S c h r i f t s t e i l e r, sie haben Statistiken auszuwerten, sie kritisch zu durchleuchten, Texttabellen zusammenzustellen. Alle diese vielfältigen Arbeiten unterliegen den gleichen methodischen Grundsätzen. Sie anzuwenden ist nicht schwierig, wenn man sie kennt. Was fehlt, ist eine kurze Darlegung der Methode und Technik der Statistik, die nicht nur Rechenregeln gibt, sondern mit dem G e i s t der Statistik vertraut m?cht und in diesem G e i s t das Hantieren mit Zahlen lehrt. Wer den vorhandenen, ausgezeichneten statistischen Fachbüchern greift, sieht sich jedoch einer verwirrenden Fülle gegenüber. i*
3
Die statistischen Lehrbücher mathematischer Richtung setzen das Verständnis des Wesentlichen eigentlich schon voraus, und sie verzichten meist auf praktische Anwendungen. Die mathematische Begabung und Schulung, die ihre Lektüre verlangt, ist seltener als ihre Verfasser meinen. Daneben gibt es eine Anzahl Lehrbücher der praktischen Statistik, die der Mathematik ängstlidi aus dem Wege gehen. Sie bringen eine Masse — meist veralteten — Zahlenstoßes, aber sie zeigen nicht, was mit ihm anzufangen ist. Denn die methodische Seite dieser Werke ist gewöhnlich überaus dürftig, und von der Wahrscheinlichkeitstheorie berichten sie nichts. ,,Es beruht nämlich auf einer gewissen Selbsttäuschung, wenn man glaubt, audi ohne den Ideenkreis der Wahrscheinlichkeitstheorie auskommen zu können. In Wirklichkeit operiert in der Statistik audi der grimmigste Feind der Analogie mit den Zufallspielen mit Vorstellungen, die gerade diesem Ersdieinungsgebiet entstammen. Stellt sich doch der wissenschaftliche Statistiker täglich die Frage, ob in diesem oder jenem Fall das vorhandene Zahlenmaterial seinem Umfange nach eine Bürgschaft dafür bietet, daß sidi die Zufälligkeiten aufheben oder ausgleichen. Er wendet also die Wahrscheinlichkeitstheorie an, ohne zu wollen und ohne es zu wissen, und darum in unmethodischer Weise, nadi der rohen A r t des reinen Empirikers." (v. Bortkiewitsdi.)
Es fragt sich nun, ob es möglich ist, ohne über die Kindergartenmathematik hinauszugehen (um den spöttischen Ausdruck von Bortkiewitsch zu gebraudien), das Verständnis der Grundlagen der Statistik zu vermitteln? Ich habe es hier versucht. Dabei ist naturgemäß vieles vereinfacht und vieles weggelassen worden. Manche der vertretenen Auffassungen konnte ich nicht ausführlich begründen und muß den kritischen Leser auf meine früheren Schriften verweisen. Aus ihnen sind wenige Seiten wörtlich übernommen worden. Eine Reihe von praktischen Erfahrungen, die idi bei der Organisation der schweizerischen Volks- und Berufszählung von 1920 gewonnen habe, die ich erstmals mit elektrischen Zählmaschinen, und der Betriebszählungen von 1929 und 1939, die ich zum Teil ohne solche verarbeiten ließ, ist im technischen Teil verwertet worden. Die Anordnung des Stoffes ist nicht die gewöhnliche; sie folgt aber im Grunde dem Werdegang, den der statistisch Interessierte meistens einschlägt. Er beginnt mit dem Deuten schon vorhandener Zahlen, geht dann zu ihrer Wertung, zum Feststellen ihrer Zufallsnatur über und versucht endlich sein Zahlenmaterial zu gliedern und 4
darzustellen. Die technischen Vorgänge werden ihn vor allem wegen der Zahlenkritik interessieren. Die Art der Erhebung, der Fragestellung, das Aufbereiten der Tabellen, kurz, das Sammeln der Zahlen, wird ihn nur indirekt berühren; sie ist Sache der statistischen Fachleute. Das Messen der Zahlen ist ein technischer Vorgang, der dem Werten der Zahlen parallel geht. Das Veranschaulichen der Zahlen durch graphische Darstellungen ist wiederum dem Gliedern der Zahlen analog. Die übliche Übersicht der Fachgebiete der Statistik habe ich zu geben unterlassen. Sie böte bei den sidi immer mehr ausbreitenden Spezialanwendungen der statistischen Methode dem Leser auf s e i n e m Gebiet zuwenig, auf jedem andern zuviel.
Z u r II. A u f l a g e Die erste Auflage fand bei Fadikritik und Lesern eine so günstige Aufnahme, daß ich am Grundcharakter des Buches glaubte festhalten zu müssen. Geändert habe ich vor allem die Abschnitte über die Stichprobenmethode, die Korrelationsrechnung und die Prüfung der Güte der Anpassung. Hier habe ich versucht, auf neuem, einfachem Wege das Verständnis der Chi-Quadratverteilung zu vermitteln. Herr Dr. H. W i e s 1 e r ermöglichte mir freundlicherweise den Abdruck seiner graphischen Darstellung der Wahrscheinlichkeiten der genannten Verteilung und zahlreiche Verbesserungen im Text. Meinem Sohn U l r i c h verdanke ich u. a. die drei perspektivischen Zeichnungen der trinomialen Verteilung; Herrn Prof. O . A n d e r s o n s Kritik eine ganze Reihe von Änderungen. Gerne hätte ich die im Text nicht erwähnten Bücher und Zeitschriften alle angeführt, denen ich so viel sdiuldig bin; doch sind sie so zahlreich, daß eine Auswahl einen höchst subjektiven Charakter hätte. Der Verfasser.
5
Inhaltsverzeichnis Vorwort
3
A. DIE S T A T I S T I S C H E M E T H O D E
9
I. Z u r
Einführung:
II. D a s W e r d e n keiten)
der
Das
Wesen
Zahlen
der Zahlen
.
.
9 25
III. D a s W e r t e n d e r Z a h l e n
(Die Gesetze des Zufalls)
.
1. Die Schwankungen der Zahlen 2. Die Gleichförmigkeiten der Zahlen 3. Das Deuten der Schwankungen IV. D a s G l i e d e r n
.
(Das Feststellen von Häufig-
der Z a h l e n
(Die statistische Analyse)
.
30 30 62 66 68
1. Grundsätze der Gliederungen
68
2. Die Begriffe als Grundlage der Gliederungen 3. Das Folgern aus Gliederungen
72 74
B. DIE S T A T I S T I S C H E T E C H N I K V. D a s S a m m e l n
der Z a h l e n
1. Die Vollerhebung 2. Die Teilerhebung 3. Die Kunst, zu fragen VI. D a s A u f b e r e i t e n
der Zahlen
1. Zusammenziehen 2. Tabellieren 3. Rechenhilfen VII. D a s M e s s e n d e r Z a h l e n 1. Das Messen von Einzelzahlen und Zahlenunterschieden . 2. Das Messen von Zahlenreihen 3. Das Messen der Abhängigkeit zweier Reihen VIII. D a s V e r a n s c h a u l i c h e n d e r Z a h l e n
81 81 81 86 94 100 100 106 118 129 .129 141 185 193
Schlußbemerkung
220
Erklärung von Fachausdrücken, Sachregister
222
7
A. Die statistische Methode I. Zur Einführung: Das Wesen der Zahlen I r r e n i s t s c h w e r . Kant hat in seiner Vorlesung über Logik einen Abschnitt der Frage gewidmet: „Wie Irrtum möglich sei?". Ein Irrtum müsse sidi, sagt er, unter der Form der Wahrheit einschleichen. Denn der Irrtum sei der N a t u r des menschlichen Geistes zuwider. Unter allen möglichen Irrtümern sdieint ein statistischer Irrtum am allerunmöglichsten. Gewiß, man kann sich verschreiben. Eine Zahl kann auch aus anderen Gründen falsch sein. Wenn sie aber richtig ist, so dürften die Menschen über sie nidit verschiedene Meinungen haben. ,,On ne discute pas contre un chiffre", sagt der Franzose, „Zahlen beweisen", der Deutsche. Vor 100 Jahren begann dieser Satz: „Zahlen beweisen", der in der „Kölnischen Zeitung" als Überschrift eines Artikels erschienen war, seinen Siegeszug über die Welt. Zahlen sind Tatsachen. Tatsachen lassen sich nidit aus der Welt schaffen. Hat man auf Grund einer richtigen Zahl einen Satz aufgestellt, so kann er höchstens falsch sein, weil die Zahl falsch gedeutet wurde. Der Irrtum liegt jenseits der Zahl. D e r ü b l e R u f d e r S t a t i s t i k . Wie ist denn die Statistik so in Verruf gekommen? Warum pflegt man spöttisch zu sagen, mit Zahlen lasse sich alles, und daher nichts, beweisen? Die Statistik sei nur eine Form der Lüge 1 )? — Weil die meisten Menschen die Zahlen nicht zu deuten verstehen. Gerade die Überzeugungskraft der Zahlen, ' ) Das bekannte Zitat, es gebe drei Sorten Lügen, die gewöhnliche, die N o t l ü g e und die Statistik, bezog sich ursprünglich auf die A d v o k a t e n in England. Dort sagte man, es gebe drei Sorten von Lügnern: common liers, professional liers, and lawyers.
9
die Tatsachen, die sich u n t e r
dieser Form einschleichen, sind das
Gefährliche. N i c h t jeder, der mit Z a h l e n u m g e h t , ist ein Statistiker. Die U n w i s s e n h e i t über die B e h a n d l u n g und D e u t u n g der Z a h l e n ist heute
ebenso verbreitet
wie ihre
Anwendung
auf
allen
Lebens-
gebieten. Die B e r u f s s t a t i s t i k e r
haben
sich
mit
großer
Entschiedenheit
gegen den V o r w u r f der L ü g e n h a f t i g k e i t der Statistik zur W e h r gesetzt. M i t Unrecht. Es ist selbstverständlich, daß m a n mit Z a h l e n lügen k a n n , so g u t wie m a n mit W o r t e n lügen k a n n . A b e r n i e m a n d wird deswegen sagen, die S p r a c h e
lügt, s o n d e r n der M a n n , der
sie spricht, h a t gelogen. — Statistiker h a b e n sogar b e h a u p t e t , es sei der L e s e r
eines statistischen W e r k e s , der lüge, w e n n er es miß-
verstehe. Dieser Vorwurf g e h t ein w e n i g weit. Ist es nicht v i e l m e h r die A u f g a b e der Statistiker, d a f ü r zu sorgen, daß ihre Z a h l e n nicht m i ß v e r s t a n d e n w e r d e n ? Jedenfalls sind die Z a h l e n an sich w e d e r gut noch böse. Es k o m m t nur darauf an, was man mit ihnen macht. Scheinbare
Widersprüche.
„ D e r W e r t des englischen
A u ß e n h a n d e l s ist stark im Steigen b e g r i f f e n " , e r k l ä r t e R o b e r t
Gif-
f e n in der Königl. Statistischen Gesellschaft u n d bewies das aus d e n amtlichen Z a h l e n der englischen A u ß e n h a n d e l s s t a t i s t i k . „ D e r W e r t des englischen Review
Außenhandels
geht
zurück",
schrieb die
u n d bewies das ebenfalls aus den Z a h l e n der
Außenhandelsstatistik.
Wer hatte
Sati'rday englischen
recht? Keiner v o n beiden.
Der
erste b e n ü t z t e d r e i j ä h r i g e Durchschnitte der Jahre 1865—1867, 1875 bis
1877,
1885—1887 u n d
1 8 9 5 - 1 8 9 7 , die Saturday Review
die
f ü n f j ä h r i g e n Durchschnitte 1 8 7 0 - 1 8 7 4 , 1 8 8 0 - 1 8 8 4 und 1 8 9 0 - 1 8 9 4 . In W a h r h e i t verlief die K u r v e w e l l e n f ö r m i g ; der eine
Beobachter
h a t t e nur die a b s t e i g e n d e n Wellenstücke, der zweite die a u f s t e i g e n den in seiner Statistik v e r w e n d e t . Erst durch Ausgleich der Z a h l e n a n g a b e n in z e h n j ä h r i g e n Durchschnitten gelangte B o w 1 e y zu dem Bild einer ganz langsam
a u f s t e i g e n d e n K u r v e der
Außenhandels-
werte. A u s dieser E r f a h r u n g läßt sich ableiten, daß man sich nie, w e n n m a n sich über eine Z a h l e n b e w e g u n g
u n t e r r i c h t e n will, m i t
— einseitigen — A u s w a h l z u f r i e d e n geben sollte. Es müssen weder
alle v e r f ü g b a r e n Beobachtungen, alle „Fälle"
einer ent-
herangezogen
w e r d e n , o d e r die A u s w a h l m u ß einen richtigen Q u e r s c h n i t t gewährleisten. Die A b n e i g u n g des Statistikers gegen jede A u s w a h l ist be10
kannt.
Er verlangt
„erschöpfende
Massenbeobachtungen".
Neuer-
dings gibt er sich vielfach mit einer sorgfältigen Auswahl zufrieden.
Z w i s c h e n d e n Z a h l e n . Man sollte nicht nur zwischen den Zeilen, Sondern auch zwischen den Zahlen zu lesen verstehen. Was liegt oft zwischen zwei statistischen Feststellungen! Die Statistik der innern Wanderungen z. B. zeigt das aufs deutlichste. Aus der Verschiedenheit von Geburts- und W o h n o r t wird auf die Wanderungsbewegung geschlossen:
wer als Geburtsort
Düsseldorf
angibt,
als
W o h n o r t Berlin, wird als v o n Düsseldorf nach Berlin gezogen betrachtet. Ein Überseer, der als hoher Siebziger nach seinem Geburtsort zurückkehrt, um dort zu sterben, wird zu den Seßhaften gezählt, die ihren Geburtsort nie verlassen haben. W e n n eine Bauersfrau Zur Zeit der Geburt ihres Kindes in die Stadt in die Klinik ging, wird das Kind von der Statistik als ein Städter betrachtet, der aufs Land gewandert ist, obwohl er nur vor der Geburt die Umgekehrte Wanderung gemacht und das Land später überhaupt nie verlassen hat. Das sind Einzelfälle, wird man einwenden)
das gilt nicht für
Massenbewegungen. Betrachten wir also solche großen Bewegungen. Nichts Scheint einfacher Zu sein, als festzustellen: Nimmt die Bevölkerung eirier Gemeinde zu oder ab? Man braucht nur die Ergebnisse zweier Volkszählungen zu vergleichen. Das hat man auch getan und ist zu dem Resultat gekommen, die Bevölkerung in vielen hundert Gemeinden der Hochtäler der Alpen nimmt ab. Also, sagen die Bevölkerungspolitiker,
muß
man
von
einer
Entvölkerung
dieser
Gebirgstäler sprechen. Das ist ein vorschnelles Urteil und ein schönes Beispiel dafür, wie sehr eine einseitige Betrachtungsweise zu Fehlschlüssen
führen
kann. Die Bevölkerungszahl der Gemeinden wird von der Zahl der Geburten und Todesfälle sowie von der Zu- und Abwanderung der Bevölkerung bestimmt und ist im allgemeinen großen Schwankungen unterworfen.
Z ä h l t man die schweizerischen
18 50—1920 bei j e d e r
Gemeinden,
die von
Volkszählung, also siebenmal, abgenommen
haben, so k o m m t man zum überraschenden Ergebnisse, daß es nur 0 , 7 Prozent sind; jene, die sechsmal abgenommen und einmal zugenommen haben, machen 5 Prozent aus. Weitaus die meisten Gemeinden haben ebensooft zu- als abgenommen. Diese Statistik erstreckt sich auf sämtliche Bergkantone und ferner noch auf die K a n t o n e Bern, 11
Waadt, St. Gallen. Sie umfaßt 2010, also rund zwei Drittel aller schweizerischen Gemeinden. Nehmen wir einmal an, die Einwohnerzahl einer Gemeinde schwanke um die Zahl 1000; sie sei bei einer Volkszählung 950 gewesen, bei der nächsten Zählung 1050. Bei der übernächsten gehe sie wieder auf 950 zurück und steige bei der vierten wieder auf 1050. Vergleichen wir die Ergebnisse der ersten Zählung mit der vierten, so werden wir sagen, die Gemeinde hat um rund 10 Prozent zugenommen; haben wir unsere Betrachtung schon bei der dritten Zählung abgeschlossen, so werden wir sagen, die Gemeinde sei vollkommen s t a t i o n ä r g e b l i e b e n ; vergleichen wir die zweite und dritte Zählung, so werden wir sagen müssen, die Gemeinde hat um etwa ein Zehntel a b g e n o m m e n . Es kommt also stets auf den Zeitpunkt an, von dem aus wir betrachten. Vergleichen wir sehr viele Gemeinden, die alle eine wellenförmige Auf- und Abwärtsbewegung aufweisen (wie wir das für die Großzahl der schweizerischen Gemeinden festgestellt haben), nur an zwei Volkszähldaten, etwa 18 50 und 1920, so muß sich offenbar ergeben, daß viele zu- und viele abgenommen haben. Berücksichtigt man n u r jene Gemeinden, die seit 1850 abgenommen haben, so ist das eine große Zahl, und wir können eine „Entvölkerungskarte" aufzeichnen. Sieht man genauer zu, so ist aber ein Auf und Ab in den Bevölkerungszahlen fast aller schweizerischen Gemeinden von Zählung zu Zählung die Regel. Eine s t ä n d i g e Abnahme von Zählung zu Zählung ist, wie gesagt, außerordentlich selten (0,7 Prozent). Audi die Zahl der Gemeinden, die ständig z u genommen haben, ist sehr klein (4 Prozent). 49 Prozent aller Gemeinden haben dagegen bei sieben Volkszählungen drei- oder viermal abgenommen oder, was dasselbe ist, vier- oder dreimal zugenommen. Mit andern Worten, die Schwankungen der Bevölkerungszahlen sind sehr beträchtlich. Zu irgendeinem beliebigen Zeitpunkt sind rund ebenso viele Gemeinden vorhanden, die seit der letzten Zählung zu-, als solche, die abgenommen haben, im Flachland ebensowohl wie im Gebirge. Man darf also nicht nur die abnehmenden Gemeinden betrachten. In Graubünden z. B. haben die über 700 m liegenden abnehmenden Gemeinden im ganzen in sieben Jahrzehnten zwar um 6000 Einwohner abgenommen, dagegen haben die übrigen Gemeinden in dieser Höhenlage im selben Zeitraum um 14 000 Einwohner zu12
genommen. Aus dem allen ergibt sich, daß die Bewegung zwischen zwei statistischen Aufnahmen sehr oft keineswegs geradlinig verläuft und daß man allen Grund hat, sich wenigstens zu vergewissern, in welchem Sinne im allgemeinen Schwankungen stattgefunden haben. Vo m J e n s e i t s
der Zahlen.
Ist schon das Ergänzen der
statistischen Angaben, die zwischen zwei Zeitpunkten liegen,
oft
eine schwierige Aufgabe, so wird sie fast unlösbar, wenn wir über die
Beobachtungspunkte
hinausgehen,
die
Kurve
weiterzeichnen
wollen. Und doch geschieht das unaufhörlich. Aus dem Sinken der Sterbefälle schließt man, daß sie weiter sinken werden,
obwohl
gerade angesichts der zunehmenden Vergreisung der Bevölkerung ihr Ansteigen erwartet werden darf. Aus der zunehmenden „prosperity" glaubte man in Amerika bis 1929 schließen zu dürfen, sie werde niemals aufhören. Man hat aus der Zunahme der Länge der Schlachtschiffe in den letzten fünfzig Jahren die Länge dieser Schiffe in weitern fünfzig Jahren zu beredinen versucht. Ein findiger Kopf kam auf die Idee, die Zulässigkeit dieser Methode zu prüfen, indem er nach rückwärts rechnete, wie lang die Schlachtschiffe gewesen sein müssen, wenn man um weitere fünfzig Jahre zurückgeht. Er fand, daß die Länge der Schiffe damals eine negative Größe gewesen sei. Scheinbares
Beharren.
Ein Mensch geht am Flußufer
spazieren. Er mißt den Wasserstand am Pegel. Nach zehn Jahren kommt er wieder vorbei, sieht, daß der Wasserstand der gleiche ist, und schließt daraus, er habe sich nicht verändert. — Wie der Leser erraten haben wird, kann dieser Mensch nur ein Statistiker — natürlich ein schlechter — gewesen sein. Denn ein solcher kümmert sich gewöhnlich nicht um die Bewegungsvorgänge, die zwischen zwei Beobachtungen stattfinden. Er zählt, wie er sagt, die Kugeln in der „Urne der Natur". Nach zehn Jahren zählt er sie wieder. Ihre Zahl hat sich möglicherweise nicht verändert. Es können aber Tausende von Kugeln in der Zwischenzeit verschwunden, Tausende neu hinzugekommen, es können viele größer, viele kleiner geworden sein. Da die einzelnen Kugeln nicht im Auge behalten wurden, bemerkt man das nicht. Hier haben wir z. B. das Bild einer Betriebszählung vor uns. Die Zahl der Betriebe ist möglicherweise gleichgeblieben, auch die Zahl der Groß- und Kleinbetriebe. Aber ist es gleichgültig, ob in 13
der Zwischenzeit der Bestand an Betrieben sich verjüngt hat; wie viele von den alten noch bestehen und ob gerade sie eingeschrumpft odpr gewachsen sind; ob die sdion früher vorhandenen bereits große Betriebe waren, ob die Neugründungen kleinere oder größere Betriebe sind? Wenn der Statistiker feststellt, nur die Großbetriebe hätten an Zahl zugenommen, so haben in Wahrheit oft nur die Kleinbetriebe an Zahl zugenommen. Es können nämlidi die Klein- zu Mittelbetrieben, die Mittelbetriebe zu Großbetrieben aufgerückt und die ursprünglichen Kleinbetriebe durch neue Kleinbetriebe ersetzt worden sein. Eine Zunahme, ein Einströmen neuer Betriebe hat nur bei ihnen stattgefunden. Wer dies nicht beachtet, hat wiederum denselben Fehler begangen: er hat die innere Bewegung nicht verfolgt, er hat nur die Kugeln in den verschiedenen Urnen der einzelnen Größenklassen gezählt, aber nicht bemerkt, daß ihr Inhalt von einer Urne in die andere hinübergewandert ist. T ä u s c h e n d e Z u - u n d A b n a h m e n . Der Leser statistischer Werke täuscht sich o f t über die Z u - oder Abnahme in den Zahlen, weil er nur die Prozentzahlen betrachtet. Das ist ein sehr gewöhnlicher Fehler. Aber er wird immer wieder gemacht. Liest er z.B., die Zahl der Beschäftigten im Luftverkehr hätte in Zürich um 3600 Prozent zugenommen, im Eisenbahnwesen dagegen nur um 3 5 Prozent, so wird er den Eindruck haben, das modernste Verkehrsmittel sei von überwiegender Bedeutung geworden. In Wahrheit war die Zahl der Beschäftigten im Luftverkehr von 1 auf 37 gestiegen, also nur um 36 Beschäftigte; im Eisenbahndienst von 2403 auf 3111, also um 708 Beschäftigte. Ebenso falsch aber wäre es. stets nur die absoluten Zahlen zu berücksichtigen. Die Bedeutung der Landwirtschaft in der Schweiz ist in sechzig Jahren (von 1$60 bis 1920) scheinbar nicht oder nur unwesentlich zurückgegangen, Denn die Zahl der beschäftigten Personen mit ihren Familien sank von 1,11 nur auf 1,03 Millionen. Aber in derselben Zeit ist die Zahl der übrigen Erwerbstätigen samt ihren Angehörigen von 1,4 auf 2,9 Millionen angewachsen. Der Anteil der Landwirtschaft an der Gesamtbevölkerung ist daher von 44 auf 26 Prozent gesunken. Mandimal kann eine absolute Zunahme bereits den Keim der Abnahme in sich tragen. In manchen europäischen Ländern wurde 14
nachgewiesen, daß die gegenwärtige Zunahme der Bevölkerung nur eine scheinbare ist, hervorgerufen durch die anormale Altersverteilung der Bevölkerung und die Abnahme der Sterblichkeit. Die Gesamtbevölkerung umfaßt, da der Nachwuchs klein ist, trotz der Zunahme der Geburten infolge größerer Heiratsfreudigkeit, mehr und mehr alte Leute. Sie leben länger als früher; aber sie werden nicht ewig leben. Infolgedessen ist ein Rückschlag in absehbarer Zeit zu erwarten. Die B e w e g u n g des G a n z e n ist k l e i n e r als die s e i n e r T e i l e . Sehr oft täuscht man sich über die Änderungen in statistischen Zahlen, weil man nur die Summenzahlen betrachtet und nicht ins einzelne geht. So z. B. ist die Zahl der Betriebe in Deutschland von 1925 bis 1933 im ganzen in Industrie und Handwerk nahezu gleichgeblieben ( + 0 , 1 Prozent). Dagegen sind die Betriebe der Textilindustrie von 123 000 auf 68 000 zurückgegangen (— 45 Prozent), die Betriebe des Reinigungsgewerbes von 86 000 auf 137 000 gestiegen ( + 59 Prozent). Man kann also nicht von einer geringen Änderung reden, wenn sehr große, gegeneinander wirkende Tendenzen einen Ausgleich bewirkt haben. H i n t e r d e n K u l i s s e n d e r Z a h l e n . Manchmal weiß man nicht, was hinter den Zahlen steckt, wenn man sich nicht vergewissert, was mit den G r e n z f ä l l e n der statistischen Aufnahmen geschehen ist. Um ein einfaches Beispiel zu wählen: Bei einer Berufszählung bilden die Taglöhner insofern für die Zuteilung Schwierigkeiten, als bei ihnen oft nicht angegeben wird, ob sie in der Industrie oder in der Landwirtschaft am Stichtag tätig waren. Je nachdem sie mehr der einen oder andern Berufsklasse zugeteilt werden, können sich die Ergebnisse erheblich verschieben. Ebenso zweifelhaft ist die Zurechnung der Hausfrauen in der Landwirtschaft entweder zu dieser oder zu der hauswirtschaftlichen Tätigkeit. Ein anderes Beispiel: Wenn die Zahl der Todesfälle, die n i c h t von Ärzten bescheinigt sind, verhältnismäßig groß ist, so sind die in der Statistik ausgezählten ärztlich bescheinigten Todesursachen ganz wertlos. Man tut daher gut daran, bei jeder Erhebung auf die Zweifelsfälle in der Zuteilung ganz besonders zu achten. H e i m l i c h e r B e d e u t u n g s w a n d e l . Was o f t übersehen wird, ist die Änderung, die im Laufe der Zeit im Maß- und Gewichts15
system, das der Statistiker benützt, eintritt. In der Handelsstatistik werden die Wertangaben oft über lange Zeiträume miteinander verglichen, ohne zu berücksichtigen, daß das Geld seinen Wert veränderte; so daß man bisweilen Kleinen könnte, die Weltkriege seien der Aufmerksamkeit des Verfassers entgangen. Aber auch durch gesetzliche Änderungen können die Begriffe, die der Statistiker verwendet, ganz andere werden. „Wohnbevölkerung", „Tödlicher Unfall", „Arbeitsloser" sind derartige Begriffe, die sich unversehens unter den Händen des Bearbeiters verwandeln können. Zahlen
i n d e r L u f t . In den Bergen stürzen viel weniger
Menschen tödlich ab als auf Treppen und von Leitern. Demnach scheint das Begehen von Treppen bedeutend gefährlicher zu sein als das Klettern in den Bergen? Hier liegt der sehr häufige Fehler vor, daß man nicht das Ganze berücksichtigt; also im vorliegenden Beispiel, wie viele Personen sich der Unfallgefahr aussetzen. So stark sich auch der Alpinismus entwickelt hat, so wenig zahlreich sind die Personen, die in die Berge gehen, verglichen mit jenen, die täglich mehrmals Treppen steigen. Immer wieder kommen solche Täuschungen vor, wenn Zahlen nicht in Beziehung zu der Masse gesetzt werden, aus der sie stammen. Es erwedct großen Eindruck, wenn man darlegt, wie ungeheuer die Vorräte eines modernen Ozeandampfers sind. Hält man sidi jedoch vor Augen, daß auf einem solchen die Bevölkerung einer Kleinstadt lebt, so wird der Eindruck abgeschwächt und auf seine wahre Natur zurückgeführt. Woran die Menschen ebenfalls selten denken, ist, daß sich Beträge im Laufe der Jahre summieren. Man muß diese Summe mit den Zeitstrecken, in denen sie sich anhäufen, vergleichen, um sie richtig einzuschätzen.
Die
Berechnung,
welche ungeheuren
Nahrungsmittel-
mengen der Mensch im Laufe eines siebzigjährigen Lebens zu sidi nimmt, ist eigentlich vollkommen unsinnig, weil man sich die vielen Tausende von bescheidenen Mahlzeiten in dieser langen Zeitspanne gar nicht vergegenwärtigt. Daß der Absatz an Kaffee einer Kaffeeimportfirma den Rheinfall von Schaffhausen während sieben Minuten speisen könnte, scheint nur aus zwei Ursachen so großartig, weil das Bild erstens eine s t ä n d i g e Naturerscheinung voraussetzt und weil zweitens nicht beachtet wird, daß es sich um einen Teil des J a h r e s bedarfs einer Millionenbevölkerung handelt. 16
Elastische
Maßstäbe.
Gefährlich
sind
die
elastischen
Maßstäbe, die notwendig zu falschen Messungen führen müssen. So z. B. teilen die Statistiker die Betriebe in Klein-, Mittel- und Großbetriebe ein, nach der Zahl der beschäftigten Personen. Wenn ein Betrieb sich vergrößert, so tut er dies in der Regel, um sich die V o r teile des Großbetriebes zunutze zu machen, die unter anderm in der verhältnismäßigen Ersparnis an Arbeitern bestehen. Daher bedeuten hundert Personen in einem Großbetrieb keineswegs dasselbe wie hundert Personen in zehn Kleinbetrieben. Der Mensch
a l s M a ß a l l e r D i n g e . Frühere Statistiker
sind häufig in den Fehler verfallen, die vorhandenen Pferdekräfte in Industrie und Verkehrsgewerbe in Menschenkräfte umzurechnen. U m einen modernen Ozeandampfer zu bewegen, wären fünf Millionen Ruderer erforderlich, was aber wegen der Unmöglichkeit, diese K r ä f t e zu konzentrieren, natürlich eine unsinnige Berechnung ist. Heute sind solche Redienexempel nicht mehr beliebt. Dennoch wird unbedenklich die wirtschaftliche Bedeutung eines
Industriezweiges
durch die Zahl der beschäftigten Personen ausgedrückt, während es doch z . B . auf der Hand liegt, daß 1000 Personen, die so kostspielige und leistungsfähige Maschinen wie Zigarettenmaschinen
dirigieren,
wirtschaftlich v o n einem weit größern Gewicht sind als 1000 T a b a k arbeiterinnen, die mit der Hand Zigarren rollen. N e b e n die Vorteile des Großbetriebes, die wir oben erwähnt haben, tritt die Rationalisierung, die darauf hitiaus läuft, durch Einsatz v o n Kapital Arbeitsk r ä f t e zu ersparen. Es ist also unzulässig, nur die Zahl der Arbeitsk r ä f t e zu vergleichen; W o es sich um soziologische oder sozialpolitische Gesichtspunkte handelt, ist diese A r t der Betrachtung natürlich wohl berechtigt. Die
Wunder
der
Einteilung.
Wer mit Statistik nicht
viel zu tun gehabt hat, wird meistens gar keinen Begriff von der Wichtigkeit haben, die der Einteilung und den Klassifikationsgrundsätzen bei einer statistischen Erhebung zukommen. Nicht nur die großen Hauptgruppen, z. B. einer Berufszählung, sind v o n Land zu Land durchaus anders zusammengesetzt; auch das Ausmaß der Unterteilung und Verästelung bestimmt in weitgehendem Maße das Gesamtbild. Manche Länder rechnen den Bergbau zur Industrie, andere wiei
Schwarz,
Zahlen
17
der nidit. In mandien Ländern gehört das Gastwirtschaftsgewerbe zum Handel, was oft bei Besprechungen statistischer Zusammenstellungen übersehen wird. Beim Vergleichen einzelner Industriezweige kommt es ferner sehr darauf an, wie weit die Aufspaltung getrieben worden ist. Faßt man Männer- und Frauenkleiderkonfektion zusammen, so scheint dieser Industriezweig von viel größerem wirtschaftlichen Gewicht, als wenn man die Männerkleiderkonfektion für sich mit einem andern Industriezweig vergleicht. — Die Möbelsdireinerei wird vielfach mit Bauschreinerei verbunden. Doch gibt es zahlreiche Möbelschreinereien, die nur Möbel herstellen. Führt man sie allein auf, so erhält man ein falsches Bild vom Umfang der Möbelschreinerei. — Zum Baugewerbe gehören, außer dem eigentlichen Hoch- und Tiefbau, eine Unzahl weiterer Industriezweige, die direkt oder indirekt an der Ausstattung von Wohnungen mitarbeiten und die teils bei der Metallindustrie, teils bei der Holzindustrie aufgeführt sind. Die Gruppe Baugewerbe ist daher in ihrer Größe ganz von der willkürlichen Zuteilung dieser Industriezweige abhängig. G l a n z u n d E l e n d s t a t i s t i s c h e r P r o p h e t i e . Wissen ist Voraussehen. Da nun das statistische Wissen auf der festen Grundlage v o n Tatsachen beruht und diese Tatsachen sich mehr oder weniger langsam ändern, ist der Statistiker besonders häufig der Gefahr ausgesetzt, sich bei Aussagen für die Z u k u n f t zu Irrtümern verleiten zu lassen. „Er geht von bestimmten, zahlenmäßigen Angaben aus, die für die Vergangenheit gewonnen wurden, nimmt hypothetisch an, daß sie sich in Z u k u n f t nach gewissen Voraussetzungen ändern werden, und übersieht, daß dies im Grunde nur Denkaufgaben sind, Redienexempel, die oft auf gut Glück in die Welt gesetzt werden mit dem M o t t o : .Beweist mir, daß eine andere Zahl richtiger i s t ' " (Meerwarth). Natürlich kann von einer Sicherheit solcher hypothetischer Annahmen nicht gesprochen werden. Aber auch wer nach dem einfachen Grundsatz urteilt: „Was ist, wird sein", muß sich den größten Täuschungen aussetzen. Die Abnahme der Geburtenhäufigkeit würde, wenn sie in gleichem Maße fortschreitet wie in den letzten dreißig Jahren in Frankreich, bereits in absehbarer Zeit dazu führen, daß in diesem Land überhaupt keine Kinder mehr auf die Welt kommen. Nichts ist unwahrscheinlicher als eine solche Annahme. 18
Übrigens beweist das Eintreffen einer statistischen Voraussage noch nicht ihre prophetische Kraft. Es sind schon Dinge eingetroffen, die man aus dem Kaffeesatz prophezeit hat. G r e n z e n d e r S t a t i s t i k . Über Wert oder Unwert der Statistik würden weniger Meinungsverschiedenheiten bestehen, wenn ihre Grenzen von den Statistikern selbst oft klarer erkannt und besser respektiert würden. Manche haben aber eine Leidenschaft dafür, die Statistik auf Gebieten anzuwenden, die hierfür nicht im geringsten geeignet sind. Wenn es auch richtig ist, daß die Statistik in immer mehr Wissenszweigen Eingang findet, so gibt es doch weite Felder, auf denen sie nichts zu suchen oder nur untergeordnete Hilfsdienste zu leisten hat. Niceforo hat z. B. das häufige N e n n e n von Farben in den Gedichten von Baudelaire statistisch festgestellt und daraus auf die Farbigkeit der modernen Poesie im Vergleich mit den Homerischen Gedichten geschlossen. Nun liegt aber auf der Hand, daß die Farbigkeit eines Gedichtes keineswegs vom Vorkommen von Farbbezeichnungen abhängt, sondern vom Aufklingen von Bildern, die uns Farben vermitteln, kurz von der Anschaulichkeit und Lebendigkeit der poetischen Darstellungskunst. W ä g e n , n i c h t z ä h l e n . Audi das kommt vor, daß zahlenmäßige Erscheinungen, die der statistischen Bearbeitung durchaus Widerstreben, in ein statistisches Schema hineingezwängt werden. So sind die schweizerischen Volksabstimmungen seit 1848 mehrfach auf ihre Stimmbeteiligung hin untersucht worden, wobei sich im ganzen eine durchschnittlich a b n e h m e n d e Beteiligung von Jahrzehnt zu Jahrzehnt ergab. Unter den sämtlichen Vorlagen befanden sich jedoch vollkommen unbedeutende, die in jedem Jahrzehnt mit äußerst wichtigen keineswegs in gleichem Verhältnis gemischt waren. Es gab politisch bewegte und ruhige Jahrzehnte. Außerdem hängt die Stimmbeteiligung erfahrungsgemäß von der Koppelung mit kantonalen Vorlagen und deren Wichtigkeit in starkem Maße ab. Wir sehen also hier ein weiteres Beispiel vor uns, wie die scheinbar mögliche statistische Bearbeitung wegen innerer Wesensunterschiede zu verfehlten Ergebnissen führt. E i n i g e p r a k t i s c h e R e g e l n . Aus den angeführten Beispielen lassen sich folgende kurze Regeln für das Deuten der Zahlen ableiten: 2«
19
1. Es sind stets möglichst v o l l s t ä n d i g e u n d möglichst
verschieden-
artige A n g a b e n über dieselbe M a t e r i e zu sammeln. 2. Jede Z a h l ist in ein V e r h ä l t n i s zur Masse, aus der sie s t a m m t , zu setzen. 3. M a n vergesse nicht, daß h i n t e r jeder statistischen B e s t a n d e s a u f n a h m e Bewegungserscheinungen v e r b o r g e n sind. 4. M a n t r a u e d e m Satze nicht: „ W a s ist, w i r d s e i n " o d e r :
„Die
N a t u r macht k e i n e S p r ü n g e " . 5. M a n achte auf die statistischen Grenzfälle. 6. M a n achte auf die W a n d l u n g s f ä h i g k e i t der statistischen Begriffe, auf ihre V e r s c h i e d e n h e i t e n bei Vergleichen v o n Erhebung zu Erh e b u n g u n d v o n L a n d zu Land. 7. N e b e n den r e l a t i v e n berücksichtige m a n stets a u d i die a b s o l u t e n , n e b e n d e n a b s o l u t e n auch die r e l a t i v e n Z a h l e n . D e r V o r g a n g d e s Z ä h l e n s . W e n n wir irgendwelche G e g e n s t ä n d e zählen, s e h e n wir von ihren t a u s e n d B e s o n d e r h e i t e n ab — mit A u s n a h m e v o n j e n e r Besonderheit, die i h n e n allen gemeinsam ist u n d w e g e n der sie u n s beschäftigen. W i r fassen sie zu einer „ K l a s s e " z u s a m m e n . W i r w e r f e n sie gleichsam nacheinander auf einen H a u f e n , i n d e m wir dabei j e d e m ein Z a h l w o r t zuteilen ( H e l m h o l t z ) .
Diese
Z a h l w ö r t e r sind in ihrer R e i h e n f o l g e lediglich durch Ü b e r e i n k o m m e n festgestellt, g e n a u wie die Buchstaben Z a h l e n sind ja auch aus Buchstaben
des A l p h a b e t s .
entstanden.)
Der
(Die
abgezählte
H a u f e n t r ä g t j e t z t eine Z a h l . Er b e s t e h t n u n m e h r f ü r uns aus gleicha r t i g e n D i n g e n . Sie sind allein durch ihre Masse gekennzeichnet. Vorteilhafte
Eigenschaften
der
Zahlen.
Worin
b e s t e h t der V o r t e i l , solche H a u f e n gleichartig scheinender D i n g e anzulegen? M a n k a n n sie sehr leicht u n d sehr g e n a u
gegeneinander
a b w ä g e n : durch M e s s e n k a n n m a n sie v e r g l e i c h e n . Eigenschaften w e r d e n auf Z a h l e n u n t e r s c h i e d e z u r ü c k g e f ü h r t , g e n a u so wie wir alle T ö n e , die dem O h r eines M u s i k e r s so unendlich verschieden klingen, auf verschieden h o h e Schwingungszahlen u n d K o m b i n a t i o n e n
von
Schwingungen z u r ü c k f ü h r e n k ö n n e n . Das b e d e u t e t im G r u n d e eine künstliche, wesentliche V e r e i n f a c h u n g der W e l t . D e r z w e i t e g r o ß e V o r t e i l des Z ä h l e n s b e s t e h t im ren 20
unbestimmter
Vorstellungen.
Präzisie-
In vielen Fragen des
wissenschaftlichen und praktischen Lebens kommt es auf Genauigkeit an. Ohne Zählen und Messen ist keine Genauigkeit möglich. Nicht daß der Statistiker absolute Genauigkeit verlangt, er begnügt sich meist schon mit 95 Prozent Genauigkeit. Aber die statistische Genauigkeit ist doch weit größer als die rohe Sdiätzung oder das „Gefühl". Wir wollen nicht nur wissen, ob e i n i g e Fälle sich so und so verhalten, sondern wie v i e l e das sind. Wir können sehr oft nicht sagen, daß a l l e Gegenstände diese oder jene Eigenschaft aufweisen, aber wir können wenigstens sagen, für wie viele Gegenstände das zutrifft. „Die Beschreibung durch Zählung ist nämlich die denkbar einfadiste und kann vermöge des bereitliegenden Zahlensystems ohne neue Erfindung zu beliebig feiner und genauer Unterscheidung getrieben werden. Das Zahlensystem ist eine Nomenklatur von unerschöpflicher Feinheit und Ausdehnung und wird trotzdem an Übersichtlichkeit durch keine andere Nomenklatur übertroffen. Überdies kann durdi Anwendung der Zähloperation selbst jede Zahl aus jeder andern abgeleitet werden, wobei gerade die Zahlen zur Darstellung von Abhängigkeiten sich vorzüglich eignen. Diese augenscheinlichen Vorteile, welche in der Verwendung des Quantitativen liegen, müssen das Bestreben erzeugen, die Verknüpfung des Qualitativen mit dem Quantitativen überall aufzusuchen, wo dies gelingen mag, um allmählich alle qualitativen auf quantitative Unterschiede zu reduzieren" (Ernst Mach). Wenn wir uns vorstellen (bei den maschinell bearbeiteten Volkszählungen geschieht dies tatsächlich), daß für jede Person eine Zählkarte angelegt wird und daß die Kärtchen zu größern und kleinern Haufen vereinigt werden, so können wir durch die Unterschiede in der Höhe der Haufen einen deutlichen Begriff der Wichtigkeit der einzelnen Berufe gewinnen. Die Bädcer und Metzger sowie alle Berufe, die dem unmittelbarsten Lebensbedarf dienen, werden mit besonders hohen Kartenstößen vertreten sein, ferner auch die Berufe, die für Bekleidung und Behausung sorgen. Es kommen dann jene, die zur Beschaffung von Produktionsmitteln dienen usw., am Schlüsse jene für die Verteilung der Güter. Werden die verschiedenen Zählkartenstöße auf dem Boden eines großen Saales nebeneinandergestellt, so ergeben sich treppenförmige Abstufungen, die ein gegenseitiges Abtasten der Größenverhältnisse ermöglichen. Mißt man die einzelnen Haufen an der Höhe des Turmes, der entstehen würde, wenn man das gesamte Zählkartenmaterial zu einem Haufen schichtet, so 21
erhält man wichtige Verhältniszahlen. Werden die Zählkarten jedes Berufes der letzten und vorletzten Zählung nebeneinander aufgeschichtet, so kann man wiederum ein Anwachsen oder Sinken der Berufstätigen jedes Handwerks konstatieren. — Es ist ferner möglich, die einzelnen Berufshaufen nach dem Alter der Berufstätigen zu zerlegen, wieviele 21—25, 26—30 Jahre alt sind, wodurch wir Aufschluß über das frühere oder spätere Eintrittsalter in die Berufe, über ihre Beliebtheit bei starkem Nachschub oder ihr Aussterben erhalten. Wenn wir die Berufstätigen nach der Adresse ihres Arbeitgebers ordnen würden (dies geschieht in Frankreich) und die Stöße auf dem Boden auf einer großen Landkarte anordnen, so würden die verschiedenen Haufen die produktiven Ansammlungen nach der Art der Tätigkeit in ihrer Verteilung über das Land, samt der Bedeutung, die diese Produktionsmittelpunkte besitzen, durch die Höhe der Haufen darstellen. Mit einem W o r t : Das Abtasten von
Größenverhältnissen
wirkt wie das Abtasten der Blindenschrift für den Blinden: sehen kann er dadurch nicht, wohl aber verstehen.
Unvorteilhafte
Eigenschaften
der
Zahlen.
Der
Mensch ist den Zahlen gegenüber in ungünstiger Lage. Er hat kein Organ für sie, sowenig wie für die Elektrizität; so wie er die elektrischen Wellen erst in andere Formen überführen muß, um sie überhaupt zu bemerken, so kann er wohl Zahlen abwägen und messen, wenn sie nicht zu groß sind, aber eine Vielheit von Zahlen kann er gedanklich nicht beherrschen, und er kann sich große Zahlen nicht vorstellen. Die Statistiker sind aus diesem Grunde mit Nachtigallen zu vergleichen, die ohne Zunge geboren wurden. Sie machen daher vielerlei Anstrengungen, „den Zahlen den Mund zu öffnen", die Zahlenfriedhöfe, wie sie ihre Tabellenwerke nennen, zu schmücken, die Zahlen durch graphische Darstellungen zu veranschaulichen, sie durch textliche Bearbeitungen zu beleben. Diese Unfähigkeit des menschlichen Geistes, Zahlen zu assimilieren, hat sich in dem nur langsamen Wadisen der Zahlenvorstellungen gezeigt. Es gibt heute noch primitive Völker, die buchstäblich nidit auf drei zählen können (Thurnwald). Auch entwickeltere Volksstämme haben sehr begrenzte Zahlenvorstellungen. Ein Forscher, der mit Negern Innerafrikas experimentierte, mußte die Erfahrung machen, 22
daß sie ihren Kleinviehbestand nicht in größern Zahlen ausdrücken konnten; sie bemerkten, es hätte gar keinen Sinn, weiter als 80 zu zählen, denn mehr als 80 Schweine gäbe es ja überhaupt nicht. — Während der Inflationszeit in Deutschland ist eine besondere, nervöse Krankheitsform aufgetreten, die durch das Wachsen der Geldeinheiten verursacht wurde, da sich die Leute in diesen großen Ziffern nicht mehr zurechtfanden. Anderseits läßt sich feststellen, daß großen Zahlen eine starke suggestive Kraft innewohnt, weshalb in den Zeitungen mit Vorliebe mit Zahlen, und zwar mit sehr großen, oft operiert wird. Sie pflegen im Leser eine Art „Ozeangefühl" zu erzeugen. Das Eindringen der Statistik in fast alle Gebiete des wissenschaftlichen und praktischen Lebens hat dieser Zahlenmanie Vorschub geleistet. Es gibt allerdings Kulturkreise, die noch vor kurzem völlig abseits dieser Entwicklung standen. So schrieb ein türkischer Kadi gegen Ende des 19. Jahrhunderts folgenden Brief an einen englischen Reisenden, der ihn um statistische Informationen gebeten hatte: „Mein erhabener Freund! Was Du von mir verlangst, ist ebenso schwierig als unnütz. Obwohl idi mein ganzes Leben an diesem O r t verbradite, habe ich niemals nach der Zahl seiner Häuser oder ihrer Einwohner gefragt; und was die eine Person auf ihren Maulesel lädt und die andere in den Bauch ihres Schiffes verstaut, das ist m e i n e Sache n i c h t . . . Idi preise G o t t dafür, daß ich nicht nach dem begehre, was mir nidit not t u t . . . O meine Seele! O mein Lamm! Forsdie nidit nach den Dingen, die didi nichts angehen. Du kamst zu uns, wir hießen Dich willkommen; gehe in Frieden!"
James, der amerikanische Philosoph, der diesen Ausspruch zitiert, macht kein Hehl daraus, daß er den türkisdien Kadi, mit seiner A b neigung gegen das Zählen, ebenfalls für einen Philosophen hält. Anforderungen
an
eine
gute
Statistik.
Aus der
Natur der Zahlen, die wir oben zu kennzeichnen versucht haben, aus der Schwierigkeit, sie zu deuten, erwachsen ganz besondere Anforderungen an statistische Werke. Ihre Sprödigkeit erfordert zwangsläufig eine gesdiidkte Behandlungsart. Eine gute statistische Arbeit ist stets ein mehr oder weniger gelungener psychologischer V e r s u c h .
Er
läuft darauf hinaus, im Leser gewisse Dinge anklingen zu lassen, um seine Vorstellungen zu bereichern. Es kann keine Rede davon sein, ihm Zahlen einzutrichtern, denn er wird sie doch nicht behalten. 23
Was kann in seinem Gedächtnis zurückbleiben? Entweder der Eindruck von erheblichen V e r s c h i e b u n g e n ganz bestimmter Art oder von einer bemerkenswerten K o n s t a n z . Das Abtasten von Größenverhältnissen muß dazu führen, gewisse W a n d l u n g e n in den untersuchten Massen darzulegen. Hierbei ist das Herausarbeiten eines I d e a l t y p u s im Sinne Max Webers oft nicht zu umgehen, z. B. des Handwerks, des Großgewerbes usw. Das Unwesentliche muß weggelassen werden. Eine ganze Reihe von V e r e i n f a c h u n g e n sollte vorgenommen werden, ein Messen von Zahlenverhältnissen, ein Überprüfen der Reihen. Der G l i e d e r u n g muß besondere Aufmerksamkeit geschenkt werden. Endlich ist das V e r t r a u e n des Lesers zu gewinnen, und zwar durch ein freimütiges Aufzeigen der Schwächen und Unvollkommenheiten der Erhebung und durch eine klare Darlegung, wie man zu den Zahlen und zu ihren Gruppierungen gelangt ist. E i n e l a n d l ä u f i g e V e r w e c h s l u n g . Immer wieder muß sich der Berufsstatistiker gegen die Unterstellung verwahren, daß er nichts tue als zählen. Zählen und Statistik darf man nicht miteinander verwechseln. Zählen ist, wie wir gesehen haben, eine relativ junge Erfindung der Menschheit. Die Statistik ist noch viel jünger. Man liest zwar in den statistischen Lehrbüchern dunkle Hinweise auf uralte Statistiken, die in Ägypten, bei den Chinesen, den Israeliten stattgefunden hätten. Damals handelte es sich aber lediglich um Inventuraufnahmen. Diese sind keine Statistik. Zahlenmäßige Feststellungen sind nicht an sich schon Statistik. (Aber sie können zu Statistiken verarbeitet werden.) Das Messen der Körpertemperatur ist n i c h t Statistik. Eine Barometerkurve ist nicht Statistik. Das Zählen von Geld ist nicht Statistik. Buchhaltung ist nicht Statistik. Man hat dies behauptet. Massenbeobachtungen allein (an einem Fußballmatch?), wie andere wahrhaben wollen, oder „das Beschreiben eines kollektiven Ganzen" sind auch noch nicht Statistik. Wenn aber das Beschreiben eines kollektiven Ganzen nach einer bestimmten — eben der statistischen — Methode erfolgt? Dann läuft die Definition der Statistik darauf hinaus, daß Statistik Statistik ist. Was also ist Statistik? Auf diese Rätselfrage gibt es mehr Antworten, als es Statistiker gibt. Denn sie nehmen ihre widersprechenden Ansichten ins Grab, ohne zu bemerken, wie einig sie eigentlich sind. Sie haben alle etwas getrieben, ohne offenbar zu wissen was; 24
aber daß es Statistik war, ist zum mindesten höchstwahrscheinlich. Sie haben Häufigkeiten festgestellt; sie haben ihre Schwankungen und ihre Stabilität ermittelt; sie haben nach Zusammenhängen geforscht und nach Ursachen. Alle diese verschiedenen Tätigkeiten werden wir im folgenden betrachten, um einen Begriff vom Wesen der Statistik zu bekommen; einen Begriff, den zu haben heute nützlicher ist als je.
II. Das Werden der Zahlen (Das Feststellen von Häufigkeiten) Z a h l e n a n s i c h . Es gibt nichts Dümmeres, hat man gesagt, als eine einzelne Zahl. In der Tat: Man kann wenig mit ihr anfangen. Was nützt es uns z. B., zu wissen, ein Land habe vierzig Millionen Einwohner? Wir möchten wissen, wie viele es vor hundert oder vor zehn Jahren gehabt hat, wieviel weniger Einwohner es hat als ein anderes; wie viele Frauen und wie viele Männer darunter sind, wie viele Einheimische und wie viele Ausländer, wie viele Erwerbstätige und wie viele von ihnen Ernährte, wie viele Protestanten und wie viele Katholiken, wie viele Industriearbeiter und wie viele Landwirte, wie viele Witwen und Waisen, Ledige und Verheiratete, Alte und Junge. Mit anderen Worten, wir müssen eine Gesamtmasse nach allen möglichen Gesichtspunkten zergliedern, um ein vielfältiges Netz von Größenvorstellungen, von „Haufen" zu schaffen, die sich miteinander vergleichen lassen. Der Vergleich ist nicht, wie man zu sagen pflegt, die Seele der Statistik. Im zahlenmäßigen Vergleich liegt das Wesen der Statistik, er i s t Statistik. „ S o v i e l e " statt „ e i n i g e " . Zahlreiche Erscheinungen in der Welt lassen allgemeingültige Feststellungen zu. Im Grunde genommen gehen wir stets darauf aus, solche „allgemeine Urteile", wie man es nennt, zu fällen. Wir gehen darauf aus, zu sagen: „Alle Subjekte der vorliegenden Art haben dieses bestimmte Prädikat", „Alle S sind P". In einer Unzahl von Fällen ist aber ein solcher allgemeiner Satz nicht möglich. N u r e i n i g e S haben die Eigenschaft P, a n d e r e S haben die Eigenschaft nicht-P. So hat man auf Lombrosos Behauptung, „alle Genies sind wahnsinnig", geantwortet: „Nein, einige 25
sind wahnsinnig, andere aber nicht." Er hat die negativen Fälle nicht berücksichtigt. Ein großer Fortschritt besteht nun darin, daß man diese Unzulänglichkeit wenigstens einigermaßen beseitigt, indem man feststellt, w i e v i e l e S die Eigenschaft P besitzen, w i e v i e l e Genies wahnsinnig, wie viele es nicht sind. Die G r u n d f o r m d e s s t i s c h e n U r t e i l s ist die folgende: Soundso S haben
die Eigenschaft
gibt: S ist zu soundso
stati-
viele S von
allen
P; woraus sich dann die E i n t e i l u n g ervielen
Teilen P und zu soundso
vielen
Tei-
len Q . (Von allen Genies waren soundso viele wahnsinnig, soundso viele nicht.) An Stelle des Wortes „einige" tritt das Wort
„so
viele"'). So einfach und dürftig manchem diese beiden
Grundformeln
des statistischen Urteils auch scheinen mögen, so ist leicht an Beispielen zu zeigen, was für eine große Bedeutung ihnen zukommt. Das statistische Urteil, das Präzisieren unbestimmter Urteile, obert immer weitere Gebiete. Man denke an die schaftsordnung,
an
linguistische
Untersuchungen,
er-
Pflanzengesellan die
Konsti-
tutionsforschung in der Medizin, an chemische Untersuchungen, um nur einige Beispiele anzuführen. In der Geologie, einer bisher rein beschreibenden Wissenschaft, geht man neuerdings dazu über, nicht mehr nur das Vorkommen der verschiedenen Gesteinsarten, sondern ihren A n t e i l an der Erdrinde zu bestimmen. „Die Geologie wird zu einer S t a t i s t i k der Erdrinde und ihres Inhaltes" (Niggli). Die Erfolge der modernen Vererbungswissenschaft beruhen auf der q u a n titativen
Erfassung der Erberscheinungen,
die durch
Mendels
bahnbrechende Versuche eingeleitet wurde. In der Volkswirtschaftslehre, wo die Erscheinungen äußerst verwickelt sind und einfache „Gesetze" gar nicht zulassen, ist es ebenfalls die statistische Betrachtungsweise,
die einzig Fortschritte
ermöglicht.
Die
moderne
Physik, die ehrwürdige Astronomie sogar ist ohne Statistik heute nicht mehr denkbar. Und wenn es auch eine maßlose Übertreibung ist, zu behaupten, die Wissenschaft fange erst dort an, wo das Messen und Zählen beginne, ist es doch ebenso falsch, zu sagen, sie höre dort auf. l ) Ausführlicher habe ich diese Theorie i n : Logik der Statistik, Ztsch. f. sdiweiz. Statistik, 1931, auseinandergesetzt. O . A n d e r s o n verdanke ich den Hinweis, daß ähnliche Gedankengänge russische Statistiker schon früher entwickelt haben.
26
Das
Feststellen
von
Wahrscheinlichkeiten.
Ein
Mann will sein Leben versichern. Er geht zu einer Versicherungsgesellschaft. Diese fragt ihn zunächst nadi seinem Alter. Sie hat Tafeln zur Hand, nach denen sie die Sterbewahrscheinlichkeit ihrer Kunden bestimmen kann. Das klingt äußerst mysteriös, ist aber im Grunde sehr einfach (abgesehen natürlich von den erheblichen technischen Schwierigkeiten, die das Aufstellen und Ausgleichen solcher Tafeln mit
sich bringt).
Dreiundzwanzig
deutsche
Gesellschaften
haben in langer Zeit ungefähr 9 0 0 0 0 0 Einzelbeobachtungen an versicherten Personen zusammengebracht. Sie haben z. B. festgestellt, daß von
8 5 0 2 0 versicherten Männern,
die im
einundvierzigsten
Lebensjahr standen, 9 4 0 in diesem Jahr starben. Die relative Häufigkeit betrug also 9 4 0 dividiert durch 85 0 2 0 oder 0 , 0 1 1 0 6 . Diese Verhältniszahl ist die Sterbewahrscheinlichkeit für untersuchte Männer, die im einundvierzigsten Lebensjahr stehen. Eine solche Erfahrungstatsache nennt man eine Wahrscheinlichkeit. Man nimmt an, daß die Zahl von 0,011 einigermaßen stabil bleibe und daher bis zur Aufstellung von neuen Sterbetafeln als Ausgangspunkt für das Maß des Risikos
einer einzugehenden
Versicherung
gelten
darf.
Natürlich
könnte man auch sagen: die Wahrscheinlichkeit sei 1,1 Prozent. Aber man ist übereingekommen, die Wahrscheinlichkeit immer zwischen den Grenzen 0 und 1 auszudrücken. 0,5 ist die Wahrscheinlichkeit eines Ereignisses, das in 50 von 100 Fällen eintrifft: 0 , 9 9 eines, das in 99 von 100 Fällen eintrifft.
1 ist die obere Grenze, die Ge-
wißheit. Das
Rechnen
mit
Wahrscheinlichkeiten.
Die
wenigsten Menschen verstehen es, Wahrscheinlichkeiten richtig abzuschätzen. Sonst würden nicht so viele in der Lotterie spielen. Die Wahrscheinlichkeit eines größeren Gewinnes ist verschwindend gering; in der französischen Staatslotterie ist die Wahrscheinlichkeit, den Haupttreffer zu machen, da zwei Millionen Lose ausgegeben werden, 1 / 2 0ooooo- Sie ist ebenso groß wie die Wahrscheinlichkeit, bei einem Eisenbahnunfall getötet zu werden. In der Schweiz wurden im Jahr 1940/41 185 Millionen Personen befördert. Es kamen 1940 89 Personen durch Eisenbahnunfälle ums Leben. Der Bruch: „günstige" Fälle durch mögliche Fälle,
/i85oooooo- ergibt die Wahrschein-
89
lichkeit / oso ooo- Sie ist von derselben Größenordnung wie die WahrJ 2
scheinlichkeit, den Haupttreffer zu gewinnen. Keiner, der die Eisen27
bahn benutzt, rechnet darauf, dabei ums Leben zu kommen, aber auf den Haupttreffer rechnen Unzählige. Nehmen wir ein anderes Beispiel. Welches ist die Wahrscheinlichkeit eines n i c h t v e r r e g n e t e n S o n n t a g s ? Da die Häufigkeit (die sogenannte Wahrscheinlichkeit) eines Sonntags ein Siebentel ist, weil ein Sonntag auf jeden siebenten Tag entfällt, und da z. B. für Bern im Jahr durchschnittlich 50 ganz klare Tage ermittelt wurden, die Häufigkeit, die sogenannte Wahrscheinlichkeit eines solchen Tages also ebenfalls etwa ein Siebentel, beträgt, ist die 365 Häufigkeit eines Sonntags, der sonnig ist, ein Siebentel kleiner als die Häufigkeit eines Tages, Sonntag zu sein, also y von einem Siebentel oder - i ; die Wahrscheinlichkeit eines nicht sonnigen Sonntags y X y = -Tä' a l s o entfällt auf sechs trübe Sonntage ein sonniger. 6 6 36 Die nicht sonnigen Werktage haben die Häufigkeit — X y oder — , 1 6 6 die sonnigen Werktage y X y oder — . Die Summe dieser vier Brüche ist, wie man sieht, gleich eins. Die Wahrscheinlichkeit wird, wie oben erwähnt, stets durch einen editen Bruch ausgedrückt, sie bewegt sich zwischen 0 (Minimum der Wahrscheinlichkeit) und X (Gewißheit). Die Wahrscheinlichkeit eines Ereignisses und die ihr entgegengesetzte Wahrscheinlichkeit für das Nichteintreffen dieses Ereignisses müssen sich daher stets zu 1, zur Gewißheit, ergänzen. Dieser Rechnung liegt der sogenannte „Undsatz" der Wahrscheinlichkeitstheorie zugrunde, welcher besagt, die Wahrscheinlichkeit, daß das eine u n d das andere von zwei voneinander unabhängigen Ereignissen gleichzeitig eintreffen, gleich ist dem P r o d u k t aus den Wahrscheinlichkeiten jedes einzelnen Ereignisses. Der „Oder"-Satz der Wahrscheinlichkeitstheorie besagt: Die Wahrscheinlichkeit, von zwei voneinander unabhängigen Ereignissen werde das eine o d e r das andere eintreffen, ist gleich der S u m m e der Wahrscheinlichkeiten für jedes der beiden Ereignisse für sich allein. Auch dieser Satz ist an Hand eines Beispieles ohne weiteres einzusehen. Beim italienischen Zahlenlotto werden von den fortlaufenden Zahlen 1—90 immer fünf Zahlen nacheinander gezogen. Die Wahrscheinlichkeit, daß eine bestimmte Zahl von 1—90 b e i m e r s t e n Z u g h e r a u s k o m m t , ist 1 / 9 0 , daß sie beim zweiten Zug herauskommt, ebenfalls 1 / 9 0 usw., daß diese Zahl sich unter 28
den fünf gezogenen Zahlen befindet, ist natürlich größer, nämlich Veo + 7»o + V»o + 7so + V.o = '/so oder '/,„. Würde der italienische Staat das 18 fache der Einsätze ausbezahlen, so würde er auf die Dauer ebensoviel gewinnen als verlieren. Er vergütet aber nur das Zehnfache, behält also s / 1 8 der auf einzelne Nummern gespielten Summen zurüdc. V o n P e a r s o n wurden 1000 Beobachtungen über die Körpergröße v o n Vätern und Söhnen angestellt: Wer über 171 cm groß war, wurde als groß, wer darunter war, als klein bezeichnet. Es ergab sich folgende Tabelle: Vater klein
Vater groß
Total Väter
Sohn klein
250
89
339
Sohn groß
215
446
661
Total Söhne
465
535
1000
Man sieht, daß die Wahrscheinlichkeit, große Söhne zu haben, für große Väter bedeutend größer ist, als kleine Söhne zu haben, umgekehrt sind die Väter mit kleinen Söhnen verhältnismäßig selten groß. Die Wahrscheinlichkeit, daß ein Vater groß ist, ist 535/iooo oder 0,535 (d. h. die Wahrscheinlichkeit oder Häufigkeit, daß ein Vater unter die mehr als 171 cm großen Väter gehört, wenn er aus einer ganzen Bevölkerung zur Beobachtung gelangt, ist 5S5/iooo)- Die Wahrscheinlichkeit, daß ein Sohn groß ist, ist ° 6 1 / 1 0 0 0 oder 0,061; daß ein großer Vater einen großen Sohn hat, ist 446 /s3s oder 0,83, also ziemlich nahe bei 1, der Gewißheit; daß ein großer Vater einen kleinen Sohn hat, nur s a / s 3 s oder 0,166; daß ein kleiner Sohn einen großen Vater hat, nur 8 9 / 3 3 9 oder 0,262. — Aus dieser kleinen Zusammenstellung lassen sich also eine ganze Reihe wertvoller Aussagen, statistische Urteile, gewinnen. Ganz offensichtlich ist es k e i n Z u f a l l , daß die Aussichten für große Väter so viel größer sind, große als kleine Söhne zu bekommen — sonst würden die Wahrscheinlichkeiten für kleine wie für große Söhne viel näher beieinanderliegen. Das wird sich jedermann aus einem ganz i n s t i n k t i v e n Gefühl heraus sagen. Im folgenden soll jedoch gezeigt werden, wie man zu einer s i c h e r e n Beurteilung gelangen kann, zu einem W e r t e n der Zahlen. Das Gefühl ist in statistischen Dingen ein unsicherer Führer. 29
III. Das Werten der Zahlen (Die Gesetze des Zufalls) ;. Die Schwankungen der Die
Natur
macht
keine
Zahlen
Sprünge,
behaupteten
die
alten Griechen. Und noch jetzt wird diese Ansicht vielfach zitiert und vertreten. Gerade wo es sich um zahlenmäßig erfaßbare Erscheinungen handelt, glaubt man mit einer gewissen Regelmäßigkeit trotz vieler Schwankungen im einzelnen rechnen zu dürfen. Diese Konstanz sei keine absolute im Gegensatz zu den „exakten" Gesetzen der Naturwissenschaften, sagen, gleichsam entschuldigend, die Statistiker. Es kommt ihnen dabei nicht zum Bewußtsein, daß sich in den letzten Jahrzehnten eine u n b e a c h t e t e R e v o l u t i o n vollzogen hat. Die strenge Auffassung von den unabänderlich geltenden wissenschaftlichen Gesetzen ist einer elastischeren von der mehr oder weniger großen
Wahrscheinlichkeit
ihres Eintreffens
ge-
wichen. ,,Kein Naturgesetz wird je anders als angenähert oder wahrscheinlich sein", erklärte Poincaré schon vor dreißig Jahren, und ein englischer Physiker klagte, die Natur sei nicht nur weit davon entfernt, keine Sprünge zu machen, sie scheine überhaupt nichts anderes zu tun. Eben diese Schwankungen wurden schon von einem englischen Kaufmann bemerkt, John G r a u n t (1620—1674), der als erster die Sterberegister durchforschte. Er hat hierüber eine sonderbare „Theorie des Rücksprungs" aufgestellt: „Es sdieint aber ein solcher Rücksprung durchgängig in allen Dingen sich zu finden, denn wir sehen es nicht allein in der fortgehenden Bewegung der Räder in den Uhren, in dem Rudern der Kähne, daß zu jedem vorwärtsgehenden Schritte ein kleiner rückwärtsgehender Ruck sich befinde; sondern, wenn idi mich nicht heftig betrogen habe, es erscheinet selbe gleichfalls auch in der Bewegung des Mondens..."
Das ist der erste unbeholfene Versuch, statistische Vorgänge zu erklären 1 ). Wertvoller waren seine Beobachtungen, die Messungen die Schwankungen der Zahlen. Die modernen Statistiker suchen in erster Linie für die Schwankungen eine Ursache, einen sogenannten systematischen Fehler, ver' ) Ähnlich äußerte sich P a s c a l : „La nature agit par progrès, itus et reditus. Elle passe et revient, puis va plus loin, puis deux fois moins, puis plus que jamais, e t c . "
30
antwortlidi zu machen; wenn sie keinen solchen finden, sagen sie, die Abweidlungen seien l e d i g l i c h d e r b e g r e n z t e n Z a h l v o n B e o b a c h t u n g e n z u z u s c h r e i b e n , sie w ü r d e n in g r ö ß e r e n M a s s e n v e r s c h w i n d e n . Sie s e i e n g e r i n g , man k ö n n e sie v e r n a c h l ä s s i g e n , sie s e i e n auf den Zufall zurückzuführen. Was will das alles im Grunde heißen? Wann dürfen wir v o n einer Abweichung sagen, sie gehe über die Zufallsgrenzen nicht hinaus? W o liegen diese Grenzen? Was ist Zufall? D r e i F r a g e n ü b e r d e n Z u f a l l . Drei Fragen drängen sidi auf, wenn man vom Zufall spricht: Wie Zufall möglich sei? Wie man ihn beredinet? Und wie man ihn erkennt? Die erste Frage beschäftigt den Philosophen, die zweite den Mathematiker, die dritte den Mann der Praxis. Nur dieser wird die vorliegende Schrift in die Hand nehmen, nur die dritte Frage wird ihn interessieren. Aber ohne die zweite kann er sie nicht beantworten. Wie kann er von einer Zahl wissen, ob sie „zufällig" oder „nicht zufällig" sei, ob sie von der Norm, vom Durchschnitt stark oder unwesentlich abweicht? Dazu muß er wissen, wie man den Zufall beredinet. „ G o t t w ü r f e l t . " „Daß G o t t Gesetze macht, wundert midi nicht; daß er würfelt, wundert midi auch nicht; aber daß er n a c h G e s e t z e n würfelt, das wundert midi." Dieser Satz, der einem geistreichen Physiker zugeschrieben wird, rührt an einen der merkwürdigsten Widersprüche der Statistik. „Der Zufall hat nichts Geheimnisvolles", meint Winkler, „er hat seine Gesetzmäßigkeiten; er läßt sich beredinen." — Ist aber nicht gerade dieses Berechenbare des Zufalls rätselhaft? „Inmitten der wechselnden und unbekannten Ursachen, die wir Zufall nennen, und die den Gang der Ereignisse unsicher und unregelmäßig gestalten, sieht man eine erstaunliche Regelmäßigkeit zum Vorschein kommen, und zwar in dem Maße, als sie sich vervielfältigen; eine Regelmäßigkeit, die von einem Plan abhängig zu sein sdieint, und die man als einen Beweis für das Walten einer Vorsehung betrachtet hat. Aber wenn man darüber nachdenkt, erkennt man bald, daß diese Regelmäßigkeit nichts ist als die Entwicklung der verhältnismäßigen Wahrscheinlichkeiten von einfachen Ereig31
nissen, die sich um so häufiger zeigen werden, je wahrscheinlicher sie sind" (Laplace). Was heißt das nun im Grunde: Die Wahrscheinlichkeiten werden um so häufiger sein, je wahrscheinlicher sie sind? Da „wahrscheinlich" nur ein anderer Ausdrude für „häufig" ist, haben die Kritiker des großen Mathematikers geltend gemacht, daß sein Begriff der Wahrscheinlichkeit einen Zirkelschluß enthalte (s. H. Wiesler, Der Begriff der Wahrscheinlichkeit in Mathematik und Statistik, Schweiz. Ztsdir. für Volksw. und Stat., 1946, S. 139, inbes. auch Dialectica, 1949, Bd. 3). Zufallsmaschinen. Die Wahrscheinlichkeitstheoretiker ziehen Märmel aus einer Urne, sie spielen mit Würfeln, sie werfen Münzen in die Luft. Damit k ö n n e n sie den Laien wohl staunen machen, ihm aber das Wesen des Zufalls, seine Gesetzmäßigkeit, das Gesetz der Großen Zahlen niemals erklären (Keynes). Wer beweist ihm, daß sich ihre Versuchsergebnisse wiederholen werden? Man kann es den nichtmathematischen Statistikern kaum verdenken, wenn sie fortfahren, dem obenerwähnten Gesetz mystische Eigenschaften zuzuschreiben, in jeder statistischen Zahl „das Wesen der Erschein u n g " zu erblicken, jede Statistik als „Urnenzug aus einer sehr großen U r n e " anzusehen, oder gar als den „durch Zufälle gestörten Ausdrude einer höheren Wahrscheinlichkeit". Die Wahrsdieinlidikeitstheoretiker haben ferner sogenannte Zufallsmaschinen erfunden, die den Zufall produzieren, ebenso wie es Maschinen gibt, die Stecknadeln produzieren. Ebensowenig jedoch wie die Zufallsspiele kann uns der Galtonsche Zufallsapparat das Entstehen der Zufallskurve näherbringen. Er produziert wohl den Zufall, aber er erklärt ihn uns nicht. Bei diesem Apparat rollen Kugeln über ein geneigtes, mit Nägeln gespicktes Brett in unten aufgestellte Gefäße und bilden dort ein „Zufallshistogramm". Moede hatte den guten Gedanken, den Zickzacklauf der Kugeln von diesen selbst aufzeichnen zu lassen. Es ergaben sich ganz wirre Bilder. Wie kommt also durch blinden Zickzacklauf diese symmetrische und gesetzmäßige Erscheinung zustande, die man binomial nennt? D e r R ö m i s c h e B r u n n e n — ein von mir konstruiertes Schema (Fig. 1) — zeigt im Gegensatz zum Galtonsdien Brett das 32
Figur 1. Der Römische Brunnen. Schema zur Demonstration der gesetzmäßigen binomialen Verteilung.
Zwangsläufige nicht Zufällige der binomialen Verteilung. Aus der obersten Schale fließt Wasser durch zwei gleich große Öffnungen in zwei Schalen ab, von jeder von diesen wiederum z u g l e i c h e n T e i l e n in je zwei weitere Schalen usw. In der dritten Reihe der 1 2 3 Schalen sieht man nach Fig. 1 — und — zu — der Wassermassen zuo o o sammenfließen, die sich wieder in
und teilen. Damit ist die 16 16 ganz gesetzmäßige Verteilung des herabströmenden Wassers festgelegt. Sie ergibt, wie man sieht, eine ganz und gar ungleichartige Verteilung weil die mittleren Schalen stärker gespeist werden als die an der Seite. Fängt man die Wassermassen unten in gleich große Gefäße auf, so zeigt der Wasserspiegel in diesen eine treppenförmige Figur, ein Häufigkeitshistogramm. Die Wassermenge beträgt in den Gefäßen von links nach rechts
- i - u n d d e s Ganzen. Diese 16 16 16 16 lo Verteilung nennt man deswegen b i n o m i a 1, weil sie sich auch rechnerisch durch Auswertung des Binoms ( y + - i j * gewinnen läßt, wenn man nacheinander die Zahlen 1, 2, 3 und 4 für n für jede Reihe einsetzt. K n a b e o d e r M ä d c h e n ? Daß diese binomiale Verteilung keine rein mathematische Konstruktion ist, beweist z. B. die Verteilung der Knaben und Mädchen in den Familien. Dem reichen 3
Schwarz,
Zahlen
33
Material, das Geißler 1893 für Sachsen veröffentlichte, entnehmen wir die folgende Tabelle: Sächsische Familien mit vier Kindern, in denen vorhanden waren 4 Knaben und 0 Mädchen .
Zahl der Familien J_ 16 _4_ . 31 611 = 16
.
.
3 Knaben und 1 Mädchen .
8 628 =
2 Knaben und 2 Mädchen .
.
.
. 44 793
1 Knabe
und 3 Mädchen .
.
.
. 28 101 =
0 Knaben und 4 Mädchen .
.
.
-
7 004 =
Alle sächsischen Familien mit 4 Kindern 120 137 =
_6_
16 16 J_ 16 16
Zeichnen wir nach dieser Tabelle die Zahl der Familien als Stäbchen in der üblichen Weise auf (Fig. 2), so wird uns die Über-
Knaben Madchen Figur 2. Gesdileditsverhältnis der Kinder in sächsischen Familien mit 4 Kindern.
einstimmung mit Fig. 1 auffallen; doch ist sie nicht ganz vollkommen; die Familien mit 3 Knaben und 1 Mädchen haben gegen jene mit 3 Mädchen und 1 Knaben ein kleines Übergewicht, das darauf zurückzuführen ist, daß etwas mehr Knaben als Mädchen auf die Welt kommen. Die Verteilung ist daher nicht (0,5 + 0,5) 4 , sondern (0,515 + 0,485) 4 . Immerhin können wir von einer befriedigenden Annäherung an die symmetrische Biniomialverteilung sprechen 1 ). Wenn wir also das Modell des Römischen Brunnens nach unten ausbauen, so müßte sich im v o r a u s berechnen lassen, wie viele J ) S c h i e f e Verteilungen kommen zustande, wenn die beiden Ausflußöffnungen der Schalen verschieden groß sein würden, und z. B. die linke Öffnung 80 Prozent des Wassers, die rechte 20 Prozent ausfließen ließe, was der Ausrechnung des Binoms (0,8 + 0,2)" entspricht. Wie sich leicht durch solche Ausrechnungen zeigen läßt, nähern sich diese schiefen Verteilungen, je weiter man sie nach unten fortsetzt, wieder der symmetrischen normalen.
34
Prozent Knaben z. B. in den Familien mit 6 Kindern vorhanden sind, und nidit nur das, sondern auch, wie viele Prozent der Familien z. B. mit 4 Knaben und 2 Mädchen vorkommen werden. Wir wiederholen und verlängern also unser Schema (Fig. 1) bis zur 6. Reihe, indem wir der Einfachheit halber nur die Z ä h 1 e r der Brüche untereinander setzen:
1 1
1 2
1 1
1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 1 6 15 20 15 6 1 Dieses Pascalsdie Dreieck läßt sich beliebig ausdehnen. Jede Zahl ist die Summe der beiden sdiräg links und redits über ihr stehenden. Auf dieser uralten Gesetzmäßigkeit, die schon um das Jahr 1300 auf Grund hindostanisdier Erkenntnisse veröffentlicht wurde, beruht im Grunde ein großer Teil der Wahrscheinlichkeitsrechnung (Borel). Die sächsischen Familien mit 6 Kindern hatten folgende Verteilung nach dem Geschlecht der Kinder: 6 5 4 3 2 1 0
Knaben, Knaben, Knaben, Knaben, Knaben, Knabe, Knaben,
0 1 2 3 4 5 6
Mäddien 1 579 Mädchen 7 908 Mädchen 17 332 Mädchen 22 221 Mäddien 15 700 Mädchen 6 233 Mäddien 1 096
2,2% 11,0% 24,0% 30,8 % 21,8% 8,7% 1,5%
Alle Familien mit 6 Kindern 72 069
100%
Wie man sieht, stimmt unsere Vorausberechnung, denn die Zahlen der untersten Reihe des Pascalschen Dreiecks, in Prozent umgerechnet, entsprechen ziemlich genau den Prozentsätzen der angeführten Tabelle. Sie betragen nämlidi 1 , 6 % , 9 , 4 % , 2 3 , 4 % , 3 1 , 2 % , 2 3 , 4 % , 9,4% und 1 , 6 % . 3*
35
Wir können das Pascalsdie Dreieck noch mehr verlängern und uns selbst eine Tafel anfertigen, durch nichts anderes als einfache Additionen. Auf Seite 38 und 39 ist eine solche Tafel der sogenannten Binomialkoeffizienten bis zur 30. Reihe aufgeführt. Die Ausrechnung gestaltet sich allerdings mit der Zeit außerordentlich mühselig. Man benutzt daher hierfür eine Näherungsformel, ein abgekürztes Rechnungsverfahren der höheren Mathematik, das aber an der Sache selbst nicht das geringste ändert (Borel).
I - 1 l
A A,A 2
4
2
»I»
t
i A . i A s . i A i 8 8 8 II 8 i
16
A
v
A
16 16
M
A
16 16
.
I
A
16 16
vo
\û fv »
so M w
ir» ir.
r^ co
ce
es ON rs
O UN l/N tV 1
8 vO
O m tv
0
0
IA ff-
« S
in
O rr\ tv
O O vO a rs
O 00
0
Û
NO m
y^
NO
rs -f
i
Lr*
r
-
\
er
3=
1
00,5 15 2,5 35 i,
200 150 *
•'S
f
/: i, r ; i'
— - -
\
\
's NS \ \ N\ \ \ *. \ * \
\
—
..... -
100 —
SO
Nahrung m biduna — Heizung, Befeuchtung, Reinigung
—
im 15 16 17 18 19 1920 21 22 23 2• 25 25 27 28 29 1930 Figur 39. Der Zürdier Lebenskostenindex. (1914 = 100.) Schöne Kurvendarstellung (Zürcher Statistische Nachrichten).
wird o f t gewählt, indem eine Anzahl v o n Kurven durch die O r d i nate 100 durchgeführt wird, um die Sachlage vor u n d nach einem bestimmten, 100 gleichgesetzten Z e i t p u n k t für mehrere Gegenstände zu repräsentieren. Die Zeichnung ähnelt dann den Darstellungen des J u p i t e r , der in seiner Faust ein Bündel Blitze vereinigt (Fig. 39). Die B a u k l ö t z c h e n m e t h o d e
b e s t e h t im A n e i n a n d e r f ü g e n
oder Ü b e r e i n a n d e r t ü r m e n v o n einzelnen Q u a d r a t e n oder Rechtecken, ähnlich wie ein Kind seine Bauklötzchen aneinanderreiht oder aufeinanderstellt. Sie ist aus der Trostlosigkeit der Alleen v o n Stäbdiendiagrammen, weldie sich in den statistischen W e r k e n finden, h e r v o r gegangen u n d b i e t e t der Stäbchenmethode gegenüber gewisse V o r teile. In die Q u a d r a t e oder Rechtecke k ö n n e n symbolische Figuren gezeichnet w e r d e n : Männchen oder Wiegen für Bevölkerungsvorgänge, Ä h r e n für Ernteerträge usw. Dadurch ist einer künstlerischen H a n d 14 S c h w a r z , Zahlen
209
ein weiter Spielraum eröffnet, und in der T a t bilden solche Darstellungen ein anziehendes Ausstellungsobjekt. Wenn man alle diese Tafeln in gleicher Größe rahmt, an getönte Wände hängt und von vorzüglichen Graphikern ausführen läßt, wird eine einheitliche und künstlerische Wirkung erzielt. Jede einzelne Figur wird irgendeiner statistischen Einheit gleichgesetzt, so daß die Einheiten abgezählt werden müssen, wenn man die Gesamtheit feststellen will. Sind zu viele soldie Einheiten vorhanden, so wird das Abzählen natürlich lästig, bringt der Darsteller hingegen zu wenige, so werden die Darstellungen ungenau, da er höchstens halbe oder dann Viertelklötzchen als letzte Einheit anfügen kann. Ein Netzwerk oder ein Maßstab kann entfallen, da ja die Zahl der Einheiten die Größe repräsentiert. Es ist verwunderlich, daß bisher diese Methode in Tageszeitungen nicht angewendet wurde, da das Aneinanderreihen von großen Buchstaben oder von Zeichen die Anfertigung einer besondern Zeichnung unnötig macht. So z. B. wird die abnehmende Kindersterblichkeit in der Schweiz durch die folgende Darstellung recht eindrücklich vor Augen geführt: Von 100 ehelich Lebendgeborenen starben im 1. Lebensjahr: 1920: 1930:
t f t f f t f f f
t
t
t
f
Für statistische Gegenstände aus dem Verkehrswesen können Posthörnchen, Telephonapparate, Lokomotiven u. dgl. verwendet werden, die alle der Setzer ja zur Hand hat. Auch körperhafte Modelle sind mit Glück bei dieser Methode verwendet worden. Nicht der Kubikinhalt eines Gegenstandes ist mit jenem eines andern zu vergleichen, was stets zu groben Täuschungen des Beschauers führt, sondern die Modelle wirken durch ihre Vielzahl. So z. B. hat man die Ausfuhr eines Landes durch viele kleine Eisenbahnwagen dargestellt, die strahlenförmig auf einer Landkarte nach den Ausfuhrländern aufgereiht sind. Graphika
aus
Gliederungstabellen.
Eine Gliede-
rungstabelle besteht aus einer Reihe von Urteilen der Art: S ist zu soundso viel Teilen P und soundso viel Teilen Q. Die graphische Repräsentation solcher Urteile hat somit die Aufgabe, Unterteilungen von Strecken, Flächen oder Körpern vorzunehmen. Man kann sich die Entstehung solcher Graphika in der Weise denken, daß ein Haufen 210
Lochkarten, der in A b t e i l u n g e n
zerlegt w o r d e n
ist, wie z. B. die
Berufstätigen der Bäckerei nach A l t e r , wieder a u f e i n a n d e r g e s d i i c h t e t wird, wobei jedoch zwischen jeder A l t e r s g r u p p e ein farbiger K a r t o n eingelegt wird. Das so e n t s t e h e n d e
Gebilde ist ein
untergeteilter
Stab. M a n k a n n aber die bei der Z e r l e g u n g des H a u f e n s e n t s t e h e n den kleinern H a u f e n auch n e b e n e i n a n d e r s t e l l e n
u n d g e l a n g t so zu
t r e p p e n f ö r m i g e n Gebilden. W e r d e n sie alle auf die gleiche Einheit, auf 100, bezogen, so sind die A l t e r s a n g a b e n der verschiedensten Berufe n e b e n e i n a n d e r g u t zu vergleichen. Da alle dieselbe E n t f e r n u n g v o n der G r u n d l i n i e haben, ist die Schätzung g e g e n ü b e r der A u f t e i l u n g eines Stabes b e d e u t e n d erleichtert. Häufig w i r d die D a r s t e l l u n g der Stäbchen, die n e b e n e i n a n d e r s t e h e n , durch K u r v e n ersetzt, welche die Enden der Stäbdien m i t e i n a n d e r
v e r b i n d e n . Diese D a r s t e l l u n g
ist
eigentlich nicht ganz k o r r e k t , weil es sich nicht um eine k o n t i n u i e r liche A u f t e i l u n g h a n d e l t , s o n d e r n um eine A u f t e i l u n g im gleichen Z e i t p u n k t . Die R e i h e n f o l g e der einzelnen O r d i n a t e n
ist aber bis-
weilen hier zwangsläufig gegeben, so z. B. bei D a r s t e l l u n g der proz e n t u a l e n V e r t e i l u n g der G r o ß - u n d K l e i n b e t r i e b e industrie (s. Fig. 3 5).
in der
Fabrik-
Diese Figur k ö n n t e also durchaus durch eine
K u r v e e r s e t z t werden. W e n n jedoch die R e i h e n f o l g e der Glieder willkürlich ist, wie z. B. die G l i e d e r u n g der B e v ö l k e r u n g in L a n d w i r t schaft, Industrie, Handel, V e r k e h r , so sollten
Kurvendarstellungen
vermieden werden. Die S t ä b d i e n m e t h o d e , welche die Form v o n
unterteilten
Stäbchen a n n i m m t , besitzt den g r o ß e n Nachteil der schwierigen A b schätzung. Bei den B ä n d e r d i a g r a m m e n t r i t t dies besonders deutlich in Erscheinung. W e n n diese Bänder sehr lang sind, sind die A b schätzungen ihrer A b t e i l u n g e n besonders erschwert. Sind sie gar in Farben a u s g e f ü h r t , so ist eine richtige Abschätzung so gut wie u n möglich gemacht. In der Regel w e r d e n solche B ä n d e r t a b e l l e n , wie übrigens häufig auch die u n t e r g e t e i l t e n Stäbdien, h o r i z o n t a l gelagert. Eine b e s o n d e r e K o m p l i k a t i o n e r f a h r e n sie dadurch, daß m e h r e r e verschieden b r e i t e u n d u n t e r g e t e i l t e Bänder u n t e r e i n a n d e r
angeordnet
w e r d e n . Die verschiedene H ö h e der Bänder gibt das Gewicht der einzelnen Erscheinungen, ihre Länge in der Regel das T o t a l , w ä h r e n d die U n t e r t e i l u n g e n das darstellen, auf was es eigentlich
ankommt.
Ihre Lesbarkeit ist gering, weil man nicht nur nach der Länge, sond e r n a u d i nach der Breite der Bänder schätzen muß und im G r u n d e die Flächen verschiedener Rechtecke, deren Länge, aber e b e n s o wie 211
deren Breite, eine ganz verschiedene Bedeutung haben, miteinander vergleicht. Die Bauklötzchenmethode kann hier natürlich auch A n wendung fierte
finden,
indem verschiedenfarbige oder verschieden schraf-
Einheiten horizontal nebeneinandergestellt werden. Auch die
schachbrettförmige Anordnung der Einheiten ist möglich. Nach der Klaftermethode können ebenfalls aufgeteilte Bänder nebeneinander angeordnet werden. Meine Versuche haben
gezeigt,
daß das Abschätzen derartiger Figuren ganz besonders schlecht gelingt,
weil der Abstand der Unterteilungen der Bänder von
der
Mittelachse entfernt ist und dadurch das Abschätzen sehr erschwert wird. m
Si* 92S 92t -
m 70 60 SO W X
1
-i 1 1 Unkosten
20 10 •
1 1 Dividende Tmtäm ^Abschreibungen utortrm 1 1 1 I l 1 f 1 1 1 1 1 100% -1
Figur 40. Erfolgsredinung der I. G. Farbenindustrie A.-G. 1924—1926, Beispiel eines guten Flächendiagramms (Frankfurter Zeitung). Häufig werden zur Darstellung der Unterteilung F l ä c h e n
be-
nützt, etwa Quadrate oder Rechtecke, die dann in weitere Quadrate und Rechtecke zerlegt werden. Es gibt wenig Menschen mit einem Planimeter-Blick. Das Abschätzen derartiger untergeteilter Flächen ist besonders schwierig'). Deswegen werden gewöhnlich auch die Zahlen in die Unterteilungen eingesetzt, womit deutlich bewiesen wird, daß eine Tabelle der graphischen Darstellung vorzuziehen wäre.
Sehr
beliebt sind die K r e i s diagramme,
von
bei denen die Sektoren
Kreisen oder Halbkreisen die Gliederung darstellen. Das Abschätzen großer Sektoren gelingt im allgemeinen nicht schlecht, dagegen sind aber
kleinere
Sektoren
sehr
schwierig
abzuschätzen.
Aufgeteilte
*) Natürlich müssen die F l ä c h e n der Figuren miteinander in Beziehung gesetzt werden und nidit die Basislinien oder Kreisdurchmesser, was häufig geschieht.. 212
K u b e n , die gewöhnlich in Parallelperspektive dargestellt werden, bewirken eine Ineinanderschachtelung der einzelnen Ergebnisse, die an Verwirrung kaum zu überbieten ist. G r a p h i k a a u s S t u f e n t a b e l l e n . Zeitliche Reihen werden am besten durch Kurven dargestellt. Es ist üblidi, die Z e i t auf der Abszissenachse
von
links nach rechts fortlaufend abzutragen,
die
Größe der Erscheinung, die in der Zeit dargestellt werden soll, auf der Ordinatenachse. Diese A r t der Darstellung ist wohl die vollkommenste und natürlichste (Fig. 41). Sie ist heute schon derart in
37 3t 35 3* 33 32 31 30 23 2t 27 2t K30 S1 ¡2 93 91 95 St S7 9t SS 1900 DI 02 03 0* 05 Of 07 Ot 09 10 11 12 13 191* Figur 41. L e b e n d g e b o r e n e auf 1 0 0 0 Einwohner in Deutschland, 1 8 9 0 — 1 9 1 4 , O r i g i n a l - u n d g e g l ä t t e t e K u r v e , nach Hersch.
das allgemeine Verständnis eingedrungen, daß man immer häufiger im Inseratenteil Kurvendarstellungen
findet,
um die Zunahme des
Absatzes eines Artikels vor Augen zu führen. Eines der schönsten Beispiele, was für verschiedenartige Aussagen aus Kurvendarstellungen hervorgehen, bilden die graphischen Fahrpläne. Auf der Zeitachse sind die vierundzwanzig Stunden des Tages eingetragen, auf der Ordinatenachse die Eisenbahnstrecke. Jede Linie bedeutet einen fahrplanmäßigen Zug. Aus der Steilheit der Kurve läßt sich die Geschwindigkeit des Zuges ablesen. Je steiler sie ist, desto rascher legt er die Strecke zwischen den Stationen zurüdc. Ein treppenförmiger A b s a t z in der Kurve deutet einen Halt an. Überschneiden sich zwei Kurven, so findet an der betreffenden Stelle eine Kreuzung statt. Die Dichte der Kurven zeigt die Verkehrsdichte zu gewissen Tagesstunden an. 213
Es ist kaum notwendig zu sagen, daß die Zeitskala in gleichmäßigen Intervallen aufgetragen wird. Wenn die statistischen Erhebungen in ungleichmäßigen Zeitintervallen erfolgt sind, so wird hier und da der Fehler begangen, den Abstand der Ordinaten nicht entsprechend zu wählen, so daß eine Fälschung des wirklichen Bildes entsteht (richtig in Fig. 30). Oft will man die Zeitskala nicht vollständig bis in einen weit entlegenen Zeitraum zurückführen und gibt nur eine einzige Zahl von früher an. In diesem Fall ist es üblich, die Kurve zu punktieren oder zu unterbrechen. Das verbessert die Sache jedoch nicht, und man hat deshalb vorgezogen, in einem solchen Fall Stäbdien anzuwenden und das eine Stäbchen etwas mehr nach links hinauszusetzen. Eine gewisse Gefahr bei solchen Stufentabellen besteht auch darin, daß die Verhältnisse, die zwischen zwei Erhebungen stattgefunden haben und die man nicht kennt, durch eine gerade Linie ausgedrückt werden, während sie in Wirklichkeit starke Schwankungen durchgemacht haben. Z. B. die Bierbrauerei (Fig. 30) hat während der beiden Fabrikzählungen von 1911 und 1923 ein M a x i m u m 1913 erreicht, während die Kurve abwärts gerichtet ist. Eine eigentümliche Abart der zeitlichen Kurventabelle gibt die Regenschirmmethode, wobei die Kurve kreisförmig um einen M i t t e l punkt herumgeführt wird und wieder in sich selbst zurückläuft. Dies ist eine nicht immer befriedigende Darstellung, da die verschieden langen Radien schwer miteinander verglichen werden können. Ein nicht zu leugnender Vorteil besteht darin, daß der Anfangs- und Endpunkt der Kurve ineinander übergehen und z. B. der Dezember und der Januar besser miteinander verglichen werden können als bei der gewöhnlichen Darstellung. In eigentümlicher Weise wird die Gebirgsprofilmethode bei Reihentabellen verwendet. Der Unterschied zwischen zwei Kurven, z?. B. der Kurven der Weizenpreise wird schraffiert (Fig. 37) und bedeutet dann die Spannung zwischen Höchst- und Tiefpreis. Diese Fläche ist je nach dem Abstand der Ordinaten von ganz verschiedener Ausdehnung. Schwankt die Höhe der Ordinaten beträchtlich, so ergeben sich merkwürdige Verzerrungen der schraffierten Flächen, welche die tatsächlichen Verhältnisse nicht richtig wiedergeben. Sachliche Reihen können ebenso wie zeitliche Reihen in Kurvenform gezeichnet werden, so z. B. gibt die Fig. 42 Härte und Zerreißfestigkeit von Kupferlegierungen wider. 214
Die Hauptstärke der Reihendarstellung liegt im Vergleich von zwei oder mehreren Kurven. Eine einsame K u r v e auf einer
Seite
macht sich nicht gut und widerspricht dem Prinzip sowohl der Ö k o nomie als audh der Zweckmäßigkeit. Vielfach wird die Forderung erhoben, man solle möglichst nur wenige Kurven geben. Sie ist aber gänzlich verfehlt.
Gerade
der V e r g l e i c h
der Kurven
ist ja
so
Kupfer-Zinn Figur 4 2 .
Dehnbarkeit,
H ä r t e und Z e r r e i ß f e s t i g k e i t
von
Kupfer-
Z i n n - L e g i e r u n g e n , nach dem P r o z e n t s a t z des Z i n n . M e h r e r e S k a l e n nebeneinander.
fruchtbringend
(Fig. 30).
Um
ihn
besser
durchführen
werden o f t Kurven untereinandergezeichnet,
zu
können,
die ganz verschiedene
Dinge darstellen. Berühmt geworden ist der Vergleich der Bewegung der Getreidepreise und der Eigentumsdelikte. In diesem Fall ist es notwendig, zwei Skalen, eine links und eine rechts von der Darstellung, zu verwenden. Roesle hat die R e g e l aufgestellt, daß der Schnittpunkt zweier solcher Kurven ungefähr in der M i t t e der Darstellung gelegen sein solle. Sie schneiden sich aber vielfach gar nicht, wenn sie ziemlich parallel verlaufen. In diesem Fall ist der Abstand so gering als 215
möglich zu wählen. — Im allgemeinen sollte man vermeiden, bei Kurven die Basislinie wegzulassen. Doch wird diese Regel bei ausgezeichneten Darstellungen oft durchbrochen, und man kann dagegen eigentlich nicht viel einwenden (Fig. 41). Sobald es nur auf die v e r h ä l t n i s m ä ß i g e Schwankung ankommt und nicht auf die a b s o l u t e Höhe der dargestellten Größen, ist die einseitig l o g a r i t h m i s c h e T e i l u n g außerordentlich praktisch. Sie bietet den Vorteil, daß gleichzeitig die absoluten Zahlen abgelesen werden können und die Bewegungen doch nur in prozentualer Weise erfaßt sind (Fig. 37). Man kann an ihr die absolute Höhe der Preise in jedem Zeitpunkt ablesen, ebenso ist ersichtlich, ob die Schwankung prozentual groß oder klein ist. Manchmal wird eine Kurve im Spiegelbild gezeichnet, um den negativen Parallelismus augenscheinlich zu machen; die Gegenläufigkeit von zwei Kurven ist nämlich an sich nicht so leicht zu bemerken. Zeichnet man die eine Kurve im Spiegelbild neben die andere, so sieht man die Parallelität der Erscheinung viel besser. Reiht man Kurvendarstellungen, auf Karton gezeichnet und ausgeschnitten, in zeitlicher Folge wie Karteikärtchen hintereinander, so entstehen sehr schöne dreidimensionale Graphiken. Die auf Karton gezeichneten Kurven des täglichen Stromverbrauchs von 0 bis 24 Uhr werden ausgeschnitten und z. B. vom 1. Januar bis 31. Dezember wie in einer Kartothek aufgereiht und in Höhenschiditen dargestellt. K a r t e n d i a g r a m m e . Die geographische Wissenschaft hat eine große Zahl von Methoden ersonnen, um statistische Zahlen an das Gebiet zu binden, für das sie ermittelt wurden. Diese Art der statistischen Darstellung soll hier nur gestreift werden. Mehrfarbige Flächen auf geographischen Karten sollte man nicht verwenden, um statistische Gradunterschiede darzustellen. Vielmehr sollte man solche Unterschiede nur durch Unterschiede der „valeurs", wie die Maler sagen, andeuten. Es lassen sich allerdings auf diese Weise höchstens acht bis neun deutlich zu unterscheidende Abstufungen durch den Lithographen in die Verwaltungsbezirke einzeichnen. Solche gleichmäßige Färbungen von Gebietsteilen sind, genau genommen, nur dort angebracht, wo zwischen den darzustellenden Größen und der Bodenfläche ein innerer Zusammenhang besteht (z. B. Ackerland und Bodenfläche). Bestimmte Berufe der Industrie und des Gewerbes lassen sich nicht auf diese Art darstellen, da die Ansamm216
lungen auf wenige tausend Quadratmeter Bodenfläche entfallen. Wenn die geographischen Einheiten sehr verschieden groß sind, so pflegt man die Zahl der Berufstätigen auf tausend Einwohner des Verwaltungsbezirks zu reduzieren. Dies hat zur Folge, daß gerade die großen Bezirke mit meist wenig Einwohnern o f t die dunkelsten Farbflächen abgeben, so z. B. wenn die Landwirtschaft in diesen unfruchtbaren Gegenden überwiegt, erhält man den Eindruck, als ob sie auf den Gletschern und Steinwüsten des Hochgebirges am intensivsten betrieben würde. Verteilt man jedoch die landwirtschaftlich tätige Bevölkerung in absoluten Zahlen auf die Bezirke, so ist auf den ersten Blick zu ersehen, in welchen Bezirken sich ihre größte Anhäufung vorfindet. Dabei macht sich freilich die verschiedene Größe der Bezirke störend geltend. Man muß daher, um über die relative Bedeutung eines Berufszweiges ein zutreffendes Bild zu gewinnen, stets eine Karte der Bevölkerungsdichte zum Vergleich heranziehen. Diese selbst ist aber auch eine rein zahlenmäßige Abstraktion. Das bündnerische Oberrheingebiet hat z.B. nur 17 Einwohner auf den Quadratkilometer, wenn die Bevölkerung auf das Gesamtgebiet rechnerisch verteilt wird, dagegen 160 bis 200 Einwohner auf den Quadratkilometer, sofern das unbewohnbare Gebiet nicht berücksichtigt wird. Diese Hochtäler sind also so stark besiedelt wie die dichtest besiedelten Gegenden Europas, wie der Süden von England. Denkt man sich über eine geographische Karte eines Landes die beschäftigten Personen eines bestimmten Berufes zunächst in Form von Eisenfeilspänen gleichmäßig verteilt und bringt unter der Karte an verschiedenen Stellen starke Magnete an, so werden die Eisenfeilspäne nach diesen Konzentrationspunkten zuwandern, wie die Bevölkerung in Wirklichkeit dies getan hat. Die Anhäufungen in absoluten Zahlen werden also der Wirklichkeit entsprechen, ohne Rücksicht auf die Bodenfläche oder die Bevölkerungszahl der einzelnen Bezirke. Die Kraftlinien des magnetischen Feldes sind mit den Zufahrtslinien der arbeitenden Bevölkerung vergleichbar. In einem solchen Fall läßt sich am zweckmäßigsten die Verteilung durch Punkte darstellen. Ein Punkt repräsentiert eine nicht zu große Einheit, so z. B. 50 oder 100 Arbeiter. Sehr hübsch sehen die Karten aus, wenn die Punkte in schwarzer Farbe auf einer graublauen Unterlage gedrudct werden. In graublau wären die Gebietsgrenzen, die Flüsse und die Namen der O r t e zu drucken, was mit einem Strichklischee verhältnismäßig gar nicht teuer kommt. Ein zweites, genau ebenso großes Klischee dient 217
dann zum Druck der schwarzen Punkte. Ist alles in derselben Farbe gedruckt, so heben sich die Punkte nicht genügend von den andern Zeichnungen ab. Um das Abzählen der Punkte, wo sich größere Ansammlungen finden, zu vermeiden, kann man zweckmäßigerweise kleine Kreise einzeichnen, auf denen Teilstriche aufsitzen. Dadurch, daß ihre Stellung der Stellung der Ziffern auf dem Zififernblatt einer Uhr entspricht, sind die verschiedensten Größen, ohne in einer Legende nachsehen zu müssen, direkt an O r t und Stelle abzulesen. Eine solche Karte habe ich für den Verein der Baumwollspinner im Jahre 1913 gezeichnet. Das Einzeichnen von verschieden großen schwarzen oder bunten Kreisflächen ist weniger zu empfehlen, weil diese Kreise sehr schwer nadi Größe zu unterscheiden sind und überdies zu große Gebietsteile verdecken. Noch weniger eignet sich das Einzeichnen von Gegenständen, wie z. B. von Zuckerhüten für die Zuckerindustrie, für die richtige Einschätzung von Größenabstufungen. A l l g e m e i n e G r u n d s ä t z e . Die graphischen Darstellungen dienen den verschiedensten Zwecken: 1. Wissenschaftlichen. Jede Gleichung läßt sich graphisch darstellen. Durch die Entwicklung dieses Systems sind außerordentlich wertvolle Einblicke gefunden worden. In der Statistik dienen graphische Darstellungen hauptsächlich zum Verständinis und zum Vergleich von Reihen. 2. Die Kurven dienen zum Interpolieren und Extrapolieren, ferner 3. zum Ablesen von Zwischenwerten; 4. zum Ablesen neuer Ergebnisse aus vorhandenen (Fig. 42); 5. zur vereinfachten Darstellung verschiedener Zahlenverhältnisse; 6. zur Veranschaulichung der Rangordnung der Zahlen. Je nach diesen verschiedenen Zwecken muß auch die Darstellung verschieden ausgeführt werden. Wissenschaftlichen Zwecken dienende Kurven sind feiner zu zeichnen als Kurven, die populären Anschauungszwecken dienen sollen. W o ein Ablesen notwendig ist, wird das Netzwerk eng gezeichnet werden müssen. Am schönsten, aber am teuersten, sind für solche Zwecke auf lithographischem Wege gezeichnete Kurven auf farbigem Millimeterpapier. Ist ein genaues Ablesen, ein Interpolieren nicht notwendig, so entfällt das Netzwerk am besten ganz. Es stört nur den Kurvenverlauf oder die Darstellung der Stäbchen und Bänder. Schiefe Schraffuren sind möglichst zu vermeiden, da die so schraffierten Stäbchen den Eindruck erwecken, nach einer Seite zu fallen und wie der schiefe Turm von Pisa wirken. Gleichmäßige 218
Schraffuren sind sehr schwierig d u r c h z u f ü h r e n . Die kleinsten Unregelm ä ß i g k e i t e n machen sich auch bei s t ä r k s t e r V e r k l e i n e r u n g unliebsam b e m e r k b a r . M a n b e n ü t z e ein Schraffierlineal. Feine A b t ö n u n g e n k a n n man durch die S p r i t z m e t h o d e erzielen, indem m a n eine steife Bürste in Tusche taucht u n d über e i n e m engen D r a h t n e t z h i n - u n d h e r f ü h r t . Die nicht zu f ä r b e n d e n Teile muß man m i t Papierstreifen zudecken. Die ganz feinen P u n k t e w e r d e n durch Strichätzungen außerordentlich g u t w i e d e r g e g e b e n . Verschiedenartige M u s t e r f ü r Flächen k a n n die Klischeefabrik überall a n b r i n g e n . Dies ist dem Ausschneiden u n d A u f k l e b e n v o n p u n k t i e r t e n oder g e m u s t e r t e n G e l a t i n e b l ä t t c h e n , die im H a n d e l erhältlich sind, bei w e i t e m vorzuziehen. D i e B e s c h r i f t u n g der graphischen Darstellungen bildet ein Kapitel f ü r sich. O h n e l a n g j ä h r i g e Ü b u n g u n d b e s o n d e r e Begabung g e l i n g t es nicht, gute Beschriftungen z u s t a n d e zu bringen. Gezeichnet sollen die Schriften nicht w e r d e n , sonst w i r k e n sie h a r t u n d u n a n g e n e h m . Das gleichmäßige Schreiben ist aber eine schwierige A u f g a b e . Einigermaßen k a n n man sich m i t Bahrs N o r m o g r a p h h e l f e n , einer Sdiablonenschrift, in welcher mit e i n e m Q u e l l s t i f t die B u c h s t a b e n f o r m z u s a m m e n g e s e t z t wird. Auf diese A r t D a r s t e l l u n g e n im Schweizerischen
sind s ä m t l i d i e
graphischen
Statistischen Jahrbuch v o n
1930
angeschrieben w o r d e n . Auch diese Sdiablonenschrift e r f o r d e r t ziemlich viel Ü b u n g , doch h a t sie den Vorteil, daß die Buchstaben durchaus gleichartig u n d v o n gleicher H ö h e w e r d e n . A m einfachsten gelingt die Beschriftung durch den Drucker. M a n lasse den T e x t der G r a p h i k a setzen und klebe die A b z ü g e auf die Z e i c h n u n g auf, was allerdings m ü h s a m und z e i t r a u b e n d ist. Für graphische D a r s t e l l u n g e n , die rasch fertig sein müssen, k a n n man auch mit der Schreibmaschine den T e x t schreiben u n d a u f k l e b e n . D a s w i r k t immer noch besser als die ganz ungeschickten handschriftlichen T e x t e , die m a n o f t a n t r i f f t . Eine R e d u k t i o n s l u p e zeigt einem f ü r jede V e r k l e i n e r u n g , o b die Schrift noch lesbar ist. Allgemein
sollen
die
graphischen
Darstellungen
so
gewählt
werden, daß o h n e mühsames Einleben in sie die W e r t e auf den Beschauer w i r k e n . In G r ö ß e u n d V e r h ä l t n i s soll die eine D a r s t e l l u n g nicht auf die a n d e r e in zu raschem Wechsel folgen. Es braucht immer einige Zeit f ü r das U m s t e l l e n auf den n e u e n Eindruck. Die M a ß s t ä b e sollen möglichst dieselben sein, e b e n s o die Farbe oder die Sdiraffur f ü r dieselben G e g e n s t ä n d e b e i b e h a l t e n w e r d e n . Ein begleitender T e x t u n t e n ist n o t w e n d i g , um zu zeigen, was wesentlich ist. Bei der W a h l 219
der F a r b e n wird ebenfalls viel gesündigt 1 ). Ist es nötig, die grellsten und schreiendsten Farben für graphische Darstellungen zu wählen? In den Ausstellungsräumen herrscht ein blutiges Rot vor, das mit einem giftigen Grün und mit Schwefelgelb unangenehm kontrastiert. Man mache sich doch die Ergebnisse der Ostwaldschen Farbenuntersuchungen zunutze und wähle nicht die allergewöhnlichsten Farbenkontraste, sondern sogenannte Dreiklänge. Sehr gut machen sich weiche Pastelltöne, graublau, zartviolett oder weinrot und schwaches Orange auf beigefarbenem Packpapier als Untergrund. Auch auf hellgrauem Papier lassen sich sehr schöne und feine Wirkungen erzielen. Am besten wird man sich hier vom Reklamefachmann beraten lassen, der große Erfahrungen auch in der wirksamen Verteilung und Beschriftung besitzt. Eine graphische Darstellung soll ja in den meisten Fällen wie ein Plakat auf das Unterbewußtsein des Beschauers wirken. Nur dann kann ein nachhaltiger Eindruck zustande kommen. S c h l u ß b e m e r k u n g . Wenn man sich über den heuristischen Wert zahlreicher graphischer Darstellungen auch streiten kann, eines zeigen sie eindringlicher, als Worte es vermögen: die ungemeine Vielfalt der statistischen Erscheinungen. Die Statistik ist einem riesigen Facettenauge zu vergleichen, in welchem die Welt sich spiegelt. Daß aber trotzdem ein einheitliches Bild entsteht, dazu bedarf es des Zurückführens der statistischen Verfahrensweisen auf logischmethodische Grundlagen. Ich habe hier versucht, von ihnen, unter Vermeidung aller mathematischer Symbole, einen ersten Begriff zu geben. Von einfachsten Demonstrationen ausgehend, habe ich das Gesetzmäßige und Zwangsläufige der Zufallsverteilungen dargelegt und mich dabei keiner anderen als „der Rechenkünste eines Krämers" bedient, wie John Graunt sich ausdrückte, der aus den ,,armen verachteten Totenzetteln so viele verborgene und nie vermutete Folgerungen" herausholte. Die verwendeten Verfahren sind nicht abgeleitet, sondern graphisch oder rechnerisch nachprüfbar gemacht worden. Der statistisch Interessierte soll durch sie in den Stand gesetzt werden, komplizierteren Gedankengängen zu folgen. Denn es ist zu wünschen, daß ') Durch Beiziehen von auch nur e i n e r Farbe werden schwarze Graphiken sehr viel lebendiger. Das Netz kann rot sein, die Kurve schwarz; Stäbdien k ö n n e n rot und schwarz gezeichnet werden. Die Mehrkosten sind nicht sehr beträchtlich.
220
sich w e i t e r e vertraut
Kreise
machen.
mit
Dann
den
Grundzügen
wird
die
der statistischen
Statistik
nicht
mehr,
wie
Methode Romier
b e h a u p t e t e , die K u n s t sein, S ä t z e zu b e w e i s e n , die falsch sind, m i t t e l s Zahlen,
die richtig
sind.
In e i n i g e n m e i n e r Z e i t s c h r i f t e n a u f s ä t z e
finden
sich die in diesem
Buch
o f t nur a n g e d e u t e t e n T h e o r i e n ausführlicher b e g r ü n d e t : Im A l l g e m e i n e n S t a t i s t i s c h e n A r c h i v : D i e s t a t i s t i s c h e W e s e n s f o r m , Philosophie
der S t a t i s t i k .
J u b i l ä u m des m i t t l e r e n Statistik,
1931;
Menschen,
Das
Individuelle
1 9 3 6 ; Über
in der S t a t i s t i k .
1928; 1932:
den G r e n z n u t z e n der m a t h .
1950.
I n : Z e i t s c h r i f t f ü r schweizerische Stämpfli & Cie.: Zahlenfetisdiismus, L o g i k der S t a t i s t i k ,
Bern: 1930;
1 9 3 1 ; A u f der Suche nach U r s a c h e n , 1 9 3 2 ; D i e ä u ß e r e
Form statistischer Veröffentlichungen, großer Erhebungen,
S t a t i s t i k und V o l k s w i r t s c h a f t . 1 9 2 6 ; die Z a h l in der Z e i t u n g ,
1 9 3 3 ; D i e A u f b e r e i t u n g k l e i n e r und
1 9 3 6 ; P s y c h o l o g i e und T e c h n i k des Glüdcspiels,
D i e Wahrscheinlichkeit von Voraussagen,
1 9 4 1 ; D i e A n f ä n g e der
1934:
Statistik,
1944. U b e r graphische D a r s t e l l u n g e n m e i n B u c h : „ S t a t i s t i k durch A n s c h a u u n g " , Z ü r i c h , O r e l l Füssli,
1947. 221
Erklärung von Fachausdrücken und häufigen Abkürzungen 1 ) (Die Zahlen bedeuten a , A b s z i s s e des M a x i m u m s
einer
Seitenhinweise)
V e r t e i l u n g , gibt im V e r h ä l t n i s zu o das
M a ß der Schiefe. B e r e c h n u n g v o n a
165
A b s z i s s e , s. x - A c h s e . A b w e i d i u n g , F e h l e r , die D i f f e r e n z zwischen dem A r i t h m e t i s c h e n M i t t e l e i n e r Reihe
und
ihren E i n z e l w e r t e n .
Oft
auch
gebraucht
für die
Differenz
zwischen der O r d i n a t e e i n e r empirischen v o n der e n t s p r e c h e n d e n Normalverteilung,
ferner
für
jede
Differenz
gegenüber
einer
einer Norm.
M i t t l e r e A b w e i c h u n g s. u n t e r o
55
A r i t h m e t i s c h e s M i t t e l , M i t t e l , D u r c h s c h n i t t , engl, m e a n ( M ) , die S u m m e v o n Messungen,
Beobachtungen,
Größen,
dividiert
durch
ihre
Zahl;
der
A b z i s s e n w e r t des S c h w e r p u n k t e s e i n e r H ä u f i g k e i t s v e r t e i l u n g ; j e n e r P u n k t e i n e r R e i h e , bei dem die Q u a d r a t s u m m e der A b w e i c h u n g e n ein M i n i m u m ist (die Summe der p o s i t i v e n und n e g a t i v e n A b w e i c h u n g e n v o m metischen ßi
Mittel
( B e t a 2 ) , = f*tl/*2s, Abplattung ( B e t a 1), = solcher
arith-
ist 0 )
142
K r i t e r i u m für den K u r v e n t y p u s , M a ß für die r e l a t i v e
( E x z e ß , k)
der W ö l b u n g
u-i'l/ut 3 , K r i t e r i u m
einer Häufigkeitskurve
für den
Kurventypus,
mißt
165,
die
170
Schiefe
Verteilungen
165
B e z i e h u n g s z a h l e n , stellen eine B e z i e h u n g z w i s d i e n f r e m d a r t i g e n M a s s e n f e s t , z . B . die Z a h l der Bäcker auf
1 0 0 0 E i n w o h n e r o d e r die Zahl der Ein-
w o h n e r a u f e i n e n Bäcker
129
B i l l i o n , in den V e r . S t a a t e n s o v i e l w i e eine M i l l i a r d e . Binomiale
Verteilung,
Bernoullische Verteilung,
mit konstanter Ereigniswahrscheinlichkeit (voneinander
unabhängigen)
Versuchen;
eine
Häufigkeitsverteilung
bei w i e d e r h o l t e n im G e g e n s a t z zur
Serien
o d e r P o i s s o n s d i e n V e r t e i l u n g , w o die W a h r s c h e i n l i c h k e i t e n nicht stant
sind
Binomialkurve,
Kurve,
B i n o m s ( p + q)"
') Z . T .
222
kon55
eine
zahliger W e r t
welche
die
aufeinanderfolgenden
d a r s t e l l t , wenn p + q =
Glieder
des
I und n ein p o s i t i v e r , ganz-
ist
in A n l e h n u n g an die s t a t . W ö r t e r b ü c h e r
Kurtz-Edgerton.
von
Lexissdien
53 von Flaskämper
und
jj'-test (Chi-square-test), Probe für das Maß der Überschreitungen der Zufallsgrenzen (goodness of fit), für annähernd normale Verteilungen und nicht zu kleine Häufigkeiten 173—184 Dispersion, nicht schlechthin „Streuung", d. h. Verteilung um das arithmetische Mittel, sondern diese Verteilung im Hinblick auf die Lexissche wahrscheinlichkeitstheoretische Norm 150 Divergenzkoeffizient, von Lexis eingeführt, das Verhältnis der empirischen zur theoretischen Streuung, olai. wobei o die empirische mittlere quadratische Abweichung, oi aber die aus der Binomialformel berechnete = • p • q ist. Ist die empirische Streuung größer als die normale, der Divergenzkoeffizient also > 1, so haben wir übernormale Dispersion vor uns, die Abweichungen sind nicht auf rein zufällige zurückzuzuführen, p und q sind keine konstanten Grundwahrscheinlichkeiten 150 Durchschnitt, s. Arithmetisches Mittel. e Basis der natürlichen Logarithmen, =- 2,71828 155 e hoch minus x'-Funktion, genau X» 1 e i l n n p
q
wobei yn p q = o ist, auch Wahrscheinlichkeits-, Fehler- oder Gaußsche Fehlerfunktion genannt, da das Gaußschc Fehlergesetz durch sie wiedergegeben wird. Sie stellt die normale (Häufigkeits-) Verteilung dar (s. dort). Sehr wichtig für die Wahrscheinlichkeitsrechnung ist ihre Summenfunktion oder ihr Integral, da hieraus die Wahrscheinlichkeit der Abweichungen von einem gegebenen Wert bestimmt werden kann 161
Exzeß, - ßt — 3, größere Streuung als die normale in hypernormalen Verteilungen 165 Frequenzen, Häufigkeiten 1 54 Funktion (/), eine Variable, deren Wert durch einen bestimmten Wert einer anderen Variablen fixiert wird. Freiheitsgrade 174, 180 Geometrisches Mittel, n te Wurzel aus dem Produkt von n Gliedern einer durch einen Trichter mit Kugeln, Schrotkörnern beschickt wird, die unten in gleich große Gefäße fallen und die binomiale Verteilung zufallsmäßig ergeben. Die Nägel sind nicht nötig, wie der Zürcher Astronom Wolf gezeigt hat, der die Schrotkörner durch Sand ersetzte. Eine verbesserte Form in Fig. 3, S. 36, schematisch, zeigt das Zwangsläufige, nicht Zufallsmäßige der Binomialverteilung ebenso wie der Römische Brunnen, wie auch der neuerdings von H. Bitterling konstruierte „Binomiator' , S. 32, 36, 54. Das Pearsonsche Modell ermöglicht die Darstellung unsymmetrischer Verteilungen, S. 34. Erweiterung zur Trinomalverteilung 175 Geometrisches Mittel, n te Wurzel aus dem Produkt von n Gliedern einer Reihe, geeignet für Berechnung des Durchschnitts von Veränderungsgrößen, nicht von Zustandsgrößen . . 143 223
Gesetz der Großen Zahl(en). Eine Reihe von k unabhängigen Beobachtungen repräsentiert die Gesamtheit aller möglichen Beobachtungen um so besser, je größer die Zahl k dieser Beobachtungen ist (Riebesell) . . . . 47 Gesetz der kleinen Zahlen, Bezeichnung von Bortkiewicz, gestattet eine Abschätzung der Binomialausdrücke in der Entwicklung von ( p + q)n, wenn p oder q sehr kleine Wahrscheinlichkeiten sind und n groß ist im Verhältnis zum Mittelwert. In diesem Fall werden die Binomialausdrücke wiedergegeben durch die Formel
wobei e die Basis der natürlichen Logarithmen, m der Mittelwert und x die Wiederholungszahl, die Häufigkeit des Eintreffens des Ereignisses ist. Gewogenes Mittel. Vernachlässigt man bei Durchschnittsberechnungen die Besetzung (Frequenzen) der Gliederung, so erhält man kein Mittel, sondern eine sinnlose rechnerische Abstraktion. Bei langen Reihen ist der Einfluß der „Gewichte", die o f t als Schätzungen an Stelle der Frequenzen treten, wie Bowley gezeigt hat, gering 135 Gliederung, A u f t e i l u n g einer statistischen Masse nach einem Merkmal, z. B. Geschlecht oder Beruf oder Alter. Erfolgt die Gliederung in gleichen Stufen, z. B. Altersjahren, A l t e r s j a h r f ü n f t e n , so wird sie zur Stufentabelle, zur Reihe 110 Gliederungszahlen (Prozent- oder Promillezahlen), stellen eine Beziehung zwischen Teil- u n d Gesamtmasse fest 133 Glücksspiele sind V o r k e h r u n g e n (Zufallsapparate), die so eingerichtet sind, daß die dabei beobachteten Ereignisse möglichst den Wahrsdieinlichkeitsgesetzen folgen 41 h, Präzision, ein Parameter zur Charakterisierung der Streuung, = 1 160 Häufigkeitsverteilung, Zufallsverteilung (engl, frequency distribution), eine Tabelle, welche die Frequenzen der W e r t e einer Variablen, angeordnet nach der Größe, zeigt 154 Häufigster Wert, Dichtester oder Wahrscheinlichster Wert, s. Mode. Hypernormale Verteilung, s. Exzeß. Index, das Verhältnis zweier Dimensionen am selben O b j e k t , z. B. K o p f i n d e x ; o f t auch der Exponent beim Wurzelziehen u n d Potenzieren oder die Charakteristik eines Logarithmus; ferner die Indexzahl, s. dort. Index der Präzision, siehe h. Indexzahlen, Ziffern zum Messen relativer Veränderungen von meist zahlreichen Beobachtungen. Der Ausgangspunkt wird gleich 100 gesetzt. Seine Wahl beeinflußt ausschlaggebend die Gestaltung der Indexzahlen. 137, 139 Klasseneinteilung, die Wahl der „ S t u f e n " in statistischen Reihen. Breite Klassen (zu hohe Stufen) ergeben zu wenig spezifische Gruppen, schmale Klassen o f t zu kleine Zahlen. 224
Korrelation, covariation, das Studium der Abhängigkeit von zwei oder mehr Variablen; das Ausmaß der Obereinstimmung (nach Richtung und Grad) von Variablen in korrespondierenden Beobachtungen zweier Reihen; auch der Korrelationskoeffizient 185—193 Korrelationskoeffizient, siehe r
.
. 187
Korrelationstafel, scatter diagramm. Eine vorläufige Übersicht bei nicht zu vielen Einzelangaben gewinnt man durch ihr Eintragen in Form je eines P u n k t e s in eine schachbrettförmige Tabelle. Bei ausgeprägter Korrelation werden die Tabellenhäuschen in der Diagonale am stärksten mit Punkten besetzt sein, s. Abb. 26, S. 188 188 Kurtosis, Exzeß, siehe ß?. Logarithmen 120. — Logarithmisch geteilte Schieber 119. — Walzen 122. Logarithmische Teilung für Kurvendarstellungen (Fig. 37) auf einer Skala gibt die relativen Veränderungen richtig wieder und läßt trotzdem absolute Ablesungen zu; auch für die Darstellung sehr starker Veränderungen geeigneter als die arithmetische Teilung; besitzt keine Basislinie 207 M, siehe Arithmetisches Mittel. Mh, Harmonisches Mittel, der reziproke Wert des arithmetischen Mittels aller reziproken Einzelwerte. M e t h o d e der Kleinsten Quadrate, ein Rechenverfahren zum Glätten der Reihen (Fig. 41), zum Interpolieren, zur Trendberechnung, sehr erleichtert durch eine von Paul Lorenz (Der Trend, Vierteljahrsheft 9 zur Konjunkturforschung) angegebene M e t h o d e 213 Median (Met), Wahrscheinlicher Wert, Zentralwert, jener P u n k t einer Häufigkeitsverteilung, über (und unter) welchem genau die Hälfte aller Beobachtungen liegen. Dedct sich in Normalverteilungen mit dem Durchschnitt u n d dem häufigsten W e r t 143 Mills M e t h o d e n der Induktion, die für die Statistik in Betracht kommen, sind die M e t h o d e der konkurrierenden Veränderungen (insbesondere die Korrelation) und die Differenzmethode (Ausgliedern einer Masse nach einem einzigen Merkmal u n t e r Ausscheidung unbeteiligter Teilmassen) 74, 185 Mittelwerte 143 M o d e (Mo), Häufigster Wert, Dichtester, Wahrscheinlichster (nicht „wahrscheinlicher") Wert, der am häufigsten v o r k o m m e n d e W e r t in einer Reihe von Beobachtungen; der Abszissenwert der Maximumordinate einer Häufigkeitskurve 143 M o m e n t e , bildhafter Ausdrude aus der Mechanik (meist mit juj, u-2, u a . . . bezeichnet, bei willkürlich gewähltem Ausgangspunkt jedoch mit vi, v-2 . . . ) ; in einer Häufigkeitsverteilung das arithmetische Mittel der Abweichungen, die v o m arithmetischen Mittel aller Beobachtungen aus gemessen und in die erste, zweite, dritte usw. Potenz erhoben wurden 165, 171 f i (My) wird in der deutschen Statistik o f t für o gebraucht, in der englischen für Momente, siehe dort. Normalfläche, Darstellung zweier korrelierter Variablen (Fig. 22), gibt die symmetrische Normalflädie wieder 179 15
S c h w a r z , Zahlen
225
N o r m a l v e r t e i l u n g , N o r m a l k u r v e , auch G a u ß - , Laplace-, Fehler-, Polizeih a u b e n - , Glocken-, V a r i a t i o n s - , B i n o m i a l k u r v e g e n a n n t , w i r d e r h a l t e n aus der F o r t s e t z u n g des Pascalschen Dreiecks o d e r aus der Entwicklung (p + q)n, w e n n bei g r o ß e m n die B i n o m i a l k o e f f i z i e n t e n durch die Stirlingsdie Formel f ü r n ! a p p r o x i m i e r t w e r d e n . Dies geschah d u r d i D e M o i v r e 1733. D a s W o r t „ n o r m a l " w u r d e v o n K a n t zum e r s t e n m a l gebraucht, der 1790 schrieb, die A b w e i c h u n g e n v o m „ M i t t l e r e n M e n schen" g r u p p i e r t e n sich „ n o r m a l " um diesen M i t t e l w e r t 53, 56, 151,
154—161
O r d i n a t e , s. j/-Achse. p. e., p r o b a b l e error, s. Wahrscheinliche A b w e i c h u n g . Prognosen,
Statistische
66, 68, 193
Präzision, s. u n t e r b. Poissonsches Gesetz, s. G e s e t z der K l e i n e n Z a h l e n . Prozentzahlberechnungen
121, 134
Q , Q u a r t i l , auf der x - A c h s e einer N o r m a l k u r v e einer der drei P u n k t e , d e r e n O r d i n a t e n die Fläche u n t e r ihr in vier gleich g r o ß e Flächenstücke e i n t e i l e n ; bei einer empirischen V e r t e i l u n g die A u f t e i l u n g der B e o b a c h t u n gen einer Reihe in v i e r gleich viele B e o b a c h t u n g e n u m f a s s e n d e P a r t i e n (I., IL, 111. u n d IV. Q u a r t i l ) . Ein Q u a r t i l u m f a ß t 25 Perzentile . . 51 r, Bravaissdier K o r r e l a t i o n s k o e f f i z i e n t
187
Reihe, die A u f g l i e d e r u n g einer statistischen Masse nach z w i n g e n d e n O r d nungsprinzipien 110, 141 R e p r ä s e n t a t i v e Statistik, T e i l e r h e b u n g
86
sample, Stichprobe, M u s t e r ; eine b e g r e n z t e Z a h l v o n Beobachtungen, o f t zehn u n d weniger, a u s g e w ä h l t in systematischer o d e r zufälliger Weise aus einer Masse. D i e M e t h o d e der Stichproben ermöglicht, die Fehlermarge zu b e s t i m m e n (allerdings n u r die der nicht systematischen Fehler). Dies geschieht durch die Berechnung der S t a n d a r d a b w e i c h u n g (s. e.) nach der Formel (für g r o ß e Stichproben bei nicht zurückgelegten E n t n a h m e n aus der G r u n d g e s a m t h e i t N) 2
N - n
U n t e r n ist der U m f a n g der Stichprobe zu v e r s t e h e n , />, ist die Häufigkeit eines b e s t i m m t e n M e r k m a l s , die durch die Stichprobe g e f u n d e n w u r d e u n d v o n der m a n h y p o t h e t i s c h a n n i m m t , daß sie dem u n b e k a n n t e n p der G r u n d g e s a m t h e i t entspricht 88—94 0 (Sigma), M i t t l e r e (quadratische) Abweichung, engl. Standard d e v i a t i o n . M i t t l e r e r Fehler; das meistgebrauchte S t r e u u n g s m a ß , bezeichnet in einer N o r m a l v e r t e i l u n g d e n A b s t a n d der b e i d e n W e n d e p u n k t e (Fig. 14) v o n der M i t t e l o r d i n a t e . Bei dieser V e r t e i l u n g ist o 2 = n p q, w o b e i n die Z a h l der K o m b i n a t i o n e n u n d p u n d q die H ä u f i g k e i t e n b e d e u t e n (151). In empirischen V e r t e i l u n g e n ist o 2 die Summe der F e h l e r q u a d r a t e dividiert durch n — - 1 55, 57 Berechnung 147, 154 226
Signieren
103
S t a n d a r d - A b w e i c h u n g , s. a. S t a n d a r d - N o r m a l f i g u r , s. N o r m a l k u r v e . S t r e u u n g (oft Dispersion g e n a n n t , s. d o r t ) , die V e r t e i l u n g der Einzelwerte einer statistischen Reihe u m ihren M i t t e l w e r t . Sie ist wichtiger als dieser. D i e durchschnittliche J a h r e s t e m p e r a t u r einer Insel u n d eines Landstädtchens z. B. k a n n dieselbe sein, aber die Streuung der T e m p e r a t u r w e r t e ist t o t a l verschieden u n d erzeugt m a r i t i m e s u n d k o n t i n e n tales Klima (Fechner). — A u d i das M a ß der S t r e u u n g w i r d S t r e u u n g g e n a n n t . Solche M a ß e sind u. a. ff, h, die V a r i a t i o n s b r e i t e , der w a h r scheinliche Fehler, die Q u a r t i l e 55, 57, 154 S u m m e n k u r v e , S - K u r v e , O g i v e - K u r v e , auch T r e p p e n k u r v e , K u m u l a t i v e H ä u f i g k e i t s v e r t e i l u n g (Fig. 17), e n t s t e h t durch A u f s u m m i e r e n der Glieder einer R e i h e und A u f t r a g e n jedes Z w i s c h e n r e s u l t a t e s in ein rechtwinkeliges K o o r d i n a t e n s y s t e m . Auf W a h r s c h e i n l i d i k e i t s p a p i e r gezeichnet, ergibt sie eine G e r a d e , w e n n die V e r t e i l u n g n o r m a l ist . 162 Strichelverfahren, ein A b z ä h l e n nach verschiedenen M e r k m a l e n durch Eint r a g e n der Fälle m i t t e l s Strichlein in die T a b e l l e n f ä c h e r , w e n n d o r t k e i n e Q u a n t i t ä t e n einzusetzen s i n d ; zweckmäßig w e r d e n je vier Strichlein durch ein f ü n f t e s durchstrichen, um F ü n f e r g r u p p e n zu bilden, die das A b z ä h l e n erleichtern 104 Systematische Fehler, K o n s t a n t e Fehler, einseitig gerichtete, immer w i e d e r k e h r e n d e A b w e i c h u n g e n bei statistischen E r h e b u n g e n oder A u f a r b e i t u n gen, z. B. zu niedrige A l t e r s a n g a b e n bei j ü n g e r e n Frauen . . 9 3 T e i l e r h e b u n g e n s i n d : die S t i c h p r o b e n m e t h o d e (sampling) oder die M e t h o d e der typischen Fälle, evtl. auch die V o l l e r h e b u n g n u r eines Teiles der zu u n t e r s u c h e n d e n Masse 86 Variable, variate, ein M e r k m a l , das q u a n t i t a t i v v a r i i e r t , z. B. der Brustu m f a n g v o n Soldaten, die Preise einer W a r e an verschiedenen T a g e n . variance, = o 2 , die V a r i a b i l i t ä t einer Erscheinung. Berechnung s. a. V a r i a t i o n s b r e i t e (v), Schwankungsbreite, die D i f f e r e n z zwischen d e n b e i d e n g r ö ß t e n A b w e i c h u n g e n v o m M i t t e l einer R e i h e (57). D a s k l e i n s t e u n d g r ö ß t e Glied einer Reihe w i r d v o m statistischen P r a k t i k e r o f t verglichen, um die S t r e u u n g einer Erscheinung zu erfassen. In der T h e o r i e gilt dies als die schlechteste M e t h o d e . Doch gibt B o r t k i e v i c z (in der N o r d i s k Statistisk T i d s k r i f t 1922) eine sehr praktische T a f e l zur Bes t i m m u n g , ob eine n o r m a l e V e r t e i l u n g v o r l i e g t , an H a n d v o n V a r i a t i o n s breite u n d Beobachtungszahl. Vergleichbarkeit im statistischen Sinn b e d e u t e t nicht Gleichheit Vergleichbar sind zwei verschiedene Beobachtungen u n t e r s o n s t gleichen U m s t ä n d e n ; nicht vergleichbar, w e n n die Beobachtungs- oder V e r a r b e i t u n g s m e t h o d e eine a n d e r e ist (ungleiche Z e i t s t r e c k e n , a n d e r e U m s d i r e i b u n g oder A b g r e n z u n g ) , aber auch w e n n S t ö r u n g e n ( K a t a s t r o p h e n , Saison-, K o n j u n k t u r e i n f l ü s s e ) sich geltend machten 15, 131 15*
227
Wahrscheinliche Abweichung, Wahrscheinlicher Fehler, engl, probable error (p. e.), verbreitetes Charakteristikum für die Zufallsgrenzen einer Zahl, auf der Abszissenachse die Distanz, die so gewählt ist, daß das Flädienstück zwischen x = — p. e. zu x = + p. e. genau die Hälfte der Gesamtfläche unter der Normalkurve (das 2. und 3. Quartil) umfaßt (Fig. 4 u. 14). Die Wahrscheinliche Abweichung ist 0,67449 ci. Der p. e. für das arithmetische Mittel ist 0,6745 oltfn', für o ist 0,6745 al^jln-, für eine beobachtete Wahrscheinlichkeit pi ist gleich 0,6745Vpi (1 -
pi)l».
wobei n die Beobachtungszahl. Dem p. e. wird das Zeichen + vorgesetzt. Die Wahrscheinlichkeit einer Überschreitung der dreifachen wahrscheinlichen Abweichung ist in Normalverteilungen 0,04302 oder 4 Prozent. Zur Berechnung bequem Pearsons Tafel V 51,159 Wahrscheinliche dezimale Abweichung s. Anmerkung zu S. 49. Wahrscheinlicher Wert, s. Median. Wahrscheinlichkeitsansteckung, Zufalls Verteilung, bei der die Bedingung der Unabhängigkeit der Fälle (z. B. bei Todesfällen infolge ansteckender Krankheiten) aufgehoben ist. A. Linder in Metron 193 5. Wahrscheinlichkeitsintegral, das Integral der Wahrscheinlichkeitsfunktion zwischen zwei beliebigen Grenzen; die Fläche unter einer Normalkurve zwischen zwei beliebigen, gegebenen Abszissenwerten; in Tafeln ausgewertet 161 Wahrscheinlichkeitsnetz, Koordinatensystem, bei dem die Ordinatenachse nach dem Wahrscheinlichkeitsintegral geteilt ist. Die Summenkurve erscheint bei dieser Darstellung als Gerade. Wahrscheinlichster Fall (wn), der Fall mit der größten Wahrscheinlichkeit bei einer normalen Verteilung, in der sich die Realisierungshäufigkeiten der beiden sich ausschließenden Ereignisse wie ihre apriorischen Wahrscheinlichkeiten p und q verhalten, wo = 1 / ^ 2 71 n p q. Wendepunkte auf der Normalkurve, s. Fig. 14
55, 158
Wahrscheinlichster Wert, s. Mode. Wölbungskoeffizient, s. ß-i. x-Achse, (waagrechte) Abszissenadise im Koordinatensystem ;y-Adise, (vertikale) Ordinatenachse im Koordinatensystem .
155 .
.
.
155
Zentralwert, s. Median. Zufall, im gewöhnlichen Sprachgebrauch ein (seltenes) Ereignis, das nicht vorausgesehen werden kann; wenn kleine Ursachen große Wirkungen erzeugen, ist das „Zufall"; in der Wahrscheinlichkeitstheorie und Statistik ein Ereignis, das gesamthaft vorausberechnet werden kann, das durch die Kombination einer großen Zahl kleiner Ursachen erklärt wird 62, 65 Zufallsverteilung, s. Häufigkeitsverteilung. 228