199 75 21MB
German Pages 183 [184] Year 1974
Techniken der empirischen Sozialforschung
Techniken der empirischen Sozialforschung Ein Lehrbuch in 8 Bänden Bearbeitet von G. Albrecht H.v. Alemann K.R. Allerbeck C. Besozzi D. Betz B. Biervert G. Brinkmann G. Buttler M.Dierkes R. Dolíase Ρ Drewe E. Erbslöh Η. Esser E. Helten W. Herkner
Th. Herz Ρ Höhmann F Huber H. J.Hummell H. D. Klingemann K. Knorr J. v. Koolwijk H. Kreutz H.Lück W. Manz E. Mochmann H. Nowotny G. Ortlieb FU. Pappi Κ. Roghmann
Κ. R. Scherer E. Κ. Scheuch H. Schmerkotte W. Schulz 1. Stelzt M.Sturm E.Timaeus S. Titscher Th. Vajna R. Wegner A. Weidmann K. Wieken G.Wiendieck H. Zehnpfennig R. Ziegler
Herausgegeben von Jürgen van Koolwijk und Maria Wieken-Mayser
(üf)
R. Oldenbourg Verlag München Wien
Techniken der empirischen Sozialforschung 6. Band Statistische Forschungsstrategien dargestellt von Elmar Helten/Manfred Sturm und Thomas Vajna/ Jürgen van Koolwijk/Günter Buttler/ Ingeborg Stelzl
LU
m
R. Oldenbourg Verlag München Wien
( c ) 1974 R. Oldenbourg Verlag GmbH, München Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, der Funksendung, der Wiedergabe aus photomechanischem oder ähnlichem Wege sowie der Speicherung und Auswertung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Werden mit schriftlicher Einwilligung des Verlags einzelne Vervielfältigungsstücke für gewerbliche Zwecke hergestellt, ist an den Verlag die nach § 54 Abs. 2 UG zu zahlende Vergütung zu entrichten, über deren Höhe der Verlag Auskunft gibt. Umschlagentwurf: Günter Mittermeier, München
ISBN 3-486-44891-9
Inhaltsverzeichnis
1.
Wahrscheinlichkeitsrechnung von Elmar Helten
9
1.1 1.1.1 1.1.2
Einleitung Wahrscheinlichkeitsbegriff Wahrscheinlichkeitstheorie — Statistik — Sozialwissenschaften
9 9 12
1.2 1.2.1 1.2.2 1.2.3 1.2.4 1.2.5 1.2.6 1.2.7 1.2.8 1.2.9
Begriffe und Sätze der axiomatischen Wahrscheinlichkeitstheorie . . . . Grundzüge der Mengenalgebra Zufallsexperiment — Ereignisalgebra Axiomensystem von Kolmogoroff Wahrscheinlichkeitsbegriff von Laplace Kombinatorik Berechnung von Wahrscheinlichkeiten Unabhängigkeit Bedingte Wahrscheinlichkeit Additions-und Multiplikationssatz der Wahrscheinlichkeitsrechnung . .
1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 1.3.8 1.3.9
Zufallsvariable Diskrete und kontinuierliche Zufallsvariable Wahrscheinlichkeitsfunktion - Dichtefunktion Verteilungsfunktion Erwartungswert und Momente Tschebyscheffsche Ungleichung Binomialverteilung Poissonverteilung Hypergeometrische Verteilung Normalverteilung
23 23 24 25 26 27 28 29 30 30
1.4 1.4.1
Funktionen mehrerer Zufallsvariablen Wahrscheinlichkeitsfunktion und Dichtefunktion mehrerer Zufallsvariablen Verteilungsfunktion mehrerer Zufallsvariablen Funktionen unabhängiger Zufallsvariablen Gesetz der großen Zahlen Zentraler Grenzwertsatz
33 33 35 35 36 37
Literaturverzeichnis
38
1.4.2 1.4.3 1.4.4 1.4.5
13 13 15 16 17 18 19 .21 22 23
6
2.
Inhaltsverzeichnis
Planung und Durchführung von Zufallsstichproben von Manfred Sturm und Thomas Vajna
40
2.1 2.1.1 2.1.2
Die Bestimmungsgrößen des Stichprobenplans Der Stichprobenplan als Ergebnis von Wirtschaftlichkeitsüberlegungen . Die Determinanten des Stichprobenplans
40 40 42
2.2
Zusammenstellung der verwendeten Symbole
47
2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5
Auswahlverfahren Die uneingeschränkte (einfache) Zufallsauswahl Die Auswahl aus geschichteten Gesamtheiten Die einstufige Klumpenauswahl Die mehrstufige Auswahl Die zweiphasige Auswahl als Spezialfall der mehrphasigen Auswahl . . .
50 50 53 57 59 62
2.4 2.4.1 2.4.2 2.4.3
Techniken der Zufallsauswahl Die Problematik der Auswahlgrundlagen Echte Zufallsauswahl Ersatztechniken der Zufallsauswahl
64 64 64 65
2.5 2.5.1 2.5.2 2.5.3 2.5.4 2.5.5
Hochrechnungsverfahren (Schätzverfahren) Die freie Hochrechnung Die Differenzenschätzung Die Verhältnisschätzung Lineare Regressionsschätzung Zum Vergleich der Hochrechnungsverfahren
67 67 68 68 69 69
2.6 2.6.1 2.6.2 2.6.3
Zur Genauigkeit von Stichprobenerhebungen Die Ermittlung des Zufallsfehlers Systematische Fehler Der Gesamtfehler
71 71 73 75
Literaturverzeichnis
77
Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis von Jürgen van Koolwijk
81
3.1
Quotentechnik
81
3.2
Theoretische Kontroversen
82
3.3
Theorie der Quoten
85
3.4
Interviewer und Befragte im Quotensample
89
3.5
Die Genauigkeit von Quotenauswahlen
93
Literaturverzeichnis
97
3.
Inhaltsverzeichnis
4.
7
Statistische Testverfahren von Günter Buttler
100
4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.1.6 4.1.7
Grundlagen statistischer Testverfahren Statistische Hypothesen Die Aussagefähigkeit von Testergebnissen Einseitige und zweiseitige Tests Operationscharakteristik und Gütefunktion Unabhängige und verbundene Stichproben Parametrische und nichtparametrische Testverfahren Klassische und sequentielle Testverfahren
100 100 101 103 103 105 106 106
4.2 4.2.1 4.2.2
Testverteilungen Stetige Verteilungen Diskrete Verteilungen
107 107 110
4.3 4.3.1 4.3.2 4.3.3
Testen von Mittelwerten Test für den Mittelwert einer Stichprobe Vergleich der Mittelwerte von zwei Stichproben Vergleich mehrerer Mittelwerte
111 111 113 115
4.4 4.4.1
Testen von Streuungen Test für die Varianz einer Stichprobe
121 121
4.4.2
Vergleich der Varianzen von zwei Stichproben
121
4.5 4.5.1 4.5.2 4.5.3
Testen von Anteilswerten Tests für den Anteilswert einer Stichprobe Vergleich von zwei Anteilswerten Vergleich von mehreren Anteilswerten
122 123 124 126
4.6 4.6.1 4.6.2
Testen von Verteilungen Tests für Verteilungstypen Vergleich der Verteilungen mehrerer Stichproben
127 127 128
4.7 4.7.1 4.7.2 4.7.3 4.7.4
Testen von Zusammenhängen Tests für Regressionskoeffizienten Tests für Korrelationskoeffizienten Tests für Rangkorrelationen Test einer Kontingenztabelle
129 130 131 133 133
Literaturverzeichnis
135
Experimentelle Versuchsanordnungen von Ingeborg Stelzl
138
Einleitung Grundbegriffe varianzanalytischer Versuchspläne Vorfragen der Versuchsplanung Übersicht über die behandelten Versuchsanordnungen
138 138 141 143
5.
5.1 5.1.1 5.1.2 5.1.3
8
Inhaltsverzeichnis
5.2 5.2.1 5.2.2 5.2.3
Versuchsanordnungen mit einer zweiklassigen unabhängigen Variablen . Versuchsanordnungen mit zwei unabhängigen Gruppen Versuchsanordnungen mit zwei abhängigen Gruppen Zweimalige Messung an derselben Stichprobe (Einfaches before-after design ohne Kontrollgruppe) Zweimalige Messung an derselben Stichprobe und Vergleich mit einer Kontrollgruppe Zweimalige Messung an derselben Stichprobe mit Balancieren der Reihenfolge
5.2.4 5.2.5 5.3
144 144 145 146 147 148
5.3.1 5.3.2 5.3.3
Versuchsanordnungen mit einer mehrklassigen unabhängigen Variablen Unabhängige Gruppen Einfaktorielle Versuchsanordnung mit abhängigen Gruppen Nicht-parametrische Varianzanalyse
149 149 152 155
5.4 5.4.1 5.4.1.1 5.4.1.2 5.4.2 5.4.3 5^.4.4
Versuchsanordnungen mit mehreren unabhängigen Variablen Vollständige faktorielle Versuchsanordnungen Varianzzerlegung bei ζweifaktoriellem Design Varianzzerlegung bei mehrfaktoriellem Design Hierarchische Designs Teilweise hierarchisches Designs Faktorielle Designs mit abhängigen Gruppen
155 155 156 160 162 164 165
5.5 5.5.1 5.5.2
Lateinische Quadrate und verwandte Versuchsanordnungen Lateinische Quadrate Griechisch-lateinische Quadrate
167 167 168
5.6
Verbesserung der Präzision durch eine weitere Messung (Kovarianzanalyse)
170
Literaturverzeichnis
:.
Namenregister Sachwortregister
173
176 ;
179
1.
Wahrscheinlichkeitsrechnung von Elmar Helten
1.1
Einleitung
1.1.1
Wahrscheinlichkeitsbegriff
Von ihren ersten Anfängen an bis auf den heutigen Tag sind die erkenntnistheoretischen Grundlagen der Wahrscheinlichkeitstheorie, die ein wesentliches Teilgebiet der Statistik bildet, stark umstritten (MENGES 1968, S. 23). Die Kontroversen entzünden sich immer wieder an der (operationalen) Definition der Wahrscheinlichkeit, d. h. an der Frage, ob und auf welche Weise es möglich ist, die Wahrscheinlichkeit begrifflich zu fassen und zu messen. Im allgemeinen unterscheidet man bei der Explikation des Wahrscheinlichkeitsbegriffs zwischen subjektiver und objektiver Wahrscheinlichkeit (NEURATH 1966, S. 4 7 ; HELTEN
1 9 7 1 , S . 5 2 8 ) . D i e s u b j e k t i v e W a h r s c h e i n l i c h k e i t ist e i n " M a ß f ü r d e n
Grad der Überzeugtheit von der Richtigkeit eines Urteils" (PFANZAGL 1961, S. 487) oder anders ausgedrückt der "bei einem empirischen Subjekt vorhandene Grad des Glaubens hinsichtlich einer Aussage oder eines Ereignisses" (VETTER 1967, S. 6). Die Subjektivisten unter den Wahrscheinlichkeitstheoretikern unterteilt MENGES (1968) wiederum in zwei Gruppen: die introspektiven Subjektivisten und die Bayesianer. Zu der ersten Gruppe werden de Finetti, Koopmann und Halphen, zur zweiten Ramsey, Kemeny und Savage gezählt. Die introspektiven Subjektivisten überprüfen ein von fremder Seite gefälltes Urteil über die Realität mit Hilfe ihrer eigenen Intuition. Die Wahrscheinlichkeit wird dann als ein Maß dafür eingeführt, "wie stark eine Person ein Urteil für wahr hält". Das Urteil selbst kann natürlich nur richtig oder falsch sein. Stimmt das Urteil über die Realität mit der individuellen Überzeugung überein, so gibt das Individuum dem Urteil die Wahrscheinlichkeit 1, ist die Überzeugung dem Urteil genau entgegengesetzt, so gibt das Individuum dem Urteil die Wahrscheinlichkeit 0. Der Grad der Überzeugtheit tendiert somit zwischen den beiden extremen Werten 0 und 1. Die Bayesianer versuchen, den Grad des Fürwahrhaltens (dispositional belief) direkt zu messen. Um dies zu erreichen, haben sie die Wett-Theorie (faire Wetten, fair bets) k o n z i p i e r t (HERMES 1 9 6 1 ; KEMENY 1 9 5 5 ) , d i e d i e W a h r s c h e i n l i c h k e i t a l s d e n W e t t -
quotienten definiert, den ein Individuum bei einer Wette höchstens anzubieten bereit ist. Wenn z. B. ein Individuum für eine Aussage A doppelt soviel zu wetten bereit ist, wie für eine Aussage B, so ist A doppelt so wahrscheinlich wie Β (Wettquotient 2 : 1 ) . Bei diesen subjektiven Auffassungen des Wahrscheinlichkeitsbegriffs muß berück-
10
6. Band: Statistische Forschungsstrategien
sichtigt werden, daß die Intuition stark von der einem Individuum zur Verfügung stehenden Information und deren subjektiver Bewertung geprägt wird (PFANZAGL 1961). MENGES (1968) hält deshalb die intuitive Einschätzung von Wahrscheinlichkeiten für vorwissenschaftlich. Als heuristisches Hilfsmittel könnte sie nützlich sein, zu einer gesicherten Erkenntnis würde sie aber erst durch eine experimentelle Überprüfung gelangen. Die Wahrscheinlichkeiten sind dann nach dem Experiment nicht mehr subjektive, sondern objektive Wahrscheinlichkeiten. "Unter der objektiven Wahrscheinlichkeit versteht man etwas vom aktuellen Glauben empirischer Subjekte Unabhängiges, etwa eine physikalisch meßbare Größe oder eine logische Relation zwischen Aussagen". In dieser Definition von VETTER (1967, S. 6) ist schon die Aufspaltung des objektiven Wahrscheinlichkeitsbegriffs in statistische Wahrscheinlichkeit und logische Wahrscheinlichkeit angedeutet. Die logische Fundierung der Wahrscheinlichkeit besteht darin, die Wahrscheinlichkeit als eine logische Eigenschaft von Aussagen {h, e) oder als Relation zwischen Aussagen festzulegen. "Wahrscheinlichkeit ist der Bestätigungsgrad einer Hypothese h aufgrund einer beweisbaren Feststellung e, d. h. von Beobachtungsdaten. Dies ist ein logischer, semantischer Begriff. Ein Urteil über diesen Begriff basiert nicht auf der Beobachtung von Tatbeständen, sondern auf einer logischen Analyse" (CARNAP 1962, S. 19). Einen Nachteil des logischen Wahrscheinlichkeitsbegriffs bildet u. a. die Schwierigkeit, den Aussagen h und e a priori eine Funktion c (h, e) objektiv zuzuordnen, deren reelle Werte zwischen 0 und 1 liegen. Man verfügt eben in weiten Bereichen der angewandten Wahrscheinlichkeitstheorie, insbesondere in den Sozialwissenschaften, nicht über genügend A-priori-Kenntnisse, als daß eine exakt wissenschaftliche Bestimmung der Wahrscheinlichkeit möglich wäre. Lediglich bei einigen Glücksspielen ist eine solche ideale Situation gegeben. Und in der Tat zeigt ja auch die historische Entwicklung der Wahrscheinlichkeitsrechnung, daß Wahrscheinlichkeitsprobleme von Glücksspielen am frühesten behandelt und gelöst wurden. Der für jegliche empirische Forschung, besonders für die Statistik relevante Wahrscheinlichkeitsbegriff ist die statistische Wahrscheinlichkeit (Häufigkeitswahrscheinlichkeit, empirische Wahrscheinlichkeit). Die empirische Feststellung, daß auch zufallsabhängige Ereignisse bestimmten Gesetzmäßigkeiten unterworfen sind, ist grundlegend für die Definition der statistischen Wahrscheinlichkeit als relative Häufigkeit eines Ereignisses. "Unter der relativen Häufigkeit eines Ereignisses in einer Serie von Realisationen versteht man die absolute Häufigkeit des Ereignisses (d. h. die Anzahl der Versuche, bei denen das Ereignis eingetreten ist), bezogen auf die Gesamtzahl der Versuche" (PFANZAGL 1961, S. 486). Das wohl meistzitierte Beispiel für eine solche statistische Gesetzmäßigkeit ist die aus der Bevölkerungsstatistik bekannte Sexualproportion, d. h. die Anzahl der männlich Geborenen, dividiert durch die Anzahl der weiblich Geborenen (GNEDENKO 1968). Die relative Häufigkeit als empirischen Wahrscheinlichkeitsbegriff einzuführen, setzt voraus, daß die zeitliche und räumliche Stabilität der relativen Häufigkeit bei verschiedenen Serien und bei einer hinreichend großen Anzahl von Beobachtungen gewährleistet ist. In der naturwissenschaftlichen Forschung ist die an die relative Häufigkeit gestellte Stabilitätsforderung meistens leicht zu erfüllen. In den Wirtschaftsund Sozialwissenschaften jedoch bereitet die notwendige Stabilität des Ursachenkomplexes zufälliger Ereignisse o f t erhebliche Schwierigkeiten (MENGES 1968, S. 3 3 ; PFANZAGL 1 9 6 1 , S . 4 8 6 ) .
1. Kapitel: Wahrscheinlichkeitsrechnung
11
Die Stabilitätsforderung ist eng mit dem Hauptproblem der statistischen Wahrscheinlichkeitsdefinition verknüpft: Wie groß muß der Umfang der Beobachtungen sein, damit die relative Häufigkeit eines bestimmten Ereignisses nahezu konstant ist? In der Sprache des obigen Beispiels würde diese Frage lauten: Wieviele Geburtsfälle müssen erfaßt werden, um einen hinreichend konstanten Wert für die Sexualproportion zu erhalten? Genügt es etwa, die Zahl und das Geschlecht der Kinder einiger Familien zu untersuchen, oder muß man für ein bestimmtes Jahr die Zahl und das Geschlecht der Neugeborenen einer Gemeinde, eines Bundeslandes oder gar der gesamten Bundesrepublik statistisch erheben? Um diese Problematik des statistischen Wahrscheinlichkeitsbegriffs zu bewältigen, bietet sich an, die Wahrscheinlichkeit als den Grenzwert zu definieren, den die relative Häufigkeit annimmt, wenn die Zahl der Versuche gegen Unendlich strebt. VON MISES' (1928) Versuch, diese Limesdefinition der Wahrscheinlichkeit über den Begriff des Kollektivs, eines mathematischen Modells einer Zufallsfolge, zu fundieren, scheiterte jedoch an mathematischen Schwierigkeiten (FREUDENTHAL UND STEINER 1966, S. 190; SCHMETTERER 1966, S. 25). Eine weitere Schwierigkeit, (lie statistische Wahrscheinlichkeit für die Praxis nutzbar zu machen, besteht darin, daß häufig n, die Anzahl der Versuche, nicht groß genug ist, sich aber andererseits der Ursachenkomplex eines Zufallsexperiments schon geändert haben kann, bevor man genügend Versuche unternommen hat. Aus dem Dilemma der von Mises'schen Häufigkeitstheorie hinaus führte 1933 schließlich die formallogische Begründung der Wahrscheinlichkeitstheorie durch G. N. Kolmogoroff. Kolmogoroff gibt keine Definition im herkömmlichen Sinn, sondern benutzt die in der Mathematik schon häufig mit Erfolg angewandte axiomatische Methode. Dabei wird der Begriff der Wahrscheinlichkeit indirekt durch einige für zweckmäßig gehaltene Eigenschaften der Wahrscheinlichkeit, die in Axiomen festgelegt werden, definiert. Aus diesen Axiomen werden nach logischen Regeln Folgerungen abgeleitet und Sätze bewiesen. Die heutige axiomatische (mathematische) Wahrscheinlichkeitstheorie benützt als Undefinierten Grundbegriff der Wahrscheinlichkeit ein normiertes Maß aus einem Ereignisraum, d. h.: Die Elemente des Ereignisraumes (Elementarereignisse) sind Ereignisse, die sich gegenseitig ausschließen. Der Ereignisraum kann endlich viele, abzählbar viele oder überabzählbar (unendlich) viele Elementarereignisse besitzen. Eine Menge von Elementarereignissen wird wieder als Ereignis bezeichnet. Als Wahrscheinlichkeit wird jedem Ereignis eine reelle Zahl zwischen 0 und 1 zugeordnet ( V E T T E R , 1 9 6 7 , S . 9 ; GNEDENKO 1 9 6 8 , S . 4 1 f f . ) .
Durch Kolmogoroffs Axiomatisierung der Wahrscheinlichkeit wurde die Wahrscheinlichkeitstheorie zu einem Teilgebiet der Mathematik erhoben. Über das Verhältnis der mathematischen Wahrscheinlichkeitstheorie zur Wirklichkeit ist damit aber noch keine Aussage gemacht. Denn die Mathematik wird nicht auf die Wirklichkeit, sondern auf ein Modell der Wirklichkeit angewandt (FREUDENTHAL UND STEINER 1966, S. 191). Die Frage, was Wahrscheinlichkeit ist, stellt sich damit erneut, wenn man die Ergebnisse der Wahrscheinlichkeitstheorie in der Praxis anwenden will. Treffen jedoch die Axiome hinreichend gut auf Bereiche der Wirklichkeit zu, so kann man die Ergebnisse der Wahrscheinlichkeitstheorie benutzen. "Dies gilt vor allem für gewisse Zufallsexperimente. Bestimmt man aus einer sehr langen Serie von Realisationen ein und desselben Zufallsexperiments die relative Häufigkeit, so weisen die
12
6. Band: Statistische Forschungsstrategien
relativen Häufigkeiten ein Verhalten auf, das den Axiomen der Wahrscheinlichkeitstheorie entspricht. Also können die aus diesen Axiomen abgeleiteten Sätze verwendet werden, um Aussagen über relative Häufigkeiten in sehr langen Serien zu mac h e n " (PFANZAGL 1 9 6 1 , S. 4 8 7 ) .
1.1.2
Wahrscheinlichkeitstheorie — Statistik — Sozialwissenschaften
Die Wahrscheinlichkeitstheorie ist als mathematische Disziplin ihrem Wesen nach nicht an einer praktischen Anwendung ihrer Ergebnisse interessiert. Sie empfängt zwar immer wieder Impulse aus außermathematischen Bereichen — das zeigt der Verlauf ihrer geschichtlichen Entwicklung sehr deutlich —, doch sieht sie ihre Aufgabe in der Axiomatisierung des Wahrscheinlichkeitsbegriffs und den aus diesen Axiomen hergeleiteten Aussagen. Dabei ist sie stets bestrebt, die Axiome möglichst einfach zu halten und möglichst allgemeine Folgerungen aus ihnen zu ziehen (BAUER 1 9 6 8 ; MORGENSTERN 1 9 6 8 ; KRICKEBERG 1 9 6 3 ) . Die Axiome der Wahrscheinlichkeitstheorie werden so gewählt, "daß sie bei geeigneter Interpretation empirische Sachverhalte wiedergeben" (SCHMETTERER 1966, S. 28) und ihre Resultate in außermathematischen Bereichen angewandt werden können. Dies ist jedoch nicht das einzige Gebiet, auf dem Wahrscheinlichkeitstheorie und Empirie eine Verbindung eingehen. Die Wahrscheinlichkeitstheorie bildet nämlich die Grundlage für einen sehr wesentlichen Teilbereich der Statistik, die Stochastik, auch mathematische Statistik oder beurteilende Statistik genannt. Da die Wahrscheinlichkeitstheorie als deduktive Theorie keine Aussagen darüber macht, welche Zahlenwerte das Wahrscheinlichkeitsmaß für bestimmte empirische Ereignisse annehmen soll, hat man in der mathematischen Statistik zur Beurteilung konkreter Situationen Verfahren entwickelt, um die richtige Wahrscheinlichkeit zu schätzen, bzw. eine hypothetische Wahrscheinlichkeitsverteilung zu testen. Diese Schätz- und Prüfverfahren der mathematischen Statistik, die zunächst nur zur Beurteilung spezieller Fragen der Empirie entwickelt worden waren, konnten in den letzten vierzig Jahren anhand grundlegender Prinzipien zu Methoden und Theorien von größtmöglicher Allgemeingültigkeit ausgearbeitet werden (MÜNZNER UND STANGE 1 9 6 6 , S . 1 9 8 ) . Zu ihnen zählen die Maximum-Likelihood-Methode (R. A. Fisher), der Konfidenzschluß und die allgemeine Testtheorie (E. S. Pearson und J. Neyman), die Regressions- und Korrelationsanalyse (Κ. Pearson), die Varianzanalyse (R. A. Fisher), die Sequentialanalyse (A. Wald) und die Theorie der Entscheidungsfunktionen (A. Wald). ' Das Charakteristikum dieser statistischen Verfahren besteht darin, daß alle Verfahren zur Prüfung von empirisch ermittelten Wahrscheinlichkeitsaussagen wieder zu Wahrscheinlichkeitsaussagen führen. Das bedeutet, daß sich der Ausdruck "Wahrscheinlichkeit" aus einer statistischen Aussage nicht entfernen läßt. Keines der obigen empirischen Verfahren erbringt also eine explizite operative Definition des Wahrscheinlichkeitsbegriffs. Ob eine Wahrscheinlichkeitsaussage richtig oder falsch ist, kann daher empirisch nie mit Sicherheit entschieden werden. Der Entscheidende ist also immer gezwungen, eine gewisse Irrtumswahrscheinlichkeit in Kauf zu nehm e n (VETTER 1 9 6 7 , S . 1 2 ) .
Die Irrtumswahrscheinlichkeit kann beliebig gewählt werden. Welche Höhe man ihr in statistischen Experimenten einräumt, hängt von dem zu untersuchenden Problem
1. Kapitel: Wahrscheinlichkeitsrechnung
13
ab und ist weitgehend dem statistischen Sachverstand des Versuchsplaners überlassen, der auch die substantielle Bedeutung des Fehlers für die jeweilige Untersuchung abschätzen muß. In den Naturwissenschaften sind Irrtumswahrscheinlichkeiten von 0,1 %, 1 % und 5 % gebräuchlich, in den Sozialwissenschaften rechnet man mit 1 %, 5% und 10%. In diesem Zusammenhang sei auf das Ätialprinzip (Verursachungsprinzip) von HARTWIG (1956) hingewiesen, das eine sozialwissenschaftliche Begründung der Wahrscheinlichkeit und der darauf aufbauenden Stochastik darstellt. Während in deterministischen Relationen der Wirklichkeit nach dem Prinzip der Kausalität eine ein-eindeutige (isomorphe) Beziehung zwischen Ursache und Wirkung besteht, kann man bei stochastischen Relationen der Wirklichkeit nur noch einen ein-mehrdeutigen (polymorphen) Zusammenhang zwischen allgemeinen Ursachen und Wirkungen nachweisen. Hartwig spricht dann von einer allgemeinen Ursache, wenn diese "das Verteilungsgesetz der zahlenmäßigen Charakteristik einer Massenerscheinung in ebenso eindeutiger Weise bestimmt bzw. verändert, wie die causa den jeweiligen Zustand einer Einzelerscheinung" (HARTWIG 1956, S. 257). MENGES (1968, S. 30) weist darauf hin, daß dieses Verteilungsgesetz als Menge von möglichen Wirkungen (Ereignissen), denen jeweils Wahrscheinlichkeiten zugeordnet sind, untrennbar mit dem Komplex der Bedingungen (Ursachenmatrix) verbunden ist, die beim Zustandekommen der Beobachtungen bestanden haben. Solange nur der Komplex der Bedingungen unverändert bleibt, kann man den Ätialschluß durch weitere Versuche und Beobachtungen bestätigen, denn das Verteilungsgesetz verändert sich, sobald die Ursachenmatrix variiert. Bei der Anwendung der Wahrscheinlichkeitstheorie in den Sozialwissenschaften wird man also immer nachprüfen müssen, ob eine Stabilität der Ursachenmatrix gewährleistet ist und somit das Ätialprinzip als Begründung für statistische Wahrscheinlichkeit Geltung hat. "Einigermaßen stabile Verursachungskomplexe liegen meist nur dann vor, wenn die betrachtete wirtschaftliche oder soziale Erscheinung technologisch, biologisch oder physiologisch determiniert ist" (MENGES 1968, S. 39).
1.2
Begriffe und Sätze der axiomatischen Wahrscheinlichkeitstheorie
1.2.1
Grundzüge der Mengenalgebra
Da die mathematische Wahrscheinlichkeitstheorie auf der elementaren Mengenlehre aufbaut, werden zunächst einige Begriffe und Operationen der Mengenalgebra angeführt. Nach Cantor (1845 - 1918), dem Begründer der Mengenlehre, versteht man unter einer Menge M "eine Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche àie. Elemente von M genannt werden) zu einem Ganzen" (KAMKE 1955, S. 5). Die Elemente einer Menge M werden mit xx, x2, X3,... bezeichnet. Man unterscheidet zwischen endlichen, abzählbaren und überabzählbaren Mengen. Zunächst wird hier von endlichen und abzählbaren Mengen die Rede sein. Eine Menge heißt abzählbar, wenn sich sämtliche Elemente mit Hilfe der natürlichen Zahlen 1 , 2 , 3 , . . . durchnumerieren lassen. Hierfür ist die Schreibweise M = { x 1 , x2, χ 3 , . . . } gebräuch-
14
6. Band: Statistische Forschungsstrategien
lieh. Bei einer endlichen Menge M = { xl, x2,..., x„ angeben.
xn} kann man ein letztes Element
Die Zugehörigkeit eines Elements χ zur Menge M bezeichnet man mit χ G M. Ist ein Element x nicht in M enthalten, so schreibt man x $ M . Wenn eine Menge kein Element besitzt, so bezeichnet man sie als eine leere Menge oder die Nullmenge 0. Eine Menge A stellt dann eine Teilmenge von M dar, wenn jedes Element von A auch Element von M ist. In Symbolen: ACM oder M 2 Α. A heißt echte Teilmenge von M, wenn es wenigstens ein Element von M gibt, das nicht in A enthalten ist. In Symbolen: ACM oder M D A. Die Nullmenge 0 gilt als unechte Teilmenge jeder Menge M. Zwei Mengen A und Β sind dann und nur dann gleich, wenn sie aus denselben Elementen bestehen. In Symbolen: Α = Β. Bedeutsamer für die mathematische Fundierung der Wahrscheinlichkeitstheorie ist der Begriff der Äquivalenz von Mengen. Eine Menge A bezeichnet man als äquivalent zu einer Menge B, in Symbolen A ~B, wenn man die Elemente von Β den Elementen von A eineindeutig (umkehrbar eindeutig) zuordnen kann, d. h. wenn es möglich ist, jedem Element a von A ein Element b von Β so zuzuordnen, daß aufgrund dieser Zuordnung (Abbildung) jedem Element von A genau ein Element von Β und jedem Element von Β genau ein Element von A entspricht. Drei Mengenoperationen sind im weiteren wichtig: der Durchschnitt, die Vereinigung und das Komplement von Mengen. Betrachtet man zwei Mengen A und Β und interessiert sich für die Menge der Elemente, die sowohl zu A als auch zu Β gehören, so bezeichnet man diese Menge als den Durchschnitt von A und B, in Symbolen: Α Π Β. Unter der Vereinigung zweier Mengen versteht man die Menge der Elemente, die entweder zur Menge A oder zur Menge Β oder zu beiden Mengen gehören, in Symbolen: A U B. Durchschnitts- und Vereinigungsbildung lassen sich sehr gut am Euler-{ Venn-)-Diagramm demonstrieren:
Zum Komplement A' einer Menge ACM gehören, in Symbolen: A' = M-A :
gehören alle Elemente x, die nicht zu A
Ist der Durchschnitt zweier Mengen A und Β leer, in Symbolen: Α η Β = 0, so
1. Kapitel: Wahrscheinlichkeitsrechnung
nennt man die Mengen A und Β elementfremd
15
Der Durchschnitt von η endlich vielen bzw. abzählbar unendlich vielen Mengen M¡ wird mit O M¡ bzw. t=i °° η oo ( I Mj bezeichnet, die Vereinigung entsprechend mit \ J M¡ bzw. U M¡. Endliche 1=1 ¿=1 ¿=1 und abzählbare Mengen M¡ werden paarweise disjunkt genannt, wenn für alle i und / (/ * /) immer gilt M¡ (Ί M¡ = 0.
1.2.2
(disjunkt).
Zufallsexperiment — Ereignisalgebra
Sowohl für die praktische Anwendung der Wahrscheinlichkeitstheorie als auch für die mathematische Fundierung der Wahrscheinlichkeit ist folgende Präzisierung des Begriffs Zufallsexperiment (stochastisches Experiment) grundlegend: Unter einem Zufallsexperiment versteht man einen Vorgang, dessen Ergebnis in der Weise vom Zufall abhängt, daß man vor dem Versuch nicht weiß, welche der möglichen Realisationen bei dem Experiment eintreffen wird. An jedes Zufallsexperiment wird die Forderung gestellt, daß der Bedingungskomplex, unter dem das Experiment abläuft, wohl definiert ist und daß der Aufbau des Versuchs (die experimentelle Vorschrift) in der Zeit erhalten (stabil) bleibt, denn das Experiment soll beliebig oft wiederholbar sein. Das Zufallsexperiment wird so angelegt, daß man ein bestimmtes Merkmal beobachtet. Die unterscheidbaren, logisch disjunkten Ausprägungen dieses Merkmals, die als mögliche Realisationen des Versuchs zu beobachten sind, werden Elementarereignisse e genannt. Die Gesamtheit der Elementarereignisse bildet den Merkmalsraum M. Zum Beispiel wird bei einem Würfelexperiment das Merkmal "Nummer der oben liegenden Würfelfläche" beobachtet. Elementarereignisse sind also die Zahlen 1 bis 6, mit denen die Flächen des Würfels bezeichnet sind. Bei den meisten Versuchen sind nicht nur einzelne Elementarereignisse von Bedeutung, sondern Teilmengen des Merkmalraums, d. h. Vereinigungsmengen von Elementarereignissen. Eine solche Teilmenge des Merkmalsraums bezeichnet man als Ereignis E. Die "Menge der geraden Zahlen {2, 4, 6,}" oder "Keine 'Sechs' würfeln" sind ζ. B. Ereignisse, die beim Würfelspiel von Interesse sind. Der mathematische Wahrscheinlichkeitsbegriff baut nun auf diesen zufälligen Ereignissen E auf. Sie sind nämlich der geeignete Definitionsbereich, um ein Maß für die Wahrscheinlichkeit eines Ereignisses E festzulegen. Dieses Maß, über dessen Eigenschaften noch im weiteren berichtet wird, bezeichnet man als Wahrscheinlichkeitsmaß. Da die zufälligen Ereignisse als Menge von Elementarereignissen eingeführt worden sind, kann man die Begriffe und Sätze der Mengenalgebra auf Ereignisse übertragen und gelangt so zur Ereignisalgebra. Man spricht deshalb von der Vereinigung, dem Durchschnitt und dem Komplement von Ereignissen. Ein Ereignis E, zu dem alle Elementarereignisse gehören, bezeichnet man als das sichere Ereignis. Mit j0 kennzeichnet man das unmögliche Ereignis. Unter der Potenzmenge P{M) des Merkmalsraums M versteht man die Menge aller Teilmengen von M. Besteht zum Beispiel M aus den Elementen e¡ und e2, also M = {β], e2},so ist P(M) = {{0}, {ej}, {βΐ}, {βι, e 2 }}.Die leere Menge 0 und M selbst
16
6. Band: Statistische Forschungsstrategien
zählt man zu den Teilmengen von M. Besteht M aus η Elementarereignissen, so enthält die Menge P{M) der zufälligen Ereignisse 2 n Ereignisse. Neben diesen Ereignissen sind auch noch die Vereinigung, der Durchschnitt und das Komplement von Elementen von P{M) interessant. Man betrachtet dazu die Potenzmenge S (M) von M. S (M) ist so definiert, daß für jedes in S (M) enthaltene Ereignis E auch das Komplement E' zu S (M) gehört und daß die Durchschnitts- und Vereinigungsbildung von Teilmengen von M nicht aus S (M) herausführt. Eine solche Potenzmenge S (M) nennt man Ereignisfeld (Ereignisraum). Um den Definitionsbereich für Wahrscheinlichkeiten festzulegen, unterscheidet man zwei Fälle: ( 1 ) Besteht der Merkmalsraum M aus endlich vielen Elementarereignissen, so kann man die oben eingeführte Potenzmenge S(M) als Definitionsbereich für Wahrscheinlichkeiten benutzen. (2) Besteht M aus unendlich vielen Elementarereignissen, so fordert man, daß neben der Komplementbildung die Durchschnitts- und Vereinigungsbildung nicht nur von endlich vielen Teilmengen von M, sondern auch von abzählbar vielen Teilmengen von M nicht aus S(M) herausführt. Genügt ein Mengensystem, d. h. eine Menge von Mengen, dieser Forderung der Abgeschlossenheit gegenüber abzählbar unendlichen Durchschnitts· und Vereinigungsbildungen, so bezeichnet man es als eine a-Algebra (σKörper, 5ore/scher Mengenkörper, Boreisches Ereignisfeld). Mit dieser letzten Verallgemeinerung ist der Typ des Definitionsbereichs gefunden, der in der Wahrscheinlichkeitstheorie zur Axiomatisierung des Wahrscheinlichkeitsbegriffs benutzt wird: eine σ-Algebra über dem Merkmalsraum M. Zur Charakterisierung der σ-Algebren über M muß noch folgendes bemerkt werden. Man kann, wie oben angegeben wurde, die σ-Algebra aller Teilmengen von M als Definitionsbereich benutzen, wenn M endlich ist. Für Merkmalsräume mit unendlich vielen (d. h. mit abzählbar unendlich vielen und erst recht mit überabzählbar unendlich vielen) Elementarereignissen ist jedoch das System aller Teilmengen zu umfangreich, um ein Wahrscheinlichkeitsmaß zu definieren. Man kann aber zeigen, daß neben der Menge aller Teilmengen von M noch kleinere Systeme von Teilmengen von M bestehen, die ebenfalls a-Algebren sind. Für fast alle in der Anwendung vorkommenden Merkmalsräume genügt es, sich auf die kleinste σ-Algebra über der Menge der relien Zahlen zu beschränken, die a-Algebra der Borel-Mengen Β. Β enthält alle offenen und abgeschlossenen Intervalle der Menge der reellen Zahlen R und speziell auch die nur aus einer reellen Zahl bestehende Teilmenge {x} von R. Die Struktur der Mengen reeller Zahlen, die keine Borel-Mengen mehr sind, kann vom Standpunkt einer Wahrscheinlichkeitstheorie, die eine Beschreibung der Wirklichkeit anstrebt, vernachlässigt werden (RICHTER 1 9 6 6 , S . 1 1 ; BASLER 1 9 6 8 , S . 1 1 ) .
1.2.3
Axiomensystem von Kolmogoroff
Die Axiomatisierung der Wahrscheinlichkeit gelang Kolmogoroff 1933 durch ein widerspruchfreies System von drei Axiomen. Er führte die Wahrscheinlichkeit Ρ (Wahrscheinlichkeitsfunktion) als eine normierte Maßfunktion auf einem Merkmalsraum M ein:
1. Kapitel: Wahrscheinlichkeitsrechnung
17
Β sei eine σ-Algebra über einem Merkmalsraum M. Die Funktion Ρ ordnet jedem Ereignis E von Β eine reelle Zahl P(E) zu, die Wahrscheinlichkeit des Ereignisses E. Die Zusammenstellung des Merkmalsraums M, der über M definierten σ-Algebra Β und des Maßes Ρ auf Β charakterisiert den Wahrscheinlichkeitsraum W. Das Axiomensystem für Ρ lautet : (1 )
Axiom 1 : Es gilt P ( E ) > 0
für alle E aus B.
(2)
Axiom 2: Es gilt P(EX U E2 U ...) = PiE^ + P(E2) + ... für abzählbar viele Ereignisse, falls die Ereignisse paarweise disjunkt sind, d. h. falls E¡ Π E¡ = 0 fur alle i Φ j.
(3)
Axiom 3: Es gilt Ρ (M) = 1.
Während Axiom 1 festlegt, daß es keine negativen Wahrscheinlichkeiten gibt, stellt Axiom 3 die Normierungsvorschrift dar, daß dem ganzen Merkmalsraum die Wahrscheinlichkeit 1 zugemessen wird. Die Wahrscheinlichkeiten liegen also zwischen 0 und 1, wobei das sichere Ereignis die Wahrscheinlichkeit 1 hat. Wie später gezeigt wird, ist Axiom 3 nicht umkehrbar: Von einem Ereignis, das die Wahrscheinlichkeit 1 hat, kann man nicht sagen, daß es sicher sei. Das Axiom 2 legt die a-Additivität fest: Die Wahrscheinlichkeit disjunkter Ereignisse ist gleich der Summe der Wahrscheinlichkeiten der einzelnen Ereignisse. Es hat sich gezeigt, daß die auf diesen Axiomensystem aufbauende Wahrscheinlichkeitstheorie in weiten Bereichen der Empirie anwendbar ist. Dies wird unter anderem an dem für die Anwendung wichtigen Gesetz der großen Zahlen deutlich, das einerseits aus denKolmogoroffschen Axiomen ableitbar ist und das andererseits bei hinreichend vielen unabhängigen Wiederholungen eines Zufallsexperiments als "empirisches Gesetz" beobachtet werden kann. 1.2.4
Wahrscheinlichkeitsbegriff von Laplace
Um in der Empirie Wahrscheinlichkeiten für Ereignisse berechnen zu können, müssen irgendwelche Annahmen über die Wahrscheinlichkeiten der Elementarereignisse gemacht werden. Pierre-Simon de Laplace ging bei seinem Definitionsversuch der Wahrscheinlichkeit von einem endlichen Merkmalsraum M aus, der sich aus η disjunkten Elementarereignissen e¡, e2, • •·, e„ zusammensetzt. Für diese Elementarereignisse machte er die grundlegende Annahme der Gleichwahrscheinlichkeit: (4)
P(eO
= P(e2)
= ... = P(e„).
Aus der Normierung der Wahrscheinlichkeit und der Disjunktheit der Elementarereignisse folgt, daß P(M) = η • Ρ (e) = 1. Daraus ergibt sich für alle Elementarereignisse: P(e) = i . Setzt sich ein Ereignis E aus k Elementarereignissen zusammen, k so erhält man P(E) = k • P(e) = — . Dem Sprachgebrauch bei Glücksspielen folgend bezeichnet man die Anzahl der Elementarereignisse eines Ereignisses E oft als die Anzahl der für E günstigen Elementarereignisse, unpräzise auch als "günstige Fälle". Die Laplacesche Definition der Wahrscheinlichkeit eines Ereignisses E schreibt sich somit als der Quotient der Anzahl der für E günstigen Elementarereignisse dividiert durch die Anzahl der mit gleicher Wahrscheinlichkeit möglichen Elementarereignisse,
18
6. Band: Statistische Forschungsstrategien
Experimente, deren Ergebnisse gleichwahrscheinlich sind, ζ. B. das Werfen eines einwandfreien (echten), symetrischen Würfels, einer echten Münze oder das Ziehen einer Kugel aus einem Behältnis (Urne), bezeichnet man a}s Laplace-Experimente. Da bei umfangreichen Laplace-Experimenten das Auszählen der günstigen und möglichen Elementarereignisse zu umständlich wäre, benutzt man Ergebnisse der Kombinatorik als Hilfsmittel. 1.2.5
Kombinatorik
In der Kombinatorik untersucht man die verschiedenen Möglichkeiten, eine gegebene Anzahl von η Elementen anzuordnen oder in Gruppen zusammenzufassen. Jede beliebige Zusammenfassung von Elementen aus der Menge der η Elemente bezeichnet man als eine Komplexion. Man spricht von Komplexion ohne Wiederholung, wenn jedes Element der betrachteten Menge nur einmal auftritt, und von Komplexion mit Wiederholung, wenn ein oder mehrere Elemente mehrmals vorkommen. Als weiteres Kriterium der Untergliederung von Komplexionen benutzt man die Art der Zusammenstellung der Elemente. So differenziert man zwischen Permutationen, Variationen und Kombinationen. Eine Permutation aus η Elementen ohne Wiederholung ist definiert als eine der möglichen Anordnungen aller η paarweise disjunkten Elemente. Die Aufgabe der Kombinatorik besteht nun darin, nachzuweisen, wieviel verschiedene Anordnungen der η Elemente möglich sind. Durch vollständige Induktion kann man für die Anzahl Pin) der Permutationen beweisen, daß gilt (5)
P(.n) = 1 · 2 · 3 · ... η = nl.
Als Permutation aus η Elementen mit Wiederholung bezeichnet man eine der möglichen Anordnungen aller η Elemente, wobei diese Elemente nicht alle voneinander verschieden sein müssen. Es befinden sich unter den η Elementen nl gleiche Elemente erster Art, n2 gleiche Elemente zweiter Art, usw., nk gleiche Elemente Ä-ter Art. Die Summe über alle n¡ mit i = 1,2,..., k ergibt n. Die Anzahl P(ni,n2, •··, nk) aller möglichen Anordnungen errechnet sich nach der Beziehung (6)
P(ny,n2,
...,nk)
P(n) = — niln2l...nkl
nl =— «ι ! n2l ...nkl
Variationen der Klasse k aus η Elementen ohne Wiederholung sind sämtliche Zusammenstellungen von jeweils k der η paarweise disjunkten Elemente. Die Anordnung der Elemente innerhalb der Klassen ist bei Variationen im Gegensatz zu Kombinationen von wesentlicher Bedeutung, so daß man unter zwei verschiedenen Anordnungen der Elemente einer Klasse zwei verschiedene Variationen versteht. Für die Anzahl Vk(n) der Variationen gilt: (7)
Vk(n) = « · ( « —1) · (« — 2) ·...·(«—fc + 1) =
nl (»-*)!
Im Gegensatz zu den Variationen der Klasse k aus η Elementen ohne Wiederholung können bei den Variationen der Klasse k aus η Elementen mit Wiederholung beliebig viele Elemente innerhalb einer Klasse wiederholt werden. Mit η werden die ver-
1. Kapitel: Wahrscheinlichkeitsrechnung
19
schiedenen Elemente der Menge bezeichnet. Durch k wird die Anzahl der Elemente einer Klasse angegeben. Die Anzahl der möglichen Variationen V¿(n) errechnet sich nach (8)
K¿(n) = nK
Als Kombination der Klasse k aus η Elementen ohne Wiederholung bezeichnet man jede mögliche Zusammenstellung von jeweils k der η paarweise disjunkten Elemente, wobei die Anordnung der Elemente innerhalb der Klassen im Gegensatz zu den Variationen nicht berücksichtigt wird. Für die Anzahl aller möglichen Kombinationen Ck(n) kann man die folgende Beziehung nachweisen: ^
^/λ
(9)
C W
*
»•(η-1)·(«-2)·...·(»-*+1)
M
1 • 2 • 3 •... • k
" [k]
=
ni =
I η
lcT(ñ~^ky.
=
\
U-*J
Bei den Kombinationen der Klasse k aus η Elementen mit Wiederholung ist es zulässig, daß bei den verschiedenen Zusammenstellungen der Klassen gleiche Elemente mehrfach vorkommen. Die Anzahl der möglichen Konbinationen C'k(n) ist: (10)
CiGO-f"»-*-1).
Die verschiedenen Arten der Komplexion und ihre Anzahl lassen sich übersichtlich in folgendem Schema darstellen. Ny
Unterscheidung nach den Elementen Unterscheidung"^ nach Art der Zusammenstellung Permutation
Variationen
^s.
Vk(n) =
1.2.6
7l!
P(nhn2,...,nk)
P(n) = Λ ! 71 ! (» - *)!
II
*
Kombination
mit Wiederholung
ohne Wiederholung
"l·
n
2 ~ · · nk!
Vk(n) = τj*
C
*' Bd. VI I : Höhmann und van Koolwijk, Deskriptive Methoden 2.2).
1.3.5
Tschebyscheffsche Ungleichung
Mit Hilfe des Mittelwertes und der Standardabweichung einer Zufallsvariablen X läßt sich eine interessante Wahrscheinlichkeitsaussage, die Tschebyscheffsche Ungleichung, beweisen, die in ihrer Struktur einem Konfidenzintervall gleicht und damit eine Verbindung von Wahrscheinlichkeitstheorie und Statistik aufzeigt. Darüber hinaus kann man aus der Tschebyscheffschen Ungleichung nach Einführung eines Grenzübergangs das schwache Gesetz der großen Zahlen beweisen. Als Voraussetzung der Tschebyscheffschen Ungleichung wird gefordert, daß Mittelwert und Varianz einer Zufallsvariablen X existieren. Dann gilt für t > 0: (33)
Ρ ( Ι Χ - μ Ι > ta) < 4 t¿
Die Wahrscheinlichkeit, daß die Zufallsvariable X mindestens um das i-fache der Standaridabweichung vom Mittelwert μ abweicht, ist kleiner oder höchstens gleich
28
6. Band: Statistische Forschungsstrategien
1112. Hat die Zufallsvariable X beispielsweise den Mittelwert 0 und die Standardabweichung 1 und setzt man für t den Wert 3, dann ergibt sich aus der Tschebyscheffschen Ungleichung die folgende Aussage: Die Wahrscheinlichkeit dafür, daß die Zufallsvariable X einen Wert annimmt, der außerhalb des offenen Intervalls (—3, +3) liegt, ist höchstens gleich 0,11. Oder anders ausgedrückt, mindestens 89 von 100 Realisationen der Zufallsvariable X liegen im Intervall ( - 3 , +3). Häufig wird die Tschebyscheffsche Ungleichung dafür benutzt, eine Aussage über die Abweichung des arithmetischen Mittels einer Stichprobe vom Mittelwert der zugehörigen Gesamtheit zu machen. Es seien x1, x2,..., xn die Realisationen einer Stichprobe, die aus einer Grundgesamtheit mit Mittelwert μ und Varianz a2 gezogen wurde. Für jedes t > 0 gilt dann (34)
Ρ
(\χ-
μ
\>
tJ=jj) mit i = 1, 2 , . . . , 6 und j = 1, 2 ist die Wahrscheinlichkeit Ptj = 1 /12 für alle i und j zugeordnet. Also
34
6. Band: Statistische Forschungsstrategien
(50)
/ ( χ , y) =
Pt¡ = 1/12
für (χ = x{, y = y,)
(j
0
für alle übrigen (χ, y).
=
j> ^ - > 6 J
Ein weiteres Beispiel einer mehrdimensionalen diskreten Wahrscheinlichkeitsfunktion erhält man bei der Verallgemeinerung des Bernoulli-Modells: Als Ergebnis eines Experiments kann eines der r paarweise disjunkten Ereignisse El,E2,..., Er vorkommen. Das Ereignis E¡(1 = 1, 2,..., r) tritt mit der Wahrscheinlichkeit P¡ ein. Das Experiment wird «-mal unabhängig wiederholt. Nun betrachtet man die Wahrscheinlichkeitsfunktion der r-dimensionalen Zufallsvariablen (X1, X2,..., Xr), die angibt, mit welcher Wahrscheinlichkeit die verschiedenen Kombinationen der Ereignisse auftreten. Für die Wahrscheinlichkeitsfunktion von ( X 1 , X2,..., Xr) gilt: (51)
f{xi,x2,...,xr)
=
Λ J . AJ · ... Χ γ .
P?PX2\..PX/
Dabei bedeutet X¡ = x¡, daß das Ereignis E¡ genau χ,-mal auftritt. Das Integral über die gemeinsame Dichtefunktion der kontinuierlichen n-dimensionalen Zufallsvariablen (Xv, X2,..., X„ ) gibt analog zum ein-dimensionalen Fall die Wahrscheinlichkeit dafür an, daß die Zufallsvariable (Xl ,X2, ..., Xn ) einen Wert aus dem H-dimensionalen Intervall (xltx2,... ,xn), mit αγ < Xj · Bd. IV: Erbslöh und Wiendieck, Der Interviewer 3.2 sowie Esser, Der Befragte 4.5).
Die Nichtbeantwortung führt bei einer Stichprobenstatistik zu einer Verzerrung der Stichprobe (KELLERER 1 9 5 4 ) , wenn von einem Teil der Auswahlelemente keine Informationen eingeholt werden können (BILLETER 1 9 5 1 ) . Neben der physischen Absenz können Antwort ver Weigerungen ebenso eine Nichtbeantwortung verursachen, wie die Tatsache, daß die Informationskapazität des Befragten möglicherweise für den Untersuchungszweck nicht ausreichend sein kann. Aus diesen Gründen erfolgt bei der Durchführung der Stichprobe eine "Aushöhlung" (shrinkage, mortality) des Stichprobenplans (KELLERER 1 9 5 4 , S. 8 ) . Die strukturelle Identität zwischen den ausgewählten und den tatsächlich aufbereiteten Stichprobeneinheiten hinsichtlich des Untersuchungsmerkmals kann insbesondere dann nicht gewährleistet werden, wenn das Untersuchungsmerkmal und das Merkmal, auf das die Nichtbeantwortung zurückzuführen ist, eng miteinander korrelieren. In der Literatur ist eine Fülle von Vorschlägen zu finden, mit deren Hilfe die Verzerrung des Stichprobenergebnisses infolge der Nichtbeantwortung zumindest teilweise korrigiert werden kann (COCHRAN 1 9 6 3 , S. 2 9 2 ; KISH 1 9 6 5 , S. 5 3 5 ff.; H A R T L E Y 1 9 6 2 ; PÖLITZ UND SIMMONS 1 9 4 9 ; KELLERER 1 9 5 4 ) . Sofern die Wiederholung der Befragung bei tragbaren Kosten ermöglicht werden kann, sollte man natürlich versuchen, die Antwortquote durch Besuchswiederholungen (call backs) oder schriftliche Mahnungen zu erhöhen. Zur Quantifizierung des non-responseEff ;kts kann man die bereits angedeuteten Vorteile der mehrphasigen Auswahl nutzen: Die Einheiten der zweiten Phase (sämtliche Nichtantwortende oder ein Teil der Nichtantwortenden) werden persönlich angeschrieben oder befragt (HANSEN UND HURWITZ 1 9 4 6 ) , um mit Hilfe der so gewonnenen Angaben die Ergebnisse der ersten Phase berichtigen zu können. Zwei weitere Techniken, die Schichtung
2. Kapitel: Planung und Durchführung von Zufallsstichproben
der erfolgreichen Erstbesuche nach der Abwesenheitshäufigkeit der Befragten (PÖLITZ UND SIMMONS 1 9 4 9 ) u n d d i e H o c h r e c h n u n g u n d E x t r a p o l a t i o n (DEMING
1950) können auch zur Verminderung des Nichtbeantwortungseffekts beitragen. Schließlich kann man versuchen, die ausgefallenen Einheiten durch möglichst adäquate Ersatzeinheiten zu substituieren (STATISTISCHES BUNDESAMT 1960, S. 93 f.). Bei der mündlichen Befragung ist eine Beeinflussung der Untersuchungsergebnisse durch die Person des Interviewers zu erwarten ( RAJ 1968, S. 166 f.), so daß man zweckmäßigerweise die Verhaltensweisen der Interviewer normieren sollte. Die Ermittlung des Interviewer-Bias in standardisierten Erhebungen (HAEDRICH 1964, S. 45 ff.) kann man, sofern unabhängig Stichproben vorliegen, mit der Methode d e r V a r i a n z a n a l y s e (STATISTISCHES BUNDESAMT 1 9 6 0 , S. 1 1 1 u n d S. 1 7 2 f f . ) v o r n e h -
men. Während der Zufallsfehler, mit dem die Stichprobenstatistik behaftet ist, sich relativ gut quantifizieren läßt, wenn man auf die Daten der Stichprobe zurückgreift, ist zur Abschätzung des systematischen Fehlers ein umfangreiches Kontrollinstrumentarium, dessen Anwendung mit hohen Kosten verbunden sein kann, notwendig. In extremen Fällen, wenn man nicht auf verfügbares Kontrollmaterial (frühere oder gleichartige Erhebungen) zurückgreifen kann, muß man Kontrollerhebungen und -außereitungen vornehmen, aus denen wiederum Informationen über typische Fehlerquellen für die vorliegende und auch für spätere Erhebungen gewonnen werden können.
2.6.3
Der Gesamtfehler
Unterstellt man, daß die systematischen Fehler von den Zufallsfehlern unabhängig sind, kann man aus diesen beiden Fehlerkomponenten Wahrscheinlichkeitsaussagen über die Höhe des durchschnittlichen Gesamtfehlers machen, sofern man die Fehlerkomponenten zumindest der Größenordnung nach kennt (DEMING 1950, S. 159; RAJ 1968, S. 29; HANSEN U. A. 1956, Bd. 1, S. 57). Die betreffende Maßzahl des mittleren quadratischen Gesamtfehlers (mean square error) ergibt sich aus: (42)
MSE
(G *) = +
V bias (G*)2
+ SE ( G * ) 2 .
Diesen Zusammenhang kann man als Spezialfall des Fehlerfortpflanzungsgesetzes ansehen; betrachtet man nämlich die beiden fehlerbehafteten Größen χ (Zufallsfehler) und b (systematischer Fehler), die nicht miteinander korreliert sind, so geht die grundsätzliche Relation (43)
Sl+b
= S¡+S¡+2
Sxb
über in (42).
Der Zusammenhang zwischen den Größen S 2 + i (mittlere quadratische Gesamtfehler), S 2 (Fehlervarianz des Zufallsfehlers) und Sl (Fehlervarianz des systematischen Fehlers) wird in der Regel als pythagoräisches Dreieck illustriert (DEMING 1950, S. 129 (Darstellung 12). Aus Formel (42) lassen sich wichtige Erkenntnisse über das Zusammenspiel beider Fehlerkomponenten gewinnen. Unter der Voraussetzung eines gleichbleibenden systematischen Fehlers von der Größe 1 zeigt Darstellung 13, wie der Gesamtfehler durch eine Variation des Standardfehlers verändert wird: ein hoher Standardfehler
75
76
6. Band: Statistische Forschungsstrategien
Sb Darstellung 12: Zusammensetzung des Gesamtfehlers bei unkorrelierten Fehlerkomponenten (Quelle: in Anlehnung an DEMING 1950, S. 129).
Erläuterung: Sx = standard error (Standardfehler) Sb = bias (systematischer Fehler) 5 x + j = root-mean-square error (mittlerer quadratischer Fehler)
bestimmt den mittleren quadratischen Gesamtfehler weitgehend allein, ein geringer Standardfehler wird vom systematischen Fehler überdeckt. Ein Standardfehler, dessen Größe die Hälfte des systematischen Fehlers beträgt, wirkt sich ζ. B. nur mit 12 % auf den Gesamtfehler aus, woraus gefolgert werden kann, daß die Erhöhung des Stichprobenumfangs — und damit die Verringerung des Standardfehlers — so lange zweckmäßig ist, bis der Standardfehler unter die Hälfte des systematischen Fehlers sinkt (SZAMEITAT UND KOLLER 1958, S. 15). Ähnliche Faustregeln führen RAJ (1968, S. 30) und COCHRAN (1963, S. 10) an.Die Nützlichkeit derartiger Kriterien ist allerdings auf die praktischen Fälle begrenzt, bei denen die Größe des systematischen Fehlers wenigstens annähernd abgeschätzt werden kann.
Darstellung 13: Die Auswirkung des Standardfehlers auf den Gesamtfehler bei konstantem systematischen Fehler (Quelle: SZAMEITAT UND KOLLER
1958, S. 15).
Systematischer Fehler
Standardfehler
Gesamtfehler
1 1 1 1 1 1 1
2 1 0,5 0,3 0,1 0,01 0
2,24 1,41 1,12 1,045 1,005 1,00005 1
2. Kapitel: Planung und Durchführung von Zufallsstichproben
77
Literaturverzeichnis ΑΟΥΑΜΑ, H., A Study of the Stratified Random Sampling, in: Annals of the Institute of Statistical Mathematics 6, 1954, S. 1 - 3 6 . BILLETER, E. P., Zum Problem der Nichtbeantwortung bei Stichprobenerhebungen, in: Mitteilungsblatt für mathematische Statistik 3, 1951, S. 9 3 - 1 0 2 . BUND, Α., Die praktische Bedeutung der Fehlerrechnung bei Stichproben in der sozialwissenschaftlichen Statistik, in: Metrika 6, 1963, S. 18-29. Numerical Considerations for the Stratification of Variables Following a Logarithmic Normal Distribution, in: Skandinavisk Aktuarietidskrift 41, 1958, S. 185-200.
BLOCK, E . ,
BÜSCHGES, G., Die Gebietsauswahl als Auswahlmethode in der empirischen Sozialforschung, Diss., Köln 1961. Comparisons of Methods for Determining Stratum Boundaries, in: Bulletin de l'Institut International de Statistique 38, 1961, S. 3 4 5 - 3 5 8 .
COCHRAN, W . G . ,
COCHRAN, W. G., Sampling Techniques, New York 1963, zuerst 1953. CYERT, R . M . UND H . J . DAVIDSON,
Statistical Sampling for Accounting Information,
Englewood Cliffs 1962. DALENIUS, T . ,
Sampling in Sweden, Stockholm - Uppsala
1957.
DALENIUS, T., Technik und Methode der Stichprobenerhebung, München 1950. T. UND M . GURNEY, The Problem of Optimum Stratification, in: Skandinavisk Aktuarietidskrift 34, 1951, S. 133-148.
DALENIUS,
T. UND J . L . HODGES, The Choice of Stratification Points, in: Skandinavisk Aktuarietidskrift 40, 1957, S. 198-203.
DALENIUS,
DEMING, W .
E., Some Theory of Sampling, New York 1950.
E., On Simplifications of Sampling Design through Replication with equal Probalities and without Stages, in: Journal of the American Statistical Association 51, 1956, S. 2 4 - 5 3 .
DEMING, W .
DEMING, W. E., Sample Design in Business Research, New York 1960. Nonresponse and Callbacks in Surveys, in: Bulletin of the International Statistic Institute 34, 1954, S. 7 2 - 8 6 .
DURBIN, J . ,
DURBIN, J., Review of "Sampling in Sweden", in: Journal of the Royal Statistical Society A 122, 1959, S. 2 4 6 - 2 4 8 . DURBIN, J. UND A. STUART, Call-backs and Clustering in Sample Surveys, in: Journal of the Royals Statistical Society A 117, 1954, S. 3 8 4 - 4 7 8 . An Approximation Useful in Univariate Stratification, in: Annals of Mathematical Statistics 30, 1959, S. 2 1 9 - 2 2 9 .
EKMAN, G . ,
A. RENYI, On the Central Limit Theorem for Samples from a Finite Population, in: Publications of the Mathematical Institute, Hungarian Academy of Sciences 4, 1959, S. 4 9 - 5 7 .
E R D Ö S , P . UND
FISHER, R .
Α., The Design of Experiments, London
FISHER, R . Α . ,
6.
Aufl.
1953.
Statistische Methoden für die Wissenschaft, London
1956.
78
6. Band: Statistische Forschungsstrategien
GOODE, W. J . UND P . K . H A T T ,
Methods in Social Research, New York
1952.
L. Α., Some Alternatives to Ecological Correlation, in: American Journal of Sociology 64, 1969, S. 610-625.
GOODMAN,
A. UND L . K I S H , Controlled Selection - a Technique in Probability Sampling, in: Journal of the American Statistical Association 45, 1950, S. 350-372.
GOODMAN, L .
HAEDRICH,
G., Der Interviewer — Einfluß in der Marktforschung, Wiesbaden 1964.
J., On the Theory of Ratio Estimates, in: Bulletin of the International Statistic Institute 37, 1948, S. 219-226.
HAJEK,
Some Contributions to the Theory of Probability Sampling, in: Bulletin of the International Statistic Institute 37, 1958, S. 127-134.
HAJEK, J.,
Μ. H . UND W. N. HURWITZ, The Problem of Nonresponse in Sample Surveys, in: Journal of the American Statistical Association 41, 1946, S. 517 - 529.
HANSEN,
M. H . , W. N. HURWITZ UND W. G. MADOW, Sample Survey Methods and Theory, 2 Bde., New York - London 2. Aufl. 1956.
HANSEN,
HENDRICKS, W . Α . ,
The Mathematical Theory of Sampling, New Brunswick, N.
J.
1956. JOHNSON,
N. L., Sample Censoring, Chapel Hill, N. C. 1966.
KAI LAI CHUNG, A
Course in Probability Theory, New York
1968.
Über Fehler, Fehlerausgleich und Fehlerfortpflanzung in der Sozialstatistik, in: Allgemeines Statistisches Archiv 40, 1956, S. 19-37.
KALLMEYER, H . ,
KARLIN,
S., A First Course in Stochastic Processes, New York 1966.
KARUS, H . ,
Sequentialanalyse, Diss. Köln 1960.
Verzerrung eines Stichprobenplans durch Nichtbeantwortung, in: Statistische Vierteljahreszeitschrift 7, 1954, S. 7-25.
KELLERER, H . ,
Artikel "Stichprobenverfahren", in: Handwörterbuch der Sozialwissenschaften, Bd. 10, Stuttgart - Tübingen - Göttingen 1959, S. 193-201.
KELLERER, H . ,
KELLERER, H . ,
Theorie und Technik des Stichprobenverfahrens, München
3.
Aufl.
1963. KENDALL, M . G . UND W . R . BUCKLAND, A
Dictionary of Statistical Terms, Edin-
burgh — London 1957. KENDALL, M . G . UND
A.
STUART,
The Advanced Theory of Statistics,
2
Bde., Lon-
don 1958. Sampling with Probability Proportional to Size; Adjustment for Changes in Probabilities, in: Journal of the American Statistical Association 52, 1955, S. 105-109.
KEYFITZ, Ν . ,
KISH,
L., Studies of Interviewer Variance for Attitudinal Variables, in: Journal of the American Statistical Society 57, 1962, S. 92-115.
KISH,
L., A Measurement of Homogeneity in Areal Units, in: Bulletin of the International Statistical Institute 34, 1961, S. 201 - 209.
KISH,
L., Some Statistical Problems in Research Design, in: American Sociological Review 24, 1959, S. 328-338.
2. Kapitel: Planung und Durchßhrung von Zufallsstichproben
79
KISH, L., Survey Sampling, New York 1965. KREYSZIG,
E., Statistische Methoden und ihre Anwendungen, Göttingen 1967.
Sample Design, in: M. JAHODA, M. DEUTSCH UND S. COOK (Hrsg.), Research Methods in Social Relations, Bd. 2, New York 1951, S. 643-680 (dtsch. Frankfurt 1972).
MCCARTHY, P . J . ,
MENGES, G . ,
Grundriß der Statistik, Teil
1
: Theorie, Köln - Opladen
1968.
, G., Stichproben aus endlichen Gesamtheiten, Theorie und Technik, Frankfurt 1959.
MENGES
MORGENSTERN,
O., Über die Genauigkeit wirtschaftlicher Beobachtungen, München
1962. NOURNEY, M . ,
Repräsentativmethoden auf Zufallsbasis, Göttingen
PFANZAGL, J . ,
Allgemeine Methodenlehre der Statistik, Band 1, Berlin 1966a.
1955.
Allgemeine Methodenlehre der Statistik, Band 2 , Berlin 1966b. Die Auswahl von Stichprobenplänen nach wirtschaftlichen Gesichtspunkten, in: Zeitschrift für moderne Rechentechnik 9, Heft 3, 1962, S. 97 -101.
PFANZAGL, J . , PFANZAGL, J . ,
An Attempt to Get the "Not at Homes" into the Sample without Callbacks, in: Journal of the American Statistical Association 44, 1949, S. 9-13.
PÖLITZ, A . UND W. SIMMONS,
RAJ, D., Sampling Theory, New York 1968. RAND CORPORATION,
A Million Random Digits with 100 000 Normal Deviates, New
York 1955. SAMPFORD,
M. R., An Introduction to Sampling Theory, Edinburgh 1963.
K. A J, Studie über die Möglichkeiten und Grenzen der Berechnung von Stichprobenfehlern bei der Erhebung über die Struktur der landwirtschaftlichen Betriebe, hrsg. vom Statistischen Amt der Europäischen Gemeinschaften, Wiesbaden 1967.
SCHXFFER,
Κ. Α., Optimale Schichtabgrenzung bei logarithmischer Normalverteilung, in: Metrika 17, 1971, S. 98-115.
SCHXFFER,
Ε. K., Die Anwendung von Auswahlverfahren bei Repräsentativ-Befragungen, Diss. Köln 1956.
SCHEUCH,
Auswahlverfahren in der Sozialforschung, in: R . KÖNIG (Hrsg.), Handbuch der Empirischen Sozialforschung, Bd. I, Stuttgart 2. Aufl. 1967, S. 309 347.
SCHEUCH, Ε . K . ,
A Problem in Optimum Allocation, in: Operations Research 11, 1963, S. 265-273.
SRIKANTAN, K . S . ,
Operations Research, Teil 2 : Simulationsmethoden/Ablauf- und Terminplanung, in: elektronische datenverarbeitung 8, Braunschweig 1966.
STAHLKNECHT, P . ,
Die zeichnerische Ermittlung der besten Schichtung einer Gesamtheit (bei proportionaler Aufteilung der Probe) mit Hilfe der Lorenzkurve, in: Unternehmensforschung 4, 1960, S. 156-163.
STANGE, K . ,
Die beste Schichtung einer Gesamtheit bei optimaler Aufteilung der Probe, in: Unternehmensforschung 5, 1961, S. 15-31.
STANGE, K . ,
80
6. Band: Statistische Forschungsstrategien
S T A T I S C H E S BUNDESAMT
(Hrsg.), Stichproben in der amtlichen Statistik, Wiesba-
den 1960. STEPHAN,
F. F.
UND
P. J.
MCCARTHY,
Sampling Opinions, New York 1958.
H., Zur Methodik der Aufstellung von kurzen praktisch verwendbaren Familiennamenschlüsseln, in: Mitteilungsblatt für mathematische Statistik 1, 1949, S. 167-180. STRECKER, H., Moderne Methoden in der Agrarstatistik, Würzburg 1957. STREBEL,
H., Zur Genauigkeit wirtschaftsstatistischer Größen, in: Metrika 6, 1963, S. 133-142.
STRECKER,
STUART, Α., Basic Ideas of Scientific Sampling, London 1962. K. UND S. KOLLER, Über den Umfang und die Genauigkeit von Stichproben, in: Wirtschaft und Statistik 10, 1958, S. 10-16.
SZAMEITAT,
K. UND Κ. A. S C H X F F E R , Fehlerhaftes Ausgangsmaterial in der Statistik und seine Konsequenzen für die Anwendung des Stichprobenverfahrens, in: Allgemeines Statistisches Archiv 48, 1964a, S. 1 - 22.
SZAMEITAT,
K. UND Κ. A. SCHÄFFER, Kosten und Wirtschaftlichkeit von Stichprobenstatistiken, in: Allgemeines Statistisches Archiv 48, 1964b, S. 123-164.
SZAMEITAT,
O. UND J. TODD, Generations of Pseudo-Random Numbers, in: University of Florida, Symposium on Monte-Carlo Methods, New York 1956.
TAUSSKY,
WENDT, F., Wann wird das Quotenverfahren begraben? , in: Allgemeines Statistisches Archiv 44, 1960, S. 3 5 - 4 0 . YAMANE, T., Elementary Sampling Theory, New York 1967. YATES, F., Sampling Methods for Censuses and Surveys, London 1960. H. J., Uber Faustregeln zur optimalen Schichtung bei Normalverteilung, in: Allgemeines Statistisches Archiv 40, 1956a, S. 168-173.
ZINDLER,
H. J., Über die Genauigkeit von Streuungsschätzungen durch Gruppensummen, in: Mitteilungsblatt für mathematische Statistik 9, 1956b, S. 192201.
ZINDLER,
H. J., Uber einige Aspekte des Demingplanes, in: Mitteilungsblatt für Mathematische Statistik 9, 1957, S. 5 5 - 7 2 .
ZINDLER,
3.
Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis von Jürgen van Koolwijk
3.1
Quotentechnik
Obwohl das Quotenverfahren zu der am heftigsten umstrittenen und in der Praxis zu der am häufigsten verwendeten Auswahltechnik gehört, wird es in den Standardtexten über Auswahlverfahren kaum und in den Lehrbüchern über die Techniken der empirischen Sozialforschung nur beiläufig behandelt (vgl. COCHRAN 1953, S. 1 0 5 ; DEMING 1 9 5 0 , S . 1 1 ; HANSEN, HURWITZ UND MADOW 1 9 5 3 , S . 7 1 ; KISH
1965,
S. 5 6 2 ; GOODE UND HATT 1 9 5 2 , S . 2 3 0 ; MADGE 1 9 5 3 , S . 2 1 2 ; MOSER 1 9 5 8 , S . 1 0 0 ;
SELLTITZ U. A. 1959, S. 516). In dieser Diskrepanz spiegelt sich einerseits die theoretisch begründete Ablehnung der Quotenauswahl durch die akademische Statistik und Sozialforschung, andererseits ihre von der kommerziellen Forschung immer wieder belegte praktische Brauchbarkeit wider. Das allgemeine Unbehagen an dieser theoretisch ebenso wie empirisch offensichtlich nicht entscheidbaren Grundsatzfrage ist das Unbehagen über die Notwendigkeit wissenschaftlicher Kompromisse: Das Quoten verfahr en ist wohl das deutlichste Paradigma eines Kompromisses zwischen Theorie und Praxis der sozialwissenschaftlichen Methodik. Das Ziel und die Vorgehensweise der Quotentechnik wird folgendermaßen beschrieben: "Die Auswahl nach Quoten strebt das gleiche Ziel an wie die Randomauswahl — einen modellgerechten Miniaturquerschnitt zur Befragung auszuwählen —, nimmt aber praktisch den gegensätzlichen Ausgangspunkt. Anstatt von der Grundgesamtheit auszugehen und aus ihren "Elementen" in verschiedenen zufallsgelenkten Schritten die Zielperson für die Stichprobe auszuwählen, beginnt man mit einer Aufstellung der statistischen Proportionen der Grundgesamtheit. An Hand von Daten der amtlichen Statistik oder von bereits durchgeführten Repräsentativerhebungen kommt man beispielsweise zu der Feststellung, daß 54 Prozent der Grundgesamtheit (Bevölkerung der Bundesrepublik Deutschland von 16 Jahren an) Frauen sind und 46 Prozent Männer; daß 28 Prozent unter 30 Jahren, 24 Prozent zwischen 30 und 44 Jahren, 28 Prozent zwischen 45 und 59 Jahren, 20 Prozent 60 Jahre oder älter sind. Weiterhin ist bekannt, wieviel Prozent in Landgemeinden (weniger als 2 000 Einwohner) wohnen, wieviel in Kleinstädten (2 000 bis unter 20 000 Einwohner), wieviel in Mittelstädten (20 000 bis unter 100 000 Einwohner) und wieviel in Großstädten wohnen, wie sie sich auf die verschiedenen Bundesländer und innerhalb der Bundesländer auf die Regierungsbezirke verteilen. Man kennt den Anteil der Berufstätigen
82
6. Band: Statistische
Forschungsstrategien
und Nichtberufstätigen und weiß auch, wieviel den verschiedenen Berufsgruppen (Arbeiter, Landarbeiter, Angestellte, Beamte, Landwirte, selbständige Geschäftsleute, freie Berufe) angehören. Da der modellgerechte Miniaturquerschnitt die gleichen Proportionen besitzen soll, arbeitet man für jeden Interviewer, der an der Umfrage beteiligt ist, eine "Quote" aus: wieviel Männer und Frauen er befragen soll, wieviel Angehörige der verschiedenen Altersgruppen, wieviel Berufstätige, wieviel Personen aus den verschiedenen Berufsgruppen und wieviel nichtberufstätige Angehörige in den verschiedenen Berufskreisen. Werden diese ausgearbeiteten Quoten zusammengesetzt, so ergibt sich in allen diesen statistischen Proportionen das Bild der Grundgesamtheit. Die richtige Verteilung auf Ortsgrößen, Länder oder Regierungsbezirke stellt sich in der Regel aus der Zahl der Aufträge an die Interviewer in den verschiedenen Gebieten und in den verschiedenen Ortsgrößen her" ( N O E L L E 1 9 6 3 , S . 1 2 3 ) . Jeder Interviewer bekommt einen individuellen "Quotenbogen", aus dem ersichtlich ist, welche Personen in seine Quoten fallen. In Darstellung 1 ist ein solcher Quotenbogen wiedergegeben. Die Auswahlpersonen sind also durch ihre Quoten definiert und nicht durch Namen und Adresse wie bei der Zufallsauswahl. Wer immer in die vorgegebene Quote fällt, ist als Auswahlperson geeignet. Darüber hinaus sind die Quotenangaben nur teilweise kombiniert: der auszuwählende Angestellte in Darstellung 1 muß zwar männlich sein, er kann aber sowohl zwischen 16 und 17, als auch zwischen 30 und 44 oder zwischen 45 und 59 Jahre alt sein. Auch hier hat der Interviewer also Ausweichmöglichkeiten. Zu Beginn der Feldarbeit hat der Interviewer noch alle Kombinationsmöglichkeiten zur Auswahl. Mit jedem durchgeführten Interview wird aber sein Auswahlspielraum eingeengt. Die Quote der letzten Auswahlperson ist völlig determiniert.
3.2
Theoretische Kontroversen
Das Quotenverfahren ist eine bewußte Auswahl. Sie läßt individuelle Präferenzen des Interviewers zum Zuge kommen, die zu systematischen Auswahlfehlern führen können. Über diesen Nachteil ist es zu einer umfangreichen Kontroverse über den Wert und den Nutzen des Verfahrens gekommen, die zwar eine Klärung der theoretischen Probleme herbeigeführt hat, aber kaum praktische Konsequenzen hatte. In der kommerziellen Forschung ist das Quotenverfahren heute nach wie vor dominierend, in der akademischen Forschung wird es nach wie vor abgelehnt. Trotz der mit "Vorurteilen" (NOELLE 1 9 6 3 , S. 1 3 9 ) belasteten und durch "Interessenstandpunkte" (SCHEUCH 1 9 6 2 ) gefärbten Situation sind sich Gegner und Befürworter über den Stellenwert des Quotenverfahrens allerdings weitgehend einig. Einig ist man sich vor allem darin, daß die Fehlertheorie der Zufallsauswahl auf das Quotenverfahren nicht anwendbar ist ( M E I E R , BURKE UND BANKS 1 9 4 8 ; NOELLE 1 9 6 3 , S. 1 3 9 ; TENNSTÄDT 1 9 5 2 ) , daß aber die Feststellung der empirischen Variabilität von Quotenstichproben statistisch sinnvoll ist ( CANTRIL 1 9 4 5 ; MOSER UND STUART 1953;
MOSTELLER U.A. 1 9 4 9 , S . 1 0 9 ; STEPHAN UND MCCARTHY 1 9 5 8 , S . 2 1 1 ) .
Allgemein anerkannt ist auch, daß Erhebungen mit Quotenstichproben erheblich schneller durchzuführen sind als mit Zufallsstichproben (JETTER 1 9 5 2 ; MOSER
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis
83
QUOTENANWEISUNG Name des Interviewers: Paul Roscher Wohnort: Neumarkt
Umfrage 2672
Insgesamt 7 Interviews im Wohnort
Fragebogen Nr.: 7 4 1 - 7 4 7
in: . Orte — 2 000 Einwohner 2 - 20 000 Einwohner 20 - 100 000 Einwohner Uber 100 000 Einwohner
1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 ·
9
12 13 1 4
15
10 11 12 13 1 4
15
1 2 3 4 5 6 7 8 9 10 11 12 13 1 4 15 1 2 3 4 5 6 7 8 9 10 11 12 13 1 4
ALTERSGRUPPEN: 1 6 - 17 Jahre 1 8 - 2 9 Jahre 30 - 44 Jahre 45 - 59 Jahre 60 Jahre und älter
15
3 männlich
4 weiblich
4 5 6 1 · 3 1 2 3 4 5 6
1 2 3 4 5 6
1
· 3 4 5 6 · 3 4 5 6
1 · 3 4 5 6 1 2 • 4 5 6
1 1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6 1 2 3 4 5 6
4 5 6 1 · 3 1 2 3 4 5 6
· 3 4 5 6 · 3 4 5 6
1 · 3 4 5 6 1 2 3 4 5 6
1
· 3 4 5 6
Berufstätig als: Landwirte (auch Gartenbau) Mithelfende Familienangehörige in der Landwirtschaft (auch Gartenbau) Landarbeiter Arbeiter Angestellte Beamte Selbständige in Handel und Gewerbe (Kaufleute, Handwerker usw.) Freie Berufe Nichtberußtätige Möglichst ' früherer Beruf oder Beruf des Ehemannes, -< Ernährers, Haushaltsvorstandes t
(Rentner, Hausfrauen usw.) Landwirte (auch Gartenbau) Landarbeiter (auch Gartenbau) Arbeiter Angestellte Beamte Selbständige Freie Berufe
1
1 1 2 3 4 5 6
1 2 3 4 5 6
1 · 3 4 5 6 1 2 3 4 5 6
1 2 3 4 5 6 1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6 1 2 3 4 5 6
1 · 3 4 5 6 1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1
· 3 4 5 6
Anmerkung: Gültig sind die Zahlen vor jedem Stempel. Ist zum Beispiel in der Zeile (Arbeiter, männlich), die Zahl 2 gestempelt, so ist in diesem Falle ein Arbeiter zu interviewen. Im übrigen streichen Sie die zutreffenden Angaben der Statistik nach jedem Interview bitte ab, damit Sie gleich übersehen können, wieviel Interviews in der betreffenden Kategorie noch weiterhin durchzuführen sind. Darstellung 1: Beispiel eines Quotenbogens (Quelle: NOELLE 1963, S. 133).
84
6. Band: Statistische Forschungsstrategien
1 9 5 8 , S . 1 0 6 ; SCHEUCH 1 9 5 6 , S . 9 8 ; SUDMAN 1 9 6 7 , S . 8 ) . In einem Zeitvergleich stellte SUDMAN ( 1 9 6 7 , S . 1 9 0 ) fest, daß Quotenerhebungen im Durchschnitt nur 40% der Zeit benötigen, die für Zufallsauswahlen aufgewendet werden muß.
In der Regel sind Quotenstichproben auch billiger als Zufallsauswahlen
(MOSER
1952;
NOELLE 1 9 6 3 , S . 1 4 9 ; SCHEUCH 1 9 5 6 , S . 9 8 ; STEPHAN UND M C C A R T H Y 1 9 5 8 , S . 1 8 8 ) ,
wobei die geschätzten Kostenvorteile von 2 5 Prozent (SCHEUCH 1 9 6 2 ) bis 1 0 0 Prozent ( J E T T E R 1 9 5 2 ) gegenüber der Zufallsauswahl einerseits von der Komplexität der Quotierungsvorgaben und andererseits von der Bewertung möglicher Qualitätsunterschiede abhängen (DEMING 1 9 5 0 , S . 1 2 ) . Daß Quotenstichproben ebenso wie Zufallsstichproben mit Verzerrungen durch Ausfälle und Verweigerungen zu rechnen haben, wurde bereits frühzeitig erkannt und die Abweichungen von den Populationswerten ermittelt ( C A N T R I L 1 9 4 4 , S. 1 1 9 ; VON FRIEDENBURG
1952;
JETTER 1 9 5 2 ;
MOSER UND STUART 1 9 5 3 ; SCHEELE
1955,
S. 7 3 ; SCHEUCH 1 9 5 6 , S . 9 8 ; STEPHAN UND M C C A R T H Y 1 9 5 8 , S . 2 9 2 ) . Stephan und McCarthy berechneten, daß von 100 Kontaktversuchen nur 53 zu erfolgreichen Interviews führen. Eine ungefähr gleich große Erfolgsquote wird von Scheele berichtet. Die Verweigerungsrate schwankte bei verschiedenen Untersuchungen zwischen 8 Prozent und 17 Prozent (-» Bd. IV: Esser, Der Befragte 4.3.2). Von Gegnern des Quotenverfahrens wird heute weitgehend anerkannt, daß diese Auswähltechnik in der Praxis zu zufriedenstellenden Ergebnissen führt ( K E L L E R E R 1 9 6 3 , S . 1 9 6 ; KISH 1 9 6 5 , S . 5 6 4 ; SCHEUCH 1 9 6 2 ) und bei vielen Untersuchungen die einzige Möglichkeit darstellt, Informationen über den Untersuchungsgegenstand zu ermitteln ( K E L L E R E R 1 9 5 2 ; SCHEUCH 1 9 6 7 ; WENDT 1 9 6 0 ) . Von den Befürwortern wird dagegen zugegeben, daß die Kontrollmöglichkeiten beim Quotensample erheblich reduziert sind ( N O E L L E 1 9 6 3 , S . 1 4 8 ) . Hierin dürfte auch der wesentliche Nachteil des Quotenverfahrens liegen, denn die in die Zufallsauswahl automatisch eingebaute Fehleranalyse (MOSTELLER U . A . 1 9 4 9 , S . 1 1 8 ; SCHEUCH 1 9 5 6 , S . 1 2 3 ) ermöglicht die Ermittlung von Verzerrungen erheblich besser, als es beim Quotenverfahren der Fall ist. Die Grundlagen des Quotenverfahrens als bewußter Auswahl, ihre statistische Bedeutung und ihre Abgrenzung zu anderen Formen der Teilerhebung wurden bereits diskutiert, bevor die Marktforschung diese Technik als übliche Erhebungsform übernahm (BOWLEY 1926; JENSEN 1928; NEYMAN 1934). Allerdings spielte die bewußte Auswahl als ernsthafte Erhebungstechnik nur eine Rolle im Zusammenhang mit der Auswahl von Erhebungsklumpen, so daß die klassischen Argumente, die damals formuliert wurden und auch heute noch wesentlich die statistische Diskussion bestimmen (KELLERER 1963, S. 197; SCHEUCH 1962; WENDT 1960),
nur ζ. T. auf die heutigen Formen der Quotenauswahl zutreffen. Unabhängig von dieser Diskussion wurde die Praxis des Quotenverfahrens zu Beginn der dreißiger Jahre von Cherington, Crossley, Gallup und Roper entwickelt (PARTEN 1950, S. 25; ROBINSON 1 9 3 7 a , 1 9 3 7 b ; R O P E R 1 9 4 0 ; STEPHAN UND M C C A R T H Y 1 9 5 8 , s . 3 7 ) u n d
der Öffentlichkeit vor allem durch das Literary Digest Fiasko bei der Wahlvorhersage des Jahres 1936 bekannt (CROSSLEY 1937; KATZ UND CANTRIL 1937). Auch die akademischen Institute übernahmen damals das Quotensample (CANTRIL 1944, S. VII; CANTRIL U. A. 1940). Insbesondere die Wahlvorhersagen fur die Präsidentschaftswahlen waren für kommerzielle und akademische Institute Anlaß, die Genauigkeit und die Mängel dieser Auswahlform z u p r ü f e n (BENSON 1 9 4 1 ; CANTRIL U . A . 1 9 4 0 ; CROSSLEY 1 9 4 1 ; K A T Z 1 9 4 1 ; ROPER
1941). In den ausgehenden vierziger Jahren war das Quotenverfahren in seiner klassischen Form als allgemein akzeptierte Auswahltechnik etabliert (BLANKENSHIP 1946; CANTRIL
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis
85
1 9 4 4 ; CANTRIL U.A. 1 9 4 0 ; GALLUP 1 9 4 8 ; MEIER UND SAUNDERS 1 9 4 9 ; NORC 1 9 4 5 ; PARTEN 1 9 5 0 ) .
Durch die Übernahme von Elementen der Gebietsauswahl, die damals in den USA entwickelt wurde, wurde diese einfache Form des Quotenverfahrens bereits in den pre-election polls von 1 9 4 4 (BENSON, YOUNG UND SYZE 1 9 4 5 ; K A T Z 1 9 4 4 ) u n d in d e n f o l g e n d e n J a h r e n weit e r e n t w i c k e l t (HOCHSTIM UND SMITH 1 9 4 8 ; K A T Z 1 9 4 9 ; MOSTELLER U . A . 1 9 4 9 , S . 9 3 ;
STOCK UND HOCHSTIM 1948). Pinpoint sampling, precinct sampling, block sampling, domai sampling und andere Mischformen zwischen Quotenauswahlen und Gebietsauswahlen, bei denen das Schwergewicht auf der regionalen Steuerung der Auswahl liegt, fanden dann nach 1948 als Folge der Analysen der Fehlprognosen zur Präsidentschaftswahl (KATZ 1949; MEIER UND SAUNDERS 1 9 4 9 ; MOSTELLER U.A. 1 9 4 9 ; PARTEN
1950) bei kommerziel-
len und akademischen Instituten weite Verbreitung (PERRY 1960; SUDMAN 1967, S. 6), sofern man nicht gänzlich auf das Quotenverfahren verzichtete. So wenig auch diese veredelten Quotenverfahren dem Ideal des statistischen Urnenmodells entsprechen (MOSER 1958, S. 108), in der Praxis kommen sie den Wahrscheinlichkeitsauswahlen nicht nur im Forschungsaufwand, sondern auch hinsichtlich der Genauigkeit der Ergebnisse und der Art der systematischen Fehler nahe. Neben diesen spezifischen Formen der Quotenauswahl werden auch weiterhin, vor allem in Europa, die klassischen Quotenverfahren verwendet, so daß man heute von dem Quotenverfahren kaum sprechen kann (SCHMIDTCHEN 1 9 6 1 , S. 6 ; KISH 1 9 6 5 , S. 5 6 2 ) .
Besteht über die statistisch-theoretischen Kontroversen zwischen Befürwortern und Gegner des Quotenverfahrens heute weitgehend Einigung, so hat sich die Diskussion in den letzten Jahren auf die Explizierung der empirischen Probleme des Quotenverfahrens verlagert. Bereits in dem berühmten Experiment von MOSER UND STUART ( 1 9 5 3 ) und in den Untersuchungen von STEPHAN UND MCCARTHY ( 1 9 5 8 ) wird das Quotenverfahren als sozialwissenschaftliches Artefakt gekennzeichnet, das wie Interview, Beobachtung oder Experiment sozialen Einflüssen unterworfen ist, die in der Praxis als Meßfehler analysiert und kontrolliert werden können; eine Konzeption, die auch von der kommerziellen Forschung übernommen wurde.
3.3
Theorie der Quoten
Die theoretische Begründung der Quotenauswahl und die darauf aufbauende Konzeption der Quotenpraxis ist bei Theoretikern und Praktikern des Quotenverfahrens nicht einheitlich. Im wesentlichen lassen sich in der Literatur drei Erklärungsschemata für die Bestimmung der Quoten finden, die freilich meist nur angedeutet, in der Regel miteinander vermischt und in allen Fällen theoretisch nur ungenügend abgesichert werden. Bei den Praktikern der Marktforschung überwiegt die Meinung, daß durch die Quotenvorgabe eine empirisch abgesicherte Zufallssteuerung approximiert wird, die dem Interviewer eine Zufallsauswahl unter den von ihm angesprochenen Zielpersonen aufzwingt (GALLUP 1 9 4 8 , S . 3 4 ; NOELLE 1 9 6 3 , S . 1 3 2 ; SCHMIDTCHEN 1 9 6 1 , S. 3 8 ; TENNSTÄDT 1 9 5 2 ; WILLIAMS 1 9 4 2 ) . Werde der Ermessensspielraum nur genügend eingeengt, ergäbe sich die Ausschaltung der subjektiven Selektion durch den Interviewer automatisch. Tatsächlich dürfte dieser Zufallsmechanismus zumindest teilweise dann erreicht werden, wenn die geographischen Kontrollen derart spezifiziert sind, daß der Interviewer in seiner Auswahl wesentlich eingeschränkt
86
6. Band: Statistische
Forschungsstrategien
wird. Eine solche Steuerung wird ζ. B. bei den modernen Mischformen zwischen Gebietsauswahl und Quotenauswahl angestrebt. Selbst bei einer rigorosen Interviewersteuerung durch regionale Kontrollen ist eine Zufallsstreuung allerdings dann nicht erreicht, wenn die Zielpersonen in Gruppen unterschiedlicher Erreichbarkeit fallen. Ist die Erreichbarkeitsquote bekannt oder läßt sie sich durch Befragung ermitteln, so kann die Verzerrung durch die Quotenvorgabe oder durch statistische Manipulationen teilweise ausgeglichen werden. Allerdings ist eine derart rigorose regionale Steuerung der Interviewer für die übliche Form der Quotenauswahl, zumal in Europa, nicht typisch. Je größer aber die Zahl quotengleicher, d. h. substituierbarer Zielpersonen ist, desto stärker kann der Auswahleffekt des Interviewers wirksam werden, so daß das Postulat der empirisch gesteuerten Zufallsauswahl fur den Regelfall der Quotenstichprobe unhaltbar ist. Eine zweite Begründung der Quoten verweist auf den homogenisierenden Schichtungseffekt der Quotenvorgabe und setzt das Quotenverfahren empirisch der geschichteten Zufallsstichprobe gleich ( K A T Z UND CANTRIL 1937; MEIER UND BURKE 1947; ROBINSON 1937a; PARTEN 1950, S. 272; ROPER 1940und-* Bd. VI: Sturm und Vajna, Zufallsstichproben 2.3.2). Wird innerhalb der durch die Quoten gebildeten Schichten tatsächlich eine zufällige Auswahl getroffen, so handelt es sich ohne Zweifel um eine geschichtete Randomstichprobe. Da aber eine solche Zufallsauswahl nicht gesichert werden kann, muß die Stratifizierung entweder so weit fortgesetzt werden, daß praktisch eine völlig homogene Schicht entsteht, aus der dann nur noch eine Einheit ausgewählt werden muß, oder man muß postulieren, daß die Homogenisierung der nicht-quotierten Merkmale denen der quotierten Merkmale automatisch folgt. Während die erste Vorgehensweise aus praktischen Gründen nicht durchführbar ist, läßt sich die zweite Annahme nie generell beweisen, falls nicht vorausgesetzt wird, daß zwischen quotierten und nicht-quotierten Merkmalen eine Korrelation besteht. Auf diesem Korrelationspostulat baut schließlich die dritte Begründung für die Quotierung auf, die von Statistikern und Sozialforschern am häufigsten vorgetragen wird (ANDERSON 1 9 5 2 ; KELLERER 1 9 6 3 , S . 1 9 7 ; KISH 1 9 6 5 , S . 5 6 3 ; SCHEUCH 1 9 5 6 , S . 1 0 2 ; SCHEUCH 1 9 6 2 ; WENDT 1 9 6 0 ) . Je höher die Korrelation zwischen den Quotenmerkmalen und dem nicht-quotierten Merkmal und je geringer die Korrelation der Quotenmerkmale untereinander ist, desto genauer wird das nicht-quotierte Merkmal wiedergegeben, obwohl erst eine deterministisch-funktionale Beziehung eine exakte Schätzung ermöglicht. Zur Begründung für die BestimmOiig der Quoten in der Praxis kann dieses Argument allerdings kaum herangezogen werden. Einerseits werden die Quotenmerkmale nicht (janach ausgesucht, wie stark sie mit den Erhebungsmerkmalen korrelieren. Andererseits sind in der Praxis diese Korrelationen zwar häufig vorhanden, in der Regel aber so gering, daß sie kaum eine sinnvolle Basis für die Quotenbegründung oder gar für eine ernsthafte Fehlerberechnung abgeben können. So mag zwar das Korrelationspostulat auf der ökologischen Ebene, für die es ursprünglich entwicktelt wurde, sinnvoll sein, auf der individuellen Ebene ist es wenig brauchbar. Da keine der drei Erklärungen allein, noch auch ihre Kombination eine theoretisch befriedigende Begründung für die Bestimmung der Quoten liefert, müssen die Quotierungsregeln im wesentlichen als das Produkt aus Tradition und einer an den Erfordernissen der Praxis orientierten Vorstellung von der Genauigkeit der Ergebnisse so-
3. Kapitel:
Das Quotenverfahren:
Paradigma sozialwissenschaftlicher
Auswahlpraxis
87
zialwissenschaftlicher Untersuchung gelten. Die mit dem Beginn der Umfrageforschung entdeckte Tatsache, daß Verhalten — und hier vor allem politisch-ökonomisches Verhalten - durch die Zugehörigkeit zu demographisch leicht erfaßbaren Subgruppen der Bevölkerung sehr weitgehend determiniert wird, sowie die Vorstellung von einer adäquaten Repräsentanz dieser Subgruppen in der Stichprobe mag der historische Grund fur die aktuelle Ausformung des Quotenverfahrens gewesen sein. Durch die Erfolge der Wahlvorhersagen in den Jahren 1936 bis 1944, die diese Konzeption zu bestätigen schienen, wurde die theoretische Reflexion weitgehend durch pragmatische Gesichtspunkte verdrängt. Die bei Quotenstichproben immer wieder festgestellte Tatsache, daß sich wesentliche Verzerrungen strategischer Merkmale nur geringfügig auf Verzerrungen bei anderen Merkmalen auswirken (MOSER UND STUART 1 9 5 3 ; SCHEELE 1 9 5 5 , S . 1 7 2 ; STEPHAN UND MCCARTHY 1 9 5 8 , S . 1 6 6 ) , b e -
stärkt den Verdacht, daß die Vorgabe von Individualquoten eine wesentlich geringere Rolle für die Genauigkeit der Ergebnisse spielt, als von Gegnern und Befürwortern angenommen wird. Dies dürfte auch der Grund dafür sein, daß bei den modernen Formen der Quotenauswahl die Individualquotierung zugunsten einer verstärkten Regionalquotierung vernachlässigt wird. Jenseits der theoretischen Diskussion über die Begründung der Quoten ist die Praxis der Quotenbestimmung weitgehend durch technische Gesichtspunkte fixiert. Bei Repräsentativuntersuchungen sollen als Quotenvorgaben nur Merkmale verwendet werden, für die amtliche Unterlagen vorliegen. Die Quotenmerkmale sollen objektiv sein, damit dem Interviewer bei der Auswahl kein Interpretationsspielraum bleibt, nach Möglichkeit leicht sichtbar oder erfragbar und in Schwierigkeit und Komplexität so ausbalanciert sein, daß dem Interviewer die Auswahl nicht allzu leicht fällt, er andererseits aber auch nicht zum quota fitting gedrängt wird. Schließlich sollen die Quotenmerkmale mit den Variablen des Untersuchungsgegenstandes korrelieren. Begrenzt durch diese restriktiven Bedingungen hat sich bei allen Instituten, die mit dem Quotenverfahren arbeiten, im Laufe der Zeit ein relativ konstanter Satz von individuellen und geographischen Quotenmerkmalen herausgebildet. Üblicherweise werden als Individualquoten die Merkmale Geschlecht, Alter und ein Indikator für sozio-ökonomischen Status vorgegeben, der meist als Schicht oder in Form einer Berufsklassiflkation bzw. einer Einkommensklassifikation definiert ist. In den USA wird verschiedentlich auch die Wohnungsmiete als Schichtindikator verwendet (PARTEN 1 9 5 0 , S. 3 9 7 ) .
Als subjektiv interpretierbares und damit der willkürlichen Abgrenzung des Interviewers unterworfenes Merkmal, für das überdies keine amtlichen Gesamtstatistiken vorliegen, wird das Merkmal Schicht häufig als unzuverlässige Quotenvorgabe abgelehnt (MOSER 1 9 5 2 ; MOSER 1 9 5 8 , S. 1 0 2 ; MOSTELLER U.A. 1 9 4 9 , S. 1 0 4 ; SCHEELE 1 9 5 5 , S. 8 6 ; STEPHAN UND MCCARTHY 1 9 5 8 , S. 1 7 6 ) . Schmidtchen sieht sogar in der Vorgabe dieses Merkmals eine wesentliche Ursache für die Unzuverlässigkeit von Quotenauswahlen (SCHMIDTCHEN 1 9 6 1 , S. 9 ) . Neben diese drei bei allen Instituten verwendeten Merkmale treten je nach Qualitätsanspruch und Thema der Untersuchung oder je nach Tradition und Erfahrung der Institute weitere individuelle Quotenvorgaben, ζ. B. Konfession, Familiengröße, Kinderzahl, Nationalität oder Hautfarbe. Einige Institute schreiben auch Quoten für die Befragungszeit (vormittags, nachmittags oder abends) und den Befragungsort (zuhause, auf der Straße oder an der Arbeitsstelle) vor (MOSER 1952).
88
6. Band: Statistische Forschungsstrategien
Darüber hinaus werden den Interviewern in der Regel zusätzliche qualitative Hinweise fúr die Verteilung der Interviews gegeben, bei denen eine 'gute'Verteilung oder eine 'angemessene' Repräsentativität erwartet wird (MOSER 1 9 5 2 ; MOSTELLER U. A. 1 9 4 9 , S . 9 0 ; NORC 1 9 4 5 ; SCHMIDTCHEN 1 9 6 1 , S . 4 0 ; STEPHAN UND MCCARTHY 1 9 5 8 , S . 1 6 2 ; WILLIAMS
1942).
Im Rahmen der Vorgaben von Individualquoten werden in der Literatur zwei Probleme diskutiert. Sowohl die theoretische Statistik als auch empirische Untersuchungen haben versucht, den Gewinn an Genauigkeit zu ermitteln, der durch zusätzliche Quotenvorgaben erzielt wird. Statistisch hängt der Gewinn an Genauigkeit von der Stärke der Korrelation des zusätzlichen Quotenmerkmals mit dem Erhebungsmerkmal und den anderen Quotenmerkmalen ab(WENDT 1960). Bei einer empirischen Überprüfung mit Hilfe einer experimentellen Versuchsanordnung, bei der zu den drei herkömmlichen Quotenmerkmalen Geschlecht, Alter und Schicht einerseits eine Berufsgruppenquote und andererseits eine grobe geographische Aufteilung vorgegeben wurde, zeigte sich kein wesentlicher Genauigkeitsgewinn (MOSER UND STUART 1953). In der Praxis stoßen zusätzliche Quotenvorgaben zudem schnell auf eine Grenze, die durch die Zuverlässigkeit der Interviewer und die zur Verfügung stehenden Mittel gebildet wird, weshalb eine Vorgabe von drei individuellen Quotenmerkmalen üblich, eine Vorgabe von mehr als vier individuellen Quotenmerkmalen ungewöhnlich ist. Sehr viel häufiger als über die Zahl der Quotenvorgaben wird in der Literatur über die Frage diskutiert, in welchem Ausmaß eine Kombination der Quotenmerkmale vorgenommen werden soll. Theoretisch befriedigender ist ohne Zweifel eine vollständige Kombination der Quoten. Da die Zellhäufigkeiten einer Tabelle bekanntlich nicht durch die Randsummen determiniert sind, garantiert erst eine vollständige Kombination die angemessene Repräsentation auch der Untergruppen. Andererseits wachsen aber mit der Zahl der Kombinationen auch die Schwierigkeiten für den Interviewer, so daß man in der Praxis seit langem zu einer teilweisen Kombination der Quotenmerkmale übergegangen ist. Für die Frage nach der Verbesserung der Genauigkeit von Quotenumfragen scheint aber die Entscheidung zwischen kombinierten und nicht-kombinierten Quotenmerkmalen nach dem vorliegenden empirischen Material kaum von wesentlicher Bedeutung zu sein. Selbst wenn bei der vollständigen Tabulierung nicht-kombinierter Quotenvorgaben starke und bei der Tabulierung halbkombinierter Quotenvorgaben weniger starke Abweichungen von der erwarteten Verteilung auftraten (SCHEELE 1 9 5 5 , S . 1 4 6 ; SCHMIDTCHEN 1 9 6 1 , S . 2 8 ; STEPHAN UND MCCARTHY
1 9 5 8 , S. 166),
so wirkten sie sich nur partiell, nicht aber generell auf die Gesamtergebnisse aus (MOSER UND STUART 1 9 5 3 ; SCHEELE 1 9 5 5 , S . 1 7 2 ;
STEPHAN UND MCCARTHY
1 9 5 8 , S. 1 8 5 ) .
Während bei der Individualquotierung seit den Anfängen der Quotenauswahl kaum grundlegende Änderungen eingeführt wurden, hat die Technik der geographischen Quotierung insbesondere in den USA nach 1948 durch die Übernahme von Elementen der Gebietsauswahl einen erheblichen Wandlungsprozeß durchgemacht. Aus der Planung überregionaler Erhebungen ergibt sich ohnehin auch bei der klassischen Form der Quotenauswahl zwangsläufig ein Regionalisierungseffekt, der automatisch als Quotenkontrolle wirkt. Üblicherweise werden diese geographischen Quoten durch administrative Grenzen gebildet, z. B. durch Bundesländer, Regierungsbezirke oder Wahlkreise, bzw. durch die Vorgabe von Ortsgrößenklassen bestimmt.
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis
89
Da für diese administrativen Einheiten meist gute Statistiken vorliegen und die Institute ihren Interviewerstab in der Regel bereits nach solchen geographischen Gesichtspunkten aufbauen, läßt sich bereits vor der Feldarbeit eine gute regionale Streuung der Befragungspunkte erreichen, die für den Interviewer kaum eine merkliche Einschränkung darstellt. Da überdies durch die regionale Quotierung der soziale Kontext erfaßt wird, der wiederum nicht nur mit einer Reihe von Quotenmerkmalen korreliert, sondern zugleich auch zur Homogenisierung von Meinungen, Einstellungen und Verhalten beiträgt, ist es verständlich, daß diese Form der Quotierung seit Beginn der Quotenmethode eine besondere Rolle gespielt hat. Bereits in den pre-election polls von 1944 und 1948 wurden unter dem Einfluß der damals entwickelten Methode der Gebietsauswahl zusätzliche, weitergehende geographische Kontrollen vorgeschlagen und ζ. T. durchgeführt (BENSON, YOUNG UND SYZE 1 9 4 5 ; GALLUP 1 9 4 8 , S. 3 1 ; MOSTELLER U.A. 1 9 4 9 , S. 9 3 ) . So werden beim precinct sampling und beim pinpoint sampling Wahlbezirke bzw. andere geographische Einheiten nach demographischen, ökonomischen und politischen Gesichtspunkten geschichtet und durch bewußte oder gegebenenfalls zufällige Auswahl als Befragungseinheiten bestimmt. Innerhalb dieser Gebiete muß der Interviewer dann seine Zielpersonen nach den üblichen Individualquoten auswählen. Eine weitere Einschränkung erfolgt durch die Bestimmung von Blocks (block sampling) und schließlich von Haushalten (domai sampling) innerhalb der vorgegebenen geographischen Einheiten (HOCHSTIM UND SMITH 1 9 4 8 ; STOCK UND HOCHSTIM 1 9 4 8 ) . Als Befragungshaushalt wird dann jeder k-te Haushalt bestimmt und innerhalb dièses Haushaltes eine einfache Geschlechts- und Altersquote vorgegeben, die die Substitutionsmöglichkeiten erleichtern und Wiederholungsbesuche unnötig machen soll. Dieser der Gebietsauswahl sehr nahestehende Quotentyp scheint heute in den USA bei kommerziellen und akademischen Instituten verbreitet zu sein (PERRY 1960; SUDMAN 1967, S. 7). Empirisch überprüfte Tests über die Genauigkeit dieses Quotentyps liegen allerdings nur spärlich vor, deuten aber darauf hin, daß die Differenzen zur reinen G e b i e t s a u s w a h l n u r gering sind (HOCHSTIM UND SMITH 1 9 4 8 ; SUDMAN 1 9 6 7 ,
S.
31).
3.4
Interviewer und Befragter im Quotensample
Als schwächstes Glied im Forschungsprozeß der Quotenerhebung gilt allgemein der Interviewer. So gering auch die Zahl der empirischen Untersuchungen über das Verhalten des Interviewers bei der Befragtenauswahl ist, kaum ein Autor vergißt einen Hinweis auf die durch mögliche subjektive Einflüsse des Interviewers hervorgerufenen Verzerrungen. Bei den Gegnern der Quotenauswahl dienen diese Verzerrungsmöglichkeiten als der wesentliche Grund für die Ablehnung dieser Erhebungsform, während die Befürworter in der Interviewerüberwachung die bedeutendste Einzelmaßnahme im Prozeß der Forschungskontrolle sehen (->· Bd. IV: Erbslöh und Wiendieck. Der Interviewer). Die Gegner der Quotenauswahl haben nun im Laufe der methodischen Diskussion eine Fülle kasuistischer Fehlermöglichkeiten zusammengetragen, die dann von den Verteidigern dieser Erhebungsform mit gleichfalls kasuistisch vorgetragenen empirischen Gegenbeweisen z. T. widerlegt wurden.
90
6. Band:
Statistische
Forschungsstrategien
Im wesentlichen lassen sich die in der Literatur genannten Interviewerfehler in zwei breite Gruppen aufteilen. Der erste Typ von Verzerrungen resultiert aus der Oberflächlichkeit, Ungenauigkeit und bewußten Verfälschung durch den Interviewer, der sich die Interviewarbeit möglichst leicht machen will. In diese Gruppe gehört das Fälschen des Interviews (MOSER 1 9 5 2 ) ebenso wie das quota fitting (KELLERER 1 9 6 3 , S. 1 9 5 ; MOSER UND STUART 1 9 5 3 ) . Beides ist im Quotenverfahren leicht möglich, da wegen der Wahrung der Anonymität nur ungern der Name des Befragten notiert wird ( G A L L U P 1 9 4 8 , S. 6 2 ; NOELLE 1 9 6 3 , S. 1 4 8 ) . Zu Verzerrungen können auch alle Manipulationen des Interviewers führen, Schwierigkeiten bei der Auswahl der Befragten zu vermeiden. Hierzu zählt die Auswahl überwiegend bereitwilliger Personen und die Auswahl von Befragungspersonen, die durch ihren Beruf leicht erkennbar, durch spezifische Merkmale hervorgehoben oder durch andere Umstände leicht zu klassifizieren und zu erreichen sind. Die empirischen Ergebnisse reichen aber für eine Bestätigung oder Ablehnung dieser Annahmen nicht aus (SCHEELE 1 9 5 5 , S . 1 2 0 ; SCHMIDTCHEN 1 9 6 1 , S . 1 5 u n d S . 4 1 ) .
Ebenfalls zu Verzerrungen kann der Aufbau eines 'Befragtenstammes' führen, der in sukzessiven Befragungen immer wieder herangezogen wird. Die Marktforschungsinstitute pflegen hier bestimmte Zeiten vorzugeben, in denen ein Befragter nicht zum zweiten Mal befragt werden darf (GALLUP 1 9 4 8 , S . 6 1 ; NORC 1 9 4 5 ; MOSER 1 9 5 2 ; NOELLE 1 9 6 3 , S . 1 8 5 ) . HOCHSTIM UND SMITH ( 1 9 4 8 ) berichten von einer höheren Wiederbefragungsrate bei Quoteninterviews. Andererseits ist die Interviewerfluktuation bei kommerziellen Instituten meist sehr groß ( N O E L L E 1 9 6 3 , S . 1 7 7 ; SCHEUCH 1 9 5 6 , S . 1 1 4 ) , so daß ein möglicher Paneleffekt verringert wird. Der zweite Fehlertyp entsteht durch unbewußte und dem Interviewer selbst unbekannte Effekte bei der Auswahl der Zielpersonen. Hier ist das empirische Material noch wesentlich geringer als bei der ersten Fehlergruppe. PARTEN ( 1 9 5 0 , S. 4 0 7 ) berichtet, daß Interviewer dazu neigen, Befragte aus der gleichen sozialen Schicht auszuwählen, der sie selbst angehören. Auch die von verschiedenen Autoren berichtete Korrelation zwischen Interviewermeinung und Befragtenmeinung dürfte zu einem Teil der Interviewerselektion zuzuschreiben sein (CANTRIL 1 9 4 4 , S. 1 0 7 ; KATZ 1 9 4 2 , 1 9 4 4 ) . Schmidtchen stellte fest, daß Interviewer bei Einthemenumfragen die Tendenz haben, überproportional kompetente Befragte auszuwählen (SCHMIDTCHEN 1961, S. 46), obwohl eine solche Wirkung auch durch den Einfluß des Fragebogens selbst hervorgerufen worden sein könnte. Entsprechend der Vielzahl möglicher Fehler und der mangelnden Kenntnis der tatsächlich auftretenden Verzerrungsfaktoren beschränken sich die Kontrollen eher auf globale Maßnahmen der Interviewersteuerung. Auswahl und Schulung der Interviewer ( G A L L U P 1 9 4 8 , S. 5 6 ; NOELLE 1 9 6 3 , S. 1 6 4 ) , Quotenzuweisung und zusätzliche Einschränkungen (SCHMIDTCHEN 1 9 6 1 , S . 4 2 ) , laufende Kontrolle der Arbeit ( G A L L U P 1 9 4 8 , S. 5 7 ; NOELLE 1 9 6 3 , S. 1 9 5 ) , zentrale Steuerung des Interviewernetzes (SCHMIDTCHEN 1 9 6 1 , S . 5 7 ) , die Zahl der Aufträge pro Interviewer (SCHMIDTCHEN 1 9 6 1 , S. 8 3 ) , besondere Anreizsysteme (SCHMIDTCHEN 1 9 6 1 , S. 5 5 ) und die Art der Bezahlung ( S U D M A N 1 9 6 7 , S. 8 9 ) sind die wesentlichen Mechanismen, die eine Verzerrung der Auswahl verhindern sollen. Wird der Auswahleffekt des Interviewers durch die Verwendung strenger geographischer K o n t r o l l q u o t e n verringert o d e r sogar ausgeschaltet, so verlagert sich die Mög-
lichkeit von verzerrenden Einflüssen auf das Verhalten des Befragten, das unter den spezifischen Bedingungen des Quotenverfahrens bislang kaum untersucht wurde.
3. Kapitel: Das Quotenverfahren:
Paradigma sozialwissenschaftlicher
Auswahlpraxis
91
Da die Kontaktrate, d. h. die Zahl der angesprochenen Zielpersonen, beim Quotensample um ca. 100 % über der Zahl der tatsächlich interviewten Personen liegt, muß die Möglichkeit der Substitution automatisch zu einer Selektion derjenigen Personen führen, deren Erreichbarkeits- bzw. Bereitwilligkeitskoeffizient vom Durchschnitt der Bevölkerung abweicht (STEPHAN UND MCCARTHY 1 9 5 8 , S . 2 4 5 ; SUDMAN 1967, S. 11). So vermutet Scheuch, daß ca. 30 % der Bevölkerung im Quotensample keine Befragungschance hat (SCHEUCH 1 9 5 6 , S . 1 1 0 ) . Zusätzlich werden je nach Kontaktrate bestimmte Bevölkerungsgruppen unterrepräsentiert, da die Auswahl nach Quoten auch ohne Interviewerverzerrung wie eine Zufallsauswahl ohne Wiederholungsbesuche wirkt. Zwar kann durch entsprechende Quotenvorgaben bzw. Intervieweranweisungen dieser Effekt hinsichtlich bekannter Merkmale ausgeglichen werden, ein vollständiger Ausgleich ist aber nicht möglich, da sich das Erreichbarkeits- oder Bereitwilligkeitssyndrom aus einer Pluralität von Faktoren zusammensetzen dürfte, die durch Interviewersteuerung nicht zu kompensieren ist (-»• Bd. IV: Esser, Der Befragte). Unterscheiden sich schwer erreichbare bzw. wenig bereitwillige Personen vom Bevölkerungsdurchschnitt durch wesentliche Charakteristika, so muß die erleichterte Sub-
Amtliche Daten
Schulbildung
Wahrscheinlichkeitsauswahl 43%
Geographische Quotenauswahl
'Grammar School'
47%
'Grammar School'
45%
-
'Grammar School'
50%
-
'Grade School'
44%
-
-
Ό - 8 School Years'
60%
-
-
-
32% /33% \33 %
29%
Quotenauswahl
Quelle
37%
(7)
25%
(3)
-
(3)
Í35 % \28 %
(4)
/39% \39 %
0)
-
(3)
'Grammar School'
-
30%
'Grammar School'
-
21 %
'Grade School'
-
40%
'Grade School'
-
40%
-
34%
(2)
"45 %
-
34%
(2)
Í72 % \69 %
-
56%
(5)
/80% \74%
(6)
'Grade School' 'Volksschule' 'Volksschule'
-
-
-
80%
-
37%
-
20% -
(7) (7)
D a r s t e l l u n g 2: Unterrepräsentation niedriger Schulbildung bei Zufalls- und Quotenauswahlen (Quellen: ( 1 ) CANTRIL 1 9 4 4 ; ( 2 ) HANER UND MEIER 1 9 5 1 ; ( 3 ) HOCHSTIM UND SMITH 1 9 4 8 ; ( 4 ) MOSTELLER U.A. 1 9 4 9 ; ( 5 ) SCHEELE 1 9 5 5 ; ( 6 ) SCHMIDTCHEN 1 9 6 1 ; ( 7 ) STEPHAN UND MCCARTHY 1 9 5 8 ) .
92
6. Band: Statistische Forschungsstrategien
stitutionsmöglichkeit eine Verstärkerwirkung gegenüber dem Randomsample erzeugen. Für eine solche Verstärkerwirkung gibt es in der Tat einige empirische Hinweise. So ist ζ. B. bekannt, daß im Quotensample ebenso wie im Randomsample Befragte mit geringerer Schulbildung unterrepräsentiert werden, obwohl bei der Quotenerhebung in der Regel eine Quote für sozio-ökonomischen Status vorgegeben wird, die diese Verzerrung ausgleichen soll. Stellt man die Daten der verschiedenen Untersuchungen in einer Gesamttabelle zusammen (Darstellung 2), so zeigt sich eine zunehmende Verzerrung von der Zufallsauswahl über die geographisch kontrollierten bis zu den klassischen Quotenauswahlen. Obwohl über andere Merkmale keine derart detaillierten Daten vorliegen, scheint sich diese Verstärkerwirkung vornehmlich in einer Richtung auszuwirken. So wird ζ. B. berichtet, daß Frauen und ältere Personen im Quotensample eine höhere Verweigerungsquote aufweisen (CANTRIL 1 9 4 4 , S. 1 2 0 ; VON FRIEDEBURG 1 9 5 2 ) , eine Tatsache, die auch auf Zufallsauswahlen zutrifft. Zusammen mit der Verzerrung hinsichtlich der Schulbildung wird insgesamt derjenige Befragtentyp unterrepräsentiert, der in westlichen Industriegesellschaften durch einen niedrigen Informations- und Aktivitätsstatus gekennzeichnet ist. Werden aber die informierten, interessierten, aktiven und geistig beweglichen Personen generell in Teilerhebungen überrepräsentiert, so muß durch die Verstärkerwirkung des Quotenverfahrens eine Differenz zwi-
Karteiauswahl
Quotenauswahl
Quelle
'Kinobesuch in der letzten Woche'
13 1%
20%
(2)
'Theaterbesuch im letzten Jahr'
19 %
28%
(1)
'In den letzten 14 Tagen öfter spät nach Hause gekommen'
48 %
56%
(2)
'Mitglied in einem Verein'
24 %
33%
(1)
'Besuch gehabt in den letzten 14 Tagen'
26 %
31 %
(2)
'Eingeladen gewesen in den letzten 14 Tagen'
25 %
32%
(2)
'Hat mit mehr als nur einer Person geselligen Umgang'
75 %
83%
(1)
'Gestern noch ein Buch gelesen'
25 %
31%
0)
'Roman gelesen in den letzten 4 Wochen'
22 %
26%
(2)
'Interesselosigkeit an politischen Fragen'
21 %
14%
(2)
'Weiß nicht, ob Bundesminister zur Regierung gehören'
25 %
14%
(2)
'Wähler bei der letzten Bundestagswahl'
67 %
72%
(1)
Kategorie
Darstellung 3: (Jberpräsentation des aktiven, kontaktintensiven und informierten Bevölkerungsteils im Quotensample (Quellen: (1) SCHEELE 1955; (2) SCHMIDTCHEN 1961).
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher
Auswahlpraxis
93
sehen Quotenauswahlen und Zufallsauswahlen sichtbar werden. Ein Vergleich zwischen mehreren Indikatoren aus verschiedenen Untersuchungen zeigt, daß durch die verstärkte Selbstselektion der Befragte der aktive Teil der Bevölkerung im Quotensample stärker vertreten ist als im Randomsample (Darstellung 3).
3.5
Die Genauigkeit von Quotenauswahlen
Neben einigen umstrittenen Versuchen, die Genauigkeit von Quotenauswahlen mit dem gleichen statistischen Instrumentarium zu berechnen wie bei Zufallsauswahlen (Ζ. B . MEIER UND BURKE 1 9 4 8 ; MEIER, BURKE UND BANKS
1949;
STEPHAN UND
MCCARTHY 1 9 5 8 , S. 182; ->· Bd. V I : Sturm und Vajna, Zufallsstichproben 2.6), wur-
den im wesentlichen drei verschiedene Ansätze verfolgt, das Quotenverfahren auf eine statistisch exakte Grundlage zu stellen. Die erste Möglichkeit einer statistisch fundierten Fehlerberechnung bei bewußten Auswahlen beruht auf der Kenntnis der Korrelation zwischen Quotenmerkmalen und Erhebungsmerkmalen (ANDERSON 1 9 5 2 ; BOWLEY 1 9 2 6 ; JENSEN 1 9 2 8 ; NEYMAN 1 9 3 4 ; WENDT 1 9 6 0 ) . Da die statistischen Berechnungen primär auf die Erhebungsform der Klumpenauswahl zugeschnitten waren, ist dieser Berechnungsmodus für das sozialwissenschaftliche Quotenverfahren nie bedeutsam geworden, obwohl die praktischen Erfahrungen zu recht guten Ergebnissen führten. Die zweite Möglichkeit der statistischen Fundierung von Quotensamples beruht auf der Ermittlung der empirischen Variabiütät von Ergebnissen aus Quotenstichproben (CANTRIL 1 9 4 5 ; GALLUP 1 9 4 8 , S . 6 8 ; MOSER UND STUART 1 9 5 3 ; MOSTELLER U.A. 1 9 4 9 , S. 1 0 9 ; STEPHAN UND MCCARTHY 1 9 5 8 , S . 2 1 1 ) . Die Feststellung der empirischen Variabilität von Quotenergebnissen kann durch Vergleich mit objektiven Kriterien, durch Vergleich mit den Ergebnissen anderer Auswahlen und Auswahlformen oder durch einen Vergleich zwischen spezifisch definierten Subsamples einer einzigen Quotenstichprobe, ζ. B. durch Interviewervergleich, erfolgen. Die ermittelte Variabilität kann dann als Streuungsmaß dienen, das einen Anhaltspunkt für zukünftige Stichprobenergebnisse liefert. So stellte CANTRIL ( 1 9 4 5 ) fest, daß die durchschnittliche Abweichung zwischen einer Reihe von Indikatoren verschiedener Quotensamples ca. 3 Prozent ausmachte (Darstellung 4). Die empirische Quotenvariabili-
Fragentyp und Zeitintervall zwischen den Untersuchungen
Darstellung 4 : Vergleich zwischen den Ergebnissen verschiedener Quoteninterviews (Quelle: CANTRIL 1945, S. 63).
Zahl der Vergleiche
Durchschnittliche Differenz
Gesamt Innerhalb der gleichen 10 Tage Zwischen 11 und 70 Tagen
99 46 53
3,24 % 3,05 % 3,41 %
Politische Fragen Innerhalb der gleichen 10 Tage Zwischen 11 und 70 Tagen
66 25 41
3,15% 2,81 % 3,36%
Nicht-politische Fragen Innerhalb der gleichen 10 Tage Zwischen 11 und 70 Tagen
33 21 12
3,43 % 3,33 % 3,60 %
94
6. Band: Statistische Forschungsstrategien
tät kann aber auch mit dem theoretisch erwarteten Auswahlfehler oder mit der Variabilität vergleichbarer Zufallsauswahlen verglichen werden. So zeigten MOSER UND SRUART ( 1 9 5 3 ) , daß die Quotenvariabilität einer Reihe von Indikatoren erheblich über dem erwarteten Auswahlfehler lag. Ähnliche Ergebnisse erbrachtet! die Untersuchungen von STEPHAN UND MCCARTHY ( 1 9 5 8 ) , wenngleich die Differenzen nicht in der gleichen Größenordnung lagen. Der dritte und bislang letzte Versuch der statistischen Fundierung von Quotensamples bezieht sich auf die neueren, den Gebietsauswahlen angenäherten Quotenverfahren (SUDMAN 1 9 6 7 , S . 6 ) . Unter der Annahme, daß die Zielpersonen eine bekannte Erreichbarkeitsquote haben und die Interviewer nicht nur eine Zufallsauswahl aus den Haushalten, sondern ebenso eine Zufallsauswahl aus den Interviewzeiten treffen, stellt dieser Quotentyp eine Randomstichprobe ohne Wiederholungsbesuche dar. Im Prinzip wird hier die bereits von PÖLITZ UND SIMMONS ( 1 9 4 9 ) vorgeschlagene Ausgleichsmethode auf das regional gesteuerte Quotenverfahren übertragen. Diese statistisch-mathematischen Genauigkeitsschätzungen treten aber hinter die bei Quotenauswahlen üblichen empirischen Vergleichsmethoden zurück. Denn seit jeher wird die Rechtfertigung des Quotenverfahrens vornehmlich mit dem Nachweis der empirischen Übereinstimmung zwischen Quotenergebnissen und anderen als objektiver angesehenen Daten begründet. Die klassische und auch heute noch als am zuverlässigsten anerkannte Genauigkeitskontrolle besteht in einem Vergleich zwischen der Merkmalsverteilung in der Quotenstichprobe und Daten der amtlichen Statistik. Ein solcher Vergleich ist allerdings meist nur in beschränktem Umfang möglich. Einerseits stehen in der Regel sehr wenige Merkmale als Kontrollen zur Verfügung, andererseits werden die wichtigsten dieser Merkmale bereits als Quotenvorgabe eingesetzt, so daß Kontrollvergleiche sinnlos werden. Ist zusätzlich ein Quotenmerkmal mit einem Kontrollmerkmal korreliert, ζ. B. geographische Region und Konfession oder Alter und Familienstand, so wird die Übereinstimmung künstlich erhöht (TENNSTADT 1 9 5 2 ) . In der Tat stehen erheblich weniger Kontrollmöglichkeiten mit den Daten der amtlichen Statistik zur Verfügung, als von den Befürwortern des Quotenverfahrens angenommen wird. In geringem Umfang können die Kontrollmöglichkeiten vergrößert werden, wenn bei Erhebungen mit nicht-kombinierten oder halb-kombinierten Quotenvorgaben die mehrdimensionalen Aufgliederungen mit den amtlichen Daten oder mit den erwarteten Werten verglichen werden. Bei quantitativen Merkmalen kann eine Feingliedening eine zusätzliche Möglichkeit des Genauigkeitsvergleichs darstellen. Empirische Untersuchungen, die die Ergebnisse von Quotenstichproben mit den Daten der amtlichen Statistik verglichen, kamen zu unterschiedlichen Ergebnissen (CANTRIL 1 9 4 4 , S . 1 4 3 ; HOCHSTIM UND SMITH
1 9 4 8 ; MOSER UND STUART
MOSTELLER U.A. 1 9 4 9 , S. 1 0 5 ; SCHEELE 1 9 5 5 , S . 1 4 8 ; SCHMIDTCHEN
1953;
1 9 6 1 , S. 2 3 ;
Im allgemeinen scheint die Übereinstimmung bei eindimensionalen Aufgliederungen mit einer wesentlichen Ausnahme recht gut zu sein: üblicherweise wird bei Quotenauswahlen eine Verzerrung der Schulbildung sichtbar, die trotz Schichtquote immer wieder in Erscheinung tritt. Diese Verzerrung mag zu einem Teil auf falsche Angaben im Interview zurückzuführen sein, ist aber in dieser Höhe nicht allein durch diesen Umstand zu erklären. STEPHAN UND MCCARTHY 1 9 5 8 , S . 1 6 5 ; TENNSTÄDT 1 9 5 2 ) .
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis
95
Für Aussagen über die Genauigkeit mehrdimensionaler Aufgliederungen ist die vorhandene empirische Vergleichsbasis zu gering. Während MOSER UND STUART ( 1 9 5 3 ) erhebliche Abweichungen zwischen den tabellierten Daten unkombinierter Quotenmerkmale und den erwarteten Werten feststellten, lieferten die mehrdimensionalen Aufgliederungen bei SCHEELE ( 1 9 4 8 , S . 1 4 8 ) recht gute und bei STEPHAN UND MC CARTHY ( 1 9 5 8 , S. 1 6 6 ) zufriedenstellende Ergebnisse. Auch die Daten über die verstärkte Tiefengliederung quantitativer Merkmale ergeben kein einheitliches Bild. Während Moser und Stuart für das Merkmal Alter eine signifikant abweichende Streuung innerhalb der Quotengruppen berichten, konnte SCHMIDTCHEN ( 1 9 6 1 ) keine wesentlichen Verzerrungen feststellen. Ist die Vergleichsbasis bei Kontrollen von Quotenergebnissen mit amtlichen Daten unzureichend, so stellen Vergleiche zwischen den Daten von Quotenauswahlen mit denen von Zufallsauswahlen eine wesentliche Erweiterung der Kontrollmöglichkeiten dar. Zwar können hierbei systematische Fehler, die beide Auswahlverfahren in gleicher Weise treffen, nicht aufgedeckt werden, da es sich aber bei einem solchen Vergleich im Prinzip um eine experimentelle Versuchsanordnung handelt, lassen sich aus Übereinstimmungen und Differenzen Schlußfolgerungen über die Genauigkeit beider Verfahren ableiten. Vergleiche zwischen Quotenstichproben und Zufallsstichproben liegen heute in einiger Zahl vor (HAHNER UND MEIER 1 9 5 1 ; HOCHSTIM UND SMITH 1 9 4 8 ; MOSER UND STUART 1 9 5 3 ;
SCHEELE 1 9 5 5 ; SCHMIDTCHEN
1 9 6 1 ; STEPHAN UND MCCARTHY
1958;
Wie bei den Vergleichen mit amtlichen Daten beschränken sich Vergleiche zwischen Quoten- und Randomsamples meist auf die Gegenüberstellung von Randverteilungen. Hier pflegen die Differenzen meist nicht sehr groß zu sein (MOSER SUDMAN 1 9 6 7 ) .
UND STUART 1 9 5 3 ; SCHEELE 1 9 5 5 , S . 1 7 2 ; SCHMIDTCHEN 1 9 6 1 ;
SUDMAN
1 9 6 7 , S.
31). Im allgemeinen sind sie bei faktischen Informationen größer als bei Einstellungen und Meinungen (STEPHAN UND MCCARTHY 1 9 5 8 , S . 1 8 5 ) , und sehr häufig zeigt sich, daß Verzerrungen bei einigen Merkmalen, selbst wenn es sich um wichtige Variablen wie Schulbildung oder Einkommen handelt, nur sehr punktuell wirken und nicht auf andere Merkmale ausstrahlen (MOSER UND STUART 1 9 5 3 ; SCHEELE 1 9 5 5 , S . 1 7 2 ; STEPHAN UND MCCARTHY 1 9 5 8 , S . 1 8 5 ) . Generell scheinen Quotenstichproben, die auf strengen geographischen Quoten beruhen, zu genaueren Ergebnissen zu führen (HOCHSTIM UND SMITH 1 9 4 8 ; STEPHAN UND MCCARTHY 1 9 5 8 , S . 1 8 5 ) . Seit Beginn der Diskussion um die bewußte Auswahl wird immer wieder betont, daß das Quotenverfahren zwar Randverteilungen und Durchschnitte gut wiederzugeben vermag, nicht aber die Verteilungen von mehrdimensionalen Aufgliederungen (ANDERSON 1 9 5 2 ; NEYMAN 1 9 3 4 ; SCHEUCH 1 9 6 7 ) . Allerdings liegen hier kaum ausreichende Daten vor, und die wenigen kasuistischen Belege (SCHMIDTCHEN 1 9 6 1 , S . 2 8 ) sind nicht geeignet, diesen generellen Vorwurf zu entkräften. Stellt der Vergleich zwischen Quotenauswahlen und Zufallsauswahlen eine im Prinzip experimentelle Anordnung dar, sofern alle Bedingungen außer dem Auswahlverfahren selbst konstant gehalten werden, so lassen sich durch experimentelle Variationen innerhalb des Quotenverfahrens zusätzliche Informationen über die Genauigkeit dieses Auswahltyps gewinnen (-> Bd. VI: Stelzl, Experimentelle Versuchsanordnungen). So variierten
die Quotenzuweisungsbedingungen, HOCHsteuerten den Grad regionaler Quotierung, und SCHMIDTCHEN berichtet über Variationen der Fragebogenkonstruktion. Die Zahl der-
MOSER UND STUART ( 1 9 5 3 )
STIM UND SMITH ( 1 9 4 8 ) (1961,
S.
46)
96
6. Band: Statistische Forschungsstrategien
artiger experimenteller Versuchsanordnungen ist allerdings bislang gering geblieben, obwohl gerade die Technik der bewußten Manipulation relevanter Variablen zu einem besseren Verständnis der Mechanismen, die die Verläßlichkeit von Quotenverfahren bestimmen, beitragen könnte. Für die Befürworter des Quotensamples spielt als Beweis für die Zuverlässigkeit dieses Auswahlverfahrens die Vorhersagegenauigkeit — und hier vor allem die Genauigkeit von Wahlvorhersagen — eine besondere Rolle (GALLUP 1948, S. 68; JETTER 1952; NOELLE 1963, S . 10; PERRY 1960). Obwohl an der Genauigkeit der Wahlprognosen oft die Qualität des gesamten Erhebungsverfahrens gemessen wird, kann ihr diese strategische Beweiskraft kaum zukommen. Dies vor allem deshalb nicht, weil durch eine Vorhersage nicht allein das Auswahlverfahren, sondern der gesamte Meßund Forschungsprozeß überprüft wird. In der Regel werden auch alle Zwischenschritte und Einzelvorhersagen zu einem einzigen Wert zusammengefaßt, der die Variabilität der Einzelwerte verschleiert. So zeigen die nach Bundesstaaten aufgeschlüsselten Einzelvorhersagen der Jahre 1936 bis 1948 eine erhebliche Streuung (Darstellung 5),
Abweichungen in Prozent vom demokratischen Stimmanteil
CROSSLEY 1936 1944 1948
GALLUP
1936
1940
1944
1948
% % % % %
1 1 2 2 4 7 8 7 9 3 3 1 0
0 0 0 1 0 2 6 11 17 8 1 1 1
0 0 0 1 4 5 16 9 6 4 0 1 1
0 1 1 2 7 11 15 8 1 2 0 0 0
0 0 0 0 0 1 8 16 12 9 2 0 0
0 0 0 0 1 2 7 17 13 5 2 1 0
0 0 0 3 2 10 11 12 4 2 0 0 0
Zahl der Vorhersagen
48
48
47
48
48
48
44
-
18 % bis - 16,01 16 % bis - 14,01 14 % bis - 12,01 12 % bis - 10,01 10 % bis - 8,01 8 % bis - 6,01 6 % bis - 4,01 4 % bis - 2,01 2 % bis - 0,01 0 % bis + 1,99 + 2 % bis + 3,99 + 4 % bis + 5,99 + 6 % bis + 7,99
% % %
% % %
% %
Darstellung 5: Prozentdifferenzen zwischen Vorhersage und Wahlergebnis für Bundesstaaten (Quelle: MOSTELLER U.A. 1949).
weshalb Marktforscher zwar gerne die durchschnittlichen Abweichungen, nie aber die Abweichungsvarianzen publizieren. Schließlich ist die Vorhersagegenauigkeit von Wahlergebnissen schon deshalb kein geeignetes Kriterium für die Bewertung der Genauigkeit von Quotenstichproben, da die Institute eingedenk der Reaktionen der Öffentlichkeit ein spezifisches Prognoseinstrumentarium für Wahlvorhersagen entwickelt haben, das nicht unbedingt auch auf andere Untersuchungsbereiche übertragbar ist. Die berichteten durchschnittlichen Abweichungen zwischen Prognose und Wahlergebnis von 3,9 % bei 392 Vorhersagen (GALLUP 1948, S. 68) und von 2 % (NOELLE 1963, S. 10) sind trotz einzelner erheblicher Abweichungen allerdings ein guter Indikator für die bestmögliche Genauigkeit des Quotenverfahrens, die unter
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis
97
Einsatz aller zur Verfügung stehenden Techniken, Tricks und Kosten zu erreichen und vom ökonomischen Standpunkt noch zu vertreten sind (-> Bd. 11 : Herz, Vorhersagestudien 4.4).
Literaturverzeichnis Sampling und Normen. Allgemeine Diskussion, in: Empirische Sozialforschung, herausgegeben vom INSTITUT ZUR FÖRDERUNG ÖFFENTLICHER ANGELEGENHEITEN, Frankfurt a. M. 1952, S. 127-137.
ANDERSON, O . ,
E., C. YOUNG UND C. SYZE, Polling Lessons from the 1944 Election, in: Public Opinion Quarterly 9, 1945, S. 4 6 7 - 4 8 4 .
BENSON,
A. B . (Hrsg.), How to Conduct Consumer and Opinion Research, New York 1946.
BLANKENSHIP,
A. L., Measurement of the Precision Attained in Sampling, in: Bulletin de l'Institut International de Statistique 22, 1926, S. 6 - 6 1 .
BOWLEY,
CANTRIL,
H., Gauging Public Opinion, Princeton 1944.
H., D O Different Polls Get the Same Results?, in: Public Opinion Quarterly 9, 1945, S. 61-69.
CANTRIL,
Η. υ. A., The Public Opinion Polls: Dr. Jekyll or Mr. Hyde?, Symposium, in: Public Opinion Quarterly 4, 1940, S. 212-284.
CANTRIL,
COCHRAN, W . G . , CROSSLEY,
Sampling Techniques, New York
1953.
A. M., Straw Polls in 1936, in: Public Opinion Quarterly 1, 1937, S. 24-35.
A. M., Methods Tested During 1940 Campaign, in: Public Opinion Quarterly 5, 1941, S. 8 3 - 8 6 .
CROSSLEY,
DEMING, W . E . ,
Some Theory of Sampling, New York
1950.
L. VON, Zur Frage der Verweigerungen bei Umfragen mit Quotenstichproben, in: Empirische Sozialforschung, herausgegeben vom INSTITUT ZUR F Ö R DERUNG ÖFFENTLICHER ANGELEGENHEITEN, Frankfurt a. M. 1952, S. 190-194.
FRIEDEBURG,
GALLUP, G . H . ,
A Guide to Public Opinion Poils, Princeton
GOODE, W. J . UND P . K . H A T T ,
2.
Aufl. 1948.
Methods in Social Research, New York
1952.
F. UND Ν. C . M E I E R , The Adaptability of Area-Probability Sampling to Public Opinion Measurement, in: Public Opinion Quarterly 15, 1951, S. 335 352.
HANER, C H .
M., W . HURWITZ I, New York 1953.
HANSEN,
UND W. MADOW,
Sample Survey Methods and Theory, Bd.
Area Sampling or Quota Control? Three Sampling Experiments, in: Public Opinion Quarterly 12, 1948, S. 7 3 - 8 0 .
HOCHSTIM, J . R . UND D . M . K . SMITH,
Α., Purposive Selection, in: Journal of the Royal Statistical Society, Series A (General) 91, 1928, S. 541-547.
JENSEN,
98
6. Band: Statistische Forschungsstrategien
JETTER, U., Einige zusätzliche Bemerkungen über Wert und Grenzen repräsentativer Auswahlmethoden, in: Empirische Sozialforschung, herausgegeben vom INSTITUT ZUR FÖRDERUNG ÖFFENTLICHER ANGELEGENHEITEN, Frankfurt a. M . 1 9 5 2 , S.
117-126.
KATZ, D., The Public Opinion Polls and the 1940 Election, in: Public Opinion Quarterly 5, 1941, S. 5 2 - 7 8 . Interviewers Bias Poll Results?, in: Pubüc Opinion Quarterly
KATZ, D . , DO
6, 1942,
S. 2 4 8 - 2 6 8 .
The Polls and the
KATZ, D . ,
1944
Elections, in: Public Opinion Quarterly
8, 1944,
S. 4 6 8 - 4 8 2 .
KATZ, D., An Analysis of the 1948 Polling Predictions, in: Journal of Applied Psychology 33, 1949, S. 1 5 - 2 8 . K A T Z , D . UND H . CANTRIL,
Public Opinion Polls, in: Sociometry
1, 1 9 3 7 , S .
155-179.
Wesen, Wert und Grenzen des Stichprobenverfahrens für die empirische Sozialforschung, in: Empirische Sozialforschung, herausgegeben vom INSTITUT ZUR FÖRDERUNG ÖFFENTLICHER ANGELEGENHEITEN, Frankfurt 1 9 5 2 ,
KELLERER, H . ,
S.
103-116.
KELLERER, H . ,
Theorie und Technik des Stichprobenverfahrens, München
3.
Aufl.
1963. KISH, L . ,
Survey Sampling, New York
MADGE, J . ,
1965.
The Tools of Social Science, London
1953.
J. BURKE, Laboratory Test of Sampling Techniques, in: Public Opinion Quarterly 11, 1947, S. 5 8 6 - 5 9 3 .
MEIER, N . C . UND C .
C., C. J . BURKE UND S. BANKS, Laboratory Tests of Sampling Techniques: Comments and Rejoinders, in: Public Opinion Quarterly 12, 1948, S. 3 1 6 - 3 2 4 .
MEIER, Ν .
N. C. 1949.
MEIER,
UND
H. W. SAUNDERS (Hrsg.), The Polls and Public Opinion, New York
MOSER, C. Α., Quota Sampling, in: Journal of the Royal Statistical Society, Series A (General), 115, 1952, S. 4 1 1 - 4 2 3 . MOSER, C. Α., Survey Methods in Social Investigations, London 1958. A. UND A. STUART, An Experimental Study of Quota Sampling, in: Journal of the Royal Statistical Society, Series A (General), 116, 1953, S. 349 - 394.
MOSER, C .
MOSTELLER, F. U. A., The Pre-Election Polls of 1948, Bulletin Nr. 60, Social Science Research Council, New York 1949. NATIONAL OPINION RESEARCH CENTER ( N O R C ) ,
Interviewing for
NORC,
Denver 1945.
NEYMAN, J., On the Two Different Aspects of the Representative Method of Stratified Sampling and the Method of Purposive Selection, in: Journal of the Royal Statistical Society, Series A (General) 97, 1934, S. 5 5 8 - 6 2 5 . NOELLE, E . ,
Umfragen in der Massengesellschaft, Hamburg
1963.
PARTEN, M., Surveys, Polls and Samples, New York 1950. PERRY, P., Election Survey Procedures of the Gallup Poll, in: Public Opinion Quarterly 24, 1960, S. 531-542.
3. Kapitel: Das Quotenverfahren: Paradigma sozialwissenschaftlicher Auswahlpraxis
99
PÖLITZ, A. UND W. SIMMONS, An Attempt to Get the "Not at Homes" into the Sample without Call-Backs, in: Journal of the American Statistical Association 44, 1949, S. 9 - 3 1 . ROBINSON, C. E., Recent Developments in the Straw-Poll Field. Part I, in: Public Opinion Quarterly 1, 1937a, 3, S. 45 - 56. ROBINSON, C. E., Recent Developments in the Straw-Poll Field. Part II, in: Public Opinion Quarterly 1, 1937b, 4, S. 4 2 - 5 2 . ROPER, E., Sampling Public Opinion, in: Journal of the American Statistical Association 35, 1940, S. 3 2 5 - 3 3 4 . ROPER, E., Checks to Increase Polling Accuracy, in: Public Opinion Quarterly 5, 1941, S. 8 7 - 9 0 . SCHEELE, W., Quoten-Sampling, Diss. Köln 1955. SCHEUCH, Ε. Κ., Die Anwendung von Auswahlverfahren bei Repräsentativ-Befragungen, Diss. Köln 1956. SCHEUCH, E. K., Auswahlverfahren in der Sozialforschung, in: R. KÖNIG (Hrsg.), Handbuch der Empirischen Sozialforschung, Bd. I, Stuttgart 1967, 2. Auflage 1967, S. 3 0 9 - 3 4 7 . SCHMIDTCHEN, G., Die repräsentative Quotenauswahl, Allensbach 1961. SELLTITZ, C. U. A., Research Methods in Social Relations, New York 1959. STEPHAN, F. F. UND P. J. MCCARTHY, Sampling Opinions, New York 1958. STOCK, J.S. UND J. R. HOCHSTIM, Commercial Uses of Sampling, in: Journal of the American Statistical Association 43, 1948, S. 5 0 9 - 5 2 2 . SUDMAN, S., Reducing the Cost of Surveys, Chicago 1967. TENNSTÄDT, F., Kontrollen des repräsentativen Charakters der Stichproben bei Bevölkerungsumfragen, in: Empirische Sozialforschung, herausgegeben vom INSTITUT ZUR FÖRDERUNG ÖFFENTLICHER ANGELEGENHEITEN, F r a n k f u r t a . M .
1952, S. 2 0 3 - 2 0 6 . WENDT, F., Wann wird das Quotenverfahren begraben?, in: Allgemeines Statistisches Archiv 44, 1960, S. 3 5 - 4 0 . WILLIAMS , D., Basic Instructions for Interviewers, in: Public Opinion Quarterly 6, 1942, S. 6 3 4 - 6 4 1 .
4.
Statistische Testverfahren von Günter Buttler
4.1
Grundlagen statistischer Testverfahren
4.1.1
Statistische Hypothesen
Statistische Hypothesen sind Annahmen über die Verteilung von Zufallsvariablen (NEYMAN 1950, S. 250), wobei sich die Annahmen auf die gesamte Verteilungsfunktion oder auf einzelne ihrer Parameter beziehen können (WEBER 1967, S. 167) (-> Bd. VI: Helten, Wahrscheinlichkeitsrechnung 1.3). Die Aufstellung von Hypothesen ist immer dann erforderlich, wenn die Verteilung der Zufallsvariablen oder ihre Parameter unbekannt sind. Die Überprüfung einer Hypothese erfolgt durch Testverfahren (Prüfverfahren) an Hand von Zufallsstichproben. Alle sachlich sinnvollen Hypothesen bilden den Kreis der zulässigen Hypothesen, d. h. die Aufstellung der Hypothesen wird durch gewisse a-priori-Kenntnisse über die dem Problem zugrundeliegende Klasse von Verteilungsfunktionen beschränkt (MENGES 1968, S. 325). Wird eine Verteilung durch eine Hypothese vollständig definiert, spricht man von einer einfachen Hypothese. Sind nicht alle Parameter bestimmt, liegt eine zusammengesetzte Hypothese vor (RYTZ 1968, S. 190). Zur Durchführung statistischer Testverfahren werden die zulässigen Hypothesen in zwei Gruppen eingeteilt, so daß die Wahl zwischen zwei Entscheidungen getroffen werden kann. Die zu testende Hypothese heißt Nullhypothese, weil sie im allgemeinen besagt, daß ein Parameter 0 mit einem bestimmten ö 0 übereinstimmen soll, ζ. B. soll der unbekannte Mittelwert μ einer Gesamtheit einem vorgegebenen Wert μ0 entsprechen: H0 : θ = θ0. Alle übrigen zulässigen Hypothesen bilden die Alternativhypothese'. Hl : θ Φ θ0. Dies gilt analog auch für Hypothesen über ganze Verteilungen. Ein Test führt zur Annahme oder Ablehnung der Nullhypothese. Ihre Annahme bedeutet die Verwerfung der Alternativhypothese i / j , ihre Ablehnung die Annahme von H x . Als Nullhypothese wird gewöhnlich die Annahme fixiert, die man widerleg e n m ö c h t e (PFANZAGL 1 9 6 6 , S. 8 9 ; MENGES 1 9 5 8 , S. 3 2 6 ) .
Hypothesen entstehen häufig aus (KREYSZIG 1968, S. 205): (1) Güteforderungen, die erfüllt werden sollen; dies Postulat kann theoretischer Natur sein oder aus Voruntersuchungen stammen;
4. Kapitel: Statistische Testverfahren
101
(2) Erfahrungswerten über die Gesamtheit; (3) Theorien, die zu verifizieren sind; (4)
reiner Vermutung, angeregt durch Wünsche oder gelegentliche Wahrnehmungen.
Bei der Überprüfung von Hypothesen durch einen Test ist jedoch darauf zu achten, daß empirisches Material, an Hand dessen eine Hypothese aufgestellt wurde, nicht auch für den Test verwendet wird, da sich dann Hypothese und Test an den gleichen Kriterien orientieren. Der Test "muß also auf Grund empirischen Materials durchgeführt werden, das unabhängig von jenem ist, durch das die Hypothese inspiriert wurd e " (PFANZAGL 1 9 6 6 , S. 9 3 ) . 4.1.2
Die Aussagefähigkeit von Testergebnissen
Ausgangspunkt für einen statistischen Test sei eine Zufallsstichprobe x l t x 2 , •••,x„, die aus einer (stetigen) Gesamtheit mit der Verteilungsfunktion F(x, θ) stammt. Berechnet wird eine Testgröße (1)
T=
T(xl,x2,...
,χπ,θ0).
Grundsätzlich ist zwischen Zufallsvariablen und ihren Realisationen zu unterscheiden. Nur Zufallsvariable, zu denen die Testgrößen gehören, weisen Verteilungsfunktionen auf, über sie können Wahrscheinlichkeitsaussagen gemacht werden. Die konkreten Werte, die sich bei der Durchführung eines Tests auf Grund vorliegender Stichproben ergeben, sind Realisationen (Werte) der Zufallsvariablen. Sie führen zur Annahme oder Ablehnung der zu testenden Hypothese. Im allgemeinen werden Zufallsvariable mit großen, die zugehörigen Realisationen mit kleinen lateinischen Buchstaben bezeichnet. Eine solche theoretisch exakte Trennung erscheint für die folgenden Ausführungen irrelevant. Es soll deshalb nur fallweise auf bestehende Unterschiede hingewiesen werden.
Die Testgröße ( 1 ) folgt bei Richtigkeit der Nullhypothese einer bestimmten Verteilung, welche abweicht von der Verteilung bei Gültigkeit der Alternativhypothese ( R Y T Z 1968, S. 191). Da theoretisch jeder Wert der Testgröße zu beiden Verteilungen, die sich mehr oder minder stark überlagern, gehören kann, so daß es stets möglich ist, die Nullhypothese sowohl anzunehmen als auch abzulehnen, gilt es, ein Kriterium zu schaffen, daß die Zuordnung eines jeden Wertes der Testgröße zu einer der beiden Verteilungen erlaubt. Zu diesem Zweck wird ein Annahmebereich W definiert, in den die Testgröße bei Gültigkeit von H0 mit einer vorgegebenen Wahrscheinlichkeit 1 —α (α > 0), der Aussagewahrscheinlichkeit (Sicherheitswahrscheinlichkeit), fällt: (2)
1 —α = Ρ (Γ e W\HQ).
Liegt Τ in W, wird die Nullhypothese angenommen. Die Bestimmung des Annahmebereiches setzt die Kenntnis der Verteilungsfunktion der Testgröße voraus. Ihre Quantile sind die Schwellenwerte (Sicherheitsgrenzen), die den Annahmebereich markieren. Fällt ein Wert von Τ in die kritische Region (außerhalb von W), so wird angenommen, daß er nicht mehr zur Verteilung der Testgröße bei Gültigkeit der Nullhypothese gehört; man spricht von einem signifikanten Unterschied zwischen θ und 0 O . In diesem Fall wird H0 abgelehnt.
102
tí.
Band: Statistische Forschungsstrategien
Die Wahrscheinlichkeit, H0 abzulehnen, obwohl sie richtig ist, beträgt folglich a: (3)
a = Ρ (Γ $ WIHq).
Da α größer als 0 sein muß, um eine Begrenzung des Annahmebereiches zu ermöglichen, sonst würde H0 stets angenommen, besteht das Risiko einer Fehlentscheidung, indem eine richtige Nullhypothese abgelehnt wird (Fehler 1. Art, α-Fehler), a wird deshalb auch als Irrtumswahrscheinlichkeit (Signifikanzniveau, Sicherheitsschwelle) bezeichnet. Neben dem Fehler 1. Art kann bei einem Test eine weitere Fehlentscheidung getroffen werden, wenn H0 angenommen wird, obwohl sie falsch ist. Die Wahrscheinlichkeit β (4)
ß=?(TSW\H1)
für einen solchen Fehler 2. Art (ß-Fehler) ist u. a. abhängig von d = θ — θ0, d. h. dem Unterschied zwischen den geprüften Parametern θ und 0O · D ' e Schwierigkeit besteht darin, daß d unbekannt ist, so daß β nicht ohne weiteres bestimmt werden kann (vgl. Abschnitt 4.1.4). Die vier Ergebnismöglichkeiten bei der Entscheidung über Annahme oder Ablehnung der Nullhypothese sind in Darstellung 1 zusammengestellt.
Entscheidung
Darstellung 1 : Ergebnismöglichkeiten eines Testverfahrens
Annahme von/Zg
Ablehnung von HQ
HQ ist richtig
korrektes Ergebnis
Fehler 1. Art
HQ ist falsch
Fehler 2. Art
korrektes Ergebnis
Voraussetzung^"""----^.
Wie bereits erwähnt, soll als Nullhypothese die Annahme gewählt werden, die man widerlegen möchte. Der Fehler 1. Art wird deshalb als schwerwiegender angesehen als der Fehler 2. Art; er soll möglichst vermieden werden (SCHLAIFER 1959, S. 608). In der Praxis werden meist Irrtumswahrscheinlichkeiten von 0,1, 0,05, 0,01, 0,001 gewählt. Grundsätzlich gilt, daß α umso kleiner anzusetzen ist, je gravierender die Entscheidungen sind, die man bei Ablehnung der Nullhypothese zu treffen beabsichtigt. Im einzelnen ist zu berücksichtigen, welcher Schaden entsteht, wenn man einen tatsächlich vorhandenen Unterschied nicht erkennt oder wenn man Differenzen festzustellen glaubt, die in Wirklichkeit nicht existieren. Wegen der Fehlermöglichkeiten können Testergebnisse also niemals mit 100 % Sicherheit eine Hypothese verifizieren oder falsifizieren. Die Möglichkeit eines Fehlers 2. Art verhindert auch anzugeben, wie groß der Anteil der richtigen Hypothesen bei vielfacher Wiederholung des Tests ist. Das hängt vielmehr von der Fähigkeit des Testenden ab, richtige Hypothesen zu formulieren. Testverfahren haben nur eine Filterwirkung, indem sie den Anteil der richtigen Hypothesen unter den angenommenen vergrößern (PFANZAGL 1966, S. 91).
4. Kapitel: Statistische Testverfahren
4.1.3
103
Einseitige und zweiseitige Tests
Die kritische Region besteht aus einem oder aus zwei Teilen, je nachdem, ob man entsprechend der Problemstellung einen einseitigen oder einen zweiseitigen Test durchführen will. Zu der Nullhypothese H 0 : 0 = 0O gibt es folgende Alternativhypothesen: «Ι H2 H3
0 Φ θ0 0 < Θ0 0 > Θ0
Bei Η γ ist die Richtung einer möglichen Abweichung noch nicht bekannt, so daß die kritische Region auf beiden Seiten der Testverteilung zu bestimmen ist. Die Überprüfung der Nullhypothese geschieht mit einem zweiseitigen Test. Ist dagegen die Richtung einer möglichen Abweichung bekannt oder interessiert nur der Fall, daß θ < 0O (0 > 0O )> s 0 ist auch nur eine einseitige kritische Region mit einem einseitigen Test erforderlich. Allerdings müßte H0 hier genaugenommen lauten: 0 > 0O (0 < 0O ). Da der Test jedoch auf den Fall der Gleichheit von 0 und 0O abgestellt ist, wird die Ungleichung häufig vernachlässigt (KREYSZIG 1 9 6 8 ) . Die Verwendung einseitiger Tests hat den Vorteil, daß sich bei konstanter Irrtumswahrscheinlichkeit der Fehler 2. Art verringert, bestehende Unterschiede also besser aufgedeckt werden als bei einem entsprechenden zweiseitigen Test.
4.1.4
Operationscharakteristik und Gütefunktion
Die Wahrscheinlichkeit eines Fehlers 2. Art hängt ceteris paribus ab von d, der Differenz zwischen 0 und 0 O . Da d unbekannt ist, wird β als Funktion von d dargestellt. Ergebnis ist die Operationscharakteristik (OC-Funktion), die für unterschiedliche d die Wahrscheinlichkeit eines Fehlers 2. Art angibt (YAMANE 1964,S. 199 ff.; FERRIS U.A. 1946). Für d = 0 hat β den Wert 1 - α , die Wahrscheinlichkeit für die Annahme der richtigen Nullhypothese. Bei konstantem α ist β bei zweiseitigen Tests größer als bei einseitigen, so daß für ein- und zweiseitige Tests unterschiedliche OC-Kurven bestehen. Die Fähigkeit eines Tests, eine falsche Nullhypothese zu verwerfen, d. h. bestehende Unterschiede zwischen den zu testenden Größen aufzudecken, wird durch die Teststärke (Trennschärfe) s angegeben. Sie ist die Komplementärwahrscheinlichkeit zu ß. (5)
5 = Ρ(7" $
W\Hl).
Wird die Teststärke als Funktion von d bei festem η und α dargestellt, folgt die Teststärkefunktion (Gütefunktion, Trennschärfefunktion). Für d = 0 nimmt s den Wert a an, die Wahrscheinlichkeit, daß eine richtige Nullhypothese abgelehnt wird. Werden in einem Schaubild die OC-Kurven und Teststärkefunktionen eines Tests bei verschiedenen Stichprobenumfängen aufgezeichnet, so kann man den für eine vorgegebene Genauigkeit benötigten Stichprobenumfang näherungsweise bestimmen. Wegen der Relation β + s = 1 sind OC-Funktion und Teststärkefunktion praktisch gleichwertig. Ihre Kenntnis ermöglicht also die Abschätzung des Fehlers 2. Art und seine Minimierung durch einen geeigneten Test. Damit ergibt sich ein Kriterium für
104
6. Band: Statistische Forschungsstrategien
ii } γα a
ergibt, die bei Gültigkeit der Nullhypothese (μ = μ 0 ) ebenfalls nach JV(0,1) verteilt ist. Fällt der Wert der Testgröße in den Annahmebereich, wird die Nullhypothese angenommen, anderenfalls wird sie abgelehnt. Bei einem zweiseitigen Test und vorgegebener Aussagewahrscheinlichkeit 1 —α sind die Quantile u„/2 und i¿i_a/2 der standardisierten Normalverteilung die Schwellenwerte, die den Annahmebereich einschließen. Lautet die Alternativhypothese H 1 : μ > μ 0 ( μ < μ 0 ) , ist ein einseitiger Test durchzuführen. Die Testgröße ist die gleiche wie bei dem zweiseitigen Test. Es ändert sich jedoch der Annahmebereich. Die Nullhypothese wird angenommen, wenn der Wert u der Testgröße kleiner ist als der Schwellenwert ul-a(u>ua). Dieser Test kann auch verwendet werden, wenn die Gesamtheit nicht normalverteilt ist. Als Voraussetzung ist lediglich zu beachten, daß η groß genug ist (in der Regel genügt η > 30), um den zentralen Grenzwertsatz wirksam werden zu lassen (YAMANE 1964, S. 146). Die Teststärke (Güte) wurde definiert als die Fähigkeit eines Tests, eine falsche Nullhypothese zu verwerfen. Bei gegebenem η und α hängt sie ab von d, der Differenz zwischen μ und μ 0 . Sie ist gleich der Wahrscheinlichkeit, daß die Testgröße nicht in den Annahmebereich u„/ 2 bis u, _ 0 / 2 fällt oder, was wegen der Symmetrie der Normalverteilung das gleiche bedeutet, daß lu I > « ι - α / 2 · D>es führt zur Teststärkefunktion (15)
112
6. Band: Statistische
Forschungsstrategien
Nach einigen Umformungen ergibt sich als endgültige Fassung (PFANZAGL 1966, S. 9 6 ; WEBER 1 9 6 7 , S. 1 8 0 )
(16)
G(d) = 1 — F asziya+^^+F
y¡r- * .α/2},
wobei F {...} die Verteilungsfunktion der standardisierten Normalverteilung ist. Der einseitige Test besitzt eine größere Teststärke als der zweiseitige, er registriert eher eine falsche Nullhypothese. In diesem Fall ist der einseitige Test ein gleichmäßig bester Test. Ist die Varianz a2 unbekannt, muß sie durch ihren Schätzwert s2, die Varianz der Stichprobe, ersetzt werden:
= -" L-T1Íi=l >1·-*)2· Die Testgröße lautet (17)
^ - L j J i a y * . s
Sie folgt bei Gültigkeit der Nullhypothese einer t-Verteilung mit η — 1 Freiheitsgraden. Für eine Aussagewahrscheinlichkeit 1 — α sind als Schwellenwerte folglich die Quantile ta\i und ίι- α /2 einer t-Verteilung mit η — 1 Freiheitsgraden zu bestimmen. Die Nullhypothese wird angenommen, wenn tal2;n-i
anderenfalls wird sie abgelehnt. Erscheint die Voraussetzung einer normalverteilten Gesamtheit fraglich und sind nur kleine Stichproben verfügbar, müssen verteilungsfreie Testverfahren angewendet werden. Sofern die Gesamtheit symmetrisch ist, können zum Testen des Mittelwertes Verfahren benützt werden, die zunächst für den Median entwickelt wurden (PFANZAGL 1966, S. 138 ff.). Im Falle der Symmetrie einer Verteilung sind bekanntlich Mittelwert und Median gleich. Ausgangspunkt sind nicht die Beobachtungswerte in ihrer ursprünglichen Form, sondern die transformierten Werte x¡ — μ 0 . Hierdurch wird erreicht, daß bei Gültigkeit der Nullhypothese die Verteilung nicht mehr den Mittelwert μ sondern den Mittelwert 0 hat. Der Randomisierungstest verwendet diese transformierten Werte unter Berücksichtigung ihrer Vorzeichen. Wegen der Symmetrie der Verteilung mit Mittelwert 0 hat jetzt ein Wert χ die gleiche Wahrscheinlichkeit, in die Auswahl zu kommen, wie ein Wert —χ. Aus einer Stichprobe vom Umfang η können insgesamt 2" verschiedene Stichproben gebildet werden, indem systematisch alle möglichen Vorzeichenkombinationen angesetzt werden. Sämtliche hypothetischen Stichproben besitzen die gleiche Wahrscheinlichkeit.
4. Kapitel: Statistische Testverfahren
113
Für alle 2" Stichproben werden die Summen der Beobachtungswerte berechnet und der Größe nach geordnet. Bei einem zweiseitigen Test wird die Nullhypothese dann verworfen, wenn die Summe der effektiven Stichprobenwerte besonders groß oder klein ist. Bei einem einseitigen Test werden nur die jeweils größten (kleinsten) Summen berücksichtigt. Die kritische Region, der Ablehnungsbereich, besteht bei einem einseitigen Test und vorgegebener Irrtumswahrscheinlichkeit α aus den r größten (kleinsten) Stichprobensummen, wobei r die nächstkleinere ganze Zahl von a • 2" ist. Die Wahrscheinlichkeit, eine richtige Nullhypothese abzulehnen, beträgt also r/2" < a. Bei einem zweiseitigen Test wird die kritische Region jeweils zur Hälfte aus den größten und kleinsten Stichprobensummen gebildet. Die Einfachheit dieses Randomisierungstests wird mit wachsendem Stichprobenumfang sehr schnell durch den erforderlichen Rechenaufwand überkompensiert. Bei η = 10 sind theoretisch bereits 1024 verschiedene Stichprobensummen zu berechnen. Eine Rechenvereinfachung bietet der Vorzeichen-Rang-Test von Wilcoxon, der zwar für den Vergleich zweier verbundener Stichproben entwickelt wurde (WILCOXON 1945, 1947; MOOD 1954; SIEGEL 1956, S. 75 ff.), jedoch auch auf eine Stichprobe aus einer symmetrischen Verteilung angewendet werden kann (PFANZAGL 1966, S. 1 4 3 ff.). Anstelle der Beobachtungswerte werden deren Rangzahlen untersucht. Die Ausgangswerte Xj, x2, ..., xn werden nach dem Absolutbetrag geordnet und durch Rangzahlen ersetzt, die anschließend die ursprünglichen Vorzeichen der Beobachtungswerte erhalten. Mit den Rangzahlen wird der Randomisierungstest durchgeführt, nur daß an Stelle der Summen der x¡ die Summen ihrer Rangzahlen stehen. Der Vorteil ist, daß jetzt die kritischen Regionen für unterschiedliche η und a tabelliert werden k ö n n e n (SIEGEL 1 9 5 6 , S. 2 5 4 ; LIENERT 1 9 6 2 , S. 3 4 7 ) .
Für größere Stichproben (n > 25) ist die Summe der Rangzahlen annähernd normalverteilt, so daß als Schwellenwerte die entsprechenden Quantile der Normalverteilung angesetzt werden können (SIEGEL 1956, S. 79 ff.; SACHS 1968, S. 313). Die Verwendung von Rangwerten anstelle der Beobachtungswerte beeinträchtigt die Teststärke nur unwesentlich. Die relative Wirksamkeit des Rangtests beträgt auch bei kleinen Stichproben niemals weniger als 86 % des auf der Normalverteilung basierenden Tests (PFANZAGL 1 9 6 6 , S. 1 4 6 ) .
4.3.2
Vergleich der Mittelwerte von zwei Stichproben
Große praktische Bedeutung hat die Entscheidung der Frage, ob zwei unabhängige Stichproben aus Gesamtheiten stammen, die in gewissen Punkten, ζ. B. in ihren Mittelwerten, übereinstimmen oder völlig identisch sind (YAMANE 1964, S. 495 ff.; KREYSZIG 1968, S. 2 1 8 f f . ; WEBER 1967, S. 1 8 5 f f . ; PFANZAGL 1966, S. 2 1 0 f f . ) .
x¡,x2,..., x„ sei eine Stichprobe vom Umfang nx aus einer normalverteilten Gesamtheit mit dem Mittelwert μχ und der Varianz a\ und yl,y2,.-.,y„ eine weitere Stichprobe vom Umfang ny aus einer normalverteilten Gesamtheit mit dem Mittelwert ßy und der Varianz a j . Die zu prüfende Nullhypothese lautet Η0:μ.χ
= ßy,
114
6. Band: Statistische
Forschungsstrategien
d. h. beide Stichproben stammen aus Gesamtheiten mit dem gleichen Mittelwert. Die Varianzen können also durchaus differieren. Die Stichprobenmittelwerte χ und y sind normalverteilt mit Mittelwert μχ und Varianz o%/nx bzw. μγ und aj/ny. Da eine Linearkombination unabhängiger normalverteilter Zufallsvariablen wieder normalverteilt ist, hat die Differenz χ — y eine Normalverteilung mit dem Mittelwert μ ν - μ ν und der Varianz al/n Y + a yl / n „y . Die Testgroße lautet (18)
χ—y
r -
'
" nx
ηγ
Sie folgt bei Gültigkeit der Nullhypothese einer standardisierten Normalverteilung, so daß der weitere Testverlauf dem weiter oben beschriebenen Verfahren entspricht. Sind σ | und a j gleich (a\ = o j = σ 2 ), vereinfacht sich die Testgröße zu (19) oT/XTX' * nr nv Gewöhnlich sind allerdings die Varianzen der Gesamtheiten unbekannt, so daß sie aus den Stichproben geschätzt werden müssen. Dabei ist zu unterscheiden, ob die Varianzen übereinstimmen oder nicht. Das kann beispielsweise dadurch geprüft werden, daß man feststellt, ob die Varianzen der Stichproben signifikant voneinander verschieden sind oder nicht. Erscheint die Voraussetzung, daß beide Gesamtheiten die gleiche Varianz aufweisen, unplausibel, tritt das sog. Fisher-Behrens-Problem auf, für das es keine theoretisch einwandfreie Lösung gibt (PFANZAGL 1966; SACHS 1968). Eine Näherungsmethode, die für praktische Zwecke hinreichend genau ist, gibt WELCH (1937; 1947) an. Bei unterstellter gleicher Varianz der beiden Gesamtheiten ist aus den Stichprobenwerten die gemeinsame Varianz
2 Sd
Σ (*,-*)2 ¡=1 =
+ Σ {y i - y ) 2 i=1
nx +
ny-2
als Schätzwert für α 2 zu berechnen. Eingesetzt in Formel (19) folgt als neue Testgröße (20)
t„x+ny_2
X
Sd
~
y
yüi. '
1,
1v
Sie hat bei Gültigkeit der Nullhypothese eine t-Verteilung mit nx + ny — 2 Freiheitsgraden. Stehen nur kleine Stichproben zur Verfügung und fehlt die Voraussetzung normalverteilter Gesamtheiten, muß ein verteilungsfreier Test durchgeführt werden. Mit
4. Kapitel: Statistische Testverfahren
115
ihm kann als Nullhypothese gewöhnlich nur noch die Gleichheit der Gesamtheiten getestet werden, was jedoch auch gleiche Mittelwerte einschließt. Der Randomisierungstest (PITMAN 1937; SCHEFFÉ 1943; SIEGEL 1956, S. 152 ff.; 1966, S. 147 ff.) arbeitet ähnlich wie bei einer einzigen Stichprobe. Bei Gültigkeit der Nullhypothese ist die Aufteilung der nx + ny Stichprobenwerte auf lnx + n \ die beiden Stichproben zufallsbedingt, so daß jede der I ^ I Kombinationen PFANZAGL
der Beobachtungswerte gleichwahrscheinlich ist. Bei einem zweiseitigen Test ergibt sich die kritische Region folglich aus den Kombinationen mit den größten und kleinsten Summen der Beobachtungswerte. Bei einem einseitigen Test sind entsprechend der Alternativhypothese nur die größten oder kleinsten Summen relevant. Auch hier kann die Rechenarbeit durch den Ansatz eines Rangtests wesentlich vereinfacht werden, indem statt der Beobachtungswerte deren Rangzahlen verwendet werden (SIEGEL 1956, S. 116 ff.; PFANZAGL 1966, S. 150 ff.; SACHS 1968, S . 293ff.). Die asymptotische Wirksamkeit dieses Tests, der auch unter dem Namen WilcoxonTest (WILCOXON 1945) oder U-Test von MANN UND WHITNEY (1947) bekannt ist, strebt bei Anwendung auf eine Normalverteilung im Vergleich zum /-Test gegen 9 5 % (MOOD 1954).
Weitere Testverfahren für den Vergleich zweier Stichproben in bezug auf gleiche Gesamtheiten sind der Iterationstest von Wald und Wolfowitz (MOSES 1 9 5 2 ; SIEGEL 1 9 5 6 , S. 1 3 6 ff.), der Test von Kolmogoroff und Smirnoff (BIRNBAUM 1 9 5 2 ; DIXON 1 9 5 4 ; SIEGEL 1 9 5 6 , S. 1 2 7 ff.). Beide Tests reagieren auf Unterschiede jeglicher Art zwischen den beiden Gesamtheiten, ζ. B. Differenzen in der zentralen Tendenz, Streuung, Schiefe usw. Für kleine Stichproben ist der Test von Kolmogoroff und Smirnoff etwas wirksamer als der Test von Wilcoxon. Im Falle verbundener Stichproben kann ebenfalls ein Randomisierungstest (SIEGEL 1 9 5 6 , S . 8 8 ff.; PFANZAGL 1 9 6 6 , S. 1 4 0 ff.) oder der Vorzeichen-Rang-Test von Wilcoxon (MOOD 1 9 5 4 ; PFANZAGL 1 9 6 6 , S. 1 4 3 ff.) verwendet werden. Die relative Wirksamkeit beider Prüfverfahren steht den vergleichbaren parametrischen Tests kaum nach.
4.3.3
Vergleich mehrerer Mittelwerte
Der Vergleich von 2 Mittelwerten kann zu einem Vergleich einer beliebigen Anzahl von Mittelwerten erweitert werden. Gegeben seien k Stichproben x¡2,..., Xjn¡ (J = 1,2,... ,k) mit den Umfangen nl,n2, ••• ,nk, wobei ni + n2 + ··· + nk = η ist. Aufgabe eines Tests ist es, mögliche Unterschiede zwischen den Stichproben zu analysieren und anzugeben, ob sie lediglich Ergebnis von Zufallseinflüssen sind oder auch echte Unterschiede zwischen den Gesamtheiten widerspiegeln. Praktisch das gleiche Problem liegt vor, wenn zwar nur eine Stichprobe vom Umfang η gezogen wird, diese jedoch in k Gruppen nltn2, ···, nk aufgeteilt wird, die man unterschiedlichen Einflüssen oder Behandlungsmethoden unterzieht. Jede Gruppe kann dann als Stichprobe aus einer fiktiven Gesamtheit angesehen werden. Die Nullhypothese lautet, daß die Mittelwerte der Gesamtheiten μ1, μ2, •••, μ* gleich sind, daß also die verschiedenartigen Einflüsse sich im Durchschnitt nicht von-
116
6. Band: Statistische Forschungsstrategien
einander unterscheiden. Die Alternativhypothese sagt, daß einige oder alle μ;· differieren. Zur Überprüfung wird eine Varianzanalyse ( Varianzzerlegung, Streuungszerlegung) durchgeführt, indem die Gesamtvariabilität, die quadrierten Abweichungen der Einzelwerte vom gemeinsamen Mittelwert, in verschiedene Komponenten zerlegt wird (YAMANE 1964, S. 622ff.; KREYSZIG 1968, S. 239ff.; PFANZAGL 1966, S. 223 ff.). Bei der einfachen Varianzanalyse (one-way-analysis of variance, einfache Klassifikation) kann neben den Zufallsschwankungen ein weiterer Einflußfaktor herausgestellt werden. Die doppelte Varianzanalyse (zweifache Klassifikation) erlaubt die Untersuchung von zwei zusätzlichen Veränderungsgrößen. Die Varianzanalyse wurde von FISHER ( 1 9 5 6 , S. 2 1 2 ff.) für biologische Zwecke entwickelt. Sie kann jedoch auf alle Arten experimenteller Ergebnisse, die zu quantitativen Daten führen, angewendet werden (WEBER 1967, S. 229). Neben dem Testen von Hypothesen über die Differenzen zwischen Mittelwerten dient sie auch im Rahmen der Versuchsplanung der Aufspaltung der Gesamtvariabilität in die verschiedenen Variationsursachen und damit letztlich der Reduktion des Versuchsfehlers (-• Bd. V I : Stelzl, Experimentelle Versuchsanordnungen). Voraussetzung für die Anwendung der Varianzanalyse sind normalverteilte Gesamtheiten mit gleichen Varianzen (homoscedasticity). Zur Überprüfung dieser Prämisse kann der Bartlett-Test verwendet werden (WEBER 1967, S. 262 ff.). Ergibt sich hierbei ein signifikanter Unterschied zwischen den einzelnen Stichprobenvarianzen, so daß auf ungleiche Varianzen der Gesamtheiten geschlossen werden kann, liegt das bereits erwähnte Fisher-Behrens-Problem vor, dessen näherungsweise Lösung WELCH (1947) bringt. Zum Zwecke der (einfachen) Varianzanalyse wird die Gesamtvariabilität der η Stichprobenwerte, die Quadratsumme (total sum of squares)
(21) ? = Σ Σ (*/·« ,·=ι ; = ι
zerlegt in die beiden additiven Komponenten (22)
qi
= Σ /=ι
Σ
(*,·,·-^·) 2 ,
;=ι
die Quadratsumme der Abweichungen innerhalb der Stichproben (within sum of squares) und k _ (23) q2 = Σ(χ;-χ)2η;, /=ι die Quadratsumme der Abweichungen zwischen den Mittelwerten (between sum of squares) der Stichproben (KREYSZIG 1968, S. 239 ff.). Hierin ist 1 Xj = — n i _ J χ = — n
Ä 2J xji der Mittelwert der /-ten Stichprobe und ¿=1 k nj Σ Σ xji der Mittelwert aller η Stichprobenwerte. j=l ¡=1
4. Kapitel: Statistische Testverfahren
117
Der Quotient (24)
η η -
1 k nj = —— Σ Σ np0 ist. In ähnlicher Weise wie bei der Binomialverteilung sind auch Tests aufgebaut, wenn die Stichprobenanteilswerte eine Hypergeometrische Verteilung (Ziehen ohne Zurücklegen) oder eine Poissonverteilung haben (PFANZAGL 1966, S. 120 ff.).
4.5.2
Vergleich von zwei Anteilswerten
Sollen die Anteilswerte von zwei unabhängigen Stichproben miteinander verglichen werden, deren Verteilungen mit (44)
/(*i|n1>Pl) = ( " j p í K l - P i ) " 1 - * 1
(45)
f{x2\n2,p2)
= ("j/>220
und
-P2)"2~X2
gegeben sind, lautet die Nullhypothese px = p2. Sie kann mit Hilfe eines von FISHER (1956, S. 98 ff.) entwickelten Tests geprüft werden (SACHS 1968, S. 365 ff.; PFANZAGL 1966, S. 117 ff.). Zu diesem Zweck stellt man die Daten der beiden Stichproben am besten wie in Darstellung 11 zusammen.
Merkmals^\^ausprägung Stichprobe
A
1 Darstellung 11 : Daten für den Vergleich zweier Anteilswerte
A
Σ
"ι - *1
"1
2
*2
"2 - *2
"2
Σ
+x
("1 - * l ) +("2 - x 2)
η
2
4. Kapitel: Statistische Testverfahren
125
re,
Die bedingte Wahrscheinlichkeit von JCJ bei festem χ = x { + x 2 wird bei Gültigkeit der Nullhypothese {p1 = p2) durch die Hypergeometrische Verteilung angegeben:
(46)
f(xi\x,
nl,n2)
=
+ n2
Bei einer Alternativhypothese p ¡ > p 2 ist die kritische Region wieder aus den größten Xj-Werten zu bilden, ohne daß die fixierte Irrtumswahrscheinlichkeit überschritten wird. Zur Ermittlung der kritischen Region werden zweckmäßig Tabellen verw e n d e t (SŒGEL 1 9 5 6 , S. 2 5 6 f f . ; FINNEY 1 9 4 8 ) .
TOCHER (1950) hat nachgewiesen, daß der Test von Fisher durch eine leichte Modifikation zu einem besten Test für Daten einer 2 x 2 Tabelle wird. Anstelle des Tests von Fisher kann auch der χ 2 -Test angewendet werden, sofern η > 20 und die erwarteten Häufigkeiten in der Tabelle > 5 sind (COCHRAN 1954). Der x 2 -Test wird gewöhnlich zum Prüfen der Unabhängigkeit zwischen verschiedenen Merkmalen eingesetzt, er soll deshalb hier nicht näher dargestellt werden (vgl. Abschnitt 4.7.4). Bei größeren Stichproben, die eine Approximation durch die Normalverteilung erlauben, kann auch ein Test verwendet werden, der auf der Normalverteilung basiert. Die Testgröße lautet: (47)
f
\n ι
n2)
Sie ist bei Gültigkeit der Nullhypothese annähernd normalverteilt mit dem Mittelwert 0 und der Varianz 1. ρ ist ein Schätzer für p. Er berechnet sich nach (48)
p = J — J . = - . nl+n2 η
Die Schwellenwerte für die Testgröße ergeben sich aus der standardisierten Normalverteilung. Bei verbundenen
Stichproben
kann für bestimmte Problemstellungen der Test von
MCNEMAR ( 1 9 5 5 , S. 2 2 8 f f . ; SIEGEL 1 9 5 6 , S. 6 3 f f . ) v e r w e n d e t w e r d e n . U m z u p r ü -
fen, ob zwei Einflußfaktoren A und Β wirksam sind oder nicht, werden die η Wer-
Β
wirksam
nicht wirksam
Σ
wirksam
"11
"12
"1.
nicht wirksam
"21
"22
"2.
".1
".2
η
A
Darstellung 12: Angaben für den Test von McNemar
Σ
126
6. Band: Statistische
Forschungsstrategien
tepaare (bei einem internen Vergleich die η Einheiten) in einer 2 x 2 Tabelle aufgegliedert (Darstellung 12). Wären beide Faktoren gleich wirksam, müßte die Wahrscheinlichkeit, daß A wirksam und Β unwirksam ist, gleich der Wahrscheinlichkeit sein, daß A unwirksam und Β wirksam ist. Dies ist auch die zu prüfende Nullhypothese. Da
"12 "21 Gesamtzahl der Einheiten ist, bei denen die Faktoren unterschiedliche Wirkungen zeigen, ist die erwartete Häufigkeit für beide Fälle bei Gültigkeit der Nullhypothese ( n u + w2i )/2· Für den Fall, daß jede der erwarteten Häufigkeiten mindestens 5 beträgt, ist die Testgröße (49)
"12 + "21
bei Gültigkeit der Nullhypothese annähernd x 2 -verteilt mit 1 Freiheitsgrad. Die Annäherung an die χ 2 -Verteilung wird besser, wenn eine Stetigkeitskorrektur durchgeführt wird. Die Testgröße lautet dann (50)
4.5.3
, xl
=
(|n,-, - n-y, I — l)2 "-LJ1 211 L .
"12 + «21
Vergleich von mehreren Anteilswerten
Zur Überprüfung der Nullhypothese, daß k unabhängige Stichproben der Umfänge n¡ mit den Anteilswerten p¡ (j = 1 , 2 , . . . , k) aus einer Gesamtheit mit dem gleichen Anteilswert ρ stammen, kann der x2-Test verwendet werden (SIEGEL 1956, S. 1 7 5 f f . ; LIENERT 1 9 6 2 , S. 8 8 f f . ) .
Sind die Bedingungen für die Approximation der Binomialverteilung durch die Normalverteilung gegeben, kann die Nullhypothese auch mit folgender Testgröße überprüft werden (HALD 1960, S. 711 ff.): (51)
XU
=
- j — i * i ( p i - p )
Ρ Ι1 —Ρ) i = 1
2
·
Hierin bedeutet k
k Σ
(52)
Σ i=1
n
iPi
Σ xi k
n Σ i i=1
einen Schätzwert für den unbekannten Anteilswert ρ der Gesamtheit. Die Testgröße ist bei Gültigkeit der Nullhypothese annähernd χ 2 -verteilt mit k — 1 Freiheitsgraden. Um zu erfahren, welchen Anteil jede von k Stichproben zum Wert der Testgröße beiträgt, wird für alle Stichproben zweckmäßigerweise die Größe
4. Kapitel: Statistische Testverfahren
(53)
127
/ ' - Ρ
1f f ö ^ f )
berechnet, die asymptotisch nach Ν (0, 1) verteilt ist. Bei verbundenen Stichproben kann mit Hilfe des Q-Tests von COCHRAN ( 1 9 5 0 ; S. 2 3 2 ff.; SIEGEL 1 9 5 6 , S. 1 6 1 ff.) geprüft werden, ob mehrere Stichproben aus Gesamtheiten mit gleichen Anteilswerten kommen. Dieser Test stellt eine Verallgemeinerung des Tests von McNemar für 2 verbundene Stichproben dar. MCNEMAR 1 9 5 5 ,
4.6
Testen von Verteilungen
4.6.1
Tests für Verteilungstypen
Testverfahren können auch verwendet werden, um Annahmen über die Art der Verteilung einer Gesamtheit zu prüfen. Getestet wird die Hypothese, daß eine Zufallsvariable χ eine bestimmte Verteilungsfunktion F(x) aufweist. Als Näherung für F(x) kann die Verteilungsfunktion F(x) einer Zufallsstichprobe angesehen werden, wobei zu überprüfen ist, ob die Abweichungen zwischen F(x) und F(x) als zufällig angesehen werden können oder signifikant sind. Man spricht hier von einem Anpassungstest, da untersucht wird, wie genau sich F(x) einer angenommenen Verteilungsfunktion anpaßt (KREYSZIG 1 9 6 8 , S . 2 2 8 f f . ; SACHS 1 9 6 8 , S . 3 1 9 ff.). Zur Anwendung des χ 2 -Tests wird der Wertebereich von χ in m Klassen (Merkmalsausprägungen) eingeteilt, in die die Stichprobenwerte gruppiert werden. Dabei ist n¡ (ι = 1 , 2 , . . . , m) die Besetzungszahl der /-ten Klasse. Auf Grund der hypothetischen Verteilung lassen sich für die m Klassen Wahrscheinlichkeiten Pj angeben, die, multipliziert mit dem Stichprobenumfang n, theoretische (erwartete) Besetzungszahlen ergeben. Die Testgröße lautet ,54,
m
=
¿tí
npi
Sie folgt bei Zutreffen der Nullhypothese annähernd einer χ 2 -Verteilung mit m — 1 Freiheitsgraden. Die Nullhypothese, daß χ eine bestimmte Verteilung besitzt, wird abgelehnt, wenn bei vorgegebener Aussagewahrscheinlichkeit 1 - a der Wert der Testgröße den Quantilwert χ\_α m _, einer x 2 -Verteilung mit m — 1 Freiheitsgraden übersteigt. Da die Testgröße nur annähernd χ 2 -verteilt ist, sollte die Klassifizierung so gewählt werden, daß np¡ > 5 ist für alle i. Das läßt sich im Einzelfall durch die Zusammenfassung von zwei benachbarten Klassen erreichen. Wenn die zu testende Verteilungsfunktion r Parameter enthält, deren Werte unbekannt sind, müssen zunächst ihre Schätzer mit Hilfe der Maximum-Likelihood-Me-
128
6. Band: Statistische Forschungsstrategien
thode bestimmt werden. Dadurch reduziert sich die Anzahl der Freiheitsgrade auf m—r — 1. Bei der Anwendung des χ 2 -Tests ist Vorsicht geboten, da das Ergebnis vdn der Klassifizierung abhängt und außerdem die Richtung der Abweichungen nicht berücksichtigt wird. Der Test sollte deshalb möglichst durch eine Untersuchung über die Zufälligkeit der Iterationen der Abweichungen ergänzt werden (KREYSZIG 1968, S. 337 ff.). Ein weiterer Test zur Prüfung von Verteilungstypen ist der Kolmogoroff-SmirnoffTest, der allerdings streng genommen nur für stetige Verteilungen gilt (SIEGEL 1956, S. 47 ff.; SACHS 1968, S. 326 ff.). Dieser Test ist bei kleinen Stichproben etwas wirksamer als der χ 2 -Test.
4.6.2
Vergleich der Verteilungen mehrerer Stichproben
Beim Vergleich der Verteilungen von k unabhängigen Stichproben mit den Umfängen nl,n1, •·•, nk wird geprüft, ob die Stichproben aus der gleichen Verteilung eines bestimmten Typs stammen. Auch hier kann der x 2 -Test verwendet werden. Die Verteilungen werden einheitlich nach m Merkmalsausprägungen klassifiziert, denen die Stichprobenwerte zugeordnet werden. Stichprobe Nr.
Merkmalsausprägung 1 2 ... i ... m
1 2
"11 "12 · • "li · • "Im "21 "22 · • "2/ · • "2m
/
"/ι
k
n
k\
"¿2 • • "ki ···
".1
".2
Darstellung 13: Vergleich der Verteilungen von k Stichproben
"1. "2.
• "// · • "/m
n
km
k
Σ
i=1
n
ji
Die Wahrscheinlichkeiten für die m Ausprägungen sind pi,p2, Stichprobe gilt (55)
m
Σ η ¡=1ϋ
n
.m
η
..., pm . Für die /-te
™ (» _ m PA 1 Xm — 1 = Σ "n „ ' ' • í=i
jPi
Die Variable ist bei Gültigkeit der Hypothese, daß die /-te Stichprobe aus der angenommenen Gesamtheit stammt, χ 2 -verteilt mit m — 1 Freiheitsgraden (vgl. Anpassungstest bei einer Stichprobe). Wegen der Unabhängigkeit ergibt sich für alle k Stichproben die Variable
4. Kapitel: Statistische Testverfahren
129
die bei Gültigkeit der Nullhypothese χ 2 -verteilt ist mit k (jn - 1) Freiheitsgraden. Da die Wahrscheinlichkeiten p¡ jedoch gewöhnlich unbekannt sind, werden an ihrer Stelle die Maximum-Likelihood-Schätzer p¡ = n jn verwendet. Von den insgesamt m Wahrscheinlichkeiten p, sind jedoch nur m- 1 zu schätzen - der m-te Wert ergibt sich automatisch —, so daß sich die Anzahl der Freiheitsgrade von k { m - 1) auf k (m — 1 ) - (m — 1 ) = (k — 1 ) (m — 1 ) reduziert. Folglich lautet die Testgröße
n die χ 2 -verteilt ist mit (k — 1) (m - 1) Freiheitsgraden. Soll die Hypothese geprüft werden, daß k verbundene Stichproben aus derselben Gesamtheit stammen, kann die Rangvarianzanalyse von FRIEDMAN (1937) verwendet werden (SACHS 1968, S . 5 2 7 f f . ; SIEGEL 1956, S . 166 ff.). Da Rangzahlen an die Stelle der Beobachtungswerte treten, müssen jedoch zumindest komparative Merkmale vorliegen. Ist lediglich die Hypothese zu testen, daß mehrere Stichproben aus gleichen Verteilungen stammen, wobei der Verteilungstyp irrelevant ist, können die Testverfahren verwendet werden, die zum Vergleich von Mittelwerten geeignet sind. Hierbei ist allerdings zu prüfen, welche Daten im Einzelfall erforderlich sind und welche Informationen a priori bekannt sein müssen.
4.7
Testen von Zusammenhängen
Die Abhängigkeit zwischen mehreren Merkmalen einer Gesamtheit läßt sich mit Hilfe der Regressions- und/oder Korrelationsanalyse ermitteln. Da in der Praxis niemals sämtliche Einflußfaktoren gemessen werden können, besteht zwischen den untersuchten Merkmalen kein funktionaler, sondern ein korrelativer Zusammenhang. Es ist nur möglich, einen Teil der Veränderungen durch das Zusammenwirken der herausgestellten Merkmale zu erklären. Die Korrelation quantifiziert die Stärke des Zusammenhanges durch den Korrelationskoeffizienten. Bei der Regression wird die Abhängigkeit mit Hilfe einer Regressionsfunktion wiedergegeben, die nach Art des unterstellten Zusammenhanges linear ist oder ein Polynom höherer Ordnung bildet. Grafisch ergibt sich die Regressionskurve, deren Steigungsmaß durch den oder die Regressionskoeffizienten bestimmt wird. Eine Regressionsanalyse wird gewöhnlich dann durchgeführt, wenn die Abhängigkeit zwischen den Merkmalen eine bestimmte Richtung besitzt, wenn ζ. B. Merkmal A von Merkmal Β beeinflußt wird, nicht aber umgekehrt Β von A. Die Korrela-
130
6. Band: Statistische Forschungsstrategien
tionsrechnung dagegen mißt die wechselseitige Beeinflussung der Merkmale (-• Bd. V I I : Höhmann und van Koolwijk, Deskriptive Methoden 2.6). 4.7.1
Tests für Regressionskoeffizienten
Untersucht wird die Abhängigkeit eines Merkmals y von einem Merkmal χ an Hand einer Stichprobe ( x ^ . ^ ) , ( x 2 , y · · • > ( V n ) (YAMANE 1964, S. 368ff.; WEBER 1967, S. 327 ff.; KREYSZIG 1968, S. 258 ff.). Jedes der η Elemente der Stichprobe ist also durch zwei Merkmalswerte gekennzeichnet. Es wird vorausgesetzt, daß y für jeden festen Wert von χ normalverteilt ist mit dem Mittelwert (58)
ßyx=a+bx
und der gleichen Varianz σ 2 . Zwischen den Mittelwerten von y und den jeweiligen Werten von χ besteht also eine funktionale Abhängigkeit, die als Regressionsfunktion bezeichnet wird und die hier eine lineare Gestalt hat. a und b sind die Regressionskoeffizienten, von denen b die größere Bedeutung besitzt, da er die Veränderung von y aufgrund einer Änderung von χ angibt. Schätzer für die Regressionsfunktion der Gesamtheit ist die aus der Stichprobe berechnete Funktion (59)
y = a + bx η
mit
b =
Σ (*>-*) (y¡-y)
——-
Σ ¡=1
und
a = y+ b x,
2
(*i-*)
wobei χ und y die Mittelwerte der x- bzw. y-Werte der Stichprobe sind. Soll die Hypothese, daß y von χ unabhängig ist, d. h. der Regressionskoeffizient b = 0 gegen die Alternative b Φ 0 getestet werden, muß die Testgröße (60)
t„_
2
= i j/ ¿
(Χι_ϊ)2
berechnet werden, die bei Gültigkeit der Nullhypothese einer t-Verteilung mit η —2 Freiheitsgraden folgt. Hierin ist " / ς s =
/ ί = 1 η — 2,
die Standardabweichung der y¡ der Stichprobe um die Regressionsgerade. Sie wird als Schätzer für das unbekannte σ der Gesamtheit benötigt. Die Nullhypothese wird angenommen, wenn bei vorgegebener Aussagewahrscheinlichkeit 1 —α der Wert der Testgröße zwischen den Quantilen < a /2, n -2 und
4. Kapitel: Statistische Testverfahren
131
t\-ai2,n-2 einer /-Verteilung mit η — 2 Freiheitsgraden liegt. Ist der Stichprobenumfang groß genug (in der Regel η > 30), kann die i-Verteilung mit ausreichender Genauigkeit durch die Normalverteilung ersetzt werden. In diesem Fall lautet die Testgröße (61) Sie ist annähernd verteilt nach Ν (0,1 ). Eine weitere Möglichkeit zum Testen eines Regressionskoeffizienten besteht in einer Varianzanalyse (KREYSZIG 1 9 6 8 , S . 2 8 3 ff.). Vor der Berechnung der Regressionsfunktion sollte (grafisch) überprüft werden, welcher Funktionstyp den Zusammenhang zwischen den Merkmalswerten am besten wiedergibt, ob beispielsweise eine lineare Relation unterstellt werden kann. Bestehen darüber Zweifel, kann ein Test auf Linearität durchgeführt werden. Das Prüfverfahren ist eine Streuungszerlegung (WEBER 1967, S. 339ff.; KREYSZIG 1968, S. 286 ff.). Die Annahme der Hypothese der Linearität bedeutet allerdings nicht, daß eine Gerade die einzige oder auch nur die beste Form der Regressionsfunktion ist. Bei unterstellter nichtlinearer Regression läßt sich die Hypothese der Unabhängigkeit zwischen den Merkmalen analog zum Test des Regressionskoeffizienten bei linearem Ansatz prüfen. Entsprechend dem Grad des verwendeten Polynoms reduziert sich lediglich die Anzahl der Freiheitsgrade (KREYSZIG 1 9 6 8 , S. 2 9 6 ff). Bei zwei unabhängigen Stichproben mit den Regressionskoeffizienten b' und b" kann die Hypothese getestet werden, ob die Stichproben aus Gesamtheiten mit gleichem Regressionskoeffizienten b stammen (WEBER 1 9 6 7 , S. 2 9 6 ff.). Häufig besteht Grund zu der Annahme, daß y nicht nur von einem, sondern von ρ Merkmalen wesentlich beeinflußt wird. Bei unterstellter linearer Beziehung hat die Regressionsgerade der Gesamtheit die Form (62)
n,.,ltX2
Xp
= a + èjjtj + b2x2
+
··· + bpXp-
Kann vorausgesetzt werden, daß y für jede feste Wertegruppe der ρ Variablen normalverteilt ist mit der gleichen Varianz σ 2 , liefert eine Stichprobe Schätzwerte für die unbekannten Regressionskoeffizienten. Mit ihnen kann die Hypothese geprüft werden, daß die Regressionskoeffizienten der Gesamtheit Φ 0 sind. Hierzu wird ebenfalls ein F-Test verwendet (WEBER 1967, S. 347 ff.; H A L D 1960, S. 638 ff.).
4.7.2
Tests für Korrelationskoeffizienten
Die Stärke des Zusammenhanges zwischen mehreren Merkmalen (Variablen) wird durch die Korrelationsrechnung bestimmt. Der Korrelationskoeffizient (nach Pearson und Bravais) zwischen zwei Zufallsvariablen χ und y ist definiert als (63)
ρ =
mit a x y = E [ ( x - μ*) Ο - μ ^ ) ] , der Kovarianz,
132
6. Band: Statistische Forschungsstrategien
und Ol =
Ε[(χ-μχΫ],
aj = E [(y - μ y)1 ], den Varianzen der beiden Variablen. Die beiden Merkmale sind unkorreliert, wenn sie voneinander unabhängig sind. Der Korrelationskoeffizient hat dann den Wert 0. Er ist jedoch nur in der Lage, eine lineare Abhängigkeit zu messen (KREYSZIG 1968, S. 308). Weist die Gesamtheit eine zweidimensionale Normalverteilung auf, ist der Korrelationskoeffizient r einer Stichprobe vom Umfang η (64)
r = f^L· SxSy
mit Sxy =
1/ ι η-1
Σ (x¡ - χ ) (y¡ - y ) , der Kovarianz, ,=ι
und
sj =
η
-
η
—
ι
i=1
1
i=1
1
"
ΣΟ,·—
_ y)2,
den Varianzen der Stichprobenwerte,
ein Schätzer für den Koeffizienten ρ der Gesamtheit. Er kann verwendet werden, um eine bestimmte Hypothese über ρ zu testen, ζ. B. die Nullhypothese ρ = 0 gegen die Alternative ρ Φ 0. Als Testgröße ergibt sich (65)
,„_2
= r y —
die bei Gültigkeit der Nullhypothese einer /-Verteilung mit η — 2 Freiheitsgraden folgt. Bei diesem Test spielt der Stichprobenumfang eine große Rolle, da r bei kleinem η relativ groß werden muß, damit die Nullhypothese abgelehnt werden kann. Zur Prüfung der Hypothese, daß die Korrelationskoeffizienten rl und r2 zweier unabhängiger Stichproben aus Gesamtheiten mit gleichem Korrelationskoeffizienten (pj = p 2 ) stammen, dient wiederum ein /-Test. Zunächst sind jedoch rl und r2 der z-Transformation von Fisher zu unterziehen (WEBER 1 9 6 7 , S. 3 7 4 f . ) . Soll ein linearer Zusammenhang zwischen mehr als zwei Zufallsvariablen getestet werden, muß die Gesamtheit eine mehrdimensionale Normalverteilung aufweisen. Der multiple Korrelationskoeffizient mißt die gegenseitige Abhängigkeit aller Variablen, der partielle Korrelationskoeffizient die Abhängigkeit zwischen jeweils 2 Variablen unter Ausschaltung des Einflusses der übrigen Faktoren. Auch für diese Fälle können Hypothesen aufgestellt und überprüft werden (WEBER 1 9 6 7 , S. 3 7 3 ff.; CRAMER 1946, S. 41 Off.).
4. Kapitel: Statistische Testverfahren
4.7.3
133
Tests für Rangkorrelationen
Ist die Voraussetzung der Normalverteilung nicht haltbar, liegen jedoch zumindest komparative Merkmale vor, können Rangkorrelationen berechnet werden (SIEGEL 1 9 5 6 , S. 2 0 2 f f . ; LIENERT 1 9 6 2 , S . 1 9 4 f f . ; SACHS 1 9 6 8 , S. 3 8 8 f f . ) .
Zur Ermittlung Acs Rangkorrelationskoeffizienten von Spearman werden die Beobachtungswerte von χ und y in Rangzahlen umgewandelt und die Differenzen inzwischen den beiden Rangzahlen eines jeden Wertepaares x¡,y¡ (i = 1, 2 , . . . , η) bestimmt. Der Korrelationskoeffizient ist definiert als η e l d f ¿=1 Wird rs aus einer Zufallsstichprobe berechnet, ist die Hypothese zu testen, daß zwischen den beiden Merkmalen Unabhängigkeit besteht, daß rs also nur zufallsbedingt von 0 abweicht. Für kleine Stichproben kann die Wahrscheinlichkeit für das Auftreten bestimmter Werte von rs an Hand der Permutationen der Rangzahlen ermittelt werden, sofern keine Tabellen (Ζ. B. WETZEL U.A. 1 9 6 7 , S. 3 2 f., 1 4 1 ) greifbar sind. Bei größeren Stichproben (n > 8) läßt sich die Nullhypothese mit Hilfe der Testgröße (67)
überprüfen, die annähernd ¿-verteilt ist mit η — 2 Freiheitsgraden (KENDALL 1948, S. 3 9 9 ff.). Ähnlich wie der Koeffizient von Spearman arbeitet auch der Rangkorrelationskoeffizient von KENDALL ( 1 9 4 8 , S. 3 9 1 ff.). Beide besitzen die gleiche Teststärke, da sie die gleichen Informationen verwenden. Ihre relative Wirksamkeit beträgt 91 %, gemessen am Test für den Korrelationskoeffizienten r einer zweidimensionalen Normalverteilung. Für den Fall schließlich, daß mehrere Merkmale auf ihre Abhängigkeit hin untersucht werden sollen, kann der Konkordanzkoeffizient von KENDALL ( 1 9 4 8 , S. 410 ff.) berechnet und getestet werden. 4.7.4
Test einer Kontingenztabelle
Die Hypothese der Unabhängigkeit zwischen zwei Merkmalen kann in allgemeiner Form durch den x2-Test überprüft werden. Hierfür sind keine Voraussetzungen über die Art und Verteilung der Merkmale erforderlich (SIEGEL 1 9 5 6 , S . 4 2 ff.; PFANZAGL 1 9 6 6 , S . 1 7 7 f f . ; SACHS 1 9 6 8 , S. 4 6 0 f f . ) .
Gegeben sei eine Stichprobe von η Einheiten, die durch zwei Merkmale mit insgesamt m bzw. k Ausprägungen charakterisiert sind. n¡¡ (/ = 1 , 2 , ...,m,j= 1 , 2 , . . . , k) ist die Anzahl der Elemente in der Stichprobe, die die /-te Ausprägung des 1. und die /'-te Ausprägung des 2. Merkmales aufweisen. Die Stichprobenwerte können in einer Kontingenztabelle
aufgegliedert werden.
134
6. Band: Statistische Forschungsstrategien
^ ^ \ A u s p r ä g u n g des Merkmals Ausprägung^\^_ des 1. Merkmals
Darstellung 14: Kontingenztabelle zur Prüfung der Unabhängigkeit zwischen zwei Merkmalen
1
2
..
i
··
k
Σ Ή) /'= ι
1
"11 "12 •
" y · • "l k
"1.
2
"21 "22 ·· • "2/ - • n2k
"2.
i
"il
m
"ml "m2 ••
m Σ «ν i=l
".1
"ι2
".2
• nik .
·
"mj · • nmk
•
• n.k
"ι.
"m. η
Die Wahrscheinlichkeiten für die m Ausprägungen des 1. Merkmales sind ργ , Pl., ··•. Pm die effektiven Besetzungszahlen in der Stichprobe «]., n2.,... ,nm.. Analog sind die Wahrscheinlichkeiten für das 2. Merkmal ρΛ, p_2, ••·, mit den Besetzungszahlen η Λ , η _ 2 , - , n . k . Wenn die beiden Merkmale voneinander unabhängig sind, ist die Wahrscheinlichkeit für das gleichzeitige Auftreten der /'-ten Ausprägung des 1. und der /'-ten Ausprägung des 2. Merkmales nach dem Multiplikationstheorem (68)
pjj = P i P j .
Als Schätzer für diese Wahrscheinlichkeiten ergeben sich nach der Maximum-Likelihood-Methode (69)
pL
=
(70)
p.,
= n.j/n,
(71)
Pij
njn, so daß 2
= η,Ά,/η .
Die Anzahl der erwarteten Einheiten ist folglich np¡¡ = n¡ n ^n. Die Testgröße n¡ η m X(m-l)(fc-l)
=
k
Σ Σ ;=ι /=ι
ist annähernd χ 2 -verteilt mit im — 1) (k — 1) Freiheitsgraden. Der Wert der Testgröße entscheidet lediglich über die Annahme oder Ablehnung der Nullhypothese, keinesfalls ist er Ausdruck der Stärke des Zusammenhanges. Hierzu ist der Kontingenzkoeffizient von Pearson zu berechnen, der auf dem Wert der oben berechneten Testgröße aufbaut ( S I E G E L 1956, S . 196 ff.; SACHS 1968, S. 467 ff.; PAWLIK 1959).
4. Kapitel: Statistische Testverfahren
135
Literaturverzeichnis AHRENS, H . , BARTLETT,
Varianzanalyse, Berlin — Oxford — Braunschweig
1968.
M. S., The use of transformations, in: Biometrics 3, 1947, S. 39 - 52.
Grundbegriffe der Wahrscheinlichkeitsrechnung und statistische Methodenlehre, Würzburg - Wien 1968.
BASLER, H . ,
Numerical tabulation of the distribution of Kolmogoroff's statistic for finite sample values, in: Journal of the American Statistical Association 47, 1952, S. 4 2 5 - 4 4 1 .
BIRNBAUM, Z . W . ,
Box,
G . E . P. UND S . L . A . ANDERSEN, Permutation theory in the derivation of robust criteria and the study of departures from assumption, in: Journal of the Royal Statistical Society Β 17, 1955, S. 1-26.
Box, G. E. P. UND D. R. Cox, An analysis of transformations, in: Journal of the Royal Statistical Society A 26, 1964, S. 211 - 244. W. G . , Some consequences when the assumptions for the analysis of variance are not statisfied, in: Biometrics 3, 1947, S. 2 2 - 3 8 .
COCHRAN,
W. G . , The comparison of percentages in matched samples, in: Biometrika 37, 1950, S. 256-266.
COCHRAN,
W. G . , Some methods for strengthening the common x 2 -tests, in: Biometrics 10, 1954, S. 417-451.
COCHRAN,
CRAMER, H . , DIXON, W . J . ,
Mathematical Methods of Statistics, Princeton
1946.
Analysis of extreme values, in: Annals of Mathematical Statistics
21,
1 9 5 0 , S. 4 8 8 - 5 0 6 .
Power under normality of several nonparametric tests, in: Annals of Mathematical Statistics 25, 1954, S. 610-614.
DIXON, W . J . ,
Operating characteristics for the common statistical tests of significance, in: Annals of Mathematical Statistics 17, 1946, S. 178-197.
F E R R I S , C . D . , F . E . GRUBBS UND C . L . WEAVER,
J., The Fisher-Yates test of significance in 2 Biometrika 35, 1948, S. 145-156.
FINNEY, D .
FISHER,
R.
Α.,
Χ
2 contingency tables, in:
Statistische Methoden für die Wissenschaft, London
12.
Aufl.
1956.
A. UND F . YATES, Statistical tables for biological, agricultural and medical research, London 5. Aufl. 1957.
FISHER, R .
A. S., Nonparametric methods in statistics, New York — London — Sydney 4. Aufl. 1965.
FRASER, D .
The use of ranks to avoid the assumption of normality implicit in the analysis of variance, in: Journal of the American Statistical Association 32, 1937, S. 675-701.
FRIEDMAN, M . ,
F. E., Sample criterion for testing outlying observations, in: Annals of Mathematical Statistics 21, 1950, S. 27-58.
GRUBBS,
Statistical theory with engineering applications, New York — London 4. Aufl. 1960a.
HALD, Α . ,
136
6. Band: Statistische
HALD,
Forschungsstrategien
Α., Statistical tables and formulas, New York — London 3. Aufl. 1960b. M. G., The advanced theory of statistics, Bd. 1, London 4. Aufl. 1948.
KENDALL,
KREYSZIG, E . ,
Statistische Methoden und ihre Anwendungen, Göttingen
3.
Aufl.
1968. W. H., A nonparametric test for the several sample problem, in: Annals of Mathematical Statistics 23, 1952, S. 525-540.
KRUSKAL,
A. WALLIS, Use of ranks in one criterion variance analysis, in: Journal of the American Statistical Association 47, 1952, S. 583-621.
KRUSKAL, W . H . UND W .
LEHMANN,
E.
L.,
Testing statistical hypotheses, New York 4. Aufl. 1966.
Robust tests for equality of variances, in: T . OLKIN U. A. (Hrsg.), Contributions to probability and statistics, Essays in honor of Harold Hotelling, Stanford 1960, S. 278-292.
LEVENE, H . ,
G. 1962.
LIENERT,
Α.,
Verteilungsfreie Methoden in der Biostatistik, Meisenheim a. Glan
Α., Statistische Methoden für Naturwissenschaftler, Mediziner und Ingenieure, Basel und Stuttgart 4. Aufl. 1964.
LINDER,
MCNEMAR,
Q., Psychological statistics, New York 2. Aufl. 1955.
On a test wether one of two random variables is stochastically larger than the other, in: Annals of Mathematical Statistics 18, 1947, S. 50-60.
MANN, Η . B . UND D . R . WHITNEY,
MENGES,
G., Grundriß der Statistik, Teil
I:
Theorie, Köln - Opladen
1968.
On the asymptotic efficiency of certain non-parametric two-sample tests, in: Annals of Mathematical Statistics 25, 1954, S. 514-522.
MOOD, Μ . ,
L. E., Non-parametric statistics for psychological research, in: Psychological Bulletin 49, 1952, S. 122-143.
MOSES,
NEYMAN,
J., First course in probability and statistics, New York 1950.
OWEN, D . B . ,
Handbook of statistical tables, Reading, Mass. — Palo Alto — London
1962. Der maximale Kontingenzkoeffizient im Falle nichtquadratischer Kontingenztafeln, in: Metrika 2, 1959, S. 150-166.
PAWLIK, K . ,
PFANZAGL, J . ,
Allgemeine Methodenlehre der Statistik, Bd.
2,
Berlin
2.
Aufl.
1966.
E. J. G., Significance tests which may be applied to samples from any populations, in: Journal of the Royal Statistical Society 4, 1937, S. 119-130.
PITMAN,
C., Ausgewählte parameterfreie Prüfverfahren im 2 - u n d k-Stichprobenfall, in: Metrika 1 2 , 1 9 6 7 / 1 9 6 8 , S. 1 8 9 - 2 0 4 und Metrika 1 3 , 1 9 6 8 , S. 1 7 - 7 1 .
RYTZ,
L., Statistische Auswertungsmethoden, Berlin — Heidelberg — New York 1968.
SACHS,
Statistical inference in the non-parametric case, in: Annals of Mathematical Statistics 14, 1943, S. 305-332.
SCHEFFÉ, H . ,
R., Probability and statistics for business decisions, New York — Toronto - London 1959.
SCHLAIFER,
4. Kapitel:
Statistische
Testverfahren
137
Nonparametric statistics for the behavioral sciences, New York — Toronto - London 1956.
SIEGEL, S . ,
S. UND J. W. TUKEY, A nonparametric sum of ranks procedure for relative spread in unpaired samples, in: Journal of the American Statistical Association 55, 1960, S. 429-445.
SIEGEL,
Columbia University (Hrsg.), Sequential Analysis of statistical data: applications, New York 3. Aufl. 1957.
STATISTICAL RESEARCH GROUP,
K. D., Extension of the Neyman-Pearson theory of tests to discontinuos variates, in: Biometrika 37, 1950, S. 130-144.
TOCHER,
Less vulnerable confidence and significance procedures for location based on a single sample, in: Sankhya A 25, 1963, S. 331-353.
T U K E Y , J. W. UND D . H . M C L A U G H L I N ,
Sequential tests of statistical hypotheses, in: Annals of Mathematical Statistics 16, 1945, S. 117-186.
WALD, Α . ,
WALD, Α . , WEBER, E . ,
Sequential analysis, New York — London
5.
Aufl.
Grundriß der biologischen Statistik, Stuttgart
6.
1959.
Aufl.
1967.
B. L., The significance of the difference between two means when the population variances are unequal, in: Biometrika 29, 1937, S. 350-362.
WELCH,
, B. L., The generalization of "Student's" problem when several different population variances are involved, in: Biometrika 34, 1947, S. 28-35.
WELCH
WETZEL, W . , M .
D.
JÖHNK UND P . N A E V E ,
Statistische Tabellen, Berlin
1967.
Individual comparison by ranking methods, in: Biometrics 1, 1945, S. 80-83.
WILCOXON, F . ,
Probability tables for individual comparisons by ranking methods, in: Biometrics 3, 1947, S. 119-122.
WILCOXON, F . ,
T., Mathematics for economists, an elementary survey, Englewood Cliffs, N . J . 1962.
YAMANE,
T., Statistics, an introductory analysis, New York — London — Tokyo 1964.
YAMANE,
5.
Experimentelle Versuchsanordnungen von Ingeborg Stelzl
5.1
Einleitung
5.1.1
Grundbegriffe varianzanalytischer Versuchspläne
Experimente werden durchgeführt, um Fragen zu beantworten; genauer gesagt, um Hypothesen über Abhängigkeiten zwischen Variablen zu prüfen. Diese Hypothesen können einer hochentwickelten Theorie entstammen, wobei das Experiment darauf abzielt, diese Theorie oder Teile davon zu falsifizieren oder zu bestätigen (Entscheidungsexperiment). Oder aber es liegen auf dem Sachgebiet noch relativ wenig Gesichertes und keine etablierten Theorien vor: dann werden auch die Hypothesen, unter denen das Experiment durchgeführt wird, unbestimmter sein, und das Experiment dient dazu, die Ausgangshypothesen zu präzisieren und Hinweise für eine sachadäquate Theorienbildung zu liefern (Erkundungsexperiment), die dann ihrerseits Grundlage für neue Experimente mit präziseren Vorhersagen ist. Schließlich gibt es auch Experimente, die nicht zur Entscheidung über eine inhaltliche Hypothese durchgeführt werden, sondern um die Validität eines Meßinstruments oder einer Forschungsmethode auf einem neuen Anwendungsgebiet zu untersuchen (Methodenexperiment). Man kann die meisten Experimente, je nach der primären Zielsetzung des Experimentators, einer dieser drei Kategorien zuordnen, wobei jedoch der Versuch, eine scharfe Trennungslinie zu ziehen, von der Sache her weder adäquat noch lohnend erscheint. Allgemeine, für die Interpretation empirischer Daten charakteristische Schlußweisen wurden schon vor der Entwicklung der modernen Experimentiertechnik von dem englischen Philosophen John Stuart Mill formuliert. Er unterscheidet folgende Methoden der Kausalanalyse: 1. Die Methode der Übereinstimmung (method of agreement): Wenn beim wiederholten Auftreten eines Ereignisses in verschiedenen Situationen jeweils nur ein Umstand gemeinsam ist, so ist dieser Umstand Bedingung für das Auftreten des Ereignisses. 2. Die Methode des Unterschieds (method of difference): Wenn zwei Situationen einander bis auf einen Umstand gleichen und ein bestimmter Effekt in der einen Situation auftritt, nicht aber in der anderen, so ist jener Umstand Bedingung für das Auftreten dieses Effekts. 3. Beide Methoden können einander ergänzend und kontrollierend verwendet werden (joint method of agreement and difference). 4. Die Methode der begleitenden Variation (method of concomitant variation): Wenn ein Phänomen sich immer dann in bestimmter Weise verändert, wenn sich ein anderes in bestimmter Art verändert, so ist es entweder Ursache oder Wirkung dieses Phänomens oder mit ihm auf andere Art kausal verknüpft.
5. Kapitel: Experimentelle Versuchsanordnungen
139
In den Sozialwissenschaften geht man gewöhnlich von der Annahme aus, daß jede Variable von sehr vielen anderen Variablen abhängig ist, so daß man keine eindeutige Zuordnung im Sinne einer einfachen Kausalrelation erhält. Durch die planmäßige Kontrolle einer Variablen wird lediglich der Bereich, in dem die andere Variable variiert, mitvariiert. Läßt man ζ. B. Personen Wortlisten unterschiedlicher Länge lernen, so werden die Lernleistungen stärker variieren, als wenn die Wortlisten gleich lang sind. Ein Teil der Variation der Variablen "Lernleistung" geht auf die Variable "Listenlänge" zurück, ist also durch diese Variable zu "erklären", während die noch immer vorhandene Restvariabilität (etwa durch Unterschiede zwischen den Personen, Unterschiede in der Vertrautheit der Wörter auf der Liste usw. bedingt) als "noch nicht erklärt" zu betrachten ist. Der Gedanke der Zerlegung der Gesamtvarianz in additive Komponenten - in einen durch die planmäßig variierten Versuchsbedingungen geklärten Anteil und eine unaufgeklärte Restvarianz — ist ein Grundgedanke der von Ronald A. Fischer initiierten und seither vielfältig weiterentwickelten varianzanalytischen Versuchspläne. Für die Interpretierbarkeit der Daten ist jedoch immer entscheidend, ob nicht außer den planmäßig variierten Bedingungen auch andere unbeabsichtigt mitvariiert wurden, so daß der beobachtete Effekt möglicherweise auf jene anderen Bedingungen zurückgeht. Das wurde bereits von Mill ausgesprochen, wenn er für seine "Methode des Unterschieds" fordert, daß sich die "Situationen nur in einem Umstand unterscheiden" dürfen, wenn Bedingungen eines Effekts identifiziert werden sollen. Während bei der Beobachtung menschlichen Verhaltens in der natürlichen Umgebung die Bedingungen meist so verflochten sind, daß die Daten immer eine Vielfalt von Interpretationsmöglichkeiten offen lassen, zwischen denen nicht entschieden werden kann, sind Experimente dadurch charakterisiert, daß der Experimentator die Bedingungen, deren Auswirkung er auf eine ihn interessierende Variable untersuchen möchte, isolieren und Störvariable ausschalten kann. Er bestimmt Zeit und Ort, an dem das beobachtete Ereignis stattfindet, er kann die Bedingungen, unter denen die Beobachtung stattgefunden hat, so mitteilen, daß ein anderer Experimentator an einer anderen Raum-Zeit-Stelle das Experiment wiederholen und die Ergebnisse überprüfen kann. Er kann die Bedingungen, unter denen er beobachtet, systematisch variieren und die damit verbundenen Änderungen studieren. Die Variablen, die der Experimentator systematisch variiert, heißen unabhängige Variable (UV), die Variablen, die er unter den verschiedenen Bedingungen registriert, heißen abhängige Variable (A V). In einem Experiment, in dem ζ. B. der Einfluß des Lärmausmaßes auf die Arbeitsleistung untersucht wird, ist " L ä r m " die vom Experimentator in mehreren Stufen variierte UV, die unter den verschiedenen Lärmbedingungen gefundene Arbeitsleistung die AV. Die UV kann — im für die Interpretation günstigeren Fall — eine experimentelle oder aber eine präexperimentelle Variable sein. Bei experimentellen Variablen, oft auch "treatment-Variable" genannt, hängt es vom Versuchsleiter ab, in welche Klasse der unabhängigen Variablen eine Untersuchungseinheit (meist Versuchsperson (Vp), aber auch Personengruppe oder Einzelreaktion einer Person in einer Serie von Reaktionen) fällt. Bei präexperimentellen Variablen dagegen hat der VI darauf keinen Einfluß, sondern muß sich damit begnügen, Versuchspersonen (allgemeiner: Untersuchungseinheiten), die in dieselbe Klasse der unabhängigen Variablen fallen, zusammenzustellen und für diese Gruppen die Werte der abhängigen Variablen zu vergleichen.
140
6. Band: Statistische Forschungsstrategien
Greifen wir auf das Beispiel "Einfluß des Lärms auf die Konzentrationsleistung" zurück: Die unabhängige Variable ist "Ausmaß des Lärms",und es sollen die Leistungen von vier unabhängigen Gruppen, die bei 10, 40, 70 und 100 Phon Lärm arbeiten, verglichen werden. Hier hat der VI die Möglichkeit, die Vpn nach dem Zufall oder nach einem von ihm festgelegten Plan auf die vier Gruppen zu verteilen. Die Variable "Ausmaß des Lärms" ist daher eine experimentelle Variable. Interessiert man sich dagegen für eine Variable wie "Geschlecht" als unabhängige Variable, so hat man als Versuchsleiter keine Möglichkeit, die Vpn beliebig der einen oder anderen Klasse der Variablen zuzuweisen. Man kann nur bestimmte Vpn für das Experiment auswählen, andere ausscheiden; "Geschlecht" ist also eine präexperimentelle Variable. Diese Unterscheidung in experimentelle und präexperimentelle unabhängige Variable ist insofern von praktischer Bedeutung, als nur bei experimentellen unabhängigen Variablen die Ergebnisse im Sinne einer mittelbaren oder unmittelbaren Beeinflussung der abhängigen Variablen durch die unabhängige Variable interpretiert werden können. Unmittelbar bedeutet hier: die unabhängige Variable wirkt direkt auf die abhängige Variable; mittelbar: die unabhängige Variable wirkt auf eine andere Variable, die ihrerseits auf die abhängige Variable wirkt (so ζ. B. könnte eine leichte Dosis Alkohol über die Motivation — Angst, von einem Polizisten angehalten zu werden — das Fahrverhalten verbessern). Indem man die Vpn den einzelnen Klassen der unabhängigen Variablen nach dem Zufall oder einem vorher festgelegten Plan zuweist, ist es möglich, alle anderen Variablen, die außer der interessierenden experimentellen Variablen einen Einfluß auf die abhängige Variable haben könnten, konstant zu halten beziehungsweise Unterschiede zwischen den Gruppen in diesen Variablen im Rahmen des Zufallsfehlers zu halten. Bei präexperimentellen Variablen ist ein Konstanthalten der übrigen Variablen in der Regel nicht vollständig möglich. Unterschiede in der Konfession ζ. B. hängen mit einer schwer zu überschauenden Fülle von Einstellungs- und Milieuvariablen zusammen, so daß es praktisch unmöglich ist, Gruppen zusammenzustellen, die sich nur bezüglich der Konfession voneinander unterscheiden. Ähnliches gilt für Variablen wie Alter, Geschlecht, Bildungsstand. In all diesen Fällen sind nur korrelative Aussagen über bestehende Zusammenhänge möglich, nicht aber Aussagen über kausale Beziehungen. Es ist nämlich immer möglich, daß das Konstanthalten einer durch bloße historische Gegebenheiten mit der unabhängigen Variablen korrelierten Variablen (ζ. B. unabhängige Variable: Geschlecht, korrelierte Variable: Bildungsstand) die Unterschiede in der abhängigen Variablen zum Verschwinden bringt. Experimente, in denen alle UV präexperimentelle Variablen sind, werden daher gelegentlich als "Quasi-Experimente" von Experimenten im engeren Sinne unterschieden. Experimente im engeren Sinne sind in den Sozialwissenschaften nur begrenzt durchführbar, wobei die Hindernisse weniger theoretischer als praktischer Natur sind. Hauptanwendungsgebiet sind in der Sozialpsychologie die Kleingruppenforschung, die Psychologie der Einstellungsentstehung und -änderung, der sozialen Wahrnehmung usw. Dort, wo aus praktischen Gründen nicht mehr mit den interessierenden Größen selbst experimentiert werden kann (wie ζ. B. in den Wirtschaftswissenschaften), bleibt die Möglichkeit der Simulation und stellvertretenden Manipulation, wobei das Eintreffen der aus dem Modell für bestimmte Bedingungen (ζ. B. Setzen po-
5. Kapitel: Experimentelle Versuchsanordnungen
141
litischer Handlungen) vorhergesagten Prognosen als Bestätigung bzw. Falsifikation des Modells zu werten ist. 5.1.2
Vorfragen der Versuchsplanung
Bei der Planung einer experimentellen Versuchsanordnung sind zunächst folgende Fragen zu klären: Welche (wie viele) UV sollen einbezogen werden? in wievielen und welchen Stufen soll jede einzelne UV variiert werden? Welches Maß (welche Maße) soll zur Erfassung der AV herangezogen werden? Welche Variablen außer den UV lassen einen Einfluß auf die AV erwarten, und wie sollen sie kontrolliert werden? 1. Die Beantwortung der ersten Frage hängt primär von der zu testenden Hypothese ab. Man sollte jedoch bedenken, daß die Einbeziehung weiterer UV auch den experimentellen Aufwand erhöht, weshalb es unter dem Gesichtspunkt der Ökonomie selten zweckmäßig erscheint, mehr als drei bis vier UV einzubeziehen. 2. Die Auswahl der Stufen, in denen die einzelnen UV variiert werden, wird dann davon abhängen, ob eine Aussage über die Art des funktionalen Zusammenhanges zwischen UV und AV (Trendanalyse) gemacht werden soll oder ob lediglich festgestellt werden soll, o b die UV überhaupt einen Einfluß auf die A V hat. In letzterem Fall wird man mit einer gröberen Abstufung auskommen. 3. Bei der Wahl des Maßes für die AV wird man zunächst die Literatur zu Rate ziehen. Nötigenfalls sollte man jedoch auch den Aufwand nicht scheuen, entsprechende Vorversuche anzustellen, da mangelnde Reliabilität des Maßes für die AV die Effizienz des Experiments wesentlich reduziert und mangelnde Validität den Sinn des Experiments überhaupt in Frage stellen kann. 4. Damit Unterschiede zwischen den Versuchsgruppen in der AV im Sinne der Fragestellung interpretierbar sind, m u ß sichergestellt sein, daß sich die Versuchsgruppen nicht auch hinsichtlich anderer Variablen außer den planmäßig variierten UV überzufällig unterscheiden, da sonst nicht zu entscheiden ist, auf welche Variable die Unterschiede zwischen den Versuchsgruppen zurückzuführen sind. Zur Ausschaltung solcher Störvariablen können verschiedene Methoden verwendet werden: Konstanthalten. Die auszuschaltende Störvariable wird über alle Versuchsbedingungen konstant gehalten. Diese Methode wird vor allem bei Variablen der äußeren Versuchssituation (Instruktion, Versuchsleiterverhalten, Gestaltung des Versuchsmaterials, räumliche und zeitliche Bedingungen usw.) angewandt, aber auch bei präexperimentellen Variablen, in denen sich die Vpn unterscheiden. Beispiel: Es soll untersucht werden, o b sich verschiedene Arten der Gestaltung von Zahlentabellen auf deren Lesbarkeit auswirken. Als Störvariable k o m m t das Ausmaß der Übung, das die einzelnen Vpn im Umgang mit Zahlentabellen haben, in Betracht. Die Wirksamkeit dieser Variablen kann ausgeschaltet werden, indem man nur Vpn mit ungefähr gleichem Ausmaß an Übung im Umgang mit Zahlentabellen heranzieht (ζ. B. nur Hausfrauen oder nur Mathematikstudenten höherer Semester). Dieses Vorgehen hat zwar den Vorteil, daß durch die relative Homogenität der Gruppen die Varianz innerhalb der Gruppen reduziert wird, aber den Nachteil, daß die Versuchsergebnisse in bezug auf die konstant gehaltene Variable nicht generalisiert werden können. Es wäre ja möglich, d a ß eine Tabellengestaltung, die für Mathematikstudenten optimal lesbar ist, für Hausfrauen besonders schwer lesbar ist. Darüber erfährt man nichts, wenn man nur Mathematikstudenten oder nur Hausfrauen untersucht hat.
142
6. Band: Statistische Forschungsstrategien
Randomisieren. Diese Methode wird am häufigsten angewendet, um präexperimentelle Variable, in denen sich die Vpn unterscheiden, auszuschalten. Die Vpn werden streng nach dem Zufall (Los, Zufallszahlen) auf die einzelnen Versuchsgruppen verteilt. Damit ist sichergestellt, daß Unterschiede zwischen den Gruppen in bezug auf alle möglichen präexperimentellen Variablen nur im Rahmen des Zufallsfehlers möglich sind. Seltener wird die Methode des Randomisierens angewendet, wenn es um Störvariable geht, die in der experimentellen Stiuation liegen (Reihenfolge-Effekte, Vl-Effekte, wenn das Experiment von verschiedenen VI durchgeführt wird). Parallelisieren. Mit Hilfe eines Vortests wird für jede Vp eine Maßzahl für die Störvariable erhoben. Die Zuweisung der Vpn zu den Versuchsgruppen wird so vorgen o m m e n , daß die Störvariable in allen Gruppen annähernd gleich verteilt ist (vgl. Versuchsanordnungen mit abhängigen Gruppen). Umwandlung in eine UV. Die Störvariable wird systematisch variiert und als weitere UV in den Versuchsplan einbezogen. Diese Methode ist vom theoretischen Gesichtspunkt optimal, in ihrer Anwendbarkeit jedoch beschränkt, da der Versuchsplan rasch sehr komplex und damit der experimentelle Aufwand vervielfacht wird. Neben Fehlerquellen, die dadurch bedingt sind, daß sich die Versuchsgruppen in anderen als den planmäßig variierten UV überzufällig unterscheiden, die Störvariablen also nicht hinreichend kontrolliert sind, gibt es eine Reihe von für sozialwissenschaftliche Experimente typischen und stärker durch die experimentelle Situation selbst bedingten Fehlerquellen, an deren Ausschaltung bei der Versuchsplanung gedacht werden muß. Es sind das vor allem Einstellungen der Vpn zum Experiment, Erwartungen des VI und Interaktionen zwischen VI und Vpn, die, wenn sie nicht hinreichend kontrolliert werden, zu Verzerrungen in den Ergebnissen führen können (~>Bd. II: Timäus, Untersuchungen im Laboratorium). In den meisten Experimenten werden Vpn verwendet, die sich freiwillig zur Verfügung stellen und somit keine Zufallsauswahl aus der in Frage k o m m e n d e n Population darstellen. In bezug auf welche Variablen Unterschiede zwischen Personen, die sich zum Experiment melden, und solchen, die sich nicht melden, bestehen, hängt nicht zuletzt von der Art des Experiments bzw. den vorangehenden Mitteilungen über die Art des Experiments ab. Es wurden je nach Art des angekündigten Experiments Unterschiede in den Variablen Intelligenz, Geschlecht, Ängstlichkeit, psychopathologische Züge usw. gefunden; eine Zusammenfassung der Literatur zu diesem Problem findet sich bei ROSENTHAL UND ROSNOW (1969). Ein weiteres Problem liegt darin, daß die Vp nicht als tabula rasa zum Experiment k o m m t , sondern bestimmte Erwartungen hat und Vermutungen über die Absichten des VI entwickelt. Kennt die Vp den Zweck des Experiments, so können verschiedene Effekte auftreten: Die Vp kann sich im Sinne der vermuteten Hypothesen des VI verhalten, um ihm einen Gefallen zu t u n und eine "gute V p " zu sein; oder aber sie kann ihre eigenen Hypothesen haben und durch diese Hypothesen in ihrem Verhalten beeinflußt werden. Solche Probleme treten besonders stark bei Experimenten zur Einstellungsänderung auf. Vormessung und erwartete Attacke auf die eigene Meinung können verschiedene Reaktionen hervorrufen: Abwehrhaltung, Erhöhung des Ego-involvements oder auch Abschwächen der eigenen Meinung in Richtung auf die erwartete Attacke (zusammenfassendes Literaturreferat: M C G U I R E 1969).
5. Kapitel: Experimenteile Versuchsanordnungen
143
Um diese Probleme, die mit den Erwartungen der Vpn über das Experiment zusammenhängen, in den Griff zu bekommen, werden verschiedene Techniken angewandt: keine oder falsche Vorinformation über den Zweck des Experiments, nachträgliches Interview, um zu erfahren, wie die Vp die experimentelle Situation erlebt hat. Häufig wird beides kombiniert. Fehler können schließlich auch aus den eigenen Erwartungen des VI resultieren, wenn sie sich auf die Interaktion zwischen VI und Vp auswirken. In zahlreichen Experimenten auf verschiedenen Gebieten (ROSENTHAL 1969) wurde gezeigt, wie schon geringe Verhaltensänderungen des VI zu signifikanten Änderungen im Verhalten der Vp führen. Dem kann entgegengewirkt werden, indem die Interaktion zwischen VI und Vp durch schriftliche Instruktionen und apparative Registration des Verhaltens auf ein notwendiges Minimum reduziert wird.
5.1.3
Übersicht über die behandelten Versuchsanordnungen
Im folgenden sollen die gebräuchlichsten experimentellen Versuchsanordnungen in ihren Grundzügen dargestellt werden. Dabei werden zunächst Experimente behandelt, die die Wirkung nur einer unabhängigen Variablen auf eine abhängige Variable analysieren. Im einfachsten Fall wird die UV nur in zwei Stufen variiert (Abschnitt 5.2). Durch eine solche Versuchsanordnung kann festgestellt werden, ob die UV überhaupt einen Einfluß auf die AV hat. Es wird jedoch nichts über den funktionalen Zusammenhang ausgesagt. Solche einfachen Hypothesen können entweder mit unabhängigen Gruppen geprüft werden (5.2.1) oder mit abhängigen Gruppen (5.2.2), die durch vorhergehende Parallelisierung oder durch Meßwiederholung an denselben Vpn hergestellt werden. Die zweimalige Messung an denselben Vpn wird problematisch, wenn Effekte der Meßwiederholung (Übung, Erinnerung usw.) zu erwarten sind; in diesem Fall ist eine Kontrollgruppe erforderlich. Das kann eine Gruppe sein, die im Gegensatz zur Versuchsgruppe zwischen den beiden Messungen kein Treatment erhält (5.2.3) oder eine Vergleichsgruppe, die die beiden Versuchsbedingungen A und Β in umgekehrter Reihenfolge erhält (5.2.4). Näheres über die Art des Zusammenhangs zwischen UV und AV erfährt man, wenn die UV in mehr als zwei Stufen variiert wird (5.3). Es können wieder unabhängige (5.3.1) oder abhängige Gruppen (5.3.2) verwendet werden. Werden in ein Experiment mehrere UV einbezogen (5.4), so hat das nicht nur den Vorteil größerer Ökonomie, sondern auch den Vorteil, daß Aussagen über Wechselwirkungen zwischen den UV gemacht werden können. Im vollständigen faktoriellen Design (5.4.1 ) wird jede der ρ Stufen der einen Variablen mit jeder der q Stufen der anderen Variablen zu ρ x q Bedingungskombinationen kombiniert; unter jeder dieser Bedingungskombinationen wird eine ««abhängige Gruppe von Versuchspersonen untersucht. Ist eine vollständige Kombination aus praktischen Gründen undurchführbar, so kann ein hierarchisches Design (5.4.2) gewählt werden, wobei mehrere Stufen der einen Variablen mit nur einer Stufe der anderen Variablen kombiniert werden. In komplexeren Versuchsanordnungen, die mehr als zwei UV einbeziehen, kann es vorkommen, daß einige Variablen vollständig, andere im Sinn eines hierarchischen Designs unvollständig kombinierbar sind (teilweise hierarchisches Design 5.4.3). Auch vollständige faktorielle Designs, in denen mit abhängigen Gruppen ge-
144
6. Band: Statistische Forschungsstrategien
arbeitet wird, lassen sich als solche teilweise hierarchische Designs auffassen, wenn " V p n " als eigene UV betrachtet wird (5.4.4). Soll in einem Experiment die Wirkung von drei oder mehr UV untersucht Verden, wobei jede dieser Variablen in der gleichen Anzahl von Stufen variiert wird, so kann die Anzahl der erforderlichen Versuchsgruppen — verglichen mit vollständigen faktoriellen Designs — durch Verwendung von lateinischen Quadraten und verwandten Designs (5.5) erheblich reduziert werden. Die Anwendung dieser Designs setzt jedoch voraus, daß zwischen den einbezogenen UV keine Wechselwirkungen auftreten. Eine Möglichkeit, die Präzision eines Experiments zu verbessern, die bei fast allen varianzananlytischen Versuchsplänen angewendet werden kann, ist die Kovarianzanalyse (5.6). Steht für jede Vp ein aus einer Vortestung gewonnenes Maß der AV oder einer mit ihr korrelierten Variablen zur Verfügung, so kann mittels Kovarianzanalyse eine Korrektur für Unterschiede zwischen den Versuchsgruppen in dieser Vortestvariablen vorgenommen werden. Die Anwendung varianzanalytischer Verfahren ist keineswegs auf Daten beschränkt, die durch Experimente im engeren Sinne, ζ. B. im Labor, gewonnen wurden; es sei daher allgemein verwiesen auf (-» Bd. VI: Helten, Wahrscheinlichkeitsrechnung; Sturm und Vajna, Zufallsstichproben und Buttler, Statistische Testverfahren 4.3 bis 4.7).
5.2
Versuchsanordnungen mit einer zweiklassigen unabhängigen V a r i a b l e n
5.2.1
Versuchsanordnungen mit zwei unabhängigen Gruppen
Versuchsanordnungen mit zwei unabhängigen Gruppen sind geeignet, einfache Fragen zu beantworten, wie ζ. B. "Hat Koffeingenuß einen Einfluß auf die Reaktionszeit?" oder "Unterscheiden sich Jugendliche hinsichtlich ihrer Einstellung zum Strafvollzug von den über 40-jährigen? " Die erste Frage kann durch ein Experiment im engeren Sinne beantwortet werden: Die Gesamtheit der für den Versuch zur Verfügung stehenden Vpn (eine möglichst repräsentative Auswahl aus der Population) wird nach dem Zufall in zwei Gruppen geteilt. Die eine Gruppe erhält Koffein, die andere, die als Vergleichs- oder Kontrollgruppe dient, nicht. Ein signifikanter Unterschied zwischen den beiden Gruppen in den Reaktionszeiten kann als durch Koffeingenuß bedingt interpretiert werden. Im zweiten Beispiel unterscheiden sich die beiden Gruppen in bezug auf die präexperimentelle Variable "Alter". Bei der Durchführung der Untersuchung m u ß größtes Gewicht auf Repräsentativität der Stichproben gelegt werden (nötigenfalls unter Einschränkung des Geltungsbereiches der Hypothese). Die Ergebnisse sind als deskriptive Aussagen zu bewerten, die einer weiteren Bedingungsananlyse bedürfen (QuasiExperiment). Der Vorteil dieser Versuchsanordnung liegt in der Einfachheit der Durchführung und in der universellen Anwendbarkeit. Da entsprechende nichtparametrische Verfahren zur Verfügung stehen ( S I E G E L 1 9 5 6 ) , ist die Auswertbarkeit d e r Daten nicht an b e stimmte Verteilungsformen oder Skalenniveaus gebunden. Der Nachteil — insbeson-
5. Kapitel: Experimentelle Versuchsanordnungen
145
ders für quantitative UV - liegt darin, daß hier nichts über die Art des funktionalen Zusammenhangs zwischen UV und AV gesagt werden kann (-> Bd. V I I : Höhmann und van Koolwijk, Deskriptive Statistik). 5.2.2
Versuchsanordnungen mit zwei abhängigen Gruppen
Parallelisierte
Gruppen
Fragestellungen, die auf den Vergleich zweier Treatment-Gruppen abzielen, lassen sich grundsätzlich unter Verwendung unabhängiger Gruppen beantworten. Die Effizienz (geringeres Risiko β bei gleicher Vpn-Zahl) des Experiments läßt sich jedoch verbessern, wenn man die Vpn nach einem Vortestmerkmal parallelisiert und so abhängige Stichproben herstellt (-• Bd. VI: Buttler, Statistische Testverfahren 4.1.5). Ordnet man die Vpn streng nach dem Zufall der einen oder anderen Klasse der UV zu, so ist damit sichergestellt, daß sich die beiden Gruppen vor dem Experiment in keiner Variablen überzufällig unterscheiden. Unterschiede in den verschiedensten Variablen, auch in der am Hauptversuch interessierenden AV, im Rahmen des Zufallsfehlers sind natürlich möglich. Wie groß sie werden können, hängt von der Größe der Stichprobe und der Varianz dieser Variablen in der Population ab. Steht vor Beginn des Versuchs für jede Vp ein Meßwert für die im Hauptversuch interessierende AV zur Verfügung, so kann man die Gruppen so zusammenstellen, daß vor dem Beginn des Experiments die AV in den beiden Gruppen gleich verteilt ist: Man bringt die Vpn nach ihrem Vortestmeßwert in eine Rangreihe und teilt sie anschließend nach folgendem Schema auf die beiden Gruppen auf: Gruppe 1
Gruppe 2
1
• 2 I 3
Rang Nr.
4 < 5
> 6 I 7
8 i usw.
Bei dieser Gruppenaufteilung ist gewährleistet, daß die Rangplatzsumme in beiden Gruppen gleich ist. Nachdem die Gruppenaufteilung vorgenommen ist, wird der Hauptversuch durchgeführt. Intervallskalenniveau und Normalverteilung vorausgesetzt, kann ein Mittelwertvergleich mittels i-Test für abhängige Stichproben durchgeführt werden. Die Varianz der Mittelwertsdifferenz errechnet sich dann als
a
\-M2 =
+ 0
M 2 - 2 rn
°M2 >
wobei aMl und die Varianzen der beiden Mittelwerte und rl2 die Korrelation der beiden Meßwertreihen im Hauptversuch darstellen. Die Varianz der Mittelwertsdifferenz ist also umso kleiner, je höher die Korrelation der beiden Meßwertreihen. Verglichen mit einer Versuchsanordnung, die unabhängige Gruppen verwendet, wo also rj2 = 0, kann die Varianz der Mittelwertdifferenzen um den Ausdruck 2 r a M l o M l verringert werden (-»• Bd. V I : Buttler, Statistische Testverfahren 4.3).
146
6. Band: Statistische Forschungsstrategien
Bisher wurde angenommen, daß die Parallelisierung nach der Variablen erfolgt, die im Hauptversuch als AV vorgesehen ist. Das aber erfordert eine zweimalige Messung derselben Variablen an denselben Vpn, was in den meisten Fällen unzweckmäßig ist. Erinnerungs-, Übungs- und Ermüdungseinflüsse als Effekte der Meßwiederholung beeinträchtigen die Validität der Messung im Hauptversuch. In allen Fällen, in denen solche Effekte zu erwarten sind, wird man davon Abstand nehmen, direkt nach der Variablen, die im Hauptversuch AV ist, zu parallelisieren, sondern wird eine andere Variable heranziehen, von der man annehmen kann, daß sie einerseits mit der im Hauptversuch gemessenen AV in enger Beziehung steht, andererseits aber ihre Erhebung im Vorversuch die Reaktionen im Hauptversuch nicht wesentlich verändert. Beispiel: Es soll untersucht werden, ob das Vorführen eines Films mit religiöser Thematik geeignet ist, die Einstellung von Schülern zur Kirche zu ändern. Es sollen zwei Parallelgruppen gebildet werden, von denen die eine Gruppe den religiösen Film, die andere einen Film über Sport ansieht. Zur Erhebung der Einstellung zur Kirche ist ein Fragebogen vorgesehen. Um eine zweimalige Vorgabe desselben Fragebogens zu vermeiden, könnte als Vortestvariable eine Einstufung der Vpn durch den Religionslehrer herangezogen und danach parallelisiert werden. Allgemein läßt sich über die Vortestvariable sagen: Sie sollte so gewählt werden, daß sie (1 ) mit der AV möglichst hoch korreliert und daß (2) die Erhebung der Vortestvariable die Validität der Messung der AV im Hauptversuch nicht beeinträchtigt.
5.2.3
Zweimalige Messung an derselben Stichprobe (Einfaches before-after design ohne Kontrollgruppe)
Die Parallelisierung von Stichproben wurde als eine der Möglichkeiten besprochen, abhängige Stichproben herzustellen und damit die weniger stichprobenfehlerbelasteten Statistiken für abhängige Meßwertreihen anwenden zu können. Eine zweite Möglichkeit, abhängige Meßwertreihen herzustellen, besteht in der zweimaligen Messung (einmal unter Bedingung Α, dann unter Bedingung B) an denselben Versuchspersonen. Beispiel: Es soll festgestellt werden, ob ein bestimmtes Medikament den Blutdruck steigert. An einer Reihe von Personen wird der Blutdruck gemessen, danach werden diese Personen eine Woche lang mit dem Medikament behandelt, und anschließend wird eine zweite Blutdruckmessung vorgenommen. Es liegen somit von jeder Vp zwei Meßwerte, mithin korrelierte Meßwertreihen vor. Der Unterschied in den Mittelwerten dieser Meßwertreihen kann (Normalverteilung vorausgesetzt) mit Hilfe des i-Tests für abhängige Stichproben auf Signifikanz geprüft werden. Dieses Vorgehen ist gegenüber der Verwendung parallelisierter Stichproben (Parallelisierung nach dem Ergebnis der ersten Messung — eine Gruppe mit Medikamenteinfluß, die andere ohne Medikament — Vergleich der Meßwerte aus der zweiten Messung) ökonomischer, da nur halb so viele Vpn benötigt werden. Verglichen mit der Verwendung unabhängiger Gruppen (Zufallsaufteilung in zwei Gruppen, eine erhält das Medikament, Blutdruckmessung an beiden Gruppen) kommt der mit der Verwendung abhängiger Stichproben verbundene Vorteil der Reduktion des Stichprobenfehlers hinzu. Daß obiges Anwendungsbeispiel aus der Medizin stammt, ist allerdings kein Zufall:
5. Kapitel: Experimentelle Versuchsanordnungen
147
In den Sozialwissenschaften läßt sich kaum ein Beispiel finden, in dem das einfache Design "Messung — experimenteller Einfluß — Messung" bzw. "Messung unter Bedingung A — Messung unter Bedingung Β an denselben V p n " ohne ernste Bedenken zur Anwendung gebracht werden könnte. Es setzt nämlich voraus, daß (1) das gemessene Merkmal selbst über das Intervall zwischen den Messungen stabil bleibt bzw. nur von Person zu Person zufälligen Schwankungen unterliegt und (2) keine Effekte der Meßwiederholung (Übung, Ermüdung, Erinnerung usw.) auftreten. Diese beiden Voraussetzungen sind in den meisten Fällen verletzt.
5.2.4
Zweimalige Messung an derselben Stichprobe und Vergleich mit einer Kontrollgruppe
Bei einer einfachen Versuchsanordnung der Form: Messung — Treatment-Einfluß Messung können Einflüsse der Meßwiederholung oder des zwischen den beiden Messungen verstrichenen Zeitintervalls (bzw. der darin wirksamen unkontrollierten Variablen) vom Treatment-Einfluß nicht getrennt werden und müssen — sollen die Ergebnisse interpretierbar sein - als unbedeutend vorausgesetzt werden. Man kann jedoch die Wirkung dieser Störeffekte unter Kontrolle bringen, indem man folgende Anordnung wählt: Gruppe I (Versuchsgruppe): Messung — Treatment — Messung. Gruppe II (Kontrollgruppe): Messung - Messung. Nachdem man die erste Messung vorgenommen hat, teilt man die Gesamtheit der Vpn nach dem Zufall in zwei Gruppen, wovon eine Gruppe dem Treatmenteinfluß unterzogen wird, während für die andere Gruppe ein entsprechendes neutrales Zeitintervall folgt; danach wird an beiden Gruppen eine zweite Messung vorgenommen. Die Auswertung erfolgt, indem man für jede Vp die Differenz der beiden Meßwerte bildet und mit Hilfe von Tests für unabhängige Stichproben prüft, ob diese Differenzen in einer der beiden Gruppen überzufällig größer sind als in der anderen. Ist das der Fall, so kann dieser Effekt als Treatmentwirkung interpretiert werden, da Zeitabstand und Wiederholungseinflüsse für beide Gruppen gleichermaßen wirksam waren. Prinzipiell ähnliche Überlegungen gelten, wenn der Treatmenteinfluß in der Versuchsgruppe nicht vor, sondern während der zweiten Messung wirksam ist. Das Design sieht dann folgendermaßen aus: Versuchsgruppe: Messung unter Bedingung A — Messung unter Bedingung Β Kontrollgruppe: Messung unter Bedingung A — Messung unter Bedingung A Wieder wird für jede Vp die Differenz ihrer beiden Meßwerte gebildet und geprüft, ob die Differenzen der Meßwerte in der Versuchsgruppe größer sind als in der Kontrollgruppe. Alle Fragestellungen, die mittels zweimaliger Messung an Versuchsgruppe und Kontrollgruppe und durch den anschließenden Vergleich der Differenzwerte behandelt werden können, können auch mit Hilfe einmaliger Messung an zwei unabhängigen Gruppen behandelt werden, und zwar in der Form: Versuchsgruppe: Treatment - Messung Kontrollgruppe: —Messung
148
6. Band: Statistische Forschungsstrategien
bzw. Versuchsgruppe: Messung unter Bedingung Β Kontrollgruppe: Messung unter Bedingung A Der Aufwand der zweimaligen Messung lohnt sich nur, wenn für die AV ein hochreliables Meßinstrument (r xx > · 70) zur Verfügung steht, da sonst die Varianz der Differenzwerte, in die der Meßfehler zweimal eingeht, größer werden kann als die Varianz bei einmaliger Messung, mithin die Präzision des Experiments reduziert statt verbessert wird.
5.2.5
Zweimalige Messung an derselben Stichprobe mit Balancieren der Reihenfolge
Dieses Design ist dann anzuwenden, wenn die Wirkung zweier Treatment-Bedingungen durch zweimalige Messung an denselben Vpn verglichen werden soll, wobei der Einfluß der Darbietungsreihenfolge (Wiederholungseffekt usw.) kontrolliert werden soll. Die Gesamtstichprobe wird nach dem Zufall in zwei unabhängige Gruppen geteilt: Gruppe I : Messung unter Bedingung A — Messung unter Bedingung Β Gruppe II: Messung unter Bedingung Β — Messung unter Bedingung A Hat man die Werte in der AV erhoben, so können folgende Fragen beantwortet werden: a) Beeinflußt die vorangegangene Messung unter Bedingung A die darauffolgende Messung unter Bedingung fi? Zur Beantwortung dieser Frage vergleicht man die Meßwerte unter Bedingung Β in Gruppe II (Β wird zuerst geboten) mit den Meßwerten unter Bedingung Β in Gruppe I {B wird nach A geboten). b) Beeinflußt die vorangegangene Messung unter Bedingung Β die darauffolgende Messung unter Bedingung A ? Es werden die Meßwerte unter Bedingung A aus Gruppe I und II miteinander verglichen. Wenn sich bei Untersuchung der ersten beiden Fragen herausstellt, daß kein Einfluß der Reihenfolge vorhanden ist bzw. dieser Reihenfolgeeffekt für beide Bedingungen gleich ist, kann die eigentlich interessierende Frage beantwortet werden: c) Unterscheiden sich die Meßwerte unter Bedingung A von den Meßwerten unter Bedingung fi? Da jede der beiden Bedingungen für die Hälfte der Vpn an erster und für die andere Hälfte an zweiter Stelle steht und sich die Reihenfolge auf beide Bedingungen gleich auswirkt, können nun beide Gruppen zusammengefaßt werden. Für jede Vp liegt ein Meßwert unter Bedingung A und ein Meßwert unter Bedingung Β vor. Die beiden Meßwertreihen können mit Prüfverfahren für abhängige Stichproben auf signifikante Unterschiede untersucht werden. Gegenüber der Verwendung unabhängiger Gruppen hat dieses Design einen zweifachen Vorteil: Es wird nur die Hälfte der Vpn benötigt; es können die effizienteren statistischen Prüfverfahren für abhängige Gruppen verwendet werden. Beschränkungen in der Anwendbarkeit liegen in der Voraussetzung, daß der Wiederholungseffekt von A nach fi dem von fi nach A gleich sein muß. Zeigt die Analyse der Daten, daß das nicht der Fall ist, kann immer noch ein Vergleich der beiden ersten Messun-
5. Kapitel: Experimentelle Versuchsanordnungen
149
gen (Bedingung A in Gruppe I versus Bedingung Β in Gruppe II) durchgeführt werden.
5.3
Versuchsanordnungen mit einer mehrklassigen unabhängigen Variablen
Im Vorangegangenen wurden Designs behandelt, bei denen die Wirkung einer zweiklassigen UV (Treatment A versus Treatment Β, oder Treatment versus Kontrollgruppe) auf die AV untersucht werden. Der folgende Abschnitt behandelt Versuchsanordnungen, bei denen die UV in mehr als zwei Stufen variiert wird. 5.3.1
Unabhängige Gruppen (completely randomized group design)
Wenn die Wirkung einer p-klassigen UV auf eine AV untersucht werden soll, so werden im einfachsten Fall die Ν für den Versuch zur Verfügung stehenden Vpn nach dem Zufall (Los) in ρ gleichgroße Gruppen von η Individuen geteilt und jede dieser Gruppen unter einer der ρ Bedingungen untersucht, entsprechend folgendem Schema:
(2)
Bed. 1
Bed./'
Χη ....
Xy . . . .
Xlp
: Χη ....
; Xfj . . . .
:
1 ···· wobei:
Bed. ρ
χίρ
X
nj · · · ·
X¡¡ = Meßwert einer Vp i unter der Bedingung j,np
= N.
Der Meßwert einer Vp läßt sich wie folgt zerlegen: (3) wobei
Xu = μ + τ, + e,7 μ = E(X) Tj = E iXj - X) Treatmenteffekt j ef · = Versuchsfehler zu Lasten unkontrollierter Bedingungen bei Messung des Individuums i unter Bedingung /'. Der Versuchsfehler ist definitionsgemäß mit dem Treatmenteffekt unkorreliert.
Da nun μ und τ;· für alle Vpn unter Bedingung / konstant sind, ist die Varianz der Meßwerte von Vpn, die unter derselben Versuchsbedingung / untersucht wurden (Varianz innerhalb der Gruppen), allein auf den Versuchsfehler zurückzuführen. Unter der Voraussetzung, daß sich die Varianzen innerhalb der einzelnen Gruppen nicht überzufällig voneinander unterscheiden, also E{o%) = al
für / = 1 ... p,
erhält man die beste Schätzung für a\ als mittlere Varianz innerhalb ( M S E ) :
150
(4)
6. Band: Statistische Forschungsstrategien
MSE
=
—— Σ P n - P j
Χ
( Χ , -
i
X ) 2 , wobei
'
E(MSE)
=
A
\.
'
Um zu prüfen, ob die UV einen Einfluß hat, d. h. ob Treatment-Effekte vorhanden sind, betrachten wir die einzelnen Gruppenmittelwerte X¡. Aus (3) ergibt sich für den Gruppenmittelwert X¡ (5)
Xj = μ + η + ïj,
wobei ëj den Gruppenmittelwert der e,;· bezeichnet: =
L
n
Das mittlere Quadrat zwischen den Bedingungen (MS ZW ) ist definiert als: (6)
MSZW
=
- 2 1
Ρ
i
Aus (5) ersieht man, daß (7)
{ X J - X ) =
(Η + ËFP·,
woraus man die Erwartung für MSZW erhält (8)
MSZW
= —
n
2 i
ή
n r
2 -1 Σ ^ i! · 1
/
Sezt man nun
Ρ
so erhält man (9)
E(MSZW)
= na2z +
al
Wenn nicht alle T¡ gleich Null sind, so ist zu erwarten, daß das mittlere Quadrat zwischen den Bedingungen (Treatmentvarianz + Fehlervarianz) größer ist als das mittlere Quadrat innerhalb (Fehlervarianz allein). Die Hypothese, daß Treatmenteffekte vorhanden sind, kann mit Hilfe eines F-Tests
™
"sf?·
mit ρ — 1 Freiheitsgraden im Zähler und mit pn — ρ Freiheitsgraden im Nenner geprüft werden. Die mittleren Quadrate werden am ökonomischsten aus den Quadratsummen (QS) berechnet, die wie folgt definiert sind: (11)
Totale Quadratsumme: TQS = Σ Σ(Χ·ί i
Quadratsumme zwischen den Bedingungen
i
QSZW
:
'
5. Kapitel: Experimentelle Versuchsanordnungen
(12)
151
QSZW = η
i Quadratsumme innerhalb der Gruppen (QS E ) (13) •
/
wobei sich zeigen läßt, daß TQS = QSZW + QSE (Ableitung und Rechenformeln KIRK 1968, S. 44 ff). Die mittleren Quadrate erhält man jeweils, indem man die Quadratsumme durch die Anzahl der Freiheitsgrade teilt. Die Anwendung der oben dargestellten einfachen Varianzanalyse setzt voraus, daß die AV in den einzelnen Gruppen mit der gleichen Varianz annähernd normalverteilt ist. Zur Prüfung der Varianzhomogenität (homoscedasticity) stehen verschiedene Verfahren zur Verfugung (HARTLEY 1 9 5 0 ; COCHRAN 1 9 4 7 ; BARTLETT 1 9 4 7 ; -»• Bd. VI : Buttler, Statistische Testverfahren 4.4). Es kann jedoch gezeigt werden, daß Abweichungen von diesen Voraussetzungen die Stichprobenverteilung der FStatistik nur unwesentlich beeinflussen (COCHRAN 1 9 4 7 ; ODEH UND OLDS 1 9 5 9 ; OLDS U.A.
1956).
Eine einfache Varianzananlyse der Daten erlaubt eine Entscheidung darüber, ob zwischen den einzelnen Gruppen (Klassen der UV) überhaupt signifikante Unterschiede bestehen. Hat man jedoch vor Durchführung des Experiments spezielle Hypothesen darüber, welche Mittelwerte sich unterscheiden, so lassen sich diese Hypothesen mit Hilfe linearer Vergleiche (comparisons, contrasts) prüfen: Ein linearer Vergleich ist eine lineare Funktion der Gruppenmittelwerte (14)
clX1
+ c2X2+...cJXJ
+
...cltXp,
wobei die c ; Gewichtszahlen sind und 2 c / = 0· D e r Hypothese, daß sich Xl von X2 signifikant unterscheiden, entspricht bei drei Gruppen die Gewichtung (+l)Z1 + ( - l ) ^ 2 + ( 0 ) ^ 3 ; der Hypothese, daß sich Gruppe 1 von den Gruppen 2 und 3 unterscheidet, die Gewichtung (+1)
1 1 X 2, + X, 3 - - {X2) - - Z 3 = X1 usw. 2
Die der Gewichtung entsprechende Hypothese wird geprüft, indem man die Varianzkomponente (C) gegen die Fehlervarianz (MSE) prüft. (15)
(16)
c
_ (clXl
+ c2X2 +
n(cj+cl+ Ρ _
C MSE
...cpXp)^ ...cj)
mit 1 Freiheitsgrad im Zähler und np — ρ Freiheitsgraden im Nenner.
Mit Hilfe orthogonaler Vergleiche läßt sich die Varianz zwischen den Gruppen in additive Komponenten zerlegen. Zwei lineare Vergleiche sind orthogonal, wenn die Summe der Produkte einander entsprechender Koeffizienten Null ist. So sind ζ. B. folgende linearen Vergleiche orthogonal:
152
6. Band: Statistische Forschungsstrategien
(+1 ) Χ ι + ( - l ) X und
( 0 ) ^ ! + 0X2
2
+ o J 3 + 0X4
+ (l)X3
+ (-1)^4
(+l)Z1 + (+l)X2 + (-l) J3 + (-l)X
4
.
Ein Spezialfall der Zerlegung der Varianz zwischen den Gruppen in unabhängige additive Varianzanteile mit Hilfe orthogonaler Vergleiche sind Trendtests. Ist die U V eine quantitative Variable, die in gleichmäßigen Schritten variiert wurde, so ist es sinnvoll, nach dem funktionalen Zusammenhang zwischen A V und U V zu fragen und die Regression der A V auf die U V durch ein Polynom anzunähern. linearen, quadratischen, kubischen usw. Zusammenhängen entsprechen wechselseitig orthogonale Vergleiche, so daß die Varianz zwischen den Bedingungen in entsprechende additive Komponenten aufgegliedert werden kann. Die für die orthogonalen Vergleiche benötigten Koeffizienten finden sich für verschiedene Werte von ρ in T a b e l l e n w e r k e n ( ζ . B . FISHER UND YATES
1 9 6 3 ; ANDERSON UND HOUSEMANN
1942). Jede Trendkomponente wird gegen MSE
auf Signifikanz geprüft, und die Be-
rechnung der nächsthöheren Trendkomponente kann abgebrochen werden, wenn die Restvarianz ( M S Z W minus den bereits errechneten Komponenten) verglichen mit MSE
kein signifikantes Ergebnis mehr zuläßt. Formeln und ein numerisches Bei-
spiel zur Berechnung der Regressionskoeffizienten finden sich bei WINER ( 1 9 6 2 ) ; Probleme, die sich ergeben, wenn die U V nicht in gleichen Stufen variiert wurde, sind bei ROBSON ( 1 9 5 9 ) abgehandelt. lineare Vergleiche sind zur Prüfung der Signifikanz einzelner Mittelwertsunterschiede nur dann geeignet, wenn entsprechende Hypothesen schon vor Durchführung des Experiments bestanden haben. Bei post-factum- Vergleichen würde sich das Risiko 1. Art unkontrolliert erhöhen. Zur Prüfung von post-factum Hypothesen stehen verschiedene Verfahren zur Verfügung, die es ermöglichen, alle möglichen Vergleiche zwischen zwei oder mehreren Mittelwerten durchzuführen. Einen Überblick über diese V e r f a h r e n f i n d e t man b e i KIRK ( 1 9 6 8 , S. 87 f f . ) und WINER (1962, S. 85).
5.3.2
Einfaktorielle Versuchsanordnung mit abhängigen Gruppen (randomized block design)
Die Verwendung von mehreren unabhängigen Gruppen, verbunden mit einer einfachen Varianzanalyse, hat den Vorteil nahezu universeller Anwendbarkeit und geringer Störanfälligkeit. Gehen einzelne Daten verloren, so können die vorhandenen Daten voll verwendet werden, es können — sofern die hinzukommenden Vpn eine Zufallsstichprobe aus derselben Population sind — nachträglich Treatment-Gruppen hinzugefügt werden, ohne daß das Design gestört ist. Der Nachteil des Verfahrens liegt darin, daß Unterschiede, die von dem Experiment zwischen den Personen bestehen, unkontrolliert bleiben und mithin zur Gänze zu Lasten des Versuchsfehlers (ausgedrückt durch MSE) gehen. Bei sehr heterogenen Stichproben (großer Varianz innerhalb) ist daher auch eine relativ große Anzahl von Vpn nötig, um Unterschiede zwischen den Gruppen statistisch zu sichern. Dieser Nachteil kann vermieden werden, indem man abhängige Stichproben verwendet, d. h. dieselbe Vpn unter allen Treatment-Bedingungen untersucht (sofern keine Wiederholungs- und Reihenfolgeeffekte zu erwarten sind) oder sie nach einer Vortestvariablen parallelisiert.
153
5. Kapitel: Experimentelle Versuchsanordnungen
Für die Auswahl des Merkmals, nach dem die ρ Gruppen parallelisiert werden, gelten dieselben Richtlinien wie bei der Parallelisierung von zwei Gruppen. Die zur Parallelisierung herangezogene Variable soll mit der im Hauptversuch verwendeten AV möglichst hoch korreliert sein, die Erhebung dieser Variablen darf aber die Reaktionen im Hauptversuch nicht beeinflussen. Die Vpn werden den einzelnen Versuchsgruppen so zugewiesen, daß die Vortestvariable in allen Gruppen gleich verteilt ist, so daß die Wirkung dieser Variable im Experiment ausgeschaltet ist. Durch die Parallelisierung nach einer bestimmten Variablen wird diese Variable kontrolliert, während sie bei Verwendung von unabhängigen Gruppen als Störvariable den Versuchsfehler vergrößern würde. Das folgende Schema gibt die Darstellung eines varianzanalytischen Versuchsplans mit abhängigen Meßwertreihen wieder: Personen
Bedingung, Treatment 2
1 1 2 (17)
Χ2Ϊ
i
Χ12 • Χ22 • χη
η
i
.
Χni Χ»2 •
-η Σ*,·,· Ί
•
Ρ
Xy
• Χ2,
•
X¡j
• •
xlp χ2Ρ
• •
xip
•
χηρ
·
• Χnj •
χ2
Χι
Χρ
Die folgenden Überlegungen gehen davon aus, daß dieselben Vpn unter allen Bedingungen untersucht wurden, sind aber für parallelisierte Gruppen völlig analog. Der Meßwert einer Vp unter Treatment-Bedingung /' kann wie folgt zerlegt werden: (18)
Xjj = μ + π,· + r / + eif
Dabei ist ir¡ als Konstante für Vp i definiert (bzw. als Effekt der Variablen, nach der parallelisiert wurde), die über alle Versuchsbedingungen gleich bleibt. Die Meßwertreihen in (17) sind daher korreliert. Die übrigen Symbole in Formel (18) sind wie zuvor verwendet, insbesondere stellt e(/· wieder den Versuchsfehler bedingt durch unkontrollierte Varianzquellen dar. Bei der weiteren Analyse der Daten wird wieder vorausgesetzt, daß der Versuchsfehler in allen Treatment-Gruppen mit der gleichen Varianz normalverteilt ist, also E (alj) = a j . Die erwartete Varianz innerhalb der einzelnen Treatment-Gruppen ist — wie man aus Formel (18) ersieht - für jede Treatment-Gruppe gleich a^ + a j . Man verwendet daher als beste Schätzung die aus allen Gruppen gemittelte Varianz innerhalb, das "mittlere Quadrat innerhalb": (19)
MSinn
= Σ
Σ
Ü - */) 2
(X
_
1 1> CA-
_
B>
'W0bei
E{MS
mn)
=
+
Um aus dem "mittleren Quadrat innerhalb" den Anteil o j auszusondern und eine
154
6. Band: Statistische Forschungsstrategien
Schätzung für den Versuchsfehler a l allein zu erhalten, betrachten wir die Kovarianz zwischen den Meßwertreihen. Je zwei Meßwertreihen aus (17) haben dieselbe Varianz und korrelieren nur über die ^--Komponenten; d. h. die Kovarianzen zwischen je zwei Meßwertreihen sollten den gleichen Erwartungswert haben. Eine Schätzung des Versuchsfehlers erhält man also, indem man von der "mittleren Varianz innerhalb" die mittlere Kovarianz abzieht (einfache Rechenformeln zur Bestimmung der Fehlervarianz finden sich bei KIRK ( 1 9 6 8 ) , WINER ( 1 9 6 2 ) , COCHRAN UND C O X 1 9 5 8 , ausführlichere Ableitungen bei SCHEFFÉ ( I 9 6 0 ) ) . Die erwartete Varianz zwischen den Gruppenmittelwerten X¡ ist (vgl. Abschnitt 5.3.1):
(20)
1
ρ- 1
Σ(χ,·-χ)
2
σϊ + o?.
Das mittlere Quadrat zwischen den Gruppen (die mit η multiplizierte Varianz zwischen den Gruppenmittelwerten) hat dann als Erwartung: (21)
E(MSZW)
= E \ — IP~1
i
Σ(Χ·-Χ)Ϊ
η σΐ + aj.
Die Hypothese "Die Treatmentbedingungen haben keinen Einfluß auf die Meßwerte X¡j", ausgedrückt durch τ;· = 0 für alle / und mithin a \ = 0, kann nun getestet werden, indem man das mittlere Quadrat zwischen den Treatmentbedingungen gegen die Varianz zu Lasten des Versuchsfehlers mittels F-Test (mit ρ — 1 Freiheitsgraden im Zähler und (w - 1) (ρ - 1) Freiheitsgraden im Nenner) auf Signifikanz prüft. Vergleicht man nun dieses Design, in dem die Meßwertreihen abhängig sind, mit dem in Abschnitt 5.3.1 dargestellten Design, das mit unabhängigen Gruppen arbeitet, so findet man eine Verbesserung der Präzision: Als Prüfvarianz für die Varianz zwischen den Treatmentbedingungen, ist nicht mehr die ganze Varianz innerhalb der Treatmentbedingungen heranzuziehen, sondern die um die mittlere Kovarianz reduzierte Varianz innerhalb; d. h. ein Teil der Varianz, die bei unabhängigen Gruppen unkontrolliert ist und daher zum Versuchsfehler gerechnet werden muß, kann bei abhängigen Gruppen kontrolliert und damit aus der Fehlervarianz ausgesondert werden. Andererseits ist die Voraussetzung der Gleichheit der Varianzen und Kovarianzen restriktiv. Ein Verfahren zur Prüfung dieser Voraussetzung wurde von Box (1950) entwickelt. Box (1953) konnte zeigen, daß bei Heterogenität der Varianzen und Kovarianzen mit Hilfe des gewöhnlichen F-Tests das Risiko 1. Art unterschätzt wird, und gibt einen modifizierten F-Test an (vgl. auch GEISSER UND GREENHOUSE 1958; 1959). Falls ρ > 2 und η > ρ, kann statt des F-Tests Ho tellings Τ2-Statistik verwendet werden, deren Berechnung zwar aufwendiger ist, deren Anwendung aber an keine Voraussetzungen bezüglich der Varianz — Kovarianzmatrix — gebunden ist. Näheres findet man bei ANDERSON (1958). Lineare bzw. orthogonale Vergleiche und Trendanalysen sind in prinzipiell gleicher Weise durchzuführen wie bei unabhängigen Gruppen. Die errechneten Komponenten sind gegen die — nun anders berechnete — Fehlervarianz zu prüfen.
5. Kapitel: Experimentelle Versuchsanordmmgen
5.3.3
155
Nicht-parametrische Varianzananlyse
Die bisher dargestellten Designs setzen voraus, daß die abhängige Variable quantitativ (auf Intervallskalenniveau) erfaßt werden kann und in den einzelnen Gruppen annähernd normalverteilt ist. Liegen nur nicht-metrische Daten (Rangdaten) vor, so muß auf nicht-parametrische Verfahren zurückgegriffen werden. Sind die ρ Treatmentgruppen voneinander unabhängig, so kann mit Hilfe einer Rangvarianzanalyse nach Kruskal und Wallis (SIEGEL 1956, S. 184 ff.) entschieden werden, ob zwischen den ρ Gruppen Unterschiede bestehen. Die Effizienz des Kruskal-Wallis-Tests ist nur wenig geringer als die des FTests in einer parametrischen Varianzanalyse (ANDREWS 1954). Sind die p-Treatment-Gruppen abhängige Gruppen, so kann eine Rangvarianzanalyse nach Friedman (SIEGEL 1956, S. 166 ff.) durchgeführt werden. Weist die AV nur zwei Merkmalsausprägungen auf (ja — nein Antworten, gelöst nicht gelöst), so daß als Rohdaten Häufigkeiten (Anteilswerte) für die einzelnen Gruppen zur Verfügung stehen, so ist die Frage, ob sich die ρ Gruppen überzufällig unterscheiden, bei Ρ unabhängigen Gruppen mittels Chi-Quadrat-Test (SIEGEL 1956, S. 175 ff.), bei abhängigen Gruppen mittels Cochran Q-Test zu entscheiden (SIEGEL 1956, S. 161 ff.; MCNEMAR 1955, S. 232 ff.;
Bd. V I : Buttler, Statistische Testver-
fahren 4.5).
5.4
Versuchsanordnungen mit mehreren unabhängigen Variablen
5.4.1
Vollständige faktorielle Versuchsanordnungen
Faktorielle Designs sind Versuchsanordnungen, in denen die Wirkung mehrerer UV zugleich untersucht wird. Der Ausdruck "Faktor" wird im folgenden synonym mit "UV" verwendet, statt "Klassen" der UV wird gelegentlich auch der Ausdruck "Stufen" ("level") verwendet. Gegenüber einer Serie von einfaktoriellen Versuchsanordnungen, die die Wirkung der einzelnen UV gesondert prüfen, haben faktorielle Versuchsanordnungen folgende Vorteile: (1) Sie sind ökonomischer, da insgesamt weniger Vpn benötigt werden, und (2) erlauben sie Aussagen darüber, ob die Wirkungen der einzelnen Faktoren voneinander unabhängig sind oder ob die Wirkung eines Faktors davon abhängt, welche Stufe eines anderen Faktors realisiert ist (bzw. unter welcher Bedingungskombination der anderen Faktoren die Vp untersucht wird). Bei der Planung eines faktoriellen Designs sind zunächst die beiden Fragen zu klären: Welche Faktoren sollen einbezogen werden, und in welchen Stufen sollen die Faktoren variiert werden? Dabei wird man häufig auch Faktoren einbeziehen, deren Auswirkung auf die AV trivial ist, bei denen man aber an der Interaktion mit anderen Faktoren interessiert ist. So könnte man beispielsweise bei einer Untersuchung über die Wirkung von Radiomusik auf die Arbeitsleistung den Faktor "Aufgabenschwierigkeit" mit einbeziehen. Das Testen der Hypothese, daß die Leistung von der Aufgabenschwierigkeit abhängt, wäre an sich keiner Untersuchung wert, doch ermöglicht es die Einbeziehung dieses
156
6. Band: Statistische
Forschungsstrategien
Faktors, daß die Aussagen über die Wirkung von Radiomusik auf die Leistung in bezug auf die Aufgabenschwierigkeit verallgemeinert bzw. spezifiziert werden können. Im vollständigen faktoriellen Design werden aus den interessierenden Faktoren sämtliche Bedingungskombinationen hergestellt und unter jeder Bedingungskombination die gleiche Anzahl von Vpn (unabhängige Stichproben) untersucht. Bei einem Experiment mit zwei Faktoren, von denen der Faktor A in p, der Faktor Β in q Stufen variiert wird, ergeben sich die folgenden p x q Bedingungskombinationen·. Stufen des Faktors Β
Stufen des Faktors A a
(22)
\
a
2
•
a
•
i
·
a
P
h
a b
a2bJ
. . flyftj . . . "pb 1
b2
a b
l2
a2b2
. . a¡b2 . .
a b
h
albk