213 99 29MB
German Pages 70 [84] Year 1987
HERAUSGEBER HUBERT FEGER C.F. G R A U M A N N KLAUS HOLZKAMP MARTIN IRLE
BAND
17 1986 H E F T 3
VERLAG HANS HUBER BERN STUTTGART TORONTO
Zeitschrift für Sozialpsychologie 1986, Band 17, Heft 3 INHALT Zu diesem Heft
145
Theorie und Methoden
E.: Statistisches Schließen und wissenschaftliche Erkenntnis. Gesichtspunkte für eine Kritik und Neubestimmung
LEISER,
146
Empirie KNAPP,
A.: Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
160
Kurze Forschungsberichte FIEDLER, K . & GEBAUER,
A.: Egozentrische Attributionen unter Fußballspielern
173
Diskussion
Statistisches Schließen und wissenschaftliche Erkenntnis. Überschätzung statistischer Konzepte durch ihre Begründer oder Frustration mancher Anwender nach Erkenntnis der Tücke des Objekts G I G E R E N Z E R , G . : Wissenschaftliche Erkenntnis und die Funktion der Inferenzstatistik. Anmerkungen zu E. L E I S E R K R A U T H , J . : Zur Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie: Ein Kommentar zu L E I S E R L E I S E R , E.: Ein «letztes Wort» zum statistischen Schließen. Abschließende Stellungnahme zu den Beiträgen von D I L L M A N N / A R M I N G E R , G I G E R E N Z E R und K R A U T H DILLMANN, R . & ARMINGER, G . :
177 183 190
200
Literatur
Neuerscheinungen
206
Titel und Abstracta
208
Nachrichten und Mitteilungen
210
Autoren
213
Copyright 1986 Verlag Hans Huber Bern Stuttgart Toronto Herstellung: Satzatelier Paul Stegmann, Bern Printed in Switzerland Gedruckt mit Unterstützung der Deutschen Forschungsgemeinschaft. Library o f Congress Catalog Card Number 78-126626 Die Zeitschrift für Sozialpsychologie wird in Social Sciences Citation Index (SSCI) und Current Contents / Social and Behavioral Sciences erfaßt.
145
Zeitschrift für Sozialpsychologie 1986
Zu diesem Heft Seit ihrer Begründung ist die Zeitschrift für Sozialpsychologie immer auch ein Organ gewesen, «das der wissenschaftlichen Kontroverse zwischen verschiedenen theoretischen Standpunkten» als Forum dient. Es werden solche Kontroversen in diesem Heft und den in Planung begriffenen Heften eine besondere Rolle spielen. Den Anfang macht eine Auseinandersetzung um angemessene Konzepte der statistischen Induktion. In diesem Heft beteiligen sich fünf Autoren an der Diskussion. Sie stehen damit in einer wissenschaftlichen Tradition, die schon den Beginn der neueren «einzelwissenschaftlichen» Psychologie nach der Mitte des vorigen Jahrhunderts markierte. Durch J O H N STEWART MILL angeregt, der für das 19. Jahrhundert und die neu entstehenden Disziplinen wohl der einflußreichste Wissenschaftstheoretiker war, machte beispielsweise
die Induktion zu einem nicht nur methodologischen Prinzip der neuen Psychologie. Seitdem ist über die Funktion des Schließens für die wissenschaftliche Erkenntnis eine beachtliche Literatur angewachsen, deren jüngste Variante die Diskussion über die Funktion und die Grenzen der Inferenzstatistik darstellt. Die Einbettung auch dieses spezifischen Problems in die Wissenschaftstheorie bleibt unverkennbar. Unverkennbar ist auch, daß es sich in diesem Heft um eine wissenschaftliche Polemik handelt, von der die Herausgeber glauben, daß sie, wenn schon nicht völlig sine ira et studio ausgetragen, sich doch in den ebenfalls traditionellen Grenzen und Formen einer wissenschaftlichen Disputation ^^B hält. ^ ^ WILHELM W U N D T - 1 8 6 3
CARL FRIEDRICH G R A U M A N N
I
J
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
146
Theorie und Methoden Statistisches Schließen und wissenschaftliche Erkenntnis. Gesichtspunkte für eine Kritik und Neubestimmung E C K A R T LEISER Freie Universität Berlin
R.A.
T h e s t a t i s t i c a l c o n c e p t s o f NEYMAN & PEARSON, R . A . FISHER,
FISHER u n d BAYES w e r d e n a u f i h r e A n w e n d b a r k e i t a u f P r o -
and BAYES are examined for their applicability to problems of scientific cognition. As a result, for none of these concepts a rational basis for gaining or assessing scientific propositions is found to exist. This is due to the lack of reflection of the difference between deductive and inductive reasoning in statistics, and of its logical and gnoseological implications. For instance, no serious attempt has been made as yet to handle the inductive inversion of the NEYMAN-PEARSON-matrix in a way exhausting the general framework of this concept. The findings are summed up to the thesis, that gambling is the only context of induction to which the present comprehension of statistical reasoning fits so far. Finally, an attempt is made to combine some of the elaborated aspects of statistical induction to a measure of «inductive security».
D i e s t a t i s t i s c h e n K o n z e p t e v o n NEYMAN & PEARSON,
bleme wissenschaftlicher Erkenntnis untersucht. Im Ergebnis wird für keines dieser Konzepte eine rationale Basis gefunden, die das Gewinnen und Bewerten wissenschaftlicher Aussagen rechtfertigen könnte. Das wird erklärt mit dem weitgehenden Ignorieren der Differenz zwischen deduktivem und induktivem Schließen in der Statistik und deren logischen und erkenntnistheoretischen Implikationen. Zum Beispiel gibt es bis heute keinen ernsthaften Versuch einer induktiven Umkehrung der NEYMAN-PEARSON-Matrix, unter Ausschöpfung des diesem Konzept zugrunde liegenden allgemeinen Rahmens. Die Ergebnisse der Untersuchung werden zu der These zugespitzt, daß das Glückspiel der einzige Kontext von Induktion ist, zu der das heute übliche Verständnis von statistischem Schließen paßt. Abschließend wird versucht, einige herausgearbeitete Gesichtspunkte der statistischen Induktion zu einem Maß der «induktiven Sicherheit» zusammenzufassen.
Vorbemerkung Meine ursprüngliche Idee für die folgenden Überlegungen zum Problem des statistischen Schließens war, die in der Diskussion befindlichen Ansätze zu dieser Frage mit meinen eigenen Vorstellungen zu vermitteln. Ziel sollte sein, meine eigenen, weitgehend unformalisierten Gedanken zu diesem Thema an der formalen Stringenz der z.Z. maßgebenden Konzepte zu überprüfen. Zu meiner Überraschung habe ich festgestellt, daß in den von mir durchgesehenen Ansätzen keiner der für mich zentralen Gedanken des statistischen Schließens wirklich stringent zu Ende gedacht worden ist, daß die logische und erst recht die erkenntnislogische Explikation der vorgeschlagenen Vorgehensweisen erstaunlich bruch-
stückhaft ist, und daß man schließlich auch im Lager der Vertreter der hier angesprochenen Konzepte über die Fülle immanenter Ungereimtheiten ziemlich unglücklich ist. Angesichts der tiefgehenden Hilflosigkeit und Beliebigkeit der maßgebenden Konzepte und in Ermangelung eines kohärenten Diskussionszusammenhangs zwischen ihren Vertretern habe ich mein Vorhaben geändert: In einem 1. Schritt möchte ich mich darauf beschränken, die wichtigsten Ungereimtheiten in den untersuchten Konzepten zusammenzustellen. In einem 2. Schritt werde ich dann versuchen, in Reinterpretation einiger Ansätze diesen Ungereimtheiten nachzugehen und dabei Ansatzpunkte für ihre Überwindung zu finden. Bei den von mir behandelten Ansätzen handelt
Zeitschrift für Sozialpsychologie 1986,17,146-159
es sich um das NEYMAN-PEARS0N-Ä0«zepf, um das R.A.FisHERsche Konzept des fiduzialen Schließens sowie um das BAYESsche Konzept.
Diese drei Ansätze decken die maßgebenden historischen Stränge in der Diskussion des statistischen Schließens ab. Während das R.A. FiSHERsche Konzept sich letztlich nicht durchsetzen konnte, beherrschen das N E Y M A N - P E A R S O N Konzept und das BAYESsche-Konzept, was die Repräsentanz auf der Ebene von Lehrbüchern und Forschung betrifft, die heutige StatistikSzene. N E Y M A N - P E A R S O N steht hier für eine erkenntnislogisch eher konservative, streng mathematisch-deduktive Behandlung der Schließproblematik, BAYES dagegen für das explizite Aufgreifen des Induktionsaspekts bei dessen gleichzeitiger Verwandlung in ein empirisches oder - in der Spielart «subjektive Wahrscheinlichkeit» - psychologisches Problem. R . A . F I S H E R wiederum verdient in diesem Zusammenhang Interesse als Pionier auf dem Feld der statistischen Schließproblematik, darüberhinaus aber als exemplarischer Versuch, die Induktionsproblematik immanent logisch-mathematisch, also ohne Rückgriff auf materielle oder psychologische Voraussetzungen zu lösen. Ich habe diesem R . A . F I S H E R schen Versuch wegen seiner Relevanz in historischer Auseinandersetzung mit N E Y M A N - P E A R S O N und seiner besseren Zugänglichkeit den Vorzug vor ähnlichen Versuchen gegeben, etwa dem der logischen Wahrscheinlichkeit (CARNAP, BROAD, KYBURG).
1.
1.1
Ungereimtheiten in den untersuchten Konzepten NEYMAN-PEARSON-Konzept
Das NEYMAN-PEARSON-Konzept ist aus der ent-
scheidungsstrategischen Explikation der statistischen Entscheidungssituation hervorgegangen. In der inzwischen in die gängigen Statistikbücher eingegangenen Entscheidungsmatrix wird explizit danach gefragt, mit welcher Wahrscheinlichkeit sich bei Gültigkeit einer Hypothese diese auch im statistischen Test gegen eine konkurrierende Hypothese durchsetzt. In seiner Weiterentwicklung lassen sich aus diesem Konzept bei Quantifizierung von Kosten
147
und Nutzen der Entscheidungskonsequenzen optimale Entscheidungsstrategien gewinnen. a) Die aus der Sicht der Sozialwissenschaften augenfälligste Ungereimtheit besteht darin, daß der einzige Fall, in dem dieses Konzept eine konkrete Anleitung statistischen Schließens leisten könnte, nämlich der Fall punktueller Hypothesen, in der Praxis gar nicht vorkommt. Umgekehrt: eine ausgearbeitete Entscheidungslogik für den in der Praxis einzig relevanten Fall zusammengesetzter Hypothesen liefert das NEYMAN-PEARSON-Konzept nicht (s. dazu N E Y M A N & PEARSON, 1 9 3 3 ) .
b) Die eigentliche Problematik statistischen Schließens, nämlich das induktive Schließen von besonderen empirischen Daten auf ein dahinterstehendes allgemeines Modell, bleibt ausgespart. Konkret: der Übergang von der deduktiven zu einer induktiven Interpretation der Entscheidungsmatrix wird nicht geleistet. Im Effekt werden die konkurrierenden statistischen Modelle gar nicht miteinander in Beziehung gesetzt, sondern lediglich nebeneinandergestellt. Zu einer erkenntnislogischen Begründung wissenschaftlicher Einzelentscheidungen trägt das Konzept daher eigentlich nichts bei. Das gilt auch für die mathematischen Verallgemeinerungen des Ansatzes in Richtung auf das Konzept des «uniformly most powerfull»-(UMP-)Tests bzw. UMP-unbiased (UMPU-)Tests. c) Besonders deutlich werden die erkenntnislogischen Ungereimtheiten des N E Y M A N - P E A R soN-Konzepts im Fall der darin enthaltenen Randomisierungsregeln. Nach diesen sind in den Grenzfällen des Entscheidungsbereichs ggf. künstliche Zufallsexperimente zu veranstalten, um die gewählten Entscheidungscharakteristiken zu gewährleisten. Das läuft auf ein geradezu paradoxes Verhältnis des Erkenntnissubjekts zum Gegenstand hinaus: um zu Wissen über den Gegenstand zu gelangen, ist erst einmal Wissen zu opfern / Blindheit herzustellen.
1.2
R.A.
FISHERS
Konzept des fiduzialen
Schließens Die gemeinhin als unentwickelte Vorform des NEYMAN-PEARSON-Konzepts betrachtete R.A. FisHERsche «Signifikanzstatistik» wird von R . A . F I S H E R selbst, wenn auch nachträglich, als
148
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
Ausweg aus dem Schließ-Dilemma der NEYMANPEARSON-Logik verteidigt (FISHER, 1 9 7 3 ) . Darum wird dieses Konzept hier als zweites behandelt. a) Die augenfälligste Ungereimtheit besteht hier darin, daß das Problem des induktiven Schließens nicht gelöst, sondern gleichsam verdrängt wird. Um der erkenntnistheoretischen Unsicherheit zu entgehen, die im virtualisierenden «Nebeneinanderstellen» konkurrierender
R.A.FisHERsche Voraussetzung auf die heimliche Installierung einer a-priori-Parameterverteilung im Sinn der subjektiven Wahrscheinlichkeit hinaus. Der Widerspruch, in den diese subjektive R.A.FisHERsche Schlußlogik zu den objektiven Verhältnissen geraten kann, könnte am Beispiel der Konfidenzintervall-Bestimmung im Fall abweichender a-priori-Parameterverteilungen recht einfach demonstriert werden. Der formale Aus-
M o d e l l e in der NEYMAN-PEARSON-Logik z u m
Schließproblem entpuppt sich also bei näherem Hinsehen als verdeckter Rückzug ins Subjektive.
Ausdruck kommt, wird eine Zentrierung auf das «wirkliche», das tatsächlich vorliegende Modell versucht. Das Ziel dabei ist, die wirklich vorliegenden empirischen Daten direkt mit dem wirklich vorliegenden statistischen Modell in Beziehung zu setzen, das wirklich vorliegende statistische Modell also mit Hilfe der Daten «aufzufinden». Und der Weg dahin ist, von den empirischen Daten her Wahrscheinlichkeitsschlüsse auf die dahinterliegenden Parameter vorzunehmen (FISHER, 1 9 3 6 ) . R . A . F I S H E R versucht also letztlich, das Induktionsproblem in ein Deduktionsproblem zu verwandeln, und er kommt zu dem Schluß, daß das unter bestimmten Bedingungen auf rein mathematischem Weg möglich ist. b) Die «pivot-quantities» (etwa: AngelpunktGrößen) - als solche betrachtet R . A. FISHER etwa die t-Statistik - sind ein Beispiel für das Umschlagen eines rationalen Anspruchs in Irrationalität. Die Suche nach solchen Pivot-Größen bedeutet nämlich nichts anderes als den Glauben an einen mathematischen «deus ex machina», der die materielle Differenz zwischen allgemeinen Strukturen und singulären Erscheinungen auflöst; anders ausgedrückt: menschliche Erkenntnis aus ihrem Angewiesensein auf konkrete Erkenntnisarbeit/-praxis befreit. c) Dieses Kunststück wird möglich, indem stillschweigend die Grenzen zwischen Subjektivität und Objektivität aufgelöst werden. Der R. A. FiSHERsche Wahrscheinlichkeitsschluß beim Konfidenzintervall etwa beruht nämlich darauf, daß die Voraussetzung des vollständigen Nichtwissens eingeführt wird. Im Gegensatz zum Objektivitätsanspruch R.A.FISHERS handelt es sich bei diesem Nichtwissen aber um eine rein subjektive Kategorie (in Abgrenzung etwa zum Zufall als objektive «perspektivische» Unsicherheit in der von mir gewählten Terminologie [s. LEISER, 1983, p.8ff.]). Im Effekt läuft diese versteckte
w e g R.A.FISHERS aus d e m
NEYMAN-PEARSON-
1.3 BAYESscher Ansatz in seiner auf die Wissenschaften
Anwendung
Der BAYESsche Ansatz ist mehr oder weniger synonym mit dem Konzept der subjektiven Wahrscheinlichkeit. Er läßt sich aber auch objektiv interpretieren . (Eine systematische Einführung findet sich bei LINDLEY, 1 9 6 9 / 1 9 7 0 . ) a) Nehmen wir zunächst die subjektive Interpretation des BAYESschen Ansatzes, so besteht, erkenntnislogisch gesehen, deren «Lösung» darin, das Induktionsdilemma in das Seelenleben individueller Statistik-Anwender verlagert zu haben, also in eine «black-box». Das ist innerhalb der immanenten Logik des subjektiven Wahrscheinlichkeitskonzepts für sich genommen noch keine vorhaltbare Ungereimtheit, wird aber zu einer solchen, wenn man den typischen kritisch-rationalistischen Kontext hinzunimmt, der das wissenschaftliche Handeln solcher Statistik treibenden Individuen legitimieren soll. Wie sich die kritisch-rationalistischen Objektivitäts- und Diskursansprüche mit einer Wahrscheinlichkeitskategorie vereinbaren lassen sollen, die eher in der Tiefenpsychologie als in der Wissenschaftstheorie verankert ist, bleibt dunkel. b) Gegen den gerade bezeichneten Widerspruch werden gewöhnlich verschiedenste Konvergenzeigenschaften des BAYESschen Algorithmus ins Feld geführt; konkret: über eine Kette empirischer Erhebungen hinweg gesehen gewinnt die empirische Evidenz im Vergleich zu den subjektiv beliebigen Ausgangs-Wahrscheinlichkeiten immer mehr an Gewicht (s. etwa LINDLEY, 1970, p.3). Hierauf wäre zunächst einmal ganz allgemein zu fragen, wieweit sich ein wissenschaftlicher Erkenntnisprozeß überhaupt nach
Zeitschrift für Sozialpsychologie 1986,17,146-159
dem Schema einer BAYES-Folge organisieren läßt. Zum einen gibt es in der Wissenschaft gewöhnlich die Notwendigkeit, Fragen über eine abgeschlossene Erhebung und nicht über eine Erhebungskette zu entscheiden. Zum andern gibt es, solange ich mich auf das Binnensystem eines einzelnen individuellen Wissenschaftlers beziehe, keinerlei methodische Vorkehrungen gegen systematische Erhebungsfehler. Und dies Risiko ist groß, denn wegen des kumulativen Charakters einer solchen stochastischen Kette ist ein derartiger Entscheidungsprozeß «träge»; d.h. systematisch verfälschte Messungen lassen sich praktisch nicht mehr korrigieren. Eine solche Kette «abschneiden» ist aber auch keine Lösung, denn damit entstände ein neues Beliebigkeitsproblem, das des Anfangspunkts. Eine Erhebungskette zu halbieren, d. h. die erste Hälfte durch die zweite Hälfte zu kontrollieren, führt aber auch nicht aus diesem Dilemma, denn beide Hälften wären im Rahmen des Konzepts subjektiver Wahrscheinlichkeiten nicht miteinander zu vermitteln. Wegen der Austauschbarkeit der Daten (als Voraussetzung der Zufallsstichprobe; s. DE FINETTI, 1964, p . H 8 f f . ) hätten aber beide Datenhälften als vollgültige empirische Evidenzen zu gelten. Das Ergebnis könnte dann sein: Einmal: Aufgrund der empirischen Evidenz liegt der Parameter mit Wahrscheinlichkeit P = 0.95 zwischen 80 und 90. Das andere Mal: Aufgrund der empirischen Evidenz liegt der Parameter mit Wahrscheinlichkeit P = 0.95 zwischen 60 und 70. Zusammengenommen macht das als Wahrscheinlichkeitsaussage offensichtlich keinen Sinn. Im übrigen ändern alle Konvergenzeigenschaften nichts daran, daß es zu jeder gewünschten Schlußfolgerung eine passende subjektive Ausgangsverteilung gibt. Alle Konvergenzsätze (s. etwa KYBURG, 1974, p. 112ff.) lassen sich nämlich umkehren. Und da die subjektive Beliebigkeit konstitutiver Bestandteil des subjektiven Wahrscheinlichkeitskonzepts ist, läßt sich auch jede gegen eine solche ex-post-Anpassung aufgestellte formale Regel unterlaufen (KYBURG führt das für das (Prinzip der epistemischen Konditionalität) und seine Modifikation durch JEFFREYS vor [s. KYBURG, 1974, p . H 8 f f . ] ) . c) Wird dagegen, um dieser subjektiven Beliebigkeit zu entgehen, das Bezugssystem eines individuellen Wissenschaftlers überschritten, d.h. eine zweite subjektive Wahrscheinlichkeitsvertei-
149 lung ins Spiel gebracht, bricht die Logik der subjektiven Wahrscheinlichkeit, was wissenschaftliches Schließen betrifft, endgültig zusammen. Zwischen unterschiedlichen Schlüssen, die sich für gleiche Daten aus unterschiedlichen subjektiven Ausgangs-Wahrscheinlichkeiten ergeben, läßt sich nämlich nicht mehr entscheiden. d) Eine objektive Interpretation des BAYESschen Ansatzes als Basis für wissenschaftliches Schließen führt zu ähnlich widersinnigen Konsequenzen. Die Wahrscheinlichkeitsverteilung des interessierenden Parameters kennzeichnet hier nicht einen Zustand subjektiver Unsicherheit, sondern einen Raum möglicher Weltzustände, die mit bestimmten objektiven Anteilen vorkommen und von denen im gegebenen wissenschaftlichen Untersuchungszusammenhang genau einer vorliegt, dessen Parameter im B A Y E S s c h e n Schluß eingegrenzt werden soll. Sinn machen hier jederzeit statistische «Massenaussagen» der Art: «Bei Zufallsstichproben mit dem gefundenen Ergebnis wird der zugehörige Parameter mit einer relativen Häufigkeit von 0.95 zwischen 80 und 90 liegen.»
Wird ein unbekannter, aber objektiv gegebener Weltzustand mit Parameter P «festgehalten», sieht es allerdings anders aus. Der Sinn der Aussage: «Gegeben ein (unbekannter) Wert des Parameters P: Bei Zufallsstichproben mit dem gefundenen Ergebnis ist die Wahrscheinlichkeit gleich 0.95, daß dieser Wert zwischen 80 und 90 liegt»,
ist nicht mehr auszumachen, denn es fehlt der Ereignisraum, dem die Wahrscheinlichkeit als verallgemeinertes Maß zugeordnet werden könnte. Das wird klar, wenn man sich in der Aussage für den unbekannten Wert den objektiv vorliegenden Wert eingesetzt denkt. Augenscheinlich unsinnig wird es jedoch, wenn dieser unbekannte, aber objektiv gegebene Weltzustand mit Parameter P über verschiedene Erhebungen hinweg «festgehalten» wird. Wir hätten dann z.B.: «Gegeben ein (unbekannter) Wert des Parameters P: Bei Zufallsstichproben mit dem gefundenen Ergebnis A ist die Wahrscheinlichkeit gleich 0.95, daß dieser Wert zwischen 80 und 90 liegt.» «Gegeben ein (unbekannter) Wert des Parameters P: Bei Zufallsstichproben mit dem gefundenen Ergebnis B ist die Wahrscheinlichkeit gleich 0.95, daß dieser Wert zwischen 60 und 70 liegt.»
Wie sollen diese beiden auf den gleichen Wert bezogenen Aussagen miteinander vermittelt wer-
150
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
den? - Die Unmöglichkeit, von besonderen Daten auf eine erhebungsübergreifende allgemeine Struktur zu schließen, erscheint hier als Aporie von Wahrscheinlichkeitsaussagen. Konkret heißt die Aporie nichts anderes, als daß jeder solche Wahrscheinlichkeitsschluß sich auf die Repräsentativität/Austauschbarkeit der gefundenen Daten verläßt. Bei einer Wiederholung der Erhebung können so plötzlich zwei repräsentative Evidenzen miteinander konkurrieren, zwischen denen auf der Wahrscheinlichkeitsebene nicht mehr entschieden werden kann. Die Voraussetzung der Repräsentativität/Austauschbarkeit bricht gleichsam unter der Last der sinnlichen Anschauung zusammen. Meine Vermutung ist: Die Anwendung des BAYESschen Ansatzes auf wissenschaftliche Hypothesen beruht auf der oberflächlichen Gleichsetzung einer Kette klassifikatorischer Dimensionen, in deren Schnittpunkt eine zu identifizierende Größe gesucht wird (Beispiel: BAYESsche Diagnosefindung) mit den austauschbaren Realisationen eines statistischen Modells, also einer Stichprobe von Zufallsexperimenten, aus der Schlüsse über eine zugrunde liegende allgemeine Struktur gezogen werden sollen (der in der Wissenschaft vorliegende Fall). Alles in allem: Die BAYESsche Schluß weise ergibt nur einen Sinn, solange man sich in einer geschlossenen Schlußkette bewegt, also Informationen kumulativ zu Schlüssen verarbeitet. Die für Erkenntnislogik konstitutive Vermittlung voneinander unabhängiger Evidenzen im affirmativen oder kritischen Sinn, also das diskursive Überschreiten eines immanenten Schlußkontextes, ist darin nicht darstellbar.
2.
Konsequenzen aus den Ungereimtheiten bestehender Konzepte des statistischen Schließens, Reinterpretation, Neubestimmung
Nach einigen grundsätzlichen Vorbemerkungen möchte ich in Thesenform eine Reinterpretation der bisher behandelten Konzepte des statistischen Schließens versuchen und in diesem Zusammenhang einige Gesichtspunkte zur Überwindung der dargestellten Ungereimtheiten und damit zur Neubestimmung des statistischen Schließens in der Wissenschaft entwickeln.
a) Statistik in den Sozialwissenschaften hat es i.a. nicht mit «Naturtatsachen» oder «Weltzuständen» zu tun, sondern mit von Menschen geschaffenen (u.U. gar methodisch hergestellten) Prozessen und durch Menschen veränderbare Prozesse. Diese wissenschaftlich zu untersuchen - Wissenschaft verstanden als gesellschaftliche und gesellschaftliche Ressourcen bindende Einrichtung - ist nur soweit sinnvoll, wie sie - um mit K.HOLZKAMP zu sprechen - «mit Erweiterungen der bewußten Verfügung über menschliche Lebensmöglichkeiten» (1983) zu tun hat, also mehr oder weniger vermittelt - mit konkreteren Bedürfnissen und Befindlichkeiten. b) Statistik kann nur Hilfsfunktionen bei dieser Aufgabe haben: Abbildung (noch) nicht durchdrungener Zusammenhänge in statistische Modelle, dabei bewußtes in Kauf nehmen der damit notwendig einhergehenden Verfremdungen und Verkürzungen (s. LEISER, 1983, p . l f f . ) . Das ist nur dann legitim, wenn über alle Deformationen hinweg einige relevante Aspekte der Fragestellung übrigbleiben, und seien diese noch so primitiv (etwa: Therapie hat Wirkung/keine Wirkung, übersetzbar in Wahrscheinlichkeiten/ Mittelwerte o.ä.). Hinsichtlich dieses Akzeptierens von Hilfsfunktionen unterscheide ich mich von K.HOLZKAMP. In dessen Statistik-Kritik (s. HOLZKAMP, 1983, p.522ff.) wird m . E . der Modellstatus von Statistik und damit die notwendige Differenz zwischen Modell und Gegenstand nicht ausreichend berücksichtigt. Es kann nach meinem Verständnis nicht darum gehen, stochastisch beschaffene Gegenstände von nicht-stochastisch beschaffenen Gegenständen zu unterscheiden und daraus gleichsam ontologisch die Domäne von Statistik zu bestimmen: jede Anwendung von Statistik bedeutet einen grundlegenden Vereinfachungs-/Reduktionsschritt, den Versuch, kategorial und strukturell völlig andersartige Gegenstände in ein mathematisches (und das heißt auch für die Statistik letztlich - s. LEISER, 1983, p . 3 f f . - mechanisch-deterministisches) Modell abzubilden. Zentrale Dimensionen des Gegenstands, nämlich seine Entwicklungs-/Selbstveränderungsmomente, gehen dabei grundsätzlich verloren. Die Frage ist aber, ob bei diesem aktiven Vorgang der Stochastisierung über alle Reduktionen und Deformationen hinweg nicht doch etwas Aussagefähiges abgebildet wird. Das kann aber nicht ein für allemal für ei-
151
Zeitschrift für Sozialpsychologie 1986,17,146-159
nen Gegenstand entschieden werden, es hängt vielmehr von der - z.B. von entwicklungslogischen Momenten absehenden - Fragestellung ab und zudem von der Verfügbarkeit entwickelterer Darstellungs- und Entscheidungskonzepte. Es gibt also m.E. sowohl (transitorische) historische als auch (forschungs-)ökonomische Gründe für solche Hilfsfunktionen von Statistik. Daneben wird Statistik eine Kommunikations-/Verteidigungs-/Kritikinstanz sein, solange der theoretische/begriffliche Rahmen für einen inhaltlichen Diskurs noch nicht entwickelt ist. Bei alledem sei noch einmal betont: jede sich nur auf statistisches Schließen stützende Verallgemeinerung ist verantwortungslos. Und in der Konsequenz sehe ich den verbleibenden Stellenwert der so bestimmten statistischen Hilfsfunktionen für den Erkenntnisfortschritt der Psychologie ähnlich restringiert wie K. HOLZKAMP. c) Die Hilfsfunktionen der Statistik sind in den allgemeineren Prozeß der Erkenntnisgewinnung einzuordnen. Verallgemeinerungen nach dem hier vertretenen Verständnis sind dabei kein wissenschaftlicher Wert an sich. Sie sind vielmehr wiederum in spezifische und praktische Handlungsmöglichkeiten umzusetzen, d. h. letztlich zu «materialisieren» in Veränderungen allgemeiner gesellschaftlicher Strukturen (was die Psychologie betrifft z.B. im Bereich psychosozialer Versorgung). Induktionsschlüsse verschwinden also nicht im theoretischen Raum, sondern haben sich über praktische Verallgemeinerungen zu bewähren (Abb. 1). Kriterien sind hier die Realisierbarkeit theoretisch erschlossener Veränderungsmöglichkeiten und die davon versprochene Erweiterung der Kontrolle über die Lebensbedingungen (was letztlich nur von den Betroffenen zu evaluieren ist). Nach diesen Vorbemerkungen nun zu meinen Thesen. Diese handeln zunächst von etwas in der
allgemeines Problem
wissenschaftlicher Lösungsansatz samt Erwartungen
Statistik sehr Vertrautem, nämlich dem Glückspiel. Daß Statistik historisch gesehen auf das Glückspiel zurückgeht, ist bekannt und findet in Lehrbuch-Beispielen ausgiebig seinen Niederschlag. Eine über solche illustrativen Bezüge hinausgehende Auseinandersetzung mit diesen historischen Wurzeln der Statistik findet aber kaum statt. Ich meine, daß die gegenwärtige Hilflosigkeit hinsichtlich der erkenntnistheoretischen Grundlagen des statistischen Schließens und die angesprochenen Ungereimtheiten der entsprechenden Konzepte einiges mit diesen historischen Wurzeln zu tun haben (s. hierzu RENYIS Rekonstruktion des historischen Kontextes, in dem PASCAL die Grundlagen der Wahrscheinlichkeitstheorie entwickelt hat [RENYI, 1 9 6 9 ] ) . 1. These: Die statistische (allgemeiner: wahrscheinlichkeitstheoretische) Begrifflichkeit ist bis auf den heutigen Tag nicht wesentlich über das Modell des Glückspiels hinausgekommen. Schärfer formuliert: Das Glückspiel ist der einzige Gegenstand, auf den sich die bis heute entwikkelte Begrifßichkeit und Logik des statistischen Schließens sauber und sinnvoll anwenden läßt. Das fängt an mit der bis heute vorherrschenden «empirischen» Wahrscheinlichkeitskategorie. Diese baut auf auf dem «long run», einer unbegrenzten Serie von Zufallsexperimenten, in der Wahrscheinlichkeiten als relative Häufigkeiten von Ereignisklassen, also als Maße empirischer Mengen, definiert sind. Das bedeutet zweierlei: Ein Zufallsexperiment wird mit seinem Ergebnis, der Realisierung eines bestimmten Ereignisses, gleichgesetzt, in diesem Sinn also «verdinglicht», und Wahrscheinlichkeiten beziehen sich auf Anteile solcher Dinge an einer Gesamtheit von Dingen. Paradigmatisch für ein solches Wahrscheinlichkeitsverständnis ist die berühmte Urne mit
aktualempirische Überprüfung
Abb. 1: Zur Hilfsfunktion von Statistik im Prozeß der Erkenntnisgewinnung.
praktische Verallgemeinerung
152
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
schwarzen und weißen Kugeln. Was f ü r die Beschreibung eines Glückspiels adäquat ist (die Chancen lassen sich als Anteil ausgewählter Möglichkeiten an einer Gesamtheit gleichgewichtiger Möglichkeiten definieren, und diese lassen sich mit dem Anteil günstig ausgegangener Spiele an einer Serie von Spielen vergleichen), führt für wissenschaftliche Fragestellungen zu Schwierigkeiten. Erstens kenne ich hier nicht die Urne und deren Anteile; stattdessen habe ich eine mehr oder weniger begründete Hypothese. Und zweitens habe ich keinen «long run», sondern i.a. eine einzige Erhebung, deren Ergebnis - z.B. eine Statistik - mit den hypostasierten Wahrscheinlichkeiten zu vergleichen ist. Eine «beschreibende» Wahrscheinlichkeitskategorie, die immer schon von fertigen Ergebnisklassen ausgeht, und deren Verallgemeinerungsdimension die empirische Menge der Realisationen ist, hilft hier nicht weiter. Für mich folgt daraus, daß der klassische «ergebnisorientierte» Wahrscheinlichkeitsbegriff in Richtung auf einen «prozeßorientierten» Wahrscheinlichkeitsbegriff zu überwinden ist, in dem «Wahrscheinlichkeit» eine Strukturcharakteristik von Zufallsprozessen meint. Die Verallgemeinerungsdimension eines solchen Wahrscheinlichkeitsbegriffs liegt in der «Virtualität» dieses Zufallsprozesses und sein empirischer Bezug in der «Erwartung», die aus dieser Strukturcharakteristik für jedes einzelne Zufallsexperiment folgt. In einer mehr technischen Terminologie formuliert: Wahrscheinlichkeit ist eine Strukturcharakteristik eines Zufallsgenerators, der jedes einzelne Zufallsexperiment steuert, ist in dem Sinn auf jedes einzelne Zufallsexperiment zu beziehen, aber als eine die Zufallsexperimente übergreifende Größe diesen als allgemeine Charakteristik vorgeordnet. Eine solche prozeßorientierte Wahrscheinlichkeitskategorie läßt sich genauer explizieren und auch anhand von Modellen konkretisieren (wie ich am «Geldautomaten»-Beispiel vorgeführt habe [s. LEISER, 1983, p.8f.]).
2. These: Die Logik des statistischen Schließens von R.A.FISHER ist der Situation des Glückspiels angemessen, ergibt aberfür die wissenschaftliche Erkenntnissituation keinen Sinn. In der gerade eingeführten Terminologie von Zufallsprozessen/Zufallsgeneratoren gesprochen, handelt es sich beim Glückspiel um einen
planmäßig konstruierten Zufallsgenerator, in den bestimmte Strukturcharakteristiken, n ä m lich seine Wahrscheinlichkeiten, hineingebaut worden sind. Aus der Sicht des Konstrukteurs sind diese Strukturcharakteristiken somit bekannt. Für ihn gibt es folglich auch kein erkenntnistheoretisches Problem des verallgemeinernden/induktiven Schließens auf solche Charakteristiken. Es gibt allein das deduktive Problem, welche empirischen Erwartungen aus der Struktur dieses Zufallsgenerators folgen. Auch aus der Sicht des Nicht-Konstrukteurs ist der Ausgangspunkt aller Fragestellungen ein eindeutig bestimmter Bauplan, auf den alle Überlegungen zentriert sind. Solche Überlegungen können z.B. sein, wieweit dieser Bauplan vom Konstrukteur auch eingehalten worden ist, wieweit dieser «ideale» Bauplan auch realisiert worden ist. Das erkenntnistheoretische Problem ist hierbei ein vergleichsweise beschränktes, nämlich die Einhaltung einer solchen vorgegebenen « N o r m » überprüfen - konkret: P r ü f e n , wieweit die empirischen Ergebnisse mit den Erwartungen übereinstimmen, die sich aus den vorgegebenen Normen ergeben. Das ist genau die von R. A. FISHER konzipierte Logik des statistischen Schließens. (Besser gesagt: ihr rationaler Teil. Die quasi positivistische Zuordnung einer Norm-Struktur zu Zufallsexperimenten führt dann nämlich in induktiver U m kehrung dazu, daß die Norm-Struktur selbst zu einer empirischen Größe wird, die sich über «fiduziales Schließen» näher eingrenzen läßt. Bleiben wir beim rationalen Teil.) Die Differenz zur wissenschaftlichen Erkenntnissituation ist unschwer zu sehen: Zum einen gibt es in der Wissenschaft keine herausragende Norm-Struktur, auf deren Überp r ü f u n g sich das Interesse zentrieren könnte. Vielmehr gibt es konkurrierende statistische Modelle, die als Erklärungsansätze den gleichen empirischen Ergebnissen unterlegt werden können. Die empirischen Ergebnisse dienen also nicht mehr lediglich der deduktiven «Bestätigung» einer real gegebenen oder normativ gesetzten Struktur, vielmehr sind von ihnen aus die konkurrierenden Modelle zu vergleichen und zu bewerten. Ein solches Schließen von besonderen empirischen Daten auf «dahinterstehende» mögliche Modelle stellt aber einen genuin induktiven Erkenntnisvorgang dar.
153
Zeitschrift für Sozialpsychologie 1986,17,146-159
U n d zum andern genügt es nicht, positiv zu zeigen, d a ß der von mir favorisierte Bauplan zu den empirischen Ergebnissen p a ß t , vielmehr ist der Erklärungswert meines Bauplans gegen den Erklärungswert konkurrierender Baupläne zu verteidigen. 3. These: Die NEYMAN-PEARSON-Logik des statistischen Schließens besteht in der Dezentrierung und Virtualisierung der Glückspiel-Situation. Sie ermöglicht so zwar ein deduktives Nebeneinanderstellen konkurrierender Erklärungsansätze, aber keine Synthese der daraus gewonnenen Gesichtspunkte zu einem rational ausgewiesenen induktiven Schluß. Der Fortschritt der NEYMAN-PEARSON-Logik besteht im Vergleich zur Logik von R.A.FISHER zunächst einmal darin, d a ß sie den impliziten Entscheidungscharakter jedes statistischen Schlusses offenlegt. Dieser Entscheidungscharakter steckt j a auch in der R.A.FisHERschen «Bestätigungslogik» drin, denn aus der NichtBestätigung einer als gültig unterstellten N o r m S t r u k t u r folgt j a , d a ß irgendeine andere Struktur vorliegt. N u r wird dieser Frage bei R.A.FISHER nicht weiter nachgegangen. Sie wird durch die Zentrierung auf die «Nullhypothese» ausgeblendet. Dieses Ausblenden der konkurrierenden Erklärungsansätze ist allein schon mathematisch höchst fragwürdig. Denn wer garantiert denn etwa, d a ß die G r ü n d e , die f ü r die Bestätigung der Nullhypothese ins Feld g e f ü h r t werden, nicht noch stärker für einen konkurrierenden Erklärungsansatz gelten? - k o n k r e t : d a ß die empirischen Ergebnisse, die als zur Nullhypothese passend angesehen werden, nicht genauso gut oder noch besser zur Alternativhypothese passen? Das Offenlegen des Entscheidungscharakters f ü h r t auf die b e k a n n t e Entscheidungsmatrix (Abb.2). Geht m a n allerdings der praktischen Bedeutung dieser Entscheidungsmatrix nach, stößt m a n schnell auf Grenzen. U m die entscheidende gegeben H, H0 Entscheidung für
H0
1-a
ß
Hi
a
1-ß
Abb.2: Statistische Entscheidungsmatrix.
G r ö ß e , nämlich den über die R.A.FiSHERsche Testlogik hinausgehenden Fehler ß konkret interpretieren zu k ö n n e n , ist hier vorauszusetzen, d a ß als Erklärungsansätze zwei und nur zwei ganz bestimmte Baupläne in Frage k o m m e n , zwischen denen im statistischen Schluß zu entscheiden ist. Auch dieser Fall liegt aber im strengen Sinn nur bei Glückspielen vor, etwa wenn hinter einer Glückspielserie zwei mögliche konstruierte Zufallsgeneratoren stehen k ö n n e n , die z. B. die Entscheidung zwischen zwei möglichen Spielstrategien nötig m a c h e n . Entsprechende Situationen können näherungsweise im Bereich von Technik und Ö k o n o m i e vorliegen, etwa bei der Frage, zu welchem von zwei möglichen Herstellungsverfahren unterschiedlicher Qualität eine Warensend u n g gehört. In den genannten Bereichen geht es d a n n allerdings nicht um das erkenntnislogische P r o b l e m einer möglichst sicheren Erschließung des hinter den empirischen Ergebnissen stehenden statistischen Modells, sondern um die Auswirkungen feststehender Handlungsmöglichkeiten hinsichtlich Kosten und Nutzen. Rationalität kann hier z.B. bedeuten, d a ß nach dem Minimax-Kriterium entschieden wird, ein Kriterium, bei dem es nicht um die induktive A u s s c h ö p f u n g aller Erkenntnismöglichkeiten geht, sondern um eine Nivellierung der Risiken, insbesondere also um die Vermeidung von extremen Risiken, damit aber auch C h a n c e n . Die Rationalität eines solchen Kriteriums läßt sich d a n n wiederum im Fortgang der Spiel- oder Handlungsserie, also im «long r u n » , empirisch aufzeigen (s. etwa KYBURG, 1974, p . 8 5 f f . ) . 4. These: Der Unterschied zwischen der Sicherheit, daß ein bestimmtes allgemeines Modell vorliegt, und der Wahrscheinlichkeit, auf ein bestimmtes Ereignis zu stoßen, ist kein lediglich stilistischer. Die Sicherheit eines induktiven statistischen Schlusses erfordert vielmehr grundlegend neue, auch formale, Überlegungen. Unter erkenntnislogischen Gesichtspunkten wäre auch unter den gerade genannten Gesichtsp u n k t e n genau zweier H y p o t h e s e n eine andere Frage interessant, nämlich: Gegeben eine bestimmte Strategie des statistischen Schließens: Wie hoch ist die Sicherheit, d a ß mein Schluß richtig ist? Auf einen statistischen Test angewendet: Wie hoch ist die Sicherheit, d a ß ich mit dieser E n t -
154
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
scheidungsstrategie richtig entscheide (daß also bei einer Entscheidung für H 0 d i e Nullhypothese auch wirklich vorliegt und daß bei einer Entscheidung für H, die Alternativhypothese auch wirklich vorliegt)? Zu dieser Problematik der induktiven Sicherheit(s. LEISER, 1980, p . l 8 0 f f . ) trägt die N E Y M A N PEARSON-Logik aber nichts bei. Selbstverständlich könnte ich die Sicherheit einer richtigen Entscheidung rein formal als Wahrscheinlichkeit formulieren. Ich hätte dann: P (richtig) = P (gegeb H 0 und Entsch H 0 ) + P(gegeb H j und Entsch H j ) = P (gegeb H 0 ) P (Entsch H 0 1 gegeb H 0 ) + P(gegeb H ^ PiEntsch H x | gegeb H j ) = P (gegeben H 0 ) (1 - a ) + { l - P (gegeben H 0 ) }(1 - ß) Wüßte ich die Wahrscheinlichkeit, mit der über die verschiedenen Anwendungen der Entscheidungsstrategie hinweg H 0 vorliegt, hätte ich damit rein formal ein Maß für die induktive Sicherheit; rein formal: denn das Entstehen wissenschaftlicher Hypothesen ist schwerlich als Zufallsgenerator vorstellbar, mit einer bestimmten Wahrscheinlichkeit für das Vorliegen von H 0 als Strukturcharakteristik. Eine solche feste Wahrscheinlichkeit für das Vorliegen von H 0 - also für die Falschheit der aufgestellten wissenschaftlichen Hypothesen - über die verschiedensten Anwendungsgebiete der in Rede stehenden Entscheidungsstrategie zu unterstellen, wäre ziemlich «hirnrissig». Serien von Hypothesen auf gleichem Anwendungsgebiet etwa werden miteinander zusammenhängen, also wird das Aufstellen einer falschen Hypothese bevorzugt mit dem Aufstellen weiterer falscher Hypothesen einhergehen. Für theoretisch entwickelte Anwendungsgebiete wird die Wahrscheinlichkeit, eine richtige Hypothese aufzustellen, größer sein als für unentwickelte usw. Schon unter dem formalen Gesichtspunkt der VON MisESschen Forderung des Ausschließens von «after-effects» (s. v. MISES, 1928) kann hier also nicht von Verhältnissen gesprochen werden, die das Arbeiten mit der Wahrscheinlichkeitskategorie erlauben. Ersetzt man aber die allgemeine Wahrscheinlichkeitscharakteristik durch eine spezifische Situationscharakteristik, also irgendeine (objektive) Strukturcharakteristik der spezifischen Forschungssituation, aus der die in Rede stehende
Hypothese hervorgegangen ist, so kann diese selbst unter größten Optimisten nicht mehr als bekannt oder auch nur zugänglich angesehen werden. Für eine solche unbekannte Charakteristik P(gegeben H 0 ) folgt aus der obigen Beziehung aber nur noch, daß die «Wahrscheinlichkeit» für eine richtige Entscheidung zwischen 1 a und 1 - ß liegt. (Man könnte übrigens hier wieder nach dem Minimax-Prinzip verfahren und die Entscheidungsstrategie so einrichten, daß a und ß den gleichen Wert annehmen.) Auch diese nicht näher bestimmbare «Wahrscheinlichkeit» würde aber nicht mehr allgemein für die zur Debatte stehende Entscheidungsstrategie gelten, sondern nur noch für die konkrete Forschungssituation, in der die Entscheidung stattfindet, wäre in diesem Sinn also auf den Einzelfall bezogen. Darin liegt ein wesentlicher erkenntnislogischer Unterschied zwischen der Struktur deduktiver und induktiver statistischer Schlüsse. Denken wir die angerissene Überlegung zu Ende, macht es auch keinen Sinn mehr, für einen solchen situationsbezogenen induktiven Schluß ein zusammenfassendes Maß der induktiven Sicherheit zu bestimmen. Zu den Bedingungen dieser Situation gehört dann ja auch, daß eine Entscheidung für H 0 oder H ! bereits vorliegt. Die konsequent auf den Einzelfall bezogene Frage würde somit heißen: Gegeben eine bestimmte Entscheidungsstrategie und eine Entscheidung für H 0 : Wie hoch ist die Sicherheit, daß H 0 a u c h wirklich vorliegt? und entsprechend: Gegeben eine bestimmte Entscheidungsstrategie und eine Entscheidung für H j : Wie hoch ist die Sicherheit, daß H j auch wirklich vorliegt? Mit H 0 für «gegeben H 0 » H j für «gegeben H j » H 0 f ü r «Entscheidung für H 0 » H j für «Entscheidung für H j » E P für «Entscheidungsstrategie» hätten wir dann für die beiden Maße rein formal:
155
Zeitschrift für Sozialpsychologie 1986,17,146-159
P(H0|H0,EP) =
P(H 0 ) • P ( H 0 | H 0 , EP) P(H 0 ) • P(H 0 1H 0 , EP) + {1 - P(H 0 )) • P(H 0 | nicht H 0 , EP) P(H 0 ) • (1 - a) P(H 0 ) • (1 - a) + {l - P(H 0 )} • ß
und entsprechend: | H j , EP)
S(H 0 | H 0 , EP) = S(Hj | H 1 ; EP) = 1 - M a x ( a , ß) [1 - P(H 0 )} • (1 - ß) {l-P(H0)j • (l-ß)+P(H0) • a
Wie leicht zu sehen ist, werden für jeden Wert der unbekannten situationsbedingten «Wahrscheinlichkeit» P(H 0 ) beide Maße um so größer, je kleiner die über die Entscheidungsstrategie zu steuernden Fehler a und ß. Bestimmte Eigenschaften der induktiven Sicherheit sind somit auch ohne Kenntnis von P(H 0 ) untersuchbar. Nach dem zur Situations- und Einzelfallbezogenheit der induktiven Sicherheit Gesagten wäre es irreführend, für solche Maße weiterhin den Terminus «Wahrscheinlichkeit» zu benutzen. Mein Vorschlag ist, daß Maße, die etwas über diese situationsbedingte Sicherheit eines verallgemeinernden statistischen Schlusses aussagen, mit dem Terminus «induktive Sicherheit» (Symbol: S) bezeichnet werden. Die beiden Maße der induktiven Sicherheit wären in dieser Schreibweise: S(H 0 1H 0 , EP) und S i H j H ^ E P ) Für die Definition dieser beiden Maße bilden die aus der BAYESschen Beziehung gerade gewonnenen Darstellungen nur einen Ausgangspunkt. Wie solche Maße sinnvoll zu bestimmen wären, wollen wir im Augenblick offenlassen. Fest steht bisher lediglich, daß in dieses Maß a und ß eingehen müssen. Wäre außer a und ß nichts zu berücksichtigen, könnten wir darüber hinaus sagen, daß im Vergleich zweier Entscheidungsstrategien eine Strategie, für die gleichzeitig a und ß kleiner sind, höhere Werte für die induktive Sicherheit haben sollte. Primitive Maße, die das erfüllen, wären z.B.:
oder S(H 0 1H 0 , EP) = S(H, | H „ EP) = 1 - '/2 • (a, ß) Der zweite Vorschlag würde die stärkere Festlegung enthalten, daß die induktive Sicherheit bereits wächst, wenn einer von beiden Fehlern für sich genommen kleiner wird. 5. These: Im Fall zusammengesetzter Hypothesen ist der Relevanzgesichtspunkt als konstitutiver Bestandteil in die Logik des statistischen Schließens aufzunehmen. Das «Effektgrößenmaß» greift hier zu kurz. Die bisher betrachtete Situation zweier ganz bestimmter konkurrierender Modelle ist den Wissenschaften, insbesondere den Sozialwissenschaften, praktisch fremd: Selbst in theoretisch entwickelten Bereichen wird ein so verfremdender Vorgang, wie ihn die Abbildung eines z. B. in psychologischer Begrifflichkeit beschriebenen Sachverhalts in statistische Kategorien darstellt, nicht zu einem eindeutig bestimmten statistischen Modell, sondern nur zu ziemlich groben Eingrenzungen eines solchen Modells führen. (Unrealistisches Beispiel: H 0 : Die Erfolgs-Wahrscheinlichkeit eines neuen Psychotherapiekonzepts ist P = 0.30 (= Spontanremission) vs. H , : Die Erfolgs-Wahrscheinlichkeit ist P = 0.70. Realistisches Beispiel: H 0 : Die Erfolgs-Wahrscheinlichkeit ist gleich der Wahrscheinlichkeit der Spontanremission vs. H t : Die Erfolgs-Wahrscheinlichkeit ist größer als die Wahrscheinlichkeit der Spontanremission.) Und selbst wenn die Festlegung eines eindeutigen statistischen Modells möglich sein sollte, kann die Konkurrenz nicht auf ein eindeutiges
156
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
Gegenmodell eingeschränkt werden, sondern m u ß alle formal denkbaren Gegenmodelle berücksichtigen. Es wäre dann im genannten Beispiel zwischen H ] : P = 0.70 und H 0 : P < 0.70 oder P > 0.70 zu entscheiden, was in der N E Y M A N - P E A R S O N Logik keinen Sinn ergibt. (Das Äußerste, was diese Logik für bestimmte SpezialVerteilungen leistet, wäre eine Entscheidung zwischen H , : P u < P < P 0 und H 0 : P < P u o d e r > P 0 .) Die positivistische Glückspiellogik, nach der die Unsicherheit schlimmstenfalls darin besteht, einen von zwei in ihren Bauplänen bekannten und deshalb in ihren statistischen Strukturen eindeutig bestimmten Zufallsgeneratoren aufzufinden, versagt dann hier endgültig ihren Dienst. Statt zweier eindeutig bestimmter statistischer Modelle gibt es zwei grobe Festlegungen über interessierende Modell-Parameter, die jeweils Raum für ein ganzes Kontinuum von Modellen lassen. Kurz gesagt: Das Modell wird selbst zu einer unbekannten Variablen. Und für jeden Wert dieser unbekannten Variablen ergibt sich eine andere NEYMAN-PEARSON-Entscheidungsmatrix. Die Entscheidungsmatrix kann daher nicht mehr dazu dienen, eine bekannte Alternative zu untersuchen, sondern nur noch dazu, alle möglichen unbekannten Alternativen durchzuspielen. Wir haben es hier mit einer Virtualisierung der Glückspielsituation zu tun, damit aber auch erkenntnislogisch mit einer Virtualisierung der Wahrheit. Aus: Für die gestellte Alternative A vs. B gibt es bei Entscheidungsstrategie E P die Fehlerrisiken a und ß, wird: Wenn die Alternative A j vs. B j wäre, gäbe es bei Entscheidungsstrategie E P die Fehlerrisiken a j und ß j. Wenn die Alternative A 2 vs. B 2 wäre, gäbe es bei Entscheidungsstrategie E P die Fehlerrisiken a 2 und ß 2 . Usw. D i e NEYMAN-PEARSON-Logik
läßt diese
un-
endliche Menge konditionaler Aussagen im Prinzip unvermittelt nebeneinander stehen. Eine «Vermittlung» besteht bestenfalls darin, über die Menge möglicher Alternativen hinweg Verlaufseigenschaften der Entscheidungscharakteristiken anzugeben (OC-Kurven), die Virtualisierung
also statt durch Aufzählung durch mathematische Funktionen zu vollziehen. Alle daraus gewonnenen Schlüsse sind wiederum deduktiv, etwa die Kriterien des U M P - bzw. UMPU-Tests, die zwar eine vergleichende Bewertung von Entscheidungsstrategien, aber nicht einen induktiven Vergleich der zur Entscheidung stehenden Hypothesen ermöglichen. Diese ihre induktive Hilflosigkeit führt im Effekt dazu, daß die NEYMAN-PEARSON-Logik zwar in besseren Lehrbüchern und statistischen «Sonntagsreden» vorkommt, in der Praxis aber nach der die Induktionsproblematik ausklammernden «Signifikanzlogik» von R . A . F I S H E R verfahren wird. Wie ist dem abzuhelfen? Im strengen Sinn überhaupt nicht, und zwar, weil das Induktionsproblem formal, d . h . innerhalb der formalen Kalküle von Statistik/Mathematik/Logik gar nicht lösbar ist (ich verweise hier auf meine Untersuchungen zum Widerspiegelungscharakter von Logik und Mathematik [s. LEISER, 1978]). Hinzukommt, daß im Bereich der Sozialwissenschaften selbst die Hilfsfunktionen, die der Statistik im Rahmen induktiven Schließens bleiben, für die dort typischen zusammengesetzten Hypothesen zerbröseln, weil ihre Handhabung, wie g e r a d e f ü r d i e NEYMAN-PEARSON-Logik
aufge-
zeigt, den auch nur halbwegs explizierten Bereich statistischer Argumentation überschreitet. Die Frage ist, ob unterhalb dieser grundsätzlichen Antwort nicht doch die rationalen Möglichkeiten der Statistik besser ausgeschöpft werden können. Ein Vorschlag in dieser Richtung wäre etwa die Bestimmung von Effektgrößen (s. etwa H A Y S , 1963, p.381ff.). Für mich ist dieser Vorschlag - abgesehen von den schon vorgebrachten Einwänden (s. etwa STRACK & REHM, 1984) - deshalb zu kurz gegriffen, weil dieses ex-post berechnete Maß auf einer rein deskriptiv-statistischen Ebene und damit außerhalb einer auch nur deduktiv begründeten Entscheidungslogik liegt. Eher könnte eine Ausschöpfung der deduktiven R a t i o n a l i t ä t d e s NEYMAN-PEARSON-Konzepts f ü r
induktives Schließen in die Richtung gehen, die ich in meiner «Einführung» (s. LEISER, 1980, p. 196ff.) angedeutet habe: Danach gibt es im Fall zusammengesetzter Hypothesen bei gegebener Entscheidungsstrategie E P die Entscheidungscharakteristiken a , ß, n sowie A (Hypothesenabstand) - von Kosten/ Nutzen der verschiedenen Entscheidungskonse-
Zeitschrift für Sozialpsychologie 1986,17,146-159
157
quenzen sei im Augenblick abgesehen. «Gedreht» werden kann an a und n. Die Frage ist dann: Wie ändert sich das Test verhalten, wenn ich an diesen beiden Größen drehe? Um das zu klären, sind 2 Stufen der Visualisierung nötig. 1. Stufe: Der bereits beschriebene Übergang von einer realen Interpretation der Entscheidungsmatrix zu einer virtuellen bei gegebenem a und n. Konkret: Wie ist das Testverhalten unter den Alternativen A j vs. Bj, A 2 vs. B 2 bei gegebenem a und n? Noch konkreter, wenn die Nullhypothese durch ihren Grenzfall ersetzt wird: Wie ist das Testverhalten unter dem Fall a, b, c ... der Alternativhypothese bei gegebenem a und n? 2. Stufe: Wie ändert sich das Testverhalten unter dem Fall a, b, c ... der Alternativhypothese, wenn ich an a und n drehe? Spezifischer: Wie kann ich ein gewünschtes différentielles Verhalten des Tests gegenüber den Fällen a, b, c ... der Alternativhypothese durch geeignetes Einstellen von a und n erreichen? «Gewünscht» ist hier kein formales Kriterium und auch keine individuelle Geschmackssache, sondern konstitutiver Bestandteil der gesellschaftlichen Relevanzbestimmung wissenschaftlicher Fragestellungen. Auch hier wäre in K. HOLZKAMPS Terminologie vom Primat der Erweiterung der Verfügungsmöglichkeiten über die Lebensbedingungen auszugehen, konkretisiert auf die zur Diskussion stehende Fragestellung. Ein Schritt wäre hier auf der Ebene der Statistik die Klärung der «Bedeutung» eines statistisch abgesicherten Effekts für die Betroffenen; - konkret: Ein Konsens über den «Mindesteffekt» wäre herzustellen, von dem ab sich die Umsetzung eines wissenschaftlichen Ergebnisses in die Praxis lohnt. In einem solchen Konsens wäre dann auch der Gesichtspunkt von STRACK & R E H M aufgehoben, wieweit nicht die Innovationsträchtigkeit einer wissenschaftlichen Erkenntnis die Anforderungen an diesen Mindesteffekt herabzusetzen rechtfertigt (s. STRACK & R E H M , 1984). Entsprechend wäre ein Konsens
1
Formal: Ô =
A
MIN
ß = 1 - cx für A < A min und ß = 0 für A > A min Im Realfall kann ß berechnet werden, das mittlere ß unterhalb des Mindesteffekts sowie ß, das mittlere ß oberhalb des Mindesteffekts. 5= ß-ß wäre dann ein denkbares Maß für die Trennschärfe des Tests zwischen relevanten und irrelevanten Fällen der Alternativhypothese. Dies liegt für einen UMPU-Test zwischen 0 (keine Trennung) und 1 (ideale Trennung) (s. Abb.3).
min
j A
über die zu tolerierenden Fehlerrisiken a und ß herzustellen (in der von mir benutzten induktiven Terminologie: ein Konsens über die anzusetzende Plausibilitätsschwelle a für die Nullhypothese (Grenzfall) und ß für den dem Mindesteffekt entsprechenden Fall der Alternativhypothese). Die Stichprobengröße n kann dann so eingerichtet werden, daß für den festgelegten Mindesteffekt der Fehler/die Plausibilitätsschwelle ß den vereinbarten Wert erreicht. Für die sich daraus ergebende Entscheidungsstrategie gilt dann: Unterhalb des festgelegten Mindesteffekts ist die Wahrscheinlichkeit, bei Gültigkeit der Alternativhypothese diese im Test zu «übersehen», größer als ß, oberhalb des Mindesteffekts dagegen kleiner als ß. Eine ideale Entscheidungsstrategie wäre dann so beschaffen, daß Effekte unterhalb des Mindesteffekts möglichst sicher «übersehen», Effekte oberhalb des Mindesteffekts dagegen möglichst sicher erkannt werden. Die induktive Sicherheit einer Entscheidungsstrategie wäre dann neben den bereits bekannten Fehlergesichtspunkten daran zu messen, wieweit die Verhältnisse diesem Ideal nahekommen (genauer gesprochen: die induktive Sicherheit im Fall einer Entscheidung für die Alternativhypothese). Wird der Mindesteffekt mit A min bezeichnet, gilt im Ideal fall:
0
00
1
j
ß(A) • dA A
MAX-
A
MIN
A_:N
ß(A) • dA
158
Leiser: Statistisches Schließen und wissenschaftliche Erkenntnis
Amin = 8 Abb. 3: Beispiel für die Bestimmung der Trennschärfe eines Tests, bezogen auf einen festgelegten Mindesteffekt.
Diese Größe kann zusätzlich neben a und ß in das Maß S(Hj | H x , EP), die induktive Sicherheit bei einer Entscheidung für H 1 ( aufgenommen werden. S(H 0 1H 0 , EP), die induktive Sicherheit bei einer Entscheidung für H 0 , betrachtet unter dem H 0 -Grenzfall, ist dagegen weiterhin hinreichend durch a und ß bestimmt. Formal: S(H 0 H 0 , E P ) = f ( a , ß ) S ( H i H1,EP) = f(a,ß,8) Aus unseren «Primitiv-Vorschlägen» weiter oben für den Fall einfacher Hypothesen würde dann z.B.: S(H0|H0,EP) = 1-Max(a,ß) S(Hj j H l t EP) = Vi • {1 - Max(a, ß)] + Vi • 8 bzw. S(H 0 H 0 ,EP) = l - ' / 2 • (a + ß) H j , E P ) = Vi • {1- Vi • (a + ß)}+ Vi • 8
S(Hj
wenn für die induktive Sicherheit analog der Wahrscheinlichkeit ein Wertebereich zwischen 0 und 1 festgelegt wird. Einen alternativen Ansatz zum induktiven Schließen erhalten wir, wenn wir statt vom Relevanzgesichtspunkt vom Kosten-Nutzen-Gesichtspunkt ausgehen würden. Vorausgesetzt wäre auch hier wieder ein Kosten-Nutzen-Konzept, das auf dem Primat der Erweiterung der Verfügungsmöglichkeiten über die Lebensbedingungen, zunächst für die Betroffenen, im weiteren Sinn auf gesellschaftlichem Verallgemeinerungsniveau, aufbaut. Hier wäre also nach den
Auswirkungen der verschiedenen Entscheidungskonsequenzen auf die Befindlichkeiten und Handlungsmöglichkeiten, aber auch nach deren Nebenwirkungen zu fragen, nach der Gesamtrechnung sozusagen im Fall einer Entscheidung für/gegen den Transfer eines methodisch hergestellten Prozesses in die gesellschaftliche Praxis (auf vermittelterem Niveau: im Fall einer Auswertung/Nicht-Auswertung einer grundlagenorientierten Untersuchung für die Praxis). Hier tritt dann allerdings erstens massiv das Problem der Kommensurabilität nicht-ökonomischer Kosten-Nutzen-Gesichtspunkte auf und zweitens, sollte dies lösbar sein, das Problem des Stellenwerts ökonomischer Kosten-Nutzen-Faktoren im Rahmen einer solchen umfassenden gesellschaftlichen Kosten-Nutzen-Bestimmung. Es wäre dann z.B. zu prüfen, inwieweit auch noch unter den Bedingungen virtualisierter statistischer Modelle ein Minimax-Ansatz möglich und sinnvoll ist. Fest steht allerdings schon vorweg, daß es «hirnrissig» wäre, eine derart schwache Logik des induktiven Schließens zur letzten Instanz über weittragende gesellschaftliche Innovations-Entscheidungen, auf Psychologie bezogen etwa im Bereich psychosozialer Strukturen, zu machen.
Literatur Foresight: Its logical laws, its subjective sources. In: H . E . Kyburg&H.E. Smokier (Eds.): Studies in subjective probability. New York: Wiley, pp.93-158. FISHER, R.A. 1936. Uncertain inference. Proceedings of the American Academy of Arts and Sciences, 71, 245-258. FISHER, R.A. 1973. Statistical methods and scientific inference. New York: Hafner Press. HAYS, W.L. 1963. Statistics for psychologists. New York: Holt, Rinehart & Winston. HOLZKAMP, K. 1983. Grundlegung der Pychologie. Frankfurt: Campus. KYBURG, H.E. 1 9 7 4 . The logical foundations of statistical inference. Dordrecht: Reidel. LEISER, E. 1978. Widerspiegelungscharakter von Logik und Mathematik. Frankfurt: Campus. LEISER, E. 1980. Einführung in die statistischen Methoden der Erkenntnisgewinnung. Köln: Pahl-Rugenstein. LEISER, E. 1983. Grundkurs Statistik (2. Aufl.). Köln: PahlRugenstein. LINDLEY, D.V. 1969/1970. Introduction to probability and statistics from a Bayesian viewpoint. Cambridge: Cambridge University Press. MISES, R . VON. 1 9 2 8 . Wahrscheinlichkeit, Statistik und Wahrheit. Berlin: Springer.
D E FINETTI, B . 1 9 6 4 .
159
Zeitschrift für Sozialpsychologie 1986,17,146-159 NEYMAN, J . & PEARSON, E . S . 1 9 3 3 . O n t h e p r o b l e m o f t h e
STRACK, F. & R E H M , J . 1 9 8 4 . T h e o r i e t e s t e n o d e r V a -
most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society of London, Series A.231,289-337. RENYI, A. 1969. Briefe über die Wahrscheinlichkeit. Basel: Birkhäuser.
rianz aufklären? Überlegungen zur Verwendung von Effektgrößen als Gütemaßstab für experimentelle Forschung. Zeitschrift für Sozialpsychologie, 15,81-85.
H
160
K n a p p : Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
Empirie Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas* ANDREAS KNAPP Universität Mainz
Ausgehend von der Situation eines sozialen Dilemmas, in dem überhöhte individuelle Gewinne zu einer Zerstörung des Gemeingutes f ü h r e n , werden theoretisch begründete A n n a h men über die Auswirkungen emotionaler Zustände auf das Problemlöseverhalten der P r o b a n d e n gemacht. Induzierte Emotionen sollten einerseits durch Aufmerksamkeitsteilung zu einem schlechteren Erkennen grundlegender Z u s a m m e n hänge des Problems f ü h r e n , andererseits das Selbstbelohnungsverhalten bei den E n t n a h m e n von Gewinnen beeinflussen. Insgesamt 64 Studenten der ersten Studie und 32 Studenten der Replikationsstudie hatten nach einer Emotionsinduktion das Problem zu lösen, Erträge aus einem fiktiven Teich zu maximieren. Die Ergebnisse bestätigen die A n n a h m e , d a ß Emotionen nicht nur die Abstraktionsfähigkeit mindern, zugrunde liegende Z u s a m m e n h ä n g e zu erschließen, sondern in negativer Form auch zu einer verstärkten Ausbeutung knapper Ressourcen stimulieren.
Problemstellung
Soziale Dilemmata Mit dem Aufsatz «The Tragedy of the Commons» legte H A R D I N ( 1 9 6 8 ) den Grundstein für eine Serie von Untersuchungen, die sich mit einem nach wie vor höchst aktuellen Problem auseinandersetzen: der Aufgabe, ein Gemeingut so zu nutzen, daß es langfristig höchstmöglichen Ertrag für alle abwirft. H A R D I N sieht in diesem Problem den ungelösten Widerspruch, daß der sofortige individuelle Gewinn durch eine überhöhte Ausbeutung des Gemeingutes größer ist als * Dieses Forschungsprojekt wurde durch ein FulbrightStipendium des Councils f ü r internationalen Dozentenaustausch gefördert.
This research examines the effects of induced subjects' problem solving behavior. A first experimenter induced subjects to feel either happy, sad or angry by reading a p p r o p r i a t e emotional stories or had them read a neutral story. Shortly thereafter a second experimenter asked each subject to solve a resource dilemma problem. Subjects in all three m o o d conditions had m o r e trouble discovering the basic relations between variables in the problem than did those in the neutral condition. These effects were attributed to m o o d s taking u p cognitive capacity. In addition, both sadness and anger led to greater depletion of limited resources (and ultimately less profit for the subjects) than did the neutral or positive condition. These effects were attributed to negative, but not positive, m o o d s decreasing subjects' ability to delay gratification.
der Schaden, der durch Zerstörung des Gemeingutes anteilig dem einzelnen entsteht. PLATT ( 1 9 7 3 ) u n d CROSS & G U Y E R ( 1 9 8 0 ) n e n -
nen diese Situation «social traps», in denen langfristig eine Vielzahl individueller Gewinne zu negativen Konsequenzen für alle führt. Mehrere Beispiele wie «playground», «air condition», «tax flight», «littering», «pollution» u.a geben HAMBURGER ( 1 9 7 9 ) u n d
PARKER et a l .
(1983).
Seither ist eine Reihe solcher Soziale-DilemmataAnalogien auf die Laborsituation übertragen und erforscht worden. In Übersichten über die Ergebnisse der bisherigen Forschungsbemühungen nennen L I N D E R ( 1 9 8 2 ) und MESSICK & B R E W E R ( 1 9 8 3 ) wichtige unabhängige Variablen, die für ein erfolgreiches oder weniger erfolgreiches Handeln in Soziale-Dilemmata-Experimenten verantwortlich waren. Weniger erfolgreiches
161
Zeitschrift für Sozialpsychologie 1986,17,160-172
Handeln war dann gegeben, wenn eine weitere Steigerung der individuellen Gewinne zu einer Verminderung der Gewinnchancen für alle in den nächsten Versuchsdurchgängen führte. Das optimale Verhalten der Probanden wird z.B. durch die Möglichkeit zur Kommunikation zwischen den Probanden beeinflußt ( B R E C H N E R , 1 9 7 5 , 1 9 7 7 ; JORGENSON & P A P C I A K , 1 9 8 1 ) , d i e z u
effektiveren Resultaten führte als das Kommunikationsverbot. DAWES ( 1 9 7 5 , 1 9 8 0 ) zitiert eine Reihe von Arbeiten, in denen dieser «Begrüßungseffekt» Wirksamkeit zeigte. Weitere untersuchte unabhängige Variablen, die eine bessere Lösung des sozialen Dilemmas bewirkten, waren Feedback über die Wirkung der Gewinnentnahmen (CASS, 1 9 7 5 ; H A R P E R & G O L D , 1 9 7 8 ) , Unabhängigkeit von anderen Probanden beim Lösen des Dilemmas (CASS & EDNEY, 1 9 7 8 ; MESSICK & M C C L E L L A N D , 1 9 8 3 ) u n d
kooperative Instruktion anstelle kompetitiver (HARPER, 1978).
Alle diese empirischen Ergebnisse zeigen, daß es möglich ist, ein rational lösbares Optimierungsproblem durch Situationsvariablen zu erschweren. Bewirken diese Situationsvariablen einen Effekt, der es verhindert, daß die Probanden den kritischen Grenzwert erkennen, ab dem weitere Gewinnsteigerungen zu einer Zerstörung des Gemeingutes führen? Oder wissen die Probanden um den kritischen Wert der zugrunde liegenden Zusammenhänge und handeln dennoch gegen ihre Einsicht? Die folgend beschriebene Untersuchung will ein wenig Licht auf diese zentrale Fragestellung werfen. Bei den oben zitierten Untersuchungen vermuten wir, daß der emotionale Zustand der Probanden durch die verschiedenen Situationsvariablen kovariiert wurde, und dieser so mitverantwortlich sein mochte für die verringerte Fähigkeit, die funktionalen Zusammenhänge des sozialen Dilemmas zu erkennen. Es ist bekannt, daß emotionale Zustände mit kognitiven Fähigkeiten interagieren (IZARD, 1 9 7 7 ; M A N D L E R , 1 9 7 5 ) und gegebenenfalls zu einer Verminderung der Entscheidungs- und Problemlösegüte führen können (ISEN & M E A N S , 1 9 8 3 ; ISEN, DAUBMANN & GORGOGLIONE, 1 9 8 4 ) .
Wenn die Probanden in den oben genannten Untersuchungen durch das Verbot der Kommunikation, durch die Abhängigkeit von den Entscheidungen der Mitspieler und durch die kompe-
titive Instruktion in einen emotionalen Zustand der Unsicherheit, Ängstlichkeit oder Feindseligkeit versetzt wurden, so mag dies bei ihnen die Abstraktionsfähigkeit blockiert haben, die ihnen geholfen haben würde, die kritischen Werte der funktionalen Abhängigkeiten des sozialen Dilemmas zu erkennen, ähnlich wie das fehlende Feedback auch ohne Beeinflussung des emotionalen Zustandes einen Mangel an Einsicht bewirkt haben mag. Diesen Einfluß der Emotionen wollen wir experimentell nachweisen, indem wir die Situationsvariablen konstant lassen und den verschiedenen Probandengruppen unterschiedliche Emotionen induzieren.Wenn die Emotionen in den oben beschriebenen Experimenten einen vermittelnden Einfluß ausgeübt haben, dann müßten sie als experimentell variierte Größe ebenfalls die Güte der Lösung eines sozialen Dilemmas determinieren. Dies soll durch theoretische Überlegungen zum allgemeinen Einfluß der induzierten Emotionen auf das Erkennen strukturierter Folgen zu einer ersten Hypothese führen. Im nächsten Schritt soll der spezifische Einfluß unterschiedlicher emotionaler Zustände beim Lösen des sozialen Dilemmas theoretisch begründet werden und zur zweiten Hypothese führen.
Das Fischfangexperiment als strukturierte Folge
und seine Darstellung
In Anlehnung an B R E C H N E R ( 1 9 7 5 , 1 9 7 7 ) wurde in unserem Experiment ein soziales Dilemma verwendet, das die Bedingungen einer Fischfangsituation simulierte. Wie bei B R E C H N E R bestanden die Gewinne der Probanden in den beliebig hohen Entnahmen aus einem fiktiven Teich, dessen Bestand sich abhängig von seiner Dichte vermehrte. Bei B R E C H N E R waren es Punkte, die in Teilnehmerzertifikate umgetauscht werden konnten, in unserem Fall waren es fiktive Fischmengen, für die nach dem Experiment bares Geld ausbezahlt wurde. Beiden Experimenten gemeinsam ist die grundlegende Aufgabe für die Probanden, durch Versuch und Irrtum einen solchen Bestand im Teich zu belassen, dessen Dichte eine maximale Vermehrungsrate verspricht, die dann entnommen werden kann. Dazu ist es notwendig, jeweils die Bestände nach einer Entnahme mit den Beständen nach der Vermehrung zu verglei-
162 Zeitpunkt
Knapp: Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
Zustandsvektor des Systems nach Entnahme zum Zeitpunkt t
wird durch eine Wachstumsfunktion
in den Zustand nach Vermehrung zum Zeitpunkt t + 1 überführt
Durchgang 1
{Bestand, (abz. Entnahme))
{Bestand,+ 1 (inkl. Vermehrung))
Durchgang 2
(Bestandt + 1 (abz. Entnahme))
{Bestand,+ 2 (inkl. Vermehrung))
Abb. 1: Die Darstellung des Fischfangexperimentes als strukturierte Folge.
chen und durch eine Abstrahierung auf denjenigen Bestand mit maximalem Wachstum zu schließen. Insofern handelt es sich bei dieser Aufgabe um eine Folge von numerischen Wertepaaren, deren Struktur einer festen Regel unterliegt, jeweils von den individuellen Entnahmen der Probanden aufs neue verändert. Abbildung 1 verdeutlicht diese Abfolge von Entnahme und Wachstum. Die Wachstumsregel war in unserem Fall durch eine kontinuierliche kurvenlineare Funktion definiert. Die zentrale kognitive Fähigkeit, die die Probanden zum Lösen dieser Aufgabe benötigten, besteht also im Erkennen eines funktionalen Zusammenhanges zwischen den Zuständen vor und nach der Vermehrung des Bestandes ( K I N T S C H , 1970). Diese Fähigkeit soll durch die Vorhersage der Probanden, wie groß der Bestand jeweils im nächsten Durchgang sein wird, erschlossen werden. Je besser diese Prognosen zutreffen, desto besser dürfte die zugrunde liegende Wachstumsfunktion erkannt worden sein. Um dabei Gedächtniseffekte auszuschließen, sollten alle Bestände nach jeder Entnahme und nach jeder Wachstumsphase von den Probanden vollständig protokolliert werden. Erst die komplette Protokollierung erlaubt es, unbeeinflußt von Gedächtnislücken der Probanden, die Genauigkeit der Prognosen als Indikator für die Präzision der abstrahierten Wachstumsfunktion heranzuziehen.
Der Einfluß der Emotionen auf das schlechtere Erkennen strukturierter Folgen durch Aufmerksamkeitsteilung Die zentrale Aufgabe der Probanden in dem beschriebenen Experiment besteht also darin, zwischen den einzelnen Elementen einer strukturier-
ten Folge sinnstiftende Verbindungen zu erkennen und so zu einer Integration der Datenreihen auf höherer Ebene zu gelangen. Wir vermuten, daß diese Fähigkeit durch eine Reihe hemmender oder fördernder Faktoren begleitet wird, wobei ein wichtiger Faktor im Lösen der genannten Aufgabe die Emotion sein dürfte, in der sich der problemlösende Proband befindet. Nach der Netzwerktheorie ( A N D E R S O N & B O W E R , 1 9 7 3 ) impliziert jede Beschäftigung mit einem Konzept die Anregung eines entsprechenden Konzeptknotens im semantischen Gedächtnis und die Ausbreitung der Aktivation auf benachbarte Knoten (COLLINS & L O F T U S , 1 9 7 5 ) . Auch Emotionen oder emotionale Erfahrungen sind mit diesen Knoten verbunden. So wird jede Energetisierung eines Knotens benachbartes Material im Gedächtnis aufrütteln, das Erinnerungen von zurückliegenden Ereignissen mit vergleichbaren Emotionen beinhaltet und seinerseits wiederum zum Erhalt der momentanen Emotionen beiträgt (CLARK & ISEN, 1 9 8 2 ) .
Diese Aufrüttelungsvorgänge selbst finden ohne Anstrengung, ohne Intention und ohne andere kognitive Prozesse zu stören, statt. Das Ergebnis dieser Aufrüttelung von emotionsgetönten Erfahrungen und Erinnerungen bleibt jedoch im Gedächtnis präsent und belegt somit verfügbaren Raum des Arbeitsspeichers. Die Probanden denken darüber nach und fokussieren so auch einen Teil ihrer Aufmerksamkeit auf dieses nicht-Aufgaben-bezogene Material. Dieser Entzug von Arbeitsspeicherkapazität führt nicht nur bei Sorgen und Ängste auslösendem Material zu einer Störung der aufgabenbezogenen Handlungen (ELLIS et al., 1984; EYSENCK, 1 9 8 2 ) , sondern belastet die Konzentrationsfähigkeit auch bei erfreulichen Erinnerungen, wie ISEN et al. ( 1 9 8 2 ) ausführen. Positive wie negative Emotionen führen also zu einer Aktivation von ähnlichem emotionalem
163
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 1 6 0 - 1 7 2
Material und belegen so einen Teil des verfügbaren Raums im Arbeitsgedächtnis. In der Folge interferiert eine zu geringe Kapazität mit der Denkund Konzentrationsfähigkeit für die eigentliche Problemlöseaufgabe. Wir erwarten also als Hypothese 1, daß emotional induzierte Probanden der zentralen Aufgabe unseres Experimentes, integrierende Zusammenhänge von strukturierten Folgen zu erkennen, durch ihre geteilte Aufmerksamkeit schlechter gerecht werden als Probanden in neutralem Zustand.
Der Einfluß der Emotionen auf die Entnahme voreiliger Gewinne Die folgenden Überlegungen beziehen sich auf den Fall, daß die vorangegangene Hypothese zutrifft, Probanden mit positiv oder negativ induzierten Emotionen würden die zugrunde liegende Wachstumsfunktion weniger gut erschließen als neutral induzierte Probanden und damit den Bestand mit maximalem Wachstum weniger eindeutig bestimmen können. Positiv und negativ induzierte Probanden sollten also stärker im Ungewissen darüber sein, welche Höhe von Entnahmen zu einem optimalen Bestand führen könnte. Die Höhe der Entnahmen muß also mehr oder minder von den emotionsinduzierten Probanden geschätzt werden. Höhere Entnahmen bedeuten aber kurzfristig auch höhere Gewinne, die gleichzeitig zu einer Verbesserung des emotionalen Zustandes beitragen können. Dann dürften Probanden in trauriger oder ärgerlicher Emotion mehr an kurzfristigen Gewinnen interessiert sein, um durch Selbstbelohnung zu einer baldigen Wende ihres emotionalen Zustandes beizutragen. FRY (1975) hat diesen Einfluß der Emotionen auf die Entnahme voreiliger Gewinne nachgewiesen. Seine Probanden konnten einer vorzeitigen Belohnung stärker widerstehen, wenn sie in positiver induzierter Emotion waren. Für diese war die soziale Erwartung ihrer Umgebung bindender als für Probanden, deren negativer induzierter Emotionszustand nach rascher Beendigung durch eine vorzeitige Belohnung verlangte. Auch MASTERS et al. (1983) konnten zeigen, daß die Induktion von aversiven Erfahrungen bei den Probanden anschließend signifikant häufiger zu verstärktem Verlangen nach Erfolg und
Anerkennung führten, als dies in der neutralen Kontrollgruppe oder der Gruppe mit positiven induzierten Erfahrungen der Fall war. Weitere Untersuchungen von SCHWARZ & POLLACK (1977) sowie SEEMANN & SCHWARZ (1974) stützen ebenfalls diese Befunde. Für unser Fischfangexperiment haben diese Ergebnisse unmittelbare Konsequenzen. Probanden in positiver induzierter Emotion würden demzufolge mit ihren Entnahmen anfänglich zurückhaltender sein und einen geringeren Verlust im Bestand verzeichnen als Probanden, die in negativer induzierter Emotion rascher voreilige Gewinne anstreben, um baldmöglichst den negativen Emotionszustand durch Selbstbelohnung zu beenden und so wegen der überhöhten Entnahmen den Bestand stärker dezimieren. Wir erwarten also als Hypothese 2, daß Probanden in einer positiv induzierten Emotion letztlich erfolgreicher im Bewahren des Bestandes sein werden als Probanden in negativ induzierter Emotion.
Methode Probanden Versuchspersonen waren 64 Studenten und Studentinnen der Psychologie. Sie alle hatten zum erfolgreichen Bestehen des Semesters Versuchspersonenstunden abzuleisten. Jedem Probanden wurde eine der Emotionen 1) erfreulich, 2) neutral, 3) traurig oder 4) ärgerlich nach zufälliger Auswahl induziert.
Versuchsablauf Die Emotionsinduktion erfolgte vor dem eigentlichen Fischfangexperiment. Den Probanden wurde gesagt, daß in einem separaten Experiment der Inhalt einer Geschichte zu lesen und zu memorieren sei. Diese Geschichte hatte entweder erfreulichen, neutralen, traurigen oder ärgerlichen Ausgang. Damit die Wirkung der Emotionen nicht rasch abflachte, wurde den Probanden angekündigt, daß nach dem Fischfangexperiment noch einige Fragen über das Gelesene zu beantworten seien. Nach dem Prinzip der Aktivationsausbreitung würde so die gelesene Geschieh-
164
Knapp: Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
te durch Memorieren zu einem Aufrütteln vergleichbarer Emotionsknoten führen und dadurch zum Erhalt des emotionalen Zustandes über das Fischfangexperiment hinweg beitragen. Die Geschichten wurden erstmalig bei E R B E R (1985) verwendet und zeigten dort eine für das nachfolgende Experiment hinreichend lange Wirkdauer. Nach dem Lesen der Geschichte begaben sich die Probanden in den eigentlichen Versuchsraum, wo über 18 Durchgänge hinweg Entnahmen aus einem fiktiven Fischteich zu maximieren waren. Die Versuchspersonen erhielten folgende Instruktion: «In diesem Experiment simulieren wir, wie Fische aus einem See gefangen werden. Sie repräsentieren eine Fischfanggesellschaft, die tonnenweise Fische fängt. Nach dem Experiment können Sie den gewonnenen Fischertrag in bares Geld umtauschen: Für jede entnommene Tonne erhalten Sie Vt Cent. In jedem Durchgang können Sie gar nichts oder aber soviel Tonnen Fisch fangen, wie Sie wollen. Beachten Sie, daß der Bestand der Fische nicht unbegrenzt ist. Nach jeder Entnahme verringert sich der Bestand. Auf der anderen Seite vermehren sich die Fische wieder, so lange Sie genügend Bestand im See lassen. Ich werde Ihnen ansagen, wann das Experiment vorbei ist. Wenn Sie jedoch den Bestand der Fische vollständig leeren, ist das Experiment vorzeitig zu Ende und Sie verlieren $ 1.00 von Ihrem Gesamtgewinn. Haben Sie Rückfragen? Dann versuchen Sie, Ihren eigenen Gesamtgewinn zu maximieren. Sie beginnen mit einem Fischbestand von 120 Tonnen im See.»
Der Versuch endete unangekündigt nach dem 18. Durchgang. In jedem Durchgang hatten die Versuchspersonen Protokoll über die Höhe ihrer Entnahme, ihrer Schätzung des resultierenden Fischbestandes nach Vermehrung und den danach mitgeteilten tatsächlichen Bestand zu führen. Im Anschluß an die 18 Fischfang-Durchgänge wurde die Wirksamkeit der Emotionsinduktion geprüft. Die Probanden sollten die vier wichtigsten Ereignisse aus der Geschichte notieren und dann ihre Einschätzung abgeben, welches Gefühl die Geschichte bei ihnen auslöste: von überschwenglich (+5) über neutral (0) bis niedergeschlagen (-5). Erst jetzt wurde ihnen der Gesamtgewinn aus dem Fischfangexperiment bekanntgegeben und ausbezahlt (Abb.2).
Emotionsinduzierung als unabhängige Variable: Lesen einer Geschichte mit entweder 1) erfreulichem, 2) neutralem, 3) traurigem oder 4) ärgerlichem A u s g a n g . Fischfangexperiment mit den abhängigen Variablen: Entnahme, geschätzter Bestand und tatsächlicher Bestand über 18 Durchgänge hinweg. Manipulations-Wirkungsprüfung: Welches Gefühl löste das Lesen der Geschichte aus? Auszahlung: Gesamtgewinn im Durchschnitt S 1.37 pro Proband.
Abb.2: Zeitlicher Ablauf des Experimentes.
Ergebnisse Auswirkungen der Emotionsinduktion Güte der Prognose
auf die
Wie im theoretischen Teil erwähnt, wird ein Einfluß der Emotionsinduktion auf die Fähigkeit erwartet, strukturierte Abfolgen von Entnahme und Bestand zu erkennen. Diese Fähigkeit wurde gemessen, indem die Pro banden den resultierenden Bestand nach Vermehrung in jedem Durchgang für den nächsten zu prognostizieren hatten. Die Abweichungen der Prognosen vom tatsächlichen Bestand wurden quadriert und durch den Prognosewert geteilt, so daß Über- wie Unterschätzungen gleichermaßen berücksichtigt und auf die numerische Höhe des Bestandes relativiert werden. Die Summe dieser umgeformten relativen Abweichungsquadrate entspricht x 1 und ist in Abbildung 3 auf der Ordinaten abgetragen. Es zeigt sich, daß Probanden unter neutraler Emotionsinduzierung die besseren Prognostizierer sind. Ihre Summe der Chi-Quadrate übersteigt über die Durchgänge hinweg nicht die Signifikanzgrenze. Bei Probanden unter einer erfreulichen, traurigen oder ärgerlichen Emotionsinduktion weicht die Prognose jedoch signifikant von den tatsächlichen Beständen ab, ihre Schätzungen basieren auf einer offenbar schlechteren Kenntnis der zugrunde liegenden Wachstumsfunktion.
165
Zeitschrift für Sozialpsychologie 1986,17,160-172
ex 2 1 2 3 4
= = = =
erfreulich neutral traurig ärgerlich
Signifikanzgrenze
1
2
3
4
T
5
T 6
I
7
I
8
I
9
I
10
I
11
I
12
I
13
I
14
I
15
I
16
I
17
I
18
l~
Durchgang
19
Abb. 3: Kumulierte Güte des prognostizierten Bestandes bei den vier Experimentalgruppen.
Auswirkungen der Emotionsinduktion Güte der Problemlösung
auf die
Als abhängige Maße wurden in dem Fischfangexperiment drei Variablen verwendet: Zum ersten der Bestand der Fische im See nach dem unerwarteten Ende des Experiments mit dem 18. Durchgang. Je höher dieser Endbestand war, desto besser hatten die Probanden das Problem gelöst, den Stock über die Durchgänge nicht zu dezimieren. Zum zweiten wurde als abhängige Variable die Summe aller Fischfangerträge über alle Durchgänge hinweg verwendet. Je höher diese Summe war, desto mehr Gewinn wurde den Probanden ausbezahlt. Die Höhe dieses Gewinns entspricht jedoch nicht eindeutig der Güte der Problemlösung. Ein hoher Gewinn kann auch daher resultieren, daß nicht die Zuwachsrate der Fische abgefangen, sondern der Bestand abgefischt und
vermarktet wurde. Ein guter Problemloser maximiert seine Fangerträge jedoch nicht aus dem Bestand, sondern aus der Zuwachsrate der Fische. Deshalb ist zum dritten die Güte der Problemlösung dadurch definiert, daß ein hoher Fischfangertrag ohne gleichzeitiges Vermindern des Bestandes erreicht wird. Diese simultane Betrachtungsweise wird durch die abhängige Variable der Anzahl reproduzierter oder vermehrter Fische erreicht. Je mehr Fische durch Vermehrung zuwachsen konnten, desto besser war das Problem gelöst. Die Frage, ob die abhängigen Variablen Endbestand, Gewinn sowie Zuwachs bei Probanden mit verschiedenen induzierten Emotionen unterschiedlich ausgeprägt sind, wurde durch eine Varianzanalyse geprüft. Der Faktor Emotionsinduktion mit den vier Ausprägungen erfreulich, neutral, traurig und ärgerlich war dabei die unabhängige Variable.
166
Knapp: Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
Tab. 1: Varianzanalysen mit dem Faktor Emotionsinduktion. Unabhängige Variable
Abhängige Variablen
df
MS
F
P
CO2
Emotionsinduktion
Bestand nach dem 18.Durchgang Gewinne über alle 18 Durchgänge Zuwachs über alle 18 Durchgänge
3 3 3
6 315.4 3 753.6 19 745.2
3.12 2.26 3.72
.032 .091 .016
.085 .056 .111
Tabelle 1 weist die Signifikanztests der Varianzanalyse aus. Die abhängigen Variablen «Bestand nach dem 18. Durchgang» und «Zuwachs» werden auf dem 5%-Niveau signifikant und haben mehr als 8% bzw. 11% an aufgeklärter Varianz. Die Variable «Gewinne» bleibt insignifikant. Tabelle 2 verdeutlicht die Ergebnisse anhand der Mittelwerte der abhängigen Variablen. Probanden nach einer erfreulichen bzw. neutralen Emotionsinduktion beenden das Experiment mit einem signifikant höheren Endbestand an Fischen als Probanden nach einer traurigen oder
ärgerlichen Emotionsinduktion. Dasselbe gilt für die Güte der Problemlösung «Zuwachs an Fischen». Im Gewinn über alle Durchgänge hinweg unterscheiden sich die Mittelwerte der verschiedenen Experimentalgruppen nur tendenziell, aber nicht signifikant. Tab.2: Mittelwerte der abhängigen Variablen bei den vier Experimentalgruppen . Unabhängige Variable
Mittelwerte der abhängigen Variablen nach dem 18.Durchgang
Emotionsinduktion - erfreulich - neutral - traurig - ärgerlich
estand in Tonnen 1 2 3 4
= = = =
Bestand
Gewinne
Zuwachs
80 79 45 46
151 150 124 122
564 559 421 414
erfreulich neutral traurig ärgerlich
1
i3 100-
1 2 4 3
1 2
1
4 3
2
1 1 2
1
2
1
2
1
2
2
. 2
1
1
1 1
2
2
3 3 4
3 4
3
4
4
3
3
3
3 4
2
3
3
4
4
2z
3 4
Jz
3 4
2 1
4
1 2
3
4
3
Differenz sign, p < .03
T 1
1 2
1 3
1 4
1 5
1 6
1 7
1 8
1 9
1 10
1 11
1 12
1 13
Abb. 4: Tatsächliche Höhe des Bestandes bei den vier Experimentalgruppen.
1 14
r 15
16
-1 17
1 18
Durchgang 19
167
Zeitschrift für Sozialpsychologie 1986,17,160-172
Abbildung 4 zeigt die Entwicklung der abhängigen Variablen «Bestand» vom ersten bis zum letzten Durchgang. Vom gleichen Bestand ausgehend, schöpfen Probanden in trauriger oder ärgerlicher Emotion den Bestand bereits im 3. und 4. Durchgang stärker aus als Probanden in neutraler oder positiver Emotion. Bis zum 7.Durchgang hält diese überproportionale Dezimierung des Bestandes durch traurig oder ärgerlich induzierte Probanden an und wird ab dann in relativ konstantem Abstand zu dem durchschnittlichen Bestand der positiv oder neutral induzierten Probanden gehalten. Abbildung 5 veranschaulicht die kumulierten Entnahmen für die vier induzierten Probandengruppen. Bereits zu Beginn des Experiments entnehmen Probanden in trauriger oder ärgerlicher Emotion einen höheren Fanggewinn als die beiden anderen Emotionsgruppen. Sie steigern sich mit diesen höheren Entnahmen überproportio-
nal bis zum 6. Durchgang, reduzieren dann nach und nach ihre Entnahmen, bis sie ab dem 10. Durchgang auf einen kumulierten absoluten Gewinn herabsinken, der unter dem der positiv oder neutral induzierten Probanden liegt. Die Schere der weiteren Entwicklung nach dem 10. Durchgang zeigt, daß die Probandengruppen jetzt einen konstanten Gewinn pro Durchgang entnehmen, der dem zugehörigen Fischbestand gerecht wird: positiv und neutral induzierte Probanden einen höheren, traurig und ärgerlich induzierte Probanden einen niedrigeren Gewinn. Je länger das Experiment andauert, desto unterschiedlicher wird deshalb der Gesamtgewinn zwischen den Experimental-Gruppen werden. Signifikante Differenzen sind demnach bei der Variable Gewinne nur eine Frage der Zeit.
Gewinnsumme in Cent 1 2 3 4
= = = =
erfreulich neutral traurig ärgerlich
1
/
i 2
^
2
2/
1
4-
2/l
-4 3
/ l
3
»3 4
,3-
4
4
2/3
/ 2 / 1 43 / k 4/2 /1
1
3 V 1
3
1
4
3/1 4
2
1 -|
1
1
1
1
1
r
1
1
1
1
1
1
1
1
,
1
1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Abb. 5: Summe der Gewinne bei den vier Experimentalgruppen.
1—Durchgang 19
168 Manipulations-
Knapp: Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
Wirkungsprüfung
Im Anschluß an das Fischfangexperiment wurde, wie bereits erwähnt, die Wirksamkeit der Emotionsinduktion geprüft. Die Probanden trugen auf einer Einschätz-Skala ein, welches Gefühl die gelesene Geschichte bei ihnen auslöste. Die mittleren Einschätzungen für jede Emotionsinduktion sind in Tabelle 3 angegeben. Tab.3: Mittlere Einschätzungen der Gefühle für jede Emotionsinduktion. Emotionsinduktion
Mittlere Einschätzung
-
2.8 0.3 -2.0 -2.3
erfreulich neutral traurig ärgerlich
Es zeigt sich, daß wie beabsichtigt, die Geschichte mit erfreulichem Ausgang ein überwiegend positives Gefühl und die Geschichten mit traurigem bzw. ärgerlichem Ausgang ein überwiegend negatives Gefühl auslösten. Die neutrale Geschichte wurde vorwiegend in der Mitte der Skala eingeschätzt. Die Einschätzungen der verschiedenen Geschichten unterscheiden sich signifikant (F (3,60} = 31.14; p = .0000). Replikationsstudie1 Die vorgetragenen Ergebnisse stellen zwar eine schlüssige Bestätigung der aufgestellten Hypothesen dar, doch kann nach Ansicht einschlägiger Forschungsmethodiker die volle Bestätigung erst eine erfolgreiche Kreuzvalidierung bzw. Replikation geben. Die schmale Probandenbasis unserer ersten Studie erlaubte eine Kreuzvalidierung nicht, so daß wir uns zu einer Replikationsstudie entschlossen. Da sich in der ersten Studie positiv gestimmte von neutralen Probanden und ärgerlich gestimmte von traurig induzierten Probanden nicht in den Ergebnissen unterschieden, wurde in der Replikationsstudie auf die Experimentalgruppen positiv und ärgerlich induzierter Probanden verzichtet. 1 Die Replikationsstudie wurde durch die Deutsche Forschungsgemeinschaft im Rahmen des Projekts «Emotionen und kognitive Prozesse» gefördert (Kn 187/3).
Die nur noch untersuchten traurig gestimmten und neutralen Versuchsgruppen reduzierten den notwendigen Stichprobenumfang auf 32 Probanden. Eine zweite Änderung des Versuchsplanes bezog sich auf die Anzahl der Durchgänge. Nachdem die Variable Gewinne in der ersten Studie insignifikant blieb, obwohl die auseinanderstrebende Schere der Entwicklung deutlich zunehmende Differenzen zwischen den Experimentalgruppen anzeigte, ist es offenbar nur eine Frage der Zeit, bis die Variable Gewinne signifikante Differenzen zeigt. Wir verlängerten deshalb den Versuch um weitere 7 Durchgänge auf insgesamt 25. Diese Replikationsstudie führte zu den folgenden Ergebnissen: Auswirkungen der Emotionsinduktion Güte der Problemlösung
auf die
Tabelle 4 zeigt die Signifikanztests der Varianzanalyse mit den Replikationsdaten. Alle drei abhängigen Variablen «Bestand nach dem 25. Durchgang», «Gewinne» und «Zuwachs» werden auf dem 5%-Niveau signifikant und haben mehr als 10% bzw. 16% an aufgeklärter Varianz. Nach Tabelle 5 kommen diese Signifikanzen durch den jeweils geringeren Endbestand an Fischen, geringeren Gewinn und geringeren Zuwachs an Fischen der traurig induzierten Probanden zustande. Abbildung 6 zeigt, daß die traurig induzierten Probanden vom 2. Durchgang beginnend den Bestand stärker dezimieren als die vom gleichen Startwert ausgehenden neutralen Probanden. Bis zum 9. Durchgang hält diese überproportionale Dezimierung des Bestandes durch traurig induzierte Probanden an und wird ab dann in relativ konstantem Abstand zum durchschnittlichen Bestand der neutralen Probanden gehalten. Abbildung 7 schließlich zeigt den kumulierten Fanggewinn für die zwei Probandengruppen. Traurig induzierte Probanden steigern sich mit erhöhten Entnahmen bis zum 6. Durchgang, reduzieren sich dann nach und nach mit ihren Entnahmen, bis sie ab dem 11. Durchgang unter den kumulierten absoluten Gewinn der neutralen Probanden herabsinken. Die Schere der weiteren Entwicklung nach dem 11. Durchgang bleibt stetig: neutrale Probanden entnehmen einen höhe-
Zeitschrift für Sozialpsychologie 1986,17,160-172
169
Tab. 4: Varianzanalysen mit dem Faktor Emotionsinduktion in der Wiederholungsuntersuchung. Unabhängige Variable
Abhängige Variablen
df
MS
F
P
CO2
Emotionsinduktion
Bestand nach dem 25.Durchgang Gewinne über alle 25 Durchgänge Zuwachs über alle 25 Durchgänge
1 1 1
16 245.0 12 522.3 57 292.9
7.03 4.45 6.82
.01 .04 .01
.167 .103 .162
Tab. 5: Mittelwerte der abhängigen Variablen bei den zwei Experimentalgruppen der Wiederholungsuntersuchung. Unabhängige Variable
Mittelwerte der abhängigen Variablen nach dem 25. Durchgang
Emotionsinduktion - neutral - traurig
Bestand
Gewinne
Zuwachs
101 56
190 150
741 538
Bestand in Tonnen
23
3
3
2 = neutral 3 = traurig
2 2
2
2
2
2
^
2
2
2 2
3
2
2
z
2
3 3
3
3
3
3
3
3
3
3 Differenz sign, p < .01
1—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i i—I I I T* 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Durchgang
Abb. 6: Tatsächliche Höhe des Bestandes bei den zwei Experimentalgruppen der Wiederholungsuntersuchung.
ren, traurig gestimmte Probanden einen niederen Gewinn, wie es der jeweilige Bestand an Fischen erlaubt. Schließlich bestätigt sich die Vermutung, die zu einer Verlängerung des Versuchs auf 25 Durchgänge geführt hatte, nämlich daß die Variable Gewinne, die im 18. Durchgang der ersten Unter-
suchung insignifikant blieb, in der Wiederholungsuntersuchung, dem Trend der scherenartigen Entwicklung folgend, schließlich auf dem 5%-Niveau signifikant wird. Die Erwartungen, die an die Replikationsstudie gestellt worden waren, sind damit vollauf erfüllt.
170
Knapp: Die Auswirkungen emotionaler Zustände auf das Lösen eines sozialen Dilemmas
Gewinnsumme in Pfennig
2 = neutral 3 = traurig -3—
Differenz sign, p < .04
2 2^3 ^3
;32'
^,3
2
.3 2 / 3X 2 / /
3
3-^2
~i I r I I I i I I I I I I I I i I I I I I I I I r" 1
2
3
4
5
6
7
8
9
Durchgang
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
/löö. 7; Summe der Gewinne bei den zwei Experimentalgruppen der Wiederholungsuntersuchung.
Manipulations-
Wirkungsprüfung
Auch die Probanden der Wiederholungsuntersuchung trugen das Gefühl, das die Emotionsinduktion bei ihnen auslöste, auf einer EinschätzSkala ein. Die mittleren Einschätzungen entsprachen den Ergebnissen der ersten Untersuchung: Probanden unter neutraler Stimmungsinduktion kreuzten überwiegend auf der Mitte der Skala an, Probanden unter trauriger Stimmungsinduktion bewerteten ihr Gefühl überwiegend negativ. Die Einschätzungen unterschieden sich signifikant (F {1,30} = 8.15; p < .008) (Tab.6).
Tab. 6: Mittlere Einschätzungen der Gefühle für jede Emotionsinduktion in der Wiederholungsuntersuchung. Emotionsinduktion
Mittlere Einschätzung
- neutral - traurig
-0.3 -2.7
Diskussion Hauptabsicht der vorliegenden Untersuchung und ihrer Replikation war die Überprüfung zweier Hypothesen, die allgemeine und spezifische Auswirkungen von induzierten Emotionen auf das Lösen eines sozialen Dilemmas vorhersagten. Die allgemeinen Auswirkungen sollten sich in einer verminderten Fähigkeit niederschlagen, funktionale Abhängigkeiten des sozialen Dilemmas zu erkennen und vorherzusagen. Die spezifischen Auswirkungen sollten sich in einer rascheren und höheren Gewinnentnahme bei Probanden mit negativ induzierten Emotionen ausdrücken. Beide Hypothesen konnten bestätigt werden. Bei der Durchsicht der entsprechenden Abbildungen zu den Auswirkungen der induzierten Emotionen zeigt sich, daß die überproportionale Leerung des Teiches durch traurig und ärgerlich induzierte Probanden bereits im 2. Durchgang
171
Zeitschrift für Sozialpsychologie 1986,17,160-172
einsetzt und somit unmittelbar nach der vorangegangenen Induktion stattfindet. Dies ist ein weiterer Hinweis auf die sofortige Wirkung der Induktion, so daß eine langanhaltende Wirkdauer der Induktion nicht unbedingt nötig gewesen wäre. A b dem 7. Durchgang werden die voreiligen Gewinnentnahmen rückläufig, jedoch nicht soviel, daß der Bestand konstant bliebe oder sich gar erholen würde. Die Probanden in traurig und ärgerlich induzierter Emotion verringern den Bestand weiterhin, wenn auch langsamer als zwischen dem 2. und 7.Durchgang. Sie sind nicht in der Lage, durch noch geringere Gewinnentnahmen den Bestand wieder anwachsen zu lassen, was theoretisch möglich gewesen wäre. Ihr Verhalten zeigt striktes Vorwärtsgehen auf die Vernichtung der eigenen Ressourcen. « W i e gefangene Tiere in einem einseitig offenen Netz zeigen diese Menschen den Zwang, sich nur in die Richtung fortzubewegen, die sich später als tödlich erweisen wird, ohne daß ihnen der einfache Weg zurück auffallen würde» (PLATT, 1973, p.641). Probanden in positiv induzierter Emotion hatten trotz ihrer Schwierigkeiten, die grundlegenden Zusammenhänge zwischen den Variablen des Dilemmas zu erkennen, die Entnahme von voreiligen Gewinnen unterdrückt. Sie erkannten zwar nicht die funktionalen Zusammenhänge, brauchten aber auch keine raschen Gewinne, um ihren emotionalen Zustand zum positiven zu wenden. Sie befanden sich bereits in einem positiven emotionalen Zustand durch die vorherige Induktion. Anders die Probanden in negativ induzierter Emotion. Sie erkannten einmal die funktionalen Zusammenhänge nicht und verlangten zum anderen nach rascher Beendigung des induzierten Emotionszustandes mittels der Entnahme von vorzeitigen Belohnungen. Dies führte bei ihnen zu den beschriebenen, anfänglich überproportional erhöhten Gewinnentnahmen, die letztlich ihre eigenen Ressourcen vernichteten.
einem Selbstbelohnungsverhalten, das vor der Ausbeutung knapper Ressourcen nicht halt macht.
Literatur ANDERSON, J.R. & BOWER, G . H . 1973. Human associative memory. Washington, D . C . : Winston. BRECHNER, K . C . 1975. A n experimental analysis o f social traps: A laboratory analog. Unpublished doctoral dissertation, A r i z o n a State University. Tempe, A Z . BRECHNER, K . C . 1977. A n experimental analysis o f social traps. Journal o f Experimental Social P y c h o l o g y , 13,552564. CASS, R . C . 1975. Subdividing communal resources: A s o c i a l trap analysis o f management outcomes. Unpublished doctoral dissertation, A r i z o n a State University, Tempe, A Z . CASS, R . C . & EDNEY, J.J. 1978. T h e common dilemma: A simulation testing the effects o f resource visiability and territorial division. Human Ecology, 6, 387-395. CLARK, M . S . & ISEN, A . M . 1982. Toward understanding the relationship between feeling states and social behavior. In: H a s t o r f , A . H . & Isen, A . M . (Eds.): Cognitive social psychology
(pp.73-108).
New
York:
Elsevier/North-
Holland. COLLINS, A . M . & LOFTUS, E.F. 1975. A spreading activation theory o f semantic processing. Psychological Review, 82, 407-428. CROSS, J.G. & GUYER, M . J . 1980. Social traps. A n n A r b o r , M I : University o f Michigan Press. DAWES, R . M . 1975. Formal models o f dilemmas in social decision making. In: Kaplin, M . & Schwartz, S. (Eds.): Human judgement and decision procession: Formal and mathematical approaches. N e w Y o r k : Academic Press. DAWES, R . M . 1980. Social dilemmas. Annual Review o f Psychology, 31, 169-193. DAWES, R . M . , MACTAVISH, J. & SHAKLEE, H . 1977. Behavior, communications, and assumptions about other people's behavior in a commons dilemma situation. Journal o f Personality and Social Psychology, 35, 1-11. ELLIS, H . C . , THOMAS, R . L . & RODRIGUEZ, I. A . 1984. E m o tional m o o d states and m e m o r y : Elaborative encoding, semantic processing, and cognitive e f f o r t . Journal o f Experimental Psychology: Learning, M e m o r y , and Cognition, 10, 470-482. ERBER, R . 1985. Choosing among multiple categories: T h e effect o f m o o d on category accessibility, inference, and a f fect. Unpublished doctoral dissertation, Carnegie-Mellon University, Pittsburgh, P A .
Neutrale Probanden hatten schließlich genügend Speicherkapazität zur Verfügung, die strukturierte Folge des Dilemmas zu erkennen, und damit keine Schwierigkeiten, ihre Gewinnentnahmen zu optimieren.
EYSENCK, M . W . 1982. Attention and arousal. Cognition and
Positive wie negative Emotionen trüben o f fenbar unsere Fähigkeit, sinnstiftende Zusammenhänge auf übergeordneter Ebene zu erkennen, aber nur negative Emotionen führen zu
HARDIN, G . 1968. T h e tragedy o f the commons. Science, 162,
performance. Berlin: Springer. FRY, P. S. 1975. A f f e c t and resistance to temptation. Developmental Psychology, 11, 466-472. HAMBURGER, H . 1979. Games as models o f social phenomena. San Francisco: Freeman. 1243-1248. HARPER, C . S . 1978. T h e role o f communications and cooperative or individualistic orientation in a simulated resource management dilemma. Unpublished master's thesis, A r i z o n a State University, Tempe, A Z .
172
K n a p p : D i e A u s w i r k u n g e n e m o t i o n a l e r Z u s t ä n d e a u f das L ö s e n eines sozialen D i l e m m a s
HARPER, C . S . & GOLD, B . 1 9 7 8 . T h e r o l e o f f e e d b a c k in t h e
management o f a group resource. Unpublished manuscript, A r i z o n a S t a t e University.
MANDLER,
G.
1975.
Mind
and
emotion.
New
York:
Wiley. MASTERS, J . C . , FORD, M . E . & AREND, R . A . 1 9 8 3 . C h i l d r e n ' s
ISEN, A . M . 1 9 8 4 . T o w a r d understanding t h e role o f a f f e c t in
strategies f o r c o n t r o l l i n g a f f e c t i v e responses t o aversive so-
cognition. In: Wyer, R . S . & S r u l l , T . K . (Eds.): H a n d b o o k
cial e x p e r i e n c e . M o t i v a t i o n a n d E m o t i o n , 7 , 1 0 3 - 1 1 6 .
o f social c o g n i t i o n (Vol. 3 , p p . 1 7 9 - 2 3 6 ) . Hillsdale, N J : E r l -
MESSICK, D . M . & BREWER, M . B . 1 9 8 3 . S o l v i n g social dilem-
baum. ISEN, A . M . , DAUBMANN, K . A . & G O R G O G L I O N E , J . M .
m a s . A review. Review o f P e r s o n a l i t y a n d S o c i a l P s y c h o 1984.
logy, 4 , 1 1 - 4 4 .
T h e influence o f positive a f f e c t on c o g n i t i o n o r g a n i s a t i o n .
MESSICK, D . M . &MCCLELLAND, C . L . 1 9 8 3 . S o c i a l t r a p s a n d
I n : S n o w , R . & F a r r , M . ( E d s . ) : A p t i t u d e , learning a n d in-
temporal traps. Personality and Social Psychology Bul-
s t r u c t i o n : C o n a t i v e a n d a f f e c t i v e f a c t o r s . Hillsdale, N J : Erlbaum.
letin, 9 , 1 0 5 - 1 1 0 . MESSICK, D . M . , WILKE, H . , BREWER, M . B . , KRAMER, R . M . ,
1982.
ZEMKE, B . E . & L u i , L . 1 9 8 3 . Individual a d a p t i o n s a n d
S o m e f a c t o r s influencing d e c i s i o n - m a k i n g strategy a n d
structural c h a n g e as solutions t o social d i l e m m a s . J o u r n a l
ISEN, A . M . , MEANS, B . , PATRICK, R . & NOWICKI, G .
risk-taking. In: Clark, M . S . & Fiske, S . T . (Eds.): Affect a n d c o g n i t i o n ( p p . 2 4 3 - 2 6 1 ) . Hillsdale, N J : E r l b a u m .
o f Personality and Social Psychology, 4 1 , 2 9 4 - 3 0 9 . PARKER, R . , LUI, L . , MESSICK, C . , MESSICK, D . M . , B R E W E R ,
ISEN, A . M . & MEANS, B . 1 9 8 3 . T h e i n f l u e n c e o f p o s i t i v e a f -
M . B . , K R A M E R , R . , SAMUELSON, C . & W I L K E , H . 1 9 8 3 . A
fect on d e c i s i o n - m a k i n g strategy. S o c i a l C o g n i t i o n , 2 , 1 8 -
c o m p u t e r l a b o r a t o r y for studying r e s o u r c e d i l e m m a s . B e -
31.
IZARD, C . E . 1 9 7 7 . H u m a n e m o t i o n s . New Y o r k : P l e n u m Press.
havioral Science, 28, 2 9 8 - 3 0 4 . PLATT, J . 1 9 7 3 . S o c i a l traps. A m e r i c a n P s y c h o l o g i s t , 2 8 , 6 4 1 651.
JORGENSON, D . O . & PAPCIAK, A . S . 1 9 8 1 . T h e e f f e c t s o f c o m -
SCHWARZ, J . C . & POLLACK, P . R . 1 9 7 7 . A f f e c t a n d d e l a y o f
m u n i c a t i o n , r e s o u r c e f e e d b a c k , a n d identifiability on be-
g r a t i f i c a t i o n . J o u r n a l o f R e s e a r c h in P e r s o n a l i t y , 1 1 , 1 4 7 -
h a v i o r in a simulated c o m m o n s . J o u r n a l o f E x p e r i m e n t a l Social Psychology, 17, 3 7 3 - 3 8 5 . KINTSCH, W . 1 9 7 0 . L e a r n i n g , m e m o r y , a n d c o n c e p t u a l p r o cesses. New Y o r k : Wiley. LINDER, D . E . 1 9 8 2 . S o c i a l t r a p a n a l o g s : T h e tragedy o f the c o m m o n s in t h e l a b o r a t o r y . I n : D e r l e g a , V. J . & G r z e l a k , J . ( E d s . ) : C o o p e r a t i o n and helping b e h a v i o r . T h e o r i e s and research (pp. 1 8 3 - 2 0 5 ) . New Y o r k : A c a d e m i c P r e s s .
164. SEEMAN, G . & SCHWARZ, J . C . 1 9 7 4 . A f f e c t i v e s t a t e
Q ^ H
and p r e f e r e n c e f o r i m m e d i a t e versus delayed re-
^ ^ H
ward. J o u r n a l o f R e s e a r c h i n P e r s o n a l i t y , 7 , 3 8 4 394.
] I
^
173
Zeitschrift für Sozialpsychologie 1986,17,173-176
Kurze Forschungsberichte Egozentrische Attributionen unter Fußballspielern* KLAUS FIEDLER & ARMIN GEBAUER Universität Gießen
Egozentrisch verzerrte Attributionen unter Fußballspielern (i.e. Überschätzen des eigenen Beitrages relativ zum Beitrag des Gegners) werden bei der Beurteilung zuvor ausgetragener Spiele hinsichtlich verschiedenster Fragen aufgezeigt. Gewonnene wie verlorene Spiele werden überwiegend der eigenen Leistung und dem Verhalten der eigenen Mannschaft zugeschrieben und weniger der Leistung des Gegners. Diese Tendenz scheint nicht durch selektives Vergessen zustande zu k o m m e n , denn sie ist unmittelbar nach dem Spiel stärker als einige Tage später. Vielmehr deutet der Befund, d a ß Abwehrspieler besonders davon betroffen sind, auf die Wahrnehmungsperspektive als ausschlaggebenden Faktor. Ich-bezogene und auf die eigene Mannschaft bezogene Fragen führen gleichermaßen zu einseitigen Beurteilungen, so daß Zweifel angebracht sind, ob der Begriff «egozentrisch» dem Phänomen wirklich gerecht wird.
Egocentrically biased attributions among soccer players (i.e., overestimation of one's own contribution relative to the other team's contribution) are demonstrated in diverse judgments and interpretations concerning past soccer matches. Regardless of success or failure, the outcome of a match is usually attributed to one's own performance or to o n e ' s own team rather than to the opponent team. This bias appears not to be due to selective memory as it is most pronounced immediately after the match and decreases with a delay of several days. The finding that defensive players are especially biased, however, points to the perceptual perspective as the crucial factor. Since self-related questions and questions referring to one's team give rise to the same one-sided judgments, the appropriateness of the term «egocentric» is put into d o u b t .
Egozentrische Attributionen unter Fußballspielern
diesem Falle Fußballern, auftritt, sollte mit der hier berichteten Untersuchung etwas eingehender erforscht werden als bei Ross & SICOLY (1979). Gleichzeitig sollten aber mithilfe dieser Felduntersuchung auch theoretisch relevante Überlegungen zur Entstehung egozentrischer Attributionen überprüft werden. Während von der eigenen Mannschaft erzielte Tore meist als zwingend herausgespielt erscheinen, werden die Tore des Gegners, die man selbst hinnehmen mußte, viel häufiger dem Glück oder einem Fehler der eigenen Abwehr zugeschrieben als einem zwingenden Spielzug des Gegners. Oder, um eine andere egozentrische Variante zu nehmen, es ist meist die eigene Tagesform und nicht die der anderen Mannschaft, die für unerwartete Siege und Niederlagen verantwortlich gemacht wird. Ohne im Augenblick zu wissen, ob diese Überbetonung des eigenen Beitrages motivational förderlich oder hinderlich ist, für die Optimierung der eigenen Leistung funktionell
Unter egozentrischen Attributionen versteht man die Tendenz, den eigenen Beitrag zu gemeinschaftlichen Leistungen oder Aktivitäten höher einzuschätzen als den Beitrag anderer. Man denke etwa an Zweier-Beziehungen (THOMPSON & KELLEY, 1981), wo sowohl Männer als auch Frauen meinen, mehr als ihr Partner der Ausgangspunkt dafür zu sein, was zwischen ihnen passiert, oder an die Beziehung zwischen Studenten und ihren Betreuern, von denen jeder vorwiegend den eigenen Beitrag zu einer gemeinsamen Arbeit erkennt (Ross & SICOLY, 1979). Wie universell dieses Phänomen auch unter Sportlern, in
* Die Verfasser bedanken sich für die bereitwillige Mitarbeit des TSV Gießen Klein-Linden bei der D u r c h f ü h r u n g dieser Untersuchung. Die Auswertung erfolgte mit Unterstützung des Hochschulrechenzentrums der Universität Gießen.
174
Fiedler & Gebauer: Egozentrische Attributionen unter Fußballspielern
oder disfunktionell, ist es zunächst von Interesse, die Natur der egozentrischen Attributionen im Sport genauer zu beschreiben und etwas über die moderierenden Faktoren zu erfahren, welche ihr Auftreten verstärken oder abschwächen. Theoretisch werden folgende Faktoren nahegelegt: (1) Da nicht nur positive Aktivitäten (z.B. Hilfeleistung), sondern auch negative (z. B. Streit anfangen) egozentrisch attribuiert werden, wurde keine simple motivationale Erklärung versucht. Dennoch bietet sich an, Attributionen nach Erfolgen und Niederlagen systematisch zu vergleichen. (2) Eine Mannschaftssportart wie Fußball eröffnet die Möglichkeit zu prüfen, ob der Beitrag der eigenen Person mehr überschätzt wird als der der eigenen Mannschaft, ob der Begriff egozentrisch) mithin dem Phänomen gerecht wird. Überdies könnten Unterschiede in der Attribution von Abwehr-, Mittelfeld- und Angriffsspielern auf die Wahrnehmungs- und Erlebnisperspektive als Ursache der Egozentrik hindeuten. (3) Im Gegensatz zu einer solchen perspektivischen Erklärung vertreten die oben zitierten
Autoren einhellig den Standpunkt, das Phänomen sei durch die größere Verfügbarkeit (, TVERSKY & K A H N E M A N , 1 9 7 3 ) der eigenen Beiträge im Gedächtnis zu erklären. Zweifel sind hier allerdings angebracht, denn die rein korrelative Evidenz besagt nur, daß egozentrische Attributionen und egozentrisches Erinnern gemeinsam auftreten, nicht jedoch, daß letzteres ersteres hervorruft. So brachte eine kritische Überprüfung in einem Reaktionszeitexperiment (FIEDLER, 1 9 8 3 ) auch keine Bestätigung für eine solche Gedächtniserklärung. Um diese Frage zu berücksichtigen, wurde hier die Zeitspanne zwischen Fußballspiel und Attributionen variiert. Sofern egozentrische Urteile auftreten, weil eigene Beiträge besser als fremde Beiträge behalten werden, müßte die Tendenz nach einigen Tagen stärker ausgeprägt sein als unmittelbar nach dem Spiel. Methode Die aktiven Spieler eines Gießener Fußballvereins (TSV Klein-Linden) bearbeiteten nach dem
Tab. 1: Egozentrische Attributionen (EA) in Abhängigkeit vom Frageinhalt, dem Erfolg, der Position des Spielersund dem Zeitintervall zwischen Spiel und Befragung. Kurzfassung der Frage
Eigene Leistung/Mannschaftsleistung ausschlaggebend? Zweikämpfe gewann ich/Gegner Das lag an meinem/des Gegners Geschick Ich umspielte Gegner (vice versa) Ich nahm Paß geschickt an (vice versa) Ich stieß Gegner um (vice versa) Ich setzte mich fair ein (vice versa) Ich war technisch besser (vice versa) Ich war kämpferisch besser (vice versa) Ich war körperlich überlegen (vice versa) Ich habe foulgespielt (vice versa) Ich war trickreicher (vice versa) Ich war kopfballstärker (vice versa) Ich war schneller (vice versa) Ich täuschte den Gegner (vice versa) Spielausgang ist der eigenen/anderen Mannschaft zuzuschreiben Gegnerische/eigene Mannschaft mehr Fouls Eigene/gegnerische Mannschaft einfallsreicher Gegnerische/eigene Mannschaft spielbestimmend Impulse vom eigenen/fremden Sturm Impulse vom eigenen/fremden Mittelfeld Impulse von eigener/fremder Abwehr Fremde/eigene Mannschaft taktisch bestimmend
MehrEA bei kurzem Intervall
EA überhaupt vorhanden
x X
X
X
X
X
X
X
X X
X
X
X X
X
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X X
X
X
X
X
MehrEA in der Reserve
x
X X
Mehr EA in der Abwehr
X X
X
Zeitschrift für Sozialpsychologie 1986,17,173-176
vorletzten und letzten Spiel der Saison 1984/1985 einen anonymen Fragebogen, in dem neben einigen Hintergrunddaten die in Tabelle 1 angeführten Attributionen erfaßt wurden. Wie man sieht, beziehen sich die Fragen auf die eigene individuelle und die Mannschaftsleistung, Erfolge und Mißerfolge, offensives und defensives Spiel, objektive Tatbestände und subjektive Wertungen. Für je etwa die Hälfte der Spieler wurde der Fragebogen entweder gleich nach den Spiel in der Kabine ausgegeben oder aber vier Tage später im nächsten Training. Beim ersten von beiden Spielen nahmen acht Spieler der ersten Mannschaft (4 unmittelbar/4 verzögert) und neun aus der Reservemannschaft (6/3) teil, beim zweiten Mal waren es sieben aus der ersten Mannschaft (5/2) und neun aus der Reserve (5/4). Während die erste Mannschaft beide Spiele gewann (3:2 und 2:0), gewann die Reserve keines (1:2 und 0:0), so daß der Unterschied von Erfolg und Mißerfolg zwar untersucht werden konnte, jedoch mit den Mannschaften konfundiert ist. Die Position eines Spielers (Abwehr, Mittelfeld, Angriff) wurde im Fragebogen erfaßt. Der Unterschied zwischen dem ersten Spiel (auswärts, entscheidend für die Meisterschaft) und zweiten Spiel (Heimspiel, TSV steht als Meister fest) wirkte sich in keiner Weise aus und wird hier nicht weiter behandelt.
Ergebnisse Da die Daten des ersten und zweiten Spieles teils von denselben, teils von unterschiedlichen Spielern stammen, war es weder möglich, die Daten zusammenzuwerfen, noch den Faktor als Meßwiederholung zu behandeln. Für beide Spiele wurden somit getrennte Analysen durchgeführt. Der Begriff «Signifikanz» wurde so definiert, daß beide Analysen die gleiche Tendenz (gemäß t-Test) zeigen, die wenigstens einmal auf dem 5%-Niveau signifikant ist. Es sei jedoch angemerkt, daß die in der zweiten Spalte von Tabelle 1 angegebenen Effekte fast alle so stark waren, daß sich statistische Argumente erübrigen. Bei der Ermittlung des Einflusses der experimentellen Variablen wurde das Statistik-Problem durch einfaches Auszählen von ordinalen Vergleichen umgangen. Die Ergebnisse erscheinen in verschiedener Hinsicht interessant. Zunächst zeigt Tabelle 1
175 sehr deutlich, wie verbreitet egozentrische Attributionen auch unter Fußballern sind und wie das Phänomen auf nahezu alle Aspekte des Spiels generalisiert ist. Zweitens gibt es aber auch nicht betroffene Aspekte, und diese scheinen nicht zufällig die nieder bewerteten Inhalte zu betreffen (i.e. Foulspiel, körperliche Überlegenheit). Die Folgerung, daß egozentrische Attributionen unabhängig von sozialer Erwünschtheit sind, sollte daher nicht zu voreilig akzeptiert und durch eine gezielt angelegte Untersuchung erst gründlich überprüft werden. Und drittens zeigte sich keinerlei Tendenz bei der Frage, ob die eigene individuelle Leistung oder aber die Mannschaftsleistung ausschlaggebend war. Demnach handelt es sich nicht um eine selbst-bezogene Tendenz, sondern um eine perspektivische Tendenz, die sich auch auf Sozialgruppen beziehen kann. Der Begriff «egozentrisch» könnte also unzutreffend sein. Das vierte Ergebnis ist unmittelbar relevant für die Frage, ob selektive Erinnerung die Tendenz hervorruft. In 13 von 17 Fällen, in denen die Tendenz signifikant auftrat, war sie im Mittel stärker ausgeprägt, wenn die Attribution unverzögert, also ohne Erinnerungseinfluß, erfaßt wurde (Tab. 1,3. Spalte). Das weist eindeutig darauf hin, daß das aktuelle Erleben oder Wahrnehmen des Spiels aus einer einseitigen Perspektive wichtiger ist als das Gedächtnis. Hierzu paßt fünftens auch die Tatsache, daß in 12 der 17 Fälle die Tendenz bei Abwehrspielern, die das Spiel besonders einseitig aus der eigenen Perspektive erleben, stärker ausgeprägt ist als bei Mittelfeldspielern und Angreifern (4. Spalte), die häufiger rückwärts orientiert sind. Auch nach diesem Befund sollte eher die perspektivische Wahrnehmung als das selektive Gedächtnis entscheidend sein. Und schließlich verrät die letzte Spalte der Tabelle, daß die weniger erfolgreiche und weniger unter dem Druck der Zuschauer stehende Reserve-Mannschaft die Tendenz nicht seltener, sondern eher öfter zeigt. Weder Erfolg noch objektive Selbstwahrnehmung induziert durch Zuschauer scheinen also eine notwendige Voraussetzung zu sein. Negative Ereignisse scheinen die Tendenz also nicht zu verhindern, im Gegensatz zu negativ konnotierten Fragen. Wenngleich diese Ergebnisse auf einer unvollkommenen Methodik beruhen, dürften sie doch einige Aufschlüsse für die Erklärung egozentri-
176
Fiedler & Gebauer: Egozentrische Attributionen unter Fußballspielern
scher Attributionen enthalten. Welche Implikationen sie für den Sport haben, müßten weiterführende sportwissenschaftliche Untersuchungen ergeben.
Ross, M. & SICOLY, F. 1979. Egocentric biases in availability and attribution. Journal of Personality and Social Psychology, 37, 322-336. THOMPSON, S . C . & KELLEY, H . H . 1 9 8 1 . J u d g m e n t s o f r e s p o n -
sibility for activities in close relationships. Journal of Personality and Social Psychology, 41, 469-477.
Literatur FIEDLER, K. 1983. On the testability of the availability heuristic. In: Scholz, R.W. (Ed.): Decision making under uncertainty. Amsterdam: North-Holland.
TVERSKY, A . &KAHNEMAN, D . 1 9 7 3 . A v a i l a b i l i t y : A
^ ^ f l
heuristic for judging frequency and probability. Cognitive Psychology, 5, 207-232.
L^^^ I J
177
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 1 7 7 - 1 8 2
Diskussion Statistisches Schließen und wissenschaftliche Erkenntnis. Überschätzung statistischer Konzepte durch ihre Begründer oder Frustration mancher Anwender nach Erkenntnis der Tücke des Objekts R O L A N D DILLMANN & G E R H A R D ARMINGER Bergische Universität GH Wuppertal
Eine Analyse statistischen Schließens setzt die Klärung des wissenschaftstheoretischen Hintergrundes voraus, von dem aus die Konzepte statistischen Schließens kritisiert werden. Zu diesem Zweck wird der Versuch der Erstellung immanenter und externer Kriterien sowie eine Explikation der Zielsetzungen der Begründer der verschiedenen Konzepte des statistischen Schließens unternommen.
The analysis of statistical inference rests on a discussion of the epistemological background for criticizing the different concepts of statistical inference. An attempt is made to construct internal and external criteria for statistical inference. Additionally, the intentions of the original authors o f the diverse concepts of statistical inference are discussed and interpreted.
1. Vorbemerkung
gaben in L E I S E R S Beitrag legt die Vermutung nahe, daß er diese Diskussion nicht miteinbezogen hat. Insbesondere die in L E I S E R S Beitrag kritisierten Autoren N E Y M A N & PEARSON und R . A . F I SHER haben immer betont, daß es schwerfällt, Situationen anzugeben, in denen für Wahrscheinlichkeitsschlüsse ohne Abstraktionen und Idealisierungen eine ontologische Basis zugrunde gelegt werden kann. Vielmehr hat FISHER sein Konzept der Population als ein theoretisches mit hohem pragmatischem Wert verstanden. N E Y M A N S Konzept der Fundamentalmenge kann ebenfalls als theoretisch eingestuft werden. Beide Autoren haben in ihren Arbeiten deutlich gemacht, daß Anwendung statistischer Methoden trotz aller Bemühungen um ihre Verbesserung relativiert auf Plausibilitätskriterien bleiben wird. Ontologische Ansprüche haben eher R. v. MISES (1928,
LEISER stellt in seinem Beitrag (pp. 146-159) fest, daß «in den von mir durchgesehenen Ansätzen keiner der für mich zentralen Gedanken des statistischen Schließens wirklich stringent zu Ende gedacht worden ist». Dies nimmt er zum Anlaß, «in einem ersten Schritt . . . die wichtigsten Ungereimtheiten in den untersuchten Konzepten zusammenzustellen» und «in einem zweiten Schritt in Reinterpretation einiger Ansätze diesen Ungereimtheiten nachzugehen und dabei Ansatzpunkte für ihre Überwindung zu finden». So verdienstvoll dieses Anliegen ist, so muß zunächst festgehalten werden, daß das Bemühen um ein stringentes statistisches Schließen andauert, seit überhaupt stochastische Methoden mit dem Ziel der Hypothesenbeurteilung in der Wissenschaft zum Einsatz kommen. Daher sind zunächst folgende Feststellungen zu treffen. Die grundsätzliche Diskussion des Anwenderproblems hat sich zunehmend verselbständigt und wird heute vornehmlich in wissenschaftstheoretischen Zeitschriften, dort allerdings intensiv, geführt. Eine Durchsicht der Literaturan-
1 9 3 1 ) bzw. K.POPPER ( 1 9 5 9 / 1 9 6 0 ) - im R a h m e n
seiner
Propensity-Interpretation
von
Wahr-
scheinlichkeit - erhoben. LEISER spricht POPPER
überhaupt nicht an. VON MISES hat sich zum Anwenderproblem in einer Weise geäußert, daß er die Einsatzmöglichkeiten von Statistik auf Mas-
178
Dillmann & Arminger: Statistisches Schließen und wissenschaftliche Erkenntnis
senerscheinungen beschränkt wissen will und eine Anwendung auf singulare Ereignisse ablehnt. Es fällt schwer, einen dieser Autoren als legitimierende Autorität für den Einsatz ihrer Methoden als Hilfsmittel in der Vielfalt anzuführen, wie sie in der Statistik heute im Wissenschaftsbetrieb eingesetzt wird. Insbesondere sollte die Beurteilung dieser Autoren auf ihre Konsistenz hin anhand der Ansprüche erfolgen, die sie selbst erheben. Die Lektüre des Beitrags von LEISER wäre sicher leichter gefallen, wenn dieser deutlich gemacht hätte, welches denn eigentlich seine zentralen Gedanken sind; insbesondere hätte man sich eine explizite Aufzählung der Kriterien gewünscht, anhand derer Ungereimtheiten in den verschiedenen statistischen Konzepten diagnostiziert werden. Dies um so mehr, als diese Kriterien dann zur Beurteilung seiner Kritik sowie für seine Vorschläge einer Neubestimmung hätten herangezogen werden können.
2. Zum Wahrscheinlichkeitsproblem Verfolgt man die wissenschaftstheoretische Diskussion um die Einsatzmöglichkeiten von Statistik und die Interpretierbarkeit statistischer Schlüsse, so stellt man fest, daß die Frage, welchen Wahrscheinlichkeitsbegriff der einzelne Autor unterstellt, weitgehend seine Auffassungen bestimmt. Vor einer Diskussion statistischen Schließens wäre daher eine Klärung folgender Fragen von Interesse: - Wird eine objektive, logische oder subjektive Position zum Wahrscheinlichkeitsbegriff bezogen, oder wird problemorientiert über den Charakter des zu unterstellenden Wahrscheinlichkeitsbegriffs befunden? - Ist Wahrscheinlichkeit ein theoretischer oder ein operationalisierbarer Begriff, und welche Konsequenzen hat diese Entscheidung? (Entweder wäre ein Hinweis auf eine vorgestellte Operationalisierung oder die Angabe einer Theorie, aus der Wahrscheinlichkeit als theoretischer Begriff hervorgeht, erforderlich. Kann dies nicht geleistet werden, bleibt nur das Zugeständnis, bestenfalls im Stadium einer Prätheorie zu verharren.) - Ist Wahrscheinlichkeit auf Massenerscheinungen zu beschränken, oder ist von einer Wahr-
scheinlichkeit von Einzelergebnissen auszugehen? - Ist Wahrscheinlichkeit Ereignissen u n d / oder Hypothesen beizumessen? - Sind stochastische Unabhängigkeit und Zufälligkeit zwei verschiedene Konzepte oder nicht? - Bedarf ein statistischer Schluß der Referenzklassenbildung und, wenn ja, wie sind Referenzklassen zu interpretieren, wie ist das Referenzklassenproblem zu lösen? - Ist ein statistischer Schluß zu relativieren und, wenn ja, worauf? Eine Beantwortung der aufgeworfenen Fragen würde Hilfestellung leisten bei der Beantwortung folgender Fragen: - Gibt es eine ontologische Basis für einen Wahrscheinlichkeitsschluß? - Bedarf es einer ontologischen Grundlage für einen Wahrscheinlichkeitsschluß und, wenn j a , in welcher Weise? - Gibt es Konflikte zwischen ontologischen und epistemologischen Ansprüchen? - Ist das Indeterminismusproblem ein logisches oder ein ontologisches? - Welcher Anspruch wird an einen Wahrscheinlichkeitsschluß geknüpft? Eine Beurteilung der statistischen Konzepte könnte auf dem Hintergrund der Antworten auf die oben gestellten Fragen stattfinden. Leider versäumt es LEISER, zu diesen Fragen explizit Stellung zu nehmen oder - alternativ - einen eigenen Hintergrund zu schaffen. Die im Text vorhandenen impliziten Aussagen lassen sich mangels Präzision nicht den von den klassischen Autoren vertretenen Konzepten zuordnen.
3. Zum Problem statistischen Schließens D i e v o n FISHER ( 1 9 5 6 ) b z w . NEYMAN & PEARSON ( 1 9 3 3 ) angegebenen Konzepte beziehen sich auf unterschiedliche Fragestellungen. So motivieren NEYMAN & PEARSON ihr Vorgehen entscheidungstheoretisch, nicht induktiv. FISHER beschäftigt sich hingegen mit dem Induktionsproblem. Auf dieser Grundlage ist LEISERS Aussage, FISHER sei der Versuch eines Auswegs aus dem von N E Y M A N & PEARSON nicht lösbaren Dilemma, verfehlt. NEYMAN & PEARSON diskutieren eine Situation, in der zwischen verschiedenen Handlungs-
Zeitschrift für Sozialpsychologie 1986,17,177-182
möglichkeiten entschieden werden muß. Die falschen Entscheidungen ziehen dabei unterschiedlich gewichtige Konsequenzen nach sich. Dabei ist die Hypothese, deren fälschliche Ablehnung zu den gewichtigeren Konsequenzen führt, als Nullhypothese zu formulieren. Aufgrund unterschiedlicher Behandlung der Fehlerarten ist für den Testausgang häufig die Entscheidung maßgebend, welche Hypothese als H 0 gewählt wird. FISHER erkennt auch einen logischen Wahrscheinlichkeitsbegriff an, der auf Hypothesen angewandt werden kann (Fiduzialwahrscheinlichkeit). Er beschränkt aber diese Anwendung auf besondere Fälle. Die Beschränkung auf besondere Fälle resultiert aus der Ablehnung des Prinzips vom unzureichenden Grund. NEYMAN & PEARSON beschränken sich auf die Anerkennung von Ereigniswahrscheinlichkeiten, die sie wie FISHER im eher objektiven Sinn deuten. Wichtig ist, daß sie gemeinsam eine Experimentalsituation vor Augen haben, innerhalb derer sie bereit sind, von Wiederholungen unter (annähernd) gleichen Umständen zu sprechen. Dabei kann eine Anerkennung der Wiederholbarkeit unter gleichen Umständen nicht allein auf ontologischer Basis erfolgen; ein derartiges Urteil weist notwendig subjektive Züge auf. Die Statistik erschöpft sich nicht in der Aufrechterhaltung der stochastischen Oberhypothese, von Folgen stochastisch unabhängiger, identisch verteilter (iid) Zufallsvariablen auszugehen. Man denke an die Theorie stochastischer Prozesse, in der LEISERS Forderung nach prozeßbezogener Wahrscheinlichkeit längst aufgenommen ist. Dies ist folgerichtige Konsequenz der Anwendung statistischer Methoden auf Wissenschaft ohne Labor. Dabei muß das Konzept von Ereigniswahrscheinlichkeiten nicht aufgegeben werden. Der Vorwurf, die NEYMAN-PEARSON-Theorie beschränke sich auf die Situation zweier einfacher Hypothesen, ist nur insofern zutreffend, als für Testprobleme mit zusammengesetzten Hypothesen nur dann (innerhalb einer eingeschränkten Klasse) optimale Tests existieren, wenn aufgrund der Anwendung weiterer Kriterien (Ähnlichkeit, Unverzerrtheit, Invarianz) sowie bei Vorliegen monotoner Likelihood-Quotienten das Testproblem auf eines zweier einfacher Hypothesen transformiert werden kann. Der Vorwurf, der sich auf die Randomisierung bezieht,
179 ist u n a n g e b r a c h t , d a die NEYMAN-PEARSON-Test-
theorie keine Einzelfalltheorie darstellt und darüber hinaus entscheidungstheoretisch und nicht induktiv motiviert ist. FISHERS Programm hingegen ist insbesondere, Hypothesen auf ihre Plausibilität hin zu untersuchen. Dies geschieht auf der Basis von Informationen sowie von statistischen Oberhypothesen. Dabei lehnt FISHER das Indifferenzprinzip ab, erkennt als Information über die Realität nur Häufigkeitsinformationen an und besteht auf Verwertung aller relevanter Informationen als notwendige Bedingung zur Wahrscheinlichkeitszuweisung an Hypothesen. Damit wollte FISHER nicht sämtliche subjektiven Elemente aus einem statistischen Schluß verbannen, sondern sie in logischer Tradition so gering wie möglich halten. Die Anerkennung statistischer Oberhypothesen ist notwendigerweise subjektiv; zwar können statistische Oberhypothesen wieder zum Gegenstand eines Tests gemacht werden, aber nur auf der Grundlage anderer statistischer Oberhypothesen. Höchste Priorität in FISHERS Konzept besitzt die Zuweisung von Fiduzialwahrscheinlichkeiten an Hypothesen, sie gelingt ihm aber höchstens bei Vorliegen spezieller statistischer Oberhypothesen sowie bei Abwesenheit sämtlicher apriori-Information. Gelingt die Aufstellung von Fiduzialwahrscheinlichkeiten nicht, so soll versucht werden, auf der Grundlage des LikelihoodVergleichs verschiedene Hypothesen zur Erklärung des gleichen Sachverhalts hinsichtlich ihrer Stringenz miteinander zu vergleichen. Wenn auch dies nicht gelingt aufgrund fehlender Anerkennung geeigneter statistischer Oberhypothesen, soll im Rahmen eines Signifikanztests wenigstens versucht werden, Hypothesen danach zu unterscheiden, ob sie vorläufig aus der Menge der zu diskutierenden Hypothesen ausgeschieden werden können oder nicht. Die Vorläufigkeit resultiert daraus, daß man auf der Grundlage entsprechend schwacher Oberhypothesen nicht entscheiden kann, ob es bei der Erklärung eines vorliegenden Ereignisses Probleme aufgrund des Vorliegens eines seltenen Ereignisses oder aufgrund des Vorliegens einer schwachen Hypothese gibt. FISHER als Vater des Suffizienzkonzepts war dieser Unterschied selbstverständlich bekannt. Wir können LEISER keineswegs darin folgen, in den Pivotgrößen einen mathematischen deus ex
180
Dillmann & Arminger: Statistisches Schließen und wissenschaftliche Erkenntnis
machina zu entdecken, vielmehr handelt es sich um einen Versuch, anerkannte statistische Oberhypothesen daraufhin zu untersuchen, ob sie die Bildung solcher Größen ermöglichen. Statistische Oberhypothesen sind aber kaum rein mathematisch zu verstehen, sondern inhaltlich, da sie Bestandteile des vom Forscher anerkannten Hintergrundwissens sind, auf das hin jeder statistische Schluß zu relativieren ist. Darüber hinaus muß zugestanden werden, daß man in FISHERS umfangreichem Werk wissenschaftstheoretische Ausführungen nur in bruchstückhafter und sich wandelnder Form wiederfindet. Dies sagt aber nichts hinsichtlich der Fundierbarkeit dieser Konzepte aus. Grundsätzlicheres dazu ist etwa zu finden bei H A C K I N G (1965, 1973), STEGMÜLLER (1973), SEIDENFELD (1979), K Y B U R G (1974), die alle eine Rekonstruktion des FiSHERschen Fiduzialarguments versucht haben. Von Interesse wäre eine Auseinandersetzung LEISERS mit diesen Rekonstruktionsversuchen gewesen, zumindest K Y B U R G ist ja im Literaturverzeichnis aufgenommen, und K Y B U R G weist auf H A C K I N G hin. Der subjektivistischen Position wirft LEISER ihren unattraktiven Wahrscheinlichkeitsbegriff vor, wesentlich erscheint der z . B . auf B A R N A R D (1962) zurückgehende Einwand fehlender Handlungsmöglichkeiten unerwarteter Ereignisse bzw. Hypothesen, den Vertreter der subjektivistischen Position bislang nicht überzeugend ausgeräumt haben. Insgesamt hat die wissenschaftstheoretische Diskussion um das statistische Schließen erbracht, - daß keine Wahrscheinlichkeitskonzeption unumstritten ist; - daß jede statistische Analyse zu relativieren ist zumindest auf die in die Analyse eingegangenen Daten, somit auf die der Datengewinnung zugrunde liegenden Realtheorien, die der Theoriebildung zugrunde liegende Sprache, die zur Datengewinnung eingesetzten Sinne und technischen Hilfsmittel sowie die hinter den Hilfsmitteln stehenden Theorien; - die unterstellten statistischen Oberhypothesen; - die angewandte statistische Theorie, somit insbesondere auf die der Theorie zugrunde liegenden Kriterien, denen eine statistische Analyse zu genügen hat.
Somit erscheint LEISERS Feststellung, der statistische Schluß sei ein zu relativierender, nicht überraschend. Für den Leser bisheriger Werke LEISERS erscheint insbesondere der Vorschlag, gewünschtes Testverhalten als konstitutiven Bestandteil der gesellschaftlichen Relevanzbestimmung wissenschaftlicher Fragestellung anzusehen, nicht unerwartet, denn dies sollte die Konsequenz seiner erkenntnistheoretischen Position sein. Für jemand, der LEISERS Grundauffassung nicht teilt, wäre nun von Interesse zu erfahren, welchen Kriterien eine gesellschaftliche Relevanzbestimmung zu genügen hätte. Denn gesellschaftliche Relevanzbestimmung ist kein Selbstzweck, sondern ein aufgrund der Anerkennung von Normen abgeleitetes Ziel. Anschließend wären Vorstellungen darüber zu nennen, wie eine gesellschaftliche Relevanzbestimmung stattfinden soll, um im Anschluß daran zu prüfen, ob aufgrund des «wie» die der Forderung nach gesellschaftlicher Relevanzbestimmung zugrunde liegenden Normen eingehalten werden. Erst wenn dies geleistet ist, haben LEISERS Ausführungen eine Tiefe überschritten, auf der heute die Konzepte FISHERS und N E Y M A N & PEARSONS diskutiert werden, etwa bei SEIDENFELD (1979).
4. Kritik einzelner Thesen These 1 läßt Unklarheiten darüber bestehen, ob Glücksspiel eine theoretische Konstruktion oder ein tatsächlich betriebenes Spiel bezeichnet, im zweiten Fall wäre es gelungen, einen Zufallsgenerator zu erzeugen, der Indeterminismus als ontologisch ausweisen würde. Im ersten Fall wäre LEISERS Aussage per Definition richtig. These 2 kann ohne Klärung dessen, was «angemessen» heißt, nicht diskutiert werden. Es ist zwar zutreffend, daß man mit den bislang eingebrachten Vorschlägen zur Hypothesenprüfung noch kein Stadium erreicht hat, in dem sich eine Verfahrenskritik erübrigt, aber interessanter ist doch wohl eine Kritik im Vergleich zu Alternativen, insbesondere zu denen, die LEISER selbst unterbreitet. Dies leistet LEISERS zweite These nicht. These 3 ist unverständlich. Jedoch legt das Lesen des ersten Abschnittes der Begründung nahe, bei LEISER einen Interpretationsfehler zu vermuten. N E Y M A N & PEARSON und FISHER unterschei-
181
Zeitschrift für Sozialpsychologie 1986,17,177-182
den sich nicht darin, daß FISHER die Gegenhypothese zu H 0 nicht explizit in der Form H,:
I H0
formuliert, sondern daß die Oberhypothesen bei viel schärfer sind als die, bei deren Vorliegen FISHER einen Signifikanztest nahelegt. Sie schränken also den Bereich alternativer Verteilungsgesetze viel schärfer ein, als FISHER dies im Fall der Empfehlung eines Signifikanztests tut. Daß der Signifikanztest heute noch viel häufiger Verwendung findet als NEYMAN & PEARSONS Testtheorie, liegt wohl daran, daß in zu vielen praktischen Situationen entsprechend scharfe Oberhypothesen nicht aufrechterhalten werden können. Insbesondere kann aber NEYM A N - P E A R S O N nicht zur Lösung des Induktionsproblems in Anspruch genommen werden. Wo möglich - etwa im Rahmen der Qualitätskontrolle - wird dann selbstverständlich auf NEYMAN & PEARSON zurückgegriffen. NEYMAN & PEARSON
Zu LEISERS Hinweis unter These 3 auf den Unterschied zwischen schlechten Hypothesen und seltenen Ereignissen sei noch einmal angemerkt, daß dieser Unterschied nur bei relativ eingeschränkten Gegenhypothesen relevant wird. FISHER hat hierzu beispielsweise das Suffizienzkonzept eingeführt. In dem Rahmen, innerhalb dessen FISHER den Signifikanztest empfiehlt, reichen die statistischen Oberhypothesen nicht aus, um zwischen schlechten Hypothesen und unwahrscheinlichen Ereignissen zu entscheiden. These 4 beinhaltet die Aussage, daß sich Hypothesenwahrscheinlichkeiten nicht ohne weiteres aus Ereigniswahrscheinlichkeiten ableiten lassen. Damit steht LEISER durchaus nicht im Widerspruch zu FISHERS (1955) Fiduzialargument; der entscheidende Aspekt dürfte eher sein, was FISHER als Information anerkennt. Die Literatur zum Thema Hypothesenwahrscheinlichkeit ist so breit, daß der ad-hoc-Charakter der LEisERschen Argumentation verblüfft. Dabei ist das Problem der Hypothesenwahrscheinlichkeit nicht dadurch zu umgehen, daß man einen Bezeichnungswechsel in «induktive Sicherheit» anbietet (LEISER, 1980). Insbesondere ist zu klären, auf welcher Grundlage welche Rechenoperationen durchführbar sind. Dies gilt etwa für die unter These 5 dargestellten Überlegungen, in deren Rahmen plötzlich gewichtete Summen von
Wahrscheinlichkeiten gebildet werden, die nur bei Geltung unterschiedlicher Hypothesen berechenbar sind. Eine Addition verschiedener Fehler findet statt, obwohl nur eine Hypothese gelten kann. Dies ist zwar im Ansatz von SAVAGE (1962) möglich, der jedoch von LEISER scharf kritisiert wird. Unter These 5 diskutiert LEISER das Problem, Niveau und Stichprobenumfang gemeinsam zu variieren. An dieser Stelle fehlt die Diskussion der Sequentialanalyse, die ja aus N E Y M A N - P E A R soNscher Tradition entstanden ist. Dieses Fehlen ist um so bedauerlicher, als bei der Sequentialanalyse a und ß vorgegeben werden, so daß die krasse Bevorzugung des Fehlers erster Art, die im reinen NEYMAN-PEARSON-Konzept nur durch Steigerung des Stichprobenumfangs abgeschwächt werden kann, auf lange Sicht zu geringeren Kosten aufhebbar ist.
5. Schlußfolgerung Die wissenschaftstheoretische Diskussion der Grundlagen des statistischen Schließens findet unter verschiedenen Gesichtspunkten statt: Wir nennen hier beispielsweise - die Suche nach der ontologischen Basis, - den Wunsch, statistische Aussagen auch für den Einzelfall zu gewinnen, - die Suche nach akzeptablen Lösungen epistemologischer Probleme, - das Streben nach objektiv gültigen Aussagen. Alle diese Gesichtspunkte erscheinen wichtig, bislang ist es nicht gelungen, sie gemeinsam in befriedigender Weise zu lösen. Damit bleibt jeder statistische Schluß provisorisch. Die Entscheidung, ob man Statistik in den Wissenschaften einsetzen sollte oder nicht, sollte deshalb insbesondere unter dem Gesichtspunkt methodischer Alternativen und vorhandenen Handlungsbedarfs erfolgen. Alleinvertretungsansprüche erscheinen unbegründet. Wissenschaft ist keine Maschine, die Wissen ohne Relativierung produziert, Wissenschaft ist nicht in der Lage, den Menschen die Verantwortung für eigenes Handeln abzunehmen. Es hat wenig Sinn, in Gesellschaftswissenschaften von wissenschaftlich gesicherten Aussagen zu reden; angemessener erscheint ein Sprechen von konkurrierenden wissenschaftlichen Auffassungen.
182
Dillmann & Arminger: Statistisches Schließen und wissenschaftliche Erkenntnis
Literatur BARNARD, G. A. 1962. Comment in SAVAGE, L. J., Subjective probability and statistical practice. In: Bartlett, E. (Ed.): The foundations of statistical inference (p.80). London: Methuen. FISHER, R.A. 1955. Statistical methods and scientific inference. Journal of the Royal Statistical Society, Series B.17, 69-78.
FISHER, R.A. 1956. Statistical methods and scientific inference. New York: Hafner Press. HACKING, J. 1965. Logic of statistical inference. Cambridge: Cambridge University Press. HACKING, J. 1973. Propensities, statistics and inductive logic. In: Suppes, P., Henkin, L., Joja, A. & Moisil, Gr.C. (Eds.): Logic, methodology and philosophy of science IV 0>p.485-500). Amsterdam: North-Holland. KYBURG, H . 1974. The logical foundations of statistical inference. Dordrecht: Reidel. LEISER, E. 1980. Einführung in die statistischen Methoden der Erkenntnisgewinnung. Köln: Pahl-Rugenstein. LEISER, E. 1986. Statistisches Schließen und wissenschaftliche Erkenntnis. Gesichtspunkte für eine Kritik und Neu-
bestimmung. Zeitschrift für Sozialpsychologie, 17, 146159. MISES, R. VON: 1928. Wahrscheinlichkeit, Statistik und Wahrheit. Berlin: Springer. MISES, R. VON: 1931. Wahrscheinlichkeitsrechnung und ihre Anwendung in der Statistik und theoretischen Physik. Leipzig. NEYMAN, J . & PEARSON, E . S . 1 9 3 3 . O n t h e p r o b l e m o f t h e
most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society of London, Series A.231,289-337. POPPER, K.R. 1959/1960. The propensity interpretation of probability. The British Journal for the Philosophy of Science, 20, 25-42. SAVAGE, L.J. 1962. Subjective probability and statistical practice. In: Bartlett, E. (Ed.): The foundations of statistical inference (pp.9-35). London: Methuen. SEIDENFELD, T. 1979. Philosophical problems of statistical inference. Dordrecht: Reidel. STEGMÜLLER, W. 1973. Probleme und Resultate der Wissenschaftstheorie und Analytischen PhilosoI^^H phie IV: 2. Halbband. Personelle und statistische Wahrscheinlichkeit. Berlin: Springer. I A
183
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 1 8 3 - 1 8 9
Wissenschaftliche Erkenntnis und die Funktion der Inferenzstatistik. Anmerkungen zu E. LEISER G E R D GIGERENZER Universität Konstanz
Die Funktion von Inferenzstatistik ist notorisch unklar und u m s t r i t t e n . ECKART LEISERS ( 1 9 8 6 ) T h e s e , d a ß I n f e r e n z s t a t i -
stik nur « H i l f s f u n k t i o n » bei wissenschaftlichen Untersuchungen hätte, wird unter zwei Gesichtspunkten diskutiert, (a) der historischen Perspektive und (b) meiner These einer Interaktion von M e t h o d e einerseits und Theorie und Forschungspraxis andererseits. Die historische Analyse legt nahe, daß die in Frage stehende Funktion über diejenige eines beschränkten Hilfsmittels zur Inferenz hinausgeht. Meine theoretische Position schließlich impliziert, daß eine bloße « H i l f s f u n k t i o n » grundsätzlich unmöglich ist, da jede Methode - wie auch die in der Psychologie institutionalisierte Inferenzstatistik - stets Rückwirkungen auf die Forschungspraxis hat.
Kontroversen und Probleme R I C H A R D V O N MISES, Hauptvertreter der Interpretation von Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit, bezeichnete SIR R.A. FISHERS «small-sample theory» als «the erroneous practice of drawing statistical conclusions from short sequences of observations». Zu FISHERS Gebrauch des «likelihood »-Konzepts bemerkte er schlicht: «I do not understand the many beautiful words used by Fisher and his followers in support of the likelihood theory» (v. M I S E S , 1 9 5 7 , VII, p. 1 5 8 ) . F I S H E R selbst eröffnete die Diskussion über einen Vortrag von J E R Z Y N E Y M A N vor der Royal Statistical Society mit der sarkastischen Bemerkung, daß N E Y M A N besser über ein Thema hätte sprechen sollen, von dem er etwas verstünde ( N E Y M A N , 1 9 6 7 , p . 1 9 3 ) . N E Y M A N schließlich behauptete, daß FISHERS Testmethoden in einem mathematisch präzisierbaren Sinn «schlechter als nutzlos» seien (STEGMÜLLER, 1 9 7 3 , p.2).
Solche Beispiele für Dissonanzen zwischen rivalisierenden statistischen Theorien ließen sich fortsetzen. Philosophen wie W O L F G A N G S T E G MÜLLER bekennen, daß es gerade diese «heimatli-
The function o f inferential statistics in psychology is a notoriously controversial issue. ECKART LEISER (1986) claims that it has only an auxiliary function. His thesis is discussed with respect to (a) the historical perspective, and (b) my thesis o f an interaction between m e t h o d on the one hand and theory and research practice on the other. Both perspectives contradict the assumption o f a merely auxiliary function.
chen Klänge» waren, welche ihre Faszination für die Statistik auslösten. E C K A R T L E I S E R (pp. 1 4 6 - 1 5 9 , dieses Heft) nun aber berichtet, er habe jetzt mit Überraschung solche «Ungereimtheiten» festgestellt - dies überrascht nun mich. Allerdings, in den Lehrbüchern der Statistik für Psychologen und Sozialwissenschaftler erfährt man in der Tat kaum etwas von der Existenz antagonistischer Positionen und damit vom Inhalt der Kontroversen.
Probleme in und mit statistischen Theorien L E I S E R führt in seinem Beitrag einige dieser Probleme an und fährt mit der Behauptung fort, daß StatistiknurHilfsfunktionbei wissenschaftlichen Untersuchungen haben könne. Diese «nur-Hilfsfunktions »-These wird dann in den «Glücksspiel »Thesen ausgeführt. Danach wäre das Glücksspiel der einzige Gegenstand, auf den sich statistische und wahrscheinlichkeitstheoretische Konzepte adäquat anwenden Hessen. Dennoch unternimmt L E I S E R im letzten Teil den Versuch, das Konzept der «Sicherheit eines induktiven Schlusses» mittels der BAYESschen Theorie zu formalisieren.
184
Gigerenzer: Wissenschaftliche Erkenntnis und die Funktion der Inferenzstatistik
Wie LEISER aber diesen letzten, konstruktiven Teil mit der vorangegangenen Kritik in Einklang bringt, bleibt mir unklar. Eben noch kritisierte er die BAYESsche Theorie wegen der Unsicherheit in der Bestimmung der a-priori-Wahrscheinlichkeiten, und jetzt formalisiert er sein «Sicherheits»Konzept mittels derselben Theorie. Natürlich kann er dabei die a-priori-Wahrscheinlichkeiten wiederum nicht bestimmen. Der Kreislauf scheint mir hier geschlossen, die bekannten Probleme bleiben bestehen. Daneben tauchen weitere Unklarheiten auf: Beispielsweise verwendet er zur Formalisierung die Größen a und ß, ohne daß zugleich die Alternativhypothese eine Punkthypothese ist. Damit ist - wie beim FiSHERschen Nullhypothesentesten - ß aber nicht bestimmbar. Interessanter als derartige Einzelheiten finde ich die grundsätzlichen Punkte, die LEISER angesprochen hat. Das Wertvolle an LEISERS Beitrag liegt darin, diese zum Thema zu machen. Dies soll betont werden, insbesondere da meine Stellungnahme zu diesen Punkten wesentlich von LEISERS Thesen abweichen wird. Als erstes erscheint es mir notwendig, jene Probleme, die LEISER als «Ungereimtheiten» bezeichnet, nach zwei Klassen zu unterscheiden: (1) Probleme in statistischen Theorien, d.h. Probleme welche unabhängig von einer Anwendung auf die Psychologie auftreten, und (2) Probleme mit statistischen Theorien, d.h. Probleme welche mit deren Anwendung auf die Psychologie verknüpft sind. Beispielsweise betrifft LEISERS Diskussion der a-priori-Wahrscheinlichkeiten im BAYESschen Ansatz sowie des fiduzialen Schließens in FISHERS Ansatz Probleme der ersten Art. Der Stand der Diskussion hierzu ist gut dokumentiert (z.B. H A C K I N G , 1 9 6 5 ; STEGMÜLLER, 1 9 7 3 ) , eine Einigung ist bislang ausgeblieben. Im folgenden kommentiere ich allein Probleme mit statistischen Theorien sowie LEISERS «nur-Hilfsfunktions»-These und zeige, wie diese beiden grundsätzlichen Punkte zusammenhängen.
Probleme mit statistischen Theorien Ich nehme als Beispiel LEISERS Kritik an der Theorie von N E Y M A N & P E A R S O N , nämlich, daß der Fall zweier Punkthypothesen in der Psychologie «gar nicht vorkommt». Ich verstehe die - an meh-
reren Stellen wiederholte - Kritik so, daß dieser zentrale Aspekt in N E Y M A N & P E A R S O N S Theorie der Natur der psychologischen Forschungspraxis und des psychologischen Gegenstands nicht entspricht. LEISER begreift den Gegenstand der Psychologie so, als ob dieser ein für allemal gegeben sei, unabhängig von den historisch getroffenen Wahlen, bestimmte Methoden und nicht andere zu verwenden. Deswegen kann LEISER schreiben, daß der Fall zweier Punkthypothesen in der Praxis nicht vorkomme. Historisches Studium zeigt dagegen, daß sich die Fragestellungen als Reaktion auf die neue statistische Theorie selbst verändert haben ( A C R E E , 1 9 7 8 ; G I G E R E N Z E R , in press). Meine Gegenthese zu LEISER lautet, daß die jeweils institutionalisierte statistische Theorie Rückwirkungen auf den Gegenstand hat, sowohl auf die Art der Fragen, welche gestellt werden, als auch auf die Art der Antworten, die gesucht werden. Was besagt meine These für den Fall von NEYPunkthypothesen? Zunächst muß vorausgeschickt werden, daß die seit etwa Ende des Zweiten Weltkriegs in der Psychologie institutionalisierte statistische Theorie eine Mischung der Ideen von R. A. FISHER einerseits und N E Y M A N & P E A R S O N andererseits ist (obgleich beide, wie eingangs angesprochen, inhaltlich kontroverse Positionen hatten). Die Idee, wie man Hypothesen testet, wurde von FISHER übernommen, nicht aber von N E Y M A N & P E A R S O N . Jene «Inferenzstatistik», die seit S N E D E C O R ( 1 9 3 7 ) in der Psychologie gelehrt wird, sieht das Aufstellen und Testen einer Nullhypothese (eine Punkthypothese) gegen den Rest des Hypothesenraums vor - eine Vorgehensweise, der N E Y M A N & P E A R S O N nie zugestimmt haben. Meine These besagt, daß die mangelnde Symmetrie (keine zwei Punkthypothesen) in der psychologischen Forschung eine Funktion der institutionalisierten statistischen Theorie ist und nicht einfach in der Natur des Gegenstandes und damit der psychologischen Forschung liegt. MAN & P E A R S O N S
Entgegen LEISERS Meinung gibt es diese Fälle, in denen symmetrische Punkthypothesen konstruiert werden; sie werden nur meist asymmetrisch (im FisHERschen Sinne) getestet. Als Beispiel nenne ich Arbeiten zur Informations-Integrations-Theorie von N . H . A N D E R S O N et al. (z. B . ANDERSON & CUNEO, 1 9 7 8 ; WILKENING,
1979),
wo u.a. entschieden werden soll, ob Kinder die
185
Zeitschrift für S o z i a l p s y c h o l o g i e 1 9 8 6 , 1 7 , 1 8 3 - 1 8 9
Höhe und Breite von Rechtecken multiplikativ oder aber additiv zum Flächenurteil verknüpfen. Hier liegen zwei Punkthypothesen vor, und man könnte - unter Annahmen über die psychophysikalische Funktion, usw. - zwei entsprechende Verteilungen von Flächenurteilen mit den Mittelwerten (IJ, und \i 2 spezifizieren und N E Y M A N & P E A R S O N S Entscheidungstheorie anwenden. A N D E R S O N aber testet seine Punkthypothesen sensu F I S H E R ; er setzt die favorisierte Hypothese einer additiven Verknüpfung als Nullhypothese ein (keine Interaktion zwischen Höhe und Breite) und betrachtet Nichtsignifikanz als Widerlegung der Hypothese einer multiplikativen Verknüpfung (zu den Problemen, die durch diese Asymmetrie entstehen siehe G I G E R E N Z E R , 1983a, 1983b). Ich fasse zusammen: (1) Die Praxis ist selbst beeinflußt durch die in der Psychologie institutionalisierte statistische Theorie, welche das Konzept von Punktalternativen nicht kennt und die uns nahelegt, wie FISHER über Hypothesen zu denken. LEISER dagegen betrachtet den psychologischen Gegenstand und die Forschungspraxis als unabhängig von der statistischen Methode und fragt danach, ob letztere paßt oder nicht. (2) Entgegen LEISERS Behauptung läßt sich für das Beispiel der Punkthypothesen zeigen, daß in der psychologischen Forschung auch Punktalternativen konstruiert werden. Sie sind als solche allerdings nicht leicht erkennbar, da sie im Nullhypothesen-Schema getestet werden.
Statistik: welche Funktion? Die Institutionalisierung einer bestimmten statistischen Theorie hat also Rückwirkungen auf die Art unserer Fragen und Antworten. LEISER allerdings betont wiederholt, daß Statistik nur Hilfsfunktion bei wissenschaftlichen Untersuchungen hätte. Was meint er damit? Hier ist meine Deutung: Die Natur der statistischen Theorie steht in perfekter Übereinstimmung mit der Natur der Glücksspiele, aber nicht mit Gegenständen der Psychologie, wo «Verfremdungen und Verkürzungen» unvermeidlich sind. Dennoch können «einige relevante Aspekte der Fragestellung übrigbleiben». Die ganze Funktion der Statistik liegt nun darin, diese, bei aller Deformation, abzubilden. Inferenzstatistik spielt damit günsti-
genfalls die Rolle des Kurzsichtigen, der trotz starker Brillengläser die Welt nur in vagen Umrissen sehen kann. Eine solche radikale Einengung des Anwendungsbereichs auf das Glücksspiel ist nicht neu, beispielsweise hat dies V E N N (1888) für seine Definition der Wahrscheinlichkeit beansprucht. Insoweit LEISER mit dieser Kritik die in der Psychologie verbreitete Überschätzung der Wichtigkeit von Inferenzstatistik für die wissenschaftliche Erkenntnis und die damit verbundene mechanische Anwendung auf jegliche Fragestellung meint, kann ich ihm nur zustimmen. Darüberhinaus jedoch scheint mir seine «nur-Hilfsfunktions»-These wesentliche historische und theoretische Gesichtspunkte außer Acht zu lassen. Diese führen zu einer unterschiedlichen Analyse der Funktion von Inferenzstatistik: (1) Die historische Perspektive: Warum haben wir jene Art von Statistik, die wir betreiben? Meine These besagt, daß Psychologen die Wahl hatten zwischen alternativen statistischen Theorien und die Wahl aus bestimmten Gründen getroffen wurden. (2) Die theoretische Perspektive: Nach LEISER repräsentieren die statistischen «Brillengläser» die Welt zwar nur schlecht, sie ändern die Welt und die Fragen, die man an sie stellt aber nicht. Ich dagegen gehe davon aus, daß Methoden grundsätzlich eine Rückwirkung auf unsere Erkenntnis haben.
Die historische Perspektive: Mechanisierung von Inferenz Psychologie und Statistik waren von Anfang an miteinander verbunden, in G U S T A V T. F E C H N E R S Kollektivmaßlehre genauso wie in der Biometrie und Psychometrie von SIR F R A N C I S G A L T O N und K A R L P E A R S O N . Bis zu den 30er Jahren unseres Jahrhunderts war Statistik jedoch eine Theorie der großen Stichproben, und ihre Funktion war im wesentlichen deskriptiv. Noch 1920 bezeichnete beispielsweise E D W I N B O R I N G eine Stichprobe von über 300 als «very small» ( B O R I N G , 1920, p.24). Die Psychologie erhielt ihre «small-sample»-Statistik durch F I S H E R . Jedoch waren dazu «Übersetzer» notwendig, da dem Anwender FISHERS Mathematik zu schwer und seine Inhalte (Düngung, Gewicht von Schweinen, usw.) zu fremd waren. Die FisHERsche Theorie kam im wesentlichen
186
Gigerenzer: Wissenschaftliche Erkenntnis und die Funktion der Inferenzstatistik
durch S N E D E C O R ( 1 9 3 7 ) in die Psychologie, womit ein Siegeszug einsetzte, den wenige Jahre später M A U R I C E K E N D A L L ( 1 9 4 2 , p . 6 9 ) nur mit denjenigen von «Attila, Mohammed, and the Colorado beetle» vergleichbar ansah. Insbesondere nach dem Zweiten Weltkrieg wurde allerdings auch die Theorie von J E R Z Y N E Y M A N & E G O N P E A R S O N bekannt. Wie eingangs angesprochen, befanden sich jedoch N E Y M A N & P E A R S O N in einer scharfen Kontroverse mit F I S H E R , die bis zu dessen Tod im Jahre 1 9 6 2 anhielt und ungelöst bliebt. N E Y M A N & P E A R S O N lehnten so grundsätzliche Aspekte in F I S H E R S Ansatz wie das Testen von Nullhypothesen ab, und F I S H E R lehnte so grundsätzliche Aspekte in N E Y M A N & PEARSONS Theorie wie die Bestimmung des Fehlers 2.Art (ß-Fehler) ab. Einige wenige Autoren präsentierten nun beide Theorien ( z . B . A N D E R S O N & BANCROFT, 1 9 5 2 ) , allerdings ohne die kontroversen Fragen in den Vordergrund zu stellen. Die Masse der «Übersetzer» von F I S H E R und N E Y M A N & P E A R S O N jedoch machte aus den antagonistischen Positionen eine einzige, anscheinend unkontroverse «Inferenzstatistik». In die anspruchsvolleren Lehrbücher geht dabei N E Y M A N & P E A R S O N S Theorie, meist anonym, als das «Überich» der psychologischen Forschung ein. Hier wird das Ziehen von Zufallsstichproben aus einer definierten Population betont, es wird gelehrt, das Signifikanzniveau und den Stichprobenumfang so festzulegen, daß die erwünschte Macht (1 - ß) des Tests erreicht wird, und es werden keine Wahrscheinlichkeitsaussagen über den Bestätigungsgrad von Hypothesen oder über Einzelergebnisse erlaubt. Das FiS H E R s c h e «Ego» ( s . z.B. G U I L F O R D S Fundamental Statistics in Psychology andEducation, durch alle Auflagen hindurch) aber bestimmt weitgehend, wie in der realen Forschung vorgegangen wird - wenn auch manchmal mit Schuldgefühlen, die «Regeln» verletzt zu haben. Dort werden kaum Zufallsstichproben gezogen, selten Punktalternativen spezifiziert, um den Fehler 2. Art bestimmbar zu machen, und es werden sogar Aussagen über die Wahrscheinlichkeit getroffen, mit der eine Nullhypothese widerlegt sei. Dieser kurze historische Überblick identifiziert als erstes eine Quelle für Probleme mit statistischen Theorien: der in der Psychologie und in angrenzenden Wissenschaften erfolgte Versuch, aus zwei antagonistischen Positionen eine ein-
zige, anonyme «Inferenzstatistik» herzustellen. Zum zweiten stellt sich die Frage: Wie konnte diese Illusion eines anscheinend unkontroversen «Werkzeugs» entstehen? Die historische Analyse zeigt vier Faktoren auf: (a) die erwähnte Negierung der Kontroversen; (b) die Negierung alternativer Theorien (die B A Y E S s c h e Theorie ist beispielsweise erst in den 70er Jahren in die Lehrbücher aufgenommen worden [HAYS, 1973], in der Praxis als alternative «Inferenzstatistik» jedoch auch heute nicht existent); (c) die anonyme Präsentation der einzelnen Ideen (es bleibt z.B. unerwähnt, daß das Testen von Nullhypothesen FISHERS Idee ist, die Macht eines Tests [1 - ß] dagegen von N E Y M A N & P E A R S O N stammt, woraus verständlich würde, daß letztes im Zusammenhang mit ersterem unbestimmbar bleibt); (d) die Institutionalisierung der anonymen Theorie (s. dazu A C R E E , 1 9 7 8 ; BREDENKAMP, 1 9 7 2 ; GIGERENZER,
in press). Nun ist aber die Negierung von Kontroversen, von Alternativen, die Anonymisierung und Institutionalisierung in der Geschichte der Psychologie ein recht ungewöhnlicher Fall. Wie ist er zu erklären? Meine These besagt, daß eine wesentliche Funktion einer solchermaßen eingeführten und präsentierten Inferenzstatistik darin besteht, das Ideal der Mechanisierung des induktiven Schließens einzulösen ( G I G E R E N Z E R , in press). Für diesen so alten wie faszinierenden Traum steht als prominentes Beispiel R U D O L F C A R N A P S - wie auch L E I B N I T Z ' - Versuch einer «induktiven Logik» ( H A C K I N G , 1971). ( L E I S E R befindet sich also mit seinem Versuch, die Sicherheit eines induktiven Schlusses zu formalisieren, in guter, wenngleich letztlich erfolgloser Gesellschaft.) Dieses Ideal sowie das oft im Hintergrund stehende Ideal des «objektiven» Wissens - im Sinne von Wissen als unabhängig von der erkennenden Person - ist nicht N E Y M A N & PEARSONS (1967) Traum und nicht der meinige ( G I G E R E N Z E R , 1981a). Welche andere Wahlen neben unserer «Inferenzstatistik» hätten wir gehabt? Ich weise auf zwei grundsätzliche Alternativen hin (die zugleich Alternativen zu LEISERS «Hilfsfunktion» sind). Zum einen hätten wir der Physik folgen können, die keine Inferenzstatistik für kleine Stichproben kennt. Wahrscheinlichkeitstheorie spielt in der Physik seit der statistischen Mechanik von BOLTZMANN und M A X W E L L eine Rolle ersten Ranges, jedoch für die Theoriebildung und nicht
187
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 1 8 3 - 1 8 9
für eine Mechanisierung der Inferenz. Der Erfolg des Experimentierens wird nicht an Signifikanz gemessen, sondern an jenen Kriterien, die bei uns in den Hintergrund gedrängt worden sind, wie an der Wiederholbarkeit eines Effekts, an der Größe des Effekts, an der Güte der Messung, an der sorgfältigen Planung des Experiments und schließlich auch häufig an der Frage, wer das Experiment durchgeführt hat. Zum zweiten hätten wir N E Y M A N & PEARSONS (z.B. 1967, p.204) immer wieder vorgetragene Auffassung wählen können, daß es sich bei jeder Inferenzstatistik um eine Entscheidungstheorie Elemenhandelt, welche neben mathematischen ten immer zugleich subjektive Elemente enthält. Beispiele für solche subjektive Elemente sind die Bewertung der Gültigkeit der statistischen Oberhypothesen, relevantes a-priori-Wissen über Hypothesen, welches nicht numerisch als a-prioriWahrscheinlichkeiten ausgedrückt werden kann, und die Entscheidung über die Fehlerrisiken 1. und 2.Art. Dies hätte folgende Konsequenzen: (a) Man würde nicht - wie in der Physik - auf jegliche Inferenzstatistik verzichten, würde diese aber nur anwenden, wenn eine praktische ja/ nein-Entscheidung unter Abwägung von Risiken tatsächlich anfällt und aus Kostengründen keine weitere Daten erhoben werden können. In Untersuchungen, wo ein solch praktischer Entscheidungszwang aber nicht gegeben ist - wie meist in der Grundlagenforschung - , wäre es dagegen informativer, die Wahrscheinlichkeiten des Ergebnisses unter verschiedenen Hypothesen (sowie Effektgrößen usw.) anzugeben, statt einen j a / nein-Eilentscheid für oder gegen die Nullhypothese zu verhängen, (b) Eine Mechanisierung von Inferenz durch Institutionalisierung einer einzigen Theorie würde sich als unbefriedigend erweisen, da der Experimentator über die subjektiven Elemente in jedem Einzelfall kompetent entscheiden muß. Dies aber erfordert fundiertes Wissen über verschiedene alternative Theorien, über ihre Voraussetzungen und Möglichkeiten anstelle einer mechanischen Anwendung einer einzigen Theorie: «The process o f reasoning, however, is necessarily an individual matter, and we do not claim that the method which has been most helpful to ourselves will be o f greatest assistance to others. It would seem t o be a case where each individual must reason out for himself his o w n p h i l o s o p h y » (NEYMAN & PEARSON, 1967, p . 5 6 ) .
Je weiter man aber von der Physik zu den sog. «weichen» empirischen Wissenschaften geht, desto mehr scheint das Bedürfnis nach einer einzigen Inferenzstatistik - und einer in diesem Sinne «objektiven» Methode der wissenschaftlichen Erkenntnis - anzusteigen (vgl. K R Ü G E R , G I G E RENZER, & M O R G A N , in press).
Die theoretische Perspektive: Methode als neutrale Werkzeuge? Ich habe, insbesondere für Meßmethoden in der Psychologie, argumentiert, daß diese nicht «neutrale Werkzeuge» zur Abbildung eines Gegenstandes seien, sondern eine «modellbildende Funktion» haben. Letzteres bedeutet, daß die Anwendung einer Methode auf einen psychologischen Gegenstand eine theoretische Rückwirkung auf den Gegenstand hat, sie gestaltet den Gegenstand selbst mit. Methoden sind nicht neutral, sie haben mehr als nur Hilfsfunktion bei der Erkenntnissuche. Dies gilt nun nicht nur für Methoden, welche psychologische Phänomene in Zahlen transformieren (Meßmethoden), sondern ebenfalls für Methoden, welche bereits erzeugte Zahlen in neue Zahlen transformieren (deskriptive und schließende Statistik). Für deskriptive Statistiken habe ich dies demonstriert (z.B. G I G E R E N Z E R , 1978,1981b). Für Inferenzstatistik gebe ich beispielhaft vier Thesen für Rückwirkungen auf die Forschungspraxis, welche bei A C R E E ( 1 9 7 8 ) , B R E D E N K A M P ( 1 9 7 2 ) , D A N Z I G E R (in press), G I G E R E N Z E R (in press) und LOVIE ( 1 9 7 9 ) eingehend diskutiert und belegt werden. (1) Die Einführung der Inferenzstatistik ging mit einer Schwerpunktverlagerung von theoriegeleiteter zu eher induktiver Forschung einher. Man tendiert dazu abzuwarten, welche von der Fülle getesteter Haupteffekte, Interaktionen oder Korrelationen signifikant werden und posthoc Erklärungen zu finden. Interessant hierzu ist, daß große, experimentell arbeitende Theoretiker wie J E A N P I A G E T nie auch nur einen /-Test durchführten und sich zum Teil - von SIR FREDERIC BARTLETT bis zu B . F. S K I N N E R - explizit gegen Inferenzstatistik ausgesprochen haben. (2) Die Einführung der Inferenzstatistik ging mit einer Schwerpunktverlagerung von der Methodik vor der Datenerhebung auf jene nach der
188
Gigerenzer: Wissenschaftliche Erkenntnis und die Funktion der Inferenzstatistik
Datenerhebung einher. Vor Einführung der «small-sample»-Statistik wurde das Inferenzproblem als relativ unwichtig angesehen - die Bedeutung kam erst mit der Formalisierung. Nach der Einführung wurde der Forscher weniger für ein sorgfältig angelegtes experimentelles Design verstärkt als für den Exorzismus von Nullhypothesen. (3) Kumulative Forschung und Replikationen. Die im Signifikanztest gesuchte ja/neinAntwort und die verbreitete falsche Interpretation von «signifikant» als «replizierbar» verführt dazu, Experimente eher nicht zu wiederholen. Die BAYESsche Theorie dagegen würde beispielsweise die Interpretation von Forschung als einen kumulativen Prozeß ständiger Revision ein und derselben Hypothesen im Licht neuer Ergebnisse nahelegen. Eine Ursache der mancherorts beklagten Fülle unverbundener Einzelergebnisse könnte somit darin liegen, daß nach isolierten ja/ nein-Antworten (für kleine Stichproben aus Undefinierten Populationen) statt nach kumulativer Veränderung von Wahrscheinlichkeiten gesucht wird. (4) Gleiche Fehlerquellen wie beim Laien? FIZentrierung auf das Einzelexperiment und seine Negierung der a-priori-Wahrscheinlichkeiten (im Gegensatz zu N E Y M A N & P E A R S O N und BAYES) steht in interessanter Parallele mit den typischen «Fehlern» im induktiven Denken bei Laien: z.B. mit dem Glauben an das «lawof small numbers» und der Negierung von «Basisraten». Tatsächlich findet man auch bei professionellen Psychologen genau dieselben Fehler (TVERSKY & K A H N E M A N , 1 9 7 1 ) . Wenn derartige Übereinstimmungen existieren, so drängt sich aber die Frage auf, ob solch induktives Denken zu gerade dieser Theorie neigt, und umgekehrt, ob diese institutionalisierte Theorie solch intuitives Denken aufrechterhält. Eine Symbiose? SHERS
Wenn wir aus der Geschichte der Psychologie etwas lernen können, dann zu allererst, daß die Funktion von Methoden mehr ist als nur eine Hilfsfunktion. Dies gilt auch für die Inferenzstatistik. Die Lösung liegt nicht darin, Inferenzstatistik einfach aufzugeben, denn wir benötigen immer irgendwelche Methoden, um Erkenntnis zu gewinnen. Die Lösung liegt darin, die Rückwirkungen von Methoden zu untersuchen, unser Bewußtsein von ihnen zu wecken und auf dieser Basis zwischen Methoden zu wählen.
Literatur ACREE, M . C . 1978. Theories of statistical inference in psychological research: A historico-critical study. Dissertation (University Microfilms International) Ann Arbor, Michigan. ANDERSON, R . L . & BANCROFT, T . A . 1952. Statistical t h e o r y in
research. New York: McGraw-Hill. ANDERSON, N . H . &CUNEO, D . O . 1978. T h e h e i g h t + w i d t h
rule in children's judgments of quantity. Journal of Experimental Psychology: General, 107, 335-378. BORING, E . G . 1920. The logic of the normal law of error in mental measurement. American Journal of Psychology, 31,1-33.
BREDENKAMP, J. 1972. Der Signifikanztest in der psychologischen Forschung. F r a n k f u r t : Akademische Verlagsgesellschaft. DANZIGER, K. in press. Statistical method and the historical development of research practice in American psychology. In: Krüger, L., Gigerenzer, G. & Morgan, M . S . (Eds.): The probabilistic revolution, Vol.11. Ideas in the sciences. Cambridge, MA: M . I . T . Press. GIGERENZER, G. 1978. Artefakte in der dimensionsanalytischen Erfassung von Urteilsstrukturen. Zeitschrift für Sozialpsychologie, 9,110-116. GIGERENZER, G. 1981. Messung und Modellbildung in der Psychologie. München: Reinhardt (a). GIGERENZER, G. 1981. Analyse einer Analyse des Urteilsprozesses bei der Personenbeschreibung. Zeitschrift für Soziologie, 10,192-195 (b). GIGERENZER, G. 1983. Über die Anwendung der Informations-Integrations-Theorie auf entwicklungspsychologische Problemstellungen: Eine Kritik. Zeitschrift f ü r Entwicklungspsychologie und Pädagogische Psychologie, 15, 101- 120 (a). GIGERENZER, G. 1983. Informationsintegration bei Kindern: Eine Erwiderung auf Wilkening. Zeitschrift f ü r Entwicklungspsychologie und Pädagogische Psychologie, 15,216221 (b). GIGERENZER, G. in press. Probabilistic thinking and the fight against subjectivity. In: Krüger, L., Gigerenzer, G . & M o r gan, M . S . (Eds.): The probabilistic revolution, Vol.11, Ideas in the sciences. Cambridge, MA: M.I.T. Press. HACKING, 1.1965. Logic of statistical inference. Cambridge, M A : Cambridge University Press. HACKING, 1.1971 w The Leibnitz-Carnap program for inductive logic. The Journal of Philosophy, 68, 597-610. HAYS, W.L. 1973. Statistics for the social sciences (2nd ed.). New York: Holt, Rinehart & Winston. KENDALL, M . G . 1942. On the future of statistics. Journal of the Royal Statistical Society, 105, 69-80. K R Ü G E R , L . , GIGERENZER, G . & M O R G A N , M . S . ( E d s . ) i n
press. The probabilistic revolution, Vol.11, Ideas in the sciences. Cambridge, MA: M.I.T. Press. LEISER, E. 1986. Statistisches Schließen und wissenschaftliche Erkenntnis. Gesichtspunkte f ü r eine Kritik und Neubestimmung. Zeitschrift f ü r Sozialpsychologie, 17,146-159. LOVIE, A . D . 1979. The analysis of variance in experimental psychology: 1934-1945. British Journal of Mathematical and Statistical Psychology, 32,151-178. MISES, R. V. 1957. Probability, statistics and truth. New York: Dover.
Zeitschrift für Sozialpsychologie 1986,17,183-189 NEYMAN, J. 1967. A selection of early statistical papers of J. Neyman. Cambridge, MA: Cambridge University Press. NEYMAN, J. & PEARSON, E. 1967. Joint statistical papers. Cambridge, MA: Cambridge University Press. SNEDECOR, G.W. 1937. Statistical methods. Ames, 1A: Iowa State College Press. STEGMÜLLER, W. 1973. (Jenseits von Popper und Carnap): Die logischen Grundlagen des statistischen Schließens. Studienausgabe Teil D. Berlin: Springer.
189 TVERSKY, A.&KAHNEMAN, D . 1971. Belief in t h e law o f s m a l l
numbers. Psychological Bulletin, 76, 105-110. VENN, J. 1888. The logic of chance (3rd ed.). London: Macmillan. WILKENING, F. 1979. Combining of stimulus dimensions in children's and adult's judgments of area: ^ ^ H An information-integration analysis. Developmental Psychology, 15, 25-33. I A
Krauth: Die Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie
190
Zur Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie: Ein Kommentar zu LEISER JOACHIM KRAUTH Universität Düsseldorf
Nach Hinweisen auf mögliche Ursachen für das oft geringe Niveau von Beiträgen zur statistischen Methodologie in der Psychologie und auf Schwierigkeiten bei der Interpretation von Ergebnissen statistischer Entscheidungsverfahren in empirischen Untersuchungen wird auf Mängel in der Darstel-
After some hints with respect to the possible causes for the often rather low level of statistical contributions in psychology and with respect to the difficulties of interpreting the results of statistical decision procedures in empirical studies, certain flaws in the presentation of the approaches of NEY-
l u n g d e r A n s ä t z e v o n N E Y M A N & PEARSON, FISHER u n d BAYES
MAN & P E A R S O N ,
durch LEISER hingewiesen. Die von LEISER angegebenen vorgeblichen Weiterentwicklungen der statistischen Entscheidungstheorie sind mangels klar formulierter Grundannahmen schwer nachvollziehbar.
out. The pretended (further) development of statistical decision theory by LEISER is difficult to understand because clear formulations of the fundamental assumptions are missing.
1.
ses hat seine Ursachen in der häufig fehlerhaften methodischen Ausbildung für Psychologen, in den oft fehlerhaften Statistiklehrbüchern für Psychologen, sowie in den vielen fehlerhaften methodischen Artikeln in psychologischen Zeitschriften. Auch der Rückgriff auf die statistische Originalliteratur, der zumindest von einigen wenigen Autoren wohl im Bewußtsein dieser Situation versucht wird, stößt auf gewisse Schwierigkeiten. Bei der Mathematischen Statistik handelt es sich um eine sich schnell weiter entwickelnde, junge Wissenschaft. Daraus ergibt sich, daß viele Definitionen und Ergebnisse heute ganz anders formuliert und interpretiert werden als etwa vor 30 Jahren. Viele Entwicklungen, über die in früheren Jahren heftige Auseinandersetzungen in statistischen Zeitschriften geführt wurden, sind heute entweder in eine einheitliche übergeordnete Theorie integriert oder endgültig als falsch oder nicht weiterführend ad acta gelegt worden. Es erscheint daher nicht gerechtfertigt, anhand von älteren Artikeln und Büchern aus dem Bereich der Mathematischen Statistik Widersprüche konstruieren zu wollen und diese als «Beweis» für grundlegende methodische Mängel der Statistik anzuführen. Es müßte für jeden Autor auf diesem Gebiet obligatorisch sein, sich über die moderne Mathematische Statistik sachkundig zu
Einleitung
In der psychologischen Literatur gibt es eine Vielzahl von Artikeln und Büchern, die sich in kritischer Weise mit der Verwendung statistischer Verfahren in der psychologischen Forschung auseinandersetzen. Dieses betrifft insbesondere die Verwendung statistischer Tests, die immer wieder Autoren dazu veranlaßt hat, methodische Kritik, Klarstellungsversuche und selbst Verbesserungsvorschläge vorzubringen (z.B. MORRISON & H E N K E L , 1 9 7 0 ) . Angesichts der fast obligatorischen Verwendung statistischer Tests in empirischen psychologischen Arbeiten und angesichts des hohen Anteils an falsch verwendeten und falsch interpretierten statistischen Verfahren ist eine solche Methodendiskussion nicht nur verständlich, sondern eigentlich sogar als sehr positiv zu bewerten. Wie aber die Erfahrung zeigt, hat diese ganze oft verwirrende Diskussion bis heute kaum irgendwelche Auswirkungen in Richtung auf eine sachgerechte Verwendung statistischer Verfahren in der psychologischen Forschung gehabt. So bedauerlich dieses Desinteresse der Anwender bezüglich der Wirkungsweise der von ihnen verwendeten Auswertungsverfahren auch sein mag, so muß auf der anderen Seite auch leider betont werden, daß die Kompetenz der Autoren in dieser Diskussion oft sehr fraglich ist. Die-
FISHER a n d BAYES b y LEISER a r e
pointed
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 1 9 0 - 1 9 9
machen, bevor er versucht, Fehler zu entdecken oder gar Verbesserungen anzubieten. Dieses wird dadurch erleichtert, daß heute auch in deutscher Sprache moderne Lehrbücher zur Statistik vorliegen, wie z . B . die Bücher von WITTING ( 1 9 6 6 ) oder von EBERL & MOESCHLIN ( 1 9 8 2 ) . Insbesondere das letztere Buch enthält eine ausführliche Darstellung der BAYESschen Entscheidungstheorie. Allerdings setzt das Studium derartiger Bücher notwendig entsprechende Kenntnisse der modernen Maß- und Wahrscheinlichkeitstheorie voraus, wie sie z . B . in dem Buch von B A U E R ( 1 9 7 4 ) vermittelt werden. Im folgenden soll zunächst auf Probleme bei der Anwendung statistischer Verfahren auf empirisch gewonnene Daten eingegangen werden. Hierbei beschränke ich mich bewußt auf die Darstellung derjenigen «naiven» Wissenschaftsposition, die tatsächlich der Entwicklung der üblicherweise verwendeten statistischen Verfahren zugrunde liegt. Ich verzichte darauf, diese Position mit einer der üblichen wissenschaftstheoretischen Etiketten zu belegen, um Mißverständnissen aus dem Wege zu gehen, die ich durch eine explizite Darstellung dieser Position zu vermeiden h o f f e . Anschließend wird auf einige Schwierigkeiten verwiesen, die sich aus diesem Ansatz ergeben. Meine Kritik an LEISERS Ausführungen (pp. dieses Heft) bezieht sich erstens darauf, daß in LEISERS Beitrag, meiner Meinung nach, an vielen Stellen zunächst die üblichen statistischen Modelle nicht richtig dargestellt und dann auf dieser Basis zu Unrecht kritisiert werden. Zweitens erscheint mir LEISERS Versuch, auf seiner zumindest implizit formulierten wissenschaftstheoretischen Grundlage zu einer neuen «Statistik» zu gelangen, schlecht begründet und damit schwer nachvollziehbar. 146-159,
2. Zur prinzipiellen Möglichkeit des Einsatzes statistischer Entscheidungsverfahren in der Psychologie Man sollte strikt unterscheiden zwischen statistischen Verfahren, wie sie in der Mathematischen Statistik entwickelt werden, und der Anwendung solcher Verfahren und der Interpretation ihrer Ergebnisse bei empirischen Daten. Jedes statistische Entscheidungsverfahren wird entwickelt auf
191 der Grundlage zweier mathematischer Theorien: der Wahrscheinlichkeitstheorie und der Entscheidungstheorie. Dieses trifft in erheblichem Maße auch auf die beschreibende Statistik zu, wie z.B. die Arbeiten von BICKEL & L E H M A N N (1975a, 1975b) zeigen. Dieses ist nicht verwunderlich, denn eine sinnvolle Datenreduktion, wie sie von der beschreibenden Statistik angestrebt wird, ist nur durch entsprechende Modellvorstellungen begründbar. Aufgrund ihrer Herleitung und Begründung sind statistische Entscheidungsverfahren mathematische Regeln mit bestimmten Eigenschaften innerhalb eines mathematischen Modells. Eine Interpretation der Ergebnisse eines solchen Entscheidungsverfahrens, das man auf empirische Daten angewandt hat, beruht auf zwei wesentlichen Voraussetzungen: (1) Man m u ß bereit sein, die Grundannahmen (Axiome) und Begriffsbildungen des mathematischen Modells so zu akzeptieren, wie sie im Modell formuliert sind. Es ist also z.B. nicht zulässig, mathematische Begriffe wie «Wahrscheinlichkeit», «subjektive Wahrscheinlichkeit», «Zufallsvariable», oder «Signifikanz» mit irgendwelchen subjektiven Vorstellungen gleichzusetzen und darauf Interpretationen zu begründen. (2) Jedes statistische Entscheidungsverfahren erlaubt Schlußfolgerungen nur dann, wenn gewisse Modellannahmen erfüllt sind. Wenn eine oder mehrere dieser Annahmen nicht erfüllt sind, so sind im Prinzip keine Schlüsse möglich. Teilweise sind solche Modellannahmen, wie z.B. die Annahmen normalverteilter Zufallsvariablen oder gleicher Varianzen, für empirische Ergebnisse kaum begründbar, und man kann Schlüsse nur unter der Bedingung der fraglichen Gültigkeit dieser Annahmen formulieren. Das häufig empfohlene «Abtesten der Voraussetzungen» ist entscheidungstheoretisch unsinnig, da es prinzipiell unmöglich ist, eine Entscheidung für das Vorliegen einer solchen Voraussetzung mit einer annehmbaren «Sicherheit» zu treffen. Die sogenannten nichtparametrischen Verfahren verzichten auf derartige schwer begründbare Voraussetzungen. Jedoch ist auch hier die Interpretation von Ergebnissen der Entscheidungsprozeduren an gewisse Annahmen geknüpft. Dieses werde am Beispiel eines Therapie-Kontrollgruppen-Versuchsplans erläutert. Zwei
192
Krauth: Die Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie
Grundvoraussetzungen sind, daß man die Meßwerte als Realisierungen unabhängiger Zufallsvariablen ansehen darf, die für den Fall, d a ß die Behandlung keine Wirkung hat, alle dieselbe Wahrscheinlichkeitsverteilung haben. Man kann versuchen, beide Voraussetzungen durch eine geeignete Versuchsplanung in einer ausreichend guten Näherung zu erfüllen. Die Forderung der Unabhängigkeit kann dann als erfüllt gelten, wenn jede (direkte oder indirekte) Art von Informationsvermittlung oder Beeinflussung von Patienten (aus Kontroll- und Therapie-Gruppe) untereinander ausgeschlossen ist. Man erkennt, daß eine solche Isolation der Patienten, die ja auch eine indirekte Informationsübertragung durch den Versuchsleiter ausschließt (Doppelblindversuch), nicht immer leicht ist. Die zweite Forderung identischer Wahrscheinlichkeitsverteilungen läßt sich durch eine zufällige Zuordnung der Patienten zu den beiden Bedingungen Therapie und Kontrolle künstlich erzeugen (Randomisierung). Hier könnte man natürlich fragen, inwieweit die zur Verfügung stehenden empirischen Randomisierungsmechanismen (Zufallszahlen, Urnen, Würfel, Münzen) in der Lage sind, die im Modell geforderte diskrete Gleichverteilung zu simulieren. Jedoch wird man hier zumindest prinzipiell wohl kaum große Modellverletzungen erwarten. Problematischer ist die Interpretation des Ergebnisses eines nichtparametrischen Tests bei einer wie auch immer definierten einseitigen Fragestellung, da in jedem Fall eine Interpretation nur dann möglich ist, wenn man nur ganz bestimmte Therapiewirkungen zuläßt; z.B. nur Auswirkungen auf den Median, nicht aber auf andere Parameter der Verteilung wie etwa die Varianz. Falls man aus ethischen oder organisatorischen Gründen die Patienten nicht ausreichend isolieren und/oder nicht nach Zufall den Bedingungen Therapie und Kontrolle zuordnen kann, so ist eine begründete Interpretation der Ergebnisse statistischer Entscheidungsverfahren prinzipiell unmöglich. Jede Interpretation kann dann nur unter der Bedingung erfolgen, daß die Modellannahmen zutreffen, ohne daß man diese Bedingung rechtfertigen könnte. Zusammenfassend kann man also sagen, daß die Interpretation der Ergebnisse statistischer Entscheidungsverfahren in der Psychologie in den meisten Fällen mit erheblich größerer Vor-
sicht erfolgen sollte, als dieses gegenwärtig geschieht. Angesichts der Unkenntnis darüber, in welchem Ausmaß die notwendigen Voraussetzungen für ein solches Verfahren als erfüllt anzusehen sind und wie sich Modellverletzungen auf die Entscheidung auswirken, sollte man immer auch mögliche Alternativerklärungen für die erhaltenen Ergebnisse diskutieren.
3.
Zur Darstellung der Ansätze von NEYMAN & P E A R S O N , FISHER u n d BAYES b e i LEISER
Zunächst ist vorauszuschicken, daß es verwunderlich ist, daß beim Ansatz von N E Y M A N & PEARSON das Testproblem, bei den beiden anderen Ansätzen aber das Schätzproblem in den Vordergrund gestellt wird. Auch wenn gewisse Beziehungen zwischen beiden Arten von statistischen Prozeduren bestehen, so ist ein direkter Vergleich nicht möglich. Es ist deshalb nicht klar, warum der Autor nicht bei allen drei Ansätzen sich für die Darstellung der Testproblematik, der Schätzproblematik oder auch beider Fragestellungen entschieden hat. Auf diese Weise werden Ansätze miteinander verglichen, die so nicht vergleichbar sind.
3.1 Zum Ansatz
von NEYMAN & PEARSON
Der entscheidende Punkt beim Ansatz von NEYist nicht - im Gegensatz zu LEISERS Auffassung - die spezielle Entscheidungssituation, die schon früher diskutiert wurde, z.B. in N E Y M A N & PEARSON ( 1 9 2 8 ) , sondern die Konstruktion optimaler Entscheidungsregeln. Die Konstruktion nicht notwendig optimaler Tests ist demgegenüber ein relativ einfaches Problem. Nur im Zusammenhang mit dem Problem der Optimalität wird auch das besondere Interesse von N E Y M A N & PEARSON an einem Test einer einfachen Hypothese gegen eine einfache Alternative erklärlich. Für diesen Spezialfall lassen sich MAN & PEARSON ( 1 9 3 3 )
mit der G r u n d f o r m des NEYMAN-PEARSON-Lem-
mas optimale Tests konstruieren. Durch eine relativ einfache Beweisführung läßt sich dieses Ergebnis in vielen Fällen auf zusammengesetzte Hypothesen erweitern, was zu den Konzepten eines gleichmäßig besten (UMP) und eines gleichmä-
Zeitschrift für Sozialpsychologie 1986,17,190-199
ßig besten unverfäschten (UMPU) Tests führt. Die Behauptung von LEISER (Argument a), der Ansatz von NEYMAN & PEARSON ( 1 9 3 3 ) sei unbrauchbar für zusammengesetzte Hypothesen, ist also falsch. Es sei daraufhingewiesen, daß insbesondere die Konstruktion optimaler Tests für den Fall zusammengesetzter Hypothesen in NEYMAN & PEARSON ( 1 9 3 3 ) ausgiebig behandelt wird. In Argument b wird dem NEYMAN-PEARSONAnsatz vorgeworfen, daß «das induktive Schließen von besonderen empirischen Daten auf ein dahinterstehendes allgemeines Modell» ausgespart bleibe und daß «die konkurrierenden statistischen Modelle gar nicht miteinander in Beziehung gesetzt, sondern lediglich nebeneinandergestellt» werden. Dieser Vorwurf erscheint nicht berechtigt. Der NEYMAN-PEARSON-Ansatz macht nichts anderes, als eine Entscheidung darüber zu treffen, ob die vorgefundenen Daten mit einem theoretischen Modell, wie es unter der Nullhypothese spezifiziert wird, verträglich sind. Der Nachweis der Gültigkeit eines theoretischen Modells aufgrund von empirischen Ergebnissen ist bekanntlich nicht möglich. Man kann allenfalls die Ungültigkeit eines Modells nachweisen. (Ausgenommen ist hier der Fall, wo bekannt ist, daß die Wahrscheinlichkeit für einen Fehler 2.Art nicht größer als eine vorgegebene kleine Schranke ist.) Der Vorwurf des Nebeneinanderstellens konkurrierender Modelle, anstatt sie miteinander in Beziehung zu setzen, erscheint in bezug auf eine statistische Entscheidungsvorschrift als nicht gerechtfertigt. Modelle können nur auf der Modellebene miteinander verknüpft und verglichen werden. So kann man durchaus verschiedene Null- und Alternativhypothesen miteinander vergleichen, zueinander in Beziehung setzen und miteinander kombinieren. Für sich daraus ergebende Testprobleme kann man versuchen, Tests im Sinne des NEYMAN-PEARSON-Ansatzes zu konstruieren. Dieses ist für die unterschiedlichsten statistischen Fragestellungen geschehen, z.B. in bezug auf unterschiedliche Symmetriehypothesen. In Argument c behauptet LEISER, daß die Randomisierung in statistischen Tests das folgende bedeute: «um zu Wissen über den Gegenstand zu gelangen, ist erst einmal Wissen zu opfern/Blindheit herzustellen». Zu Sinn und Wirkungsweise randomisierter Entscheidungsfunktionen sei demgegenüber folgendes bemerkt: Bei der Kon-
193
struktion optimaler Entscheidungsregeln kann man sich, wenn man will, auf optimale Regeln in der Klasse aller nichtrandomisierten Entscheidungsregeln beschränken. Dann benötigt man offensichtlich keine Randomisierung. Es zeigt sich aber, daß man die Trennschärfe (power) eines Tests in gewissen Situationen dadurch erhöhen kann, daß man sich bei Werten am Rand zwischen Annahme- und Ablehnungsbereich mit einer geeignet gewählten Wahrscheinlichkeit für die Alternativhypothese und mit der Komplementärwahrscheinlichkeit für die Nullhypothese entscheidet. Eine randomisierte Entscheidungsregel ergibt sich also beim N E Y M A N - P E A R S O N - A n satz nur dann, wenn man eine optimale Regel unter allen möglichen Regeln sucht und falls die Teststatistik eine diskrete Verteilung hat. Man «opfert» also beim Randomisieren kein Wissen, sondern hat, zumindest theoretisch, die Möglichkeit, in gewissen Situationen die Wahrscheinlichkeit für eine richtige Entscheidung zu vergrößern.
3.2 Zum
A
nsatz von
FISHER
Der Ansatz von FISHER wird im Gegensatz zu LEIAuffassung keineswegs «gemeinhin als unentwickelte Vorform des N E Y M A N - P E A R S O N Konzepts» betrachtet. Da FISHER ZU keinem Zeitpunkt sein Konzept des fiduzialen Schlusses in mathematisch einwandfreier Weise dargestellt hat, ist naturgemäß sehr schwer herauszufinden, was er wirklich gemeint hat. Dieses trifft auch auf so späte Arbeiten wie FISHER ( 1 9 5 5 ) oder FISHER ( 1 9 5 9 ) zu. Diese Unfähigkeit FISHERS ZU einer klaren Darstellung seiner Prinzipien war dann auch der Grund für die nicht besonders weiterführenden Diskussionen FISHERS mit anderen Statistikern, z . B . mit N E Y M A N , WELCH und BARTLETT ( 1 9 5 6 ) im Journal of the Royal Statistical Society, Series B . FISHER selbst hat immer wieder betont, daß sein Ansatz wesentlich von den Ansätzen von NEYMAN & PEARSON sowie BAYES verschieden sei. Dieses ergibt sich auch aus dem Versuch einer Formalisierung des Fiduzialschlusses, wie er in KENDALL & STUART ( 1 9 6 1 , Kap. 21) vorgenommen wurde. Dort werden Situationen diskutiert, wo FISHERS Ansatz formal scheinbar dieselben Ergebnisse, und andere Situationen, wo er andere Ergebnisse als der NEYSERS
194
Krauth: Die Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie
und der BAYES-Ansatz liefert. Da aufgrund von FISHERS Unfähigkeit, seinen Ansatz in hinreichend klarer Form darzustellen, bis heute nicht geklärt ist, wie z.B. eine Fiduzialverteilung definiert ist, verwundert es nicht, daß dieser Ansatz in der heutigen Statistik nicht mehr ernsthaft betrachtet wird. Allerdings ist das Argument b von LEISER, es seien die « ... ein Beispiel für das Umschlagen eines rationalen Anspruches in Irrationalität», wohl kaum gerechtfertigt, da die Konstruktion von suffizienten Statistiken, von denen FISHER hier auf seine Weise spricht, sehr wohl eine sinnvolle Methode zur Konstruktion möglichst einfacher statistischer Verfahren ist. Es geht hier um eine Datenreduktion bei Vermeidung eines Verlusts an wesentlicher Information. Auch LEISERS Argument c ist schwer nachzuvollziehen. So handelt es sich z. B. bei den FISHERschen Fiduzialintervallen im Gegensatz zu LEISERS Darstellung keineswegs um Konfidenzintervalle, wie FISHER ZU Recht immer wieder betont hat (z.B. FISHER, 1959) und wie sich auch aus KENDALL & STUART (1961) ergibt. MAN-PEARSON-
3.3 Zum BAYES-Ansatz Wie schon oben angesprochen, wird die Verwendung statistischer Entscheidungsverfahren in der Psychologie vor allem dadurch erschwert, daß zu wenige Informationen über die Gültigkeit der Voraussetzungen für diese Verfahren vorliegen. Dieses gilt in besonderem Maße für BAYES-Verfahren, weil hier zusätzlich die Kenntnis einer APriori-Verteilung erforderlich ist. Auch heute noch dürfte dieses das entscheidende Hindernis beim Einsatz von BAYES-Verfahren sein, wenn man die verschiedenen Möglichkeiten, an die APriori-Verteilung zu gelangen, berücksichtigt ( z . B . BERGER, 1980, Kap.3). Auch die empirischen BAYES-Verfahren ( z . B . B E R G E R , 1980, 4.4.5), die Beobachtungen aus der Vergangenheit zur Schätzung einer A-Priori-Verteilung verwenden, sind für psychologische Problemstellungen kaum zu empfehlen. Zum einen gibt es in der Experimentellen Psychologie kaum jemals Daten aus der Vergangenheit, die in der gleichen Weise wie die vorliegenden Daten gewonnen wurden. Zum anderen sind die Stichprobenumfänge meist so klein, daß die empirischen BAYES-Verfahren keine sinnvollen Ergebnisse erwarten lassen.
Im Gegensatz zu der Meinung von LEISER ist der BAYES-Ansatz keineswegs «mehr oder weniger synonym mit dem Konzept der subjektiven Wahrscheinlichkeit». Man benötigt diesen Begriff noch nicht einmal, um den BAYEs-Ansatz zu formulieren, wie z. B. die Darstellung in EBERL & MOESCHLIN (1982) zeigt. LEISERS Argument a zeigt, daß er dem Begriff «subjektive Wahrscheinlichkeit» aus der BAYES-Theorie eine Interpretation unterlegt, die von der in der Mathematischen Statistik üblichen Interpretation abweicht. Dieses zeigen seine Hinweise auf «das Seelenleben individueller Statistik-Anwender» oder auf die «Tiefenpsychologie». Tatsächlich ist mit subjektiver Wahrscheinlichkeit in der BAYESTheorie nicht gemeint, daß ein Anwender sich irgendwelche A-Priori-Verteilungen aufgrund phantasievoller Überlegungen ausdenkt, sondern daß er aufgrund früherer Untersuchungen oder aus meßtechnischen oder anderen real bedingten Gründen konkrete Vorkenntnisse hat, die in die Entscheidungsprozedur eingebracht werden sollten. Zum Beispiel könnte es sein, daß Meßwerte nach Definition nur Werte zwischen 0 und 100 annehmen können. Dann würde man im BAYEs-Ansatz diese Information mit aufnehmen wollen, ohne daß diese etwas mit dem Seelenleben des Anwenders zu tun hätte. Wenn man den Begriff subjektive Wahrscheinlichkeit im Rahmen der statistischen Entscheidungstheorie verwendet, so sollte man klare Definitionen verwenden, wie sie z.B. von LAVALLE (1970, Kap. 16) formuliert werden, womit dann Fehldeutungen dieses Begriffes ausgeschlossen sind. Wie schon erwähnt, ist dieser Begriff für die BAYES-Theorie an sich völlig überflüssig und könnte deshalb auch fallengelassen werden. Zu LEISERS Argument b muß bemerkt werden, daß weder BAYES-Schätzungen noch BAYEsTests im allgemeinen so konstruiert sind, wie es LEISER beschreibt. Man vergleiche dazu etwa die Abschnitte 4.4.2 und 4.4.3 in BERGER (1980) oder Paragraph 4 und 7 in EBERL & MOESCHLIN (1982). Diese Vorgehensweise betrifft nur den sogenannten empirischen BAYEs-Ansatz, auf den oben schon eingegangen wurde und der nur eine von mehreren Möglichkeiten darstellt, mit dem Problem der unbekannten A-Priori-Verteilung fertigzuwerden. LEISERS Argument, daß zwei gleichzeitig bestehende Aussagen - «Aufgrund der empirischen
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 1 9 0 - 1 9 9
Evidenz liegt der Parameter mit Wahrscheinlichkeit P = 0.95 zwischen 80und 9 0 » und «Aufgrund der empirischen Evidenz liegt der Parameter mit Wahrscheinlichkeit P = 0.95 zwischen 60 und 7 0 » - als Wahrscheinlichkeitsaussage keinen Sinn machen und damit «eine objektive Interpretation des BAYESschen Ansatzes als Basis für wissenschaftliches Schließen» zu «widersinnigen Konsequenzen» führt, muß als falsch bezeichnet werden. Die von LEISER formulierten Aussagen können nämlich nur dann auftreten, wenn Konfidenzintervalle, sei es im Sinne von NEYMAN & PEARSON, sei es im BAYEs-Ansatz, falsch interpretiert werden. Wie z . B . in LA-VALLE (1970) in den Abschnitten 2 1 . 2 und 2 1 . 6 sehr klar ausgeführt wird, bezieht sich die Wahrscheinlichkeit P = 0 . 9 5 immer auf den Zeitpunkt vor der Datenerhebung. Nach der Datenerhebung gilt diese Aussage nicht mehr bzw. bei BAYES-Konfidenzintervallen nur noch für den Erwartungswert. LEISERS «widersinnige Konsequenzen» sind also nur eine Folge seiner Fehlinterpretation von Konfidenzintervallen. Damit erübrigt sich auch ein Eingehen a u f LEISERS A r g u m e n t e c und d.
4.
Zu LEISERS Konsequenzen
Die 1.These LEISERS behauptet: «Das Glücksspiel ist der einzige Gegenstand, auf den sich die bis heute entwickelte Begrifflichkeit und Logik des statistischen Schließens sauber und sinnvoll anwenden läßt.» Diese Aussage mag überspitzt sein, hat aber angesichts der oben diskutierten Schwierigkeiten bei der Anwendung statistischer Verfahren in der Psychologie einen gewissen Wahrheitswert. Falls jedoch damit gemeint sein sollte, daß sich statistische Verfahren hauptsächlich auf die Glücksspielsituation beziehen, so ist diese Aussage falsch, da bei Glücksspielen in der Regel nur endliche Grundmengen zugelassen sind im Gegensatz zu den meisten statistischen Entscheidungsverfahren. Eine Einbettung der statistischen Entscheidungstheorie in die allgemeine Mathematische Spieltheorie ist in erheblichem Umfang nicht nur möglich, sondern auch sinnvoll, wie die bekannten Darstellungen von WALD ( 1 9 5 0 ) u n d BLACKWELL & GIRSHICK ( 1 9 5 4 )
zeigen. Sowohl Minimax-Verfahren als auch BAYES-Verfahren kann man als Spiele im allgemeinen Sinn auffassen, bei denen die Entschei-
195
dungsfunktionen die möglichen Strategien des Statistikers und die Verteilungen der Zufallsvariablen die möglichen Strategien des «Gegenspielers», der oft den Namen « N a t u r » erhält, darstellen. Anscheinend meint LEISER mit seiner 1. These aber etwas ganz anderes. Er spricht von «der bis heute vorherrschenden (empirischen > Wahrscheinlichkeitskategorie. Diese baut auf auf dem einer unbegrenzten Serie von Zufallsexperimenten, in der Wahrscheinlichkeiten als relative Häufigkeiten von Ereignisklassen, also als Maße empirischer Mengen, definiert sind». LEISER führt dazu Urnenziehungen an und erklärt, daß dieser Wahrscheinlichkeitsbegriff nicht weiter führt, da man weder die Urne kenne, noch einen «long run» habe. Diese ganze Diskussion und auch LEISERS «Verbesserungsvorschläge» in Richtung auf einen «prozeßorientierten» Wahrscheinlichkeitsbegriff erscheinen unnötig. Die moderne Mathematische Statistik beruht nämlich bekanntermaßen auf dem von KOLMOGOROFF (1933) eingeführten axiomatischen Wahrscheinlichkeitsbegriff. Alle anderen Ansätze, z . B . der von VON MISES (1928), sind im Laufe der Zeit entweder wegen der ihnen eigenen Widersprüche oder wegen der geringen Tragweite der Konzepte aufgegeben worden. Mit solchen Begriffen wie «long run» oder «Urnenmodell» wären viele Ergebnisse der modernen Statistik überhaupt nicht herleitbar. Einführungen in die moderne Wahrscheinlichkeitstheorie findet man z . B . bei LOEVE (1960) oder BAUER (1974). Bei statistischen Tests wird ein Modell formuliert, in das alle möglichen Annahmen eingehen, und eine einschränkende Spezifizierung des Modells, die man als Nullhypothese bezeichnet. Man versucht dann zu entscheiden, ob empirische Ergebnisse gegen die Gültigkeit der Nullhypothese sprechen oder nicht. In seiner 2.These kritisiert LEISER, daß dieses keine für die wissenschaftliche Erkenntnissituation besonders relevanten Ergebnisse liefern könne, da es wichtiger sei, aufgrund der empirischen Ergebnisse eine Entscheidung unter verschiedenen konkurrierenden Modellen zu treffen. Wenn eine solche Situation, wie sie LEISER schildert, wirklich vorliegen sollte, so ist ihm prinzipiell recht zu geben. Für diese Art von Fragestellungen sind statistische Tests nicht konstruiert. Man benötigt dann Mehrentscheidungsverfahren, wie sie z . B . in LEHMANN (1957a, b)
196
Krauth: Die Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie
konstruiert werden. Da sich aufgrund der komplizierteren Entscheidungssituation jetzt nicht mehr nur Fehler 1. Art und 2. Art wie beim Test ergeben können, wird eine angemessene Interpretation der Ergebnisse entsprechend schwieriger. Zu LEISERS 3.These ist zu bemerken, daß auch bei n a c h d e m
NEYMAN-PEARSON-Lemma
kon-
struierten Tests nur folgende Ausgänge möglich sind: Entweder kann die Nullhypothese nicht verworfen werden; dann kann wegen des nichtkontrollierten Fehlers 2. Art keine Interpretation gegeben werden. Oder die Nullhypothese kann verworfen werden; dann ist im allgemeinen nicht bekannt, welche spezielle Alternative aus der Alternativhypothese zu dieser Entscheidung geführt hat. Nur in dem für die Praxis meist irrelevanten Spezialfall einer einfachen oder zusammengesetzten Nullhypothese und einer einfachen Alternativhypothese ist eine Entscheidung für eine spezielle Alternativhypothese möglich. Jedoch wird dieser Fall von NEYMANN & PEARSON nur als theoretisch interessanter Spezialfall bei der Konstruktion optimaler Tests für zusammengesetzte Hypothesen angesehen. Wie schon diskutiert wurde, ist im allgemeinen selbst für den Fall zweier einfacher Hypothesen nur bei Ablehnung der Nullhypothese eine Entscheidung für ein spezielles Modell möglich. Ausnahmen ergeben sich nur, falls bekannt ist, daß die Wahrscheinlichkeit für einen Fehler 2.Art nicht größer als eine vorgegebene kleine Schranke ist. Dieses ist z.B. der Fall bei den maßgeblich von WALD (1947) entwickelten Sequentialtests (vgl. auch z.B. G H O S H , 1970, und GOVINDARAJULU, 1975). Hier ist eine Entscheidung für eines von mehreren zugelassenen Modellen möglich. Dazu werden sequentiell Daten erhoben und auf jeder Stufe Entscheidungen mit vorgegebener Sicherheit getroffen. Man entscheidet sich jeweils für die Annahme einer bestimmten Hypothese bei gleichzeitiger Ablehnung aller anderen Hypothesen, oder man entscheidet sich für die Erhebung weiterer Daten. Im Zusammenhang mit seiner 4. These fragt LEISER nach der Sicherheit für eine richtige Entscheidung bei einem (nichtsequentiellen) statistischen Test im Falle zweier einfacher Hypothesen. In diesem Fall lassen sich die Wahrscheinlichkeiten für eine richtige Entscheidung bei Gültigkeit jeweils einer der beiden Hypothesen bestimmen. Wenn man stetige Verteilungen der Teststatisti-
ken oder randomisierte Tests voraussetzt, ergeben sich mit LEISERS Bezeichnungsweise die Wahrscheinlichkeiten 1 - a und 1 - ß . (Ohne eine solche Voraussetzung erhält man u.U. einen größeren Wert als 1 - a und damit einen kleineren Wert für 1-ß). LEISER bemängelt nun anscheinend, daß man auf diese Weise nicht nur eine sondern zwei Wahrscheinlichkeiten für eine richtige Entscheidung erhält. Auch wenn dieses Argument auf den ersten Blick plausibel erscheinen mag, so sollte man nicht vergessen, daß mit der Festlegung von a auch ß in diesem Fall vollständig bestimmt ist und umgekehrt. Mit einem einzigen dieser beiden Parameter verfügt man also über die ganze Information, die man zur Angabe der Wahrscheinlichkeit für eine richtige Entscheidung (unter H 0 oder H : ) benötigt. Die Frage nach der Wahrscheinlichkeit für eine richtige Entscheidung an sich, unabhängig von der zugrunde liegenden Hypothese, wie sie LEISER dann betrachtet, scheint damit nicht mehr wesentlich zu sein. Bei näherer Betrachtung erweist sich diese Frage als nur dann beantwortbar, wenn man eine APriori-Verteilung im Sinne der BAYES-Theorie über die Parameter, die H 0 und H j entsprechen, annimmt. Einen solchen Ansatz lehnt LEISER an dieser Stelle aber ausdrücklich und auch verständlicherweise ab. Damit ist in LEISERS Schreibweise weder der Ausdruck P (gegeben H 0 ) noch der Ausdruck P(richtig) sinnvoll definiert, und der behauptete Zusammenhang zwischen den beiden Ausdrücken ist nicht erklärt, da die Formel für die totale Wahrscheinlichkeit nur für Wahrscheinlichkeiten herleitbar ist. Ebenso sind LEISERS Maße P(H 0 1 H 0 , EP) und P ^ | H „ EP) für die «induktive Sicherheit» nicht sinnvoll definiert, weil sie wiederum von der nicht definierten Größe P(H 0 ) abhängen. Da P(H 0 ) sicher keine Wahrscheinlichkeit sein soll, sind die behaupteten funktionalen Zusammenhänge nicht einsehbar, da ja auch die BAYESsche Formel nur für Wahrscheinlichkeiten hergeleitet ist. LEISERS Formeln ergeben nur dann einen Sinn, wenn man im BAYESschen Sinne eine A-Priori-Verteilung über H 0 und H j annimmt und zusätzlich P(H 0 1 EP) = P(H 0 ) fordert. Wenn man diese Annahmen nicht macht, sind weder die funktionalen Zusammenhänge erklärt, noch die vorgeschlagenen Maße interpretierbar. In seiner 7.These bemängelt LEISER, daß die Konstruktion optimaler statistischer Tests im
197
Zeitschrift für Sozialpsychologie 1986,17,190-199
Rahmen des NEYMAN-PEARSON-Ansatzes nicht für alle möglichen Testprobleme zu sinnvollen Ergebnissen führt. So haben alle zulässigen statistischen Tests in LEISERS Beispiel H 0 : P < 0 . 7 0 o d e r P > 0 . 7 0 und H I : P = 0.70
eine Trennschärfe (power) von maximal a unabhängig vom Stichprobenumfang. Dieses liegt jedoch nicht am NEYMAN-PEARSON-Ansatz, sondern an der Tatsache, daß man empirisch eine «Theorie» (Hj) zu verifizieren versucht, obwohl sich in jeder noch so kleinen Umgebung von H j unendlich viele «Theorien» befinden, die nicht zu H j gehören. Damit kann keine empirische «Evidenz» jemals groß genug werden, um die Annahme von H 1 mit ausreichender Sicherheit zu rechtfertigen. Aussagen LEISERS wie: «Die NEYMAN-PEARsoN-Logik läßt diese unendliche Menge konditionaler Aussagen im Prinzip unvermittelt nebeneinander stehen», und: «Diese ihre induktive Hilflosigkeit führt im Effekt dazu, daß die NEYMAN-PEARSON-Logik zwar in besseren Lehrbüchern und statistischen vorkommt, in der Praxis aber nach der die Induktionsproblematik ausklammernden von R. A. FISHER verfahren wird» zeigen, daß der Autor anscheinend die Vorgehensweise von NEYMAN & PEARSON mißverstanden hat. Tatsächlich ist es so, daß man bei zusammengesetzten Hypothesen nicht mehr Entscheidungen zwischen einzelnen Parametern sondern zwischen Parametermengen zu treffen wünscht; d.h. daß man sich für die einzelnen Parameter, die vorliegen mögen, auch nicht mehr interessiert. Die Entscheidungsvorschrift wird dabei so gewählt, daß die Wahrscheinlichkeit für einen Fehler l . A r t auch für die extremsten Parameter unter der Nullhypothese noch durch ein vorgegebenes a eingeschränkt wird. Hier liegt also die von LEISER vermißte «Verknüpfung» der verschiedenen Aussagen. Die von ihm angeführte unendliche Menge konditionaler Aussagen gibt es zwar. Sie spielt aber für die Formulierung von Testproblem und Entscheidungsprozedur keine direkte Rolle, weil sich diese allein auf den Vergleich der zusammengesetzten Hypothesen beziehen. Die angeführte Menge von Aussagen wird nur als Hilfsmittel im Beweis der Optimalität und der Zulässigkeit der konstruierten Tests verwen-
det, ohne in der Formulierung der entsprechenden Sätze wieder aufzutreten. LEISERS Ablehnung der Bestimmung von Effektmaßen scheint mir auch schlecht begründet zu sein. Solche Maße haben als Punktschätzungen m . E . oft eine größere Aussagekraft als statistische Tests. Einmal sind sie u.U. von Anwendern leichter anschaulich zu interpretieren. Zum anderen ist die Aussagekraft einer statistischen Entscheidung der Form «H 0 kann abgelehnt werden» bzw. «H 0 kann nicht abgelehnt werden» angesichts des im konkreten Einzelfall schwer zu beurteilenden Einflusses der Größe des Stichprobenumfanges oft fraglich. LEISERS Argument, diese Maße lägen «auf einer rein deskriptiv-statistischen Ebene und damit außerhalb einer auch nur deduktiv begründeten Entscheidungslogik», verwundert angesichts der großen Anzahl von Arbeiten, die Tests und Konfidenzintervalle für solche Effektmaße angeben. Es sei hier nur auf einige neuere Arbeiten z . B . von HEDGES & OLKIN (1984), KRAEMER (1983) und ROSENTHAL & R U B I N (1982) hingewiesen. Nun zu LEISERS «Ausschöpfung der deduktiven
Rationalität
des
NEYMAN-PEARSON-Kon-
zepts für induktives Schließen». Die angeführten «2 Stufen der Virtualisierung» bedeuten m . E . nichts anderes, als daß man sich einmal bei festem a und n die Gütefunktion (power function) eines Tests ansieht (1.Stufe) bzw. daß man die Gütefunktionen des Tests für verschiedene Kombinationen von a und n miteinander vergleicht (2.Stufe). Beide Arten von Untersuchungen sind in der statistischen Literatur für eine Vielzahl von Tests sowohl analytisch als auch numerisch durchgeführt worden, wobei es sich weder um «ein formales Kriterium» noch um eine «individuelle Geschmackssache» gehandelt hat. Allerdings ist LEISER recht zu geben, daß in keiner dieser Arbeiten die Rede ist von einer «gesellschaftlichen Relevanzbestimmung» oder vom «Primat der Erweiterung der Verfügungsmöglichkeiten über die Lebensbedingungen». LEISERS Ausführungen zu einem Mindesteffekt sind für mich nicht nachvollziehbar, da weder gesagt wird, wie das Testproblem aussehen soll (einseitig?), noch wie der Parameterraum aussieht (auf nichtnegative Werte beschränkt?), noch was A max sein soll, noch wie Abbildung 3 oder die Formel für 5 zustande kommen. Auch wird an keiner Stelle genau definiert, was eine
Krauth: Die Verwendbarkeit statistischer Entscheidungsverfahren in der Psychologie
198
«Plausibilitätsschwelle» (a oder ß) sein soll, wodurch diese ganzen Überlegungen keine Grundlage haben. Analog zur 4.These ist auch hier nicht klar, wie die Maße für «induktive Sicherheit» definiert sein sollen, in die wieder, zumindest implizit, die nicht erklärten Größen P ( H 0 ) und P ( H j ) eingehen. Völlig unklar ist mir, wie LEISERS «alternativer Ansatz» ausgehend vom «Kosten-Nutzen-Standpunkt» sinnvoll formalisiert werden könnte. Eine Deutungsmöglichkeit, die durch LEISERS Ausführungen zum Mindesteffekt nahegelegt wird, wäre u . U . die, daß man statt einer einfachen Nullhypothese H 0 = {801 eine zusammengesetzte Nullhypothese der Form H 0 = {90 ^ 6 ^ 0O + A m J oder H 0 = {90 - A min < 0 < 0O + A m i n ) zu betrachten hätte, wobei A min die Abweichungen von der Nullhypothese H 0 = {0O} abgrenzen soll, die als nicht relevant angesehen werden. Für solche sogenannten «finite-interval hypotheses» (KENDALL & STUART, 1 9 6 1 , 2 3 . 3 2 ) lassen sich ohne weiteres statistische Tests konstruieren, bei Vorliegen mehrparametriger Exponentialfamilien (z.B. Normal Verteilungen, Multinominalverteilungen, Exponentialverteilungen, Poissonverteilungen) sogar gleichmäßig beste unverfälschte Tests ( U M P U tests), wie L E H M A N N ( 1 9 5 9 , 4.4) zeigte.
5.
dungsverfahren bei psychologischen Untersuchungen mit weit größerer Vorsicht erfolgen sollte, als dieses gemeinhin der Fall ist. Der fast ausschliessliche Rückgriff auf statistische Tests erscheint angesichts der eigentlich recht geringen Aussagemöglichkeiten solcher Tests unzweckmäßig. Häufig wären von der psychologischen Fragestellung her andere Entscheidungsverfahren sicher angebrachter. Jedoch dürften BAYES-Verfahren wegen der Schwierigkeiten bei der Festlegung einer begründeten A-Priori-Verteilung, sequentielle Verfahren wegen der damit verbundenen sequentiellen Datenerhebung und Auswertung und Mehrentscheidungsverfahren wegen der komplexeren Interpretationsmöglichkeiten auch weiterhin keine Verwendung finden. Die Verwendung von Tests mit «finite-interval-hypotheses» dürfte daran scheitern, daß Anwender ihre Vorstellungen von einem Mindesteffekt kaum jemals in angemessener Weise in einen numerischen Wert für den betreffenden Parameter umsetzen können. Wenn man die grundsätzlichen Schwierigkeiten bei der Verwendung statistischer Entscheidungsverfahren auf empirische Ergebnisse einmal außer acht läßt, so scheint die Verwendung von Effektmaßen, gegebenenfalls in Verbindung mit entsprechenden Konfidenzintervallen oder Tests, im Augenblick die sinnvollste Alternative zu statistischen Tests in der Datenanalyse zu sein.
Schlußbemerkung
Wie sich gezeigt hat, enthält LEISERS Beitrag eine Reihe von Unklarheiten, so daß es schwer fällt, ihn als sehr hilfreich bezüglich der Diskussion um die Problematik statistischen Schließens einzustufen. Weder die Kritik an den üblichen statistischen Modellen noch der Versuch, auf der Basis einer eigenen erkenntnistheoretischen Position einen alternativen Ansatz zu formulieren, scheinen mir geglückt zu sein. Wenn man willens ist, angesichts mangelnder Alternativen weiterhin statistische Verfahren in der empirischen Forschung einzusetzen, so sollte man sich über die wissenschaftstheoretische Position klar sein, auf Grundlage derer diese Verfahren entwickelt wurden und die oben beschrieben wurde. Wie meinen Ausführungen zu entnehmen ist, ergibt sich aus der Kenntnis dieser Position, daß die Anwendung und vor allem die Interpretation der Ergebnisse statistischer Entschei-
Literatur BAUER, H . 1974. Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie (2. Aufl.). Berlin: Walter de Gruyter. BERGER, J . 0 . 1 9 8 0 . Statistical decision theory. Foundations, concepts, and methods. New York: Springer. BICKEL, P . J . & LEHMANN, E . L .
1975. Descriptive
statistics
for nonparametric models I. Introduction. Annals of Statistics, 3 , 1 0 3 8 - 1 0 4 4 (a).
BICKEL, P . J . & LEHMANN, E . L . 1 9 7 5 . D e s c r i p t i v e statistics
for nonparametric models II. Location. Annals o f Statistics, 3, 1 0 4 5 - 1 0 6 9 (b).
BLACKWELL, D . & GIRSHICK, M . A . 1 9 5 4 . T h e o r y o f g a m e s
and statistical decisions. New York: Wiley. EBERL, W. & MOESCHLIN, O . 1 9 8 2 . M a t h e m a t i s c h e S t a t i s t i k .
Berlin: Walter de Gruyter. FISHER, R. 1955. Statistical methods and scientific induction. Journal of the Royal Statistical Society, Series B. 17, 6 9 78. FISHER, R . A . 1959. Mathematical probability in the natural sciences. Metrika, 2 , 1 - 1 0 . GHOSH, B.K. 1970. Sequential tests of statistical hypotheses. Reading: Addison-Wesley.
199
Zeitschrift für Sozialpsychologie 1986,17,190-199
effect size in meta-analysis. Psychological Bulletin, 96,
LOEVE, M. 1960. Probability theory (2nd ed.). Princeton: Van Nostrand. MISES, R. VON. 1928. Wahrscheinlichkeit, Statistik und Wahrheit. Berlin: Springer.
573-580.
MORRISON, D . E . & HENKEL, R . E . ( E d s . ) 1 9 7 0 . T h e s i g n i f i -
GOVINDARAJULU, Z. 1975. Sequential statistical procedures. New York: Academic Press. HEDGES, L . V . & O L K I N , 1 . 1 9 8 4 . N o n p a r a m e t r i c e s t i m a t o r s o f
KENDALL, M . G . & STUART, A . 1 9 6 1 . T h e a d v a n c e d t h e o r y o f
cance test controversy. A reader. London: Butterworths.
statistics: Vol.2, Inference and relationship. London: Griffin. KOLMOGOROFF, A. 1933. Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Springer. KRAEMER, H . C . 1983. Theory of estimation and testing of effect sizes: Use in meta-analysis. Journal of Educational Statistics, 8, 93-101. LAVALLE, L.H. 1970. An introduction to probability, decision, and inference. New York: Holt, Rinehart and Winston. LEHMANN, E.L. 1957. A theory of some multiple decision problems, I. Annals of Mathematical Statistics, 28, 1-25 (a). LEHMANN, E.L. 1957. A theory of some multiple decision problems, II. Annals of Mathematical Statistics, 28, 547572(b). LEHMANN, E.L. 1959. Testing statistical hypotheses. New York: Wiley.
NEYMAN, J . & PEARSON, E . S . 1 9 2 8 . O n t h e u s e a n d i n t e r p r e t a -
tion of certain test criteria for purposes of statistical inference. Part I. Biometrika, 20A, 175-240. NEYMAN, J . & PEARSON, E . S . 1 9 3 3 . O n t h e p r o b l e m o f t h e
most efficient tests of statistical hypotheses. Philosophical Transactions of the Royal Society, Series A. 231, 289-337. ROSENTHAL, R. & RUBIN, D. B. 1982. Comparing effect sizes of independent studies. Psychological Bulletin, 92, 500504.
WALD, A. 1947. Sequential analysis. New York: Wiley. WALD, A. 1950. Statistical decision functions. New York: Wiley. WITTING, H. 1966. Mathematische Statistik. Stuttgart: Teubner.
|
J
200
Leiser: Ein «letztes Wort» zum statistischen Schließen
Ein «letztes Wort» zum statistischen Schließen. Abschließende Stellungnahme zu den Beiträgen von D I L L M A N N / A R M I N G E R , GIGERENZER u n d K R A U T H E C K A R T LEISER Freie Universität Berlin
Die vorangehende Diskussion, soweit sie zentralere Gesichtspunkte meines Aufsatzes betrifft, wird ausgewertet. Die allgemeinsten Punkte sind die Zulässigkeit der gewählten Kritikebene sowie das Verhältnis von erkenntnistheoretischen und mathematischen Begründungszusammenhängen. Spezifischere Punkte sind das Problem der Wechselwirkung zwischen statistischen Methoden und Theoriebildung in der Psychologie sowie die Reichweite von Formalisierung beim statistischen Schließen. Dieser letzte Gesichtspunkt wird bezogen auf das von mir vorgeschlagene Maß der induktiven Sicherheit. Ein letzter und ziemlich spezieller Gesichtspunkt sind bestimmte psychologische Phänomene, z.B. «perceptual defense», die bei der Diskussion so fundamentaler Fragen auftauchen.
Das Angebot der Herausgeber, in dieser Diskussion das «letzte Wort» zu haben, habe ich mit Dank, aber auch mit gemischten Gefühlen entgegengenommen: Ich könnte zu meinen Ausgangs-Fragestellungen zurückkehren und alles sozusagen noch einmal präzisieren, differenzieren und gegebenenfalls korrigieren. Das hieße im Effekt meinen ursprünglichen Aufsatzneu schreiben, eben in einer weiterentwickelten und ausführlicheren Version. Dazu fehlt mir sowohl die Zeit wie die Motivation, denn auch diese neue Version könnte wieder nur eine vorläufige sein. Ich könnte aber auch einfach die Entgegnungen meiner Diskussionspartner kritisch durchgehen und ihnen meinerseits Unklarheiten, Fehler und Mißverständnisse nachweisen. Die sich daraus ergebende Struktur wäre für den Leser vermutlich unzumutbar: Ich würde einen Prozeß sich aufschaukelnder Spitzfindigkeiten in Gang setzen, der nicht mehr zur Klärung des Problems, sondern bestenfalls zu vorübergehenden Punktsiegen einzelner Teilnehmer führen würde. Ich werde versuchen, einen dritten Weg zu gehen: Argumente meiner Diskussionspartner
The foregoing discussion is evaluated as far as the main points of my article are concerned. The most general points are the admissibility of the chosen level of criticism and the relation between gnoseological and mathematical rationales. More specific points are the problem of interaction between statistical methods and theory-formation in psychology as well as the scope of formalization in statistical reasoning. This point is related to the measure of inductive security proposed by me. A last and somewhat special point are certain psychological phenomenona, e.g., perceptual defense, evolving in the discussion of such fundamental questions.
nacheinander durchgehen, aber nur soweit sie sich auf die Kernpunkte der von mir behandelten Fragestellungen beziehen lassen. Dabei werde ich mich auf die Stellungnahmen von G I G E R E N Z E R und D I L L M A N N / A R M I N G E R konzentrieren, denn die Stellungnahme von K R A U T H ist unter den gerade betimmten Gesichtspunkten ziemlich unergiebig. Das möchte ich gern vorweg begründen und dann an einem Beispiel konkretisieren.
Stellungnahme
von
KRAUTH
Kollege Krauth hat mir gegenüber bei anderer Gelegenheit freimütig eingeräumt, daß er sich für erkenntnistheoretische und erkenntnislogische Aspekte von Mathematik/Statistik nicht interessiere. Das ist ihm unbenommen. Natürlich heißt das nicht, daß Kollege Krauth keinen erkenntnistheoretischen Standpunkt hat. Ich würde diesen gleichsam naturwüchsigen Standpunkt «naiven Piatonismus» nennen, und den teilt Kollege Krauth mit vielen Mathematikern (s. G N E D E N K O & KALOUJNINE, 1953/1954). Zu diesem Standpunkt gehört insbesondere das Verlegen der Ma-
201
Zeitschrift für Sozialpsychologie 1986,17,200-205
thematik in ein Reich des reinen Geistes, d.h. ihre Herauslösung aus jedem umfassenderen Realitäts-, Praxis- und Erkenntniskontext. J. v. NEUMANN führt gegen diese Haltung ins Feld, «daß auf jeden Fall etwas Nichtmathematisches, welches irgendwie mit den empirischen Wissenschaften oder der Philosophie oder mit beidem verbunden ist», für die Mathematik konstitutiv ist (v. N E U M A N N , 1974, p.35). Bemerkenswert ist allerdings, daß Kollege Krauth so aggressiv mit seinem Desinteresse an erkenntnistheoretischen Fragen auftrumpft. Aber selbst wenn man diesen erkenntnistheoretischen Kontext, in dem Statistik/Mathematik steht, wegläßt und die Mathematik «an sich» betrachtet, spricht nichts dafür, daß Mathematik in den vom Kollegen Krauth beschworenen Formalisierungen aufgeht. Dagegen spricht das Schicksal des HiLBERTschen Programms, die Untersuchungen von G Ö D E L und LAKATOS, die alternativen Konzepte von B R O U W E R und POLYA aber auch die Untersuchungen von PIAGET zum mathematischen Denken. In dieser Hinsicht kann man das Mathematikverständnis des Kollegen Krauth mit KREISEL als «naiven Formalismus» bezeichnen, und mit KREISEL kann man sein Einschlagen auf meine nicht-formalisierten Überlegungen mit einer «hysterischen» Haltung erklären, die «sich um die Grenze von Mystik und Logik» sorgt, «wenn sie nicht gemäß der formalistischen Doktrin gezogen wird» (KREISEL, 1974, p.70). Bevor Kollege Krauth mir unterstellt, daß ich seine verschiedenen Lieblingsbücher und Aufsätze nicht gelesen oder nicht verstanden habe, wäre es doch hilfreich gewesen, wenn er meinen Aufsatz noch einmal in Ruhe gelesen hätte. Dabei wäre ihm vielleicht aufgefallen, daß - wie ich dank Textverarbeitungssystemen mühelos feststellen kann - die Worte «erkenntnislogisch», «erkenntnistheoretisch», «Erkenntnis» usw. 26mal in meinem Aufsatz vorkommen. Vielleicht hätte ihn das auf die Idee gebracht, daß er in seiner Replik, in der diese Worte kein einziges Mal auftauchen, das Thema verfehlt hat. Im Unterschied zum Kollegen Krauth unterstelle ich ihm wohlgemerkt nicht, daß er meinen Aufsatz nicht gelesen hat. Offensichtlich hat er ihn mit einer gewissen eingeschränkten Wahrnehmung gelesen, ein in der Sozialpsychologie unter der Bezeichnung «perceptual defense» wohlbekanntes Phänomen.
Nun das Beispiel, an dem ich die «perceptual defense» des Kollegen Krauth konkretisieren möchte. Musterhaft für diese «perceptual defense», im vorliegenden Fall seine Blindheit gegenüber der erkenntnistheoretischen Problematik, um die es mir im ganzen Aufsatz geht, ist seine Behandlung meines Vorschlags für ein Maß der induktiven Sicherheit. Der vom Kollegen Krauth ins Spiel gebrachte «finite-interval test» hat nämlich mit dem von mir gestellten Problem letztlich nichts zu tun: Für die kritischen Regionen, die solche Tests liefern (s. KENDALL & STUART, 1973, p.221), würde sich vielmehr wieder genau die gleiche Frage stellen, nämlich: Wie sicher bin ich, wenn die Teststatistik in diese Region fällt, daß auch tatsächlich ein relevanter Effekt vorliegt; konkret: daß der Effekt mindestens A min beträgt, oder in der Krauthschen Terminologie, daß 0 außerhalb des Intervalls h 0 = I 0 O - A min < e < e 0 + A m i n } liegt? Die OC-Kurven für solche Tests dürften sich hinsichtlich dieses hier interessierenden differentiellen Verhaltens des Tests gegenüber relevanten und nicht relevanten Effekten nicht von konventionellen Tests unterscheiden. Und genau um dieses differentielle Verhalten geht es in dem von mir vorgeschlagenen Maß für die induktive Sicherheit. Diese liegt also im Verhältnis zu den klassischen Testkriterien auf einer Metaebene. Jeder Test, ob «finite-interval» oder nicht «finite-interval», ob UMP oder nicht UMP, wäre nach meinem Vorschlag auf diese so spezifizierte induktive Sicherheit hin zu bewerten. Wieweit sich aus dieser Forderung nach einer möglichst hohen induktiven Sicherheit bezüglich relevanter Effekte ein modifiziertes allgemeines mathematisches Konzept zur Konstruktion statistischer Tests ergeben könnte, ist eine andere Frage. Im Unterschied zum UMP-Test-Konzept würde ein solches Konzept nicht nach gleichmäßig mächtigsten Tests, sondern nach differentiell mächtigen Tests suchen, «differentiell» bezogen auf einen relevanten Mindesteffekt. Wäre nicht diese «perceptual defense», hätte dem Kollegen Krauth der Verdacht, seine Transformation meines Problems in den Fall des «finite-interval test» könne neben der Sache liegen, eigentlich schon deshalb kommen müssen, weil für einseitige Hypothesen,
202
Leiser: Ein «letztes Wort» zum statistischen Schließen
bei denen sich das von mir formulierte Problem ganz genauso stellt, eine solche Transformation gar nicht in Frage kommt. Stellungnahme von
GIGERENZER
Kollege Gigerenzer wundert sich zunächst über meine «Überraschung» angesichts der erkenntnislogischen Oberflächlichkeiten in der bisherigen Behandlung der statistischen Schließproblematik. Aus der Tatsache, daß alle meine Diskussionspartner verwundert bis hämisch auf dieses mein Eingeständnis reagiert haben, schließe ich zunächst einmal: sich in der Wissenschaft überraschen lassen bedeutet für meine Diskussionspartner so etwas wie «sich eine Blöße geben». Ich stehe trotzdem zu dieser «Überraschung» und möchte das erklären: Wie viele Kollegen, möglicherweise Herr Gigerenzer eingeschlossen, habe ich mich nach meinen ersten und sehr frustrierenden Berührungen mit der Psychologischen Methodenlehre der Mathematik, insbesondere der mathematischen Statistik, zugewendet. Ich habe mich hier auf der formal-mathematischen Ebene bewegen gelernt und mich von der Präzision und inneren Rationalität dieser Ebene faszinieren lassen, die in wohltuendem Kontrast zu den Nebelschwaden standen, mit denen Methodenlehre an unserem Psychologischen Institut umgeben war. Ich habe damals durchaus meine Lektionen in mathematischer Statistik gelernt, auch in Wahrscheinlichkeitstheorie und stochastischen Prozessen, ja sogar in formaler Logik. Zum Beispiel erinnere ich mich an meine damalige Beschäftigung mit CARNAP und seinem Konzept der induktiven Wahrscheinlichkeit. Und doch bin ich an alle damaligen Texte mit rein formal-mathematischen Wahrnehmungsschemata herangegangen. Auch meine Methodenkritik beschränkte sich damals mehr oder weniger auf bestimmte formale Defizite bestimmter methodischer Konzepte und ihrer Anwendungen (s. L E I S E R , 1 9 7 1 , 1 9 7 6 ; JACOBI & L E I SER, 1 9 7 1 ) .
Dann bin ich etwa zehn Jahre von der anderen Seite, nämlich von der Philosophie, Erkenntnistheorie, Wissenschaftstheorie und insbesondere von der PiAGETschen Epistemologie her an Probleme der Logik und Mathematik herangegangen. Mit den veränderten, von den genannten Ge-
sichtspunkten bestimmten Wahrnehmungsschemata kehre ich nun zu früheren Fragestellungen zurück: Indem ich damalige Texte mit neuen Augen lese, kann ich einige frühere Einschätzungen in meine jetzige Sicht einfügen, andere versuche ich zu assimilieren und wieder andere überraschen mich. Natürlich hatte ich mir diese Überraschungen ersparen können, hätte ich dieses formal-mathematische Bezugssystem mit seiner Schönheit, Klarheit, Sicherheit und Geschlossenheit nie verlassen. Vielleicht könnte ich dann heute auch so forsche und selbstzufriedene Repliken schreiben wie Kollege Krauth. Nun denn, es hat nicht sollen sein. Aber jetzt zum Hauptgedanken des Kollegen Gigerenzer. Er besagt, daß nicht nur die statistische Entscheidungslogik problematisch ist, sondern auch die psychologischen Hypothesen, die dieser Entscheidungslogik unterzogen werden. Und das liegt nach Kollege Gigerenzer wiederum an dem zwitterhaften Statistikverständnis in der Psychologie. Seine Begründungen dazu sind, auch wegen ihres Reichtums an historischem Material, hoch interessant (s.a. G I G E R E N Z E R , in press). Kollege Gigerenzer weist damit allgemeiner auf eine erkenntnistheoretisch, wissenschaftstheoretisch und wissenschaftsgeschichtlich wichtige Abhängigkeit zwischen Methode und Erkenntnisgewinnung/Theoriebildung hin. Im Gegensatz dazu, meint Kollege Gigerenzer, ginge ich von der Unabhängigkeit zwischen Methode und Gegenstand aus. Das stimmt nun allerdings nicht; im Gegenteil: Im Fall der Psychologie sehe ich sogar ein sehr problematisches Dominanzverhältnis der Methode über den Gegenstand. Für mich erübrigt sich damit allerdings nicht die Frage nach der Beschaffenheit des Gegenstands und den dem Gegenstand adäquaten Methoden. Denn neben den von den Methoden bestimmten Gegenstandsstrukturen gibt es auch in der Psychologie noch die über die methodenexterne Problemdynamik sich durchsetzenden Strukturen. Und neben den durch ihre wissenschaftliche Bearbeitung bestimmten Gegenstandsstrukturen gibt es die in seiner wissenschaftsexternen Entwicklungsdynamik sich konstituierenden Strukturen des Gegenstands. Auch diese Strukturen sind aber nicht «ontologisch», sondern entstehen im Kontext bestimmter außerhalb der Wissenschaft liegenden Praxen und Veränderungsprozessen .
Zeitschrift für Sozialpsychologie 1986,17,200-205
Im Fall der Psychologie stellt sich allerdings die Frage, o b die Dominanz der Methoden über die Fragestellungen nicht stark ideologisch bestimmt ist, konkret: wieweit die Autorität dieser Methoden überhaupt irgendetwas mit irgendeinem Nutzen - und sei er rein wissenschaftsimmanent definiert im Sinn besserer Erklärung, Voraussage und Kontrolle - zu tun hat. Die Frage ist also letztlich die nach der Wissenschaftlichkeit einer so betriebenen Psychologie. Dabei behaupte ich nicht, daß diese ideologische Dominanz sich rein in den K ö p f e n der derart arbeitenden Psychologen abspielt, also wirkungslos ist. Wissenschaft hat ihre sehr konkreten materiellen Seiten, und auch eine auf Selbstmißverständnissen gründende Wissenschaftspraxis der Psychologie wirkt zurück auf den Gegenstand selbst, allerdings selten positiv im Sinn der besseren Entfaltung von Subjektivität, sondern meist negativ im Sinn von Fremdbestimmung und Deformation (Beispiel: der durch Werbung fremdbestimmte Kunde; der durch Angstpropaganda verschreckte Wähler; der auf Leistungstests reduzierte Denkstil von Studenten usw.). Was den v o m Kollegen Gigerenzer untersuchten speziellen Aspekt dieser Dominanz betrifft, nämlich die « R ü c k w i r k u n g » statistischer Konzepte auf die Hypothesenstruktur, finde ich seine Erklärung für den Mangel an symmetrischen Punkthypothesen sehr interessant. Aber Kollege Gigerenzer wird auch hier nicht bestreiten, daß es neben der Dominanz des R . A.FisHERschen Testkonzepts an der «Unentwickeltheit» psychologischer Theorie- und Konzeptbildungen liegt, also einer methodenexternen Einflußgröße, wenn Primitivhypothesen v o m T y p «kein Unterschied» vs. « U n t e r s c h i e d » bzw. « k e i n e Zunahme ( A b n a h m e ) » vs. « Z u n a h m e ( A b n a h m e ) » in der Psychologie vorherrschen. Denn solche Hypothesen lassen sich fast immer ad hoc (notfalls post hoc), o f t sogar einfach mit H i l f e des «gesunden Menschenverstands», aufstellen. O b die Präzisierung psychologischer Theorien in Richtung auf die Ermöglichung symmetrischer Punkthypothesen überhaupt wünschenswert ist, ist für mich allerdings eine andere Frage, die mit der Kommensurabilität und damit der Rationalität oder Irrationalität von Quantifizierung in der Psychologie zu tun hat. Sogar der Kritik des Kollegen Gigerenzer am Traum einer «Mechanisierung des induktiven
203 Schließens» würde ich weitgehend zustimmen, o b w o h l er mich den Anhängern dieses Traums zuordnet. In verschiedenen Schriften seit 1978 habe ich ausführlich begründet, für wie beschränkt ich die Reichweite des logisch-mathematischen Denkens in den Sozialwissenschaften halte (LEISER, 1978a, 1978b, 1979). Ich habe insbesondere - auch gegen bestimmte marxistische Positionen - die Illusion kritisiert, als gäbe es unabhängig v o n menschlichen Handlungsprozessen existierende Erkenntnisgegenstände. Damit kann es auch keine Erkenntnisgegenstände geben, die mechanisch, d . h . ohne bewußte Erkenntnisprozesse, bearbeitet werden können. Gerade im Rahmen dieser Auffassung ist es wichtig, die Grenzen des logisch-mathematischen Denkens, im vorliegenden Fall der statistischen Argumentation, möglichst genau zu bestimmen und dazu die Formalisierungsmöglichkeiten statistischen Schließens auszuschöpfen. I m Ergebnis zeigt j a gerade mein Vorschlag zur induktiven Sicherheit, wie kümmerlich die Ausbeute eines solchen FormalisierungsVersuchs letztlich ist. Ich bitte also den Kollegen Gigerenzer, mir zuzutrauen, daß ich diesen Widerspruch zwischen meiner Kritik an Formalisierungsansprüchen und eigenen Formalisierungsversuchen auch weiterhin aushalte. I m übrigen glaube ich nicht, daß der Wunsch nach Mechanisierung induktiven Schließens, verstanden als technisches Bedürfnis nach möglichst bequemen Entscheidungen, zur Erklärung der statistischen Praxis in der Psychologie ausreicht. Denn dieses inflationäre Arbeiten mit statistischen Tests steht j a in keiner Beziehung zum tatsächlichen Bedarf an Entscheidungen, jedenfalls für die Entwicklung der psychologischen Wissenschaft und erst recht der psychologischen Praxis relevanten Entscheidungen. Hier muß, meine ich, die spezifische Verselbständigung v o n M e thodenlehre und Statistik in der Psychologie mitbedacht werden, die etwas mit den Legitimationsproblemen dieser unentwickelten Wissenschaft nach außen und ihren Hegemonieproblemen nach innen zu tun hat. Eins machen meine Ausführungen zur Statistik hoffentlich klar: Wenn ich v o n ihrer « H i l f s f u n k t i o n » spreche, bezeichnet das nicht einen Zustand, sondern das Ziel einer statistikkritischen Diskussion, für das hier plädiert wird. U n d warum sollte eine solche Diskussion keine Rückwirkungen haben können?
204
Leiser: Ein «letztes Wort» zum statistischen Schließen
Zuletzt noch eine Bemerkung zu meinem Rückgriff auf das BAYESsche Schema im Zusammenhang mit meinen abschließenden Überlegungen zur induktiven Sicherheit. Kollege Gigerenzer sieht darin - wie auch die anderen Diskussionspartner - einen Widerspruch zu meiner Kritik am BAYESschen Konzept des statistischen Schließens. Ich sehe diesen Widerspruch nicht: Schließlich habe ich doch nicht die formale Zulässigkeit des BAYESschen Schemas kritisiert, sondern den Glauben, in der Wissenschaft auf irgendwelchen (subjektiven) Schleichwegen an die unbekannten Wahrscheinlichkeiten heranzukommen bzw. mit Hilfe von (objektiven) Wahrscheinlichkeits-Aussagen an die unbekannten Parameter. Im letzten Fall führe ich doch gerade vor, wie sich die Bedeutung des Schemas verändert, wenn ich die Wahrscheinlichkeiten konsequent als unbekannt behandele. Insbesondere zeige ich, welche neuen erkenntnislogischen Gesichtspunkte die dadurch entstehende Induktionsproblematik erzwingt. Das BAYESsche Schema bildet hierbei nur den heuristischen Ausgangspunkt, von dem aus die jenseits des Schemas liegende Induktionsproblematik und schließlich mein Vorschlag zur induktiven Sicherheit entwickelt werden. Auf weitere interessante Gesichtspunkte und Hinweise im Beitrag des Kollegen Gigerenzer kann ich hier nicht eingehen. Ich werde sie für meine weitere Arbeit an der Problematik fruchtbar zu machen versuchen.
Stellungnahme
von
DILLMANN/ARMINGER
Die Kollegen Dillmann/Arminger halten mir zunächst vor, daß ich die Autoren R.A.FISHER sowie NEYMAN & PEARSON zu unrecht für die Ungereimtheiten des statistischen Schließens verantwortlich mache. Ich meine zwar, diese Verantwortung geht im Fall R.A.FISHER ziemlich weit, kann das aber hier offen lassen, denn es geht mir doch gar nicht um eine persönliche Kritik an den A u t o r e n TH.BAYES, R . A . F I S H E R , J.NEYMAN s o -
wie E . S . P E A R S O N . (Zumindest für T H . BAYES ist das wohl schon aus historischen Gründen offensichtlich.) Vielmehr geht es mir um eine Kritik der auf den drei Ansätzen gewachsenen Auffassungen vom statistischen Schließen in der Wissenschaft. Und in diese Auffassungen geht mehr ein
als die mehr oder weniger explizierten theoretischen Bezugssysteme der genannten Autoren: etwa ein naturwüchsig sich durchsetzender Wahrscheinlichkeitsbegriff (überwiegend der von R. v. MISES) sowie bestimmte Vorstellungen vom Induktionsschluß (überwiegend die von R.A.FISHER). Also: selbst wenn die Autoren allesamt vor der Anwendung ihrer Konzepte auf Probleme des wissenschaftlichen Schließens gewarnt haben sollten, bleibt die Tatsache, daß statistisches Schließen in den Wissenschaften, insbesondere in den Sozialwissenschaften, zu einer festen und anerkannten Institution geworden ist. Meine sich darauf richtende Kritik ist aber wiederum zu unterscheiden von der Kritik an einer mißbräuchlichen oder inkompetenten statistischen Anwendungspraxis. Im Unterschied zu einer solchen Kritik, die gewöhnlich mit einem Plädoyer für bessere Statistik-Ausbildung oder sinnvollere Arbeitsteilungen zwischen Statistikern und Anwendern endet, behaupte ich, daß es einen adäquaten erkenntnistheoretischen Kontext der genannten statistischen Konzepte, der etwa die Logik induktiven Schließens, aber auch Grundkategorien wie Zufall, Wahrscheinlichkeit, Population usw. expliziert, bisher überhaupt nicht gibt. Jede Praxis des statistischen Schließens in der Wissenschaft lebt danach bisher zwangsläufig sozusagen über ihre Verhältnisse. Diese Kritikebene muß erst einmal gewonnen werden, ehe die verstreuten Diskussionsbeiträge zu Einzelproblemen, z.B. zum Wahrscheinlichkeitsbegriff, aufgearbeitet werden können (wobei, nebenbei bemerkt, einigen Lesern sicher aufgefallen sein wird, daß der von mir vertretene Wahrscheinlichkeitsbegriff eine gewisse Nähe zur PoFPERschen «propensity» hat). Ich werde mich an der Bearbeitung solcher Einzelprobleme, solange ich Arbeitsmöglichkeiten habe, gern beteiligen. In der Fragenliste der Kollegen Dillmann/Arminger sehe ich hier eine Fülle spannender Anknüpfungspunkte, wenn ich auch einige Fragen, etwa zum Indeterminismus-Problem, etwas anders stellen würde (zum Beispiel: Was hat der [gnoseo-]logische und der ontologische Indeterminismus [«Unwissen» vs. «Selbstbewegung»] mit dem statistischen Zufallsbegriff zu tun, und wieweit läßt sich dieser ohne Rückgriff auf Ontologie objektivieren?). Nun zur Kritik am Aufbau der von mir vorge-
205
Zeitschrift für Sozialpsychologie 1986,17,200-205
schlagenen Maße zur induktiven Sicherheit. Zunächst wundert mich, daß diese Kritik erst unter der 5.These und nicht schon zur 4.These gebracht wird. Die beanstandeten Bestandteile der vorgeschlagenen Maße werden ja dort bereits formuliert und begründet. Aus der dortigen Begründung geht hervor, daß die Sicherheit, mit der bei einer Entscheidung für H 0 tatsächlich H 0 vorliegt, eben nicht nur von der H 0 zugeordneten Wahrscheinlichkeit a , sondern auch von der H j zugeordneten Wahrscheinlichkeit ß abhängt: Je kleiner a (bei festgehaltenem ß), um so eher wird H 0 hinter einer Statistik stehen, die in diesen Akzeptanzbereich fällt, und je kleiner ß (bei festgehaltenem a), um so «untypischer» ist eine solche Statistik in diesem Akzeptanzbereich unter H l t um so weniger wird also H : hinter ihr stehen (analog bei einer Entscheidung für und den Rejektionsbereich). Die Formel 1 - Vi • (a + ß) ist nichts weiter als eine mögliche arithmetische Umsetzung dieser Überlegung (mit der zusätzlichen Festlegung, daß die induktive Sicherheit analog der Wahrscheinlichkeit Werte zwischen 0 und 1 annehmen kann). Nebenbei bemerkt: spätestens hier, wo für die Kollegen Dillmann/Arminger die von mir vorgeschlagenen Maße nicht mehr nachvollziehbar sind, sollten sie fairerweise einräumen, daß hinter dem Terminus «induktive Sicherheit» doch etwas mehr als ein Bezeichnungswechsel für «Hypothesenwahrscheinlichkeit» stecken könnte. Schade finde ich schließlich, daß meine materialistische Position zu erkenntnistheoretischen Fragen, die die Kollegen Dillmann/Arminger ganz richtig in meinen «bisherigen Werken» ausgemacht haben, von ihnen wie etwas Unaussprechliches behandelt wird. Oder tun sie das mit Rücksicht auf mich, um mich vor den Verfassungsschützern unter den Lesern der «Zeitschrift für Sozialpsychologie» zu schützen? Oder aber überkommt die Kollegen Dillmann/Arminger selbst bei der Berührung mit dieser materialistischen Position eine Gänsehaut? Ein wenig klingt es so, wenn ich ihre sehr verschlüsselten Bemerkungen zum Gesichtspunkt einer gesellschaftli-
chen Relevanzbestimmung lese. Denn inhaltlich ist doch dieser Vorschlag, gerade für Ökonomen, gar nicht so ausgefallen. Und zudem liegt er doch, unbefangen betrachtet, voll im Trend der gegenwärtigen Wissenschaftspolitik, nur daß hier meist nicht von Relevanz/Nutzen der Wissenschaft für die Gesellschaft, sondern für Wirtschaft und Industrie die Rede ist (s. die gegenwärtige Konjunktur von Kooperationsvereinbarungen).
Literatur GIGERENZER, G. in press. Probabilistic thinking and the fight against subjectivity. In: Krüger, L., Gigerenzer, G. &Morgan, M . S . (Eds.): The probabilistic revolution: Vol.11, Ideas in the sciences. Cambridge, MA: M.I.T. Press. GNEDENKO, B . W . & KALOUJNINE, L . 1 9 5 3 / 1 9 5 4 . Ü b e r d e n
Kampf zwischen dem Materialismus und dem Idealismus in der Mathematik. Wissenschaftliche Zeitschrift der T H Dresden, 3 / 5 , 631-638. JACOBI, P . , LEISER, E . & FISCHER, P . A . 1 9 7 1 . Z u m
Problem
multipler statistischer Tests bei der neuropsychologischen Untersuchung von Hirngeschädigten. Archiv für Psychologie, 123,
251-267.
KENDALL, M . G . & STUART, A . 1 9 7 3 . T h e a d v a n c e d t h e o r y o f
Statistics (Vol.2). London: Griffin. KREISEL, G. 1974. Die formalistisch-positivistische Doktrin der mathematischen Präzision im Lichte der Erfahrung. In: Otte, M. (Hrsg.): Mathematiker über die Mathematik (pp.64-123). Berlin: Springer. LEISER, E. 1971. Eine Methode zum Vergleich zweier Faktorenmatrizen. Methods of Information in Medicine, 10, 117-120.
LEISER, E. 1976. Simultane vs. sequentielle Clusteranalyse. In: Bochnik, H.J. ÄPittrich, W. (Hrsg.): Multifaktorielle Probleme in der Medizin (pp. 195-208). Wiesbaden: Akademische Verlagsgesellschaft. LEISER, E. 1978. Widerspiegelungscharakter von Logik und Mathematik. Frankfurt: Campus (a). LEISER, E. 1978. Zum Problem einer materialistischen Begründung von Logik und Mathematik. Das Argument, 110, 518-528 (b). LEISER, E. 1979. Die genetische Methode Piagets und ihr Verhältnis zur logisch-historischen Methode. In: Jäger, M . , Kersten, K., Leiser, E., Maschewsky, W. &Schneider, U.: Subjektivität als Methodenproblem (pp.50-68). Köln: Pahl-Rugenstein. NEUMANN, J. VON 1 9 7 4 . D e r M a t h e m a t i k e r . In:
Otte, M. (Hrsg.): Mathematiker über die Mathematik (pp.28-46). Berlin: Springer.
^ ^ H
|
J
206
Literatur Neuerscheinungen W.D. & L E W I S - B E C K , M.S. (Eds.) 1986. New tools for social scientists. Advances and applications in research methods. London: Sage, approx. pp.320, cloth £ 38.50, paper £18.75. BIERHOFF, H.W. 1986. Personen Wahrnehmung. Vom ersten Eindruck zur sozialen Interaktion. Lehr- und Forschungstexte Psychologie, Bd. 20. Berlin: Springer, VIII, pp.548, broschiert DM 98.-. BUXTON, C. (Ed.) 1985. Points of view in the modern history of psychology. Orlando, FL: Academic Press, pp.480, cloth $ 58.-, paper $ 29.95. CLEMENT, U . 1986. Sexualität im sozialen Wandel. Stuttgart: Enke, VIII, pp. 128, etwa 7 Abb., etwa 72 Tab., kart. etwa DM 44.-. DAVIS, J.A. 1986. The logic of causal order. Quantitative Applications in Social Sciences, Vol.55. London: Sage, pp.72, paper £ 4.95. FESTINGER, L. 1985. Archäologie des Fortschritts. Frankfurt: Campus, pp.248, 6 Karten, paperback DM 34.-.
BERRY,
GINSBURG, G . P . , BRENNER, M . J . & V . CRANACH,
M. (Eds.) 1985. Discovery strategies in the psychology of action. European Monographs in Social Psychology Series. Orlando, FL: Academic Press, pp.294, $ 49.50. GUSKI, R. 1986. Deutsche Briefe über Ausländer. Bern: Huber, pp.238, 33 Abb., 26 Tab., kart. sfr. 33.-/DM 38.-. H I N D E , R . A . , PERRET-CLERMONT, A . - N . & S T E -
J. 1985. Social relationships and cognitive development. Oxford: Oxford University Press, pp. 384, paper £ 19.50. HIROKAWA, R . Y . & POOLE, M.S. (Eds.) 1 9 8 6 . Communication and group decision-making. London: Sage, approx. pp. 320, cloth £ 31.-, paper £ 1 5 . 5 0 . HOFFMANN, J . 1 9 8 6 . Die Welt der Begriffe. Psychologische Untersuchungen zur Organisation menschlichen Wissens. Weinheim: PsychologiVENSON-HINDE,
sche Verlagsunion - Beltz, etwa pp. 160, broschiert etwa DM 30.-. KARMANN, P. 1986. Die Wahrnehmung von baulich-räumlicher Umwelt bei Kindern. Eine Untersuchung zum Vorstellungsbild des Klassenzimmers. Europäische Hochschulschriften: Reihe 6, Psychologie, Bd. 164. Frankfurt: Peter Lang, IX, pp.518, broschiert sfr. 78.-. K I R K , J . & MILLER, M.L. 1986. Reliability and validity in qualitative research. Qualitative Research Methods Series, Vol.1. London: Sage, pp.96, cloth £ 12.-, paper £ 6.50. LEAHY, R . L . (Ed.) 1985. The development of the self. Orlando, FL: Academic Press, pp.336, $45.-. LINCOLN, Y.S. (Ed.) 1985. Organizational theory and inquiry. Sage Focus Editions, Vol.75. London: Sage, pp.230, cloth £ 31.-, paper £ 15.50. LÜCK, H . E . 1985. Psychologie sozialer Prozesse. Opladen: Leske + Budrich, pp.240, paperback DM 24.80. MARSHALL, V.W. 1986. Later life. The social psychology of aging. London: Sage, approx. pp. 320, cloth £ 31.-, paper £ 15.50. MARSTEDT, G . & M E R G N E R , U. 1986. Psychische Belastungen in der Arbeitswelt. Theoretische Ansätze, Methoden und empirische Forschungsergebnisse. Beiträge zur psychologischen Forschung, Bd.9. Opladen: Westdeutscher Verlag, VIII, pp.366, kart. DM 52.-. MILLER, R. 1986. Einführung in die Ökologische Psychologie. Opladen: Leske + Budrich, pp. 272, DM 24.80. SCHNEIDER, B . H . , R U B I N , K . H . & LEDINGHAM,
J.E. (Eds.) 1986. Children's peer relations: Issues in assessment and intervention. New York: Springer-Verlag, 12 figs., XXII, pp.281, hard cover DM 122.-. SCHULTZ-GAMBARD, J. (Hrsg.) 1986. Angewandte Sozialpsychologie. Konzepte, Ergebnisse, Perspektiven. Weinheim: Psychologische Verlags Union Beltz, etwa pp.400, kart. etwa DM 80.-.
207
Zeitschrift für Sozialpsychologie 1 9 8 6 , 1 7 , 2 0 6 - 2 0 7
L. (Hrsg.) 1986. Sprechen und Schweigen. Zur Psychologie der Selbstenthüllung. Bern: Huber, pp. 238, 8 Abb., 9 Tab., kart. s f r . 4 2 . - / D M 48.-. S T U D I A S P I N O Z A N A . An international and interdisciplinary series ( 4 Bde., hrsg. v. KLEVER, W.N.A., M O R E A U , P.-E, WALTHER, M . & YoVEL, Y.): Vol. 1 (1985) Spinoza's philosophy of SPITZNAGEL, A . & SCHMIDT-ATZERT,
society. Alling: Walther & Walther, etwa pp. 460, DM 48. - im Abonnement, DM 63. - als Einzelband. VOLMBERG, B . , SENGHAAS-KNOBLOCH, E . & LEIT-
1985. Betriebliche Lebenswelt. Eine Sozialpsychologie industrieller Arbeitsverhältnisse. Opladen: Westdeutscher Verlag, pp.300, Broschur DM 36.-. HÄUSER, TH.
208
Titel und Abstracta C.F. & MOSCOVICI, S . (Eds.) 1986. Changing conceptions of crowd mind and behavior. Springer Series in Social Psychology. New York: Springer-Verlag, 2 tabs., pp.241, hard cover DM 88.-.
GRAUMANN,
«Contents: Introduction. - The Discovery of the Masses. Models of Suggestive Influence and the Disqualification of the Social Crowd. - Freud and . Mass Psychology, Social Psychology, and the Politics of Mussolini. - The Social Psychology of William McDougall. - The Individualization of the Social and the De-socialization of the Individual: Floyd H. Allport's Contribution to Social Psychology. - Conceptions of Crowd and of Crowding. - Collective Behavior from the 17th to the 20th Century: Change of Phenomena, Change of Perception or No Change at All? Some Preliminary Reflections. - Masses - From an Idealistic in a Materialistic Point of View? Aspects of Marxian Theory of the Class. - Mass, Mobilization, and the State. - The Social Organization of Early Human Groups. - Crowd Mind and Behavior: Afterthoughts. This is the first of a 3 volume set on changing conceptions of major problems in social psychology. 100 years of writing on mass psychology, both scientific and historical, are analyzed to determine how the concept of crowd mind has changed. The contributions expose the scientific bases of early conceptions, and the extent to which the concept's political achievements have influenced and guided its destiny.» (Verlagstext)
C.F. & MOSCOVICI, S. (Eds.) 1986. Changing conceptions of leadership. Springer Series in Social Psychology. New York: Springer-Verlag, 16 figs., 10 tabs., pp.265, hard cover DM 98.-.
GRAUMANN,
«Contents ¡Introduction - The Evolution of Leadership: A Preliminary Skirmish - The Dilemma of Unwanted Leadership in Social Movements: The German Example Before 1914 - Charismatic Leadership: Max Weber's Model and Its Applicability to the Rule of Hitler - Charismatic Domination, Totalitarian Dictatorship, and Plebiscitary Democracy in the Twentieth Century - Power and Leadership in Lewinian Field Theory: Recalling and Interrupted Task The Contribution of Cognitive Resources and Behavior to Leadership Performance - Leadership as a Function of Group Action - Contests, Conquests, Coronations: On Media Events and Their Heroes - The Creation of Political Leaders in the Context of American Politics in the 1970s and 1980s - Leadership Ms.-Qualified: I. The Gender Bias in Everday and Scientific Thinking - Leadership Ms.Qualified: 11. Reflections on and Initial Case Study Investigation of Contemporary Women Leaders - Scientific Leadership - Epilogue.»
C. & SCHNEIDER, W. (Hrsg.) 1986. Strukturmodelle für Längsschnittdaten und Zeitreihen. LISREL, Pfad- und Varianzanalyse. Methoden der Psychologie, Bd.5. Bern: Huber, pp.276, 23 Abb., 38 Tab., kart. sfr. 38.-/DM
MÖBUS,
44.-. «Der Begriff der Psychologie wird in dieser Reihe in seiner heute üblichen weiteren Bedeutung verstanden und - hinausgehend über Statistik und Datenanalyse auf die Gesamtheit der Verfahren zur Planung, Durchführung und Auswertung systematischer Verfahren der psychologischen Beobachtung, Analyse und Intervention bezogen. Fragen der Veränderungsmessung werden heute nicht nur in der Wirtschaftswissenschaft sondern auch in der Psychologie und Soziologie intensiv diskutiert. Wichtige Anwendungsbereiche sind z.B. die psychologische Therapieforschung, die Untersuchung pädagogisch-psychologischer Intervention und die Längsschnittanalyse entwicklungspsychologischer Daten. In diesem Band werden neue Strukturmodelle (LISREL VI, PLS, Bentler-Ansatz) zur Auswertung von Messwiederholungsplänen vorgestellt und an Anwendungsbeispielen aus den genannten Forschungsberichten verglichen. Speziell zu LISREL VI wird erstmals eine deutschsprachige Programmbeschreibung gegeben.» (Verlagstext)
M.L. (Ed.) 1 9 8 6 . Handbook of interpersonal communication. London: Sage, pp.768, cloth £ 4 9 . 4 0 .
KNAPP,
«The Handbook of Interpersonal Communication is the first comprehensive, single-volume review of the state-ofthe-art in interpersonal communication research. It is a definitive reference source, authored by an outstanding international group of communication researchers. While the contributors take diverse conceptual, theoretical, and epistemological approaches to the study of human communication, several common themes run throughout the book: a focus on behaviour, a focus on time, a focus on social cognition, a concern with control, and a concern with individual differences. Each chapter includes an extensive literature review, comprehensive bibliography, and assessment of where future research in the field is - and ought to be - going.» (Verlagstext)
BORG, I . , SCHERER, K . R . & STAUFENBIEL, TH.
1986. Determinanten von Peinlichkeit und Scham. Ein facettentheoretischer Ansatz. Archiv für Psychologie, 1 3 8 ( 1 ) , 5 3 - 7 0 . «Es wird untersucht, wie sich verschiedene Merkmale einer Situation auf die Empfindung von Peinlichkeit und Scham auswirken. Das Universum der Situationen wird kreuzklassifiziert durch die Facetten