167 83 34MB
German Pages 83 [93] Year 1983
H ERAUSGEBER HUBERT FEGER C. F. G R A U M A N N KLAUS HOLZKAMP MARTIN IRLE
BAND
13 1982 HEFT 2
VERLAG HANS HUBER BERN STUTTGART WIEN
Zeitschrift für Sozialpsychologie 1982, Band 13, Heft 2 INHALT
Zu diesem Heft
65
Empirie W.: Sozialer Kontext als D e t e r m i n a n t e der w a h r g e n o m m e n e n Gerechtigkeit: Absolute u n d relative Gleichheit der G e winnaufteilung K L O C K H A U S , R . & H A B E R M A N N - M O R B E Y , B . : Entwicklung u n d Testung theoretisch begründeter I n s t r u m e n t e zur E r h e b u n g von Wohnumgebungszufriedenheit M U M M E N D E Y , A . & M U M M E N D E Y , H . D . : Selbstkonsistenz vs. G r u p p e n k o n f o r m i t ä t bei Selbstaufmerksamkeit: Die Rolle des Einflusses von Ingroupvs. O u t g r o u p WESTERMANN, R.: Z u r Messung von Einstellungen auf Intervallskalenniveau W I T T E , E . H . & M E L V I L L E , P . : Experimentelle K l e i n g r u p p e n f o r schung: Methodologische A n m e r k u n g e n u n d eine empirische Studie BIERHOFF, H .
66
79
88 97
109
Diskussion LEISER, E . :
Wie funktioniert sozialwissenschaftliche Statistik?
125
Literatur Neuerscheinungen
140
Titel u n d Abstracta
142
Nachrichten und Mitteilungen
144
Autoren
146
Vorschau auf die nächsten Hefte
147
C o p y r i g h t 1982 Verlag H a n s H u b e r Bern Stuttgart W i e n Herstellung: Satzatelier Paul S t e g m a n n , Bern Printed in Switzerland Library of Congress Catalog C a r d N u m b e r 78-126626 Die Zeitschrift für Sozialpsychologie wird in Social Sciences Citation Current Contents / Social and Behavioral Sciences erfaßt.
Index (SSCI) u n d
Zeitschrift fur Sozialpsychologie 1982
65
Zu diesem Heft Schon das Inhaltsverzeichnis signalisiert, daß die Angebote unserer Autoren primär diese Zeitschrift machen. In diesem Heft finden sich keine Beiträge unter dem Obertitel «Theorie und Methoden». Die Strategie der Herausgeber hat sich nicht geändert. In kommenden Heften kann auch die Empirie wieder einmal kürzer kommen, je nach dem Angebot von Autoren, aus dem wir nur jene Beiträge aussuchen können, die höher angesetzten wissenschaftlichen (oder individual- und sozialtechnologischen!) Standards genügen. Im Prinzip ist unsere Zeitschrift offener für theoretische Forschung als international nahezu alle vergleichbaren Zeitschriften. Im deutschen Sprachraum bietet
kaum eine andere Zeitschrift einen derart hohen Anteil von methodischen Beiträgen empirischer Sozialforschung an. Erneut wagen wir es, gezielt zur «Diskussion» herauszufordern. (Diesen Obertitel würden wir gerne viel häufiger einsetzen können.) E C K A R T LEISER hat seinen Diskussionsbeitrag sachkundig und aus persönlichem Engagement verfaßt; Letzteres ist ihm bei seinem Thema und seiner Betroffenheit ohne Vorbehalte zu konzedieren. Wir hoffen sehr, daß seine Kontrahenten zur Sache antWorten. ^ ^ Martin Irle I J
66
BierhofT: Sozialer Kontext als D e t e r m i n a n t e der w a h r g e n o m m e n e n Gerechtigkeit
Empirie Sozialer Kontext als Determinante der wahrgenommenen Gerechtigkeit: Absolute und relative Gleichheit der Gewinnaufteilung H A N S WERNER BIERHOFF Fachbereich Psychologie der Philipps-Universität Marburg
In drei Untersuchungen wurde LERNERS Arbeit über absolute u n d relative Gleichheit der Gewinnaufteilung bei Kindern fortgeführt. Die erste U n t e r s u c h u n g zeigte, d a ß die Beurteilung eines Verteilers von Belohnungen f ü r eine G r u p p e von Kindern, die als Team definiert ist, keine Anzeichen f ü r die Wirksamkeit der relativen Gleichheit der Gewinnaufteilung erbrachte. Stattdessen folgte die Bewertung der Herstellung/Verletzung der absoluten Gleichheit. Studie 2 ergab Hinweise darauf, daß die Bewertung eines Verteilers von Belohnungen f ü r eine G r u p p e von Kindern, die als unabhängige Mitarbeiter definiert sind, sowohl durch die absolute Gleichheit wie durch die relative Gleichheit der Gewinnaufleilung beeinflußt wird. In Studie 3 wurde die Bedeutung der Frage, ob Kinder als unabhängige Mitarbeiter oder als Team-Mitglieder definiert werden, direkter untersucht. Auf der Grundlage von B R I C K M A N & BRYANS e x p e r i m e n t e l l e m
Paradigma war
T h r e e studies were done that extend LERNER'S work on equity and parity a m o n g children. Study 1 demonstrated that the evaluation of a distributor of rewards for a g r o u p of children when defined as a team exhibited little evidence of the operation of equity considerations and closely followed the rule of parity. Study 2 found that the evaluation of the distributor of rewards for a group of children when defined as independent co-workers exhibited the use of the equity as well as parity n o r m s of justice. In Study 3 the importance of being defined as independent co-workers or team m e m b e r s as a determinant of equity and parity forms of justice was m o r e directly investigated. Based on BRICKMAN & BRYAN'S experimental paradigm, it was possible to separate the effects of violations of equity and parity. Results are discussed in terms of the practical and theoretical importance of social determinants of justice considerations.
es
möglich, die Effekte der Verletzung der relativen u n d der absoluten Gleichheit voneinander zu trennen. Die Ergebnisse werden unter Berücksichtigung der praktischen u n d theoretischen Bedeutung sozialer D e t e r m i n a n t e n von G e rechtigkeitsüberlegungen diskutiert.
Streben nach Gerechtigkeit läßt sich als soziales Motiv auffassen. Damit tritt die Frage nach den sozialen Bedingungen in den Vordergrund, die die Verwirklichung von Gerechtigkeit bzw. die Bevorzugung bestimmter Kriterien zur Herstellung einer gerechten Verteilung gegenüber anderen möglichen Kriterien beeinflussen. U m diese Frage zu beantworten, ist zunächst eine Unterscheidung möglicher Gerechtigkeitskriterien notwendig und außerdem eine Analyse des sozialen Kontextes als Determinante des Strebens nach Gerechtigkeit. Ü b e r einen Teil der Daten wurde auf der 32. Tagung der Deutschen Gesellschaft f ü r Psychologie in Zürich, September 1980, berichtet.
L E R N E R (1974a) unterscheidet vier Formen der Gerechtigkeit. Er geht von der zentralen Annahme aus, daß nicht eine einzige Gleichung der Definition einer gerechten Verteilung die Vielzahl von Situationen kennzeichnen kann, in denen das Streben nach Gerechtigkeit auftritt (LERNER, 1974a, p.333). In einigen Situationen werden die Vorleistungen und Anstrengungen der Interaktionspartner in Rechnung gestellt und mit den erzielten Konsequenzen verrechnet. In anderen Situationen werden die zur Verfügung stehenden Mittel primär danach verteilt, welche Bedürfnisse die einzelnen Interaktionspartner nachweisen können. Schließlich ist auch der Fall zu beachten, wo jede Person die gleiche Belohnung verdient un-
Zeitschrift für Sozialpsychologie 1982, 1 3 , 6 6 - 7 8
abhängig von Leistungsunterschieden und andererseits wo jeder das verdient, was er in Verfolgung seines Eigeninteresses erhalten kann, so lange er Vorschriften und Gesetze beachtet. Die genannten Formen der Gerechtigkeit lassen sich als Equity Prinzip (Herstellung relativer Gleichheit), Bedarfsprinzip, Prinzip absoluter Gleichheit und als Prinzip des legalen Selbstinteresses bezeichnen. LERNER (1975, 1976, 1977) hat diese Klassifikation auf sechs Formen der Gerechtigkeit ausgedehnt und die Entwicklungspsychologie des Strebens nach Gerechtigkeit betont (zur Kritik vgl. M I K U L A , 1981). In einer späteren Arbeit ( L E R N E R , 1981) wurde das Bezugssystem erneut erweitert. Von besonderem Interesse für die Sozialpsychologie ist die Gegenüberstellung von relativer und absoluter Gleichheit als Verteilungskriterium (siehe D E U T S C H , 1975; K A H N , O'LEARY, KRULEWITZ & LAMM, 1 9 8 0 ; SAMP-
SON, 1975). Beide Formen der Gerechtigkeit finden in ähnlichen Situationen Verwendung. Eine in diesem Zusammenhang grundlegende Untersuchungsserie wurde von LERNER (1974b) durchgeführt, die zu dem zweiten oben genannten Aspekt überleitet, dem sozialen Kontext als Determinante von Gerechtigkeitsentscheidungen. (Weitere Determinanten, wie Geschlecht und Aufgabencharakteristika - vgl. K A H N , O ' L E A R Y , K R U L E W I T Z & L A M M , 1980 - seien an dieser Stelle nur genannt.) In drei Studien wurde Kindern Gelegenheit gegeben, Belohnungen aufzuteilen ( L E R N E R , 1974b). Die Leistung des Aufteilers war entweder größer oder kleiner als die des Partners. In der ersten Studie, in der hervorgehoben wurde, daß die beiden Kinder als Team arbeiteten, fand sich ein Überwiegen der Herstellung absoluter Gleichheit in der Gewinnaufteilung. In der zweiten Studie, in der stärker die individuelle Leistung des einzelnen hervorgehoben wurde, ergab sich ein deutlicher Haupteffekt der Leistung: Kinder die mehr geleistet hatten, teilten sich selbst einen größeren Gewinn zu als dem Partner. Bei geringer Eigenleistung fand sich umgekehrt eine deutlich herabgesetzte Gewinnzuteilung an sich selbst. Dieses Resultat trat auch ein, wenn die Gewinnaufteilung von einem neutralen Beobachter vorgenommen wurde. Die diskrepanten Ergebnisse der beiden Stu-
67
dien legen die Vermutung nahe, daß das Muster der Interdependenz zwischen den Kindern einen Einfluß darauf ausübt, welche Form der Gerechtigkeit angestrebt wird. In Übereinstimmung mit dieser Vermutung ergab ein drittes Experiment, daß die Gewinnaufteilung relativ zu den Vorleistungen (Herstellung relativer Gleichheit) in einer Bedingung hervortrat, in der die individuelle Leistung des einzelnen betont wurde, während die Tendenz zur Herstellung absoluter Gleichheit in der Gewinnaufteilung deutlicher wurde, wenn die Kinder im Team gearbeitet hatten (obwohl ihre Leistung im Verhältnis von 3 : 1 ungleich war). Diese Untersuchungsserie zeigt, daß je nach sozialem Kontext Gerechtigkeit in unterschiedlicher Weise verwirklicht wird. In kooperativen Beziehungen, die das Prinzip wechselseitiger Interaktionen verkörpern (siehe JONES & G E R A R D , 1 9 6 7 ) und die sich mit D E U T S C H ( 1 9 4 9 ) als durch eine förderliche Zielinterdependenz gekennzeichnet ansehen lassen, wird ein Streben nach Gerechtigkeit ausgelöst, das sich an der Herstellung absoluter Gleichheit orientiert. Hingegen führt eine individualistische Orientierung, die MESSICK & M C C L I N T O C K ' S Motiv der Maximierung des eigenen Gewinns entspricht (1968, vgl. auch KELLEY & T H I B A U T , 1 9 7 8 ) , zu einer Bevorzugung der Herstellung von relativer Gleichheit (Equity). Für die Erfassung von Gerechtigkeitsverhalten ist das Untersuchungsparadigma von BRICKMAN & BRYAN ( 1 9 7 5 , 1 9 7 6 ) besonders gut geeignet, weil es erlaubt, eine Trennung von Effekten absoluter Gleichheit von denen relativer Gleichheit durchzuführen. Auf diese Weise wird eine Konfundierung dieser beiden Einflußfaktoren vermieden und differenziertere Aussagen (im Vergleich zu dem LERNER-Ansatz) werden ermöglicht. Das genannte Paradigma trägt der Tatsache Rechnung, daß relative und absolute Gleichheit gleichzeitig verwirklicht oder auch gemeinsam verletzt werden können. Eine systematische Erforschung dieser beiden Formen von Gerechtigkeit setzt ein 2 x 2 Design voraus, um die Herstellung/Verletzung der relativen/absoluten Gleichheit gegenüberstellen zu können. Der entsprechende Versuchsplan ist in Tabelle 1 dargestellt.
68
Bierhoff: Sozialer Kontextals Determinante der wahrgenommenen Gerechtigkeit
Tab. 1: Versuchsplan.
LV
6
6
6
6
LV
M B H
M B H
GV,
6
6
6
6
M
B
H
S
GV,
6
6
6
6
M
B
H
S
aG + RG +
GV,
6 M
aG + R G -
8
4
6
B
H
S
GV 2
6 M
a G - rG 11
LV
8
4
6
B
H
S
a G - RG + 12
6
8
4
6
M
B
H
S
LV
6
6
6
6
M
B
H
S
Wie aus Tabelle 1 deutlich wird, findet eine quantitative Gegenüberstellung der Leistungen und Gewinne von vier Personen statt, wobei die Leistungen und die Gewinnverteilung in zwei der Bedingungen gleich sind (und in zwei anderen Bedingungen unterschiedlich). Im Mittelpunkt der weiteren Analyse steht die Bewertung der ersten Gewinnverteilung. Die zweite Gewinnverteilung stellt eine Umverteilung dar, die zum Zweck der Untersuchung der Generalisierbarkeit der Ergebnisse einbezogen wurde. Im folgenden werden die Ergebnisse von drei Untersuchungen berichtet, deren Planung sich an der Untersuchungssequenz von L E R N E R (1974b) orientiert. In Studie 1 wird eine Teambedingung vorgegeben, während Studie 2 eine Non-Team Instruktion beinhaltet. In Studie 3 schließlich wird der Team-Faktor in das Design einbezogen. Zusammenfassend läßt sich feststellen, daß das Untersuchungsparadigma von BRICKMAN & BRYAN auf die Untersuchungssequenz von LERNER (1974b) mit dem Ziel angewandt wird, differenziertere Aussagen über die Auswirkungen der Herstellung/Verletzung von absoluter und relativer Gleichheit zu gewinnen.
Studie 1 GV,
Methode
GV, M
B
H
M
S
GV 2
6 M
6
6
6
B
H
S
aG+ r G 21
B
H
S
Herstellung der unabhängigen
Variablen
a G - rG
a G - rG +
GV 2
6 M
6
6
6
B
H
S
a G + rG + 22
Beachte: M, B, H und S sind Abkürzungen für die vier Mädchen. LV ist die Leistungsverteilung, während G Vx die Gewinnverteilung der Lehrerin ist und GV 2 Die Verteilung der Gewinne nach der Umverteilung durch M. aG und rG stehen für absolute und relative Gleichheit, die hergestellt ( + ) oder verletzt (—) werden. Die vier Versuchsbedingungen sind entsprechend mit 11,12,21 und 22 bezeichnet.
Die Versuchsteilnehmer erhielten das Material schriftlich. Es enthielt die Darstellung eines Szenarios, in dem ein Schulwettbewerb lOjähriger Kinder dargestellt wurde. Die Kinder klebten Figuren aus vorgefertigtem Material zusammen. Für die Sieger standen Preise in Form von Chips zur Verfügung, die gegen Spielzeuge eingetauscht werden konnten. Mit Hilfe von graphischen Darstellungen wurde erklärt, wieviele Figuren jedes von vier Mädchen hergestellt hatte und wieviele Chips jede der Schülerinnen von ihrer Lehrerin zur Belohnung erhielt. In einem 2 x 2 between-subjects Plan wurden diese beiden Verteilungen systematisch variiert (siehe Tab. 1). In einem dritten Schritt wurde zusätzlich darüber informiert, daß eines der Mädchen (M
69
Zeitschrift für Sozialpsychologie 1982, 1 3 , 6 6 — 78
in Tab. 1) die Gewinne umverteilte, wobei sie selbst keinen Vorteil aus der resultierenden zweiten Gewinnverteilung (GV2 in Tab. 1) zog: « A l s Maria allein in den Raum k o m m t und die Kästen mit den Chips sieht, bleibt sie stehen und sieht sich die Verteilung der Chips an. N a c h kurzem Zögern verändert sie die Zahl der Chips von Brigitte und H i l d e g a r d . . . »
In der Darstellung des Szenarios wurde betont, daß die Mädchen als Team zusammengearbeitet hatten und daß die einzelnen 4-Personen-Teams miteinander in Wettstreit lagen: « D i e Kinder sollen in Gruppen zu viert Figuren mit vorgefertigtem Material zusammenkleben. Jedes Team soll eine Stunde lang an der Aufgabe arbeiten . . . Die Preise werden an diejenigen Kinder verteilt, deren Team innerhalb einer Stunde die meisten Figuren zusammengeklebt hat.»
Abhängige
Variable
Die abhängigen Variablen beziehen sich auf zwei Cluster von Merkmalen, nämlich auf die Frage, ob die Lehrerin ihre Sympathie/Antipathie in die Verteilung einfließen läßt und zum zweiten auf die Billigung der Handlungsweise der Lehrerin. Das erste Cluster wurde durch zwei Fragen erfaßt: - Glauben Sie, daß die Lehrerin ihre Sympathien in die Verteilung der Chips mit einbezogen hat? - Glauben Sie, daß die Lehrerin ihre Antipathien in die Verteilung der Chips mit einbezogen hat? Das zweite Cluster wurde durch vier Fragen erfaßt: - Billigen Sie die Aufteilung der Chips durch die Lehrerin? - Glauben Sie, daß sich die Lehrerin fair verhalten hat? - Glauben Sie, daß sich die Lehrerin klug verhalten hat? - Glauben Sie, daß sich die Lehrerin gut verhalten hat? Zusätzlich wurde ein drittes Cluster von Fragen erhoben, das sich auf die Billigung der Schülerin bezieht, die die Chips im nachhinein
umverteilt. Die vier Fragen dieser Gruppe waren analog zu denen formuliert, die sich auf die Billigung der Lehrerin beziehen. Die Antworten wurden auf 11-Punkte-Skalen abgegeben, deren Endpunkte und Mittelpunkte mit verbalen Labels versehen waren (z. B. bei den Fragen des ersten Clusters «sehr wenig», «teils-teils», «sehr stark»). Die Versuchsteilnehmer sollten noch eine Reihe weiterer Fragen beantworten, die den Erfolg der experimentellen Manipulationen erfassen sollten. Insbesondere wurde gefragt, ob die Leistungen der Mädchen unterschiedlich gewesen waren und ob die Lehrerin die Chips ungleich verteilt hatte. Bei Ungleichheit der Leistung/ Belohnung sollte angegeben werden, welches Mädchen die erste und die letzte Position einnahm. Schließlich wurden die Versuchsteilnehmer gefragt, ob die Leistung der Mädchen getrennt oder gemeinsam zustandegekommen sei.
Stichprobe 30 überwiegend weibliche Studenten, die eine Veranstaltung zur Einführung in die Methoden der Psychologie besuchten, nahmen an der Untersuchung teil. In den einzelnen Versuchsbedingungen finden sich 9, 9, 7 und 5 Personen. Die Ungleichheit der Zellfrequenzen wurde durch die Wahl eines entsprechenden Auswertungsverfahrens berücksichtigt (siehe unten).
Ergebnisse Die Analyse der Kontrollfragen zeigt, daß die experimentellen Manipulationen Erfolg hatten. Die Unterschiedlichkeit der Leistungen und Belohnungen wurde im allgemeinen korrekt wahrgenommen. Was die Leistung der Mädchen angeht, so stellten 15 Beurteiler Unterschiede fest, wenn sie vorhanden waren. Nur ein Beurteiler stellte in diesem Fall keine Unterschiede fest. Umgekehrt gaben 11 von 14 Beurteilern bei gleicher Leistung an, daß die Leistung gleich gewesen war. Alle 18 Beurteiler nahmen korrekterweise eine Gleichverteilung der Belohnungen wahr. Andererseits gaben 9 von 10 Beurteilern bei ungleicher Belohnungs-
70
BierhofF: Sozialer Kontext als Determinante der w a h r g e n o m m e n e n Gerechtigkeit
Verteilung eine angemessene Antwort. In bezug auf die zweite Gewinnverteilung (Umverteilung) registrierten alle 10 Beurteiler bei Gleichheit der neuen Verteilung das korrekte Ergebnis. 17 von 18 Versuchsteilnehmern nahmen eine gegebene Ungleichheit als Ergebnis der Umverteilung korrekt wahr. Weiter oben war die A n n a h m e gemacht worden, daß die abhängigen Variablen in drei Cluster eingeteilt werden können. U m diese Annahme zu prüfen, wurde mit den 10 Variablen eine Faktorenanalyse durchgeführt. Drei Faktoren wurden extrahiert und dann nach drei Kriterien (Equimax, Orthogonal, Oblique; vgl. N I E , H U L L , JENKINS, STEINBRENNER &
BENT,
1975) rotiert. Es ist anzumerken, daß sich die Anzahl von drei Faktoren als optimal erweist, wenn man das Kriterium eines Eigenwertes von größer 1 heranzieht. Die Eigenwerte betragen 5.94, 1.67 und 1.07 für die ersten drei Faktoren und .48 für den nächstfolgenden Faktor. Eine Equimax Rotation führt zu einer fast perfekten Aufteilung der höchsten Ladungen der Variablen auf die drei Faktoren (verglichen mit der apriori Einteilung). Die vier Beurteilungen der Schülerin (Billigung der Schülerin) laden hoch auf einem Faktor, wobei die Faktorladungen .92, .71, .72 und .83 betragen. Die nächsthöchste Ladung auf diesem Faktor beträgt — .40. Die vier Beurteilungen der Lehrerin (Billigung der Lehrerin) laden ebenfalls sehr hoch auf einem gemeinsamen Faktor (.81, .82, . 70, .81 ). Die nächsthöchste Ladung auf diesem Faktor liegt bei - . 5 1 . Schließlich ist der dritte Faktor durch die hohen Ladungen der Sympathie-Items charakterisiert, die .99 und .87 betragen (nächsthöchste Ladung: — .33). Bei orthogonaler Rotation tritt dieselbe Aufteilung der Variablen auf die Faktoren auf, wenn die Trennung auch nicht ganz so deutlich ist. Hingegen ergibt eine oblique Rotation eine noch ausgeprägtere Trennung der drei Variablengruppen. Offensichtlich hat sich die apriori-Aufteilung der Variablen auf drei Cluster bewährt. Da die entsprechenden Variablen jeweils sehr hoch auf den zugeordneten Faktoren laden, kann man davon ausgehen, daß sie jeweils dasselbe Merkmal messen. Daher wurden die Werte für diese Variablen in jedem Cluster addiert. Die drei Summenscores bilden die zentralen abhängigen Variablen: Billigung der
Lehrerin (I), Sympathie der Lehrerin (II), Billigung derSchülerin (III).
Einschätzung der Lehrerin und der Schülerin Die varianzanalytische Auswertung wurde mit Rücksicht auf ungleiche Zellfrequenzen mit dem regressionsanalytischen Verfahren von O V E R A L L & SPIEGEL (1969) bzw. O V E R A L L & K L E T T (1972) durchgeführt (vgl. auch O V E R ALL, SPIEGEL & C O H E N , 1975). Dabei wird - im wesentlichen - das Ausmaß erklärter Varianz für verschiedene Varianzquellen (absolute Gleichheit = A, relative Gleichheit = B, A x B und Fehler) bestimmt, u m dann die resultierenden R 2 -Werte mit dem Wert der totalen Quadratsumme zu multiplizieren. In Analogie zu dem klassischen varianzanalytischen Vorgehen wurde Modell 2 von O V E R ALL & K L E T T gewählt. Im Prinzip wird in diesem Ansatz zunächst einmal ein HaupteffektModell verwendet, um die Quadratsummen der beiden Haupteffekte zu bestimmen. Daran anschließend wird die Quadratsumme der Interaktion unter Berücksichtigung der Haupteffekte berechnet. Es sei erwähnt, daß in allen Fällen (auch in Studie 3) das Ergebnismuster dieser Form der Analyse im Vergleich zu dem konventionellen Vorgehen einer unweightedmeans Analyse ähnliche Resultate erbringt. Das spricht dafür, daß die Resultate nicht von dem gewählten Auswertungsverfahren abhängigsind. Für alle drei abhängigen Variablen stellt sich ein hochsignifikanter F-Wert für den Faktor absolute Gleichheit ein (F, = 68.79, df = 1/26, p < .001 ; F „ = 18.35, df = 1/26, p < .001 ; F m = 13.74, df = 1/26, p < .001). Alle anderen Effekte sind unbedeutend (MS F e h i e r beträgt 43.37, 21.85 und 70.56 für die drei Variablen). Die Mittelwerte in den vier Bedingungen sind in Tabelle 2 enthalten. Tabelle 2 zeigt, daß die Richtung der Effekte in allen drei Variablen gleich ist. Wenn absolute Gleichheit hergestellt wird, erfolgt eine positivere Bewertung des Herstellers als wenn absolute Gleichheit verletzt wird. Die Verletzung/ Herstellung relativer Gleichheit schlägt sich in den Urteilen nicht bedeutsam nieder. Daraus ergibt sich, daß die tatsächliche Leistung kei-
71
Zeitschrift für S o z i a l p s y c h o l o g i e 1982, 1 3 , 6 6 - 7 8 Tab. 2: Ergebnisse v o n Studie 1. 2
Bedingung' (aG, rG)
A b h ä n g i g e Variable I
II
III
(11) + + (12) + (21)- + (22) - -
29.00 30.56 8.50 9.40
3.00 2.67 8.33 12.60
30.40(22) 33.43 (21) 23.00(12) 18.33(11)
Beachte: Abkürzungen: a G = absolute Gleichheit; rG = relative G l e i c h h e i t , + und - b e z i e h e n sich auf die Versuchsbedingungen (siehe F u ß n o t e zu Tab. 1). 1 Jede Bedingung ist durch e i n e K o m b i n a t i o n von + und — Z e i c h e n gekennzeichnet, die den Variablen a G und rG zugeordnet sind. 2 Für 1 und III zeigen höhere Werte eine größere Billigung des Verhaltens an. Für II zeigen niedrigere Werte einen geringeren Einfluß v o n S y m p a t h i e an.
« D i e Kinder sollen zu viert Figuren mit vorgefertigtem Material z u s a m m e n k l e b e n , w o b e i jedes Kind eine Stunde lang getrennt an der Aufgabe arbeitet. . . . D i e Preise werden an diejenigen Kinder verteilt, die innerhalb einer Stunde die meisten Figuren z u s a m m e n g e k l e b t h a b e n . »
Stichprobe 24 überwiegend weibliche Studenten wurden auf die vier Bedingungen aufgeteilt. Sie waren Teilnehmer einer Veranstaltung zur Allgemeinen Psychologie I. In jeder Versuchsbedingung befanden sich sechs Personen.
Ergebnisse nen Einfluß auf die Bewertung der Aufteilung der Gewinne in dieser Studie ausübt.
Studie 2 Während Studie 1 mit dem Ziel geplant worden war, den Eindruck einer Teamarbeit hervorzurufen, ging es in Studie 2 darum, den getrennten Beitrag jedes einzelnen zu betonen. Dabei lag die Vorstellung zugrunde, daß im Kontext getrennter Arbeit das Prinzip der relativen Gleichheit an der Stelle des Prinzips absoluter Gleichheit bei Teamarbeit treten oder es zumindest ergänzen sollte. Diese A n n a h m e stimmt mit den Untersuchungsergebnissen von L E R N E R (1974b, Exp. 2) und B R I C K M A N & B R Y A N (1976) überein und läßt sich auch theoretisch begründen. Denn die Betonung der Einzelleistung sollte den Aspekt der relativen Leistung jedes einzelnen im Vergleich zu den anderen hervorheben, wie er genau im Prinzip relativerGleichheitberücksichtigtwird. Die Herstellung der unabhängigen Variablen und die Messung der abhängigen Variablen erfolgte in derselben Weise wie in Studie 1. Erneut wurde ein 2 x 2 between-subjects Versuchsplan zugrundegelegt und - neben den Kontrollfragen - drei Gruppen von abhängigen Variablen erhoben. Im Unterschied zu Studie 1 wurde aber in der Beschreibung des Szenarios betont, daß die vier Mädchen getrennt arbeiteten:
Eine Analyse der Kontrollfragen zeigt wie in Studie 1, daß die experimentellen Variationen angemessen wahrgenommen wurden. Was die Frage nach der Teamarbeit betrifft, so glaubten 12 Beurteiler, daß die Arbeit getrennt geleistet wurde, während 9 Beurteiler sie als Teamarbeit einstuften (3 gaben keine Antwort). Das ist eine Umkehrung der Ergebnisse aus Studie 1. Ein Test zeigt, daß die Einschätzung «Teamarbeit» in Studie 1 relativ häufiger auftrat als in Studie 2 (Chi 2 = 4.055; df = 1; p < .05). Somit kann man feststellen, daß die Schilderung des Szenarios in Studie 2 in der gewünschten Weise einen von Studie 1 abweichenden Eindruck hervorrief, wenn der Unterschied auch n u r mäßig stark ausgeprägt ist. Umso bemerkenswerter sollte es sein, wenn sich in dieser Studie ein Effekt der relativen Gleichheit zeigt. Erneut findet sich, daß sich die 10 abhängigen Variablen drei Faktoren in der erwarteten Weise zuordnen lassen. Die Eigenwerte der ersten drei Faktoren betragen 5.57,1.99 und 1.35. Nach Rotation ist das Muster der Faktorladungen dem in Studie 1 ähnlich. In der Tat gelingt die erwartete Zuordnung der Variablen zu den Faktoren noch etwas besser als in Studie 1. Daher wurden wieder drei Summenscores für die Variablen 1 (Billigung der Lehrerin), II (Sympathie) und III (Billigung der Schülerin) gebildet.
72
Bierhoff: Sozialer Kontext als Determinante der w a h r g e n o m m e n e n Gerechtigkeit
Einschätzung der Lehrerin u n d der Schülerin
Diese Ergebnisse stehen mit denen von (1976) in guter Übereinstimmung. In der Tat kann m a n sagen, daß ihre Resultate in bezug auf den Einfluß von absoluter u n d relativer Gleichheit repliziert werden. A u ß e r d e m ist eine Unterstützung der oben vorgetragenen Hypothese festzustellen. Das Prinzip relativer Gleichheit tritt zwar nicht an die Stelle des Prinzips absoluter Gleichheit, aber es ergänzt dieses Prinzip als bedeutsamen Einflußfaktor auf die Billigung der Lehrerin u n d der Schülerin. Somit bewährt sich die Version der Hypothese. BRICKMAN & BRYAN
Bei gleichen Zellfrequenzen wurden konventionelle 2 x 2 Varianzanalysen berechnet. (Wegen fehlender Daten m u ß t e für die dritte abhängige Variable eine Versuchsperson aus der Datenanalyse ausgeschlossen werden. A u c h in diesem Fall wurde eine unweightedm e a n s Analyse durchgeführt.) Was die Billigung der Lehrerin angeht, so finden sich zwei signifikante Haupteffekte f ü r absolute Gleichheit (F = 17.01; df = 1/20; p < .001) u n d relative Gleichheit (F = 7.70; df = 1/20; p < .05) bei M S F e h l ? r = 66.71. Wie aus Tabelle 3 hervorgeht, ist die Billigung dann jeweils höher, wenn jedes der beiden Gerechtigkeitsprinzipien verwirklicht wird. F ü r die Einschätzung der Sympathie finden sich keine signifikanten F-Werte, auch nicht f ü r die beiden Haupteffekte (F = 3.42 u n d 2.15; df = 1/20; p > .05). Allerdings gehen die Mittelwertunterschiede in dieselbe Richtung wie bei der Billigung der Lehrerin (siehe Tab. 3) u n d der F-Wert f ü r den Haupteffekt der absoluten Gleichheit liegt n a h e an der Signifikanzgrenze. Was die Billigung der Schülerin angeht, so finden sich erneut zwei signifikante Haupteffekte f ü r absolute Gleichheit (F = 11.91; df = 1/19; p < .01) u n d relative Gleichheit (F = 8.24; df = 1/19; p < .01)bei einem M S F e h l e r = 87.01. Die Mittelwertunterschiede sind dem Muster nach denen der beiden anderen Variablen vergleichbar (siehe Tab. 3).
Tab. 3: Ergebnisse von Studie 2. Bedingung 1 (aG, rG)
Abhängige Variable 2 I
II
III
(11) + + (12) + (21)- + (22) - -
31.00 21.17 16.67 8.00
3.00 3.83 4.67 10.17
34.33 (22) 24.60(21) 22.33(12) 9.67(11)
Beachte: Abkürzungen: aG = absolute Gleichheit; rG = relative Gleichheit, + und — beziehen sich auf die Versuchsbedingungen (siehe F u ß n o t e zu Tab. 1). 1 Jede Bedingung ist durch eine K o m b i n a t i o n v o n + und — Zeichen gekennzeichnet, die den Variablen aG und rG zugeordnet sind. 2 Für I und III zeigen höhere Werte eine größere Billigung des Verhaltens an. Für II zeigen niedrigere Werte einen geringeren Einfluß von Sympathie an.
Studie 3 Aus den unterschiedlichen Ergebnissen der ersten beiden Studien läßt sich die Vermutung ableiten, daß der T e a m f a k t o r einen U n t e r schied bei der Einschätzung des Aufteilungsverhaltens macht. Wenn im T e a m gearbeitet wird, erweist es sich als relevant, ob absolute Gleichheit hergestellt wird oder nicht. Hingegen ist bei getrennter Arbeit auch die Frage bedeutsam, ob das Prinzip relativer Gleichheit verletzt wird oder nicht. U m den Einfluß des Teamfaktors direkt zu überprüfen, wurde ein 2 x 2 x 2 Plan mit den Faktoren absolute Gleichheit, relative Gleichheit u n d T e a m / N o n - T e a m hergestellt. Im A n schluß an L E R N E R (1974b, Exp. 3) sollte auf diese Weise mit dem Paradigma von B R I C K M A N & B R Y A N gezeigt werden, daß absolute Gleichheit generell die Beurteilung des Aufteilungsverhaltens beeinflußt, während relative Gleichheit in Interaktion mit dem Teamfaktor wirksam wird. D e r Versuchsablauf war identisch zu dem in den ersten beiden Studien. Allerdings wurde n u n der Teamfaktor explizit variiert, indem ein Teil der Beurteiler die Team-Instruktion erhielt (vgl. Studie 1) u n d ein anderer Teil die N o n Team-Instruktion (vgl. Studie 2). Die abhängigen Variablen wurden wie in den beiden vorangegangenen Studien erhoben.
Stichprobe An der U n t e r s u c h u n g n a h m e n 81 Studenten der Pädagogischen Hochschule A a c h e n teil, die
73
Zeitschrift fur Sozialpsychologie 1982, 1 3 , 6 6 - 7 8
eine Veranstaltung zur Sozialisation besuchten 1 . Die Zellfrequenzen variierten zwischen 8 und 12.
Ergebnisse Da eine Einbeziehung des Geschlechtsfaktors zu kleine Zellfrequenzen in einzelnen Zellen hervorgerufen hätte, wurde auf eine Analyse von Geschlechtsunterschieden verzichtet. Eine Analyse der Kontrollfragen zeigte wie in den vorangegangenen Studien, daß die experimentellen Bedingungen angemessen realisiert wurden. So gaben 31 Beurteiler an, daß die Leistung gleich war, und 7 meinten , wenn die Leistung tatsächlich gleich war. Andererseits wurde die Ungleichheit der Leistung von 36 Beurteilern bemerkt und von 2 Beurteilern nicht beachtet (5 Beurteiler machten dazu keine Angaben). Ähnlich liegen die Dinge bei der Wahrnehmung einer unterschiedlichen Verteilung der Belohnungen durch die Lehrerin: Bei tatsächlicher Gleichheit gaben 34 von 36 Versuchsteilnehmern die korrekte Antwort, bei tatsächlicher Ungleichheit 35 von 39 (während 6 Beurteiler keine Antwort auf die entsprechende Frage gaben). Auch die Umverteilung der Belohnung durch die Schülerin wurde wie intendiert wahrgenommen: Bei tatsächlicher Gleichheit antworten 36 von 38 korrekt, bei tatsächlicher Ungleichheit sind alle 34 Urteile korrekt (während 9 Personen keine Angaben machten). Schließlich ist die Frage von Interesse, ob die Variation des Team-Faktors unterschiedliche Urteile hervorrief. In der Teambedingung wurde 23mal mit «Team» geantwortet und 7mal mit «getrennt», während in der Non-Team-Bedingung 22mal mit «getrennt» und 17mal mit «Team» geantwortet wurde. Diese Häufigkeitsverteilungen unterscheiden sich in statistisch bedeutsamer Weise (Chi 2 = 7.61; df = 1; p < .01). Für die 10 abhängigen Variablen wurde erneut eine Faktoranalyse berechnet. Die Eigenwerte für die ersten drei Faktoren betragen 5.38; 1.60 und 1.43. Nach Varimax-Rotation 1
D e r A u t o r m ö c h t e DOROTHF.F BIERHOFF-ALFERMANN
für die Hilfe bei der Erhebung der Daten danken.
betragen die Ladungen auf dem Faktor Billigung der Schülerin .84, .86, .83 und ,83,aufdem Faktor Sympathie .95 und .96 und auf dem Faktor Billigung der Lehrerin .83, .85, .88 und .89 für die apriori zugeordneten Variablen. Die dem Faktor nicht zugeordneten Merkmale weisen relativ niedrige Ladungen auf, für den ersten Faktorbis zu .39, im zweiten Faktorbis zu .18 und im dritten Faktor bis zu .32. Wie in den ersten beiden Studien wurden - von diesen Ergebnissen ausgehend - drei Summenscores gebildet, die die zentralen abhängigen Variablen derstatistischen Analyse darstellen. Einschätzung der Lehrerin und der Schülerin Wegen der ungleichen Zellfrequenzen wurde wie in Studie 1 - das regressionsanalytische Verfahren von O V E R A L L & K L E T T zur varianzanalytischen Auswertung herangezogen. Die Ergebnisse der Varianzanalyse sind in Tabelle 5 enthalten, während Tabelle 4 die Mittelwerte für die drei abhängigen Variablen in den acht Versuchsbedingungen enthält. Für Variable I finden sich starke HauptefFekte der absoluten und relativen Gleichheit. Wie die Mittelwerte in Tabelle 4 zeigen, ist die Billigung der Lehrerin jeweils höher, wenn diese Prinzipien einer gerechten Verteilung hergestellt werden als wenn sie verletzt werden. Die günstigsten Einschätzungen finden sich, wenn Tab. 4: Ergebnisse von Studie 3. Bedingung 1 (T, aG, rG)
Abhängige Variable 2 I
II
III
(11) (12) (21) (22)
+ + -
22.00 21.80 6.80 5.50
7.22 2.80 9.00 8.75
35.75(22) 27.30 (21) 24.67(12) 15.33(11)
(11)- + + (12)- + (21)-- + (22)
25.75 14.55 16.90 3.64
1.25 7.09 7.40 8.27
30.73 (22) 25.30 (21) 27.18(12) 14.25(11)
+ + + +
+ + -
Beachte: Abkürzungen: aG = absolute Gleichheit; rG = relative Gleichheit; T = Team. + und - beziehen sich auf die Versuchsbedingungen. ' Jede Bedingung ist durch eine Kombination von + und — Zeichen gekennzeichnet, die den Variablen T, aG und rG zugeordnet sind. 2 Für I und III zeigen höhere Werte eine größere Billigung des Verhaltens an. Für II zeigen niedrigere Werte einen geringeren Einfluß von Sympathie an.
74
Bierhoff: Sozialer Kontext als Determinante der wahrgenommenen Gerechtigkeit
Tab. 5: OVERALL & KLETT Varianzanalysen, Studie 3
Quelle
I df
aG(A) rG(B) T(C) A x B A x C B x C A x Bx C Fehler
II MS
1 3369.7 1 923.2 1 23.1 1 11.5 1 173.1 1 657.8 1 0.0 73 87.6
III
F
df
MS
38.48*** 10.54*** < 1 < 1 1.98 7.51** < 1
1 270.3 1 14.7 1 20.6 1 5.9 1 2.9 1 161.6 1 82.3 32.5 73
F
df
MS
F
8.31** < 1 < 1 < 1 < 1 4.97* 2.53
1 1 1 1 1 1 1 73
1748.5 1664.2 10.5 94.8 136.9 0.0 21.1 95.5
18.30*** 17.42*** < 1 < 1 1.43 < 1 < 1
* p < .05; ** p < .01; *** p < .001.
beide Prinzipien hergestellt werden und die niedrigsten Einschätzungen, wenn beide Prinzipien verletzt werden. Zusätzlich ergibt sich bei Variable I eine signifikante Interaktion Team x relative Gleichheit, die fTir die theoretische Analyse von zentraler Bedeutung ist. Wie man anhand von Abbildung 1 sieht, beruht der Haupteffekt der relativen Gleichheit ausschließlich auf den Bedingungen, in denen getrennte Arbeit gegeben ist. Bei getrennter Arbeit wird die Herstellerin relativer Gleichheit deutlich mehr gebilligt als die Verletzerin relativer Gleichheit. Hingegen ergibt die Herstellung/Verletzung dieses Prinzips keinen bemerkenswerten Unterschied in den
Team-Bedingungen. Eine simple-effect Analyse unterstützt diese Interpretation, insofern der Unterschied zwischen Herstellung und Verletzung der relativen Gleichheit nur in der NonTeam Bedingung statistisch (hoch) signifikant ist(F = 10.055;df = l / 7 3 ; p < .001). Dieses Resultat steht in Übereinstimmung mit der theoretischen Analyse, wonach das Prinzip relativer Gleichheit vor allem dann bedeutsam wird, wenn die individuelle Leistung in der Arbeitssituation hervorgehoben wird. Andererseits wirkt sich die Herstellung/Verlet-
Sympathie (II)
15. — Herstellung von rG
Billigung (I)
Verletzung von rG 20 _ Herstellung von rG
10_
Verletzung von rG
15 _
10
T
Team Abb./.
~T Non-Team
Interaktion Team x relative Gleichheit für I.
"T
Team
"T" Non-Team
Abb. 2: Interaktion Team x relative Gleichheit für II.
Zeitschrift f ü r Sozialpsychologie 1982, 1 3 , 6 6 - 7 8
zung absoluter Gleichheit unabhängig von dem sozialen Kontext auf die Billigung der Lehrerin aus. Die Analyse für die Variable II bestätigt dieses Ergebnismuster. Einerseits zeigt der Hauptefifekt der absoluten Gleichheit, daß man glaubt, die Belohnungsverteilung sei weniger durch Sympathie/Antipathie verzerrt, wenn die Lehrerin absolute Gleichheit herstellt. Dieses Ergebnis ist unabhängig von dem gegebenen sozialen Kontext. Anders bei der relativen Gleichheit, deren Herstellung/Verletzung sich in Abhängigkeit von dem sozialen Kontext auswirkt (siehe Abb. 2). Die cross-over Interaktion in Abbildung 2 bringt zum Ausdruck, daß bei getrennter Arbeit ein Sympathieeinfluß stärker unterstellt wird bei Verletzung der relativen Gleichheit als bei Herstellung relativer Gleichheit (F = 4.473; df = 1/73; p < .05). Andererseits findet sich eine Tendenz zur Unterstellung von mehr Sympathieeinflüssen bei Herstellung (anstelle von Verletzung) relativer Gleichheit, wenn im Team gearbeitet wird (F = 2.064; df = 1/73; n.s.). Für Variable III finden sich zwei deutliche HauptefTekte für absolute und relative Gleichheit. Die Schülerin wird jeweils mehr gebilligt, wenn sie entweder das Prinzip absoluter oder das Prinzip relativer Gleichheit in ihrer Umverteilung der Belohnungen verwirklicht. Der soziale Kontext wirkt sich auf diese Urteile nicht aus. In der Diskussion wird dieses Ergebnismuster für die Billigung der Schülerin mit dem der Billigung der Lehrerin verglichen.
Diskussion Zunächst einmal läßt sich feststellen, daß das Prinzip relativer Gleichheit und das Prinzip absoluter Gleichheit nicht in Interaktion treten, wenn das Verhalten einer aufteilenden Person beurteilt wird. Der unabhängige Einfluß beider Prinzipien wird durch die Ergebnisse von Studie 2 dokumentiert: Die Verletzung des einen oder des anderen Prinzips führt zu einer geringeren Billigung der Lehrerin bzw. der Schülerin. Diese Ergebnisse stimmen mit den Resultaten von B R I C K M A N & B R Y A N (1976) überein, die
75 dasselbe Untersuchungsparadigma verwenden. Wenn auch in den Untersuchungsprozeduren einige Abweichungen zu konstatieren sind (z. B. einerseits Verwendung von Videoaufnahmen andererseits Verwendung eines schriftlich dargestellten Szenarios), so liegt doch eine wesentliche Übereinstimmung darin, daß in beiden Studien keinerlei Betonung einer Teamarbeit gegeben war und somit keine Einheit der Arbeitsgruppe hervorgehoben wurde. Unter diesen Non-Team Umständen erbringt das Untersuchungsparadigma eindeutige Hinweise darauf, daß das Prinzip absoluter und das Prinzip relativer Gleichheit unabhängig voneinander in den Urteilen Berücksichtigung finden. Anders liegen die Dinge, wenn die Einheit als Team betont wird (Studie 1). In diesem sozialen Kontext sind die Urteile der Billigung (von Lehrerin und Schülerin) bzw. der wahrgenommenen Sympathieeinflüsse nur von der Verwirklichung/Verletzung des Prinzips absoluter Gleichheit abhängig. Dieser Kontrast der Ergebnisse (zu Studie 2 bzw. zu B R I C K M A N & B R Y A N , 1976) erinnert sehr stark an die Ergebnisdiskrepanzen, die L E R N E R (1974b) in seinen beiden ersten Studien fand. Zwar erlaubte seine Untersuchungsprozedur nicht die unabhängige Erfassung der Auswirkungen absoluter/relativer Gleichheit, aber bei Aufteilungsaufgaben, bei denen man sich entweder an das eine oder an das andere Prinzip annähern konnte, fand er eine stärkere Beachtung des Equity-Prinzips, wenn ein Non-Team Kontext gegeben war (aber nicht in der Team-Studie, in der das Prinzip absoluter Gleichheit bevorzugt wurde). Die Übereinstimmung mit den Ergebnissen von L E R N E R (1974b) gehen aber noch weiter. Eine Variation des sozialen Kontextes ergab sowohl bei L E R N E R (1974b, Studie 3) wie in der hier berichteten Studie 3 eine statistische Interaktion zwischen Team und Aufteilungsverhalten. Das Equity-Prinzip wird beachtet, wenn eine Non-Team Bedingung gegeben ist, während es unter Team-Bedingungen ohne Bedeutungbleibt. Die Übereinstimmung in der Interpretation der Ergebnisse ist umso bemerkenswerter, wenn man bedenkt, daß L E R N E R (1974b) einen völlig anderen Untersuchungsansatz wählte. Während er Kinder Belohnungen aufteilen ließ, sollten die Studenten in den hier berichte-
76
Bierhoff: Sozialer Kontext als Determinante der wahrgenommenen Gerechtigkeit
ten Untersuchungen das Verhalten von Personen beurteilen, die Belohnungen verteilten. In dem einen Fall ergab sich, daß das Equity-Prinzip im konkreten Aufteilungsverhalten eher berücksichtigt wurde, wenn eine Non-Team Bedingung gegeben war, während sich andererseits fand, daß eine Equity-Verteilung der Belohnungen bei der Lehrerin stärker gegenüber Kindern gebilligt wurde, die getrennt gearbeitet hatten. Zusammenfassend kann man feststellen, daß sowohl die Untersuchungsergebnisse von LERNER (1974b) wie die von B R I C K M A N & BRYAN (1976) repliziert werden konnten. Weiterhin ergaben sich Hinweise, die über beide Arbeiten hinausgehen. Einerseits konnte gezeigt werden, daß das Equity-Prinzip vor allem unter NonTeam Bedingungen berücksichtigt wird. Andererseits ergab sich in Ergänzung zu LERNER (1974b), daß die Verwendung des Equity-Prinzips je nach Kontext unterschiedlich beurteilt wird, während die Verwendung des Prinzips absoluter Gleichheit keine vergleichbare Situationsabhängigkeit aufweist. In diesem Zusammenhang kann darauf verwiesen werden, daß Beurteiler das Prinzip absoluter Gleichheit für sich bevorzugen ( K A H N , L A M M & N E L S O N , 1977). Erwähnenswert ist an dieser Stelle das Ergebnis, daß sich die Team x Equity Interaktion nur für die Beurteilung der Lehrerin findet, jedoch nicht in den Urteilen über die Schülerin. Man kann an dieser Stelle n u r spekulieren, wie es zu diesem Unterschied in der Beurteilung kommt. Aber eine naheliegende Möglichkeit besteht darin, daß die studentischen Beurteiler einem zehnjährigen Mädchen zugutehalten, daß es den sozialen Kontext noch nicht berücksichtigen kann. Andererseits erwarten sie von der Lehrerin, daß sie den sozialen Kontext bei der Belohnungsvertei lung in Betracht zieht. Wenn die Ergebnisse der drei hier berichteten Studien darauf hindeuten, daß die Aufteilung von Gewinnen unter Berücksichtigung des sozialen Kontextes beurteilt wird, so reiht sich diese Untersuchung ein in eine Serie von Arbeiten, die in der einen oder anderen Weise auf die Bedeutsamkeit des sozialen Kontextes in Aufteilungssituationen aufmerksam gemacht haben. So fand B E N T O N (1971), daß Mädchen gegenüber einer neutralen Partnerin oder einer
Freundin eher eine Aufteilung nach dem Prinzip absoluter Gleichheit akzeptierten, während sie gegenüber einer Partnerin, die in soziometrischen Wahlen als Nicht-Freundin charakterisiert worden war, eher eine Aufteilung nach dem Prinzip relativer Gleichheit akzeptierten. Bei Jungen fanden sich keine vergleichbaren Resultate. G R E E N B E R G ( 1 9 7 8 ) variierte das Ausmaß, in dem sich ein (benachteiligter) Partner revanchieren konnte. Er fand dabei sehr komplexe Ergebnisse in Abhängigkeit von der zur Verfügung stehenden Belohnungshöhe. So zeigten sich die Aufteiler zunehmend egoistisch, wenn der Belohnungswert zunahm und keine Revanche zu befürchten war. Andererseits zeigten sich die Aufteiler zunehmend altruistisch, wenn der Partner die halbe oder die doppelte Macht ausübte wie man selbst. Der soziale Einfluß auf das Aufteilungsverhalten kann auch durch den Status bestimmt werden, den Personen haben, denen das gezeigte Aufteilungsverhalten bekannt wird. Wenn man erwartet, daß der Experimentator über die Aufteilungsentscheidung informiert wird, bevorzugt man eher das Prinzip relativer Gleichheit, während man sich eher am Prinzip absoluter Gleichheit orientiert, wenn die Partner, die den gleichen Status wie man selbst haben, über die Aufteilungsentscheidung informiert werd e n (REIS & G R U Z E N , 1976).
Einen anderen Einfluß des sozialen Kontextes fand S H A P I R O ( 1 9 7 5 ) . Wenn die Versuchspersonen eine hohe Leistung erzielt hatten, ergab sich ein Einfluß des sozialen Kontextes auf das Aufteilungsverhalten (bei niedriger Leistung wurde generell eine Equity-Aufteilung bevorzugt, vgl. K A H N , L A M M & N E L S O N , 1 9 7 7 , die eine hohe Einschätzung der Attraktion des Aufteilers fanden, wenn er/sie bei hoher Leistung absolute Gleichheit und bei geringer Leistung relative Gleichheit bevorzugte). Wenn eine Interaktion erwartet wurde, teilte man eher nach dem Prinzip absoluter Gleichheit auf, während ohne Interaktionserwartung mehr nach dem Prinzip relativer Gleichheit aufgeteilt wurde. Interessante zusätzliche Hinweise ergeben sich aus dem Vergleich der Ergebnisse zweier Experimente, die von K A H N , N E L S O N & G A E D DERT ( 1 9 8 0 ) berichtet werden. Während in der
77
Zeitschrift für Sozialpsychologie 1982, 1 3 , 6 6 - 7 8
ersten Studie einem M a n n gegenüber, der eine niedrige Leistung vorzuweisen hat, ausgiebig von der Equity-Aufteilungsregel Gebrauch gemacht wird, zeigt sich in der zweiten Studie durchgehend eine Bevorzugung des Prinzips absoluter Gleichheit. Der G r u n d für diese Ergebnisdiskrepanz ist darin zu suchen, daß in Studie 1 die Partner nicht persönlich bekannt waren, während in Studie 2 der Aufteiler zus a m m e n mit seinen zwei Partnern an einem Tisch saß. Schließlich fand sich auch in der Untersuchung von G R E E N B E R G (1979) ein ähnlicher Effekt des sozialen Kontextes. Bei Interaktionserwartung teilte der einzelne Aufteiler nach dem Prinzip der absoluten Gleichheit unter zwei Personen auf, während o h n e eine Interaktionserwartung eine Aufteilung nach dem Prinzip relativer Gleichheit bevorzugt wurde. D a ß das Aufteilungsverhalten mit genauer Berücksichtigung des sozialen Kontextes vonstatten geht, zeigt eine U n t e r s u c h u n g von A U S T I N & M C G I N N (1977), in der ebenfalls die Interaktionserwartung manipuliert wurde. Bei Erwartung eines Zusammentreffens mit einer Person, die niedrige Leistungen gezeigt hat, wird das Prinzip absoluter Gleichheit bevorzugt, während bei Zusammentreffen mit einer Person, die h o h e Leistungen erbracht hat, das Prinzip relativer Gleichheit verstärkt Anwendungfindet. Diese Ergebnisse haben weitreichende Konsequenzen. Gerechtigkeit wird offensichtlich nicht o h n e Berücksichtigung des sozialen Kontextes verwirklicht. Neben W ü n s c h e n nach sozialer Billigung u n d Vermeidung von Revanche (AUSTIN & M C G I N N , 1 9 7 7 ; GREENBERG, 1 9 7 8 ; MORSE, G R U Z E N & REIS, 1 9 7 6 ; REIS & G R U Z E N ,
1976) ist besonders zu beachten, ob eine Bekanntschaftbzw. eine Interaktion zwischen den Personen, die die Belohnung verteilen und die sie erhalten, erwartet wird bzw. vorhanden ist oder nicht ( G R E E N B E R G , 1979; K A H N , NELSON & G A E D D E R T , 1980; SHAPIRO, 1975). Wenn Interaktion erwartet wird, bevorzugt m a n im allgemeinen das Prinzip absoluter Gleichheit, es sei denn, m a n selbst hat wenig geleistet (SHAPIRO, 1975) oder der Interaktionspartner hat viel geleistet ( A U S T I N & M C G I N N , 1977). In allen Studien, die an dieser Stelle besprochen wurden, ist die Verwendung des Equity-
Prinzips eng mit dem Prinzip absoluter Gleichheit v e r b u n d e n : U m s o m e h r Equity hergestellt wird, desto weniger absolute Gleichheit k o m m t zustande (bei ungleichen Vorleistungen). U n t e r H i n z u f ü g u n g der Ergebnisse mit dem B R I C K MAN & BRYAN Paradigma, die in den drei Studien hier berichtet wurden, kann m a n den Schluß ziehen, d a ß sich der soziale Kontext vermutlich deshalb auswirkt, weil die Verwendung des Prinzips relativer Gleichheit kontextspezifisch erfolgt. Die Situationen unterscheiden sich vermutlich darin, ob sie das EquityPrinzip aktualisieren, das d a n n , wenn es aktualisiert wird, auf Kosten des Prinzips absoluter Gleichheit in A n w e n d u n g gebracht wird. Wenn m a n auch generell ein Streben nach Gerechtigkeit in sozialen Interaktionen unterstellen kann, so erweist sich doch die Identifizierung von spezifischen Assoziationen zwischen Kontext u n d F o r m e n der Gerechtigkeit als wesentliche Aufgabe der sozial-psychologischen Gerechtigkeitsforschung (MIKULA, 1980). D a m i t wird gleichzeitig die K o n s e q u e n z deutlich, eine Klassifikation des sozialen K o n textes in den f ü r Gerechtigkeit relevanten Aspekten d u r c h z u f ü h r e n , wie dies von LERNER (1974a) u n d M I K U L A (1980) dargestellt wird. Weitere Hinweise könnten sich auf der Basis eines allgemeinen Klassifikationsverfahrens, wie es von KELLEY & T H I B A U T (1978) vorgeschlagen wird, ergeben. In diesem Z u s a m m e n h a n g ist zu fragen, wie sich die Struktur der Interdependenz der Interaktionspartner auswirkt u n d welche Rolle Transformationen der - etwa im Sinne einer altruistischen («max other») oder egoistischen («max own») Orientierung - f ü r das Gerechtigkeitsverhalten spielen (vgl. VAN AVERMAET, M C C L I N T O C K & M O S K O W I T Z , 1978).
Literatur AUSTIN, W.
&
MCGINN,
N.C.
1977.
Sex
differences
in
choice of distribution rules. Journal of Personality, 45, 379-394.
BENTON, A. A. 1971. Productivity, distributive justice, and bargaining among children. Journal of Personality and Social Psychology, 1 8 , 6 8 - 7 8 . B R I C K M A N , P. &
BRYAN, J . H .
1975.
Moral judgment
of
theft, charity, and third-party transfers that increase or decrease equality. Journal of Personality and Social Psyc h o l o g y ^ ! , 1 5 6 - 161.
78
BierhofT: Sozialer Kontext als Determinante der wahrgenommenen Gerechtigkeit
BRICKMAN, P. & BRYAN, J . H . 1976. Equity versus equality as factors in children's moral judgments of thefts, charity, and third-party transfers. Journal of Personality and Social Psychology, 34,757 - 761. DEUTSCH, M. 1949. A theory of co-operation and competition. H u m a n Relations, 2, 1 2 9 - 152. DEUTSCH, M. 1975. Equity, equality, and need: What determines which value will be used as the basis of distributive justice? Journal of Social Issues, 31 (3), 137-149. GREENBERG, J. 1978. Effects of reward value and retaliation power on allocation decisions: Justice, generosity, or greed? Journal of Personality and Social Psychology, 36, 367-379. GREENBERG, J. 1979. G r o u p vs individual equity judgments: Is there a polarization effect? Journal of Experimental Social Psychology, 15, 5 0 4 - 5 1 2 . JONES, E.E. & GERARD, H.B. 1967. Foundations of social psychology. New York: Wiley. K A H N , A . , LAMM, H . & NELSON, R . E . 1 9 7 7 . P r e f e r e n c e s f o r
an equal or equitable allocator. Journal of Personality and Social Psychology, 3 5 , 8 3 7 - 844. K A H N , A . , NELSON, R . E . & GAEDDERT, W . P . 1 9 8 0 . S e x o f
subject and sex composition of the group as determinants of reward allocations. Journal of Personality and Social Psychology, 38, 737 - 750. K A H N , A . , O'LEARY, V . E . , K R U L E W I T Z , J . E . & LAMM, H .
1980. Equity and equality: Male and female means to a just end. Basic and Applied Social Psychology, 1, 1 7 3 - 197. KELLEY, H.H. & THIBAUT, J.W. 1978. Interpersonal relations. New York: Wiley. LERNER, M.J. 1974a. Social psychology of justice and interpersonal attraction. In: Huston, T. L. (Ed.): Foundations of interpersonal attraction. New York: Academic Press. LERNER, M.J. 1974b. The justice motive: «Equity» and «Parity» among children. Journal of Personality and Social Psychology, 29, 539 - 550. LERNER, M.J. 1975. The justice motive in social behavior: Introduction. Journal of Social Issues, 31 (3), 1 — 19. LERNER, M.J. 1977. The justice motive: Some hypotheses as to its origins and forms. Journal of Personality, 45, 1-52.
LERNER, M.J. 1981. The justice motive in h u m a n relations. In: Lerner, M.J. & S.C. Lemer (Eds.): The justice motive in social behavior. New York: Plenum.
LERNER, M . J . , M I L L E R , D . T . & HOLMES, J . G .
1976.
De-
serving and the emergence of forms of justice. In: Berkowitz, L. & Walster, E. (Eds.): Advances in Experimental Social Psychology, Bd. 9. New York: Academic Press. MESSICK, D . M . & M C C L I N T O C K , C . G . 1 9 6 8 . M o t i v a t i o n a l
bases of choice in experimental games. Journal of Experimental Social Psychology, 4, 1 —25. MIKULA, G. 1980. Zur Rolle der Gerechtigkeit in Aufteilungsentscheidungen. In: Mikula, G. (Ed.): Gerechtigkeit und soziale Interaktion. Bem: Huber. MIKULA, G. 1981. Konzepte der distributiven Gerechtigkeit als Grundlagen menschlichen Handelns und Wertens: Ein Überblick über den Forschungsstand. In: Michaelis, W. (Ed.): Bericht über den 32. Kongreß der Deutschen Gesellschaft für Psychologie in Zürich, 1980. Göttingen: Hogrefe. MORSE, S . , G R U Z E N , J . & REIS, H . T . 1 9 7 6 . T h e n a t u r e o f
equity-restoration: Some approach-seeking considerations. Journal of Experimental Social Psychology, 12, 1-8. N I E , N . H . , H U L L , C . H . , JENKINS, J . G . , STEINBRENNER, K .
& BENT, D.H. 1975. Statistical package for the social sciences, 2. Auflage. New York: McGraw-Hill. OVERALL, J . E . & KLETT, C . J . 1 9 7 2 . A p p l i e d
multivariate
analysis. New York: McGraw-Hill. OVERALL, J . E . & SPIEGEL, D . K .
1969. C o n c e r n i n g
least
squares analysis of experimental data. Psychological Bulletin, 72,311 - 3 2 2 . OVERALL, J . E . , SPIEGEL, D . K . & COHEN, J . 1 9 7 5 . E q u i v a -
lence of orthogonal and nonorthogonal analysis of variance. Psychological Bulletin, 82, 182 — 186. REIS, H.T. & GRUZEN, J. 1976. On mediating equity, equality, and self-interest: The role of self-presentation in social exchange. Journal of Experimental Social Psychology,
12,487-503.
SAMPSON, E.E. 1975. On justice as equality. Journal of Social Issues, 31 (3), 45 - 64. SHAPIRO, E.G. 1975. Effect of expectations of future interaction on reward allocations in dyads: Equity or equality. Journal of Personality and Social Psychology, 31, 873-880. VAN AVERMAET, E . , M C C L I N T O C K , C . & M O S K O -
WITZ, J. 1978. Alternative approaches to equity: Dissonance reduction, pro-social motivation and strategic accomodation. European Journal of Social Psychology, 8 , 4 1 9 - 4 3 7 .
^ ^ H I
J
79
Zeitschrift f u r Sozialpsychologie 1982, 1 3 , 7 9 - 8 7
Entwicklung und Testung theoretisch begründeter Instrumente zur Erhebung von Wohnumgebungszufriedenheit R U T H KLOCKHAUS & BRIGITTE HABERMANN-MORBEY Sozialwissenschaftliches Institut der Universität Erlangen-Nürnberg
Theoretische Ansätze aus Umweltpsychologie, Sozialpsychologie und Arbeitsmotivationspsychologie bildeten die Grundlage zur Entwicklung dreier M e ß i n s t r u m e n t e für Wohnumgebungszufriedenheit. Zwei Untersuchungen in vier unterschiedlichen großstädtischen Wohngebieten fanden statt. Testtheoretische Ü b e r p r ü f u n g e n erbrachten gute Reliabilität u n d Validität für das analog KAHANAS Kongruenz-Modell konzipierte M a ß . Operationalisierungen analog der «Theorie des sozialen Austausches» (THIBAUT & KELLEY) lieferten befriedigende Ergebnisse, die aber noch weiter zu sichern sind. Versuche, antizipierte Zufriedenheit mit Wohngebietstypen in A n l e h n u n g an VROOMS Valence-Instrumentality-Expectancy-Theory zu operationalisieren, führten insgesamt zu Gütekriterien, die den gestellten Anforderungen nicht entsprachen und auf den Einfluß moderierender Personmerkmale verweisen.
Theoretical models of environmental psychology, social psychology and work motivation psychology were utilized to measure residential satisfaction. T w o studies in four metropolitan residential areas showed good reliability and validity for the measure construed according to KAHANA'S congruence model; operationalizations of THIBAUT & KELLEY'S social exchange concept proved satisfactory, however, f u r t h e r confirmation is necessary. Efforts to predict anticipated satisfaction with different types of residential areas with operationalizations f r o m VROOM'S VIEtheory lead to measures which did not meet test theoretical requirements and indicate a moderation by personal characteristics.
Einleitung
Fragestellung nach «Übereinstimmung» von Bewohnern und Wohnumgebung. Dieses Konzept von Übereinstimmung oder auch «Passung» zielt auf eine Entsprechung zwischen personalen Gegebenheiten und dem, was ein spezifisches Wohnumfeld dem Individuum bietet, etwa, daß Bedürfnisse bestimmter Bewohnergruppen in einem ganz bestimmten Typ von Wohnumgebung besser als anderswo befriedigt werden. Indikator für «Übereinstimmung» mit der Wohnumgebung soll die wohnumgebungsbezogene Zufriedenheit sein. Es soll also zum Beispiel von mangelnder Übereinstimmung gesprochen werderi, wenn Menschen, für die aufgrund personaler Gegebenheiten das Wohnen im Vorort optimal wäre, in der Innenstadt leben und dort meßbar unzufrieden sind. Erkenntnisse über bewohnerspezifische Geeignetheiten von Innenstadtgebieten, großstädtischen Vorortgebieten usw. sowie deren Rückführbarkeit auf Umweltsachverhalte wären auch von praktischer Bedeutung. Beispielsweise könnten die Untersuchungsergebnisse für Empfehlungen verwendet werden, Wohnquali-
Während Instrumente zur Erhebung von Wohnumgebungszufriedenheit bisher meist ad hoc und ohne theoretische Basis konzipiert wurden, soll hier über Entwicklung und testtheoretische Überprüfung auf der Grundlage theoretischer Überlegungen berichtet werden. Es geht um drei Meßverfahren, die Übertragungen von Ansätzen aus Arbeitsmotivationspsychologie, Sozialpsychologie und Umweltpsychologie darstellen. Die Entwicklung der Instrumente ist Voraussetzung zur Untersuchung der umfassenderen
Zu diesem
Beitrag
Die U n t e r s u c h u n g wurde durch eine Sachbeihilfe der Deutschen Forschungsgemeinschaft im Schwerpunktprogramm «Psychologische Ökologie» ermöglicht. Das Instrument zur Erfassung der Wohnumgebungszufriedenheit nach dem Kongruenz-Modell kann bei den A u t o r i n n e n angefordert werden. Es enthält neben den Skalen u n d der Instruktion weitere Informationen über die testtheoretische Absicherung.
80
Klockhaus & Habermann-Morbey: Entwicklung/Testung: Erhebung von Wohnumgebungszufriedenheit
tät von Wohngebietstypen zu optimieren. Vorauszusetzen wäre in diesem Fall ein enger Zusammenhang zwischen den einerseits objektivierbaren, andererseits aus der Sicht der Bewohner gegebenen Umgebungscharakteristika. Als weitere Anwendung der Befunde in der Praxis ergäbe sich die Möglichkeit, Wohnungssuchende je nach persönlichen Merkmalen - etwa umweltbezogenen Bedürfnissen - beratend auf für sie optimale Umgebungen hinzuweisen.
Theoretische Ansätze Wohnumgebungszufriedenheit, als Indikator für «Übereinstimmung», ist mit Hilfe dreier Ansätze operationalisiert worden.
Wert-Erwartungs-Modell
Die in Wert-Erwartungs-Modelle eingehende Valenz als antizipierte Zufriedenheit mit alternativen Handlungsergebnissen läßt sich analog als antizipierte Wohnumgebungszufriedenheit mit alternativen Wohngebietstypen fassen. Relativ hohe Rationalität vorausgesetzt, könnte die Wahl eines Gebietstyps unter Berücksichtigung von Valenzen und Ergebniswahrscheinlichkeiten (verrechnet zum Maß «force» oder auch Motivation) getroffen werden, so wie nach VROOMS Modell Optionen für verschiedene Arbeitsaufgaben oder Berufsalternativen zustande kommen. Die antizipierte Gesamtzüfriedenheit oder Valenz ist mit Hilfe subjektiv bedeutsamer Umgebungscharakteristika zu ermitteln, die durch das Wohnen in einem bestimmten Gebietstyp erlangt werden. Die VIE (valence instrumentality expectancy)-Theorie ist nach WAHBA & HOUSE ( 1 9 7 4 , p. 1 2 1 ) die unter Organisationspsychologen am meisten anerkannte Arbeitsund Motivationstheorie. VROOMS VIE-Modell ( 1 9 6 4 ) bildete in der vorliegenden Untersuchung die Grundlage zur Operationalisierung sowohl von Wohnumgebungszufriedenheit als auch von Optionen für Wohngebietstypen, zum a l VROOM (1964, p. 17f.) die beiden grundle-
genden Annahmen des Modells betont allgemein formuliert und den Geltungsbereich nicht explizit auf betriebspsychologische Fragestel-
lungen begrenzt (siehe auch
MITCHELL,
1974,
p. 1054).
Kongruenz-Modell
Die aus der gegenwärtigen Wohnsituation resultierende Umgebungszufriedenheit sollte auch als Gesamtindex über alle subjektiv bedeutsamen Wohnumgebungsmerkmale erhoben werden. Ein solcher Index ist hier in Anlehnung an den in der psychologischen Diagnostik verwendeten, von KAHANA ( 1 9 7 5 ) modifizierten need-press Ansatz von MURRAY ( 1 9 3 8 ) entwickelt worden. Zugrunde liegt hier die Überlegung, daß Umweltgegebenheiten (presses) das situationale Gegenstück menschlicher Bedürfnisse (needs) darstellen. Personen suchten tendenziell solche Umgebungen auf, die ihren Bedürfnissen kongruent sind.
Theorie des sozialen
Austausches
Wohnumgebungszufriedenheit könnte von Erfahrungen mit früheren Wohngebieten sowie Vorstellungen alternativer Wohnsituationen abhängen und sich als Resultat einer bezugssystemabhängigen Wertung des derzeit bewohnten Gebiets ergeben. Solche Überlegungen verweisen auf THIBAUT & KELLEYS T h e o r i e des sozialen A u s t a u -
sches ( 1 9 5 9 ) . Danach bewertet das Individuum soziale Interaktionen nach deren subjektiven Nutzen und Kosten sowie nach Nutzen und Kosten früher erfahrener oder auch alternativer Interaktionen als relativierenden Bezugsgrößen. Bei analoger Übertragung auf die Bewertung von Wohnumgebungen wäre erstens die an den Erfahrungen mit früheren Wohnumgebungen relativierte Nutzen-Kosten-Bilanz ein für die Zufriedenheit mit der jetzigen Wohnumgebung stehendes Datum. Zweitens wäre die sich beim Vergleich mit einer alternativen Wohnumgebung ergebende negative oder positive Differenz als Tendenz zum Umgebungswechsel oder Verbleib zu verstehen.
Zeitschrift für Sozialpsychologie 1982, 1 3 , 7 9 - 8 7
Methode Operationalisierungen Konzepte nach
VROOM
Ansatz enthält zwei Modelle, eines zur Vorhersage von antizipierten Valenzen verschiedener Ergebnisse und eines zur Vorhersage der individuellen Motivationen (forces), Ergebnisse zu realisieren. Angewendet auf die Bevorzugung städtischer Gebietstypen beinhalten die beiden Modelle folgende Komponenten: Erstes Modell von VROOM: Die Valenz Vj oder der antizipierte Wert eines Ergebnisses der ersten Stufe, z.B. Wohnen in einem VorortEinfamilienhaus-Gebiet 1 , ergibt sich daraus, daß das Ergebnis instrumenten dafür ist, Ergebnisse der zweiten Stufe, z.B. Vorhandensein von Schulen, Einkaufsmöglichkeiten usw. mit den Valenzen V^, zu erzielen. Die Instrumentalität Ijk ist hierbei eine korrelative Beziehung zwischen Ergebnissen der beiden Stufen. Mathematisch formuliert ist die Valenz des Ergebnisses der ersten Stufe Vj eine monoton steigende Funktion der Summe der Produkte Vk x IjkDie antizipierten Valenzen für das Wohnen in VE-, VM- und I-Gebieten lassen sich ermitteln und vergleichen. Wenn hedonistische und rationale Entscheidungsprinzipien unterstellt werden können, werden Bewohner die Gebietstypen mit der höchsten antizipierten Valenz präferieren. Im ersten Vorversuch wurden positiv und negativ valente Ergebnisse von Wohngebieten von den Befragten selbst generiert. Es wurde die Frage gestellt: «Sagen Sie mir bitte, was eine Wohnumgebung haben müßte, damit Sie zufrieden wären. Und sagen Sie mir außerdem, was sie nicht haben dürfte, was Sie in Ihrer Zufriedenheitbeeinträchtigen würde.» Im zweiten Vorversuch wurde eine umfangreiche Liste mit Umgebungssachverhalten vorgelegt wie Schulen, Gelegenheit zu Kontakt mit anderen MenVROOMS
1 Im Text werden ab dieser Stelle folgende Abkürzungen vorgenommen: VE-Gebiet = Vorort-Einfamilienhaus-Gebiet, VM-Gebiet = Vorort-Mehrfamilienhaus-Gebiet, I-Gebiet = Innenstadt-Gebiet.
81
sehen, Angebot an Arbeitsplätzen, Anonymität des Wohnens. Die Befragten konnten solche Sachverhalte selegieren, die sie besonders zufrieden oder unzufrieden machen würden. Anschließend war das Ausmaß der positiven oder negativen Valenz (V^) anhand einer 9stufigen Skala von —4 bis + 4 zuzuordnen. VROOMS korrelative Konzeption der Instrumentalitäten Ijk wurde aufgrund erwarteter Verständnisschwierigkeiten von seiten der Befragten nicht eingehalten. Die Schwierigkeit, negative Instrumentalitäten zu erfassen, ist ein von Anwendern des VIE-Modells häufig umgangenes Problem (vgl. M I T C H E L L , 1 9 7 4 , p. 1 0 6 4 ; WAHBA & HOUSE, 1 9 7 4 , p. 138ff.). Statt dessen wurden die Instrumentalitäten als subjektive Sicherheit der Befragten erhoben, die von ihnen selegierten bedeutsamen Wohnumgebungssachverhalte in den unterschiedlichen Gebietstypen anzutreffen. Der Erhebung diente eine von 0% bis 100% abgestufte Skala. Zweites Modell von VROOM: ES enthält als weitere Größe die Erwartung Ejj und besagt: Die Motivation oder «force» Fj, eine Handlung i auszuführen, resultiert aus dem Produkt der Erwartung Ejj, das betreffende Ergebnis durch die Handlung i realisieren zu können, und dem antizipierten Wert des Ergebnisses Vj. Am Problem der Wohnortwahl verdeutlich heißt das: die Stärke der Motivation, in ein VE-, VM- oder I-Gebiet ziehen zu wollen, hängt außer von der Valenz dieser Gebietstypen von der Erwartung ab, durch eine Handlung den Zustand realisieren zu können. Zur Erhebung der Erwartung E;j wurden die Befragten aufgefordert, abzuschätzen, wie ihre Aussichten wären, in einem bestimmten Gebietstyp zu wohnen - konkret: dort eine geeignete Wohnung zu finden. Wie bei der Erfassung der Instrumentalitäten wurde eine Prozentskala von 0% bis 100% vorgegeben. Validierungskriterien für die Valenzen Vj waren von den Befragten spontan produzierte Rangreihen der präferierten Gebietstypen, für die Motivationen oder «forces» Fj ebenfalls spontan aufgestellte Rangreihen nach dem Kriterium Wahrscheinlichkeit der Wahl des Gebietstyps bei weiterem möglichen Umzug>. Im zweiten Vorversuch wurden zusätzlich Benotungen von Gebietstypen sowie das Ausmaß
82
Klockhaus & Habermann-Morbey: Entwicklung/Testung: Erhebung von Wohnumgebungszufriedenheit
der für die Gebietstypen antizipierten Wohnzufriedenheit erhoben.
Konzept nach
KAHANA
Während die aus dem VROOMschen Ansatz ableitbaren Indikatoren Vj und F¡ Prognosen zur Bevorzugung von Gebietstypen ermöglichen sollen, ist K A H A N A S Kongruenzmaß als Zufriedenheitsindikator mit der aktuellen Wohnsituation zu verstehen. K A H A N A führt zwei Modelle an, die sich nach der Art der Ergebnisse der Person-Umwelt-Interaktion unterscheiden: Das Kongruenzmodell geht davon aus, daß das Ergebnis der Person-Umwelt-Interaktion positiv ist. Das Ausmaß individuellen Wohlbefindens ist dann eine Funktion der Bedürfnis-Umwelt-Kongruenz. Das Modell ist in Querschnittuntersuchungen empirisch testbar. Das Kongruenz-Adaptationsmodell dagegen geht davon aus, daß das Ergebnis der PersonUmwelt-Interaktion negativ ist. Je nach Erfolg angewandter Adaptationsstrategien (Änderung der Bedürfnisse bzw. der Umwelt) ergeben sich erhöhtes oder herabgesetztes Wohlbefinden. Das Modell ist nur in Längsschnittdesigns testbar. Empirisch ist die Kongruenzhypothese auf verschiedenen Analyseebenen prüfbar, wobei Personen- und Umweltvariablen getrennt zu erheben sind: Individuelle Komponenten der Kongruenz können auf Ebenen wie Präferenzen, persönlichen Charakteristika sowie Bedürfnisdispositionen gemessen werden. U m weltkomponenten sind in Anlehnung an MURRAYS Modell der Umwelt-presses auf mindestens zwei Analyseebenen operationalisierbar: Auf der Ebene der objektiven, ökologischen Umweltdimensionen («alpha» presses) und auf der Ebene der subjektiven Interpretation der Umwelt («beta» presses). Es wurde versucht, die Brauchbarkeit der Kongruenzhypothese in zwei Vorversuchen auf einer elementaren Analyseebene zu prüfen, d.h. auf einer Ebene, die möglichst konkrete, auf die Umwelt gerichtete Bedürfnisse erfaßt. Nach Vorlage einer Liste von 46 bedürfnisrelevanten Sachverhalten (etwa Freunde und Bekannte im Wohngebiet, Zusammensetzung der Bewohnerschaft, Vorhandensein von Grünan-
lagen, Schulen usw.) waren zunächst diejenigen mit individueller Bedeutsamkeit zu selegieren. Anschließend hatten die Bewohner mit Hilfe einer 9stufigen Skala das Ausmaß der in ihrem Gebiet erfahrenen Befriedigung («beta» presses) hinsichtlich dieser Sachverhalte zuzuordnen. Ein Summenscore über die Werte der «beta» presses- relativiert an der Zahl der Nennungen - bildete den Index der Gesamtzufriedenheit (Kongruenz). Der Validierung des errechneten Kongruenzmaßes dienten verschiedene Skalen mit wertenden Aussagen über das Wohngebiet (z. B. Benotung; Prozentsatz erfüllter Wohnwünsche; angestrebte weitere Wohndauer; Tendenz, das Gebiet zu verlassen usw.).
Konzepte nach
THIBAUT & KELLEY
Bezugssysteme für die jetzige Wohnumgebung waren als «Vergleichsniveau» das letzte früher bewohnte Gebiet und ein Wohngebiet sozial gleichgestellter Bekannter, ferner als «Vergleichsniveau für Alternativen» ein alternatives Wohngebiet. Der «outcome» für die verschiedenen Gebiete wurde jeweils in differenzierter Weise über «Nutzen» und «Kosten» der Gebiete aus der Sicht der Person erhoben. Der «Nutzen» eines Gebiets ergab sich aus dem Vorhandensein positiv bewerteter und dem Fehlen negativ bewerteter Umgebungssachverhalte 2 ; für die Ermittlung der «Kosten» wurde das Vorhandensein negativer und das Fehlen positiver Sachverhalte zugrunde gelegt. Der «outcome» wurde als Bilanz dieser beiden Maßzahlen operationalisiert. Die Vorgehensweise führte schließlich zu folgenden Größen, die analog T H I B A U T & K E L LEY «Attraktivität» bzw. «Präferenz» genannt wurden. «Attraktivität 1»: «outcome» der jetzigen Wohnumgebung, relativiert am «outcome» der letzten früheren Wohnumgebung, «Attraktivität 2»: «outcome» der jetzigen Wohnumgebung, relativiert am «outcome» der
2 Es wurde von jenen bereits zur Berechnung der VROOMschen Maße erhobenen Umgebungssachverhalten ausgegangen.
83
Zeitschrift für Sozialpsychologie 1982, 1 3 , 7 9 - 8 7
Umgebung von sozial gleichgestellten Bekannten, «Präferenz»: «outcome» der jetzigen Wohnumgebung, relativiert am «outcome» der alternativen Wohnumgebung. Auch diese Konzepte wurden mit Hilfe von teilweise schon erwähnten Skalen validiert.
Befragungen Aus Kostengründen lagen alle untersuchten Gebiete in Nürnberg. Der erste Vorversuch fand zwischen Januar und März 1980 in St. Johannis (I) und Mögeldorf (VE) statt, der zweite Vorversuch von April bis Juni 1980 in St. Johannis (I) und Birkenwald (VM). Pro Gebiet wurden zwischen 40 und 44 Bewohner befragt. Von den ursprünglich nach dem Zufallsprinzip ausgewählten Personen verblieben zwischen 24 und 44%. Eine Quotenkontrolle der Merkmale Familienstand, Alter und Geschlecht erbrachte gute Annäherungen an die prozentualen Verteilungen dieser Merkmale in der Gesamtbevölkerung 3 . Die höchste Abweichung lag bei 12%, die übrigen durchschnittlichen Abweichungen bei 4%. Von den insgesamt 164 im ersten und zweiten Vorversuch befragten Personen stellten sich 112 für die Retests zur Verfügung, die jeweils etwa einen Monat nach den Erstbefragungen stattfanden. U m Aufschluß über die Durchführungsobjektivität zu erhalten, waren im ersten Vorversuch zwei Interviewer eingesetzt. Die Einzelbefragungen fanden in den Wohnungen statt und dauerten in der Regel eine Stunde, nur in wenigen Fällen erheblich länger.
nebst ausführlicher Instruktion. Dem intensiven Training des Befragungsablaufs folgten Probeinterviews sowie Supervisionen bei den ersten Feldinterviews. Die Befragungsergebnisse der beiden während des ersten Vorversuchs eingesetzten Interviewerinnen bei 10 Kontrollvariablen dienten der Überprüfung der Durchführungsobjektivität. So wurde etwa die auf eine offene Frage hin genannte Anzahl positiv oder negativ valenter Umgebungssachverhalte analysiert. Unterschiedliches Interviewerverhalten (Zeit, die für die Beantwortung gelassen wurde, Nachhelfen durch Beispiele) hätte zu differierenden Häufigkeiten führen können. Die Mittelwerte (7.6 bzw. 7.5) unterschieden sich jedoch nicht signifikant. Ebenfalls auf signifikante Unterschiede hin wurden die nach V R O O M berechneten Maßzahlen «Valenz des eigenen Wohngebiets», «Valenz des Vorort-Einfamilienhausgebiets», «Valenz des Vorort-Mehrfamilienhausgebiets» sowie «Valenz des Innenstadtgebiets» untersucht. Auch dabei ergaben sich keine statistisch bedeutsamen Differenzen. Alle Tests erfolgten sowohl für die gesamte Stichprobe des ersten Vorversuchs als auch für die einzelnen Gebietsstichproben. Anhaltspunkte für Interviewereinflüsse lagen in keinem Fall vor. Aufgrund der Standardisierung des Fragebogens, des Interviewertrainings und der positiven Ergebnisse bei der Überprüfung quantitativer Größen auf eventuell interviewerbedingte Mittelwertdifferenzen kann eine gute Durchführungsobjektivität angenommen werden.
Auswertungsobjektivität Ergebnisse Objektivität Durchführungsobjektivität Soweit noch keine Interviewerfahrung vorlag, erfolgte eine intensive Einarbeitung in die Anwendung des standardisierten Fragebogens 3
STATISTISCHES J A H R B U C H
1979,
herausgegeben
vom
Statistischen Bundesamt. Stuttgart 1979, p.59f. und p.62.
Die Kodierung der erhobenen Daten erfolgte quantitativ, nach festgelegten Kriterien, die keinen Spielraum für subjektive Interpretationen ließen. Ein nochmaliger Vergleich der kodierten Werte mit den Fragebogenunterlagen und eine EDV-Fehlersuche nach der Ablochung der Daten gewährleisteten ebenfalls eine gute Auswertungsobjektivität.
84
Klockhaus & Habermann-Morbey : Entwicklung/Testung: Erhebung von Wohnumgebungszufriedenheit
Tab. 1: Retest-Reliabilität der Maße nach VROOM. Maße
Korrelation (SPEARMAN R tt ) der Werte von Erst- und Wiederholungsbefragung
1. Antizipierte Umgebungszufriedenheit mit: - Vorort-EinfamilienhausGebieten - Innenstadtgebieten - Vorort-MehrfamilienhausGebieten 2. «force» als Maß einer möglichen Option 2 für: - Vorort-EinfamilienhausGebiet - Innenstadtgebiet - Vorort-MehrfamilienhausGebiet
1. Vorversuch n = 59
2. Vorversuch n = 53
.35**' .42**
.54** .56**
.30**
.48**
.34** .50**
.58** .63**
.26**
.55**
' Die Doppelsterne bezeichnen hier und in den weiteren Tabellen auf der 1%-Vertrauensstufe signifikante Ergebnisse. 2 Siehe auch die Ausführungen auf S. 80.
Reliabilität Antizipierte Valenz und «force»
(VROOM)
Die unbefriedigenden Ergebnisse zur RetestReliabilität der VROOMschen Maße aus dem ersten Vorversuch führten zu einer Modifikation des Erhebungsinstrumentes. Es ergab sich (siehe Tab. 1, Spalte 2. Vorversuch) eine verbesserte Reliabilität, die unter anderem auch mit der höheren Anzahl als wichtig bezeichneter Sachverhalte erklärt werden könnte (beim ersten Vorversuch durchschnittlich etwa 7, beim zweiten Vorversuch etwa 15 Nennungen). Die für den zweiten Vorversuch errechneten Koeffizienten zwischen R t t = .48 und .63 liegen im mittleren Bereich der von M I T C H E L L (1974, p. 1066) zusammenfassend dargestellten Resultate verschiedener Reliabilitätsschätzungen zu VROOMS Modell. Umgebungszufriedenheit
von R t t = .79{1. Vorversuch)bzw. .80(2. Vorversuch). Die bei diesem Maß im zweiten Vorversuch aufgrund der Normalverteilung der Daten angewendete Produkt-Moment-Korrelation lieferte einen Koeffizienten von r tt = .85. Auch bei Unterteilung in die Gebiets-Stichproben ergaben sich befriedigende ReliabilitätsErgebnisse.
Umgebungszufriedenheit ( T H I B A U T & KELLEY)
Aus Tabelle 2 ist zu entnehmen, daß die Reliabilitäten der Attraktivitäts- und Präferenzmaße im zweiten Vorversuch eher niedriger waren als im ersten Vorversuch. Ein Gebietseffekt könnte dies erklären. In der Teilstichprobe Mögeldorf (1. Vorversuch) ergab sich eine wesentlich höhere Retest-Reliabilität als in anderen Gebietsstichproben derbeiden Vorversuche. Der Erklärung der geringen Retest-Reliabi Ii tät der T H I B A U T & KELLEY-Maße könnten folgende Überlegungen dienen: - Während beim Maß Attraktivität 1 (früheres Wohngebiet als Bezugssystem) die Bezugsgröße fiir Erst- und Wiederholungsuntersuchung notwendigerweise dieselbe sein mußte, kann es bei den übrigen Maßen zu einem Wechsel der Bezugsgrößen (Gebiet sozial gleichgestellter Bekannter; alternatives Gebiet) gekommen sein. - Auch das lediglich im Mittel aus 15 Einzelitems zusammengesetzte Gesamtmaß könnte die wenig befriedigende Reliabilität erklären.
Tab. 2: Retest-Reliabilität der Maße nach THIBAUT & KELLEY.
Maße
(KAHANA)
In beiden Vorversuchen erbrachte das Kongruenzmaß eine akzeptable Retest-Reliabilität
Korrelation (SPEARMAN R t t ) der
Werte von Erst- und Wiederholungsbefragung
1. Attraktivität 1 Attraktivität 2 2. Präferenz
1. Vorversuch n = 59
2. Vorversuch n = 53
.69** .48** .33**
.51** .52** .11
85
Zeitschrift für Sozialpsychologie 1982, 1 3 , 7 9 - 8 7
Validität
Zur Überprüfung der Eindimensionalität der Messung als Nachweis formaler Validität nach HOLM (1976, p. 125) wurden alle zur Erhebung von Wohnumgebungszufriedenheit vorgesehenen Operationalisierungen und ihre Validierungsmaße nach der Hauptachsenmethode faktorisiert. Extrahiert wurden nur Faktoren, die mindestens 5% Gesamtvarianz enthielten (ÜBERLA, 1971, p. 124). Sowohl für den ersten als auch den zweiten Vorversuch (n = 85 bzw. 78) ergab sich ein Generalfaktor (siehe ebenda, p. 55), der als einziger einen Eigenwert von X ^ 1 überschritt. Im ersten Vorversuch klärte er 74,5%, im zweiten 58,4% Varianzanteil auf.
Antizipierte
Valenz und«force»
Kriterienbezogene Validität Ebenfalls der Validierung diente die Überprüfung von Zusammenhängen zwischen den analog VROOM konzipierten Maßen mit anderen Kriterien für die Bewertung der Gebietstypen, wie Zuordnung von Benotungen sowie antizipierende Einschätzung der Wohnzufriedenheit.
(VROOM)
Übereinstimmungsvalidität Die Befragten waren aufgefordert worden, für die drei Gebietstypen VE, VM und I Rangreihen nach folgenden Kriterien zu bilden: 1) nach der Vorliebe, dort zu wohnen, sowie 2) nach der Tendenz, dort hinzuziehen. Die Validierung «within persons» überprüfte die Gleichsinnigkeit dieser direkt erfragten mit den nach VROOMS Ansatz errechneten Rangreihen für die drei Gebietstypen bei einer Person. Sowohl für die antizipierten Valenzen als auch für die «forces»4 ergaben sich Übereinstimmung der Rangreihen, die die Erwartungswerte um das Doppelte übertrafen (p < .001). Obwohl VROOMS Modell als individuelles Entscheidungsmodell konzipiert ist (VROOM, 1964, p. 14), haben viele Forscher seine Konzepte auch für Untersuchungen von Gruppen angewendet. Eine Prüfung der Übereinstimmungsvalidität «across persons» erschien daher sinnvoll. Sie führte zu dem Ergebnis einer sowohl bei der direkten Rangreihenbildung (siehe oben 1) als auch bei den durchschnittlichen Valenz-Maßzahlen abnehmenden Vorliebe vom Vorort-Einfamilienhausgebiet über das 4
Vorort-Mehrfamilienhausgebiet zum Innenstadtgebiet, wobei die Parameter sich jeweils signifikant unterschieden. In der gleichen Weise und mit dem gleichen Ergebnis wurden auch die nach VROOM errechneten Motivationen, gegebenenfalls in die drei unterschiedenen Gebietstypen umzuziehen, validiert.
Siehe die Erläuterung des Begriffs «force» auf S. 80.
Tab. 3: Kriterienbezogene Validität der antizipierten U m g e b u n g s z u f r i e d e n h e i t (VROOM).
Kriterien
Rangkorrelation (SPEARMAN R t c )
der antizipierten Valenzen mit den Validierungskriterien Gebietstypen VE VM I 1. Benotung (n = 78) -VE - VM -I 2. Antizipierte Wohnzufriedenheit (n = 52) -VE -VM -I
.19*' .26* .13
.12 .27* .01
' Der Stern symbolisiert an dieser Stelle und der noch folgenden Tabelle ein Signifikanzniveau von p < .05.
Die errechneten KorrelationskoefFizienten zwischen den Validierungsvariablen und den für die verschiedenen Wohngebietstypen antizipierten Valenzen lagen zwischen .13 und .26 (Benotung) bzw. zwischen .01 und .27 (antizipierte Wohnzufriedenheit; siehe Tabelle 3). Günstiger fielen die Ergebnisse für die nach VROOM operationalisierte Motivation (force) aus: für das Kriterium Benotung wurden Koeffizienten von . 14 bis .52, für antizipierte Wohnzufriedenheit von .34 bis .57 errechnet (siehe Tab. 4).
86
Klockhaus & Habermann-Morbey : Entwicklung/Testung: Erhebung von Wohnumgebungszufriedenheit
Tab. 4: Kriterienbezogene Validität der «force» (VROOM). Kriterien
1. Benotung (n = 78) -VE - VM -I 2. Antizipierte Wohnzufriedenheit (n = 52) -VE -VM -I
Rangkorrelation (SPEARMAN R1C) der antizipierten «forces» mit den Validierungskriterien Gebietstypen VE VM I
kannter relativierte Umgebungszufriedenheit: r t c = .49;p < .001. «Präferenz», bei der die Relativierung entsprechend an einer Wohnumgebung erfolgte, die die Person als Alternative zum jetzigen Gebietbetrachtete: r tc = .62; p < .001.
.14 .44** .52**
.34**
Umgebungszufriedenheit
.45** .57**
(KAHANA)
Auch für dieses theoriegeleitet entwickelte Maß der Zufriedenheit mit der konkreten derzeitigen Wohnumgebung fand eine Kriteriumvalidierung statt. Kriterien waren Maße, für die auf Seite 82 Beispiele genannt sind. Es konnten überwiegend sehr befriedigende Ergebnisse erzielt werden: im ersten Vorversuch durchschnittlich höhere als im zweiten Vorversuch. Um ein einziges Validitätsmaß zu erhalten, wurde im zweiten Vorversuch eine Faktorenanalyse über geeignete Kriterienmaße gerechnet und die individuellen Faktorscores mit den KAHANA-Maßzahlen korreliert (r tc = .60; p < .001).
Umgebungszufriedenheit (THIBAUT & KELLEY)
Da diese Konzepte ebenfalls für die Zufriedenheit mit der tatsächlichen Wohnumgebung entwickelt wurden, konnte auch hier das oben schon beschriebene, faktorenanalytisch ermittelte Validierungskriterium angewendet werden. Es ergaben sich folgende Validitätskoeffizienten. «Attraktivität 1» als Maß für die an der letzten früheren Wohnumgebung relativierte Umgebungszufriedenheit: r t c = .48; p < .001. «Attraktivität 2» als Maß für die an der Wohnumgebung sozial gleichgestellter Be-
Fazit Die versuchte Übertragung der drei Ansätze auf «Wohnumgebungszufriedenheit» impliziert drei unterschiedliche Auffassungen über die Konstituierung eines solchen Konstrukts. Eine Übertragbarkeit des Wert-ErwartungsModells (VROOM) würde bedeuten, daß die Person Informationen über subjektiv bedeutsame Vor- und Nachteile verschiedener Wohngebietstypen hat und auf dieser Grundlage einen «Gesamtwert» (Valenz) für verschiedene Gebietstypen antizipiert. Es zeigte sich, daß auch nach einer Modifikation der Vorgehensweise im zweiten Vorversuch die Reliabilität nur mäßig war (zwischen R t t = .48 und R t t = .56). Die Überprüfung der Übereinstimmungsvalidität erbrachte befriedigende Werte - hier allerdings nicht in Koeffizienten ausdrückbar; bei der kriterienbezogenen Validität streuten die Werte stark, so daß von einer befriedigenden Gültigkeit nicht gesprochen werden kann. Das nach VROOM sich aus Valenz und Erfolgswahrscheinlichkeit ergebende Maß für Tendenzen zur Option für einen der Gebietstypen erbrachte beim zweiten Vorversuch nicht befriedigende Reliabilitätskoeffizienten (zwischen R t t = .58 und R t t = .63). Die Übereinstimmungsvalidität war befriedigend, die Kriteriumsvalidität streute erheblich für die Gebietstypen. Insgesamt deutet die testtheoretische Überprüfung der nach VROOM operationalisierten Maße - in Übereinstimmung mit früheren arbeitsmotivationspsychologischen Untersuchungen - auf die Bedeutung moderierender Personmerkmale hin. Die vermutete Bedeutung von «Rationalität» wurde bereits erwähnt. Das Kongruenz-Modell von K A H A N A impliziert, daß der Bewohner seine wohngebietsspezifischen Bedürfnisse kennt und eine Meinung darüber hat, inwieweit sie in seiner jetzigen Wohnumgebung befriedigt werden. Die RetestReliabilität der in der Stichprobe abgestuften
87
Zeitschrift fur Sozialpsychologie 1982, 1 3 , 7 9 - 8 7
« K o n g r u e n z » zwischen Individuen u n d Wohnumgebung entsprach mit R t t = .79 in der ersten und R t t = .80 in der zweiten Voruntersuchung den gestellten Anforderungen. Die kriterienbezogene Validität erreichte sowohl im ersten als auch im zweiten Vorversuch (r t c = .60; p < .001) ein voll befriedigendes Ergebnis. Danach empfiehlt sich dieses M a ß als Instrument, das in Untersuchungen zur Messung der Zufriedenheit mit der konkreten W o h n u m g e b u n g angewandt und weiter ü b e r p r ü f t werden sollte. D e m Versuch der Übertragung der «Theorie des sozialen Austausches» auf das Konstrukt «Wohnumgebungszufriedenheit» lag die Überlegung zugrunde, daß das Urteil über einen Sachverhalt von Bezugssystemen mitbestimmt wird. Für die aktuelle W o h n u m g e b u n g wird a n g e n o m m e n , daß als Vergleichsniveaus, die die Zufriedenheit modifizieren können, die letzte frühere W o h n u m g e b u n g und die Wohnumgebung sozial vergleichbarer Bekannter in Frage k o m m e n . F ü r die entsprechend operationalisierten M a ß e «Attraktivität 1» u n d «Attraktivität 2» ergaben sich Retest-Reliabilitätskoeffizienten, die in der G r ö ß e n o r d n u n g der im zweiten Vorversuch f ü r die VROOMsche M a ß e ermittelten Koeffizienten lagen (R t t zwischen .48 u n d .69), also nicht befriedigen konnten. Günstiger, wenn auch nicht optimal, waren die Ergebnisse für die Validität (r t c = .48 bzw. .49). Das «Vergleichsniveau f ü r Alternativen», nach der Theorie des sozialen Austausches der Entscheidung dienend, ob m a n in einer sozialen Beziehung bleibt oder sie verläßt, wäre analog ein f ü r die Person alternatives Wohngebiet, das einen möglichen Wechsel der Wohngegend beeinflußt. Die geringe Retest-Reliabilität könnte hier, wie schon erläutert, durch die
Wahl unterschiedlicher alternativer Gebiete in Vor- u n d Wiederholungstests erklärt werden und würde dann nicht gegen das Konzept sprechen. Die Validität ist mit .62 (p < .001) voll befriedigend und läßt es gerechtfertigt erscheinen, zunächst weiterhin mit dieser Operationalisierung f ü r Wohnumgebungszufriedenheit zu arbeiten. Der Versuch, Wohnumgebungszufriedenheit theoriegeleitet zu konzipieren, hat zu Ergebnissen geführt, die teils als sehr befriedigend (Kong r u e n z - M a ß nach K A H A N A ) , in anderen Fällen als zumindest aussichtsreich bezeichnet werden können. Von den z u r Z e i t laufenden U n t e r suchungen können weitere Aufschlüsse zur Brauchbarkeit der M a ß e erwartet werden.
Literatur HOLM, K. (Ed.) 1976. Die Befragung 4. München: A. Francke. KAHANA, E. 1975. A congruence model of person-environment interaction. In: P.G. Windley, T.O. Byerts & F.G. Ernst (Eds.): Theory development in environment and aging. Washington, 181—214. MITCHELL, T.R. 1974. Expectancy models of job satisfaction, occupational preference and effort: A theoretical, methodological, and empirical appraisal. Pschological Bulletin 81,
1053-1077.
MURRAY, H . A . 1938. Explorations in personality. N e w York: Oxford University Press. STATISTISCHES JAHRBUCH 1 9 7 9 , h e r a u s g e g e b e n v o m
stischen Bundesamt.
Stati-
Stuttgart.
T H I B A U T , J . W . & KELLEY, H . H .
1959. T h e social
psycho-
logy of groups. N e w York: Wiley. ÜBERLA, K . 1 9 7 1 2 . F a k t o r e n a n a l y s e . B e r l i n : S p r i n g e r .
VROOM, V.H. 1964. Work and motivation. N e w York: Wiley. W A H B A , M . A . & HOUSE, R . J .
1974. E x p e c t a n c y
^ ^ ^
theory in work and motivation: Some logical and methodological issues. Human Relations,
^^H
27,121-147.
|
J
88
M u m m e n d e y & M u m m e n d e y : Selbstkonsistenz vs. G r u p p e n k o n f o r m i t ä t bei Selbstaufmerksamkeit
Selbstkonsistenz vs. Gruppenkonformität bei Selbstaufmerksamkeit: Die Rolle des Einflusses von Ingroup vs. Outgroup AMÉLIE MUMMENDEY Psychologisches Institut der Universität Münster H A N S DIETER MUMMENDEY Universität Bielefeld
In einem Experiment mit 96 weiblichen Versuchsteilnehm e r n wurde (1) die A n n a h m e von WICKLUND(1980) überprüft, daß Personen dann selbstkonsistent u n d unabhängig von der G r u p p e n m e i n u n g urteilen, wenn sie zuvor ihre M e i n u n g frei ä u ß e r n konnten u n d sich im Zustand objektiver Selbstaufmerksamkeit befinden, (2) die A n n a h m e geprüft, daß die Art der Beziehung zwischen Individuum (Frau) u n d G r u p p e (Ingroup = Frauen, vs. O u t g r o u p = M ä n n e r ) für das A u s m a ß der Selbstkonsistenz vs. G r u p penkonformität im Hinblick auf die soziale Einstellung «Gleichberechtigung der Frau» ausschlaggebend ist. Die Ergebnisse stützen die zweite A n n a h m e : Es zeigte sich ein differentieller Einfluß von Ingroup vs. O u t g r o u p auf die Einstellungsänderung n u r bei fehlender Selbstaufmerksamkeit, nicht bei objektiver Selbstaufmerksamkeit. Die Wechselwirkung wurde im R a h m e n der Social Identity-
In an experiment with 96 female subjects t w o assumptions should be tested, (1) the assumption of WICKLUND (1980) that persons' judgments are self-consistent and independent of group's attitude if they had the o p p o r t u n i t y of free utterance of their attitudes before, and if they were in a state of objective self awareness, (2) that the kind of relation between individual (woman) and group (ingroup, i. e. w o m en, vs. outgroup, i.e. men) is crucial for the a m o u n t of selfconsistency vs. group conformity with respect to the social attitude (equality of rights for w o m e n and men). Results are supporting the second assumption. O n l y u n d e r attention outside self, not u n d e r objective self awareness conditions, a differential influence of ingroup vs. o u t g r o u p u p o n attit u d e change (group conformity vs. self-consistency) was shown. This interaction effect is interpreted within the framework of social identity theory (TAJFEL & TURNER).
T h e o r i e (TAJFEL & TURNER) i n t e r p r e t i e r t .
Problemstellung Die vorliegende Arbeit versucht mit experimentellen Mitteln eine Frage zu beantworten, die im Rahmen der Theorie der objektiven Selbstaufmerksamkeit von D U V A L & W I C K L U N D (1972) entstanden ist: Ist bei gegebener objektiver Selbstaufmerksamkeit Selbstkonsistenz unabhängig von den Einstellungen der Gruppe wahrscheinlicher als Gruppenkonformität, oder hängt dies von der Art der Beziehung zwischen Individuum und Gruppe ab? Die Theorie der objektiven Selbstaufmerksamkeit (objective seif awareness = OSA) geht davon aus, daß ein Individuum in einen Zustand geraten kann, in dem es seine Aufmerksamkeit auf die eigene Person richtet (OSA), im Unterschied zu dem gewöhnlich häufigeren Zustand, in welchem es seine Aufmerksamkeit nach außen richtet (attention outside seif =
AOS). Wird das Individuum dazu veranlaßt, sich selbst zu beobachten (OSA), so entsteht insofern ein für die Person unangenehmer Zustand, als möglicherweise Inkonsistenzen zwischen den eigenen Einstellungen und dem eigenen Verhalten wahrgenommen werden. Im Zustande der OSA würden demzufolge Tendenzen entstehen, diese Währgenommenen Diskrepanzen zu reduzieren, d.h., Einstellungs-Verhaltens-Konsistenz herzustellen. Experimente, die im Rahmen der OSA-Theorie ausgeführt wurden, haben verschiedentlich die Tendenz zu erhöhter Selbstkonsistenz aufgezeigt (z.B. C A R V E R , 1 9 7 5 ; G I B B O N S , 1 9 7 8 ) . Auf der anderen Seite postuliert die OSA-Theorie (vgl. WICKLUND
&
DUVAL,
1971;
DUVAL,
1972,
daß unter OSA-Bedingungen die soziale Konformität, d.h., die Anpassung an die Standards einer Gruppe erhöht wird, da im Zustande objektiver Selbstaufmerksamkeit Gruppen1976),
Zeitschrift für Sozialpsychologie 1982, 13, 8 8 - 9 6
Normen bewußter bzw. salienter werden als unter AOS-Bedingungen. In seinem Beitrag für den Sammelband über Gruppeneinfluß von PAULUS postuliert W I C K L U N D (1980), daß selbstaufmerksame Personen in Situationen, in denen Gruppenstandards salient sind, in der Regel gruppenkonform reagieren, daß sie jedoch dann eher selbstkonsistent reagieren, wenn sie ihre persönlichen Einstellungen zuvor frei geäußert haben (im Sinne eines commitment). W I C K L U N D zitiert hierzu die Ergebnisse einer experimentellen Untersuchung von M C C O R M I C K (1979), denen zufolge Individuen unter OSA eher konsistent mit ihren eigenen Einstellungen, vollständig unabhängig von der Gruppen-Einstellung («totally independent of the group's attitude»; W I C K L U N D , 1980, p.204) reagierten, wenn sie die eigene Einstellung zuvor frei äußern konnten. MCCORMICK (1979) stellte in seinem Experiment Gruppenkonformität und Selbstkonsistenz entweder unter FreeChoice- oder unter Controlled-Choice-Bedingungen gegenüber, indem Versuchspersonen eine Aufgabe entweder frei wählen ( in selbstgewählter Reihenfolge spielen) oder nicht frei wählen konnten (die gleichen Spiele in einer vorgegebenen Folge, die durch die Wahlen einer Vp aus der Free-Choice-Bedingung vorgegeben war, spielen). Jeweils die Hälfte der Vpn unter beiden Bedingungen arbeitete unter OSA- bzw. AOSBedingungen. Schließlich wurden die Personen jeder dieser vier Bedingungskombinationen zur Hälfte einem Gruppenkonformitätseinfluß, und zur Hälfte keinem solchen Einfluß ausgesetzt, indem mehrere vorgegebene Rangreihen der zu beurteilen waren; dabei wurden unter der -Bedingung die Rangreihen mit einem Bericht versehen, aus dem hervorging, daß mehrere Gruppenmitglieder (Versuchspersonen der gleichen Studentengruppe) die Rangreihen gelegt und begründet hatten, wobei das von der jeweiligen Vp am stärksten abgelehnte Spiel von der Gruppe angeblich am meisten präferiert wurde. Unter der -Bedingung waren die gleichen Spiele ohne jeden Zusatzkommentar zu beurteilen, d.h., es wurde kein Konflikt zwischen der eigenen und der angeblichen Gruppenmeinung erzeugt. Die Varianzanalysen MCCORMICKS ergaben für die abhängige Variable «Effert» (für jede Aufgabe aufgewendete Zeit) eine signifikante Wechselwirkung der Faktoren «Awareness» (OSA/AOS), «Choice» (Free C h o i c e / N o Choice) und «Group Pressure» (Konformität/Konsistenz); Personen, die ein freies Commitment eingegangen waren, erwiesen sich als konsistenter als solche, denen man keine Wahl gelassen hatte, und zwar besonders unter OSA-Bedingungen, während Personen ohne Selbstaufmerksamkeit (also unter AOS-Bedingungen) sich hinsichtlich Gruppenkonformität/Selbstkonsistenz nicht unterschieden.
In der vorliegenden Arbeit zielen wir a) auf
89 eine teilweise Replikation des Experimentes von M C C O R M I C K , teilweise stellen wir b) die Behauptung in Frage, daß unabhängig von den Einstellungen der Gruppe, die einen Einfluß ausübt, Selbstkonsistenz wahrscheinlicher ist als Gruppenkonformität, wenn freie Wahlmöglichkeit und objektive Selbstaufmerksamkeit gegeben sind. Aus sozialpsychologischer Perspektive erscheint die Aussage, daß unter den genannten Bedingungen Selbstkonsistenz vollständig unabhängig von der Gruppeneinstellung wahrscheinlicher ist, als problematisch. Der Gruppeneinfluß dürfte sich nämlich unterschiedlich auswirken je nachdem, um welche Art von beeinflussender Gruppe es sich handelt, d. h. welcher Art die Beziehungen zwischen Individuum und Gruppe tatsächlich sind bzw. welche Meinungen die Mitglieder der Gruppe vermutlich haben (vgl. beispielsweise TAJFEL & T U R NER, 1979). Es erscheint hier z.B. von Bedeutung, ob es sich um eine einstellungsmäßig ähnliche oder unähnliche Gruppe handelt, ob die Gruppe als «Ingroup» oder «Outgroup» wahrgenommen wird, usw. Wir erwarten demnach, daß der Einfluß der Bedingungen der objektiven Selbstaufmerksamkeit durch die Art der Beziehung zwischen Individuum und Gruppe modifiziert wird und nehmen an, daß das Verhältnis von Selbstkonsistenz und Gruppenkonformität davon beeinflußt wird, ob die Person mit Standards ihrer Ingroup oder Outgroup konfrontiert wird. Zwar haben W I C K L U N D & D U V A L (1971) bereits den Einfluß unterschiedlich attraktiver Gruppen auf die Einstellungsänderung bei mehr oder wenigergroßer objektiver Selbstaufmerksamkeit untersucht, doch waren die dort herangezogenen, unterschiedlichen Gruppen (Studenten vs. Strafgefangene) nicht als spezifische In- bzw. Outgroups in bezug auf das Einstellungsobjekt anzusehen. In dem folgenden Experiment sollen daher «Selbstaufmerksamkeit» (OSA/AOS), «Wahlfreiheit» (Commitment/Kein Commitment) und «Gruppenstandard» (Ingroup/Outgroup/ Keine Gruppe) faktoriell variiert werden. Als abhängige Variable sollen die Konsistenzen von Präferenzurteilen zur Lösung eines sozialen Problems dienen, von dem angenommen werden kann, daß es für die Versuchspersonen von persönlicher Wichtigkeit ist. Es soll die Hy-
90
Mummendey & Mummendey: Selbstkonsistenz vs. Gruppenkonformität bei Selbstaufmerksamkeit
pothese einer Wechselwirkung zwischen den Faktoren «Selbstaufmerksamkeit» und «Gruppenstandard» geprüft werden; wir nehmen an, daß es zu der von W I C K L U N D postulierten «Unabhängigkeit von der Gruppen-Einstellung» nur hinsichtlich Individuum-Outgroup-, nicht jedoch hinsichtlich IndividuumIngroup-Beziehungen kommt. Von vornherein erscheint diese Annahme nur für den Fall sinnvoll, daß die Personen anfangs frei wählen bzw. ein Commitment machen können, da andernfalls schwerlich von «Selbstkonsistenz» gesprochen werden kann.
Methode Versuchsplan. In einem 2 x 2 x 3 - P l a n (bezüglich der ersten der beiden abhängigen Variablen) bzw. einem 2 x 2 x 2-Plan (bezüglich der zweiten der beiden abhängigen Variablen) mit den Faktoren «Selbstaufmerksamkeit», «Wahlfreiheit» und «Gruppenstandard» werden die Konsistenzen bzw. intraindividuellen Korrelationen von Präferenzurteilen bezüglich Vorschlägen zur Lösung des sozialen Problems «Gleichstellung der Frau» untersucht. Versuchspersonen. Als Vpn wurden 96 Studentinnen der Universität Bielefeld angeworben und nach Zufall auf die 12 Zellen des Versuchsplans (bzw. bezüglich der zweiten abhängigen Variable auf acht Bedingungskombinationen) verteilt (vgl. Tab. 1). Alle Vpn wurden mit dem deutlichen Hinweis angeworben, daß ausschließlich weibliche Personen benötigt würden. Die meisten Vpn studierten für das Lehramt (54), es folgten Rechtswissenschaften (12), Biologie (7), Mathematik (6), und der Rest verteilte sich auf un-
Tab.l: Versuchsplan und Aufteilung der Vpn auf die Bedingungskombinationen. Weibliche Vpn (n = 96)
«Commitment»
«Kein Commitment»
OSA
AOS
OSA
AOS
Unähnliche Gruppe: Männer
8
8
8
8
Ähnliche Gruppe: Frauen
8
8
8
8
Keine Gruppe
8
8
8
8
terschiedliche Studienfacher. Die Vpn waren im Mittel im vierten Semester. Sie erhielten DM 8. — fürdie Teilnahme. Versuchsablauf. Bei ihrem Eintreffen wurde jede Vp schriftlich darüber informiert, daß es um das Thema «Gleichberechtigung der Frau» gehe und daß ausschließlich Frauen untersucht würden, da bereits eine Untersuchung an Männern erfolgt sei. Jede Vp erhielt neun Karten mit je einer kurzen Feststellung in Stichwortform, die einen Vorschlag zur Lösung der Frage der Gleichstellung von Frauen betraf. (Diese Feststellungen waren aufgrund von Vorversuchen so ausgewählt worden, daß sie nicht allzu stark unterschiedlich präferiert wurden). Die Vorschläge lauteten: 1. Gleiche Ausbildung für Männer und Frauen 2. Keine geschlechtsspezifische Erziehung 3. Mehr Institutionen, die Müttern die Sorge um Kinder abnehmen 4. Mehr leitende Positionen für Frauen 5. Gerechte Aufteilung der Pflichten im Haushalt 6. MehrTeilzeitarbeitsplätzefürMännerund Frauen 7. Förderung der Berufstätigkeit von Frauen mit Kindern 8. Bezahlung der Hausfrauenarbeit an die Hausfrau 9. Mehr Hausarbeit für Männer
Bedingung «Wahlfreiheit» («Commitment»): Die Vp sollte die Karten in einer Rangreihe danach legen, wie sie meint, wie dringlich bzw. wichtig die Vorschläge sind, um eine Gleichstellung der Frau zu erreichen. Bedingung «Keine Wahlfreiheit» («No Commitment»): Die Vp bekam eine Rangreihe der Karten vorgelegt (und zwar jeweils diejenige, die die zuvor untersuchte Person unter der Bedingung «Wahlfreiheit» gelegt hatte, mit der Bemerkung «Diese Rangreihe von Vorschlägen, um eine Gleichstellung der Frau zu erreichen, hat eine Kommilitonin gelegt. Gib bitte eine Schulnote als Bewertung an, wie Du diese Rangreihe bewertest!» Bedingung «Selbstaufmerksamkeit» (OSA): Die Vp wurde in einen größeren Versuchsraum geführt, in dem eine Video-Mitschauanlage steht; die Kamera ist auf die Vp gerichtet, und die Vp kann ihr Bild auf dem Videoschirm verfolgen. Die Vp setzt sich schräg gegenüber an den Tisch und wird gebeten, eine Fallgeschichte durchzulesen. Nach dem Durchlesen soll sie ihren Lösungsvorschlag auf ein Blatt möglichst kurz aufschreiben und dann laut so vorlesen, daß er aufVideoband aufgenommen wird.
Zeitschrift für Sozialpsychologie 1982, 1 3 , 8 8 - 9 6
Bedingung «Geringe Selbstaufmerksamkeit» (AOS): Die Vp wird in den gleichen Raum geführt, doch ist hier die Kamera zur Wand gedreht, und die Videoanlage ist sichtbar abgeschaltet; die Geräte stehen offensichtlich nur zufällig im Raum. Die Fallgeschichte soll lediglich kurz schriftlich beantwortet werden. Die zu beurteilende Fallgeschichte lautet: «Elisabeth und Frank sind nun seit knapp zwei Jahren verheiratet. E., die Germanistik und Französisch studiert hat, hat vor wenigen Monaten mit ihrer Referendarzeit angefangen, die sie zwar als sehr anstrengend und nervenaufreibend empfindet, die ihr aber auch aufgrund der durch die Schüler erfahrenen Bestätigung viel Spaß macht. Sie hat vor, die Referendarzeit zu Ende zu machen und dann bis zu ihrer Beamtung auf jeden Fall als Lehrerin tätig zu sein. Ihr Mann Frank arbeitet seit zwei Jahren als Jurist in einer Rechtsanwaltspraxis und hat dort gute Aussichten, bald als gleichberechtigter Rechtsanwalt in die Praxis einzusteigen. In dieser Situation erfahrt E. von ihrem Frauenarzt, daß sie schwanger sei. Obwohl beide in einigen Jahren sich Kinder gewünscht hätten, trifft sie diese Nachricht doch sehr unerwartet, weil sie die Zukunftspläne beider durcheinander wirft, und es nun gilt, gemeinsam mit dieser Situation fertig zu werden. (Abtreibung kommt für beide nicht in Frage, so daß eine andere Lösung gefunden werden muß.) Für Frank scheint die ganze Situation gar nicht so problematisch zu sein, denn für ihn bietet sich eigentlich nur eine diskutable Lösung an. Aufgrund seiner guten Erfolgsaussichten, die ihm in der Praxis geboten werden, sieht er für seine Frau gar nicht die Notwendigkeit, ihre Ausbildung fortzusetzen, da er so gut verdient, daß sie sich in aller Ruhe nur um Kind und Haushalt kümmern kann. Eine Doppelbelastung würde er seiner Frau ja sowieso nicht zumuten wollen. Elisabeth dagegen ist mit dieser Lösung ganz und gar nicht einverstanden. Sie möchte ihre Ausbildung auf jeden Fall fortsetzen, da sie sich nicht vorstellen kann, in der Mutter- und Hausfrauenrolle ganz aufzugehen. Das Kind ist für sie kein G r u n d , ihre ganzen Zukunftspläne aufzugeben und damit auch ihre Eigenständigkeit, sowohl finanziell als auch als Erfahrungs- und Betätigungsfeld außerhalb der engen Welt von Heim und Herd. Sie sieht die einzige Lösung darin, daß Frank n u r noch halbtags arbeitet und auf das Kind aufpaßt, derweil sie ihre Ausbildung vormittags fortsetzt. F. ärgert sich sehr, daß seine Frau kein Verständnis aufbringt, daß die Umsetzung ihrer modernistischen Ideen für ihn gar nicht realisierbar ist. Er würde sich sowieso lächerlich machen, wenn er seinen Kollegen sagen würde, er könne in Zukunft nur noch halbtags arbeiten, da er Hausmann spielen müsse, da er statt seiner Frau auf das Kind aufpassen müsse. Auch wären seine Aufstiegschancen damit gewiß so gut wie gestorben. Steuerlich stelle es sowieso nur einen Nachteil dar, wenn E. weiterarbeiten wolle, da der Staat bei Doppelverdienern übermäßig viele Steuern einziehe. Auch habe er in allen Zeitschriften gelesen, daß es für das Kind sehr wichtig sei, eine feste Bezugsperson zu
91 haben, und das sei bei diesem ständigen Wechsel zwischen vormittags und nachmittags bestimmt nicht gewährleistet. E., die mit ihrem Beruf auch eine gewisse Selbstverwirklichung verbunden sieht, kann diese Vorschläge nicht akzeptieren. Warum soll gerade sie diejenige sein, für die sich durch das Kind alles verändert?»
Anschließend an die Beurteilung der Fallgeschichte legte der VI der Vp wiederum die neun Karten zur Beurteilung vor. Die Karten wurden jeder Vp in einer Rangreihe vorgelegt, die (bis auf die Extreme) der genau umgekehrten Reihenfolge, wie sie die Vp im ersten Durchgang gelegt hatte (unter der «Commitment»-Bedingung) oder vorgelegt bekommen hatte (unter der « N o Commitment»-Bedingung), entsprach. (Z.B. wenn die erstgelegte Rangfolge « 2 , 4 , 3, 1 , 6 , 5 , 9 , 7, 8» lag, dann wurde nun die Folge « 7 , 8 , 9 , 5 , 6 , 1 , 3 , 2 , 4 » vorgelegt.) Dies geschah unter den folgenden beiden Versuchsbedingungen : Bedingung «Männlicher Gruppenstandard» («Dissimilar Group»): Der Vp wurde gesagt, die nun vorgelegte Rangreihe sei diejenige von 96 Männern, die vor kurzem untersucht worden seien, d.h., es handle sich um die mittlere bzw. typische Rangreihe der Lösungsvorschläge dieser Männer. Bedingung «Weiblicher Gruppenstandard» («Similar Group»): Der Vp wurde gesagt, bei der vorgelegten Rangreihe handle es sich um die mittlere bzw. typische Rangreihe der Lösungsvorschläge von 96 Frauen, die zuvor untersucht worden seien. (Unter der Bedingung «Kein Gruppenstandard» bzw. «No Group» wurde keine solche weitgehend invertierte - Rangreihe vorgegeben.) Schließlich erhielten alle Vp die folgende Instruktion: «Nachdem Du Dich jetzt mit der Geschichte auseinandergesetzt hast und (Fingerzeig auf die vorgelegte Rangreihe; dies jedoch nicht unter der -Bedingung) diese Information erhalten hast (letzterer Halbsatz entfiel unter der -Bedingung), bitten wir Dich n u n , die Karten noch einmal in eine Rangreihe nach Deiner persönlichen Priorität zu ordnen.»
Abhängige Variablen. Als erste abhängige Variable (für den 2 x 2 x 3 - V e r s u c h s p l a n , also unter Einschluß der Personen, die nicht dem Einfluß eines «Gruppenstandards» ausgesetzt wurden) wurde die Rangreihenkorrelation zwi-
92
Mummendey & Mummendey: Selbstkonsistenz vs. Gruppenkonformität bei Selbstaufmerksamkeit
sehen der ersten (selbst gelegten oder vorgelegten) und der letzten (selbstgelegten) Rangreihe der Lösungsvorschläge pro Person berechnet und in den entsprechenden Standardwert transformiert (standardisierte Korrelation z,). Als zweite abhängige Variable (für den 2x2x2-Versuchsplan) wurde die entsprechende standardisierte Rangreihenkorrelation zwischen der zweiten (angeblich von der Gruppe männlicher oder weiblicher Personen gelegten) und der letzten (selbstgelegten) Rangreihe der Lösungsvorschläge pro Person berechnet (standardisierte Korrelation z2). Während z, in gewissem Maße (zumindest bei Wahlfreiheit) als Maß der «Selbstkonsistenz» aufgefaßt werden kann, läßt sich z2 als Maß der «Gruppenkonformität» auffassen. Nachbefragung. Jede Vp füllte anschließend schriftlich und ohne Aufsicht durch den Versuchsleiter einen Fragebogen mit Fragen zu dem voraufgegangenen Experiment aus (vgl. Manipulationsüberprüfung). Aufklärung über den Versuch. Zur Aufklärung über das Experiment wurde ein Besprechungstermin nach dem Ende des letzten Einzelversuchs angeboten.
Ergebnisse Manipulationsüberprüfung. Auf die bei der Nachbefragung gestellte Frage, ob der Vp bewußt gewesen sei, warum sie als Vp fungiert habe, gaben 87% sinngemäß an, daß es um weibliche Vpn gegangen sei. (Der überwiegende Teil der Vpn schien sich somit bewußt zu sein, als Frau angesprochen zu werden.) Auf die Frage, ob die Vp den Eindruck hatte, bei der Lösung der Fallgeschichte beobachtet zu werden, antworteten unter der OSA-Bedingung 37, unter der AOS-Bedingung sechs von jeweils 48 Vpn mit «Ja» bzw. dem Hinweis auf die Videoanlage (chi2 = 40.49;df = l ; p < 0.001).(Unter der OSA-Bedingung fühlte sich demnach im Gegensatz zur AOS-Bedingung der überwiegende Teil der Vpn während des Versuchs «beobachtet».) Auf die Frage, von welcher Personengruppe die Vp eine Rangreihe von Vorschlägen zur Lösung der Frauenfrage vorgelegt bekommen habe, gaben unter den Bedingungen «Ähnliche/Unähnliche/Keine Gruppe» 12/8/
Tab. 2: Zellenmittelwerte der abhängigen Variablen z,. Commitment
Kein Commitment
OSA
AOS
OSA
AOS
Unähnliche Gruppe
1.9
2.2
0.5
0.7
Ahnliche Gruppe
1.8
1.7
0.9
0.4
Keine Gruppe
1.9
1.4
0.8
1.0
32 Personen eine falsche, und 20/24/0 Personen eine richtige Antwort (chi2 = 41.62; df = 2; p < 0.001). (Der überwiegende Teil der Vpn konnte sich also richtig erinnern, welcher Gruppe die vorgelegte - weitgehend umgekehrte - Rangreihe von Lösungsvorschlägen zugeschrieben worden war.) Ergebnisse für die abhängige Variable z, (Maß der «Selbstkonsistenz»). Die 2 x 2 x 3 Varianzanalyse mit den Faktoren «Commitment» (abhängig), «Selbstaufmerksamkeit» und «Gruppeneinfluß» ergab lediglich einen auf dem 0.001-Niveau signifikanten «Commitment»-Effekt, also einen Unterschied zwischen Personen mit und ohne Möglichkeit, selbständig eine Rangreihe von Lösungsvorschlägen zu geben. (Wir halten diesen Effekt für trivial.) Es ergab sich jedoch keine interpretierbare Wechselwirkungirgendeiner Art, also auch nicht mit dem Faktor «Gruppe». Die Zellenmittelwerte des Planes mit der abhängigen Variablen z, sind in Tabelle 2 aufgeführt. Ergebnisse für die abhängige Variable z2 (Maß der «Gruppenkonformität»). Die 2 x 2 x 2-Varianzanalyse mit den Faktoren «Commitment» (abhängig), «Selbstaufmerksamkeit» und «Gruppe» (hier nur zweistufig, da die «No-Group»-Bedingung logischerweise entfallt, wenn es um den Zusammenhang zwischen persönlichem und «Gruppen»-Urteil geht), ergab, wie Tabelle 3 im einzelnen zeigt, neben dem hochsignifikanten «Commitment»Effekt eine signifikante Wechselwirkung zwischen «Selbstaufmerksamkeit» und «Gruppeneinfluß». Tabelle 4 zeigt die Zellenmittelwerte von z2. Alle Korrelationen sind mehr oder weniger negativ; sie repräsentieren den Zusammenhang zwischen der (zumindest im Falle von Wahlfreiheit) zur eigenen Meinung konträren, einer Gruppe zugeschriebenen Präferenzenliste einerseits, und der selbsthergestellten Präferenzenliste andererseits.
93
Zeitschrift für Sozialpsychologie 1982, 13, 8 8 - 9 6 Tab. 3: Varianzanalyse von z2 (standardisierte Korrelation zwischen «Gruppen-» und individueller Rangreihe der Präferenzen). Quelle Selbstaufmerksamkeit Gruppe Selbstaufm. x Gruppe Error
QUS df MQUS F 0.03 0.15 1.42 8.15
1 1 1 28
0.03 0.15 1.42 0.29
Commitment 16.65 1 16.65 Commitm. x Selbstaufm. 0.48 1 0.48 Commitm. x Gruppe 0.28 1 0.28 Comm. x Selbstaufm. 0.14 1 0.14 x Gruppe Error 10.00 28 0.36
p
0.11 .75 0.53 .47 4.89 .04* 46.63 .00*** 1.35 .26 0.79 .38 0.39 .54
* p < 0.05,*** p < 0.001
Tab. 4: Zellenmittelwerte der abhängigen Variablen z2. Zellenmittelwerte
Commitment
Kein Commitment
OSA
OSA
AOS
AOS
Unähnliche Gruppe
-1.5
- 2.0*
-0.6
-0.6
Ähnliche Gruppe
-1.6
- 1.4*
-0.8
-0.4
Mit * versehene Mittelwerte bilden den einzigen signifikanten Kontrast, der nicht auf den Commitment-Faktor zurückgeht.
Von den einzelnen Kontrasten weist der DuNCAN-Test als einzige Mittelwertsdifferenz, die nicht auf den Commitment-Faktor zurückzuführen ist, diejenige zwischen der «weiblichen» und der männlichen Gruppe bei Wahlfreiheit («commitment») und bei fehlender Selbstaufmerksamkeit (AOS) als statistisch gesichert aus. Der stärkste Gruppen-Einfluß zeigt sich somit unter der Bedingung, daß das Individuum nicht «objektiv selbstaufmerksam» ist. Die gefundene Wechselwirkung zwischen den Faktoren «Objektive Selbstaufmerksamkeit» (OSA vs. AOS) und «Gruppeneinfluß» («Ähnliche Gruppe» = SIM = Similar Group bzw. Ingroup vs. «Unähnliche Gruppe» = DIS = Dissimilar Group bzw. Outgroup) ist in Abbildung 1 graphisch dargestellt. (Dabei ist zu beachten, daß das Maß des Gruppen-Einflusses auf die Meinungen des Individuums umso geringer ist, je numerisch höher die negativen Korrelationen zwischen Gruppen-Rangreihe und individueller Rangreihe ausfallen, d.h., je höher die z 2 -Werte, also je niedriger die Abszissenwerte sind.)
OSA
AOS
Abb.l: Graphische Darstellung der Wechselwirkung von «Selbstaufmerksamkeit» (OSA/AOS) und «Gruppeneinfluß» (SIMilar/DISsimilar Group) auf die Gruppenkonformität (z2) bei unterschiedlichen Graden von Wahlfreiheit (COMmitment + / - ) .
Diskussion Die Annahme, daß Personen, die eine Einstellung frei geäußert haben, im Zustande «objektiver Selbstaufmerksamkeit» unabhängig von den Einstellungen der Gruppe Selbstkonsistenz zeigen, konnte aufgrund der vorliegenden Untersuchung nicht bestätigt werden. Das Experiment lieferte vielmehr empirische Unterstützung flir die Hypothese, daß es zu der von W I C K L U N D bzw. M C C O R M I C K postulierten «Unabhängigkeit von der Gruppen-Einstellung» eher dann kommt, wenn es sich um die Beziehung zwischen einem Individuum und einer diesem Individuum unähnlichen Gruppe (bzw. einer Outgroup) handelt, als wenn es um eine Individuum-Ingroup-Beziehunggeht. Abweichend von den genannten Autoren zeigte sich dies jedoch nicht unter OAS-, sondern unter AOS-Bedingungen, also vornehmlich dann, wenn die Person nicht besonders selbstaufmerksam ist. Die Interpretation M C C O R M I C K S , daß ein «freies und selbstaufmerksames» Individuum zur Selbstkonsistenz fähig und damit
94
M u m m e n d e y & M u m m e n d e y : Selbstkonsistenz vs. Gruppenkonformität bei Selbstaufmerksamkeit
ein positives Ziel pädagogischer Bemühungen sein könne (1979, p. 61), erscheint im Lichte der vorliegenden Ergebnisse zumindest verfrüht. Es ist allerdings zu fragen, ob das vorliegende Experiment zur Überprüfung der M C C O R MICK- bzw. WiCKLUNDschen A n n a h m e n geeignet und als teilweise Replikation der M C C O R MiCKschen Untersuchung anzusehen ist; gleichzeitig ist zu diskutieren, ob in einem Versuch dieser Art wirklich stets «Selbstkonsistenz» erfaßt wurde. U m mit dem Zu letztgenannten zu beginnen: Die von M C C O R M I C K vorgenommene Operationalisierung von «Free Choice» bzw. «Commitment», die wir der Replikation halber in dem vorliegenden Experiment wiederholt haben, erscheint angesichts dessen, was untersucht werden soll (und auch angesichts oben schon erwähnter, weitreichender Schlüsse, die aus den experimentellen Ergebnissen gezogen werden), wenig sinnvoll. «Selbstkonsistenz» als Konsistenz zwischen dem Verhalten und der Einstellung einer Person (oder einer Einstellung zum Zeitpunkt 1 und zu einem späteren Zeitpunkt) läßt sich unseres Erachtens im vorliegenden Falle lediglich unter der «Free Choice» bzw. «Commitment»-Bedingung erfassen, da die Versuchspersonen ohne freie Wahlmöglichkeit bereits eine nicht selbst gelegte Rangreihe präsentiert bekamen, und gegenüber einer nicht selbst produzierten Präferenzenliste kann man ja schwerlich so etwas wie Selbstkonsistenz beweisen. Die Maße der «Selbstkonsistenz» (z,) bzw. der «Gruppenkonformität» (z2) scheinen uns daher lediglich unter der Bedingung freier Wahlmöglichkeit («Commitment» bzw. «Free Choice») Validität zu besitzen. Die hochsignifikanten «Commitment»-Effekte für die abhängigen Variablen z, und z 2 erscheinen somit als nicht interpretierbar. Ein wesentlicher Unterschied zwischen dem McCoRMiCKschen und dem hier berichteten Experiment betrifft das Einstellungsobjekt. M C C O R M I C K verwendete, wie viele andere Experimentatoren, denen es darum geht, Einstellungsbildung und Einstellungsänderung zu untersuchen, Urteilsobjekte, die - verglichen mit den von uns herangezogenen - kaum die Bezeichnung verdienen; solche Gegenstände mögen zwar den Vorteil ha-
ben, Prozesse der Meinungsgene.se besser studieren zu helfen, doch kann man sich schwer vorstellen, daß sie zur externen Validität eines Experimentes zur Änderung sozialer Einstellungen unter Gruppeneinfluß Wichtiges beitragen. Persönlich bedeutsamere Einstellungen wie solche zur «Gleichberechtigung» zu untersuchen, hieße nach unserer Auffassung, Tendenzen zur Selbstkonsistenz gegenüber solchen zur Gruppenkonformität zu begünstigen. W I C K L U N D (in einer persönlichen Mitteilung) ist hier anderer Auffassung: Gerade bei solchen sozial relativ irrelevanten Einstellungsobjekten wie den McCoRMiCKschen gebe es keinen zwingenden sozialen Grund für die Vp, warum ihre eigenen Präferenzen die gleichen wie diejenigen anderer Vpn sein sollten; abzuweichen bedeute nicht, sich «falsch» zu verhalten. W I C K L U N D kommt also zu dem Schluß, daß solche bedeutsamen Einstellungsobjekte wie «Gleichberechtigung» eher Tendenzen zur Gruppenkonformität begünstigen würden. Wie immer die Antwort auf diese Frage ausfallen mag: Es erscheint uns notwendig, Experimente zur Änderung sozialer Einstellungen unter sozialem Einfluß - falls dies, wie im vorliegenden Falle, technisch möglich i s t - b e v o r z u g t an Gegenständen vorzunehmen, die für den Einstellungsträger von tatsächlicher sozialer Bedeutungsind. Eine weitere, vermutlich weniger gravierende Abweichung der vorliegenden Operationalisierung von der Vorlage M C C O R M I C K S betrifft die Herstellung von «objektiver Selbstaufmerksamkeit» und die Angemessenheit der Manipulationsüberprüfung. Zwar waren die Ergebnisse unserer postexperimentellen Befragung in allen Fällen positiv, doch läßt sich gegen solche Befragungen eine Vielzahl von Einwänden erheben, z. B. derjenige, daß die «richtigen» Antworten erst nachträglich induziert werden. Noch gewichtigere Einwände, so scheint es uns, lassen sich jedoch gegen die Anwendung eines Fragebogens wie der Scale of Private Self-Consciousness von F E N I G S T E I N , SCHEIER & Buss (1975) erheben, da damit gerade auf eher habituelle als aktuelle, d.h. durch experimentelle Manipulation induzierte Selbstbeurteilung abgehoben wird. Die Unvollkommenheit von Manipulation Checks der objektiven Selbstaufmerksamkeit scheint somit ein allgemeines,
Z e i t s c h r i f t f ü r S o z i a l p s y c h o l o g i e 1982, 1 3 , 8 8 - 9 6
nicht ein spezielles Problem der vorliegenden Untersuchung zu sein (vgl. W I C K L U N D , 1975, pp. 267 ff.). Das wichtigste Resultat der vorliegenden Untersuchung besteht darin, daß sich bei freier Wahlmöglichkeit - und hier wiederum im Zustande fehlender objekti ver Selbstaufmerksamkeit - ein differentieller Einfluß der Art der sozialen Gruppe auf die Einstellung des Individuums nachweisen läßt, und zwar je nach der Beziehung zwischen Individuum und Gruppe in Relation zu dem in Frage stehenden Einstellungsobjekt. Bei nicht besonders auf die eigene Person gelenkter Aufmerksamkeit scheinen die gleichsam automatisierten Effekte «Übereinstimmung mit der Ingroup bzw. der ähnlichen Gruppe» und «Ablehnung der Meinungen der Outgroup bzw. der unähnlichen Gruppe» aufzutreten - diese Differenzierung findet bei objektiver Selbstaufmerksamkeit nicht statt. Die Abhebung bzw. Distanzierung von der Gruppenmeinung, und damit der geringste Einfluß der sozialen Gruppe, findet nicht unter der Bedingungskombination «Selbstaufmerksamkeit und Wahlfreiheit» (wie bei M C C O R M I C K ) statt, sondern unter der Bedingungskombination «Fehlende Selbstaufmerksamkeit, Wahlfreiheit und Outgroup-Einfluß» - handelt es sich dagegen um eine Gruppe, der sich die Person zugehörig fühlen kann, was den Einstellungsgegenstand betrifft, so spielt derGrad ihrer Selbstaufmerksamkeit für das Ausmaß des Gruppeneinflusses keine Rolle. Dieses Ergebnis widerspricht nicht nur den Befunden von M C C O R M I C K ( 1 9 7 9 ) , sondern auch denjenigen von D U V A L & W I C K L U N D (1971), da die Analyse der Wechselwirkung von «Selbstaufmerksamkeit» und «Gruppeneinfluß» auf das Ausmaß von Gruppenkonformität einen entgegengesetzen OSA-Effekt ergibt. Der von uns gefundene A OS- Effekt läßt sich jedoch ohne weiteres sozialpsychologisch sinnvoll interpretieren, wenn man - wie etwa in der Theorie der Intergruppenbeziehungen von TAJFEL geschehen - vom differentiellen Einfluß unterschiedlicher Arten von Person-GruppenBeziehungen ausgeht. Gerade dann, wenn ein Individuum nicht besonders selbstaufmerksam ist, wird sich die mehroder wenigerunreflektierte Tendenz, sich der Ingroupmeinung anzuschließen und die
95 Outgroupmeinung zurückzuweisen, bei der Person durchsetzen-eine andere Erklärung für das Ergebnis, daß sich der geringste Gruppeneinfluß unter der Bedingungskombination AOS/Outgroup zeigt, können wir nicht anbieten. In Übereinstimmung mit TAJFELS Theorie der Intergroup Differentiation sowie TAJFEL & T U R N E R S Theorie der Social Identity lassen sich die Effekte der verschiedenen Kombinationen der Bedingungen OSA, AOS, In- und Outgroup auf die Gruppenkonformität wie folgt interpretieren: Die gleichsam automatisch und unreflektiert vorgenommene Differenzierung zwischen der einstellungsmäßig ähnlichen und unähnlichen Gruppe (also so etwas wie ein alltäglicher Ingroup/Outgroup-Bias in bezug auf soziale Einstellungen und Meinungen) verschwindet dann, wenn das Individuum in den Zustand der objektiven Selbstaufmerksamkeit versetzt wird - möglicherweise aus dem Grunde, daß dann übergeordnete Standards wie derjenige, sich nicht vom «irrationalen» Gruppen Bias leiten zu lassen, salient werden. In Termini von TAJFELS Kontinuum sozialer Interaktionen, das ein interpersonales und ein InterGruppen-Ende aufweist, ausgedrückt, heißt dies: Beim Übergang vom Zustand der objektiven Selbstaufmerksamkeit (OSA) in den Zustand der Aufmerksamkeit von der eigenen Person weg (AOS) bewegt sich das Individuum kognitiv von der interpersonalen hin zur InterGruppen-Ebene der sozialen Interaktion, auf der stereotype Wahrnehmungen der IngroupÄhnlichkeit und der Outgroup-Unähnlichkeit gegenwärtig sind. Diese Interpretation stellt u.E. nicht die Bedeutung von Prozessen der Selbstaufmerksamkeit für solche der sozialen Beeinflussung in Frage, wenn sie auch einstweilen inkonsistent mit bisherigen Feststellungen zur Theorie der objektiven Selb'staufmerksamkeit sind. Sie weist vielmehr auf die Notwendigkeit hin, Konzepte des «Gruppeneinflusses» person- und einstellungsspezifisch zu differenzieren und über die Formulierung von Annahmen zur «objektiven Selbstaufmerksamkeit» hinaus die Theoriebildung auf weitere Aspekte der Relation zwischen dem Individuum und seinem sozialen Kontext auszudehnen.
96
M u m m e n d e y & M u m m e n d e y : Selbstkonsistenz vs. Gruppenkonformität bei Selbstaufmerksamkeit
Literatur CARVER,C.S. 1975. Physical aggression as a function of objective selfawareness and attitudes towards punishment. Journal of Experimental Social Psychology, 11, 510 — 519. DUVAL, S. 1972. Conformity as a function of perceived level of personal uniqueness and being reminded of the object status of self. Unpublished doctoral dissertation, University of Texas (zit. n. Wicklund, 1980). DUVAL, S. 1976. Conformity on a visual task as a function of personal novelty on attitudinal dimensions and being reminded of the object status of self. Journal of Experimental Social Psychology, 1 2 , 8 7 - 9 8 . DUVAL, S. & WICKLUND, R . A . 1972. A t h e o r y o f o b j e c t i v e
self-awareness. New York: Academic Press.
MCCORMICK, T.F. 1979. An investigation of standards of correctness by inducing conformity and consistency pressures within the framework of objective self awareness. Unpublished doctoral dissertation, University of Texas. TA-JFEL, H . & TURNER, J. 1979. A n i n t e g r a t i v e t h e o r y o f
intergroup conflict. In: Austin, W.G. & Worchel, S. (Eds.): The social psychology of intergroup relations. Monterey, Cal.: Brooks/Cole. Wicklund, R.A. 1980. G r o u p contact and self-focused attention. In: Paulus, P.B. (Ed.): Psychology of group influence. Hillsdale, N.J.: Erlbaum. WICKLUND, R . A . & DUVAL, S. 1971. O p i n i o n c h a n g e a n d
performance facilitation as a result of objective self awareness. Journal of Experimental Social Psychology, 7,319-342.
FENIGSTEIN, A . , SCHEIER, M . F . & B u s s , A . H . 1975. P u b l i c
and private self-consciousness: Assessment and theory. Journal of Consulting and Clinical Psychology, 43, 522-527. GIBBONS, F.X. 1978. Sexual standards and reactions to pornography: Enhancing behavioral consistency through self-focused attention. Journal of Personality and Social Psychology, 36,976 - 987.
Die Verfasser danken Dipl. Psych. Heinz-Gerd Bolten für seine Tätigkeit als Versuchsleiter und fiir Auswertungsarbeiten, ferner Birgitta Sticher flir ihre Mitarbeit bei der Erstellung des Versuchsmaterials.
j^^H I
J
97
Zeitschrift für Sozialpsychologie 1982, 1 3 , 9 7 - 108
Zur Messung von Einstellungen auf Intervallskalenniveau RAINERWESTERMANN Institut für Psychologie, Universität Göttingen
Die Frage, durch welche Methode Einstellungen gemessen werden sollen, wird meist in intuitiver Weise oder nach arbeitsökonomischen Gesichtspunkten entschieden. Dadurch entsteht eine erhebliche Beliebigkeit in der Zuordnung von empirischen Variablen zum theoretischen Einstellungsbegriff. Diese läßt sich überwinden, wenn man von der Theorie F I S H B E I N S ausgeht. Aus ihr wird eine adäquate Vorgehensweise zur Messung von Einstellungen abgeleitet. Meßtheoretische Analysen führen zu Bedingungen, die empirisch erfüllt sein müssen, damit die resultierenden Werte Messungen auf Intervallskalenniveau sind. Die vorgeschlagenen Methoden werden an einem Beispiel illustriert.
The considerable disagreement about the question how to measure attitudes can be reduced by taking into account the conceptual framework proposed by F I S H B E I N . For this theory an adequate measurement procedure is presented. It leads to interval scales provided that some empirically testable conditions derived from measurement theory are met. The procedure is illustrated by an example.
1.
wird im Abschnitt 5 kurz dargestellt, und es wird gezeigt, wie Einstellungen, die nach dieser Theorie definiert sind, gemessen werden können. Im Abschnitt 6 werden die Bedingungen abgeleitet bzw. erläutert, die erfüllt sein müssen, damit diese Einstellungsmessung zu Intervallskalen führt. Die wesentlichen zur praktischen Ableitung dieser Meßwerte notwendigen Untersuchungs- und Auswertungsschritte werden im Abschnitt 7 dargestellt und an Hand eines Beispiels verdeutlicht. Abschließend wird auf die Beziehungen zu den bekannten Techniken zur Einstellungsskalierung eingegangen (Abschnitt 8).
Fragestellung
Einstellungen im Sinne des anglo-amerikanischen «attitude» sind einer der häufigsten Gegenstände psychologischer Forschung, und zwar sowohl in mehr grundlagen- wie in mehr anwendungsorientierten Arbeiten. Werden Hypothesen geprüft, die sich auf Einstellungen beziehen, müssen diese in irgendeiner Weise empirisch erfaßt werden. In vielen Fällen ist auch eine quantitative Erfassung auf Intervallskalenniveau notwendig oder erwünscht. Ziel dieser Arbeit ist es zu zeigen, wie man entscheiden kann, ob es sich bei Zahlen, die man Personen zugeordnet hat, tatsächlich um Messungen des Merkmals «Einstellung zu Objekt o» handelt und ob sie das angestrebte Intervallskalenniveau haben. Dazu muß zunächst auf die Definition der Begriffe «Messen» und «Einstellung» eingegangen werden (Abschnitte 2 und 3). Anschließend werden Probleme bei der Zuordnung von empirischen Messungen zu theoretischen Begriffen erörtert, und es wird gezeigt, wie die Beliebigkeit dieser Zuordnung für den Einstellungsbegriff durch Rückgriff auf eine relativ präzise Einstellungsdefinition überwunden werden kann (Abschnitt 4). Die für diesen Zweck gut geeignete theoretische Konzeption FISHBEINS
2.
Definition des Messens
Ziel jeder Messung ist es nach der Definition von C A M P B E L L (1938), jedem Objekt eine Zahl so zuzuordnen, daß Beziehungen zwischen den Objekten durch Beziehungen zwischen den Zahlen repräsentiert werden. S U P P E S & Z I N N E S (1963) präzisieren diesen Gedanken, indem sie von (fundamentaler) Messung dann sprechen, wenn ein empirisches Relativ homomorph zu einem numerischen Relativ ist. (Ein empirisches Relativ umfaßt eine Menge von Objekten und einige zwischen ihnen bestehende Relatio-
98
Westermann: Zur Messung von Einstellungen auf Intervallskalenniveau
nen, ein numerisches Relativ besteht aus einer Menge von Zahlen und einigen Relationen zwischen ihnen.) Die Bedingungen, die erfüllt sein müssen, damit eine solche Abbildung zwischen Relativen möglich ist, werden in einem mathematisch zu beweisenden Repräsentationstheorem spezifiziert und bilden die Axiome einer Meßstruktur (vgl. ORTH, 1974). Falls die Relationen eines empirischen Relativs diese Bedingungen erfüllen, kann das entsprechende Merkmal gemessen werden. Je stärker diese Bedingungen sind, desto höher ist das Skalenniveau der Messung. Vom Skalenniveau abhängig ist das Ausmaß, in dem man aus den Beziehungen zwischen den Zahlen Rückschlüsse über die Beziehungen zwischen den Objekten ziehen kann. Anders ausgedrückt: Das Skalenniveau einer Messung bestimmt, welche numerischen Aussagen empirisch sinnvoll sind (SUPPES & ZINNES, 1963). Da Aussagen über Abstände zwischen Personen hinsichtlich des zu messenden Merkmals und z. B. auch einfache Mittelwertsvergleiche zwischen Gruppen erst sinnvoll sind, wenn mindestens Intervallskalenniveau vorliegt (a.a.O.), sollte auch für die Einstellungsmessung dieses Skalenniveau angestrebt werden.
3.
Definition der Einstellung und Konsequenzen für die Messung
In der Literatur finden sich sehr verschiedenartige verbale Umschreibungen dessen, was unter einer Einstellung zu verstehen ist. Aus allen diesen Definitionen geht jedoch hervor, daß eine Einstellung eine Konsistenz unter den Reaktionen auf eine bestimmte Menge von Objekten beinhaltet (GREEN, 1954). Hinsichtlich der genaueren Kennzeichnung von Einstellungen gibt es zwischen den Autoren dann aber Divergenzen. Die wichtigsten dieser Unterschiede können in drei Punkten zusammengefaßt werd e n (WESTERMANN, 1 9 7 9 ) :
1. Einstellungen können betrachtet werden als intervenierende Variablen (z.B. G R E E N , 1954; D E F L E U R & WESTIE, 1963), als hypothetische Konstrukte (z.B. SCOTT, 1968) oder (essentialistisch) als etwas Existierendes (z. B. ALLPORT, 1935). Adäquat ist allein die Einführung von Einstellungen als hypothetische Kon-
strukte, d. h. als theoretische Begriffe mit Überschußbedeutung (HERRMANN, 1973). 2. Vor allem A L L P O R T (1935), C A M P B E L L ( 1 9 5 0 ) u n d ROTH ( 1 9 6 7 ) s o w i e MEES &
KEHL
(1979) verwenden sehr weite Einstellungsbegriffe, indem sie sehr verschiedenartige Reaktionen auf ein Objekt mit unter diesen Begriff fassen. Dagegen sprechen die meisten anderen Autoren n u r dann von einer Einstellung, wenn die Reaktionen in erster Linie affektiv oder bewertend sind. (Ich werde in dieser Arbeit die Begriffe Affekt, Bewertung und Gefühl synonym verwenden.) 3. Innerhalb der zuletzt genannten G r u p p e besteht Uneinigkeit darüber, ob der affektive Aspekt allein eine Einstellung ausmacht (so z.B. T H U R S T O N E , 1931) oder ob auch kognitive und konative Komponenten dazugehören (so vor allem ROSENBERG & H O V L A N D , 1960). Eine gewisse Konvergenz entsteht aber dadurch, daß auch die Anhänger des Dreikomponentenansatzes die affektive Komponente als das Wesentliche der Einstellung ansehen und daß das andere «Lager» den Beziehungen starke Beachtung schenkt, die zwischen ihren auf das Affektive beschränkten Einstellungen auf der einen und Kognitionen sowie Verhaltensabsichten auf der anderen Seite bestehen. So unterschiedlich die Einstellungskonzeptionen in der Literatur auf den ersten Blick auch scheinen mögen, man kommt doch zu dem eindeutigen Schluß, daß Einstellungen hauptsächlich Gefühls- und Bewertungsreaktionen gegenüberbestimmten Objekten betreffen. Unabhängig davon, ob dies nur ein Teil des Einstellungsbegriffs ist oder sein ganzer Gehalt: Es empfiehlt sich auf jeden Fall, Bemühungen zur Messung von Einstellungen zunächst einmal auf diesen Bewertungsaspekt zu konzentrieren. Für unsere weiteren Überlegungen können wir deshalb von der Definition T H U R S T O N E S ausgehen : «Attitüde is the affect for or against a psychological object» (THURSTONE, 1931, p.261). Da der Einstellungsbegriff sich gerade auf die Konsistenz in den Reaktionen auf ein Objekt bezieht (siehe oben), ist es - nach der Einschränkung auf den Bewertungsaspekt - sinnvoll, die Einstellung zu einem Objekt mit der Gesamtbewertung dieses Objektes gleichzusetzen. Wie bereits betont, mag damit für viele n u r ein Teilaspekt des Konstruktes «Einstellung»
99
Zeitschrift f ü r Sozialpsychologie 1982, 1 3 , 9 7 - 1 0 8
erfaßt werden. Da es aber ohne Zweifel ein ganz wesentlicher Teil ist, halte ich es für eine vertretbare Beschränkung, erst einmal für ihn adäquate Meßverfahren abzuleiten.
4.
Zuordnung von empirischen Variablen zum theoretischen Einstellungsbegriff
In der Zweisprachenkonzeption der analytischen Wissenschaftstheorie wird im Anschluß an C A R N A P (1960) zwischen Beobachtungsbegriffen und theoretischen Begriffen unterschieden. Als Dispositionsprädikate gehören Einstellungen zur theoretischen Sprache (STEGMÜLLER, 1974). Die Operationen zur Skalierung von Einstellungen, die dabei angestellten Beobachtungen und die aus ihnen abgeleiteten empirischen Gesetzmäßigkeiten dagegen lassen sich in der Beobachtungssprache beschreib e n ( G R O E B E N & WESTMEYER, 1 9 7 5 ) . D i e z e n -
trale Frage, die jetzt behandelt werden soll, richtet sich darauf, in welcher Weise theoretische Begriffe wie zum Beispiel Einstellungen und empirische Begriffe, die konkreten Meßund Skalierungsverfahren entsprechen, einander zugeordnet werden können (vgl. im einzeln e n WESTERMANN, 1 9 7 9 ) .
4.1. Empirische Begriffe als Modelle theoretischer Begriffe Einstellungen gehören zu den sog. Prädikaten, also zu den sprachlichen Bezeichnungen für Merkmale oder Eigenschaften, die Objekten zugeordnet oder aberkannt werden ( H E R R M A N N , 1973). Formal ist ein Merkmal zu beschreiben durch ein relationales System, also durch eine oder mehrere Relationen und die Menge M, auf der diese definiert sind und die interpretiert werden kann als Menge aller Objekte, die dieses Merkmal in irgendeiner Ausprägung aufweisen ( P F A N Z A G L , 1959; KRISTOF, 1968). Da Beobachtungsbegriffe sich auf empirisch beobachtbare Objekte und Relationen beziehen, entsprechen ihnen empirische relationale Systeme, während den theoretischen Begriffen formale relationale Systeme entsprechen, deren Objektmengen aus abstrakten Einheiten bestehen.
Je nach Art und Zahl der Relationen unterscheidet man verschiedene Stufen der Begriffsbildung (STEGMÜLLER, 1974): Ein nomologischer Begriff teilt die betrachteten Objekte in disjunkte Klassen ein, bei komparativen Begriffen ist zwischen diesen Äquivalenzklassen noch eine starke Ordnungsrelation definiert, und bei metrischen Begriffen gibt es zusätzlich noch eine Abstandsrelation wie die Mittenbildungsrelation oder die schwache Ordnungsrelation zwischen Objektunterschieden. Bezeichnen wir letztere mit so entspricht das Relativ i2G
0,40 - 3,02 - 4,30 - 0,03 - 4,16 3,53 3,53 2,53 3,10 -•1,74 - 2,02 - 5,44 3,10 4,52 0
sichtlich des zu beurteilenden Merkmals fordern. Dazu können die direkten Größenschätzungen nach STEVENS (1960; zur Anwendung in der Sozialpsychologie vgl. WEGENER, 1980, 1981) modifiziert werden: Im Unterschied zur ursprünglichen Methode wird in der Instruktion nicht auf eine Entsprechung von subjektiven Merkmals Verhältnissen und Zahlenquotienten hingewiesen, sondern die Probanden werden aufgefordert, gleichgroße subjektive Abstände durch gleichgroße Zahlendifferenzen auszudrücken (vgl. WESTERMANN, 1979, p. 220-225).
Trotz unserer im Hinblick auf das angestrebte Skalenniveau negativen Ergebnisse der empirischen Axiomprüfung wollen wir unser Beispiel weiterverfolgen, um auch die anderen Schritte zur Einstellungsmessung zu illustrieren.
7.3. Messung der damentale Messungen auf Intervallskalenniveau sein. Dieses Skalenniveau wird zwar für die Methode der gleicherscheinenden Intervalle häufig vermutet, es kann in begründeter Weise aber erst angenommen werden, wenn gezeigt ist, daß die Axiome einer geeignet gewählten Meßstruktur empirisch erfüllt sind. Die Frage, ob bereits vorliegende Skalenwerte Messungen auf Intervallskalenniveau sind, kann am einfachsten beantwortet werden, indem geprüft wird, ob die Axiome einer endlichen DifTerenzen-Struktur ( K R A N T Z et al., 1971) empirisch erfüllt sind. Dies ist an anderer Stelle ausführlich begründet und beschrieben worden (WESTERMANN, 1980). In unserem Anwendungsfall ergab sich, daß für die Skalenwerte ej der 24 Items kein Intervallskalenniveau angenommen werden kann. Nach diesem Ergebnis müßten andere Methoden zur Skalierung der Items verwendet werden. U m die Wahrscheinlichkeit zu maximieren, daß dabei Intervallskalenniveau erreicht wird, sollte man statt der Kategorienskalierung von vornherein Skalierungsmethoden benutzen, die von ihren experimentellen Anforderungen her besser den endlichen Differenzen-Strukturen entsprechen, d. h. von den Probanden möglichst genaue Urteile über die subjektiven Abstände zwischen den Items hin-
Überzeugungsstärke
Skalenwerte für die «Überzeugungsstärke» können mit den gleichen Methoden erhoben werden wie für die «Bewertung». In unserer Untersuchung beispielsweise konnten die Probanden ihre Überzeugungsstärken durch alle Zahlen von 0 bis 100 ausdrücken. Die Items waren von der Form «Dozent Müller ist verständlich». Die Antwort «0» sollte für die Einschätzung «trifft überhaupt nicht zu» stehen, «100» sollte «trifft voll zu» bezeichnen. Die Antwort des Probanden n zu Item i in bezug auf Dozent o soll als RJ P0 bezeichnet werden. Durch die Instruktion und die graphische Vorgabe eines gleichabständigen «Maßbandes» sollten die Probanden angehalten werden, die Zahlen so zuzuordnen, daß subjektive Abstände durch Zahlendifferenzen ausgedrückt werden. Ob diese Anweisung zu Messungen der Überzeugungsstärken auf Intervallskalenniveau führt, kann wiederum durch empirische Prüfung der Axiome endlicher Differenzen-Strukturen untersucht werden. Im Unterschied zur Messung der Bewertungen m u ß diese Prüfung hier allerdings für jeden Probanden einzeln erfolgen, weil zur Ableitung individueller Einstellungswerte natürlich individuelle Überzeugungsstärken notwendig sind und die Beschränkung auf Durchschnittswerte nicht sinnvoll ist.
106
Westermann: Zur Messung von Einstellungen a u f Intervallskalenniveau
Die Überzeugungsstärken f ü r die ausgewählten Items wurden in der angedeuteten Weise bei 33 Studenten des 2. Semesters im Hinblick auf die Dozenten A, B, C und D u n d bei 12 Studenten des 4. Semesters im Hinblick auf die Dozenten A, B, C, E, F u n d G erhoben. Z u r Verdeutlichung der weiteren Berechnungen sind in Tabelle 1 in den Spalten R ¡ i c und R¡2G die Antworten der Probanden 1 und 2 in bezug auf die Dozenten C bzw. G aufgeführt. O h n e eine entsprechend abgefaßte Instruktion ist natürlich nicht zu erwarten, daß die geäußerten Überzeugungsstärken für alle Personen und Objekte gleich sind (wie Formel (8) fordert). Eine solche spezielle Anweisung m ü ß te von den Probanden zusätzlich etwa fordern, für jedes Einstellungsobjekt eine bestimmte vorgegebene Anzahl von « P u n k t e n » auf die Items so zu verteilen, daß in den Zahlenzuordnungen ihre Überzeugungsstärken und die U n terschiede zwischen ihnen ausgedrückt werden. In unserer U n t e r s u c h u n g sind wir jedoch einen anderen Weg gegangen: Wir haben Forderung (8) durch eine Transformation «nachträglich» erfüllt, und zwar haben wir jeden « R o h w e r t » R j p o durch die S u m m e der Rohwertegeteilt, die sich für eine Person u n d ein Einstellungsobjekt über alle Items ergibt. U m zu einer Skala zu gelangen, die symmetrisch u m den N u l l p u n k t ist, haben wir dann von jedem entstandenen Wert 1/n abgezogen. Schließlich wurden diese Werte noch mit 100 multipliziert, u m den U m g a n g mit ihnen zu erleichtern. Insgesamt ergeben sich also die Überzeugungsstärken b¡ p o wie folgt aus den Urteilen auf der von 0 bis 100 reichenden Skala (siehe auch Tab. 1):
(11) b i p o = 100 • [R i p o /(
n 2 Rjpo) - 1/n] . i = 1
Diese Transformation ist n u r gerechtfertigt, w e n n - w i e in unserem F a l l - d i e Anzahl positiver und negativer Items gleich ist u n d wenn die jeweiligen S u m m e n der Skalenwerte der positiven und negativen Items a n n ä h e r n d gleich sind (vgl. Tab. 1). Ist beides gegeben, kann m a n davon ausgehen, daß durch diese Transformationen n u r unterschiedliche Tendenzen zu extremen Urteilen ausgeglichen werden.
7.4. Berechnung
der
Einstellungswerte
Die Berechnung der quantitativen Werte f ü r die Einstellungen der untersuchten Personen zu den betrachteten Objekten erfolgt n u n einfach gemäß Formel (2) aus Abschnitt 5. In unserem Beispiel ergibt sich ein E i c = + 90,00 für die Einstellung von Proband 1 zu Dozent C sowie ein E2G = + 150,33 für Proband 2 zu Dozent G. U m Einstellungswerte aus verschiedenen Untersuchungen besser vergleichen zu können, die auf Antworten zu unterschiedlich vielen Fragen beruhen, empfiehlt es sich, die E p o -Werte auf die Zahl der Items zu relativieren:
(12) E p o = — • E p o .
Für unsere Daten ergibt sich E ' i c = + 6,5 und E'2g = + 10,74. Kann f ü r die Messungen der Bewertungen und der Überzeugungsstärken Intervallskalenniveau a n g e n o m m e n werden, und sind die in den Formeln 8 , 9 u n d 10 f o r m u lierten Bedingungen erfüllt, sind diese Werte Messungen der Einstellungen auf Intervallskalenniveau.
8.
Zur Beziehung zu anderen Skalierungstechniken
In welcher Beziehung stehen n u n der hier zugrundegelegte EinstellungsbegrifT u n d die f ü r ihn abgeleitete M e ß p r o z e d u r zu den bekannten Techniken zur Skalierung von Einstellungen? Die sehr häufig verwendeten Skalierungstechniken nach LIKERT (1932) und THURSTONE ( 1 9 3 1 ) (THURSTONE & CHAVE, 1 9 2 9 ; v g l . z u b e i -
den Methoden z.B. EDWARDS, 1957) erfüllen insofern die Forderungen an die Einstellungsmessung, die aus der FISHBEIN-Theorie abgeleitet wurden, als nach beiden sowohl die ausgedrückten Bewertungen wie die Überzeugungsstärken ermittelt werden (FISHBEIN, 1967; FISHBEIN & AJZEN, 1975). Allerdings werden bei der LIKERT-Skalierung die Bewertungen n u r sehr grob erfaßt, indem jedes Item vom Skalenkonstrukteur entweder als positiv oder als negativ klassifiziert wird, u n d bei der THURSTONE-Skalierung kann der Proband seine Überzeugungs-
107
Zeitschrift für Sozialpsychologie 1982, 1 3 , 9 7 - 108
stärke n u r grob angeben, indem er der Aussage entweder zustimmt oder sie ablehnt. Außerdem werden nach der THURSTONE-Methode die Einstellungswerte einfach n u r aus den Skalenwerten der positiv beantworteten Items berechnet. Intervallskalenniveau kann den Skalenwerten nach T H U R S T O N E nur zugeschrieben werden, wenn in meßtheoretisch fundierter Weise gezeigt wurde, daß die Aussagenskalierung zu einer Intervallskala für die ausgedrückten Bewertungen geführt hat (siehe Abschnitt 7.2). Eine LIKERT-Skala sollte nie als Intervallskala angesehen werden, da die Summe der Überzeugungsstärken nicht für alle Personen gleich ist und somit Forderung (8) nicht erfüllt ist. Außerdem ist in der Regel unklar, ob die Antwortkategorien subjektiv gleiche Abstände haben. Ist dies nicht der Fall, führt die LIKERTMethode u. U. noch nicht einmal zu einer Ordin a l s k a l a (WESTERMANN, 1979, p. 1 7 0 - 173).
Gerade die Definition der Einstellung als Gesamtbewertung eines Objektes (vgl. Abschnitt 3) legt es nahe, Einstellungen zu einem Objekt durch das semantische Differential zu erfassen, indem man dieses Objekt durch die Probanden auf einigen bipolaren Skalen einordnen läßt, die hohe Ladungen auf dem evaluativen Faktor haben ( O S G O O D , SUCI & T A N N E N B A U M , 1957). Auf diese Weise gelangt man aber weder zu einer fundamentalen noch zu einer abgeleiteten Messung der individuellen Einstellungen. Beide setzen nämlich (direkt oder indirekt) stets Angaben über empirisch beobachtbare Relationen zwischen Objekten voraus (siehe Abschnitt 2). Solche Urteile liegen zwar vor, wenn eine Person oder eine Personengruppe mehrere Objekte auf einer bipolaren Skala anordnet, wenn also eine Objektska\a erstellt wird, nicht aber wenn aus den Einschätzungen eines Objektes durch mehrere Personen Skalenwerte für diese Personen abgeleitet werden. In den letzten Jahren wurde auch die Methode von R A S C H (1960) zur Skalierung von Einstellungen eingesetzt. Dies erscheint im Rahmen der FISHBEIN-Theorie durchaus gerechtfertigt, da die Grundgleichung des R A S C H - M O dells strukturgleich zu Formel (2) ist (WESTERM A N N , 1979, p. 1 7 8 - 182). Durch die Anwendung des RASCH-Modells wird allerdings die Beliebigkeit in der Zuordnung von empirischen
und theoretischen Begriffen nicht wesentlich verringert: Die Interpretation der Parameter beruht allein auf dem Urteil des Forschers. Leitet man dagegen Einstellungswerte aus fundamentalen Messungen der Bewertungen und der Stärke von Überzeugungen ab, werden diesen theoretischen Begriffen empirische Variablen durch die Urteile der Probanden zugeordnet.
9.
Abschließende Bemerkungen
In dieser Arbeit wurde eine Methode vorgestellt, die zu Messungen von Einstellungen auf Intervallskalenniveau führen kann, und es wurde auch beschrieben, wie zu überprüfen ist, ob dieses Ziel im konkreten Anwendungsfall erreicht worden ist. Diese Methode wurde in ihren wesentlichen Teilen vorgestellt und am Beispiel verdeutlicht - Erfahrungen aus weiteren Anwendungen können aber durchaus zu Modifikationen Anlaß geben. Die vorgestellte Methode ist adäquat für den Begriff der Einstellung in der Konzeption von FISHBEIN und Mitarbeitern. Diese Theorie wurde ausgewählt, weil sie m.E. recht gut die wesentlichen Gemeinsamkeiten der Einstellungsbegriffe verschiedener prominenter Autoren präzisiert. Für andere Theorien und Definitionen können selbstverständlich andere Meßverfahren adäquat sein. Es wäre aber naiv, anzunehmen, man könne einen theoretischen Begriff wie «Einstellung» in einer nichtbeliebigen Weise «operationalisieren», ohne auf eine bestimmte theoretische Vorstellung bezug zu nehmen. Bisher wurde in dieser Arbeit ausschließlich der immer noch vorherrschende Fall der Einstellungsmessung über Antworten zu verbalen Aussagen betrachtet. Die hier vorgeschlagene Verfahrensweise läßt sich aber auch benutzen, wenn man Einstellungswerte aus dem Verhalten in «natürlichen» Situationen ableiten will. Es ändern sich dann lediglich die zu erfassenden Variablen: Man benötigt fundamentale Messungen auf Intervallskalenniveau - erstens - für die in den verschiedenen Verhaltensweisen zum Ausdruck kommenden Bewertungen des Einstellungsobjekts und - zweitens - für die Wahrscheinlichkeit oder relative Häufigkeit des Auftretens dieser Verhaltensweisen.
108
Westermann: Zur Messung von Einstellungen auf Intervallskalenniveau
Literatur ALLPORT, G.W. 1935. Attitudes. In: Murchinson, C. (Ed.): A handbook of social psychology. Vol. II. Worcester, Mass.: Clark University Press, p. 798 - 844. CAMPBELL, D.T. 1950. The indirect assessment of social attitudes. Psychological Bulletin, 47, 15 - 38. CAMPBELL, N.R. 1938. Symposium: Measurement and its importance for philosophy. Proceedings of the Aristotelian Society Supplement, 17, 121 — 141. CARNAP, R. 1960. Theoretische Begriffe der Wissenschaft: Eine logische und methodologische Untersuchung. Zeitschrift für philosophische Forschung, 14, 209 — 233, 571 - 5 9 8 . DAWES, R.M. 1977. Grundlagen der Einstellungsmessung. Weinheim: Beltz. DE
FLEUR,
M.L.
&
WESTIE,
F.R.
1963.
Attitude
as
a
scientific concept. Social Forces, 42, 17 — 31. EDWARDS, A.L. 1957. Techniques of attitude scale construction. New York: Appleton-Century-Crofts. FISHBEIN, M. 1967. A behavior theory approach to the relation between beliefs about an object and the attitude toward the object. In: Fishbein, M. (Ed.): Readings in attitude theory and measurement. New York: Wiley, p. 389-400. FISHBEIN, M. & AJZEN, I. 1975. Belief, attitude, intention, and behavior. Reading, Mass.: Addison-Wesley. GREEN, B.F. 1954. Attitude measurement. In: Lindzey, G. (Ed.): Handbook of social psychology. Vol. I. Reading, Mass.: Addison-Wesley. GROEBEN, N . & WESTMEYER, H . 1 9 7 5 . K r i t e r i e n
psycholo-
gischer Forschung. München: Juventa. GULLIKSEN, H. & MESSICK, S. ( E d s . ) 1960. P s y c h o l o g i c a l
scaling: theory and application. New York: Wiley. HACKMAN, J . R . & ANDERSON, L . R .
1968. T h e
strength,
relevance, and source of beliefs about an object in Fishbein's attitude theory. Journal of Social Psychology, 76, 55-67.
HEMPEL, C.G. 1974. Grundzüge der Begriffsbildung in der empirischen Wissenschaft. Düsseldorf: Bertelsmann. HERRMANN, T. 1973. Persönlichkeitsmerkmale. Stuttgart: Kohlhammer. INSKO, C. A. 1967. Theories of attitude change. New York: Appleton-Century-Crofts. KRANTZ, D . H . ,
LUCE, R . D . ,
SUPPES, P. & TVERSKY,
A.
1971. Foundations of measurement. Vol. I. New York: Academic Press. KRISTOF, W. 1968. Einige Skalenfragen. In: Fischer, G . H . (Ed.): Psychologische Testtheorie. Bern: Huber. LIKERT, R. 1932. A technique for the measurement of attitudes. Archives of Psychology, 140. MEES, U . & KEHL, D . 1979. E i n V o r s c h l a g z u r N e u d e f i n i -
tion des Einstellungskonzepts. Psychologische Beiträge, 21,294-309.
ORTH, B. 1974. Einführung in die Theorie des Messens. Stuttgart: Kohlhammer. OSGOOD, C . E . , S u c i , G . J. & TANNENBAUM, P . H . 1 9 5 7 . T h e
measurement of meaning. Urbana, 111.: University of Illinois Press. PFANZAGL, J. 1959. Die axiomatischen Grundlagen einer allgemeinen Theorie des Messens. Würzburg: Physica. RASCH, G. 1960. Probabilistic models for some intelligence
and attainment tests. Kopenhagen: Danish Institute for Educational Research. ROBERTS, F. S. 1979. Measurement theory. Reading, Mass.: Addison-Wesley. ROSENBERG, M . J . & HOVLAND, C . I . 1960. C o g n i t i v e , a f f e c -
tive, and behavioral components of attitude. In: Rosenberg, M.J. et al. Attitude organization and change. New Haven: Yale University Press. ROTH, E. 1967. Einstellung als Determination individuellen Verhaltens. Göttingen: Hogrefe. SCOTT, W. A. 1968. Attitude measurement. In: Lindzey, G. & Aronson, E. (Eds.): Handbook of Social Psychology. Vol. II. Reading, Mass.: Addison-Wesley, p. 204 — 273. SIXTL, F. 1967. Meßmethoden der Psychologie. Weinheim: Beltz. STEGMÜLLER, W. 1974. Theorie und Erfahrung. 1. Halbband. (Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band II). Berlin: Springer. STEGMÜLLER, W. 1980. Neue Wege der Wissenschaftsphilosophie. Berlin: Springer. STEVENS, S.S. 1960. Ratio scales, partition scales and confusion scales. In: Gulliksen, H. & Messick, S. (Eds.): Psychological scaling: theory and applications. New York: Wiley, p. 4 9 - 6 6 . SUPPE, F. 1977. The search for philosophic understanding of scientific theories. In: Suppe, F. (Ed.): The structure of scientific theories. Urbana, 111.: University of Illinois Press, p. 3 - 2 4 1 . SUPPES, P. 1962. Models of data. In: Nagel, E., Suppes, P. & Tarski, A. (Eds.): Logic, methodology, and philosophy of science: Proceedings of the 1960 International Congress. Stanford: Stanford University Press, p. 2 5 2 261. SUPPES, P. & ZINNES, J.L. 1963. Basic measurement theory. In: Luce, R.D., Bush, R . R . & Galanter, E. (Eds.): Handbook of mathematical psychology. Vol. I. New York: Wiley, p. 1 - 7 6 . THOMAS, K . & TUCK, M . 1975. A n e x p l o r a t o r y s t u d y o f
determinant and indicant beliefs in attitude measurement. European Journal of Social Psychology, 5, 167 — 187. THURSTONE, L.L. 1931. The measurement of social attitudes. Journal of Abnormal and Social Psychology, 26, 249-269. THURSTONE, L . L . & CHAVE, E . J . 1 9 2 9 . T h e
measurement
of attitudes. Chicago: Chicago University Press. TORGERSON, W.S. 1958. Theory and methods of scaling. New York: Wiley. WEGENER, B. 1980. Magnitude-Messung in Umfragen: Kontexteffekte und Methoden. Zumanachrichten, 6, 4-40. WEGENER, B. (Ed.) 1981. Social attitudes and psychophysical measurement. Hillsdale, N.J.: Erlbaum. WESTERMANN, R. 1979. Eine wissenschafts- und meßtheoretisch begründete Ableitung von Verfahren zur Messung von Einstellungen auf Intervallskalenniveau. U n veröffentlichte Dissertation. Göttingen: Math.-Nat. Fakultät der Universität. WESTERMANN, R. 1980. Die empirische Überprü^ ^ H fung des Niveaus psychologischer Skalen. Zeitschrift für Psychologie, 1 8 8 , 4 5 0 - 4 6 8 . I J
109
Zeitschrift f u r Sozialpsychologie 1982, 13, 1 0 9 - 124
Experimentelle Kleingruppenforschung: Methodologische Anmerkungen und eine empirische Studie ERICH H . W i T T E u n d P E R C Y M E L V i L L H Psychologisches Institut I der Universität H a m b u r g
A n h a n d der experimentellen K l e i n g r u p p e n f o r s c h u n g wird exemplarisch die experimentelle M e t h o d i k untersucht. Entsprechende Differenzierungen f u h r e n zur Forderung nach Interpretations-, Motivations- u n d Beobachtungskontrollgruppen z u r Validierung experimenteller Bedingungen. Diese F o r d e r u n g wird durch eine empirische Studie u n terstützt, in der sich Interpretationsunterschiede klassischer Experimentalbedingungen aus der Kleingruppenforschung in der studentischen Population aufzeigen ließen. Als Aufgabe stellt sich eine differenzierte Weiterentwicklung der unverzichtbaren experimentellen Methode.
T h e experimental m e t h o d is exemplarily discussed by the experimental small g r o u p research. S o m e discriminations of the social process of e x p e r i m e n t a t i o n lead to t h e d e m a n d of three different control-groups: interpretation-controlgroups, motivations-control-groups, observations-controlgroups, to validate the experimental conditions. T h a t d e m a n d has been s u p p o r t e d by an empirical study, in which differences of interpretations has been f o u n d in a student p o p u l a t i o n concerning classical experimental studies of small g r o u p research. T h e a i m is a subtle f u r t h e r d e v e l o p m e n t of the u n r e n o u n c a b l e e x p e r i m e n t a l m e t h o d ology.
Vorbemerkung
Faktisch sind auch die meisten Arbeiten einer psychologischen Sozialpsychologie, wie sie sich in dem Journal of Personality and Social Psychology niederschlägt, experimentelle Studien. H I G B E E & W E L L S ( 1 9 7 2 ) haben festgestellt, daß etwa 86% der publizierten Arbeiten Experimente sind. Folglich ist unsere faktische Bindung an das Experiment sehr groß. Bei den soziologischen Sozialpsychologen stehen dagegen nicht-experimentelle Methoden im Vordergrund ( W I L S O N & SCHAFER, 1978). Dabei ist der Wechsel des (so stark strapazierten) Paradigmas am wenigsten erfolgversprechend. Als Lösung könnte am ehesten eine Pradigma-^nreicherung angesehen werden, die als ein wichtiges Element eine experimentelle Methodik enthält. Leider existiert (auch nur im Ansatz) keine umfassende Methodologie, die wesentliche sozialwissenschaftliche Ansätze, wie sie z. B. von A P E L (1973) vorgeschlagen werden, in eine gemeinsame Forschungsstrategie integrieren könnte. Im Augenblick kann es deshalb nur unsere Aufgabe sein, die experimentelle Methodik genauer zu betrachten. Dabei kann die inferenzstatistische Seite ausgeklammert werden, weil sie ausführlich an anderer Stelle diskutiert wor-
Die Kritik an der experimentellen Methode aus methodologischer und ethischer Sicht ist so zahlreich, daß man sie hier nicht zu wiederholen braucht (z.B. S C H U L E R , 1980). Demgegenüberstehen Aussagen von Philosophen und Sozialpsychologen, die die Bedeutung des Experimentes hervorheben. Z.B. schreibt W R I G H T (1974, p.82): «Das wissenschaftliche Experiment, eine der genialsten und folgenreichsten Erfindungen des menschlichen Geistes ...» Direkt bezogen auf die Sozialpsychologie bemerkt STROEBE (1980, p.26): «Es kann sicherlich festgestellt werden, daß das Experiment die geeignetste Methode zur Prüfung der Theorien ist, die Sozialpsychologen bis heute entwickelt haben.»
Zu diesem
Beitrag
Diese Studie w u r d e u n t e r A n r e g u n g u n d Betreuung des ersten A u t o r s v o m zweiten in F o r m einer D i p l o m a r b e i t durchgeführt. W i r m ö c h t e n uns bei allen Personen b e d a n ken, die als Vpn an diesem E x p e r i m e n t t e i l g e n o m m e n haben. F e r n e r sei H e r r n HUBERT FEGER u n d Herrn GEROLD MIKULA f ü r zusätzliche Hinweise u n d kritische Stellungn a h m e zu einer f r ü h e r e n Fassung dieser Arbeit gedankt.
110
Witte & Melville: Experimentelle Kleingruppenforschung
d e n ist (BREDENKAMP, 1 9 8 0 ; WITTE, 1980). B e -
im allgemeinen behandelt worden (IRLE, 1979). Dabei ist die Idee der Täuschung nur anwendbar, wenn man eine kognitivistische Konzeption von Vpn zumindest im Ansatz besitzt (sie-
handelt werden soll n u r das Problem der experimentellen Bedingung als soziale Situation und exemplarisch für die Kleingruppenforschung soll ein wichtiger Aspekt empirisch überprüft werden. Generell wird sich zeigen, daß die experimentelle Methode in sich nicht abgeschlossen ist, d. h. selbst durch nicht-experimentelle Ansätze validiert werden muß.
Das Experiment als soziale Situation Daß Experimente in den Sozialwissenschaften soziale Situationen darstellen, ist allgemein akzeptiert, denn hieraus werden viele Kritikpunkte gegen das Experiment abgeleitet, wenn man einmal die logischen und statistischen Probleme ausklammert, wie z.B. die Einstellung der Vp, die Hypothesen der Vp, Vl-Effekte usw. Nimmt man diese Vorstellung ernst, dann zeigen sich über die bekannten Fehlerquellen hinaus spezielle Konsequenzen für ein sozialwissenschaftliches Experiment mit menschlichen Handlungsträgern. Sehr vereinfacht kann man sich folgende Elemente einer Handlung in einem Experiment vorstellen: a) kognitive, affektive und konative Repräsentation von Instruktion und experimenteller Bedingung; b) Motivation, eine spezielle Handlung auszuführen; c) Kompetenz, diese Handlung auch ausführen zu können ; d) Handlung zu einem spezifischen Zeitpunkt unter einem bestimmten Entwicklungsstand. Analoge Betrachtungen sind wir gewohnt bei der Entwicklung von psychologischen Tests anzustellen, häufig in Abhebung von Fragebögen ohne entsprechende Gütekriterien. Trotzdem wenden wir unsere strengen Kriterien bezüglich der Tests kaum auf die Entwicklung von experimentellen Bedingungen an. Hier reicht uns meistens die «face-validity» des Experimentators. Es kommt manchmal noch vor, daß wir die Wirksamkeit von Fehlinstruktionen erfahren wollen, oder ob die Variation der experimentellen Bedingung wahrgenommen worden ist. In diesem Zusammenhang ist besonders intensiv das Problem der «Täuschung»
he hierzu IRLE, 1979). T ä u s c h u n g w i r d in den
meisten Fällen als ein Verschleiern des Untersuchungszieles angesehen. Das, was der Experimentator untersucht, stimmt nicht mit dem überein, was die Vpn glauben. Man kann diese Fehlinformation im Reizmaterial verstecken (z.B. autokinetischer Effekt), in der apparativen Ausstattung (Schock-Generator), in dergesteuerten Interaktion durch Konfidenten oder durch eine «Cover Störy». Dabei wird der zu untersuchende psychologische Prozeß auch als realisiert angenommen, n u r nicht in einer direkten Weise, weil man sonst vermutet, daß Vpn den VI täuschen werden, indem sie sich nicht so verhalten, wie sie es außerhalb des Labors täten. Dabei ist das Problem der Täuschung auch umkehrbar, indem Vpn bewußt andere Handlungen zeigen als sie es sonst tun. Das kann auch unter positiven Motiven geschehen, indem sie dem VI helfen wollen. Aber auch der VI kann von einem Ober-Vl getäuscht werden usw. Sogar die Selbst-Täuschung im Rollenspiel ist möglich, wenn man das Rollenspiel als Realität nimmt. Täuschung ist damit kein einseitiges Phänomen der Macht. Aber hinter dieser Diskussion der Täuschung als methodologisches Problem verbirgt sich bereits die hier zu diskutierende Erweiterung der Kontrollgruppentechnik in Experimenten, denn meistens wird nur der Argwohn der Vpn bezüglich der Täuschung untersucht. Ganz selten aber fragen wir uns, was wahrgenommen wurde, wie es von den Vpn interpretiert worden ist und aus welcher Motivation heraus man die beobachtete Handlung gezeigt hat. Erstaunlich ist, daß wir diese Fragen nicht stellen, obwohl wir gerade im Experiment eine strenge Prüfung unserer Hypothesen sehen. Dabei sollte ein Experiment auch nach den klassischen Gütekriterien - Objektivität, Reliabilität, Validität - beurteilt werden. Meistens kommen noch die Merkmale der systematischen Variation und der zufälligen Zuordnung hinzu. Aber nur wenn alle Aspekte zusammen erfüllt sind, würde man den Kriterien genügen, die eine Prüfung einer hypothetischen Beziehung (x —»y) erlauben.
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
Dabei sind die drei Kriterien, die an psychologische Tests angelegt werden, so allgemein, daß man sie auch auf Experimente übertragen kann. Die Objektivität bezeichnet dabei die Unabhängigkeit vom Untersucher, d. h. insgesamt die prinzipielle Wiederholbarkeit des gesamten Experiments, die Genauigkeit der Handlungsaufzeichnungen und die Eindeutigkeit der Ausprägung gezeigter Handlungen unabhängig vom Experimentator. Die Reliabilität behandelt im Experiment die Frage, ob die Ergebnisse bei gleicher Registrierung der Handlungen und denselben Experimentalbedingungen schwanken können. Diese Unterschiede können wesentlich auf Motivations- und Interpretationsschwankungen zurückgeführt werden. Schließlich m u ß auch im Experiment die generelle Frage nach der Verbindung zwischen Handlungen (Realisationen) und theoretischem Konstrukt beantwortet, d.h. die Validität geklärt werden. Im Rahmen von Testentwicklungen sind wir gezielt ausgebildet, daß wir diese Kriterien anlegen. Eine vergleichbare Schwierigkeit gibt es aber auch bei der Durchführung von Experimenten. Man kann sich das in folgenden Schritten veranschaulichen: 1) Behauptung: x —»y 2)Herstellung einer experimentellen Bedingung a. 3) Annahme eines Interpretationsgesetzes: Person P interpretiert a (Experimentalsituation und Instruktion) als x (theoretisches Konstrukt) \Pinta(x). 4) Annahme eines Motivationsgesetzes: Person P ist motiviert, ihr übliches Verhalten (b) bei der Interpretation a (x) zu zeigen: P mot {a (x) 5)P hat die Kompetenz b zu realisieren. 6 ) A n n a h m e eines Beobachtungsgesetzes: Die von P gezeigte Handlung b wird als y interpretiert: b (y). 7) Überprüfung der Hypothese: a (x) -> b (y). Diese noch sehr einfache Schlußkette ergibt folgendes Bild: Gesetz: x —» y Voraussetzung:
P int a (x) P m o t {a (x) —»b} b(y) Prüfung: a (x) ->• b (y).
111 Damit hängt die Prüfung wesentlich von den Voraussetzungen ab, die erfüllt sein müssen, um ein Experiment überhaupt als kritische Instanz betrachten zu können. In sehr vielen Fällen werden aber experimentelle Bedingungen und registrierte Handlungen nach Augenschein des Experimentators eingeführt. Das ist ein erheblicher Widerspruch zwischen dem Experiment als «objektive» Forschungsmethode und seinem konkreten Einsatz in den Sozialwissenschaften. Dabei handelt es sich in Analogie zur Testentwicklung beim Interpretationsgesetz um eine Validitätsproblematik, beim Motivationsgesetz um ein Validitäts- und Reliabilitätsproblem und beim Beobachtungsgesetz um eine Kombination aus Objektivitäts- und Validitätsproblematik. Die Frage ist dann aber, wie man diese Probleme angehen kann. Die Strategie, Fehlerquellen kontrollieren zu wollen, indem man Fragebögen und Einstellungen an der Experimentalgruppe erhebt, wird wegen Wechselwirkung zwischen Befragung und Experiment eher Fehler erzeugen als reduzieren. Man m u ß die einzelnen Schritte getrennt erheben. Außerdem kann man wohl nicht die Fehler eliminieren, sondern man m u ß wegen der Zahl möglicher Fehlerquellen diese durch kontrollierte Konstruktion vermeiden. Bei der experimentellen Methode ist man gewohnt, Kontrollgruppen einzuführen. Dabei beziehen sich diese Kontrollgruppen meistens auf die Überprüfung der Reaktion. Möglich ist nun aber auch, InterpretationsKontroll-Gruppen einzusetzen, die die Interpretation des Experimentes über den Experimentator hinaus kontrollieren. Methodisch gibt es sicherlich eine Vielzahl von Ansätzen. Es seien zuerst einige angedeutet, die eine Befragung der Personen zur Folge haben: a) Beurteilung der Ähnlichkeit verschiedener experimenteller Bedingungen z.B. experimenteller Spiele. b) Konkrete Schilderung der Wahrnehmung von Experimentalsituationen und Analyse kritischer Elemente. c) Schrittweise Variation experimenteller Bedingungen und Befragung nach dem Beginn einer unterschiedlichen Interpretation.
112
d) Verbindung zwischen Experimentalsituation und ähnlichen Alltagssituationen. e) Kombination aus mehreren Ansätzen. Neben der Befragung kann man auch die Methode der Herstellung verwenden. Als Resultat solcher Interpretations-Kontrollgruppen wird sich ergeben, daß nicht die kleinste Einheit einer Reiz-Reaktions-Kombination und die strengste Kontrolle zu «angemessenen» Interpretationen führen, sondern daß die experimentelle Bedingung von den Interpretationsgesetzen der Vpn abhängig gemachtwerden muß, wenn man interindividuell vergleichbare Interpretationen mit «ökologischer Validität» will. Die experimentelle Zerlegung in immer einfachere Reiz-ReaktionsKombinationen hat in der zunehmenden Fluktuation ihrer Interpretation eine untere Grenze. Ähnliches gilt für die Strenge der Kontrolle, die zu affektiven Gegenreaktionen führen kann. Demgegenüber kann es aber auch sinnvoll sein, experimentelle Bedingungen herzustellen, die gerade Alltagssituationen auflösen, um gezielt soziale Veränderungen einzuleiten. (Das entspricht der Idee der Modelleinrichtungen, in denen gerade neue Verbindungen zur Erreichung von Zielen hergestellt werden.) Als nächstes ist eine Motivations-Kontrollgruppe einzuführen, die die Variationsbreite der Handlungsspielräume und der Art der möglichen Motivation herausarbeitet. Sie sollte aber erst dann eingesetzt werden, wenn durch die Interpretationskontrollgruppe gewisse experimentelle Bedingungen ausgewählt worden sind. Unter diesen Experimentalbedingungen könnte man Rollenspiele durchführen lassen nach gewissen Instruktionen, z.B. die «gute» Vp, die «argwöhnische» Vp, die «durchschnittliche» Vp usw. Man kann weiterhin diese Kontrollgruppe befragen, warum Personen etwas tun und den Handlungsspielraum unterschiedlicher Motive herausarbeiten. Ferner kann man drittens Handlungen über ein Rollenspiel als Vp vorschreiben und fragen, warum «natürliche» Vpn diese Handlung ausgeführt haben könnten. Dabei wird im Rollenspiel vermieden, daß die Personen ihre Handlungen im Experiment rechtfertigen müssen.
Witte & Melville: Experimentelle Kleingruppenforschung
Sie versuchen sich n u r in Personen hineinzuversetzen, die gewisse Handlungen ausgeführt haben und beschreiben mögliche Motivationen. Die Befragung der wirklichen (Reaktions-)Vpn m u ß mit zwei Fehlerquellen rechnen: einmal wird nachträglich aus einer Perspektive gezeigter Handlungen ein Rechtfertigungsdruck zu erwarten sein und zweitens wird die Aufmerksamkeit sich weniger auf die inneren Vorgänge lenken lassen, wenn man die Handlungen nicht verzerren will. Aus diesen beiden Gründen sollte erst einmal eine Trennung von Motivations-Kontrollgruppe und Reaktions-Vpn vorgenommen werden. Letztlich ist es dann eine empirische Frage, ob eine solche Trennung notwendig ist. N u r wenn die Interpretation einer experimentellen Bedingung möglichst einheitlich und die motivationale Fluktuation möglichst gering sind, dann ist überhaupt erst einmal von experimentellen Rahmenbedingungen zu sprechen. Dabei sind Zufallsschwankungen noch vergleichsweise harmlos, weil sie sich in der Fehlervarianz niederschlagen. Systematische Interpretations- und Motivationsverzerrungen dagegen bleiben unerkannt. Schließlich wird m a n noch eine Beobachtungskontrollgruppe einführen müssen, die insbesondere die Validität der registrierten Handlung überprüft. Dabei wird die Objektivität als prinzipielle Wiederholbarkeit in den meisten Fällen unterstellt. Relativ einfach geprüft werden kann, ob unabhängige Beobachter dieselbe Handlung und dieselbe Ausprägung der Handlung registrieren. Häufig ist das durch die Art der Reaktionsmöglichkeiten gewährleistet. N u r wenn diese Intersubjektivität gewährleistet ist, stellt sich die Frage nach der Validität. Dabei spielt die Einengung der Handlungsmöglichkeiten durch die Experimentalsituation zur Erhöhung der Objektivität insofern eine wichtige Rolle, als dann der Handlungszwang, z. B. drücken einer Taste beim Schockgenerator, Wahl eines speziellen Ausgangs bei einem experimentellen Spiel usw., n u r noch gering mit dem theoretischen Konstrukt zu tun hat. Vielleicht wird in einem Experiment n u r deshalb die beobachtete Handlung gezeigt, weil nichts anderes möglich war, obwohl diese
113
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
Handlung nicht von den experimentell hergestellten Bedingungen ausgelöst wurde, wie es im Experiment als Hypothesenprüfung unterstellt worden ist. Je weniger Handlungsmöglichkeiten bestehen, desto eher werden auch nicht-valide Handlungen registriert, weil sich die Vp nicht anders äußern können. Bei der Validität der Reaktion ist also die Frage zu klären, ob sie als Indikator für ein theoretisches Konstrukt angesehen werden kann. Es geht um die Frage, was die beobachtete Handlung bedeutet. Ist z. B. der Elektroschock bei M I L G R A M eine Bestrafung? In diesem Zusammenhang kann man wieder Befragungen vornehmen, indem man die Bedeutung der beobachteten Handlung angeben läßt. Als Experimentator kann man ferner alternative Handlungen einführen, z. B. anstelle der Elektroschocks das Trinken von unterschiedlich giftigen Flüssigkeiten oder das Heben von schweren Gewichten usw. Insgesamt sollte man sich nicht auf einen Indikator zur Messung eines Konstruktes beziehen, wie es z.B. M I L G R A M getan hat. Systematisch variiert hat er allein Rahmenbedingungen und Merkmale der Vpn, aber nicht die Handlungen. Folglich könnte - neben anderen Problemen die so gemessene Handlung die beobachteten Ergebnisse erzeugt haben, ohne generalisierbar zu sein. Man kann eine solche Überlegung z.B. an den PD-Spielen aufzeigen, die zusätzlich eine dritte Alternative beinhalten, nämlich keine Wahl zwischen den beiden anderen Ausgängen fällen zu müssen. Das Ergebnis war eine höhere Kooperationsbereitschaft als in den üblichen Formen des PD-Spiels ( M I L L E R , 1 9 6 7 ) . Folglich wird durch die Einengung der Wahlmöglichkeiten, die als Kooperation betrachtete Alternative reduziert. Dabei wurde die dritte Alternative häufig benutzt, um den Veränderungswunsch nach einer anderen Wahl anzuzeigen, wie Befragungen ergeben haben. Vielleicht ist diese Absicht bei beschränkter Wahlmöglichkeit mit in die kompetitive Alternative aufgenommen worden. Hiermit ist dann einerseits die Frage nach der Motivation angesprochen und andererseits aus Gründen der Introspektionsproblematik das Urteil unabhängiger Beobachter heranzuziehen, die z. T. die unterschiedlichen Arten der
Reaktion beobachten und ihre Beobachtungen mitteilen könnten. Technisch lassen sich dabei direkte oder indirekte (auf Video-Band aufgezeichnete) Beobachtungen vornehmen. Dabei ist die Wahl der Perspektive als Akteur in der Motivationskontrollgruppe oder als Beobachter in der Beobachtungskontrollgruppe nach den Ergebnissen der Attributionstheorie relevant, weil Personen ihre Aufmerksamkeit auf unterschiedliche Aspekte konzentrieren (JONES & N I S B E T T , 1 9 7 2 ) .
Solche systematischen Beobachtungen von registrierten Handlungen in Experimenten könnten helfen, die Validitätsproblematik zu klären, wenn man in Zukunft Experimente durchführt. Schließlich kann man zur Bedeutung experimenteller Studien, die bereits durchgeführt worden sind, mit ihren experimentellen Bedingungen und den gefundenen Ergebnissen Untersuchungen durchführen, die die Interpretation solcher Experimente zum Gegenstand haben. Hiermit kann untersucht werden, ob einmal die in den Lehrbüchern vorgenommene Kategorisierung, die im wesentlichen auf der Meinung des Experimentators basiert, auch von der Stichprobe der Vpn vorgenommen wird, und zum anderen unterschiedliche Vpn-Gruppen zu derselben Kategorisierung kommen. Dabei kann man sich generell fragen, ob überhaupt die wissenschaftliche Kategorisierung mit der Alltagsklassifikation naiver Personen übereinstimmen muß. Das ist sicherlich nur dann der Fall, wenn diese Kategorisierungen Aussagen über die Interpretationen der Vpn machen. Im Rahmen der Physik z. B. sind die Untersuchungsgegenstände nicht mit Interpretationseigenschaften bzw. Motivationen ausgestattet. Wenn nun in den Sozialwissenschaften behauptet wird, daß ähnliche psychologische Prozesse vorliegen, dann sollten die Situationen auch von Laien ähnlich klassifiziert werden, äußeresgibt spezielle Hypothesen, die die Unähnlichkeit trotz gleicher psychologischer Prozesse vorhersagen. Ferner sollte die Übereinstimmung zwischen den Vpn bei der Ähnlichkeitsbeurteilung groß sein, wenn man von der prinzipiellen Generalisierbarkeit der Ergebnisse aufbeliebige Vpn-Gruppen aus ist. Mit solchen Ähnlichkeitsuntersuchungen kann man nun einen ersten Eindruck über die
114
Witte & Melville: Experimentelle Kleingruppenforschung
psychologischen Prozesse gewinnen, die abgelaufen sein könnten als man die Experimente durchgeführt hat, wobei man sicherlich auch die veränderten Rahmenbedingungen berücksichtigen muß, wie z. B. Kenntnis der Experimente, Veränderung der Einstellung zum Experiment usw. Solche nachträglichen Kategorisierungsuntersuchungen haben auf einem höheren Niveau, nämlich im Vergleich zwischen mehreren Experimenten, zum Ziel, auf mögliche Unterschiede zwischen den Vpn-Gruppen einerseits und Differenzen in der Interpretation zwischen Experimentator und Vpn hinzuweisen, andererseits. Letzteres kann bedeuten, daß die vom Experimentator hergestellten Bedingungen nur in speziellen Vpn-Gruppen die psychologischen Prozesse erfassen, die er herstellen wollte. Deshalb werden wir zum einen Unterschiede in der Vpn-Gruppe aufzufinden versuchen, sowie zum anderen innerhalb homogener Subpopulationen die Ähnlichkeiten zwischen Experimentalsituationen zwischen den Untergruppenvergleichen. Dabei konzentrieren wir uns in einer eigenen Untersuchung auf klassische Experimente aus der Kleingruppenforschung und auf studentische Vpn, weil diese am häufigsten für Experimente herangezogen worden sind.
Untersuchung experimenteller Bedingungen in der Kleingruppenforschung Bei der Druchführung der Untersuchung sind die folgenden Punkte zu klären: a) Welche Experimentalsituationen sollen beurteiltwerden? b) Welche Vpn sollen als Meßwertträger dienen? c) Wie sollen die Daten erhoben und ausgewertet werden? Auswahl der
nen. Demgegenüber sollten diese Untersuchungen nicht so bekannt sein, daß die Interpretation der Experimentalbedingung durch viele zusätzliche Informationen verzerrt wird. Aus diesem Grunde konnten die M I L G R A M - E X perimente «/c/tf berücksichtigt werden. Als Grundlagentext für die Behandlung der Kleingruppenforschung diente uns das Buch von SCHNEIDER (1975). Erteilt die Forschungsergebnisse in acht Abschnitte ein, die wir auch in unserer Untersuchung repräsentieren wollten. Bis auf Untersuchungen zur Gruppenstruktur sind auch alle Abschnitte anhand mindestens einer Studie vertreten. Es war außerdem zu berücksichtigen, daß wir einen vollständigen Paarvergleich durchführen wollten und somit nur eine geringe Zahl von Situationen heranziehen konnten. Aus diesen Gründen haben wir uns auf die folgenden Experimentalsituationen beschränkt:
Die
Situationen
Situation 1: SCHACHTER, S.: The psychology of affiliation. Experimental studies of the sources of gregariousness. Stanford University Press, Stanford Cal. 1959 (zu: Die Entwicklung der Gruppe - Bedrohung als Auslöseelement der Gruppenentwicklung). Situation 2 : A R O N S O N , E., & L I N D E R , D.: Gain and loss of esteem as determinants of interpersonal attractiveness. Journal of Experimental Social Psychology, 1965, 1, 1 5 6 - 171 (zu: Die Entwicklung der Gruppe - Bedingungen interpersoneller Attraktivität). Situation 3: BAVELAS, A., HASTORF, A . H . , A. E. & KITE, R. W.: Experiments on the alteration ofgroup structure. Journal of Experimental Social Psychology, 1965, 1, 5 5 - 7 0 ( z u : Kommunikation in der Gruppe - Kommunikationsverhalten wird gelernt). GROSS,
Experimentalsituationen
Bei der Auswahl der zu beurteilenden Experimente sollten vor allem solche herangezogen werden, die relativ bekannt geworden sind, in Lehrbüchern herausgestellt werden und zur Erklärung und Anwendung in der Alltagswelt die-
Situation 4: SHERIF, M.: An outline of social psychology, New York 1948ff. Daraus: Kapitel 7, The formation of group standards or norms the autokinetic effect, p. 156fT. (zu: Bedingungen konformen Verhaltens).
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
Situation 5: A S C H , S.E.: Social psychology, New York 1952. Daraus: Kapitel 16, Group forces in the modification and distortion of judgements: A minority of one vs. an unanimous majority, p. 451 ff. (zu: Bedingungen konformen Verhaltens - Der Linien vergleich).
115
ziehungen zwischen den Gruppen - Verhandeln bezüglich Leistungsvergleich).
Wie sollten nun diese Situationen den Vpn dargeboten werden? Hier gibt es mehrere Möglichkeiten von der Durchführung aller Experimente bis zu einer erzählerischen Darstellung. Situation 6: LIVANT, W. P.: Cumulative distor- Wir haben uns entschlossen eine schriftliche tion ofjudgement. Perceptual and Motor Skills, Fassung der Experimentalbedingungen zu er1963, 16, 7 4 1 - 7 4 5 (zu: Bedingungen konfor- stellen, wobei wichtige Passagen aus Originalmen Verhaltens - Konformität gegenüber dem publikationen übernommen worden sind. Mit Versuchsleiter). der Beschreibung und der Instruktion (siehe Anhang) wollten wir erreichen, daß sich die Situation 7: R O G E R S , C. R.: Encounter Groups. Vpn in die Experimentalbedingung hineinverNew York 1972. Zitiert nach SCHNEIDER, setzen konnten, wie sie es als tatsächliche TeilH.-D.: Kleingruppenforschung, Stuttgart, nehmer getan hätten. Eine solche schriftliche 1975, p. 272ff. (zu: Die planmäßige Verände- Fassung der Experimental-Situationen kann rung von Gruppennormen und -strukturen). natürlich nur eine Approximation an das wirkliche Experiment darstellen. Daß eine solche Situation 8: W A L L A C H , M . A . & K O G A N , N.: Annahme der Ähnlichkeit zwischen schriftliThe roles of information, discussion and con- cher Fassung und tatsächlicher Durchführung sensus in group risk taking. Journal of Experi- nicht völlig unrealistisch ist, hat z.B. FEGER mental Social Psychology, 1965, 1, 1 — 19 (zu: (1978) im Bereich des Konfliktverhaltens zeiGruppenleistung-). gen können. Für erste Erfahrungen auf einem solchen Forschungsgebiet ist diese schriftliche Situation 9 : R A P O P O R T , A. & C H A M M A H , A.: Vorgabe bei relativ geringem ErhebungsaufPrisoner's dilemma. Ann Arbor, 1965. Daraus: wand vergleichsweise informativ. Wir sind uns Appendix I, Instructions given to subjects aber sehr wohl der ungeklärten Probleme beplaying prisoner's dilemma in the pure matrix wußt. condition, p. 228ff. (zu: Die Regelung konfligierender Interessen in der Gruppe - prisoner's dilemma). A uswahl der Meßträger Sehr viele Untersuchungen sind mit Anfangerstudenten der Psychologie durchgeführt worden. Aus diesem Grunde haben wir ebenfalls eine Stichprobe von Anfangern herangezogen (Gruppe 1). Als weitere Gruppe, die sich nicht sehr stark von den Anfanger-Studenten unterscheiden sollte, wurden Studenten der PsychoSituation 11: KELLEY, H . , B E C K M A N N , L. & F I - logie nach dem Vor-Diplom zwischen dem siebenten und zehnten Semester ausgewählt SCHER, C.: Negotiating the division of a reward under incomplete information. Journal of Ex- (Gruppe 2). Schließlich sollte noch eine Gruppe perimental Social Psychology, 1967, 3, 361 — gewählt werden, die nicht in den sozialwissen398 (zu: Die Regelung konfligierender Interes- schaftlichen Fächern studiert, um eine «naivere» Einschätzung bei sonstiger Versen - Verhandeln). gleichbarkeit in den Meßwertträgern vorliegen Situation 12: BLAKE, R . & M O U T O N , J.: Over- zu haben. Aus diesem Grunde wurden Archäoevaluation of own group's product in inter- logie-Studenten herangezogen (Gruppe 3). group competition. Journal of Abnormal and In jeder Gruppe sind 20 Vpn mit insgesamt Social Psychology, 1962,64,237-238 (zu: Be- 38 weiblichen und 22 männlichen Meßwertträ-
Situation 10: D E U T S C H , M. & K R A U S S , R.M.: Das Akme-Bolt-Transport-Spiel. In: K R I V O H LAVY, J.: Zwischenmenschliche Konflikte und experimentelle Spiele. Bern, 1974, p. 27ff. (zu: Die Regelung konfligierender Interessen in der Gruppe - Drohung).
116
Witte & Melville: Experimentelle Kleingruppenforschung
gern. Diese formalen Ausgangspunkte sollen nur Grundlage sein für eine empirische Einteilung in Gruppen nach den individuellen Ähnlichkeitsurteilen (Clusterverfahren).
sich für 5 Cluster entschließen. Bei der näheren Betrachtung jedoch zeigt sich, daß ein Cluster nur aus einer Person besteht, so daß wir uns mit vier Clustern begnügt haben. Dabei m u ß aber geklärt werden, ob dieses Clusterverfahren überhaupt zu einer gewissen Homogenisierung geführt hat. Zur Überprüfung der Effektivität des Clusterverfahrens haben wir einen K R U S K A L - W A L ns-Test durchgeführt, einmal entsprechend der formalen Einteilung in die 3 Gruppen, zum anderen nach der empirischen Clusterbildung in 4 Gruppen. Dabei vermeiden wir es aus mehreren Gründen, signifikanzstatistische Betrachtungen vorzunehmen: zum einen werden mehrere Tests an einer Stichprobe vorgenommen, wenn man wirklich einen Eindruck von den Unterschieden in den einzelnen Ähnlichkeitsbeurteilungen gewinnen will, zum anderen ist die Verbindung zwischen empirischer Clusterbildung und Signifikanzstatistik letztlich wegen der Maximierung des Stichprobenfehlers kaum interpretierbar (WITTE, 1980). Aus diesen Gründen haben wir die Logik des KRusKAL-WALLis-Test mit seiner Verteilung zur Beschreibung der Unterschiedlichkeit von Ähnlichkeitsurteilen herangezogen. Dabei zeigt sich, daß 15 von 66 Paarvergleichen bei der formalen Gruppierung - gemäß der üblichen, aber nicht sehr glücklichen Formulierung - auf dem 10%-Niveau signifikant sind. Wendet man den KRusKAL-WALLis-Test jetzt auf die empirischen Cluster an, so unterscheiden sich auf dem 10%-Niveau 51 der 66 Paarvergleiche. (Wir setzen hier den KRUSKALWALLis-Test nur als deskriptives Maß für die Güte der Homogenisierung ein und nicht als Test im eigentlichen Sinne.) Dabei sind bis auf zwei Ausnahmen die «signifikanten» Unterschiede bei der formalen Einteilung auch bei dem empirischen Cluster erhalten geblieben. Aus diesen Daten scheint es plausibel anzunehmen, daß es Sub-Populationen gibt, die die Beurteilung der Ähnlichkeit von Experimentalbedingungen unterschiedlich vornehmen. Diese Unterschiede weisen daraufhin, daß man als Experimentator in Zukunft auch die internen Prozesse beim Experimentieren über eine Kontrollgruppe erfassen m u ß und nicht nur die Reaktionsseite.
Datenerhebung Den Vpn wurden die Instruktionen und die 12 Beschreibungen vom VI ausgehändigt. Zuerst sollten sie sich die Instruktionen durchlesen, konnten dann Fragen stellen und sollten schließlich jedes Paarvon Situationen auf einer lOstufigen Skala nach ihrer Ähnlichkeit beurteilen. Sie reichte von 0 (identisch) bis 9 (völlig unähnlich) und war verbal verankert. Es wurde dabei die Reihenfolge der Situationsbeschreibungen und der Paarvergleiche zufallig variiert. Als Rohdaten liegen damit über 12 Experimentalsituationen von 60 Vpn, 66 Ähnlichkeitsratings von Situationspaaren auf einer 1 Ostufigen Skala vor.
Ergebnisse Clusteranalyse der
Meßwertträger
Unsere erste Fragestellung bezieht sich nun darauf, intern möglichst homogene, aber nicht überlappende Subpopulationen zu entdecken, falls diese vorhanden sind. Das ist die klassische Fragestellung für eine Clusteranalyse. Bei einer Wahl eines Clusterverfahrens wollten wir eine möglichst einfach durchschaubare Methode heranziehen, wenn das die Daten zulassen. Anschließend sollte dann die Effektivität des Clusterverfahrens überprüft werden. Verwendet haben wir die UPGMC-Methode (unweighted pair-group centroid method), die auf euklidische Distanzen angewendet wurde (siehe SNEATH & SOKAL, 1973). Wir haben diese Metrik deshalb gewählt, weil wir keine spezifischen Annahmen über Gewichtungen haben, die sich aber bei anderen Metriken ergeben ( Z . B . W E N D E R , 1969). Bei der Inspektion der Fehlerwertkurve, d. h. der quadrierten Abstände aller Meßwertträger zum Zentroid, gibt es bei der Bildung von 5 Clustern einen Knick. Will man also möglichst eine geringe Zahl von Clustern, so wird man
117
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
Tab.l: Darstellung der Merkmale der Meßwertträger in den Clustern I bis IV. Cluster Anzahl der Vpn insgesamt
I
II
III
IV
20
16
10
14
davon aus Gruppe 1
10
7
2
1
Gruppe 2
8
6
5
1
Gruppe 3
2
3
3
12
weiblich
11
10
7
10
männlich
9
6
3
4
Durchschnittsalter (in Jahren)
24,93
25,50
23,06
28,57
Tab. 2: Darstellung der Ähnlichkeiten der Clusterbildung zwischen den verschiedenen Gruppierungen der Vpn auf den unterschiedlichen N i v e a u s (C, —C10). Hierbei bedeuten « x » und «o» identische Clusterbildung und « —» eine spezifische, d.h. auch zwei mit « —» bezeichnete sind verschieden. Cluste- Gruppierungen von Versuchspersonen
«Ges.» «1» «2» «3» «I» «II» «III» «IV» 8 u n g zu n Gruppen von Situationen
c, C2 C3 C4
X X X X X X X X X X
C,
Betrachtet man nun die empirisch gefundenen Cluster und setzt sie zu den Merkmalen der Meßwertträger in Beziehung, so liegt folgende Interpretation nahe (siehe Tab. 1). Es gibt zwei große Cluster von vorwiegend Psychologie-Studenten. Dabei spielt die Studiendauer keine Rolle (I, II). Folglich gibt es schon innerhalb der Population der Psychologie-Studenten gewisse Unterschiede bei der Interpretation derExperimentalsituationen. Ferner gibt es ein Cluster von fast ausschließlich Archäologie-Studenten, die eine davon verschiedene Interpretation aufweisen (IV). Schließlich gibt es noch ein Cluster (III), das über die drei formalen Gruppen sehr ähnlich besetzt ist, aber sich von den übrigen drei Sichtweisen unterscheidet. Wie diese Unterschiede im einzelnen aussehen, soll eine Clusteranalyse der Paarvergleiche für jede Gruppe getrennt aufzeigen. Prinzipiell hätte man multidimensionale Skalierungsverfahren einsetzen können, die individuelle Differenzen und einen Durchschnittsraum gleichzeitig berücksichtigen, wie z.B. INDSCAL oder PINDIS. Diese dimensionsanalytische «Feinanalyse» kann an dieser Stelle unterbleiben, weil es uns nur auf Unterscheidungen «im groben» ankam. Außerdem wollten wir diese beiden Schritte der Subpopulationssuche und der Itemclusterung wegen der Überschaubarkeit nacheinander durchführen. Falls man aber in Zukunft spezielle Hypothesen bezüglich der Dimensionen und ihrer Repräsentation in Subpopulationen hat, wird man sich dieser differenzierteren Betrachtung auch methodisch anpassen müssen.
Vereini-
ring
Q C7 C8 c9 C,o
Clusteranalyse
—
-
o X
o -
-
X
X X X X X X X X X X
der
o o X X X
o
X
-
-
-
—
o
o
X X
X
-
-
X -
o o o o
X X X X X
o o o
-
X
o
-
-
X
-
X
X
-
-
X
-
-
-
-
11 10
9
8 7 6 5 4 3
2
Situationen
Auch zur Bestimmung der Cluster von Situationen haben wir die vorher genannte UPGMC-Methode verwendet mit euklidischer Metrik. Um einen Überblick über die unterschiedliche Bildung von Clustern bei allen möglichen Gruppierungen und auf unterschiedlichen Niveaus zu geben, haben wir in Tabelle 2 die Ähnlichkeiten dargestellt. Dieses Ergebnis weist darauf hin, daß eine Auswertung ohne Gruppierung (Ges.) zu denselben Clustern führt wie die der Gruppe 2. Diese Gruppe bestand nur aus den Studenten nach dem Vordiplom, so daß der Experimentator als entsprechend sozialisierter Psychologe in seiner Sichtweise scheinbar bestätigt wird. Bis zu einem gewissen Grad mag diese Identität an der Oberfläche für experimentelle Studien auch ausreichen, will man nun aber den Fehlerbereich reduzieren, dann muß man wohl gruppenspezifische Interpretationen berücksichtigen, weil entsprechende Unterschiede zu beobachten sind. Betrachtet man nun das Niveau, auf dem die meisten Ähnlichkeiten bestehen, so bietet sich das Clustering C 5 und C 10 mit jeweils 6 «x» an. Bei C10 ist die Einteilung sehr grob in zwei Bereiche, was bei der Heterogenität der zu beurtei-
118
Witte & Melville: Experimentelle Kleingruppenforschung
12
10
11
Abb. 1: Darstellung des Dendrogramms der Gruppe I über die Ähnlichkeitsbeurteilungen der 12 experimentellen Bedingungen aus der Kleingruppenforschung.
lenden Experimentalsituationen ein zu wenig differenziertes Niveau ist. Dagegen kann man bei C 5 mit sieben Clustern, die der berücksichtigten Anzahl von Gliederungspunkten aus dem Buch von S C H N E I D E R (1975) entsprechen, ein ausreichend differenziertes Niveau vermuten. In diesem Falle aber ist es wichtig zu wissen, daß die Gruppierung IV von den übrigen abweicht. Sie bestand vorwiegend aus Archäologie-Studenten. Möglicherweise treten in diesem Punkt Probleme der Art auf, daß die Ergebnisse mit College-Studenten der Psychologie nicht angemessen generalisierbar sind, weil sie die Experimentalbedingungen verschieden von anderen College-Studenten interpretieren. (Die vorliegende Untersuchung legt eine solche Hypothese nahe, aber sie hat sie nicht wirklich überprüft, weil z. B. nur eine schriftliche Fassung die Grundlage der Beurteilung war.) Wir wollen jetzt die globale Betrachtung verlassen und uns auf die detailliertere Differen-
zierung in den empirisch gewonnenen Gruppen (I — IV) konzentrieren. Die entsprechenden Dendrogramme sind in den Abbildungen 1 bis 4 dargestellt. Aus allen Dendrogrammen kann man sehr klar herauslesen, daß die Situationen (4, 5, 6) und (9, 10, 11) bei den vier Gruppierungen ein Cluster bilden. Die Situationen (4, 5, 6) sind auch in der Literatur gemeinsam eingeführt und diskutiert worden (Konformität), so daß sich hierbei eine klare Übereinstimmung ergibt. Ferner sind die Situationen (9, 10, 11) ebenfalls in der Literatur als einheitlich gesehen, nämlich als Verhandlungsbedingungen. Auch in diesem Fall ist der gemeinsamen Betrachtung in allen Untergruppen durch die Daten nicht widersprochen worden. Somit sind 6 von 12 Situationen auch in den verschiedenen Untergruppen als zusammengehörig eingeschätzt worden. Die übrigen 6 experimentellen Bedingungen jedoch weisen in den vier Gruppen unterschiedliche Clusterbildungen auf.
119
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
10
11
12
Abb. 2: Darstellung des Dendrogramms der Gruppe II über die Ähnlichkeitsbeurteilungen der 12 experimentellen Bedingungen aus der Kleingruppenforschung.
In drei Gruppierungen (I, II, IV) ist die Beziehung zwischen den Situationen (8, 12) noch recht ähnlich. Damit wird eine bekannte Experimentalbedingung («risky-shift») in Beziehung gesetzt zu einer Verhandlung zwischen Gruppen, die zu einer Überbewertung der eigenen Gruppenleistung führt. Bei der Gruppe III wird die Situation (8) zum «risky-shift» in die Nähe der Encounter-Gruppen (7) gebracht. Ferner ist die Situation (12) als ähnlich der Situation (1) eingestuft worden, in der die äußere Bedrohung zu einer Gruppenbildung führt. Auch diese Beziehungen sind plausibel. Wählt man sich jetzt die für Klinische Psychologie wichtige Gruppensituation, nämlich Encounter-Gruppen (7) aus, um ihre Ähnlichkeit zu anderen Gruppensituationen exemplarisch zu untersuchen, so stellt man in Gruppe I eine gewisse Ähnlichkeit zu den Situationen (3, 8, 12) fest, in Gruppe II zu den Situationen (8, 12), in Gruppe III zu den Situationen (3,8) und
in Gruppe IV zu den Situationen (1,2). Damit ist die Encounter-Gruppe in den ersten drei Gruppierungen in die Nähe der Kommunikationsregelung durch Verstärkung oder Bestrafung (3) und in die der Gruppenleistung (8, 12) gerückt worden. Die Gruppe IV dagegen sieht vorwiegend Ähnlichkeiten zur Angstbewältigung durch die Gruppe (1) und zur Entwicklung von Sympathie (2) in der Gruppe. Nach dieser unterschiedlichen Interpretation der Gruppensituation scheint es so zu sein, daß Archäologie-Studenten (Gruppe IV) eine Interpretation der Encounter-Gruppe geben, die der üblichen Interpretation entspricht. Dagegen sind die mit den Encounter-Gruppen erfahrenen Studenten geneigt, diese Situation eher als Leistungs- und Verstärkerbedingung zu betrachten. (Das mag ein Spezifikum Hamburgs sein, da in Hamburg fast alle Studenten auch Erfahrungen mit Encounter-Gruppen machen.) Die entsprechenden kognitiven Vorstruktu-
120
Witte & Melville: Experimentelle Kleingruppenforschung
1
12
2
7
3
8
5
4
6
9
11
10
Abb. 3: Darstellung des Dendrogramms der Gruppe III über die Ähnlichkeitsbeurteilungen der 12 experimentellen Bedingungen aus der Kleingruppenforschung.
rierungen haben wahrscheinlich Einfluß auf das Verhalten und das Klima in einer zukünftigen Gruppe, so daß abhängig von dem Kontakt ein Bedeutungswandel dieser Gruppensituationen stattfindet. Dieser Aspekt der Erfahrung mit und der Kenntnisse über den Ablauf einer Gruppensituation ist im Rahmen der Sozialpsychologie des Experimentes (z.B. MERTENS, 1975) und bei der Theorienbildung in der Kleingruppenforschung (WITTE, 1979) behandelt worden und zeigt hier empirische Parallelen zur kognitiven Strukturierung.
Diskussion Anhand einer empirischen Studie konnte das Problem der Interpretation experimenteller Bedingungen exemplifiziert werden. So zeigt sich, daß einerseits nur Konformitäts- und Verhandlungssituationen einheitlich interpretiert werden und andererseits bereits bei studentischen Vpn gewisse Unterschiede zwischen z. B. Psychologie- und Archäologie-Studenten zu
beobachten sind. Damit wird eine sehr viel differenziertere Strategie bei der Entwicklung von experimentellen Bedingungen nahe gelegt. So kann ein und dieselbe Bedingung allein durch den unterschiedlichen Kenntnisstand der Vpn eine verschiedene Bedeutung erlangen. Daraus folgt dann aber, daß die Indikatorbildung abhängig ist von der zu untersuchenden Stichprobe. Folglich ist nicht die personenunabhängige Standardisierung das Ziel, sondern es müssen Interpretations-, Motivations- und Beobachtungsgesetze als Basis-Annahmen für die spezifische Population getrennt validiert werden. Nur durch diesen zusätzlichen Aufwand wird sich die experimentelle Methodik auch in den Sozialwissenschaften so entwickeln lassen, daß sie ihre spezifische - aber auch unverzichtbare Aufgabe übernehmen kann. Dieser geforderte vor-experimentelle Aufwand macht letztlich die eigentlichen Experimente sehr kostspielig, so daß ihr Einsatz eigentlich nur sinnvoll ist im Rahmen größerer Theorien. Die Experimente können letztlich auch nur so aussagekräftig sein, wie die zu über-
121
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
1
2
7
8
3
12
4
5
6
9
11
10
Abb. 4: Darstellung des Dendrogramms der G r u p p e IV über die Ähnlichkeitsbeurteilungen der 12 experimentellen Bedingungen aus der Kleingruppenforschung.
prüfenden Theorien. Jedenfalls ist die beliebte Variation des Geschlechts und der Schulbildung nicht mehr ganz ohne schlechtes Gewissen durchzuführen, denn möglicherweise interpretieren Frauen die experimentelle Welt anders als Männer usw. Das ist durch eine Reaktionskontrollgruppe nicht notwendigerweise nachweisbar. Der Grund für dieselben durchschnittlichen Reaktionen in der Kontrollgruppe kann sehr verschieden sein. Letztlich bedeutet die Aufgabe sozialwissenschaftlicher Experimente - wie es teilweise gefordert wird - eine Verarmung, gleichzeitig aber führt ein «verfeinerter» Ansatz zu einem erheblichen Aufwand, der nur durch die Theorie gerechtfertigt werden kann. Die Gefahr, die in solchen Ansprüchen steckt, könnte zu einer faktischen Aufgabe experimenteller Methodik führen. Trotzdem wird man sich der berechtigten Kritik am Experiment nur dadurch stellen kön-
nen, daß man gezielt eine entsprechende Weiterentwicklung anstrebt. Ebenso sollte man die vorhandenen experimentellen Ergebnisse nicht etwa ignorieren, sondern gezielt nachuntersuchen, wenn man die Arbeiten für aussagekräftig hält. Literatur APEL, K.-O. 1973. Szientistik, Hermeneutik, Ideologiekritik. Entwurf einer Wissenschaftslehre in erkenntnisanthropologischer Sicht. In: K.-O. Apel et al. (Hrsg.): Hermeneutik und Ideologiekritik. Frankfurt/M.: Suhrkamp. BREDENKAMP, J. 1980. Theorie und Planung psychologischer Experimente. Darmstadt: Steinkopff. FEGER, H. 1978. Konflikterleben und Konfliktverhalten. Bern: Huber. HIGBEE, K . L . & WELLS, M . G . 1972. S o m e r e s e a r c h t r e n d s
in social psychology during the 1960s. American Psychologist, 27,963 - 966. IRLE, M. 1979. Das Instrument der «Täuschung» in der Verhaltens- und sozialwissenschaftlichen Forschung. Zeitschrift für Sozialpsychologie, 10, 305 — 330.
122 JONES,
Witte & Melville: Experimentelle Kleingruppenforschung
E.E.
&
NISBETT,
R.E.
1972.
The
actor
and
the
observer. Divergent perceptions of the causes of behavior. In: Jones, E.E. et al. (Eds.): Attribution: Perceiving the causes of behavior. Morristown/N. J.: General Learning Press. MERTENS, W. 1975. Sozialpsychologie des Experiments. Hamburg: Hoffmann und Campe. MERTENS, W. & FUCHS, G . 1978. K r i s e d e r S o z i a l p s y c h o l o -
gie? München: Ehrenwirth. MILLER, R.R. 1967. No play: a means of conflict resolution. Journal of Personality and Social Psychology, 2, 1 5 0 - 156. SCHNEIDER, H.D. 1975. Kleingruppenforschung. Stuttgart: Teubner. SCHULER, H. 1980. Ethische Probleme psychologischer Forschung. Göttingen: Hogrefe. SNEATH, P.H.A. & SOKAL, R.R. 1973. Numerical taxonomy. San Francisco: Freeman.
STROEBE, W. 1980. Grundlagen der Sozialpsychologie I. Stuttgart: Klett-Cotta. WENDER, K. 1969. Die psychologische Interpretation nichteuklidischer Metriken in der multidimensionalen Skalierung. Darmstadt: Dissertation. WILSON, D . W . & SCHAFER, R . B . 1978. Is s o c i a l p s y c h o l o -
gy interdisciplinary? Personality and Social Psychology Bulletin, 4, 5 4 8 - 5 5 2 . »/WITTE, E.H. 1979. Das Verhalten in Gruppensituationen. *\ Ein theoretisches Konzept. Göttingen: Hogrefe. WITTE, E.H. 1980. Signifikanztest und statistische Infe^ renz. Analysen, Probleme, Alternativen. Stuttgart: Enke. WRIGHT, G . H . VON 1974. Erklären und Verstehen. Frankfurt a.M.: Athenäum.
Anhang Zum besseren Verständnis unseres Vorgehens soll die Instruktion und zwei Schilderungen der experimentellen Bedingungen angegeben werden.
Instruktion Ein herzliches Willkommen allen Teilnehmern! Zu Beginn Ihrer Tätigkeit als Versuchsperson möchte ich Sie um einige Angaben zur Person bitten: Geschlecht: Alter: Schulabschluß: Ausbildung: Jetzige Tätigkeit: Für Psychologie-Studenten: Vordiplom: Ja/Nein Semester-Anzahl: Im folgenden wird es für Sie darum gehen, ein sogenanntes Ähnlichkeits-Rating durchzuführen. Was ist ein Ähnlichkeitsrating? Bei einer Anzahl von vorgegebenen Reizen sollen die Ähnlichkeiten bzw. Unähnlichkeiten, die diese Reize im paarweisen Vergleich aufweisen, anhand einer Skala bestimmt werden. Die Reize sind in unserem Falle Situations-Beschreibungen von Kleingruppen-Experimenten aus dem Forschungsbereich der Sozialpsychologie. Es sind insgesamt 12 verschiedene Situationen, die in einem Paar-Vergleich in ihrer Ähnlichkeit/Unähnlichkeit eingeschätzt werden. Wird nun jede Situation mit jeder einmal verglichen, so ergeben sich insgesamt 66 Vergleiche. Diese werden durchgeführt mit einer Ahnlichkeits-Skala: Sie ist neunstufig und verläuft von null bis neun. Diese Ziffern bedeuten: Sind zwei Reize praktisch identisch, so ist der Unterschied zwischen ihnen gleich null, also kreuzen Sie bitte die Null an. Je größer nun der Unterschied zwischen zwei gegebenen Reizen ist, desto größer soll auch der Zahlenwert auf der Skala sein, den ich ankreuze, um die Einschätzung der Unähnlichkeit wiederzugeben.
123
Zeitschrift für Sozialpsychologie 1982, 13, 1 0 9 - 1 2 4
0
1
2
3
4
5
6
identisch
sehr ähnlich
stark ähnlich
ähnlich
eher ähnlich
eher unähnlich
unähnlich stark sehr völlig unähnlich unähnlich unähnlich
7
8
9
Sie haben also insgesamt zehn verschiedene Möglichkeiten, ihre persönliche Einschätzung von Ähnlichkeit/Unähnlichkeit anzugeben, die diese Reiz-Paare für Sie haben. Bevor Sie nun mit dem ersten dieser Vergleiche beginnen, müssen Sie zunächst einmal alle Reize, alle zwölf Situationen also, kennenlernen; sie sind a u f d e n folgenden 12 Seiten beschrieben. Wenn Sie sich nun eine Beschreibung durchlesen, stellen Sie sich bitte vor, Sie seien eine der Versuchspersonen (im folgenden immer mit Vp abgekürzt). Versuchen Sie bitte, so lebendig wie möglich, sich die näheren und weiteren Umstände des Experiments vorzustellen: Den Raum, in dem der Versuch stattfindet, die Atmosphäre, die Sie verspüren; auch der Versuchsleiter ist wichtig: Wie erleben Sie ihn? Besonders: Was für Gefühle löst das alles in Ihnen aus? Lassen Sie einen Film vor Ihrem ablaufen! Wenn Sie auf diese Weise die Beschreibung durchgelesen haben, schätzen Sie bitte ein, wie Sie sich wohl am ehesten verhalten würden; versuchen Sie, sich vorzustellen, was Ihre Verhaltensweise in diesem Experiment sein würde. Geben Sie dann bitte am Ende des Experiments auf dem Zettel an, was Ihre Gefühle gewesen sind bzw. noch sind, auf welche Weise Sie am Experiment teilnehmen würden und was Ihrer Meinung nach Ihre konkreten Verhaltensweisen sein würden. Dieses soll nur eine kurze Notiz sein mit wenigen Worten; ihr Sinn: Z u m einen für Sie - damit Sie die anschließenden Vergleiche leichter und zügiger durchführen können, ohne jedesmal durchlesen zu müssen, Z u m anderen für uns - damit wir einen Hinweis haben, ob und in welcher Weise Sie die Beschreibung verstanden haben. Bitte bearbeiten Sie jetzt in der beschriebenen Weise die Situationen auf den folgenden zwölf Seiten.
Situation
3: B A V E L A S et al. (1965)
Vier Vpn kommen in einem Raum zu einer Versuchs-Diskussion zusammen. In diesem R a u m befindet sich ein Diskussions-Tisch mit vier Plätzen, an denen sich je zwei kleine Lämpchen befinden, ein rotes und ein grünes; sie sind in einer kleinen Box so angebracht, daß sie n u r den Blicken des jeweiligen Platz-Inhabers zugänglich sind. Den vier Vpn wird gesagt, daß ihre Diskussion aufgezeichnet wird und beobachtet von einem benachbarten Raum aus, der sich auf der anderen Seite eines Ein-Weg-Spiegels befindet. Zum Sinn des Versuches wird erklärt, daß es sich um eine Untersuchung über Techniken bei Gruppen-Diskussion handele. Es sollen nun drei verschiedene Probleme zwischenmenschlicher Beziehungen diskutiert werden, damit die Dynamik des Prozesses dieser Diskussion analysiert werden könne. Dann wird das erste Problem vorgegeben und um eine Diskussion gebeten, die die wichtigsten, entscheidungsträchtigsten Fakten enthalten soll. Die Dauer der Diskussion wird auf etwa 10 Minuten a n g e s e t z t - d i e oben erwähnten Lämpchen sind hierbei noch ohne Bedeutung. Der Versuchsleiter (VI) verläßt dann den Raum und betritt ihn erst nach Ablauf der 10 Minuten wieder. Er bittet die Vpn jetzt, anhand eines Fragebogens alle Teilnehmer, auch sich selbst, einzuschätzen, und zwar anhand folgender Merkmale: (a) Ausmaß der Tei Inahme (b) Qualität der Ideen (c) Effektivität der Diskussionsführung (d) allgemeine Führerfahigkeit. Nun wird das zweite Problem benannt und in etwa folgende weitere mündliche Instruktion durch den Versuchsleiter gegeben: «Durch Diskussions-Verlaufs-Forschung haben wir bei dem nun folgenden T h e m a recht genaue Vorstellungen von dem optimalen Verlauf einer Diskussion entwickelt. A n h a n d dieser Vorstellungen werden wir nun im Verlaufe des Gespräches den Teilnehmern Rückmeldung geben über die Qualität ihrer Beiträge: Das grüne Licht leuchtet auf, wenn der Beitrag nützlich und forderlich ist und den Gruppenprozeß voranbringt; das rote Licht leuchtet auf, wenn der Beitrag oder die Beiträge hinderlich gewesen sind und ungünstig für das Diskussions-Ziel, z.B. also auch, wenn zuviel oder n u r ungenügend Ausführungen gemacht worden sind.»
124
Witte & Melville: Experimentelle Kleingruppenforschung
An diese Instruktion schließt sich eine 20-Minuten-Diskussion an, die unter den angekündigten U m s t ä n d e n - nämlich Aufleuchten des L ä m p c h e n s - verläuft; nach ihrer Beendigung wird wieder ein wie oben beschriebener Fragebogen ausgefüllt. In einer dritten Diskussion wird ein letztes T h e m a abgehandelt; diesesmal allerdings o h n e L ä m p c h e n u n d n u r 10 M i n u t e n lang. A u c h der Fragebogen wird ein drittes Mal vorgelegt; dazu noch einer, in dem die Vpn beschreiben k ö n n e n , welches T h e m a ihnen a m meisten behagt u n d welches am wenigsten; ob sie m e h r geredet als normalerweise oder weniger; wie sehr sie auf die Lichter geachtet haben u n d ob sie diese als hinderlich oder hilfreich f ü r den Diskussionsverlauf e m p f u n d e n haben.
Situation
6: L i v a n t (1963)
Zwei Vpn werden in einen zu verdunkelnden R a u m gebracht u n d an einem Tisch so placiert, daß der Tisch zwischen ihnen steht. Beide sind etwa fünf Meter von einer Leinwand entfernt, die sich an dem einen E n d e des R a u m e s befindet. A u s dem Hintergrund bedient der Versuchsleiter (VI) einen Projektor. N a c h d e m alle drei Platz g e n o m m e n haben, gibt der Versuchsleiter folgende Instruktionen: «Dieses ist ein Experiment, bei dem festgestellt werden soll, auf welche Weise Menschen Ü b e r e i n s t i m m u n g erzielen, wenn sie Schätzurteile über die Länge von Linien abgeben sollen. Ich werde jetzt eine Linie auf diese Leinwand projizieren, u n d Sie beide sollen d a n n innerhalb einer M i n u t e zu einem gemeinsamen, übereinstimmenden Urteil über die Länge der Linie k o m m e n . Sie k ö n n e n das frei besprechen, ich e r m u n t e r e Sie sogar dazu. Sie müssen aber ein gemeinsames Urteil abgeben. Sie werden es mir bitte mitteilen, u n d ich werde es hier notieren, u n d ich werde Ihnen d a n n sagen, wie lang die Linie meiner M e i n u n g nach ist. D a n a c h werden wir mit der nächsten Linie weitermachen.» Es werden insgesamt 45 Linien projiziert, von denen einige ungefähr von gleicher Länge zu sein scheinen - die Reihenfolge ist jedoch nicht in erkennbarerWeise sinnvoll oder irgendwie systematisch. Wenn nach Abgabe des gemeinsamen Urteils der beiden Vpn der VI seine M e i n u n g über die Länge der Linie äußert, so müssen die Vpn den Eindruck b e k o m m e n , d a ß das Urteil des VI beständig spürbar nach oben hin ^ ^ H abweicht. Nach den 45 Projektionen ist der Versuch beendet. I J
125
Zeitschrift für Sozialpsychologie 1982, 13, 1 2 5 - 139
Diskussion Wie funktioniert sozialwissenschaftliche Statistik? ECKART LEISER Psychologisches Institut der Freien Universität Berlin
Statistik in den Sozialwissenschaften, üblicherweise als System logischer und mathematischer Wahrheiten aufgefaßt, kann auch als soziales System aufgefaßt werden. Die Herrschaftsfunktionen in einem solchen System bringen spezifische irrationale Strukturen hervor, die anhand einer elementaren Statistik-Einführung untersucht werden. Die Untersuchung konzentriert sich auf drei Hauptpunkte: das Verhältnis von Modellebene und Ebene empirischer Daten, die Testlogik und die Schätzlogik. Sie schließt mit einigen Thesen über den wissenschaftlichen Organismus, der ein solches Statistik-Verständnis erzeugt.
Statistics in the social sciences, usually treated as a system of logical and mathematical truths, can also be treated as a social system. The hegemonial functions in such a system give rise to specific irrational structures, which are examined on the basis of an elementary introduction to statistics. The analysis is focussed on three main points: the relation between the levels of model and empirical data, the logic of statistical testing and the logic of statistical estimation. It closes with some thesis on the scientific organism which produces such a comprehension of statistics.
Jedermann wird auf die im Titel gestellte Frage antworten: nach den strengen Regeln von Logik, Mathematik und Wissenschaftstheorie. Aber ist das wirklich so? - Im folgenden möchte ich das an einem typischen Buch zur sozialwissenschaftlichen Statistik untersuchen. Ich habe mich für das Buch «Statistik in den Sozialwissenschaften» von J Ü R G E N K R I Z entschieden, weil sich an ihm bestimmte Probleme der sozialwissenschaftlichen Statistik besonders gut deutlich machen lassen und weil ich mit diesem Buch besonders prägnante persönliche Erfahrungen gemacht habe. Anschließend möchte ich kurz den institutionellen und wissenschaftspolitischen Rahmen kennzeichnen, in den dieses Buch gehört, und schließlich einige Thesen zum Charakter und zur Funktionsweise der sozialwissenschaftlichen Statistik zur Diskussion stellen. Die Auseinandersetzung mit einem bestimmten Lehrbuch hat hier also letztlich exemplarischen Charakter, dient der Konkretisierung allgemeiner Thesen und nicht dem «Verriß» eines speziellen Autors. Die im folgenden herausgearbeiteten Merkmale der sozialwissenschaftlichen Statistik finden sich denn auch in anderen Büchern nahezu voll-
ständig wieder, etwa in den folgenden (in alphabetischer Reihenfolge und ohne Anspruch auf Vollständigkeit): BORTZ (1977), C L A U S S & EBNER
(1977),
HOPPE
&
LIEPMANN
(1974,
1 9 7 6 ) , MITTENECKER ( 1 9 6 3 ) , PFANZAGL ( 1 9 7 2 , 1 9 7 8 ) u n d RITSERT & BECKER ( 1 9 7 1 ) . B e i
der
Untersuchung der typischen Merkmale sozialwissenschaftlicher Statistik anhand von K R I Z wird kurz auf vergleichbare Stellen in den genannten Texten hingewiesen. Es spricht also einiges dafür, daß - grob geschätzt - 90% der «realen» deutschsprachigen sozialwissenschaftlichen Statistik, also der Statistik, wie sie über Lehrbücher die StatistikAusbildung und die psychologische Forschung bestimmt, so beschaffen ist wie im Fall des Buchs von K R I Z im folgenden gekennzeichnet. Damit wäre aber diese reale Statistik nicht einfach die mehr oder weniger vollkommene Erscheinungsweise einer «idealen» Statistik - ob es die überhaupt gibt, wäre zu klären - , sie wäre vielmehr ein legitimer eigener Gegenstand empirischer Untersuchungen. Das Buch von K R I Z kann hier nur ein erstes Untersuchungsobjekt sein. Kollegen von mir sind dabei, die nachstehende Untersuchung durch weitere Untersuchungen zu ergänzen.
126 Ein erstes fundamentales Lernziel einer Einführung in die Statistik ist die Verhältnisbestimmung von empirischen Daten und statistischem Modell. Spätestens seit der Gestaltpsychologie ist bekannt, daß empirische Erscheinungen nicht als singulare und objektive Gegebenheiten erfaßt, sondern in ein vorgängig gegebenes strukturiertes Ganzes integriert werden. In der PiAGETschen Kognitionspsychologie wird dieser Sachverhalt über die Wahrnehmung hinaus verallgemeinert und präzisiert: Wahrnehmen und Denken ist ein Prozeß der aktiven Strukturierung, bei dem das Neue und Besondere vom Subjekt jeweils an ein bereits gegebenes und allgemeines Schema assimiliert wird (siehe PIAGET, 1974). In diesem PiAGETschen Ansatz wird darüber hinaus ein Problem der klassischen, insbesondere KANTschen Philosophie und Erkenntnistheorie neu gestellt, nämlich das der kategorialen Apriori von Erkenntnis (siehe PIAGET, 1975). Die materialistische Psychologie wiederum stellt diese kognitionspsychologischen und erkenntnistheoretischen Untersuchungen in den Zusammenhang einer materialistischen Wirklichkeitsauffassung, nach der besondere Erscheinungen immer allgemeinen Bestimmungen unterliegen, nach der diesen allgemeinen Bestimmungen auf der ideellen Ebene allgemeine Begriffe entsprechen, die ihrerseits im Sozialisationsprozeß individuell angeeignet werden. Fazit: Besondere Erscheinungen werden immer schon durch allgemeine Begriffe hindurch erfaßt. Erkennen, Denken, ja schon Wahrnehmen besteht darin, besondere Erscheinungen auf allgemeine Bestimmungen zurückzuführen. In der Wissenschaftstheorie ergibt sich daraus der Ausgangspunkt einer Verhältnisbestimmung von Theorie und Empirie. Auf die Statistik angewendet folgt aus diesen Überlegungen, daß es ein naives Sammeln empirischer Daten nicht gibt, daß besondere empirische Daten, ob explizit oder unausgesprochen, immer schon in einem verallgemeinernden begrifflichen und theoretischen Zusammenhang stehen. Insbesondere folgt daraus, daß die statistische Verarbeitung solcher Daten erst sinnvoll und verständlich wird, wenn sie in den theoretischen Zusammenhang statistischer Kategorien, Konzepte und Modelle eingeordnet wird. Die sogenannte deskriptive Statistik,
Leiser: Wie funktioniert sozialwissenschaftliche Statistik?
d.h. eine Statistik, die sich als rein empirisches «Auszählen» und «Auswerten» besonderer Daten definiert, ist nach dem Gesagten also ein Selbstmißverständnis. (Die Frage, welche heuristische Funktion ein theoretisch nicht expliziertes Arbeiten mit Statistik haben kann, ist ein eigenes Problem, das bis heute überhaupt noch nicht geleistete Untersuchungen erfordert.) Die herkömmliche deskriptive Statistik lebt denn auch von naiven und unausgesprochenen Analogien zur inferentiellen Statistik. Die Folge ist, daß das Beginnen einer Statistik-Einführung mit deskriptiver Statistik einen rationalen oder gar kritischen Zugang zu statistischen Methoden der Erkenntnisgewinnung insgesamt versperrt. Das soll an einem elementaren Problem, dem Verhältnis von empirischer relativer Häufigkeit und Wahrscheinlichkeit als Charakteristik eines Zufallsmodells, konkretisiert werden: Während zum Zufallsmodell unbegrenzt viele Zufallsexperimente (ZEe) gehören, nämlich alle, die jemals mit ihm veranstaltet worden sind und jemals mit ihm veranstaltet werden können, liegt auf der empirischen Ebene immer eine besondere Stichprobe von ZEen vor, deren Auszählung für sich genommen nichts über die Wahrscheinlichkeit eines Ereignisses aussagt. Sie steht zunächst immer n u r für die gerade vorliegende Reihe von ZEen, erlaubt also insbesondere keine Voraussage auf zukünftige Auszählungen. In solchen «Erwartungen» an die Zukunft, an noch nicht realisierte ZEe, liegt aber genau der praktische und theoretische Nutzen der Statistik. Solche Erwartungen sind jedoch erst dann gerechtfertigt, wenn man davon ausgeht, daß es über alle aktuell vorliegenden oder bereits realisierten ZEe hinaus allgemeine Modellcharakteristiken gibt, die den empirischen Realisierungen vorgeordnet sind und jedes einzelne ZE «steuern». Mit «Wahrscheinlichkeit» ist die auf dieser Modellebene liegende allgemeine Charakteirstik für die Unbestimmtheit eines Ereignisses gemeint. Wahrscheinlichkeit ist also nicht einfach eine anspruchsvollere Bezeichnung für relative Häufigkeit, sondern eine strukturell dieser übergeordnete und von dieser zu unterscheidende Kategorie. Erst von dieser Kategorie aus ist es möglich,
Zeitschrift für Sozialpsychologie 1982, 13, 125- 139
Sinn, Funktion und Aussagekraft einer empirischen Größe wie der relativen Häufigkeit zu bestimmen. Und die ganze statistische Argumentation bei der empirischen Erfassung von Kenngrößen, beim Schätzen und beim Testen geht letztlich zurück auf den Zusammenhang und die Differenz zwischen Wahrscheinlichkeit als theoretischer Charakteristik und relativer Häufigkeit als empirischer «Statistik», die mit dieser theoretischen Charakteristik in einer mehr oder weniger engen Beziehung steht: In deduktiver Richtung läßt sich ableiten, inwieweit sich die theoretische Charakteristik in der empirischen Statistik «durchsetzt», und in induktiver Richtung läßt sich fragen, welche theoretischen Charakteristiken zu einer empirischen Statistik plausiblerweise gehören könnten. In diesem Wechselspiel von Deduktion und Induktion, von Wahrscheinlichkeit und Plausibilität liegt aber wiederum die gesamte erkenntnistheoretische Problematik und damit der Schlüssel für einen kritischen Zugang zur Statistik (siehe hierzu LEISER, 1980). Bei einem Beginnen mit deskriptiver Statistik werden empirische Beobachtungen und Kennziffern dagegen zur scheinbar sinnlichkonkreten Begründungsbasis: So wie ich mir einbilde, durch Verfeinerung und Vervollständigung von Beobachtungen von sinnlich-konkreten Bahnverläufen zum allgemeinen Fallgesetz «vorzustoßen», so gelange ich durch Verfeinerung und Vervollständigung von Beobachtungen von relativen Häufigkeiten zu Wahrscheinlichkeiten. Wahrscheinlichkeiten werden so letztlich genauso wie relative Häufigkeiten zu Erfahrungstatsachen. Allgemeiner: Theoretische Größen werden empirisch zugänglich, können der Natur durch gründliche und geduldige Beobachtungen gleichsam abgelauscht werden. Diese Vorstellung kann mit H O L Z K A M P «naiver Empirismus» genannt werden (siehe H O L Z K A M P , 1972, p.80f.). Entsprechend wird dann ein statistischer Test zur sozusagen vervollkommneten und mathematisch präzisierten Form eines empirischen Vergleichs und die Signifikanz zu einem mathematisch abgesicherten Erfahrungsurteil - mit einem in Fehlerwahrscheinlichkeiten quantifizierbaren Unsicherheitsfaktor. Theoretische Kategorien und Konzepte werden auf diese Weise zu etwas Irrationalem, zu etwas SinnlichÜbersinnlichen. Sie werden fetischisiert.
127
Genau nach dieser «Logik» verfahrt K R I Z in seinem Buch, indem er mit deskriptiver Statistik beginnt und die Inferenzstatistik 3 Kapitel später unvermittelt folgen läßt. Das hindert ihn nicht daran, in einem Vorspann zu dieser Inferenzstatistik und im Widerspruch zu seinem tatsächlichen Vorgehen auf das Begründungsund Funktionsdefizit von deskriptiver Statistik hinzuweisen: «Es wurde bereits mehrfach festgestellt, daß die Menge empirischer Objekte, die der Sozialwissenschaftler in einer Untersuchung erfaßt, bis auf extrem seltene Ausnahmen nur ein kleiner Teil jener Menge ist, die ihn eigentlich interessiert, d.h. über die er eigentlich Aussagen machen möchte. So interessant auch z. B. die Beurteilung der gegenwärtigen Regierungspolitik durch Herrn Huber. Frau Maier und ihren Sohn sowie Fräulein Müller etc. sein mag, ein solches Sammelsurium von Einzeldaten hätte wenig Sinn, wenn es nicht gelänge, die daraus z.B. mit Hilfe der Deskriptivstatistik gewonnene Information in einen Gesamtzusammenhang zu stellen und allgemeinere Aussagen daraus abzuleiten. Nicht z. B. die Beurteilung der Politik durch einzelne Personen interessiert den Sozialwissenschaftler, sondern die Beurteilung seitens der ganzen Gesellschaft, die Beurteilungsunterschiede in einzelnen Gesellschaftsschichten, welchen Einfluß bestimmte Maßnahmen - z. B. gezielter Einsatz der Massenmedien -auf diese Beurteilung haben etc. Der Sozialwissenschaftler kann nun diese Daten nicht an allen ihn interessierenden Objekten (z.B. Personen) erheben, der Grundgesamtheit, sondern nur an einer Auswahl, einer Stichprobe, aus dieser Grundgesamtheit. Stichprobe und Grundgesamtheit sowie der Schluß von der ersteren auf die letztere sind das Zentralthema der gesamten Inferenzstatistik...» (p. 105)'.
Mit der Frage, wozu denn dann überhaupt die ganze Deskriptivstatistik behandelt worden ist, welchen Wert die aus ihr gewonnenen «Informationen» haben, woraus sie sich begründet und in welchem Verhältnis sie zur Inferenzstatistik steht, wird der Leser leider allein gelassen. Es wäre eine empirische Untersuchung wert, wie Leser mit einem solchen Bruch zwischen tatsächlichem Vorgehen und dessen anschließender Zurückriahme, zwischen realer Logik und aufgesetzten Begründungsansprüchen fertig werden. Welche kognitiven Strukturen auch immer hierbei entwickelt werden: ein rationales Verständnis für das Verhältnis von empirischen Daten und statistischem Modell, ein erstes fundamentales Lernziel einer Einführung in die Statistik, kann dabei nicht herauskom1 Nicht näher gekennzeichnete Seitenangaben beziehen sich auf K R I Z , 1978.
128
Leiser: Wie funktioniert sozialwissenschaftliche Statistik?
men. Ein ähnlicher Umgang mit dem Problem des Verhältnisses von empirischen Daten und statistischem Modell findet sich in den anderen eingangs aufgezählten statistischen Texten: In allen diesen Texten wird zunächst naiv unter dem Stichwort «Deskriptive Statistik» die Ebene empirischer Daten eingeführt und anschließend unvermittelt zur Ebene statistischer Modelle übergegangen. In alphabetischer Reihenfolge: BORTZ: Kapitel 1 «Deskriptive Statistik«, anschließend unvermittelter Übergang zu statistischen Modellen und Prüfverfahren. CLAUSS & EBNER: Auch hier wird mit der naiven Beschreibung empirischer Daten begonnen (Kapitel II «Deskriptive Statistik») und anschließend unvermittelt zu «Wahrscheinlichkeitsrechnung» (Kapitel III) und «Statistischen Prüfverfahren» (Kapitel IV) übergegangen. H O P P E & LIEPM ANN : Für diese Autoren reduziert sich das Problem des Verhältnisses von empirischer Ebene und Modellebene auf eine Zweiteilung: Teil I behandelt die empirische Ebene mit dem Titel «Deskriptive Statistik». Die nach dem behavioristischen Credo der Autoren letztlich pragmatische Erweiterung statistischer Techniken von Stichproben auf Populationen führt dann auf die Modellebene, die unter dem Titel «Inferenzstatistik» in Teil II behandelt wird. MITTENECKER: Hier findet sich eine ziemlich unentwirrbare Konfundierung von empirischer Ebene und Modellebene, die bis in die Formeln hineingeht. So wird die Varianz etwa definiert alsCT2= TENECKER,
EX 2 N
U.2 (Formel 4, MIT-
1963, p. 17) und davon als Varianz-
statistikunterschiedens 2 = ^ ^ N —— (ebd., p. 55). PFANZAGL: Indem der Autor nicht einmal mehr definitorisch deskriptive und inferentielle Statistik auseinanderhält, verwischt er die Differenz zwischen empirischen Daten und statistischem Modell noch stärker als KRIZ. In Band I, Kapitel 3 beginnt er faktisch mit empirischen Häufigkeitsverteilungen und deren Beschreibungsmöglichkeiten und führt dann in Band II, Kapitel 2ff. theoretische Verteilungen,
also statistische Modelle, umstandslos als mathematische Spezialfälle solcher Häufigkeitsverteilungen ein. RITSERT & BECKER: Hier wird zwar dem konkreten Einstieg in die Statistik ein Kapitel «Grundgedanken der Wahrscheinlichkeitstheorie» vorgeschaltet, was die Autoren aber nicht daran hindert, von da aus zu «Häufigkeitsverteilungen» und «Statistischen Kennziffern» als naive empirische Erkenntnisebene überzugehen, die im technischen Detail behandelt werden. Dem werden dann - gleichsam als theoretische Verfeinerung der empirischen Erkenntnisebene - statistische Modelle und Schätz-/Prüfverfahren nachgeschoben. Ein zweites fundamentales Lernziel einer Einführung in die Statistik ist die Testlogik. Ein rationales Verständnis der Testlogik beginnt beim Begriff der Zufälligkeit. Zufälligkeit hier wie in der Statistik überhaupt ist eine Rahmenbedingung, die selbst wieder spezifiziert werden kann (Mehrdeutigkeit, Unbestimmtheit der Ergebnisse eines ZEs, Operationalisierung von Zufälligkeit bei der Herstellung von Zufallsstichproben (siehe LEISER, 1 9 8 0 , p.7ff.)). In dem Sinn hieße «nicht mehr zufällig»: es geht nicht mit rechten Dingen zu, der Zufall wird durchbrochen. Betrachten wir zunächst einen einzelnen Zufallsprozeß, so ist also an alle möglichen Daten/Ergebnisse der Anspruch der Zufälligkeit zu stellen. Insbesondere sind Ergebnisse mit kleiner Wahrscheinlichkeit genauso zufällig wie Ergebnisse mit größerer Wahrscheinlichkeit, diskreditieren also nicht die Glaubwürdigkeit des statistischen Modells: Daß gerade mein Nachbar einen Hauptgewinn im Lotto erzielt, ist zwar unwahrscheinlich, gleichzeitig setzt sich über seinen Fall aber genau das statistische Modell durch, nach dem eben eine bestimmte Anzahl von Hauptgewinnen zu erwarten ist. Das unwahrscheinliche Ereignis macht also nicht mißtrauisch, es bestätigt vielmehr das Modell. Aus den Daten für sich genommen kann also nicht abgelesen werden, ob ein Modell zutrifft oder nicht (plausibel ist oder nicht). Differentielle Bedeutung für die Bewertung von Modellen erhält die Wahrscheinlichkeit (W) erst, wenn das Modell a priori als Hypothese eingeführt wird, und bestimmte unter dem Modell
Zeitschrift für Sozialpsychologie 1982, 13, 1 2 5 - 139
mögliche Ergebnisse a priori als (über das quantitative W-Maß qualifizierte) Erwartungen. Als Hypothese enthält aber jedes Modell seine Negation, die Alternativhypothese, ob sie nun explizit formuliert ist oder nicht. Beispiel: Ein ZE mit einer Münze erbringt in 20 Würfen 20mal Wappen. Legt man als statistisches Modell eine ideale Münze zugrunde, so folgt aus diesem Ergebnis für das Modell für sich betrachtet noch überhaupt nichts. Auch die Wahrscheinlichkeit des Ergebnisses hat keinerlei Bedeutung für die Bewertung des Modells (was in diesem Fall schon daran deutlich wird, daß dieses Ergebnis die gleiche W hat wie jedes andere mögliche Ergebnis). Ich kann lediglich feststellen: Das Ergebnis hat die und die sehr kleine Wahrscheinlichkeit. Vielleicht kann ich noch hinzufügen, daß ich Glück gehabt habe, diesen möglichen, aber unwahrscheinlichen Fall vorliegen zu haben. Eine differentielle Bedeutung erhalten dieses Ergebnis und seine W erst, wenn ich das Modell «virtualisiere», d.h. als eine seiner tatsächlichen Geltung vorgeordnete Möglichkeit behandele, die an interessierende Sachverhalte herangetragen werden kann. Das Modell bildet dabei zusammen mit alternativen Modellen ein Unterscheidungsschema, das ein antizipierendes Ordnen der Wirklichkeit ermöglicht. Im hier gegebenen einfachsten Fall besteht dieses Unterscheidungsschema aus einem Modell und seiner Negation. Konkret heißt dann hier «virtualisieren», daß ich das Modell als (zutreffende oder nicht zutreffende) Hypothese einführe. Die Hypothese «ideale Münze» steht aber dann von vornherein gegen die Alternativhypothese «nicht-ideale Münze». Erst unter dem Gesichtspunkt einer solchen a priori eingeführten Hypothese können dann bestimmte Erwartungen abgeleitet werden, als Raster «typischer» und «weniger typischer» Möglichkeiten. Eine solche a-priori-Differenzierung zwischen typischen und weniger typischen Möglichkeiten kann sich dann z. B. auf die (mit dem zentralen Grenzwertsatz zusammenhängende) Eigenschaft stützen, daß alle gängigen Zufallsvariablen (ZVn) sich um einen Schwerpunkt herum verteilen, die Wahrscheinlichkeit also von einem «typischen Zentrum» aus nach beiden Seiten abfallt. Betrachte ich etwa die 20 Münzwürfe im Beispiel unter dem Aspekt «Wieviel Wap-
129 pen kommen vor?», so erhalte ich genau eine derartige ZV mit typischem Zentrum und untypischen Rändern. Für diese abgeleitete ZV «Anzahl der Wappen» ergibt sich so ein Raster typisch/untypisch, der in Form von Erwartungen an den Zufallsprozeß herangetragen werden kann. Innerhalb dieses Rasters stellt dann das Ereignis «20 Wappen» einen untypischen Extremfall dar. Das In-Zweifel-Ziehen der Hypothese ergibt sich also nicht unmittelbar, gleichsam empirisch, aus der besonderen Folge von 20 Münzwürfen, die Plausibilität/Nicht-Plausibilität der Hypothese offenbart sich in dem Ergebnis nicht direkt wie ein Muttermal, sondern nur unmittelbar/indirekt über dessen Stellenwert in einem solchen Raster strukturierter Erwartungen. Erst hieraus wird auch einsichtig, was die Spezifik kritischer Ränder (oder Rejektionsbereiche) bei einem Test ausmacht: Es ist nicht die geringe Wahrscheinlichkeit solcher Ränder. Auch im Zentrum einer Verteilung lassen sich Bereiche mit einer solchen geringen W, z. B. von 5%, bestimmen. Es ist die spezifische Bedeutung dieser Ränder in einem solchen Rastervon Erwartungen. Auf dem bisher diskutierten Strukturniveau von Erwartungen geht es streng genommen um eine isolierte Hypothese. Der explizite Bezugsrahmen bleibt diese eine Hypothese, zu der Erwartungen abgeleitet werden, die hinsichtlich ihrer Plausibilität beurteilt werden soll. Das ist das Niveau der sogenannten Signifikanz-Statistik, die in der Tradition des FiSHERschen Testkonzepts steht. Nun impliziert ja rein formallogisch das Verwerfen einer Hypothese, der Nullhypothese, eine Entscheidung für ihre Negation, die Alternativhypothese. Ein solcher formallogischer Schluß allein ergibt aber noch keine sinnvolle Testlogik: Denn das Verwerfen einer Hypothese als unplausibel macht ja erst dann einen Sinn, wenn ihre Negation, die Alternativhypothese, weniger unplausibel ist. Es sind ja durchaus kritische Ereignisse denkbar, die unter der Alternativhypothese genauso untypisch sind wie unter der Nullhypothese. Auf dem Niveau der «Signifikanzlogik» wird also stillschweigend etwas unterstellt, was erst in einer auf höherem Strukturniveau liegenden Testlogik, wie sie im NEYMANN-PEARSON-Konzept vorliegt, begründet werden kann. Erst in
130 dieser Testlogik tritt die Alternativhypothese explizit auf, und aus der Bewertung einer Hypothese hinsichtlich ihrer Plausibilität wird die differentielle Entscheidung zwischen zwei Hypothesen, Null- und Alternativhypothese, auf der Basis einer höherentwickelten Kategorie, derdifferentiellen Plausibilität. Erst auf diesem Niveau stellen sich dann Fragen wie nach dem Fehler 1. und 2. Art, nach der Macht eines Tests, ist es sinnvoll, das Testverhalten in einer Entscheidungsmatrix darzustellen und nach den verschiedenen Entscheidungscharakteristiken zu optimieren. Umgekehrt wird es auf diesem Niveau sinnlos, von der Plausibilität einer isolierten Hypothese zu sprechen oder gar davon, daß Abweichungen von der Hypothese «nur zufällig» bzw. «überzufallig» sind. Dagegen nun die Logik von K R I Z : Zitat: «Intelligenzunterschiede in den beiden Stichproben sind rein zufällig» bzw. «nicht nur durch Zufall zu erklären» (p. 108). Metaphorisch gesprochen handelt Statistik hier vom ständigen Kampf zwischen der Welt des Unbestimmbaren, des Chaos, der Nullhypothese H 0 , und der Welt der Struktur, der Unterschiede, der Zusammenhänge, der Alternativhypothese H a . Das Chaos schiebt sich ständig in der Gestalt von Zufall wie ein dunkler Schleier über die Unterschiede und Zusammenhänge. Aber in glücklichen Momenten gelingt es den Unterschieden und Zusammenhängen, diesen Schleier zu zerreißen, den Zufall zu durchbrechen und sich dem Statistiker zu offenbaren. Die Kunst der Statistik besteht darin, die durch den Zufall hervorbrechenden Unterschiede/ Zusammenhänge zu entdecken, ihnen wenn nötig etwas nachzuhelfen (wenn etwa «die Daten noch nicht ausreichen, die Nullhypothese zu verwerfen - obwohl diese sehr unwahrscheinlich ist...»[p. 109]), gegen den Zufall Siege zu erringen in Form von Signifikanzen. Der Statistiker hat also sein Ohr an die Daten zu legen, auf die Klopfzeichen von Unterschieden/Zusammenhängen zu lauschen und mit Hilfe geheimnisvoller Wahrscheinlichkeitsberechnungen zu bestimmen, wie stark diese sind. Im Unterschied zur dargestellten Logik des Tests ist Zufälligkeit bei K R I Z also keine Rahmenbedingung, sondern ein Unterscheidungsmerkmal zwischen zwei Welten, das in Form der W erfaßt werden kann. Zitat:
Leiser: Wie funktioniert sozialwissenschaftliche Statistik? «Es handelt sich dabei.. .um die bedingte Wahrscheinlichkeit P(D | H 0 ). Solange diese Wahrscheinlichkeit hinreichend groß ist. kann man sagen, die Daten widersprechen der ... Nullhypothese nicht allzu stark. Je geringer aber P(D | H 0 ) wird, umso unwahrscheinlicher es also ist. daß die Stichproben (Daten) wirklich zufällig alle aus derselben Grundgesamtheit stammen, umso eher wird man geneigt sein, die Nullhypothese zugunsten einer anderen Hypothese, der Alternativhypothese H ^ , zu verwerfen» (p. 108).
Je geringer die Wahrscheinlichkeit auftretender Daten, D, umso stärker hat sich der dahinterstehende Unterschied/Zusammenhang vom Zufall befreit. Aus der Wahrscheinlichkeit von Daten kann also nach dieser Auffassung abgelesen werden, wie sicher ein Unterschied/Zusammenhang ist, wie stark er sich gegen den Zufall durchgesetzt hat: «Ist P(D | H 0 ) aber größer als a -z.B. 0.02 -, so wird die Nullhypothese beibehalten. Dies bedeutet dann keineswegs, daß damit wäre, daß es zwischen den beiden Grundgesamtheiten keine Intelligenzunterschiede gibt,» sondern eben nur. (siehe oben) «daß die Daten noch nicht ausreichen, die Nullhypothese zu verwerfen - obwohl diese sehr unwahrscheinlich ist, denn nur in 2% der Fälle würden zufällige Stichproben so große oder noch größere Unterschiede aufweisen» (p. 109).
Der Kampf geht also weiter, und der statistische Test hat jeweils das Urteil darüber zu fallen, ob ein Unterschied/Zusammenhang den Schritt aus der Zufälligkeit in die Nicht-MehrZufalligkeit geschafft hat, ob die Welt der Struktur gegen die Welt des Chaos gesiegt hat. Dank diesem Modell der unmittelbaren «Ablesbarkeit» von Unterschieden/Zusammenhängen aus den Daten wird jede Unterscheidung zwischen Deduktion und Induktion, insbesondere der Unterschied zwischen dem Wahrscheinlichkeits- und dem Plausibilitätskriterium, überflüssig: Die Unsicherheit bei der Aufdeckung eines Unterschieds/Zusammenhangs ist nicht länger ein erkenntnistheoretisches Problem, sondern ein gleichsam ontologisches, eben das Problem, wie stark sich ein Unterschied/Zusammenhang gegen den Zufall durchgesetzt hat. Als gleichsam empirisches Maß dafür gibt es aber die W, denn «Alle Schlüsse von Stichproben auf Grundgesamtheiten sind Wahrscheinlichkeitsschlüsse» (p. 106). Möglicherweise ist sich K R I Z nicht bewußt, daß er hier Grundfesten des herrschenden nomothetischen Wissenschaftsverständ-
Zeitschrift f ü r Sozialpsychologie 1982, 13, 1 2 5 - 139
nisses einreißt. Danach gilt ein Unterschied/ Zusammenhang allgemein, oder er gilt nicht, «wahrscheinlich» ist er jedenfalls nicht (siehe hierzu etwa H E R R M A N N , 1973, p. 52ff.). Gleichzeitig bleibt K R I Z ungenau genug, um Zweifeln zu entgehen. Z.B. finden sich ja jederzeit Beispiele, etwa das mit dem Münzwurf, in denen es nicht um Unbestimmtheit gegen Unterschiede/Zusammenhänge geht, in denen vielmehr eine Nullhypothese, etwa «Wahrscheinlichkeit von Wappen gleich 0.5», gegen eine strukturell gleichartige Alternativhypothese steht, etwa «Wahrscheinlichkeit von Wappen gleich 0.6». Solche Probleme entziehen sich der KRizschen Testlogik. Und was die Ablesbarkeit von Unterschieden/Zusammenhängen aus den Daten und ihrer Wahrscheinlichkeit angeht, so wirft KRIZ' eigenes Beispiel zum Intelligenzunterschied zwischen Männern und Frauen (p. 109), konkretisiert, Fragen auf: P(D | H0) ist hier überhaupt nur im praktisch nicht vorkommenden Fall eines bekannten einheitlichen Varianzparameters zu bestimmen und einer Spezifizierung des unter H 0 behaupteten einheitlichen Mittelwertparameters. Liegen dann die Intelligenzwerte der männlichen und weiblichen Stichprobe, bei gleichem Durchschnitt, im oberen und unteren Extrembereich dieser H 0 -Intelligenzverteilung, kann P(D | H 0 ) beliebig klein und trotzdem kein Unterschied auszumachen sein. Ein Problem ist allerdings bei einer solchen Auffassung nicht zu vermeiden: Die ex-postInterpretation von Daten macht jede Strategie, d.h. jede Vorweg-Bestimmung des Testverhaltens, unmöglich. Auftretende Ereignisse sind immer konkret-empirisch, also nicht zu virtualisieren / unter einen vorweg definierbaren Raster zu subsumieren, ihre Wahrscheinlichkeit folglich auch immer erst im nachhinein zu berechnen. Entsprechend nicht-virtualisierbar sind Null- und Alternativhypothese. Denn es handelt sich zwischen beiden ja nicht um austauschbare Behauptungen, sondern um einen Kampf, den Kampf Zufälligkeit gegen Unterschied/Zusammenhang. Der Ausgangspunkt ist dabei die Zufälligkeit, also die Nullhypothese, gegen die sich ein Unterschied/Zusammenhang, also die Alternativhypothese, durchzusetzen hat. Die Nullhypothese ist daher das Primäre, die Alternativhypothese dagegen etwas
131 Sekundäres, im Grunde außerhalb statistischer Kategorien Liegendes. Zwischen beiden besteht eine unüberschreitbare Asymmetrie. Heraus kommt bei alledem eine spezifische Nullhypothesen-Fixiertheit, eine Abart der oben beschriebenen FiSHERschen Signifikanz-Statistik. Nur daß K R I Z im Unterschied zu F I S H E R nicht zu dieser Nullhypothesen-Fixiertheit steht, sondern die NEYMANN-PEARSONsche Testlogik irgendwie in seiner Logik unterzubringen versucht. Er versucht damit zwei - wie oben begründet - unvereinbare Dinge zu vereinen. Die Technik der Widerspruchs-Elimination, zu der K R I Z hier greifen muß, soll kurz dargestellt werden: Das Problem beginnt damit, daß K R I Z sich nicht verkneifen kann, die auf der N E Y M A N PEARSON-Logik aufbauende Entscheidungsmatrix einzuführen. Zunächst ist ja nun bei einer ex-post-Berechnung der «Unwahrscheinlichkeit» eines Unterschieds/Zusammenhangs aus den Daten, wie sie K R I Z vorschwebt, eine a-priori-Bestimmung der in der Matrix vorkommenden Entscheidungscharakteristiken, also des Fehlers 1. und 2. Art bzw. der Macht des Tests, schlicht unmöglich. Dann kommt die Virtualisierungs-Problematik. Nach der dargestellten Auffassung ist ja allein die Nullhypothese, die die Welt der Zufälligkeit repräsentiert, ein sinnvoller Gegenstand der Statistik. Die Alternativhypothese, die die Welt der Unterschiede/Zusammenhänge repräsentiert, liegt im Grunde außerhalb der Domäne statistischer Kategorien. Und Konzepte wie das der nichtzentralen Verteilung, die Alternativhypothesen im Fall von Unterschieden/Zusammenhängen, also im reduzierten KRizschen Sinn, statistisch handhabbar machen, fehlen ja auch dementsprechend. Es geht ja eben nicht um die differentielle Plausibilität von zwei statistischen Modellen, die der Nullhypothese bzw. der Alternativhypothese entsprechen, sondern um das eigentlich ontologische Problem von Macht oder Untergang der Nullhypothese. K R I Z verfügt also im Grunde über gar keine Kategorie, um Null- und Alternativhypothese statistisch miteinander in Beziehung zu setzen. Im Gegenteil: er m u ß hier sogar noch eine an früherer Stelle unbekümmert eingeführte Vorstellung abwehren, die nun in die Irre führt, daß nämlich Schlüsse von Stichproben auf Grund-
132
gesamtheiten Wahrscheinlichkeitsschlüsse sind. Auf Tests angewandt suggeriert diese Vorstellung ja, daß eine Entscheidung für die Alternativhypothese mit Wahrscheinlichkeit a (Fehler 1. Art) falsch und mit Wahrscheinlichkeit 1 — ß (Macht des Tests) richtig ist, daß die Wahrscheinlichkeiten in der Entscheidungsmatrix sich also zu 1 ergänzen müssen (siehe p.lll). Der Ausweg aus diesem Begründungsdilemma besteht darin, daß zunächst rein schematisch die Größen in der Entscheidungsmatrix definiert werden, H 0 und H ^ also der Form nach als alternative Möglichkeiten gegenübergestellt werden. Im weiteren wird dann aber von der Unterscheidung zwischen Null- und Alternativhypothese zur Unterscheidung zwischen richtiger und falscher 7Vw//hypothese übergegangen. Und hier gerät dann die K R I Z sche Testlogik vollends ins Schleudern: Nachdem ß als die Wahrscheinlichkeit definiert worden ist, mit der bei objektiv richtiger Alternativhypothese «die Nullhypothese fälschlicherweise beibehalten» wird, wird nach der Wahrscheinlichkeit der Daten unter einer falschen Nullhypothese gefragt und geantwortet: «Wie groß hingegen die Wahrscheinlichkeit für die Daten unter einer falschen H0 ist, hängt davon ab, wie stark diese H0 von der Realität abweicht» (p. 111). «Richtige Alternativhypothese» und «falsche Nullhypothese» fallen demnach nicht zusammen. Zwischen beiden Fällen wird ein rational nicht mehr faßbarer Unterschied gemacht. K R I Z hat hier einen Punkt erreicht, an dem alle Techniken der Widerspruchs-Elimination zusammenbrechen und der Leser mit einem Sammelsurium unvermittelt nebeneinanderstehender Versatzstücke allein gelassen wird, aus denen er sich eine Testlogik zusammenstellen soll: «Schlüsse von. Stichproben auf Grundgesamtheiten sind Wahrscheinlichkeitsschlüsse» (p. 106). Aber: Wenn H 0 auf dem 5%-Signifikanzniveau verworfen wird, folgt daraus keineswegs, daß fiir die Richtigkeit der Alternativhypothese eine Wahrscheinlichkeit von 95% besteht. «Die (a priori bestimmte, E. L.) Wahrscheinlichkeit, mit dem beschriebenen Entscheidungsmodell eine richtige H0 zu verwerfen», beträgt 5%(p. 111). Aber «Getestet wird... immer nur die (ex post zu bestimmende, E. L.) Wahr-
Leiser: Wie funktioniert sozialwissenschaftliche Statistik?
scheinlichkeit für die Daten unter der Annahme, daß H0 richtig ist» ( p . l l l ) . «Die Wahrscheinlichkeit, mit der ein ... Fehler (zweiter Art> begangen wird, ist ß.» «In diesem Fall würde man somit die Nullhypothese fälschlicherweise beibehalten» (p.lll). Aber:« Wie groß hingegen die Wahrscheinlichkeit für die Daten unter einer falschen H0 ist, hängt davon ab, wie stark diese falsche H0 von der Realität abweicht» (p. 111). «Die in den Stichproben gefundenen Unterschiede sind nicht nur durch Zufall. . .zuerklären» (p. 108). Aber: «Obwohl H0 richtig ist, haben wir uns für HA entschieden, d. h. wir behaupten einen Zusammenhang, einen Unterschied etc., der gar nicht existiert» (p. 111). Es wäre wiederum eine empirische Untersuchung wert, wie Leser mit solchen Widersprüchen fertig werden. Welche kognitiven Strukturen auch immer hierbei entwickelt werden: ein rationales Verständnis für Testlogik, ein zweites fundamentales Lernziel einer Einfuhrung in die Statistik, kann dabei nicht herauskommen. Daß die Behandlung von K R I Z hier wiederum nur exemplarisch ist, könnte an den eingangs aufgezählten Statistik-Texten gezeigt werden, in denen sich ein ähnlicher Umgang mit dem Problem der Testlogik findet. Das soll wieder mit einigen Zitaten angedeutet werden (in alphabetischer Reihenfolge der Autoren): BORTZ: «Mittels der Statistik haben wir herausgefunden, daß wir bei einer Entscheidung zugunsten der Alternativhypothese mit einer Wahrscheinlichkeit von 0.62% irren» (BORTZ, 1977, p. 146). Und: «Die statistische Hypothesenprüfung führt somit zu keinen < Wahrheiten>, sondern zu Wahrscheinlichkeiten über die Richtigkeit von Entscheidungen» (ebd., p. 147). CLAUSS & E B N E R : «Die Nullhypothese drückt ... aus, daß sich zwei Stichproben nicht , sondern nur zufällig voneinander unterscheiden» (CLAUSS & E B N E R , 1977, p. 187). Und: «Sind wir bereit, das Risiko zu übernehmen, im Mittel in 5 von 100 Fällen ein Fehlurteil zu fällen, dann entscheiden wir uns für eine Irrtumswahrscheinlichkeit von a — 0.05 = 5°/o» (ebd., p. 188). H O P P E & L I E P M A N N : Interpretationsrahmen für die Ausführungen zur Testlogik ist folgende Aussage in der Einleitung in Teil I: «... Infe-
133
Zeitschrift für Sozialpsychologie 1982, 13, 1 2 5 - 139
renzstatistik stellt Verfahren für den statistischen Schluß bereit, mit deren Hilfe man sogar abschätzen kann, wie groß die Wahrscheinlichkeit ist, daß die vorgenommenen Verallgemeinerungen falsch sind» ( H O P P E & L I E P M A N N , 1974, p. 11). Wenn die Autoren dann später beim statistischen Test für das Risiko, «daß man die Richtigkeit von H0 auch im Fall der Zurückweisung nicht ganz ausschließen kann» ( H O P P E & L I E P M A N N , 1 9 7 6 , p. 1 2 0 ) , eine Wahrscheinlichkeit suchen, so kann daher nur die absolute Wahrscheinlichkeit gemeint sein. Aus dem Fehler, bei gegebener H 0 die Nullhypothese zurückzuweisen, wird dann auch der «Fehler der fälschlichen Zurückweisung von H0 Fehler... ... Die Wahrscheinlichkeit für den beträgt a» (ebd., p. 120/121). Und auch die kritischen Ränder folgen nicht aus einer a priori vorgenommenen Strukturierung der Verteilung zum Zwecke der Unterscheidung von Hypothesen, sie haben vielmehr rein pragmatische Bedeutung: «Um eine allgemein gültige und nicht von Fall zu Fall schwankende Entscheidungsregel über H0 bzw. HA in die Hand zu bekommen, hat man bestimmte , die nicht als relative Häufigkeit interpretierbar ist und daher auch keine zahlenmäßig angebbare Größe besitzt. Dies... kann aber den praktischen Wert von Signifikanztests keineswegs beeinträchtigen, denn die induktive Forschung arbeitet sehr viel mit < Wahrscheinlichkeiten>, die sich nicht als relative Häu-
figkeiten
interpretieren und zahlenmäßig 1978, p.96f.).
fixieren
lassen»
(PFANZAGL,
Andererseits: «Die Redewendung, daß ein Signifikanz-Test mit einer Sicherheitswahrscheinlichkeit von 99% . . . arbeite, wird oft dahingehend interpretiert, daß 99% der Urteile, die auf Grund des Tests gefällt werden, richtig seien. Diese Interpretation ist jedoch falsch ... Wieviele von den angenommenen Hypothesen richtig sind, hängt. .. primär von der Fähigkeit des Wissenschaftlers ab, richtige Hypothesen zu formulieren» (ebd., p.96).
Auch stehen sich wie bei K R I Z nicht 2 Hypothesen gegenüber, deren differentielle Plausibilität zu bewerten ist, sondern die Nullhypothese der Wirklichkeit: «Wie groß der Anteil der falschen Urteile ist, wenn die Hypothese nicht zutrifft, hängt jedoch davon ab, wie stark die Wirklichkeit von der Hypothese . . . abweicht» (ebd.). R I T S E R T & BECKER: Subtiler sind die angesprochenen Mißverständnisse bei diesen Autoren formuliert: «Für das 95%-Signifikanzniveau können wir. . . sagen, in 5 von 100 Fällen gelte die Hypothese H0, obwohl wir sie gemäß unserer Konvention verwerfen» (RITSERT & BECKER, 1 9 7 1 , p. 1 4 9 ) . Entschlüsselt wird aber auch hier die richtige deduktive Aussage «in 5 von 100 Fällen wird die Hypothese H 0 , obwohl sie gilt, verworfen» in eine induktive Aussage verkehrt. Offensichtlicher wieder das unmittelbare Schließen von konkret empirischen Daten auf Hypothesen: «Wenn der tatsächlich beobachtete Mittelwert x so viel größer als |i ist, ist er unter der Voraussetzung von H0 unwahrscheinlich» (ebd., p. 151). Der Bezug zu den bei K R I Z kritisierten Mißverständnissen bei den verschiedenen angeführten Zitaten bedarf wohl keiner weiteren Erklärung. Ein drittesfundamentales Lernziel einer Einführung in die Statistik ist die Schätzlogik. Die Schätzlogik geht von der Frage aus, welche theoretischen Parameter zu gefundenen empirischen Daten «passen». Sie gründet folglich auf der Beziehung zwischen empirischen Daten und theoretischen Parametern. Nun können zu einem theoretischen Parameter die verschiedensten empirischen Daten gehören, im Extremfall - etwa bei der Normalverteilung - das gesamte Zahlenkontinuum. Umgekehrt kön-
134
Leiser: Wie funktioniert sozialwissenschaftliche Statistik?
nen zu einem empirischen Datum die verschiedensten Parameter gehören, im Extremfall etwa wieder bei der Normalverteilung - das gesamte Zahlenkontinuum. Eine sichere Aussage darüber, welche Daten zu welchen Parametern passen und welche Parameter zu welchen Daten passen, gibt es folglich nicht. Aber immerhin kann von einem theoretischen Parameter aus die W, mit der Daten in einen bestimmten vorgegebenen Raster fallen, deduktiv bestimmt werden. Die Unsicherheit kann also quantifiziert werden, etwa die Wahrscheinlichkeit dafür angegeben werden, daß die Daten in ein vorgegebenes «typisches Zentrum» fallen (siehe Ausführungen zur Testlogik). Als Erwartung kann ich dann z. B. formulieren, daß bei einem Mittelwertsparameter H = 1100 für den Lohn weiblicher Arbeiter in der BRD eine nach Zufall «herausgegriffene» Arbeiterin mit 95% Wahrscheinlichkeit ein Einkommen zwischen D M 900 und DM 1300 haben wird. Diese Erwartung ist empirisch an entsprechenden ZEen überprüfbar. Das typische Zentrum hat dabei allerdings keine «natürliche» Bedeutung, sondern ergibt sich aus einer an den Zufallsprozeß herangetragenen Strukturierung, nämlich aus der Notwendigkeit, in der Erwartung zu unterscheiden, d.h. bestimmte Wertebereiche zuzulassen und andere auszuschließen. D a ß gerade die bestimmten Werte zugelassen werden und die bestimmten Werte ausgeschlossen, steht den einzelnen Werten also nicht auf der Stirn geschrieben, sondern stellt eine spezifische Lösung dieses Unterscheidungsproblems dar, die durch Struktureigenschaften der W-Verteilung als Ganzes nahegelegt wird. Für sich betrachtet kann nämlich ein Wertebereich außerhalb des typischen Zentrums, z. B. Lohn zwischen D M 1350 und 1400, eine höhere W haben als ein Wertebereich im typischen Zentrum, z. B. zwischen D M 1099 und 1101. Aber immerhin: von einem theoretischen Parameter aus können deduktiv in W-en quantifizierbare Erwartungen an die Daten bestimmt werden, die sich jederzeit überprüfen lassen. Die Frage, welche empirischen Daten zu einem gegebenen theoretischen Parameter passen, läßt sich auf diese Weise empirisch überprüfbar beantworten.
Parameter zu gegebenen empirischen Daten passen. Aber ist denn nicht diese Frage einfach die formale Umkehrung der ersten Frage? Passen nicht theoretische Parameter genau dann zu empirischen Daten, wenn die entsprechenden empirischen Daten zu den theoretischen Parametern passen? - Kann ich nicht in der gleichen Weise Erwartungen aus empirischen Daten zu theoretischen Parametern ableiten, wie ich aus theoretischen Parametern Erwartungen zu empirischen Daten a b l e i t e ? Wir haben hier ein Beispiel dafür, wie formale Überlegungen, verselbständigt, in die Irre führen können 2 . Sie verdecken hier nämlich die konkrete Struktur des Verhältnisses von Allgemeinem und Besonderem und die erkenntnistheoretische Differenz von Deduktion und Induktion: Während ein gegebenes allgemeines Modell die verschiedensten besonderen Daten produziert, gehört zu gegebenen empirischen Daten immer ein und genau ein bestimmtes allgemeines Modell. Während die Daten also mit bestimmter W in einen bestimmten Wertebereich fallen, liegt ein besonderer Parameter entweder in einem bestimmten Wertebereich oder nicht. Während die Aussage «Bei einem LohnMittelwert n = 1100 liegt der Lohn einer nach Zufall herausgegriffenen Arbeiterin zwischen D M 900 und D M 1300» eine bestimmte W hat, ist die Aussage «Bei einem gefundenen Lohn von D M 900 liegt der Lohn-Mittelwert JJ. zwischen D M 700 und D M 1100» entweder falsch oder richtig. Und da ein allgemeines Modell von der Ebene besonderer Daten aus unzugänglich ist, aus noch so vielen Daten nicht erschlossen werden kann, ja im Fall der Statistik ein solches allgemeines Modell von besonderen Daten aus noch nicht einmal widerlegt werden kann, ist die Falschheit oder Richtigkeit einer solchen Aussage - jedenfalls auf der durch die Statistik vorgegebenen logisch-empirischen Ebene - a u c h nicht überprüfbar. Der Übergang von der deduktiven Richtung zur induktiven Richtung des Problems ist also kein rein formaler, ihm entspricht vielmehr ein Übergang vom Wahrscheinlichkeitskriterium zum erkenntnistheoretisch wesentlich schwächeren Kriterium der Plausibilität (siehe LEI-
In der Schätzlogik interessiert nun die umgekehrte Frage, nämlich welche theoretischen
2 Zu Genese, Realitätsbezug und Grenzen des formalen Denkenssiehe LEISER, 1978a, 1978b.
Zeitschrift für S o z i a l p s y c h o l o g i e 1982, 13, 1 2 5 - 139
SER, 1980, p. 114ff, p. 137ff.)3. Die Überlegungen entsprechen dabei den unter der Testlogik dargestellten: Zu jedem theoretischen Parameter gehört eine W-Verteilung, in der ein typisches Zentrum von untypischen Rändern unterschieden werden kann. Empirische Daten, die im typischen Zentrum liegen, werden zugelassen, passen zum theoretischen Parameter. Empirische Daten, die in den untypischen Rändern liegen, werden ausgeschlossen, passen nicht zum theoretischen Parameter. Liegt nun ein bestimmtes empirisches Datum vor, üblicherweise eine aus empirischen Daten berechnete Statistik, so kommt diese Statistik für bestimmte theoretische Parameter ins typische Zentrum zu liegen, für andere in die untypischen Ränder. Die theoretischen Parameter, für die die Statistik im typischen Zentrum liegt, werden dann für plausibel erklärt, die theoretischen Parameter, für die die Statistik in den untypischen Rändern liegt, für unplausibel. Der so gefundene Plausibilitätsbereich, das sogenannte Konfidenzintervall, hängt von der Größe des typischen Zentrums, d.h. letztlich von der für dieses typische Zentrum vorgegebenen W ab. Eine präzise Aussage zum Konfidenzintervall im Beispiel des Lohn-Mittelwerts wäre also: «Bei einer vorgegebenen Wahrscheinlichkeit von 95% für das typische Zentrum und einem gefundenen Lohn von DM 900 liegt der Lohn-Mittelwert nach Plausibilität zwischen DM 700 und DM 1100.» Wie behandelt nun K R I Z das Problem der Schätzlogik? Es beginnt damit, daß schon terminologisch der Unterschied zwischen der theoretischen und empirischen Ebene, zwischen Deduktion und Induktion, eingeebnet wird. So spricht er statt von Parametern und Statistiken von «Parametern der Grundgesamtheit» und «Stichprobenparametern» (p. 112). Und ein Mutungsintervall definiert er als den «Bereich, innerhalb dessen ein Stichprobenparameter bei vorgegebenem Parameter der Grundgesamtheit (oder umgekehrt) mit einer bestimmten Wahrscheinlichkeit P liegt» (p. 321). Die Bestimmung von typischem Zentrum und Konfidenzintervall wird also gleichgesetzt. In Abschnitt 5.4 geht es dann um ein 3 Vgl. als Spezialproblem das Verhältnis v o n Wahrscheinlichkeit und Likelihood.
135 «wichtiges Problem der Inferenzstatistik», nämlich «das Abschätzen eines Bereichs - eines sogenannten Mutungsintervalls -, in dem ein bestimmter Parameter der Grundgesamtheit mit einer vorgegebenen Sicherheit liegt» (p. 112). Bei näherem Hinsehen stellt man dann aber fest, daß K R I Z in Wirklichkeit über die Bestimmung von Intervallen spricht, in denen ein bestimmter Stichprobenparameter mit vorgegebener Sicherheit liegt. K R I Z setzt also nicht nur unterschiedliche Probleme gleich, er verwechselt sie auch noch. Die erkenntnistheoretische Problematik, aber auch die forschungspraktische Bedeutung von Konfidenzintervallen verschwimmen dabei in einer Grauzone vieldeutiger Begriffe und Formulierungen. Bei der Anwendung auf konkrete Modelle, etwa die Normalverteilung, löst sich dann jede rationale Logik auf. K R I Z führt hier an einer Zeichnung den linken und rechten Grenzwert, H, und eines Konfidenzintervalls für den Mittelwertsparameter vor und erklärt: « Wie aus Abbildung 18 ersichtlich, kann der Mittelwert M einer Stichprobe noch mit 95% Wahrscheinlichkeit aus der Grundgesamtheit mit dem Parameter ju.t stammen, mit 95% Wahrscheinlichkeit aber auch aus der Grundgesamtheit mit dem Parameter \i2» (p. 123). Was heißt das? Ich habe es nicht herausgefunden. Soll es heißen, daß die Statistik M unter den Parametern p., und (o.2 jeweils eine W von 95% hat? Oder soll es heißen, daß M mit 95% W aus einer Grundgesamtheit mit Parameter stammt und mit 95% W aus einer Grundgesamtheit mit Parameter ja.2? - Würde M dann aber nicht mit 190% W aus einer Grundgesamtheit mit Parameter n, oder stammen - was doch offensichtlich ein Unding ist? - Einige Sätze weiter kommt K R I Z zu dem Schluß: «Der Parameter n der Grundgesamtheit, aus der M mit 95%iger Wahrscheinlichkeit stammt, liegt somit ± 1.96 OM um M» (p. 123). Was soll das wohl heißen? - Der «wahre» Parameter hat doch einen bestimmten, wenn auch unbekannten Wert. Aber schon rein formallogisch ist eine solche Wahrscheinlichkeitsaussage widersinnig: Nehmen wir das Beispiel mit dem Lohn-Mittelwert. Angenommen, in einer empirischen Untersuchung ergibt sich als empirisches Mittel M = 900 und daraus für den Lohn-Mittel-
136
Leiser: Wie funktioniert sozialwissenschaftliche Statistik?
wert
Wahrscheinlichkeitsaussage sinnlos. Darüber hinaus ist die Frage wissenschaftlicher Wahrheit, der Wahrheit allgemeiner Sätze, kein statistisches Massenproblem, sondern in jedem einzelnen Fall konkret zu stellen und konkret zu beantworten. Dieser Gedanke hilft zur Begründung der Intervallschätzung also letztlich auch nicht weiter. Im übrigen geht er wohlgemerkt über K R I Z hinaus. Er bezieht sich auf einen möglichen assoziativen Hintergrund der K R I Z schen Darstellung (siehe hierzu etwa HAYS, 1963; W A L K E R & LEV, 1953). Es wäre auch hier wieder empirisch untersuchenswert, wie Leser mit einem solchen «ver-
das Konfidenzintervall 700 ^ n ^ 1100. würde das formulieren: «Der Lohn-Mittelwert der Grundgesamtheit, aus der M = 900 mit 95% Wahrscheinlichkeit stammt, liegt + 200 um M = 900, also zwischen DM 700 und DM 1100.» Nun wird eine Kontrolluntersuchung veranstaltet, in der sich ein empirisches Mittel von M = 1300 ergibt und daraus diesmal für den Lohn-Mittelwert das Konfidenzintervall 1100 ^ ji ^ 1500. K R I Z würde dann formulieren: «Der LohnMittelwert (i der Grundgesamtheit, aus der M = 1300 mit 95% Wahrscheinlichkeit stammt, liegt + 200 um M = 1300, also zwischen DM 1100 und DM 1500.» Beide Aussagen zusammen ergeben danach, daß ^ mit 95% W zwischen 700 und 1100 sowie mit 95% W zwischen 1100 und 1500 liegt, daß n demnach mit 190% W zwischen 700 und 1500 liegt. Die KRizsche «Schätzlogik» führt also zu Antinomien, zu immanent nicht mehr auflösbaren Widersprüchen 4 . KRIZ
Ich nehme an, daß die KRizsche «Schätzlogik» assoziativ mit folgendem Gedanken zu tun hat: Produziere ich mit einem bekannten Modell Stichprobendaten und berechne aus diesen jedesmal Konfidenzintervalle auf der Basis eines typischen Zentrums von 95% W, so kann ich über diesen Zufallsprozeß der Intervallschätzung hinweg sagen: «Mit 95% Wahrscheinlichkeit schließt ein Konfidenzintervall den Parameter ein.» Statt mit dem gleichen Modell kann ich auch mit verschiedenen bekannten Modellen Daten produzieren und Konfidenzintervalle berechnen. Wären die Modelle in der Wissenschaft jeweils schon vorweg bekannt, könnte ich also sagen: «Mit 95% Wahrscheinlichkeit schließt ein Konfidenzintervall den Parameter ein.» Und ich könnte in jedem einzelnen Fall empirisch überprüfen, ob dieses «Ereignis» vorliegt oder nicht. Nur: In der Wissenschaft sind die Modelle/theoretischen Parameter eben nicht vorweg bekannt, sonst wäre empirische Forschung überflüssig. Und damit wird selbst eine solche globale
wirrenden
Konglomerat»
(p. 120) von Wider-
sprüchen und Vieldeutigkeiten fertig werden. Welche kognitiven Strukturen auch immer hierbei entwickelt werden: auch ein rationales Verständnis für Schätzlogik, ein drittes fundamentales Lernziel einer Einführung in die Statistik, kann dabei nicht herauskommen. Auch hier soll wieder kurz gezeigt werden, daß die Behandlung von K R I Z hier nur exemplarischen Charakter hat: ein ähnlicher Umgang mit dem Problem der Schätzlogik findet sich in den bereits genannten Statistik-Texten. Zitate (wieder in alphabetischer Reihenfolge der Autoren): BORTZ: «. . . kann man Intervalle angeben, in denen sich der gesuchte Parameter mit einer bestimmten Wahrscheinlichkeit befindet» (BORTZ, 1977, p. 129) oder «Die Wahrscheinlichkeit, daß sich der Populationsparameter im Bereich 103.36 — 110.20 befindet, beträgt somit
86.6%»
(BORTZ,
1977,p. 131).
CLAUSS & EBNER: « Wir können
nun
ange-
ben, innerhalb welcher Grenzen der Parameter liegt. Für 99 von 100 gleichartigen Zufallsstichproben (statistische Sicherheit = 99%) liegt der Parameter . . . innerhalb der Grenzen 61.5 ± 1.6»
(CLAUSS & EBNER, 1 9 7 7 , p . 1 7 1 ) .
HOPPE & LIEPMANN: «Der
Populationsmit-
telwert liegt also mit 99% Wahrscheinlichkeit (Sicherheit) zwischen den Grenzen |i = 17.226 und
P. =
18.774
...»
(HOPPE &
LIEPMANN,
1976, p. 99). 4
Für eine - aus der Induktionsproblematik herausfallende - BAYESSche Interpretation solcher Aussagen, bei der H selbst als ZV mit bestimmter (objektiver oder subjektiver) W-Verteilung behandelt würde, fehlen hier alle Voraussetzungen.
MITTENECKER: «Wir können zum Beispiel behaupten . .., daß der «wirkliche» Mittelwert mit 99% Wahrscheinlichkeit. . . zwischen 35.47 und40.53 liegt» (MITTENECKER, 1963, p. 57). PFANZAGL:
Immerhin beginnt der Autor mit
Zeitschrift für Sozialpsychologie 1982, 13, 1 2 5 - 139
einigen Vorsichtsregeln: «Das Intervall... ist also eine zufällige Variable . . . Wenn wir aufgrund einer Stichprobe das Intervall. . . berechnen und behaupten: , so wird diese Behauptung in 99 von 100 Fällen richtig sein» ( P F A N Z A G L , 1978, p. 88). Da das für die Begründung im Einzelfall nichts hergibt, kann der Autor das aber nicht durchhalten, und eine Seite weiter heißt es denn auch: «Der echte Mittelwert p. wird also vom Schätzwert x — 415.3 g höchstens um 1.6 g abweichen, d.h. er wird fast sicher (99%) zwischen . . . 413.7 g und . . . 416.9 g liegen» (ebd., p. 89). Das führt aber wiedergenau auf die oben vorgeführte Antinomie. R I T S E R T & B E C K E R : «Hat man z. B. ein Stichprobenresultat x — 10 bei n = 100 und a = 2, so ist mit 95%-iger Wahrscheinlichkeit (in 95% der Fälle) damit zu rechnen, daß der wahre Wert |i im Bereich . . . 9.608 und ... 10.392 liegt» ( R I T S E R T & BECKER, 1971, p. 141). Der Bezug zu den bei K R I Z kritisierten Mißverständnissen ist wohl in allen Zitaten offensichtlich. Ich möchte meine Kritik des KRizschen Buchs hier abschließen und noch kurz über meine Erfahrungen im Zusammenhang mit diesem Buch sprechen. Das methodische Problem, daß es sich bei diesen Erfahrungen um Selbsterfahrung handelt, muß ich in Kauf nehmen. Auf der Grundlage dieses empirischen Materials möchte ich zum Schluß einige Thesen zum institutionellen und wissenschaftspolitischen Hintergrund, der ein Buch wie das von K R I Z möglich macht, zur Diskussion stellen. Auf das KRizsche Buch bin ich erstmals 1973 aufmerksam gemacht worden im Rahmen von Versuchen, eine didaktische und konzeptuelle Alternative zur herrschenden Statistik-Ausbildung zu entwickeln. Das praktische Scheitern dieser Versuche hat mich damals zu einer kritischen Analyse dieser und ähnlicher StatistikEinführungen veranlaßt. Das Ende dieses Prozesses war der Entschluß, eine eigene StatistikEinführung zu erarbeiten (siehe LEISER, 1980, sowie vereinfacht und für die Bedingungen eines Grundkurses weiterentwickelt LEISER, 1981). 1976 kam es dann zu einem Briefwechsel zwischen Herrn K R I Z und mir, in dem es um meine Kritik an seinem Buch und um mein alternati-
137 ves Einführungskonzept gehen sollte. Wohlgemerkt gehen sollte: denn nach seiner Ankündigung, sich mit meiner Kritik und meinem damaligen Manuskript näher zu beschäftigen, habe ich von Herrn K R I Z nichts mehr gehört. Über die Gründe weiß ich nichts, kann ich nur Vermutungen anstellen. War Herr K R I Z vielleicht zu sehr mit der nächsten Auflage seines Buches beschäftigt, das dann 1978 in unveränderter Form erschienen ist? - Fand er meine Kritik letztlich doch nicht stichhaltig? Aber das hätte er doch nach den gängigen Regeln zumindest in einer Fußnote vermerken können. Oder bin ich vielleicht einfach zu «rigoros», zu «kompromißlos», zu «prinzipienbezogen» in meiner Kritik gewesen, problematische Persönlichkeitszüge, die ein prominenter Psychologe anhand meines eigenen Statistik-Konzepts bei mir diagnostiziert hat? Ich habe dann darauf gewartet, daß gewichtigere und ausgewogenere Kollegen das Buch von K R I Z kritisch rezensieren, denn schließlich ist in den Sozialwissenschaften genug Kompetenz versammelt, genug formale Kompetenz auf Seiten der dort arbeitenden Mathematiker und genug wissenschaftstheoretische Kompetenz auf Seiten sozialwissenschaftlicher Theoretiker. Indiz: Ich habe Kostproben dieser Kompetenz anläßlich der Kritik meines eigenen Buches zu spüren bekommen. So ist mir z. B. von einem prominenten sozialwissenschaftlichen Methodiker vorgehalten worden, daß die Grundstudiums-Studenten in meiner StatistikEinführung weder etwas von den B I R N B A U M schen noch den STEGMÜLLERschen noch den v. MiSESSchen und REiCHENBACHschen Überlegungen zum Wahrscheinlichkeitsbegriff erfahren. Merkwürdigerweise hat aber dieses Kompetenz-Potential meines Wissens bis heute weder auf das KRizsche Buch noch auf die anderen in dieser Untersuchung angesprochenen Statistik-Bücherkritisch reagiert. Ernsthaft in Verwirrung gestürzt haben mich dann aber die positiven Reaktionen auf mein Buch: Verschiedene sozialwissenschaftliche Methodiker haben nämlich das Buch von K R I Z und mein Statistik-Buch im positiven Sinn für äquivalent erklärt, und damit entweder von der Veröffentlichung meines Buchs abraten («noch ein gutes Buch ist überflüssig») oder das besonders hohe Niveau meines Buchs hervorheben
138 wollen. Keiner hat wahrgenommen, daß es in meinem Buch in allen drei oben behandelten fundamentalen Lernzielen um eine rationale Alternative zu den KRizschen Fehlern und Ungereimtheiten geht. Keinem ist aufgefallen, daß ich das KRizsche Buch beim Schreiben meines Buchs geradezu als schlechtes Beispiel vor Augen gehabt habe. Nach alledem scheint es mir legitim, die Möglichkeit zu erwägen, daß die herrschende sozialwissenschaftliche Methodologie doch nach etwas anderen Mechanismen funktioniert, als in dem von ihr reklamierten Modell des Kritischen Rationalismus vorgesehen. Hierzu abschließend meine Thesen: 1)Die Fehler und Ungereimtheiten des KRizschen Buchs kennzeichnen nicht n u r den Autor, sondern einen maßgebenden, allein bei diesem Buch inzwischen auf 22 000 Buchexemplare abgestützten Bereich innerhalb der herrschenden sozialwissenschaftlichen Statistik. 2) Ein solches Statistik-Verständnis kann zu einem maßgebenden werden, weil Statistik aus den Naturwissenschaften, in denen sie sich als funktional für die Lösung konkreter Probleme entwickelt hat, in die Sozialwissenschaften durch naive Übernahme gelangt ist. 3) Statistik - allgemeiner: Logik und Mathematik - in den herrschenden Sozialwissenschaften dient primär nicht der theoretischen und praktischen Leistungsfähigkeit dieser Wissenschaften, sondern ihrer hegemonialen Absicherung (siehe K U H N , 1 9 7 6 ) . 4) Die herrschende sozialwissenschaftliche Statistik ist als hermetisch abgeschlossenes System organisiert, innerhalb dessen Mathematiker und Nicht-Mathematiker streng abgegrenzte Funktionen haben: Die Mathematiker repräsentieren das System nach außen, schirmen es gegen Angriffe ab und verkörpern nach innen das Methodenideal. Die Nicht-Mathematiker sind dazu da, das sozialwissenschaftliche Fußvolk zu disziplinieren, und das heißt vor allem, den Widerspruch zwischen diesem Methodenideal und den relevanten Problemen der Sozialwissenschaften durch eine Art Statistik-Ideologie zu vernebeln. Statistik und Irrationalität schließen sich daher in den herrschenden Sozialwissenschaften nicht aus, sondern bedingen sich gegenseitig. Mathematiker und Nicht-Ma-
Leiser: Wie funktioniert sozialwissenschaftliche Statistik?
thematiker treten sich innerhalb dieses Systems nicht auf die Füße, sondern respektieren ihre Reviere. Zur Reviersicherung gehört im übrigen ein eingespielter Mechanismus der KritikRegulation, der über Verschweigen, Disqualifizieren alternativer Ansätze, Veröffentlichungsund Personalpolitik funktioniert. 5) Irrationalität im nicht-mathematischen Revier der sozialwissenschaftlichen Statistik reproduziert sich nach einem Muster, das H A N S CHRISTIAN A N D E R S E N in seinem Märchen «Des Kaisers neue Kleider»beschreibt: « sagte endlich ein kleines Kind. Zeilenabstand, 32 Zeilen á 60 A n schläge) nicht übersteigen. - Den Arbeiten sind Abstracta in deutscher und englischer Sprache von je 10 Zeilen voranzustellen. - Beizufügen ist der Hinweis, d a ß der Beitrag nicht bereits an a n d e r e r Stelle publiziert wurde. - Die Autoren werden u m maximal 5 Stichwörter zur K e n n z e i c h n u n g ihrer Arbeit u n d schließlich u m biographische Daten gebeten: J a h r und Ort akademischer P r ü f u n g e n , das jetzige Arbeitsverhältnis, die wichtigsten Veröffentlichungen (Titel, Jahr) sowie derzeitige Forschungsarbeiten. Ü b e r die A n n a h m e von M a n u s k r i p t e n entscheidet das Kollegium der Herausgeber. Bezüglich der A n f o r d e r u n g e n , die an empirische Arbeiten gestellt werden, informiert der Artikel von B r e d e n k a m p / F e g e r «Kriterien zur Entscheidung über die A u f n a h m e empirischer Arbeiten in die Zeitschrift f ü r Sozialpsychologie» in Bd. 1, H. 1,43 — 47 dieser Zeitschrift. Die A u t o r e n erhalten von ihrem Beitrag 20 Sonderdrucke kostenlos, weitere z u m Selbstkostenpreis. A u t o r k o r r e k t u r e n , die 10% der Satzkosten überschreiten, werden den U r h e b e r n in R e c h n u n g gestellt. Die Z u s e n d u n g von Besprechungsexemplaren veranlaßt die Herausgeber lediglich zur D o k u m e n t a t i o n , nicht aber zur Rezension. Anzeigenannahme:
Verlag H a n s H u b e r , Zeughausgasse 22, C H — 3000 Bern 7
Erscheinungsweise: 4 Hefte jährlich Abonnementspreise pro Band: SFr. 79. - / D M 87. - ; f ü r Studenten SFr. 3 9 . 5 0 / D M 43.50 Porto und Versandgebühren: Schweiz SFr. 3. - ; übrige Länder SFr. 1 3 . - / D M 14.50 Einzelheft: SFr. 25. - / D M 27.50; für Studenten SFr. 12.50/DM 1 4 . Einbanddecke: SFr. 1 2 . - / D M 13.50
Werner Herkner bei Hans Huber Neu in der 2.
Auflage
Werner Herkner
Einführung in die Sozialpsychologie 2., überarbeitete und ergänzte Auflage 1981, 594 Seiten, 148 Abbildungen, 72 Tabellen, gebunden Fr. 48.— / DM 48.—
Neu Werner Herkner (Herausgeber)
Experimente zur Sozialpsychologie 1981, 407 Seiten, 21 Abbildungen, 68 Tabellen, kartoniert Fr. 4 9 . - / DM 5 4 . Das Buch bietet eine Auswahl wichtiger und häufig zitierter Originalarbeiten zu folgenden Teilgebieten der Sozialpsychologie: Sozialisierung und soziales Lernen, Einstellungen und Meinungen, interpersonelle Wahrnehmung und Selbstwahrnehmung, Interaktion und Gruppenprozesse.
Werner Herkner
Attribution - Psychologie der Kausalität 1980, 436 Seiten, Abbildungen, Tabellen, kartoniert Fr. 5 4 . - / DM 5 9 . -
Verlag Hans Huber Bern Stuttgart Wien