250 94 31MB
German Pages 70 [82] Year 1990
HERAUSGEBER HUBERT FEGER
C. F. G R A U M A N N KLAUS HOLZKAMP MARTIN IRLE
BAND
15 1 9 8 4 H E F T 2
V E R L A G HANS H U B E R BERN STUTTGART WIEN
Zeitschrift für Sozialpsychologie Gegründet von: Hubert Feger Klaus Holzkamp Carl Friedrich Graumann Martin Irle Wissenschaftlicher Beirat: Günter Albrecht Hans-Werner Bierhoff Mario von Cranach Helmut Crott Dieter Frey Volker Gadenne Franz Urban Pappi Peter Petzold John Rijsman Peter Schönbach Wolfgang Stroebe Arnold Upmeyer Rolf Ziegler
Copyright 1989 Verlag Hans Huber Bern Stuttgart Toronto Herstellung: Lang Druck AG, Liebefeld Printed in Switzerland Gedruckt mit Unterstützung der Deutschen Forschungsgemeinschaft Library of Congress Catalog Card Number 78-126626 Die Zeitschrift für Sozialpsychologie wird in Social Sciences Citation Index (SSCI) und Current Contents / Social and Behavioral Sciences erfaßt
Zeitschrift für Sozialpsychologie 1989, Band 20 Heft 3 INHALT
Editorial
129
Theorie und Methoden MATSCHINGER, H.: Die Beurteilung fehlender Werte durch nicht-lineare Hauptkomponentenanalyse
130
Empirie HOLZ-EBELING, F.: Zur Frage der Trivialität von Forschungsergebnissen HIÖSTER, H.: Einfluß von attributionaler Ambiguität und Interaktionserwartung auf das Verhalten gegenüber Körperbehinderten SCHWARZ, N. und SCHEURING, B.: Die Vergleichsrichtung bestimmt das Ergebnis von Vergleichsprozessen: Ist-Idealdiskrepanzen in der Beziehungsbeurteilung
Diskussion Z I C K , A., WIESMANN, U . und WAGNER, U . : Einige Anmerkungen zu SCHIFFMANN & WICKLUNDS «Kritik der Social Identity Theory» SCHIFFMANN, R. und WICKLUND, R. A . : Minimale Gruppen und Psychologie - eine Replik auf Z I C K , WIESMANN u n d WAGNER
141
157 168
172 177
Literatur Rezensionen
181
ELLIS, D . G . & D O N O H U E , W . A .
(eds.).
1986:
Contemporary issues in language and discourse
processes.
Das interaktive Moment in der Sprache Intuitionen über Gespräche
PIONTKOWSKI, U . :
181
WETTLER, M . :
188
Neuerscheinungen
190
Titel und Abstracta
191
Nachrichten und Mitteilungen
194
Autoren
196
Verlag Hans Huber, Bern Stuttgart Toronto
Zeitschrift für Sozialpsychologie 1989, 129
129
Editorial Auf ihrem letzten Treffen haben sich die Herausgeber der Zeitschrift für Sozialpsychologie für einige Änderungen - oder besser Erweiterung e n - in der Rubrik «Literatur» der Zeitschrift entschieden: Ab sofort sollen neben den bisher üblichen kritischen Doppelrezensionen auch Einzelrezensionen von neu erschienenen Buchpublikationen aus der sozialpsychologischen Forschung und interessierenden Nachbardisziplinen erscheinen. Einzelrezensionen erfordern keine zusätzliche zeitliche Koordination zwischen mehreren Rezensenten, sie können ohne größere Latenz aktuelle Informationen über Neuerscheinungen bieten. Möglich sein sollen sie sowohl in der Variante der kurzen, maximal 1 bis 2 Druckseiten umfassenden Buchbesprechung
als auch in der der ausführlicheren kritischen Rezension im Umfang bis zu maximal 5 Druckseiten. In der Rubrik «Literatur» soll außerdem Raum für eine begrenzte Zahl von Abstracts von aktuellen im deutschen Sprachraum abgeschlossenen Dissertationen über Fragestellungen aus der sozialpsychologischen Forschung reserviert werden. Der Redaktion der Zeitschrift sind deshalb sowohl Vorschläge für mögliche Rezensionen als auch Informationen über Dissertationen aus der Sozialpsychologie herzlich willkommen. AMÉLIE MUMMENDEY
B
130
Matschinger: Beurteilung fehlender Werte
Theorie und Methoden Die Beurteilung fehlender Werte durch nicht-lineare Hauptkomponentenanalyse HERBERT MATSCHINGER Zentralinstitut für seelische Gesundheit, Abteilung Psychiatrische Soziologie, D-6800 Mannheim Die vorliegende Arbeit versucht den «fehlenden Wert» an Hand seiner Ähnlichkeit zu anderen Variablenkategorien zu beurteilen. Die eingesetzte nicht-lineare Hauptkomponentenanalyse bestimmt nicht nur optimal diskriminierende Beobachtungsscores, sondern liefert auch optimal homogene Kategorienquantifikationen. Dabei werden die Variablen als nominal behandelt. Die Bedeutung der Quantifizierung von nominalen Variablen wird sowohl an artifiziellen Daten, wie auch an Beispielen aus der soziologischen Belastungsforschung dargestellt. Es wird gezeigt, daß das Auftreten fehlender Werte von ausgewählten manifesten Variablen der ersten Hauptkomponente abhängt.
This paper presents an approach to evaluate «missing values» with respect to other categories of the manifest variables. By employing non-linear principle component analysis and treating all variables as single nominal it is possible to obtain both observation scores and optimal quantifications of the categories. How substantive meaning can be ascribed to such derived category-scores is shown with artificial data as well as with an empirical example from the field of stress research. It is demonstrated that missing values depend on selected variables of the first principle component.
Einleitung und Problemstellung
blen. Die Mehrzahl der Konstrukte in den Sozialwissenschaften sind aber bloß Bezeichnungen für Zustände von Beobachtungen, die sich durch Kombinationen oder «Anhäufungen» ausgewählter Charakteristika auszeichnen. Es handelt sich dabei also nicht um latente Variable bzw. Faktoren im Sinne des Wortes, sondern um Gegenstandsbereiche, für die nach einer möglichst sparsamen Abbildung der Beobachtungen in einem theoretisch begründbaren Eigenschaftsraum gesucht wird. So wird z.B. häufig von «Belastung» gesprochen und damit die Möglichkeit gefordert, Beobachtungen hinsichtlich des Ausmaßes von «Belastung» zu ordnen. Das Ausmaß wird in diesem Falle durch das gleichzeitige Auftreten von «Belastungscharakteristika» dargestellt. Diese Charakteristika können nicht als Indikatoren einer latenten Variable «Belastung» aufgefaßt werden.
In den empirischen Sozialwissenschaften stellt sich häufig das Problem der «fehlenden Werte» unter bestimmten Bedingungen. Die meisten Bemühungen zielen darauf ab, trotz fehlender Werte auf den beobachtbaren Variablen möglichst genaue Schätzungen für die Beobachtungen zu erzielen. Es geht in diesem Zusammenhang entweder um die Beurteilung des Effekts von fehlenden Werten auf die beobachtete Stichprobe und deren Merkmale (Stichprobenverzerrung), oder um die Beurteilung des Effekts verschiedener Merkmale einer beobachteten Population auf die Verteilung von fehlenden Werten ( O R C H A R D & WOODBURRY, 1 9 7 2 ; KIM & CURRY,
1978; BEALE & LITTLE, 1975; oder 1982: 9ff., 1986).
MEULMAN,
Alle Versuche in diese Richtung setzen nicht nur explizite Modellvorstellungen über den Begriff und die Bedeutung der zu messenden Gegenstandsbereiche und damit über die Beziehung manifest-latent voraus, sondern benötigen auch strikte Annahmen über die Skalenqualität sowohl der latenten wie auch der manifesten Varia-
Ein weiteres Problem bei derartigen Skalierungsversuchen entsteht dadurch, daß die beteiligten manifesten Variablen entweder überhaupt nominaler Natur sind, oder nur auf nominalem bzw. ordinalem Niveau beobachtet werden können. In diesem Falle ist es weder notwendig noch
Zeitschrift für Sozialpsychologie 1989, 130-140
sinnvoll, die fehlenden Werte von Versuchspersonen durch entsprechende Schätzungen zu ersetzen, sondern es bietet sich an den fehlenden Wert als eigene Kategorie für die entsprechenden manifesten Variablen zu behandeln und auch ursprünglich ordinale Variable nur noch nominal zu behandeln. Üblicherweise werden den Kategorien solcher Variablen Scores zugewiesen, über deren Ähnlichkeit nichts bekannt ist. Die Scores für die Kategorien dieser kategorialen Variablen werden per fiat gesetzt und sind damit von dem Eigenschaftsraum, in dem die Beobachtungen skaliert werden sollen, notwendigerweise unabhängig. Den zentralen Punkt der vorliegenden Arbeit stellt der Versuch dar, die Kategorien der Variablen und die Beobachtungen (z.B. Personen) im gleichen Eigenschaftsraum zu skalieren und über diesen Weg eine Beurteilung dieser Kategorien möglich zu machen. Wichtigstes Kriterium für diese Beurteilung ist die Ähnlichkeit der zu berechnenden Kategorienscores. Ist der missing value (im folgenden kurz MV genannt) einer dieser Kategorien, so ergibt sich die Interpretation einerseits aus seiner Ähnlichkeit zu anderen Kategorien derselben Variable und andererseits aus dem theoretisch begründbaren Eigenschaftsbereich in dem diese skaliert sind. Die nichtlineare Hauptkomponentenanalyse stellt einen methodischen Zugang zur Lösung dieses Problems dar. Natürlich wird bei einer solchen Skalierung auch den Beobachtungen ein Score zugewiesen, der aber nur mit Rücksicht auf die Kategorienscores der Variablen beurteilt werden kann. Eine ausführliche Behandlung dieses Problems überschreitet aber den Rahmen dieser Arbeit. Der Grundgedanke dieses Zugangs, nämlich die simultane Bestimmung von Variablenkategorien und Beobachtungswerten ist zwar keineswegs neu, hat jedoch im deutschen Sprachraum keine Tradition. Umsomehr scheint es geboten, diese Möglichkeit zur Bearbeitung des weiter oben dargestellten Problems einzusetzen.
Nicht-lineare Hauptkomponentenanalyse Das genannte Verfahren hat eine längere Geschichte und stellt einen Spezialfall eines wesentlich umfangreicheren Analysemodells dar. Wir
131
finden diese Verfahren eingebettet in eine Reihe von Analysetechniken, die unter den Namen multiple correspondence analysis, homogeneity analysis, optimal scaling oder dual scaling in der Literatur bekannt sind (FISHER, 1 9 4 0 ; GUTTMAN, 1 9 4 1 ; D E L E E U W , 1 9 8 4 , 1 9 8 5 , 1 9 8 6 ; BENZECRI, 1 9 7 3 ; NISHISATO, 1 9 8 0 ; GIFI, 1 9 8 1 ; GREENACER, 1984;
HEISER,
1 9 8 1 ; MEULMAN,
1986;
YOUNG,
Wir verwenden hier die Hauptkomponentenanalyse explorativ als Technik zur Beschreibung eines Datensatzes, für den spezielle algebraische und geometrische Kriterien optimiert werden sollen (vgl. LEBART et al., 1 9 8 1 ; GITTINS,
1985).
1 9 8 4 ; PEARSON, 1 9 0 1 ; ECKART & YOUNG, 1 9 3 6 ) .
Eine komprimierte und übersichtliche Darstellung des in der vorliegenden Arbeit verwendeten Verfahrens liefert KOHLMANN ( 1 9 8 8 ) . Wenn eine endliche Anzahl von direkten beobachtbaren Variablen theoretisch begründet einen Eigenschaftsbereich indizieren, so können sie bezüglich dieser Bereiche als homogen bezeichnet werden. Unter dieser Bedingung ist es möglich, die Beobachtungen auf den verschiedenen Variablen durch einen einzigen Score zu ersetzen. Dieser Wert soll so gewählt werden, daß bezüglich der Verteilung aller verwendeten manifesten Variablen möglichst wenig Information verloren geht. Dieser Verlust ist dann indirekt proportional zur Homogenität der Variablen. Um den Erfolg einer derartigen Substitution zu bestimmen, benötigen wir sowohl ein Maß für die Homogenität, wie auch ein Maß für diesen Verlust. Dabei soll gelten: Verlust=1-Homogenität (vgl. u.a. DE LEEUW, 1 9 8 4 ,
1986).
Diese Verlustfunktion wird dabei wie folgt notiert: a (x) = m "
1
ESSQ (x-hj) = L (x) = m~ j
1
I (x-hj) ' (x-hj) i
Dabei ist hj der entsprechende Beobachtungsvektor für eine beteiligte manifeste Variable j und m die Anzahl der manifesten Variablen. Man sieht, daß ein absolutes Minimum (L(x)=0) nur dann vorliegt, wenn alle hj gleich groß sind. In diesem Fall ist hi = h2 = h3= . . . h j = x . In allen anderen Fällen muß L(x) > 0 sein, also ein gewisser - zu minimierender - Verlust vorliegen. Die oben notierte Verlustfunktion ist selbstverständlich nur dann sinnvoll, wenn für die Datenmatrix H die gesuchten Kategorienscores bekannt sind. Da diese aber insbesondere bei nominalen Variablen willkürlich gesetzt sind, reicht
132
Matschinger: Beurteilung fehlender Werte
die Verlustfunktion für die Beobachtungsscores x nicht aus, da die Bestimmung optimaler Kategorienscores für die manifesten Variablen mit Rücksicht auf die selbe Verlustfunktion angestrebt wird. Dazu ist es notwendig, den Beobachtungsscore hj durch das Produkt einer Indikatormatrix Gj und eines Vektors von Kategorienscores yj darzustellen. Die Indikatormatrix Gj zerlegt jede Spalte der Datenmatrix H in soviele dichotome Variable, wie Kategorien für eine Variable vorliegen. Jede Zeile von Gj enthält damit genau eine Spalte mit dem Wert 1, die übrigen Elemente jeder Zeile sind 0. Das Matrixprodukt G'G enthält als Diagonale die absoluten Häufigkeiten der Kategorien der Variable j in der Stichprobe (BURT, 1950, 1951; vgl. hier KOHLMANN, 1988 und besonders LEBART et al., 1984, IV: 81f. In der Notation folgen wir GIFI und nicht LEBART). Das Produkt GJYJ stellt somit eine äquivalente Repräsentation der Datenmatrix H dar. Wir können die Verlustfunktion daher auch wie folgt notieren: L. (x) = M~
1
KX-G jYj ) ' (x-Gjyj) j
Zur Minimierung nach x setzt man die erste Ableitung 0. d (x)
= m - ' K2x-2G i y j ) j = m ~ ' I(x-Gjyj) i =x - m"'EGjyj
x = m
1
EGjyj = x = m
=0 =0 =0
1
Ehj
Wie nicht weiter verwunderlich, wird diese Bedingung genau dann erreicht, wenn x als Mittelwert der Zeilen von H berechnet wird. Wie schon weiter oben ausgeführt ist die Funktion explizit nur dann berechenbar, wenn die Kategorienscores yj bekannt sind. Man schreibt also eine äquivalente Verlustfunktion für die Kategorienscores wie folgt: L( y j ) = (x-Gjyj) ' (x-Gjyj)
Analog zur oben genannten Gleichung für die Verlustfunktion L(x) wird auch hier die erste Ableitung 0 gesetzt. =2Gj'Gjyj - 2Gj'x
= 0
= Gj'Gjyj - Gj'x
= 0
yj
=(Gj'Gj)-'Gj'x
Dj = GJ>GJ
Xj = Dj" 1 Gj'x
Aus der Gleichung wird deutlich, daß eine optimale Quantifizierung der Kategorien einer Variable das arithmetische Mittel der Gesamtskalenwerte x einer Beobachtungseinheit ist, welche genau in diese Kategorie fallen. Die Kategorienscores stehen also im Zentrum der zugehörigen Skalengesamtwerte (vgl. KOHLMANN, 1988 und GIFI, 1981).
Natürlich ist diese Quantifizierung bzw. Berechnung der Verlustfunktion wieder nur möglich, wenn die Skalengesamtwerte x als bekannt unterstellt werden. Eine optimale Lösung des Problems liegt vor, wenn die beiden Verlustfunktionen in einer einzigen Funktion L (x;y) zusammengefaßt werden. L (x;y) = m " 1 jK x - G jyj )'(x - G j y j )
Ohne das hier näher auszuführen, unterscheiden wir zwischen einem Verlust von Homogenität und einem Verlust der Diskrimination (NISHISATO, 1980; GIFI, 1981). Liegt eine Kategorienquantifikation der folgenden Form vor: x = G i y i = . . . G m y m , so sprechen wir von optimaler Diskrimination. Diese Formulierung impliziert, daß wir mit bekannten Beobachtungsscores beginnen und deren Diskriminationsfähigkeit durch die Konstruktion geeigneter Kategorienscores optimieren. Ebenso ist es umgekehrt möglich, optimale Homogenität der Kategorienscores zu erzielen. Bei Vorliegen von vollständiger Konsistenz diskriminieren die Beobachtungsscores optimal zwischen den Beobachtungen. Gleichzeitig sind die Kategorienscores optimal homogen. Das Verfahren der Wahl, um die beiden Verlustfunktionsformen zu minimieren, bezeichnet man als reciprocal averaging (vgl. FISHER, 1940) oder alternating least Square (vgl. MEULMAN, 1982; HILL, 1973, 1974). Zur Vermeidung trivialer Lösungen ist eine Normierung entweder der yj, oder von x notwendig. Es läßt sich zeigen, daß die Normierung von x ausreicht, wenn sie wie folgt geschieht: u'x = 0 wenn u eine Vektor mit len der Länge von x. x'x = In wobei n = Zahl der Beobacht. Länge von x.
133
Zeitschrift für Sozialpsychologie 1989, 130-140
Ein Iterationszyklus durchläuft demnach die folgenden Schritte (vgl. KOHLMANN, 1988: 480): (1) Start mit arbiträrem Vektor x normiert auf l x = 0 und x'x = n (2) y j = D - , G i ' x (3) x = m ~ 1 EGjYj j
(4) x =x(x'x)
,/!
n- l/!
Die Schritte (2) bis (4) werden so oft durchlaufen, bis die Veränderung von L(x;y) ein gesetztes Abbruchskriterium unterschreitet (z.B. 0.0001). Ersetzt man die ursprünglichen Kategorienscores durch die optimierten yj, so gewinnt man die reskalierte Datenmatrix Q. Die Beziehung zur Hauptkomponentenanalyse ist insoferne gegeben, als eine Hauptkomponentenanalyse dieser Matrix Q die gleichen Ergebnisse (Ladungen, Varianzanteile etc.) liefert, wie die nicht-lineare Hauptkomponentenanalyse über die ursprüngliche Datenmatrix H. Diese Analyse unterscheidet sich notwendigerweise von einer linearen Hauptkomponentenanalyse der Datenmatrix H, weil in diesem Fall die optimierten Kategorienscores yj nicht bekannt sind. Auf welche Weise die numerischen Werte der optimierten Kategorienscores interpretierbar sind, soll weiter unten an Beispielen mit artifiziellen und realen Daten erläutert werden, wobei der MV als gleichberechtigte Kategorie einer manifesten Variable behandelt wird. (Zur Beziehung zwischen Hauptkomponentenanalyse und Correspondence Analyses vgl. GITTINS, 1985: 119f.) Auf die Beschreibung des mehrdimensionalen Ansatzes soll in diesem Zusammenhang verzichtet werden, da er für das Problem der Beurteilung fehlender Werte zunächst von untergeordneter Bedeutung ist. Im mehrdimensionalen Falle stellt sich nämlich unter anderem das Problem, ob nur eine einzige Kategorienquantifikation, oder für jede Komponente eine eigene Quantifikation berechnet werden soll (single- versus multiple nominal; vgl. hierzu VAN RIJCKEVORSEL, 1 9 8 7 , sowie VAN DER HEIJDEN,
1987).
Um die Interpretierbarkeit der Ergebnisse anschaulicher zu machen, beziehen sich alle folgenden Analysen stets nur auf eine Hauptkomponente. Darüber hinaus wird in den Indikatormatrizen zunächst nur eine Spalte für den MV angenommen. Die optimale Kategorienquantifizierung für den MV ist daher für alle Beobachtungen die gleiche. Dies ist in der Literatur unter
Missing data Single category im Gegensatz zu Missing data multiple category bekannt (vgl. GIFI, 1981: 70ff.). Im letzteren Fall hat der MV bei jeder Beobachtung eine eigene Kategorie. Ein solches Vorgehen ist in eingschränktem Maße dann sinnvoll, wenn Charakteristika existieren, von denen ein Effekt auf den MV erwartet werden kann. Die bedingungssetzende Variable kann sowohl eine exogene Größe wie auch ein Indikator des zu messenden Eigenschaftsbereichs sein. In jedem Falle hängt die kategoriale Zuordnung der MV's einer Variable von der kategorialen Zuordnung einer anderen Variable ab. Dies soll weiter unten an einem Beispiel demonstriert werden. Alle Beispiele wurden mit einem in GAUSS programmierten Programm gerechnet (GAUSS Program Language; APTECH SYSTEMS INC. Kent Washington USA). Darüber hinaus existieren wenigstens zwei weitere Programme, nämlich das Programm PRINCALS (GIFI, 1985 Dep. of Data Theory, Universität Leiden) und das von KOHLMANN, 1988 in GAUSS geschriebene Programm NPCA.
Empirische Anwendung Bei der Anwendung des oben dargestellten Verfahrens wollen wir uns auf die folgenden Punkte konzentrieren: 1. Welchen Stellenwert hat der MV hinsichtlich aller anderen Kategorienscores einer Variable, unter Berücksichtigung eines optimalen Beobachtungsscores. 2. Welchen Stellenwert hat der MV unter der Bedingung ausgewählter Indikatoren des gleichen Meßbereichs.
Beispiele mit artifiziellen Daten Wir bilden einen Datensatz, so daß jede Versuchsperson auf einer und nur einer Variablen einen MV aufweist. Für jede der 3 x 8 Beobachtungen gibt es 8 3-Punkt Variablen, wobei jede Beobachtung genau einen MV und jede Variable genau 3 MV's enthält. Der MV wird mit 4 codiert. Ziel der folgenden Analyse ist es nun, optimale Kategorienscores für alle 4 Kategorien zu finden.
134
Matschinger: Beurteilung fehlender Werte
Beobachtungsscores (x)
Der optimale Kategorien-Score für 2 und 4 ist bis auf Rundungsfehler identisch, nämlich 0.
-1.2247
«This illustrates the principle of .reciprocal averages': category quantifications are the centroid of objects, and at the same time object scores are proportional to the average of the category quantifications which apply to the object.»
-6.3245E-18
Im nächsten Beispiel soll der MV-Code (4) nur bei Beobachtungen vorkommen, die alle anderen Items mit 1 codiert haben. Unter dieser Voraussetzung erhalten wir für die optimalen Kategorienscores der 8 Variablen die folgende Lösung:
Tabelle la: Gleichmäßige Verteilung von MV's Rohdaten (H)
1 1 1 1 1 1
(VAN DE GEER, 1986, 2: 151f.)
1 1
Tabelle 2: Kategorienscores für Variable 1-8
1.2247
Tabelle lb: Kategorienscores für Variable 1-8 Score 1 -1.2247
Score 2
Score 3
MV
-6.3245E-18
1.2247
-2.0961E-18
Es ist einleuchtend, daß sich ein optimaler Score für den MV (Code=4) nicht vom optimalen Code für 2 unterscheiden darf. Er steht ebenso wie der Code 2 im «Zentrum» des Eigenschafts- und Beobachtungsraumes, da er über alle Beobachtungen und alle Kategorien der beteiligten Variablen gleichmäßig verteilt ist. Für Skalierungsverfahren, die den listenweisen Ausschluß der fehlenden Werte zur Voraussetzung haben, hat dies notwendigerweise fatale Konsequenzen, weil es keine einzige Beobachtung ohne einen MV gibt. Die Verteilung der MV's hängt offenbar nicht vom optimalen Score der Beobachtung auf der ersten Hauptkomponente ab. Vielmehr ist er von allen anderen Codes «gleich weit» entfernt. In einer optimalen Lösung muß der KategorienScore für die MV's also genau in der Mitte liegen. Gleichzeitig darf sich die Lösung hinsichtlich der Beobachtungs-Scores nicht von einer Lösung unterscheiden, in der für alle MV's jener Score eingesetzt wurde, den die Beobachtung auf allen anderen Variablen aufweist.
Score 1
Score 2
Score 3
MV
-0.8095
0.1429
1.5714
-0.8095
Die unsystematische Verteilung der MV-Kategorie bewirkt, daß der optimale Score für die Kategorie 4 mit dem optimalen Score für die Kategorie 1 identisch ist und sein muß. Dies bedeutet, daß unter Berücksichtigung des Optimierungskriteriums für die erste Hauptkomponente der MV ohne Verlust an Information durch den Code 1 ersetzt werden kann. Man sieht gerade an solch trivialen Lösungen den Wert des vorgestellten Verfahrens im Hinblick auf die Analyse von MV-Verteilungen, bzw. MV-Codierungen. Das folgende Beispiel unterscheidet sich von den vorangegangenen Beispielen vor allem dadurch, daß die beteiligten manifesten Variablen nicht gleich viele Kategorien aufweisen. Die Variablen sind wieder 3-Punkt skaliert, doch tritt der MV nicht bei allen Variablen, sondern nur bei Variable 6-8 auf. In diesem Beispiel wird angenommen, daß die ersten beiden Beobachtungen einen «optimalen score» von 1, die nächsten zwei Beobachtungen einen «optimalen score» von 2 und die letzten zwei Beobachtungen einen «optimalen score» von 3 aufweisen. Tabelle 3a: MV-Verteilung unter definierten Bedingungen Beobachtungsscores (x)
Rohdaten (H) 1 1 2 2 3 3
1 1 2 2 3 3
1 1 2 2 3 3
1 1 2 2 3 3
1 1 2 2 3 3
4 1 2 2 3 3
1 1 4 2 3 3
1 1 2 2 4 3
1 1 2 2 3 3
1 1 2 2 3 3
-1.22450 -1.22490 0.00012 0.00012 1.22480 1.22468
135
Zeitschrift für Sozialpsychologie 1989, 130-140
Die Kategorienscores zur Beurteilung des MV sehen für diese Daten wie folgt aus: Tabelle 3b: Kategorienscores für Variable 1-5, 9, 10 Score 1
Score 2
Score 3
-1.2247
0
1.2247
Zwei Beispiele mit realen Daten
Kategorien für Variable 6 - 8
Score 1 Score 2 Score 3 MV (4)
zu beobachten sein. Für die Variable 8 gilt systematisch die entsprechende Ähnlichkeit zwischen dem Code 3 und dem MV. Die empirischen Ergebnisse aus dem artifiziellen Datensatz bestätigen diese Annahmen (s. Tabelle 3b).
Variable 6
Variable 7
Variable 8
-1.2249 0 1.2247 -1.2246
-1.2247 -0.0001 1.2247 0.0001
-1.2247 0 1.2247 1.2248
Die fünf ersten Variablen zeigen identische, symmetrisch um 0 verteilte Kategorienscores. Doch sind die geschätzten Beobachtungsscores mit den Kategorienscores nicht vollständig identisch, da diese fünf Variablen eine Kategorie weniger besitzen, als die Variablen 6, 7 und 8. Der optimierte Kategorienscore für die ursprünglich mit 1 codierte Kategorie der Variable 6 ist somit identisch mit dem Beobachtungsscore der zweiten Beobachtung. Der «optimale score» dieser zweiten Beobachtung ist unter den gegebenen Optimierungskriterien exakt 1. Die zweite Beobachtung zeigt ausschließlich den Code 1. Dementsprechend ist der optimierte Score für den MV (ursprünglich Code 4) identisch mit dem Beobachtungsscore für die erste Beobachtung. Die erste Beobachtung enthält ausschließlich den Code 1, bis auf die Variable 6, die einen MV enthält. Der Code 4 der Variable 6 ist also ein eindeutiger Indikator für die erste Beobachtung, der Code 1 der Variable 6 ein eindeutiger Indikator für die zweite Beobachtung. Das Gleiche läßt sich sowohl für die Variable 7, wie auch für die Variable 8 beobachten, weil auch hier der MV ein eindeutiger Indikator für eine ganz bestimmte Beobachtung ist. Von besonderem Interesse ist in diesem Beispiel die Ähnlichkeit des MV-Codes mit anderen Kategoriencodes der entsprechenden manifesten Variable. Für die Variable 6 tritt der MV nur zusammen mit dem Code 1 auf anderen Variablen auf. Im Rahmen der optimalen Skalierung muß dann der Wert für den MV große Ähnlichkeit mit dem Score für den Code 1 aufweisen. Für die Variable 7 muß die entsprechende Ähnlichkeit zwischen dem ursprünglichen Code 2 und dem MV
Die folgenden Beispiele bedienen sich einer Teilmenge von Variablen aus dem Datensatz der Studie: «Der Einfluß sozialer Belastungen und ihrer Verarbeitung auf die Entwicklung kardiovaskulärer Risiken. - Eine Längsschnittstudie an Arbeitern der Metallindustrie.»
Diese Studie wurde in den Jahren 1982-1987 am Institut für Medizinsoziologie der Universität Marburg durchgeführt wurde (vgl. hiezu SIEGRIST et al., 1984 und 1987). Für die folgende Analyse wurde ein «Belastungsindex» konstruiert, der sich aus den folgenden Items zusammensetzt: 1. Zwang zu Akkord: Code 1: Die Person verrichtet keine Akkordarbeit. Code 2: Die Person ist aus ökonomischen Gründen gezwungen, Akkordarbeit zu leisten, obwohl sie lieber im Zeitlohn arbeiten würde. 2. Schicht- und Nachtarbeit: Diese dichotome Variable teilt die Population in Personen, welche regelmäßig Schichtund Nachtarbeit leisten müssen und in Personen, die weder in Schicht- und Nachtarbeit, noch Wechselschicht arbeiten. 3. Einschätzung der Veränderung von Arbeitsbedingungen im letzten Jahr: Code 1: Die Arbeitsbedingungen haben sich insgesamt im letzten Jahr verbessert. Code 2: Die Arbeitsbedingungen sind im letzten Jahr insgesamt gleich geblieben. Code 3: Die Arbeitsbedingungen haben sich im letzten Jahr insgesamt verschlechtert. Code 4: MV bzw. Code 4 und 5 für die Analysen in Tabelle 5. Die nächsten drei Variablen sind Einschätzungsvariablen hinsichtlich des Ausmaßes von Schlafstörungen. Die Person soll dabei auf einer Dreipunkt-Skala:
136 Code 1: selten, nie Code 2: häufig (ungef. 1 x wöchentlich) Code 3: fast immer (fast täglich) die folgenden Formen von Schlafstörungen einschätzen: 4: «Wie häufig können Sie schlecht einschlafen.» 5: «Wie häufig wachen Sie mitten in der Nacht ohne ersichtlichen Grund auf?» 6: «Wie häufig erwachen Sie früher als Sie eigentlich müssen?» Die abzubildende «Belastung» kann nicht als latente Dimension im üblichen Sinne gewertet werden, vor allem weil «objektive» Belastungsvariable und subjektive Einschätzungsvariable gemeinsam Verwendung finden. Dies schließt ein Meßkonzept aus, bei dem die manifesten Variablen als abhängige Variable gedacht sind, deren Kovarianz durch die Existenz einer, oder mehrerer latenter Variabler erklärt werden kann. Zudem handelt es sich um eine Kombination aus nominalen Variablen und - zumindest der Intention nach - ordinalen Variablen. Durch Anwendung der nicht-linearen Hauptkomponentenanalyse kann das Gewicht der einzelnen Variablen für die erste Hauptkomponente, wie auch die optimalen Variablenkategorien bestimmt werden. Sind die Kategorienscores ordinal im Sinne einer Belastungsintensität interpretierbar, so macht es auch keine weiteren Schwierigkeiten, die relative Lage des MV-Scores zu den anderen Kategorienscores «ordinal» zu interpretieren. Über die Abhängigkeit des spezifizierten «Belastungsindex» von anderen exogenen Variablen, bzw. über die Prädiktionskraft eines derartigen Index für psychische Zustände oder Krankheitsindikatoren soll hier nicht diskutiert werden. Der vorgestellte Index ist aber für das Thema dieser Arbeit von besonderem Interesse, weil die drei Schlafstörungs-Variablen in der verwendeten Stichprobe keinen MV aufwiesen, die sogenannten objektiven Belastungsvariablen wie: «Zwang zu Akkord» und «Schicht- und Nachtarbeit» ebenso MV-frei beobachtet sind, die Frage nach der Veränderung von Arbeitsbedingungen aber eine nicht unbeträchtliche Menge an fehlenden Werten aufweist. Dies liegt sicherlich auch daran, daß diese Frage nicht spe-
Matschinger: Beurteilung fehlender Werte
zifisch genug gestellt wurde. Es war für den Probanden nicht ersichtlich, ob sich die Frage nur auf die Arbeitsbedingungen für die eigene Person bezog, oder ob ganz allgemein die Arbeitsbedingungen in dem speziellen Werk gemeint waren. Inwieweit die Rezeption dieses unspezifischen Stimulus wiederum von dem indizierten Bereich selbst abhängt, kann zwar Gegenstand von Sepkulationen sein, ist aber ohne weitere und umfassendere Analysen nicht zu überprüfen. Die relative Stellung des MV-Scores zu anderen Kategorienscores soll nach zwei Gesichtspunkten untersucht werden. 1. Abhängigkeit des MV von der ersten Hauptkomponente des Bereichs (missing data Single category). 2. Abhängigkeit des MV's von der ersten Hauptkomponente des Bereichs unter der Bedingung eines ausgewählten Indikators desselben Bereichs. (Zum Problem der «missing data multiple category» vgl. u.a. GIFI, 1 9 8 1 und VAN RIJCKEVORSEL,
1987).
Optimale Skalierung «missing data Single category» N=406 Man sieht an den entsprechenden Ladungen und an den Varianzanteilen, daß die sogenannten objektiven Variablen, wie «Schichtarbeit» und «Zwang zu Akkord» für den Belastungsindex keine Bedeutung haben. Daher sollte auch Größe und Vorzeichen der optimierten Kategorienscores nicht interpretiert werden. Für die optimierten Kategorienscores der SchlafstörungsVariablen bleibt die ursprüngliche Rangordnung erhalten. Dies gilt auch für die Variable «Einschätzung der Veränderung von Arbeitsbedingungen». Die Kategorien 1 und 2 (sich verbessernde, bzw. gleichbleibende Arbeitsbedingungen) sind relativ ähnlich und weisen beide einen erheblichen Abstand zum Kategorienscore der Kategorie 3 (sich verschlechternde Arbeitsbedingungen) auf. Die so optimierten Scores weisen in die gleiche Richtung wie die Scores der Schlafstörungsvariable, was unter der Annahme gleich gerichteter Verschlechterungen auf verschiedenen Belastungsebenen eindeutig interpretierbar ist. Der Kategorienscore des MV der Variable 3
137
Zeitschrift für Sozialpsychologie 1989, 130-140 Tabelle 4: Ergebnisse «missing data Single cateogry»
Akkordzwang
nein ja
Schicht & Nachtarbeit nein ja
Kat. score
Ladung Varianzanteil
-0.0494 0.1136
0.075
0.006
0.0395 - .1310
0.072
0.005
0.388
0.151
0.708
0.501
Veränderung Arbeitsbedingung besser -0.687 gleich -0.250 schlechter 0.666 MV (4) 0.248 Einschlafstörungen selten -0.538 häufig 0.134 fast immer 1.469 Durchschlafstörungen selten -0.638 häufig -0.058 fast immer 1.489 Aufwachstörungen selten -0.511 häufig 0.195 fast immer 1.548
0.792
0.628
0.729
0.532
liegt mit einer Größe von 0.248 zwischen den Kategorien 2 und 3. Dies bedeutet auch, daß die ursprünglich als neutral konzipierte Kategorie 2 (gleichbleibende Arbeitsbedingungen) sich den Rang mit dem MV «teilen» muß. Der MV repräsentiert in der Gesamtpopulation also ein Gemisch aus allen möglichen Einschätzungen der Gesamtlage und hängt offenbar nicht systematisch von der Gesamtbelastung der Personen ab.
Optimale Skalierung «missing data multiple category» N=406 Im vorhergehenden Abschnitt wurde gezeigt, daß die Variable «Zwang zu Akkord» keinen wesentlichen Beitrag zu einer optimalen Skalierung liefert. Darüber hinaus soll geprüft werden, ob diese Belastungsgröße einen Effekt auf den MV bei der Variable «Veränderung von Arbeitsbedingungen» ausübt. Die Variable «Zwang zu Akkord» liefert das Kriterium für die multiple Codierung des MV. Die neue Indikatormatrix dieser Einschätzungsvariable enthält nun fünf Spalten. Spalte 4 enthält eine 1 genau dann, wenn für die Einschätzungsvariable ein MV vorliegt und gleichzeitig die Beobachtung keinem Akkord-
zwang unterliegt. Die fünfte Spalte enthält eine 1 genau dann, wenn ein MV auf der Einschätzungsvariable vorliegt und gleichzeitig die Beobachtung durch Akkordzwang ausgezeichnet ist. Die so gebildeten Spalten der Indikatormatrix für die Einschätzungsvariable sind daher zeilenweise von einer anderen Variable des selben Konstrukts abhängig. Die Schätzung der Scores ist mit alternating least squares trotzdem problemlos möglich. Die subjektive Einschätzung der Veränderung von Arbeitsbedingungen zeigt keinen Zusammenhang mit der objektiven Bedingung «Zwang zu Akkord». N (ohne Akkordzwang) = 283 davon MV (Einschätzung von Arbeitsbedingungen) = 42 N (mit Akkordzwang) = 123 davon MV (Einschätzung von Arbeitsbedingungen) = 18 Das Verhältnis der Häufigkeit eines MV für die Einschätzungsvariable ist mit der Stichprobengröße für die bedingungssetzende objektive Variable durchaus vergleichbar. Die optimale Skalierung zeigt aber sehr wohl einen deutlichen Effekt dieser Belastungsgröße auf die Bedeutung und Stellung des MV hinsichtlich der anderen Kategorien der Einschätzungsvariable. Tabelle 5: Ergebnisse «missing data multiple category»
Akkordzwang
nein ja
Schicht & Nachtarbeit nein ja
Kat. score
Ladung Varianzanteil
-0.120 0.277
0.183
0.033
0.037 - .122
0.067
0.183
0.445
0.198
0.685
0.469
0.783
0.613
0.724
0.524
Veränderung Arbeitsbedingung besser -0.654 gleich -0.245 schlechter 0.650 MV (Akkord nein) -0.157 MV (Akkkord ja) 1.177 Einschlafstörungen -0.534 selten häufig 0.163 fast immer 1.397 Durchschlafstörungen selten -0.645 häufig -0.033 fast immer 1.460 Aufwachstörungen selten -0.505 häufig 0.189 fast immer 1.539
138 Man sieht, daß die relative Bedeutung der Indikatoren für den zu messenden Belastungsbereich durch die Erweiterung der Indikatormatrix für die Variable «Einschätzung von Arbeitsbedingungen» nicht verändert wird. Der MV mit dem Code 4 (Verweigerung ohne Zwang zu Akkord) befindet sich im Zentrum der Kategorien. Liegt also keine Belastung (z.B. Akkordzwang) vor, so setzt sich der entsprechende MV für die Einschätzungsvariable aus Beobachtungen aller anderen Kategorien zusammen (vgl. das vorangegangene Beispiel). Unter der Bedingung «Akkordzwang» rangiert der optimierte Kategorienscore des MV aber an jenem Ende der Kategorien, welches hohe Belastung indiziert. Die Variable «Akkordzwang» liefert zwar keinen wesentlichen Beitrag zur Diskrimination der Beobachtungen, übt jedoch einen deutlichen Effekt auf das Antwortverhalten (AntwortVerweigerung) bezüglich der zur Debatte stehenden Einschätzungsvariable. Beide Beispiele zeichnen sich dadurch aus, daß 1. nur eine Variable überhaupt M V's enthält und 2. die Zahl der MV's im Verhältnis zur Größe der Stichprobe relativ gering ist. Man kann sich in diesem Zusammenhang die Frage stellen, welche Auswirkung die Häufigkeit eines fehlenden Wertes auf die Schätzung sowohl der Kategorienscores als auch der Beobachtungsscores hat. Dabei läßt sich zeigen, daß vorallem disproportionale mehrdimensionale Verteilungen und damit die Abhängigkeit einer Kategorienverteilung von der Verteilung anderer Kategorien einen großen Einfluß auf die Relation von Kategorienscores ausüben. Unter bestimmten Bedingungen können ordinal konzipierte Likert-Skalen zu einer Dichotomie «degenerieren». Die relevanten Kategorien erhalten ununterscheidbare ähnliche Scores, welche sich wieder deutlich vom MV-Score unterscheiden. Dies ist z.B. immer dann der Fall, wenn Kategorien (hier MV) «gebündelt» auftreten und diese Bündelung systematisch von bestimmten Indikatoren einer Komponente abhängt. Zumeist handelt es sich dabei um Artefakte unterschiedlichster Genese, wie das systematische Fehlen ganzer Seiten eines Instruments oder der Ausfall von Versuchspersonen in Panelstudien. Eine ausführliche Behandlung dieses Problems würde
Matschinger: Beurteilung fehlender Werte
den Rahmen dieser Arbeit sprengen (vgl. MAT1989).
SCHINGER,
Diskussion Die vorliegende Arbeit verwendet ein spezielles Skalierungsmodell zur Analyse des Effekts eines gemessenen Bereichs auf die Verteilung von fehlenden Werten bei den Indikatoren dieses Bereichs. Das Skalierungsmodell, als hinsichtlich einer Verlustfunktion sparsamste Abbildung der Realität, konstituiert den Gegenstandsbereich, der in ein numerisches Relativ abgebildet werden soll. Ob der angesprochene Gegenstandsbereich als «Dimension», «Faktor», «latente Variable» o.ä. mehr bezeichnet werden kann, muß Gegenstand von Überlegungen sein, die sich an den abzubildenden Inhalten orientieren. Was die angewendete Informationsreduktion im Sinne des Meßmodells tatsächlich bedeutet, ist auf der rein formalen Ebene der Skalierung nicht zu entscheiden. Dabei ist zu berücksichtigen, daß das angewendete Skalierungsmodell nicht notwendigerweise auch ein Erklärungsmodell ist. Die Annahme, daß eine nicht direkt beobachtbare (latente) Zu falls variable die Kovariation der manifesten Variablen erklärt, stellt keine grundsätzliche Bedingung dar. In dem vorgestellten empirischen Beispiel ist dies vielmehr mit Sicherheit nicht der Fall. Eine latente Variable «Belastung», bzw. «Belastungsausmaß» im Sinne einer nicht direkt beobachtbaren Eigenschaft, ist gerade dann theoretisch nicht begründbar, wenn die manifesten Variablen sowohl objektive Belastungsgrößen, wie auch subjektive Einschätzungen darstellen. In einem derartigen Fall sollte man von einem «Belastungsbereich» sprechen, der z.B. durch eine additive Linearkombination von direkt beobachtbaren Belastungsgrößen darstellbar ist. Eine optimale Skalierung mit Hilfe einer nichtlinearen Hauptkomponenten-Analyse liefert die entsprechenden Scores mit Rücksicht auf eine zu minimierende Verlustfunktion. Ohne weitere Annahmen über die Skalenqualität der beteiligten Variablen lassen sich optimale Scores für die MV's einer beobachtbaren Variable ermitteln. Der Vergleich dieses Wertes mit den optimierten Scores für die restlichen Kategorien einer Variable unter der Bedingung einer mi-
139
Zeitschrift für Sozialpsychologie 1989, 130-140
nimierten Verlustfunktion gibt dann Aufschluß über die relative «Lage» eines MV in bezug auf die Gesamtskalierung der entsprechenden manifesten Variable. Unter diesem Gesichtspunkt ließen sich zwei unterschiedliche Abhängigkeiten empirisch zeigen: 1. Ein optimierter Kategorienscore für den MV ist in seiner Größe nur unter bestimmten Bedingungen relational zu den anderen Kategorienscores interpretierbar. 2. Diese Bedingungen sind zwar inhaltlich dem gleichen Bereich zuzuordnen, doch können sie - wie das gewählte Beispiel zeigt - für die Minimierung der Verlustfunktion ohne Bedeutung sein. In dem gewählten Beispiel beeinflußt die Belastungsgröße «Zwang zu Akkordarbeit» zwar die Reaktion der befragten Arbeiter auf die Frage nach der Veränderung von Arbeitsbedingungen, doch beeinflußt diese Belastungsgröße keineswegs die optimale Skalierung unter Berücksichtigung des gesamten Belastungsbereichs. Damit ist aber auch gezeigt, daß die Sparsamkeitskriterien, denen das gewählte Skalierungsmodell genügt, nicht unter allen Bedingungen optimal sind. Anders ausgedrückt: Optimierte Kategorienscores und damit auch eine «optimierte Bedeutung» von Kategorien der beteiligten manifesten Variablen sind unter verschiedenen Bedingungen nicht unmittelbar zu vergleichen. Die nichtlineare Hauptkomponentenanalyse stellt ein Instrument dar, mit dem u.a. die Verteilung von fehlenden Werten in Abhängigkeit vom zu messenden Gegenstandsbereich untersucht werden kann. Dadurch können Artefakte in der Antwortstruktur aufgedeckt werden, die allein durch die spezifischen Stimuli der verwendeten manifesten Variablen unter bestimmten Bedingungen erzeugt werden. Einer dieser Artefakte ist dabei die systematische Verteilung von fehlenden Werten.
BURT, C. 1950. T h e factorial analysis of qualitative data. British Journal of Statistical Psychology, 3, 166-185. BURT, C. 1951. Test construction and the scaling of items. British Journal of Statistical Psychologie, 4, 95-129. DE LEEUW, J. 1984. Canonical analysis of categorical data. Leiden: DSWO-Press Leiden 2nd edition. DE LEEUW, J. 1985. Review of four books on causal analysis. P s y c h o m e t r i k a , 50, 371-375.
DE LEEUW, J. 1986. Multivariate analysis with optimal scaling. Research Report. Leiden: Dept. of Data Theory. ECKART, C . & YOUNG, G . 1 9 3 6 . T h e a p p r o x i m a t i o n o f o n e
matrix by another of lower rank. Psychometrika, 1, 211-218. FISHER, R. A. 1940. T h e precision of discriminant function. Annual Eugenics, 10, 422-429. G i n , A. 1981. Nonlinear multivariate analysis. Research Report, Leiden: Dept. of Data Theory. GITTINS, R. 1985. Canonical analysis. A review with applications in ecology. Berlin: Springer. GREENACRE, M . J . 1984. Theory and applications of correspondence analysis. London: Academic Press. GUTTMAN, L. 1941. T h e quantification of a class of attributes: A theory and method of scale construction. In: HORST, P. et al. (Eds.) T h e prediction of personal adjustment. New York: Social science research council, 310-348. HEISER, W.J. 1981. Unfolding analysis of proximity data. Leiden: Doctoral dissertation. University of Leiden. HILL, M . O . 1973. Reciprocal averaging: A n eigenvector method of ordination. Journal of Ecology, 61, 237-249. HILL, M . O . 1974. Correspondence analysis: A neglected multivariate method. Applied Statistics, 23, 340-354. KIM, J. & CURRY, J. 1978. T h e treatment of missing data in multivariate analysis. In: ALWIN, D. F. (Ed.) Survey design and analysis. 91-116, Beverly Hills: Sage Publications. KOHLMANN, T. 1988. Nicht-lineare Hauptkomponentenanalyse. Zeitschrift für Soziologie, 17, 474-482. LEBART, L . , MORINEAU, A . , WARWICK, K . M . 1 9 8 4 . M u l t i -
variate descriptive statistical analysis; Correspondence analysis and related techniques for large matrices. New York: Wiley. MATSCHINGER, H. 1989. Zur Degenerierung von LikertSkalen bei Antwortverweigerung, (in Vorbereitung) MEULMAN, J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO-Press. MEULMAN, J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO-Press. NISHISATO, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University Press of Toronto. ORCHARD, T. & WOODBURRY, M . A . 1972. A m i s s i n g i n f o r m a -
tion principle: Theory and application. In: Proc. of 6th Berkeley Symposium of Mathematical and Statistical Psychology. Berkeley: University of California Press, 1, 697-715.
PEARSON, K. 1901. O n lines and planes of closest fit to systems of points in space. Philosophical Magazine Vol. 2, 11, 559-572. SIEGRIST, J., MATSCHINGER, H . , WEBER, I., SIEGRIST, K . , DITTMANN, K . , BROCKMEIER, R . , KLEIN, D . 1 9 8 4 , 1987. D e r
Literatur BENZÉCRI, J. P. et al. (Ed.) 1973. Analyse de données. Vol. 2, L'analyse des correspondences. Paris: Gunod. BEALE, E. M. & LITTLE, R. J. 1975. Missing values in multivariate analysis. Journal of the Royal Statistical Association Ser. B, 3 7 ,
129-145.
Einfluß sozialer Belastungen und ihrer Verarbeitung auf die Entwicklung kardiovaskulärer Risiken - eine Längsschnittstudie an berufstätigen Männern. Arbeitsbericht und Endbericht zum DFG-Projekt Si 236/2-5; Marburg. VAN DE GEER, J. P. 1986. Introduction to linear multivariate analysis. Vol. 1 & 2. Leiden: DSWO-Press. VAN DER HEIJDEN, P. G. M. 1987. Correspondence analysis of longitudinal categorical data. Leiden: DSWO-Press.
140
Matschinger: Beurteilung fehlender Werte
VAN DER HEUDEN, P. G . M . & D E LEEUW, J. 1985. C o r r e s p o n -
dence analysis used complementary to log-linear analysis. P s y c h o m e t r i k a , 50, 4 2 9 - 4 4 7 .
VAN RIJCKEVORSEL, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO-Press. YOUNG, F. W. 1981. Quantitative analysis of qualitative data.
Ich bedanke mich herzlich bei Thomas KOHLMANN, ohne dessen Hinweise diese Arbeit kaum möglich gewesen wäre. Weiters gilt mein Dank den Herausgebern und einem anonymen Gutachter für wertvolle Hinweise zu einer früheren Fassung dieser Arbeit.
B
P s y c h o m e t r i k a , 46, 357-388.
Sowohl die Research Reports des Dept. of Data Theory Leiden wie auch die Publikationen der DSWO-Press sind erhältlich bei: Dept. of Data Theory Faculty of Social Sciences Middelstegracht 4 NL-2312 TW Leiden
nonverbale Kommunikation durch Bilder hrsg. von Dr. Martin Schuster und Dipl.-Psych. Bernard E Woschek 230 Seiten, D M 3 8 , - • ISBN 3-87844-010-3
I
n vielen Praxisbereichen muß eine Informationsübertragung durch Bilder erfolgen, etwa in der Werbung, in didaktischem Material, in Printmedien etc. Dabei ist die Informationsaufnahme des Empfangers durch die bisherige Psychologie der visuellen Wahrnehmung nicht erschöpfend beschrieben. Während die verbal-begriffliche Kommunikation als stärker »sendergesteuert" aufgefaßt weiden kann, ist die bildhafte Kommunikation stärker „empfängergesteuert" Dieser Sachverhalt wird aus dem Blickwinkel verschiedener Schulen der Psychologie (z. E kognitive Psychologie, Psychoanalyse) und für verschiedene Inhaltsbereiche (z. B. Instruktionen, Kinderzeichnungen, Graffiti) von den Autoren dieses Bandes untersucht. Das Thema: Nonverbale Kommunikation durch Bilder konstituiert sich hier im Fach Psychologie originär. Die Ergebnisse der. Kunstwissenschaft zu diesem Thema fließen in die Beiträge zu diesem Band ein, weil viele der Autoren nicht nur international anerkannte Psychologen, sondern ebenfalls renommierte Kunstwissenschaftler sind.
Verlag für Angewandte Psychologie • Stuttgart
•
Zeitschrift für Sozialpsychologie 1989, 141-156
141
Empirie Zur Frage der Trivialität von Forschungsergebnissen FRIEDERIKE HOLZ-EBELING Fachbereich Psychologie, Universität Marburg Der Einwand, ein Ergebnis sei trivial, weil man Entsprechendes schon immer gewußt habe, ist eine wohlvertraute kritische Reaktion auf Forschungsbefunde. Es werden zwei verschiedene Wege aufgezeigt, diesem Vorwurf zu begegnen. Der theoretische Weg stellt die aus der behaupteten guten Prognostizierbarkeit gezogene Schlußfolgerung, daß das Ergebnis trivial sei, in Frage. Demgegenüber zieht der empirische Weg bereits die behauptete gute Prognostizierbarkeit selber in Zweifel. In einer eigenen Untersuchung zur Prognostizierbarkeit von elf bekannten sozialpsychologischen Forschungsergebnissen durch 143 Schüler (13 bis 17 Jahre) finden sich von einer Ausnahme abgesehen maximal ca. 50% richtige Prognosen. In einigen Fällen widersprechen die Ergebnisse deutlich den Erwartungen. Darüber hinaus zeigen Analysen der den Prognosen zugrundeliegenden Alltagstheorien, daß selbst bei vorhandener Übereinstimmung hinsichtlich des zu erwartenden Verhaltens keinesfalls Übereinstimmung hinsichtlich der das Verhalten vermittelnden Prozesse gegeben ist. Vergleiche der Prognosen der Schüler mit denen in einer studentischen Stichprobe (N = 85) demonstrieren zudem eine deutliche Stichprobenabhängigkeit der Befunde zum tatsächlichen Ausmaß an Prognostizierbarkeit.
The objection that a result is trivial because everyone knew it already is a common critical response to research findings. There are two possibilities to deal with this argument. On the one hand, the theoretical approach questions the conclusion critics draw from the supposedly high predictability, namely that the result can be neglected. On the other hand, the empirical approach challenges the very idea of this supposed predictability. This study measures how well 143 pupils (aged between 13 and 17) were able to predict eleven well known social psychological findings. With one exception correct prognoses are never higher than approximately 50%. In several cases the results clearly contradict the expectations. Furthermore, analyses of the subjective theories on which the predictions are based show that even in the case of agreement on the behavior to be expected there is no agreement on the processes which elicit this behavior. Comparisons of the predictions made by pupils with those made by a student sample (N=85) also demonstrate that the results concerning the actual degree of predictability vary from sample to sample.
Wenn empirisch arbeitende Psychologen versuchen, im Rahmen von Vorträgen, Diskussionsrunden oder Publikationen ihre Ergebnisse an Laien oder Vertreter anderer Berufsgruppen und Fachrichtungen, wie Lehrer, Mediziner und Juristen, weiterzuvermitteln (s. zum Beispiel SPORER, MEURER & RENNIG, 1 9 8 9 ) , begegnen sie häufig einer Reihe kritischer Einwände. Zu diesen Einwänden gehört der besonders problematische Vorwurf, ein Ergebnis sei trivial (s. CARLSMITH,
Weg gibt, diesem Vorwurf zu begegnen. Dabei geht es uns um jene Form der «Trivialität», die sich herleitet aus der angeblichen oder tatsächlichen guten Prognostizierbarkeit von Ergebnissen. Trivialität, die man etwa auch ableiten könnte aus einer irrelevanten Fragestellung und/oder praktisch nicht verwendbaren Ergebnissen, ist hier nicht von Interesse. Nachdem die durch den Vorwurf entstehende kommunikative Situation erläutert wurde, wird im Anschluß an Hand eigener Daten zur Prognostizierbarkeit von Forschungsergebnissen speziell der empirische Weg, dem Vorwurf zu begegnen, veranschaulicht.
EULSWORTH & ARONSON, 1976; FIETKAU, 1981;
im Druck). Wir wollen im folgenden das Problem der angeblichen Trivialität von Forschungsergebnissen analysieren, indem wir die durch den Vorwurf entstehende kommunikative Situation näher betrachten. Es soll deutlich gemacht werden, daß es einen theoretischen und einen empirischen HOLZ-EBELING,
142 1. Die kommunikative Situation beim Vorwurf, ein Ergebnis sei trivial
Die Behauptung, ein Ergebnis sei trivial, weil man Entsprechendes schon immer gewußt habe, ist eine wohlvertraute kritische Reaktion. Sie gehört zu jener Art von Einwänden bei der Rezeption von Befunden, die schnell verfügbar und immer wieder zu hören sind, da sie nicht in konkreten Aspekten einer Untersuchung verankert werden müssen. Aufgrund ihres eher plakativen statt argumentativen Charakters bringen sie denjenigen, der das Ergebnis weiterzuvermitteln suchte, in eine mißliche Lage, aus der er sich nur schwer wieder befreien kann. Fühlt er sich doch vermutlich eher darauf vorbereitet, «systemimmanent» über die Qualität von Forschung zu diskutieren, zum Beispiel über Fragen der Operationalisierung von Variablen, des Versuchsplans oder der Interpretation bzw. Interpretierbarkeit von Daten. Nun wird er nicht nur zum Verlassen des eigenen «Denksystems» gezwungen, sondern gleichzeitig dazu, sich mit extrem allgemeinen Bewertungskriterien auseinanderzusetzen. Erschwerend kommt hinzu, daß der Vorwurf der Trivialität sprachlich so formuliert ist, daß man dem dahinterliegenden Bewertungskriterium eigentlich nur zustimmen kann. Wenn ein Ergebnis, das gut prognostizierbar ist, als «trivial» bezeichnet wird, resultiert aus den wachgerufenen Konnotationen relativ automatisch, daß dieses Ergebnis die Mühen der Forschung nicht gelohnt hat. Geht man allerdings sokratisch vor und formuliert anders herum, daß nur solche Ergebnisse die Mühen der Forschung lohnen, die völlig Überraschendes und Unplausibles oder zumindest eher schwer Prognostizierbares zutage fördern, so wird vielleicht selbst derjenige, der eben noch von Trivialität sprach, hellhörig; und sei es nur deshalb, weil eine solche Forderung den Auftrag impliziert, unserem intuitiven alltagspsychologischen Denken möglichst ständig grobe Irrtümer nachzuweisen. Abgesehen davon, daß man den Einwand selber für berechtigt hält oder ihn nur deshalb ablehnt, weil es sich um Kritik handelt, können als innere Reaktion auf den Vorwurf der Trivialität zwei Formen des Unbehagens auftreten. Man fragt sich entweder, ob dieser Vorwurf im konkreten Fall tatsächlich berechtigt ist oder ob er prinzipiell überhaupt berechtigt sein kann. Wäh-
Holz-Ebeling: Trivialität von Forschungsergebnissen
rend man im ersten Fall nach der tatsächlichen Prognostizierbarkeit des Ergebnisses fragt, fragt man im zweiten Fall nach der grundsätzlichen Schlüssigkeit der Folgerung, daß ein gut prognostizierbares Ergebnis ein banales und mithin vernachlässigbares Ergebnis ist. Entsprechend den beiden Formen des Unbehagens gibt es auch zwei Ebenen der äußeren Reaktion, die nicht vermischt werden sollten. Im ersten Fall stellt man sich auf die argumentative Ebene des Kritikers ein, reagiert also in seinem Sinne «systemimmanent», während man im zweiten Fall das Gegenüber dazu zu bewegen versucht, seinerseits sein «Denksystem» zu verlassen, d.h. sich neue Gedankengänge zu eigen zu machen. Die Frage, ob der Vorwurf hinsichtlich des gerade diskutierten Ergebnisses berechtigt ist, ist empirischer Natur und läßt sich nur bei Vorliegen entsprechender Daten beantworten. Die Frage, ob der Einwand der Trivialität prinzipiell überhaupt berechtigt sein kann, ist eine theoretische Frage, die sich auf jeden Fall beantworten läßt und keiner speziellen empirischen Befunde bedarf. Einige wenige Überlegungen dürften genügen, um zu erkennen, daß die Haltung, die den Wert von Ergebnissen ganz oder auch nur teilweise von ihrem Neuigkeitswert her bestimmen möchte, unhaltbar ist: a) Niemand wird in seinem «Demokratieverständnis» so weit gehen anzunehmen, daß immer dann, wenn sich viele Personen in ihrem Urteil einig sind, jeder Irrtum ausgeschlossen ist. Da wir aber nicht wissen können, wann sich eine im Alltagswissen repräsentierte angebliche Selbstverständlichkeit als berechtigte Annahme, wann aber als Irrtum erweist - oder anders herum ausgedrückt: welche aller potentiell denkbaren Untersuchungen zu Ergebnissen führen werden, die dem alltagspsychologischen Vorverständnis der meisten Menschen entsprechen - , bleibt gar keine andere Wahl, als die Ergebnisse selbst hierüber befinden zu lassen. Insofern ist auch jedes Ergebnis ein Erkenntnisgewinn. b) Der Fortgang psychologischer Forschung besteht häufig darin, daß, ausgehend von relativ allgemein gehaltenen Behauptungen über Ursache-Wirkungs-Beziehungen, immer mehr Spezifikationen notwendig werden. Die Komplexität im Bedingungsgefüge menschlichen Handelns, die im Forschungsprozeß leidvolle Erfahrungen
143
Zeitschrift für Sozialpsychologie 1989, 141-156
vermittelt, vom menschlichen Selbstverständnis aber eher mit Befriedigung aufgenommen werden sollte (wer funktioniert schon gerne simpel?), hat unmittelbare Implikationen für das Trivialitäts-Urteil. Die Einigkeit sehr vieler Personen über ein zu erwartendes Verhalten kann geradezu als Indiz für ein alltagspsychologisches Stereotyp angesehen werden, das - sofern die Prognosen im Sinne des Ergebnisses ausfallen den tatsächlichen Gültigkeitsbereich des Ergebnisses erheblich überschätzt. Dies wird normalerweise nicht bemerkt, da man Vorhersagen, sofern überhaupt, nur für die Bedingungen treffen läßt, unter denen ein Ergebnis nachweisbar, und nicht für die Bedingungen, unter denen es nicht nachweisbar war. Der durch empirische Forschung vermittelte Erkenntnisgewinn liegt hier weniger im Ergebnis als solchem als in der (unerwarteten) Spezifikation von Auftretensbedingungen - seien diese unter theoretischen Gesichtspunkten relevant oder nicht - und damit in der Korrektur von unzulässigen Vereinfachungen.
dazu wäre die Präsentation von empirischen Befunden zur tatsächlichen (überschätzten) Prognostizierbarkeit sicher unter kommunikativen Gesichtspunkten der elegantere und zugleich bequemere Weg, um einen einmal aufgekommenen Trivialitäts-Einwand wieder aus der Welt zu schaffen. Er hätte zugleich den Vorteil, nicht auf einer Ebene nur theoretischer Argumentation stehen bleiben zu müssen. Korrekterweise hätte die Behauptung, ein Ergebnis sei trivial, lauten müssen, das Ergebnis
c) Wenn jemand eine richtige Prognose trifft, heißt dies nicht unbedingt, daß er dies auch auf der Basis einer angemessenen (Alltags-)Theorie tut. Wenn viele Personen dieselbe Prognose treffen, heißt dies im weiteren nicht unbedingt, daß sie dies auch auf der Basis derselben (Alltags-) Theorie tun. Psychologische Forschung begnügt sich gewöhnlich nicht mit der «Produktion» von Ergebnissen, sondern formuliert und überprüft theoretische Überlegungen, die ihr Zustandekommen erklären sollen. Zu den Ergebnissen hinsichtlich eines Effekts treten Ergebnisse zu den vermittelnden Mechanismen, die ihn bedingen. Es scheint extrem unwahrscheinlich, daß alle gut prognostizierbaren Ergebnisse durch Prozesse Zustandekommen, die ebenfalls gut «prognostizierbar» sind. Die Kenntnis möglicher Prozesse scheint auf Dauer aber bedeutsamer als die Kenntnis von «Effekten».
SPORER,
Es gibt also gute Gründe zu behaupten, daß es triviale Ergebnisse, abgeleitet aus guter Prognostizierbarkeit, nicht geben kann. Diese Gründe sich zu vergegenwärtigen und darzulegen, ist der Weg, der vom Grundsätzlichen her am meisten zufriedenstellen dürfte. Eine andere Frage ist allerdings, ob sich diese Gründe auch leicht und überzeugend vermitteln lassen. Im Vergleich
wäre gut vorhersagbar gewesen, wenn man es nicht bereits gekannt hätte. Die Frage, wie berechtigt diese nachträgliche Behauptung ist, läßt sich in bezug auf die Person, die sie aufgestellt hat, gar nicht mehr beantworten. Sie läßt sich meistens aber auch nicht auf der eigentlich interessierenden allgemeineren Ebene beantworten, da man nur in Ausnahmefällen auf empirische Befunde zurückgreifen kann, die etwas über die Vorhersagbarkeit der vermittelten Ergebnisse in größeren Gruppen aussagen (s. zum Beispiel MILGRAM, 1 9 6 5 ; BANUAZIZI & MOVAHEDI, 1 9 7 5 ;
1983; KRONER, 1986; speziell zur Vorhersagbarkeit von Befunden durch Kinder: MISCHEL & MISCHEL, 1979a, 1979b; s. auch M I SCHEL, 1981; MISCHEL & MISCHEL, 1987)'. Wie allgemein bekannt, verfügen wir in unserem alltagspsychologischen Wissensschatz über vielfältige griffige Sentenzen, die oft - weil und solange sie keine Spezifikationen mitliefern miteinander konkurrieren (etwa: viele Köche verderben den Brei - viele Hände machen schnell ein Ende; durch Fragen wird man klug - wer viel fragt, geht viel irre; Undank ist der Welt Lohn - Wohltun trägt Zinsen; aus den Augen, aus dem Sinn - mit der Entfernung wächst die Liebe usw.). Dies läßt bereits vermuten, daß der soziale Konsensus bei Verhaltensprognosen oft gar nicht sehr ausgeprägt ist. Jedenfalls erscheint es unwahrscheinlich, daß die in unserem Alltagsdenken vorhandenen konkurrierenden Denkmöglichkeiten und «Widersprüche» von sehr vielen Personen jeweils durch dieselbe Spezifikation
1 Hier werden solche Untersuchungen nicht genannt, bei denen sich die Prognosen auf das Verhalten in einzelnen Versuchsbedingungen beziehen und sich die Vorhersagbarkeit des eigentlichen Ergebnismusters erst aus einem nachträglichen Vergleich von Einzelprognosen (meist von unterschiedlichen Personen stammend) ergibt.
144
Holz-Ebeling: Trivialität von Forschungsergebnissen
von Gültigkeitsbereichen «aufgelöst» werden. Dieser Gedanke kann der Diskussion im übrigen eine überraschende Wendung geben: Zu behaupten, Forschungsergebnisse seien trivial, heißt zwar, dem Alltagsdenken eine hohe Treffgenauigkeit zuzusprechen, es heißt aber zugleich, seine Komplexität vermutlich erheblich zu unterschätzen. Obwohl die Forschung uns meistens im Stich läßt, wenn es nachzuweisen gilt, daß die behauptete gute Prognostizierbarkeit gar nicht vorliegt, gibt sie dennoch Argumentationshilfen an die Hand. Untersuchungen zum «hindsight»-Effekt - unter Bezug auf Forschungsergebnisse auch: «knew-it-all-along»-Effekt - haben wiederholt gezeigt, daß wir dazu neigen, bereits eingetretenen Ereignissen, zu denen auch Ergebnisse psychologischer Untersuchungen zählen, nachträglich eine größere Auftretenswahrscheinlichkeit zuzuschreiben, als wir ihnen zusprechen, wenn wir sie wirklich vor/ier-zu-sagen haben (FISCHHOFF, 1 9 7 5 ; FISCHHOFF & B E Y T H , 1 9 7 5 ; SLOVIC & FISCHHOFF,
1977;
JANOFF-BULMAN,
UMKO
&
zur Erklärung des Effekts s. auch Ross, L E P P E R , STRACK & STEINMETZ, 1 9 7 7 ) . Es ist von daher nicht unwahrscheinlich, daß auch im gegebenen Fall eine Überschätzung der eigenen prognostischen Fähigkeit vorliegt. Des weiteren zeigen Ergebnisse zum sog. falschen Konsensus bzw. zur egozentrischen Attribution, daß wir eine Tendenz haben, vom eigenen Verhalten in einer bestimmten Situation auf das Verhalten der meisten anderen in dieser Situation zu schließen ( H A N S E N & D O N O G H U E , 1 9 7 7 ; Ross, G R E E N E & H O U S E , 1 9 7 7 ) . Dies legt den Gedanken nahe, daß auch im gegebenen Fall der Eindruck, andere würden ebenfalls für selbstverständlich halten, was man selber für selbstverständlich hält, täuscht. CARLI, 1 9 8 5 ;
Man kann entsprechend in der Diskussion dazu übergehen, die Ergebnisse zum «hindsight»-Effekt und zum falschen Konsensus darzulegen, um zumindest auf die Gefahr einer solchen Überschätzung im zweifachen Sinne hinzuweisen. Allerdings könnte es dann passieren, daß diese Ergebnisse ihrerseits wiederum als trivial erscheinen. Der «Argumentationsgegner» hätte sich damit selbst in einer Schlinge gefangen und müßte sich fragen lassen, warum er diese Kenntnis nicht auf sich selber angewandt und weder das ursprünglich zur Debatte stehende Ergebnis
noch «hindsight»-Effekt und falschen Konsensus für trivial erklärt hätte. Im übrigen wäre es vielleicht das beste gewesen, die unliebsame Situation von vornherein ganz zu vermeiden, indem man die Ergebnisse direkt vor ihrer Präsentation von den Zuhörern hätte prognostizieren lassen. Erfahrungen aus Seminaren oder Vorträgen lehren, daß ein solcher «Schachzug aus didaktischen Gründen» meistens zu anregenden kontroversen Diskussionen mit hoher Ich-Beteiligung führt. Die später dargestellten Ergebnisse selbst erscheinen dann aufgrund der gewöhnlich nicht einheitlichen Prognosen, aufgrund der (öffentlichen) Festlegung des einzelnen auf ein eigenes Urteil sowie vor allem aufgrund der Generierung von in unterschiedliche Richtungen weisenden plausiblen theoretischen Überlegungen aufschlußreicher, als dies ohne vorangegangene Diskussion der Fall gewesen wäre. Im folgenden soll der Frage nach der tatsächlichen Vorhersagbarkeit einer Reihe von Forschungsergebnissen nachgegangen und damit die Rezeption von Forschung selbst zum Forschungsgegenstand gemacht werden. Im einzelnen werden folgende Fragestellungen verfolgt: 1. Wie gut können eine Reihe gut fundierter sozialpsychologischer Forschungsbefunde durch Laien (hier Schüler im Alter zwischen 13 und 17 Jahren) vorhergesagt werden? 2. Besitzen einzelne alltagspsychologische Erkärungen für das Zustandekommen der Befunde einen so hohen Verbreitungsgrad, daß von einer relativ selbstverständlichen Verknüpfung zwischen der jeweiligen Ursache-Wirkungs-Beziehung auf der einen Seite und einem bestimmten vermittelnden Mechanismus auf der anderen Seite ausgegangen werden kann? 3. Handelt es sich bei Erklärungen mit hohem Verbreitungsgrad um Überlegungen, die sinngemäß bestimmten wissenschaftlichen Erklärungen entsprechen? 4. Ist der Grad an Prognostizierbarkeit der ausgewählten Forschungsbefunde stichprobenunabhängig?
2. Zur Darbietung von Untersuchungssituationen Vorab ist zu klären, auf welche Weise die für die Prognosen notwendige Informationsgrundlage aufzubereiten und den Probanden darzustellen
Zeitschrift für Sozialpsychologie 1989, 141-156
ist. Bei der Informationsaufbereitung ist es am naheliegendsten, sich an einer bestimmten konkret stattgefundenen Untersuchung oder einer ohne Berücksichtigung näherer Umstände als «typisch» erachteten, fiktiven Untersuchung zu orientieren. Hiergegen spricht jedoch die Gefahr einer unzulässigen Vereinfachung der Befundlage hinsichtlich der tatsächlich für die Replizierbarkeit eines Befunds notwendigen Randbedingungen. Anstelle des genannten Vorgehens scheint es vielmehr unerläßlich, auf der Basis einer Analyse vorliegender Untersuchungen, eine «repräsentative» Untersuchungssituation zu erstellen. Es muß also versucht werden, alle bisher bekannten notwendigen Bedingungen herauszuarbeiten. Im weiteren ist von entscheidender Bedeutung, die Art der vom Probanden verlangten Prognose an die Art, wie das zu prognostizierende Ergebnis gewonnen wurde, anzupassen. So dürften bei experimentell gewonnenen Ergebnissen entsprechend der üblichen Mittelwertsvergleiche lediglich vergleichende Prognosen bezüglich der Wirkungsrichtung von Bedingungen verlangt werden. Unangemessen wäre es, von den Probanden Absolutschätzungen der gemessenen Variablen zu erfragen, zum Beispiel in einer Untersuchung zum Hilfeverhalten den prozentualen Anteil an hilfeleistenden Personen oder den Mittelwert an Hilfsbereitschaft nach Angaben auf einer Ratingskala. Die genaue Art des Vergleichs muß wiederum mit den verwendeten Versuchsplänen korrespondieren (Plan mit unabhängigen Gruppen versus Plan mit Meßwiederholungen), da der Versuchsplan selbst möglicherweise eine entscheidende Randbedingung für die Gültigkeit eines Befunds darstellt (s. FISCHHOFF, SLOVIC &
145
ethische Bedenken und Fragen nach dem Datenschutz (zum Beispiel danach, ob die Anonymität wirklich gesichert war). Dieses Problem tritt massiert auf, wenn einem Probanden mehrere Untersuchungssituationen vorgelegt werden. Es wurde deshalb entschieden, anstelle der Untersuchungssituation selbst ihr Alltagsäquivalent («lebensweltliches Abbild») zu präsentieren, das allen im Sinne der «repräsentativen» Untersuchungssituation erstellten Bedingungen genügt. Dieses Vorgehen verhindert die genannten störenden Kognitionen, ohne wirklich einen Nachteil in der Genauigkeit der Darbietung von Informationen zu besitzen. Da - wie oben dargelegt die Schilderung einer konkreten Untersuchungssituation immer eine Scheingenauigkeit bedeuten würde und kein Weg um die Erstellung aller notwendigen Bedingungen aufgrund einer Literaturanalyse herumführt, sind beide Ansätze vergleichbar. Die einzige Ausnahme bezieht sich auf das «Wissen, an einer Untersuchung teilzunehmen». Dieses ist als potentielle oder tatsächliche Randbedingung per definitionem nicht in ein Alltagsereignis transformierbar.
3. Methode 3.1 Ausgewählte
Forschungsergebnisse
Auf der Grundlage verschiedener Auswahlkriterien (siehe unten) wurden die folgenden elf aus Lehrbüchern bekannten sozialpsychologischen Befunde ausgesucht (die Literaturangaben in Klammern beziehen sich auf je eine exemplarische Untersuchung sowie eine Literaturquelle mit Übersichtscharakter) 2 :
LICHTENSTEIN, 1 9 7 9 ; BIERHOFF, 1 9 8 1 ) .
Eine letzte wichtige Frage bezieht sich darauf, ob eine Untersuchungssituation wirklich als Untersuchungssituation dargestellt werden sollte. Eigene informelle Vorstudien mit Erstfassungen des hier verwendeten Untersuchungsmaterials haben die dadurch entstehende Gefahr verdeutlicht, daß störende, alltagspsychologisch irrelevante Kognitionen provoziert werden und hochspezifische Verständnisprobleme auftreten. So werden unter Umständen Reflexionen über den Sinn einer bestimmten Untersuchung angeregt, über spezielle Formen der Durchführung sowie Erhebung von Variablen, möglicherweise auch
I Affiliatives Verhalten im Zustand von Furcht und Ungewißheit: Wenn man sich vor einem kommenden Ereignis fürchtet, neigt man dazu, die Anwesenheit anderer aufzusuc h e n (GERARD & RABBIE, 1961; BIERHOFF, 1984).
II Umgekehrter Katharsiseffekt: Bekommt man in einem Gespräch Gelegenheit, seinem Ärger über jemanden Ausdruck zu geben, so steigert sich der Ärger (EBBESEN, DUNCAN & KONECNI, 1975; GEEN & QUANTY, 1977).
2 Die Beschreibung der Befunde ist zum Teil verkürzt, d.h. bestimmte Faktoren, die (inzwischen) zum Verständnis des Phänomens als solchem gehören und nicht nur den Status von - unter theoretischen Gesichtspunkten nicht näher interessierenden - Randbedingungen haben, werden nicht mitgenannt.
146
Holz-Ebeling: Trivialität von Forschungsergebnissen
III Verantwortungsdiffusion: Wird man Zeuge einer Notsituation, so greift man mit um so geringerer Wahrscheinlichkeit ein, je mehr andere Zeugen anwesend sind oder für anwesend gehalten werden (DARLEY & LATANE, 1968; BIERHOFF, 1980).
IV «Foot-in-the-Door»-Phänomen: Man ist eher bereit, eine Bitte zu erfüllen, wenn man vorher schon einmal um einen geringfügigeren Gefallen gebeten worden ist ( F R E E D M A N & FRÄSER, 1 9 6 6 ; D E J O N G ,
1979).
V «Door-in-the-Face»-Phänomen: Wenn man eine mit sehr viel Aufwand verbundene Bitte abgelehnt hat, ist man eher geneigt, eine geringfügigere Bitte zu erfüllen (MILLER, SELIGMAN, C L A R K & B U S H , 1 9 7 6 ; BIERHOFF,
1980).
VI Hilfeverhalten nach geringfügigem positiven Erlebnis: Wenn man gerade etwas - wenn auch noch so Geringfügiges Angenehmes erlebt hat, ist die Hilfsbereitschaft erhöht (ISEN, C L A R K & SCHWARTZ, 1 9 7 6 ; C I A L D I N I , K E N R I C K & BAUMANN, 1982).
VII Allgemeine Hilfsbereitschaft nach einem Mißgeschick: Wenn man sich versehentlich eines Vergehens schuldig gemacht hat, ist man danach hilfsbereiter, und dies nicht nur der Person gegenüber, die man geschädigt hat (REGAN, 1971; ROSENHAN, SALOVEY, KARYLOWSKI & HARGIS,
1981).
VIII «Effort Justification»: Wenn man sich für ein attraktiv erscheinendes Ziel sehr angestrengt hat, das Ziel selbst sich aber gar nicht als so attraktiv erweist, ist man geneigt, das Erreichte
aufzuwerten
WICKLUND & BREHM,
(GERARD &
MATHEWSON,
1966;
1976).
IX Externalisierung intrinsischer Motive: Beschäftigt man sich in Erwartung einer äußeren Belohnung mit einer Tätigkeit, die auch für sich betrachtet angenehm und interessant wäre, so bedeutet einem die Tätigkeit später nicht mehr so v i e l ( L E P P E R , G R E E N E & NISBETT, 1 9 7 3 ; L E P P E R ,
1981).
X Physische Attraktivität und Leistungsbeurteilung: Wenn man die Leistung einer gut aussehenden Person beurteilen soll, neigt man aufgrund des Aussehens zu einer positiveren B e u r t e i l u n g (BENASSI, 1 9 8 2 ; PATZER,
1985).
XI Vergeblicher Konsensusbefund: Soll man das Verhalten einer Person vorhersagen und verfügt neben Basisrateninformation auch über individuumsspezifische Information, die vorhersage-relevant ist und mit der Basisrateninformation konkurriert, so neigt man dazu, die Basisrateninformation nicht
zu berücksichtigen (KAHNEMAN & TVERSKY, 1973;
FIEDLER,
1980).
3.2 Materialentwicklung Bei der Auswahl der Forschungsergebnisse wurde neben einer guten empirischen Fundierung Wert darauf gelegt, nur experimentell gewonnene Befunde aufzunehmen, die zudem bei Verwendung von Zwischengruppen-Plänen nachgewiesen wurden und sich auf zweiwertige unabhängige Variablen beziehen. Abgesehen davon, daß bei nicht-experimentell oder über Meß-
wiederholungspläne gewonnenen Befunden häufig Probleme bei der Konstruktion äquivalenter Alltagsereignisse entstehen (s. HOLZ-EBELING, im Druck), sollte durch eine solche Auswahl ein standardisierter, möglichst einfacher Materialaufbau gewährleistet werden.
Bei der Beschreibung des Gültigkeitsbereichs der Ergebnisse wurden aufgrund einer Analyse vorliegender Untersuchungen sowohl explizite als auch implizite Bedingungen soweit als möglich herausgearbeitet. Unter expliziten Bedingungen werden Faktoren verstanden, deren Bedeutung für die Replizierbarkeit eines Befunds (Phänomens) empirisch nachgewiesen wurde, während implizite Bedingungen Faktoren darstellen, die bislang weder systematisch noch unsystematisch variiert wurden und deren Bedeutsamkeit für die Gültigkeit deshalb nicht ausgeschlossen werden kann.
Die Konstruktion äquivalenter Alltagsereignisse (in Form schriftlicher Schilderungen von jeweils etwa einer knappen Seite Länge) erfolgte in möglichst enger Orientierung an der typischen Operationalisierung von unabhängiger und abhängiger Variable. Von den bei Zwischengruppen-Plänen bestehenden Möglichkeiten eines realen interindividuellen und eines hypothetischen intraindividuellen Vergleichs (s. H O L Z EBELING, 1989) wurde die letztere gewählt: Jedes Ereignis enthält den einen Zustand der zweiwertigen unabhängigen Variablen als Teil des Geschehens, während der andere Zustand (entspricht in den meisten Fällen dem Fehlen des erstgenannten) erst in der sich anschließenden Prognose-Frage als hypothetisch vorgegeben wird (Prognose-Frage im folgenden auch als «Themenstellung», Ereignis und Themenstellung zusammen auch als «Text» bezeichnet). Die beiden Bedingungen sind hinsichtlich ihrer Auswirkungen auf eine bestimmte zukünftig zu erwartende Verhaltensweise des Protagonisten zu vergleichen. Vorgesehen werden zu diesem Zweck drei Antwortalternativen (Einfluß in positiver Richtung, Einfluß in negativer Richtung, kein Einfluß), wobei die «Kein-Einfluß-Alternative» (kE) sich immer in der Mittelposition befindet, während die Position der »Einfluß-Alternativen» (E + , E-) per Zufall festgelegt wird. Alle expliziten und impliziten Randbedingungen wurden entweder bereits bei der Umsetzung der unabhängigen Variablen oder als sonstige Er-
147
Zeitschrift für Sozialpsychologie 1989, 141-156
eignisbestandteile eingebaut. Darüber hinausgehende Information mußte naturgemäß vermieden werden. Da der Protagonist in der Ereignisschilderung stellvertretend für viele im Experiment untersuchte Versuchspersonen steht, gilt dies in besonderem Maße für alle Informationen «individuierender» Art, d.h. alle Aussagen, die den Protagonisten mit persönlichen Eigenarten, bestimmtem Lebenshintergrund usw. versehen. Alle gegebenen Informationen sollten möglichst noch der Interpretation bedürfen und nicht bereits interpretiert vorliegen. Das Alter des Protagonisten und der jeweils gewählte situative Kontext wurden auf die Zielgruppe der Hauptuntersuchung (ältere Schüler/innen) abgestimmt. Jedes Ereignis liegt in einer männlichen und einer weiblichen Version vor, die - abgesehen vom Geschlecht des Protagonisten und teilweise auch vom Geschlecht von Interaktionspersonen identisch sind. Da nicht davon ausgegangen werden kann, daß die in einen Text hineinformulierten Bedingungen dem Text auch in beabsichtigter Weise entnommen werden, wurden in zwei anschließenden Voruntersuchungen mit Psychologiestudenten der Anfangssemester (ni = 30, n 2 = 28) Realisationskontrollen durchgeführt. Nach teilweise vorgenommenen Veränderungen von Textbestandteilen, deren Perzeption und Interpretation nicht wie erwünscht ausfiel, können die Ereignisschilderungen als zufriedenstellend angesehen werden3 (Texte im einzelnen s. HOLZ-EBELING, im Druck).
3.3 Stichproben und
Durchführung
Hauptuntersuchungsstichprobe: 143 Schüler/ innen im Alter zwischen 13 und 17 Jahren (8. bis 10. Klassenstufe; 72 weiblich, 71 männlich; 114 Gymnasialschüler, 29 Realschüler)4 bearbeiteten innerhalb zweier Schulstunden eine von zwei Fra3 Ein weiterer ursprünglich vorgesehener zwölfter Befund «Forced Compliance» - mußte, da das diesbezügliche Ereignis auch nach zweimaliger Veränderung nicht den formulierten Bedingungen genügte, von weiterer Verwendung ausgeschlossen werden. 4 Enthalten sind alle Gymnasialschüler auf den entsprechenden Klassenstufen der untersuchten additiven Gesamtschule. Lediglich acht Schüler, die bei sechs oder mehr Texten die offene Begründungsfrage nicht beantwortet hatten, wurden ausgeschlossen.
gebogenversionen, jeweils bestehend aus einer Zufallsreihenfolge aller elf Ereignisschilderungen (Version 1: sechs der Ereignisse mit männlichen, die restlichen fünf mit weiblichen Protagonisten; Version 2: komplementär). In jeder der zwölf Gruppen, definiert über Geschlecht des Probanden, Klassenstufe und Fragebogenversion ( 2 x 3 x 2 ) , befinden sich, von einer Gruppe mit nur elf Probanden abgesehen, jeweils zwölf Probanden. Den Schülern wurde mitgeteilt, es ginge darum zu erfahren, wie Schüler ihres Alters auf andere Menschen und Situationen reagieren und welche Gedanken sie sich in bezug auf andere Personen machen. Betont wurde, daß die persönliche Meinung jedes einzelnen interessiere. Im Anschluß an jedes Ereignis waren unter anderem eine Prognose zu treffen, die Urteilssicherheit auf einer verbal formulierten fünfstufigen Skala (von sehr unsicher bis sehr sicher) anzugeben, die Prognose zu begründen, wobei alles notiert werden sollte, was einem durch den Kopf gegangen war, sowie zu beurteilen, wie verständlich die Geschichte geschrieben ist (vierstufige Skala von sehr schwer verständlich bis sehr leicht verständlich). Vergleichsstichprobe: Es handelt sich um eine Gruppe von 85 Studenten und Studentinnen im Alter zwischen 19 und 37 Jahren aus ca. 16 verschiedenen Fachbereichen der Universität Gießen (X=22.7 Jahre, s = 3.83; 53 weiblich, 32 männlich). Psychologiestudenten waren nur bis zum dritten Fachsemester zugelassen (insgesamt sind fünf enthalten). Die Studenten und Studentinnen bearbeiteten im Rahmen einer größeren Untersuchung, für die sie über Aushänge geworben und mit 20 DM entlohnt wurden, unter anderem dieselben Texte wie die Schüler. Ebenso wie die Schüler wußten auch die Studenten nichts darüber, daß sich die Texte auf Untersuchungssituationen beziehen und ihre Prognosen mit Forschungsergebnissen verglichen werden könnten.
4. Ergebnisse und Diskussion 4.1 Auswertung Die subjektive Verständlichkeit der Ereignisschilderungen in den Augen der Schüler/innen ist durchgängig gewährleistet. Die Antworten liegen
148 auf der vorgegebenen vierstufigen Antwortskala zwischen «einigermaßen verständlich» und «sehr leicht verständlich» (Spannbreite der Mittelwerte zwischen 3.41 und 3.81), mit einer klaren Tendenz zu «sehr leicht verständlich». Dagegen bereitete das Verständnis der Themenstellungen objektiv gesehen teilweise noch Schwierigkeiten. Im folgenden werden nur Schüler einbezogen, bei denen ein angemessenes Verständnis der Prognose-Frage gegeben ist. Alle Probanden mit fehlender Bearbeitung der Begründungsfrage (zwischen 1% und 9% aller Probanden) oder mit Bearbeitung der Begründungsfrage, die auf ein unzureichendes Verständnis deutet (zwischen 2% und 18%), werden ausgeschlossen. Es ergeben sich deshalb zwischen den Texten variierende Stichprobengrößen. In der studentischen Stichprobe lagen weder Verständnisprobleme noch fehlende Antworten in den Begründungsfragen vor. Die Begründungsantworten der Schüler wurden auf die auftretenden subjektiven Theorien hin analysiert. Ein erster Kodierer entwickelte die Auswertungskategorien aus dem Material heraus, ordnete Antworten zu und beschrieb deren Bedeutungsgehalt in allgemeinen Worten. Diese Beschreibung diente einem zweiten Kodierer, der alle Antworten noch einmal analysierte, als Kodieranweisung. Die Kodiererübereinstimmung variiert zwischen den einzelnen Episoden und liegt zwischen 89% (Externalisierung intrinsischer Motive) und 97% (Allgemeine Hilfsbereitschaft nach einem Mißgeschick), mit einem Median von 91%. Die Angaben beziehen sich auf die Analyse der subjektiven Theorien zu allen drei Prognosealternativen, wenngleich im vorliegenden Kontext nur die Theorien zu den im Sinne des Forschungsergebnisses angemessenen Prognosen interessieren. Pro Antwort sind mehrere Theorien möglich, wobei neben Theorien, die in Zusammenhang mit der tatsächlich gewählten Prognose stehen, auch solche registriert wurden, die in Zusammenhang mit dem (möglichen) Erwägen von Prognosealternativen auftreten (Ersttheorie [Thi]: Theorie bzgl. der gewählten Prognose, die an erster Stelle genannt wird; Zweittheorien [TI12]: alle weiteren Theorien für die gewählte Prognose und/oder für Alternativprognosen).
Holz-Ebeling: Trivialität von Forschungsergebnissen
4.2 Güte der Vorhersagen Abbildung 1 zeigt die Verteilung der Prognosen auf die drei Antwortalternativen in der Schülerstichprobe. Die entsprechend dem Forschungsergebnis angemessene Prognose (s. Abschnitt 3.1) ist schraffiert (zum Beispiel beim Affiliativen Verhalten im Zustand von Furcht und Ungewißheit: 36% für ein verringertes affiliatives Verhalten (E-), d.h. eher Wahl des leeren Wartezimmers; 34% für «kein Einfluß» (kE); 30% für ein verstärktes affiliatives Verhalten (E+), d.h. eher Wahl des besetzten Wartezimmers; letzteres entspricht dem Forschungsbefund). Es ergeben sich krasse Unterschiede in der Vorhersagbarkeit der Ergebnisse (Variation zwischen 0% und 84%) mit einer Tendenz zu schwer vorhersagbaren Ergebnissen. Von einem «Ausreißer» abgesehen liegen alle Befunde unter oder um einen Anteil richtiger Prognosen von 50%. Lediglich Physische Attraktivität und Leistungsbeurteilung ist mit 84% angemessener Vorhersagen als «trivial» im Sinne von gut prognostizierbar zu bezeichnen. Den Gegenpart bilden Externalisierung intrinsischer Motive, «Effort Justification» und Umgekehrter Katharsiseffekt. Mit nur 0%, 13% bzw. 18% Vorhersagbarkeit sind sie als der Intuition widersprechend («counterintuitive») anzusehen. Definiert man einen Vorhersagebereich zwischen 40% und 60% als mittelschwer bzw. mittelleicht vorhersagbar, so trifft dies auf insgesamt fünf der elf untersuchten Befunde zu: Verantwortungsdiffusion, «Door-in-the-Face»-Phänomen, Hilfeverhalten nach geringfügigem positiven Erlebnis, Hilfsbereitschaft nach einem Mißgeschick und Vergeblicher Konsensusbefund. Die verbleibenden zwei Befunde -Affiliatives Verhalten im Zustand von Furcht und Ungewißheit sowie «Footin-the-Door»-Phänomen - lassen sich mit 30% und 36% als «eher schwer vorhersagbar» kategorisieren. Betrachtet man die Verteilung der Prognosen auf die beiden verbleibenden «falschen» Antwortalternativen, zeigt sich bei zweien der fünf eher schwer vorhersagbaren oder der Intuition widersprechenden Befunde eine deutliche Präferenz für eine der beiden Alternativen. Beim Umgekehrten Katharsiseffekt glauben 64% der Schüler, daß ein Gespräch über frustrierende Erlebnisse Ärger und Aggression vermindert, wäh-
149
Zeitschrift für Sozialpsychologie 1989, 141-156 A f f i l i a t i v e s Verhalten bei F u r c h t u n d U n g * wiOheit IN.135)
% IM-
Umgekehrter K a t h a r s i s - % e f f e k t I N . 1221 100
64% (n=78)
80
8060
60
36% 34% 30 % tn=W(n=46) { n = 4 „ 40
E-
kE
E+
Door - in - the - Face Phänomen I N . 122]
49% (n=60)
n
(n=38) 20% I"!
'n=24)
E-
kE
1
p 0
E-
% 100
40
20
E-
0%
20
(n=0)
E-
60
kE
kE
84%^ (n=115) ' .
15%
1% ("=211 in i> n E-
kE
p
20
n
E*
50%
60
E-
%
100-
60-
32%
17% 1^45)
40"
20
(n= 24)
20-
% ^00"
kE
40% (n=42)
40
kE
E+
Effort J u s t i f i c a t i o n I N . 119 )
48% (o=57) *> % (n=47) 13% (n=15) E-
kE
u E+
Vergeblicher K o n s e n s u s b e f u n d I N . 1051
80 60
20
kE
8
80-
40
E-
P h y s i s c h e Attraktivität und L e i s t u n g s b e u r teitung I N . 137)
80
40
E-
•n
(n=45)
4% (o=4)
(n=20)
80
(n=60) no^
60
(n==41) , 5 %
H i l f s b e r e i t s c h a f t nach einem Mingeschick ( N : 139)
Foot - i n - t h e - Door Phänomen IN«1321
38% 36% (n=50) 27% ( n = 47) (n=35) ^
32%
20
kE
55%
Externalisierung i n l r i n - % s i s c h e r Motive I N . 1201 1QQ
36% (n=43)
18%
53% (n=69)
40
Hilfeverhalten nach g t - % r i n g f Q g i g e m positiven 100" E r l e b n i s ( N * 109 )
80
t*
64% In =77)
nü
18%
(n = 22) (n=22)
20
Verantwortung » d i f f u s i o n % IN-130) 100
0% (n=0) E-
60% (n=63)
I kE
Abb. 1: Verteilungen der Schüler- Prognosen zu den ausgewählten Forschungsergebnissen (angemessene Prognose schraffiert; Erläuterungen s. Text;; Abbildung entnommen aus H o l z - E b e l i n g , 1989)
rend bei Externalisierung intrinsischer Motive ebenfalls 64% der Ansicht sind, die erhaltene Belohnung bleibe ohne Einfluß auf die Bewertung der (bereits in sich belohnenden) Tätigkeit. Von den fünf mittelschwer vorhersagbaren Befunden zeigen ebenfalls zwei einen zweiten AntwortSchwerpunkt neben der als angemessen zu bezeichnenden Prognose. Beim Hilfeverhalten
nach geringfügigem positiven Erlebnis gehen immerhin 5597« der Probanden davon aus, daß das geringfügige positive Erlebnis das Hilfeverhalten nicht beeinflußt, während beim Vergeblichen Konsensusbefund 60% einen unterstützenden Einfluß der Basisrateninformation auf die Wahrscheinlichkeitskalkulation trotz vorliegender diagnostisch relevanter Einzelfallinformation annehmen. Hinsichtlich des letzteren Phänomens ist die dritte Antwortalternative allerdings - als einzige im gesamten Material - logisch nicht denkbar und deutet, wenn sie gewählt wird,
zwangsläufig auf ein unangemessenes Aufgabenverständnis.
4.3 Urteilssicherheit Trotz des teilweise sehr ausgeprägten Dissens zwischen den Schülern hinsichtlich des zu erwartenden Verhaltens sind sie sich ihrer abgegebenen Prognosen generell recht sicher. Die Urteilssicherheit schwankt um einen Themenstellungsmittelwert von vier (entspricht «ziemlich sicher»), mit einer Spannbreite von 3.71 bis 4.14. Wegen der stark rechtsgipfligen Verteilung wird - zwecks Prüfung von Themenstellungsunterschieden - eine Rangvarianzanalyse nach Friedman gerechnet. Sie weist auf einen hochsignifikanten Themenstellungseffekt hin (chi 2 =33.96, p