Zeitschrift für Sozialpsychologie: Band 12, Heft 3 1981 [Reprint 2021 ed.]
 9783112468524, 9783112468517

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

HERAUSGEBER HUBERT FEGER

C. F. G R A U M A N N KLAUS HOLZKAMP MARTIN IRLE

B A N D 12 1981 HEFT 3

V E R L A G HANS H U B E R BERN STUTTGART WIEN

Zeitschrift für Sozialpsychologie 1981, Band 12, Heft 3 INHALT

Theorie und Methoden P . G . W . : Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems WILLMES, K. & PYHEL, N. : Permutationstests als Alternative zur Varianzanalyse - Der Split-Plot Versuchsplan JANSEN,

169 186

Empirie GLEICH, J . M . & SCHOLZ, R . W . : Die A n w e n d b a r k e i t m a t h e m a t i s c h e r

Lernmodelle zur Beschreibung von Verhandlungsverhalten und ihre Problematik OCHSMANN, R.: Veränderungen der Sicherheit in der Bewertung von Alternativen als alternativer Weg der Dissonanzreduktion bei Entscheidungen SEMIN, R., ROSCH, E., KROLAGE, J. & CHASSEIN, J.: Alltagswissen als implizite Basis für «wissenschaftliche» Persönlichkeitstheorien: Eine sozialpsychologische Untersuchung

199

217

233

Literatur Neuerscheinungen

243

Titel und Abstracta

245

Nachrichten und Mitteilungen

247

Autoren

252

Copyright 1981 Verlag Hans Huber Bern Stuttgart Wien Herstellung: Satzatelier Paul Stegmann, Bern Printed in Switzerland Library of Congress Catalog Card Number 78-126626 Die Zeitschrift für Sozialpsychologie wird in Social Sciences Citation Index (SSCI) und Current Contents/ Social and Behavioral Sciences erfaßt.

169

Zeitschrift für Sozialpsychologie 1981,12,169-185"

Theorie und Methoden Spezifisch objektive Messung im Falle nicht-monotoner Einstellungsitems* P a u l G . W . JANSEN Ryks Psychologische Dienst, Den Haag

In einer früheren Veröffentlichung dieses Autors wurden zwei Methoden zur Garantie des Axioms der Monotonizität des RASCH-Modells im Falle nicht-monotoner Einstellungsitems diskutiert. Eine dritte Methode wird hier präsentiert. I n d e r N a c h f o l g e v o n BECHTEL ( 1 9 6 8 ) u n d SIXTL ( 1 9 7 3 )

wird ein Modell diskutiert, in dem die Nicht-Monotonizität der Wahlen einer Person auf dem gemeinsamen Kontinuum aller Personen in die notwendige Monotonizität einer individuellen Präferenzskala vom am meisten Präferierten (dem Ideal) bis zum am wenigsten Präferierten «gefaltet» wird. Eine Anzahl interessanter Eigenschaften dieses Modells werden abgeleitet und mit zuvor erhobenen Daten verglichen.

1.

Einleitung

In einer früheren Veröffentlichung (JANSEN, 1981) wurde das Konzept der spezifischen Objektivität als eine wünschenswerte Eigenschaft von Einstellungsmessungen diskutiert. Das RASCHModell, das einzige Testmodell mit dieser Eigenschaft, verlangt neben anderen Eigenschaften die Monotonizität der item-charakteristischen Kurve. Dies ist jedoch eine Bedingung, die im Falle von Einstellungsitems augenscheinlich selten erfüllt ist. In jener Veröffentlichung wurden zwei Verfahren zur Begründung einer Menge monotoner Einstellungsitems vorgestellt, und auf ein drittes Verfahren wurde verwiesen; dieses wird in dieser Studie diskutiert. In den ersten beiden Methoden wurde die Nicht-Monotonizität von Items in der Phase der * Titel des Originaltextes: P. G. W. JANSEN: Specific objective measurement in case of nonmonotone attitude items. Nijmegen, 1980 (unveröffentlicht). Deutsche Übersetzung: DETLEV LEUTNER, R W T H A a c h e n . D e r A u t o r d a n k t E . ROSKAM u n d A . VAN DEN WOLLENBERG

für ihre Kommentare und Vorschläge.

In a previous paper of the present author, two methods for garanteeing the axiom of monotonicity of the RASCH model in case of nonmonotone attitude items were discussed. A third method is presented in this paper. Following up BECHTEL (1968) and SIXTL (1973), a model is discussed in which the nonmonotonicity of a subject's choices on the joint continuum of all subjects, is (folded) into the necessary monotonicity of an individual preference scale ranging from most preferred (the ideal) to least preferred. A number of interesting properties of the model are derived, and compared with previously collected data.

Itemelimination oder -konstruktion behandelt. In der dritten Methode befassen wir uns mit der Nicht-Monotonizität von Items in der Modellphase. Dieses Modell soll im zweiten Abschnitt eingeführt werden, wobei zu sehen sein wird, daß es sehr eng mit d e m v o n COOMBS (1964) entwickel-

ten Unfolding-Modell verbunden ist. Im dritten Abschnitt wird das Modell selbst dargestellt; dabei wird demonstriert, daß es eine ziemlich extensive Datenerhebung verlangt, um genügend Informationen für eine eindeutige Lokalisierung der Personen- und Itemparameter auf dem latenten Kontinuum zu erhalten. Die zur Erfüllung der Monotonizitätsbedingung notwendige «Adaptierung» des RASCH-MOdells läuft darauf hinaus, es mit einem Präferenzmodell zu kombinieren, wodurch ein Modell, welches nicht-monotone Präferenzkurven annimmt, mit dem monotonen logistischen Modell von RASCH verbunden wird. Es wird dabei gezeigt, daß das neu-definierte RASCH-Modell ein mathematisches Modell für probabilistisches Unfolding ist; verwandte Modelle für probabilistisches Unfolding werden in Abschnitt drei dis-

170

Jansen: Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems

kutiert. Außerdem wird in diesem Abschnitt eine Methode zur Stichproben-unabhängigen Schätzung der Itemparameter eingeführt. Abschnitt vier präsentiert eine kritische Diskussion einiger interessanter Eigenschaften des im vorhergehenden Abschnitt entwickelten Modells (genannt «RASCH-homogenes Unfoldingmodell»). Diese sich aus dem neu formulierten Modell ergebenden Eigenschaften basieren darauf, daß das RASCH-homogeneUnfoldingmodell ein Modell für Präferenzwahlen ist. Wegen der notwendigen sehr extensiven experimentellen Arbeit wurden bisher keine Analysen realer Daten mithilfe des RASCH-Homogenen Unfoldingmodells vorgenommen. Wir hoffen jedoch, einige empirische Ergebnisse zukünftig vorstellen zu können.

2.

Eine Lösung für nicht-monotone itemcharakteristische Kurven

2.1.

Die Lösung

Abbildung 1 zeigt, daß nicht-monotone itemcharakteristische Funktionen keine eindeutige Zuordnung eines latenten Parameters zu einer manifesten Wahrscheinlichkeit ermöglichen. Wie aus Abbildung 2 ersichtlich, ist es möglich, ein zweites Item j einzuführen, von dem man weiß, daß die folgende Relation zwischen den latenten Itemparametern Y; und Yj gilt: Yj > Yj (Item i ist also «leichter» als Item j); weiterhin nehmen wir an, daß die nicht-monotonen Itemkurven eingipflig sind und dieselbe Gestalt haben. Nun se-

p • =p

hen wir, daß immer dann, wenn X v größer ist als Y;j (der Mitte der beiden Itemparameter Yj und Yj), PVJ- (die Wahrscheinlichkeit einer «ja»-Antwort der Person v zu Item j) größer sein wird als P v i . Konfrontiert mit dem Itempaar (i, j), wird die Person v also mit einer Wahrscheinlichkeit größer als Vi Item j vor Item i wählen (oder präferieren): (1)

X v > Y u ~ P vj > P vi ~ P v (i, j) < >/:,

(P v (i, j): Person v's Wahrscheinlichkeit, i vor j zu wählen) oder deterministisch: (2)

X v > Yjj «-• v präferiert j gegenüber i

Wenn wir also die Anordnung der Items i und j auf der latenten Skala kennen, können wir eindeutig die Anordnung der Personen v und w auf dieser Skala aus ihren paarweisen Itempräferenzen bestimmen. Person w wählt i vor j und liegt deshalb links des Mittelpunktes Y i j t aber v präferiert j über i und wird somit rechts des Mittelpunktes lokalisiert. So gilt X v > X w . Der aufmerksame Leser wird schon bemerkt haben, daß die Gleichung (2) ein Modell f ü r (deterministisches) Unfolding formuliert. Entsprechend dem Unfoldingmodell von COOMBS ( 1 9 6 4 , Kap. 6) wählt eine Person v den Reiz j vor dem Reiz i genau dann, wenn die Distanz d(v, j) zwischen dem latenten Parameter oder Skalenwert XY und dem Skalenwert Yj des Reizes j kleiner ist als die Distanz d(v, i) zwischen X v und Yj. Wenn wir (2) neu schreiben als:

Abb. 1: Uneindeutigkeit der Regression von Wahrscheinlichkeiten auf Parameter, P vi : Wahrscheinlichkeit einer «ja»-Antwort einer Person v auf das Item i.

171

Zeitschrift für Sozialpsychologie 1981,12,169-185

Abb.2: Die Unterscheidung von X v und X w durch ein zweites Item j (siehe Abbildung 1). P vi : Wahrscheinlichkeit einer «ja»Antwort einer Person v auf das Item i.

(3)

d(v, j) < d(v, i) ** v präferiert j gegenüber i

wird klar, daß hiermit COOMBS Unfoldingmodell ausgedrückt wird. Wir sehen, daß das Unfoldingmodell von COOMBS ein Modell für Präferenzwahlen ist. Aus diesem Grund nennt COOMBS X V den «Idealreiz» der Person v; somit kann XV insbesondere als ein Reiz-Skalenwert betrachtet werden, so daß es nur eine latente Skala gibt (wie es z.B. im RASCH-Modell der Fall ist).

2.2. Deterministisches Unfolding (1965) hat einige bedeutende Eigenschaften eines deterministischen Unfoldingmodells (ein Modell, in dem (2) gilt) abgeleitet. Nehmen wir an, daß für eine Gruppe von Personen die individuellen Präferenzen für jeden aus einer Menge von k Reizen bekannt sind. Dann erhalten GREENBERG

wir durch Summation über alle Personen paarweise Präferenzwahrscheinlichkeiten P(j, k) (Hier ist anzumerken, daß der Index v wegfällt). Nun hat GREENBERG festgestellt, daß im Falle der Gültigkeit des Unfoldingmodells eine monotone Abbildungsfunktion dieser

Wahrscheinlich-

keiten P(j, k) auf die ( ) Inter-Reizmittelpunkte

auf der latenten Dimension existiert. Das bedeutet, daß bei bekannter Reizanordnung die Rangordnung der beobachteten Präferenzwahrscheinlichkeiten exakt derjenigen der nicht beobachtbaren Mittelpunkte entlang des Kontinuums entspricht, welches diese Wahrscheinlichkeiten erzeugt. Mit anderen Worten: Y jk ist monoton zu P(j> k). Es ist bedeutsam anzumerken, daß P(j, k) durch Summation über alle Personen erhalten werden kann; das Unfoldingmodell von G R E E N BERG ist auf der Personenebene deterministisch und probabilistisch bezüglich der Personenpopulation. GREENBERG nimmt an, daß die Personenparameter X über das Kontinuum (die J-Skala) entsprechend einer unspezifischen Funktion P x verteilt sind. In diesem Fall bedeutet die Eigenschaft, daß Y jk monoton zu P(j, k) ist, ganz einfach, daß - bewegt man sich von der linken zur rechten Seite der J-Skala - ein größerer Anteil von Personen links des Mittelpunktes Yjk liegt. Dieser Anteil kann über P(j, k) geschätzt werden. Die Y jk lassen sich dann formulieren als (4)

Yjk = P x 1 ( P Ü , k ) ) ,

daGREENBERGS Theorem impliziert, daßP(j, k)= P x (Y j k ). Wenn P x unspezifiziert bleibt (wie es im Unfoldingmodell von COOMBS der Fall ist), kann nur die Rangordnung der Mittelpunkte Yjk bekannt sein, und deshalb kann man nur eine order-

172

Jansen: Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems

ed-metric-Skala der Reize auf dem latenten Kontinuum erhalten. Eine Spezifizierung der P x ergibt jedoch eine Menge von Schätzungen für die Mittelpunktwerte Yjk, welche wiederum die Schätzungen der K Skalenwerte der Reize determinieren. Obwohl GREENBERG seine Ergebnisse für eine Population von Personen erhielt, ist leicht zu sehen, daß sie auch innerhalb einer einzelnen Person gültig sind. Um dies zu sehen, kann man die Populationsverteilung P x als die Verteilung einer mittleren Person mit einer sehr großen Variabilität der Idealpunkte betrachten. 3.

Probabilistisches Unfolding

3.1

Ein Modell für probabilistisches Unfolding

Während (2) ein Modell für deterministisches Unfolding darstellt, formuliert die Gleichung (1) ein Modell für probabilistisches Unfolding. Wenn man sich nochmals die Abbildung 1 ansieht, kann man beobachten, daß P vi zur Distanz d(v, i) monoton ist. Nun nehmen wir an, daß alle nicht-monotonen Itemkurven die gleiche Gestalt haben (wie es in Abbildung 2 der Fall ist). Dann ist es nicht schwierig zu sehen, daß: (5)

P vj > Pvi

d(v, j) < d(v, i),

oder: (6)

Pv(j> 0 = f(d(v, j), d(v, i)) = f v i j .

Es ist bedeutsam anzumerken, daß (6) eine monotone Kurve für das Itempaar (i, j) repräsentiert, deren Formulierung noch zu spezifizieren ist. Die mit f v i j bezeichnete Kurve in (6) ist eine monotone Funktion von X v , denn wenn man sich von der linken zur rechten Seite über die latente Skala bewegt, wird die Präferenz P vj monoton ansteigen, während Pvi monoton abfällt (unter Annahme Yj < Yj), so daß P v (j, i) als Konsequenz monoton ansteigt. Nun gibt es eine Anzahl von sich selbst erklärenden Eigenschaften, die die monotone Funktion f v i j in (6) haben sollte, z.B.: wenn X v = Yij(

dann f v i j = Vi. Eine vollständige Liste solcher intuitiv-überzeugender Annahmen ist in SIXTL (1973) zu finden. Wie SIXTL gezeigt hat, läßt sich durch die Addition einer zusätzlichen Annahme (Gleichung (9) unten) ableiten, daß (6) die folgende funktionale Form haben muß: (7)

P v (j,i) =

exp(Xv - Yu) 1 + exp(Xv - Yjj)

und (8)

P v (i,j) =

exp(Yij - Xv) 1 -I- exp (Yjj - Xv)

= l-Pv(j,i),(Yi für jede Person (deswegen haben wir oben «nahm an» («übersetzt zitiert»), sondern er leitete von einer Anzahl von Annahmen eine Antwortfunktion für jede Person ab. Aber die Annahme einer Antwortfunktion für j ede Person ist im wesentlichen äquivalent zur Annahme einer Verteilung P für jede Person. SIXTL

Daher verstehen wir, daß die Stochastizität im probabilistischen Unfoldingmodell von SIXTL durch die Tatsache erklärt werden kann, daß eine Person v keinen fixierten Idealpunkt hat, sondern ihn aus einer Verteilung von Idealpunkten P X y zufällig zieht. Auf der anderen Seite wird die Stochastizität im Unfoldingmodell von COOMBS durch die Variation sowohl der Ideale wie auch der Reizpunkte erklärt. Wie wir sahen, betrachtete SIXTL die Wahrscheinlichkeit P v (j, k) als determiniert durch eine Funktion der Distanz d(X v , Y jk ). In Abschnitt 2.1. haben wir gesehen, daß SIXTL durch die Aufstellung einer Anzahl von Annahmen diese Funktion ableiten konnte; sie wurde in Gleichung (8) angegeben, und es wurde gezeigt, daß sie ein RASCH-Homogenes Unfoldingmodell formuliert. Die Y jk werden mittels Gleichung (9) geschätzt und anschließend die Yj unter Verwendung von Gleichung (10). Es ist einsichtig, daß dieses Schätzverfahren keine spezifisch objektive Messung der Personencharakteristika und Reizeigenschaften garantiert. Deshalb erklären wir am Ende dieses Abschnitts, wie R H U M uns die Möglichkeit eröffnet, die Reizparameter Yj und die Itemparameter Y jk in einer solchen Weise zu schätzen, daß die Schätzwerte stichprobenunabhängig sind.

3.3.4.

Stichprobenunabhängige Parameter

Schätzung der

K Da es K Unbekannte (die Yj) und ( ) Gleichun-

gen der Form YJK = VZ (YJ + YK) gibt, wobei YJK bekannt ist, sind die Yj überdeterminiert. Außerdem müssen wir uns sicher sein, daß die YJK tatsächlich Mittelpunkte sind. Deshalb müssen in der Berechnung der Yj sowohl der Aspekt der Überdetermination als auch der hypothetische Charakter der Gleichung YJK = Vi (YJ + YK) ihren Ausdruck finden: Die Reduzierbarkeit der Parameter Y jk auf Linearkombinationen von K Parametern Yj ist eine zusätzliche Hypothese. In SIXTLS Artikel werden die Yj mittels (10) aus den Y jk berechnet. Der Test auf die Validität dieser Reduktion besteht einfach darin, nachzuschauen, ob die Residualvarianz (Yjk - Y jk ) 2 «klein genug» ist. In R H U M ist die Lösung dieser beiden Probleme jedoch direkt: Wir betrachten die K Reizparameter Yj als die «zugrundeliegenden Parameter» eines linearen logistischen Testmodells (FISCHER, 1974, p.340ff.) mit einer geeigneten Strukturmatrix Q: Q ist eine

x K Matrix mit dem Rang K

(ein lineares logistisches Testmodell ist ein RASCH-Modell mit linearen Restriktionen für die Itemparameter; wegen der Linearität dieser Restriktionen besitzt das lineare logistische Testmodell alle Eigenschaften des einfachen R A S C H - M O dells; tatsächlich ist es ein reformuliertes einfaches RASCH-Modell). Die Plausibilität der in Q zusammengefaßten linearen Restriktionen können wir mittels eines konditionalen LikelihoodRatio-Tests prüfen. Somit ist R H U M ein Zwei-Phasen-Modell: Zuerst wird die Plausibilität des einfachen RASCH-Modells getestet (z.B. durch einen Test auf Stichprobenunabhängigkeit); als zweites wird die Plausibilität der linearen Reduktion der Mittelpunkte auf K Reizparameter bewertet und getestet. Die zweite Phase liefert außerdem Schätzungen für die Reizparameter.

4.

Einige Eigenschaften von RHUM

In diesem Abschnitt werden Konsequenzen diskutiert, die sich daraus ergeben, daß R H U M ein

176

Jansen: Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems

Modell für Präferenzwahlen ist. Die Vorhersagen, die RHUM für verschiedene Situationen von Präferenzwahlen macht (Replikation von Wahlen, Koinzidenz eines Reizes und des Idealreizes, Vergrößerung der Distanz zwischen Reizen, usw.) werden abgeleitet; die Konsequenzen dieser «Theoreme» werden diskutiert. Diese Diskussion wird mit einigen Daten illustriert, und anhand dieser Daten können außerdem die Modelle von COOMBS, BECHTEL und RASCH-SIXTL verglichen werden.

4.1. Stochastische Transitivität 4.1.1. Die Vorhersagen von

COOMBS

COOMBS (1964, p.106) sagt: «The best test I have been able to devise, as yet, of the unfolding theory of preferential choice revolves around its implications for the stochastic properties of choice behavior. » In Abschnitt 3.1. merkten wir an, daß die Idealpunkte stochastisch sind. Nun sagt COOMBS (p. 107): «The basic idea is that variability of the ideal points affects consistency of choice on certain pairs and not on other, depending whether the pair of stimuli are on the opposite sides of it on the J-scale or on the same side.» Mit «consistency of choice» meint COOMBS stochastische Transitivität, wobei drei Arten unterschieden werden (Präferenzordnung jkl):

-

SST (strong stochastic transitivity): P v (j, k) > >/2; Pv(k, 1) > 1/2 - P v (j, 1) > MAX(P v (j, k), Pv(k, 1)); - MST (moderate stochastic transitivity): P v (j, k) > Vi; Pv(k, 1) > 1/2 - P v (j, 1) > MIN(P v (j, k), Pv(k, 1)); - WST (weak stochastic transitivity): P v (j, k) > Vi\ P v (k, 1) i/2 -» P v (j, 1) » '/2. Abhängig von der Position von X v , Yj, Y k und Yj auf der J-Skala werden verschiedene Transitivitätsstufen von COOMBS vorhergesagt. Da Transitivität nur bei Reiztripeln beobachtet werden kann, nennt COOMBS eine Anzahl verschiedener Arten von Tripeln, und er sagt für jedes Tripel eine unterschiedliche Form der Transitivität vorher. In Tabelle 1 sind die möglichen Tripel skizziert, wobei die Reiz-Präferenzordnung jkl angenommen wird. In dieser Tabelle sind außerdem COOMBS' Vorhersagen für die verschiedenen Tripel zu finden.

4.1.2. Die Vorhersagen von BECHTEL w/ii/RHUM (1968) leitet die Implikationen seines stochastischen Unfoldingmodells für Transitivität ohne Spezifizierung von P x und unter der Annahme fixierter YJ, YK ab; nur im BST-Fall (siehe Tabelle 1) ist die Annahme notwendig, daß P x . über ihren Mittelwert symmetrisch ist. Obwohl in BECHTEL

Tab. 1: Stochastische Transitivität von Präferenzwahlen im Rahmen der Unfoldingtheorie. In COOMBS Theorie wird die Transitivität durch die Ordnung und die Lateralität der Reize determiniert, wobei die J-Skala am Idealpunkt gefaltet wird. In den Modellen von BECHTEL und SIXTL wird die Transitivität durch die Ordnung der Mittelpunkte determiniert, wobei die J-Skala am Idealpunkt gefaltet wird. Die Präferenzordnung ist j-k-1. Tripel

Name

1 Xv

1 Yk

1 1 Xv Yj

Yk 1 Yj l

1 Y¡

1 Xv

1 Yk 1

Vorhersagen COOMBS

B E C H T E L ; , SIXTL

\1 Y,

Unilateral tr. (UT)

SST

MST

1 Y,

Bilateral split tr. (BST)

SST

SST

\1 Y,

Bilateral adjacent tr. (BAT(l))

MST MST/SST

Bilateral adjacent tr. (BAT(2))

MST/SST

177

Zeitschrift fürSozialpsychologiel981,12,169-185 BECHTELS Studie die Verteilung P x aus der gesamten Personenpopulation besteht, sind die in Tabelle 1 angegebenen Ergebnisse für das RASCHSixTL-Modell (in dem eine Antwortfunktion, und somit eine Verteilung P x , für jede Person angenommen wird) dieselben wie für BECHTEL. Um dies zu sehen, kann man die Verteilung P x in BECHTELS Modell als eine (bezüglich der Variation) sehr große Verteilung einer einzelnen Person betrachten. Deshalb sind die Ergebnisse für das RASCH-SIXTL-Modell unabhängig von der in ihm benutzten Antwortfunktion. Diese Resultate sind in Tabelle 1 aufgeführt. Beweise für die in Tabelle 1 angegebenen Vorhersagen sind bei COOMBS ( 1 9 6 4 ) ,

BECHTEL ( 1 9 6 8 ) u n d

JANSEN

(1979) zu f i n d e n .

4.1.3. Einige Daten In der bekannten Amsterdam-Studie präsentierte Personen alle Mengen von 4 aus 1 2 Reizen (Schattierungen von Grau) und bat sie, diese 4 Reize vom typischsten zum untypischsten COOMBS 4

12 « Grau» zu ordnen. Die ( )=495 Präsentationen von Mengen von 4 Reizen wurden zweimal vorgenommen; dieses experimentelle Design lieferte 90 Replikationen eines jeden Reizpaares.

In diesem Experiment war die Ordnung der Reize bekannt (in Begriffen von Helligkeit); mittels eines Verfahrens (im wesentlichen eine Anwendung von Gleichung (1)) bestimmte COOMBS die Präferenzordnungen der Personen und die Position einer jeden Person auf der J-Skala. Auf diese Weise war es möglich, die Uni- oder Bilateralität eines jeden Reizpaares für jede Person festzustellen und die Vorhersagen der Unfoldingtheorie mit den Daten zu vergleichen. Da COOMBS nicht zwischen BAT(l) und BAT(2) (siehe Tabelle 1) unterscheidet, reanalysierten wir seine Daten (anstelle seine Ergebnisse zu übernehmen, siehe zum Beispiel seine Tabelle auf Seite 113). In Tabelle 2 sind unsere Ergebnisse dargestellt. BECHTEL (1968) unterscheidet zwischen BAT(l) und BAT(2) (wobei er sie «bilateral unten» und entsprechend «bilateral oben» nennt). Wir werden nicht das Experiment beschreiben, sondern nur die Daten vorstellen. Problematisch ist, daß BECHTEL nur die Anzahl der Tripel angibt, welche eine bestimmte Vorhersage verletzen, ohne die Art der Verletzung zu spezifizieren. Die Ergebnisse sind in Tabelle 3 gegeben. Wir sehen, daß COOMBS' Daten sehr gut mit COOMBS' Unfolding und einigermaßen gut mit dem RASCH-SiXTL-Modell übereinstimmen, aber daß das RASCH-SiXTL-Modell besser als COOMBS' Unfolding die Daten von BECHTEL anpaßt. Im

Tab. 2: Die Anzahl verschiedener Tripelarten, welche im Amsterdam-Experiment von COOMBS (1964) die drei verschiedenen Niveaus stochastischer Transitivität erfüllen, und die Vorhersagen von COOMBS und RHUM (bei der Person 3 und BAT weichen unsere Daten von den Anzahlen in COOMBS' Tabelle 5.13, p.113 ab). Tripel

SST

MST

WST

Total

COOMBS

RHUM

Person 1

BAT(l) BAT(2) UT BST

20 28 19 34

12 4 0 0

1 1 1 0

33 33 20 34

MST/SST MST/SST SST SST (strong)

MST MST/SST MST SST

Person 2

BAT(l) BAT(2) UT BST

2 14 54 24

6 13 2 0

0 5 0 0

8 32 56 24

MST/SST MST/SST SST SST (strong)

MST MST/SST MST SST

Person 3

BAT(l) BAT(2) UT BST

13 19 18 38

18 11 2 0

0 1 0 0

31 31 20 38

MST/SST MST/SST SST SST (strong)

MST MST/SST MST SST

Person 4

BAT(l) BAT(2) UT BST

3 11 12 38

28 20 8 0

0 0 0 0

31 31 20 38

MST/SST MST/SST SST SST (strong)

MST MST/SST MST SST

178

Jansen: Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems

Tab. 3: Die Anzahl verschiedener Tripelarten, welche in der Studie von BECHTEL (1968) verschiedene Arten stochastischer Transitivität gegen die Vorhersagen von RHUM verletzen. total

Anzahl der Verletzungen

BAT(l) MST BAT(2) MST/SST UT MST BST SST

20 21 14 29

0 1 5 0

Zweite Gruppe BAT(l) MST BAT(2) MST/SST UT MST BST SST

5 5 2 8

1 0 1 0

Personen

Tripel

Erste Gruppe

RHUM

wesentlichen unterscheiden sich die Daten im Falle von UT-Tripeln, und es gibt zwei mögliche Faktoren, die diese Ergebnisse erklären könnten: In Abschnitt 3.3.1. sahen wird, daß im Modell von BECHTEL (und dem von SIXTL) nur die Personenpunkte X stochastisch sind; im Unfoldingmodell von COOMBS wurden jedoch sowohl die Ideale als auch die Reizpunkte als stochastisch angenommen. Immer dann, wenn die Variabilität (Stochastizität) der Ideale sehr viel größer ist als die Variabilität der Reizpunkte, wird SST in einer ziemlichen Anzahl von Fällen verletzt sein: das Modell von BECHTEL (oder das von SIXTL) würde dann eher zutreffen. Wenn die Variabilität der Ideale relativ zur Variabilität der Reizpunkte klein ist, müßten wir COOMBS' Unfolding benutzen. Nun erhielt BECHTEL seine paarweisen Präferenzpropositionen nicht durch Replikationen innerhalb einer Person, sondern durch eine Zusammenfassung der Präferenzwahlen über alle (163) Personen: Somit nimmt er also (wie wir schon in Abschnitt 3.2. sahen) eine Verteilung P an, entsprechend der alle Personen über die JSkala verteilt liegen (man könnte diese Verteilung als die P x einer «mittleren» Person mit einer sehr großen Variabilität ihres Idealpunktes auffassen; tatsächlich haben wir dann das Modell von SIXTL). Die Daten von BECHTEL enthüllen deshalb eine sehr große Variation der Idealpunkte, was - wie wir sahen - impliziert, daß SST ziemlich häufig verletzt wird. erhielt paarweise Präferenzproportionen für jede Person (er replizierte innerhalb aller Personen); somit nahm er eine Verteilung von Idealen für jede Person an, was impliziert, daß die Variabilität der Ideale für eine Person ziemlich klein sein wird. Deshalb finden wir, daß in COOMBS

seinen Daten SST nur in einigen wenigen Fällen verletzt ist. In Tabelle 1 haben wir die Vorhersagen von BECHTEL (und SIXTL) bezüglich des in verschiedenen Reiztripeln vorzufindenen Transitivitätsniveaus angegeben. In BECHTELS Modell ist eine Bedingung für diese Vorhersagen, daß die J-Skala in der Mitte der Verteilung von Idealen P x gefaltet wird; dann wird diese Mitte als der Idealpunkt der Personen angesehen. Um nun die Daten von Tabelle 3 zu erhalten, wurde von BECHTEL eine Verteilungsannahme gemacht (P x wurde spezifiziert), und die Mitte oder der Idealpunkt wurde dann entsprechend dieser Annahme und den beobachteten Proportionen P(j, k) berechnet. Danach konnte die Lateralität der Reizpaare bestimmt und die Vorhersagen konnten verifiziert werden. Es bleibt jedoch fraglich, bis zu welchem Ausmaß die Berechnung der Idealpunkte (deren Lokalisierung in der Mitte der Verteilung von Idealpunkten) verursacht, daß die Reiztripel die Vorhersagen erfüllen, so daß die Ergebnisse einzig und allein durch die Analysemethode produziert wurden, und nicht durch die Daten. Dieses Argument wird durch die Beobachtung verstärkt, daß die 6 Verletzungen des vorhergesagten Transitivitätsniveaus in der ersten Gruppe (siehe Tabelle 3) maximal .02 vom vorhergesagten Transitivitätsniveau abwichen: diese sehr geringe Abweichung könnte man durchaus als Schätzfehler ansehen. Detailliertere Daten wären notwendig, um zwischen COOMBS' Unfolding und dem RASCHSixTL-Modell zu entscheiden. In einem solchen Experiment sollte man Replikationen für jede Person vornehmen; außerdem sollte (durch die Instruktion oder die Auswahl der Personen) garantiert sein, daß die Idealpunkte der Personen einigermaßen gut über das latente Kontinuum streuen.

4.2.

Der Idealreiz

Das Konzept eines idealen Reizes scheint die folgende Ungleichung zu implizieren: (11)

Xv=Yj^Pv(j,l)>Pv(k,l)(¥k*j,AtI*j).

In Worten: Die Wahrscheinlichkeit, das Ideal vor einem gegebenen Reiz 1 zu präferieren, ist

179

Zeitschrift für Sozialpsychologie 1981,12,169-185

Tab. 4: Die Relation zwischen allen uni- oder bilateralen Paaren (k, 1) und dem Paar 0,1), wobei j ungefähr der Idealreiz der Person ist; > bedeutet, daß P(j, 1) > P(k, 1) für diese Person. Die Vorhersagen von RHUM werden durch x angezeigt (Daten von COOMBS, 1964).

unilateral Person Person Person Person

1 2 3 4

RHUM

bilateral

>











X v unterscheiden. Die Präferenzordnung ist in allen Fällen j-k-1. Nun können wir (12) in Begriffe der Vorhersagen von RHUM und COOMBS' Unfolding im Falle von Reiztripeln (j, k, 1) übersetzen (siehe Tabelle 6). Aus dieser Tabelle entnehmen wir, daß COOMBS' Unfoldingtheorie die Daten aus Tabelle 4 erklären kann. Somit entspricht COOMBS' Unfolding ebenso nicht der intuitiven Wahlregel (11).

4.3.

Die

Y, = X T - * P ¥ ( j , k ) = 1.00. Aber in diesem Falle führt uns unsere Intuition in die Irre. Da RHUM ein RASCH-Modell ist, ist das latente Kontinuum eine Ratio-Skala (diese Skaleneigenschaft wird durch zwei Wahlen determiniert: erstens, die logistische Parametrisierung (8) und zweitens, die Normierungsbedingung

Tab. 6: Mögliche J-Skalen für die Präferenzordnung j-k-1 in Begriffen von Tripelarten und entsprechende Vorhersagen von RHUM und COOMBS' Unfoldingtheorie, verglichen mit den Vorhersagen von Theorem (12) (weitere Erklärungen im Text). unilateral:

YjXv

. Yj = 0), somit sind die Distanzen zwischen den

< Yk

bilateral: Yj > Yk

UT (RHUM: MST)

BST (RHUM: SST)

(COOMBS: S S T )

(COOMBS: s t r o n g S S T )

BAT(l) BAT(2) (RHUM: MST) (RHUM: MST/SST) (COOMBS: MST/SST) (COOMBS: MST/SST)

Theorem (12) MST

SST

Wenn (j> k) und (1, m) zwei umhüllende Paare sind - aus 4 Reizen j, k, 1, m bestehend, die auf der J-Skala in der Anordnung jlmk (oder spiegelbildlich) liegen - und wenn Yjk = Y lm , dann gilt für alle v: P v (j, k) = PV(1, m).

Da in (13) nichts über die Distanzen d(j, k) und d(l, m) ausgesagt wird, ist die Vorhersage des Theorems ziemlich entgegen der Intuition (gerade im Falle von (12)), wie im folgenden gezeigt werden kann:

I'

IJ

R1

I

R

Ylm Auf der obigen J-Skala liegt Yj näher an X v als Yj, und Yk liegt weiter entfernt von X v als Y m , so daß man aus zwei Gründen erwarten kann, daß P v (j, k) > P v (l, m). Wie (13) fordert, ist dies in RHUM jedoch nicht der Fall. In RHUM sind die Parameter Y und X fixiert, während nur Antwort einer Person auf ein Item stochastisch ist; bezüglich der Stochastizität spielt die Reizdistanz d(j, k) in RHUM deshalb keine Rolle. Wenn wir (13) für die Daten von COOMBS verifizieren wollen, müssen wir zuerst die Tatsache feststellen, daß für bestimmte umhüllende Paare (j, k) und (1, m) gilt: Yjk =Y lm . Wir tun dies anhand der Daten der Personen 1 und 2 und suchen die Reizpaare, für die Y j k =Y l m , indem wir die folgende Regel benutzen: (14)

P(j, k) = P(l, m) - * Yjk = Y lm ,

181

Zeitschrift für Sozialpsychologie 1981,12,169-185

wobei «=» mittels eines Kriteriums für eine tolerierbare Differenz zwischen den beiden Wahrscheinlichkeiten (z.B.: die Differenz ist kleiner als 0.5 oder kleiner als zwei mal die Standardabweichung der Differenz zwischen den Proportionen) spezifiziert wird und (j, k) und (1, m) umhüllende Paare sind, die auf der J-Skala als jlmk (oder kmlj) liegen. Die Position von X v auf der JSkala ist irrelevant; deshalb ist auch die Lateralität des Quadrupels (j, k, 1, m) irrelevant. Neben (14) benutzten wir die folgende Methode zur Eliminierung umhüllender Reizpaare, für die Yjk + Y lm . In COOMBS' Daten ist die quantitative J-Skala ABCDEFGHIJKL. Person 1 hat G als Idealreiz. Da P,(A, L) = .97 < 1.00 = P,(I, K), akzeptieren wir unter Verwendung von (14), daß YAL = Y i k . Person 2 hat jedoch den Idealreiz J, wählt L vor A (P2(A, L) = .20) und liegt somit rechts vom Mittelpunkt YAL. Person 2 wählt aber I vorK(P 2 (I, K)= .82)und liegt somit gleichzeitig links vom Mittelpunkt YIK. Dies ist unmöglich, wenn YAL = YIK, weswegen wir schlußfolgern müssen, daß YAL YIK: Wir müssen ((A, L), (I, K)) von der Liste der umhüllenden Paare mit zusammenfallenden Mittelpunkten eliminieren. Nachdem wir auf diese Weise unter Verwendung der Daten der Personen 1 und 2 eine Liste umhüllender Paare aufgestellt haben, für die (14) zutrifft, testen wir (13) mittels der paarweisen Präferenzwahrscheinlichkeiten der Personen 3 und 4. In Tabelle 7 sind die Ergebnisse angegeben. Wie wir sehen, sind die Resultate einigermaßen gut, sowohl bezüglich der Übereinstimmung der Personen 3 und 4, als auch bezüglich der Übereinstimmung der Personen 1 und 2 auf der einen und 3 und 4 auf der anderen Seite. Tabelle 7 enthält aber viele Eingänge, die ungefähr gleich (1,00,1.00) sind; in diesen Fällen ist die Schlußfolgerung Yjk = Ylm nicht sehr stark begründbar, da die logistische Kurve in diesen extremen Situationen (Pv «1.00) eine sehr geringe Steigung hat: Eine große Differenz zwischen Yjk und Y lm produziert praktisch keinen Unterschied zwischen P V (J, k) und Pv(l, m). Da in COOMBS* Daten die Varianz der Idealreize klein ist (3 von 4 Personen haben ungefähr denselben Idealreiz), treten für identische umhüllende Paare über alle 4 Personen solche extremen Daten sehr oft auf (wie in Tabelle 7 zu sehen ist). Ein besserer Test für (13) könnte mit Daten durchgeführt werden, die eine größere Varianz der Idealreize aufweisen; für ein

Tab. 7: Verifikation des Theorems (13) unter Verwendung der Daten der Personen 3 und 4 aus COOMBS' Amsterdam-Experiment. In der linken Spalte sind die umhüllenden Paare ((j, k), (1, m)) angegeben, für welche die Daten der Personen 1 und 2 entsprechend (14) anzeigten, daß Yjk = Y lnl . Abweichungen zwischen P v (j, k) und Py(l, m), welcher kleiner als .05 sind, werden durch ein * angezeigt. PG, k) vs. P(l, m)

(x 100)

(G, k), (1, m)))

Person 3

Person 4

FA, EB BL, JK CL, JK DL, JK CK, IJ EK, IJ DI, EH JA, FE JA, FD IA, FB IA, FC IA, EB IA, DB HA, FB HA, FC HA, EB HA, DB FA, EB FA, DB EA, DB

100,100 76, 94 89, 94 100, 94 82, 92 93, 92 43, 49 100, 91 100, 87 100,100 100, 94 100,100 100,100 100,100 100, 94 100,100 100,100 100,100 100,100 100,100

*

100,99 84,94 93,94 96,94 68, 98 84,98 36, 32 91, 87 91, 87 99, 99 99,96 99,99 99,99 97,99 97,96 97,99 97, 99 100, 99 100,99 99, 99



*

* * * * * * * * •

» * •

• * * * • * * * * * * • » *

Tab. 8: Übereinstimmung zwischen den Präferenzwahrscheinlichkeiten zweier umhüllender Reizpaare bei den 4 Personen in COOMBS' Amsterdam-Experiment.

DI, EH

Person 1

Person 2

Person 3

Person 4

.63, .67

.04,.01

.43, .49

.36, .32

Beispiel verweisen wir auf HALL & WEIR ( 1 9 7 4 , p.353). Im Falle der umhüllenden Paare (DI, EH) ist die Übereinstimmung der 4 Personen in COOMBS' Daten höchst interessant, wie Tabelle 8 zeigt. 4.4. Einige Varianten von RHUM Wie schon in Abschnitt 3.1. mitgeteilt wurde, nimmt COOMBS an, daß sowohl der Idealpunkt X v wie auch die Reizpunkte Yj stochastisch sind; somit ist beim Unfolding die Reizdistanz nicht irrelevant (im Gegensatz zu RHUM). Aus diesem Grund stellen wir in diesem Abschnitt einige Varianten von RHUM vor, in denen die Reizdistanz eine Rolle spielt.

182

Jansen: Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems

und: P v ( k , j ) = l - P v ( j , k ) = 4.4.1. BUM Im vorhergehenden Abschnitt haben wir gesehen, daß die Reizdistanz d(j, k) in R H U M keinen Einfluß auf P v (j, k) hat. Deshalb könnte man wünschen, d(j, k) in das RASCH-SiXTL-Modell derartig einzubauen, daß P v (j, k) eine ansteigende Funktion von d(j, k) ist. Natürlich sollte diese Variante von R H U M (RHUM-2) die Eigenschaft: P v (j, k: X v = Y jk ) = Vi haben, und da RHUM-2 ein RASCH-Modell ist:

1

vUi "v

1 + exp(q)

»

folgt, daß

exp(-d(j, k) (Y jk - XY)) 1 + exp(-d(j, k) (Y jk - X v )) ' (in R H U M gilt: d(j, k) = 1, und deshalb: - d ( j , k) = - 1 , so daß wir für P v (k, j) den Exponenten (X v - Y jk ) erhalten). Aber dieses Modell ist nicht mehr ein RASCHModell: Jede logistische Kurve eines Reizpaares hat ihre eigene einzigartige Steigung; die Kurven sind nicht mehr parallel, und spezifische Objektivität ist deshalb nicht mehr gegeben. Ein Modell der Form (15) wird BIRNBAUM-Modell genannt (BIRNBAUM, 1968). In Unfolding-Anwendungen könnte es BUM genannt werden: BIRNBAUM-Unfolding-Modell.

q = 0 " X v = Y jk . 4.2.2. LUM Deshalb muß der Exponent die Form exp(q(d(j, k ) x ( Y j l t - X v ) ) h a b e n , wobeiq(d(j, k)) eine Funktion von d(j, k) ist. Wenn d(j, k) kleiner wird, wird die Konfusion zwischen den Reizen j und k größer, so daß die Diskriminierbarkeit des Paares (j. k) sinkt. Damit können wir d(j, k) als einen Indikator für die Diskriminierbarkeit der Reize ansehen. d(j, k) sollte zu P v (j, k) monoton sein. Deshalb setzen wir q(d(j, k)) = d(j, k). Nun ist klar, daß in R H U M angenommen wird, daß die Diskriminationsvarianz für alle Reizpaare identisch (gleich 1) ist: Die Kurven für die «Items» (j> k) haben dieselbe Steigung; sie sind parallel (wie es im RASCH-Modell sein sollte). Für das Modell von BECHTEL gilt dasselbe; der einzige Unterschied liegt darin, daß BECHTEL nicht von einer Antwortfunktion spricht, sondern eine Verteilung für die Personenpopulation fordert. Schließlich versehen wir d(j, k) mit einem Vorzeichen: Yj + d(j,k); Yj > Yk > - d ( j , k ) . Dann ergibt sich das alternative Modell:

(15)

P v (j, k) =

exp(d(j, k) (Y jk - X v )) 1 + exp(d(j, k) (Yjk - X v ))

Wie in Abschnitt 4.3. gesagt wurde, ist das RASCH-SiXTL-Modell sowohl eine Funktion von d(v, j) als auch eine Funktion von d(v, k): P v (j, k) muß eine ansteigende Funktion von d(v, k) und abfallende Funktion von d(v, j) sein. Eine mögliche Variante von R H U M wäre deshalb:

(16)

Pv(j» k) =

exp(d(v, k) - d(v, j)) 1 + exp(d(v, k) - d(v, j))

und: P v (k, j) = 1 - P v 0 . k) = exp(d(v, j) - d(v, k)) 1 + exp(d(v, j) - d(v, k)) Im folgenden wird dieses Modell LUM genannt: Logistisches Unfolding-Modell. Es ist anzumerken, daß P v (j, k) unabhängig von der Ordnung von Yj und Yk ist: LUM ist bezüglich j und k symmetrisch. In diesem Modell ist (13) nicht mehr gültig, was jedoch lediglich ein theoretischer Vorteil dieser Variante des RASCH-SIXTLModells ist, da die Daten in Tabelle 7 keine eindeutige Wahl zwischen R H U M - 1 und LUM ermöglichen. Es ist leicht zu beweisen, daß L U M für alle Reiztripel SST vorhersagt (siehe JANSEN, 1979,

183

Zeitschrift für Sozialpsychologie 1981,12,169-185

p.106). Deshalb ist LUM bezüglich stochastischer Transitivität kein besseres Modell als R H U M ; tatsächlich scheint seine empirische Validität sehr viel geringer zu sein. Es ist auch leicht zu beweisen, daß LUM der intuitiven Wahlregel (11) entspricht (siehe JANSEN, 1979, p. 107); deswegen kann es nicht die Daten der Tabelle 4 erklären. Schlußfolgernd müssen wir sagen, daß die einzige wertvolle Eigenschaft LUMs darin liegt, explizit die Reizdistanz d(j, k) zu enthalten. Wenn wir die Ordnung von X v , Yj und Yk kennen, ergibt sich für die Schätzung in LUM kein Problem: -

wenn (j, k) ein unilaterales Paar ist, können wir gewöhnliche Maximum-Likelihood-Met h o d e n ( s i e h e FISCHER, 1 9 7 4 , p . 1 8 8 - 1 9 0 ) v e r -

-

wenden. wenn (j, k) ein bilaterales Paar ist, schätzen wir zuerst c j k = YJ + YK als den Itemparameter eines einfachen RASCH-Modells (genau wie Yj k in RHUM); dann können wir c j k mittels einer LLTM mit geeigneter Strukturmatrix auf eine Linearkombination von YJ und YK reduzieren.

Hier ist anzumerken, daß in der Schätzphase die Ordnung der Reize (einschließlich des Idealreizes) in LUM bekannt sein sollte, was auch in R H U M der Fall ist. LUM, wie es in (16) formuliert wurde, ähnelt d e m v o n SCHÖNEMANN & WANG ( 1 9 7 2 ) v o r g e -

schlagenen Modell, aber in diesem Modell ist die Distanz d(j, k) quadriert. Außerdem wird X v nicht in unilateralen Paaren (j, k) aufgehoben:

(17)

d 2 (v, k) - d 2 (v, j) = ( X V - Y K ) 2 - ( X V - YJ) 2 =

objektive Messung) im SCHÖNEMANN-WANGModell unmöglich (siehe ANDERSEN, 1976).

4.5.

R H U M als ein Wahlmodell

Aus Gleichung (18) ist zu erkennen, daß sich LUM auf ein BTL-Modell zurückführen läßt, d.h.: ein Wahlmodell, in dem der Personenparameter abwesend ist (siehe LUCE et al., 1963, p.217-223; COOMBS et al., 1970, p.149-153), wenn (j, k) ein unilaterales Paar ist. Die folgende Gleichung ist für ein BTL-Modell charakteristisch: P(j, k) P(k, l ) P ( l , j )

_

i

P(k,j)P(l,k)P(j,l) ( L U C E e t a l . , 1 9 6 3 , p . 2 2 0 ; COOMBS e t a l . , 1 9 7 0 ,

p.151); es ist leicht zu sehen, daß LUM für unilaterale Reize mit (19) übereinstimmt. In (19) fehlt der Index v: Gleichung (19) formuliert ein Wahlmodell ohne individuelle Unterschiede: Die Personen werden als sich gegenseitig replizierend angesehen. Es ist bekannt, daß im Falle unilateraler Reize das Unfolding auf ein BTL-Modell zurückgeführt werden kann (siehe COOMBS, 1964, p.499f.), und somit auf ein THURSTONE-LCJModell mit doppelt exponentiellen Diskriminations-Verteilungen (siehe YELLOT, 1977). Gleichung (19) gilt für LUM nicht, wenn die Reize bilateral sind; in solch einem Fall ist die Rückführung auf ein BTL-Modell unmöglich. Es ist nicht schwierig zu prüfen, daß im Falle von RHUM:

Y K - YJ2 - 2X V (YJ - Y K ),

P v (j, k) PY(1, m) P v (l, k) P v (m, j) während in LUM:

P v (k, j) P v (m, 1) P v (k, 1) P ¥ (j, m)

(18)

=1

d(v, k ) - d ( v , j ) = | X v - Y k | - | X v - Y j | = X y — Y|j — X v + Yj — Y j - Y k (Yj, Y k < X v ) . (bilateral: 2XV - Yk - Yj; Yj < X v < Yk).

(YJ < Y K < Y, < Y M ) .

Gleichung (20) formuliert ein Wahlmodell auf Personenniveau. ANDERSEN (1976, p.155; siehe DOUGLAS, 1 9 7 8 , u n d ANDERSEN, 1 9 7 8 ) h a t b e w i e -

Es läßt sich zeigen, daß das SCHÖNEMANNWANG-Modell dieselben Implikationen für Transitivität hat wie LUM. Wie in (17) zu bemerken ist, ist jedoch eine konditionale Maximum-Likelihood-Schätzung (und deshalb eine spezifisch

sen, daß es unmöglich ist, ein BTL-Modell auf Personenniveau zu konstruieren, welches durch die Eigenschaft, hinreichende Statistiken für die Personenparameter zu haben, gekennzeichnet wird. Da R H U M über diese letztgenannte Eigen-

184

Jansen: Spezifische objektive Messung im Falle nicht-monotoner Einstellungsitems

schaft verfügt, kann es nicht als BTL-Modell auf Personenniveau geschrieben werden, eine Tatsache, die durch die Unmöglichkeit illustriert wird (20) auf (19) zurückzuführen. Aus denselben Gründen ist LUM im Falle bilateraler Reize kein BTL-Modell.

5.

Diskussion

In dieser Studie wurde ein Modell beschrieben und ausgearbeitet, welches mit nicht-monotonen Antworten umgehen kann. Dieses Modell, genannt RASCH-SiXTL-Modell oder RASCH-Homogenes Unfolding-Modell (RHUM), hat sowohl monotone, als auch nicht-monotone Aspekte: Im Falle der entfalteten Skala (der J-Skala) sind die Antworten der Personen auf verschiedene Items nicht-monoton; wenn jedoch die J-Skala im Personenpunkt gefaltet wird, ist die resultierende individuelle Skala (I-Skala) monoton. Bei Präferenzwahlen ist die I-Skala notwendigerweise monoton, da sie vom am meisten Präferierten (dem Idealreiz oder Personenpunkt) bis zum am wenigsten Präferierten reicht. Das Unfoldingmodell arbeitet mit einer nicht-monotonen J-Skala; das RASCH-Modell beschreibt, wie eine Person auf ein gegebenes Item antwortet, und es arbeitet mit den Reiz-Mittelpunkten und dem Ideal der Person: Somit arbeitet es ebenfalls mit der J-Skala. Monotonizität tritt auf, da im RASCH-Modell die Distanz zwischen dem Idealpunkt und dem Mittelpunkt der Reize wesentlich ist. Nur im Falle von LUM kann gesagt werden, daß dieses Modell mit einer I-Skala arbeitet (wie wir am Ende des vorhergehenden Abschnitts sahen), welche unipolar und monoton ist. Wir denken, daß bei einer I-Skala derselbe Distanzmechanismus angewendet wird, wie bei der BOGARDus-Skala (siehe JANSEN, 1981), mit der Ausnahme, daß bei der letztgenannten Skala der Idealpunkt vorher bekannt und für alle Personen derselbe ist: Bei der BoGARDUS-Skala der sozialen Distanz haben wir eine Art von Intimitätsrelation, die universal zu sein scheint. Aus zwei Gründen haben wir einige Zweifel bezüglich der empirischen Validität von RHUM: erstens die Abwesenheit irgendeiner Stochastizität der Reizpunkte (siehe Abschnitt 3.3.1. und 4.1.3.) und zweitens die Notwendigkeit gleicher Diskrimination für die Itempaare (siehe Abschnitt 4.4.1.).

Uns erscheint es ziemlich unwahrscheinlich, daß die Reizpunkte Yj keine stochastische Variation zeigen. Intuitiv scheint der Idealpunkt einer Person X v , welcher ein latentes Persönlichkeitsmerkmal darstellt, sehr viel stabiler zu sein als der Wert Yj eines zufällig präsentierten Reizes. In RHUM wird jedoch das Gegenteil angenommen, wie es in der Diskussion der Tabelle 3 in Abschnitt 4.1.3. vereinbart wurde. Angenommen, (i, j, k) ist ein unilaterales Tripel mit der Rangordnung i-j-k. Dann würde man intuitiv erwarten, daß für eine Person v P v (i, k) > MAX(P v (i, j), (j, k)), da d(i, k) > MAX(d(i, j), d(j, k)): Die Reize i und k werden schärfer diskriminiert als die Reize i und j oder j und k. Empirisch scheint dies der Fall zu sein, da bei unilateralen Tripeln SST beobachtbar ist (siehe Tabelle 2). Umgekehrt: Das Auftreten von SST bei unilateralen Tripeln impliziert für die Reizpaare ungleiche Diskriminationen, woraus zu schlußfolgern ist, daß die Präferenzkurven P v (j, k) nicht parallel sein können. Das würde jedoch bedeuten, das ein Modell für probabilistisches Unfolding, daß über paarweise Präferenzen formuliert ist, aus empirischen Gründen nicht die Eigenschaft spezifisch objektiver Messung besitzen kann.

Literatur ANDERSEN, E. B. 1976. Paired comparisons with individual differences. Psychometrika, 41,141-157. ANDERSEN, E. B. 1978. Goodness of fit tests for paired comparison models. A reply. Psychometrika, 43,131. BECHTEL, G . G . 1968. Folded and unfolded scaling from preferential paired comparisons. Journal of Mathematical Psychology, 5, 333-357. BIRNBAUM, A. 1968. Some latent trait models and their use in inferring and examinee's ability. In: Lord, F. M. & Novick, M. R. (Eds.): Statistical theories of mental test scores. Reading/Mass.: Addison-Wesley Publ. Co. COOMBS, C. H . 1964. A theory of data. New York: McGrawHill. COOMBS, C . H . , DAWES, R . M . & TVERSKY, A . 1 9 7 0 . M a t h e -

mathical psychology: An elementary introduction. New Yersey: Prentice-Hall. DOUGLAS, G. A. 1978. Goodness of fit tests for paired comparison models. Psychometrika, 43,129-130. FISCHER, G. H. 1974. Einführung in die Theorie psychologischer Tests. Bern: Huber. GREENBERG, M. G . 1965. A method of successive cumulations for the scaling of pair-comparison preference judgements. Psychometrika, 30, 441-448. HALL, R. & WEIR, R. 1974. Laterality effects in risk preference: A test of portfolio theory. Acta Psychologica, 351-355.

185

Zeitschrift für Sozialpsychologie 1981,12,169-185 JANSEN, P. G. W. 1979. The Rasch model and attitude measurement. Nijmegen. JANSEN, P. G . W . 1981. Spezifisch objektiveMessung im Falle monotoner Einstellungsitems. Zeitschrift für Sozialpsychologie, 12,24-41. LUCE, R . D . , BUSCH, R . R . & G A L A N T E R , E . 1 9 6 3 . H a n d b o o k

of mathematical psychology (Vol. I). New York: John Wiley & Sons. SCHÖNEMANN, P . H . & WANG, M . M . 1 9 7 2 . A n i n d i v i d u a l m o -

del for the multidimensional analysis of preference data. P s y c h o m e t r i k a , 37, 275-310.

SIXTL, F. 1973. Probabilistic unfolding. Psychometrika, 38, 235-248. YELLOT, J . 1 . 1 9 7 7 . T h e r e l a t i o n s h i p b e t w e n L u c e ' s

choice axiom, Thurstone's theory of comparative judgment and the double exponential funetion. Journal of Mathematical Psychology, 15, 109-144.

^ ^ H 1 I A

186

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

Permutationstests als Alternative zur Varianzanalyse Der Split-Plot Versuchsplan KLAUS WILLMES Abteilung Neurologie der R W T H Aachen NORBERT P Y H E L Abteilung Medizinische Statistik und Dokumentation der RWTH Aachen Es wird ein Permutationstest auf Wechselwirkungen im SplitPlot Design vorgestellt. Seine schwächeren Voraussetzungen im Vergleich zum entsprechenden Test der Varianzanalyse werden diskutiert. Zusätzlich wird eine Prozedur zur vollständigen Analyse aller Effekte im Split-Plot Design mit Permutationstests angegeben. Die Kontrolle des experimentbezogenen Fehlers erster Art für die a posteriori-Vergleiche wird durch Anwendung eines sequentiellen Testverfahrens von HOLM gesichert. Praktische Probleme bei der Durchführung von Permuationstests werden durch die vorgeschlagenen Verfahren ebenfalls gelöst.

A permutation test for the hypothesis of no interactions in the split-plot design is introduced. Its weaker assumptions, if compared with the analogous analysis of variance test, are discussed. In addition a procedure for the complete analysis of all effects in the split-plot design using only permutation tests is given. Control of the experimentwise type I error for a posteriori comparisons is provided by the application of a sequential test procedure due to HOLM. Practical problems arising with the performance of permutation tests are also solved with the procedures given.

Einleitung

«stärksten Widerspruch» zur Gültigkeit der jeweiligen Nullhypothese steht. Üblicherweise benutzt man jedoch nicht die Permutationen selbst zur Charakterisierung der kritischen Region. Statt dessen verwendet man eine geeignete Statistik S, die jeder Permutation eine reelle Zahl zuordnet. In dieser Arbeit werden solche Statistiken benutzt, die den Permutationen der kritischen Region K «große», den übrigen Permutationen aber «kleinere» Werte zuweisen. Eine ausführliche Darstellung dieses Prinzips findet man etwa in K E M P T H O R N E (1952, 1955), BRADLEY (1968), EDGINGTON (1969a). Der kombinatorische Aufwand war früher ohne schnelle Rechenanlagen nicht befriedigend zu bewältigen. Man beschränkte sich darauf, die ersten Momente (Erwartungswert, Varianz) zu bestimmen oder das gesamte asymptotische Verhalten der Teststatistiken mit wachsendem n zu studieren (WALD & W O L F O W I T Z , 1944; L E H M A N N & STEIN, 1949). Mit dem Vorhandensein von Großrechnern ist es jedoch möglich, für relativ kleine Stichprobenumfänge die Verteilung der Teststatistik vollständig zu bestimmen oder mit relativ geringem Rechenaufwand «approximative» Randomisa-

Eines der Hauptprobleme der Inferenzstatistik besteht darin, exakte Signifikanztests auch dann ausführen zu können, wenn keine Annahme über die Form der Wahrscheinlichkeitsverteilung gemacht werden kann, die den experimentellen Beobachtungen zugrunde liegt. Eine allgemeine Lösung wurde schon von R . A . F I S H E R (1935) gegeben, der die Verwendung von Signifikanztests, die auf der Methode der Randomisation der Beobachtungen beruhen, vorschlug (FISHER, 1926). Ausgehend von n Beobachtungen in einem bestimmten Versuchsplan wird eine (nicht notwendig echte) Teilmenge G aller n! möglichen Permutationen der Beobachtungen betrachtet. Alle Permutationen dieser Teilmenge G sind unter der jeweils interessierenden Nullhypothese gleichwahrscheinlich. Den exakten Signifikanztest erhält man dann durch Bildung einer kritischen Region K c G (Ablehnbereich gegen H 0 ), indem man denjenigen Anteil a an der Gesamtmenge G der zulässigen Permutationen auswählt, der im Mit Unterstützung der Deutschen Forschungsgemeinschaft.

187

Zeitschrift fürSozialpsychologiel981,12,186-198

tionstests (EDGINGTON, 1969b; EDGINGTON & STRAIN, 1973) auszuführen. Dazu wird - mit Hilfe eines Zufallszahlengenerators - eine Zufallsstichprobe mit Zurücklegen aus der Menge aller zulässigen Permutationen gezogen und, wie zuvor beschrieben, ein exakter Test zum Niveau a durchgeführt. Der Verlust an Schärfe des Tests (im Aufdecken der Alternativhypothese) ist nicht sehr groß (DWASS, 1957; EDGINGTON & STRAIN, 1973). PITMAN (1937a, b), WELCH (1937) und andere Autoren haben als erste Zusammenhänge zwischen ihren Permutationstests und dem t-Test bzw. der Varianzanalyse aufgezeigt. Bislang gibt es jedoch keine Übersicht, zu welchen Tests in varianzanalytischen Designs analoge Permutationstests existieren (oder nicht existieren können). Mit den Arbeiten von PYHEL (1978, 1980) ist eine einheitliche Methodik zur Analyse mehrfaktorieller linearer Modelle mit Permutationstests vorgelegt worden. Hier soll sie am Beispiel der vollständigen Analyse eines Split-Plot Versuchsplanes (KIRK, 1968) vorgestellt werden. Um eine einheitliche Darstellung zu erleichtern, werden die Permutationstests für das 2-Stichprobenproblem für unabhängige und abhängige Stichproben (PITMAN, 1937a) und für das k-Stichprobenproblem bei unabhängigen Stichproben (CRk in der Notation von KIRK, 1968) sowie bei verbundenen Stichproben (RB-k) noch einmal vorgestellt. Auf die Verwendung von Randomisationstests bei Rangstatistiken ( P U R I & S E N , 1 9 7 1 ) , beim Vergleich von (Ähnlichkeits-)Matrizen (HUBERT & SCHULTZ, 1 9 6 8 ) speziell für den Vergleich von soziometrischen Wahlen HUBERT & BAKER ( 1 9 7 8 ) , in der Analyse von Verlaufskurven (ZERBE, 1979) u n d bei der Einzelfallanalyse (EDGINGTON, 1 9 6 7 , 1 9 6 9 )

1.

sei hier nur verwiesen.

Das 2-Stichprobenproblem bei unabhängigen Stichproben

X—

XN„LTX12

XN„2)

bzw. die Stichprobenrealisation mit x =

(xil> •••> x n,, 1> XI2> •••> x n„ 2)

bezeichnet. (Vergleiche Abbildung la.) Getestet werden soll die Nullhypothese. H 0 : alle X u sind identisch verteilt gegen die (einseitige) Alternativhypothese: A: die XIX sind im Durchschnitt größer als die Xß, d.h. die Verteilungsfunktion von X U ist, verglichen mit der von X^, nach rechts verschoben. Zum Testen der obigen Nullhypothese ist die Statistik

(1)

n, S(X)= L XÜ i= 1

geeignet. Die Nullhypothese wird man dann zugunsten der Alternativhypothese A verwerfen, wenn der «beobachtete» Statistikwert S(x) groß ist. Zur Beurteilung seiner Größe mache man sich deutlich, daß H 0 auch so formuliert werden kann - H 0 : die Zufallsvariable X und alle Zufallsvariablen 7tX, die durch die n! möglichen Permutationen 7t der Komponenten von X erzeugt werden, besitzen die gleiche Verteilung. Man kann daher S(x) mit allen Statistikwerten S(7tx) vergleichen, die man erhält, wenn man alle n! möglichen Permutationen 7tx der Komponenten von x ausführt und jeweils die ersten n, Werte zu S(7tx) aufsummiert. Man bestimmt durch Abzählen den p-Wert, p: = p>+ p=, mit (2)

p>: = # (S(JIX) > S(x))/n!, p=: = #(S(7tx) = S(x))/n!,

und trifft die Testentscheidung zum Niveau a , 0 < a < 1, folgendermaßen: (3)

Ein 2-Stichprobenexperiment läßt sich durch unabhängige Zufallsvariable X^, mit Realisationen (Beobachtungen) x^, i = 1, ..., n^ j = 1,2 (Stichprobenindex) beschreiben. Die Zufallsvariablen seien in jeder der beiden Stichproben identisch verteilt. Die Gesamtstichprobe vom Umfang n = n, + n 2 werde mit

(XU

H 0 wird verworfen, falls p>+ p=< a .

Zum Testen einer zweiseitigen Alternativhypothese bestimmt man (2) einmal für +x und einmal für - x und entscheidet (4)

H 0 wird verworfen, falls p = 2 • min((p>+ p=)+, (p>+ p=) } < a ist.

188

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

189

Zeitschrift für Sozialpsychologie 1981,12,186-198

2.

Das k-Stichprobenproblem bei unabhängigen Stichproben

Das Ergebnis eines k-Stichprobenexperimentes mit unabhängigen Stichproben sei durch n Beobachtungen X;j von unabhängigen Zufallsvariablen X u , i = l , ....nj; j = l k ; n = n , + ...+n k gegeben (vergleiche Abbildung lb). Dabei seien die Xjj, i = l , . . . , nj, jeweils identisch verteilt. Die Gesamtstichprobe werde mit X=

( X n , ..., X n „ i, X u , ..., X n2|2 » ..., x l k , . . . , x n k ) k)

bezeichnet. Getestet werden soll die Nullhypothese: H0:

alleXjj- j = l , . . . , k ; i = l , . . . , n j - s i n d identisch verteilt

sind; S(X) wird umso größer, je unterschiedlicher sie sind. Man berechnet wieder für jede der n! zulässigen Permutationen 7t den Statistikwert S(rcx) und trifft mit Abzählregel (2) die Testentscheidung zum Niveau a wie in (3). Zum gleichen Testergebnis kommt man mit der Statistik

(6)

S(X)=

k I n j i X . j - X . .) 2 , j= l

denn das Gesamtmittel X bleibt unter allen n! Permutationen unverändert, und nach einfacher Umrechnung läßt sich die Statistik S schreiben als:

(6a)

S=

k EnjX'j-nX2 j= l

gegen die Alternativhypothese (Lagealternative) A:

(Xy-, . . . , X n . , j O sind im Durchschnitt größer oder kleiner als die übrigen X^ für mindestens eine Stichprobe j ' e {1,..., k).

Eine geeignete Statistik 1 zum Testen der obigen Nullhypothese ist:

(5)

S(X)=

k ^n.-X^.

n k j 1 = Znj-i L Xjj) 2 j= l j i= 1

Es werden in der Statistik also lediglich die um den Stichprobenumfang gewichteten Quadrate der Stichproben-(Spalten-)mittelwerte benötigt. Daß S(X) aus (5) eine geeignete Statistik ist, zeigt folgende Überlegung: S(X) nimmt dann einen relativ kleinen Wert an, wenn die verschiedenen Stichprobenmittelwerte annähernd gleichgroß

' Für den gesamten Artikel gilt folgende Schreibweise: Ein Punkt anstelle eines Index bedeutet Summation Uber diesen Index und der Querbalken über x die zugehörige Mittelwertbildung.

S(X) aus (6) bildet bis auf Division durch die Anzahl Freiheitsgrade den Zähler der entsprechenden F-verteilten Statistik der Varianzanalyse für den CR-k Plan.

3. Das k-Stichprobenproblem für verbundene Stichproben Seien n Blöcke mit jeweils k Beobachtungen x^ j = l , . . . , k; i = l , . . . , n - v o r h a n d e n . Üblicherweise handelt es sich dabei um Beobachtungen an n experimentellen Einheiten (Vpn) unter jeweils denselben k experimentellen Bedingungen. Die (xji Xjk) - i = 1 , . . . , n - seien dabei Realisationen der unabhängigen Zufallsvariablen X^ = ( X u , . . . , X ik ) - i = 1 n (vergleiche Abbildung lc). Getestet werden soll die Nullhypothese: H0:

für jedes i = 1 identisch verteilt

n gilt: X u

X ik sind

gegen die Lagealternative (wie in 2.): A:

(Xy X n j -) sind im Durchschnitt größer oder kleiner als die übrigen X y für mindestens e i n j ' e { l , . . . , k).

190

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

Wie für das Testproblem mit unabhängigen Stichproben ist k (7)

S(X)=

I

Xjj und Xj2 sind für jedes i = l , . . . , nidentisch verteilt

gegen die einseitige Lagealternative X^J

j= l

A:

eine geeignete Statistik. Die Beobachtungen aus verschiedenen Blökken brauchen auch bei Gültigkeit der Nullhypothese nicht notwendigerweise aus derselben Verteilung zu stammen; vielmehr können etwa Niveau- oder Variabilitätsunterschiede zwischen den Blöcken vorhanden sein. Deshalb ist es nicht sinnvoll, wie beim Testproblem für unabhängige Stichproben S(x) mit allen möglichen (n • k)! Werten S(7tx) zu vergleichen. Vielmehr kann man bei Gültigkeit von H 0 nur davon ausgehen, daß für jedes i = l , . . . , n jeweils die Zufallsvariable Xj und ihre k! Permutationen 7tX; identisch verteilt sind. Insgesamt ergeben sich damit nur (k!) n Werte S(7ix). Allgemein kann man folgende Regel formulieren: Zur Ermittlung der Permutationsverteilung S(7tx) dürfen nur solche Beobachtungen vertauscht werden, deren zugehörige Zufallsvariablen bei Gültigkeit der Nullhypothese identisch verteilt sind. In Analogie zum Zähler der entsprechenden Teststatistik aus der Varianzanalyse für den RB-k Versuchsplan kann man äquivalent zu (7) auch die Statistik k

(7a) S(X) =

H0:

In(XrX

j= l

)2

k = n £ X2j - n X 2 j= l betrachten. Mit der Abzählregel (2) trifft man auch hier die Testentscheidung zum Niveau a wie in (3). Spezialfall: das verbundene 2-Stichprobenproblem. Pro Block liegen also (nur) k = 2 Beobachtungen vor. Getestet werden soll die Nullhypothese

X ü - i = 1,..., n - sind im Durchschnitt größer als die X^. Hier ist

(8)

S(X)=

n _ E Xu = n • X ! i= 1

eine geeignete Teststatistik. Mit der Abzählregel (2) wird die Testentscheidung wie in (3) getroffen. Bei zweiseitiger Alternative geht man wie beim unverbundenen 2-Stichprobenproblem vor.

4.

Der Split-Plot-Versuchsplan (SP-r.c)

4.1 Der Test auf

Wechselwirkungen

Seien n=nj-l-... +n r Blöcke mit jeweils c Beobachtungen x h i j - h = l , ..., r; i = l , . . . , n h ; j = l cvorhanden. Üblicherweise handelt es sich um Beobachtungen an n experimentellen Einheiten (Vpn) unter jeweils denselben c Bedingungen eines (Split-)Faktors B; jeweils n h - h = 1, ..., r Blöcke erhalten unter der h-ten Stufe eines (Whole-Plot-)Faktors A die gleiche Behandlung. (Siehe auch KIRK, 1968.) Oft steht der Faktor A für verschiedene (homogene) Subgruppen von Vpn und der Faktor B für verschiedene (fixierte) Zeitstufen wobei jede Vpn unter allen c Zeitstufen beobachtet wird. Sei wieder X = ( X m , ..., XF( n J die zugehörige n-c - dimensionale Zufallsvariable, wobei die Blöcke X h i = (X h i l , ..., Xhi C )-h = l , . . . , r ; i = l , . . . , n h -voneinander unabhängig sind (vergleiche Abbildung 2). Im Gegensatz zum RB-k sind zwischen den Blöcken nur Niveau-, nicht aber Variabilitätsunterschiede zulässig. Variabilitätsunterschiede auf verschiedenen Stufen des Split-Faktors sind dagegen erlaubt. Ein solcher zweifaktorieller Versuchsplan wird immer dann sinnvoll angewendet, wenn untersucht werden soll, ob die experimentellen Bedingungen auf den einzelnen Zeitstufen verschiedene Effekte erzeugen, oder ob die Zeiteffekte

191

Zeitschrift für Sozialpsychologie 1981,12,186-198

H0:

Split-Faktor

1 ••• Whole PlotFaktor

1

Block

1

x

m

j •••

c

xnj

xllc

A:

n

I

x

lil

x

Xn,,l

X

x

htl

x

x

lic

ln,,j

X

ln,,c

hlj

x

hlc

*iu

PYHEL (1980) hat gezeigt, daß bei Gültigkeit von H 0 die Zufallsvariablen Xfc: = (Xfo,..., Xj?ic) mit Xfcj = X h i j - Xhi. (j = 1 c) für alle h = 1 r und i = 1 , . . . , n h identisch verteilt sind. Der Regel über die Vertauschbarkeit der Beobachtungen unter H 0 folgend bildet man alle n! möglichen Permutationen der transformierten Blöcke Xfr, d.h. alle 7tX* = 7t(Xf! X* ). Für jede dieser Permutationen berechnet man die Werte der Statistik 2

(9) x

n

n

h

r

hil

x

hij

x

keine Wechselwirkung zwischen den Faktoren A und B gegen die Alternativhypothese es bestehen Wechselwirkungen zwischen den Faktoren A und B.

S(X*)=

hic

X

hnh,l

X

hnh,j

X

hnh,c

x

rll

x

rlj

x

rlc

x

ril

x

rij

x

ric

X

rnr,l

X

rnr>j

X

rnr,c

und fällt die Testentscheidung zum Niveau a nach Abzählregel (2) wie in (3). Die Analogie zur ANOVA zeigt, daß diese Statistik geeignet gewählt ist, denn man trifft dieselbe Entscheidung mit der Statistik r c _ _ _ _ S*= £ n h I (Xff. j -XS..-X* j + X*.)2 h=l j=l r c _ _ _ _ = E nh I ( X , , j - X h - X j + X )2. h=l j=l Eine andere Schreibweise von (9) ist

Beobachtungen x M j h = 1,..., r; i = 1,..., n h ; j = 1,..., c

r (9a)

Abb.2:

Der Split-Plot Versuchsplan.

nicht unter allen experimentellen Bedingungen gleichgroß sind. Man spricht dann von Wechselwirkungen zwischen den beiden Faktoren. Vergleicht man Abb. 2 mit Abb. 1, so erkennt man im Split-Plot-Plan, spaltenweise betrachtet, die cfache Ausführung eines CR-r Planes, bzw. stufenweise betrachtet, die r-fache Ausführung eines RB-c Planes. Getestet werden soll die Nullhypothese

r c _ I nh I Xf j h=l j=l

S(X)=

I

h=l

c nh

I

(XHJ-XH..)2.

j=l

Sie verdeutlicht den Zusammenhang zum RB-c: (9a) ist die mit den Stichprobenumfängen gewichtete Summe von RB-c-Statistiken (7a). Zu jeder Variablen tritt der Index h hinzu, der die Stufen des Plot-Faktors bezeichnet. Hingegen entspricht die Permutationsvorschrift der Vorge2 Bei rangtransformierten Beobachtungen ist das Blockmittel X hi eine Konstante und braucht deshalb nicht berücksichtigt zu werden. Man verwendet in (9) X statt X*.

192

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

hensweise des CR-r, hier angewandt auf die ganzen Blöcke. 4.2 Vollständige Testprozedur Je nachdem ob der Test auf Wechselwirkungen die Nullhypothese verwirft oder nicht, haben die Tests auf Haupteffekte des Faktors A oder des Faktors B eine andere Form und werden zu unterschiedlichem Niveau durchgeführt. Bei signifikantem Testergebnis sind es Tests auf einfache Haupteffekte (KIRK, 1 9 6 8 ) , ansonsten Tests auf Haupteffekte. 1. Fall: Es werden keine Wechselwirkungen angenommen. Zum Testen des (Whole)-plot-Faktors müssen 2 Situationen unterschieden werden, die dadurch gekennzeichnet sind, ob die Summen

a/c bzw. zum Niveau a/r entschieden. Diese sogenannte Adjustierung des Fehlerniveaus ist für die einfachen Plot-Effekte wegen Abhängigkeiten über die Blöcke hinweg und wegen Abhängigkeiten aufgrund der signifikanten Wechselwirkungen notwendig. Wird nämlich zum Beispiel in der ersten Spalte ein zum Niveau a / c signifikanter Einfluß des Plot-Faktors gefunden, so wird durch den vorhandenen Wechselwirkungseffekt die Wahrscheinlichkeit dafür erhöht, daß ein solcher Plot-Effekt auch in mindestens einer weiteren der c Spalten aufgedeckt wird. Die Adjustierung des Fehlerniveaus für die einfachen SplitEffekte ist allein wegen Abhängigkeiten aufgrund der signifikanten Wechselwirkung erforderlich. Für diesen Test müssen wieder die im Fall 1 genannten Voraussetzungen erfüllt sein. (Durch Blockrangbildung wird dies stets erreicht.)

(10) x hi =x hil +...+x hic

4.3 A-posteriori Vergleiche

wie bei Rangdaten konstant sein müssen, oder nicht konstant sind. Im letztgenannten Fall untersucht man den Plot-Effekt anhand des Tests für den CR-r-Plan (5) zum Niveau a bezüglich der neuen Variablen X h i , h = l , . . . , r; i = l , . . . , n h . Andernfalls geht man wie weiter unten beschrieben für den Fall mit Wechselwirkungen vor. Damit der Split-Effekt überhaupt getestet werden kann, muß in den Versuchsplan die weitere Voraussetzung aufgenommen werden, daß die Komponenten eines Blockes X h i l ,..., X hic jeweils die gleiche Variabilität besitzen für alle i = 1, ..., n h ;h = l , . . . , r . Unter dieser zusätzlichen Voraussetzung wird der Split-Effekt zum Niveau a durch Anwendung des Testes für den RB-c auf alle n Blöcke getestet, d.h. die Einteilung nach Stufen des Plot-Faktors wird hierbei ignoriert. Diese zusätzliche Voraussetzung ist immer erfüllt, wenn blockweise Rangdaten vorliegen.

Bei signifikantem (einfachem) Haupteffekt interessieren nun Vergleiche zwischen jeweils zwei Stufen eines Faktors (sog. Paarvergleiche). Zur Kontrolle des experimentbezogenen Fehlers 1. Art (vergleiche KIRK, 1968) hat HOLM (1979) eine Prozedur vorgestellt, die die Verwendung der bekannten 2-Stichprobentests ermöglicht. Seine sequentielle Testprozedur soll am Beispiel eines signifikanten Haupteffektes des Plot-Faktors erläutert werden (es werden keine Wechselwirkungen angenommen). Es werden alle m = r(r - l ) / 2 möglichen Paarvergleiche mit dem Permutationstest für das unverbundene 2-Stichprobenproblem durchgeführt und die nach Abzählregel (2) ermittelten p-Werte der Größe nach geordnet: p d X . . . < p. Die zu den Tests gehörenden Nullhypothesen (zweiseitige Alternative) seien mit H£),..., H^bezeichnet. Falls pd)< a / m ist, wird Hd) verworfen und zu jeweils größer werdendem Niveau a / ( m - l ) für den Test von H(2>, a / ( m - 2 ) für den Test von H(3), usw. solange fortgefahren, wie p00 < a / ( m - k + 1) ist. Falls jedoch p00 > a / ( m - k + 1) ist, wird das sequentielle Testverfahren abgebrochen und die Hypothesen H a/m) oder auch alle Paarvergleiche ein signifikantes Ergebnis liefern. Bei dieser Test-

2. Fall: Es werden Wechselwirkungen angenommen. Es werden c bzw. r Permutationstests für den CR-r bzw. RB-c-Plan durchgeführt. In den Testentscheidungen wird jedoch berücksichtigt, daß es sich um c bzw. r Tests auf einfache Effekte handelt. Jeder der c Pj-Werte bzw r ph-Werte wird einzeln beurteilt, und es wird jeweils zum Niveau

193

Zeitschrift fürSozialpsychologiel981,12,186-198

Test auf Wechselwirkung Niveau a, Formel (9)

Tests auf einfache Haupteffekte PlotFaktor, Niveau a / c , Formel (5)

Abb.3:

Tests auf einfache Haupteffekte SplitFaktor, Niveau a / r , Formel (7)

Tests auf Haupteffekt Plot-Faktor wie CR-r in (5) mit Formel (10) Niveau a

Test auf Haupteffekt Split-Faktor wie RB-c in (7) Niveau a (Zusatz-Vorauss.!)

Logische Abfolge der Testentscheidungen für die Analyse des Split-Plot Versuchsplans mit Permutationstests.

Prozedur ist die Wahrscheinlichkeit eine oder mehrere der Nullhypothesen HU),..., H fälschlicherweise verworfen zu haben, höchstens gleich dem Niveau, auf dem der Haupteffekt signifikant genannt worden ist. Entsprechend werden bei signifikantem Effekt des Split-Faktors alle c(c - 1 ) / 2 Paarvergleiche der Spalten mit dem Permutationstest für das verbundene 2-Stichprobenproblem durchgeführt, und es wird mit der Testprozedur nach H O L M zum Niveau a entschieden. Für jede Stufe des Split-Faktors, für die der einfache Haupteffekt (bei vorliegenden Wechselwirkungen) des Plot-Faktors zum Niveau a / c signifikant ist, wird jeweils für alle r(r - l ) / 2 Paarvergleiche mit (1) die Prozedur nach H O L M zum Niveau a / c durchgeführt. Der Paarvergleich mit dem kleinsten p-Wert wird also gegen (a/c) / (r(r - 1 ) / 2 ) verglichen, usw. Entsprechend wird für jeden zum Niveau a/r signifikanten einfachen Effekt des Split-Faktors die Prozedur mit (8) zum Niveau a / r ausgeführt.

Die vollständige Testprozedur für den SplitPlot-Versuchsplan faßt Abbildung 3 noch einmal zusammen.

5.

Praktische Durchführung

Die Bewältigung des nicht unerheblichen kombinatorischen Aufwandes bei der Durchführung der Permutationstests erfordert einige technische Überlegungen. Werden z.B. für den 2-Stichproben-Test bei unabhängigen Stichproben alle (n, + n 2 )! Permutationen ausgeführt, so tritt jeder errechnete Statistikwert mit der Häufigkeit n,! • n 2 ! ayf, denn Permutationen von Beobachtungswerten innerhalb einer Stichprobe führen zu demselben Statistikwert. Zudem können etwa durch Bindungen zwischen beobachteten Werten weitere Statistikwerte identisch ausfallen. Offensichtlich ist es in jedem Falle ausreichend nur n!/(n,! • n 2 !) Permutationen zwischen den Stichproben auszuführen.

194

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

Tab. 1: Beispiele für den Rechenzeitaufwand bei verschiedenen Permutationstests. Design

Stichprobenumfänge

2 Stichproben, unverbunden

n, = n2 = 10

2 Stichproben, verbunden

n = 18

2"

CR-3

n, = n2 = n3 = 5

15!

RB-4

n=5

SPF-2.4

n, = n2 = 10

Entsprechende Überlegungen, die den kombinatorischen Aufwand erheblich verringern, können auch in den übrigen Beispielen unternommen werden. So benötigt man etwa für den RB-k Plan nicht alle (k!) n möglichen Permutationen, sondern kann die Werte der ersten Zeile festhalten und braucht nur (k!) n - 1 Permutationen auszuführen. Damit werden die «Spaltenvertauschungen» vermieden, die stets zu identischem Statistikwert führen. Schnelle Algorithmen für die bei diesen Permutationstests anfallenden kombinatorischen

Anzahl der Permutationen

ü

(5!)3

(4!)'

(2)

Rechenzeit [sec] 3 8 11

12 13

mutationen führen im allgemeinen zu (leicht) unterschiedlichen p-Werten. Aufgrund des starken Gesetzes der großen Zahlen liegen die ermittelten p-Werte für große N «in der Nähe» des exakten pWertes, den man erhält, wenn man alle zulässigen Permutationen ausführt. Eine Abschätzung des zu erwartenden Fehlers liefert das Konfidenzintervall für den Parameter der Binomialverteilung (SACHS, 1978): Für N = 10000 und eine Konfidenz-Wahrscheinlichkeit von 95% ist die zweite Dezimale des p-Wertes (p < 0.05) schon stabil.

P r o b l e m e sind v o n PYHEL & HENN (1979) erstellt

worden. Tabelle 1 gibt einen Eindruck vom benötigten Rechenzeitaufwand an einer CDCCYBER 175. Die Beispiele zeigen, daß auch bei relativ «kleinen» Testproblemen der Zeitaufwand schon recht groß ist. Bei wachsenden Stichprobenumfängen oder zunehmender Zahl von Faktorstufen gerät man rasch in einen Rechenzeitbereich, der die exakte Testausführung verbietet. Als Ausweg bietet sich hier die Monte-Carlo-Lösung der Testprobleme an (approximativer Randomisationstest n a c h EDGINGTON, 1969).

Aus der Menge der unter der jeweiligen Nullhypothese zulässigen Permutationen werden N Permutationen (mit Hilfe eines Zufallszahlengenerators für gleichverteilte Zufallszahlen) zufällig ausgewählt; N = lOOOOPermutationen reichen im allgemeinen schon aus. Für jede der N Permutationen wird wieder der jeweilige Statistikwert S(nx) berechnet und anhand der Abzählregel (2) mit dem Statistikwert S(x) für die gegebenen Beobachtungswerte verglichen. Auch dieser Test ist ein exakter Test zum Niveau a (DWASS, 1957). Verschiedene zufällige Auswahlen von N Per-

6.

Zum Skalenniveau der Beobachtungen

Da die Mehrzahl der in der psychologischen Forschung erfaßten Variablen kein Intervallskalenniveau besitzt, dürfen die Testentscheidungen nur von der Rangordnung der beobachteten Werte abhängen. Weil keinerlei Voraussetzungen über die Verteilungen der betrachteten Zufallsvariablen gemacht worden sind - auch Stetigkeit wurde nicht verlangt - können die Beobachtungswerte in Ränge oder verallgemeinerte Ränge (PuRI & SEN, 1971) transformiert und die Permutationstests für diese Ränge ausgeführt werden. Falls im Versuchsplan Blöcke vorliegen, werden die Ränge blockweise zugewiesen (Blockrangbildung), ansonsten werden Ränge über die gesamte Stichprobe hinweg vergeben (Totalrangbildung). Einen besonderen Hinweis verdient die Tatsache, daß der Test auf Wechselwirkungen im Splitplot-Design durch die Rangbildung seine Schärfe (Power) gegen ordinale Wechselwirkungen verliert, die bei ordinalen Daten auch nicht von Interesse sind.

195

Zeitschrift fürSozialpsychologiel981,12,186-198

7.

Anwendungsbeispiel

LIENERT (1978, p.339ff.) reanalysiert in dem Kapitel über nichtparametrische Verlaufskurventests ein Experiment von HÖFEL über den Einfluß von Alkohol auf Intelligenztestleistungen. 16 (= n j Personen der Experimentalgruppe erhielten vor der Bearbeitung des Figure-ReasoningTest 30 ml Alkohol in Fruchtsaft und 15 (= n 2 ) Personen der Kontrollgruppe die gleiche Menge Fruchtsaft ohne Alkohol. Um die mögliche Belastung durch die Testsituation feststellen zu können, wurde vor Beginn (Zeitpunkt 1), zu Beginn (Zeitpunkt 2) und am Ende des Tests (Zeitpunkt 3) die Pulsfrequenz als Belastungsindikator gemessen. In Tabelle 2 sind die Beobachtungswerte der 31 Versuchspersonen wiedergegeben. Es handelt sich also um einen Split-Plot-Versuchsplan (SPF2.3). LIENERT weist den Daten blockweise Ränge zu und vergleicht die mittleren Rangsummen der beiden Personengruppen für jeden der drei Zeitpunkte mit dem von ihm so benannten Stützstellen-Lokationstest von LEHMACHER & WALL (1978). Dieser Test ist sensitiv auf Unterschiede in der mittleren Profilgestalt der beiden Versuchsgruppen; eventuell bestehende Unterschiede im Profilniveau können aufgrund der

Tab.2: Rohdaten und beschreibende Statistik für die Pulswerte

Blockrangbildung nicht festgestellt werden. Es ergeben sich für ein Gesamtfehlerniveau von a = 0.05 signifikante Unterschiede zu den ersten beiden Zeitpunkten. Mit den oben vorgestellten Permutationstests werden die Rohdaten selbst analysiert. Auffällig ist die hohe interindividuelle Variabilität der Pulswerte, die man jedoch in vielen Experimenten mit physiologischen Variablen als Indikatoren psychischer Zustände vorfindet. In einer vollständigen Analyse des Split-Plot-Planes wird zuerst der Test auf Wechselwirkungen (Profilparallelität) durchgeführt. Da bei Stichprobenumfängen von 16 und 15 31 !/16! • 15!» 3.05 • 108 unterschiedliche Permutationen zu berücksichtigen sind, ist aus Rechenzeitgründen nur die MonteCarlo-Lösung mit z.B. 100000 zufällig ausgewählten Permutationen vertretbar. Das Ergebnis (auch der folgenden Tests) zeigt Tabelle 3; die jeweils benötigte Rechenzeit ist ebenfalls angegeben. Da nur 271 der Werte der Teststatistik für permutierte Blöcke einen größeren Wert als den der ursprünglichen Prüfgröße ergeben und keine identischen Werte auftreten, resultiert ein p-Wert von p = 0.00271. Da p < 0.5 ist, wird die Nullhypothese «keine Wechselwirkungen» verworfen. Auch wenn man den Permutationstest für die Ränge durchführt, ergibt sich ein signifikanter p-

(LEHMACHER & WALL, 1 9 7 8 ) .

Experimentalgruppe (EG) Zeitpunkt (n = 16)

Median

X (X)

Bereich (s)

1

2

3

63 60 89 82 70 53 85 86 58 70 80 95 78 87 85 83

66 70 80 80 72 69 93 81 65 72 76 83 90 82 93 98

77 80 88 83 71 66 92 84 68 71 72 82 84 86 92 88

81.0 (76.5) 53-95 (12.6)

80.0 (79.4) 65-98 (10.2)

82.5 (80.3) 66-92 (8.5)

Kontrollgruppe (KG)

(n = 15)

1

2

3

70 66 95 78 64 100 86 65 66 90 76 88 84 83 104

64 63 82 71 59 88 85 58 77 70 65 77 81 72 99

69 61 80 80 65 84 92 67 73 82 74 86 ,64 86 86

83.5 (81.0) 64-104 (13.1)

77.0 (74.1) 58-99 (11.6)

80.0 (76.6) 61-92 (9.7)

196

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

Tab.3: Ergebnisse der vollständigen Testprozedur für die Beispieldaten. Test

Anzahl Permutationen

Wechselwirkungen

Rohdaten Blockränge

Einfache Haupteffekte Split-Faktor

Rohdaten

EG KG Blockränge EG KG

20000 (Monte 20000 (Monte 20000 (Monte 20000 (Monte

Einfache Haupteffekte Plot-Faktor

Rohdaten

1 2 3 1 2 3

20000 (Monte 20000 (Monte 20000 (Monte 20000 (Monte 20000 (Monte 20000 (Monte

1-2 1-3 3-2

32768 (exakt) 32768 (exakt) 32768 (exakt)

Blockränge

Paarvergleiche KG (einseitig) 3

Rohdaten

P*

P"

p-Wert

271 732

0 77

Carlo) Carlo) Carlo) Carlo)

2720 248 5772 221

7 2 1284 25

0.13635 0.0125 0.3528 0.0123

Carlo) Carlo) Carlo) Carlo) Carlo) Carlo)

6734 3680 5251 90 127 12637

142 111 157 123 187 3480

0.3438 0.18955 0.2704 0.01065 0.0157 0.80585

35 1220 4650

13 159 433

100000 (Monte Carlo) 100000 (Monte Carlo)

RechenTestTestNiveau Entschei- zeit (sec)3 (a = 0.05) dung

0.00271 a 0.00809 a

sign. sign.

60.5 60.5

a/2 a/2 a/2 a/2

n.s. sign. n.s. sign.

9.7 8.9 9.5 8.9

a/3 a/3 a/3 a/3 a/3 a/3

n.s. n.s. n.s. sign. sign. n.s.

3.5 3.6 3.6 3.5 3.5 3.5

0.00146 a / 6 0.04021 a / 4 0.15512 a / 2

sign. n.s. n.s.

7.6 7.6 7.6

Alle Berechnungen wurden mit der CDC-CYBER175 des Rechenzentrums der RWTH Aachen durchgeführt.

Wert von p = 0.00809, was - wie auch die mittlere Höhe der Rangsumme - zeigt, daß es sich um disordinale Wechselwirkungen handelt. Bei signifikantem Ergebnis des Tests auf Wechselwirkungen sind nachfolgende Tests auf einfache Haupteffekte durchzuführen (vergleiche Abb.3). Für den Split-Faktor ergeben sich nur für die Kontrollgruppe signifikante Unterschiede zwischen den drei Zeitpunkten (p = .0125 < a/2). Da man auch bei Betrachtung der Blockränge zu derselben Testentscheidung gelangt (p = .0123) ist die Zusatzvoraussetzung der identischen Variabilität der Komponenten eines jeden Blockes in diesem Fall nicht kritisch. Für keinen der drei Zeitpunkte gibt es jedoch einen signifikanten Unterschied in der mittleren Höhe der Pulswerte zwischen den beiden Versuchsgruppen. (Anstelle der Permutationstests für den CRPlan mit k = 2 hätte auch der zweiseitige 2Stichprobentest für unabhängige Stichproben durchgeführt werden können.) Die mittleren Rangsummen bei Blockrangbildung ergeben für diese Fragestellung ein verzerrtes Bild; die relativ dicht beieinanderliegenden empirischen Mediane zusammen mit den großen interindividuellen Streuungen lassen schon kein anderes Ergebnis erwarten. Führt man jedoch diese Tests auf einfache Haupteffekte des Plot-Faktors für Blockränge durch, kommt man zu derselben Testentschei-

dung wie LIENERT: 1 . Zeitpunkt p = 0 . 0 1 0 6 5 ; 2 . Zeitpunkt p = 0 . 0 1 5 7 ; 3. Zeitpunkt p = 0 . 8 0 5 8 5 . Da die Teststatistik des Tests von LEHMACHER & WALL, wie der Permutationstest, nur von den Rangsummen und Stichprobenumfängen abhängt, ist der Permutationstest besonders bei kleineren Stichprobenumfängen, für die die x2Approximation fraglich ist, eine Alternative zum Test von LEHMACHER & WALL. Abschließend ist für die Kontrollgruppe (signifikanter einfacher Haupteffekt!) festzustellen, welche Paarvergleiche zwischen je zwei der drei Zeitpunkte mit der Prozedur von HOLM signifikante Unterschiede ergeben. Bei einem Stichprobenumfang von fünfzehn ist die exakte Lösung mit je 215 möglichen Permutationen nicht zu zeitaufwendig. Der p-Wert (kleinster p-Wert!) für den zweiseitigen Vergleich der beiden ersten Zeitpunkte liegt unterhalb des Signifikanzniveaus von (a/2)/3, während der nächstkleinere pWert für den Vergleich von Zeitpunkt 1 und 3 größer als ( a / 2 ) / ( 3 - l ) ist. Damit werden auch alle übrigen Paarvergleiche - hier nur noch der Vergleich Zeitpunkt 2 gegen Zeitpunkt 3 - als nicht signifikant bezeichnet. Das Ergebnis der gesamten Testprozedur kann so interpretiert werden, daß nur ohne Alkohol mit dem Beginn der Leistungsanforderung ein signifikantes Absinken der Anspannung einhergeht, welches aber bis zum Ende der Testsitzung nicht bestehen bleibt.

197

Zeitschrift fürSozialpsychologiel981,12,186-198

Diskussion Im Kern dieser Arbeit wird ein Permutationstest vorgestellt, der das Analogon zum varianzanalytischen Test auf Wechselwirkungen im Split-plotDesign bildet. Beide Tests unterscheiden sich wesentlich in den jeweils notwendigen Voraussetzungen. Beim Permutationstest kann man zum einen auf die Normalverteilungseigenschaften der Zufallsvariablen verzichten, zum anderen werden schwächere Forderungen an die Homogenität der Blöcke gestellt, in dem veränderliche Varianzen für die verschiedenen Stufen des SplitFaktors zugelassen werden. Allein in dieser Eigenschaft bietet der Permutationstest eine interessante Erweiterung der methodischen Möglichkeiten, weil er die konservativen approximativen F-Tests (HUYNH, 1978) durch ein exaktes Verfahren ersetzt. Darüber hinaus wird das Hauptanwendungsgebiet dieses Permutationstests in solchen Situationen gesehen, in denen die Robustheitseigenschaften des varianzanalytischen Tests etwa aufgrund kleiner Stichproben nicht ausreichend erscheinen, wie dies vor allem bei Rangdaten oder nicht stetig verteilten Variablen mit Bindungen der Fall ist. Die Betrachtung der asymptotischen Eigenschaften (PYHEL, 1980) zeigt, daß beide Tests in Normalverteilungssituationen mit homogenen Varianzen asymptotisch äquivalent sind. Neben dem Wechselwirkungstest wird eine Prozedur vorgestellt, welche die detaillierte Analyse aller Effekte im Split-plot-Design mithilfe von Permutationstests ermöglicht. Sie erfolgt in den Stufen «Wechselwirkungen», (einfache) «Haupteffekte», «Paarvergleiche» und kontrolliert je Stufe den experimentbezogenen Fehler 1. Art zwischen abhängigen Tests. Dabei werden die bekannten Permutationstests für die Pläne CR-k und RB-k sowie die beiden 2-Stichprobentests verwandt. Die Paarvergleiche werden mit HOLMS Strategie ausgeführt, für die die p-Werte der Einzeltests eine bequeme Entscheidungsgrundlage liefern. Für die ganze Prozedur bleibt dabei unerheblich, ob die Blockeffekte fest oder zufällig sind. Die praktische Ausführung der Tests erfolgt mit schnellen FORTRAN-Algorithmen, die von den Autoren bezogen werden können. Hiermit ist auch die Ausführung der jeweili-

gen Monte-Carlo-Lösung möglich, die trotz ihrer irreführenden Bezeichnung als «approximative Randomisationstests» exakte Testentscheidungen zum Niveau a liefern. Literatur BRADLEY, J. V. 1968. Distribution-free statistical tests. Englewood Cliffs: Prentice-Hall. DWASS, M. 1957. Modified randomization tests for non-parametric hypotheses. Annals of Mathematical Statistics, 28, 181-187.

EDGINGTON, E. S. 1967. Statistical inference from N = 1 experiments. The Journal of Psychology, 65.195-199. EDGINGTON, E. S. 1969a. Statistical inference: the distribution-free approach. New York: Mc-Graw-Hill. EDGINGTON, E. S. 1969b. Approximate randomization tests. The Journal of Psychology, 72,143-149. EDGINGTON, E. S. 1975. Randomization tests for one-subject operant experiments. The Journal of Psychology, 90,5768. EDGINGTON, E . S . & STRAIN, A . R . 1 9 7 3 .

Randomization

tests: computer time requirements. The Journal of Psychology, 85, 89-95. FISHER, R. A. 1926. The arrangement of field experiments. Journal of Ministry of Agriculture, 33,503-513. FISHER, R. A. 1935. The design of experiments. Edingburgh: Oliver and Boyd. GABRIEL, K. R. 1969. Simultaneous test procedures-some theory of multiple comparisons. Annals of Mathematical Statistics, 40, 224-250. HOLM, S. 1979. A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65-70. HUBERT, L . & BAKER, K . 1978. E v a l u a t i n g t h e c o n f o r m i t y o f

sociometric measurements. Psychometrika, 43, 31-41. HUBERT, L . & SCHULTZ, J . 1968, Q u a d r a t i c a s s i g n m e n t a s a

general data analysis strategy. Brit. J. math, statist. Psychol., 29,190-241.

HUYNH, H. 1978. Some approximate tests for repeated measurement designs. Psychometrika, 43,161-175. KEMPTHORNE, O. 1952. The design and analysis of experiments. New York: Wiley. KEMPTHORNE, 0 . 1 9 5 5 . The randomization theory of experimental inference. Journal of the American Statistical Association, 50, 946-967. KIRK, R. E. 1968. Experimental design: procedures for thebehavioral sciences. Belmont: Brooks/Cole. L E H M A C H E R , W . & WALL, K . D . 1 9 7 8 . A n e w n o n p a r a m e t r i c

approach to the comparison of k independent samples of response curves. Biometrical Journal, 20,261-273. LEHMANN, E . L . & STEIN, C . 1949. O n t h e t h e o r y o f s o m e n o n -

parametric hypotheses. Annals of Mathematical Statistics, 20, 28-45.

LIENERT, G. A. 1978. Verteilungsfreie Methöden in der Biostatistik, Band II. Meisenheim am Glan: Anton Hain. PITMAN, E. J. G. 1937a. Significance tests which may be applied to samples from any population. I. Supplement of the Journal of the Royal Statistical Society, 4,119-130. PITMAN, E. J. G. 1937b. Significance tests which may be applied to samples from any population. III. The analysis of variance test. Biometrika, 29, 322-335.

198

Willmes & Pyhel: Permutationstests als Alternative zur Varianzanalyse

PURI, M. L. & SEN, P. K. 1971. Nonparametric methods in multivariate analysis. New York: Wiley. PYHEL, N. 1978. Beiträge zur Theorie der Permutationstests mit Anwendung in einem linearen Modell. Unveröffentlichte Dissertation, Aachen. PYHEL, N. 1980. Distribution-free r-sample tests for thehypothesis of parallelism of response profiles. Biometrical Journal, 22, 703-714. PYHEL, N . & HENN, G . 1979. K o m b i n a t o r i s c h e A l g o r i t h m e n

für Anwendungen in der Statistik (unveröffentlichtes Arbeitspapier). SACHS, L. 1978. Angewandte Statistik. 5. Aufl. Berlin: Springer.

WALD, A. & WOLFOWITZ, J. 1944. Statistical tests based on permutations of the observations. Annals of Mathematical Statistics, 15, 358-372. WELCH, B. L. 1937. On the z-test in randomized blocks and latin squares. Biometrika, 29, 21-52. ZERBE, G. 0 . 1 9 7 9 . Randomization analysis of the completely randomized design extended to ^ ^ H growth and response curves. Journal of the American Statistical Association, 74, 215-221. I J

Zeitschrift fürSozialpsychologiel981,12,199-216

199

Empirie Die Anwendbarkeit mathematischer Lernmodelle zur Beschreibung von Verhandungsverhalten und ihre Problematik JOHANN M . GLEICH u n d ROLAND W . SCHOLZ 1

Bisher vorherrschende Ansätze im Bereich der Verhandlungsforschung konzentrieren sich primär darauf, Aussagen über das Ergebnis von Verhandlungen zu machen und sind somit eher als statisch zu bezeichnen. In dem Artikel wird versucht, die Verhandlung als dynamischen Prozeß zu modellieren. Indem auf die Klassifikation der Grundtypen sozialer Int e r a k t i o n v o n JONES & GERARD (1967) z u r ü c k g e g r i f f e n , w i r d ,

werden verschiedene vergleichbare Markoff-Modelle und lineare Operatorenmodelle entwickelt. Die experimentelle Überprüfung dieser Modelle erfolgt mit Hilfe der Daten aus e i n e m V e r h a n d l u n g s e x p e r i m e n t v o n SCHOLZ (1980). D i e E r -

gebnisse der Arbeit deuten darauf hin, daß je nach Versuchsbedingungen einzelne Lernmodelle sich als mehr oder weniger zutreffend herausstellen. Insgesamt zeigt sich aber die Tendenz, daß einfache lineare Operatorenmodelle bessere Übereinstimmungen zeigen als die betreffenden MarkoffModelle. Dieses Ergebnis zeigt eine Übereinstimmung mit den Aussagen aus der Prisoner's Dilemma-Forschung, die Markoff-Modelle allenfalls zur Bechreibung von Spielabschnitten als geeignet betrachten. Betrachtet man die entwickelten Modelle als Instrumente, welche es aufgrund der klar und exakt formulierten Modellvoraussetzungen prinzipiell erlauben, zu klären, welche Modellvoraussetzungen als eher zutreffend zu betrachten sind oder welche Einflüsse dominant sind, so liegt ein hilfreicher Ansatz zur Erkenntnisgewinnung vor, der es erlaubt, Verhandlungen als Prozesse zu analysieren.

1.

Einleitung

In der Sozialpsychologie im allgemeinen und speziell auf dem Gebiet der sozialen Interaktion und Verhandlungsforschung gewinnt seit geraumer Herrn Dr. MATTHIAS REISS, Universität Bielefeld, danken wir für kritische Kommentare und Anregungen. ' Diese Arbeit ist im Sonderforschungsbereich 24, Sozialund wirtschaftspsychologische Entscheidungsforschung der Universität Mannheim, unter Verwendung der von der Deutschen Forschungsgemeinschaft zur Verfügung gestellten Mittel und mit Unterstützung des Landes Baden-Württemberg entstanden.

Prevailing approaches in the field of bargaining research focus primarily on statements about bargaining outcomes and may thus considered, as a whole, to be static. This study attempts to model bargaining as a dynamic process. On the basis of the classification of basic types of social interaction introduced by JONES & GERARD (1967), several comparable Markoff-Models and models of linear operators are developed. Experimental tests of these models are conducted by means of the data taken from SCHOLZ' bargaining experiment (1980). The results of this study indicate that individual models of learning prove to be more or less accurate, depending on the specific experimental conditions. As a whole, however, there is a tendency towards simple linear operator models fitting better than the Markoff-Models considered. This result corresponds to statements obtained from research on the Prisoner's Dilemma Game, which consider Markoff-Models at best suitable for the description of sections of the game. If the models developed are considered as instruments testing clearly and precisely formulated model assumptions, the approach can be considered to be helpful for the acquisition of knowledge which enables us to analyze bargaining situations as processes. In particular, this approach permits to clarify which model assumptions may be considered more adequate, or which influences are dominant.

Zeit die Mathematisierung von Theorieansätzen an Bedeutung. Dabei hat in den genannten Gebieten die Spieltheorie, wie sie VON NEUMANN u n d MORGENSTERN (1944) entwickelten, sicher

den größten Einfluß gehabt. Sehr einflußreich ist jedoch auch die stochastische Modellbildung gewesen, wobei insbesondere Ansätze aus dem Bereich der Lern- und Denkpsychologie zur Anwend u n g k a m e n ( v g l . STAPF, 1 9 7 6 ; TREUHEIT, 1 9 7 8 ) .

Im vorliegenden Artikel soll am Gegenstand des Verhandlungsverhaltens dargestellt werden, wie sich einfache mathematische Lernmodelle prinzipiell zur Beschreibung und Analyse dieses

200

Gleich & Scholz: Anwendbarkeit mathematischer Lernmodelle zur Beschreibung von Verhandlungsverhalten

Typus von Interaktionsverhalten verwenden lassen. Dabei soll positiv aufgezeigt werden, wie mathematische Modelle zur Erkenntnisgewinnung (vgl. HÖRZ, 1976, p.12) eingesetzt werden können. Häufig zeichnen sich in den Verhaltenswissenschaften mathematisch formulierte Theorienansätze durch nichts anderes aus, als durch die Hoffnung, gute Modellanpassungen zu liefern. Bei einem solchermaßen pragmatischen Vorgehen liegt u.E. eine besondere Gefahr in einer Überformung eines betrachteten Gegenstandsbereiches, indem Modelle, die in einem anderen Gegenstandsbereich entwickelt wurden, schematisch und unkritisch Verwendung finden. Dieser Gefahr soll in dieser Arbeit in einer Reflektion des Anwendungsprozesses besonders Beachtung geschenkt werden. Wir wollen nun kurz präzisieren, was wir unter einer Verhandlungssituation verstehen. Verhandlungen sind Interaktionen, in denen Individuen versuchen, zu einer gegenüber dem status quo vorteilhaften Lösung zu gelangen. Dabei bezeichnet der status quo die Lösung, die die Parteien ohne verhandeln erreichen können. Eine Ver-

A bb. 1: Grundtypen sozialer Interaktion nach JONES & GERARD (1967). In

der Abbildung stehen A und B für die Verhandlungspartner, durchgezogene Pfeile für direkte und wirkende Einflüsse, gestrichelte Pfeile für theoretisch mögliche aber nicht wirksam werdende Einflüsse auf die Reaktion R.

handlungssituation ist dadurch gekennzeichnet (vgl. SCHELLING, I 9 6 0 ; RUBIN & BROWN, 1 9 7 5 ;

SCHOLZ, 1980), daß mindestens zwei Parteien

zeitweise interagieren können, wobei bezüglich einiger möglicher Ausgänge der Interaktion entgegengesetzter Interessen vorhanden sind, aber kein vollständiger Interessengegensatz besteht. Weiter ist es ein Merkmal von Verhandlungen, daß provisorische Angebote möglich sind und es somit zu Konzessionen kommen kann. Die Verhandlungsforschung, die ursprünglich aus dem Bereich der Wirtschaftswissenschaften stammte, wurde insbesondere von der experimentellen Sozialpsychologie aufgegriffen und bietet inzwischen einen relativ gut ausgearbeiteten Bereich von Theorieansätzen zur Erklärung und Beschreibung dieser speziellen Form menschlicher Interaktion. Dabei ist der größere Teil dieser Ansätze als statisch zu bezeichnen, d.h. man versucht, ohne auf den Verhandlungsprozeß einzugehen, Aussagen über das Ergebnis von Verhandlungen zu machen (als Beispiel hierfür mögen die Theorie der ausgleichenden Ger e c h t i g k e i t v o n HOMANS ( 1 9 6 1 ) u n d die NASH-

Lösung (1950) stehen.) Um aber tiefer in das We-

A

A

R

R

Time

Pseudocontingency

Asymmetrical contingency

Reactive contingency

Mutual contingency

201

Zeitschrift fürSozialpsychologie 1981,12,199-216

sen der Verhandlung einzudringen, ist es unabdingbar, die Verhandlung als dynamischen Prozeß zu betrachten. Ein wichtiger Aspekt bei der Analyse des Verhandlungsprozesses ist zweifellos, in welcher Weise eigene Verhaltensweisen (z.B. eigene Angebote) und Verhaltensweisen des Verhandlungspartners den Verhandlungsverlauf bestimmen oder anders ausgedrückt «die Identifikation des Beitrags (Anteils) des Einen und des Anderen...» (GRAUMANN, 1 9 7 9 ) für die Interaktion vorzunehmen. Klassifikation von Grundtypen sozialer Interaktion, die für eine solche Bedingungsanalyse von Interaktionsprozessen zwischen zwei Personen geeignet ist, findet sich bei JONES & GERARD ( 1 9 6 7 ) . Bei ihnen werden Interaktionsprozesse als abwechselnde Folge von Reaktionen zweier Interaktionspartner modelliert. Ihre Klassifikation umfaßt vier Interaktionstypen (siehe Abb.l), wobei p > 0.2) und T3 (0.5 > p > 0.3) die Annahme der Stationierbarkeit der Übergangswahrscheinlichkeiten gemacht werden kann, nicht jedoch bei T2 (p < 0.001). Bei der Überprüfung, ob ein Markoff-Prozeß nullter, erster oder zweiter Ordnung vorliegt, benutzen wir ein ähnliches Verfahren. Auch hier zeigt sich, wiederum mit einer Signifikanzschranke von a = 0.05, daß nur für die Untersuchungsgruppen T1 und T3 Annahmen eines MarkoffProzesses erster Ornung als Nullhypothese gehalten werden können. Mit dem zuvor geschilderten Schätzverfahren können wir nun die Parameter für die Gruppen T1 und T3 berechnen (Tab.l). Aus den Parameterwerten lassen sich u. a. folgende Aussagen über die Wahrscheinlichkeiten für das Auftreten von Konzessionen machen: Beim Markoff-Modell 1 weist der Parameter a darauf hin, wie groß die Wahrscheinlichkeit für das Nicht-Konzessionieren (NK) ist, wenn der Verhandlungspartner zuvor NK gezeigt hat. Nach Markoff 1 unterscheiden sich diese Wahrscheinlichkeiten unter den verschiedenen Zeitdruckbedingungen beträchtlich (0.92 bzw. 0.46). Wurde jedoch zuvor vom Partner K gezeigt, ist die Wahrscheinlichkeit (ß) für eine NK als Antwort unter beiden Zeitdruckbedingungen nicht allzu hoch und nicht allzu verschieden (0.38 bzw. 0.40). Nach dem Modell Markoff 2 zeigt ein Verhandler unter geringem Zeitdruck keinerlei Konzessionsbereitschaft mehr, wenn der Partner auf vorherige Konzessionsbereitschaft nicht einge-

T1

T3

p.

0.82

0.52

a

0.92

0.46

ß

0.38

0.40

T1

T3

P.

0.82

0.52

a

0.91

0.50

ß

0.86

0.41

y

1.00

0.41

6

0.67

0.35

Tab. lb: Markoff-Modell 2

Es bedeutet: T1 geringer Zeitdruck T3 hoher Zeitdruck

gangen ist (y = 1). Die Konzessionsbereitschaft steigt erst dann wieder an, wenn der Partner eine Konzession zeigt. Da das Modell ist, kommt es nach Markoff 2 in Verhandlungen unter geringem Zeitdruck relativ schnell zu einem , d.h. keiner der Verhandler zeigt mehr eine Konzession.

4.1.2.Lineare

Operatorenmodelle

Die Parameterschätzungen für die linearen Operatorenmodelle ergaben Tabelle 2. Betrachten wir das Modell Linear 1, so zeigt sich ein Vergleich der Grenzwerte b, bzw. b2 mit der Anfangswahrscheinlichkeit für Konzessionen, daß unter den Bedingungen T1 und T2 die Wahrscheinlichkeiten für NK ansteigt, während ein solcher Anstieg bei T3 dem Modell nach nicht eintritt. Beim Modell Linear 2 erkennen wir, daß bei Betrachtung der Untergruppe T1 die Operatoren b„ b2 und b 3 gleich 1 sind. Bei Betrachtung der Untersuchungsggruppe T1 strebt die Wahrscheinlichkeit für NK bei Anwendung der Operatoren Q„ Q 2 und Q 3 dem Grenzwert 1.0 zu. Eine Ausnahme bildet der Operator Q 4 (b 4 ), der nur dann Anwendung findet, wenn zuvor sowohl der

209

Zeitschrift fürSozialpsychologiel981,12,199-216 Tab. 2a: Lineares Operatorenmodell 1.

4.2.

T1

T2

T3

p.

0.82

0.60

0.52

a,

0.72

0.81

0.05

a2

0.74

0.75

0.05

b,

0.90

0.80

0.40

b2

0.90

0.79

0.40

Tab.2b: Lineares Operatorenmodell 2. T1

T2

T3

P,

0.82

0.60

0.52

a,

0.10

0.05

0.05

a2

0.85

0.81

0.53

a,

0.86

0.83

0.53

a4

0.85

0.80

0.53

b,

1.00

0.70

0.69

b,

1.00

0.72

0.69

b,

1.00

0.81

0.69

b.

0.00

0.00

0.00

Verhandelnde als auch sein Partner NK angezeigt haben. Die Überlegungen lassen sich auch auf die anderen beiden Untersuchungsgruppen anwenden. Wie bei dem Modell Linear 1 erkennen wir aufgrund der Werte von a„ a 2 , a 3 und a 4 , daß nach dem Modell Linear 1 tatsächlich mit einer Zunahme der Wahrscheinlichkeiten die Verhaltensweise NK zu zeigen, bei allen drei Untersuchungsgruppen, zu rechnen ist, jedoch die Gefahr für lange Sequenzen ohne Konzessionen ist besonders unter T1 gegeben. Die Wahrscheinlichkeit aufgrund einer zuvor gezeigten Konzession des Verhandelnden oder seines Partners dann NK zu zeigen, ist sowohl bei T1 als auch bei T2 sehr hoch (siehe a„ a 2 , a 3 , a 4 ). Zeigen beide Partner jedoch bereits NK, so ist der noch mögliche Anstieg der Wahrscheinlichkeit NK zu zeigen (a,) sehr gering. Die Untersuchungsgruppe T3 weicht von diesen Ergebnissen jedoch ab. Nach dem Modell Linear 2 sind die Wahrscheinlichkeitsveränderungen für beide Verhaltensweisen recht gering.

Modelltests

Einen ersten Hinweis auf die Güte der Modelle kann man mit Hilfe der graphischen Darstellung erhalten. Hierbei kann man als Kenngröße entweder die mittlere theoretische Wahrscheinlichkeit, die man aus den Modellen berechnet, mit den relativen Häufigkeiten für Konzessionen vergleichen, welche aus den empirischen Daten ermittelt werden. Eine andere Möglichkeit besteht darin, indem man kumulative Verteilungen betrachtet, d.h. die mittlere theoretische Anzahl von Konzessionen vergleicht, die bis zum n-ten Zeitpunkt erreicht wurde. Man hat außerdem die Möglichkeit, die Häufigkeiten auch Schritt für Schritt zu betrachten, indem man die theoretischen Häufigkeiten für den n+l-ten Versuch auf die tatsächlich (experimentellen) Realisierungen des n-ten Versuchs bezogen berechnet. Dieses Verfahren wird auch «trial by trial»-Verfahren genannt und deckt Unterschiede in der graphischen Darstellung zwischen Modell und Realisation bei bloßer visueller Betrachtung häufig weniger stark auf. Stimmen alle Modellannahmen, so ist im Mittel sowohl die experimentelle Kurve mit der «trial by trial»- als auch mit der normalen kumulativen Kurve identisch. Diese Vermutungen werden durch verschiedene deskriptive Maße bestätigt. In Tabelle 3 ist z.B. als Abweichungsmaß die Fläche zwischen beobachteten und theoretischen Wahrscheinlichkeitsverläufen für die verschiedenen Modelle und Untersuchungsgruppen aufgelistet. Da bei der Berechnung dieses Flächenmaßes, welche wir F T nennen wollen, die Länge der Verhandlung normiert wurde, hat das Maß den Vorteil, daß es sich auch zu Vergleichen zwischen den einzelnen Untersuchungsgruppen eignet. Da die Wahl der Grundeinheiten bei der Normierung willkürlich ist, dürfen mithin nur Rangvergleiche innerhalb und zwischen den Untersuchungsgruppen verwendet werden. Tab.3: Übereinstimmungsmaß F T . Markoff 1

Markoff 2

Linear 1

Linear 2

T1

0.557

0.275

0.177

0.227

T2

X

X

0.048

0.339

T3

0.148

0.105

0.060

0.651

210

Gleich & Scholz: Anwendbarkeit mathematischer Lernmodelle zur Beschreibung von Verhandlungsverhalten

Daten T1 Markoff 1 Trial by trial Markoff 1 Markoff 2 Trial by trial Markoff 2 I 10

I 15

20

"T" 25

~~1 30

35

I 40

45

50

55

t

Abb.5a: Mittlere Wahrscheinlichkeit p für das Auftreten von Nichtkonzession in Abhängigkeit von der Verhandlungslänge t, Zeitdruck T l .

Daten T1 Linear 1 Trial by trial Linear 1 Linear 2 Trial by trial Linear 2



10

15

20

r~ 25

~I 30

"T" 35

1 40

I 45

I

-

50

-I 55

• t

A bb.Sb: Mittlere Wahrscheinlichkeit p für das Auftreten von Nichtkonzession in Abhängigkeit von der Verhandlungslänge t, Zeitdruck T l .

211

Zeitschrift für Sozialpsychologie 1981,12,199-216

Daten T2 Linear 1 Trial by trial Linear 1 Linear 2 Trial by trial Linear 2

10

12

14

I

I

16

18

20

t

Abb.6: Mittlere Wahrscheinlichkeit p f ü r das Auftreten von Nichtkonzession in Abhängigkeit von der Verhandlungslänge t, Zeitdruck T2.

Die graphischen Darstellungen (Abb.5a, b, Abb. 6 und Abb. 7a, b) zeigen, daß keines der Modelle über alle Bedingungen ( T l , T2, T3) gesehen klar und deutlich überlegen zu sein scheint. Unter den Bedingungen T1 und T2 kommen die linearen Operatorenmodelle, insbesondere das Modell Linear 1, den empirischen Daten am nächsten. Die betrachteten Markoff-Modelle schneiden hier insgesamt schlecht ab. Das Modell Linear 1 ist in allen Untersuchungsgruppen dem deskriptiven Maß F t nach den anderen betrachteten Modellen überlegen. Nur unter hohem Zeitdruck fallen die Markoff-Modelle nicht so stark ab. Aber schon die relative Diskrepanz zwischen