215 87 8MB
German Pages 266 [268] Year 1976
Techniken der empirischen Sozialforschung
Techniken der empirischen Sozialforschung Ein Lehrbuch in 8 Bänden Bearbeitet von G. Albrecht Η. v. Alemann K.R. Allerbeck C. Besozzi D. Betz B. Biervert G. Brinkmann G. Buttler M.Dierkes R. Dolíase PDrewe E. Erbslöh H. Esser E. Helten W. Herkner
Th. Herz Ρ Höhmann H. Huber H. J. Hummell H. D. Klingemann K. Knorr J. v. Koolwijk H. Kreutz H.Lück W. Manz E. M o c h m a n n H. N o w o t n y G. Ortlieb EU. Pappi Κ. R o g h m a n n
K.R. Scherer Ε. Κ. Scheuch H. Schmerkotte W. Schulz 1. Stelzl M. Sturm E.Timaeus S. Titscher Th. Vajna R. Wegner A.Weidmann Κ. Wieken G. Wiendieck H. Zehnpfennig R. Ziegler
Herausgegeben von Jürgen van Koolwijk und Maria Wieken-Mayser
(Hf)
R. Oldenbourg Verlag München Wien
Techniken der empirischen Sozialforschung 5. Band Testen und Messen
dargestellt von Claudio Besozzi und Helmut Zehnpfennig/H. Huber und H.Schmerkotte/Helmut E.Lück/Reinhard Wegner/Dieter Betz/Manfred Sturm und Thomas Vajna/Rainer Dolíase
LU
m
R. Oldenbourg Verlag München Wien
CIP-Kurztitelaufnahme der Deutschen Bibliothek Techniken der empirischen Sozialforschung : e. Lehrbuch in 8 Bd. / bearb. von G. A l b r e c h t . . . Hrsg. von Jürgen van Koolwijk u. Maria WiekenMayser. NE: Koolwijk , Jürgen van [Hrsg.]; Albrecht , Günter [Mitarb. ] Bd. 5. Testen und Messen / dargest. von Claudio Besozzi. . . ISBN 3-486-44871-4 NE: Besozzi , Claudio [Mitarb.]
©
1976 R. Oldenbourg Verlag G m b H , München
Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, der Funksendung, der Wiedergabe auf photomechanischem oder ähnlichem Wege sowie der Speicherung und Auswertung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Werden mit schriftlicher Einwilligung des Verlags einzelne Vervielfältigungsstücke für gewerbliche Zwecke hergestellt, ist an den Verlag die nach § 54 Abs. 2 URG zu zahlende Vergütung zu entrichten, über deren Höhe der Verlag Ausk u n f t gibt. Umschlagentwurf: Günter Mittermeier, München Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München
ISBN 3-486-44871-4
Inhaltsverzeichnis
1.
Methodologische Probleme der Index-Bildung von Claudio Besozzi und Helmut Zehnpfennig
9
1.1
Zur Definition von Indikatoren und Indizes
9
1.2
Beobachtungs-Sprache und theoretische Sprache: einige wissenschaftliche Aspekte der Index-Bildung
1.3 1.3.1 1.3.2 1.3.3
Drei Strategien zur Bestimmung von Korrespondenzregeln Indikatoren als Definitionselemente: die operationalistische Lösung . . Konzepte als Dispositionen: die typologisch-induktive Lösung Indikatoren als Elemente eines kausalen Systems: der kausalanalytische Ansatz
1.4 1.4.1
14 20 22 23 27 31
1.4.2
Die Auswahl von Indikatoren Das Indikatoren-Universum und die Austauschbarkeit von Indikatorenmengen Das Prinzip der multiplen Indikatoren
1.5
Kombination und Gewichtung von Indikatoren
41
Literaturverzeichnis
49
Meßtheoretische Probleme der Sozialforschung von H. Huber und H. Schmerkotte
56
2.1
Die Struktur eines Merkmals
56
2.2
Definition und Eindeutigkeit von Skalen
58
2.3
Die wichtigsten Skalen typen
59
2.4
Zum Problem der Bedeutsamkeit (meaningfulness)
61
2.5
Einige ausgewählte Strukturen, die bestimmte Meßstufen garantieren .
63
2.6
Zuverlässigkeit von Meßinstrumenten
65
2.7
Gültigkeit von Meßinstrumenten
70
2.8
Zuverlässigkeits- und Gültigkeitskoeffizienten
72
Literaturverzeichnis
75
2.
32 34
6
3.
Inhaltsverzeichnis
Testen und Messen von Eigenschaften und Einstellungen von Helmut E. Lück
77
3.1
Testverfahren
77
3.2 3.2.1 3.2.2 3.2.3
Gütekriterien eines Tests Objektivität Zuverlässigkeit Gültigkeit
79 80 80 81
3.3 3.3.1 3.3.2 3.3.3
Die Die Die Die
84 85 89 91
3.4
F o r m e n der Einstellungsmessung und das Problem der Ergebnisverfälschung
92
Literaturverzeichnis
97
4.
Entwicklung eines Tests Auswahl der Testart und der Testaufgaben vorläufige Überprüfung der Testaufgaben Bestimmung der endgültigen Testform
Ratingmethoden von Reinhard Wegner
103
Definition und Geschichte
103
4.2
Zur Klassifikation von Ratingverfahren
104
4.3
Einzelreizverfahren
107
4.4
Mehrfachreizverfahren
110
4.5
Konstante Schätzfehler und systematische Beurteilungstendenzen . . . .
113
4.6
Zuverlässigkeit und Gültigkeit von Ratingoperationen
118
Literaturverzeichnis
126
Skalierungsverfahren von Dieter Betz
131
4.1
5.
5.1 5.1.1 5.1.2 5.1.3
Grundlagen Die Vorgänge bei der Skalierung Das Ergebnis der Skalierung: die Variablen Exkurs: Probleme der Messung in den Verhaltenswissenschaften (Psychologie und Soziologie) im Vergleich mit naturwissenschaftlichen Messungen (Physik)
131 131 133
137
5.2 5.2.1 5.2.2
Methoden der Datengewinnung Der Vergleich yon Reizen miteinander Der Vergleich von Reizen mit Skalen
141 141 143
5.3 5.3.1
Die Auswertung der Daten Skalierungsmodelle
145 145
Inhaltsverzeichnis
5.3.2
Die historische Grundlage: Psychometrische Funktion und Charakteristik eines Items
5.4 5.4.1 5.4.2
Auswertungsverfahren Einfache Auswertungsverfahren Verfahren, die auf einer Einengung der Antwortmöglichkeiten beim Vorliegen einer Skala beruhen 5.4.2.1 Parallelogramm-Analyse 5.4.2.2 Unfolding 5.4.2.3 Skalogramm-Analyse 5.5
7
147 151 151 152 152 154 156
5.5.1 5.5.2
Verfahren, die auf der Transformation einer Wahrscheinlichkeit (Proportion) in eine Distanz beruhen (Schwellenmethoden) Skalierung nach dem Gesetz der vergleichenden Urteile Skalierung nach dem Gesetz der Kategorialurteile
160 163 167
5.6 5.6.1 5.6.2
Die Anwendung probabilistischer Meßmodelle Die Analyse latenter Strukturen Die Skalierung nach dem Modell von Rasch
169 169 173
5.7
Mehrdimensionale Verfahren
175
Literaturverzeichnis
178
Grundzüge der Faktorenanalyse von Manfred Sturm und Thomas Vajna
184
6.1 6.1.1 6.1.2 6.1.3
Grundlagen Die Aufgabenstellung Die Verfahrenstechnik einer faktoranalytischen Untersuchung Die wichtigsten Grundprinzipien und Zusammenhänge
184 184 187 189
6.2 6.2.1 6.2.2 6.2.2.1 6.2.2.2 6.2.2.3
Die Die Die Die Die Die
193 193 195 196 197 198
6.3 6.3.1 6.3.1.1 6.3.1.2 6.3.1.3 6.3.1.4 6.3.2 6.3.3 6.3.4
Die inhaltliche Faktorenanalyse Die Rotation des Faktorenmusters Algebraische Formulierung des Rotationsproblems Rotationsverfahren zur faktoriellen Einfachstruktur Die Rotation korrelierter Faktoren Vom Kriterium der Einfachstruktur abweichende Rotationen Die Analyse hierarchischer Faktorstrukturen Die Bestimmung der Faktorwerte Die Interpretation der Faktoren
200 200 200 201 203 204 205 206 208
Literaturverzeichnis
209
6.
deskriptive Faktorenanalyse Schätzung der Kommunalitäten Extraktion der Faktoren Zentroidmethode (Schwerpunktmethode) Hauptachsenmethode Bestimmung der zweckmäßigsten Faktorenzahl
8
7.
Inhaltsverzeichnis
Soziometrische Verfahren
von Rainer Dolíase
217
7.1 7.1.1 7.1.2 7.1.3
Einleitung Geschichte Kennzeichnung soziometrischer Daten Graphische Darstellung soziometrischer Daten
217 217 218 221
7.2 7.2.1 7.2.2 7.2.3 7.2.4
Erhebungstechniken Befragungstechniken Beobachtungstechniken Erhebungsprobleme Vergleich der Erhebungsverfahren
221 222 226 227 228
7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.3.5
Auswertungstechniken Verfahren zur Kennwertgewinnung Verfahren zur Cliquenidentifizierung Verfahren zum Vergleich soziometrischer Daten Technische Hilfen in der Datenverarbeitung Sonstiges
229 230 237 241 243 244
7.4
Réhabilitât und Validität
246
Literaturverzeichnis
249
Namenregister
258
Sachwortregister
263
1.
Methodologische Probleme der Index-Bildung von Claudio Besozzi und Helmut Zehnpfennig
1.1
Zur Definition von Indikatoren und Indizes
Das Problem Index-Bildung kennzeichnet eine in den Sozialwissenschaften häufig anzutreffende Situation, in der man nicht ganz genau weiß, was man eigentlich mißt. Diese Unwissenheit bezieht sich sowohl auf die inhaltliche Bedeutung als auch auf die quantitativen Zusammenhänge des zu messenden Konzepts und anderen, die Messung beeinflussenden Variablen. Die Beseitigung dieser Unwissenheit über die Bedingungen für eine befriedigende Lösung des Meßproblems setzt wiederum voraus, daß das Meßproblem bereits gelöst ist (COLEMAN 1964; BLALOCK 1968a; 1969; 1970). Ein solcher Zirkel - von der Theoriebildung zur Messung von Variablen und zurück zur Theorie — scheint jede Wissenschaft zu charakterisieren (BLALOCK 1970). Was die Sozialwissenschaften in dieser Hinsicht von den Naturwissenschaften unterscheidet, ist der Umstand, daß der erwähnte Zirkel in sich geschlossen zu sein scheint, d. h., daß keine zu einer Lösung konvergierende Interaktion zwischen Theoriebildung und Meßvorgang zustande kommt. Es ist für den heutigen Stand der Soziologie in dieser Hinsicht bezeichnend, daß zwanzig Jahre nach Mertons Forderung nach einer engeren Verbindung und Zusammenarbeit zwischen soziologischer Theorie und Sozialforschung (MERTON 1948) immer noch von einem 'gap' zwischen theoretisch relevanten Konzepten und den in der Praxis angewandten Indikatoren die Rede ist (siehe zuletzt COLEMAN 1964; BLALOCK 1968; 1970; BOUDON 1969a; 1970; COSTNER 1969; HARTMANN 1970). In der Praxis der Sozialforschung bedauert man zwar immer wieder den Gegensatz zwischen Theorie und Praxis, die entsprechenden Konsequenzen werden jedoch nicht gezogen. Einerseits werden Indizes ad hoc gebildet, ohne Spezifizierung der Theorie, die Konzepte und Indikatoren miteinander verbindet; andererseits wird die theoretische Relevanz von Konzepten aus ihrer traditionellen Bedeutung abgeleitet, ohne daß sie einer konzeptualen Analyse unterzogen werden. Ein deutliches Zeugnis dieses Zustandes liefert die Vielzahl von verschiedenartigen Skalen und Indizes, die in den letzten Jahren zur Messung einzelner Variablen entwickelt wurden, ohne daß ein solcher Aufwand zu einer begrifflichen Klärung, geschweige denn zu einer Spezifizierung der jeweils postulierten Theorie geführt hätte (BONJEAN, HILL UND M C L E M O R E 1 9 6 5 ; 1 9 6 7 ; MILLER 1 9 6 4 ; SHAW UND WRIGHT 1 9 6 7 ) . Ebensowenig läßt sich in den Bemühungen der Sozialforscher, allgemeingültige Meßinstrumente zu entwickeln, eine Kontinuität erkennen (BORGATTA 1969; DEUTSCHER
1969).
10
Band: Testen und Messen
h a b e n bei d e m V e r s u c h , die zwischen 1 9 5 4 u n d 1965 in vier f ü h r e n d e n Soziologie-Zeitschriften v e r ö f f e n t l i c h t e n Skalen u n d Indizes zu systematisieren, b e m e r k e n müssen, d a ß von d e n 2 0 8 0 e r f a ß t e n M e ß i n s t r u m e n t e n lediglich 2 8 , 3 % m e h r als einmal u n d n u r 2,3 % m e h r als f ü n f m a l a n g e w a n d t worden waren. B O N J E A N , H I L L UND M C L E M O R E ( 1 9 6 7 )
Die m e t h o d o l o g i s c h e n P r o b l e m e , die sich bei d e r K o n s t r u k t i o n von Indizes e r g e b e n , sind in d e r Tat eine u n m i t t e l b a r e K o n s e q u e n z dieses Z u s t a n d e s ; das e r s c h w e r t die B e s t i m m u n g ihres m e ß t h e o r e t i s c h e n S t a n d o r t e s . Es ist d a h e r n i c h t v e r w u n d e r l i c h , d a ß eine in sich geschlossene M e t h o d o l o g i e der I n d e x - B i l d u n g n o c h n i c h t existiert, wie M A Y N T Z U. A. ( 1 9 6 9 ) festgestellt h a b e n ; es sei d e n n , m a n r e d u z i e r e das P r o b l e m der I n d e x - B i l d u n g auf ein reines Z u o r d n u n g s p r o b l e m , wie es n e u e r d i n g s G A L T U N G ( 1 9 6 7 ) in eindrucksvoller Weise getan h a t . Z u m a n d e r e n b i e t e n die speziellen G e b i e t e der T e s t - T h e o r i e u n d der Skalierungsverf a h r e n z w a r verschiedene, f o r m a l gültige L ö s u n g e n z u r Herstellung i n t e r n - k o n s i s t e n ter I n d i k a t o r e n - M e n g e n a n ; e i n d e u t i g e Kriterien zur I n d i k a t o r e n - A u s w a h l u n d ents p r e c h e n d e G e w i c h t u n g s m o d e l l e lassen sich j e d o c h n i c h t d a r a u s ableiten (BLALOCK 1 9 6 8 b). Definiert m a n Messen als die ' Z u o r d n u n g von Zahlen zu O b j e k t e n n a c h b e s t i m m t e n Regeln' (STEVENS 1 9 5 1 ) , so läßt sich der vorläufige S t a t u s der Messung d u r c h Indizes a n h a n d einer T y p o l o g i e charakterisieren, die sich auf die A b l e i t u n g b z w . Verifizierung solcher Z u o r d n u n g s r e g e l n b e z i e h t . In der m e ß t h e o r e t i s c h e n L i t e r a t u r w e r d e n vier M e ß a r t e n g e n a n n t : (1) fundamentales Messen, (2) abgeleitetes Messen, (3) Messen 'by counting' u n d ( 4 ) Messen 'by fiat'. Die klassische, w e n n a u c h nicht u n u m s t r i t t e n e U n t e r s c h e i d u n g zwischen f u n d a m e n t a l e m u n d a b g e l e i t e t e m Messen geht auf C A M P B E L L ( 1 9 2 8 ) zurück. Die Bez e i c h n u n g e n 'Messen by c o u n t i n g ' u n d 'Messen b y f i a t ' sind aus der Diskussion u m die A n w e n d b a r k e i t der C a m p b e l l s c h e n Kriterien in d e n Sozialwissenschaften ents t a n d e n u n d vor allem von C O L E M A N ( 1 9 6 4 ) u n d T O R G E R S O N ( 1 9 5 8 ) hervorgehoben w o r d e n . Bei fundamentalem Messen wird die Z u o r d n u n g von Zahlen zu O b j e k t e n b z w . O b j e k t - E i g e n s c h a f t e n aus ' N a t u r g e s e t z e n ' abgeleitet. E i n e wichtige E i g e n s c h a f t dieser Meßart b e s t e h t d a r i n , d a ß sie von der Messung a n d e r e r G r ö ß e n u n a b h ä n g i g ist (SUPPES UND Z I N N E S 1 9 6 3 ) . Das setzt j e d o c h voraus, wie C O L E M A N ( 1 9 6 4 ) mit N a c h d r u c k u n t e r s t r i c h e n h a t , d a ß die V e r i f i k a t i o n der Z u o r d n u n g s r e g e l n d u r c h die Wirk u n g des N a t u r g e s e t z e s a u f das zu m e s s e n d e O b j e k t e r f o l g t , d . h . , d a ß die O p e r a t i o n e n des Vergleichs u n d der Kombination e x p e r i m e n t e l l nachvollzogen w e r d e n k ö n nen. Will m a n z u m Beispiel die E i g e n s c h a f t 'Masse' einer Menge -Y(JCJ, x2 , ···, xn) von G e g e n s t ä n d e n f u n d a m e n t a l messen, d a n n b e o b a c h t e t m a n das V e r h a l t e n solcher O b j e k t e in einer gegebenen u n d r e p r o d u z i e r b a r e n S i t u a t i o n (etwa die Wirkung der O b j e k t e auf einen Hebel), u n d zwar soll es sich d a b e i u m das ' V e r h a l t e n ' h a n d e l n , das d u r c h die E i n f ü h r u n g des 'Masse'-Konzeptes erklärt w e r d e n soll. Erst d a d u r c h g e w i n n e n die O p e r a t i o n e n des Vergleichs (x¡ S x¡) u n d der K o m b i n a t i o n (x¡ = ax¡) sowie die e n t s p r e c h e n d e n Bedingungen für die Z u o r d n u n g von Z a h l e n ihre t h e o r e tische B e d e u t u n g . V o n abgeleitetem
Messen spricht m a n dagegen, w e n n die Z u o r d n u n g s r e g e l n aus ei-
1. Kapitel: Methodologische
Probleme der
Index-Bildung
ner bereits b e s t e h e n d e n T h e o r i e abgeleitet w e r d e n k ö n n e n , d e r e n k o n s t i t u i e r e n d e Variablen - bis auf das zu messende K o n z e p t - bereits gemessen w o r d e n b z w . m e ß bar sind. Die N e w t o n s c h e Gleichung F = ma liefert ein Beispiel d a f ü r . Es ist i m m e r wieder die Frage gestellt w o r d e n , o b solche restriktive Kriterien - unabhängig von d e n Meßniveaus, die sie voraussetzen - a u c h für die Messung sozialwissenschaftlicher K o n z e p t e n o t w e n d i g sind. C O L E M A N ( 1 9 6 4 ) weist in diesem Z u s a m m e n h a n g darauf hin, d a ß viele Variablen, vor allem in der Soziologie, d u r c h einfaches Zählen von sich w i e d e r h o l e n d e n V e r h a l t e n s weisen gemessen w e r d e n (Messen 'by counting'). Die S e l b s t m o r d r a t e , die als Eigens c h a f t einer b e s t i m m t e n sozialen G r u p p e a u f g e f a ß t w e r d e n k a n n , läßt sich z u m Beispiel d u r c h Zählen d e r S e l b s t m o r d e in einem b e s t i m m t e n Z e i t r a u m e r m i t t e l n . Die klassischen Meßkriterien sind hier n u r implizit erfüllt; die O p e r a t i o n e n des Vergleichs u n d der K o m b i n a t i o n " a r e carried o u t by fiat so t o s p e a k , by t h e investigator's c o u n t i n g , r a t h e r t h a n by behavior of t h e o b j e c t s themselves ..." ( C O L E M A N , 1 9 6 4 , S. 71). Die I s o m o r p h i e zwischen d e m Zahlen- u n d d e m O b j e k t s y s t e m e b e n s o wie die Bedingung der E i n d e u t i g k e i t der Z u o r d n u n g (vgl. hierzu SUPPES UND ZINNES 1963) sind j e d o c h gegeben. Die Validierung der Z u o r d n u n g s r e g e l n erfolgt also nicht aus der M e ß o p e r a t i o n als solcher, wie es bei f u n d a m e n t a l e m u n d a b g e l e i t e t e m Messen d e r Fall ist, s o n d e r n aus der Ü b e r p r ü f u n g der T h e o r i e , die d e r Bildung hom o g e n e r Klassen von Ereignissen implizit ist.
U n t e r ' M e s s e n by fiat' ( T O R G E R S O N 1 9 5 8 ) versteht m a n schließlich die a r b i t r ä r e Def i n i t i o n von Z u o r d n u n g s r e g e l n . Sie w e r d e n aus d e n p o s t u l i e r t e n B e z i e h u n g e n zwischen d e n b e o b a c h t b a r e n E r s c h e i n u n g e n eines K o n z e p t e s u n d d e m K o n z e p t selbst abgeleitet, w o b e i m a n nicht davon ausgehen k a n n , d a ß die T h e o r i e , d e r e n E l e m e n t das zu m e s s e n d e K o n z e p t ist, f u n d a m e n t a l o d e r abgeleitet g e m e s s e n e Variablen e n t hält. Die V e r w e n d u n g von I n d i k a t o r e n u n d Indizes z u r Messung sozialwissenschaftlicher K o n z e p t e fällt u n t e r diese Meßkategorie. Es bleibt j e d o c h u m s t r i t t e n , o b u n d inwieweit eine solche Vorgehensweise als 'Messen' b e z e i c h n e t w e r d e n d a r f . ( 1 9 5 8 ) vertritt die A u f f a s s u n g , d a ß Messen 'by f i a t ' an sich " n i c h t s Falsches o d e r logisch U n k o r r e k t e s " impliziere, u n d sagt ausdrücklich, d a ß " d i e A u f d e c k u n g stabiler B e z i e h u n g e n zwischen ' b y f i a t ' gemessenen Variablen genau so wichtig sein k a n n wie zwischen Variablen, die auf eine a n d e r e Weise gemessen w u r d e n " (S. 2 3 - 2 4 ) . A n d e r e A u t o r e n dagegen (siehe z. B. C O L E M A N 1 9 6 4 ; S T E V E N S 1 9 5 1 ) sehen eine solche F o r m des Messens eher als ein solange n o t w e n d i g e s Übel an, als die Bedingungen für die A n w e n d u n g stringenter M e ß o p e r a t i o n e n nicht gegeben sind. Unklarheit herrscht ebenfalls über die geeigneten Strategien, u m die I n t e r a k t i o n zwischen T h e o r i e b i l d u n g u n d A u f s t e l l u n g von M e ß m o d e l l e n in G a n g zu setzen. Sicherlich stehen einer s y s t e m a t i s c h e n A n w e n d u n g f u n d a m e n t a l e n Messens Hindernisse w i s s e n s c h a f t s t h e o r e t i s c h e r und p r a k t i s c h e r Art im Wege: M e n s c h e n lassen sich nicht beliebig m a n i p u l i e r e n , so wie m a n es z. B. mit physikalischen O b j e k t e n im R a h m e n von M e ß - E x p e r i m e n t e n t u t . A u ß e r d e m e n t s t e h t bei der s y s t e m a t i s c h e n Wiederholung f u n d a m e n t a l e r Meßvorgänge b e i m m e n s c h l i c h e n V e r h a l t e n das P r o b l e m d e r statistischen U n a b h ä n g i g k e i t , da das I n d i v i d u u m nicht n u r O b j e k t des E x p e r i m e n t e s ist, s o n d e r n das E r g e b n i s der vorangegangenen V e r s u c h e im G e d ä c h t n i s speichert (-» Bd. II: Albrecht, Nicht-reaktive Messung 1.2). In dieser Hinsicht scheinen j e d o c h die S i m u l a t i o n s t e c h n i k e n - vor allem im Bereich der kognitiven Prozesse — n e u e Perspektiven zu e r ö f f n e n (siehe A B E L S O N 1 9 6 8 ) .
TORGERSON
12
5. Band: Testen und Messen
Die Diskussion um den meßtheoretischen Status der Index-Bildung ist jedoch noch nicht so weit gediehen, als daß man dieses Problem in einem rein forschungstechnischen Zusammenhang abhandeln könnte. Wir werden daher davon ausgehen, d a ß die Konstruktion von Indizes nicht so sehr in einem empirizistischen R a h m e n , sondern als empirischer Bezug der Theoriebildung zu verstehen ist, eine Anregung, die vor allem auf L A Z A R S F E L D (1959a; 1959b; 1959c; 1966) zurückgeht und in letzter Zeit mit besonderem Nachdruck von BLALOCK ( 1 9 6 1 ; 1968a, b; 1970), B O U D O N (1966; 1967; 1969a; 1970) und CAPECCHI ( 1 9 5 7 ; 1968) weitergeführt worden ist. Unsere Behandlung des Index-Problems versteht sich somit als methodologisches Komplement zu der ausführlichen und auf alle technischen Details eingehenden Darstellung von G A L T U N G (1967), auf die der interessierte Leser verwiesen sei. Unter dem Begriff 'Index' verstehen wir ein Meßmodell der allgemeinen Form (1)
Ik
= f(xl,x2,...
,xk).
Die Variablen x¡, x2 ,..., xk werden als Indikatoren der zu messenden Variablen X bezeichnet und stellen die Elemente des Index Ik dar. Ihre Anzahl k bestimmt die Freiheitsgrade des Index (siehe hierzu L A Z A R S F E L D UND B A R T O N 1951). Ihre Bedeutung bezüglich der zu messenden Variablen X ist durch folgende Relation definiert: (2)
x¡ = g i { X , Z l , Z 2 , . . . , Z n ) ,
wobei die Zj(j = 1 , 2 , . . . , n) eine Reihe von Variablen darstellen, die die Messung von X durch I k beeinflussen. Einen Index I k zu konstruieren b e d e u t e t demnach, d a ß man die F u n k t i o n e n / und g, sowie ihre Elemente so definiert, d a ß (3)
I
k
= h ( X ) +
e¡k,
wobei a n g e n o m m e n wird, daß (4)
% < % - r
Das S y m b o l e kennzeichnet hier den Meßfehler im eigentlichen Sinne des Wortes, d. h. die Summe von zufallsbedingten Schwankungen, deren mathematische Erwartung E (e) gleich Null ist. Die Bedingung (4) weist darauf hin, d a ß die Zahl der Freiheitsgrade eines Index von der Größe des Meßfehlers abhängig ist. Im Idealfall soll der Index soviele Elemente enthalten, wie es die Genauigkeit der Messung erfordert. Wenn die Erhöhung der Anzahl der Freiheitsgrade um eine Einheit keinen wesentlichen E i n f l u ß auf den Meßfehler von I k ausübt, ist die optimale Ausdehnung des Index erreicht. Die Definition von ' I n d e x ' impliziert weiterhin, d a ß k > 2 ist, d. h., daß die IndexBildung in einer Situation vorgenommen wird, in der es unmöglich ist, eine Variable x0 zu definieren, die konsistent genauere Messungen von X liefert als jede mögliche K o m b i n a t i o n der Indikatoren-Menge x2 ,..., xk). Diese Bedingung definiert die Grenze zwischen Messen durch Indizes ('by fiat') und f u n d a m e n t a l e m bzw. abgeleitetem Messen. Sie verdeutlicht gleichzeitig die Möglichkeit eines Übergangs von der Index-Bildung zu den klassischen Meßverfahren. Die o b e n gegebene Definition (die sich teilweise aus den Ausführungen von
LAZARS-
1. Kapitel: Methodologische Probleme der Index-Bildung
13
1955; 1959b und COLEMAN 1964 ableiten läßt) besitzt gegenüber den herkömmlichen Definitionen den Vorteil, daß die methodologischen und forschungstechnischen Probleme der Index-Konstruktion explizit gemacht werden. In der Literatur findet man jedoch Definitionen, die von der oben angeführten wesentlich abweichen. Manche Autoren interpretieren den 'Index'-Begriff als Synonym für die Messung soziologischer Konzepte (siehe ζ. Β. SCHMID 1956; RILEY 1964; D U B I N 1969). Andere sehen das wesentliche Problem der Indexbildung in der Reduzierung eines manifesten, «-dimensionalen Eigenschaftsraumes ('property space') auf einen Meß-Vektor, ohne d a ß die Beziehung des manifesten Eigenschaftsraumes zum latenten Eigenschaftsraum in die Index-Definition eingeht (GALTUNG 1967; FELD
MAYNTZ U. A. 1 9 6 9 ) .
O f t werden die Termini 'Indikator' und 'Index' in der methodologischen Literatur alternativ verwendet ( L A Z A R S F E L D UND R O S E N B E R G 1 9 5 5 ) , und man benutzt zuweilen anstelle von 'Indikator' andere gleichbedeutende Begriffe. Zum Beispiel sprechen GALTUNG
(1967) und
DEGROOT ( 1 9 6 9 )
von'Variable'.
Schließlich sei daran erinnert, daß die Termini 'Indikator' und 'Index' in der Testund Skalierungs-Theorie meist durch die Begriffe 'item' und 'Gesamt-Score' (total score) ersetzt werden. Hier wird der Begriff 'Index' auf eine mehr oder weniger willkürliche Zuordnung von Beobachtungen zu latenten Variablen reduziert. Die folgende Darstellung will keine endgültige Lösung der Problematik herbeiführen, die mit der Konstruktion von Indizes zur Messung theoretisch relevanter Variablen verbunden ist. Vielmehr sollen an dieser Stelle die Entscheidungen analysiert werden, die unsere Definition des 'Index'-Begriffs impliziert. Eine erste Entscheidung betrifft die wissenschaftslogische Grundlage der Verknüpfung zwischen Indikatoren als Index-Elementen (Beobachtungssprache) und der indizierten Variablen (theoretische Sprache). Ohne auf alle Probleme der konzeptualen Analyse detailliert einzugehen, soll im folgenden Abschnitt geklärt werden, unter welchen Bedingungen es sinnvoll ist, Indikatoren als beobachtbare 'Erscheinungen' eines Konzeptes zu betrachten (Abschnitt 1.2). Eine weitere Entscheidung bezieht sich auf die Auswahl von Indikatoren. Die zu messende Variable X ist meistens nicht nur mit k, sondern vielmehr mit m{m> k) beobachtbaren Variablen funktional verbunden. Die Funktion (1) definiert dementsprechend nur eine mögliche Untermenge A x (5) Ik( l> aus der Menge
(6)
x
2 ' ••• > xk) Bx(x1,x2,...,xk,...,xm)
der m Variablen, die für die Messung von X aufgrund einer Theorie von X in Frage kommen. Die Auswahl von k Indikatoren zur Messung von X setzt die Entwicklung von Kriterien voraus, nach denen eine optimale Indikatoren-Untermenge identifiziert werden kann. Drittens bildet die Struktur des Gleichungssystems (2) den Gegenstand eines weiteren Abschnittes dieses Kapitels. Aufgrund einer Analyse der verschiedenen Ansätze, die in diesem Zusammenhang im Rahmen der sozialwissenschaftlichen Literatur formuliert worden sind, soll insbesondere verdeutlicht werden, daß die Konstruktion
14
5. Band: Testen und Messen
eines I n d e x f o l g e n d e E n t s c h e i d u n g e n e r f o r d e r t : (1) die E n t w i c k l u n g eines Modells, das die B e z i e h u n g e n zwischen m a n i f e s t e n u n d l a t e n t e n Variablen expliziert; (2) die S p e z i f i k a t i o n der Störvariablen u n d der Bedingungen, u n t e r d e n e n m a n von i h r e m E i n f l u ß auf die Messung a b s e h e n k a n n ; u n d (3) die Analyse der I d e n t i f i k a t i o n s b e dingungen, die eine e i n d e u t i g e Lösung des G l e i c h u n g s s y s t e m s e r m ö g l i c h e n . Eine vierte G r u p p e von E n t s c h e i d u n g e n ergibt sich schließlich aus der Kombination von Indikatoren zu einem meist e i n d i m e n s i o n a l e n I n d e x . A u s d e r Menge d e r sachlich u n d logisch m ö g l i c h e n K o m b i n a t i o n s - M o d e l l e soll dasjenige b e s t i m m t w e r d e n , das d e n M e ß f e h l e r m i n i m i e r t u n d darüber hinaus a u c h t h e o r e t i s c h i n t e r p r e t i e r b a r ist. I n s b e s o n d e r e stellen sich in diesem Z u s a m m e n h a n g die F r a g e n n a c h der Gewichtung d e r einzelnen I n d i k a t o r e n u n d der B e s t i m m u n g der I n d e x - F u n k t i o n / (Abschnitt 1.5).
1.2
Beobachtungs-Sprache und theoretische Sprache: einige wissenschaftslogische Aspekte der Index-Bildung
Aus d e r obigen I n d e x - D e f i n i t i o n folgt u n m i t t e l b a r die N o t w e n d i g k e i t , die Bed e u t u n g d e r F u n k t i o n zu analysieren, die K o n z e p t e u n d I n d i k a t o r e n m i t e i n a n d e r verknüpft. Man k a n n die K o n s t r u k t i o n von I n d i k a t o r e n bzw. I n d i k a t o r e n - M e n g e n als ein Prob l e m der Art a u f f a s s e n , d a ß m a n l a t e n t e (d. h. nicht direkt b e o b a c h t b a r e , t h e o r e t i sche) Begriffe mit Hilfe b e s t i m m t e r T r a n s f o r m a t i o n s r e g e l n auf die B e o b a c h t u n g s e b e ne a b b i l d e t . In diesem Z u s a m m e n h a n g erscheint eine U n t e r s c h e i d u n g wichtig, die sich auf die u n t e r s c h i e d l i c h e n S p r a c h s t u f e n o d e r -ebenen b e z i e h t , auf d e n e n die t h e o retischen K o n z e p t e einerseits sowie I n d i k a t o r e n a n d e r e r s e i t s lokalisiert w e r d e n müssen. Nach C A R N A P ( 1 9 5 6 ; 1969) zerfällt die Wissenschafts-Sprache L in m i n d e s t e n s zwei Teilklassen: in die t h e o r e t i s c h e S p r a c h e LT u n d die B e o b a c h t u n g s s p r a c h e LB. Diese U n t e r s c h e i d u n g w u r d e für C a r n a p n o t w e n d i g , als sich herausstellte, d a ß sein ursprünglich k o n z i p i e r t e s P r o g r a m m z u r K o n s t r u k t i o n einer empirizistischen Sprache LE aus verschiedenen G r ü n d e n u n d u r c h f ü h r b a r ist. LE sollte s o w o h l t h e o r e t i sche Begriffe wie a u c h B e o b a c h t u n g s b e g r i f f e (Observable) e n t h a l t e n , w o b e i die t h e o retischen T e r m e d e f i n i t o r i s c h vollständig auf die Observablen z u r ü c k f ü h r b a r sein sollten. Die U n m ö g l i c h k e i t der V e r w i r k l i c h u n g dieses P r o g r a m m s schon für m e t r i s c h e Begriff e ist verschiedentlich nachgewiesen w o r d e n (siehe vor allem H E M P E L 1952; P O P P E R 1 9 5 9 ; 1 9 6 3 ) . Das H a u p t m o t i v für die D i f f e r e n z i e r u n g von LE scheint j e d o c h C a r n a p s A n a l y s e der logischen E i g e n s c h a f t e n von D i s p o s i t i o n s p r ä d i k a t e n gewesen zu sein (STEGMÜLLER 1970). Wir w e r d e n hierauf z u r ü c k k o m m e n , n a c h d e m wir die C h a r a k teristika d e r b e i d e n Teil-Sprachen LB u n d LT dargestellt h a b e n . Die Beobachtungssprache LB b e s t e h t aus d e n s o g e n a n n t e n primitiven K o n s t a n t e n , die w i e d e r u m in die b e i d e n Teilklassen der d e s k r i p t i v e n u n d der logischen K o n s t a n t e n zerfallen. Die Klasse aller U n d e f i n i e r t e n deskriptiven K o n s t a n t e n bildet das Beo b a c h t u n g s - V o k a b u l a r VB. S o w o h l die P r ä d i k a t e wie a u c h die Individuenvariablen
1. Kapitel: Methodologische
Probleme
der
Index-Bildung
15
bzw. -konstanten in VB müssen sich auf beobachtbare Entitäten bzw. Eigenschaften u n d / o d e r Relationen von Entitäten beziehen (Postulat des Nominalismus). Die Grundlagen dieser elementaren Dingsprache sind — psychologisch ausgedrückt - sensorische Stimuli u n d / o d e r Stimulus-Konfigurationen. Homogene Stimulus-Klassen (homogen in Bezug auf Eigenschaften von oder Relationen zwischen Stimuli) erlauben die Bildung von Beobachtungsbegriffen, die sich definitorisch nicht weiter zurückführen lassen. Sie sind die G r u n d t e r m e von VB in LB. Alle anderen Terme, die nicht zur Klasse der G r u n d t e r m e gehören, müssen explizit definitorisch auf diese reduziert werden k ö n n e n . Für die G r u n d t e r m e selbst sind letztlich nur ostensive (hinweisende) Definitionen möglich und notwendig. Was den logischen Apparat in LB anlangt, so m u ß der logische Kalkül (ζ. B. die Quantorenlogik mit Identität) auch semantisch d e u t b a r sein, da es sich bei LB um eine vollständig interpretierbare (gedeutete) Sprache handeln soll. Fernerhin wird gefordert, daß sie eine intersubjektive Sprache sei; und schließlich ist sie nach dem Postulat des Finitismus eine Sprache, deren Variablen einen nur endlichen Wertber e i c h h a b e n s o l l e n (CARNAP
1956).
Die theoretische Sprache LT besteht aus den sogenannten theoretischen T e r m e n . Das theoretische Vokabular VT ist die Klasse aller primitiven deskriptiven Konstanten in L T . Sie müssen weder b e o b a c h t b a r noch explizit definierbar in Bezug auf die Terme in LB sein. Sie sind vorerst Undefinierte G r u n d k o n s t a n t e n . Τ sei eine vollständig in der Sprache LT formulierte Theorie über irgendeinen Gegenstandbereich. Dann ist Τ solange ein ungedeuteter Kalkül, wie er nicht mit Beobachtungstermen verknüpft worden ist. Erst dann wird aus dem f o r m a l e n Kalkül (Modell) eine empirisch f u n d i e r t e Theorie. Der logische Apparat von LT m u ß wesentlich leistungsfähiger sein als in LB, da unter anderem in der theoretischen Sprache alle T h e o r e m e der höheren Mathematik und der theoretischen Physik formuliert und ggf. bewiesen werden sollen. Während die T e r m e in VB durch empirische Gesetze miteinander verknüpft sind, besteht die 'reine' Theorie Τ unter anderem aus theoretischen Gesetzen, welche die theoretischen T e r m e miteinander verbinden. CARNAP ( 1 9 6 9 , S. 2 2 7 ) weist ausdrücklich darauf hin, d a ß "die Ausdrücke von theoretischen Gesetzen sich nicht auf Observable beziehen". In der Physik machen theoretische Gesetze zumeist Aussagen über die Beziehungen zwischen (prinzipiell) u n b e o b a c h t b a r e n mikrophysikalischen G r ö ß e n wie ζ. B. Feldvektoren, Positronen, Spin usw. Insofern sind theoretische Gesetze weitgehend "Mikrogesetze" (CARNAP 1969), j e d o c h nicht immer. Ein Beispiel für ein makrophysikalisches Gesetz etwa ist die sogenannte "Maxwellsche Relation": η 2 = βμ, wobei η der Brechungsindex (des d u r c h l a u f e n d e n Stoffes), e die Dielektrizitätskonstante und μ der theoretische Begriff der Permeabilität sind. (Im Mikrobereich ist dieses Gesetz nicht mehr allgemeingültig, sondern wird q u a n t e n t h e o r e t i s c h modifiziert bzw. verallgemeinert.) Auch in den Sozial- und Verhaltenswissenschaften sind theoretische Gesetze Aussagen, die mindestens einen theoretischen Begriff bzw. einen Dispositionsbegriff enthalten. Ein solches theoretisches Gesetz ist ζ. B. das Postulat VIII der Lerntheorie von HULL ( 1 9 5 2 , S. 7). Danach ist das Reaktionspotential für ein gelerntes Verhalten (a) durch den Antrieb (drive) D, (b) durch die Reizstärkendynamik V¡
16
5. Band: Testen und Messen
(dynamism of t h e signaling stimulus trace), (c) durch die Verstärkungskomponente Κ und (d) durch die Habitstärke sHr folgendermaßen definiert: sEr
= D • Vl - Κ • sHr,
wobei sEr, D, Vx und sHr theoretische bzw. intervenierende Variable sind. Im Unterschied hierzu ist das sogenannte Thorndike'sche "Gesetz der Ü b u n g " ein empirisches Gesetz (u. E. wäre es sinnvoller, von einer gesetzmäßigen Verknüpfung zwischen Observablen(-klassen) zu sprechen; auch theoretische Gesetze sind ja empirisch fundiert bzw. fundierbar). Es lautet wörtlich: "Wenn der Mensch eine ... assoziative Verknüpfung zwischen einer Situation S und einer Reaktion R in sich vollzogen oder von ihr 'Gebrauch g e m a c h t ' hat, so reagiert er .... unter sonst gleichen Umständen, mit einer Z u n a h m e der Stärke dieser assoziativen V e r b i n d u n g " (THORNDIKE 1 9 3 0 , S . 6 3 ) .
Etwas vereinfachend kann man sagen: das empirische (bzw. Beobachtungs-)Gesetz konstatiert die Invarianz einer Reiz-Reaktions-Verbindung; das theoretische Gesetz hingegen schiebt entweder zwischen die Observablen " R e i z " und " R e a k t i o n " intervenierende Variable, die eben diese Invarianz erklären, oder aber expliziert die Kovarianz zweier oder mehrerer beobachteter Variablen aufgrund ihrer gemeinsamen Beziehungen zu einer theoretischen (latenten) Variablen. So wie man mit Hilfe eines empirischen Gesetzes eine Beobachtungstatsache erklären kann, so erlaubt ein theoretisches Gesetz die Erklärung und Ableitung eines empirischen Gesetzes. Theoretische Gesetze verhalten sich zu empirischen Gesetzen wie diese zu den Tatsachen. Während j e d o c h zur Rechtfertigung von empirischen Gesetzen prinzipiell der Rekurs auf die entsprechenden Tatsachenbeobachtungen ausreicht (wobei gleichgültig ist, o b man einen induktivistischen oder deduktivistischen Bezug zwischen ihnen a n n i m m t ) , so ist dieser Erweis durch Beobachtung für theoretische Gesetze (vorerst) nicht möglich. Wie aber läßt sich ein theoretisches Gesetz überhaupt rechtfertigen? Damit wird die Notwendigkeit der Angabe von Regeln deutlich, welche die theoretischen T e r m e aus LT mit den Observablen aus LB koordinieren. Es sind die sogen a n n t e n Korrespondenzregeln, die diese K o o r d i n a t i o n s f u n k t i o n übernehmen und damit die 'Entsprechung' zwischen den Ebenen der Beobachtung (Empirie) und der Theorie herstellen. BRIDGMAN ( 1 9 2 3 ) spricht hier von 'operationalen Regeln'; andere A u t o r e n nennen sie 'epistemische Korrelationen' (NORTHROP 1947) oder 'Zuordnungsdefinitionen' (REICHENBACH 1951). Sie n e h m e n innerhalb eines empirischen wissenschaftlichen Erklärungssystems eine strategisch wichtige Stellung ein, da erst durch sie der empirische Bezug der Theorie gewährleistet wird. Im allgemeinen sind diese Korrespondenzregeln als gemischt-sprachliche Sätze f o r m u liert, die sowohl T e r m e aus LB als auch aus LT enthalten. In der Regel sind dies Undefinierte deskriptive G r u n d k o n s t a n t e n (Grundterme). Es ist aber auch möglich, d a ß in den Korrespondenzregeln weder G r u n d t e r m e der Beobachtungssprache noch der theoretischen Sprache enthalten sind. Jedoch können solche Korrespondenzregeln stets durch definitorische R e d u k t i o n so umformuliert werden, d a ß alle ihre deskriptiven Terme aus der K o n j u n k t i o n von VB mit VT stammen (siehe S T E G M Ü L L E R 1970, S. 309). In gewissem Sinne ist die von den Korrespondenzregeln konstituierte Beziehung zwi-
1. Kapitel:
Methodologische
Probleme
der
Index-Bildung
17
sehen Observablen und theoretischen Begriffen asymmetrisch. Es ist prinzipiell unmöglich, einen theoretischen Term auf der Basis noch so vieler Beobachtungsterme vollständig zu definieren. Wohl aber kann ein Beobachtungsbegriff mit Hilfe eines theoretischen Begriffes definiert werden (CARNAP 1 9 6 9 ; STEGMÜLLER 1 9 7 0 ) . Dies hängt damit zusammen, daß die Korrespondenzregeln einen theoretischen Begriff nur partiell interpretieren können. (Partiell interpretierbar heißt, daß theoretische Begriffe (a) nicht vollständig in der Sprache L B definierbar sind und (b) durch die Korrespondenzregeln nur mittelbar mit der Beobachtungsbasis verknüpft werden.) Oie Bedeutung theoretischer Begriffe ist nicht nur durch ihre (vertikale) Verknüpfung mit der Basis, sondern auch durch ihre (horizontale) Verknüpfung mit den anderen theoretischen Begriffen eines theoretischen Systems bestimmt (HEMPEL 1 9 5 2 ; KAPLAN 1 9 6 4 ) . Insofern kann man einen theoretischen Term als offenes Bedeutungssystem auffassen, dem prinzipiell beliebig viele Korrespondenzregeln zugeordnet werden können (STEGMÜLLER 1 9 7 0 ) . Ein Motiv für die Konstruktion multipler Korrespondenzregeln kann also u. a. die Zielsetzung der 'empirischen Bedeutungsverschärfung' von theoretischen Begriffen sein. Dem Begriff der Beobachtbarkeit kommt offensichtlich eine Schlüsselrolle bei der Konstruktion der Sprache LB zu. Die ostensive Definition setzt diese Beobachtbarkeit grundsätzlich voraus. Allerdings scheint eine Präzisierung der Bedeutung von 'Beobachtbarkeit' recht schwierig zu sein. Wie POPPER ( 1 9 5 6 ; 1 9 6 9 ) in seiner Auseinandersetzung mit Carnap hervorhebt, ist die Beobachtbarkeit selbst eine Disposition von Objekten und damit abhängig von bestimmten empirischen Bedingungen. Carnap selbst spricht von einer engeren und weiteren Bedeutung dieses Terminus, wodurch die Grenzen zwischen Observablen und Nicht-Observablen fließend werden. Das kann angesichts des Fehlens einer exakten Theorie der Beobachtbarkeit nicht weiter verwundern (siehe dazu SCHEFFLER 1970).
Der Beobachtungsprozeß, über den die Bedeutung einer Observablen realisiert werden muß, kann mehr oder weniger direkt sein. Hiermit sind auch solche Beobachtungen eingeschlossen, in denen Observable nur mit apparativen Hilfsmitteln erfaßt werden können. Wird z. B. die Stromstärke durch die Zeigerstellung eines Ampèremeters indiziert, so wird (gemäß dem Postulat des Nominalismus) die Stromstärke nicht direkt beobachtet, sondern erschlossen (siehe CARNAP 1 9 6 9 , S. 2 2 5 ) . Direkt beobachtet wird nur ein bestimmter Wert der Indikatorvariablen 'Zeigerstellung', der wiederum aufgrund einer spezifischen Zuordnungsregel mit einem Wert der Variablen 'Stromstärke' verbunden wird. Hinzu kommt ein weiteres Problem. Carnap nimmt stillschweigend an, daß im Prozeß der direkten oder indirekten Beobachtung keine Fehler enthalten sind. Läßt man dagegen aus psychologischen u n d / o d e r meßtechnischen Gründen diese Hypothese fallen, dann ist z. B. die 'Stromstärke' keinesfalls mehr als Grundterm in LB aufzufassen; er wird dann nicht nur in dem Sinne erschlossen, daß er einer bestimmten Zeigerstellung zugeordnet wird, sondern auch derart, daß er bei Vorliegen von Meßfehlern aus einer Meßreihe als 'wahrer' Wert innerhalb gewisser Fehlergrenzen erschlossen wird. Schließlich sei darauf hingewiesen, daß die 'Beobachtbarkeit' eines Begriffes (d. h. genauer seine denotative Beziehung zu einer konkreten Entität) auch vom Stand der Beobachtungsmethoden und -instrumente abhängig ist. So kann eine Verfeinerung
18
5. Band: Testen und Messen
der B e o b a c h t u n g s t e c h n i k e n eine ursprünglich nicht b e o b a c h t b a r e G r ö ß e z u r Observable m a c h e n ( S T E G M Ü L L E R 1 9 7 0 ) . Wenn m a n von d e n hiermit implizierten Schwierigkeiten u n d d e n m ö g l i c h e n D i f f e r e n z e n hinsichtlich ihrer Lösung a b s i e h t , läßt sich vorerst f o l g e n d e s f e s t h a l t e n : Eine k o n s t r u k t i v e Lösung der I n d i k a t o r - P r o b l e m a t i k setzt die U n t e r s c h e i d u n g der S p r a c h s t u f e n voraus, auf d e n e n die I n d i k a t o r e n als abgeleitete T e r m e in LB und die t h e o retischen T e r m e in einer davon verschiedenen S p r a c h e lokalisiert w e r d e n . E n t s c h e i d e n d für die K o n s t r u k t i o n von I n d i k a t o r e n b z w . I n d i k a t o r e n m e n g e n ist d e m e n t s p r e c h e n d die Spezifizierung von K o r r e s p o n d e n z r e g e l n als T r a n s f o r m a t i o n s b e d i n gungen für d e n Übergang von t h e o r e t i s c h e n Begriffen bzw. G e s e t z e n zu B e o b a c h t u n g s b e g r i f f e n bzw. empirischen G e s e t z e n . Dabei h a n d e l t es sich u. E. nicht so sehr u m ein statistisches A u s w a h l p r o b l e m als vielmehr u m eine K o n s t r u k t i o n s a u f g a b e . In diesem Z u s a m m e n h a n g wird die wechselseitige Abhängigkeit von k o n z e p t u e l l e r Analyse, M e ß v e r f a h r e n u n d T h e o r i e b i l d u n g o f f e n k u n d i g (siehe hierzu u. a. H E M P E L 1 9 5 2 u n d L A Z A R S F E L D 1 9 6 6 ) . Es zeigt sich n ä m l i c h , d a ß die in d e r empiristischen F o r s c h u n g s p r a x i s übliche T r e n n u n g dieser Bereiche in w i s s e n s c h a f t s t h e o r e t i s c h e r Hinsicht zu u n b e f r i e d i g e n d e n Ergebnissen f ü h r t . Dies soll im f o l g e n d e n a m Beispiel der t h e o r e t i s c h e n u n d logischen I n a d ä q u a t h e i t s o g e n a n n t e r 'operationaler' Definitionen für D i s p o s i t i o n s t e r m e d e m o n s t r i e r t w e r d e n . Wir h a b e n schon o b e n e r w ä h n t , d a ß das H a u p t m o t i v C a r n a p s zur R e k o n s t r u k t i o n der a n f a n g s k o n z i p i e r t e n Sprache LE die U n t e r s u c h u n g der logischen E i g e n s c h a f t e n von D i s p o s i t i o n s p r ä d i k a t e n gewesen ist. Sie ergab n ä m l i c h , d a ß e b e n diese Disposit i o n s p r ä d i k a t e nicht vollständig a u f die G r u n d p r ä d i k a t e in LE z u r ü c k g e f ü h r t w e r d e n können
(CARNAP
1 9 5 6 ; HEMPEL 1 9 5 1 ;
STEGMÜLLER
1970).
Dispositionen sind l a t e n t e E i g e n s c h a f t e n an U n t e r s u c h u n g s o b j e k t e n , deren B e o b a c h t barkeit nicht u n m i t t e l b a r gegeben ist, wie z. B. die Eigenschaft 'aggressiv' einer bes t i m m t e n V e r s u c h s p e r s o n Λ. V i e l m e h r müssen sie aus der Verhaltensweise des O b j e k t s b z w . der Person mit der fraglichen E i g e n s c h a f t erschlossen w e r d e n . Wenn χ wirklich aggressiv ist ( u n d zwar p e r m a n e n t über einen längeren Z e i t r a u m ) , d a n n läßt sich ihr V e r h a l t e n in b e s t i m m t e n S i t u a t i o n e n aus dieser m u t m a ß l i c h e n E i g e n s c h a f t ableiten. Es liegt folglich nahe, das U n t e r s u c h u n g s o b j e k t u n t e r r e p r o d u z i e r b a r e n u n d k o n t r o l l i e r t e n T e s t b e d i n g u n g e n hinsichtlich der Ü b e r e i n s t i m m u n g zwischen d e m vorhergesagten V e r h a l t e n u n d der t a t s ä c h l i c h e n R e a k t i o n zu ü b e r p r ü f e n . Je n a c h Ausgang dieses Tests wird m a n d a n n d e m O b j e k t die u n t e r s t e l l t e E i g e n s c h a f t zu- o d e r absprechen. Die Disposition wird also d e f i n i e r t d u r c h die A n g a b e von o p e r a t i v e n M a n i p u l a t i o n e n , die a m U n t e r s u c h u n g s g e g e n s t a n d d u r c h z u f ü h r e n sind. Dies ist n i c h t s a n d e r e s als eine operationale Definition, die m a n als S o n d e r f a l l der o b e n b e h a n d e l t e n fundamentalen Messung a u f f a s s e n k a n n . Allerdings zeigt die logische Analyse der S t r u k t u r o p e r a t i o naler D e f i n i t i o n e n , d a ß sie zu w i s s e n s c h a f t s t h e o r e t i s c h u n d -praktisch u n e r w ü n s c h ten Konsequenzen führen: Es sei Ax die Aussage: 'Person χ h a t eine b e s t i m m t e E i n s t e l l u n g ' ; Kxt sei: 'Person χ wird z u r Zeit t u n t e r k o n t r o l l i e r t e n B e d i n g u n g e n mit einem E i n s t e l l u n g s o b j e k t k o n f r o n t i e r t ; u n d Vxt schließlich b e d e u t e : 'Person χ zeigt ein d e r Einstellung e n t s p r e c h e n d e s vorhergesagtes V e r h a l t e n ' .
1. Kapitel: Methodologische Probleme der Index-Bildung
19
Die operationale Definition der Einstellung A weist dann folgende logische Struktur auf: (7)
Ax
Vt (Kxt
Vxt).
Verbal: Wenn immer eine Person χ in der Testbedingung Kxt
das Verhalten
zeigt, dann (und nur dann) liegt per definitionem die Disposition A x
Vxt
vor.
Einerseits ist diese operationale Definition durchaus adäquat. Für den Fall nämlich, daß die Testperson zum Zeitpunkt t das fragliche Verhalten nicht zeigt läßt sich aus der dann geltenden Konjunktion KxtA~ ist mit ~ (Kxt (8)
Vxt))
~ Vt (Kxt
Vxt),
Vxt (die logisch äquivalent
ableiten, daß ->
Vxt).
Daraus folgt wegen ( 7 ) : ~ Axt,
d. h., die Testperson ist in t nicht
aggressiv.
Andererseits ist die operationale Definition inadäquat, da sie sich als zu weit erweist (siehe hierzu STEGMÜLLER 1970, S. 218). Sie drückt nämlich das Definiens als wahrheitsfunktioneilen Konditionalsatz aus, der auch wahr ist, falls dessen Antecedens nicht zutrifft. Das hat zur Folge, daß man der Person χ die Einstellung A auch zuschreiben muß, wenn die Versuchsbedingung Kxt dem Allsatz ( V / ~ Kxt)
überhaupt nicht realisiert worden ist. Aus
folgt mittelbar die generelle Aussage
die logisch äquivalent ist mit V t(Kxt
Vxt),
V K x t
V
Vxt),
so daß also auch hier auf das Vorlie-
gen von A geschlossen werden muß. Man kann zwar diese sicherlich unerwünschte Schlußfolgerung zu vermeiden suchen, indem man die materiale Implikation ( - * ) als Kausaljunktor interpretiert, muß aber dann alle bisher ungelösten Probleme einer Logik der kausalen Modalitäten in Kauf nehmen (CARNAP 1969; STEGMÜLLER
1970).
Carnap hat deshalb ein anderes Verfahren zur Einführung von Dispositionstermen in die Wissenschaftssprache vorgeschlagen: d i t Methode
der Reduktionssätze.
Hier-
bei wird das Definiendum mit dem Definiens unter der Voraussetzung der Realisation der Testbedingung Kxt (9)
V x Vt [Kxt
Falls also die Bedingung Kxt
verknüpft, und zwar so: (Ax
Vxt)}.
nicht realisiert ist, kann über das Vorliegen oder Nicht-
Vorliegen der Disposition nichts ausgemacht werden. Man spricht deshalb von der partiellen Charakterisierbarkeit von Dispositionsprädikaten. Selbst wenn man dies als Nachteil betrachten sollte, so ist doch die Beseitigung der Inadäquatheit, welche die operationale Definition ( 7 ) vom wissenschaftslogischen Standpunkt zum untauglichen Instrument macht, ein entscheidender Vorteil. Allerdings hat das Verfahren auch einen entscheidenden Nachteil, so daß CARNAP ( 1 9 5 6 ) später wieder davon abgerückt ist. Soll nämlich das Beobachtungsresultat ein zwingender Nachweis für das Nicht-Vorliegen einer Disposition sein, dann muß angenommen werden, daß es durch keinerlei Störvariablen systematisch verfälscht sein könnte. Mit anderen Worten: das gewählte Beobachtungs- bzw. Meßverfahren muß vollständig exakte und gültige Ergebnisse liefern. Diese Annahme perfekter Messung ist unrealistisch und o f t auch unzweckmäßig. A n g e n o m m e n , man messe die Intelligenz eines Probanden, vom dem man aufgrund irgendwelcher früherer Erfahrung weiß, daß er sehr intelligent ist. In der aktuellen Testsituation jedoch 'versagt' er und
20
5. Band: Testen und Messen
erreicht nur einen unterdurchschnittlichen Intelligenz-Wert. Man wird dann nicht folgern, daß der Proband nur unterdurchschnittlich intelligent sei, sondern vielmehr nach ursächlichen Erklärungen für dieses 'Versagen' suchen und diese vielleicht in der Variable "Test-Angst" finden. Die Folgerung würde dann lauten (und wäre nachprüfbar): Obwohl der Proband hochintelligent ist, zeigt er im einschlägigen Test schwache Leistungen, da sie durch die Variable "Test-Angst" verschlechtert werden. Eine solche Ausweichklausel macht allerdings die Anwendung der Methode der Reduktionssätze zur Einführung von Dispositionsprädikaten unmöglich. In Formel (7) folgt ja ~ Axt streng logisch aus ~ Vxt. Das vorliegende Beobachtungsresultat ist eine notwendige und hinreichende Bedingung für das Nicht-Vorliegen (bzw. auch Vorliegen) der betreffenden Disposition. Deshalb m u ß man — so folgert Carnap — das Verfahren der Reduktionssätze in Fällen wie dem geschilderten preisgeben. Stattdessen ist der Dispositionsterm als theoretischer Begriff einzuführen, zu dem die Beobachtungsresultate bzw. -werte in einer nicht deterministischen, sondern probabilistischen Beziehung stehen (KAPLAN 1964; LAZARSFELD 1966). Im Vergleich zu den 'klassischen' Definitionen jedenfalls haben Reduktionssätze eine sehr wichtige Eigenschaft. Während Definitionen analytische Sätze sind, weisen Reduktionssätze einen empirischen Gehalt auf. Die im Reduktionssatz hergestellte Relation zwischen den Testbedingungen und der Reaktion erfordert die fallweise Überprüfung empirischer Hypothesen, die sich somit als richtig oder falsch erweisen können. Dabei ist es möglich, durch Reduktionssätze sowohl notwendige als auch hinreichende Bedingungen für das Vorliegen von Dispositionseigenschaften zu formulieren. Die Konjunktion von 'hinreichenden' und 'notwendigen' Reduktionssätzen ergibt dann Aussagen, in denen Dispositions-Prädikate überhaupt nicht mehr vorkommen, sondern die nur einen empirischen Sachverhalt ausdrücken (siehe dazu STEGMÜLLER 1969; 1970). Der enge Bezug zur Überprüfung und Konstruktion von empirisch gehaltvollen Theorien ist offenkundig; ebenso die Beziehung zum Vorgang des Messens. Reduktionssätze lássen sich als Sonderfälle von Korrespondenzregeln auffassen (STEGMÜLLER 1970). Wie diese können auch jene nicht nur als deterministische, sondern auch als probabilistische Gesetzmäßigkeiten formuliert werden. Analog zum später diskutierten Prinzip der multiplen Indikatoren kann man auch ein Prinzip der multiplen Reduktionssätze aufstellen. Die Einführung zusätzlicher Reduktionssätze kann als Versuch der empirischen Bedeutungsverschärfung der Dispositionsterme aufgefaßt werden. Man m u ß sich darüber im Klaren sein, daß zusätzliche Reduktionssätze gleichzeitig neue empirische Hypothesen bedeuten, eben weil Reduktionssätze empirisch gehaltvoll sind. Damit entstehen (ähnlich wie bei der Einführung multipler Indikatoren) zusätzliche Fehlermöglichkeiten, auf die jedoch nicht hier, sondern im Zusammenhang mit dem Prinzip der multiplen Indikatoren eingegangen werden soll (vgl. 1.4.2).
1.3
Drei Strategien zur Bestimmung von Korrespondenzregeln
Wir haben darauf hingewiesen, daß die Bildung von Indizes bestimmte Annahmen über die Korrespondenzregeln voraussetzt:
1. Kapitel: Methodologische
(10)
Probleme der Index-Bildung
21
xx=fx{X) *2 = /
2
W
*k =
fkW
Es sind nun kurz die Ansätze zu schildern, die im Rahmen der sozialwissenschaftlichen Methodologie eine Lösung dieses Problems anstreben. Die Beziehungen zwischen Indikatoren und Konzepten können unter drei verschiedenen Gesichtspunkten betrachtet werden: (1) Indikatoren sind Elemente der Definition eines Konzeptes; (2) Konzepte sind Dispositionen von Indikatoren; und (3) Indikatoren sind empirische, beobachtbare Folgen von Konzepten. Im folgenden werden wir diese Ansätze als (1) die operationalistische, (2) die typologisch-induktive und (3) die kausalanalytische Lösung bezeichnen. Die Termini 'operational', 'typologisch-induktiv' und 'kausalanalytisch' sollen dabei nicht als Elemente einer Typologie von Indikatoren interpretiert werden, sondern nur als Bezeichnungen verschiedener methodologischer Sprachen. Nowak (1964) weist in seiner Analyse der Beziehungen zwischen Indikatoren und theoretischen Konzepten darauf hin, daß man zwischen verschiedenen Typen von Indikatoren unterscheiden sollte, da die hiermit jeweils verbundenen methodologischen Probleme wesentlich voneinander abweichen. Je nachdem, ob die Beziehungen der Indikatoren zu den entsprechenden Konzepten (1) auf eine empirisch überprüfbare Aussage, (2) auf eine terminologische Konvention oder (3) auf die Postulierung einer latenten Variablen zurückgeführt werden können, spricht Nowak von (1) korrelativen, (2) definitionalen und (3) inferentialen Indikatoren. Korrelative Indikatoren sind weiterhin 'intern' oder 'extern', wobei die einen als "other components of the same syndromatic variable as defined in the conceptual scheme of the given science or theory" und die anderen als "external factors of the defined phenomen o n " z u b e t r a c h t e n sind ( N o w a k 1 9 6 4 , S. 3 4 - 3 5 ) .
Hierbei entsteht der Eindruck, als ob diese Typologie (die auch von Mayntz u. a. 1969 übernommen wird) auf Eigenschaften der Indikatoren selbst aufbaute; sie ist jedoch lediglich auf die Benutzung verschiedener methodologischer Sprachen zurückzuführen. In der Tat läßt sich ein beliebiger Indikator in jede der von Nowak vorgeschlagenen Kategorien einordnen, wenn man jeweils verschiedene Sprachen zur Formulierung der Indikator-Konzept-Beziehung benutzt. Bleibt die Sprache konstant, so werden alle analysierten Indikatoren in die gleiche, von der jeweils benutzten Sprache definierte Kategorie fallen. Man kann ζ. B. postulieren, daß die Anzahl gegenseitiger soziometrischer Wahlen in einer Gruppe zur Definition des Konzeptes 'soziale Kohäsion' gehört und infolgedessen von einem definitorischen Indikator sprechen. Ebenso gerechtfertigt scheint es aber auch zu sein, die gleiche Beziehung in einem kausalanalytischen Zusammenhang (Kohäsion verursacht gegenseitige soziometrische Wahlen) oder in einem typologischen Rahmen (gegenseitige soziometrische Wahlen stellen eine Dimension der latenten Variable 'Kohäsion' dar) zu formulieren und den oben genannten Indikator als korrelativ bzw. inferential zu betrachten.
22
5. Band: Testen und Messen
1.3.1
Indikatoren als Definitionselemente: die operationalistische Lösung
Eine erste I n t e r p r e t a t i o n d e r K o r r e s p o n d e n z r e g e l n ( 1 0 ) b e s t e h t darin, die I n d i k a t o ren als D e f i n i t i o n s e l e m e n t e des zu m e s s e n d e n K o n z e p t e s zu b e t r a c h t e n , dessen inhaltliche B e d e u t u n g a priori gegeben ist. D e m n a c h k ö n n e n die R e l a t i o n e n (10) so geschrieben w e r d e n : (11)
X
=
{xx,x2,...,xk}
I n d i k a t o r e n sind somit als O p e r a t i o n e n zu v e r s t e h e n , die d e n B e d e u t u n g s i n h a l t des K o n z e p t s d e c k e n . Es wird dabei vorausgesetzt, d a ß die Testvergleiche x ¡ E Χ , x2 e Χ,... , χic G Χ und Χ = Χ] Λ χ2 ... Α xk logisch d u r c h f ü h r b a r sind (dazu Z E T T E R B E R G 1 9 6 2 u n d G U T T M A N 1 9 5 1 ) . K o n z e p t e sind h i e r n a c h n i c h t s a n d e r e s als eine Menge von O p e r a t i o n e n ( B R I D G M A N 1 9 2 8 ; S T E V E N S 1 9 3 5 ) , u n d 'Messen' wird hier g l e i c h b e d e u t e n d m i t ' D e f i n i e r e n ' ( L U N D B E R G 1 9 3 9 ; UPSHAW 1 9 6 8 ) . Die F o r d e r u n g n a c h o p e r a t i o n a l e n D e f i n i t i o n e n u n d die d a m i t v e r b u n d e n e K o n t r o verse (für eine u m f a s s e n d e Darstellung siehe insbesondere A D L E R 1 9 4 6 ; 1 9 6 4 ; HEMPEL 1 9 5 2 ; B E R G M A N N 1 9 5 4 ; S C H L E S I N G E R 1 9 6 7 ; B L A L O C K 1 9 6 8 ) sind für die Sozialw i s s e n s c h a f t e n i n s o f e r n wichtig, als sie d e n empirischen Bezug der T h e o r i e b i l d u n g u n d das M e ß p r o b l e m ü b e r h a u p t in d e n V o r d e r g r u n d m e t h o d o l o g i s c h e r Überlegungen gestellt h a b e n . Dies geschah j e d o c h auf K o s t e n des t h e o r e t i s c h e n Bezugs. Obw o h l dieser U m s t a n d i m m e r w i e d e r b e d a u e r t u n d kritisiert w o r d e n ist (siehe u. a. M E R T O N 1 9 5 7 ; L A Z A R S F E L D 1 9 5 9 ; C O L E M A N 1 9 6 4 ) , scheint d o c h der T e r m i n u s ' o p e r a t i o n a l ' zu einer Art g u t e m Gewissen der empirischen S o z i a l f o r s c h u n g geword e n zu sein, wenigstens angesichts der ständig w a c h s e n d e n A n f o r d e r u n g e n an die A n w e n d b a r k e i t sozialwissenschaftlicher E r k e n n t n i s s e u n d M e t h o d e n bei der Lösung a k t u e l l e r sozialpolitischer P r o b l e m e ( B L A L O C K 1 9 7 0 ) . F e h l t eine allgemeine T h e o r i e , aus d e r die O p e r a t i o n e n xx, x2 , . . . , xk abgeleitet w e r d e n k ö n n e n , so müssen sie einen d i r e k t e n Bezug zu d e m V e r h a l t e n (mit d e m Sys t e m von Variablen) h a b e n , das d u r c h die E i n f ü h r u n g des K o n z e p t e s X erklärt werd e n soll ( C O L E M A N 1 9 6 4 ) . Es h a t wenig Sinn, K o n z e p t e zu messen, die keine t h e o retische Relevanz h a b e n , u n d / o d e r I n d i k a t o r e n z u r Messung von X zu b e n u t z e n , die zwar d e f i n i t o r i s c h zu X g e h ö r e n , a b e r n i c h t z u r T h e o r i e von X . Als Beispiel sei hier die Messung von Variablen wie ' G e s c h l e c h t ' u n d ' A l t e r ' angef ü h r t , d e r e n O p e r a t i o n a l i s i e r b a r k e i t selten bezweifelt w o r d e n ist. Wenn der Soziologe o d e r Sozialpsychologe die Variable ' G e s c h l e c h t ' z u r E r k l ä r u n g b e s t i m m t e r Phän o m e n e (etwa des S e l b s t m o r d v e r h a l t e n s ) h e r a n z i e h t , so m e i n t er d a m i t sicherlich nicht, d a ß die O p e r a t i o n ' B e o b a c h t u n g der physiologischen A t t r i b u t e des G e s c h l e c h t s ' für sein E r k l ä r u n g s s y s t e m ' G e s c h l e c h t - S e l b s t m o r d v e r h a l t e n ' d i r e k t relevant sei, obwohl er diese O p e r a t i o n als I n d i k a t o r für ' G e s c h l e c h t ' einsetzt. E r geht vielmehr davon aus, d a ß diese (ziemlich e i n w a n d f r e i f e s t s t e l l b a r e n ) physiologischen A t t r i b u t e mit einer b e s t i m m t e n K o n s t e l l a t i o n von V e r h a l t e n s w e i s e n (etwa den Rollen d e r F r a u bzw. des Mannes) u n d von d e n R e a k t i o n e n a n d e r e r ( d e n e n t s p r e c h e n d e n Erw a r t u n g e n ) v e r b u n d e n sind, d e n e n a u c h die e r k l ä r e n d e F u n k t i o n z u k o m m t . Die o b e n g e n a n n t e O p e r a t i o n besitzt k e i n e t h e o r e t i s c h e Relevanz u n d t r a n s f o r m i e r t darüber hinaus eine k o n t i n u i e r l i c h e D i m e n s i o n in eine D i c h o t o m i e . Sie wird t r o t z d e m als I n d i k a t o r b e n u t z t , weil sie m e h r o d e r weniger leicht d u r c h z u f ü h r e n ist. Die gleichen Überlegungen lassen sich in bezug auf die Variable ' A l t e r ' anstellen.
1. Kapitel: Methodologische Probleme der Index-Bildung
23
Wenn man ζ. B. b e h a u p t e t , die Selbstmordrate n e h m e mit fortschreitendem Alter zu, so ist in diesem Zusammenhang nicht das chronologische 'manifeste' Merkmal 'Alter', sondern vielmehr die entsprechende latente Eigenschaft gemeint, deren konkreter Inhalt von intervenierenden Variablen wie Krankheit, soziale Isolierung, berufliches und soziales 'disengagement' usw. determiniert wird. Darüber hinaus ist es wissenschaftslogisch ungerechtfertigt zu f o r d e r n , d a ß alle in der Theorie enthaltenen K o n z e p t e operationalisierbar sein müssen, damit die Theorie selbst validiert werden kann. Die Geschichte der Wissenschaften zeigt, d a ß gerade die vom Operationalismus verworfenen K o n z e p t e einen wesentlichen Beitrag zur Entwicklung von Theorien geleistet haben (HEMPEL 1952; CARNAP 1936; 1956; 1 9 6 9 ; TORGERSON
1.3.2
1 9 5 8 ; KERLINGER
1964).
K o n z e p t e als D i s p o s i t i o n e n : d i e t y p o l o g i s c h - i n d u k t i v e Lösung
Geht man von der A n n a h m e aus, daß die Sozialwissenschaften sich in einem vortheoretischen Entwicklungsstadium befinden, das durch mangelnde Theoriebildung und b e g r i f f l i c h e U n k l a r h e i t c h a r a k t e r i s i e r t i s t (LAZARSFELD
den die Korrespondenzregeln (10) zu
1 9 6 2 ; HEMPEL 1 9 5 2 ) , s o w e r -
Induktionsregeln.
Abstrakte, theoretisch relevante Begriffe werden als latente Variable a u f g e f a ß t , die die Wechselbeziehungen und Kovariationen innerhalb einer b e s t i m m t e n Menge von manifesten Variablen (Indikatoren) erklären. Die abstrakten Begriffe werden nicht direkt gemessen — dazu wäre eine Theorie notwendig, die K o n z e p t e und Indikatoren eindeutig miteinander verbindet - , sondern nach einem bestimmten Induktionsmodell aus den empirischen Daten abgeleitet bzw. konstruiert (BOUDON 1969). Die Aufstellung von Meßregeln ist auf dieser Entwicklungsstufe von der konzeptuellen A n a l y s e n i c h t z u t r e n n e n (LAZARSFELD
1966).
Der hiermit definierte typologisch-induktive Ansatz zur Bildung von Indizes geht also von einer Vielzahl problemrelevanter Daten aus und versucht, die diesen Daten zugrundeliegenden Klassifikationsprinzipien durch bestimmte Techniken der statistischen Datenanalyse herauszuarbeiten. Die Beziehung zwischen den abstrakten, theoretisch relevanten Begriffen und den spezifischen, mehr oder weniger b e o b a c h t b a r e n Indikatoren wird dadurch hergestellt, d a ß man nach einer Erklärung sucht, die eine bestimmte Datenmenge zuläßt. Gegenüber der operationalistischen Lösung bietet dieser Ansatz, der besonders auf die zahlreichen Arbeiten von Lazarsfeld und seine Schule zurückgeht, den Vorteil, daß die theoretische Relevanz nicht a priori festgelegt, sondern erst aus den beobachtbaren Daten abgeleitet wird. A u ß e r d e m wird die Anzahl der exogenen Variablen eines theoretischen Systems auf ein Minimum reduziert. Im Gegensatz zum Operationalismus geht man hier nicht von einer 'nominalen', sondern von einer vorläufigen Definition der latenten Eigenschaft aus, welche die Auswahl der Indikatoren und Untersuchungseinheiten bestimmt, deren Parameter durch eine T r a n s f o r m a t i o n der manifesten Parameter der Datenmatrix ermittelt werden. In diesem Zusammenhang bedeutet die K o n s t r u k t i o n eines Index, d a ß man diejenige Indikatoren-Kombination definiert, die innerhalb der D a t e n m a t r i x 'variablenh o m o g e n e ' Untermengen ('latent classes') erzeugt, unter Berücksichtigung eines Modells, das die Transformationsbedingungen expliziert.
24
5. Band:
Testen
und
Messen
Die Konstruktion eines Index entwickelt sich nach L A Z A R S F E L D ( 1 9 5 8 ; 1 9 5 9 ; 1 9 6 6 ) in vier Stufen, die als (1) imagery, (2) concept specification, (3) selection of indicators und (4) f o r m a t i o n of indices bezeichnet werden. Am Anfang steht eine diffuse, subjektive Wahrnehmung von Kovariationen und Regelmäßigkeiten ganz spezifischer Phänomene, die nach einer ebenfalls subjektiv vorg e n o m m e n e n Klassifikation auf bestimmte zugrundeliegende Begriffe h i n d e u t e n (imagery). Nach einer Analyse der inhaltlichen Bedeutung des hierdurch gebildeten Konzeptes wird es nach bestimmten Dimensionen zerlegt. Diese Bedeutungsuntermengen lassen sich logisch vom allgemeinen Konzept oder aber von der Beobachtung von Kovariationen ableiten (concept specification). Das System der Einzeldimensionen eines Begriffes konstituiert den Eigenschaftsraum eines Begriffes, wobei der manifeste Eigenschaftsraum auf verschiedene Abstraktionsebenen reduziert wird (BARTON 1955; LAZARSFELD
1959;
L A Z A R S F E L D UND B A R T O N
1 9 5 1 ) u n d als E r g e b n i s d e r
Reduk-
tion ein- oder mehrdimensional sein kann. Schließlich müssen Indikatoren g e f u n d e n werden, die die empirische Erfassung der einzelnen Dimensionen ermöglichen. Die Logik der typologisch-induktiven Vorgehensweise impliziert dabei, daß man (1) die Gesamtheit der dimensionsspezifischen Indikatoren definiert und (2) eine Untermenge von Indikatoren auswählt, die eine gültige und zuverlässige Messung der jeweiligen Dimension gewährleistet (selection of indicators). In diesem Zusammenhang tritt eine Reihe von schwerwiegenden Problemen m e t h o dologischer Art auf, die für die Index-Bildung grundlegend sind und die später im einzelnen behandelt werden: Wie ' e r f i n d e t ' man Indikatoren? Ist es überhaupt möglich, ein Indikatoren-Universum zu definieren? Gibt es objektive Kriterien zur Auswahl von Indikatoren und wie viele Indikatoren sind notwendig, um eine b e s t i m m t e Dimension zu messen, bzw. um einen Index des entsprechenden Begriffes zu konstruieren? Die Bedeutung solcher Fragen für eine Lösung des Meßproblems in den Sozialwissenschaften wird von L A Z A R S F E L D ( 1 9 6 6 ) zwar klar e r k a n n t ; er verzichtet j e d o c h auf die Entwicklung einer methodologisch befriedigenden Lösung. Das von ihm entwickelte Prinzip der Austauschbarkeit von Indikatoren-Mengen (exchangeability of indices) kann lediglich als Faustregel für die praktische Sozialforschung gelten, die nur unter bestimmten Bedingungen anwendbar ist. In der letzten Phase der Meßprozedur werden schließlich die ausgewählten Indikatoren zu einem Index kombiniert ( f o r m a t i o n of indices), und zwar nach einem probabilistischen Modell, das die Beziehungen zwischen dem latenten (meist eindimensionalen) und dem manifesten Eigenschaftsraum spezifiziert. Die unter der allgemeinen Bezeichnung latente Strukturanalyse
hauptsächlich von 1 9 6 8 ) entwickelten mathematischen Modelle k ö n n e n als ein Versuch gedeutet werden, diesem Problem eine formal und generell gültige Lösung zu geben ( L A Z A R S F E L D 1 9 5 9 ) . Wir werden im folgenden die Prämissen der latenten Strukturanalyse am Beispiel der 'latenten Dichotomie' erläutern, o h n e j e d o c h auf die Ableitung von Lösungen einzugehen. LAZARSFELD
(1951; 1954; 1959; 1962;
L A Z A R S F E L D UND H E N R Y
Es sei Xa eine latente Variable mit den Ausprägungen α = 1, 2; es sollen die Korrespondenzregeln identifiziert werden, die Xa mit der Indikatorenmenge (xl,x2,... ,x„) verbinden. Die Anwendbarkeit der Wahrscheinlichkeitsrechnung macht es dabei er-
1. Kapitel: Methodologische Probleme der Index-Bildung
25
forderlich, daß man die η manifesten Parameter aus m unabhängigen Beobachtungen jedes einzelnen Indikators schätzt. Die Ausgangsmatrix hat demnach folgende Struktur: •*11
X
12 ••• xlm
P\j
X2\
X22 ••• x2 m
Ρ 2j
x
x
Pnj
(12)
n2 ••• xnm
n 1
Die m Beobachtungen können sowohl als unabhängige Beobachtungen ein und derselben Versuchsperson wie auch als Einzelbeobachtungen von m Versuchspersonen interpretiert werden; in diesem Fall wird angenommen, daß sich die m Versuchspersonen nur in bezug auf die latente Variable X voneinander unterscheiden. Konstruiert man die Indikatoren ebenfalls als dichotome Variable mit den Ausprägungen (0, 1 ), so beziehen sich die Elemente der Datenmatrix ( 12) auf die /-te positive Beobachtung des Men Indikators. Die Elemente ptj der Randverteilung stellen die manifesten Parameter dar, wobei (13)
1 ^ pu = — Ζ Xn1 ' m i
Die Bedeutung der latenten Parameter geht aus folgender Matrix hervor: (14)
Π}
Ώ\... n ;
u1
n^
n\...
ν1
π^
Die Parameter υ" (wobei α = 1,2) stellen die Verteilung der m Beobachtungen auf die zwei Klassen der latenten Dichotomie dar. Daraus folgt, daß (15)
υ1 + υ2 = 1
Die Parameter (Π") geben die Wahrscheinlichkeit dafür an, daß die Beobachtung des /'-ten Indikators innerhalb der Klasse α positiv ausfällt. Aus der in (12) und (14) definierten Bedeutung der manifesten und latenten Parameter läßt sich folgende Gleichung aufstellen: (16)
Pij
=
υι
nl + v2nl.
Wie schon erwähnt, baut die typologische Strategie der Index-Bildung auf dem Gedanken auf, daß die Korrelationen zwischen Indikatoren durch die Einführung einer latenten Variablen vollständig erklärt werden können; dieses als Axiom der lokalen Independenz bezeichnete Prinzip bildet die Grundlage der latenten Strukturanalyse. Innerhalb einer latenten Klasse sind die Beobachtungen einer Versuchsperson in bezug auf verschiedene Indikatoren statistisch unabhängig. Folglich ist innerhalb einer bestimmten latenten Klasse die Wahrscheinlichkeit jeder beliebigen Kombination von Beobachtungen in bezug auf eine beliebige Menge von Indikatoren gleich dem Produkt der entsprechenden Randwahrscheinlichkeiten. Es gilt also:
26
5. Band: Testen und Messen
(i7)
π; = παπ;.
Und analog dazu (I8)
U°.K
=
Π* Π ; ΓΙ;
Π-Π;Π«
ijkl
Π
a
;
usw.
U n t e r B e r ü c k s i c h t i g u n g des A x i o m s der l o k a l e n I n d e p e n d e n z läßt sich die G l e i c h u n g ( 1 6 ) auch schreiben: (19)
P .
=
Υ'Π
1
Π) +
Υ2Π2Π2
und für die k o m b i n i e r t e n W a h r s c h e i n l i c h k e i t e n h ö h e r e r O r d n u n g :
(20)
pijk
=
2τι]ημΐ lk /"/* υ'τι]π)ηΙ+ν
D i e G l e i c h u n g e n ( 1 5 ) , ( 1 6 ) und ( 1 9 ) stellen die 'accounting
equations',
also die Zu-
ordnungsregeln, des Modells dar. D a r a u s lassen sich u n t e r b e s t i m m t e n I d e n t i f i k a t i o n s bedingungen (siehe LAZARSFELD UND HENRY 1 9 6 8 ) die l a t e n t e n P a r a m e t e r ( υ " ) und ( Γ φ schätzen. Bei η I n d i k a t o r e n e n t h a l t e n die ' a c c o u n t i n g e q u a t i o n s ' 2n + 2 l a t e n t e und 2 " m a n i feste P a r a m e t e r . Das hier im U m r i ß dargestellte M o d e l l einer l a t e n t e n D i c h o t o m i e ist d e m e n t s p r e c h e n d nur bei « > 3 i d e n t i f i z i e r b a r , da es bei 2 I n d i k a t o r e n m e h r U n b e k a n n t e als G l e i c h u n g e n g ä b e . E i n e w e i t e r e Bedingung zur S c h ä t z u n g der latenten P a r a m e t e r ist, d a ß die b e o b a c h t e t e n K o r r e l a t i o n e n zwischen den I n d i k a t o r e n ungleich Null sind; andernfalls müssen die A n w e n d u n g s b e d i n g u n g e n des Modells überprüft w e r d e n . Nach den gleichen Überlegungen werden die ' a c c o u n t i n g e q u a t i o n s ' für m
latente
Klassen (generai latent class model), für m geordnete latente Klassen (latent distance model), für kontinuierliche latente Variable (latent structure model with continuous space) und für kontinuierliche Indikatoren (latent profile model) abgeleitet.
D i e L ö s u n g s p r o z e d u r und die A b l e i t u n g der I d e n t i f i k a t i o n s b e d i n g u n g e n sind allerdings k o m p l i z i e r t e r als b e i m Modell der l a t e n t e n D i c h o t o m i e und teilweise n o c h ungelöst. F ü r eine vollständige Darstellung der o b e n g e n a n n t e n M o d e l l e sei a u f das grundlegende Werk von LAZARSFELD UND HENRY ( 1 9 6 8 ) verwiesen (vgl. a u c h Bd. V : Betz, Skalierungsverfahren 5.6). I m Z u s a m m e n h a n g mit der P r o b l e m a t i k der I n d e x - B i l d u n g liegt die B e d e u t s a m k e i t der l a t e n t e n S t r u k t u r a n a l y s e vor allem darin, d a ß sie a u f allen Meßniveaus erfolgen kann und folglich die logische G r u n d l a g e für eine allgemeine T h e o r i e der I n d e x - B i l dung b i e t e t . Die T e s t t h e o r i e , die S k a l i e r u n g s t h e o r i e und die F a k t o r e n a n a l y s e repräsentieren weitere Modelle, die - o b g l e i c h d e t e r m i n i s t i s c h a u f g e b a u t - aus induktiven Überlegungen hervorgehen. Ihre A n n a h m e n sind j e d o c h restriktiver als die der l a t e n t e n S t r u k t u r a n a l y s e , und sie b e n u t z e n teilweise weniger I n f o r m a t i o n e n aus der D a t e n m a t r i x . N a c h w e i s l i c h k ö n n e n die der T e s t t h e o r i e , den Skalierungsverfahren und der F a k t o r e n a n a l y s e zugrundeliegenden M o d e l l e als S o n d e r f ä l l e des 'latent s t r u c t u r e Modells b e t r a c h t e t werden (siehe vor allem LORD 1 9 5 3 ; LAZARSFELD 1 9 5 0 ; 1 9 6 0 ; 1962;
L A Z A R S F E L D UND H E N R Y 1 9 6 8 ;
1962;
CAPECCHI
1965).
GIBSON
1 9 5 9 ; GREEN
1952; 1954;
BOUDON
1. Kapitel: Methodologische
Probleme der Index-Bildung
27
Weitere Modelle der Bildung von Typologien zur Grundlegung einer allgemeinen Datentheorie wurden aus ähnlichen Überlegungen heraus von C O O M B S ( 1 9 5 3 ; 1 9 6 0 ; 1 9 6 4 ) , C O O M B S UND K A O ( 1 9 5 5 ) und S H E P A R D ( 1 9 6 2 ) entwickelt, o h n e daß bisher eine befriedigende algebraische Lösung geliefert werden k o n n t e (siehe B O U D O N 1 9 6 7 ) . Generell ist eine induktiv gefärbte Lösung des Index-Problems immer dem Vorwurf ausgesetzt, daß die durch die statistische Manipulierung der Datenmatrix ermittelten latenten Variablen (bzw. F a k t o r e n ) der S t r u k t u r der Wirklichkeit nicht entsprechen und nur dann als gültig angesehen werden k ö n n e n , wenn die Beziehungen zwischen latenter und manifester Variable theoretische Relevanz besitzen und nicht allein von der ausgewählten Indikatorenmenge abhängig sind (siehe B O U D O N 1 9 6 8 ) . In der Tat sind alle Modelle, die eine oder mehrere latente Variablen aus der Korrelation zwischen einer bestimmten Anzahl von Indikatoren zu rekonstruieren versuchen, nichts anderes als Kausalmodelle mit einer besonderen S t r u k t u r (vgl. hierzu B O U D O N 1 9 6 7 ; B L A L O C K 1 9 6 9 ; 1 9 7 0 ) . Typologische Modelle der Index-Konstruktion haben die Bedingung gemeinsam, daß K o n z e p t e und Indikatoren als Elemente eines einfach strukturierten kausalen Systems betrachtet werden k ö n n e n . K o m p l e x e S t r u k t u r e n (d. h. kausale S t r u k t u r e n mit I n t e r a k t i o n s e f f e k t ) lassen sich durch einen typologisch-induktiven Ansatz nicht eindeutig identifizieren. Dies hat auch zu einer bestimmten Strategie der Index-Bildung geführt, bei der man diejenigen Variablen als Indikatoren verwirft, die sich nicht in eine einfache Korrelationsstruktur hineinzwingen lassen.
1.3.3
I n d i k a t o r e n als E l e m e n t e eines kausalen Systems: der kausalanalytische Ansatz
Die Auffassung, daß das Meßproblem in den Sozialwissenschaften nicht so sehr durch die induktiv verfahrende Konstruktion von K o n z e p t e n , sondern in einem kausalanalytischen R a h m e n gelöst werden m u ß , wird insbesondere von B L A L O C K ( 1 9 6 8 ; 1969a; 1969b; 1970) vertreten (siehe auch C O S T N E R 1969; S I E G E L UND H O D G E 1968). Während Lazarsfeld den induktiven Ansatz zu einer Theorie der Index-Bildung damit begründet, d a ß die konzeptuelle Analyse der Theoriebildung vorangehen solle, empfiehlt Blalock den entgegengesetzten Weg und unterstreicht damit die Priorität der Konstruktion kausaltheoretischer Systeme, und zwar unabhängig von einer Lösung des Meßproblems. Die Schwierigkeiten bei der Messung sozialwissenschaftlicher Variablen sind nach Blalock nicht prinzipiell auf konzeptuelle Unklarheit, sondern auf die Tatsache zurückzuführen, d a ß die Vorgänge der Replikation und der Randomisierung meist nicht unter kontrollierten Bedingungen durchgeführt werden k ö n n e n . Da sich an diesem Zustand in naher Z u k u n f t nichts ändern wird, weist Blalock auf die Möglichkeit hin, die Replikationsbedingungen analytisch zu approximieren, d. h. die Indikatoren als b e o b a c h t b a r e Wirkungen eines definierten kausalen Systems aufzufassen, wobei dieses System sowohl die zu messende Variable als auch eventuelle Störvariablen enthalten soll. Die Korrespondenzregeln (10) bilden in diesem Zusammenhang eine auxiliäre Theorie, die neben der Haupttheorie bestimmte A n n a h m e n über die Beziehungen zwischen den theoretisch relevanten Variablen (den E l e m e n t e n
28
J. Band: Testen und Messen
der H a u p t t h e o r i e ) u n d d e n I n d i k a t o r e n ( d e n g e m e s s e n e n V a r i a b l e n ) sowie über die W i r k u n g d e r s t ö r e n d e n V a r i a b l e n auf diese B e z i e h u n g e n spezifiziert. Die H i l f s t h e o r i e , die d e r jeweiligen F o r s c h u n g s s i t u a t i o n a n g e p a ß t w e r d e n k a n n u n d soll, e n t h ä l t u n t e r a n d e r e m A n n a h m e n über die V e r z e r r u n g e n , die die A n w e n d u n g b e s t i m m t e r I n s t r u m e n t e d e r S o z i a l f o r s c h u n g mit sich b r i n g t . S y m p t o m a t i s c h f ü r d i e hier e n t s t e h e n d e n S c h w i e r i g k e i t e n ist d e r V e r s u c h COSTNERS ( 1 9 6 9 ) , eine solche H i l f s t h e o r i e explizit zu f o r m u l i e r e n . Sie ist a u c h d e s h a l b b e s o n d e r s i n t e r e s s a n t , weil sie u n s e r e s Wissens der e r s t e V e r s u c h ist, K o r r e s p o n d e n z r e g e l n im R a h m e n e i n e r K a u s a l s t r u k t u r - T h e o r i e a u f z u s t e l l e n , w o b e i die I n d i k a t o r e n als e m p i r i s c h e W i r k u n g e n d e r ' a b s t r a k t e n ' V a r i a b l e n i n t e r p r e t i e r t w e r d e n . In d i e s e m S i n n e k a n n m a n die V a l i d i t ä t e i n e r I n d i k a t o r - V a r i a b l e n als ihre K o r r e l a t i o n m i t d e r z u g e h ö r i g e n a b s t r a k t e n V a r i a b l e n d e f i n i e r e n . D a n n läßt sich bei w e i t e r e n s p e z i f i s c h e n M o d e l l a n n a h m e n die V a r i a n z d e r jeweiligen I n d i k a t o r e n a n t e i l s m ä ß i g zerlegen, u n d z w a r in die d u r c h die a b s t r a k t e V a r i a b l e b e w i r k t e V a r i a n z u n d in eine R e s t v a r i a n z , die sich aus der W i r k u n g s y s t e m a t i s c h e r u n d z u f a l l s b e d i n g t e r M e ß f e h l e r z u s a m m e n setzt. W e n n die l a t e n t e V a r i a b l e X u n d die I n d i k a t o r v a r i a b l e χ p e r f e k t m i t e i n a n d e r k o r r e lieren, d a n n ist die I n d i k a t o r v a r i a n z vollständig als W i r k u n g d e r a b s t r a k t e n V a r i a b l e n e r k l ä r t . E b e n s o lassen sich die a u s einer K a u s a l s t r u k t u r - T h e o r i e a b l e i t b a r e n e m p i r i schen Indikator-Korrelationen unter der Voraussetzung 'perfekter' Indikator-Konz e p t - K o r r e l a t i o n e n ( e p i s t e m i s c h e r K o r r e l a t i o n e n ) als vollständig v e r u r s a c h t d u r c h die e n t s p r e c h e n d e n t h e o r e t i s c h p o s t u l i e r t e n B e z i e h u n g e n z w i s c h e n d e n a b s t r a k t e n Variablen betrachten. In der Regel a b e r sind p e r f e k t e e p i s t e m i s c h e K o r r e l a t i o n e n k a u m j e g e g e b e n . Die F o l g e d a v o n ist, d a ß die e m p i r i s c h e n K o r r e l a t i o n e n z w i s c h e n d e n I n d i k a t o r e n n i c h t vollständig d e n e n t s p r e c h e n d e n t h e o r e t i s c h e n V a r i a b l e n - R e l a t i o n e n z u g e r e c h n e t werden k ö n n e n , sondern zusätzlich von anderen modellexternen Variablen determ i n i e r t sind. D e s h a l b sind e i n d e u t i g e Rückschlüsse von d e r I n d i k a t o r e n - E b e n e auf die E b e n e d e r T h e o r i e n i c h t m ö g l i c h . A n d i e s e m P r o b l e m setzt die H i l f s t h e o r i e an. N a c h C o s t n e r h a t sie f o l g e n d e A u f g a b e n : ( 1 ) die S c h ä t z u n g d e r e p i s t e m i s c h e n K o r r e l a t i o n e n u n d der a b s t r a k t e n P f a d e z w i s c h e n d e n t h e o r e t i s c h e n V a r i a b l e n , ( 2 ) die I d e n t i f i k a t i o n u n d L o k a l i s i e r u n g e v e n t u e l l a u f t r e t e n d e r s y s t e m a t i s c h e r u n d m o d e l l e x t e r n e r F e h l e r u n d (3) die S c h a f f u n g v o n B e d i n g u n g e n , u n t e r d e n e n die M o d e l l - I m p l i k a t i o n e n d i r e k t (d. h. o h n e Rek u r s a u f d i e I n d i k a t o r e n - E b e n e ) auf d e m t h e o r e t i s c h e n Niveau g e t e s t e t w e r d e n k ö n n e n . Die P r o b l e m e bei d e r A u f s t e l l u n g e i n e r s o l c h e n H i l f s t h e o r i e sowie d i e I m p l i k a t i o n e n f ü r eine T h e o r i e d e r I n d e x - B i l d u n g sollen an H a n d d e r f o l g e n d e n e i n f a c h e n Kausals t r u k t u r - T h e o r i e (siehe D a r s t e l l u n g 1) e r ö r t e r t w e r d e n . X ist die u n a b h ä n g i g e , Y die a b h ä n g i g e t h e o r e t i s c h e V a r i a b l e , c ist ein K a u s a l p f a d zwischen ihnen; x 2 bzw. ylt y2 sind die j e w e i l i g e n I n d i k a t o r - V a r i a b l e n v o n X u n d Y. Die auf die t h e o r e t i s c h e n u n d I n d i k a t o r - V a r i a b l e n h i n w e i s e n d e n u n d n i c h t n ä h e r b e z e i c h n e t e n Q u e r p f e i l e r e p r ä s e n t i e r e n d e m Modell e x t e r n e V a r i a t i o n s q u e l l e n . Z u m a n d e r e n wird a n g e n o m m e n , d a ß die I n d i k a t o r - V a r i a b l e n vollständig d u r c h die l a t e n t e n V a r i a b l e n d e t e r m i n i e r t sind (sieht m a n v o n d e n E f f e k t e n der S t ö r v a r i a b l e n a b ) . E i n e d r i t t e A n n a h m e setzt v o r a u s , d a ß d i e I n d i k a t o r e n d e r u n a b h ä n g i g e n m i t
1. Kapitel:
Methodologische
Probleme
der
29
Index-Bildung
Y
Darstellung 1 : Zwei-Variablen-Modell mit zwei Variablen pro Indikator (Quelle:
COSTNKR 1969, S. 250). x
l
x
2
y\
y2
den Indikatoren der abhängigen Variable korrelieren. Das Modell ' f u n k t i o n i e r t ' nicht, wenn man unkorrelierte unabhängige und abhängige Indikator-Variablen zuläßt. Dieser Fall würde eine wesentlich komplexere Hilfstheorie als die hier behandelte erforderlich machen. Bei den gegebenen A n n a h m e n lassen sich folgende Gleichungen aus dem Modell ableiten, wobei die Korrelationen als F u n k t i o n der Pfade zwischen den theoretischen Variablen und den Indikatoren geschrieben werden: r ' r
xtx2 y ¡y2
r
Vi
(21) r r
* 1 -V 2 *2y ι
r
x2yi
=
ab
(1)
=
de
(2)
=
acd
(3)
=
ace
(4)
=
bed
(5)
=
bee
(6)
Ferner läßt sich aus (21) folgende Gleichung ableiten, da Nullkorrelationen ausgeschlossen sind: (22) Aus (21) und (22) ergibt sich (23)
(acd)
(bce)
= (ace)
(bed),
und, nach Auflösung der Klammern, (24)
abc2de
=
abc2de.
Die Geltung dieser Test-Gleichung ist eine notwendige Vorbedingung für die Überprüfung der Theorie anhand der empirischen Indikator-Korrelationen. Treten auf der Beobachtungsebene signifikante Abweichungen bei einem oder mehreren Korrelationskoeffizienten in den Gleichungen (3) bis (6) auf, dann ist das in Gleichung (23) repräsentierte Konsistenz-Kriterium nicht erfüllt. Es sei nun die Korrelation zwischen x 2 und y ¡ vollständig oder teilweise durch eine Drittvariable W erklärt (Darstellung 2).
30
5. Band: Testen und Messen
c
Darstellung 2: Zwei-Variablen-Modell mit zwei I n d i k a t o r e n p r o Variable u n d k o n s t a n t e m differentiellen Fehler ( Q u e l l e : COSTNER 1 9 6 9 , S. 2 5 2 ) .
in diesem Falle gilt G l e i c h u n g ( 2 2 ) n i c h t m e h r , da (25)
rX2yi
= bcd+fg
(26)
(acd)(bce)
und
Φ {ace) (bed + fg).
Die Varianz von x2 u n d yl wird hier nicht n u r d u r c h die B e z i e h u n g e n zwischen X und Y (d. h. über die P f a d e b, c u n d d), s o n d e r n a u c h d u r c h die zusätzlichen P f a d e / u n d g erzeugt. In e i n e m solchen Falle läßt sich also aus den I n d i k a t o r - K o r r e lationen nichts Sicheres über die K a u s a l r e l a t i o n e n zwischen d e n t h e o r e t i s c h e n G r ö ß e n aussagen, da die I n d i k a t o r - K o r r e l a t i o n e n d u r c h die Variable W verursacht werden. Allerdings ist die Erfüllung des K o n s i s t e n z k r i t e r i u m s zwar eine n o t w e n d i g e , aber n o c h nicht h i n r e i c h e n d e Bedingung für einen gültigen S c h l u ß von der B e o b a c h t u n g s e b e n e auf die t h e o r e t i s c h e E b e n e . Es läßt sich zeigen, d a ß t r o t z des A u f t r e t e n s eines k o n s i s t e n t e n d i f f e r e n t i e l l e n Fehlers ( d i f f e r e n t i a l bias) die K o n s i s t e n z b e d i n g u n g weit e r h i n erfüllt sein k a n n .
c X
Darstellung 3: Zwei-Variablen-Modell mit zwei I n d i k a t o r e n p r o Variable u n d k o n s t a n t e m differentiellen Fehler ( Q u e l l e : COSTNER 1 9 6 9 , S . 2 5 2 ) .
Wie aus der Darstellung 3 zu ersehen ist, gilt für dieses Zwei-Variablen-Zwei-Indikatoren-Modell mit d i f f e r e n t i e l l e m F e h l e r die Konsistenzgleichung ( 2 2 ) w e i t e r h i n , da nämlich (27) das heißt
(aed + a f ) (bee) abc2de+abcef
= (ace) (bed + b f ) , = abc1 de + abcef.
1. Kapitel: Methodologische
Probleme der Index-Bildung
31
Aus d e n vorliegenden Gleichungen lassen sich n a c h einem e i n f a c h e n V e r f a h r e n die P f a d k o e f f i z i e n t e n a, b, c, d, e errechnen (siehe DUNCAN 1965; LAND 1969; BOUDON 1968). In Hinblick auf die o b e n g e n a n n t e n Ziele einer idealen Hilfstheorie ist also vorläufig nur die erste F o r d e r u n g erfüllt: Für j e d e n K o e f f i z i e n t e n im Modell erhält m a n zwei unabhängige S c h ä t z u n g e n , die bei Gültigkeit von ( 2 2 ) identisch (im Bereich von Z u f a l l s s c h w a n k u n g e n ) sein müssen. Eine hinreichende Bedingung für das F e h l e n des k o n s t a n t e n differentiellen Fehlers ist aus d e m Zwei-Indikatoren-Fall nicht abzuleiten. Dies ist erst bei m i n d e s t e n s 3 I n d i k a t o r e n pro t h e o r e t i s c h e r Variable möglich, so d a ß man weitere unabhängige Schätzungen der P f a d - K o e f f i z i e n t e n erhalten k a n n (hierzu COSTNER 1969). Was das zweite von Costner g e n a n n t e Ziel einer Hilfstheorie a n g e h t , so ist es erstens klar, d a ß das aufgestellte F e h l e r m o d e l l nur u n t e r der Voraussetzung der G e l t u n g der Beziehungen zwischen X u n d Y sinnvoll a u f r e c h t z u e r h a l t e n ist, so d a ß es davon nicht unabhängig k o n s t r u i e r t w e r d e n k a n n . Deshalb läßt sich eine solche Hilfstheorie a u c h nicht als selbständige Überprüfungsinstanz für die I m p l i k a t i o n e n des Modells interpretieren. N i m m t m a n diese Bedingung j e d o c h als gültig an, d a n n folgt allerdings, d a ß die jeweiligen I n d i k a t o r - K o r r e l a t i o n e n vollständig von den entsprec h e n d e n R e l a t i o n e n auf der a b s t r a k t e n E b e n e erklärt w e r d e n , so d a ß m a n j e d e n V e r s t o ß gegen die Konsistenzgleichungen als Wirkung einer m o d e l l e x t e r n e n Variable interpretieren k a n n . Zweitens gibt das Costnersche Modell keine A n h a l t s p u n k t e , u m diese nur v e r m u t baren systematischen Störvariablen zu lokalisieren. Es genügt nicht, sie d u r c h Plausibilitätsüberlegungen in die Hilfstheorie e i n z u f ü h r e n und d a n n " n a c h z u w e i s e n " , d a ß die Kriteriumsgleichung nicht m e h r erfüllt ist. Wenn also die Identitätsgleichung ( 2 2 ) empirisch nicht erwiesen wird, so folgt daraus allenfalls, d a ß ü b e r h a u p t ein F e h ler vorliegt. O b es sich dabei u m einen systematischen Meßfehler, der d u r c h eine s y s t e m e x t e r n e G r ö ß e verursacht wird, oder u m einen Fehler in der T h e o r i e selbst h a n d e l t , kann aus der Hilfstheorie alleine gar nicht deduziert w e r d e n . Die logisch wie sachlich u n b e f r i e d i g e n d e Situation folgt aus der T a t s a c h e , d a ß nur aus der K o n j u n k t i o n einer w a h r e n Theorie mit einer w a h r e n Hilfstheorie w a h r e Ü b e r p r ü f u n g s s ä t z e folgen (BLALOCK 1968). Der U m k e h r s c h l u ß ist e n t w e d e r falsch oder trivial. Trivial ist er, w e n n es keine nur e r d e n k b a r e Alternativ-Theorie geben kann, da die vorliegende T h e o r i e vollständig u n d in sich geschlossen ist. Falsch wäre er, w e n n sich bedingt d u r c h die Unvollständigkeit u n d / o d e r Falschheit der vorlieg e n d e n H a u p t t h e o r i e zu ihr k o n t r ä r e Alternativ-Theorien k o n s t r u i e r e n lassen, aus d e n e n die gleichen Ü b e r p r ü f u n g s s ä t z e (hier empirische K o r r e l a t i o n e n zwischen Ind i k a t o r · ^Variablen) abgeleitet w e r d e n können(B0UD0N 1967; HEISE 1969).
1.4
Die Auswahl von Indikatoren
Im ersten A b s c h n i t t dieses Beitrages w u r d e im einzelnen dargestellt, wie sich die N o t w e n d i g k e i t der Bildung von Indizes in den Sozialwissenschaften aus unserer Unwissenheit sowohl über die t h e o r e t i s c h e Relevanz von K o n z e p t e n als a u c h über die Beziehungen zwischen theoretisch relevanten K o n z e p t e n u n d b e o b a c h t b a r e n Indikator-Variablen ableiten läßt. Anschließend sind einige Strategien e r ö r t e r t w o r d e n ,
32
5. Band: Testen
und
Messen
die aufgrund von methodologischen Überlegungen diese vom jeweiligen Stand der Theorie bedingte Unwissenheit zu reduzieren versuchen und dabei vorläufige Lösungen formulieren. Nun geht es d a r u m , die spezifischen Implikationen dieser Unwissenheit für den k o n k r e t e n Meßvorgang zu untersuchen und zu verdeutlichen. In einer Situation, in der man Indizes zur Messung latenter Variablen konstruiert, geht man von der A n n a h m e aus, d a ß wegen des Umfanges der Indikatorenmenge nur eine Untermenge davon als Elemente eines Index in ein Meßinstrument eingeht. Forschungsökonomische und -technische Erwägungen sprechen dafür, die Anzahl der Freiheitsgrade eines I n d e x innerhalb vertretbarer Grenzen zu beschränken. Das erste Problem, mit dem wir uns auseinandersetzen werden, besteht darin, eine Auswahl von Indikatoren zu t r e f f e n , o h n e daß objektive Kriterien für diese Auswahl zur Verfügung stehen. Wie wir vorhin gesehen haben, lassen sich solche Kriterien erst aus den Parametern der Haupt- und Hilfstheorie ableiten. Gäbe es eine solche Möglichkeit, dann würde sich das Problem der Indikatoren-Auswahl prinzipiell nicht in diesem Zusammenhang stellen. Im R a h m e n der Test- und Skalenentwicklung sind u n t e r den Stichworten "Gültigk e i t " und "Zuverlässigkeit" eine Reihe von Auswahlstrategien entwickelt worden
Bd. V: Huber und Schmerkotte, Meßtheoretische Probleme 2.6 und 2.7). Wir werden uns hier auf eine Analyse der methodologischen Probleme beschränken, deren Lösung eine Voraussetzung für die Entwicklung von objektiven Kriterien der Indikatoren-Auswahl ist. Es handelt sich dabei um (1) das Postulat des Indikatoren-Universums, (2) das Prinzip der Austauschbarkeit von Indikatorenmengen und (3) das Prinzip der multiplen Indikatoren.
1.4.1
Das Indikatoren-Universum und die Austauschbarkeit von Indikatorenmengen
Der Begriff der Auswahl hat nur in Verbindung mit einer gegebenen Grundgesamtheit eine eindeutige Bedeutung. Auch bei der Indikatoren-Auswahl liegt der Gedanke nahe, die Auswahl-Kriterien so zu formulieren, d a ß ein Schluß von der Stichprobe auf die Population der Indikatoren möglich ist. I m m e r wo es d a r u m geht, eine bestimmte Auswahl zu rechtfertigen, ist der G e d a n k e implizit, d a ß die g e t r o f f e n e Auswahl in bezug auf die Gesamtheit der möglichen Indikatoren irgendwie repräsentativ ist. Dabei spielt es vorerst keine Rolle, o b diese Repräsentativität sich auf die Dimensionen eines latenten Eigenschaftsraumes, auf die Vielfalt des logischen Inhalts einer nominalen Definition oder auf die spezifischen, b e o b a c h t b a r e n Wirkungen eines geschlossenen kausalen Systems bezieht. GUTTMAN ( 1 9 5 0 ) hat hierzu im R a h m e n der Entwicklung eines Skalierungsverfahrens zur Einstellungsmessung die Begriffe "Attitüden-Universum" und "AttributenUniversum" geprägt. Die Bestimmung des Attributen-Universums als die Gesamtheit aller A t t r i b u t e , die das Konzept definieren, ist für G u t t m a n insofern wichtig, als es darum geht — parallel zu den Auswahlverfahren von Versuchspersonen aus einer h o m o g e n e n Grundgesamtheit —, die bei dem Schluß von Indikatoren-Werten auf Variablen-Werte entstehenden Fehler zu vermeiden bzw. zu bestimmen. GREEN ( 1 9 5 4 ) übernimmt teilweise diese Überlegungen über die Repräsentativität von In-
1. Kapitel: Methodologische Probleme der Index-Bildung
33
dikatoren-Untermengen in bezug auf das entsprechende Universum, schränkt jedoch ihre Gültigkeit gleichzeitig ein, indem er zugibt, daß die Möglichkeit, ein entsprechendes Universum zu definieren, nur selten gegeben ist. Dem Begriff des Indikatoren-Universums soll nach Green lediglich eine illustrative Bedeutung beigemessen werden, sofern dadurch die Grenzen der Verallgemeinerung von Meßergebnissen mehr oder weniger deutlich werden. Dagegen meint T O R G E R S O N ( 1 9 5 8 ) , d a ß der Begriff des Indikatoren-Universums noch zu verschwommen sei, um die Aufstellung eines statistisch f u n d i e r t e n Auswahlfehler-Kalküls zu erlauben. Man kann unter anderem beim heutigen Stand der Sozialwissenschaften nicht von der Voraussetzung ausgehen, d a ß eindeutige Regeln für die Z u o r d n u n g von Indikatoren zu einem bestimmten konzeptuellen Universum vorhanden sind. Ähnliche Überlegungen werden — in einer etwas unkonventionellen Terminologie - auch von G A L T U N G ( 1 9 6 7 ) angestellt. L O E V I N G E R ( 1 9 5 4 ; 1 9 5 7 ) weist in diesem Z u s a m m e n h a n g d a r a u f h i n , daß in der Testentwicklung die Tendenz besteht, die vorläufige, ad hoc zusammengesetzte Sammlung von Indikatoren (pool of items) als das eigentliche Indikatoren-Universum zu betrachten, o h n e darauf zu achten, d a ß dieses schon eine (meist verzerrte) Auswahl aus der unendlichen Menge von Indikatoren darstellt, die aus dem Inhalt eines theoretisch relevanten Konzeptes hervorgeht.
In der Tat sind solche Überlegungen nur dann zulässig, wenn man weitere A n n a h men über die Beziehung der I n d i k a t o r e n zueinander und zur indizierten Variable m a c h t . Insbesondere ist die Möglichkeit der Berechnung eines Stichprobenfehlers einer bestimmten Indikatorenmenge in bezug auf ein postuliertes Indikatoren-Universum nur dann gegeben, wenn die einzelnen Indikatoren als unabhängige Meßreplikationen desselben Gegenstandes unter systematisch variierenden Bedingungen betrachtet werden k ö n n e n (UPSHAW 1968). Nur dann ist es berechtigt, das Problem der Index-Bildung mit dem der Berechnung von Parametern einer statistischen Verteilung gleichzusetzen, wie es ζ. B. bei G A L T U N G ( 1 9 6 7 ) geschieht. Unter diesen A n n a h m e n lassen sich auch das Prinzip der Austauschbarkeit von Indikatorenmengen sowie das Prinzip der multiplen Indikatoren aus der Theorie des statistischen Auswahlfehlers ableiten. Nun ist aber der meßtheoretische Status der Index-Bildung eben dadurch charakterisiert, daß die oben formulierten A n n a h m e n nicht gegeben sind. Das Problem der Auswahl stellt sich von neuem. Um aus diesem Zirkel zu gelangen, besteht eine Möglichkeit darin, von der H o m o genität des Indikatoren-Universums als gegeben auszugehen. In diesem Sinne ist das von Lazarsfeld entwickelte Prinzip der Austauschbarkeit von I n d i k a t o r e n m e n gen zu interpretieren. Die Bestimmung der Elemente des Indikatoren-Universums gilt auch bei L A Z A R S FELD ( 1 9 5 9 ) als erster Schritt zur K o n s t r u k t i o n von Indizes. Hat man j e d o c h ein solches Universum als h o m o g e n e Menge konstruiert, so ist es nach Lazarsfeld gleichgültig, welche Indikatorenmenge in einem k o n k r e t e n Forschungszusammenhang b e n u t z t wird, um das entsprechende Konzept zu messen. Der indikatorbezogene Stichprobenfehler ist annähernd gleich Null. Diese A n n a h m e ist als Prinzip der Austauschbarkeit von Indikatorenmengen in die methodologische Literatur eingegang e n ( v g l . LAZARSFELD
BARTON
1 9 5 8 ; 1 9 5 9 ; H O R W I T Z UND S M I T H
1 9 5 1 ; BOUDON
1970).
1955;
L A Z A R S F E L D UND
34
5. Band:Testen
und Messen
Allerdings ist in d e n A u s f ü h r u n g e n von Lazarsfeld kein f o r m e l l e r Beweis für die Allgemeingültigkeit dieses Prinzips e r b r a c h t . Er b e s c h r ä n k t sich lediglich auf illustrative Beispiele, die mit d e m f o r m u l i e r t e n Prinzip in Einklang s t e h e n . Die angef ü h r t e n Beispiele k ö n n e n j e d o c h d e n E i n d r u c k nicht a b s c h w ä c h e n , d a ß die Invarianz der Ergebnisse e i n f a c h auf die K o r r e l a t i o n der I n d i k a t o r e n z u r ü c k g e f ü h r t werden k a n n , o b w o h l diese K o r r e l a t i o n e n , wie Lazarsfeld ausdrücklich b e t o n t , nicht u n b e d i n g t h o c h zu sein b r a u c h e n . A u c h scheint die Metrik d e r einzelnen I n d i k a t o ren eine gewisse Rolle bei der P r o d u k t i o n einer solchen Invarianz zu spielen, u n d zwar in der Weise, d a ß das Lazarsfeldsche Prinzip u m s o d e u t l i c h e r h e r v o r t r i t t , j e gröber die e n t s p r e c h e n d e n I n d i k a t o r - V a r i a b l e n gemessen w e r d e n (LAZARSFELD UND THIELENS
1958;
H O R W I T Z UND SMITH
1955).
Dieses von Lazarsfeld als allgemeingültig hingestellte Prinzip ist also n i c h t s a n d e r e s als eine Bedingung, die i m m e r d a n n erfüllt sein m u ß , w e n n m a n eine h o m o g e n e Menge von I n d i k a t o r e n als G r u n d g e s a m t h e i t v o r a u s s e t z t . Die hier e n t s c h e i d e n d e Frage nach d e n Kriterien, die eine ' v e r n ü n f t i g e ' A u s w a h l von I n d i k a t o r e n aus einem 'vern ü n f t i g ' z u s a m m e n g e s e t z t e n I n d i k a t o r e n - U n i v e r s u m (LAZARSFELD 1959) e r l a u b e n sollen, bleibt w e i t e r h i n u n g e k l ä r t . Es scheint daher vorerst realistischer zu sein, von der A n n a h m e a u s z u g e h e n , d a ß das I n d i k a t o r e n - U n i v e r s u m nicht h o m o g e n ist, u n d n a c h d e n U r s a c h e n dieser N i c h t - H o m o g e n i t ä t zu s u c h e n , w o b e i H o m o g e n i t ä t nicht mit statistischer I n t e r k o r r e l a t i o n verwechselt w e r d e n sollte. G a n z allgemein stellt sich in diesem Z u s a m m e n h a n g die Frage n a c h d e m Niveau der B e o b a c h t b a r k e i t einer Messung b z w . n a c h der K o m p l e x i t ä t d e r B e z i e h u n g e n zwischen l a t e n t e r u n d b e o b a c h t e t e r Variable. Die K o m b i n a t i o n von B e o b a c h t u n g e n zu einem I n d e x hat n u r d a n n einen Sinn, w e n n die B e o b a c h t u n g e n auf derselben E b e n e liegen. E i n e E n t s c h e i d u n g über die A u s w a h l einer b e s t i m m t e n I n d i k a t o r e n - U n t e r m e n ge setzt die A u s w a h l einer b e s t i m m t e n B e o b a c h t u n g s e b e n e voraus. A u f die m ö g l i c h e n D i m e n s i o n e n einer solchen E n t s c h e i d u n g b e z i e h e n sich u n t e r a n d e r e m die Unterscheid u n g e n zwischen verhaltensbezogenen u n d verbalen, expressiven u n d prädiktiven Ind i k a t o r e n (LAZARSFELD 1959), u n d analytischen, strukturellen, globalen u n d kontextuellen I n d i k a t o r e n ( L A Z A R S F E L D UND M E N Z E L 1961). Eine detaillierte Diskussion über die I m p l i k a t i o n e n des jeweiligen B e o b a c h t u n g s n i v e a u s für d e n i n d i k a t o r b e z o g e n e n A u s w a h l f e h l e r würde zu weit von d e n Zielen dieses Beitrags w e g f ü h r e n . Es sei lediglich e r w ä h n t , d a ß die in diesem Z u s a m m e n h a n g a u f g e w o r f e n e n P r o b l e m e das O b j e k t wichtiger m e t h o d o l o g i s c h e r K o n t r o v e r s e n darstellen.
1.4.2
Das Prinzip der multiplen Indikatoren
Ist die Hilfstheorie in allen ihren E l e m e n t e n b e k a n n t u n d g e t e s t e t , d a n n r e d u z i e r t sich die I n d i k a t o r e n - A u s w a h l auf ein rein t e c h n o l o g i s c h e s P r o b l e m . Das ist ζ. B. in der Physik der Fall, w o die I n d i k a t o r e n einer b e s t i m m t e n physikalischen G r ö ß e bis auf ihre m e ß t e c h n o l o g i s c h e n E i g e n s c h a f t e n ( H a n d l i c h k e i t , Bereich der e r f a ß t e n Ausp r ä g u n g e n , Lesbarkeit, Diskriminierungsfähigkeit usw.) a u s t a u s c h b a r sind. Dies ist im R a h m e n der sozialwissenschaftlichen Disziplinen meist nicht o d e r n u r ang e n ä h e r t erfüllt, so d a ß a u c h in einem k a u s a l a n a l y t i s c h e n Z u s a m m e n h a n g die Messung mit einem F e h l e r b e h a f t e t ist. Seine Minimierung b z w . S c h ä t z u n g stellt d e n
/ . Kapitel:
Methodologische
Probleme
der Index-Bildung
35
Sozialforscher vor schwierige, bis heute meist ungelöste Probleme ( B L A L O C K 1961 ; 1 9 6 9 ; S I E G E L UND H O D G E 1 9 6 8 ; D U N C A N 1 9 6 9 ) . Insbesondere ergibt sich die Frage, ob die Messung eines Konzeptes mit einer Mehrzahl von Indikatoren diesen Fehler reduzieren kann, und wenn ja, unter welchen Bedingungen diese Reduktion erfolgt. Das Prinzip der multiplen Indikatoren nimmt in der methodologischen Literatur grundsätzlich zwei Formen an, die nicht immer eindeutig auseinanderzuhalten sind. 1. Die einen gehen davon aus, daß die Genauigkeit einer Messung mit der Größe der Stichprobe wächst, die aus dem postulierten Indikatoren-Universum gezogen wird. Dahinter steht folgender Gedanke: Ein theoretisch relevantes Konzept besteht aus Ν unabhängigen Dimensionen. Je größer die Zahl von Indikatoren, umso höher ist die Wahrscheinlichkeit, daß die so definierte Messung nicht indikatorenspezifisch ist, sondern die theoretisch wichtige Dimension des Konzeptes erfaßt. Tatsächlich läßt sich dieses Postulat bei Vorliegen einer Reihe von Voraussetzungen, die im folgenden erläutert werden, der Messung sozialwissenschaftlicher Konzepte zugrundelegen. Allgemein gilt, daß der 'wahre' Wert einer Variablen umso genauer approximiert werden kann, je häufiger die Messung unter systematisch variierenden Bedingungen repliziert wird. Die Schätzung des entsprechenden Meßfehlers erfolgt dann aus den Parametern der Verteilungen der Einzelmessungen. So kann man ζ. B. annehmen, daß die 'wahre' Antwort einer Versuchsperson auf eine bestimmte Frage umso besser geschätzt werden kann, je häufiger die gleiche Frage gestellt wird, wobei vorausgesetzt ist, daß die Versuchsperson nach jeder Frage einem 'brain washing' unterzogen würde (zur Bedeutung der 'brain washing'-Bedingung siehe L A Z A R S F E L D 1 9 5 4 ) . Im obigen Beispiel ist die Voraussetzung für das gegeben, was C O L E M A N (1964) 'measurement by counting' nennt. Allerdings trifft diese Voraussetzung, wie wir bereits gesehen haben, nur bei der Messung bestimmter Konzepte zu und ist für die Indexbildung nicht charakteristisch. Läßt sich das oben genannte Postulat dennoch aufrechterhalten? Welche Zusatzannahmen sind notwendig, damit es in diesem Bedeutungszusammenhang bei der Messung von Konzepten angewandt werden kann? Es sei eine theoretisch relevante Variable X gegeben, die nur 'by fiat' gemessen werden kann; k Indikatoren xi, x2 , ... , x¡¡ stehen zur Verfügung. Bezeichnen wir weiterhin mit x0 den wahren Wert der Variable X in bezug auf ein bestimmtes Objekt O.
Spezifiziert werden sollen die Bedingungen, unter denen (28)
E(x¡)
x0
(i = 1 , 2 , . . . , k), für k
».
Die Komponenten der einzelnen Indikatoren-Werte repräsentiert folgendes Gleichungssystem: x
i
x
2
(29)
=
a
=
a x
l x o + ei + e
=
a x
2o
+
e
i
2
+
e
+ ek
+
e
2
.
x
k
ko
k>
wobei mit e¡ (i = 1, 2, ..., k) der Zufallsfehler bezeichnet wird, der jeder einzelnen Messung - unabhängig voneinander - anhaftet. Per definitionem ist E{e¡) = 0.
36
5. Band: Testen und Messen
Darüber hinaus enthalten die Gleichungen (29) eine zweite Fehlerkomponente, die mit e¡ gekennzeichnet ist. Diese Fehler resultieren aus der Abhängigkeit der einzelnen Indikatoren von einer Reihe von Variablen z-(j = 1,2, ..., ή), wobei η Φ °° Die Gleichungen (29) können dann folgendermaßen geschrieben werden: = alx0
+ (bnzl
+ . . . + ô l n z „ ) + e,
= a2x0
+ (b2lzi
+ ...+b2nzn)
+e2
(30) *k = ak*o + (t>klzl + •·· + bknzn)
+ ek
Daraus ist unmittelbar zu ersehen, daß die Bedingung (28) keinen zwingenden Charakter hat, falls e¡ Φ 0. Dazu bedarf es zusätzlicher Annahmen über das Verhalten der ¿^-Koeffizienten. Im folgenden werden wir die Implikationen solcher Annahmen für zwei Spezialfälle analysieren und einige Beispiele geben, ohne Anspruch auf Vollständigkeit in der Darstellung; dies würde uns weit über die Ziele dieses Beitrags hinausführen. Zuerst sei angenommen, daß alle Indikatoren-Werte x¡ mit der störenden Variable Zj kausal verbunden sind. Dann gilt: (31)
Xj = a¡x0 + bnzl
+e¡.
Die Einzelmessungen der Variable x0 sind wegen ihrer Beziehung zu Zj nicht unabhängig voneinander; deshalb ist die mathematische Erwartung von e¡ = bnzl ungleich Null. Die Messung ist nicht notwendigerweise genauer als die Messung x
Hk -1) • Unter bestimmten Bedingungen kann die Verteilung der bn -Koeffizienten derart sein, daß die Messung x¡ eine von x0 divergierende Erwartung aufweist. Mit anderen Worten: die Messung wird umso ungenauer, je höher die Anzahl ihrer Freiheitsgrade ist. Dies ist beispielsweise der Fall, wenn (32)
bn Α . Der A m biguitätsbereich wird durch die ungleichen Steigungskoeffizienten α, β von und ¡2 erzeugt. Spezifiziert man n u n die mit jedem Wert verbundene Dimension in den beiden IndexF u n k t i o n e n , dann zeigt sich, d a ß die beiden Indizes folgendes bedeuten: tatsächliche Mobilität von Beruf i 2
=
erwartete Mobilität von Beruf i
und Ii
-
erwartete Stabilität in Beruf i ~ . tatsächliche Stabilität in Beruf i
O f f e n k u n d i g erfaßt / 2 die intendierte Bedeutung des Konzeptes 'Berufsmobilität' besser als f l , der eher so etwas wie 'Berufsstabilität' zu messen scheint. Bei dem geschilderten Verfahren ist wesentlich, d a ß es von dem d u r c h die Meßoperationen festgelegten und hieraus spezifizierbaren Inhalt der einzelnen Indikatorwerte auf die Bedeutung des Gesamtindex verweist. Damit ist in idealer Weise der Zusammenhang zwischen Theoriebildung und Meßprozedur hergestellt, so d a ß man in diesem Falle kaum noch von der Index-Bildung als 'willkürlicher Messung' sprechen kann (TORGERSON 1958; SCHEUCH 1967). Darüber hinaus zeigt das Beispiel, d a ß die wieder und wieder aufgestellte Forderung nach der Interaktion von Theorie und Empirie nicht nur ein leeres Programm bleiben m u ß , sondern sehr wohl in die Forschungspraxis umgesetzt werden kann. Allerdings sollte darauf hingewiesen werden, daß die dimensionale Spezifikation im obigen Sinne keine rigorosen und formalisierbaren Schlußregeln für den Übergang von der Theorie-Ebene auf die Beobachtungsebene angibt, sondern eher intuitiv verf ä h r t . Sie kann Auswahlkriterien für unterschiedliche Indizes nur an die Hand geben, wenn von zwei zueinander konträren Theorien Τγ und T 2 , aus denen jeweils die In-
1. Kapitel: Methodologische Probleme der Index-Bildung
45
dizes I I und / 2 dimensional spezifiziert worden sind, die eine sich als richtig, die andere aber als eindeutig falsch erweist. Anderenfalls hat man eventuell zwei durch ihre jeweilige Theorie gleich gut validierte Indizes, die dann beide entweder verworfen oder akzeptiert werden müssen, und zwar zusammen mit ihren jeweiligen Theorien. Auf ein ähnliches logisches Dilemma sind wir schon weiter oben bei der Darstellung des logischen Status der auxiliaren Theorie zur Haupttheorie gestoßen. Anscheinend handelt es sich hier um ein Problem, das ganz allgemein in Zusammenhang mit der empirischen Überprüfung von Theorien auftritt (z. B. auch bei der KonstruktValidierung) und das eine Reihe von sehr komplexen Fragen aufwirft, auf die einzugehen den Rahmen dieses Beitrages überschreiten würde. Jedenfalls läßt sich aber sagen, daß die fast ausschließliche Verwendung additiver Kombinationsmodelle bei der Konstruktion von Status-Indizes kaum zu rechtfertigen ist. Es scheint so, als ob man hier dem Ziel der Prognose-Maximierung eindeutig den Vorrang vor der Zielsetzung der theoretischen Erklärung bzw. Erklärbarkeit bei der Messung von Variablen gäbe (BOUDON 1968). Schon weiter oben ist erwähnt worden, daß die Erhöhung der Zuverlässigkeit einer Messung auf Kosten der Validität gehen kann. Will man nämlich die Zuverlässigkeit eines Index maximieren, dann sollte man hoch korrelierende Indikatoren additiv miteinander verknüpfen. Häufig entfällt damit jedoch die theoretische Interpretierbarkeit des so gewonnenen Index, da die additive Linearkombination (z. B. in einer linearen multiplen Regressionsgleichung) die Annahme einer einfachen Kausalstruktur ohne Interaktionseffekte zwischen den aufeinander und auf die Kriteriumsvariable bezogenen unabhängigen Variablen impliziert (BOUDON 1968; BLALOCK 1964; 1969; 1970). Dies mag zwar manchmal zutreffen, stellt aber in den Sozialwissenschaften kaum die Regel dar und ist deshalb von Fall zu Fall zu überprüfen. Zwar mag die Forderung zu weitgehend sein, daß im jeweiligen Meß- bzw. Kombinationsmodell die ganze kausale Komplexität der Relationen zwischen den Variablen des Meßbereichs reproduziert werden sollte, aber es muß sie mindestens so in Rechnung stellen, daß die Prämissen und die Deduktionen im Modell der Struktur der Wirklichkeit nicht offenkundig widersprechen. Während im Vorigen die Gültigkeit der Prämissen für di e Additivitätshypothese kritisch relativiert worden ist, sollen im Folgenden die Voraussetzungen und Grundannahmen bei der Gewichtung von Indikatoren dargestellt und überprüft werden; damit sind wir bei der zweiten möglichen Kritik des in Frage stehenden Verfahrens angelangt. Die Kleinste-Quadrate-Methode zur Schätzung der Regressions-Koeffizienten (hier: der Indikatoren-Gewichte) begünstigt nämlich Zufallsabweichungen in Richtung auf eine Erhöhung des multiplen Korrelationskoeffizienten, weil die Stichprobenwerte für die Regressionskoeffizienten künstlich aufgebläht werden (GUILFORD 1954, S. 398 f.). Der eigentliche Grund hierfür ist, daß die Minimierung des durchschnittlichen quadrierten Fehlers der Vorhersage die Maximierung der Korrelation zwischen der Linearkombination der (gewichteten) unabhängigen Variablen und der Kriteriumsvariable impliziert. Infolgedessen sind die Schätzungen der Prädiktoren-Gewichte und des multiplen Korrelationskoeffizienten verzerrte Schätzungen der Populationsparameter und schwanken von Stichprobe zu Stichprobe. Dabei gilt, daß die Standardabweichungen für die partiellen Regressionskoeffizienten umso größer sind,
46
5. Band: Testen und
Messen
je höher die Indikatoren miteinander korrelieren. Im Grenzfall einer perfekten Korrelation sind die Koeffizienten nicht mehr identifizierbar, da unendlich viele beliebige Koeffizienten die Regressionsgleichung erfüllen (BLALOCK 1 9 6 3 ; 1 9 6 4 ; 1 9 7 0 ) ; in der (ökonometrischen) Literatur ist dieser Fall unter dem Begriff der Multikollinearität bekannt (siehe z. B . JOHNSTON 1 9 6 3 , S. 2 0 1 - 2 0 7 ) . Aber auch im Falle nicht vollständiger Korrelation zwischen den Indikatorvariablen erhält man trotz eindeutiger Lösungen keine erwartungstreue Schätzungen für die Koeffizienten der Gleichung, und zwar umso weniger, je höher die Inter-Indikatoren-Korrelation ist. Dies führt zu der unerwünschten Konsequenz, daß streng genommen für jede Stichprobe die Gewichte neu berechnet werden müßten, da ihre Werte populationsspezifisch variieren ( H O D G E UND SIEGEL 1 9 6 8 ) . Hierdurch wird natürlich ihre Brauchbarkeit als invariante 'Standard-Gewichte' für einen generellen Status-Index wesentlich beeinträchtigt. Abgesehen davon ist es bei ordinalskalierten Indikatoren (wie z. B. im Warner-Index) wenig sinnvoll, von einer Steigung der Regressionsgeraden zu sprechen, da dies zumindest Intervallskalierung voraussetzt (BLALOCK 1 9 6 4 ) . Schließlich setzt die Regressionsanalyse die vollständige Symmetrie zwischen den abhängigen und unabhängigen Variablen voraus, so daß sich die hieraus gewonnenen Ergebnisse nicht ohne weiteres kausal interpretieren lassen. Sieht man zunächst von den hier auftauchenden Problemen grundsätzlicher Art ab, dann bieten sich einige mehr oder weniger intuitive Methoden der Gewichtsbestimmung nach verschiedenen Kriterien an. Eine erste Möglichkeit besteht darin, auf eine différentielle Gewichtung der Indikatoren überhaupt zu verzichten, wenn gute Gründe hierfür vorliegen. Dies wird ζ. Β. der Fall sein, wenn eine différentielle Gewichtung den Prognosewert (d. h. die Genauigkeit) des Index nicht oder nur unwesentlich erhöht (NUNNALLY 1968), wenn also die einzelnen Indikatoren alle etwa den gleichen Anteil der Index-Varianz erklären, unabhängig davon, ob dieser Sachverhalt kausal gedeutet werden kann oder nicht. Manche Autoren (wie z. B. GALTUNG 1967, S. 252) raten prinzipiell von differentieller Gewichtung ab, da hierdurch a) die Index-Konstruktion zu kompliziert würde, b) die zugrundeliegenden Annahmen (Additivität; 'Gleichheit' identischer Gewichte usw.) theoretisch nicht zu rechtfertigen seien und c) bei sehr unterschiedlichen Gewichten die Vermutung naheläge, daß die jeweiligen Indikatoren qualitativ voneinander unterschieden seien, d. h. auf verschiedenen Dimensionen messen und nicht zu einem Index kombiniert werden können. Eine zweite mögliche Methode ist die Gewichtung der Indikatoren je nach der Höhe ihrer Teilkorrelation mit dem Gesamtindexwert. Drittens kann man die Indikatoren mit einem Außenkriterium (oder auch mehreren) korrelieren und danach gewichten (NUNNALLY 1 9 6 8 ; JACKSON UND CURTIS 1 9 6 8 ) . Dies kann als ein Versuch zur Erhöhung des explikativen Werts eines Index betrachtet werden, ist also in theoretischer Hinsicht begrüßenswert. Allerdings stößt er auf die schon oben genannten Schwierigkeiten, geeignete Außenkriterien mit hinreichend guter Validität zu finden. Viertens ist es möglich, aus der Interkorrelationsmatrix der Indikatoren die zügrundeliegende Faktorenstruktur zu bestimmen und die einzelnen Indikatoren je nach ihrer Faktorladung zu gewichten (BOGUE 1 9 6 3 ; KAHL UND DAVIS 1 9 5 5 ) . Jedoch sind alle genannten Verfahren in gewisser Weise unbefriedigend, weil ihr theo-
1. Kapitel: Methodologische Probleme der Index-Bildung
47
retischer Bezug unklar bleibt. Zunächst ist schon eine eindeutig konzeptuelle und theoriebezogene Definition der "Wichtigkeit" einer Variablen außerordentlich schwierig (BLALOCK 1968); darüber hinaus sind die in den verschiedenen Verfahren rechnerisch ermittelten Gewichte nicht unbedingt mit einem theoretischen und kausalen Kriterium der "Wichtigkeit" in Einklang zu bringen. GORDON (1968) weist darauf hin, daß die Berechnung von Teilkorrelationen höherer Ordnung zwischen den unabhängigen Variablen und einer abhängigen Variablen nur bei genauer Kenntnis der Kausalordnung zwischen den Variablen möglich ist (siehe HEISE 1969). Zum Beispiel ist die relative Größe der Regressionskoeffizienten u. a. abhängig vom möglichen Auftreten zweier oder mehrerer homogener Variablen-Untermengen, wobei die Elemente zwischen den Untermengen nur niedrig oder gar nicht miteinander korrelieren (GORDON 1968). Hiernach gibt es keine Regel für die Zurechnung kontrollierter Kovariation auf den Einfluß irgendeiner der explikativen Variablen, selbst wenn man den Größenunterschied zwischen ihren partiellen Korrelationen mit der abhängigen Variablen in Rechnung stellt. Eine Antwort auf die Frage, ob etwa eine Größe Xj wichtiger sei als eine Größe x2, läßt sich auf diese Weise nicht geben. Außerdem ist im Falle der Multikollinearität der Indikatoren der partielle Regressionskoeffizient keinesfalls mehr kausal interpretierbar. Er mißt dann nicht nur den direkten Effekt der jeweiligen unabhängigen Variablen (d. h. der Indikatoren), sondern auch den indirekten Effekt, der über den statistischen Zusammenhang mit den anderen unabhängigen Variablen vermittelt wird (BOUDON 1967, S. 147). Doch lassen sich bei Nicht-Identifizierbarkeit der Kausalstruktur (bzw. des ihr zugeordneten Gleichungssystems) sogenannte Dependenz-Koeffizienten berechnen und als Gewichte der explikativen Variablen auch kausal interpretieren. Der quadrierte Dependenz-Koeffizient ist dann ein Maß für den Anteil an der Varianz der abhängigen Variablen, der spezifisch durch die jeweilige explikative Variable bewirkt wird (BOUDON 1967; 1968). Damit ermöglichen solche Dependenz-Koeffizienten auch für den Fall komplexer kausaler Strukturen mit Interaktionen eine quantitative Zurechnung des relativen Beitrages (und damit der relativen Wichtigkeit) der Variablen im Modell und sind deshalb der Regressionsanalyse in ihrem Geltungs- und Anwendungsbereich weitaus überlegen. Außerdem läßt sich eine Dependenz-Analyse auch schon bei ordinal gemessenen Variablen durchführen (BOYLE 1970), was angesichts der Tatsache, daß in den Sozialwissenschaften nur sehr selten ein 'höheres' Meßniveau erreicht wird, als ein weiterer wichtiger Vorteil der Dependenz-Analyse gegenüber den herkömmlichen Verfahren betrachtet werden muß. Allerdings gilt auch für die Interpretierbarkeit von Dependenz-Koeffizienten eine einschränkende Bedingung (die aber für die Überprüfbarkeit von Kausalmodellen generell zutrifft). Ohne eine eindeutige Spezifizierung der Zeitordnung zwischen den Variablen kann auch nichts Sicheres über ihre relative "Wichtigkeit" ausgesagt werden ( H E I S E 1 9 6 9 ; GALTUNG 1 9 6 7 ) , ebenso wie das Kausalmodell insgesamt ohne die Erfüllung dieser Bedingung nicht stringent überprüft werden kann. Nach Blalock kann man nämlich die relative Bedeutsamkeit ("Wichtigkeit") einer Variablen nach ihrer zeitlichen Stellung in einem Kausalprozeß bestimmen. Zum Beispiel ist in der einfachen Kausalkette Y ^ Z die Variable W die wichtigste aufgrund ihrer zeitlichen Priorität. Jedoch läßt sich dieses theoretische oder kausale Kriterium der Wichtigkeit (BLALOCK 1968, S. 187) auf der Meßebene nicht verifizieren. Entgegen diesem theoretischen Kriterium der Wichtigkeit ist nämlich die Partialkorrelation
48
5. Band: Testen und Messen
WZ kleiner als z. B. die entsprechende Korrelation YZ. Das quantitative Kriterium würde also Y, das theoretische dagegen W als die 'wichtigste' Variable ausweisen. Hieraus ist der Schluß zu ziehen, d a ß es sich anscheinend nicht nur um zwei verschiedene Kriterien, sondern vielmehr u m zwei verschiedene Begriffe von "Wichtigk e i t " handelt, die jeweils nur in einem bestimmten Zusammenhang einen Sinn haben. Im Kontext einer Regressionsgleichung ist die Wichtigkeit einer Variablen ausgedrückt durch den Regressionskoeffizienten, der das A u s m a ß der durch sie bewirkten Veränderung in der abhängigen Variablen anzeigt. Damit ist j e d o c h für den tatsächlich ablaufenden Kausalprozeß noch nicht ausgemacht, o b die Varianz der abhängigen Variablen durch eben diese explikative Variable mit dem höchsten Gewichtskoeffizienten bewirkt worden ist. Es ist nämlich durchaus denkbar, d a ß diese Varianz vollständig durch eine oder mehrere andere explikative Variablen (mit möglicherweise sehr niedrigen Gewichtskoeffizienten) verursacht worden ist (BLALOCK
1968).
Die hier a u f t a u c h e n d e n Probleme sind außerordentlich schwierig. Ein Lösungsvorschlag (BLALOCK 1968) geht dahin, die Kausalbeziehung zwischen zwei Variablen als eine F u n k t i o n des von Population zu Population invarianten (standardisierten) Regressions- bzw. Dependenz-Koeffizienten und von p o p u l a t i o n s s p e z i f i s c h e n Parametern zu schreiben. Die Koeffizienten repräsentieren dann die Kausalgese/ze, die populationsspezifischen Größen dagegen aktuelle, von Population zu Population unterschiedliche Kausalprozesse (BLALOCK 1968, S. 190 ff.; 1969, S. 147 ff.). So sind wir wieder am Ausgangspunkt unserer Überlegungen angelangt: nämlich an der Bedeutsamkeit der Theoriebildung und der konzeptualen Analyse für eine Lösung des Meßproblems in den Sozialwissenschaften. In den einzelnen A b s c h n i t t e n dieses Beitrages haben wir versucht, die wissenschaftslogischen und methodologischen Gründe dieser notwendigen wechselseitigen Beziehung auf den verschiedenen S t u f e n der Index-Bildung klarzumachen. Dabei zeigte sich, daß die Fehler, die bei der Auswahl von I n d i k a t o r e n und bei ihrer K o m b i n a t i o n entstehen k ö n n e n , durch statistische Manipulation nur u n t e r ganz speziellen und meist unrealistischen Bedingungen zu beseitigen bzw. zu berechnen sind. Eine Theorie der Meßfehler theoretisch relevanter Variablen k a n n n u r eine Theorie sein, die eine Verbindung zwischen diesen und spezifischen b e o b a c h t b a r e n Variablen (Indikatoren) herstellt, wobei die jeweils zur A n w e n d u n g k o m m e n d e n Forschungstechniken mitberücksichtigt werden müssen.
1. Kapitel: Methodologische Probleme der Index-Bildung
49
Literaturverzeichnis R . P., Simulation of Social Behavior, in: G . LINDZEY UND E. ARONSON (Hrsg.), T h e H a n d b o o k of Social P s y c h o l o g y , Bd. 2, Reading 2. A u f l . 1968, S. 2 7 4 - 3 5 6 .
ABELSON,
ADLER, F . , O p e r a t i o n a l D e f i n i t i o n s in Sociology, in: A m e r i c a n J o u r n a l of Sociology 52, 1947, S. 4 3 8 - 4 4 4 . O p e r a t i o n i s m , in: J. G O U L D UND W. L. KOLB (Hrsg.), D i c t i o n a r y of Social Sciences, New Y o r k / L o n d o n 1964, S. 4 7 5 - 4 7 7 .
ADLER, F . ,
A. H., T h e C o n c e p t of P r o p e r t y Space in Social Research, in: P. F . LAZARSM. ROSENBERG (Hrsg.), T h e Language of Social Research, New Y o r k 1 9 5 5 , S. 4 0 - 5 3 .
BARTON,
FELD UND
BARTON, A. H. UND F. LAZARSFELD, S o m e F u n c t i o n s of Qualitative Analysis in Social Research, in: F r a n k f u r t e r Beiträge zur Soziologie 1, F r a n k f u r t 1955, S. 3 2 1 - 3 6 1 . F. LAZARSFELD, M e t h o d o l o g y of Q u a n t i t a t i v e Social Research, in: Β. N. VARMA (Hrsg.), A New Survey of t h e Social Sciences, L o n d o n 1 9 6 2 , S. 151-169.
B A R T O N , Α . Η . UND
BERGMANN, G., Sense and N o n s e n s e in O p e r a t i o n i s m , in: T h e Scientific M o n t h l y 7 9 , 1954, S. 2 1 0 - 2 1 5 ; d e u t s c h in: E. TOPITSCH (Hrsg.), Logik der Sozialwissenschaft e n , Köln/Berlin 1 9 6 5 , S. 1 0 4 - 1 1 2 . BLALOCK, H. M., Causal I n f e r e n c e s in N o n e x p e r i m e n t a l R e s e a r c h , C h a p e l Hill 1961 a. BLALOCK, H. M., T h e o r y , M e a s u r e m e n t and R e p l i c a t i o n in t h e Social Sciences, in: A m e r i c a n J o u r n a l of Sociology 66, 1961 b, S. 3 4 2 - 3 4 7 . M., Evaluating t h e Relative I m p o r t a n c e of Variables, in: A m e r i c a n Sociological Review 26, 1961 c, S. 8 6 6 - 8 7 4 .
BLALOCK, H .
M., S o m e I m p o r t a n t Methodological P r o b l e m s f o r Sociology, in: Sociology a n d Social Research 4 7 , 1 9 6 3 a , S. 3 9 8 - 4 0 7 .
BLALOCK, H .
M., C o r r e l a t e d I n d e p e n d e n t Variables: T h e P r o b l e m of Multicollinearity, in: Social F o r c e s 4 2 , 1 9 6 3 b , S. 2 3 3 - 2 3 7 .
BLALOCK, H .
M., Making Causal I n f e r e n c e s f o r U n m e a s u r e d Variables f r o m Correlat i o n s a m o n g I n d i c a t o r s , in: A m e r i c a n J o u r n a l of Sociology 69, 1 9 6 3 c , S. 5 3 - 6 2 .
BLALOCK, H .
M., S o m e I m p l i c a t i o n s of R a n d o m M e a s u r e m e n t Error f o r Causal Inferences, in: A m e r i c a n J o u r n a l of Sociology 71, 1 9 6 5 , S. 3 7 - 4 7 .
BLALOCK, H .
BLALOCK, H. M., T h e M e a s u r e m e n t P r o b l e m : A G a p b e t w e e n t h e Language of T h e o r y and R e s e a r c h , i n : H. M. BLALOCK UND A. B . BLALOCK (Hrsg.), M e t h o d o l o g y in Social Research, New Y o r k 1968 a, S. 5 - 2 7 . BLALOCK,
H. M., T h e o r y Building and Causal I n f e r e n c e s , in: H. M. BLALOCK UND (Hrsg.), M e t h o d o l o g y in Social Research, New Y o r k 1 9 6 8 , S.
A . B . BLALOCK 155-198.
M., Multiple I n d i c a t o r s and t h e Causal A p p r o a c h t o M e a s u r e m e n t E r r o r , in: A m e r i c a n J o u r n a l of Sociology 75, 1 9 6 9 a , S. 2 6 4 - 2 7 3 .
BLALOCK, H .
M., T h e o r y C o n s t r u c t i o n : F r o m Verbal t o M a t h e m a t i c a l F o r m u l a t i o n s , E n g l e w o o d Cliffs 1 9 6 9 b .
BLALOCK, H .
50
5. Band: Testen und Messen
BLALOCK, H. M., I n t r o d u c t i o n t o Social Research, E n g l e w o o d Cliffs 1970. BOGUE, Ο. F . , Skid R o w in A m e r i c a n Cities, University of Chicago, C o m m u n i t y a n d F a m i l y Center, Chicago 1963. BONJEAN, C . M . , R . J . HILL UND S . D . M C L E M O R E , S o c i o l o g i c a l M e a s u r e m e n t , S a n
Francisco 1967. BONJEAN, C . M . , R . J . HILL UND S . D . M C L E M O R E , C o n t i n u i t i e s i n M e a s u r e m e n t , i n :
Social F o r c e s 4 3 , 1965, S. 5 3 2 - 5 3 5 . BORGATTA, E. F. (Hrsg.), Social M e t h o d o l o g y , San Francisco 1969. BOUDON, R., L'analyse m a t h é m a t i q u e des faits sociaux, Paris 1967. BOUDON, R., A New L o o k at Correlation Analysis, in: H. M. BLALOCK UND Α. Β. BLALOCK (Hrsg.), M e t h o d o l o g y in Social Research, New York 1968, S. 1 9 9 - 2 3 5 . BOUDON, R., Les m é t h o d e s en sociologie, Paris 1 9 6 9 a . BOUDON, R., Analyse secondaire et sondages sociologiques, in: Cahiers i n t e r n a t i o n a u x de sociologie 4 7 , 1 9 6 9 b , S. 5 - 3 4 . BOUDON, R. UND P. F. LAZARSFELD, R e m a r q u e s sur la signification formelle de d e u x indices, in: R . BOUDON UND P. F. LAZARSFELD (Hrsg.), Le vocabulaire des sciences sociales, Paris 1965. BOYLE, R. P., P a t h Analysis and Ordinal D a t a , in: A m e r i c a n J o u r n a l of Sociology 7 5 , 1 9 7 0 , S. 4 6 1 - 4 8 0 .
BRIDGMAN, P. W., T h e Logic of M o d e m Physics, New Y o r k 1 9 2 7 . BRIDGMAN , P. W., T h e N a t u r e of S o m e of o u r Physical C o n c e p t s , in: British J o u r n a l f o r t h e Philosophy of Science 1, 1 9 5 0 / 5 1 , S. 2 5 7 - 2 7 2 , d e u t s c h in: L. KRÜGER (Hrsg.), E r k e n n t n i s p r o b l e m e d e r N a t u r w i s s e n s c h a f t e n , K ö l n / B e r l i n 1 9 7 0 , S. 57-70. CAMPBELL, N. R., M e a s u r e m e n t and Calculation, L o n d o n 1928. CAPECCHI, V., I modelli di classificazione l a t e n t e e l'analisi della s t r u t t u r a l a t e n t e , in: Q u a d e r n i di sociologia 13, 1964, S. 2 8 9 - 3 4 0 . CAPECCHI, V., Analisi della s t r u t t u r a l a t e n t e e analisi dei f a t t o r i , in: Q u a d e r n i di sociologia 14, 1965, S. 3 3 - 6 8 . CAPECCHI, V., Linear Causai Models and Typologies, in: Q u a l i t y and Q u a n t i t y 1, 1 9 6 7 , S. 1 1 6 - 1 5 2 . CAPECCHI, V., O n t h e D e f i n i t i o n of T y p o l o g y and Classification in Sociology, in: Q u a l i t y a n d Q u a n t i t y 2, 1968, S. 9 - 3 0 . CARNAP, R., T h e M e t h o d o l o g i c a l Character of T h e o r e t i c a l C o n c e p t s , in: H. FEIGL UND M. SCRIVEN (Hrsg.), Minnesota Studies in t h e P h i l o s o p h y of Science, Bd. 1, Minneapolis 1 9 5 6 , S. 3 8 - 7 6 . CARNAP, R., Statistical a n d I n d u c t i v e P r o b a b i l i t y , in: E . H. MADDEN (Hrsg.), T h e S t r u c t u r e of Scientific T h o u g h t , Cambridge 1960; d e u t s c h in L. KRÜGER (Hrsg.), E r k e n n t n i s p r o b l e m e der N a t u r w i s s e n s c h a f t e n , K ö l n u n d Berlin 1970, S. 193-204. CHRIST, C. F . , E c o n o m e t r i c Models and M e t h o d s , New Y o r k 1966. COLEMAN, J. S., T h e M a t h e m a t i c a l S t u d y of Small G r o u p s , in: H. SOLOMON (Hrsg.), M a t h e m a t i c a l T h i n k i n g in t h e M e a s u r e m e n t of Behavior, Illinois 1 9 6 0 , S. 1-149.
1. Kapitel: Methodologische Probleme der Index-Bildung
51
COLEMAN, J. S., Introduction to Mathematical Sociology, Glencoe/London 1964. H., Theory and Methods of Social Measurement, in: L. FESTINGER UND (Hrsg.), Research Methods in the Behavioral Sciences, New York 1953, S. 471-533.
COOMBS, C .
D . KATZ
COOMBS, C . H . , A COOMBS, C .
Theory of Data, in: Psychological Review 6 7 , 1 9 6 0 , S . 1 4 3 - 1 5 9 .
H., A Theory of Data, New York 1964.
COSTNER, H. L., Theory, Deduction ana Rules of Correspondence, in: American Journal of Sociology 75, 1969, S. 2 4 5 - 2 6 3 . CURTIS,R F. UND E. F. JACKSON, Multiple Indicators in Survey Research, in: American Journal of Sociology 68, 1962, S. 195-204. Looking Backward: Case Studies o n the Progress of Methodology in Social Research, in: The American Sociologist 4, 1969, S. 3 5 - 4 1 .
DEUTSCHER, I . ,
(Hrsg.), Concepts, Theory and Explanation in the Behavioral Sciences, New York 1966.
DI R E N Z O , G . J .
DODD, S. C., Operational Definition Operationally Defined, in: American Journal of Sociology 48, 1943, S. 482. DUBIN, R . ,
Theory Building, New York 1969.
O. D . , A Socio-economic Index for all Occupations, in: A. J . REISS (Hrsg.), Occupations and Social Status, New York 1961, S. 109-138.
DUNCAN,
DUNCAN, O. D., Properties and Characteristics of the Socioeconomic Index, in: A. J. REISS (Hrsg.), Occupations and Social Status, New York 1961, S. 139-161. Path Analysis: Sociological Examples, in: American Journal of Sociology 72, 1966, S. 1-16.
DUNCAN, O . D . ,
Contingencies in Constructing Causal Models, in: E . F. BORGATTA (Hrsg.), Sociological Methodology, San Francisco 1969, S. 7 4 - 1 1 2 .
DUNCAN, O . D . ,
FAUNCE, W. Α., Scales and Indices: A Proposal, in: American Sociological Review 24, 1959, S. 256. FISHER, F .
M., The Identification Problem in Econometrics, New York 1966.
GALTUNG, J., Theory and Methods of Social Research, London 1967. C., Prediction, in: C. W. HARRIS (Hrsg.), Encyclopaedia of Educational Research, New York 1960, S. 1038-1047.
GLESER, G .
GIBSON, W. Α., Three Multivariate Models: Factor Analysis. Latent Structure Analysis and Latent Profile Analysis, in: Psychometrica 24, 1959. GORDON, R. Α., Issues in Multiple Regression, in: American Journal of Sociology 73, 1968. GREEN, B. F., Latent Structure Analysis and its Relation to Factor Analysis, in: Journal of the American Statistical Association 47, 1952, S. 71-76. B. F . , Attitude Measurement, in G . LINDZEY (Hrsg.), Handbook of Social Psychology, 1. Band, Reading 1. Aufl. 1954, S. 3 3 5 - 3 6 9 .
GREEN,
, A. O., Methodology: Foundations of Inference and Research in the Behavioral Sciences, The Hague/Paris 1969.
DEGROOT
52
5. Band:
GULLIKSEN , H . ,
Testen
und
Messen
T h e o r y of Mental Tests, New York
1950.
GUILFORD, J. P., P s y c h o m e t r i c M e t h o d s , 2. A u f l . , New York 1954. T h e Basis f o r Scalogram Analysis, in: and Prediction, P r i n c e t o n 1950, S. 6 0 - 9 0 .
GUTTMAN, L.,
S.
A.
S T O U F F E R U.
L . , T h e Problem of A t t i t u d e a n d O p i n i o n M e a s u r e m e n t , in: U.A., Measurement a n d Prediction, P r i n c e t o n 1950, S. 4 6 - 5 9 .
GUTTMAN,
A., Measurement
S.
A.
STOUFFER
L., Predictive Utility of Five Indices of Social S t r a t i f i c a t i o n , in: A m e r i c a n Sociological Review 2 2 , 1957, S. 5 4 1 - 5 4 6 .
HAER, J.
HARTMANN, H . ,
Empirische Sozialforschung, München 1970.
Problems in P a t h Analysis a n d Causal I n f e r e n c e , in: E . F . (Hrsg.), Sociological M e t h o d o l o g y , San Francisco 1969, S. 3 8 - 7 3 .
HEISE, Ο . R . ,
BORGATTA
HEMPEL, C. G., F u n d a m e n t a l s of C o n c e p t F o r m a t i o n in Empirical Science, Chicago 1952. HEMPEL, C. G., P r o b l e m s of C o n c e p t a n d T h e o r y F o r m a t i o n in t h e Social Sciences, in: Science, Language and H u m a n Rights, Philadelphia 1952, d e u t s c h e Übersetzung: Typologische M e t h o d e n in den Sozialwissenschaften, in: E . T O P I T S C H (Hrsg.), Logik der Sozialwissenschaften, Köln/Berlin 1965, S. 8 5 - 1 0 3 . HEMPEL, C. G., A Logical Appraisal of Operationalism, in: T h e Scientific M o n t h l y 7 9 , 1954, S. M. S I E G E L , Social S t r a t i f i c a t i o n : T h e Measurement of Social Class, in: E n c y c l o p a e d i a of Social Sciences, Bd. 15, New Y o r k / L o n d o n 1968, S. 3 1 6 - 3 2 4 .
H O D G E , R . W . UND P .
H O L L I N G S H E A D , A . B . UND F .
C.
REDLICH,
Social Class and Mental Illness, New Y o r k /
L o n d o n 1958. HOLM, K., Zuverlässigkeit von Skalen u n d Indizes, in: Kölner Zeitschrift für Soziologie u n d Sozialpsychologie 22, 1 9 7 0 a , S. 3 5 6 - 3 8 6 . Gültigkeit von Skalen u n d Indizes: T h e o r i e der Gültigkeit, in: Kölner Zeitschrift für Soziologie und Sozialpsychologie 2 2 , 1 9 7 0 b , S. 6 9 3 - 7 1 4 .
HOLM, K . ,
T h e Interchangeability of Socio-economic Indices, in: (Hrsg.), T h e Language of Social Research, New York 1955, S. 7 3 - 7 7 .
H O R W I T Z , H . UND
E.
SMITH,
P . F . L A Z A R S F E L D UND M . R O S E N B E R G
JACKSON, E. F. UND R. F. CURTIS, C o n c e p t u a l i z a t i o n a n d M e a s u r e m e n t in t h e S t u d y of Social Stratification, in: H. M. BLALOCK UND A. B . BLALOCK (Hrsg.), Methodology in Social Research in Social Research, New York 1968, S. 1 1 2 - 1 4 9 . JOHNSTON, J . ,
E c o n o m e t r i c M e t h o d s , New Y o r k 1963.
A. UND J . A. D A V I S , A C o m p a r i s o n of I n d e x e s of Socio-economic S t a t u s , in: A m e r i c a n Sociological Review 20, 1955, S. 3 1 7 - 3 2 5 .
KAHL, J.
KERLINGER, F.N., F o u n d a t i o n s of Behavioral Research, New York 1964. , R., On S o m e Recent D e v e l o p m e n t s in t h e Relation B e t w e e n T h e o r y a n d Research, in: Transactions of t h e F o u r t h World Congress of Sociology, L o n d o n 1959, S. 2 7 5 - 2 8 9 .
KÖNIG
KÖNIG, R. (Hrsg.), H a n d b u c h der Empirischen Sozialforschung, Bd. I, S t u t t g a r t 2. A u f l . 1967.
1. Kapitel:
Methodologische
Probleme
der
Index-Bildung
53
LAND, K. C., Principles of Path Analysis, in: E. F. BORGATTA (Hrsg.), Sociological Methodology, San Francisco 1969, S. 3 - 3 7 . LAZARSFELD, P. F., T h e Logic and Mathematical F o u n d a t i o n of Latent Structure Analysis, in: S. A. STOUFFER U.A., Measurement and Prediction, Princeton 1950a, S. 3 6 2 - 4 1 2 . LAZARSFELD, P. F., T h e Interpretation and C o m p u t a t i o n of Some Latent Structures, in: S. A. STOUFFER υ. A. , Measurement and Prediction, Princeton 1950b, S. 413-472. LAZARSFELD, P. F., A Conceptual I n t r o d u c t i o n to Latent Structure Analysis, in: P. F. LAZARSFELD (Hrsg.), Mathematical Thinking in t h e Social Sciences, Glencoe 1954, S. 3 4 9 - 3 8 7 . LAZARSFELD, P. F., Evidence and Inference in Social Research, in: Daedalus 87, 1958, S. 9 9 - 1 0 9 . LAZARSFELD, P. F., Methodological Problems in Empirical Social Research, in: Transactions of the F o u r t h World Congress of Sociology, 2. Band, L o n d o n 1959a, S. 2 2 5 - 2 4 9 , deutsch in: P. F. LAZARSFELD, Am Puls der Gesellschaft, Wien 1968, S. 9 9 - 1 3 1 . LAZARSFELD, P . F . , P r o b l e m s i n M e t h o d o l o g y , i n : R . K . M E R T O N , L . BROOM UND
L. S. COTTRELL, Sociology T o d a y : Problems and Prospects, Bd. 1, New York 1959b, S. 3 8 - 7 8 . LAZARSFELD, P. F., Latent Structure Analysis, in: S. KOCH (Hrsg.), Psychology: A Study of a Science, Bd. 3, New York 1 9 5 9 b , S. 4 7 6 - 5 4 3 . LAZARSFELD, P. F., Latent Structure Analysis and Test T h e o r y , in: H. GULLIKSEN UND S. J. MESSICK (Hrsg.), Psychological Scaling, New York 1960, S. 8 3 - 9 5 . LAZARSFELD, P. F., Philosophy of Science and Empirical Social Research, in: E. NAGEL, P. SUPPES UND Α. TARSKI (Hrsg.), Logic, Methodology and Philosophy of Science, Stanford 1962, S. 4 6 3 - 4 7 3 , deutsch in: E. TOPITSCH (Hrsg.), Logik der Sozialwissenschaften, Köln/Berlin 1965, S. 3 7 - 4 9 . LAZARSFELD, P. F., Concept F o r m a t i o n and Measurement in the Behavioral Sciences: Some Historical Observations, in: G. J. DI RENZO (Hrsg.), Concepts, T h e o r y and Explanation in the Behavioral Sciences, New York 1966. LAZARSFELD, P. F. UND A. H. BARTON, Qualitative Measurement in t h e Social Sciences, in: D. LERNER UND H. D. LASSWELL (Hrsg.), The Policy Sciences, Stanford 1951, S. 155-192. LAZARSFELD, P. H. UND Ν. W. HENRY (Hrsg.), Readings in Mathematical Sociology, Cambridge 1968 a. LAZARSFELD, P. H. UND Ν. W. HENRY, Latent Structure Analysis, New York 1 9 6 8 b . LAZARSFELD , P. F. UND M. ROSENBERG , T h e Language of Social Research, Glencoe 1955. LIENERT, G., T e s t a u f b a u und Testanalyse, Weinheim/Berlin 2. Aufl. 1967. LOEVINGER, J., Effect of Distortions of Measurement on Item Selection, in: Educational and Psychological Measurement 3, 1954, S. 4 4 1 - 4 4 8 .
54
5. Band: Testen und Messen
LOE VINGER , J., Objective Tests as I n s t r u m e n t s of Psychological T h e o r y , in: Psychological Reports, Monogr. Suppl., No. 9, 1957. LORD, F. M., The Relation of Test Score to the Trait Underlying the Test, in: Educational and Psychological Measurement 13, 1953. LORD, F. M., Sampling Fluctuations Resulting f r o m t h e Sampling of Test Items, in: Psychometrica 20, 1955, S. 1-22. LUNDBERG, G. Α., F o u n d a t i o n s of Sociology, New York 1939. MAYNTZ, R . , K . HOLM UND P. HÜBNER, E i n f ü h r u n g i n d i e M e t h o d e n d e r e m p i r i s c h e n
Soziologie, Köln/Opladen 1969. MERTON, R. Κ., T h e Bearing of Empirical Research Upon t h e Development of Social T h e o r y , in: American Sociological Review 13, 1948. MERTON, R . K., Social T h e o r y and Social Structure, Glencoe 1957. MILLER, D. C., H a n d b o o k of Research Design and Social Measurement, New York 1964. NORTHROP, F. S. C., T h e Logic of t h e Sciences and t h e Humanities, New York 1947. NOWAK, S., Correlational, Definitional and Inferential Indicators, in: Polish Sociological Bulletin 2, 1963, S. 31-46. NOWAK, S., Causal Interpretation of Statistical Relationships in Social Research, in: Quality and Q u a n t i t y 1, 1967, S. 5 3 - 8 9 . NUNNALLY, J. C., Psychometric T h e o r y , New York 1967. POPPER, K. R., T h e Logic of Scientific Discovery, L o n d o n 1959. POPPER, K. R., Conjectures and R e f u t a t i o n s : T h e G r o w t h of Scientific Knowledge, New York 1963. RILEY, M. W., Index, in: GOULD UND KOLB (Hrsg.), Dictionary of t h e Social Sciences, New Y o r k / L o n d o n 1964, S. 3 2 3 - 3 2 4 . REICHENBACH, H., T h e Rise of Scientific Philosophy, Berkeley/Los Angeles 1951. SCHEFFLER, I., Prospects of a Modest Empiricism, in: T h e Revue of Metaphysics 10, 1956/57, deutsch in: L. KRÜGER (Hrsg.), Erkenntnisprobleme der Naturwissenschaften, Köln/Berlin 1970, S. 9 9 - 1 3 2 . SCHEUCH, E. K., An Instrument to Measure Social Stratification in Western G e r m a n y , in: Transactions of t h e 3 t h World Congress of Sociology, Bd. 8, London 1957, S. 185-189. SCHEUCH, Ε. Κ., Skalierungsverfahren, in: R. KÖNIG (Hrsg.), H a n d b u c h der Empirischen Sozialforschung, Bd. I, Stuttgart 2. Aufl. 1967, S. 3 4 8 - 3 8 4 . SCHEUCH, Ε. Κ. UND D. RÜSCHEMEIER, Scaling Social Status in Western G e r m a n y , in: British Journal of Sociology 11, 1960, S. 151-168. SCHLESINGER, G., Operationalism. in: International Encyclopaedia of Philosophy, New York 1968, S. 5 4 3 - 5 4 7 . SHAW, Μ. E. UND J. M. WRIGHT, Scales f o r the Measurement of Attitudes, New York 1967. SHEPARD, R. N., T h e Analysis of Proximities: Multidimensional Scaling with an U n k n o w n Distance F u n c t i o n , I, in: Psychometrica 27, 1962a, S. 2 1 9 - 2 4 6 .
1. Kapitel: Methodologische Probleme der Index-Bildung
55
SHEPARD, R. N., T h e Analysis of Proximities'. M u l t i d i m e n s i o n a l Scaling w i t h an U n k n o w n Distance F u n c t i o n , II, in: P s y c h o m e t r i c a 2 7 , 1 9 6 2 b , S. 2 1 9 - 2 4 6 . R. W. H O D G E , A Causal A p p r o a c h t o t h e S t u d y of M e a s u r e m e n t E r r o r , in: H. M. BLALOCK UND A. B . BLALOCK (Hrsg.), M e t h o d o l o g y in Social Research, New Y o r k 1968, S. 2 8 - 5 9 .
S I E G E L , P. M . UND
STEGMÜLLER, W., P r o b l e m e u n d R e s u l t a t e der Wissenschaftstheorie u n d a n a l y t i s c h e n Philosophie, Bd. 1 : Wissenschaftliche E r k l ä r u n g u n d Begründung, Berlin/Heidelberg 1969; Bd. 2: T h e o r i e u n d E r f a h r u n g , Berlin/Heidelberg 1970. T h e O p e r a t i o n a l Basis of P s y c h o l o g y , in: A m e r i c a n J o u r n a l of Psychology 4 7 , 1 9 3 5 a , S. 3 2 3 - 3 3 0 .
STEVENS, S. S.,
T h e O p e r a t i o n a l D e f i n i t i o n of Psychological C o n c e p t s , in: Psychological Review 4 2 , 1 9 3 5 b , S. 5 1 6 - 5 2 7 .
STEVENS, S . S . ,
M a t h e m a t i c s , M e a s u r e m e n t and P s y c h o p h y s i c s , in: S . S . (Hrsg.), H a n d b o o k of E x p e r i m e n t a l P s y c h o l o g y , New Y o r k 1951.
STEVENS, S. S.,
Basic M e a s u r e m e n t T h e o r y , in: R . D . L U C E , R . R . B U S H (Hrsg.), H a n d b o o k of M a t h e m a t i c a l P s y c h o l o g y , Bd. 1 , New Y o r k 1963, S. 1 - 7 6 .
SUPPES,
P.
STEVENS
UND J . L . Z I N N E S ,
UND E . G A L A N T E R
TORGERSON, W. S., T h e o r y and M e t h o d s of Scaling, N e w Y o r k 1 9 5 8 . H. S., A t t i t u d e M e a s u r e m e n t , in: H. M. BLALOCK UND A. B . M e t h o d o l o g y in Social R e s e a r c h , New Y o r k 1 9 6 8 , S. 6 0 - 1 1 1 .
UPSHAW,
BLALOCK
(Hrsg.),
L., M. M E C K E R UND Κ. E E L L S , Social Class in A m e r i c a : A Manual of P r o c e d u r e s f o r t h e M e a s u r e m e n t of Social S t a t u s , Chicago 1949.
W A R N E R , W.
WÄRNERYD, Β., S o m e A s p e c t s of I n d e x F o r m a t i o n , in: A c t a Sociologica 7, 1 9 6 3 , S. 1 9 - 3 2 . Say it w i t h Figures, New York K ö l n / B e r l i n 1970.
ZEISEL, H . L.,
1947,
d e u t s c h : Die Sprache der Z a h l e n ,
T h e o r i e , F o r s c h u n g u n d Praxis in d e r Soziologie, in: R . K Ö N I G (Hrsg.), H a n d b u c h der E m p i r i s c h e n S o z i a l f o r s c h u n g , Bd. I, S t u t t g a r t 2. A u f l . 1 9 6 7 , S. 64-104.
ZETTERBERG, H . ,
2.
Meßtheoretische Probleme der Sozialforschung von H. Huber und H. Schmerkotte
Ziel jeder empirischen Wissenschaft ist es, Aussagen über die reale Erscheinungswelt zu erstellen. Ein bewährtes Hilfsmittel dafür besteht darin, die realen Erscheinungen numerisch zu kennzeichnen, sie zu quantifizieren. Sind solche Zuordnungen einmal vorgenommen, kann man diese numerischen Daten weiterverarbeiten. Dafür steht ein reichhaltiges Instrumentarium von numerischen Operationen zur Verfügung. Die dabei gewonnenen Ergebnisse sind schließlich in Aussagen über das reale Untersuchungsobjekt zu transformieren. Damit aufgrund dieses Vorgehens richtige Aussagen erstellt werden k ö n n e n , dürfen nur ganz bestimmte Rechenoperationen durchgeführt werden. Welche das sind, hängt — natürlich neben dem Ziel der Untersuchung selbst — von der Struktur der realen Erscheinungen und der strukturkonformen numerischen Darstellung ab. Mit diesem Problemkreis beschäftigt sich die Theorie des Messens, in deren Grundgedanken die Abschnitte 1 bis 5 dieses Kapitels einführen sollen. Die darauf folgenden Abschnitte 6 und 7 befassen sich mit zwei Begriffen, die aus der psychologischen Testtheorie s t a m m e n , mit der Zuverlässigkeit und mit der Gültigkeit von Meßinstrumenten. Die Zuverlässigkeit oder Réhabilitât eines Meßinstruments wird durch die Meßfehler b e s t i m m t , mit denen man beim Messen mit diesem Instrument zu rechnen hat. In einer Theorie, die die grundlegenden Aspekte des Messens untersucht, k ö n n e n diese Meßfehler unberücksichtigt bleiben. Deshalb kann in den Abschnitten 1 bis 5 angen o m m e n werden, daß beim Messen den Meßobjekten eindeutig Meßwerte zugeordnet werden. Für die Beurteilung eines b e s t i m m t e n Meßinstruments dagegen ist es wichtig, seine Zuverlässigkeit zu kennen. Die Gültigkeit oder Validität eines Meßinstruments wird durch den Grad bestimmt, in dem das Instrument das Merkmal, das es messen soll, wirklich erfaßt. Zuverlässigkeit und Gültigkeit werden in der psychologischen Testtheorie gewöhnlich durch Koeffizienten charakterisiert, die zuerst von S P E A R M A N ( 1 9 0 4 ) betrachtet wurden. Die S t r u k t u r dieser Koeffizienten wird in Abschnitt 8 genauer beschrieben.
2.1
Die Struktur eines Merkmals
Gegenstand des Messens sind bestimmte Merkmale. Ein Merkmal ist festgelegt durch die Objekte, die das Merkmal in irgend einer F o r m aufweisen, die sogenannten Merkmalsträger, sowie durch die Relationen, die zwischen diesen O b j e k t e n beobachtet
2. Kapitel: Meßtheoretische Probleme der Sozialforschung
57
werden können. Die Gesamtheit der Merkmalsträger wollen wir als Objektbereich, die Gesamtheit der Relationen als Struktur des Merkmals bezeichnen. Zusammen ergeben diese beiden ein Relationensystem (A ; R^,..., R„), wenn durch A derObjektbereich, durch R¡,..., Rn die Relationen symbolisiert werden. Es handelt sich in diesem Fall um ein empirisches Relationensystem, da Relationen zwischen empirischen Objekten auftreten. Später werden wir auch numerische Relationensysteme betrachten, die aus der Menge der reellen Zahlen sowie aus Relationen zwischen reellen Zahlen bestehen. Ein Merkmal kann also formal durch ein empirisches Relationensystem beschrieben werden. Eine solche Formalisierung wurde im Hinblick auf die Theorie des Messens zum ersten Mal von S U P P E S UND Z I N N E S ( 1 9 6 3 ) vorgenommen. Ihr theoretischer Ansatz wurde später unter anderen von P F A N Z A G L ( 1 9 6 8 ) weiter ausgebaut. Was hat man aber nun exakt unter einer Relation zu verstehen? Formal wird eine k- stellige Relation R auf einer Menge A definiert als Teilmenge des k- fachen kartesischen Produkts von A. Eine k-stellige Relation ist also zwischen je k Elementen definiert. Gehört ein fc-Tupel (alt... ,ak) von Elementen von A zu R, so sagt man, die Relation R gilt zwischen den Elementen ¡Zj,..., ak, im anderen Falle gilt R zwischen diesen Elementen nicht. Dieser sehr abstrakte Relationsbegriff soll nun anhand eines praktischen Beispiels erläutert werden. Dazu betrachten wir das Merkmal "Gewicht". Merkmalsträger sind hier physikalische Gegenstände. Werden zwei solche Gegenstände auf je eine Schale einer gleicharmigen Waage gelegt, so kann aufgrund der Stellung der beiden Waagschalen festgestellt werden, ob sie gleich schwer sind oder nicht. Dabei ist Gleichheit hier nicht im Sinn von Identität gemeint. Gleich schwere Gegenstände können völlig verschieden sein: Sie können sich unterscheiden in Volumen, Gestalt, Materialbeschaffenheit usw. Gleichheit wird nur festgestellt in bezug auf das Merkmal Gewicht. Alle anderen Merkmale werden vernachlässigt. Daher spricht man anstatt von Gleichheit exakter von Äquivalenz. Für das vorliegende Merkmal läßt sich also bereits die erste Relation bestimmen: eine Äquivalenzrelation. Diese ist zweistellig, da sie zwischen je zwei Elementen definiert ist. Abstrakt kann sie beschrieben werden als Gesamtheit aller Paare von Gegenständen, die jeweils einander äquivalent sind. Sind zwei Gegenstände nicht gleich schwer, so kann entsprechend der Stellung der beiden Waagschalen bestimmt werden, welcher von ihnen der leichtere, welcher der schwerere ist. Dadurch wird bezüglich des Merkmals Gewicht eine Ordnungsrelation bestimmt. Auch diese ist wiederum zweistellig. Eine weitere empirische Relation erhält man dadurch, daß man zwei Gegenstände auf dieselbe Waagschale legt, und feststellt, ob sie zusammen genau so schwer sind wie ein dritter Gegenstand auf der anderen Waagschale. Ein solches Zusammenlegen von zwei Gegenständen nennt man eine Verknüpfung (Operation). Durch eine Verknüpfung wird stets eine Relation erzeugt. Diese ist dreistellig, da sie zwischen je drei Elementen definiert ist. Wir können also das Merkmal Gewicht durch das empirische Relationensystem (1)
C4; *,«,>
beschreiben, wobei « die Äquivalenzrelation, die Ordnungsrelation und ° die Verknüpfung von je zwei Elementen symbolisieren.
58
5. Band: Testen und Messen
Im vorigen Beispiel wurden die empirischen Relationen durch eine technische Vorrichtung bestimmt. Das war nur natürlich, denn es handelte sich ja um ein physikalisches Merkmal. In der Psychologie dagegen werden die Relationen meist durch Befragung von Versuchspersonen ermittelt. Auf diese Weise können beispielsweise für das Merkmal "subjektive Tonhöhe" eine subjektive Äquivalenz- und Ordnungsrelation bestimmt werden. Weiterhin kann eine Versuchsperson vor die Aufgabe gestellt werden, zu zwei beliebig vorgegebenen Tönen einen dritten Ton zu bestimmen, der ihrer Meinung nach in der Mitte zwischen den beiden vorgegebenen liegt. Damit wird wieder eine Verknüpfung von zwei Elementen — in diesem Fall eine sogenannte Mittenbildung — bestimmt. Oft werden als Gegenstand des Messens nicht die einzelnen Merkmalsträger betrachtet, sondern die sogenannten Ausprägungen eines Merkmals. Dies setzt allerdings die Existenz einer Äquivalenzrelation voraus. Ist eine solche vorhanden, kann man alle Elemente, die zueinander äquivalent sind, zu einer Äquivalenzklasse zusammenfassen. Diese Äquivalenzklassen entsprechen dann den Ausprägungen des Merkmals. Die Relationen, die ursprünglich zwischen den Merkmalsträgern beobachtet wurden, können nun zu solchen zwischen den Ausprägungen umgedeutet werden. Insoweit kann ein empirisches Relationensystem auch interpretiert werden als Menge der möglichen Ausprägungen zusammen mit der Gesamtheit der Relationen zwischen diesen.
2.2
Definition und Eindeutigkeit von Skalen
Von einer Skala spricht man, wenn allen möglichen Ausprägungen eines Merkmals oder auch den Merkmalsträgern selbst bestimmte reelle Zahlen zugeordnet werden. Diese Zuordnung darf aber nicht willkürlich erfolgen. Denn aus den Beziehungen zwischen den zugeordneten Zahlen sollen später Rückschlüsse auf Beziehungen zwischen den empirischen Objekten gewonnen werden. Deshalb muß bei der Zuordnung die Struktur eines Merkmals beachtet werden. Aus diesem Grunde betrachten wir zu einem empirischen Relationensystem (A ; Ä j , . . . , Rn) ein numerisches Relationensystem mit der Menge der reellen Zahlen IR und den numerischen Relationen ,..., Sn , von denen jede dieselbe Stellenzahl und auch sonst dieselben Eigenschaften hat wie die entsprechende empirische Relation. Unter einer Skala versteht man nun eine Abbildung m, die jedem Element a aus A eine reelle Zahl m{a) so zuordnet, daß für alle Relationen R¿ und Sj (i = 1 , . . . , n) gilt: Besteht zwischen Elementen aus A die Relation R¡, so muß zwischen den ihnen zugeordneten Zahlen die Relation S¡ bestehen und umgekehrt. Eine solche Abbildung nennt man auch einen Homomorphismus von (A; Rlt... ,Rn) nach beschrieben. Ein entsprechendes numerisches Relationensystem ist mit der üblichen Gleichheits- und Kleiner-Beziehung zwischen Zahlen sowie der Additionsoperation. Die Homomorphiebedingung verlangt nun folgendes:
2. Kapitel: Meßtheoretische Probleme der Sozialforschung
59
1. a , a« a2 gilt genau dann, wenn m(al ) = m(a2). Das bedeutet, daß zwei äquivalente Elemente denselben Skalenwert erhalten und umgekehrt, daß zwei Elemente, die denselben Skalenwert haben, auch äquivalent sind. 2. al -ζ a2 gilt genau dann, wenn w ( a ¡ ) < m (a 2 ). Das bedeutet, daß die empirische Einstufung der Elemente durch die numerische Kleiner-Relation richtig wiedergegeben wird. 3. aí ° a2 « a 3 gilt genau dann, wenn m(al ) + m(a2) = w ( a 3 ) . Dies hat zur Folge: m{ax •>fl2) = ffl(a1) + m ( ä ! ) , ( l - l i . der Skalenwert der Verknüpfung ist gleich der Summe der Skalenwerte. Durch die Forderung der Homomorphie sind im allgemeinen Skalen nicht eindeutig bestimmt. Es gibt vielmehr mehrere Skalen, die ein vorgegebenes empirisches Relationensystem in ein numerisches homomorph abbilden. Von diesen Skalen kann keine bevorzugt werden. Man nennt sie daher äquivalent. Zwei äquivalente Skalen m,m* sind durch eine reelle Transformation Τ miteinander verbunden: ra* (α) = = T(m{a)) für alle a. Das bedeutet: Wendet man auf jeden Wert der einen Skala die Transformation Τ an, so erhält man eine dazu äquivalente Skala. Nun betrachtet man alle Transformationen, die nötig sind, um aus einer vorgegebenen Skala alle dazu äquivalenten zu erzeugen. Die Gesamtheit dieser Transformationen nennt man die Gruppe der zulässigen Transformationen. Eine Skala, die ein empirisches Relationensystem in ein numerisches homomorph abbildet, ist daher eindeutig bestimmt bis auf die Gruppe der zulässigen Transformationen. Die Gruppe der zulässigen Transformationen ist durch die beiden Relationensysteme genau festgelegt. Im allgemeinen wird diese Gruppe um so mehr eingeschränkt, je mehr Relationen empirisch bestimmt werden können. Je reicher die Struktur eines Merkmals ist, desto eindeutiger und damit auch aussagekräftiger ist eine dazugehörige Skala.
2.3
Die wichtigsten Skalentypen
Nach STEVENS ( 1946) unterscheidet man bezüglich der Gruppe der zulässigen Transformationen vier wichtige Skalentypen: Nominale Skalen, ordinale oder topologische Skalen, metrische oder Intervallskalen, rationale oder Verhältnisskalen. Nomiale Skalen sind eindeutig bestimmt bis auf die Gruppe der eineindeutigen Transformationen. Transformiert man also eine nominale Skala eineindeutig, so erhält man eine dazu äquivalente Skala. Umgekehrt erhält man aus jeder nominalen Skala alle äquivalenten Skalen durch solche eineindeutigen Transformationen. Ordinale Skalen sind eindeutig bestimmt bis auf die Gruppe der streng monoton wachsenden Transformationen. Metrische Skalen sind eindeutig bestimmt bis auf die Gruppe der positiv linearen Transformationen : (2)
T(x)
= οίχ + β, a>
0.
60
5. Band: Testen und Messen
Dabei sind α und β beliebig wählbare Parameter. Durch eine spezielle Wahl von a und β erhält man eine b e s t i m m t e zulässige T r a n s f o r m a t i o n . Metrische Skalen sind vor allem dadurch charakterisiert, daß m a n durch eine bes t i m m t e Festlegung von zwei Skalenwerten für zwei Merkmalsausprägungen eine eindeutig bestimmte metrische Skala erhält. Denn zwei äquivalente metrische Skalen m und m*, die beide den Elementen a0 und Oj die Skalenwerte und zuordnen, unterscheiden sich nicht voneinander. Denn aus den Bedingungen m(a0) = x0, m{ax) = xx, m*(a0) = x0, m*(al) = x1, m*(a) = a m(a) + β (für alle a) ergibt sich für a und β das Gleichungssystem «x0 + β
=
x0
axj + β
=
xx
Dieses ist aber, da a > 0 sein soll, nur erfüllt für a = 1 und β = 0. Daraus folgt das gewünschte Ergebnis: m* = m. Die Forderung, d a ß zwei vorgegebenen Merkmalsausprägungen gerade zwei bestimmte Zahlen als Skalenwerte erhalten sollen, führt so zwar zu absolut eindeutigen Skalen. Eine solche Z u o r d n u n g ist aber durch die N a t u r eines Merkmals meist nicht begründet und daher völlig willkürlich. Sie dient lediglich dazu, aus der Menge der an sich gleichberechtigten Skalen eine auszuwählen, mit der man dann arbeitet. So ist beispielsweise die Temperaturskala "Celsius" dadurch festgelegt, daß die Temperatur, bei der Wasser gefriert, den Skalenwert 0, diejenige, bei der Wasser verd a m p f t , den Skalenwert 100 erhält. Bei der Fahrenheit-Skala werden diesen beiden T e m p e r a t u r e n j e d o c h die beiden Skalenwerte 32 bzw. 212 zugeordnet. Beide Skalen sind vom theoretischen S t a n d p u n k t aus gleichwertig. Sie gehen auseinander hervor durch die T r a n s f o r m a t i o n T{x) = 1,8 χ + 32; d. h. eine T e m p e r a t u r , die in der Celsius-Skala den Skalenwert χ hat, hat in der Fahrenheit-Skala den Skalenwert 1,8 χ + 32. In m a n c h e n Fällen entspricht es nun aber doch der Natur eines Merkmals, einer bes t i m m t e n Ausprägung einen bestimmten Skalenwert endgültig zuzulegen, nämlich dann, wenn ein sogenannter natürlicher Nullpunkt existiert, d. h. eine Ausprägung, die das zu messende Merkmal in überhaupt keiner Intensität aufweist. Es erscheint dann naheliegend, diesem natürlichen Nullpunkt die Zahl 0 als Skalenwert zuzuordnen. Metrische Skalen, die zusätzlich dieser F o r d e r u n g genügen, sind bis auf Streckungen, d. h. bis auf die Transformation (4)
T(x)
= ax,
a >
0
eindeutig bestimmt. Denn ist a 0 der natürliche N u l l p u n k t , so folgt aus m(a0) m*(a0) = 0 und m*(a) = am(a) + β das Ergebnis β = 0.
= 0,
Skalen, die bis auf Streckungen eindeutig bestimmt sind, werden rationale oder Verhältnisskalen genannt. Metrische Skalen führen daher immer dann zu rationalen Skalen, wenn 1. ein natürlicher Nullpunkt bestimmbar ist und 2. allgemein vereinbart wird, daß diesem natürlichen Nullpunkt auch tatsächlich die Zahl 0 als Skalenwert zugeordnet wird.
2. Kapitel: Meßtheoretische Probleme der Sozialforschung
61
Gerade die letzte Bedingung ist aber zuweilen verletzt. So existiert beispielsweise für das Merkmal Temperatur ein natürlicher Nullpunkt (der absolute Nullpunkt bei — 273° Celsius), bei den gebräuchlichen Skalen Celsius und Fahrenheit hat dieser jedoch nicht den Skalenwert 0. Daher können Temperaturskalen immer nur als metrische, nicht aber als rationale Skalen betrachtet werden. Zwischen den eben beschriebenen Skalentypen besteht eine gewisse Rangordnung. Ausgehend von der nominalen Skala wird bei den weiteren Typen die Gruppe der zulässigen Transformationen sukzessive auf Teilmengen eingeschränkt: Die Gruppe der Streckungen ist eine Teilmenge aller positiv linearen Transformationen, diese ist eine Teilmenge aller streng monoton wachsenden Transformationen und diese wiederum eine Teilmenge aller eineindeutigen Transformationen. Mit der Einschränkung der zulässigen Transformationen wächst aber die Eindeutigkeit und Aussagekraft von Skalen. Es können mehr Rechenoperationen sinnvoll durchgeführt werden, wie im nächsten Abschnitt gezeigt werden wird. Daher spricht man in diesem Zusammenhang von den einzelnen Stufen des Messens (auch Meßniveau). Auf der untersten Stufe befindet man sich, wenn eine nominale Skala vorliegt. Die höchste Stufe erreicht man bei Vorliegen einer rationalen Skala.
2.4
Zum Problem der Bedeutsamkeit (meaningfulness)
In diesem Abschnitt soll klargelegt werden, warum man überhaupt verschiedene Meßstufen unterscheidet, warum man sich dafür interessiert, bis auf welche Transformationen Skalen eindeutig bestimmt sind. Es soll untersucht werden, welche numerischen Operationen mit Skalenwerten eines bestimmten Typs sinnvoll durchgeführt werden können, und weiter, wie gesetzmäßige Beziehungen zwischen Skalenwerten aussehen müssen, um als sinnvoll gelten zu können. In der englischsprachigen Literatur wird dieser Problemkreis mit "meaningfulness" umschrieben. Unter anderen haben sich damit insbesondere SUPPES UND Z I N N E S ( 1 9 6 3 ) , A D A M S , F A G O T UND R O B I N S O N ( 1 9 6 5 ) sowie P F A N Z A G L ( 1 9 6 8 ) beschäftigt. Grob gesprochen geht es dabei um die Forderung, daß zwei Sachverhalte gleich oder ungleich sein sollen unabhängig von der speziellen Wahl einer Skala aus der Menge der äquivalenten Skalen. Es darf also nicht vorkommen, daß aufgrund der Wahl einer Skala zwei Sachverhalte als gleich, aufgrund der Wahl einer äquivalenten Skala die beiden Sachverhalte als verschieden beurteilt werden. Wir betrachten eine bestimmte numerische Operation, dargestellt durch eine reellwertige Funktion / von η reellen Veränderlichen xlt..., xn . Die Veränderlichen seien Skalenwerte und daher nur eindeutig bestimmt bis auf gewisse zulässige Transformationen. Dabei ist zu unterscheiden, ob sie Meßwerte für Ausprägungen desselben Merkmals sind, oder ob sie Meßwerte für verschiedene Merkmale sind. Im ersten Fall kann man annehmen, daß sie auch Werte aus derselben Skala sind; denn es ist nicht einzusehen, daß in ein und derselben Operation für ein und dasselbe Merkmal verschiedene Skalen benutzt werden. Bei einer eventuellen Transformation ist daher zu fordern, daß alle Werte gleichmäßig transformiert werden, damit die transformierten Werte wieder zu derselben Skala gehören. Es muß also in diesem Fall auf jede
62
S. Band: Testen und Messen
Variable dieselbe Transformation angewendet werden. Bedeuten dagegen xl,..., xn Meßwerte für Ausprägungen verschiedener Merkmale, entstammen sie also verschiedenen Skalen, so kann für jeden dieser Werte eine andere Transformation durchgeführt werden. Eine solche Operation / wird nun als sinnvoll (meaningful) bezeichnet, wenn aus (5)
/(xi,...,x„') =
f(xHu...,x"n)
für alle zulässigen Transformationen Tlt...,Tn
folgt:
/ ( η ί χ Ο , . , . , Γ ^ χ ; ) ) = f{Ti(xl),...,Tn(xnny),
(6)
wobei x\, x¡ Meßpaare für dasselbe Merkmal bedeuten sollen. Wie oben dargelegt, müssen dabei die Transformationen Tx,..., Tn alle identisch sein: = ... = Tn , falls alle χ aus derselben Skala stammen. Diese Definition soll nun an einigen Beispielen erläutert werden. Grundsätzlich ist zu bemerken, daß eine Operation, die für Skalenwerte aus einer bestimmten Meßstufe sinnvoll ist, dies erst recht für Skalenwerte aus einer höheren Meßstufe ist, nicht unbedingt aber für solche aus einer niedrigeren. von 1 · f(X\ > χ2 ) = x i + x2 - I m ordinalen Skalen ist diese Operation sinnlos. Denn nehmen wir die Transformationen Tx (x) = T2{x) = x2 , so gilt zwar beispielsweise 1 + 3 = 2 + 2, aber nicht 1 2 + 3 2 = 2 2 + 2 2 .
Im Fall von metrischen Skalen m u ß man unterscheiden, ob es sich um dasselbe Merkmal handelt oder nicht. Im ersteren Fall sind die zulässigen Transformationen T¡ (χ) = T2(x) = α χ + β und man erhält: Aus x[ + xj = x\ + x2 folgt ax¡ + β + + oix'2 + β = ax'{ + ß + ax'{ + β f ü r a l l e α , ß.
Im zweiten Fall lauten die zulässigen Transformationen jedoch: 7i(X]) = a¡x j + ßlt T2(x2)
= a 2 * 2 + 02·
Wählen wir hier c^ = 10, a2 = 100, ß1 = ß2 = 0, so gilt beispielsweise 1 + 3 = 2 + 2, aber nicht 10 · 1 + 100 · 3 = 10 · 2 + 100 · 2. Das bedeutet: Im Fall von metrischen Skalen ist die Addition sinnvoll oder nicht, je nachdem, ob die Summanden Skalenwerte für dasselbe Merkmal oder für verschiedene Merkmale sind. Diese Aussage hat auch für Verhältnisskalen Gültigkeit. Damit hat man eine rationale Begründung für die übliche Schulbuchanweisung, daß man verschiedenartige Größen nicht addieren darf. Die hier gewonnenen Ergebnisse gelten im übrigen auch für die Subtraktion sowie für die arithmetische Mittelung. 2. / ( x j , x2) = Xj · x2 : Wie sich leicht nachprüfen läßt, ist diese Operation für Verhältnisskalen sinnvoll, für metrische Skalen dagegen sinnlos, gleichgültig, ob es sich um dasselbe oder verschiedene Merkmale handelt. Dies gilt auch für Division und geometrische Mittelung.
3.f(xì,...,xn)
=
(Variationskoeffizient)
2. Kapitel: Meßtheoretische Probleme der Sozialforschung
63
Wir nehmen an, daß die Werte x¡ Skalenwerte für dasselbe Merkmal sind. Im Fall von rationalen Skalen ist diese Maßzahl sinnvoll, im Fall von metrischen Skalen dagegen nicht. Es ist daher beispielsweise sinnlos, für Temperaturen einen Variationskoeffizienten zu berechnen. Das Problem der Bedeutsamkeit tritt nicht nur dann in Erscheinung, wenn mit Skalenwerten lediglich eine Rechenoperation durchgeführt wird, sondern auch, wenn zwischen Skalenwerten eine Beziehung aufgestellt wird. Hierbei kann es sich um ein empirisch überprüfbares Gesetz oder um eine hypothetische Beziehung handeln. Von einem solchen Gesetz erwartet man, daß seine Gültigkeit von der speziellen Wahl der Skalen unabhängig ist. Sind beispielsweise eine oder mehrere der in einem Gesetz auftretenden Variablen Meßwerte für das Merkmal Gewicht, so soll das Gesetz auch für Gramm gelten, wenn es für Tonnen gilt und umgekehrt. Um aber die Klasse von Funktionen, die zur Formulierung eines Gesetzes in Frage kommen, nicht unnötig einschränken zu müssen, werden die Gesetze gewöhnlich gar nicht eindeutig festgelegt. Es werden vielmehr meist nur Funktionstypen angegeben, in denen frei wählbare Parameter auftreten. Zulässige Transformationen der Variablen werden dann durch Transformationen der Parameter ausgeglichen. Nach diesen Vorbemerkungen kann nun die Bedeutsamkeit (meanigfulness) für Gesetze exakt formuliert werden: Ein Gesetz y = f{xy,..., xn ; λ 1 ( . . . , \ k ) heißt bedeutsam, wenn es für alle zulässigen Transformationen S, Tx,..., Tn der Variablen y, xx,..., xn auch Transformationen Lv,..., Lk der Parameter λ ^ . . . , \ k gibt, so daß gilt: Aus y = f(x¡,..., χη ; λ ^ ... ,λ^.) folgt (7)
2.5
SCO = KT1{xl),...,Tn(.xny,
L ! (Xt ),...,
(λ*)).
Einige ausgewählte Strukturen, die bestimmte Meßstufen garantieren
Nachdem dargelegt wurde, wie wichtig für die Anwendung die Kenntnis des Typs der Skalen ist, mit denen man arbeitet, wird nun die Frage akut, unter welchen Bedingungen man überhaupt zu einer bestimmten Meßstufe gelangt. Ist also ein vorgegebenes Merkmal nur nominal oder sogar rational meßbar? Entscheidend für diese Frage ist die Struktur des Merkmals. Je reicher die Struktur ist, eine desto höhere Stufe erreicht man. Im folgenden soll nur ein Überblick über die einfachsten Strukturen gegeben werden. Der am eingehenderen Studium interessierte Leser sei auf PFANZAGL (1968) verwiesen. Für die Existenz einer nominalen Skala genügt das Vorliegen einer Äquivalenzrelation » , wenn diese folgende Bedingungen erfüllt: 1. Reflexivität: a « a 2. Symmetrie: Aus a « b folgt b « a 3. Transitivität: Aus a b und b = c folgt a ^ c. Es existiert dann eine homomorphe Abbildung von C4 ;
nach . Diese ist
64
5. Band: Testen und Messen
eindeutig bestimmt bis auf eineindeutige Transformationen und ist daher eine nominale Skala. Von den obigen Bedingungen ist praktisch allein die Transitivität von Bedeutung, da sie häufig verletzt ist. Beispielsweise kann eine Versuchsperson von drei Reizen, die nahe beieinander liegen, den ersten nicht vom zweiten und den zweiten nicht vom dritten unterscheiden, wohl aber den ersten vom dritten. In diesem Fall liegt anstatt einer Äquivalenzrelation eine sogenannte Indifferenzrelation vor. Man kann jedoch unter bestimmten Bedingungen aus einer Indifferenzrelation eine Äquivalenzrelation herleiten. Um Ordinalskalen zu erhalten, muß neben einer Äquivalenzrelation noch eine Ordnungsrelation -< gegeben sein. Von (A ; » , ^ > nach (IR; = , < ) existiert ein Homomorphismus, der bis auf streng monoton wachsende Transformationen eindeutig bestimmt ist, wenn folgende Bedingungen erfüllt sind: 1. Für alle a,b ^ A gilt genau eine der drei Beziehungen: a « / ) , 2. « ist eine Äquivalenzrelation 3. ist transitiv: Aus a -< b und b -< c folgt a -< c.
a O . H a
Es muß allerdings bemerkt werden, daß theoretisch diese Bedingungen nicht ganz ausreichen. Es müssen noch Annahmen über den Objektbereich A gemacht werden (wie auch schon für nominale Skalen); doch sind diese ohne praktische Bedeutung. Damit ein Merkmal metrisch meßbar ist, muß es eine reichere Struktur als nur Äquivalenz und Ordnung aufweisen. Als zusätzliche Relationen kommen hier insbesondere die Abstandsrelation und die metrische Verknüpfung in Frage. Beide sind insofern gleichwertig, als sie in einander übergeführt werden können. Eine Abstandsrelation ist gegeben, wenn für je vier Objekte a,b,c,d empirisch bestimmt werden kann, ob der Abstand zwischen a und b gleich groß ist oder kleiner oder größer als der Abstand zwischen c und d: ab cd, ab -< cd oder cd ab. Formal gesehen hat man es hier also mit einer Äquivalenz- und Ordnungsrelation zwischen Paaren von Elementen zu tun. Wenn diese Abstandsrelation bestimmte Bedingungen erfüllt, deren wichtigste die Vertauschbarkeit "Aus ab » cd folgt ac « bd" ist, existiert eine metrische Skala. Die der empirischen Abstandsrelation entsprechende numerische Relation lautet: m(a) — m(b) = m(c) — m(d). Eine metrische Verknüpfung ° ist definiert, wenn zu je zwei Objekten ein drittes bestimmt werden kann, das in einer bestimmten Relation zu ihnen steht. Falls eine solche metrische Verknüpfung wiederum bestimmte Eigenschaften besitzt, deren wichtigste die Bisymmetrie "(a o b) ° (c ° d) « {a ° c) ° (b ° d)" ist, existiert wieder eine metrische Skala. Die der empirischen Verknüpfung entsprechende numerische Operation lautet allgemein: ρ • m(a) + q • m(b) + r, wobei p, q, r feste reelle Zahlen sind. Eine solche allgemeine Verknüpfung als Basis für metrische Skalen führte PFANZAGL (1959) ein. Beispiele von metrischen Verknüpfungen haben wir schon in Abschnitt 2.1 kennengelernt: das Zusammenlegen von zwei Gegenständen auf eine Waagschale sowie die Bestimmung eines mittleren Tons zu zwei vorgegebenen Tönen. Dies sind gleichzeitig zwei wichtige Spezialfälle allgemeiner metrischer Verknüpfungen. Im ersten Fall handelt es sich um eine additive Verknüpfung, die durch die Gültigkeit des kommutativen Gesetzes "a ° b «¡ b ° a" sowie des assoziativen Gesetzes "a » ( J o e ) « (a o b) o c" charakterisiert ist. Additive Verknüpfungen sind besonders in der Physik
2. Kapitel: Meßtheoretische
Probleme der Sozialforschung
65
relevant. Eine diesbezügliche Meßtheorie wurde von H E L M H O L T Z ( 1 8 8 7 ) entwickelt und von H O L D E R ( 1 9 0 1 ) fortgeführt. Im zweiten Fall haben wir eine Mittenbildung mit den charakterisierenden Eigenschaften: a ° b ~ b ° a und a ° a ^a. Die entsprechenden numerischen Operationen dazu lauten: m(a) +m(b), bzw. m{a) + m(b)). Die ersten Experimente mit solchen Mittenbildungen wurden von P L A T E A U ( 1 8 7 2 ) durchgeführt. Einige Bedeutung erlangten die Skalen, die mit Hilfe von Mittenbildungen von S T E V E N S UND V O L K M A N N ( 1 9 4 0 ) für die subjektive T o n h ö h e sowie von G A R N E R ( 1 9 5 4 ) für die subjektive Lautstärke konstruiert wurden. Auf metrische Verknüpfungen und Abstandsrelation lassen sich viele andere Strukturen zurückführen. Als Beispiel sei nur der paarweise Vergleich erwähnt. Hier werden einer Versuchsperson zwei Reize vorgegeben, von denen sie einem den Vorzug geben soll. Dieses Verfahren scheint auf den ersten Blick nur zu einer ordinalen Skala zu führen. Jedoch zeigt sich o f t , daß bei Wiederholung des Versuchs die Versuchsperson nicht immer denselben Reiz vorzieht. Man kann nur die Wahrscheinlichkeit P(a, b) bestimmen, mit der der Reiz a dem Reiz b vorgezogen wird. Aufgrund dieser Wahrscheinlichkeit kann nun ein Abstand definiert werden: ab ~ cd, falls P(a, b) = P(c, d) ab < cd, falls P(a,b) > P(c,d) Was die Existenz rationaler Skalen betrifft, haben wir schon als Kriterium das Vorliegen eines natürlichen Nullpunkts erwähnt. Darüber hinaus m u ß noch bemerkt werden, daß auch das Vorhandensein einer additiven Verknüpfung genügt.
2.6
Zuverlässigkeit von Meßinstrumenten
Wenn der Meßwert eines Meßobjektes bestimmt werden soll, benötigt man ein Me fiver fahren, das mit einer konkreten Anweisung verbunden ist, nach der die Messung praktisch durchgeführt werden kann. Eine genau festgelegte Meßanweisung wird in der Regel durch ein Meßinstrument gegeben sein, wenn dieser Begriff weitgefaßt wird, d. h. wenn man nicht nur geläufige Meßwerkzeuge wie Waagen und Zollstöcke als Meßinstrumente gelten läßt, sondern ζ. B. auch Intelligenztestverfahren oder einen 'chicken sexer', einen Spezialisten, der Küken nach ihrem Geschlecht klassifizieren kann. Zunächst soll der Zusammenhang zwischen einem Meßinstrument für ein Merkmal und dem empirischen Relationensystem, durch das das Merkmal definiert wird, genauer betrachtet werden. Zu einem empirischen Relationensystem gehören Methoden, mit deren Hilfe praktisch festgestellt werden kann, ob zwischen beliebigen Elementen des Objektbereichs eine bestimmte Relation des Systems besteht oder nicht. Gehört also ζ. B. zum System eine Äquivalenzrelation, so m u ß auch bekannt sein, wie man praktisch entscheiden kann, ob zwei beliebige Elemente des Objektbereichs bezüglich des Merkmals äquivalent sind oder nicht. Ein empirisches Relationensystem ist also immer schon mit praktischen Verfahren verbunden. Ist ein empirisches Relationensystem gegeben, so sind noch zwei weitere
66
5. Band: Testen und Messen
Voraussetzungen zu erfüllen, damit den Meßobjekten Meßwerte zugeordnet werden können. Einmal müssen den empirischen Relationen numerische Relationen gegenübergestellt werden, zum andern muß man sich für eine der möglichen Skalen entscheiden. Daß diese beiden zusätzlichen Voraussetzungen erfüllt sind, wollen wir im folgenden immer dann annehmen, wenn von einem Meßinstrument gesprochen wird. Zu einem Meßinstrument gehört demnach also auch schon eine bestimmte Skala aus der Menge der möglichen gleichwertigen Skalen. In der Regel wird es auf der Hand liegen, welche numerischen Relationen zu den Relationen des empirischen Relationensystems passen. Da ferner die zur Wahl stehenden Skalen gleichwertig sind, kann die Entscheidung für ein numerisches Relationensystem und eine bestimmte Skala kaum als eine wesentliche Entscheidung angesehen werden. Demnach ist mit einem empirischen Relationensystem im wesentlichen auch schon ein Meßinstrument gegeben. Umgekehrt ist durch ein Meßinstrument das empirische Relationensystem bestimmt. Es ist deshalb kein wesentlicher Unterschied, ob man eine Merkmalsdefinition durch Beschreibung eines empirischen Relationensystems fordert, oder ob man verlangt, daß eine Merkmalsdefinition durch Angabe eines Meßinstruments erfolgen soll. Wir werden im folgenden stets annehmen, daß Merkmale durch Angabe eines Meßinstruments oder, anders ausgedrückt, operational definiert sind. Solche Merkmalsdefinitionen werden z. B. in der Physik stets gefordert. WESTPHAL (1955) schreibt in seinem Lehrbuch "Physik": Jede Definition einer Größenart ist identisch mit einer bindenden Meßvorschrift für die ihr angehörenden Größen. In den Wissenschaftsbereichen, die uns hier besonders interessieren, sind allerdings auch nicht-operationale Merkmalsdefinitionen üblich und wohl auch berechtigt. So gibt es z. B. verschiedene Versuche von Psychologen, das Merkmal Intelligenz durch eine Beschreibung zu fassen, die keine Meßanweisungen enthält. Um eine auf diese Weise definierte Intelligenz zu messen, muß erst ein entsprechendes Meßinstrument entwickelt werden, durch das dann ein Merkmal festgelegt wird. Wie gut allerdings die durch das Meßinstrument operational definierte "Intelligenz" mit der vorher beschriebenen "Intelligenz", die durch das Meßinstrument getroffen werden soll, übereinstimmt, ist eine andere Frage. Bei unseren Überlegungen zum Begriff Meßinstrument haben wir bisher noch einen wichtigen Aspekt außer acht gelassen: Beim praktischen Messen mit einem gegebenem Meßinstrument kann nämlich häufig festgestellt werden, daß dem gleichen Objekt bei Meßwiederholungen mit dem gleichen Instrument nicht immer der gleiche Meßwert zugeordnet wird. Meßwerte eines bestimmten Objekts, die von wiederholten Messungen stammen, streuen vielmehr in der Regel in gewissem Grade, obwohl gewöhnlich angenommen wird, daß sich die Ausprägung des Merkmals beim Meßobjekt von Messung zu Messung nicht geändert hat. Diese Meßwertstreuung führt man auf äußere Einflüsse zurück, die das Meßergebnis mitbestimmen, die aber bei der Messung nicht kontrolliert wurden. Solche Einflüsse können in der Regel auch gar nicht alle kontrolliert werden, schon deshalb nicht, weil sie meist nicht genau bekannt sind. Man sagt dann, das Ergebnis einer Messung werde nicht allein durch die Ausprägung des Merkmals beim Meßobjekt bestimmt, sondern hänge zum Teil vom Zufall ab. Man faßt eine solche Messung dann als ZuiMsexperiment auf, das MeiSergebnis als eine zufällige Variable mit einer Wahrscheinlichkeitsverteilung.
2. Kapitel: Meßtheoretische Probleme der Sozialforschung
67
In diesem wahrscheinlichkeitstheoretischen Modell für eine Messung wird also durch ein Meßinstrument einem Meßobjekt a zunächst nicht ein fester Meßwert zugewiesen, sondern eine zufällige Größe, die mit X(a) bezeichnet werden soll. Bei einem Meßinstrument, das in der Weise ideal ist, daß keine Meßwertstreuung a u f t r i t t , ist für jedes a G A die Wahrscheinlichkeitsverteilung von X(a ) eine Ein-Punkt-Verteilung. X(a) kann in diesem Fall als fester Wert angesehen werden. Im allgemeinen ist ein fester Meßwert von a nicht direkt b e o b a c h t b a r ; denn bei einer Messung kann stets nur eine Realisation χ (α) der zufälligen Größe X(a) registriert werden. Als eigentlichen festen Meßwert von a sieht man dann eine F u n k tion von X(a) an, den wahren Meßwert (true score) m (a j. Häufig wird der Erwartungswert von X(a), E{X{a)), als wahrer Meßwert a n g e n o m m e n . Theorien, die von dieser A n n a h m e ausgehen, werden nachher als Beispiele betrachtet. Diese Zuordnung eines wahren Meßwerts zu einem Meßobjekt, a -» m (a), ist eindeutig. Sie wird in der Theorie des Messens als Messen verstanden. Geht m a n von dieser Auffassung aus, so braucht eine Streuung der Meßwerte eines O b j e k t s nicht berücksichtigt zu werden. Der wahre Meßwert m(a) ist also eine F u n k t i o n von X(a). Diese F u n k t i o n m u ß offensichtlich eine Forderung erfüllen, die eng mit dem in Abschnitt 2.4 eingeführten Begriff der meaningfulness zusammenhängt. Wir h a t t e n a n g e n o m m e n , daß m a n sich mit einem Meßinstrument für eine bestimmte Skala entschieden hat. Sind nun die wahren Meßwerte zweier Meßobjekte al und a2 gleich, so ist zu f o r d e r n , d a ß α, und a2 auch nach Übergang zu einer anderen, gleichwertigen, Skala wieder gleiche wahre Meßwerte zugewiesen werden. Mit anderen Worten, w e n n S eine T r a n s f o r m a t i o n ist, die die verwendete Skala in eine gleichwertige Skala überführt, und wenn die F u n k t i o n X(a) m(a) den zufälligen Größen X(a¡ ) und X(a2) den gleichen wahren Meßwert z u o r d n e t , so sollte durch diese F u n k t i o n auch den zufälligen G r ö ß e n SiXfa^ )) und S(X(a2)) der gleiche Wert zugewiesen werden. Diese Forderung erfüllt der Erwartungswert der Messung dann, wenn die verwendete Skala metrisch ist. Wird eine Skala b e n u t z t , die n u r eine Ordinalskala ist, und sieht man den Erwartungswert der Messung als wahren Meßwert an, so kann es vorkommen, d a ß für zwei verschiedene Meßobjekte a ¡ und a2 die Erwartungswerte der Messung für diese Skala gleich sind, d a ß sie aber auseinanderfallen, wenn man durch eine m o n o t o n e Transformation zu einer gleichwertigen Skala übergeht. Dieser Fall kann allerdings nur dann eintreten, w e n n die Wahrscheinlichkeitsverteilungen von X(al ) und X(a2) verschieden sind, o b w o h l sie gleiche Mittelwerte besitzen. D a ß für zwei Meßobjekte ax und a2 mit gleichem Erwartungswert der Messung sonstige Unterschiede bei den O b j e k t e n zu unterschiedlichen Wahrscheinlichkeitsverteilungen bei X(a^) und X(a2) führen k ö n n e n , ist aber leicht d e n k b a r . Ist ζ. B. a1 ein P f u n d Watte und a2 ein P f u n d Blei, so kann m a n sich vorstellen, d a ß die zufälligen Variablen X(al) und X(a2), die αλ bzw. a2 durch eine bestimmte Waage zugeordnet sind, verschiedene Verteilungen besitzen k ö n n e n . N i m m t man also den Erwartungswert der Messung als wahren Meßwert an, so wird damit praktisch vorausgesetzt, d a ß die verwendete Skala metrisch ist. So wird ζ. B. in der Gaußschen Fehlertheorie davon ausgegangen, d a ß der Erwartungswert der Messung einer physikalischen Größe ihr wahrer Meßwert ist. Diese A n n a h -
68
-5. Band: Testen und Messen
me wird man nicht als besonders einschneidend e m p f i n d e n , da für physikalische Merkmale in der Regel metrische Skalen zur Verfügung stehen. Einschneidender ist dagegen, d a ß auch in der klassischen Testtheorie praktisch von metrischen Skalen ausgegangen wird, wie die beiden G r u n d a n n a h m e n dieser Theorie erkennen lassen, die hier in einer Formulierung von F I S C H E R ( 1 9 6 8 ) zitiert werden. 1. Zu jeder Messung xrj eines Meßobjekts r mittels eines Meßinstruments i gibt es eine wahre Maßzahl ξ„·, den sogenannten true score. 2. Zu jedem Objekt r und jedem Test i gibt es eine Zufallsvariable Xri mit dem Erwartungswert £,,· und endlicher Varianz α2χ Jede Messung xri ist eine unabhängige Realisierung dieser Zufallsvariablen. In diesem Zusammenhang soll erwähnt werden, d a ß sich der Median der Verteilung von X{a) als wahrer Meßwert anbietet, wenn die verwendete Skala nur eine Ordinalskala ist. Steht nur eine Nomialskala zur Verfügung, so liegt es nahe, den häufigsten Wert (Modus) als wahren Meßwert anzusehen. Diese Mittelwerte genügen bei entsprechendem Skalenniveau der oben beschriebenen F o r d e r u n g an einen wahren Meßwert. Sieht man einerseits einen Parameter der Verteilung von X(a), in der Regel einen Mittelwert, als wahren Meßwert von a an, so wird andererseits offensichtlich durch die Streuung der Verteilung die Zuverlässigkeit des Meßinstruments bestimmt. Man kann sagen, daß das Meßinstrument a umso zuverlässiger mißt, je weniger die Meßwerte streuen. Hierbei handelt es sich allerdings zunächst nur um eine Zuverlässigkeit, die auf das spezielle Meßobjekt a bezogen ist. Es liegt nahe, diese Zuverlässigkeit durch einen Streuungsparameter der Verteilung von X(a) zu charakterisieren, und zwar durch einen solchen, der bei dem vorliegenden Skalenniveau sinnvoll verwendet werden kann. Im folgenden soll nun a n g e n o m m e n werden, d a ß eine Intervallskala gegeben ist. Unter dieser Voraussetzung wird man den Erwartungswert der Messung, E{X(a)), als wahren Meßwert von a ansehen und die Zuverlässigkeit der Messung durch die Standardabweichung von X ( a ) , σχ( α ), beschreiben. Die Differenz F(a) = X(a) - mia) wird als Zufallsfehler bezeichnet. Einer Realisation x(a) von X(a) entspricht eine Realisation f(a) der zufälligen Größe F(a). f{a) ist der Zufallsfehler, um den das spezielle Meßergebnis x(a) vom wahren Meßwert m(a) abweicht. Aus m(a) = E(X(a)) folgt für den Erwartungswert des Zufallsfehlers E(F(a)) = 0. Da m{a) ein fester Wert ist, gilt = ax(ßy aF( Bd. V I : Sturm und Vajna, Zufallsstichproben und -»• Bd. V I : van Koolwijk, Quotenverfahren. Nach der Befragung einer repräsentativen Stichprobe beginnt die vierte Phase der Testentwicklung, die Eichung des Tests, sofern man nicht vorher noch weitere Itemanalysen an neuen Stichproben vornehmen will. Bei einfachen Persönlichkeitsskalen ( Ζ . B . BRENGELMANN UND BRENGELMANN 1960) besteht die "Eichung" gelegentlich nur in der Angabe von Durchschnittswert und Streuung der Rohwerte für bestimmte untersuchte Personengruppen. Oft werden die Schiefe der Verteilung der Testwerte sowie Angaben über Zusammenhänge zwischen Testleistung und Alter, Beruf, Geschlecht usw. oder anderen Testleistungen angegeben. Gelegentlich finden sich Tabellen, mit deren Hilfe eine bestimmte Testleistung mit Rohwerten anderer Tests verglichen werden kann. Die Angabe von Prozentrangnormen erfolgt manchmal, kann aber irreführend sein, da Unterschiede im mittleren Bereich der Rohwerteverteilung überbetont werden. Allerdings können Prozentrangnormen auch für nicht normal verteilte Rohwerte angegeben werden. Um Testbefunde verschiedener Prüfverfahren miteinander vergleichen zu können, werden Rohwerteverteilungen durch lineare oder nichtlineare Transformationen in Verteilungen mit bestimmten Dispersionsparametern verwandelt. So liegt das arithmetische Mittel für die Verteilung der IQ-Werte herkömmlicherweise bei ~x = 100 (z. B. IST, AMTHAUER 1953: x = 100, σ = 10: HAWLE, WECHSLER 1956: χ = 100, a = 15). Normen, die χ = 100 bei a = 10 entsprechen, werden als Z-Wert-Normen bezeichnet. Bei T-Werten ist χ = 50 und σ = 10, bei den Centil-Normen (C-Werte) ist χ = 5 und o = 2. Faßt man in der C-Wert-Skala die Werte 9 bis 11 und die Werte — 1 bis +1 zusammen, ergeben sich 9 Punkte, die sog. Stanine-Werte, hergeleitet von "standard" und "nine". Hierzu ausführlich -* Bd. V I : Buttler, Statistische Testverfahren 4.3 und 4.4 und Stelzl, Experimentelle Versuchsanordnungen. Die fünfte und letzte Phase der Testentwicklung ist selten völlig losgelöst von den vorherigen. Jedoch wird angeraten, zur endgültigen Zuverlässigkeits- und Gültigkeitsbestimmung eine neue repräsentative Erhebung mit der Testendform durchzuführen.
92
5. Band: Testen und Messen
Die Verfahren zur Bestimmung der Zuverlässigkeit und Gültigkeit eines Tests wurden in den Abschnitten 2.2.2 und 2.2.3 dargestellt.
3.4
Formen der Einstellungsmessung und das Problem der Ergebnisverfälschung
Der Begriff der Einstellung (attitude), "wahrscheinlich der bedeutsamste und unentbehrlichste Begriff der zeitgenössischen amerikanischen Sozialpsychologie" (ALLPORT 1954), wird t r o t z seiner großen Bedeutung in allen gegenwärtigen Sozialwissenschaften uneinheitlich verwendet. Weitgehend einig ist man sich j e d o c h darüber, d a ß es sich um relativ dauerhafte Systeme von kognitiven, affektiven und vielfach auch konativen, also handlungsrelevanten Dispositionen handelt. (Zur neueren Diskussion des Einstellungsbegriffs vergleiche vor allem MCGUIRE 1969). Immer wieder — und nicht erst seit 1928, als THURSTONE seinen einflußreichen Aufsatz " A t t i t u d e s can be m e a s u r e d " veröffentlichte — sind neue Wege zur Einstellungsmessung g e f u n d e n worden. So reichen die Verfahren von der direkten Verhaltensmessung der Zeugen eines (simulierten) epileptischen Anfalls (DARLEY UND LATANE 1968) bis zur Messung der Pupillengröße mit Hilfe einer sog. Augenkamera bei Vorlage sexuell stimulierender Bilder (HESS 1965). Wenn man bei Einstellungen (und auch bei der Einstellungsmessung) meist nur an die Intensität bestimmter Einstellungen bei bestimmten Pbn- oder Vpn-Gruppen d e n k t , m u ß man sich doch klar vor Augen führen, d a ß Einstellungsausprägungen in viele verschiedene Dimensionen weisen k ö n n e n . SCOTT ( 1 9 6 8 ) n e n n t folgende Dimensionen: 1. 2. 3. 4. 5. 6. 7.
Richtung (positiv oder negativ, soziale Z u w e n d u n g oder A b w e n d u n g ) Affektives A u s m a ß Intensität Ambivalenz Äußerungs- und Reaktionsbereitschaft (salience, prominence) Affektive Geladenheit (affective salience) der sozialen Wahrnehmung Komplexität (Differenzierung, " m u l t i p l e x i t y " nach KRECH, CRUTCHFIELD UND BALLACHEY
8. 9. 10. 11.
1962)
Offenheit (Aktionsbereitschaft) Verflochtenheit mit anderen Einstellungen (embeddedness) Flexibilität oder der Gegensatz: Rigidität Bewußtheit (consciousness).
Entsprechend den drei Einstellungskomponenten lassen sich die Meßverfahren in wahrnehmungsorientierte, gefühlsorientierte oder mehr handlungsorientierte Meßverfahren einteilen (vgl. UPSHAW 1968). Aber auch andere Unterscheidungskriterien bei den Vorgehensweisen zur Einstellungserfassung lassen sich a u f f i n d e n . Während Carl Hovland und seine Schüler sich vor allem um die genaue und gründliche Messung der abhängigen Variablen bemühen, legen Leon Festinger und seine Mitarbeiter mehr Wert auf die einfallsreiche Manipulation der unabhängigen Variablen und begnügen
3. Kapitel: Testen und Messen von Eigenschaften und Einstellungen
93
sich bei der Messung der abhängigen Variablen o f t mit der Erfassung einer bestimmten Einstellung mit Hilfe nur einer einzigen Frage. Dementsprechend begnügen sich Festinger-Schüler oft mit der Berechnung von t- oder χ 2 -Werten, während HovlandSchüler meist kompliziertere Versuchspläne und Auswertungsverfahren ersinnen. schlägt in einem Sammelreferat vier Kategorien für Verfahren der Einstellungsmessung vor:
CAMPBELL ( 1 9 5 0 )
1. Nicht-verdeckt-strukturierte Verfahren. Hierzu zählen die bekannten Verfahren von T H U R S T O N E (1927), T H U R S T O N E UND C H A V E (1929) und L I K E R T (1932). 2. Nicht-verdeckt-nicht-strukturierte Verfahren wie übliche Fragebogen mit offenen Antwortmöglichkeiten. 3. Verdeckte-nicht-strukturierte Verfahren. Hierzu zählen unter anderem Verfahren, die sich an den TAT anlehnen und die Satzvervollständigungstechnik. 4. Verdeckt-strukturierte Verfahren. Verfahren, die von den Pbn als objektive Tests perzipiert werden, jedoch die Erfassung von Einstellungen gestatten. Beispiel ist ein "Kenntnistest" über Unternehmer und Gewerkschaften, dessen Ergebnis aber die Einstellungen zu Gewerkschaften und Unternehmern reflektiert. Als ein weiteres Beispiel für ein verdecktes Befragungsverfahren dieser Art kann das Einkaufslistenverfahren von H A I R E (1950) gelten. Es werden zwei oder mehr Einkaufslisten zusammengestellt, die sich bezüglich eines Produkts unterscheiden. Die Befragten erhalten jeweils einen der fingierten Einkaufszettel mit der Instruktion, die Hausfrau, die diesen Einkaufszettel geschreiben hat, zu charakterisieren. (Im einzelnen können zur Beschreibung natürlich Semantische Differentiale, Satzanfänge, Eigenschaftslisten oder andere Verfahren verwendet werden.) Die Ergebnisse sagen etwas über den Käufer des Produkts aus, reflektieren aber indirekt die Merkmale des (variierten) Produkts. Sinnvoll scheint u n s eine Unterteilung der Meßverfahren nach der Art der gemessenen Reaktion des Pbn. Ähnlich wie C A M P B E L L ( 1 9 5 0 ) nennen C O O K UND S E L L T I T Z
( 1964) fünf verschiedene Verfahren, deren Ergebnisse Rückschlüsse auf bestimmte Einstellungen gestatten sollen: 1. 2. 3. 4.
Selbstbeschreibung der Pbn über Meinungen, Gefühle, Verhaltensweisen usw., Messungen des o f f e n sichtbaren Verhaltens, Messungen der Reaktionen auf objektrelevantes, teilweise strukturiertes Material, Messungen der Leistung bei objektiven Aufgaben, von der Rückschlüsse auf die Haltung zum Objekt möglich sein sollen, und 5. Physiologische Messungen.
1. Bei weitem die am häufigsten verwendete Methode ist die Erfassung von Selbstaussagen der Pbn. Unterstellt wird der direkte Bezug zwischen der Äußerung und dem Verhalten, der manifesten Überzeugung oder dem Gefühl. Da der Zweck des Instrumentes dem Befragten meist klar ist, kann er bewußt seine Reaktionen steuern. Vermutlich wird sich daher der Befragte bemühen, einen guten Eindruck zu hinterlassen; er zeigt sich als gut angepaßt, wissenschaftlich interessiert, vorurteilsfrei usw. Ein einfacher Weg, den Zweck des Instruments zu verschleiern, besteht darin, Items aufzunehmen, die neutral formuliert sind und keinen offen sichtbaren Bezug zur untersuchten Einstellung haben. Aber bereits in den Instruktionen zu den Selbstaussagen wird versucht, die Pbn zu echten, ehrlichen Äußerungen zu mo-
94
5. Band: Testen und Messen
tivieren. Es wird darauf hingewiesen, daß es keine "richtigen oder falschen" Antworten gibt, daß "jeder eine andere Meinung h a t " , daß es sich um eine wissenschaftliche Studie handelt usw. Einstellungsskalen als häufig verwendete Formen der Selbstaussagen können grundsätzlich als Tests angesehen werden. Entsprechend gelten die oben genannten Testgütekriterien. Auch die Entwicklung von Einstellungsskalen erfolgt im Prinzip wie die übliche Testentwicklung, jedoch sind die Problemschwerpunkte etwas verlagert (übersichtliche Darstellung bei EDWARDS 1957 C, deutschsprachige Übersichten bei SIXTL 1967 und SÜLLWOLD 1969). Obwohl ζ. B. das Problem der Tendenz zu sozial anerkannten Selbstaussagen für Einstellungsskalen besondere Bedeutung besitzt, da viele zu messende Attitüden als sozial wenig erwünscht gelten, schenkt man der Validierung von Einstellungsskalen meist nicht die Aufmerksamkeit wie bei einem Intelligenztest. Dies liegt daran, daß Einstellungen - wie viele sozialwissenschaftliche Größen — hypothetische oder latente Variablen darstellen, die nicht unmittelbar ihre Auswirkungen im Verhalten finden müssen. Wenn von Person A behauptet wird, sie habe eine negativere Einstellung gegenüber Gewerkschaften als Person fi, dann wird damit evtl. nur zum Ausdruck gebracht, daß eine Reihe von verschiedenen Äußerungen und Verhaltensweisen von A gegenüber Gewerkschaften eine größere Abneigung gegenüber Gewerkschaften erkennen lassen als bei fi. Solche, einer Reihe von Äußerungen und Verhaltensweisen zugrundeliegenden Variablen sind als "traits", "latent variables", "genotypes" oder einfach als Faktoren (factors) bezeichnet worden. Nimmt man mit GUTTMAN (1950) ein Einstellungs-Universum an, das aus manifesten Variablen, d. h. Reaktionen auf spezifische Variablen besteht, dann repräsentiert eine Stichprobe von derartigen Variablen eine Einstellung (-* Bd. V: Besozzi und Zehnpfennig, Methodologische Probleme der Indexbildung 1.1 und 1.4). Von homogenen oder eindimensionalen Einstellungsskalen wird bei hoher Interitemkorrelation gesprochen. Eindimensionalität läßt sich im wesentlichen auf fünf Wegen erreichen: Klassische Itemanalyse, die Technik von LOEVINGER ( 1 9 4 7 ) , das Kriterium der direkten Abhängigkeit (interdependence criterion), die Antwortstrukturverfahren, wie z. B. die Skalentechnik von GUTTMAN ( 1 9 4 4 ) , sowie die Faktorenanalyse. Zur Konstruktion eindimensionaler Tests siehe vor allem LUMSDEN (1961). Wenn eindimensionale Skalen auch in der Regel den Vorzug höherer Zuverlässigkeit besitzen ( G R E E N 1 9 5 4 ) , und damit implizit als " g u t e " Skalen gelten, so macht BANTA ( 1 9 6 2 ) aber mit Recht darauf aufmerksam, d a ß viele Skalen unecht eindimensional sind, weil die Skalenitems bestimmte Ähnlichkeiten, ζ. Β. in der Formulierung, aufweisen und damit gegenüber der Ergebnisverfälschung ("response bias") anfällig sind. Tatsächlich ist o f t eine heterogene Skala mit geringer Tendenz zur Ergebnisverfälschung vorzuziehen. Hinzu kommen sprachliche Schwierigkeiten: Soll man homogene Subtests als unabhängige Aspekte eines Persönlichkeitszuges oder als einzelne, voneinander getrennte Züge ansehen? Einige Haltungen und Einstellungen, die sich auf Ergebnisse von Einstellungsmessungen, aber auch auf Testergebnisse verfälschend auswirken können (response sets) verdienen besondere Beachtung. Mangelnde Sorgfalt oder mangelndes Interesse führt gelegentlich zu unsystematischem Wählen irgendwelcher vorgegebener Antwortmöglichkeiten oder zum Anfertigen von "Strickmustern" auf Fragebogen. Die Anwendung spezieller Skalen, z. B.
3. Kapitel: Testen und Messen von Eigenschaften und Einstellungen
95
der F-Skala im M M P I oder der In(frequency)-Skala im P R F (JACKSON 1 9 6 7 ) , kann derartige "Verstöße gegen die Spielregeln" leicht aufdecken. Schwieriger ist es, die "Ja"-Sage-Tendenz ("acquiescence") zu erkennen. Hier ist mit umgekehrten, "gespiegelten" Skalen gearbeitet worden (BASS 1 9 5 5 ) ; später hat man versucht, diese Reaktionseinstellung, die von einigen Autoren (Ζ. B . MESSICK 1 9 6 2 ) als Persönlichkeitszug angesehen wird, getrennt zu erfassen und Testergebnisse entsprechend der "acquiescence"-Ausprägung zu korrigieren (WEBSTER 1 9 5 8 ) . Gegen diese Vorgehensweise und die Auffassung eines Persönlichkeitszuges spricht die Tatsache, daß die "Ja"-Sage-Tendenz einer Person bei einem Test groß, bei Vorlage eines anderen Tests jedoch niedrig sein kann. Außerdem konnte bisher nur ein geringer Bezug der "JA"-Sage-Tendenz zu nicht-Test-relevantem Verhalten nachgewiesen werden (vgl. u. a. RORER 1 9 6 5 ) . Ein nicht zu unterschätzendes Problem stellt die bereits erwähnte, allgemein verbreitete Neigung der Ergebnisverfälschung im Sinne sozial anerkannter und erwünschter Verhaltensweisen (social desirability) dar. Mit der Tendenz der Versuchsperson zum "guten E i n d r u c k " k ä m p f t der Sozialwissenschaftler nicht nur im Laboratorium (-> Bd. IV: Esser, Der Befragte 4.5.3); besonders bei diagnostischen Untersuchungen möchte der Pb "gut abschneiden". EDWARDS (1953) ließ 140 Items eines Persönlichkeitstests nach dem Grad ihrer sozialen Erwünschtheit beurteilen und errechnete später bei normaler Testvorlage das Ausmaß der Zustimmung zu jedem Item. Die Korrelation zwischen sozialer Erwünschtheit und der Wahrscheinlichkeit, mit der die Items als zutreffend für die eigene Person angesehen werden, erwies sich als überraschend hoch: r = + 0,87. Dieser starke positive Zusammenhang ist später mehrfach, auch bei anonymer Testbeantwortung (EDWARDS 1957; 1957a) bestätigt worden. Nach EDWARDS (1959) liegen zwei Möglichkeiten zum Umgehung dieser Verfälschungstendenz nahe: Einmal kann man versuchen, das Problem der sozialen Erwünschtheit durch Einsatz verdeckter ("disguised") Verfahren zu umgehen (vgl. besonders CAMPBELL 1950) oder bereits bei der Testkonstruktion zu beachten und Verfahren entwickeln, bei der die Versuchsperson im Test zur Wahl zwischen zwei oder mehreren, in gleicher Weise attraktiven Reaktionen gezwungen wird (forcedchoice technique vgl. LÜCK 1968). Der zweite Weg ist die Entwicklung von Tests zur Messung der Tendenz zu sozial allgemein anerkannten Selbstaussagen. EDWARDS ( 1 9 5 7 a ) sowie CROWNE UND MARLOWE (1960) haben derartige Skalen entwickelt, die inzwischen auch für deutsche Verhältnisse itemanalysiert wurden (LÜCK UND TIMAEUS 1969). Kennt man das Ausmaß der Tendenz zur sozialen Erwünschtheit (SD-Wert) und die Korrelation zwischen einem Test und der SD-Skala, läßt sich für jeden Pbn ein korrigierter Skalenwert errechnen. Dieser Weg ist methodisch weniger überzeugend als der zuerst genannte, aber hinsichtlich der erstaunlich hohen Korrelationen zwischen SD-Werten und anderen Test werten wahrscheinlich immer noch besser als die Verwendung unkorrigierter Rohwerte. Wie "anfällig" ein großer Teil der herkömmlicherweise verwendeten Persönlichkeitstests und Einstellungsskalen gegenüber bewußter Ergebnisbeeinflussung ist, zeigen Arbeiten (Ζ. B . HOETH UND GREGOR 1 9 6 4 , TIMAEUS UND LÜCK 1 9 7 0 ) , in denen Versuchspersonen angewiesen worden waren, den betreffenden Test mit einer bestimmten Haltung ("set"), in der Rolle einer bestimmten Person ("role taking") oder unter einer bestimmten Instruktion zur bewußten Testergebnisverfälschung ("faking instruction") auszufüllen.
96
5. Band: Testen und Messen
2. Zu den Verfahren der Einstellungsmessung aufgrund offen sichtbaren Verhaltens zählen COOK UND SELLTITZ ( 1 9 6 4 ) im wesentlichen drei Verfahrensarten. Einmal können Vpn in Situationen gebracht werden, in denen ihr Verhalten bestimmte Konsequenzen hat oder haben soll. D E F L E U R UND WESTIE ( 1 9 5 8 ) fragten ζ. B . ihre Vpn, ob sie bereit wären, mit einem Partner anderen Geschlechts und anderer Hautfarbe für Photos Modell zu stehen. Wie bei diesem Versuch handelt es sich bei den meisten Verfahren dieser Art um Entscheidungsaufgaben für die Vpn; die Entscheidung wird dann als Ausdruck bestimmter Einstellungen interpretiert. In vielen Untersuchungen dieser Art hatten die Versuchspersonen die Konsequenzen ihres Verhaltens nicht zu tragen. Ansatzweise verhaltensrelevante Maße bezeichnen ARONSON UND CARLSMITH ( 1 9 6 8 ) als "behavioroid" measures. Der zweite Weg der Einstellungsmessung aufgrund o f f e n e n Verhaltens kann im Rollenspiel gesehen werden. Expertenratings liefern hier u. U. recht valide Maße bestimmter Einstellungen. Der dritte Ansatz wird in der soziometrischen Wahl gesehen (-> Bd. V: Dolíase, Soziometrische Verfahren 7.2). Insgesamt kann angenommen werden, daß alle Verhaltensm&ss\xn%tn weniger der bewußten Ergebnisverfälschung unterliegen als Fragebogenmethoden. Eine weiße Vp, die bei Vorlage der Social-Distance-Skala (BOGARDUS 1925; 1933) vielleicht nichts gegen einen Neger als Nachbarn hat, wird sich bei einer echten Entscheidung möglicherweise doch für ein "weißes" Wohnviertel entscheiden. Seit LA PIERE ( 1 9 3 4 ) ist wiederholt nachgewiesen worden, daß verbal geäußerte Attitüden und aktuelles Verhalten durchaus nicht übereinzustimmen brauchen. Vielmehr scheint es sinnvoll, mit CAMPBELL ( 1 9 6 1 ) davon auszugehen, daß unterschiedliche Situationen auch unterschiedliche Schwellen für bestimmte o f f e n e Verhaltensweisen besitzen, die auf bestimmte Einstellungen schließen lassen. (In einer Stehbierhalle duldet man Neger eher als im Wohnviertel.) Geht man über die von Cook und Selltiz genannten Verfahren hinaus, so lassen sich eine ganze Reihe weiterer neuer Wege der Verhaltensbeobachtungen nennen, bei denen den untersuchten Personen in aller Regel der Sinn der Untersuchung vorenthalten bleibt. O f t wissen die Personen hier nicht einmal, daß sie als Vpn dienten. WEBB und seine Kollegen ( 1 9 6 6 ) haben in einer vielbeachteten Arbeit eine Reihe derartiger verdeckter oder "unaufdringlicher" (unobtrusive) Meßverfahren zusammengestellt. Obwohl heute nur etwa 3 % aller veröffentlichten sozialpsychologischen Untersuchungen als "unobtrusive" bezeichnet werden können, scheint das Interesse an diesen Untersuchungsverfahren zuzunehmen (vgl. SEARS UND ABELES 1 9 6 9 ) . Der Grund hierfür kann in einer kritischen Haltung vieler Autoren gegenüber den herkömmlichen Befragungs- und Experimentiertechniken gesehen werden (siehe vor allem ROSENTHAL 1 9 6 6 ; O R N E 1 9 6 2 ; ROSENBERG 1 9 6 5 ; sowie ausführlich BUNGARD UND LÜCK 1 9 7 4 u n d
Bd. II: Albrecht, Nicht-reaktive Messung u n d Timaeus,
Laboruntersuchungen). 3. Der dritte von Cook und Selltiz genannte Verfahrenstyp zur Einstellungsmessung besteht in der Messung der Reaktionen auf objektrelevantes, teilweise strukturiertes Material. Hierzu zählen alle bereits erwähnten Verfahren der Eigenschaftslisten, Personen· und Bildbeschreibungen der binokularen Rivalität usw., die in der Regel unter der Annahme projektiver Vorgänge appliziert werden. Dementsprechend ist die Validität eines großen Teils dieser Verfahren noch als fraglich anzusehen; ferner
3. Kapitel:
Testen
und Messen
von Eigenschaften
und
97
Einstellungen
kann als verfälschender Faktor besondere Redefreudigkeit des Pbn ("verbosity", "verbal flamboyance") auftreten. 4. Messung der Leistung bei objektiven Aufgaben, von der Rückschlüsse auf die Haltung zum Objekt möglich sein sollen, stellen einen besonders originellen, aber meist auch aufwendigen Verfahrenstyp dar. Hierher gehören neben den erwähnten "Kenntnistests" bestimmte "Tests zur Prüfung des Einfühlungsvermögens", aber gelegentlich auch "Lernaufgaben". LEVINE UND MURPHY ( 1 9 4 3 ) und später auch JONES UND KOHLER ( 1 9 5 8 ) konnten zeigen, daß bestimmtes Material (statements) schlechter gelernt wird, wenn es nicht mit der eigenen Einstellung kongruent ist. Wie man sich denken kann, ist bei der Interpretation der Ergebnisse aller dieser Verfahren Vorsicht geboten, da viele andere Faktoren als gerade die zu messende Einstellung das Ergebnis dieser "objektiven" Tests beeinflussen kann. 5. Der letzte Verfahrenstyp, die physiologische Messung, hat — nicht zuletzt wegen meßtechnischer Probleme - erst in letzter Zeit Bedeutung für die Einstellungsforschung gewonnen. Trotz einiger optimistischer Äußerungen (z. B. H E S S 1 9 6 5 ) muß angenommen werden, daß Maße autonomer Erregung wie Herzschlagfrequenz, Galvanischer Hautreflex, Pupillengröße usw. kaum mehr liefern können als Angaben über die Intensität bestimmter Einstellungen (siehe z. B . LEIDERMAN UND SHAPIRO 1 9 6 4 ) . Es ist aber durchaus denkbar, daß physiologische Indikatoren validere Maße bestimmter Einstellungsintensitäten liefern können als verbale Reaktionen.
Literaturverzeichnis G. W., The historical background of modern social psychology, in: (Hrsg.), Handbook of Social Psychology, Bd. I, Reading, Mass. 1 9 5 4 , S. 3 - 5 6 .
ALLPORT,
G.
LINDZEY
AMTHAUSER,
R., Intelligenz-Struktur-Test, Göttingen
H., F. MERTESDORF, R. Weinheim 1970.
ANGER,
WEGNER UND
G.
1953.
WÜLFING,
Wort-Bild-Test (WBT
10+),
E. T . UND J. Μ . CARLSMITH, Experimentation in social psychology, in: G. LI.NDZEY UND E. T. ARONSON (Hrsg.), Handbook of social psychology, Bd. 2. Aufl. Reading, Mass. 1968, S. 1-79.
ARONSON,
BANTA,
2,
T. J., Critical note on unidimensional tests, in: Psychological Reports 11,
1 9 6 2 , S.
449-450.
Authoritarianism or acquiescence, in: Journal of Abnormal and Social Psychology 5 1 , 1 9 5 5 , S. 6 1 6 - 6 2 3 .
BASS, Β . M . ,
A. UND T. SIMON, Sur la nécessité d'établir un diagnostic scientifique des états inférieurs de l'intelligence, in: Année Psychologique 1 1 , 1 9 0 5 , S. 1 6 3 - 1 9 0 .
BINET,
BOGARDUS,
E. S., Measuring social distance, in: Journal of Applied Psychology
1 9 2 5 , S. 2 9 9 - 3 0 8 .
9,
98
5. Band: Testen und Messen
BOGARDUS, E. S., A social distance scale, in: Sociology and Social Research 17, 1933, S. 2 6 5 - 2 7 1 . BOLTON, T. L., T h e g r o w t h of m e m o r y in school-children, in: American Journal of Psychology 4, 1892, S. 3 6 2 - 3 8 0 . BRENGELMANN, J. C. UND L. BRENGELMANN, Deutsche Validierung von Fragebogen der Extraversion, neurotischer T e n d e n z und Rigidität, in: Zeitschrift für experimentelle und angewandte Psychologie 7, 1960, S. 2 9 1 - 3 3 1 . BUNGARD, W. UND H. E. LÜCK, Forschungsartefakte u n d nicht-reaktive Meßverfahren, Stuttgart 1974. BÜROS, O. K. (Hrsg.), T h e Sixth Mental Measurement Y e a r b o o k , New York 1965. BURWEN, L. S., D. T. CAMPBELL UND J. KIDD, T h e use of a sentence completion test in measuring attitudes toward superiors and subordinates, in: Journal of Applied Psychology 40, 1956, S. 2 4 8 - 2 5 0 . CAMPBELL, D. T., T h e indirect assessment of social attitudes, in: Psychological Bulletin 47, 1950, S. 15-38. CAMPBELL, D. T., Social attitudes and o t h e r acquired behavioral dispositions, in: S. KOCH (Hrsg.), Psychology: A s t u d y of a science, Bd. 6, New York 1961, S. 9 4 - 1 7 2 . CAMPBELL, D. T. UND D. W. FISKE, Convergent and discriminant validation by multitrait-multimethod matrix, in: Psychological Bulletin 56, 1969, S. 8 1 - 1 0 5 . CATTELL, J.McK., Mental tests and measurements, in: Mind 15, 1890, S. 3 7 3 - 3 8 1 . CHAPLIN, J. P., Dictionary of Psychology, New York 1968. COOK, S. W. UND C. SELLTITZ, A multiple-indicator approach t o a t t i t u d e measurements, in: Psychological Bulletin 62, 1964, S. 3 6 - 5 5 . COOMBS, C. H., Psychological scaling w i t h o u t a unit of measurement, in: Psychological Review 57, 1950, S. 1 5 4 - 1 5 8 . CRONBACH, L. J., Essentials of Psychological Testing, New York 1960. CRONBACH, L. J. UND P. E. MEEHL, Construct validity in psychological tests, in: Psychological Bulletin 52, 1955, S. 2 8 1 - 3 0 2 . CROWNE, D. P. UND D. MARLOWE, T h e approval motive: studies in evaluative dependence, New York 1964. DARLEY, J. Μ. UND Β. LATANE, Bystander intervention in emergencies: Diffusion of responsibility, in: Journal of Personality and Social Psychology 8, 1968, S. 377-383. DE FLEUR, M. L. UND F. R. WESTIE, Verbal attitudes and overt acts: An experiment on t h e Salience of attitudes, in: American Sociological Review 23, 1958, S. 667-673. EBBINGHAUS, H., Über eine neue Methode zur Prüfung geistiger Fähigkeiten und ihre A n w e n d u n g bei Schulkindern, in: Zeitschrift für Psychologie 13, 1897, S. 401-459. EDWARDS, A. L., T h e relationship between t h e judged desirability of a trait and t h e probability t h a t t h e trait will be endorsed, in: Journal of Applied Psychology 37, 1953, S. 9 0 - 9 3 .
3. Kapitel:
Testen und Messen von Eigenschaften
und Einstellungen
99
EDWARDS, A. L., Social desirability and probability of endorsement of items in the interpersonal check list, in: Journal of Abnormal and Social Psychology 55, 1957, S. 394-396. EDWARDS, A. L., The social desirability variable in personality assessment and research, New York 1957. EDWARDS, A. L., Techniques of Attitude Scale Construction, New York 1957. A. L . , Social desirability and personality test construction, in: Β . M . BASS A. BERG (Hrsg.), Objective Approaches to Personality Assessment, New York 1959.
EDWARDS,
UND J .
ER TEL, S., Standardisierung eines Eindrucksdifferentials, in: Zeitschrift für experimentelle und angewandte Psychologie 12, 1965, S. 22-58. EYSENCK, H. J., Wege und Abwege der Psychologie, Hamburg 1956. FIEDLER, F .
E., Leader Attitudes and Group Effectiveness, Urbana 1958.
GALTON, F., Inquiries into Human Faculty and its Development, London 1883. P. BARTHOL, The validity of personality inventories in the selection of employees, in: Journal of Applied Psychology 37, 1953, S. 18-20.
GHISELLI, E . E . UND R .
GILBERT, J. Α., Researches on the mental and physical development of school children, in: Studies of the Yale Psychological Laboratories 2, 1894, S. 40 -100. B. F., Attitude measurement, in: G . LINDZEY (Hrsg.), Handbook of Social Psychology, Bd. I, Reading, Mass. 1954, S. 335-369.
GREEN,
E. UND J . E. GREENE JR., Illustrative uses of the "incomplete" sentence technique in investigating certain attitudes of middle management personnel, in: Personnel Psychology 14, 1961, S. 305-316.
GREENE, J.
GULLIKSEN, H . ,
Theory of Mental tests, New York
1950.
GUTTMAN, L., A basis for scaling qualitative data, in: American Sociological Review 80, 1944, S. 139-150. L., The problem of attitude and opinion measurement, in: u. A. (Hrsg.), Measurement and Prediction, New York 1950.
GUTTMAN,
S.
A.
STOUFFER
Projective techniques in marketing research, in: Journal of Marketing 14, 1950, S. 649-656.
HAIRE, M . ,
HEISS, R. (Hrsg.), Handbuch der Psychologie, Bd. 6, Psychologische Diagnostik, Göttingen 1964. HEISS, R . UND H . HILTMANN,
Der Farbpyramidentest nach Max Pfister, Bern
1951.
HESS, E., Attitude and pupil size, in: Scientific American 212, 1965, S. 46-54. HILDRETH, G. H., Bibliography of mental tests and rating scales, New York 1933. W. MOOG (Hrsg.), Rosenzweig P-F-Test (Form für Erwachsene) Manual, Göttingen 1957.
HÖRMANN, H . UND
HOETH, F. UND H. GREGOR, Guter Eindruck und Persönlichkeitsfragebogen, in: Psychologische Forschung 28, 1964, S. 64-88. HOFSTÄTTER, P. R., Gruppendynamik. Die Kritik der Massenpsychologie, Hamburg 1957.
100
5. Band: Testen und Messen
HOFSTÄTTER,
P.
R.,
Einführung in die Sozialpsychologie, 3. Aufl., Stuttgart 1963.
HOYT, C., The reliability obtained by analysis of variance, in: Psychometrika 6, 1941, S. 153-160. JACKSON,
D. N., Personality research form, New York 1967.
E. E. UND R. K O H L E R , The effects of plausibility on controversial statements, in: Journal of Abnormal and Social Psychology 57, 1958, S. 315-320.
JONES,
KOCH, K . ,
Der Baumtest, Bern
2.
Aufl. 1954.
E., Der psychologische Versuch in der Psychiatrie, in: Psychologische Arbeiten 1, 1896, S. 1-91.
KRÄPELIN,
KROEBER-KENNETH,
L., Buch der Graphologie, Düsseldorf 1968.
The theory of the estimation of test reliability, in: Psychometrika 2, 1937, S. 151-160.
K U D E R , G . F . UND M . W . R I C H A R D S O N ,
LA PIERE, R . T . ,
Attitudes vs. Actions, in: Social Forces
L E I D E R M A N , P . H . UND D . S H A P I R O
14, 1 9 3 4 ,
S.
230-237.
(Hrsg.), Psychological Approaches to Social
Behavior, Stanford 1964. J. G . UND G . M U R P H Y , The learning and forgetting of controversial material, in: Journal of abnormal and social Psychology 38, 1943, S. 507-517.
LEVINE,
LIENERT, G .
Α., Testaufbau und Testanalyse, Weinheim/Berlin 1967.
A technique for the measurement of attitudes, Archives of Psychology 1932, No. 140.
LIKERT, R.,
J., A systematic approach to the construction and evaluation of tests of ability, in: Psychological Monographs 61, 1947, No. 285.
LOEVINGER,
LOCK, Η. E., Zur sozialen Erwünschtheit von Eigenschaftsbezeichnungen, in: Psychologische Rundschau 19, 1968, S. 258-266. LüCK, Η. E., Soziale Aktivierung. Untersuchungen zur Gültigkeit der modifizierten Social-Facilitation-Hypothese von Robert B. Zajonc, Köln 1969. E. UND E. T I M A E U S , Entwicklung deutscher Skalen zur Messung manifester Angst (MAS) und sozialer Wünschbarkeit (SD-CM und SD-Ε), in: Diagnostica 15, 1969, S. 134-141.
LÜCK, Η .
J., The construction of unidimensional tests, in: Psychological Bulletin 58, 1961,S. 122-131.
LUMSDEN,
Personality projection in the drawing of the human figure, Springfield 1948.
MACHOWER, K . ,
The nature of attitudes and attitude change, in: G . L I N D Z E Y UND (Hrsg.), The Handbook of Social Psychology, Bd. 3, 2. Aufl. Reading, Mass. 1969, S. 136-314.
MCGUIRE, W.,
E.
ARONSON
MEILI, R . ,
Lehrbuch der psychologischen Diagnostik,
4.
Aufl., Bern/Stuttgart
1961.
, S., Response style and content measures from personality inventories, in : Educational and Psychological Measurement 2 2 , 1 9 6 2 , S. 41-56.
MESSICK
L., Allgemeine Grundlagen psychometrischer Tests, in: 1964, S. 19-70.
MICHEL,
R . HEISS
(Hrsg.),
3. Kapitel:
Testen
und Messen
von Eigenschaften
und
101
Einstellungen
MÜNSTERBERG,H.,
Zur Individualpsychologie, in: Zentralblatt für die gesamte Neurologie und Psychiatrie 14, 1891, S. 196-198.
MURRAY, Η . Α.,
Exploration in Personality, New York 1938.
NOELLE-NEUMANN,
E., Umfragen in der Massengesellschaft, Hamburg 1963.
ORNE, M .
T., On the social psychology of the psychological experiment with particular reference to the demand characteristics and their implications, in: American Psychologist 18, 1962, S. 776-783.
OSGOOD,CH. E . , G . S.
Suci
UND P . H . TANNENBAUM,
The measurement of meaning,
Boston 1957. RIEGER, C.,
Beschreibung der Intelligenzstörung in Folge einer Hirnverletzung nebst einem Entwurf zu einer allgemeinen anwendbaren Methode der Intelligenzprüfung, Würzburg 1888.
ROGHMANN, K . ,
Dogmatismus und Autoritarismus, Meisenheim
1966.
RORER, L. G., The great response-style myth, in: Psychological Bulletin 63, 1969, S. 129-156. RORSCHACH, H . ,
Psychodiagnostik, Bern
1921.
ROSENBERG,
M. J., When dissonance fails, on eliminating evaluation apprehension from attitude measurement, in: Journal of Personality and Social Psychology 1, 1965, S. 28-42.
ROSENTHAL, R . ,
Experimenter effects in behavioral research, New York 1966.
ROSENZWEIG, S . E . , E . FLEMING UND H . C L A R K E ,
Revised scoring manual for the Rosenzweig picture frustration study, in: Journal of Psychology 24, 1947, S. 483-503.
SCHLICHT,
Ε. M., Versuch einer neuen Eignungsuntersuchung: Der Kaktus-Test, in: Mensch und Arbeit 13, 1961, S. 25-26.
SCOTT,
W. Α., Attitude measurement, in: G. LINDZEY UND E. ARONSON (.Hrsg.), Handbook of social psychology, Bd. 2, Reading, Mass. 2. Aufl. 1968, S. 204-273.
S E A R S , D . O . UND R . P . ABELES, A t t i t u d e s a n d o p i n i o n s , i n : A m e r i c a n
Psychological
Review 20, 1969, S. 258-288.
SIXTL, F . ,
Meßmethoden der Psychologie, Weinheim
1967.
SPEARMAN, C . ,
General intelligence, objectively determined and measured, in: American Journal of Psychology 15, 1904, S. 201-292.
SPEARMAN,
C., Correlation calculted from faulty data, in: British Journal of Psychology 3, 1910, S. 281.
STAABS, G . V . , D e r S c e n o - T e s t , S t u t t g a r t STAGNER, R . ,
1940.
The gullibility of personnel managers, in: Personnel Psychology 1958, S. 347-352.
11,
STERN, W., Die différentielle Psychologie in ihren methodischen Grundlagen, Leipzig 1911. SÜLLWOLD,
F., Theorie und Methodik der Einstellungsmessung, in: H. GRAUMANN (Hrsg.), Handbuch der Psychologie, Bd. 7 , 1 . Halbband, Sozialpsychologie, Göttingen 1969.
102
5. Band: Testen und Messen
TAYLOR, J. Α., A personality scale of manifest anxiety, in: Journal of abnormal and social Psychology 48, 1953, S. 2 8 5 - 2 9 0 . THAYER, R. E., Measurement of activation through self report, in: Psychological Reports 20, 1967, S. 6 6 3 - 6 7 8 . THURSTONE, L. L., T h e m e t h o d of paired comparisons for social values, in: Journal of A b n o r m a l and Social Psychology 21, 1927, S. 3 8 4 - 4 0 0 . THURSTONE, L. L., Attitudes can be measured, in: American Journal of Sociology 33, 1928, S. 5 2 9 - 5 5 4 . THURSTONE, L. L. UND E. J. CHAVE, T h e measurement of a t t i t u d e , Chicago 1929. THURSTONE, R. L., Reliability, in: E. F. LINDQUIST (Hrsg.), Educational m e a s u r e m e n t , Washington 1951. TIMAEUS, E. UND Η. E. LÜCK, Stereotype Erwartungen bei der Wahrnehmung von Führungskräften in der Wirtschaft, in: Psychologische Rundschau 21, 1970, S. 3 9 - 4 3 . UPSHAW, H . S . , A t t i t u d e m e a s u r e m e n t , i n : H . M . BLALOCK JR. UND A . D . BLALOCK
(Hrsg.), Methodology in Social Research, New York 1968, S. 6 0 - 1 1 1 . WARTEGG, E., Gestaltung und Charakter. A u s d r u c k d e u t u n g zeichnerischer Gestaltung und Entwurf einer charakterologischen Typologie, in: Zeitschrift für angew a n d t e Psychologie 84, 1939. WEBB, E . J . , D . T . CAMPBELL, R . D . SCHWARTZ UND L . SECHREST, U n o b t r u s i v e M e a s u -
res: Nonreactive Research in t h e Social Sciences, Chicago 1966; deutsch Weinheim 1975. WEBSTER, H., Correcting personality scales f o r response sets or suppression effects, in: Psychological Bulletin 55, 1958, S. 6 2 - 6 4 . WECHSLER, D., Die Messung der Intelligenz Erwachsener, Bern und Stuttgart 1956. WIENDIECK, G. UND H. E. LÜCK , Zur Entwicklung von K u r z f o r m e n der BrengelmannSkalen Ε, Ν und N R , in: Diagnostica 15, 1969, S. 4 0 - 4 3 . ZAJONC, R. Β., Social Psychology, An Experimental Approach, Belmont 1966.
4.
Ratingmethoden von Reinhard Wegner
4.1
Definition und Geschichte
"Rating" heißt "Schätzen". Ratingmethoden sind Meßverfahren, die auf Einschätzungen beruhen. Zuweilen wird in der Literatur "schätzen" (rating), " o r d n e n " (ranking) und "sortieren" (sorting) voneinander abgehoben. Der u. W. erste systematische Versuch einer Klassifizierung von Ratingmethoden (KNAUFT 1948) schließt Rangordnungs- und Sortiermethoden jedoch bereits ein. Einen solchen umfassenden Begriff der "Ratingmethode" wollen wir auch hier verwenden und unter diesem Stichwort Meßverfahren behandeln, bei denen "subjektive Maßstäbe" bei der Beurteilung von Merkmalsausprägungen eine Rolle spielen. Historisch gesehen führen zwei Entwicklungslinien zu den heutigen Ratingmethoden: Die Benutzung von Skalen zur Beurteilung von Persönlichkeitseigenschaften geht vor allem auf Francis Galton (1822- 1911) zurück. Vor ihm hatte jedoch bereits Robert Owen (1771 - 1858), englischer Industrieller und Sozialreformer, Skalen zur Selbstund Fremdeinstufung auf verschiedenen Persönlichkeitsdimensionen — "imaginat i o n " , " m e m o r y " , " e x c i t a b i l i t y " e t c . - e r s o n n e n (SCHMIDT 1965, S. 11 f . ) . PEARSON
(1907), ein Schüler Galtons, entwickelte eine Skala zur Intelligenzschätzung, MINER (1917) Skalen zur Einschätzung von Studenten hinsichtlich verschiedener Eigenschaften wie "common sense", "energy", "leadership". Vor allem seit ihrem Einsatz bei der Begutachtung von Offizieren im Ersten Weltkrieg in den USA erhielten Ratingskalen einen festen Platz im Instrumentarium des Personalbeurteilers. Aber auch als Instrumente der Persönlichkeitsforschung werden Ratingskalen bis in die Gegenwart hinein in großem Umfange benutzt (CATTELL 1957; GUILFORD 1959). Die zweite Entwicklungslinie fällt zunächst mit der Geschichte der Psychophysik zusammen und geht vor allem auf das Werk FECHNERS (1860) zurück. Anders als bei der Beurteilung von Persönlichkeitseigenschaften ging es hier um die Einschätzung physikalisch bestimmbarer Reizgegebenheiten zur Erforschung menschlichen Wahrnehmens und Urteilens. THURSTONE (1927a; 1927b; 1959; eine moderne Darstellung der Thurstone'schen Theorie geben BOCK UND JONES 1968) hat dann nicht nur die psychophysikalisehen Meßmethoden theoretisch neu fundiert, sondern sie auch auf Merkmale angewandt, die physikalisch nicht meßbar sind, wie vor allem soziale Werte und Einstellungen. Damit war die Grundlage für eine Psychometrie geschaffen, in deren Bereich auch Methoden zur Einschätzung von Persönlichkeitseigenschaften gehören. GUILFORD stellt diesen Zusammenhang in seinem Lehrbuch "Psychometric Methods" (1936, 2. Aufl. 1954) ausdrücklich heraus (siehe hierzu -»· Bd. V: Betz, Skalierung 5.3.2).
104
4.2
5. Band: Testen und Messen
Zur Klassifikation von Ratingverfahren
Man kann Ratingverfahren hinsichtlich der Merkmale bzw. Merkmalsträger, der Meßvorschriften und der Beurteiler klassifizieren. Die Klasse der Merkmalsträger ist praktisch unbegrenzt: Menschen, Schulaufsätze, Eiskunstlaufpaare, Farben, Geräusche, Gefühle, Fragebogenitems usw. Eine weitgehende inhaltliche Klassifizierung erscheint nicht sinnvoll. Nur Menschen bilden insofern eine besondere Kategorie, als hier mit interpersonalen Prozessen zwischen Beurteiler und Beurteiltem zu rechnen ist, die die Schätzungen in bestimmter Weise beeinflussen können. Nach formalen Gesichtspunkten lassen sich manifeste (beobachtbare) und latente (zu erschließende) Eigenschaften (MAYNTZ U.A. 1969, S. 12), einfaches und komplexes Reizmaterial (JOHNSON 1955, S. 287 ff.), durch Individualbegriffe (z. B. Namen von Politikern) und durch Allgemeinbegriffe (z. B. Arbeiter, Engländer) vorgegebene Beurteilungsobjekte (MAYNTZ U.A. 1969, S. 13 f.) unterscheiden. Eine besondere Kategorie sind Beurteilungsobjekte, die dem Beurteiler allgemeinbegrifflich vorgegeben sind, von ihm jedoch erst identifiziert oder konkretisiert werden müssen; ein Beispiel dafür ist der "Repertory Test" von KELLY (1955, S. 219 ff.), bei dem der Proband z. B. den Lehrer, den er am wenigsten leiden kann, die intelligenteste oder die erfolgreichste Person, die er persönlich kennt, auf ihre Ähnlichkeit hin miteinander vergleichen soll. Die Einteilung von Rating-Operationen nach 'Beurteiler' -Kategorien führt zu der wichtigen Unterscheidung zwischen Fremd- und Selbst-Rating. Beim Selbst-Rating beurteilen "Rater" ihre eigenen Persönlichkeitseigenschaften, Einstellungen, Leistungsprodukte oder Handlungen. Weitere Klassifizierungen nach Beurteilerkategorien sind methodisch von geringerer Bedeutung, so die Unterscheidung zwischen Rating durch Experten bzw. Nicht-Experten. Am schwierigsten, aber auch am notwendigsten ist eine Klassifizierung der Ratingverfahren nach Meßoperationen. GUILFORD (1954, S. 263 ff.) hat verschiedene Typen von Ratingverfahren beschrieben. Sie gehören jedoch im wesentlichen alle zu einer Klasse. Jeweils ein Objekt wird mit einer Skala zusammen dargeboten, auf der sein Ort zu markieren ist. VOLKMANN (1 932) hat diese Form des Schätzens als "method of single stimulus" beschrieben. Die logische Alternative ist die gleichzeitige Darbietung mehrerer Objekte, die in irgendeiner vorgeschriebenen Form (z. B. in einer Rangreihe) angeordnet bzw. die vor der Einordnung in eine Skala miteinander verglichen werden können oder sollen. TORGERSON (1958, S. 67 f.) unterteilt in dieser Weise die verschiedenen "subjektiven Schätzmethoden" in Einzelreiz- und Mehrfachreizmethoden (single stimulus and multiple stimulus methods). Wie vor allem COOMBS (1964) gezeigt hat, bilden die Mehrfachreizmethoden eine recht heterogene Gruppe. Wir wollen uns bei der Aufteilung dieser Methoden an seiner Datentheorie orientieren. Drei Unterscheidungen bilden deren klassifikatorische Basis. Davon interessieren hier zunächst nur die ersten beiden: a) Die beim Meßvorgang miteinander in Beziehung gesetzten Elemente gehören einer Klasse oder verschiedenen Klassen an; b) es werden entweder die Elemente selbst oder deren Relationen miteinander verglichen. Durch Kombination dieser beiden Einteilungsgesichtspunkte ergeben sich vier Grundformen des Rating (Darstellung 1), die wir nach Coombs als Methoden des Einzelreiz-, Reizvergleichs-, Präferenz- und Ähn-
4. Kapitel: Ratingmethoden
105
l i c h k e i t s - R a t i n g s b e z e i c h n e n w o l l e n . D i e drei l e t z t e r e n M e t h o d e n sind per d e f i n i tionem Mehrfachreizmethoden.
Elemente Darstellung 1 : Datentheoretisches Klassifikationsschema für Ratingmethoden (in Anlehnung a n COOMBS
Relationen
Elemente aus (zwei) verschiedenen Klassen
EinzelreizRating
PräferenzRating
Elemente aus einer Klasse
ReizvergleichsRating
ÄhnlichkeitsRating
1964).
D i e e i n z e l n e n M e t h o d e n lassen sich s c h e m a t i s c h f o l g e n d e r m a ß e n darstellen:
Ausgangslage: Ausgangslage:
Ergebnis:
X bl X b2
οa
O a
X bl X b2
χ
Ausgangslage:
X Oa l
X b3
a
2
a 3
o a
V b 2*
a,
1
b3
O a,
O a2
0--X 2 a
l
b
l
0--X b l 2
3
a
D a r s t e l l u n g 4 : Schema des Präferenz-Rating
1
O
2 l
O a 3
3
O
4
O a 2
5
D a r s t e l l u n g 3 : Schema des Reizvergleichs-Rating
Ausgangslage:
Ergebnis:
0--X
O a 4 a
5
X b4 a ® b5
D a r s t e l l u n g 2 : Schema des Einzelreiz-Rating
bl
o l Q
X
X b3
b3 X b4 X "s
0
Ergebnis:
O a 3
Ergebnis: O a,
O
a3
1
O - O a a 2 3
2
O - O a a l 2
3
D a r s t e l l u n g 5: Schema des Ähnlichkeits-Rating
106
5. Band: Testen und Messen
1. Einzelreizrating (Darstellung 2). Hier werden Elemente aus verschiedenen Klassen miteinander in Beziehung gebracht, indem ein Reizobjekt einem Skalenelement zugeordnet wird. Beispiele sind die Einstufung der Lebhaftigkeit eines Kindes oder die Güte eines Arbeitsproduktes auf einer ζ. B. fünfstufigen numerischen Ratingskala. 2. Reizvergleichsrating (Darstellung 3). Reizobjekte aus der gleichen Klasse sollen miteinander verglichen und nach dem Ausprägungsgrad eines Merkmals geordnet werden. Beispiele sind Gegenstände, die nach ihrem Gewicht, oder Gemälde, die nach ihrem künstlerischen Niveau in eine Rangordnung gebracht werden sollen. 3. Präferenzrating (Darstellung 4). Hierbei handelt es sich um den Vergleich von Objektrelationen, wobei die Glieder eines Paares jeweils Elemente aus verschiedenen Klassen sind. Diese allgemeine Kennzeichnung haben wir in unserem Schema noch eingeschränkt auf den Fall, daß ein Paarelement in allen Vergleichen identisch bleibt. Dieses Schema läßt sich am besten konkretisieren durch die Annahme, daß ein Individuum eine Reihe von Objekten in eine Präferenzordnung bringt. Beispiele sind das Ordnen von Politikern oder Parteien nach persönlicher Wertschätzung. 4. Ähnlichkeitsrating (Darstellung 5). Paare von Reizobjekten der gleichen Klasse sind miteinander zu vergleichen und auf einer Dimension der Ähnlichkeit (oder einer anderen Distanzdimension) anzuordnen. Beispiele sind die Beurteilung der Ähnlichkeit von Gefühlen oder Parteiprogrammen. Die Ergebnisse solcher Schätzoperationen bilden in der Regel die Datenbasis für mehrdimensionale Skalierungen. Eine Reihe von Verfahren wird in diesen Schemata nicht erfaßt; nämlich alle Verfahren, bei denen wie beim Reizvergleichs-, Präferenz- und Ähnlichkeitsrating mehrere Elemente bzw. deren Relation miteinander zu vergleichen und einem vorgegebenem Skalenschema zuzuordnen sind. Klassisches Beispiel hierfür ist die "Methode der gleicherscheinenden Abstände" (EDWARDS 1957, S. 83 ff.), bei der Beurteilungsobjekte nach dem Ausprägungsgrad eines Merkmals auf einer Dimension so anzuordnen sind, daß die Abstände zwischen einzelnen Ausprägungsstufen gleich groß erscheinen. Dazu wird ein Skalenschema mit ζ. B. elf Stufen vorgegeben. TORGERSON (1958, S. 67 f.) ordnet Verfahren dieser Art den Mehrfachreizmethoden, COOMBS (1964, S. 58) den Einzelreizmethoden zu. Dieser Gegensatz ist leicht zu erklären. Betont man das Vergleichen und Ordnen gleichzeitig dargebotener Elemente, liegt die Zuordnung zu den Mehrfachreizmethoden nahe. Ist man wie Coombs als Datentheoretiker primär an den Resultaten der Schätzoperationen interessiert, rückt die Ähnlichkeit zu den Einzelreizmethoden in den Vordergrund. Tatsächlich handelt es sich ja um Mischtypen. Für die psychometrische Praxis sind sie von großer Bedeutung, da bei geschickter Kombination beider Prinzipien die Vorteile der Einzelreiz- wie der Mehrfachreizmethode genutzt werden können. Wir ordnen sie Torgerson folgend den Mehrfachreizmethoden zu. Nach Torgerson gehören Verfahren auch dann zu den Mehrfachreizmethoden, wenn die Reizobjekte zwar nacheinander zusammen mit einer Skala geboten werden, eine Änderung der Zuordnung zu einem Skalenabschnitt später aber noch möglich ist. Damit sind die Möglichkeiten der Klassifizierung von Ratingverfahren nicht erschöpft. Nach COOMBS (1964, S. 562 f.) kann man monotone von nicht-monotonen Reizen oder Items unterscheiden. Reagiert ein Beurteiler in positivem Sinne auf ein monotones Item, so ist anzunehmen, daß er auf alle Items mit niedrigerem Skalen-
4. Kapitel: Ratingmethoden
107
wert ebenfalls positiv reagieren wird; bei nicht-monotonen Items ist eine solche Annahme nicht möglich. Ein monotones Item dichotomiert, ein nicht-monotones Item trichotomiert ein Kontinuum. Ein simples Beispiel sind Fragen nach dem Lebensalter: "älter als 20", "älter als 30" ... (monotone Items); "zwischen 20 und 30", "zwischen 30 und 40" ... (nicht-monotone Items). Diese Unterscheidung korrespondiert der zwischen einer Ordnungsrelation und einer Näherelation von Elementen in seiner neueren Skalentheorie (COOMBS 1964, S. 563). Mit TORGERSON (1958, S. 66) kann man Verfahren mit begrenzter und unbegrenzter bzw. definierter und Undefinierter Kategorienzahl unterscheiden. Graphische Skalen haben im allgemeinen keine definierte Kategorienzahl. Ferner kann man Ratingverfahren immer auch danach unterscheiden, auf welchem Meßniveau die Schätzungen vorgenommen werden, ob ζ. B. eine Rangordnung (Ordinalniveau) oder eine Anordnung in gleicherscheinenden Abständen (Intervallniveau) erstellt werden soll. Schließlich ist zu erwägen, ob man im Hinblick auf den Zweck des Rating mit TORGERSON (1958, S. 45 ff.) noch unterscheiden sollte zwischen einem subjektzentrierten, einem reizzentrierten und einem reaktionszentrierten Vorgehen. Beim subjektzentrierten Vorgehen interessieren in erster Linie die unterschiedlichen, auf individuellen Differenzen beruhenden Reaktionen der Versuchspersonen, während die Reize oder Testitems als Replikationen, d. h. als Meßwiederholungen betrachtet werden. Beim reizzentrierten Vorgehen interessiert dagegen der Anteil an der Variabilität der Reaktionen, der auf die Unterschiedlichkeit der Reize zurückzuführen ist. Hierbei werden die Versuchspersonen als Replikationen betrachtet. Beim reaktionszentrierten Vorgehen (response approach) interessieren beide Quellen der Variabilität. Mit Hilfe geeigneter Skalierungsverfahren wird hierbei versucht, einen gemeinsamen Raum (joint space, COOMBS 1964, S. 9) für Reize und Personen zu erstellen. Diese für die Klassifizierung von Skalierungsverfahren so wichtige Einteilung ist auf der Ebene der Rohdatenerhebung von geringerer Relevanz, d. h. jedes Ratingergebnis, an dem mehrere Reize und mehrere Rater beteiligt waren, kann im Prinzip subjektzentriert, reizzentriert oder reaktionszentriert skaliert werden (-» Bd. V: Betz, Skal ieru ngsverfahren).
4.3
Einzelreizverfahren
Beim Einzelreiz-Rating kommt der vorgegebenen Skala eine weit größere Bedeutung zu als beim Mehrfachreiz-Rating. Wir wollen daher zunächst GUILFORD (1954, S. 263 ff.) folgend die gebräuchlichsten Skalentypen beschreiben. Das sogenannte "semantische Differential" fügen wir als hierher gehörig hinzu. G r u n d t y p e n sind die numerische und die graphische Skala. Bei numerischen Skalen wird dem Beurteiler eine Folge ganzer Zahlen vorgegeben, der das zu beurteilende Objekt durch Ankreuzen der passend erscheinenden Zahl zuzuordnen ist. Dabei ist in der Regel die Bedeutung der einzelnen Zahlenwerte oder auch nur der Extrem-
108
5. Band: Testen und Messen
werte durch Umschreibungen festgelegt. Das Prinzip der numerischen Skala kann auch dahingehend abgewandelt sein, daß nur noch die Umschreibungen der Skalenwerte vorgegeben werden. Das entscheidende Merkmal numerischer Skalen und ihrer Abwandlungen sind diskrete Skalenwerte. Die simpelste Form dieser Gattung ist die zweistufige Skala, ζ. B. die "Ja-Nein"Skala. Bei graphischen Skalen wird dem Beurteiler ein Beurteilungskontinuum in irgendeiner Form anschaulich dargeboten, meistens in der Form einer waagerechten oder senkrechten geraden Linie. Die Skalenwerte werden wieder in Definitionen — meistens nur an den Endpunkten — festgelegt. Der Beurteiler kann jeden passend erscheinenden Punkt zwischen den Endpunkten ankreuzen. Diskrete Werte hat auch die sogenannte Standardskala. Sie besteht aus einer Reihe von Vergleichsobjekten, deren Skalenwerte idealerweise mit einer Skalierungsmethode (ζ. B. Methode des Paarvergleichs oder der gleicherscheinenden Abstände) zuvor ermittelt worden sind. Oft handelt es sich dabei um Objekte derselben Art wie die zu beurteilenden, wie ζ. B. bei einer Skala zur Beurteilung der Güte einer Handschrift, bei der die Handschrift mit Handschriftenproben verglichen wird (GUILFORD 1954, S. 269). Mit Hilfe der Methode der gleicherscheinenden Abstände oder des Paarvergleichs hergestellte Einstellungsskalen ("Thurstone-Skalen") sind am ehesten diesem Skalentyp zuzuordnen (EDWARDS 1957, S. 19 ff.). Weitere Skalentypen entstehen durch eine Zusammenstellung der beschriebenen Grundformen. Bei der " M e t h o d e der kumulierten Punkte" besteht die Skala aus einer Liste von Merkmalsbezeichnungen. Der Beurteiler hat alle auf das Beurteilungsobjekt zutreffenden Bezeichnungen anzukreuzen. Die Summe der Ankreuzungen liefert den Punktwert für das Beurteilungsobjekt. Man kann eine solche Kontrolliste (check list) als eine aus jeweils zweistufigen Teilskalen zusammengesetzte Gesamtskala betrachten. Eine verwandte Form ist die Methode der summierten Einschätzungen, bei der die Gesamtskala — sog. Likert-Skala — aus mehrstufigen numerischen Skalen besteht (EDWARDS 1957, S. 148 ff.). Der Gesamtpunktwert wird - wie der Name sagt durch Summation der einzelnen Schätzwerte gebildet. Ebenfalls eine Zusammenstellung numerischer Skalen ist das "Semantische Differential" oder "Polaritätenprofil" (OSGOOD U.A. 1957, KERLINGER 1965, S. 564 ff., HOFSTÄTTER 1957, S. 174 ff.). Jede Skala ist ein bipolares Paar von Adjektiven, zwischen dem ein angenommenes Kontinuum gewöhnlich in sieben Stufen unterteilt ist. Dieses von Osgood und seinen Mitarbeitern entwickelte Verfahren dient dazu, die konnotative Bedeutung von Begriffen bzw. das assoziative Umfeld von Objekten zu erkunden. Osgood untersuchte eine umfangreiche Sammlung von Adjektivpaaren, indem er durch Beurteilergruppen verschiedenartige Begriffe und Objekte zwischen den einzelnen Adjektivpaaren einstufen ließ. Durch Faktorenanalysen ermittelte er, daß den Skalen drei Hauptdimensionen zugrunde liegen: a) die evaluative Dimension, charakterisiert ζ. B. durch das Adjektivpaar "gut - schlecht", b) die Intensitätsdimension, charakterisiert ζ. B. durch "stark - schwach" und c) die Aktivitätsdimension, charakterisiert ζ. B. durch "schnell - langsam". Wenn eine große Sammlung solcher Skalen mit bekannten Faktorenladungen vorliegt - Osgood legte eine Liste von 50 Skalen vor —, kann man je nach Objekten und Forschungszweck verschiedene Skalenbatterien zusammenstellen. Die Schätzwerte der zu einer Di-
4. Kapitel: Ratingmethoden
109
mension gehörenden Skalen können — ähnlich wie bei der Methode der summierten Einschätzungen — zu Gesamtrohwerten zusammengefaßt werden. Darüber hinaus können bei der Einschätzung einer Reihe von Objekten die korrelierbaren Profile die Grundlage für eine mehrdimensionale Skalierung zur Ermittlung des semantischen Raumes von Begriffs- oder Objektklassen bilden. Einen besonderen Skalentypus erfordert die Methode der erzwungenen Wahlen (forced choice). Dem Beurteiler werden dabei jeweils zwei oder auch mehr Merkmalsbeschreibungen vorgegeben mit der Aufforderung, sich für eine bzw. eine festgelegte Anzahl als zutreffend zu entscheiden. Die Vorteile dieses Verfahrens können besonders dadurch ausgenutzt werden, daß Merkmalsbezeichnungen zusammengestellt werden, die das Beurteilungsobjekt in das gleiche günstige oder ungünstige Licht rücken. Eine Verfälschung der Ergebnisse durch "Schönfärberei" kann auf diese Weise vermieden werden. Die Konstruktion von Skalen, deren Items diese Eigenschaften in idealer Weise erfüllen, ist jedoch ziemlich aufwendig. Bei einer Skala zur Beurteilung von Persönlichkeitseigenschaften beispielsweise muß zunächst der Stellenwert jeder Beschreibung auf der Dimension "günstig — ungünstig" bzw. "erwünscht — unerwünscht" ermittelt werden. Zwei oder mehr Beschreibungen mit dem gleichen Stellenwert können dann zu einem "forced choice"-Item zusammengestellt werden. "Forced-choice"-Items haben in der Regel mit Formen des Präferenz-Rating folgendes gemeinsam: Sie liefern sogenannte ipsative Werte (der Gegensatz ist: normativ) (SECHREST 1968, S . 557; BLOCK 1957), nämlich dadurch,daß mehrere Merkmale eines Objekts hinsichtlich ihres Ausprägungsgrades miteinander zu vergleichen sind, wobei die Summe aller Ausprägungsstufen für alle Objekte zwangsläufig immer gleich ist. Ein Beispiel für eine aus "forced-choice"-Items aufgebaute Persönlichkeitsskala ist das "Edwards Personal Preference Schedule" (EDWARDS 1954). Die beschriebenen Skalentypen werden üblicherweise beim Einzelreiz-Rating verwandt, d. h. gleichzeitig immer mit einem Reizobjekt zusammen geboten. Sie können — wie wir zeigen werden — im Prinzip aber auch beim Mehrfachreiz-Rating Verwendung finden. Als Formen des Einzelreiz-Rating wiederum sind sie nicht auf die Beurteilung von Gegenständen und anderen Personen, also auf die "Fremdbeurteilung" beschränkt. Sie sind ebenfalls Grundformen des Selbst-Rating und des evaluativen Rating. Beim Selbst-Rating sind der Beurteiler und das zu beurteilende Objekt identisch; hierher gehören ζ. B. Persönlichkeitsfragebogen. Beim evaluativen Rating nimmt der Beurteiler zu einem Objekt bewertend Stellung. Hierher gehören ζ. B. Einstellungsskalen. Beide Typen lassen sich nicht scharf voneinander abgrenzen. Man kann ζ. B. die Items einer Interessenskala nach dem Typus des Selbst-Rating (a) oder des evaluativen Rating (b) formulieren: a) Ich fahre gern A u t o
Ja
Nein
b) A u t o f a h r e n e n t s p a n n t
Ja
Nein
Der Unterschied zwischen Fremd-Rating einerseits und Selbst-Rating und evaluativem Rating andererseits liegt erst in der Datenanalyse. Bei der — nicht bewertenden — Einschätzung von Objekten interessieren die Unterschiede der Objekte, die Beurteiler werden als Replikationen betrachtet, beim Selbst-Rating und evaluativen Rating ist es anders: Hier interessieren in erster Linie die Unterschiede zwischen den Beurteilern.
110
5. Band: Testen und Messen
4.4
Mehrfachreizverfahren
M e h r f a c h r e i z - R a t i n g liegt bereits dann vor, w e n n der Beurteiler vor der Einstufung einzelner O b j e k t e in eine Skala Gelegenheit hatte, mit einer T e i l m e n g e ( o d e r der G e s a m t m e n g e ) der zu beurteilenden O b j e k t e durch V e r g l e i c h e Erfahrungen zu sammeln. Da sich Prozesse des Vergleichens auch dann abspielen, w e n n die R e i z o b j e k t e nacheinander g e b o t e n w e r d e n , gehen Prinzipien des Mehrfachreiz-Rating in j e d e s Schätzverfahren ein. Streng g e n o m m e n liegt Einzelreiz-Rating in reiner F o r m nur bei der Einstufung eines erstmalig und allein g e b o t e n e n R e i z o b j e k t e s v o r . I n dieser Tatsache gründet die Aussage GUILFORDS
(1954, S. 302), daß
Beurteilungen i m m e r
relativ sind. D i e " a b s o l u t e " Schätzung ist ein b e i m Einzelreiz-Rating durch besondere V o r k e h r u n g e n ( z . B. möglichst e x a k t e D e f i n i t i o n der Skalenstufen) erstrebter G r e n z w e r t . Was beim Einzelreiz-Rating als störend gelten mag, w i r d beim M e h r f a c h reiz-Rating z u m Prinzip. I n seiner reinen F o r m wird auf eine Skala und damit auf einen v o r g e g e b e n e n Vergleichsmaßstab verzichtet. U m g e k e h r t w e r d e n in d e m Maße, in d e m Skalen mit d e f i n i e r t e n S t u f e n benutzt und eine v o n den übrigen R e i z o b j e k ten unabhängige Einstufung nahegelegt wird, Prinzipien des Einzelreiz-Rating in das M e h r f a c h r e i z - R a t i n g eingeführt. I n der R e g e l w e r d e n Skalen beim M e h r f a c h r e i z R a t i n g j e d o c h nur als H i l f e n für das A r r a n g e m e n t einer größeren M e n g e v o n R e i z o b jekten geboten. B e i m Reizvergleichs-Rating
geht es darum, eine M e n g e v o n O b j e k t e n nach d e m Aus-
prägungsgrad eines d e f i n i e r t e n A t t r i b u t e s zu o r d n e n (COOMBS 1 9 6 4 , S. 3 4 3 f f . ) . Beispiele sind die Herstellung einer Rangreihe v o n G e w i c h t e n nach ihrer S c h w e r e , v o n B e r u f e n nach ihrem sozialen A n s e h e n , v o n " S t a t e m e n t s " einer Einstellungsskala nach d e m Ausprägungsgrad der in ihr z u m Ausdruck k o m m e n d e n Einstellung gegenüber einem d e f i n i e r t e n Einstellungsobjekt. Diese A u f g a b e kann in einem Arbeitsgang o d e r in Teilschritten durchzuführen sein, d e m Beurteiler kann ein Skalenschema zur Verfügung stehen o d e r nicht, schließlich kann das Meßniveau, auf d e m sich der Beurteiler zu b e w e g e n hat, verschieden d e f i niert sein. D e m Beurteiler k ö n n e n z. B. alle O b j e k t e gleichzeitig dargeboten w e r d e n mit der A u f f o r d e r u n g , eine Rangreihe herzustellen (GUILFORD 1 9 5 4 , S. 178 f f . ) , es k ö n n e n ihm aber auch i m m e r nur z w e i O b j e k t e auf einmal vorgelegt w e r d e n ( M e t h o d e n des Paarvergleichs, BOCK UND JONES 1 9 6 8 , S. 116 f f . ) . Zwischen diesen beiden E x t r e m e n gibt es im Prinzip alle Übergänge. Darauf w e r d e n wir bei der Beschreibung der allgemeinen Eigenschaften v o n M e h r f a c h r e i z m e t h o d e n n o c h näher eingehen. Hat der Beurteiler eine O r d n u n g der O b j e k t e auf einem Intervallskalenniveau herzustellen, wird ihm z. B. w i e bei der " M e t h o d e der gleicherscheinenden A b s t ä n d e " (EDWARDS 1 9 5 7 , S. 83 f f . ) ein aus sieben o d e r e l f A b s c h n i t t e n bestehendes Skalenschema vorgegeben. B e i m Ähnlichkeits-Rating
sind nicht O b j e k t e , sondern O b j e k t r e l a t i o n e n miteinander
zu vergleichen (COOMBS 1 9 6 4 , S. 431 f f . ) . Die typische A u f g a b e besteht darin, von z w e i O b j e k t e n das auszuwählen, das einem dritten am ähnlichsten ist oder v o n drei O b j e k t e n die beiden ähnlichsten und die beiden unähnlichsten anzugeben (TORGERSON 1 9 5 8 , S. 2 6 2 ) . Es können aber auch mehr als drei O b j e k t e gleichzeitig g e b o t e n w e r d e n mit der A u f f o r d e r u n g , eine Rangreihe der Ä h n l i c h k e i t zu j e w e i l s einem Element herzustellen (sogenannte " c a r t w h e e l " - M e t h o d e , COOMBS 1 9 6 4 , S. 4 3 f f . ) . D i e O b j e k t r e l a t i o n kann für den Beurteiler auf die unterschiedlichste Weise d e f i n i e r t
4. Kapitel: Ratingmethoden
111
werden: als "ähnlich sein", "nahe stehen", "sympathisieren" usw. Sie braucht nicht — wie bei der eigentlichen Ähnlichkeitsrelation — symmetrisch zu sein (COOMBS 1964, S. 463 ff.). Nicht-symmetrische Distanzrelationen sind ζ. B. "abhängig sein", "implizieren" usw.; "sympathisieren" kann symmetrisch oder asymmetrisch definiert sein. Für die Einstufung der Distanzen auf einem Intervall- oder Verhältnisskalenniveau kann ähnlich wie bei der "Methode der gleicherscheinenden Intervalle" ein Skalenschema geboten werden. So ließ ABELSON (1954) Beurteiler den Grad der Übereinstimmung von Aussagen auf einer Skala mit dem natürlichen Nullpunkt "perfekte Übereinstimmung" einstufen. Ähnliche Prozeduren benutzten ATTNEAVE (1950) und MESSICK (1954). Schließlich kann - wie bei der multidimensionalen Verhältnisskalierung nach EKMAN (1963) — das Ausmaß der Ähnlichkeit zwischen zwei Objekten ohne den Vergleich von Distanzen auf einer Verhältnisskala direkt abzuschätzen sein wie in Darstellung 6. Wenn man hierbei die Relation als Element betrachtet, gehört ein solches Verfahren zu den Einzelreizmethoden.
Angst — Liebe
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 0 1 2 3 4 5 6 7 8 9
_
_ _ 10
"wieviel hat Liebe von A n g s t ? "
D a r s t e l l u n g 6 : Item eines Testbogens zur multidimensionalen Verhältnisskalierung nach EKMAN (Quelle: SIXTL 1967, S. 298).
Das Präferenz-Rating ist typischerweise eine Form des Selbst-Rating bzw. des evaluativen Rating. Es kann aber auch zur Beurteilung von Objekten oder fremden Personen benutzt werden. Ein Beurteiler kann ζ. B. einen Menschen charakterisieren, indem er ihm Eigenschaftsbegriffe zuordnet und diese in eine "Rangreihe des Zutreffens" bringt. Ein solches Verfahren berührt sich mit dem "Rating durch kumulierte Punkte". Insofern Präferenz-Rating — in der Form des Selbst- oder Fremdrating — der Charakterisierung eines Objektes dient, ist es eine Form des Einzelreiz-Rating. Da dies jedoch durch den Vergleich von Objekt-Reizelement-Relationen geschieht, ist seine Zuordnung zu den Mehrfachreiz-Methoden durchaus gerechtfertigt, zumal seine Prozeduren der Datenerhebung mit denen des Reizvergleichs-Rating im Prinzip identisch sind. Es können also auch hierbei zwei oder mehr Reizelemente geboten werden; die Aufgabe kann darin bestehen, sie in eine Rangordnung zu bringen oder sie einer vorgegebenen Skala einzustufen. Ist das Ziel des Präferenz-Rating nicht die Ermittlung der Eigenschaften einzelner Personen, werden vielmehr die ihre eigenen Präferenzen anzeigenden Beurteiler quasi als Replikationen behandelt und die Ergebnisse wie beim Reizvergleichs-Rating zusammengefaßt, so erhält man die Präferenzreihe einer Gruppe. Die Dimension, auf der die Reizobjekte dann lokalisiert sind, interpretiert COOMBS (1964, S.
112
5. Band: Testen und Messen
390 ff.) als "soziale Utilität". Bei der Zusammenfassung solcher Ergebnisse, die auf grundsätzlich verschiedene Weisen erfolgen kann, sind wegen des "Laterialitätseffektes" (s. u.) besondere Kautelen zu beachten (COOMBS 1964, S. 53 ff., 390 ff., 499 ff.). Eine spezielle Form des Präferenz-Rating mit vorgegebenem Skalenschema ist der von STEPHENSON (1953) entwickelte Q-Sort. Der Name bezieht sich auf eine F o r m der Faktorenanalyse, die nicht auf der Interkorrelation von Tests (R-Technik), sondern von Personen (Q-Technik) basiert. Bei der klassischen F o r m des Q-Sort werden dem Probanden 6 0 - 120 Karten vorgelegt, die er in der Weise in eine Rangordnung zu bringen hat, daß er jeden Rangplatz mit einer festgelegten Anzahl von Karten besetzt, wie bei dem auf 90 Karten bezogenen Beispiel in Darstellung 7.
Anzahl der Karten stärkste Zustimmung
3
4
7
10
13
16
13
10
7
4
3
geringste
10
9
8
7
6
5
4
3
2
1
0
Zustimmung
Rangwerte
D a r s t e l l u n g 7 : Beispiel für eine Q-Sort-Skala (Quelle: KERLINGER 1965, S. 582).
Die Verteilung der Karten soll einer Normalverteilung entsprechen. Auf den Karten befinden sich Behauptungen, Eigenschaftsbezeichnungen, Namen, Abbildungen u. ä. Die Dimension kann ebenfalls in unterschiedlicher Weise definiert sein: "mir am ähnlichsten — mir am unähnlichsten", "gefällt mir am besten — gefällt mir am wenigs t e n " u. ä. Ein Q-Sort kann auch ohne festgelegte Verteilung der Karten durchgeführt werden. Dabei erhält man u. U. mehr Informationen über den "absoluten" A u s p r ä g u n g s g r a d v o n P r ä f e r e n z e n (BLOCK 1 9 5 6 ; JONES 1 9 5 6 ) . D i e A u s w e r t u n g d e r
Daten erfolgt faktorenanalytisch auf der Basis der Interkorrelationen der Sortierungen verschiedener Personen bzw. der Sortierungen einer Person zu verschiedenen Gelegenheiten oder bei systematisch aufgebauten Kartenreihen — sogenannten strukturierten Q-Sorts - auch varianzanalytisch (STEPHENSON 1953; KERLINGER 1965, S. 581 ff ; ^ Bd. V: Sturm und Vajna, Faktorenanalyse). Man kann - wie COOMBS gezeigt hat (1964, S. 32 ff.) — Mehrfachreiz-Methoden danach einteilen, (a) wie viele Elemente überhaupt miteinander in Beziehung zu setzen sind, (b) wie viele Elemente davon gleichzeitig geboten werden und (c) wie viele Elemente davon herausgegriffen bzw. geordnet werden sollen. Von zehn Elementen können beispielsweise jeweils sechs geboten werden, aus denen der Beurteiler drei herauszugreifen und in eine Rangordnung zu bringen hat. Die Kombinationsmöglichkeiten sind außerordentlich groß. Erst ein Bruchteil davon ist bisher empirisch erprobt worden. Auf informationstheoretischem Wege hat Coombs versucht, Anhaltspunkte zur Beurteilung der Effizienz verschiedener Kombinationen dieser drei Größen (a, b und c) zu finden. Erste empirische Befunde weisen seinen Ansatz als fruchtbar aus (COOMBS 1964, S. 41).
4. Kapitel: Ratingmethoden
113
Bei den Mehrfachreiz-Methoden ergibt sich das grundsätzliche Problem, daß selbst bei günstigster Kombination die Zahl der erforderlichen gleichzeitigen Darbietungen stark ansteigt, sobald die Zahl der insgesamt in Beziehung zu setzenden Elemente ein bestimmtes Maß übersteigt. Ein Ausweg aus diesem Dilemma sind entweder Sortierhilfen durch vorgegebene Skalenschemata oder die systematische Auslassung bestimmter Vergleiche. Nicht jedes Element ist mit jedem anderen in Beziehung zu setzen. Die Auslassungen müssen jedoch so ausbalanciert sein, daß möglichst wenig an Information verloren geht. Über solche Darbietungsmuster gibt es bereits eine Reihe einschlägiger Arbeiten (s. COOMBS 1964, S. 42 f.). Ist das Ergebnis eine Rangordnung, wird das Reizmaterial aber in irgendeiner Weise fraktioniert geboten, können Beurteilungsinkonsistenzen sichtbar werden. Wird ζ. B. A größer als Β, Β größer als C, C aber größer als A geschätzt, liegt eine intransitive oder zirkuläre Triade vor (COOMBS 1964, S. 352; KENDALL 1955, S. 148). Kendall gibt ein Verfahren zur Berechnung der Zahl der zirkulären Triaden in einer Matrix von Rangordnungen an. Diese Zahl stellt ein Maß für die Inkonsistenz eines Mehrfachreiz-Rating dar. Eine solche Inkonsistenzprüfung ist natürlich nur in dem Maße möglich, wie die Ratingprozedur das A u f t r e t e n von Intransivitäten erlaubt. Bei der Zusammenfassung der Ergebnisse einer Gruppe von Beurteilern bedarf dieses Inkonsistenzkriterium einer probabilistischen Interpretation. COOMBS (1964, S. 106 f.) definiert drei verschiedene Grade "stochastischer Transitivität".
4.5
Konstante Schätzfehler und systematische Beurteilungstendenzen
Systematische oder konstante Fehler (GUILFORD 1954, S. 278 ff.) nennt man Abweichungen vom " w a h r e n " Wert, die sich durch Zusammenfassung einer genügenden Anzahl von Meßwiederholungen nicht aufheben. COHEN (1969, S. 42) übt Kritik am Begriff des Fehlers in diesem Zusammenhang, da oft die Vergleichsmaßstäbe zur Beurteilung der Fehlerhaftigkeit von Beurteilungen fehlten. Es erscheint uns jedoch vertretbar, von systematischen Fehlern dann zu sprechen, wenn planmäßige Variationen der Schätzoperationen zu bedeutsamen Veränderungen der Schätzwerte führen oder wenn ein Wechsel der Objekte nicht zu den erwarteten Veränderungen der Schätzwerte führt. Varianzanalytisch formuliert handelt es sich also um die Methodenvarianz im Vergleich zur Objektvarianz einerseits und zur Experimentierfehlervarianz andererseits. Variationen der Schätzoperation impliziert Austausch von Beurteilern, Wechsel der Skalentypen, Abwandlung der Instruktionen, verschiedenartiges Arrangement des Reizmaterials, unterschiedliche Einbettung der einzelnen Schätzung im Kontext anderer Schätzoperationen u. ä. (vgl. ausführlich -»• Bd. V: Huber und Schmerkotte, Meßtheoretische Probleme 2.6).
Den neutralen Begriff "systematische T e n d e n z " wird man — COHEN ( 1969) folgend allerdings dann vorziehen, wenn Schätzverfahren nicht eigentlich als Meßverfahren interessieren, sondern nur benutzt werden, um bestimmte kognitive Prozesse zu untersuchen. Bei einer solchen Psychologie des Schätzens und Beurteilens geht es vor allem um die Erforschung der Entstehung und Beeinflußbarkeit "subjektiver Skalen"
114
5. Band: Testen und Messen
1 9 6 4 , S. 1 6 ) . Während man bei der Verwendung eines Schätz Verfahrens als Meßinstrument den subjektiven Spielraum durch präzise Instruktionen, skalierte Vergleichswerte u. ä. einzuengen sucht, geht man bei der Erforschung subjektiver Skalen oft den umgekehrten Weg. Durch systematische Erschwerung der Bedingungen, unter denen geschätzt wird, läßt man neben den "objektiven" Eigenschaften der Beurteilungsobjekte andere Determinanten in größerem Maße zur Wirksamkeit gelangen. Exemplarisch für diese Art des Vorgehens ist die Erforschung des sogenannten autokinetischen Phänomens ( S H E R I F 1 9 3 5 ; S H E R I F UND H O V L A N D 1 9 6 1 , S. 34 f.). In einem sonst völlig abgedunkelten Raum scheint ein feststehender Lichtpunkt für einen Beobachter hin- und herzuschwanken. Wiederholt man diesen Versuch ca. 100 mal hintereinander mit einer Versuchsperson, so werden deren Schätzungen des Ausmaßes der Schwankungen regelmäßiger. Sie halten sich mehr und mehr innerhalb einer Schwankungsbreite und weichen immer weniger voneinander ab. Eine subjektive Skala hat sich herausgebildet. (COOMBS
Wir wollen im folgenden beide Aspekte nicht trennen und Beispiele aus dem umfangreichen Material beider Forschungsbereiche nach den "Quellen der Variation" zu gliedern versuchen. Daran schließt sich eine kurze Erörterung systematischer Tendenzen beim Selbst-Rating und bei Rangordnungsverfahren an. Die Form einer Ratingskala hat einen Einfluß auf Verteilung und Güte der Schätzwerte. Die Hinzufügung von Endgliedern verbreitert die Verteilung der Schätzungen in Richtung der hinzugefügten Kategorie ( H U N T UND VOLKMANN 1937). Ein Einfluß der Kategorienzahl einer Skala auf die Intra- und Interrater-Zuverlässigkeit wie SYMONDS (1924) und N U N N A L L Y (1967, S . 521 f.) ihn vermuten, ist nicht generell nachgewiesen ( B E N D I G 1954a, SCHMIDT 1965, S . 41 f.), sondern hängt offenbar von zusätzlichen Faktoren wie der Heterogenität des Reizmaterials ( B E N D I G 1954b) und der Beurteilererfahrung ( B E N D I G UND S P R A G U E 1954) ab. Andere Skaleneigenschaften wurden ebenfalls auf ihre Auswirkung auf die Zuverlässigkeit und andere Gütekriterien hin untersucht. Je heterogener die Endglieder einer Skala definiert sind, desto größer ist die Rater-Zuverlässigkeit ( B E N D I G 1 9 5 5 ) . Skalen mit durch Verhaltensbeschreibungen definierten Stufen erbringen eine höhere Rater-Zuverlässigkeit, geringeren Halo-Effekt (s. u.) und geringeren Milde-Effekt (s. u.) als Skalen ohne definierte Stufen ( B A R R E T T U. A. 1 9 5 8 ) . Die Hinzufügung einer detaillierten Beschreibung der ganzen Dimension führte bei dieser Untersuchung interessanterweise zu einem Absinken der Gütewerte. Den Ergebnissen der zuletzt zitierten Untersuchung entspricht eine Fülle von Befunden aus psychophysikalischen Untersuchungen über den Einfluß von Standardreizen: Schätzungen in der Nähe von Standardreizen sind genauer und stabiler ( W O O D R O W 1 9 3 3 ; L O N G 1 9 3 7 ; S H E R I F UND HOVLAND 1 9 6 1 , S. 3 1 f . ) .
Das Arrangement der Reizdarbietungen hat ebenfalls einen erheblichen Einfluß auf die Verteilung und die Güte von Schätzungen. Wenn man davon ausgeht, daß der Umgang mit quantitativ abgestuftem Reizmaterial auch ohne spezielle Instruktionen zur Ausbildung subjektiver Skalen führt ( H E L S O N 1959), wird dies verständlich. Diese subjektiven Skalen der einzelnen Rater beeinflussen ihre Interpretation vorgegebener Skalenwerte oft sehr stark ( S H E R I F UND H O V L A N D 1961, S . 38 ff.). Bei der Ausbildung subjektiver Skalen bei homogenem, quantitativ abgestuftem Reizmaterial
4. Kapitel: Ratingmethoden
115
üben die E x t r e m w e r t e die F u n k t i o n von " A n k e r r e i z e n " aus. Manche Reizserien haben einen " n a t ü r l i c h e n " Anker, so bei einer Schätzung von Neigungswinkeln die Winkel von 0 und 9 0 Grad ( K A U F M A N U . A . 1 9 4 7 ) . Vorgegebene Standardreize f u n gieren ebenfalls als Ankerreize (VOLKMANN 1951 ); sie brauchen, um zur Wirksamkeit zu gelangen, nicht unbedingt dargeboten zu werden. Es genügt die Instruktion, sich ein bestimmtes Objekt vorzustellen ( V O L K M A N N 1 9 3 6 ; H U N T UND V O L K M A N N 1937;
HUNT
1941).
Ankerreize, ob sie ausdrücklich als Standardreize eingeführt werden oder nicht, haben nun einerseits — das erwähnten wir schon — eine Auswirkung auf die Genauigkeit und Stabilität der Schätzungen in ihrer Nähe lokalisierter Reizobjekte, andererseits führen sie zu " k o n s t a n t e n " Über- bzw. Unterschätzungen der Reizobjekte in Richtung auf den Ankerwert hin ( R E E S E U. A. 1 9 5 3 ) . Diese Wirkung ist j e d o c h nur zu b e o b a c h t e n , wenn der " A n k e r " innerhalb des Bereichs der übrigen Reizwerte lokalisiert ist. Ist das nicht der Fall, k o m m t es mit wachsendem Abstand des Ankers von der übrigen Reizserie z u n e h m e n d zu dem u m g e k e h r t e n E f f e k t (ROGERS 1941 ; POSTMAN UND M I L L E R 1 9 4 5 ; H E I N T Z 1 9 5 0 ) , nämlich zu einer Über- bzw. Unterschätzung der Reizobjekte vom Ankerreiz f o r t ; die ihm zunächst liegenden Kategorien werden immer weniger b e n u t z t ; die Skala s c h r u m p f t zusammen. Sherif bezeichnet diese P h ä n o m e n e als Assimilations- und K o n t r a s t e f f e k t e von Ankerreizen ( S H E R I F U . A . 1 9 5 8 ; S H E R I F UND H O V L A N D
1961).
Interindividuelle Differenzen der Rater haben in vielfacher Hinsicht einen E i n f l u ß auf Schätzergebnisse (GUILFORD 1954, S. 2 9 4 ff.). Wir greifen hier nur die unterschiedliche Vorerfahrung mit den Reizobjekten als eine Variablenklasse heraus. Man darf davon ausgehen, d a ß Vorerfahrungen zur Ausbildung unterschiedlich differenzierter und zentrierter subjektiver Skalen auf kognitiven und evaluativen Dimensionen führen ( S H E R I F UND H O V L A N D 1 9 6 1 , S . 6 8 ff.). Erfahrene bzw. geübte Rater liefern zuverlässigere Schätzungen als nicht erfahrene ( B E N D I G UND S P R A G U E 1 9 5 4 ; D R I V E R 1 9 4 2 ; G U I L F O R D 1 9 5 4 , S. 2 9 4 f.). In diesen Zusammenhang gehört o f f e n bar auch der sogenannte "Fehler der Tendenz zur Mitte" ( G U I L F O R D 1 9 5 4 , S. 2 7 8 f.). Er besteht in der Neigung, extreme Urteile zu vermeiden und nur den Mittelbereich einer Skala auszunutzen und soll - nach Guilford — besonders bei der Beurteilung von Personen a u f t a u c h e n , die der Rater nicht gut kennt. JOHNSON ( 1 9 5 5 , S. 3 5 3 ff.) interpretiert ihn als Regressionseffekt, der die Genauigkeit der Urteile repräsentiert. Die Auswirkung unterschiedlicher Zentriertheit subjektiver Skalen durch verschiedenartige Vorerfahrungen auf die Verteilung von Schätzwerten wird durch ein Experiment von T R E S S E L T ( 1 9 4 8 ) besonders anschaulich demonstriert: Professionelle Gewichtheber und Uhrmacher haben dieselbe Serie von Gewichten einzustufen; die Gewichtheber s t u f t e n Gewichte als " m i t t e l s c h w e r " ein, die von den Uhrmachern schon als " s c h w e r " beurteilt wurden. Mit unterschiedlicher Zentriertheit subjektiver Skalen auf einer evaluativen Dimension hängt o f f e n b a r auch der sogenannte "Milde-Fehler" ( G U I L F O R D 1 9 5 4 , S. 2 7 8 ) zusammen. Er besteht in der T e n d e n z , gute Bekannte oder seine Mitmenschen allgemein ( C R O N B A C H ( 1 9 6 0 ) spricht in diesem Fall vom generosity error) mehr oder weniger günstig zu beurteilen und resultiert in einer mehr oder weniger schiefen Verteilung.
116
5. Band: Testen und Messen
Der eigene Standort oder Standpunkt des Beurteilers auf der relevanten Dimension fungiert als Ankerreiz. Beim Einschätzen von Körpergrößen ist der Durchschnitt der Schätzwerte in Richtung auf die eigene Körpergröße hin verschoben (HINCKLEY UND RETHLINGSHAFER 1 9 5 1 ) . COHEN ( 1 9 6 9 , S. 1 7 6 ff.) wies bei gegenseitigen Beurteilungen innerhalb einer Gruppe je nach Stellung des Beurteilers innerhalb der Gruppe auf den jeweiligen Beurteilungsdimensionen Kontrast- und Assimilationseffekte nach. Auch der eigene Standpunkt des Beurteilers auf einer Einstellungsdimension wirkt sich, wie SHERIF UND HOVLAND ( 1 9 5 3 ) nachweisen konnten, bei der Beurteilung von "Statements" einer Einstellungsskala im Sinne eines Ankerreizes aus. Bei stark engagierten Beurteilern kommt es zu einer Verlagerung, besonders der neutraleren Statements, in Richtung des der Position des Beurteilers entgegengesetzten Poles (vgl. auch UPSHAW
1962).
Den Einfluß von Beurteilungen einzelner Objekte auf die Beurteilung gleicher oder ähnlicher Objekte haben wir unter dem Stichwort "Arrangement des Reizmaterials" schon erörtert. Es sind jedoch noch andere Kontext-Variable zu nennen. Der prominenteste "konstante" Schätzfehler, der sogenannte "Halo-Effekt" (GUILFORD 1 9 5 4 , S. 279) tritt auf, wenn verschiedene Eigenschaften eines Objektes zu beurteilen sind; er besteht in der Tendenz, "die Beurteilung einzelner Eigenschaften einem globalen, ganzheitlichen Eindruck ... unterzuordnen" (SCHMIDT 1965, S. 30) und führt zu einer "unechten" Erhöhung der Interkorrelationen von Verhaltenseigenschaften (JOHNSON UND VIDULICH 1 9 5 6 ) . COHEN ( 1 9 6 9 , S. 4 7 ) kommt aufgrund eigener Befunde zu dem Schluß, daß in dem Begriff Halo-Effekt verschiedenartige Phänomene — Vergrößerung der Skala, Verminderung der Zahl der Beurteilungsdimensionen, Sympathieeinfluß —, die nicht immer zusammen auftreten müssen, unberechtigterweise zusammengefaßt werden. Man wird jedoch immer mit der Möglichkeit rechnen müssen, daß Schätzungen auf zeitlich und räumlich benachbarten Skalen einander beeinflussen ("Fehlen der Nähe" STOCKFORD UND BISSEL 1 9 4 9 ) , daß für den Beurteiler "logisch" zusammengehörig erscheinende Eigenschaften ähnlich beurteilt werden ("logischer Fehler" NEWCOMB 1 9 3 1 ) und Sympathie und Antipathie die Urteile beeinflussen können (COHEN 1 9 5 9 , S . 5 3 ) .
Eine weitere Kontextvariable beim Schätzen, die allerdings bei der Benutzung von Ratingverfahren als Meßinstrumenten von geringer Bedeutung sein sollte, sind die Schätzungen anderer Beurteiler. Sie dürfte jedoch für die Entstehung subjektiver Skalen im täglichen Leben von großer Bedeutung sein. Experimente mit dem autokinetischen Phänomen zeigen, daß es zu situationsüberdauernden Angleichungen zwischen den Schätzungen zweier Versuchspersonen kommt. Der Assimilationseffekt ist jedoch umso geringer oder schlägt sogar in einen Kontrasteffekt um, je abweichender die Schätzungen einer vorher instruierten Person von denen der Versuchsperson sind (WHITTAKER 1 9 5 8 ) , Die spezifische Problematik systematischer Tendenzen beim Selbstrating — sogenannter "response sets" — sei hier nur erwähnt. Probanden unterscheiden sich in der Neigung, sozial erwünschte Antworten zu geben (EDWARDS 1967, S. 32 ff.), in der Neigung, einer Frage oder einer Aussage eher zuzustimmen als sie zu verneinen (JACKSON 1967, S. 71), und in der Neigung, abweichend, d. h. aus dem üblichen Rahmen fallend zu reagieren (BERG 1967, S. 146 ff.).
4. Kapitel: Ratingmethoden
117
Systematische Tendenzen beim Schätzen und Beurteilen fallen vorwiegend dort ins Gewicht, wo der Rater seine Urteile auf einem Intervall- oder Verhältnisskalenniveau abgeben muß. Dagegen ist die Herstellung von Rangordnungen — besonders nach der Methode des Paarvergleichs - gegenüber den beschriebenen Einflußgrößen offenbar sehr stabil ( S H E R I F UND H O V L A N D 1 9 6 1 , S . 1 1 4 f.). Damit ist es wohl zu erklären, daß es verhältnismäßig wenige Arbeiten über systematische Tendenzen bei Rangordnungsverfahren gibt. Umso bedeutsamer erscheint, daß es COOMBS ( 1 9 6 4 , S. 1 0 7 ff.) gelang, aus seiner "unfolding"-Theorie eine systematische Tendenz - den sogenannten Lateralitätseffekt — beim Präferenz-Rating theoretisch abzuleiten und experimentell zu verifizieren. Dieser Effekt besteht darin, daß eine Rangordnung von Items, die alle diesseits oder jenseits eines persönlichen Ideals auf einer evaluativen Dimension lokalisiert sind, durch Fluktuationen des Idealpunktes nicht betroffen ist und daher vorwiegend ein höheres Niveau "stochastischer Transitivität" zeigt als eine Rangordnung, deren Items auf beiden Seiten des Idealpunktes lokalisiert sind. Um es zu veranschaulichen: Ein Mensch wird die Bevorzugungen zweier Standpunkte eher wechseln, wenn er zwischen ihnen, als wenn er diesseits oder jenseits von beiden steht. Generell scheinen Ratingverfahren, die dem Beurteiler die Aufgabe sehr erleichtern, indem sie ihm lediglich ordinale Urteile über möglichst wenige, konkret vorgegebene, gut vergleichbare Objekte abverlangen, zu genaueren Ergebnissen zu führen. H E Y N S UND L I P P I T T (1954) gelangen nach Durchsicht der Literatur über die Psychologie von Urteilsprozessen zu folgenden Schlußfolgerungen (zit. nach v. C R A N A C H UND F R E N Z 1969, S. 279): 1. Unter optimalen Bedingungen sind ordinale Urteile genauer als Urteile auf einer absoluten subjektiven Skala. 2. Ordinale Urteile sind genauer, wenn gleichzeitig immer nur zwei Objekte verglichen werden. 3. Ordinale Urteile über zwei Objekte sind genauer, wenn diese räumlich und zeitlich nahe aneinander gebracht werden. 4. Ordinale Urteile über zwei in Raum und Zeit benachbarte Objekte sind genauer, wenn die Objekte in allen Dimensionen mit Ausnahme der beurteilten übereinstimmen. Nach v. C R A N A C H UND F R E N Z sprechen diese Prinzipien "gegen ein Ratingverfahren". Eine solche Aussage ist natürlich nur sinnvoll bei einer engeren Definition von Ratingverfahren, als wir sie benutzen. Nach unserer Terminologie sprechen diese Prinzipien vor allem gegen Einzelreizverfahren — außer gegen Standardskalen, bei denen die Standardobjekte derselben Klasse angehören wie die Schätzobjekte; und solche Skalen könnte man auch den Mehrfachreizverfahren zurechnen. Alle Grundformen der Mehrfachreizverfahren erlauben im Prinzip eine Berücksichtigung der Schlußfolgerungen von Heyns und Lippitt.
118
5. Band: Testen und Messen
4.6
Zuverlässigkeit und Gültigkeit von Ratingoperationen
Mit dem Begriff "Zuverlässigkeit eines Ratings" werden unterschiedliche Sachverhalte bezeichnet. Für die meisten Autoren ist die durchschnittliche Interkorrelation zwischen den Beurteilern als Maß für die Beurteilerübereinstimmung zugleich das Zuverlässigkeitskriterium (GUILFORD 1954, S. 395). Andere Autoren ziehen es vor, hier von "Objektivität" zu sprechen und Zuverlässigkeit anders zu definieren (SCHMIDT 1965, S. 43 ff.). Mit der Beurteilerübereinstimmung steht — wie wir zeigen werden — ein anderer Zuverlässigkeitsbegriff in enger Beziehung, bei dem die Schätzungen einzelner Beurteiler als Items eines Tests aufgefaßt werden (WINER 1962). Dabei kann die Zuverlässigkeit des ganzen " T e s t s " oder die durchschnittliche "Itemzuverlässigkeit" bestimmt werden. Von einem solchen Konzept her wird die Aussage sinnvoll, daß sich die Zuverlässigkeit einer Ratingoperation durch Vermehrung der Beurteiler erhöhen läßt. Repliziert man eine Schätzoperation nicht durch verschiedene, sondern durch denselben Beurteiler, so lassen sich in derselben Weise die Zuverlässigkeit der Gesamtoperation sowie die durchschnittliche Zuverlässigkeit einer Einzeloperation bestimmen. Zur Abgrenzung beider Formen der Replikation kann man die Interraterder Intraraterzuverlässigkeit gegenüberstellen. Ganz anders definiert SCHMIDT (1965, S. 46) Zuverlässigkeit, nämlich als "das Maß der relativen Abwesenheit systematischer Beurteilungsfehler, insbesondere des HaloE f f e k t s " . Da zur Aufdeckung systematischer Beurteilungsfehler in der Regel Variationen der Meßoperation (und/oder des Reizmaterials) erforderlich sind, ist zu erwägen, ob es sich hier nicht eher um ein Gültigkeitsmaß handelt. Wie läßt sich nun die Interraterzuverlässigkeit ermitteln und in welcher Beziehung steht sie zur Beurteilerübereinstimmung? In unserer Darstellung folgen wir WINER ( 1 9 6 2 , S . 1 2 4 f f . ) u n d KERLINGER ( 1 9 6 5 , S . 4 3 2 f f . ; v g l . w e i t e r h i n HOYT EBEL 1 9 5 1 ; HAGGARD 1 9 5 8 ; HOYT UND KRISHNAIAH 1 9 6 0 u n d
1941;
BARTKO 1 9 6 6 ) . W e n n
man mit KELLEY (1921) davon ausgeht, daß ein Meßwert aus einer " e c h t e n " Komponente und einer Fehlerkomponente besteht, daß beide Komponenten additiv verknüpft und unkorrelliert sind und daß dementsprechend die Varianz einer Meßreihe aus einem " e c h t e n " Varianzanteil und einem Fehleranteil zusammengesetzt ist, so läßt sich die Zuverlässigkeit eines Meßvorganges als das Verhältnis der "wahren" Varianz zur Gesamtvarianz definieren: r
Voo (1)
r
tt ~ G
tt = Zuverlässigkeitskoeffizient V°°= "wahre Varianz" VQ = Gesamtvarianz .
Da die Gesamtvarianz aus der " w a h r e n " Varianz und der Fehlervarianz {Vf) besteht, läßt sich diese Gleichung u m f o r m e n in Vr - Vf (2)
r„ =
G
oder
(3)
ν, rtt = 1 - - f . V
G
Die letzte Gleichung erlaubte die Berechnung der Zuverlässigkeit, wenn die Fehlervarianz bekannt wäre. Um die Fehlervarianz abschätzen zu können, müssen pro Objekt jedoch mehrere Messungen vorliegen. Damit m u ß aber in der Gleichung (3) Vc durch Vobj, d. h. durch die Varianz der empirisch ermittelten Objektunterschiede
4. Kapitel:
119
Ratingmethoden
ersetzt werden, da in VG nun auch die durch die Meßwiederholungen erzeugte Varianz eingeht : Vf
(4)
rtt = rN = 1 - —L'Obj.
Ν = Zahl der Beurteiler.
Vf und Vobj lassen sich varianzanalytisch schätzen, wobei das mittlere Quadrat der Abweichungen zwischen den Objekten den Schätzwert für Vobj und das mittlere Quadrat der Abweichungen innerhalb der Objekte den Schätzwert für Vf darstellt: (5)
mittl. Quadrat innerhalb der Objekte . mittl. Quadrat zwischen den Objekten
rN = 1
Ein fiktives Beispiel zeigt Darstellung 8:
Beurteiler
1 2
1
2
3
3
2
4
1
2
3
3
0
3
1
0
2
Objekte 4
Darstellung 8a: Fiktive Schätzwerte auf einer fiinfstufigen
Skala mit den
Werten 0 - 4 ;
S u m m e der Quadrate
Quelle der Variation
Freiheitsgrade
mittl. Quadrat
Zwischen den Objekten
6
3
2
Innerhalb der Objekte
12
8
1,5
Total
18
11
Darstellung 8b: Varianzanalyse der fiktiven Schätzwerte aus Darstellung 8a. G e m ä ß ( 5 ) rN
= 1- ^
= 0,25.
vier Objekte, drei Beurteiler.
Man kann diesen Zuverlässigkeitskoeffizienten folgendermaßen interpretieren: Wird der Meßvorgang mit einer anderen Zufallsstichprobe von drei Beurteilern an den gleichen Objekten wiederholt, ist mit einer Korrelation der beiden Meßreihen in der Höhe von 0,25 zu rechnen. Dabei wird angenommen, daß die Differenz zwischen den Mittelwerten der Beurteiler einen Teil der Fehlervarianz repräsentiert. Man kann sich jedoch auf den Standpunkt stellen, daß die Benutzung unterschiedlicher subjektiver Skalen durch die Beurteiler ein systematischer Fehler ist, den man der Meßfehlervarianz nicht zuschlagen sollte. Dementsprechend kann man die Einzelschätzungen adjustieren, so daß keine Mittelwertunterschiede zwischen den Beurteilern mehr bestehen, und die Zuverlässigkeitsschätzung aufgrund der neuen Werte vornehmen. Dabei müssen allerdings zwei Freiheitsgrade für die Varianz innerhalb der Objekte, die durch den Adjustierungsvorgang eliminiert worden sind, abgezogen werden (8 — 2 = 6).
120
S. Band: Testen und Messen
Darstellung 9: Beurteiler 1
Beurteiler 2
Beurteiler 3
Gesamtwert
8
4
12
Mittelwert
2
1
3
Abweichungen vom Gesamtmittelwert
0
-1
G = 6 :3 = 2
+1
a: Berechnung der Abweichungen individueller Mittelwerte vom Gesamtmittelwert (für die Schätzwerte aus Darstellung 8). Quelle der Variation
Beurteiler
Objekte
1
2
3
1
3
3
3
2
1
3
2
3
1
2
1
1
1
4
b: Adjustierte Schätzwerte.
(6)
Quadratsumme
Freiheitsgrade
Zwischen den Objekten
6
3
2
Innerhalb der Objekte
4
6
0,66
10
9
Total
mittl. Quadrat
c: Varianzanalyse der adjustierten Schätzwerte.
m i t t l . Q u a d r a t i n n e r h a l b der O b j e k t e (adj.)
= 1
0,66
m i t t l . Q u a d r a t zwischen d e n O b j e k t e n
= 0,66.
H i e r n a c h ist die Zuverlässigkeit also wesentlich h ö h e r . Interessanterweise k a n n m a n zu d e m s e l b e n Wert gelangen, w e n n m a n zur S c h ä t z u n g des M e ß f e h l e r s nicht das m i t t lere Q u a d r a t i n n e r h a l b der O b j e k t e , s o n d e r n das m i t t l e r e Q u a d r a t der Wechselwirk u n g zwischen O b j e k t e n u n d Beurteilern b e n u t z t .
Quelle der Variation
Quadratsumme
Freiheitsgrade
mittl. Quadrat
Zwischen den Objekten
Darstellung 10: Zweite Varianzanalyse der fiktiven Schätzwerte aus Darstellung 8.
Zwischen den Beurteilern Wechselwirkung Total
0,66 18
11
4. Kapitel: Ratingmethoden
(7)
„ rN = 1
mittl. Quadrat der Wechselwirkung mittl. Quadrat zwischen den Objekten
= 1
0,66 — 2
121
0,66
Die Benutzung des Varianzanteils aus der Wechselwirkung zwischen den Objekten und Beurteilern zur Schätzung des Meßfehlers führt also zu einer Bestimmung der Zuverlässigkeit, bei der Mittelwertdifferenzen zwischen den Schätzwertreihen der einzelnen Beurteiler als systematische Fehler nicht dem Meßfehler zugerechnet werden. In welcher Beziehung steht nun die Beurteilerübereinstimmung zur Interraterzuverlässigkeit? WINER (1962, S. 130 f . ) zeigt, daß die Beurteilerübereinstimmung, wenn man sie als durchschnittliche Interkorrelation definiert, fast gleichbedeutend ist mit der durchschnittlichen Zuverlässigkeit einer Meßoperation durch nur einen Beurteiler, wenn man zu deren Berechnung die adjustierten Daten bzw. den Varianzanteil aus der Wechselwirkung zur Schätzung des Meßfehlers benutzt. Nach folgenden Formeln läßt sich die Zuverlässigkeit einer einzelnen Meßoperation — d e r s o g e n a n n t e Intraklassenkoeffizient
(s. a. FISHER 1 9 5 3 ; B A R T K O 1 9 6 6 ) -
be-
rechnen : _ 1
mittl. Quadrat zwischen den Objekten - mittl. Quadrat innerhalb der Objekte mittl. Quadrat zwischen den Objekten + ( N — 1) mittl. Quadrat innerhalb der Objekte
ι _ mittl. Quadrat zwischen den Objekten — mittl. Quadrat innerhalb der Objekte ( a d j . ) 1
η_ 1
mittl. Quadrat zwischen den Objekten + ( N — 1) mittl. Quadrat innerh. d. Obj. ( a d j . ) mittl. Quadrat zwischen den Objekten - mittl. Quadrat der Wechselwirkung mittl. Quadrat zwischen den Objekten + ( N - 1) mittl. Quadrat der Wechselwirkung '
Bei unserem Beispiel aus Darstellung 8 ergibt sich: 2 - 1 , 5 1
r
1
0,1
2 + ( 3 — 1) 1,5
= r ' = 1
2 -
0,66
=
;
2+ (3-1)0,66
0,40.
r( bzw. r'l ist — wie gesagt — ein guter Annäherungswert für die mittlere Beurteilerinterkorrelation als Kriterium der Beurteilerübereinstimmung. Mit Hilfe der Spearman-Brown-Voraussageformel (GUILFORD 1954, S. 353 f . ) kann man die Zuverlässigkeit für einen Test von der fc-fachen Länge schätzen:
(11)
k,vi 1 +(k-
l)rj
Setzt man bei drei Beurteilern (k = Ν = 3 ) die errechneten Werte für die Zuverlässigkeit der Einzelmessung in diese Formel ein, erhält man wieder die schon errechneten Zuverlässigkeitskoeffizienten für den gesamten Rating-Vorgang: 3
0,1
1 + ( 3 -
= N
=
0,25
1)0,1 3
0,4 :
1 + ( 3 - 1 )
0,4
=
0,66.
122
5. Band: Testen und Messen
Diese Rechenoperation zeigt auch, daß sich die Zuverlässigkeit des gesamten Ratings im Prinzip durch eine Erhöhung der Beurteilerzahl steigern läßt. Bei sehr unterschiedlicher Beurteilerqualität kann manchmal allerdings der gewünschte Effekt ausbleiben. Es empfiehlt sich in solchen Fällen, vor der Zusammenfassung der individuellen Schätzwerte eine Gewichtung vorzunehmen (OVERALL 1965). Liegen die Schätzdaten auf einem Rangskalenniveau vor, kann man nach WINER (1962, S. 136 ff.) die Interraterzuverlässigkeit auf dieselbe Weise bestimmen. Ein fiktives Beispiel gibt Darstellung 11 ; es wird dabei in der üblichen Weise eine Varianzanalyse durchgeführt.
Quelle der Variation
Quadratsumme
Zwischen den Objekten Beurteiler
Zwischen den
1
2
3
Beurteilern
1
1
2
1
Wechselwirkung
2
2
1
2
(od. innerhalb
3
3
4
4
4
3
Objekte 4
Freiheitsgrade
12,33
mittl. Quadrat 4,11
0
2
2,67
6
0,445
der Objekte) Total
15
11
Darstellung 11 : Fiktive Schätzdaten auf d e m
Varianzanalyse der fiktiven Schätzwerte auf dem
Rangskalenniveaus.
Rangskalenniveau.
Die errechneten Werte setzen wir in die Formel (10) ein. r 1' =
4 :, 1 1 - 0 , 4 4 5 = 0,733 4 , 1 1 + ( 3 - 1 ) 0,445
Für Schätzdaten auf dem Rangskalenniveau ist ry = r[ = = rR, d. h. die durchschnittliche Zuverlässigkeit einer einzelnen Schätzoperation — nach den Formeln (8), (9) oder (10) ermittelt — entspricht exakt der durchschnittlichen Beurteilerinterrangkorrelation (T R ). rR steht in folgender Beziehung zu W, dem Konkordanzkoeffizienten (SIEGEL 1956, S . 232): (12)
rR
NW - 1 =— j-
Ν = Anzahl der Beurteiler.
W ist folgendermaßen definiert: Quadratsumme zwischen den Objekten (13)
W =
Gesamte Quadratsumme
4. Kapitel: Ratingmethoden
Für unsere fiktiven Schätzdaten ergibt das:
W =
12,33 15
123
= 0,822.
In die Formel (12) eingesetzt erhalten wir wieder: _ 3 0,822 : rRR = = 0,733. 3-1 Die Zuverlässigkeit der gesamten Schätzoperation läßt sich wieder mit der SpearmanBrown-Voraussageformel (11) oder mit einer von TAYLOR (1968) angegebenen Variante NW - 1 (14)
'N
=
(TV-l)W
ermitteln
Koeffizienten der Beurteilerübereinstimmung
· auf dem Nominalskalenniveau
GUTTMAN ( 1 9 4 1 ) , GOODMAN UND KRUSKAL ( 1 9 5 4 ) , SCOTT ( 1 9 5 5 ) u n d
haben
COHEN
(1960) entwickelt.
Es gibt zahlreiche empirische Untersuchungen über die Zuverlässigkeit von Ratingverfahren. Einen Überblick — soweit es um Personenbeurteilungen geht — geben u. a. SCOTT ( 1 9 6 8 ) u n d COHEN ( 1 9 6 9 , S. 6 6 f f . ) . S c o t t , in dessen Bericht es u m d i e
Beurteilung der Angepaßtheit von Personen geht, formuliert einige Bedingungen, unter denen ein hoher Koeffizient der Beurteilerübereinstimmung (zwischen 0,6 — 0,8) zu erwarten ist, nämlich dann, wenn die Schätzungen sich auf spezifizierte Verhaltensweisen beziehen, wenn die einzelnen Beurteiler in der gleichen Weise die beurteilte Eigenschaft definieren und wenn die Auswahl der beurteilten Personen in bezug auf die beurteilte Eigenschaft heterogen zusammengesetzt ist (s. o.) Demgegenüber erreicht man — wie der Arbeit von COHEN (1969, S. 69) zu entnehmen ist — nur sehr niedrige Intraklassenkoeffizienten (r l ), wenn man ungeschulte Beurteiler vor die Aufgabe stellt, den Ausprägungsgrad von Persönlichkeitseigenschaften anhand von Photographien oder Handschriften einzuschätzen. Graphologisch geschulte Beurteiler erreichten bei der Beurteilung von Handschriften eine größere Übereinstimmung (durchschnittlicher Intraklassenkoeffizient r x = 0,34). In derselben Höhe lagen Laienbeurteilungen von Persönlichkeitseigenschaften bei persönlicher Bekanntschaft. Skalen mit einer sehr viel höheren Zuverlässigkeit konnte COHEN (1969, S. 22 ff.) zur Erfassung einzelner beobachtbarer Merkmale von Handschriften und Porträt-Photographien entwickeln. Eine hohe Beurteilerübereinstimmung ist offenbar in der Regel nur bei der Beurteilung spezifizierter manifester Merkmale zu erwarten. Andererseits läßt sich die Zuverlässigkeit einer Ratingoperation - selbst bei nur geringer Beurteilerübereinstimmung - durch eine Erhöhung der Beurteilerzahl erheblich steigern. COHEN (1969, S. 71 f.) gibt Durchschnittswerte von TN = 80 und TN = 83 bei Τλ = 0,09 und = 0,11 (über 40 Vpn.) an. Der Einsatz einer so großen Beurteilergruppe ist in der Praxis natürlich unökonomisch. Ein hoher Zuverlässigkeitskoeffizient — ob durch hohe Beurteilerübereinstimmung oder hohe Beurteilerzahl erzielt — bietet aber noch keine Garantie dafür, daß eine Merkmalsausprägung spezifisch erfaßt worden ist. Die Beurteiler haben vielleicht nur auf unspezifische Charakteristika des Merkmals in mehr oder weniger ähnlicher Wei-
124
5. Band: Testen und Messen
se reagiert. Hier setzt die Kritik einiger Autoren ( G U I L F O R D U. A. 1 9 6 2 ; SCHMIDT 1965) an der Verwendung der Beurteilerübereinstimmung als allgemeinem Kriterium für die Abwesenheit von Beurteilungsfehlern ein. Systematische Beurteilungsfehler werden durch Zuverlässigkeitsschätzungen nicht erfaßt. Ob eine Meßoperation spezifisch das erfaßt, was sie erfassen soll, ist die Frage nach ihrer Gültigkeit. Ohne auf die verschiedenen Begriffe der Gültigkeit einzugehen (s. C R O N B A C H UND M E E H L 1 9 5 5 ; BECHTOLDT 1 9 5 9 ; KERLINGER 1 9 6 5 , S. 4 4 4 ff.) kann man mit CAMPBELL UND F I S K E ( 1 9 5 9 ) feststellen, d a ß die Gültigkeit einer Meßoperation - außer, wenn es um die "inhaltliche" Gültigkeit geht — immer durch den Vergleich mit den Ergebnissen anderer Meßoperationen ermittelt wird. Gültigkeitskriterien sind dann die theoretisch zu erwartende Korrelation (konvergierende Validität) und/oder die theoretisch zu erwartende Nicht-Korrelation (diskriminierende Validität) mehrerer Meßergebnisse. Vgl. auch -» Bd. V: Huber und Schmerkotte, Meßtheoretische Probleme 2.7.
Nun ist der nicht sehr o f t untersuchte Aspekt der diskriminierenden Gültigkeit für Ratingverfahren offensichtlich besonders wesentlich, da der mit dem Begriff Haloeffekt zu umschreibende Komplex systematischer Beurteilungsfehler gerade zu überh ö h t e n Eigenschaftsinterkorrelationen führt ( J O H N S O N UND VIDULICH 1 9 5 6 ) . Einen Analyseplan zur Ermittlung gerade solcher Fehler schlug G U I L F O R D ( 1 9 5 4 , S. 2 8 0 ff.) vor. Er wurde u. a. von J O H N S O N UND VIDULICH ( 1 9 5 6 ) und SCHMIDT (1965) benutzt. Diese Autoren ließen mehrere Beurteiler mit vergleichbaren Skalen mehrere Eigenschaften verschiedener Personen einschätzen. Die relative Größe der Wechselwirkungsvarianz zwischen Eigenschaften und Beurteilern galt als Kriterium für das Vorliegen systematischer Fehler. Trotz der Kritik von C O H E N ( 1 9 6 9 , S. 4 7 ) am benutzten varianzanalytischen Modell darf man wohl in dem Analyseplan von Guilford einen interessanten Ansatz zur Erfassung eines Aspekts diskriminierender Gültigkeit erblicken. Einen Analyseplan zur gleichzeitigen Erfassung konvergierender und diskriminierender Gültigkeit konzipierten CAMPBELL UND F I S K E ( 1 9 5 9 ) . Danach müssen jeweils mehrere Methoden zur Erfassung mehrerer Eigenschaften eingesetzt werden. Das Resultat ist eine sogenannte "Multitrait-Multimethod-Matrix" von Interkorrelationen. Anhaltspunkt für die Gültigkeit der Methoden ist die Höhe ihrer Interkorrelationen bei der Erfassung jeweils einer Eigenschaft im Verhältnis zu der Höhe der Interkorrelationen zwischen verschiedenen Eigenschaften. Es wird also gefragt, inwieweit die Instrumente in der Lage sind, zwischen verschiedenen Eigenschaften zu "diskriminieren", und inwieweit die mit verschiedenen Methoden durchgeführten Messungen "konvergieren". Bei der Analyse älterer Arbeiten, bei denen Ratingmethoden zur Einschätzung von Persönlichkeitseigenschaften verwendet wurden, konnten CAMPBELL UND F I S K E (1959) fast durchgängig einen sehr hohen Varianzanteil der Methoden, also eine geringe diskriminierende Validität aufweisen. Eine von ihnen selbst durchgeführte Untersuchung mit drei verschiedenen Rater-Kategorien (Selbstrating, Rating der Versuchspersonen untereinander, Rating durch die Versuchsleiter) führte zu einem verhältnismäßig befriedigenden Ergebnis in bezug auf Eigenschaftsdiskrimination und Methodenkonvergenz. Allerdings hatten die Beurteiler die Aufgabe, "behavior which can be directly observed on the surface" zu beurteilen, und die ausdrückliche Anweisung " t o disregard any inferences about underlying dynamics or causes"
4. Kapitel: Ratingmethoden
12 5
1959, S. 102). Wir treffen hier auf die gleiche Bedingung, die auch für die Höhe der Beurteilerübereinstimmung als bedeutsam herausgestellt wurde: Eine akzeptabel hohe Gültigkeit — nach dem von Campbell und Fiske vorgeschlagenen Kriterium — ist offenbar nur bei der Beurteilung umschriebener manifester Merkmalsausprägungen zu erwarten. Kürzlich haben LANGER UND SCHULZ V. THUN (1974) aufgewiesen, daß auch globale, deutende Schätzungen komplexer Sachverhalte ("intuitives Rating") einen bedeutsamen heuristischen Wert besonders im Frühstadium eines Forschungsvorhabens haben können, wenn bestimmte Voraussetzungen beachtet werden. Ist über die Beurteilungsobjekte mehr bekannt, bzw. erhöhen sich die Ansprüche an Zuverlässigkeit und Gültigkeit der Schätzwerte im weiteren Verlauf der Forschung, empfehlen Langer und Schulz v. Thun jedoch Präzisierung der Merkmalsdimensionen und -ausprägungsstufen im Sinne einer ausgearbeiteten Standardskala ("konzeptorientiertes Rating") und intensives Beurteilertraining. (CAMPBELL UND FISKE
Unsere bisherigen Ausführungen über empirisch ermittelte Zuverlässigkeit und Gültigkeit bezogen sich auf Ratingverfahren, die wir den Einzelreizmethoden zurechnen. Sind nicht für Mehrfachreizverfahren, insbesondere, wenn die Prinzipien von Heyns und Lippitt (s. o.) berücksichtigt werden, günstigere Ergebnisse zu erwarten? Diese Frage läßt sich zur Zeit noch nicht schlüssig beantworten. Es gibt kaum Untersuchungen, in denen die gleichen Sachverhalte sowohl mit Einzelreiz- als auch mit Mehrfachreizverfahren erfaßt wurden. Das mag einmal daran liegen, daß beide Grundtypen nicht ohne weiteres zu vergleichbaren Ergebnissen führen. Zwei sich so grundsätzlich voneinander unterscheidende Verfahren wie beispielsweise eine numerische Ratingskala und der Paarvergleich liefern zunächst unterschiedliche Informationen, die mit Hilfe eines Skalierungsmodells erst zu vergleichbaren Daten transformiert werden müssen (COOMBS 1964, S. 5 2 f f ; TORGERSON 1 9 5 8 , S . 1 5 9 f f ) .
Das mag zum anderen daran liegen, daß bei einer größeren Anzahl von Schätzobjekten ein vollständig durchgeführter Paarvergleich unpraktikabel und die Herstellung einer simplen Rangordnung unzweckmäßig erscheinen mag, praktikablere Zwischenlösungen bislang aber noch schwierig zu planen und auszuwerten sind (COOMBS 1964, S. 32 ff.). Das mag schließlich noch damit zusammenhängen, daß eine u. E. zu enge Definition von Ratingverfahren (auch T E N T (1970, S. 853 ff.) hält in seinem sehr gründlichen Referat über Schätzverfahren in der Unterrichtsforschung an der Guilford'schen Klassifikation fest) bisher wenig dazu anregte, auf den traditionellen Anwendungsfeldern von Schätzmethoden auch Mehrfachreizverfahren auszuprobieren.
126
5. Band:
Testen
und
Messen
Literaturverzeichnis R. P., A Technique and a Model for Multidimensional Attitude Scaling, in: American Psychologist 9, 1954, S. 319.
ABELSON,
F., Dimensions of Similarity, in: American of Psychology 63, 1950, S. 516-556.
ATTNEAVE,
R. S., E. K. T A Y L O R , J. M . P A R K E R UND S. L. M A R T E N S , Rating Scale Content: I. Scale Information and Supervisory Ratings, in: Personnel Psychology 11, 1958, S. 333-346.
BARRETT,
The Intraclass Correlation Coefficient as a Measure of Reliability, in: Psychological Reports 19, 1966, S. 3-11.
BARTKO, J. J.,
BECHTOLDT, H . 1 9 5 9 , S.
P., Construct Validity: A Critic, in: American Psychologist
14,
619-629.
A. W., Reliability and the Number of Rating Scale Categories, in: Journal of Applied Psychology 38, 1954a, S. 38-40.
BENDIG,
A. W., Reliability of Short Rating Scales and the Heterogeneity of the Rated Stimuli, in: Journal of Applied Psychology 38, 1954b, S. 167-170.
BENDIG,
A. W. UND J. S P R A G U E , Rater Experience and the Reliability of Case History Ratings of Adjustment, in: Journal of Consulting Psychology 8, 1954, S. 207-
BENDIG,
211.
The Deviation Hypothesis, in: J . A. B E R G (Hrsg.), Response Set in Personality Assessment, Chicago 1967, S. 146-190.
BERG, J. Α . ,
Α., Comparison of Forced and Unforced Q-Sorting Procedures, in: Educational and Psychological Measurement 16, 1956, S. 481 -493.
BLOCK, J.
J. Α., A Comparison Between Ipsative and Normative Ratings of Personality, in: Journal of Abnormal and Social Psychology 54, 1957, S. 50-54.
BLOCK,
R. D. UND L. V. J O N E S , The Measurement and Prediction of Judgment and Choice, San Francisco/Cambridge/London/Amsterdam 1968.
BOCK,
D. T . UND D. W. F I S K E , Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix, in: Psychological Bulletin 56, 1959, S. 81-105.
CAMPBELL,
CATTELL,
R. B., Personality and Motivation, New York 1957.
J., A Coefficient of Agreement for Nominal Scales, in: Educational and Psychological Measurement 20, 1960, S. 37-46.
COHEN,
R., Systematische Tendenzen bei Persönlichkeitsbeurteilungen, Bern/Stuttgart/Wien 1969.
COHEN,
COOMBS, C .
H., A Theory of Data, New York 1964.
H.-G. F R E N Z , Systematische Beobachtung, in: C . F . G R A U M A N N (Hrsg.), Handbuch der Psychologie, Bd. 7, 1. Halbband (Sozialpsychologie), Göttingen 1969.
C R A N A C H , Μ . V. UND
CRONBACH,
L. J., Essentials of Psychological Testing, New York 1960.
P. E . M E E H L , Construct Validity and Psychological Tests, in: Psychological Bulletin 52, 1955, S. 281-302.
C R O N B A C H , L . J . UND
4. Kapitel: Ratingmethoden
127
R . S., Training as a Means of Improving Employee Performance Ratings, in: Personnel 18, 1942, S. 364-370.
DRIVER,
EBEL, R. L., Estimation of the Reliability of Ratings, in: Psychometrika 16, 1951, S. 407-424. EDWARDS,
A. L., Edwards Personal Preference Schedule, New York 1954.
EDWARDS,
A. L., Techniques of Attitude Scale Construction, New York
1957.
A. L . , The Social Desirability Variable, in: J . A. B E R G (Hrsg.), Response Set in Personality Assessment, Chicago 1967, S. 32-47.
EDWARDS,
G., A Direct Method for Multidimensional Ratio Scáling, in: Psychometrika 28, 1963, S. 3-41.
EKMANN,
FECHNER, FISHER
G. T., Elemente der Psychophysik, Leipzig 1860.
, R. Α., Statistical Methods for Research Workers, New York 1958.
L. A. UND W. H. K R U S K A L , Measures of Association for Cross Classifications, in: Journal of the American Statistical Association 49, 1954, S. 732-764.
GOODMAN,
GUILFORD, J . GUILFORD,
P., Personality, New York/Toronto/London
1959.
J. P., Psychometric Methods, New York, 2. Aufl. 1954, zuerst 1936.
J. P., P. R. C H R I S T E N S E N , G . T A A T E UND R. C . W I L S O N , Ratings should be scrutinized, in: Educational and Psychological Measurement 22, 1962, S. 439447.
GUILFORD,
An Outline of the Statistical Theory of Prediction, in P. H O R S T (Hrsg.), The Prediction of Personal Adjustment, New York 1941.
GUTTMAN, L.,
HAGGARD,
Ε. Α., Intraclass Correlation and the Analysis of Variance, New York 1958.
R. K . , The Effect of Remote Anchoring Points upon the Judgment of Lifted Weights, in: Journal of Experimental Psychology 40, 1950, S. 584-591.
HEINTZ,
Adaption-Level Theory, in: S. K O C H (Hrsg.), Psychology: a Science, Bd. l , N e w York 1959, S. 565-621.
HELSON, H . ,
A
Study of
R. W. UND R. LIPPITT, Systematic Observational Techniques, in: G. L I N D Z E Y (Hrsg.), Handbook of Social Psychology, Vol. I, Reading, Mass. 1954.
HEYNS,
Value Judgments of Heights of Men by College Students, in: Journal of Psychology 31, 1951, S. 257-296.
H I N C K L E Y , E . UND D . R E T H L I N G S H A F E R ,
HOFSTÄTTER, P. R . , HOYT
Gruppendynamik, Hamburg 1957.
, C. J., Test Reliability Estimated by Analysis of Variance, in: Psychometrika 6, 1941, S. 153-160. J. UND P . R. K R I S H N A I A H , Estimation of Test Reliability Analysis of Variance Technique, in: Journal of Experimental Education 28, 1960, S. 257-259.
HOYT, C.
HUNT, A. W., Anchoring Effects in Judgment, in: American Journal of Psychology 54, 1941, S. 395-403. A. UND J. V O L K M A N N , The Anchoring of an Effective Scale, in: American Journal of Psychology 49, S. 88-92.
HUNT, W.
Acquiescence Response Styles, in: J . A. B E R G (Hrsg.), Response Set in Personality Assessment, Chicago 1967, S. 71 -114.
JACKSON, D . N . ,
128
5. Band: Testen und Messen
JOHNSON, D. M., T h e Psychology of T h o u g h t and J u d g m e n t , New York 1955. Experimental Manipulation of the Halo E f f e c t , in: Journal of Applied Psychology 40, 1956, S. 1 3 0 - 1 3 4 .
J O H N S O N , D . M . UND R . N . V I D U L I C H ,
JONES, Α., Distribution of Traits in Current Q-Sort-Methodology, in: Journal of Abnormal and Social Psychology 53, 1965, S. 9 0 - 9 5 . T. W . R E E S E , J. VOLKMANN UND S. R O G E R S , Accuracy, Variability and Speed of Adjusting an Indicator to a Required Bearing, Zit. nach: D. M. JOHNSON, The Psychology of T h o u g h t and J u d g m e n t , New York 1955.
KAUFMAN, E . L.,
KELLEY, T. L., T h e Reliability of Test Scores, in: Journal of Educational Research 3, 1921, S. 3 7 0 - 3 7 9 . KELLY, G . Α . ,
The Psychology of Personal Constructs, New York
1955.
KENDALL, M. G., Rank Correlation Methods, 2. Aufl. New York 1955. KERLINGER, F. Ν., F o u n d a t i o n s of Behavioral Research, New York 1965. A Classification and Evaluation of Personnel Rating Methods, in: Journal of Applied Psychology 31, 1947, S. 6 1 7 - 6 2 5 .
KNAUFT , Ε . B.,
J. UND F . S C H U L Z V. T H U N , Messung komplexer Merkmale in Psychologie und Pädagogik, München 1974.
LANGER,
A Study of the E f f e c t of Preceding Stimuli u p o n J u d g m e n t of A u d i t o r y Intensities, in: Archives of Psychology 209, 1937.
LONG, L.,
M A Y N T Z , R . , Κ . H O L M UND P . H Ü B N E R ,
Einführung in die M e t h o d e n der empirischen
Soziologie, Köln/Opladen 1969. MESSICK, S. J., T h e Perception of A t t i t u d e Relationships, PH. D. Thesis, Princeton University 1954. MINER, J. Β., The Evaluation of a Method for Finely Graduated Estimates of Ability, in: Journal of Applied Psychology 1, 1917, S. 1 2 3 - 1 3 3 . NEWCOMB, T., An Experiment Designed t o Test t h e Validity of a Rating Technique, in: Journal of Educational Psychology 22, 1931, S. 1 7 9 - 2 8 9 . NUNNALLY, J., Psychometric T h e o r y , New York 1967. OSGOOD,C, G. Suci UND P. TANNENBAUM, The Measurement of Meaning, Urbana, 111. 1957.
E., Reliability of Composite Ratings, in: Educational and Psychological Measurement 25, 1965, S. 101 1 - 1 0 2 2 .
OVERALL, J.
On t h e Relationship of Intelligence to Size and Shape of Head and other Physical and Mental Characteristics in: Biometrica 5, 1907, S. 1 0 5 - 1 4 6 .
PEARSON, K . ,
L . UND G. A. M I L L E R , Anchoring of T e m p o r a l J u d g m e n t s , in: American Journal of Psychology 58, 1945, S. 4 3 - 5 3 .
POSTMAN,
P., T . W . R E E S E , J. VOLKMANN UND H. H. C O R B I N , Psychophysical Research - S u m m a r y R e p o r t , 1 9 5 3 , zit. nach: M . S H E R I F UND C . J. H O V L A N D , Social J u d g m e n t , New Haven 1961.
REESE, E.
ROGERS, S.,
1941.
T h e Anchoring of Absolute J u d g m e n t s , in: Archives of Psychology
237,
4. Kapitel: Ratingmethoden
129
SCHMIDT, H. D., Die Beurteilung des menschlichen Verhaltens durch Rating-Skalen, Dissertation, Bonn 1965. Reliability of Content Analysis: The Case of Nominal Scale Coding, in: Public Opinion Quarterly 19, 1955, S. 3 2 1 - 3 2 5 .
SCOTT, W . Α . ,
Concepts of Normality, in: E . F . BORGATTA UND W . W . LAMBERT (Hrsg.), Handbook of Personality Theory und Research, Chicago 1968.
SCOTT, W . Α . ,
Testing Measuring, and Assessing People, in: E . F . BORGATTA UND (Hrsg.), Handbook of Personality and Research, Chicago 1968, S. 5 2 9 - 6 2 5 .
SECHREST, L . ,
W . W . LAMBERT
SHERIF, M., A Study of Some Social Factors in Perception, in: Archives of Psychology 187, 1935. C. J. HOVLAND, Judgmental Phenomena and Scales of Attitude Measurement, in: Journal of Abnormal and Social Psychology 48, 1953, S. 135-141.
S H E R I F , M . UND
C. J . HOVLAND, Assimilation and Contrast Effects of Anchoring Stimuli on Judgments, in: Journal of Experimental Psychology 55, 1958, S. 150-155.
S H E R I F , M . , D . TAUB UND
SHERIF,
M.
SIXTL, F . ,
UND
C. J.
HOVLAND,
Social Judgment, New Haven 1961.
Meßmethoden der Psychologie, Weinheim
STEPHENSON, W . ,
1967.
The Study of Behavior, Chicago 1953.
Factors Involved in Establishing a Merit-Rating Scale, in: Personnel 26, 1949, S. 94-118.
STOCKFORD, L . UND H . W . BISSELL,
On the Loss of Reliability due to Coarseness of the Scale, in: Journal of Experimental Psychology 7, 1924, S. 4 5 6 - 4 6 0 .
SYMONDS, P . M . ,
TAYLOR, J. Β., Rating Scales as Measures of Clinical Judgment: A Method for Increasing Scale Reliability and Sensitivity, in: Educational and Psychological Measurement 28, 1968, S. 7 4 7 - 7 6 6 . Schätzverfahren in der Unterrichtsforschung, in: Κ . INGENKAMP (Hrsg.), Handbuch der Unterrichtsforschung, Teil 1, Weinheim/Berlin/Basel 1970.
TENT, L.,
THURSTONE, L. L., The Measurement of Values, Chicago 1959. TORGESON, W .
S., Theory and Methods of Scaling, New York
1958.
E., The Effect of the Experiences of Contrasted Groups upon the Formation of a New Scale of Judgment, in: Journal of Social Psychology 27, 1948, S. 2 0 9 - 2 1 6 .
TRESSELT, M .
S., Own Attitude as an. Anchor in Equal-Appearing Intervals, in: Journal of Abnormal and Social Psychology 1962, S. 8 5 - 9 6 .
UPSHAW, H .
The Method of Single Stimuli, in: American Journal of Psychology 44, 1932, S. 808.
VOLKMANN, J . ,
VOLKMANN, J . ,
The Anchoring of Absolute Scales, in: Psychological Bulletin
33,
1 9 3 6 , S. 7 4 2 - 7 4 3 .
VOLKMANN, J., Scales of Judgment and their Implications for Social Psychology, in: J. H . ROHRER UND M . SHERIF (Hrsg.), Social Psychology at the Crossroads, New York 1951.
130
5. Band: Testen und Messen
WHITTAKER , J. O., The Effects of Experimentally Introduced Anchorages upon Judgments in the Autokinetic Situation, Doctorate Dissertation, Univ. of Oklahoma, 1958.
WINER, B. J., Statistical Principles in Experimental Design, New York 1962. WOODROW, H., Weight Discrimination with a Varying Standard, in: American Journal of P s y c h o l o g y 4 5 , 1 9 3 3 , S. 3 9 1 - 4 1 6 .
5.
Skalierungsverfahren von Dieter Betz
5.1
Grundlagen
Wissenschaft baut ein Modell einer Wirklichkeit. Beobachtbare oder hypostasierte Ereignisse gehen in dieses Modell als Variable, die entsprechenden Zusammenhänge zwischen ihnen als Gesetze ein (bzw. werden dort abgeleitet und nach entsprechender Rückübersetzung in der Realität wieder aufgesucht). In qualitativem Sinne ist der Vorgang der Skalierung identisch mit der Gewinnung der Variablen für das Modell aus beobachtbaren Ereignissen der Realität. Sie ist damit die Voraussetzung für jede allgemeine, d. h. über die beobachtete Stichprobe hinausgehende Erklärung von Zusammenhängen. Die Wahl des Modells ist grundsätzlich frei. Als Kriterium kann nur die Güte der Abbildung dienen, die ihrerseits an Sekundärkriterien wie dem Eintreffen von Voraussagen oder dem dazu komplementären Zwang zur Exhaustion abgelesen werden muß (HOLZKAMP 1968). Die freie Wahl des Modells impliziert, daß Variablen und Gesetze weitgehend freie Erfindungen des Wissenschaftlers sind und bleiben. Dieser pflegt die Variablen zu definieren und zu skalieren, die er sich wünscht. Geringe Veränderungen des Vorgehens beim Skalierungsexperiment oder in der Auswertung können die Variablen stark beeinflussen.
5.1.1
Die Vorgänge bei der Skalierung
Experimentalhandlung und skalenbildende Funktion: Eine Variable entsteht durch die Anwendung eines Skalierungsverfahrens auf die Realität. Von "außen" gesehen, beginnt die Skalierung im konkreten Fall mit der Tätigkeit von Versuchspersonen (Vpn). Die Auswahl dieser Vpn sowie die ihnen gestellte Aufgabe sind aber Teil einer umfassenderen Strategie, die dazu dient, die relevanten Aspekte der Realität zu isolieren, ihre interne Struktur freizulegen und die Ergebnisse dieser Manipulation als Protokoll verfügbar zu machen. Dieses Vorgehen trägt alle Kennzeichen eines Experiments, es ist die sog. "Experimentalhandlung" (EH). Die EH folgt ζ. T. aus Annahmen über die Vorgänge innerhalb der Vp während des Experiments. Hiernach entscheidet sich, was man glaubt, von der Vp verlangen zu können, welche Anforderungen also an sie gestellt werden. Diese Annahmen stellen nichts anderes dar als ein e Mikrotheorie des Verhaltens (COOMBS 1964). Von ihr hängt es ab, welche Gestalt die EH annimmt. Andererseits geht die Mikrotheorie aber auch zu einem Teil in die eigentliche Abbildungsfunktion ein, mit der die protokollierten Daten in die gesuchte Variable umgesetzt werden.
132
5. Band: Testen und Messen
Diesen Teil des Skalierungsverfahrens nennt man zweckmäßig "skalenbildende Funktion" (SBF). EH und SBF sind voneinander weitgehend unabhängig (Darstellung 1).
"Mikro"-Theorie des Verhaltens
D a r s t e l l u n g 1 : Skalierung: Das Zustandekommen der Variablen aus der Anwendung eines Skalierungsverfahrens auf die Realität. (EH = Experimentalhandlung, SBF = Skalenbildende Funktion).
Ein leicht durchschaubares Beispiel expliziert den Sachverhalt: Die Messung der Länge von Bleistiftstrichen. Die A n n a h m e n über die Vp sind einfach, sie beschränken sich darauf, daß die Vp in der Lage ist, mit einem Maßstab umzugehen. Die EH und die daraus folgende Anweisung an die Vp folgen unmittelbar: "Lege den Maßstab an den Strich an, lies die beiden Zahlen a und e ab,die dem Anfangs- und E n d p u n k t des Striches am nächsten stehen und gib die Zahlen zu Protokoll." Die SBF berücksichtigt einerseits das Verhalten der Vp und andererseits die Definition der Länge als Differenz von Anfangs- und E n d p u n k t . Sie lautet: L = e - a; L ist die gesuchte Länge. Bei gleicher SBF läßt sich eine ökonomischere EH angeben: "Lege die Null des Maßstabs an den Anfangspunkt des Strichs und lies die Zahl e laut a b . " Wegen der Einbeziehung der Null wird die Subtraktion aus der SBF in die EH verlegt. Andererseits kann bei gleicher "Verhaltenstheorie" und gleicher EH ein anderes Objekt gemessen werden: Die Fläche von Quadraten: Die SBF berücksichtigt nun den Zusammenhang Fläche = L
Auswahl der Protokolldaten und Zweck des Versuchs: Die Einstufung von Portraitfotos nach Alterskategorien als EH führt zu einer Skalierung der Bilder oder — je nach dem Zweck der Untersuchung — auch zu einer Beurteilung der diagnostischen Fähigkeit der Vp. Je nach Bedarf könnte man aus jeder Versuchsanordnung eine Reihe völlig verschiedener Meßwerte gewinnen: Reaktionszeit, Lautstärke, mit der das Urteil abgegeben wird, Atemfrequenz, Raumtemperatur; sinnvolle und für bestimmte Zwecke angemessene Werte. Die meisten dieser Daten interessieren aber im allgemeinen nicht, und es fehlen die Mittel, um alle zu registrieren. Es kommt also darauf an, aus der Fülle von möglichen Meßwerten die herauszufiltern, die für die untersuchten Zusammenhänge kennzeichnend sind.
5. Kapitel:
Skalierungsverfahren
133
Der Einfluß des Untersuchers erstreckt sich unì alle hier dargestellten Bereiche. Er trifft die Annahmen über die Vp, wählt die EH und die SBF und trägt die Verantwortung für das Protokoll. 5.1.2
Das Ergebnis der Skalierung: die Variablen
An dem Ergebnis der Skalierung, den gewonnenen Variablen, werden zwei Kriterien unterschieden: Präzision und Dimensionalität. 1. Präzision : Man unterscheidet verschiedene Skalenkriterien. Die Präzision innerhalb jeder Dimension einer Variablen kann variierende nachdem, welche der folgenden Kriterien erfüllt sind: 1) Klassenbildung (Kategorien) : Nominal"skala" 2) Abfolge (Ränge) : Ordinalskala 3) Rangordnung von Abständen : schwach metrische Skala 4) metrische Distanz (Differenzen) : Intervallskala 5) Nullelement (Verhältnisse) : Rationalskala Mehr über diese und verwandte Kriterien ist bei TORGERSON (1958), GUILFORD ( 1 9 5 4 ) , COOMBS ( 1 9 6 4 ) , PFANZAGL ( 1 9 5 9 ) u . a. z u f i n d e n ; a u c h -»· Bd. V : Huber
und Schmerkotte, Meßtheorie 2.2. 2. Dimensionality·. Alle Objekte variieren in verschiedenen Eigenschaften (Attributen). An jedem Gegenstand können wir drei Gruppen von Eigenschaften unterscheiden, insgesamt k + l + n. Die erste Gruppe enthält die k Eigenschaften, die jeweils nur für den gerade vorliegenden Gegenstand kennzeichnend, also für ihn individuell (singulare Eigenschaften), im übrigen aber irrelevant sind. Sie brauchen bei der Skalierung nicht weiter berücksichtigt zu werden, können aber die Varianz erhöhen. Die restlichen (/ + n) Eigenschaften gehen auf verschiedene Weise in die Skalierung ein: Im Skalierungsverfahren unmittelbar berücksichtigt werden die η relevanten Eigenschaften, die schließlich in der theoretischen Variablen wiedergegeben werden. Mit ihnen beschäftigt sich der Rest des Kapitels. Die übrigen l Eigenschaften haben eine Eigentümlichkeit, die vor allem für das Verständnis der mehrdimensionalen Skalierung wichtig ist : sie sind vielen Gegenständen gemeinsam und kovariieren, d. h. sie stehen in bestimmten Verhältnissen zueinander. Diese l Eigenschaften sind die Grundlage der Klassenbildung. Wir nennen sie "Zusatzbedingungen". Eine durch Zusatzbedingungen ausgelesene Klasse ist ein "Ähnlichkeitsbereich", also eine Gegenstandsmenge (ζ. B. "Äpfel" oder "Kürbisse"), deren Elemente sich in bestimmten, skalierbaren Attributen (ζ. B. "Größe") unterscheiden (Darstellung 2). Zahl und Art der Zusatzbedingungen bestimmen die Homogenität des Ähnlichkeitsbereiches: je homogener der Ähnlichkeitsbereich, desto stabiler werden die Meßwerte, desto leichter ist die Skalierung durchzuführen und desto weniger Dimensionen sind zu berücksichtigen. Durch den Ähnlichkeitsbereich ist festgelegt, welche Variationen der skalierten Variablen zulässig sind (Verankerung); ζ. B. wurden (WITTE 1960) überlange, eigens hergestellte Bleistifte von den Vpn nicht als solche erkannt.
134
5. Band: Testen und Messen
groß
Größe
Darstellung 2: Ein Ähnlichkeitsbereich. Die Eigenschaft "Reife von Birnen". klein hart
Konsistenz
weich
Treffen sich an einer Birne eine ganz bestimmte Färbung, Konsistenz, Geruchsnuance, so zählen wir nicht mehr die Einzeleigenschaften auf, sondern sagen, die Birne sei "reif": Die Elementareigenschaften haben sich zusammengeschlossen zu einer neuen, komplexen Eigenschaft. Diese nehmen wir im Normalfall afa einfache Gegebenheit wahr. In der komplexen Eigenschaft sind die Elementareigenschaften "konserviert", sie lassen sich mit geeigneten Methoden herausanalysieren. Man pflegt die Elementareigenschaften als voneinander unabhängig zu betrachten und repräsentiert sie als Koordinaten eines n-dimensionalen Raumes (Eigenschaftsraum). Komplexe Eigenschaften sind im Eigenschaftsraum nicht durch Koordinaten, sondern durch die Haupterstreckung eines Bereiches erfaßt, dessen Punkte durch ein bestimmtes Verhältnis der η Koordinatenabschnitte gekennzeichnet sind. Die innerhalb der Zusatzbedingungen zulässige Variationsbreite dieses Verhältnisses bestimmt die Ausdehnung dieses Bereichs (Darstellung 2; die Punkte des Bereichs repräsentieren alle möglichen Arten von Birnen). Die Haupterstreckung ist eine Kurve, im Idealfall eine Gerade, und steht "schief" zu den Koordinaten. Zur Verdeutlichung wieder ein einfaches geometrisches Beispiel: Ein Koordinatensystem mit den Koordinaten a und b, dazu eine Schar von R e c h t e c k e n mit konstantem Seitenverhältnis a :b = k. Die Zusatzbedingungen ( 1 . : R e c h t e c k e , 2.: Seitenverhältnis = k) spezifizieren den Ähnlichkeitsbereich so, daß die Elemente nur n o c h in der Größe variieren. Der Ähnlichkeitsbereich ist im S y s t e m durch die Gerade a = k b
a-b-
wiederzugeben. Er ist eine von beiden Koordinaten abhängige,
also " s c h i e f ' stehende Skala der Größe der R e c h t e c k e . Unter Berücksichtigung der Zusatzbedingungen genügt der Skalenwert für die Identifizierung jedes Rechtecks.
Die Verallgemeinerung dieses Beispiels führt zu einer Definition der Skalierung: Skalierung ist die Abbildung von experimentell zugänglichen Ereignissen auf die Punkte eines n-dimensionalen Raumes. Die gewonnenen Variablen sind gekennzeichnet durch die Ortsvektoren dieser Punkte. Statt einer n-dimensionalen Variablen läßt sich eine m-dimensionale (mit m < ή) gewinnen, wenn die Mannigfaltigkeit der beobachteten Ereignisse durch entsprechende
5. Kapitel: Skalierungsverfahren
135
Zusatzbedingungen zu einem m-dimensionalen Ähnlichkeitsbereich reduziert wird. Im Spezialfall ist m = 1. Dann ist Skalierung die Abbildung von Ereignissen auf das Kontinuum der reellen Zahlen oder eine Teilmenge davon (ζ. B. die natürlichen Zahlen). Relevante Dimensionen: Die Vp perzipiert komplexe Eigenschaften im allgemeinen nicht komponentenweise. Dies bietet die Möglichkeit, durch eine geeignete EH jede komplexe Eigenschaft eindimensional zu skalieren. Es steht also dem Untersucher frei, ob er " R e i f e " als eindimensionale Variable in sein Modell einführen will oder als mehrdimensionale. Diese Wahl bietet die Möglichkeit, Schwierigkeiten innerhalb des Modells zu verlagern: Man kann entweder bei / Zusatzbedingungen mit n-dimensionalen Variablen arbeiten oder an der Dimensionalität sparen, dafür aber entsprechend mehr Zusatzbedingungen spezifizieren. Man muß sich allerdings darüber klar sein, daß es nicht möglich ist, die Komplexität von Variablen vollständig aus dem System hinauszukatapultieren: Die Summe l + η bleibt erhalten. Im allgemeinen wird man es vorziehen, mit eindimensionalen Variablen zu arbeiten. Für die Entscheidung, o b ein- oder mehrdimensional skaliert werden soll, sind hauptsächlich zwei Kriterien relevant: a) ist es vom Zweck der Untersuchung her günstiger, eine eindimensionale Variable einzuführen (dies ist nicht immer der Fall), oder b) lassen die Daten eine eindimensionale Skalierung zu bzw. welches ist das adäquate Modell, um den Daten gerecht zu werden? Die zweite Frage ist eher vom Interesse an der Struktur der Daten getragen, während die erste mehr aus dem pragmatischen Bereich der Hypothesenprüfung stammt. Die Frage der Dimensionalität ist aber nicht nur eine Frage der Willkür. Klassenbildung gehört zu den psychologisch interessanten Selbstverständlichkeiten. Zusatzbedingungen sind immer vorhanden, wenn skaliert wird. Deshalb ist die Dimensionalität auch stets eingeschränkt. Die Skalierung befaßt sich von vornherein mit einem bestimmten Ähnlichkeitsbereich, der als Variable wiedergegeben werden soll. "Wenn die Reizobjekte in Bezug auf Eigenschaften variieren, die infolge entsprechender Instruktionen oder einfach aufgrund von Annahmen der Vp von dieser als irrelevant für das Problem ignoriert werden, so werden diese Attribute nicht als Dimensionen im Raum repräsentiert" (TORGERSON 1958, S. 249). Die Einschränkung der Dimensionalität ist also eine Folge der EH und der Auswahl der Protokolldaten. Als Dimension sollen nur "relevante" Attribute wiedergegeben werden. Darüber, was relevant sei, entscheiden das Problem, der Wissenschaftler oder die Vp durch ihr Verhalten. Das Problem hinter diesen Aussagen zeigt sich bei der Betrachtung einer k o n k r e t e n Skalierungsaufgabe, die sich von den theoretischen Betrachtungen in einer ganz wesentlichen Eigenschaft unterscheidet: Es ist im allgemeinen nicht vorab b e k a n n t , wie viele Dimensionen nötig sind, u m die für das Verhalten der Vp ausschlaggebenden A t t r i b u t e des Reizes in geeigneter Weise zu erfassen. Gegeben ist nur eine Menge von Reizen, auf die die Vp irgendwie reagiert. Der Untersucher hat die Aufgabe, aus den R e a k t i o n e n zu ermitteln a) die Zahl der unbedingt notwendigen Dimensionen b) die Skalenwerte jedes Reizes auf jeder Dimension.
136
5. Band:
Testen
und
Messen
Die Richtschnur hierbei ist das (plausible) Postulat, stets so w e n i g wie möglich D i m e n s i o n e n einzuführen. Die verfügbaren mehrdimensionalen Verfahren (vgl. 5 . 7 ) berücksichtigen dieses Postulat.
Nullpunkt·. Die mehr oder weniger komplexe Variable wird in einem Raum wiedergegeben, dessen Dimensionalität mit der unbekannten Dimensionalität des Ähnlichkeitsbereichs korrespondiert. Dieses Raummodell impliziert die Forderung nach einem Koordinaten-Ursprung. Die Vp liefert aber in den meisten Fällen nicht mehr als die Distanzen zwischen den Einzelreizen, nicht aber die Distanzen zum Nullpunkt. Da die Distanzen zwischen den Reizpunkten gegenüber Nullpunktverschiebungen invariant sind, ist der Nullpunkt auf den von der Vp gelieferten Skalen zunächst nicht bestimmt. Der Skalenwert Stj eines Reizes i auf der Dimension /, wie er von der Vp geliefert wird, unterscheidet sich von dem durch das Raummodell geforderten Wert H¡¡ durch die Festlegung des Nullpunkts, die durch die Addition einer Konstanten symbolisiert werden kann : H¡j = S¡j + C. Für die mehrdimensionale Skalierung ist die Bestimmung der Konstanten C ein berühmtes Problem geworden. Inzwischen liegen Routinelösungen vor (TORGERSON 1 9 5 8 ; MESSICK UND ABELSON
1956;
SIXTL
1967).
Für den eindimensionalen Fall zieht man im allgemeinen noch Lösungen vor, bei denen der Nullpunkt durch zusätzliche EH empirisch gefunden wird: Durch Schwellenmethoden in Verbindung mit entsprechenden Fragen ("Wäre Ihnen Reiz X unangenehm?"), durch Messungen der Reaktionszeit oder der Überzeugungsstärke (HORST 1 9 3 2 ; TORGERSON
1 9 5 8 ; THURSTONE UND JONES
1959).
Distanz: Die Repräsentation von psychischen Ereignissen durch die ihnen entsprechenden Variablen hat nur dann Sinn, wenn durch den Skalierungsvorgang keine allzu großen Verzerrungen eingeführt werden. Die Forderung der Strukturähnlichkeit (Isomorphie) wird heute im allgemeinen so gefaßt, daß zwischen der Ähnlichkeit der Reize und der Distanz zwischen den Punkten, die sie repräsentieren, eine monotone Relation bestehen muß; je ähnlicher zwei Reize einander sind, desto näher sollen ihre Skalenpunkte beieinander liegen ( K R U S K A L 1964a; 1964b; SIXTL 1967). Die Entscheidung für ein bestimmtes Skalierungsmodell beinhaltet daher auch eine Entscheidung für eine bestimmte Distanzfunktion. Während früher die Frage, ob euklidisch oder nicht-euklidisch skaliert werden solle, fast zu einer Grundsatzdiskussion geführt hätte (ATTNEAVE 1950), kann die Entscheidung inzwischen aufgrund des allgemeinen Distanzmodells und durch neuere Verfahren sogar empirisch getroffen werden (KRUSKAL 1964a; 1964b). Diese erfordern allerdings den Einsatz von größeren Datenverarbeitungsanlagen. Die allgemeine Definition der Distanz lautet: Up
(1) mit /, k m üjm djk
: : : :
djk =
Σ
\ajm
-akm\P
alternative Indizes für Reize Index für orthogonale Raumachsen (m = 1 ...r) Projektion von j auf m Distanz zwischen /' und k
5. Kapitel:
Skalierungsverfahren
137
ρ leistet den Übergang zwischen den verschiedenen Geometrien: p = 1: C i t y - B l o c k - M o d e l l (ATTNEAVE
1950)
p = 2: Euklid Die Anzahl r bestimmt die Dimensionalität. Bei r = 1 wird ρ irrelevant. Im allgemeinen wird wegen der besonders günstigen Eigenschaften ein Euklidischer Raum angestrebt. Zusammenfassung: Skalierung ist die Abbildung von experimentell zugänglichen Ereignissen auf die P u n k t e eines n-dimensionalen Raumes. Im allgemeinen Fall ist jeder P u n k t durch ein n-tupel von reellen Zahlen charakterisiert. Der wichtigste Spezialfall ist η = 1. Dann ist Skalierung die Abbildung auf das K o n t i n u u m der reellen Zahlen oder eine Teilmenge davon. Die Distanz zwischen den P u n k t e n (Skalenwerten) des Modells soll eine F u n k t i o n der Ähnlichkeit der zugehörigen Reize sein. Die räumliche S t r u k t u r der Modellpunkte gibt somit die (nicht unbedingt anschaulich räumlichen) Beziehungen zwischen den Reizen wieder. Die Zahl η ist die Anzahl der relevanten Dimensionen. Es ist dies die minimale Anzahl voneinander unabhängiger Attrib u t e der Reizmenge, die für eine Erklärung der Datenverteilung nötig ist. Neben der Dimensionalität der Variablen wird die Präzision unterschieden, die mit der Erfüllung folgender Kriterien w ä c h s t : Klassenbildung, Definition einer Ordnungsrelation, einer Distanzfunktion, eines Nullelements. Dimensionalität und Präzision sind voneinander unabhängig.
5.1.3
Exkurs: Probleme der Messung in den Verhaltenswissenschaften (Psychologie und Soziologie) im Vergleich m i t naturwissenschaftlichen Messungen (Physik)
Wir gehen aus von der Betrachtung eines physikalischen Meßvorgangs, versuchen, Schritt für Schritt nachzuvollziehen, wieweit die psychologische Messung der physikalischen entspricht oder d o c h mindestens parallele S t r u k t u r e n aufweist, u m schließlich d o r t , w o das physikalische Beispiel nicht mehr weiter trägt, auf die Probleme der psychologischen Messung überzugehen. Wir d e n k e n an die Messung der Stromstärke (verschiedener u n b e k a n n t e r S t r o m q u e l l e n ) mit Hilfe eines Drehspulgalvanometers. Latente Variable und manifestes Meßergebnis: Die S t r o m s t ä r k e ist dabei eine Variable, die unserer Erfahrung nicht direkt zugänglich aber theoretisch gefordert ist, was schließlich zu dem Bedürfnis führt, sie zu messen. Solche latenten Variablen sind es im allgemeinen auch, die in den Verhaltenswissenschaften gemessen werden. " D a s allgemeinste Prinzip bei der Messung einer Größe, welche man nicht direkt b e o b a c h t e n k a n n , besteht in der B e o b a c h t u n g einer anderen Variablen, welche sich mit der zu schätzenden Größe gesetzmäßig ä n d e r t " (FISCHER 1968, S. 79). Beim Galvanometer m a c h t man sich die feste Koppelung der magnetischen Wirkung an die Stromstärke zunutze und verwendet die Auslenkung der Galvanometernadel, u m indirekt die Wirkung der Stromstärke manifest, d. h. sichtbar zu machen. In der psychologischen Messung besteht das manifeste Meßergebnis im allgemeinen in der A n t w o r t einer o d e r mehrerer Vpn. Item und Skala: Die V p a n t w o r t e t auf eine Reihe von Fragen, die m a n Items n e n n t . Im einfachsten Fall n e h m e n die A n t w o r t e n n u r die zwei Werte " j a " (+) bzw. " n e i n " ( j an ( d i c h o t o m e A n t w o r ten). Eine Sammlung von Items heißt gemeinhin Skala (ζ. B. "Persönlichkeitsskala"). Beim Galvanometer ist die Skala d u r c h Striche unterteilt. Man kann diese verschiedenen Striche als Items interpretieren. Das manifeste Testergebnis besteht dann darin, d a ß die Nadel des Galvan o m e t e r s einen b e s t i m m t e n Teilstrich ü b e r f ä h r t bzw. nicht. Es gibt also pro Teilstrich nur zwei
138
5. Band: Testen und Messen
Antwortmöglichkeiten: entweder er liegt in dem Bereich der Skala, den die Nadel beim Ausschlag überfahren hat (Antwort: +), oder die Nadel hat ihn nicht erreicht (Antwort: —). Skalenwert : Das Maß für die Stromstärke ist unmittelbar gegeben durch die Anzahl der überfahrenen Teilstriche. Ganz analog strebt man in der Psychologie danach, solche Skalen zu konstruieren, bei denen die Anzahl oder eine gewichtete Summe der gelösten Items unmittelbar ein Maß für den Ausprägungsgrad der latenten Variablen ist. Schwierigkeit: Auf dem Galvanometer gibt es Teilstriche, die die Nadel schon bei (fast beliebig) schwachen Strömen erreicht (sie stehen im allgemeinen auf der linken Seite der Skala und sind mit niedrigen Ampere-Werten bezeichnet), und solche, die die Nadel nur selten erreicht, nämlich dann, wenn hohe Ströme zu einer starken Auslenkung führen. In der psychologischen Messung nennt man die Items, die schon bei geringen Ausprägungsgraden der latenten Variablen eine positive Antwort erzeugen und die demnach von vielen Personen positiv beantwortet (gelöst) werden, "leicht" (Gegensatz: "schwierig"). Somit können in Analogie die Teilstriche, die weiter rechts auf der Skala stehen, zunehmend schwieriger heißen. Es ist zu beachten, daß bei jedem Ausschlag alle leichteren Teilstriche von der Nadel ebenfalls überfahren werden (je eine positive Antwort). Analog dazu strebt man in der psychologischen Messung nach Skalen, deren Items sich ebenfalls in eine (Rang)Ordnung nach Schwierigkeit bringen lassen. Homogenität: Die magnetische Wirkung hängt einzig von der Stromstärke ab. Der Nadelausschlag hängt seinerseits wiederum ausschließlich von der magnetischen Wirkung im Verein mit der Lagerung der Spule ab, (die unveränderlich ist). Somit kommen verschiedene Galvanometerausschläge dadurch zustande, daß die variable Stromstärke mit der konstanten Konstruktion des Instruments zusammenwirkt. Die Variabilität der Ausschläge geht also letzten Endes einzig auf die Variabilität der Stromstärke zurück. Keine andere Einflußgröße, insbesondere keine, die auf die Art der Skalenteilung bzw. auf die sonstige Bildung der Items zurückgeht (wie Färbung der Skala, Beschriftung usw.) wirkt auf die manifesten Meßwerte. Die Items des Galvanometers sind also untereinander in dem Sinne homogen, daß sie sich nur in einer einzigen Größe unterscheiden, nämlich ihrer Schwierigkeit. Es leuchtet unmittelbar ein, daß eine Messung, die mit homogenen Items dieser Art durchgeführt wird, zu einer eindimensionalen Skala führen muß. In der psychologischen Messung ist die Homogenität nicht nur als Garant für Eindimensionalität wichtig. Das Kriterium für Homogenität wird dabei faktorenanalytisch spezifiziert im dem Sinne, daß die Ladungen gleicher Faktoren bei verschiedenen Items sich nur durch eine itemspezifische Proportionalitäts&onsiflHfe unterscheiden (s. FISCHER 1968, S. 74-77). Bei der psychologischen Messung ist es schwierig, im echten Sinne homogene Items zu schaffen, weil eben die Items in vielen Fällen verbale Aussagen sind, bei denen es auf die Formulierung ankommt, so daß sehr oft mit einer Nebenwirkung aus dem semantischen Hof des Items zu rechnen ist. Dies entspräche einer Galvanometernadel, die sich ζ. B. durch die Färbung der Skala beeindrucken ließe oder bestrebt wäre, die Teilstriche " 7 " und " 1 3 " zu vermeiden. Validität: Die Koppelung zwischen der Stromstärke und der magnetischen Wirkung ist sehr eng. So kann man mit einigem Vertrauen behaupten, daß ein "anständiges" Galvanometer, das richtig angeschlossen und richtig beschriftet ist, tatsächlich das mißt, was es messen soll, nämlich die Stromstärke. Bei psychologischen Messungen kann man dessen nicht immer so sicher sein. Die Frage, die dahinter steht und die selbstverständlich zum entscheidenden Kriterium jedes psychologischen Tests wird, nimmt unter dem Stichwort "Gültigkeit" ( Validität) breiten Raum ein. Reliabilität: Wie oben schon ausgeführt, ist der Nadelausschlag nur von der Stromstärke abhängig. Es gibt praktisch keine Störvariablen. Wiederholte Messungen mit demselben Instrument (aber auch mit anderen, gleich gebauten) führen zu fast identischen Resultaten (fast: Wärme, Ablesefeh-
5. Kapitel: Skalierungsverfahren
139
1er). Das Instrument verändert sich auch nicht oder doch nur vernachlässigbar. Ein Galvanometer ist.also ein zuverlässiges Meßinstrument im Sinne von Meßwiederholbarkeit. Selbstverständlich besteht zwischen der Gültigkeit und der Zuverlässigkeit der Messung ein enges Verhältnis: Ein Instrument, das nur ab und zu die richtige Stromstärke wiedergibt, d. h. unzuverlässig arbeitet, gibt auch nur eine beschränkt gültige Messung der Stromstärke, denn es mißt offenbar eine Reihe von Störvariablen mit, die im Meßergebnis nicht getrennt aufscheinen. Das Problem der Zuverlässigkeit (Réhabilitât) der Messung ist im psychologischen Bereich außerordentlich wichtig. Es ist sofort zu sehen, daß hier kaum einmal ähnlich hohe Zuverlässigkeiten erreicht werden können, wie in der Physik (weshalb die Zuverlässigkeit dort praktisch keine Rolle spielt). Der Grund dafür liegt bei den Vpn. Die Vpn unterliegen Veränderungen durch Adaptation, sie lernen, sie haben Vorlieben und Launen, sie reagieren auf die Inhomogenität der Items, sie haben schließlich bewußte oder unbewußte eigene Interessen, die sich insbesondere dann auswirken, wenn die Vp selbst "getestet" wird und von dieser Messung u. U. einiges abhängt. So ist bei der psychologischen Messung grundsätzlich mit einer gewissen Unsicherheit zu rechnen, die selbstverständlich zu Ungunsten der Réhabilitât und der Validität ausschlägt, die aber auch grundsätzlicher gesehen werden kann: Man kann sich fragen und hat dies in letzter Zeit zunehmend getan, ob die feste Koppelung zwischen der latenten und der manifesten Variablen (Stromstärke und Zeigerausschlag) überhaupt als existent betrachtet werden darf. Diesem Zweifel kann man dadurch Ausdruck verleihen, daß man die Aussage über die feste Beziehung zwischen der latenten und der manifesten Variablen fallen läßt zugunsten einer Aussage, in der nur noch über die bedingte Wahrscheinlichkeit eines bestimmten (manifesten) Versuchsergebnisses aufgrund einer (jeden) bestimmten Ausprägung der latenten Variablen gesprochen wird. Dieser Ansatz hat den Vorteil, daß er sehr viel vorsichtiger und damit evtl. realistischer ist, dennoch aber den Extremfall einer festen Koppelung einschließt (unser Beispiel). Stochastische Beziehung zwischen der latenten Variablen und dem manifesten Versuchsergebnis : Die Wahrscheinlichkeit, daß die Galvanometernadel einen bestimmten Skalenstrich (Item) überschreitet, ist eine Funktion der Stellung des Items (Schwierigkeit im o. g. Sinne). Bei einem guten Galvanometer ist die Wahrscheinlichkeit praktisch gleich eins, daß die Nadel alle Teilstriche überschreitet, bis zu demjenigen, welcher der tatsächlich vorliegenden Stromstärke zugeordnet ist. Weiter ist die Wahrscheinlichkeit, daß auch darüber liegende Teilstriche noch überschritten werden, praktisch gleich Null. Ein schlechtes Meßinstrument zeichnet sich dadurch aus, daß in der unmittelbaren Nähe des kritischen Punktes eine Übergangszone existiert, derart, daß die Wahrscheinlichkeiten für das Überschreiten eines Skalenstriches sukzessiv von eins auf null absinken. Die Kurve, die entsteht, wenn die Wahrscheinlichkeit für einen bestimmten Versuchsausgang als Ordinate über der latenten Dimension als Abszisse abgetragen wird, nennt man "Charakteristik". Bei einem guten Galvanometer ist die Charakteristik eine Treppenfunktion (sie enthält einen Sprung von der Höhe 1). Im Fall des schlechten Galvanometers besitzt die Charakteristik eine mehr oder weniger geneigte Linie. Selbstverständlich besitzt jedes Item seine eigene Charakteristik. (So definiert die Stellung des Items die Wahrscheinlichkeit für eine positive Antwort beim Vorliegen einer bestimmten Stromstärke). Symmetrisch dazu kann jeder bestimmten Stromstärke eine Charakteristik zugeordnet werden. (Die Stromstärke bestimmt die Wahrscheinlichkeit für eine positive Antwort bei den verschiedenen, nach Schwierigkeiten geordneten Items). Einige mögliche Formen von Charakteristiken zeigt Darstellung 5. (Natürlich kann die Charakteristik genausogut monoton ansteigend gesehen werden, man braucht dazu nur die zweite Antwortkategorie zu berücksichtigen). Die Funktion der Charakteristik als Wahrscheinlichkeitskurve und somit als Zufallsverteilung impliziert, daß "Messung" in Wirklichkeit die Schätzung der Parameter von Zufallsverteilungen ist. Der Person, die getestet wird, entspricht im Galvanometerbeispiel eine Stromquelle, deren Stärke gemessen werden soll. Die Stromstärke einer solchen Quelle nennen wir im folgenden Personenparameter (da es eigentlich auf die psychologischen Belange ankommt).
140
5. Band : Testen und Messen
Randverteilungen und klassische Testtheorie'. Sowohl die Personenparameter (Stärke konkreter Stromquellen) wie die Itemparameter (Schwierigkeiten) bilden auf der gemeinsamen Dimension (Stromstärke) je eine Verteilung. Man kann zu diesen "Randverteilungen" übergehen und ζ. B. aufgrund der Stellung eines Itemparameters innerhalb der Population der Personenparameter bestimmte Aussagen über das Testverhalten einer ganzen Stichprobe von Vpn gegenüber diesem Item ableiten. Die konkrete Aussage bezieht sich im allgemeinen auf die relative Häufigkeit (als Funktion des Itemparameters), mit der ein Item durch die Vpn positiv beantwortet wird. In den meisten Fällen wird die zugrundeliegende Funktion als Ogive einer Normalverteilung angenommen, wobei der Mittelwert der Verteilung an der Stelle des Itemparameters gesucht wird. Bei diesem Verfahren geht die Unsicherheit der Einzelmessung (ausdrückbar über das Komplement der oben definierten Lösungswahrscheinlichkeit) in eine Fehlervariable E ein. Die Funktion von E in diesem Modell ist selbstverständlich, für den Abszissenbereich in der Charakteristik aufzukommen, über dem die Antwortwahrscheinlichkeit von eins auf Null absinkt. Für die Einzelmessung folgt dann der bekannte Zusammenhang: Zu jeder Stromstärke gehört ein "wahrer Zeigerausschlag" T; der tatsächlich abgelesene Wert X weicht vom wahren Wert Τ um die aleatorische Größe E ab. (Beim Galvanometer ist dies ζ. B. denkbar durch schlechte Lagerung der Achse mit resultierenden Reibungsunstetigkeiten und Lageabhängigkeit). Der Zusammenhang wird im allgemeinen additiv in der Form X = Τ + E gefaßt. Er bildet die Grundlage für die sogenannte "klassische Testtheorie (vgl. FISCHER 1 9 6 8 ) . Aus dem stochastischen Charakter der Größe E läßt sich mit Hilfe zusätzlicher Annahmen u. a. folgern, daß ihr Erwartungswert gleich Null ist. Beim Ubergang zur Betrachtung der ganzen Stichprobe bietet sich damit der Erwartungswert der manifesten Meßwerte X als erschöpfende Schätzung für die Größe Τ an. Der wahre Wert Τ ist somit nichts anderes, als der zentrale Parameter in der Zufallsverteilung der Variablen {X - E). Das beschriebene Vorgehen definiert eine auf die Population der Vpn bezogene globale Itemcharakteristik. Es ist selbstverständlich, daß diese Globalcharakteristik und damit der geschätzte Skalenwert des Items von den Parametern der Vpn-Population abhängt {populationsabhängige Schätzung). Vice versa folgt aus derselben Argumentation, daß die Bestimmung eines bestimmten Personenparameters von der Population der verwendeten Items abhängt. Stochastische Meßmodelle, Populationsunabhängigkeit· Ein stochastisches Modell läßt sich dadurch kennzeichnen, daß es bei den Einzelcharakteristiken bleibt und nicht zu der Randverteilung (und der globalen Charakteristik) übergeht. Es verzichtet damit auf die bequeme Möglichkeit der Schätzung der zugehörigen Parameter über relative Häufigkeiten aus der Stichprobe (bzw. Population). Der Gewinn bei diesem Verzicht besteht darin, daß die Populationsabhängigkeit aufgehoben wird. Aus dem Modell werden Aussagen darüber abgeleitet, welche Itemparameter vorliegen müssen, wenn bestimmte Antwortvektoren aufgetreten sind. Um diese Aussagen (in einem iterativen, nur mit elektronischen Anlagen durchführbaren Auswertungsverfahren) gewinnen zu können, sind noch spezielle, allerdings empirische prüfbare Zusatzannahmen über die Form der Charakteristiken notwendig. Die Tatsache, daß diese Annahmen empirisch prüfbar sind, gewährleistet andererseits, daß Scheinaussagen immerhin vermieden werden können, die dann zustande kommen, wenn durch ein ungeeignetes Skalierungsverfahren der skalierten Variablen Ordnungseigenschaften (Relationen) unterschoben werden, denen in der zugrundeliegenden Gegenstandsmenge (empirisches Relativ) nichts entspricht; wenn also ζ. B. einer Variablen, die in Wirklichkeit nur Ordinalskalenqualität besitzt, fälschlich die Dignität einer Intervallskala zugebilligt wird und wenn dann Kennwerte berechnet und interpretiert werden, die wegen der fehlenden Voraussetzungen sinnlos sind. Populationsabhängige und populationsunabhängige Messung: Der Gewinn, der mit stochastischen Modellen zu erreichen ist, ist die Populationsunabhängigkeit. Dem steht gegenüber, daß man spe-
S. Kapitel: Skalierungsverfahren
141
zielle Zusatzannahmen treffen muß, die allerdings im Vergleich mit den Zusatzannahmen der klassischen Modelle besser empirisch prüfbar sind. Diesen Vorteilen stehen Nachteile gegenüber: 1) Die stochastischen Modelle verfügen noch nicht über das breite Instrumentarium, das dem klassischen Modell zur Verfügung steht. Der Anwendungsbereich, in dem sie gelten und der Grad ihrer auch praktischen Brauchbarkeit sind noch nicht so klar, daß man auf die klassischen Konzepte verzichten sollte, die sich immer wieder als durchaus effektiv erwiesen haben. Würde man ζ. B. geneigt sein, auf eine Skalierung gänzlich zu verzichten, wenn sich nach dem Experiment herausstellt, daß die für die stochastischen Modelle essentiellen Zusatzannahmen nicht realisiert sind? Oder wird man dann vernünftigerweise die Populationsabhängigkeit in Kauf nehmen und im Bewußtsein dieser Einschränkungen mit klassischen Methoden weiterarbeiten? 2) Die stochastischen Modelle sind mathematisch wesentlich komplizierter als die klassischen und beim gegenwärtigen Stand relativ unhandlich. Es ist praktisch ausgeschlossen, die Daten ohne Computer auszuwerten. 3) Daß und in welcher Weise sich die Populationsabhängigkeit des klassischen Meßmodells auf die Ergebnisse nachteilig auswirken kann, ist in den vergangenen Jahren an verschiedenen Stellen ausgiebig dargestellt worden (s. ζ. B. FISCHER 1968). Ob allerdings die Nachteile des klassischen Modells in einer bestimmten Fragestellung überhaupt zum Tragen kommen, hängt von der Planung und damit vom Zweck der angestrebten Untersuchung ab. So ist die Abhängigkeit der Vpn-Parameter von der Auswahl der Items vollkommen irrelevant, wenn beispielshalber ein varianzanalytischer Versuchsplan besteht, in dem die Auswirkung bestimmter Treatments auf die Vpn geprüft werden soll. Für eine solche Untersuchung kommt es lediglich darauf an, Meßwerte zu gewinnen, die zum Zeitpunkt der Datenerhebung miteinander vergleichbar sind. Andererseits ist in der Diagnostik wie überhaupt in jeder "Bestandsaufnahme" eine für längere Zeit gültige und sowohl mit anderen Individuen als auch mit Meßwerten desselben Individuums vergleichbare Beurteilung unerläßlich. Das Problem der Populationsunabhängigkeit, das in der Diagnostik zentral geworden ist, existiert demnach für andere Zwecke nur in eingeschränktem Maße und in Abhängigkeit vom Untersuchungsziel. Im konkreten Fall sollte also der Zweck der Untersuchung der bestimmende Faktor dafür sein, ob man die Populationsabhängigkeit in Kauf und dafür die Vorteile der klassischen Meßverfahren in Anspruch nimmt, oder ob man zu einem stochastischen Modell übergeht.
5.2
Methoden der Datengewinnung
Ordnungsprinzipien für die Darstellung der verschiedenen Methoden sind mehrfach angeboten worden (Ζ. B . COOMBS 1 9 6 4 ; T O R G E R S O N 1 9 5 8 ) . Ohne Anspruch auf eine strenge Systematik werden wir im folgenden zwei Gruppen von Methoden darstellen: bei der ersten hat die Vp die Aufgabe, zwei und mehr Reize miteinander zu vergleichen, während die Aufgabe bei der zweiten Methodengruppe darin besteht, einen oder mehrere Reize mit einer vorgegebenen Skala zu vergleichen. Die einzelnen Methoden werden innerhalb jeder Gruppe nach den steigenden Anforderungen an die Vp geordnet (vgl. die etwas andere Einteilung bei -»• Bd. V: Wegner, Ratingverfahren 4.2).
5.2.1
Der Vergleich von Reizen miteinander
a) Paarvergleich (paired comparisons). Es sind η Reize vorhanden, die der Vp paarweise vorgelegt werden, η (n - l ) / 2 Paare sind zu beurteilen, wenn alle Paare vorge-
142
5. Band: Testen und Messen
legt w e r d e n . Die V p n h a t bei j e d e m Paar d e n Reiz zu b e n e n n e n , d e r von d e m in Frage s t e h e n d e n A t t r i b u t m e h r besitzt (z. B. g r ö ß e r ist). Die E H verlangt von d e r Vp n u r ein k o m p a r a t i v e s Urteil über zwei vorgelegte Reize, eine A u f g a b e , die eigentlich i m m e r lösbar ist. Alle A r t e n von Reizen sind v e r w e n d bar: S t e i n e , die auf ihr G e w i c h t hin zu b e u r t e i l e n sind, g e n a u s o wie Aussagen von " A n d e r e n " zur Religion. O f t k a n n in der A n w e n d u n g eine d i r e k t e Frage a u c h indir e k t gestellt w e r d e n , vorausgesetzt, d a ß keine Mißverständnisse m ö g l i c h sind. S t a t t "Welches der b e i d e n Bilder ist s c h ö n e r ? " k ö n n t e m a n z. B. fragen "Welches w ü r d e n Sie eher bei sich a u f h ä n g e n ? " Eine Variante d e r M e t h o d e ist d e r Quadrupelvergleich, der zu einer Skalierung der Ä h n l i c h k e i t ( m e h r d i m e n s i o n a l e s V e r f a h r e n ) f ü h r t : Es w e r d e n zwei Paare von Reizen vorgelegt. Die V p gibt an, in w e l c h e m d e r Paare die Einzelreize e i n a n d e r ähnlicher sind. b ) Tripe ¡vergleich ( m e t h o d of triads): Dies ist d e r e i n f a c h s t e Fall einer Reihe von D a r b i e t u n g s a r t e n , die auf d e m s e l b e n Prinzip b e r u h e n ( c a r t w h e e l - m e t h o d s n a c h COOMBS 1964). Ein Reiz A wird m i t zwei ( m e h r e r e n ) a n d e r e n (Β, C ...) zugleich darg e b o t e n . Es wird g e f r a g t , w e l c h e m d e r ( b e i d e n ) a n d e r e n er ä h n l i c h e r sei. Die M e t h o d e läßt sich als K o m p a r a t i o n der D i s t a n z e n AB u n d AC (AD ...) verstehen. Die A u f gabe ist i m m e r lösbar, w e n n eine O r d i n a l r e l a t i o n auf d e n R e i z e n d e f i n i e r t ist. c) Auswahlverfahren ( " p i c k k/n"): η Reize w e r d e n z u s a m m e n vorgelegt. Die V p s u c h t die k Reize aus, die von e i n e m b e s t i m m t e n A t t r i b u t am meisten b e s i t z e n (ζ. B. die vier s c h ö n s t e n ) . Die M e t h o d e verlangt eine k o m p a r a t i v e B e u r t e i l u n g von η Reizen, ist also ebenfalls als A u s w e i t u n g des Paarvergleichs zu verstehen. d ) Rangreihenverfahren (rank o r d e r , " o r d e r k/n"): Eine wesentliche V e r s c h ä r f u n g des A u s w a h l v e r f a h r e n s b e s t e h t d a r i n , d a ß die V p a u f g e f o r d e r t w i r d , die ausgesuchten Reize a u c h n o c h hinsichtlich des verlangten A t t r i b u t s zu ordnen ( d e n s c h ö n s t e n , z w e i t s c h ö n s t e n usw. zu b e n e n n e n ) . Bei k = η — 1 wird die Rangreihe vollständig, dies ist d e r N o r m a l f a l l . Das V e r f a h r e n verlangt eine O r d i n a l r e l a t i o n auf d e n R e i z e n , die von der V p (oder v o m VI d u r c h geeignete A n w e i s u n g e n ) in a u f e i n a n d e r f o l g e n d e K o m p a r a t i o n e n aufgelöst w e r d e n k a n n . Wenn die Reize in substantieller F o r m vorliegen (also nicht n u r vorgestellt sind), b e w ä h r t sich eine A n o r d n u n g , bei der die V p zuerst die beiden E x t r e m e ausliest u n d d a n n die übrigbleibenden Reize d a z w i s c h e n einordnet. e) Schwellenmethoden ( p s y c h o p h y s i s c h e M e t h o d e n , d i f f e r e n t i a l sensitivity m e t h o d s ) : Die V e r f a h r e n sind ursprünglich für solche A t t r i b u t e k o n z i p i e r t , zu d e n e n ein physikalisch m e ß b a r e s K o r r e l a t verfügbar ist ( G e w i c h t e , T o n h ö h e , L a u t s t ä r k e usw.). Inzwischen hat sich gezeigt, d a ß diese B e s c h r ä n k u n g e n m i n d e s t e n s für gewisse Variablen ( K o n s t a n z v e r f a h r e n ) u n n ö t i g ist. Der Einsatz dieser V a r i a n t e n l o h n t in d e n Sozialwissenschaften insbesondere an d e n Stellen, w o D i s k o n t i n u i t ä t e n im Reizmaterial ü b e r b r ü c k t w e r d e n müssen. e l ) Herstellungsverfahren·. Zwei Reize aus e i n e m K o n t i n u u m w e r d e n d a r g e b o t e n . Der eine dient als S t a n d a r d r e i z . A u f g a b e d e r V p ist, d e n zweiten so lange zu verstellen, bis er gerade noch wahrnehmbar vom S t a n d a r d verschieden ist (s. a u c h f u n d g). Der eingestellte Reiz wird (physikalisch) gemessen u n d p r o t o k o l l i e r t . Es sind viele Wied e r h o l u n g e n nötig. V a r i a n t e n : S t a t t " v e r s c h i e d e n " : " h ö h e r " o d e r " n i e d r i g e r " auf dem Attribut; statt "gerade noch wahrnehmbar verschieden": "gerade nicht mehr unterscheidbar".
5. Kapitel: Skalierungsverfahren
143
e2) Grenzverfahren : Der variable Reiz wird, von einem E x t r e m ausgehend, d e m Vergleichsreiz g e n ä h e r t ( d u r c h VI o d e r V p ) . Die V p gibt an, w a n n die Reize nicht m e h r u n t e r s c h e i d b a r sind. V a r i a n t e n wie bei e l . e3) Konstanzverfahren·. Hier wird d e r zweite Reiz n i c h t m e h r k o n t i n u i e r l i c h variiert, s o n d e r n v o m VI in b e s t i m m t e n d i s k r e t e n S t u f e n eingestellt u n d d a r g e b o t e n . Die V p b e u r t e i l t , o b der Vergleichsreiz " g r ö ß e r " o d e r " k l e i n e r " ist, als der S t a n d a r d . Die M e t h o d e k a n n als V o r l ä u f e r des Paarvergleichs m i t ähnlichen A n f o r d e r u n g e n verstand e n w e r d e n . Sie ist im Bereich d e r Sozialwissenschaften vielfältig e i n s e t z b a r , ζ. B. bei d e r B e s t i m m u n g des N u l l p u n k t s . f ) Äquisektion ( e q u i s e c t i o n ) : Diese V e r f a h r e n sind im w e s e n t l i c h e n auf k o n t i n u i e r liche R e i z m a n n i g f a l t i g k e i t e n b e s c h r ä n k t (ζ. B. F a r b e , G e w i c h t ) , die herstellbar sind. V o n η Reizen d i e n e n zwei als S t a n d a r d (Ankerreize). Die restlichen sind so dazwischen a n z u o r d n e n , d a ß alle e n t s t e h e n d e n D i s t a n z e n gleich erscheinen. Die M e t h o d e verlangt von der V p eine Beurteilung der Distanzen auf einer Ordinalskala. Der e i n f a c h s t e S o n d e r f a l l ist die Bisektion: von drei R e i z e n d i e n e n zwei als A n k e r , d e r d r i t t e , variable, soll von der Vp so eingestellt w e r d e n , d a ß die b e i d e n e n t s t e h e n d e n Distanzen gleich erscheinen. Die A n f o r d e r u n g e n sind d a n n wie b e i m Tripelvergleich. g) Verhältnisschätzung ( F r a k t i o n i e r u n g , f r a c t i o n a t i o n ) : Ein variabler Vergleichsreiz ist so einzustellen, d a ß er in einem vorgegebenen Verhältnis (1 : k ) zu e i n e m vorgegeb e n e n S t a n d a r d r e i z erscheint (ζ. B. dreimal so groß). Eine Vielzahl von V a r i a n t e n ist d e n k b a r : So k a n n der VI d e n variablen Reiz einstellen. Die V p gibt d a n n das Verhältnis z u m S t a n d a r d in Zahlen an. S t e h t die R e i z m a n n i g f a l t i g k e i t nicht in k o n t i n u i e r l i c h e r , aber d o c h in relativ "engm a s c h i g e r " diskreter F o r m z u r Verfügung, so k ö n n e n S c h w e l l e n m e t h o d e n ( K o n s t a n z v e r f a h r e n ) zur B e s t i m m u n g d e r nicht b e s e t z t e n Reize h e r a n g e z o g e n w e r d e n . Das V e r f a h r e n e r f o r d e r t von der V p eine metrische Beurteilung d e r w a h r g e n o m m e nen Distanzen. Es ist n o c h nicht sicher, o b sie d a z u in allen Fällen in der Lage ist. In d e n S o n d e r f ä l l e n k = 1/2 u n d k = 2 geht die M e t h o d e in die Bisektion über.
5.2.2
Der Vergleich von Reizen mit Skalen
Die n u n d a r z u s t e l l e n d e n V e r f a h r e n e r f o r d e r n d e n Vergleich eines o d e r m e h r e r e r Reize mit einer irgendwie vorgegebenen " S k a l a " . Diese Skala ist in zwei F o r m e n vorstellbar: 1) als geordnete Folge von Kategorien : In diesem Falle k ö n n e n die Kategoriengrenzen in ähnlicher Weise b e t r a c h t e t w e r d e n wie Reize; die A n f o r d e r u n gen an die V p sind d a n n auf O r d i n a l u r t e i l e b e s c h r ä n k t ; o d e r als 2) Beurteilungskontinuum: Dies ist ein in der Psychologie vielverwendetes K o n s t r u k t . M e t h o d e n , die d a r a u f a u f b a u e n , implizieren aber, d a ß das B e u r t e i l u n g s k o n t i n u u m a u c h für die V p selbst zugänglich ist u n d eventuell auf Zahlen abgebildet w e r d e n k a n n . Dies sind hohe Anforderungen. h) Kategorialverfahren (successive intervals): Die G r u p p e dieser V e r f a h r e n z e i c h n e t sich d u r c h viele V a r i a n t e n aus. G e m e i n s a m ist allen V e r f a h r e n die Vorgabe einer A n z a h l von Kategorien in irgendeiner F o r m d u r c h d e n VI (ζ. B. d u r c h A d j e k t i v e , Zahlen, K ä s t c h e n , einen Strich mit U n t e r t e i l u n g e n , die a u c h weggelassen w e r d e n k ö n n e n ) . Die Zahl d e r K a t e g o r i e n k a n n vorgegeben sein oder der Vp überlassen blei-
144
5. Band: Testen und Messen
ben. In diesem Fall wird die Vp nur davon instruiert, daß Kategorien zu bilden seien. Der wichtigste Sonderfall, auf den sich Kategorialdaten immer zurückführen lassen (notfalls mit Informationsverlust auch nach dem Versuch), ist di e Dichotomie. Von der EH her lassen sich zwei Untergruppen bilden: h l ) Sortierverfahren (sorting): alle η Reize werden zusammen vorgelegt. Im allgemeinen Fall wird die Vp gebeten, sie in beliebig viele G r u p p e n zu sortieren, so d a ß die G r u p p e n eine Rangfolge in Bezug auf das beurteilte A t t r i b u t bilden (keine Vorschriften über die Abstände zwischen den Gruppen!). Andere Sortierverfahren geben eine b e s t i m m t e Anzahl von G r u p p e n vor. In Sonderfällen wird eine bestimmte Besetzung der G r u p p e n verlangt, ζ. B. überall gleich viele Reize. Ein Spezialfall ist der Q-Sort: Hier wird die Besetzung der einzelnen Kategorien so vorgeschrieben, d a ß die Häufigkeiten einer Binomialverteilung entsprechen. Somit wird eine optimale A n n ä h e r u n g an die Normalverteilung erzwungen. h2) Beurteilungsverfahren (rating): Im Gegensatz zu den Sortierverfahren wird hier immer nur ein Reiz vorgelegt. Die Aufgabe der Vp ist es, die Kategorie anzugeben, in die der Reiz " a m besten p a ß t " . Wichtige Spezialfälle sind aus dem Bereich der Phänomenskalen: Absolute Urteile (absolute j u d g m e n t ) : Einzelne Reize gleicher Art (Ähnlichkeitsbereich) werden vorgelegt. Die Vp hat eine b e s t i m m t e s A t t r i b u t (ζ. B. Länge) mit Verbalkategorien (lang, mittel, kurz) zu beurteilen. Ein Vergleichsreiz ist nicht vorhanden. Polaritätenprofil (semantic differential): Dies ist eine Sammlung von Kategorialskalen, deren jede d u r c h ein Eigenschaftspaar (ζ. B. groß-klein, heiß-kalt) definiert ist. Eine bestimmte, gleiche Anzahl von Kategorien ist durch Unterteilung einer Verbindungslinie zwischen den Adjektiven vorgegeben (meist 7). Gleichabständigkeit wird in der Auswertung vorausgesetzt, aber von der Vp nicht verlangt! Die Vp hat die Aufgabe, den vorgegebenen Reiz (Eigenschaften, Dinge, Personen) auf allen Skalen zu beurteilen. Aus dem Bereich der Persönlichkeitsskalen·. Die meisten Tests lassen sich als kombinierte Skalen nach dem Beurteilungsverfahren verstehen: Zur Erhöhung der Zuverlässigkeit sind viele einzelne Skalen zusammengefaßt worden. Die E i n z e l " i t e m s " sind dabei Kategorialskalen. Der Reiz, den die Vp beurteilt, ist sie selbst bzw. ihr Ideal. Die vorgegebenen Kategorien sind dabei Aussagen zu einer bestimmten Frage (die manchmal verschwiegen wird) o d e r gestaffelte Stellungnahmen (stimme zu — unentschieden — lehne ab) zu einer Aussage. Die Vp wählt die Alternative aus, zu der sie am meisten Affinität hat (Likert-"Skala" oder — wenn die Items bestimmte Forderungen erfüllen - Guttman-Skala). i) Subjektive Urteile (subjective estimates, equal appearing intervals): Diese G r u p p e von Verfahren unterscheidet sich von den Kategorialskalen dadurch, d a ß von den Vpn zusätzlich eine Gleichabständigkeit der Kategorien(grenzen) verlangt wird. Im übrigen bestehen dieselben Variationsmöglichkeiten. Der Grundvorgang ist der, daß man der Vp eine Reizserie vorlegt und von ihr eine direkte zahlenmäßige Angabe darüber verlangt, wieviel jeder Reiz von dem bestimmten vorgegebenen Attribut besitzt. Die Reize k ö n n e n einzeln oder simultan vorgelegt werden. Im letzteren Falle wird o f t verlangt, die Reize in G r u p p e n zu sortieren, so d a ß die G r u p p e n hinsichtlich des Attributs gleichabständig sind. Die Verfahren verlangen von der Vp eine metrische Beurteilung von Distanzen.
5. Kapitel: Skalierungsverfahren
145
k) Größenschätzung ( m a g n i t u d e e s t i m a t i o n ) : Diese V e r f a h r e n u n t e r s c h e i d e n sich von d e n " s u b j e k t i v e n U r t e i l e n " d a r i n , d a ß n u n eine direkte A n g a b e in Zahlen u n t e r Bezug auf einen a b s o l u t e n N u l l p u n k t verlangt w i r d . Die Beurteilung erfolgt — so wird vorausgesetzt — auf einer Rationalskala, u n d die Vp ist w e i t e r in der Lage, d e n " M e ß w e r t " in geeigneter F o r m (d. h. invariant bis auf p r o p o r t i o n a l e T r a n s f o r m a tionen) mitzuteilen. Es folgt schließlich n o c h die Beschreibung einer E H , die einen Reiz u n d i n s o f e r n eine n e u e Variante darstellt:
als Skala
benutzt
1) Ähnlichkeitsschätzung nach Ekman ( 1 9 6 3 ) : J e zwei Reize i u n d j w e r d e n vorgelegt. Einer davon d i e n t als S t a n d a r d . Die Vp soll a n g e b e n , w e l c h e r Anteil dieses Standardreizes im Vergleichsreiz w i e d e r z u f i n d e n ist, u n d zwar o h n e Bezug zu e i n e m b e s t i m m t e n A t t r i b u t . Was verglichen w i r d , ist eine globale Ä h n l i c h k e i t in d e m Sinne wie m a n sagt " K a r l h a t viel von seinem V a t e r " . J e d e r Reiz f u n g i e r t für j e d e n a n d e r e n als S t a n d a r d ; s o m i t sind bei η R e i z e n n { n — 1) Paare zu vergleichen.
5.3
Die Auswertung der Daten
Der letzte Schritt bei der Gewinnung der Variablen ist die Verarbeitung der gewonnenen Daten zu Skalenwerten. Hierbei lassen sich verschiedene S t u f e n d e r logischen Raffinesse erkennen: a) ad-hoc-Verfahren (siehe Abschnitt 5.4.1) b) Verfahren, die auf wiederholter Anwendung der EH beruhen (5.4.1) c) Verfahren, die auf einer Einengung der Antwortmöglichkeiten beim Vorliegen einer Skala beruhen (5.4.2) d) Verfahren, die auf der Transformation von Wahrscheinlichkeiten in Distanzen beruhen (5.4.3) e) mehrdimensionale Verallgemeinerungen (5.7) In d e n f o l g e n d e n A b s c h n i t t e n w e r d e n die g e n a n n t e n V e r f a h r e n dargestellt; zuvor sollen j e d o c h die verschiedenen t h e o r e t i s c h e n Modelle e r w ä h n t w e r d e n sowie die sog. P s y c h o m e t r i s c h e F u n k t i o n , die sachlich zu d ) g e h ö r t , aber die historische u n d gedankliche G r u n d l a g e für w e i t e r e n t w i c k e l t e M e t h o d e n bildet.
5.3.1
Skalierungsmodetie
Drei G r u n d t a t s a c h e n sind zu berücksichtigen: 1) Alle psychologische Messung ist fehlerhaft; 2) das Verhalten der Vp ist von zu vielen Faktoren abhängig, als daß man sagen könnte, es sei in der Experimentalhandlung getreu von dem bestimmt, was eine allzu differenzierte Instruktion fordert; 3) das Niveau der Antworten (Reaktionen) im Skalierungsversuch ist im skalentheoretischen Sinne zweifelhaft. Im Normalfall, d. h. wenn nicht besonders einfache und überschaubare Reizverhältnisse vorliegen, tut man gut daran, grundsätzlich davon auszugehen, daß die Beurteilung der Reize durch die Vp und die protokollierbare Meldung von ihr über die Erscheinungsweise des Reizes höchstens Ordinalskalenqualität haben. So wäre der Gewinn einer Skalierung eingeschränkt, wenn etwa die Vp Reizdifferenzen beurteilt, dabei der Ansicht ist, sie beurteile Verhältnisse, die Daten in dieser Form
146
5. Band: Testen und Messen
an d e n VI w e i t e r g i b t , d e r sie e b e n f a l l s als Verhältnisse i n t e r p r e t i e r t u n d m i t der e n t s p r e c h e n d e n skalenbildenden F u n k t i o n verarbeitet.
Die A n t w o r t auf die mit diesen G r u n d t a t s a c h e n verbundenen Schwierigkeiten besteht in b e s t i m m t e n Forderungen, die an die Skalierungsmodelle u n d an die verwendeten Experimentalsituationen gestellt werden müssen: Die immer unvermeidbare Fehlerstreuung m u ß durch geeignete experimentelle und statistische Verfahren berücksichtigt werden. Hierzu gibt es prinzipiell zwei Wege: Der ältere besteht darin, d a ß ein deterministisches Modell aufgestellt und b e n u t z t und die Urteilsstreuung als reine Fehlervarianz betrachtet wird. Man versucht in diesem Fall, in einem ersten Schritt die R o h d a t e n von der Fehlerstreuung so weit wie möglich zu "reinigen" (ζ. B. durch Mittelwertsbildung) und wenige, aber " s a u b e r e " Werte in das endgültige Skalierungsverfahren zu übernehmen. Der neuere und bessere Weg besteht darin, d a ß man von vornherein mit der Unsicherheit der Einzelmessung rechnet, sie in Form von Wahrscheinlichkeiten berücksichtigt und von A n f a n g an ein probabilistisches Modell verwendet. Aus der Unkontrollierbarkeit des Verhaltens der Vp ist die Folgerung zu ziehen, d a ß man möglichst solchen EH den Vorzug geben sollte, die für die Vp eindeutig, leicht überschaubar und einfach zu bewältigen sind. Alle Verarbeitungsprozesse, die dazu geeignet sind, sollten aus der Experimentalsituation herausgenommen und in die Auswertung gesteckt werden (-> Bd. V: Lück, Testen 3.3). Natürlich streben wir nach Skalen von möglichst hoher Qualität. Die Vorsicht gebietet aber, die Forderungen, die an die schließlich gewonnene Skala gestellt werden, nicht auch an die Vp heranzutragen. Vielmehr sollte man von ihr k o n s e q u e n t nicht m e h r verlangen als Ordinalurteile. Es ist interessant, zu verfolgen, welche Raffinesse große Psychologen und Statistiker angewandt h a b e n , um u n t e r Zuhilfenahme von Verhaltenstheorien, statistischen und mathematischen Eigenschaften von Distanzen und Skalen, aus den Ordinalurteilen der Vpn Intervall- und Rationalskalen zu bauen. Einer ersten Sichtung drängen sich drei verschiedene Gruppen von Modellen auf, die historisch zu verschiedenen Zeiten und auf verschiedenem Hintergrund entstanden sind. a) Die älteste G r u p p e u m f a ß t die psychophysischen Methoden und, direkt aus diesen herauswachsend, die Skalierungsmodelle, die gerade die Fehlerhaftigkeit der psychologischen Messung b e n u t z e n , um aus der Not eine Tugend zu m a c h e n : sie verwenden die Streuung, also die Unsicherheit der Meßwerte, um zu Skalenwerten zu k o m m e n . Dazu ist viel Statistik und eine Reihe von plausiblen, aber letztlich schwer prüfbaren A n n a h m e n notwendig. Wenn die Voraussetzungen z u t r e f f e n , sind die Verfahren bestechend elegant. b) Gegenüber diesen Verfahren und dem in ihnen spürbaren Optimismus trägt die zweite G r u p p e fast so etwas wie Resignation an sich: Metrik wird nicht unbedingt erstrebt, man begrüßt sie, wo man sie findet. Die zugrundeliegende Überlegung ist von ganz anderer Art: Es geht nicht m e h r d a r u m , die " M e c h a n i k " der Reize und ihre Fluktuationen zu berücksichtigen oder zu überlisten und " d e n n o c h " zu einer Skala zu k o m m e n . Der Ausgangspunkt ist vielmehr eine Überlegung, die das Gesamtverhalten der Vp zum Gegenstand hat: D a ß Ordnung, wo immer sie a u f t r i t t , die mögliche Variabilität des Verhaltens einschränken muß. Wenn eine Reihe von Reizen im Sinne einer Skala geordnet ist, so wird sich dies auf das Verhalten der Vpn gegenüber
5. Kapitel: Skalierungsverfahren
147
diesali Reizen auswirken, und zwar im Sinne einer Einschränkung der Mannigfaltigkeit. Dies ist der entscheidende Hinweis auf das Bestehen einer Skala, das somit erst einmal in Zweifel gezogen wird. c) Der Grundgedanke der dritten G r u p p e von M e t h o d e n ist im Grund operationalistisch: Ziel der Skalierung ist die Abbildung der zu skalierenden Elemente in eine Punktekonfiguration eines n-dimensionalen Raumes. Die Modelle streben folgerichtig nichts weiter an, als eine bestmögliche Anpassung der P u n k t e k o n f i g u r a t i o n an die Ähnlichkeitsstruktur des Datenmaterials. Im Idealfall (KRUSKAL 1964a; 1 9 6 4 b ) ist die einzige Voraussetzung dazu ein m o n o t o n e r Zusammenhang zwischen der Ähnlichkeit der R e a k t i o n e n und der Distanz der P u n k t e im D a t e n r a u m . Diese "Vorauss e t z u n g " geht aber als Kriterium in den rechnerischen Ansatz des Modells ein, wird also empirisch überprüft. Diese Modelle setzen auf Seiten der Vp nicht mehr voraus, als Rangurteile, sind in ihrer Anwendbarkeit weniger beschränkt, als die der vorigen G r u p p e , beruhen auf algebraischen oder infinitesimalen Lösungsalgorithmen statt auf einer mehr suchenden Dateninspektion und führen zu Skalen von Rationalskalen-Niveau und zu Aussagen über die Dimensionalität des Datenraums.
5.3.2
Die historische Grundlage: Psychometrische F u n k t i o n und Charakteristik eines Items
Wir gehen aus von einem kontinuierlich variablen, w a h r n e h m b a r e n physikalischen Reiz. Dies ist die klassische Situation der Skalierung einer E m p f i n d u n g . Bekanntlich existiert in der Wahrnehmung eines solchen Reizes eine Unstetigkeit: die Schwelle. Die absolute Schwelle k ö n n t e man sich nun vorstellen als den Punkt im Energiekont i n u u m , der w a h r n e h m b a r e von nicht w a h r n e h m b a r e n Reizquanta trennt. O f f e n b a r liegen die Verhältnisse nicht so einfach, denn wie wir wissen, ist zur Messung einer Schwelle ein erheblicher A u f w a n d nötig. Es liegt auch auf der Hand, wo die Schwierigkeiten in das System hineingetragen werden: sicher nicht auf der physikalischen Seite, denn die vorzugebenden Reizquanta können äußerst genau bestimmt werden. Der Fehler liegt vielmehr im Wahrnehmungsapparat. Dort treten F l u k t u a t i o n e n auf, die dazu führen, d a ß Reize in der Nähe der Schwelle zufällig einmal w a h r g e n o m m e n werden, einmal nicht. Statt der sauberen T r e n n u n g von nicht w a h r n e h m b a r e n und wahrnehmbaren Reizen, die fugenlos aneinanderstoßen, finden wir einen mehr oder weniger ausgedehnten Übergangsbereich von Reizen, die selten w a h r g e n o m m e n werden, zu solchen, die häufig oder immer w a h r g e n o m m e n werden. Es gibt einen Reizbereich, in dem durch ein A n h e b e n d e r Reizenergie die Wahrscheinlichkeit einer Wahrnehmung wächst. Eine Graphik dieses Übergangsbereichs, in der die Reizgröße (Abszisse) und die Wahrscheinlichkeit der Wahrnehmung (Ordinate) in Zusammenhang gebracht und d u r c h einen Kurvenzug dargestellt werden, nennt man "Psychometrische F u n k t i o n " (Darstellung 3). Es gibt e i n e R e i h e v o n t h e o r e t i s c h e n ( u n d p l a u s i b l e n ) G r ü n d e n d a f ü r , dali> d a s I n t e g r a l d e r N o r m a l v e r t e i l u n g ( d i e sog. O g i v e ) die " r i c h t i g e " p s y c h o m e t r i s c h e F u n k t i o n ist. o b g l e i c h sich p r i n z i p i e l l j e d e m o n o t o n e F u n k t i o n a n b i e t e t . Die Ogive ist d a h e r d a s a l l g e m e i n a k z e p t i e r t e Modell d e r Psychometrischen Funktion.
148
5. Band: Testen und Messen
ζ *
+3
/
•+2 +1 0
p = 1,0 0,5
-1 -2
0 *
Schwelle
D a r s t e l l u n g 3: Psychometrische Funktion. Links in der üblichen Darstellung als Ogive. Durch den Übergang zum Wahrscheinlichkeitsnetz (rechts) werden die Enden der Kurve in Richtung der durch * bezeichneten Pfeile gestreckt, so daß die Ogive zur Geraden wird. Der Schwellenwert ist bei ρ = 0,50 bzw. ζ = 0,00 zu finden.
(Das Schwellenproblem ist gelöst. Die Methoden, mit denen die Psychometrische Funktion empirisch ermittelt werden kann, liegen seit hundert Jahren vor, und nachdem die Funktion selbst einmal bekannt ist, wird der Schwellenwert definitorisch als der Mittelpunkt der psychometrischen Funktion festgelegt, als die Stelle, an der eine positive Reaktion mit der Wahrscheinlichkeit ρ = 0,50 zu erwarten ist.)
Es wäre n u n unrealistisch, a n z u n e h m e n , d a ß die U n s c h ä r f e , die sich in der E x i s t e n z d e r P s y c h o m e t r i s c h e n F u n k t i o n zeigt, ausschließlich im Z u s a m m e n h a n g mit Schwell e n u n t e r s u c h u n g e n a u f t r ä t e . Vielmehr müssen wir g r u n d s ä t z l i c h davon ausgehen, d a ß alle W a h r n e h m u n g e n u n d alle Urteilsakte der V p d a v o n b e t r o f f e n sind. I n s b e s o n d e r e h a b e n wir d a m i t zu r e c h n e n , d a ß P h ä n o m e n e , die auf d e m Wege d e r Vorstellung erzeugt w e r d e n , f l u k t u i e r e n . Die K o n s e q u e n z e n dieser Aussage zeigen sich s o f o r t , w e n n m a n sich klar m a c h t , d a ß zu diesen P h ö n o m e n e n gerade a u c h die Hilfsmittel g e h ö r e n , die uns bei d e r p s y c h o l o gischen Messung z u r Verfügung s t e h e n : Wir g e b e n d e r V p q u a s i - q u a n t i t a t i v e Begriffe vor, u m K a t e g o r i e n g r e n z e n zu aktualisieren, ζ. B. wir verlangen, d a ß sie d e m I n h a l t eines Satzes, d e r angeblich von d r i t t e n Personen s t a m m t , ä u ß e r t , z u s t i m m t o d e r i h n a b l e h n t . Die Vorstellung, die die V p m i t einer als Hilfsmittel zur Beurteilung o d e r z u r Wiedergabe des Urteils vorgegebenen Z a h l e n r e i h e v e r b i n d e t , fluktuiert e b e n s o wie d e r zu b e u r t e i l e n d e G e g e n s t a n d , der selten als d i r e k t e W a h r n e h m u n g , meistens (in d e r S o z i a l f o r s c h u n g ) als soeben aktualisierte Vorstellung, i m m e r a b e r in einer F o r m auft r i t t , die die A n n a h m e einer K o n s t a n z u n w a h r s c h e i n l i c h m a c h t . V o n T H U R S T O N E ( 1 9 2 7 a ) s t a m m t eine sehr anschauliche A r t , solche Sachverhalte darzustellen (Darstellung 4). Der Reiz R löst wegen d e r F l u k t u a t i o n e n verschiedene Beurteilungsprozesse aus (SI bis S7), aber mit verschiedener Häufigkeit ( D i c k e d e r Striche). Es ist plausibel u n d w e i t g e h e n d a k z e p t i e r t , d a ß die H ä u f i g k e i t e n , mit d e n e n b e n a c h b a r t e Beurteilungsprozesse (discrimininal processes) von e i n e m b e s t i m m t e n Reiz ausgelöst w e r d e n , z u s a m m e n eine N o r m a l v e r t e i l u n g bilden. Dies ist g e m e i n t , w e n n in der L i t e r a t u r o f t sehr abgekürzt d a v o n g e s p r o c h e n wird, ein Reiz " p r o j i z i e r e " eine N o r m a l v e r t e i l u n g auf einem K o n t i n u u m ( r u f e hervor, p r o d u z i e r e o. a.).
5. Kapitel: Skalierungsverfahren
149
Darstellung 4: Zustandekommen der Urteilsstreuung: Reiz R löst verschiedene Urteilsprozesse (S1 bis S 7) mit verschiedener Häufigkeit (Strichdicke) aus. Rechts ist die Darstellung durch Strichdicken ersetzt durch die übliche Normalverteilungskurve. Die Grenze zwischen den Kategorien " s c h ö n " und " h ä ß l i c h " ist eingezeichnet (Quelle: THURSTONE 1927a).
'schön' 'häßlich'
m M on
In Darstellung 4 ist als waagrechter Strich eine Kategoriengrenze eingezeichnet worden. Wenn der Reiz R zufällig einen der Prozesse S 5 bis S7 auslöst, die über der Kategoriengrenze liegen, so wird er von der Vp als " s c h ö n " beurteilt, sonst als "häßlich". Die Lage der Kategoriengrenze entscheidet also über die Wahrscheinlichkeit, mit der der Reiz als " s c h ö n " beurteilt wird. Der Reiz R und die ihm benachbarten stellen also im Verein mit der Kategoriengrenze einen Übergangsbereich dar, in dem die Wahrscheinlichkeit einer positiven Antwort mit der Anordnung auf der Reizskala zusammenhängt. Dies sind die Voraussetzungen für eine Art "psychometrischer F u n k t i o n " , die sich von der oben besprochenen nur dadurch unterscheidet, daß sie nicht eine absolute Wahrnehmungsschwelle darstellt, sondern das Zusammenspiel der festen Kategoriengrenze mit den fluktuierenden Reizen charakterisiert. (Es handelt sich um die "Schwelle", an der die "häßlich"-Urteile in "schön"-Urteile übergehen; das Ganze spielt sich aber im überschwelligen Bereich ab.) Dieselbe Art von Überlegungen führt in zwei weiteren Fällen zum gleichen Resultat: Wären die Reize fixiert, so würde eine fluktuierende Kategoriengrenze ebenfalls einen Übergangsbereich von Wahrscheinlichkeiten schaffen, und ebenso in dem dritten, nun endlich realistischen Falle, d a ß sowohl die Reize, wie die Kategoriengrenze Fluktuationen unterworfen sind. Da sich in dieser Hinsicht Reize und Kategoriengrenzen nicht unterscheiden lassen, hat man in der Skalierung die Konsequenz gezogen und für beide unterschiedslos den Begriff " I t e m " eingeführt. Die "psychometrische F u n k t i o n " , die das Item charakterisiert, wird in einem Koordinatensystem wiedergegeben, bei dem auf der Abszisse die Skala (Reiz-, Urteilsoder Personenkontinuum), auf der Ordinate die Wahrscheinlichkeit einer positiven Reaktion abgetragen werden. Für ein beliebiges Item kann man nun die Linie angeben, die nach der Definition der Koordinaten zeigt, mit welcher Wahrscheinlichkeit
150
5. Band: Testen und Messen
dieses I t e m an einer b e s t i m m t e n Stelle der Skala eine b e s t i m m t e A n t w o r t hervorruft. Diese Linie heißt "Charakteristik" des Items (trace line). Die echte Psychometrische F u n k t i o n ist ein Sonderfall der Charakteristik. Dort ist das dargestellte Item die Grenze zwischen den beiden Kategorien " w a h r g e n o m m e n " und " n i c h t wahrgenommen".
(â)
m o n o t o n e Items
Darstellung 5: Itemcharakteristiken. G = Guttman-Charakteristik, L = Lineare Charakteristik, LD2 = Zweiparameterversion des Latent Distance Modells, LD3 = Dreiparameterform, NO = Normalogivenmodell. Punktitems
Zwei generelle Klassen von Charakteristiken lung 5): a) monotone
(COOMBS
k ö n n e n unterschieden werden (Darstel-
1 9 5 8 : cumulative; increasing probability ; T H U R S T O N E UND
1 9 5 2 ; 1 9 5 4 ; TORGERSON
1 9 4 8 ; MOSTELLER 1 9 4 9 :
LOEVINGER CHAVE
1929).
b)Punkt-Charakteristiken ( n o n m o n t o n e ; differential; p o i n t ; m a x i m u m probability). Das (Continuum selbst, die Skala, ist in m a n c h e n Fällen (ζ. Β. bei Schwellenmessung) direkt abbildbar auf ein auch anderweitig definiertes K o n t i n u u m (ζ. B. die physikalische Skala der Helligkeiten). Im allgemeinen aber ist die Skala bei psychologischen Messungen ein K o n s t r u k t , von d e m nicht feststeht, o b es einmal den Rang eines hypothetischen K o n s t r u k t s im Sinne von M A C C O R Q U O D A L E UND M E E H L ( 1 9 4 8 ) ann i m m t , oder ob ihm allenfalls die Dignität einer intervenierenden Variablen zuk o m m t : "Die psychologische Skala ist bestenfalls eine artifizielle K o n s t r u k t i o n . Wenn ihr irgendeine physikalische Realität z u k o m m t , haben wir bestimmt nicht die entfernteste Idee davon, wie sie b e s c h a f f e n sein k ö n n t e ..." ( T H U R S T O N E 1 9 2 7 D ) . Im Alltag der Skalierung wird das Beurteilungskontinuum als Realität vorausgesetzt und trägt den N a m e n "Skala". Es ist die Aufgabe der Skalierung, das Beurteilungsk o n t i n u u m in den Griff zu b e k o m m e n und nach Möglichkeit metrisch abzubilden.
5. Kapitel: Skalierungsverfahren
5.4
Auswertungsverfahren
5.4.1
Einfache Auswertungsverfahren
151
Alle Daten lassen sich mit Hilfe von ad-hoc- Verfahren sehr schnell zu Skalenwerten verarbeiten. So erfordert es ζ. B. wenig Aufwand, aus den Angaben der Vpn den Mittelwert (Median) zu berechnen, wenn diese schon Zahlen geliefert haben (Ränge, Direktschätzungen). Kategorien können durch Zahlen repräsentiert werden; unter Umständen stehen bei längerer Skalierungspraxis sogar Gewichtszahlen zur Verfügung. Voraussetzung dazu ist, daß es eine "natürliche" Abfolge der Kategorien gibt oder aus bestimmten Kriterien (ζ. B. Eichung, frühere Untersuchungen, physikalisch meßbares Kontinuum der Reizvorlagen) eine solche abgeleitet werden kann. Einige Skalierungsverfahren benutzen grundsätzlich solche Mittelungen als Skalenwerte (ζ. B. Polaritätenprofil), bei anderen sind Mittelwertbildungen zur Datenreduktion und Stabilisierung im Zusammenhang mit Replikationen der EH eingebaut.
Darstellung 6: Vergleich der Skalenwerte nach dem Kategorialurteilsgesetz mit einfachen Rangplatzmittelungen fiir dieselben Daten. (Daten nach TORGERSON 1958, S. 211).
Daß ad-hoc-Schätzungen unter Umständen den Vergleich mit Skalenwerten, die mit "etablierten" Methoden gewonnen wurden, nicht zu scheuen brauchen, zeigt Darstellung 6. Hier wurde an einem Beispiel aus der Literatur (TORGERSON 1948, S. 211) verglichen, wie die Skalenwerte sich zueinander verhalten, wenn einmal nach dem "law of categorial judgment" skaliert wird, zum andern aber einfach die arithmetischen Mittel der Rangplatznennungen als Skalenwerte verwendet werden. Wie man sieht, unterscheiden sich die Skalen wenig. Bei einigen Verfahren ist die SBF direkt in die EH eingebaut. Das raffinierteste Verfahren dieser Art ist die direkte Größenschätzung (Typ k vgl. 5.2.2) nach STEVENS ( 1 9 5 6 ; HARPER UND STEVENS 1 9 4 8 ) . D a d i e V p h i e r s o f o r t S k a l e n w e r t e a u f
einer Rationalskala liefert, (immer vorausgesetzt, daß sie das kann), besteht ein eigentliches Skalierungsproblem nicht. Zur Stabilisierung der Skalenwerte können Proportionaltransformationen und anschließend Mittelungen vorgenommen werden (z.B. so, daß der größte Reiz immer gleich 1 gesetzt wird). Auf wiederholte Anwendung der EH angelegt sind die Verfahren der Äquisektion (f) und der Verhältnisschätzung (g). Wie sofort zu sehen ist, kann durch fortgesetzte Äquisektion eine beliebig feine Skalierung erreicht werden. Zur Prüfung der Intervallskalen-Qualität kann das Bisymmetrieaxiom herangezogen werden: Ist ζ. B. durch Bisektion zwischen den Reizen A und Β der Reiz C ermittelt worden, weiter zwi-
152
5. Band: Testen und Messen
sehen A und C und C und Β die Mittelpunkte D und E, so verlangt das Axiom, daß eine weitere Bisektion zwischen D und E wieder auf C führt. Um aus Äquisektionsdaten eine kontinuierliche Skala zu erhalten, kann man graphisch interpolieren. Eventuelle Abweichungen von der Linearität können oft durch Übergang zu Exponential- oder Log-log-Papier ausgeglichen werden. Da die Replikationen der EH immer zu Streuungen der Skalenwerte führen, sind Mittelwerte zur Kurvenanpassung "mit freiem Auge" angebracht, wenn nicht an eine algebraische Anpassung (Prinzip der kleinsten Quadrate) gedacht ist. Diese wird zur Erleichterung des Verfahrens vorteilhaft mit den transformierten Punkten vorgenommen. Für Fraktionierungsdaten gilt mutatis mutandis das gleiche wie für Äquisektion. Bei der sogenannten Likert-Technik (ALLPORT UND VERNON 1 9 3 1 ; LIKERT 1 9 3 2 ) wird eine Reihe von Items zur Beurteilung vorgelegt. Das Charakteristikum der Technik ist eine Gewichtung der eigenen Zustimmung oder Ablehnung jedes Items durch die Vp selbst. Die Auswahl der Items erfolgt nach Kriterien der Testtheorie so, daß die interindividuelle Varianz maximiert wird. Der Skalenwert der Items ist dazu irrelevant. Die Likert-Technik ist kein Skalierungsverfahren: ihr Zweck ist nicht, Skalenwerte zu finden, sondern die Population der Vpn in einzelne Gruppen aufzuspalten, die sich möglichst deutlich unterscheiden. Die Bedeutung der Technik für die Skalierung beschränkt sich auf die Vor-Auswahl von Items; dort ist sie eine schnelle, approximative Hilfe (-• Bd. V: Lück, Testen 3.3.2).
5.4.2
Verfahren, die auf einer Einengung der Antwortmöglichkeiten beim Vorliegen einer Skala beruhen
Werden η Reize vorgelegt, so ist die Zahl der möglichen Rangreihen = n!; bei 5 Reizen sind also 120 Rangreihen möglich. Wenn diese Varietät nicht ausgeschöpft wird, wenn also von den Vpn nur eine bestimmte (viel kleinere) Anzahl verschiedener Rangreihen geliefert wird, so sind daraus Schlüsse möglich. Schlüsse können nur gezogen werden, wenn die Varietät des beobachteten Verhaltens geringer ist, als die Varietät, die möglich war aufgrund der Methode der Datensammlung. Wenn die Dinge, die vorkommen konnten, nicht vorkommen, hat "die Natur das Verhalten eingeschränkt und sich damit selbst enthüllt" (COOMBS 1964, S. 143). Dies ist die gemeinsame Grundidee einer Anzahl von Verfahren, die im folgenden dargestellt werden sollen. Es sind dies die Verfahren, die unter den folgenden Namen bekannt geworden sind: Skalogramm-Analyse (scalogram analysis; Guttman scale), parallelogram analysis, Unfolding (Coombs). Die Modelle sind adäquat für Daten, die nach den oben unter (c), (d) oder (h) beschriebenen Methoden gewonnen wurden (Auswahl, Rang-, Kategorialverfahren), unter Informationsverlust auch für Daten nach (g), (i) und (k). 5.4.2.1
Parallelogramm-Analyse
Beim Auswahlverfahren (c) gibt die Vp k Reize (aus einer Reihe von n) an, die von einem vorgegebenen Attribut am meisten besitzen. Ein Auswertungsverfahren ist von COOMBS ( 1 9 6 4 ) unter dem Namen Parallelogramm-Analyse angegeben worden: Der Grundgedanke ist, daß die Vp die Skala nicht aus der Vogelperspektive betrachtet
153
5. Kapitel: Skalierungsverfahren
und voll übersieht, sondern selbst als Punkt auf dieser Skala repräsentiert werden kann (Idealpunkt der Vp). Die Vp handelt nach der Maxime, d a ß sie selbst das Maß aller Dinge sei und stuft diejenigen Reize am höchsten ein, die ihrem Idealpunkt am nächsten stehen, und nicht die, die " o b j e k t i v " den Anfang der Skala markieren. Sie tut dies o h n e Berücksichtigung der Richtung. Die anfallenden Daten k ö n n e n in einer Matrix wiedergegeben werden, deren Spalten durch die vorgegebenen Reize, deren Zeilen durch die Vpn definiert sind. Jedesmal, w e n n die Vp i einen Reiz / gewählt hat, erscheint in der entsprechenden Zelle //' ein Zeichen (z. B. die Zahl 1). J e d e Zeile enthält somit k besetzte Zellen. Die Auswertung geht so vor sich, d a ß Zeilen und Spalten der Matrix so lange umgeordnet werden, bis die besetzten Zellen ein lückenloses Band von links ober nach rechts u n t e n bilden. (Dieses Band wird zum Parallelogramm, w e n n alle m e h r f a c h a u f t r e t e n d e n Zeilen und Spalten e n t f e r n t wurden, d. h. eine R e d u k t i o n auf T y p e n vorgenommen wurde (Darstellung 7a)). Wenn — beim Vorliegen einer Skala — das Parallelogramm-Muster gefunden ist, entspricht die Abfolge der Spalten einer Rangordnung der Reize, die Abfolge der Zeilen einer Rangordnung der Vpn(-typen). Perfekte Parallelogramme treten in der Regel nicht auf. Coombs empfiehlt als Maß für die Güte der Skala eine A n w e n d u n g des G u t t m a n ' s c h e n Reproduzierbarkeitskoeffizienten, wobei statt der Anzahl der einzelnen Reproduktionsfehler nur die Anzahl der Lücken im Parallelogramm (ohne Berücksichtigung ihrer Größe) verwendet werden solle.
Darstellung 7a:
A
Β
C
1
χ
χ
χ
typen
2
χ
χ
χ
χ
χ
P a r a l l e l o g r a m m - M u s t e r für A u s -
3
w a h l d a t e n ( Q u e l l e : COOMBS
4
1 9 6 4 , S. 6 7 ) .
5
Darstellung 7b:
D
Reize: Antwort-
χ
Ε
F
G
χ χ
χ
χ
χ
χ
D
E
F
Reize:
A
Β
C
Antwort-
1
1
2
3
typen
2
2
1
3
3
3
1
2
4
1
2
3
5
2
1
3
6
3
1
2
7
1
2
3
8
2
1
3
9
3
1
2
vollständige Rangreihen (Quelle:
10
3
2
1
COOMBS 1 9 6 4 , S. 7 6 ) .
11
2
1
3
12
3
1
2
13
3
2
1
P a r a l l e l o g r a m m - M u s t e r f ü r un-
154
5. Band: Testen und Messen
Eine Variation des Verfahrens für Daten aus unvollständigen Rangreihen (k < η - 1 ) besteht darin, daß statt der Ausfüllung der besetzten Zellen durch gleiche Zeichen die Rangplätze der Reize eingetragen werden. Die Umordnung der Spalten erfolgt dann so, daß innerhalb jeder Zeile die Ränge echt monoton zuerst bis 1 fallen, dann echt monoton steigen. Danach erfolgt die Umordnung der Zeilen (Vpn-Typen) so, daß in jeder Spalte die Ränge zuerst schwach monoton auf 1 fallen, sodann steigen. Ist diese Struktur erreicht (Darstellung 7b), so entspricht die Abfolge der Spalten der Rangordnung der Reize, die der Zeilen der Rangordnung von Vpn-Typen. Darüber hinaus steht die Zahl 1 in jeder Zeile unter dem Reiz, der dem Idealpunkt der Vp am nächsten ist. Über eine Abschätzung der Skalengüte bei nicht perfekten Mustern ist nichts bekannt. 5.4.2.2
Unfolding
Eine Vp soll eine Reihe von Reizen (Α, Β, C, D, E, F) nach Sympathie beurteilen. Sie tut dies in Form einer Rangreihe: CDBEAF. C ist also der Reiz, der ihr am sympathischsten ist. COOMBS (1964) fragt, wie diese Rangreihe zustande kommt und macht dazu folgende Annahmen: 1) Die Vp selbst und die Reize können als Punkte auf einer Intervallskala repräsentiert werden. Diese Skala ist das latente Beurteilungssystem, das die Vp benutzt (/-Skala), und 2) die Vp beurteilt die Reize hinsichtlich ihrer Distanz von dem Idealpunkt. Sie berücksichtigt dabei die Richtung der Distanz nicht. Die entstehende Rangordnung (/-Skala) ergibt sich aus den Distanzen, wenn man die Richtung ignoriert. Dies entspricht einer Faltung der/-Skala im Idealpunkt der Vp (Darstellung 8). Idealpunkt
Darstellung 8: F a l t u n g der / - S k a l a zur /-Skala. ( Q u e l l e : COOMBS 1 9 6 4 , S. 8 0 ) .
Die eigentliche Skalierungsaufgabe ist es, die Faltung rückgängig zu machen (unfolding) und damit die ursprüngliche /-Skala wieder zu erlangen. Dies ist möglich aufgrund der folgenden Überlegungen: 3) Die Präferenzreihe einer Vp zeigt, welchem Reiz sie selbst näher steht. Eine bestimmte Präferenz wird so lange auftreten, wie die Distanz zu einem Reiz größer ist als die zum anderen. Wird der entscheidende Punkt überschritten, so kehrt sich mit der Ordnung der Distanzen auch die Präferenz zwischen diesen beiden Reizen um. Der entscheidende Punkt ist der Mittelpunkt zwischen den beiden Reizen auf der
5. Kapitel: Skalierungsverfahren
155
Skala. Die Mittelpunkte zwischen allen Reizen determinieren also die Reaktionen der Vpn. Die Rangreihe zeigt, welchem von je zwei Reizen die Vp näher ist und damit, auf welcher Seite des Mittelpunkts ihr Idealpunkt lokalisiert ist. Vier Reize generieren genau 6 Mittelpunkte und damit 7 Segmente auf d e r / - S k a l a . V p n , deren Idealpunkt im selben Segment liegt, bringen identische Rangfolgen. Somit sind (von F l u k t u a t i o n e n abgesehen) nur b e s t i m m t e Rangfolgen möglich: bei 4 Reizen 7 Rangfolgen, bei 5 Reizen 11 Rangfolgen, allgemein bei η Reizen η • (η - l ) / 2 + 1 Rangfolgen. Dies entspricht einer Einschränkung der möglichen Verhaltensvarietät u m einen F a k t o r von ungefähr 2 ( n — 2)! Nach diesen Grundüberlegungen kann die Auswertung der Rangfolgen vorgenommen werden. Zuerst sind die Extremreize identifizierbar. Sie sind daran kenntlich, d a ß alle /-Skalen mit einem der beiden aufhören. N a c h d e m die beiden E n d p u n k t e der /-Skala b e k a n n t sind, k ö n n e n zwei (und nur zwei) Rangfolgen gesucht werden, die folgende Eigenschaften haben: Sie beginnen bzw. enden mit den schon identifizierten Extremreizen und sind im übrigen genaue Spiegelbilder voneinander. J e d e dieser beiden Rangreihen gibt schon die A n o r d n u n g aller Reize auf der gesuchten /-Skala richtig wieder. Die /-Skala kann damit — mindestens als Ordinalskala — gezeichnet werden. Weiter liegen einige Mittelpunkte fest. Die Lage der weiteren Mittelpunkte kann daran identifiziert werden, d a ß beim Überschreiten eines solchen Mittelpunktes die Abfolge der beiden zugehörigen P u n k t e sich ändert, und zwar sind dies bei sonst unveränderter Rangfolge immer zwei nebeneinanderliegende Reize. Aus der A n o r d n u n g der Mittelpunkte kann zusätzlich noch metrische I n f o r m a t i o n über die Distanzen zwischen einigen der Reize gewonnen werden. Einzelheiten des Verfahrens und seiner multidimensionalen Erweiterungen sind bei COOMBS ( 1964) in aller Breite dargestellt. Die Voraussetzungen, die erfüllt sein müssen, damit aus den Präferenzordnungen der Probanden eine — immer noch nonmetrische — /-Skala abgeleitet werden k a n n , gibt SIXTL ( 1 9 6 7 , S. 392) wie folgt an: a) i n t e r i n d i v i d u e l l e E i n d i m e n s i o n a l i t ä t : Die R e l a t i o n e n z w i s c h e n d e n I t e m s müssen für alle Prob a n d e n gleich sein; b ) die P o s i t i o n e n d e r V p n müssen v o n d e n P o s i t i o n e n d e r I t e m s u n a b h ä n g i g sein. Die E n t s c h e i d u n gen d e r V p n d ü r f e n beispielsweise n i c h t d u r c h " s o c i a l d e s i r a b i l i t y " b e e i n f l u ß t w e r d e n . c) die P o s i t i o n e n der V p n müssen über die g e s a m t e I t e m s k a l a verteilt sein. Die F o r m d e r Verteil u n g spielt k e i n e R o l l e .
Diese Forderungen sind in den wenigsten Fällen erfüllt. " D a z u k o m m t , d a ß es zur Zeit noch keine verbindlichen Regeln für die Behandlung inkonsistenter Präferenzo r d n u n g e n g i b t . " Für die mehrdimensionale Verallgemeinerung des unfolding gilt ähnliches. Diese Methoden scheitern schon an den G r ö ß e n o r d n u n g e n . SIXTL ( 1 9 6 7 , S. 3 9 6 ) : "Für den mehrdimensionalen Fall gelten die gleichen Voraussetzungen wie für den eindimensionalen. Vor allem m u ß man, um einer eindeutigen Lösung willen, vollständige Daten haben, das heißt, alle aufgrund der Dimensionalität der I t e m k o n figuration möglichen, konsistenten Präferenzordnungen müssen v o r k o m m e n . Diese F o r d e r u n g ist schlechtweg unrealistisch. Bei η = 7 Items und zwei Dimensionen der Itemkonfiguration gibt es 197 konsistente Präferenzordnungen, bei drei Dimensionen b e r e i t s 9 3 1 , b e i vier s c h o n 2 5 5 6 · 1 0 3 (BENNET UND HAYS 1 9 6 0 ) . In A n b e t r a c h t d e r
großen Mengen von Individuen, die man benötigt, und die unter Umständen bereits vorhandene Präferenzordnungen geben, endigt das Verfahren in einer Sackgasse. Zu-
156
5. Band: Testen und Messen
dem lohnt der A u f w a n d auch deshalb nicht, weil d e r / - R a u m keine metrischen Eigenschaften hat (weshalb es nicht gestattet ist, die resultierenden Dimensionen zu rotieren)". Der Fehler der Unfolding-Modelle ist, d a ß sie völlig deterministisch sind und dem unvermeidlichen Versuchsfehler keinen Platz einräumen. Schon durch m o m e n t a n e F l u k t u a t i o n e n k ö n n e n aber inkonsistente Präferenzordnungen entstehen, die dann das Modell sprengen oder — im mehrdimensionalen Fall — zur A u f b l ä h u n g der Dimensionszahl mit den oben genannten Folgen zwingen. Die Unfolding-Verfahren sind für das generelle Verständnis der Skalierung wertvoll, sie sind aber für den eigentlichen Zweck der Skalierung, nämlich die Gewinnung von Variablen, uninteressant.
5.4.2.3
Skalogramm-Analyse
Die Skalogramm-Analyse von G U T T M A N ( 1 9 5 0 ) enthält ebenfalls die Grundidee, d a ß das Verhalten durch die Vorgabe bestimmter Skaleneigenschaften eingeschränkt wird. Die Analyse ist anwendbar auf Kategorialdaten (h, d, i). G u t t m a n n i m m t das Konzept der Itemcharakteristik auf: Ein ideales G u t t m a n - I t e m teilt die Skala in eindeutige Klassen. Zur Vereinfachung gehen wir von einem Item mit n u r zwei Kategorien (Dichotomie) aus: "Sind sie größer als 1,70 m ? " . Alle Vpn, die unter 1,70 m g r o ß sind, a n t w o r t e n " n e i n " , alle übrigen " j a " . Die Charakteristik hat die F o r m einer Linie, die einen Sprung besitzt. Die Wahrscheinlichkeit einer positiven A n t w o r t ist bis zum Wert 1,70 m gleich Null, an diesem P u n k t springt sie auf den Wert Eins (vgl. Darstellung 5a). Mit der Idee der Item-Charakteristik folgt die Ableitung der Skalierung fast von selbst. Ein Item mit einer Guttman-Charakteristik liefert, wenn diese bekannt ist, dreierlei: Die Festlegung eines b e s t i m m t e n P u n k t e s auf der Skala. Dies ist der P u n k t , an d e m die Wahrscheinlichkeit einer Klasse von Reaktionen sich sprunghaft ändert. Da dieser Punkt durch das Item bestimmt ist, kann man sich das Item d o r t "lokalisiert" denken. Zwei Klassen von Vpn, deren Verhalten sich an dem Item scheidet. Von diesen Gruppen läßt sich mindestens so viel sagen, d a ß sie im Durchschnitt verschiedene Skalenwerte haben. Gelingt es nun, auf demselben Urteilskontinuum verschiedene I t e m s an verschiedenen P u n k t e n anzusiedeln, so teilen diese das K o n t i n u u m auf. Diese Eigenschaft kann man heranziehen, um die Items selbst zu skalieren ( K o n s t r u k t i o n von Tests). Die Items (ihre Zahl sei n) teilen aber auch die Population der Vpn in η + 1 G r u p p e n auf, so d a ß auch eine " S k a l i e r u n g " der Vpn möglich wird. Diese hat immerhin den Rang einer Ordinalskala, d. h. es wird möglich, jeder G r u p p e von Vpn einen b e s t i m m t e n Rangplatz zuzuteilen, den die Mitglieder dieser G r u p p e gemeinsam innehaben. N u n liegt die Charakteristik der Items nicht vorab fest, sondern m u ß aus den Versuchen ermittelt werden. Die erste Aufgabe bei der Guttman-Skalierung ist, festzustellen, ob die Items überhaupt eine Skala bilden, was sich an den Reaktionen der Vpn zu zeigen hat. Man trägt die (zustimmenden oder ablehnenden) A n t w o r t e n der Vpn zeilenweise in eine Matrix ein, deren Spalten d u r c h die Items gebildet werden. Die Zelle u{ij) enthält also die A n t w o r t der Vp i auf das Item /. Die Zelle b e k o m m t eine 1, w e n n die Vp dem Item z u s t i m m t , im anderen Falle eine Null. Die so entste-
5. Kapitel: Skalierungsverfahren
157
hende Datenmatrix U wird nun zeilen- und spaltenweise so umgestellt, d a ß einmal die Vpn (Zeilen) eine Rangreihe nach steigender Zahl von positiven Antworten bilden (oben in der Matrix beginnend mit den meisten Nullen), zum anderen auch die Items nach steigender Schwierigkeit geordnet sind (links in der Matrix stehen die Items mit den meisten Zustimmungen). Die nach diesen Prinzipien umgeordnete Matrix heißt Skalogramm (Darstellung 9).
Item: VP 1 2
Darstellung 9:
3 4 5
Perfektes S k a l o g r a m m mit vier I t e m s u n d fünf V p n (Typen).
1
2
3
4
0 1 1 1
0 0 1 1
0 0 0 1
0 0 0 0
1
1
1
1
Der Rang und damit der Skalenwert einer Vp ist um 1 höher als die Zahl ihrer zustimmenden Antworten. Der Rang und Skalenwert eines Items ergibt sich aus der Schwierigkeit. Das Umsortieren der Matrix ist bei größeren Skalen und vielen Vpn manchmal eine langwierige Beschäftigung. Es sind deshalb mechanische Vorrichtungen und "paperand-pencil"-Strategien entwickelt worden, die diese Arbeit erleichtern (STOUFFER 1950, Kap. 4; GUTTMAN 1947a). Man wird aber in steigendem Maße diese Sortierarbeit dem Computer überlassen. Voraussetzung für das Bestehen der Skala ist, daß die Items homogen sind. Inhaltlich bedeutet " H o m o g e n i t ä t " dabei folgendes (SIXTL 1967): a) die Zahl der positiv b e a n t w o r t e t e n I t e m s gibt den Rangplatz an, d e n die Vp im S k a l o g r a m m einnimmt; b) haben zwei Versuchspersonen i und / verschiedene Rangplätze (R¡ > Rj), so hat i alle Items positiv b e a n t w o r t e t , die a u c h / positiv b e a n t w o r t e t h a t , und darüber hinaus n o c h R¡ -
Rj
Items (also so viele, wie die R a n g p l a t z d i f f e r e n z b e t r ä g t ) ; c) aus d e m Rangplatz einer V p geht a u c h inhaltlich
hervor, welche I t e m s positiv b e a n t w o r t e t sind,
weil die Items geordnet sind.
Allein aus dem Rangplatz der Vp läßt sich also ihre gesamte Antwortstruktur reproduzieren. Weil Bedingung c) die beiden anderen impliziert, ist sie kritisch für das Vorliegen einer Skala. Das Ausmaß der Reproduzierbarkeit bietet sich deshalb als Maß für die Skalierbarkeit an. Der von G u t t m a n selbst vorgeschlagene Reproduzierbarkeitskoeffizient ("Rep") gibt den Anteil der Antworten an, der korrekt reproduziert werden kann: (2)
Rep (total) = 1
Gesamtzahl der Fehler Gesamtzahl der Antworten
Die Reproduzierbarkeit eines einzelnen Items ist: (3)
Rep(k)
Anzahl der Fehler bei Item k = 1 - Anzahl der Vpn
158
5. Band: Testen und Messen
Dieser Index bietet sich an, w e n n die Skala durch E n t f e r n e n eines einzelnen Items verbessert werden soll. Rep (total) ist der Mittelwert der individuellen I t e m k o e f f i zienten. Als Fehler wird bei der Berechnung von Rep jedes Erscheinen einer Abweichung zwischen dem empirischen und dem reproduzierten A n t w o r t s c h e m a gezählt.
Vp
1
2 3 4 5 6 7 8 9 10 sk Schk
empirische Antworten 0 0 1 1 1 1 1 1
0 1 0
1
0
1
1
1
1
1 1
0 0 0 1 0 1
8 .8
6 .6 2
4 .4 3
2 .2 4
1
0 1
0 1
0 0 0 1 0 1
S¡
0
0 0 0
0 1 1
0
2 2 2 2 3 3 4
R¡
reproduzierte Antwort-Struktur
1
0 1 1
2 2 3 3 3 3 4 4 5
1 1 1 1 1
1 1 1 1 1
0 0 0 0 0 0 0 1 1 1
9
7
3
1 1
0 0 0 1
1
0 0 0
1
Lokalisation der Fehler -
χ -
0
—
0 0
-
0 0
-
-
X
-
-
2
-
-
-
-
χ
-
2
-
-
-
X -
—
0
X
X
-
X
-
SFk
— -
-
1
SF¡
3
2 -
X
2
-
-
- - - 1
-
3
1
.7 g .7
.9
-
M
tot Rep(k) Re
P«ot)
.9 1
= - 40 =
D a r s t e l l u n g 1 0 : Lokalisation von Reproduktionsfehlern im Skalogramm. Es bedeuten: S¡: R¡: SF¡: Sk : Schk: Rk : SFk :
Summe der positiven Antworten von einer Vp Rangplatz der Vp aufgrund ihrer positiven Antworten Summe der Reproduktionsfehler einer Vp i Summe der auf Item k entfallenden positiven Antworten Schwierigkeit des Items k Rangplatz des Items aufgrund seiner Schwierigkeit Summe der auf ein Item k entfallenden Reproduktionsfehler.
Man h ä t t e beispeilshalber von Vp 2 aufgrund ihres Rangplatzes erwartet, d a ß Item 1 positiv und Item 2 negativ b e a n t w o r t e t würde, deshalb zwei Reproduktionsfehler. Der von G u t t m a n geforderte Mindestwert für Rep liegt bei 0,85 ; A n t w o r t s t r u k t u r e n wie bei Vp 2, 4, 6 und 8 sind nach den Voraussetzungen der Homogenität nicht zulässig. Treten einzelne T y p e n solcher unzulässigen S t r u k t u r e n gehäuft auf, so ist dies nach G u t t m a n dem Einwirken störender Variablen zuzuschreiben. Ist dagegen Rep (total) hoch genug (über 0,85) und sind die nicht zulässigen S t r u k t u r e n breit gestreut, so spricht G u t t m a n von einer "Quasiskala" (die meisten bisher b e k a n n t e n Skalen sind Quasiskalen).
5. Kapitel: Skalierungsverfahren
Rep
159
ist ein stark angefochtenes K r i t e r i u m . D i e H a u p t e i n w ä n d e beziehen sich auf
statistische Eigenschaften: Der Erwartungswert für Rep
ist auch bei reinen Zufalls-
a n t w o r t e n o f t h o c h , w e i l die untere G r e n z e von der Verteilung der A n t w o r t e n auf die Itemkategorien
( ζ . B. zustimmend — a b l e h n e n d ) abhängt. Weiter kann die R e -
produzierbarkeit eines Einzelitems nicht unter den in seiner am stärksten besetzten K a t e g o r i e enthaltenen A n t e i l fallen. A s y m m e t r i s c h e Items garantieren somit v o n vornherein einen hohen K o e f f i z i e n t e n . A n d e r e und bessere K r i t e r i e n für die H o m o g e n i t ä t sind e n t w i c k e l t w o r d e n . V o r allem sind dies der Homogenitätsindex
v o n LOEVINGER ( 1 9 4 8 ) und der aus der K u d e r -
Richardson'schen R e l i a b i l i t ä t s f o r m e l (KUDER UND RICHARDSON 1937) e n t w i c k e l t e Konsistenzindex
Alpha
von CRONBACH ( 1 9 5 1 ) . Beide Maße prüfen die H o m o g e n i t ä t
der Skala, sind aber anfällig gegen Unterschiedlichkeiten der I t e m s c h w i e r i g k e i t . U m diesen E f f e k t auszuschalten, benutzt man nach d e m Vorschlag v o n GUTTMAN(1950) Gewichtszahlen, mit denen die einzelnen K a t e g o r i e n aller I t e m s ( ζ . Β. Zustimmung zu I t e m 1, A b l e h n u n g v o n I t e m 1 usw.) in die Rechnung eingehen. D i e Bestimmung der H o m o g e n i t ä t wird also in z w e i Schritten v o l l z o g e n ; zuerst w e r d e n die G e w i c h t e für die I t e m k a t e g o r i e n berechnet, danach die H o m o g e n i t ä t der Skala. Wir geben im folgenden die Rechenformeln ohne Herleitung an, mit denen die Analyse vorteilhaft durchgeführt werden kann, und zwar zuerst für die Bestimmung der Gewichte das Verfahren von MOSTELLER (1949). Wir setzen e{ik) = 1, wenn Vp i die Kategorie k wählt, und e{ik) = 0, wenn Vp i nicht Kategorie k wählt. Die e(ik)
bilden eine Matrix mit so vielen Zeilen wie Vpn und so vielen Spalten wie
einzelne Itemkategorien vorhanden sind. (Wenn alle Items gleich viele Kategorien enthalten, ist die Zahl der Spalten gleich dem Produkt der Itemzahl mit der Kategorienzahl.) Es ist: Ν
(4)
h(jk)
=
Ν
i=l
;=i Ν
Σ e ('/)
=
Skalenprodukt der Spalten /, k — Spaltensumme in Spalte /
i=1 Der komplementäre Wert h(kj) Die Werte h(jk)
entsteht, wenn durch die Summe der Spalte k dividiert wird.
bilden eine quadratische Matrix Η der zn-ten-Ordnung (m = Zahl der Itemkate-
gorien). Der zum zweiten Eigenwert von H gehörende Eigenvektor enthält die gesuchten Gewichte für die Itemkategorien. Die so ermittelten Gewichte erfüllen zwei Aufgaben: Sie maximieren die Varianz zwischen den Vpn mit der Folge, daß die von einer Vp gewählten Kategorien untereinander möglichst ähnliche Gewichte haben, während die Gewichte der nicht gewählten Kategorien möglichst weit davon abweichen. Die Gewichte maximieren aber gleichzeitig auch die Varianz zwischen den Kategorien mit der Folge, daß alle ähnlich reagierenden Vpn möglichst ähnliche Scores erhalten. Auf die Ermittlung der Gewichtszahlen folgt die Prüfung der Homogenität. Man benutzt dazu vorteilhaft den Konsistenzkoeffizienten nach CRONBACH (1951). Dieser Koeffizient ist im Grunde ein Zuverlässigkeitsmaß; er schwankt zwischen Null und Eins und wird α = 1 bei maximaler Homogenität. Wir gewinnen die nötigen Zahlenwerte aus einer Varianzzerlegung: Xjj·. Gewichtszahl der Itemkategorie j in der Antwort der Vp i T¡:
Versuchspersonentotale = Summe der von Vp i verwendeten Itemkategorien. Hierbei werden
160
5. Band: Testen und Messen
auch die von Vp i nicht akzeptierten, also zurückgewiesenen Items mit dem entsprechenden Kategoriengewicht einbezogen: Im Beispiel Darstellung 10 werden also für Vp 4 die Gewichte der positiven Antworten auf Item 1 und 3 sowie die der negativen Antworten auf Item 2 und 4 zusammengezählt. Tj\ Itemtotale = Summe der auf das Item / entfallenden Itemkategoriengewichte. Die Berechnung erfolgt analog. (Bei vollständiger Homogenität und idealer Gewichtung werden diese Summen T¡ = 0,0). G: N:
Gesamt-Totale = Summe aller Antworten (bei vollständiger Homogenität und idealer Gewichtung ebenfalls Null). Anzahl der Vpn(; = 1 ...Λ0
n:
Anzahl der Items (j = 1 ... n) CT = G2l(n-N)
(5)
= Korrekturglied zur Mittelwertsbereinigung
Es ergeben sich folgende Quadratsummen: Ν Σ (Tj)2/n -CT = Zwischen Vpn ¿=1 η 2 ( T j ) 2 / N - C T = Zwischen Items
(6)
Λ =
(7)
Β =
(8)
τ =
(9)
C = T-A-B
Ν η 2 Σ • i
W/)2
-
CT
= Totale
Varianz
= für die Zuverlässigkeitsprüfung als Versuchsfehler interpretierbare Wechselwirkung
Der gesuchte Konsistenzkoeffizient ergibt sich mit diesen Werten als 00)
« ^ . ( IVi - I η-A ^ )ι. , ^
c
(n-i)A'
Die Konsistenzprüfung über den Koeffizienten Alpha ist zwar etwas umständlicher als über Rep, sie ist aber zuverlässiger und führt in jedem Falle zu einem inerpretierbaren Ergebnis. Außerdem geben die für die Konsistenzprüfung ohnehin erforderlichen Gewichte eine zusätzliche Verbesserung der Skalenwerte.
5.5
Verfahren, die auf der Transformation einer Wahrscheinlichkeit (Proportion) in eine Distanz beruhen (Schwellenmethoden)
Die Grundlage einer Skalierung mit Schwellenmethoden ist das Konzept der "ebenmerklichen Empfindungs-Unterschiede" (eEU; jnd = just noticeable differences). Gemeint sind Unterschiede in der wahrgenommenen Größe (Stärke) des zu s a n i e renden Attributs, die gerade n o c h bemerkt werden. Es wird angenommen, die e E U seien gleichabständig auf der psychologischen Skala. Mit diesem Postulat ergibt sich eine Skala der Empfindungsstärken dadurch, daß man die e E U als Einheiten auffaßt und aneinanderreiht. Die entstandene Skala hat per definitionem Intervallskalencharakter. Zur Messung der e E U dient die Psychometrische Funktion. Die Unter-
5. Kapitel: Skalierungsverfahren
161
schiedsschwelle (eEU) wird definiert als die Distanz zwischen den Abszissenpunkten ρ = 0,50 und ρ = 0,75 dieser F u n k t i o n (oder als die Hälfte der Distanz zwischen ρ = 0,25 und ρ = 0,75). Überschwellige Unterschiede entziehen sich definitionsgemäß einer Skalierung durch eEU-Stufen. Die Lösung zu dem Problem, solche Unterschiede in eine Distanz überzuführen, ist aber in dem Konzept der Item-Charakteristik schon angelegt: Unterschiede, die gleich oft wahrgenommen werden, sind unter bestimmten Voraussetzungen (THURSTONE 1927c) ein Anzeichen für gleiche Distanzen. Das erste mathematische Modell, das Proportionen in Distanzen überführt und psychologisch deutbar ist, lieferte THURSTONE (1927a). Es fixierte zugleich den Übergang von der Skala der Empfindungen bei FECHNER (1860) zur Skala der Reize. Das Thurstone-Modell ist in zwei Versionen in die Geschichte der Skalierung eingegangen: als "law of comparative judgment" für Daten, die auf dem Paarvergleich (a) beruhen und als "law of categorial judgment" für Daten aus Rang- oder Kategorialmethoden (d, h, i; vgl. Abschnitt 5.2). Die Grundidee ist bei beiden Verfahren gleich: Der Reiz löst bei der Vp einen Beurteilungsprozess auf einem Beurteilungskontinuum aus. Aufgrund der momentanen Fluktuationen im Organismus ergeben wiederholte Beurteilungsprozesse, die von einem Reiz ausgehen, nicht immer den gleichen Wert, sondern eine Normalverteilung. Der Mittelwert dieser Normalverteilung ist der Skalenwert für den Reiz auf dem Beurteilungsattribut. Es geht also darum, ohne Rück- oder Vorgriff auf die noch unbekannte Skala die Skalenwerte von Items zu bestimmen. Der Weg dazu ist in bestimmten statistischen Eigenschaften der Itemcharakteristik gegeben.
Darstellung 11 : K a t e g o r i a l u r t e i l s - G e s e t z : Drei I t e m s , ihre C h a r a k t e r i s t i k ( o b e n ) , ihre Skal e n w e r t e ( M i t t e ) u n d die zugehörigen U r t e i l s s t r e u u n g e n ( u n t e n ) .
Der Gedankengang wird anschaulicher, wenn statt der Charakteristiken ihre Ableitungen, nämlich die Verteilungen der zugehörigen Urteilsprozesse herangezogen werden. Diese sind nach den Voraussetzungen Thurstones normal. Die Standardabweichung dieser Verteilungen heißt "Urteilsstreuung" (discriminal dispersion). Die Reize /' und k lösen bei einer einzelnen Simultandarbietung (Paarvergleich) je einen Beurteilungsprozess aus: d¡ und dk. Die arithmetische Differenz dieser beiden Prozesse: dk — d.· heißt "Urteilsdifferenz" (discriminal difference).
162
5. Band: Testen und Messen
Bei vielen Wiederholungen würden diese Urteilsdifferenzen aus statistischen Gründen ihrerseits eine Normalverteilung bilden. Der Mittelwert dieser Normalverteilung ist gleich der Differenz der Skalenwerte der beiden Reize (denn die Differenz zweier Mittelwerte ist gleich dem Mittelwert der Differenzen der zugehörigen Einzelwerte). Analog ergibt sich die Streuung der gesuchten Verteilung aus der bekannten Formel der Streuung von Differenzen: (Π)
s 2 m = tf + s l - 2 r t k - s r s k )
mit
s
diff '• Standardabweichung der Verteilung der Urteilsdifferenzen Sj : Urteilsstreuung des Reizes j r¡k : Korrelation zwischen Momentanwerten der zu j und k gehörenden Urteilsprozesse
Darstellung 12: Urteilsstreuungen zweier Reize j und k, ihre Skalenwerte. Der Bereich, in dem negative Urteilsdifferenzen auftreten können, ist schraffiert (Quelle: TORGERSON 1958, S. 160).
negative Differenzen
Darstellung 13: Verteilung der Urteilsdifferenzen für zwei Reize / und k. Ihr Mittelwert Zj k . Der Bereich negativer Differenzen ist schraffiert.
Die grundlegende Einsicht zum Verständnis der Thurstone-Skalierung ist die, daß die Verteilung der Urteilsdifferenzen durch die Experimentaldaten bekannt wird: Jedesmal, wenn die Vp infolge der Fluktuationen den Reiz / größer empfindet, als den Reiz k, entsteht eine negative Urteilsdifferenz. Die Antwort der Vp lautet dann, k sei kleiner als ¡ (Darstellung 12). Der Anteil der negativen Differenzen an der Gesamtzahl aller Differenzen bestimmt die Lage des Nullpunkts in der Verteilung der Urteilsdifferenzen (Darstellung 13). Die Strecke z¡ k ergibt sich nach bekannter Definition als Quotient der Differenz Sk — Sj und ihrer Streuung, wenn man mit S¡ den Mittelwert der Prozesse dy·, also den Skalenwert des Reizes j bezeichnet: (12)
Sk - S,
z
ik
S
diff
Zjk ist der Abszissenabschnitt (von der Zahl Null aus) des Mittelwerts in der Verteilung der Urteilsdifferenzen. Die Maßeinheit ist dabei die Streuung der Differenzen
5. Kapitel: Skalierungsverfahren
163
s
diff • Nach Definition der Normalverteilung als einer Wahrscheinlichkeitsverteilung (-> Bd. V I : Helten, Wahrscheinlichkeitsrechnung 1.3.9) ist dem Abszissenabschnitt eine Proportion zugehörig (genaugenommen eine Teilfläche der Gesamtfläche 1): Die Proportion der negativen Urteile. Somit ist die Differenz der Skalenwerte Sk — Sj in Einheiten der Differenzenstreuung sdiff direkt von der empirischen Proportion der negativen Urteile abhängig. Für jedes Paar von Items ist somit der Abstand der Skalenwerte aus den Verteilungen der Differenzen bekannt. Reiht man diese Abstände sinngemäß aneinander, so ist die Skala bestimmt; es fehlt allerdings ein Nullpunkt, so daß es sich um eine Intervallskala und nicht um eine Rationalskala handelt. Löst man Gleichung (12) nach der Differenz der Skalenwerte auf, so ergibt sich (13)
Sk-S,
= zjk-
sdiff
oder mit (11) ergibt sich (14)
Sk-S,
= z
j k
-tf+s\ -
2r/k-srsk)W.
Dies ist die Grundformel für die Thurstone-Verfahren, das sog. "vollständige Gesetz des Vergleichsurteils" (law of comparative judgment). Formal dasselbe Gesetz ergibt sich für die Benutzung einer Rang- oder Kategorialskala: Ersetzt man nämlich einen Reiz, ζ. B. k, in (14) durch eine Kategoriengrenze g, so gibt das "Gesetz des Kategorialurteils" (law of categorial judgment) die Differenz der Skalenwerte des Reizes / und der Kategoriengrenze g: (15)
Tg - S, = zjk (sj + s j - 2 rjg • s¡ •
S F )i/2
mit
Tg\ mittlere Lokalisation der Kategoriengrenze g sg: Streuung der Kategoriengrenze Zjg\ Abszissenwert, der in der Normalverteilung der Proportion entspricht, mit der j kleiner als g e m p f u n d e n wurde. Da Reize wie Kategoriengrenzen ohne Unterschied Items sind, ist es nicht erstaunlich, daß sich die Gesetze nicht unterscheiden. Es unterscheiden sich aber die Auswertungsprozeduren, da beim Kategorialurteil eine sinnvolle Abfolge der Kategorien — z. B. in Form von Rängen — vorgegeben ist, was beim Paarvergleich nicht zutrifft.
5.5.1
Skalierung nach dem Gesetz der vergleichenden Urteile
Die Thurstone-Gesetze führen zu nicht lösbaren Gleichungssätzen: So stehen für das Vergleichsurteilsgesetz den n(n — l ) / 2 empirischen Proportionen aus dem Vergleich von η Reizen sehr viel mehr, nämlich n(n — l ) / 2 + 2 (η — 1) Unbekannte gegenüber. Die Zahl der Gleichungen ist immer um 2(n — 1) kleiner als die Zahl der Unbekannten. Beim Kategorialurteilsgesetz ist die Zahl der Unbekannten bei η Reizen und m + 1 Kategorien um 2(n + m — 1) größer als die Zahl der Bestimmungsgleichungen. Eine Skalierung nach dem Thurstone-Modell ist deshalb nur möglich, wenn ZusatzAnnahmen eingeführt werden, die die Zahl der Unbekannten reduzieren. T H U R S T O N E ( 1 9 2 7 d ) gibt fünf verschiedene Fälle für das Vergleichsurteilsgesetz an, die sich in ihren Annahmen und damit in der erreichten Vereinfachung des Verfahrens unter-
164
5. Band: Testen und Messen
scheiden. Da diese "cases" 1 bis 5 o f t nur vom Hörensagen bekannt sind, sollen sie hier kurz umrissen werden: Fall 1: Die Formel in der vollen Form wird für Paarvergleiche einer einzelnen Vp mit vielen Replikationen angewandt. Unter der Annahme, daß die Korrelationen für diesen Beobachter und diese spezielle Menge von Reizen konstant ist, kann die Skalierung durchgeführt werden, sobald die Reizmenge mindestens fünf Reize umfaßt. Fall 2: Wenn eine Gruppe von Vpn pro Person ein Urteil für jede Reizkombination angibt, kann wiederum die komplette Formel angewandt werden, vorausgesetzt, daß die Verteilung der wahrgenommenen Eigenschaften auf einer quasi-gemeinsamen Skala für die Gruppe der Vpn normal ist und daß die Korrelation wiederum konstant bleibt. Fall 3: Es wird angenommen, daß die Korrelation null ist. Bedingungen für das Eintreten dieser Annahme werden besprochen. Die Gleichung reduziert sich unter dieser Annahme auf (16)
S
r
S
=
k
zkj(s]+s2k)ll2.
Fall 4: Es wird zusätzlich angenommen, daß die Urteilsstreuungen sich nicht allzu grob unterscheiden. Unter dieser Annahme reduziert sich (16) weiter zu (17)
Sj-Sk
= zki(sj
+ sk)·
0,707.
Dies ist eine leicht zu handhabende lineare Gleichung. Der Gleichungssatz wird lösbar, wenn mindestens vier Items vorhanden sind. Fall 5: Alle Urteilsstreuungen sind gleich, die Korrelation verschwindet. Gleichung ( 16) magert ab zu (18)
Sf-S
k
=
zk/(2-sl)W
und, weil nun die konstante Urteilsstreuung zur Maßeinheit wird, zu (19)
Sj - Sk
= 1 , 4 1 4 2 · zkj
.
Inzwischen ist mehrfach darauf hingewiesen worden (GUTTMAN 1 9 4 6 ; TORGERSON 1 9 5 8 ; MOSTELLER 1951;SIXTL 1 9 6 7 ) , daß die Annahmen Thurstones unnötig restriktiv sind. Es genügen schwächere, um zu lösbaren Gleichungssystemen zu kommen. Der Kern der Zusatzannahmen ist aber unverändert geblieben. N a c h SIXTL ( 1 9 6 7 , S. 52 f.) ü b e r n e h m e n wir f o l g e n d e E i n t e i l u n g : Annahme VA: rjk = Null (entspricht Fall 3) Annahme VB : zusätzlich Sj ungefähr = sk (Fall 4) Setzt man dabei nach TORGERSON (1958) die Korrelation nicht gleich 0, sondern nur konstant = r, so ergibt sich: (20)
Rj -Rk
= zkj • ty + sk) · ((1 - r ) / 2 )
^
Annahme VC: s¡ = sk = s. Setzt man r = 0, so ergibt sich Fall 5; mit r¡k = r (konstant) nach MOSTELLER (21)
(1951):
Rj — Rk = zkj ( 2 — 2 · R)
Die revidierten Annahmen über die Korrelation bringen dieselben Rechen vorteile, belasten aber das Modell weniger. Wir wenden uns nun den Auswertungsschritten zu, die nach dem Thurstone-Gese/z der Vergleichsurteile zu einer Skala führen. Die zugehörige EH ist der Paarvergleich
5. Kapitel: Skalierungsverfahren
165
mit möglichst vielen Replikationen (die an einer einzigen Vp oder an einer G r u p p e g e w o n n e n sein k ö n n e n ) . Bei η Reizen hat jede Vp η • (n — l ) / 2 Vergleiche zu leisten. Dabei wird nicht zwischen dem Vergleich des Reizes j mit k und dem Vergleich des Reizes k mit j unterschieden. Die Rohwertmatrix
F ist eine quadratische Datenmatrix der Ordnung η χ η. Als Zeilen- und
Spaltenkopf erscheint jeweils die Reihe der Reize. Das Element f j k der Matrix am Schnittpunkt der Zeile j und der Spalte k enthält die beobachttete Häufigkeit, mit der der Reiz k größer geschätzt wurde als Reiz j. Ist m die Anzahl der Replikationen und damit der Urteile über ein bestimmtes Reizpaar, so ergibt sich das symmetrische Element f k j aus der Beziehung f¡,¡ = m-
fß.
Die Diagonalzellen der Matrix F sind im allgemeinen leer, weil der Vergleich eines Reizes mit sich selbst selten durchführbar ist. Prinzipiell steht bei geeigneten Reizen diesem Vergleich aber nichts entgegen. Die Proportionsmatrix Ρ entsteht aus F, indem jedes Element f ß durch die Gesamtzahl der für das betreffende Reizpaar vorliegenden Urteile m dividiert wird. Die Diagonalzellen bleiben wieder leer. Die Matrix Z: Die Thurstone-Skalierung impliziert eine Häufigkeitstransformation, die bei der Konstruktion der Matrix Ζ vollzogen wird. Das Element Zß ist der Abszissenabschnitt der Standardnormalverteilung, der zur Proportion P ß aus der Matrix Ρ gehört. Zur Ermittlung der z-Werte dienen die überall leicht zugänglichen Tabellen der Fläche unter der Normalkurve (Die Fläche entspricht der Proportion, die Tabelle gibt dann den zugehörigen z-Wert). Z ß ist positiv, wenn Pj^ über 0,50 ist, sonst negativ. Proportionen der Größe 0 und 1 können nicht berücksichtigt werden, weil die zugehörigenz-Werte unendlich sind. Die Diagonalzellen enthalten nun Nullen, wenn sie vorher leer waren. Dies entspricht der Annahme, daß ein Vergleich hier im Normalfall 50 :50 ausgefallen wäre.
Die Matrix Ζ ist die Ausgangsbasis für die weitere Skalierung. Sie enthält die empirischen Schätzungen für die in der Formel des Vergleichsurteilsgesetzs enthaltenen Werte. Jedes Element Zß ist eine Schätzung der Differenz der Skalenwerte Sk — Sj, wobei als Maßeinheit die Standardabweichung der Verteilung der Urteilsdifferenzen dient (sdijy). Da es sich um empirische Werte handelt, sind sie f e h l e r b e h a f t e t , und die weiteren Manipulationen dienen einerseits der Minimierung dieses Versuchsfehlers, andererseits der Prüfung der A n n a h m e n VA, VB und VC. Das weitere Vorgehen wickelt man vorteilhaft in 3 S t u f e n ab; wobei zuerst die Ann a h m e VC zur Grundlage der Skalierung gemacht wird. Stellt sich dann in einem Konsistenztest heraus, d a ß die Skalenwerte die Daten nicht adäquat decken, geht man zu A n n a h m e VB oder VA über. I. Unter Annahme VC betrachten wir die ζ-Werte u n m i t t e l b a r als Distanzen. Die Mittelwerte der Spalten der Matrix Ζ sind die gesuchten Skalenwerte. Selten ist die Matrix Ζ vollständig. Meist enthält sie leere Zellen. In diesen Fällen gibt es verschiedene Verfahren, um zu Skalenwerten zu gelangen. Das einfachste besteht darin, die Mittelwertsbildung nur auf die vorhandenen Werte zu erstrecken, (d. h. in verschiedenen Spalten mit verschiedenen Anzahlen zu rechnen). Ein wenig elegantes, aber statistisch fundiertes Verfahren besteht darin, statt der Differenz der Mittelwerte den Mittelwert der Differenzen zu verwenden. Zuerst werden die Spalten der Matrix Ζ in eine Rangfolge nach Spaltensummen der Ma-
166
5. Band: Testen und Messen
trix Ρ gebracht (weil nahe beieinanderliegende Reize oft mehr gemeinsam ausgefüllte Zellen haben). Sodann werden in Matrix Ζ die Differenzen der gleichnamigen Elemente je zweier nebeneinander liegender Spalten gebildet und in eine Matrix D eingetragen, die bei η Zeilen η — 1 Spalten hat. Der Mittelwert einer Spalte dieser Matrix gibt den Abstand der Skalenwerte der beiden betroffenen Reize. Setzt man einen Nullpunkt willkürlich fest, ζ. B. £1 = Null, so lassen sich die übrigen Skalenwerte leicht durch Aneinandersetzen der betreffenden Abstände gewinnen: Wenn d¡k die aus der Matrix D ermittelte Distanz der Skalenwerte der Reize j und k ist, so ergibt sich der Skalenwert für k nach der allgemeinen Beziehung: Sk = Sj + djk (vgl. SIXTL, S. 184 ff.). An die Ermittlung der Skalenwerte nach Annahme VC kann man eine Konsistenzprüfung anschließen. Fällt diese Prüfung negativ aus, so ist die nun naheliegende Frage: Nimmt die Konsistenz zu, wenn die Annahme VC durch VB oder VA ersetzt wird? 2. Unter der Annahme VB gewinnt man zunächst eine Schätzung der einzelnen Urteilsstreuungen nach folgenden Beziehungen: η
(22)
2 (zjk — zfc)2 mit zk = Mittelwert der z-Werte in Spalte k; /'=ι ist die Varianz der z-Werte in Spalte k.
Vf = \/n Vk
η
(23)
Β
= In/
(1 IVk)
Σ k=ì
Mit diesen Werten ergeben sich die gesuchten Urteilsstreuungen sk : (24)
sk
=
B / V
k
- \
Die Distanzschätzungen für Bedingung VB ergeben sich nun nach der Beziehung (25)
A ( R , - R
k
) = zkj{sj
+
sk).
Der Faktor A ist eine Konstante, die für die mathematische Ableitung erforderlich ist und unbedenklich weggelassen (d. h. gleich eins gesetzt) werden kann. Zweckmäßig erstellt man zuerst eine Matrix der Korrekturglieder (sy + sk ). Diese Matrix ist symmetrisch, die Diagonalzellen bleiben leer. Die Elemente entstehen, indem zur Streuung des Objekts in der/'-ten Zeile (s ; ) die des Objekts in der fc-ten Spalte addiert wird. Eine neue Distanzmatrix E entsteht, indem jedes Element der ursprünglichen Matrix Ζ mit dem entsprechenden Korrekturglied multipliziert wird. Die Elemente dieser Matrix entsprechen den Gleichungen nach Annahme VB: e jk = zjk ' (sj + sk)· Die Spaltenmittelwerte der Matrix E sind die neuen Skalenwerte unter Annahme VB. Eine anschließende Konsistenzprüfung zeigt, ob der Prozess zum Erfolg geführt hat. 3. Gibt man die Annahme ähnlicher Urteilsstreuungen auf, so daß nur noch die^4«nahme
der Nullkorrelation
e r h a l t e n i s t , so geht
VB in VA über.
Die neuen Korrektur-
glieder ergeben sich aus der Beziehung (26)
R¡-Rk
= zkj{s2j+s2k)
1/2.
Die einzelnen Urteilsstreuungen s¡ sind bei der Prüfung der Annahme VB schon berechnet worden. Sie werden wieder verwendet. Man bildet die Matrix der neuen Kor-
5. Kapitel: Skalierungsverfahren
167
rekturwerte Κ mit den Elementen k¡j = (s} + s ^ ) 1 ' 2 . Die neue Distanzmatrix E ' besteht aus den Elementen
Die Spaltenmittelwerte dieser Matrix sind die Skalenwerte nach Annahme VA. Eine letzte Konsistenzprüfung zeigt schließlich, wieviel durch die Manipulation gewonnen wurde. Das beschriebene Verfahren in drei Stufen ist relativ aufwendig und nur anwendbar, wenn nicht zu viele leere Zellen in der Datenmatrix Ζ vorkommen. Fehlt ein Wert in einer Zeile, so muß bei der Schätzung der Urteilsstreuungen die gesamte Zeile unberücksichtigt bleiben. Man gelangt auf diese Weise sehr schnell zu kleinen Zahlen! Man wird deshalb vor allem bei größeren Reizmengen das in der Literatur gut beschriebene Iterationsverfahren von GULLIKSEN (1956) anwenden. Die dazu nötigen Datenverarbeitungsanlagen und die Programme sind inzwischen überall leicht zugänglich, so daß die Bedeutung der eben dargestellten Verfahren sich immer mehr vom Sachinteresse auf die Vermittlung des elementaren Verständnisses, also auf die mit der Handrechenarbeit verbundene Didaktik verschiebt. Darstellungen des Iterationsverfahrens sind in aller Breite bei TORGERSON (1958, S. 176 ff.) und neuerdings b e i SIXTL ( 1 9 6 7 , S. 1 9 7 f f . ) s o g a r m i t F l u ß d i a g r a m m u n d A L G O L - P r o g r a m m v e r -
fügbar. D e n Konsistenz
test n a c h MOSTELLER ( 1 9 5 1 ) g i b t SIXTL ( 1 9 6 7 , S. 1 8 5 f f . ) in v e r b e s -
serter Form wieder. Der Test beruht auf einer varianzanalytischen Zerlegung der Abweichungen der reproduzierten von den empirisch gefundenen Proportionen. Demgemäß hat man nach der Gewinnung der Skalenwerte den gesamten Weg der Skalierung rückwärts zurückzulegen bis zu einer Proportionsmatrix Ρ, die aus den Skalenwerten reproduziert ist. Die reproduzierten werden mit den im Versuch ermittelten Proportionen verglichen.
5.5.2
S k a l i e r u n g nach d e m Gesetz der K a t e g o r i a l u r t e i l e
Das Kategorialgesetz hat von den beiden Versionen des Thurstone-Gesetzes die größere praktische Bedeutung. Mindestens in den Sozialwissenschaften ist man oft darauf angewiesen, die Datenerhebung nicht durch allzu lange Versuche zu belasten. Vollständige Paarvergleiche lassen sich deshalb selten durchführen. Das Gesetz der Kategorialurteile ist geeignet für den Fall, daß Daten in einer Form vorliegen, aus der hervorgeht, wie häufig jeder Reiz in eine bestimmte Kategorie eingeordnet wurde. Die Kategorien haben dabei eine bekannte Rangordnung. Solche Daten können mit einer Reihe von EHn erlangt werden, insbesondere durch Sortieren, durch Rating und durch Rangordnungen (d, h, i). Diese Prozeduren sind leicht und fast universell anwendbar. TORGERSON (1958, S. 205 ff.) gibt einige Annahmen, die zur Lösbarkeit führen-, sie werden hier zur Unterscheidung von den Annahmen beim Vergleichsurteilsgesetz mit KA bis KD bezeichnet. KA: Der Kovarianzausdruck ist für alle Reize und alle Kategorien gleich: (28)
Tg - S , = Zj^sj +
sl-k)*'2
168
5. Band: Testen und Messen
Für diese Bedingung liegen keine Lösungen vor. Sie hat nur theoretische Bedeutung. KB (bzw. KC): Man nimmt an, daß die Korrelation verschwindet und daß entweder die Urteilsstreuung der Kategoriengrenzen oder die der Reize konstant ist. Definiert man aj = sj + c (Bedingung KB), so läßt man damit die Variation der Reize offen, setzt aber die Kategoriengrenzen konstant (= c). Damit ergeben sich die Skalendifferenzen: (29)
Tg-Si
=
z¡g{a¡)
Bedingung KC ist mathematisch identisch. Hier würde die Variation der Kategoriengrenze offengelassen, die der Reize konstant gesetzt. KD: Es wird angenommen, daß alle Urteilsstreuungen und die Korrelation konstant sind. Der Wurzelausdruck im Kategorialgesetz wird damit konstant = c. Die Skalenabstände sind (30)
Tg — S¡ = Zjg • c .
Als Möglichkeiten zur Schätzung der Korrelationen gibt THURSTONE (1953) später selbst folgende Verfahren an: Bei Paarvergleichsdaten: Aus dem individuellen Paarvergleichsschema für jede Vp kann eine Rangordnung der Stimuli erhoben werden. Mit dem mittleren Rangplatz als Grenze können Vierfeldertafeln für jede Kombination zweier Reize aufgestellt und daraus tetrachorische Korrelationen berechnet werden. Analog/ü/· Kategorialdaten : Bei Kategorialskalierung kann jeder Reiz einen Skalenwert erhalten und die Korrelation über die Vpn für jedes Reizpaar berechnet werden. Eine geeignete EH sei durchgeführt worden mit η Reizen, m + 1 Kategorien und Ν Replikationen. Die Häufigkeitsmatrix F: Die Rohwerte liegen dann vor in Form einer Matrix F η (m + 1) mit η Reizen als Zeilen und m + 1 Spalten für die Kategorien in ansteigender Folge. Das Element f j g der Matrix ist die Häufigkeit, mit der Reiz / in die Kategorie g fiel. Die kumulative Frequenzmatrix FF: Sie ist ebenfalls von der Form η (m + 1). Die Elemente f f j g entstehen aus den f/g durch Kumulieren von links her. Die Proportionsmatrix (3D
Pi
g
P: Eine Matrix der Form η χ m. Die Elemente werden berechnet nach =ff
i g
/ff
n m+ i
)=ff
i g
/X·
Die letzte Spalte (m + 1) würde nur Einsen enthalten und kann deshalb weggelassen werden. Die Matrix Ρ gibt wieder, mit welcher relativen Häufigkeit jeder Reiz unterhalb einer jeden Kategoriengrenze einsortiert wurde. Matrix Z: Diese Matrix enthält als Elemente Zjg die den p¡g entsprechenden z-Werte (Tabelle der Normalverteilung). Zellen mit p¡g = 1 oder p/g = 0 können nicht transformiert werden und bleiben leer. In Matrix Ζ treten manchmal große z-Werte auf (über 3,0), die wegen der Instabilität der zugehörigen Proportionen nicht sehr zuverlässig sind. In diesen Fällen kann man die Werte entsprechend gewichten. Die in Tabellenform vorliegenden Müller-Urban-Gewichte sind geeignet. SlXTL schlägt eine einfachere Gewichtung vor (1967, S. 235).
Es liegt eine stattliche Zahl von Lösungsvorschlägen für das Kategorialurteilsgesetz unter Annahme der Bedingungen KB und KC νor. Schon TORGERSON (1958) nennt 13 Autoren. (Die Lösungen für KC gehen aus denjenigen für KB hervor, wenn man die Vorzeichen in der Matrix Ζ umkehrt und die für Reize j beschriebenen Opera-
5. Kapitel: Skalierungsverfahren
169
tionen auf die Kategorien g anwendet und umgekehrt). Soll die Methode in den Sozialwissenschaften angewandt werden, so wird man im allgemeinen das Iterationsverfahren von GULLIKSEN (1954) oder die verbesserte Auflösungsmethoden von DIEDERICH υ. A. ( 1 9 5 7 ) w ä h l e n , d i e b e i SIXTL ( 1 9 6 7 , S. 2 3 2 f f . ) in g u t e r B e s c h r e i b u n g m i t
Flußdiagram und ALGOL-Programm greifbar sind. Soll in Ausnahmefällen noch von Hand gelöst werden, so sind bei TORGERSON (1958, S. 216 ff.) eine Reihe von Verfahren, so auch das graphische von Thurstone (SAFFIR 1937) zu finden. Unter der Bedingung KD ist die Lösung einfach. TORGERSON (1958, S. 234 ff.) gibt für den Fall vollständiger Matrizen Ζ die Lösung nach der Methode der kleinsten Quadrate an. Für unvollstängige Datenmatrizen ist dieses Verfahren nicht anwendbar; dann ist eine algebraische Lösung angebracht. Eine Konsistenz"prüfung" kann durch Inspektion der reproduzierten z-Werte vorgenommen werden. Dagegen ist das für die Paarvergleichsurteile beschriebene Prüfverfahren wegen der Eigenart der EH (die zwangsweise zu einer Kumulation führt) nicht ohne Einschränkung geeignet. Die nötigen z-Werte können nach der Beziehung (32)
ZTJ
=
(TG-R,)!^
reproduziert werden (Bedingung KB). EDWARDS UND THURSTONE ( 1 9 5 2 ) s c h l a g e n v o r , a u s d e n z u r ü c k g e r e c h n e t e n z - W e r t e n
weiter die entsprechenden Proportionen zu reproduzieren und die Größe j (33)
D =
m • η
η m Σ Σ tyg-Pit j = ι g=i
I "
als Übereinstimmungsmaß zu benutzen. Verteilungsangaben über dieses Maß fehlen indessen. Weitere Plausibilitätsprüfungen lassen sich aus notwendigen Eigenschaften der Matrix Ζ ableiten, die erfüllt sind, wenn die Voraussetzungen zur Anwendung des Kategorialvergleichsgesetzes gegeben sind : Benutzt man die z-Werte der verschiedenen Zeilen (bei Bedingung KB, der Spalten bei Bedingung KC oder der Zeilen und Spalten bei Bedingung KD) jeweils als Koordinaten und trägt für alle möglichen Kombinationen von Zeilen (bzw. Spalten) untereinander die damit definierten Punkte in ein Koordinatensystem ein, so müssen die entstehenden Kurven bei allen Bedingungen linear sein.
5.6
Die Anwendung probabilistischer Meßmodelle
5.6.1
Die Analyse latenter Strukturen
Die Schwäche der bisher beschriebenen Verfahren liegt offenbar in ihrem Determinismus, der mit empirischen Daten unverträglich ist. Dies macht die Diskussion um die Reproduzierbarkeit nötig und belastet die Skalierungsprozeduren. Das Konzept der Itemcharakteristik, das eine probabilistische Interpretation von sich aus nahelegt,
170
5. Band: Testen und Messen
konsequent weitergeführt und zu einem probabilistischen Grundmodell der Skalierung ausgebaut zu haben, ist das Verdienst von LAZARSFELD ( 1 9 5 9 ) . Seine latent-structure-analysis wird als probabilistische Version der Guttman-Analyse verstanden. Es bieten sich aber auch andere Parallelen an, die dem Modell die Dignität einer umfassenden Theorie geben, von deren Warte aus eine Reihe anderer Verfahren als Sonderfälle erscheinen, und zwar je nach den Zusatzannahmen, die an das M o d e l l h e r a n g e t r a g e n w e r d e n (-»-Bd. V : Besozzi und Zehnpfennig, Indexbildung 1.3.2).
Das generelle latente Strukturmodell (LAZARSFELD 1 9 5 9 , GREEN 1 9 5 4 ) geht davon aus, daß sich die Vpn nach einer (vorerst unbekannten) Dichtefunktion entlang dem zu untersuchenden Kontinuum verteilen. Die Charakteristik der verwendeten Items gibt dann an, welcher Anteil der Vpn positiv auf das Item geantwortet hat. Das Modell enthält neben dem Kontinuum χ zwei Größen: f¡(x), die Charakteristik des Items / als Funktion von x, und g(x), die Dichtefunktion der Vpn-Population entlang χ . Damit entspricht (34)
P I
=
+ oo
J
FIW-GWDX
— OO
dem Anteil der auf i positiv antwortenden Vpn und + oo
(35)
p„ = J fi{x)
fj{x)-g{x)dx
— oo
dem Anteil derjenigen Vpn, die sowohl auf i wie auf j positiv reagieren. Die Charakteristiken und die Dichtefunktion müssen ermittelt werden. Sie sind die "latenten Parameter" des Modells, während die in den Gleichungen links stehenden Werte beobachtbare Größen sind. Sobald mehr als ein Item verwendet wird, ist das System überdeterminiert, es ist damit möglich, jede Verteilung der 2" möglichen Antworten zu erfassen, sofern nur genügend komplexe ft(x) angesetzt werden. Bevor das Modell zurecht eine Skalierungstheorie genannt werden kann, sind deshalb zusätzliche Restriktionen bzw. Modifikationen nötig. Aus der Art dieser Restriktionen ergeben sich zwei Grundformen des Modells: a) Die Verteilung g (x) der Vpn wird spezifiziert; G(x) ist diskret; die Individuen sind an m Punkten konzentriert, die latente Klassen genannt werden (latent class-Modell). In diesem Modell geht die Skalenstruktur verloren. Es ergibt sich eine Klassifikation in Kategorien oder Typen, über deren Ordnung nichts ausgesagt wird. Rechenprozeduren für die Schätzung der latenten Parameter sind zu finden b e i GREEN ( 1 9 5 4 ) , G I B S O N ( 1 9 5 5 )
und
ANDERSON
(1954).
b) Die Charakteristiken f¡{x) werden spezifiziert, woraus sich verschiedene Modelle mit unterschiedlichen Bezeichnungen ergeben. TORGERSON (1958, S. 366) behandelt drei dieser Modelle eingehend: Das lineare Modell mit linearen Charakteristiken. Die Schwierigkeit dieses Modells besteht darin, daß nur wenig empfindliche Items behandelt werden können. Aus Gründen der Wahrscheinlichkeitstheorie darf die Charakteristik bei keinem Item (im Abzissenbereich der Individuen) unter Null oder über Eins geraten, d . h . alle müssen ziemlich flach verlaufen. Das latent distance-Modell, bei dem die Charakteristiken die Form annehmen, die wir in Darstellung 5 mit LD bezeichnet haben. Nach den bei Torgerson ange-
5. Kapitel: Skalierungsverfahren
171
gebenen Gleichungen existieren Methoden für die Behandlung folgender Probleme: Ausgleich von Meßfehlern, Ordnung der Items nach den Umschlagpunkten x¡, Güte der Anpassung des Modells an die Daten, Skalenwerte für die Individuen. Das Normalogiven-Modell ist eigentlich schon sehr bejahrt. Es kommt unmittelbar aus der Schwellenmessung und kann als erweiterte Fassung des Kategorialurteilsgesetzes von Thurstone interpretiert werden. Da die latent class-Version des Modells letztlich nicht zu einer Skala führt und da das lineare Modell wegen seiner Beschränkung relativ uninteressant erscheint, besprechen wir die beiden verbleibenden Modelle (in Anlehnung an TORGERSON 1958, S. 3 7 4 - 3 9 1 ) .
1. Das latent distance-Modell geht davon aus, daß die Charakteristiken treppenförmig sind: Bis zu einem Umschlagpunkt x¡ (dem späteren Skalenwert des Items i) bleibt die Wahrscheinlichkeit einer positiven Antwort auf das Item konstant und hat den Wert a¡, um dann sprunghaft auf den Wert b¡ anzuwachsen. Die drei wichtigsten Werte pro Item sind also x¡, a¡ und b¡. Eine vereinfachte Version setzt weiter voraus, daß die Charakteristiken in sich symmetrisch sind; d. h. die Wahrscheinlichkeit ist zuerst (0,5 minus b¡) und springt dann auf (0,5 plus bt), so daß für die Entstehung der Daten die beiden Parameter x¡ (Umschlagpunkt) und b¡ (halbe Sprunghöhe) verantwortlich sind. Die folgenden Grundoperationen LI bis L6 sind für beide Versionen durchzuführen: LI : Pro Item j wird die Zahl der positiven Reaktionen f¡ gezählt. L2: Für alle Paare / und k wird ausgezählt, wie oft sie gleichzeitig bejaht wurden = /,*· L3: Ebenso für alle Tripel, also positive Reaktionen gleichzeitig auf i,j und k = f¡¡k. L4: Berechnung der Wahrscheinlichkeiten mit der Stichprobengröße N; p¡ = f¡/N; Ρ H = fij/N
u n d pijk
= fy
/N.
k
L5: Aufstellen der Matrix C¡¡ aus den Elementen ctj = p¡j - p¿p¡; die Anzahl der Spalten und Zeilen entspricht der Anzahl der Items. Nur die obere Hälfte der Matrix wird benötigt. L6: Für alle Tripel ijk von Items wird die Größe c¡¡ als Mittelwert (zur Verringerung der Stichprobenfehler) ermittelt: ey;· = 2
c
°' k / 1· w ° b e i i < j < k
ik
und q die Anzahl der Summenglieder sein soll. Als Routineprozedur empfiehlt sich folgendes: Wir betrachten die obere Hälfte der Matrix C(y·: C
11
c
12
c
c
22
c
13 23
c
33
c 14 c 24
c
C34
c
15 25 35 c 45
c
c
44
c
55
Die kursiv gesetzten Felder sind zunächst nicht besetzt. Die gesuchten Summanden ergeben sich aus den möglichen Tetraden (deren Elemente in den Ecken aller konstruierbaren Rechtecke zu finden sind): Gesucht sei C33; folgende Rechtecke lassen sich konstruieren: Zeilen Zeilen Zeilen Zeilen
1,3 1,3 2, 3 2, 3
Spalten Spalten Spalten Spalten
3, 3, 3, 3,
4 5 4 5
c c
33 ~ c13 ' c34/c14 33 ~ c13 ' c35/c15
C33 - c 2 3 · c 3 4 / c 2 4 c
33
= c
c
c
23 ' 35 / 25
demnach q = 4.
172
5. Band: Testen und Messen
Nach diesen G r u n d p r o z e d u r e n k ö n n e n die Parameter ermittelt werden, und zwar für die reduzierte Fassung nach den Gleichungen (36) bis (39), für die vollständige Fassung nach den Gleichungen (40) bis (45). Zwei Parameter-Fassung: (36)
bj = ( C j j - P j i 1 — Pj) + 0 , 2 5 ) 1 / 2
(37)
Xj = (0,5 - p j ) / 2 b j + 0 , 5 = Skalenwerte der Items.
Für das erste und letzte Item (für die keine SchätzungW c¡¡ die J, vorliegen,) — - - gelten Formeln " -
(38)
bl = pl - 0,5 + 1 / ( 2 n - 4)
(39)
bn=
0,5-p„ + l/(2«-4)
1
Σ b jT—TbjXj V ¿=2 n~\ cr y in i = 2 bjXj
Mit den nach (38) und (39) ermittelten ¿»-Werten folgen die Skalenwerte Χγ und xn nach (37). Drei-Parameter-Fassung: Die ctj und c¡¡ sind nach L5 und L6 bestimmt. (40)
cijk
= pijk
- (Pi cjk + pj cik + pk c¡j) + 2
(41)
u*=cijk/cik
PiPjPk
Z u m Ausgleich der Stichprobenfehler wird der Mittelwert dieser Werte für alle möglichen A n o r d n u n g e n i Bd. V : Sturm und Vajna, Faktorenanalyse 6.1). Die V o r a u s s e t z u n g zur F a k t o r e n a n a l y s e ist, d a ß aus d e n V e k t o r e n zuerst ein Ä h n l i c h k e i t s m a ß g e w o n n e n wird, das die gegenseitigen A b h ä n gigkeiten konserviert u n d in D i s t a n z e n der Reize u n t e r e i n a n d e r a u s d r ü c k t . Dieses M a ß ist das S k a l a r p r o d u k t d e r V e k t o r e n (im Falle des P o l a r i t ä t e n p r o f i l s die Kovarianz). Hieraus folgt, d a ß alle D a t e n , die sich als Distanzen o d e r S k a l a r p r o d u k t e zwischen d e n involvierten R e i z e n darstellen lassen, d u r c h F a k t o r e n a n a l y s e m e h r d i m e n s i o n a l verarbeitet w e r d e n k ö n n e n ; hierzu g e h ö r e n ζ. B. die D a t e n aus d e r E H des Tripelvergleichs (b), e b e n s o die aus d e m E k m a n - V e r f a h r e n (1). A b e r a u c h ein Paarvergleich von Paaren (Tetradenvergleich) bei d e m n a c h d e r g r ö ß e r e n Ähnlichkeit zwischen d e n Gliedern eines der beiden Paare gefragt w i r d , liefert solche D a t e n . Für a n d e r e m u l t i d i m e n s i o n a l e V e r f a h r e n ( E x t e n s i o n e n d e r u n f o l d i n g - T e c h n i k ζ. B.) genügen e i n f a c h e r e Überlegungen, d o c h sind a u c h diese T e c h n i k e n so a u f w e n d i g ,
5. Kapitel: Skalierungsverfahren
177
daß ohne größere Datenverarbeitungsanlagen nicht auszukommen ist. Dies gilt auch für das von K R U S K A L (1964a, 1964b) vorgeschlagene Verfahren, das auf der A npassung eines mehrdimensionalen Raumes an die vorliegenden (Rang-) Daten nach dem allgemeinen Distanzmodell (Formel 1) beruht. Der Reiz dieser Methode liegt darin, daß unter Umständen im Interesse einer besseren Anpassung der euklidische Raum aufgegeben wird. Eine kurze Beschreibung der neueren Entwicklung dieser Verfahren geben S C H E U C H UND Z E H N P F E N N I G (1974, S . 146-160). Ob dies mehr ist, als eine Spielerei, und ob nichteuklidische Datenräume als psychologisch relevante Konstrukta zu gelten haben, muß der Zukunft überlassen bleiben. Zuletzt sei die Gewinnung der Matrix der Skalarprodukte für die Analyse der EkmanDaten beschrieben (nach E K M A N 1963, vgl. 5.2.2). Die Vp liefert zu jedem Reizpaar i und j zwei Proportionsschätzungen: p(j und Pj, Bei Replikationen wird der Mittelwert über die Vpn berechnet, (py ist der "Anteil des Reizes i an Reiz /). Die Pjj bilden eine nicht symmetrische, quadratische Matrix Ρ der Ordnung n. Die Diagonalzellen sind leer. E l : Die Elemente p¡¡ werden durch die korrespondierenden p¡¡ dividiert: h ij = PijlPji· E2: Die Zeilensummen der entstehenden Matrix Η werden gebildet: h¡ ist die Summe der Zeile i. E3: Die Matrix der Skalarprodukte R ergibt sich aus P, wenn jedes Element p¡¡ mit der Zeilensumme h¡ der Matrix Η multipliziert wird: r¡j = Pij hj. E4: Die Matrix R wird faktoriert.
178
5. Band : Testen und Messen
Schwellen
X
f)
Äquisektion
X
X
g)
Verhältnisschätzung
X
X
h l ) Dichotomie
X X
X
X
X
h 3 ) Beurteilen
X
i)
subj. Urteile (eq. ap. I)
X
k)
Größenschätzung
X
1)
Ekman
X
X
X
X
X
X X
X
h 2 ) Sortieren
Faktorenanalyse
X
e)
Ekman
X
X
Kruskal
X
Rangordnung
Skalogramm
Auswahlverfahren
d)
Kategorialurteile
c)
Vergleichsurteile
X
Tripelvergleich
latent structure
Paarvergleich
b)
Schwellen
a)
Unfolding
Erhebungsverfahren
ad hoc
mehrfache EH
Auswertungsverfahren
Parallelogramm
Darstellung 16 gibt eine Übersicht über die im vorliegenden Kapitel dargestellten Erhebungs- und Auswertungsverfahren sowie die aus der Literatur bekannten Kombinationen.
X
X
X
X
X
X
X
X
X
X
X X X
X X
X X
D a r s t e l l u n g 1 6 : Die in diesem Kapitel dargestellten Datenerhebungs- u n d Auswertungsverfahren. Ein X in einer Zelle b e d e u t e t , d a ß die Verfahren kombiniert werden k ö n n e n .
Literaturverzeichnis P., A technique and a model for multidimensional attitude scaling, in: Public Opinion Quarterly 18, 1954, S. 4 0 5 - 4 1 8 .
ABELSON, R .
P. E . VERNON, A test for personal values, in: Journal of Abnormal and Social Psychology 26, 1931, S. 2 3 1 - 2 4 8 .
ALLPORT, G . W. UND
ANDERSON, T. W., On estimation of parameters in latent structure analysis, in: Psychometrika 19, 1954, S. 1 - 1 1 . ARROW, K. J., Social choice and individual values, New York 1951. method of graded dichotomies for the scaling of judgments, in: Psychological Review 56, 1949, S. 3 3 4 - 3 4 0 .
ATTNEAVE, F . , A
5. Kapitel: Skalierungsverfahren
ATTNEAVE, F . , 1 9 5 0 , S.
Dimensions of similarity, in: American journal of psychology
179
63,
516-556.
BENNET, J. F., Determination of t h e n u m b e r of independent parameters of a score matrix f r o m t h e examination of rank orders, in: Psychometrika 21, 1956, S. 3 8 3 - 3 9 3 . Multidimensional unfolding: Determining the dimensionality of ranked preference data, in: Psychometrika 25, 1960, S.27-43.
B E N N E T , J . F . UND W. L . H A Y S ,
A statistically precise and relatively simple m e t h o d of estimating t h e bio-assay with quantal response, based on the logistic f u n c t i o n , in: Journal of t h e American Statistical Association 48, 1953, S. 5 6 5 - 6 0 0 .
BERKSON, J . ,
BRADLEY, R. A. UND Μ. E. TERRY, T h e rank analysis of incomplete block designs I: T h e m e t h o d of paired comparisons, in: Biometrika 39, 1952, S. 3 2 4 - 3 4 5 . BRENGELMANN, J. C. UND L. BRENGELMANN, Deutsche Validierung von Fragebogen dogmatischer und intoleranter Haltungen, in: Zeitschrift für experimentelle und angewandte Psychologie 7, 1960, S. 451 - 4 7 1 . T h e estimation of t h e discriminal dispersion in t h e m e t h o d of successive intervals, in: Psychometrika 20, 1955, S. 2 9 9 - 3 0 5 .
BURROS, R . H . ,
CATTELL, R. Β., T h e relational simplex theory of equal interval and absolute scaling, in: Acta Psychologica 26, 1962, S. 1 3 9 - 1 5 8 . H., A t h e o r y of psychological scaling, in: Engineering Research Bulletin 34, Ann Arbor 1952.
COOMBS, C .
COOMBS, C .
H., A T h e o r y of Data, New York 1964.
J., Coefficient alpha and the internal structure of tests, in: Psychometrika 66, 1951, S. 2 9 7 - 3 3 4 .
CRONBACH, L .
general least squares solution for successive intervals, in: Psychometrika 22, 1957, S. 159-173.
D I E D E R I C H , G . W . U. A., A
EDWARDS, A. L., T h e scaling of stimuli by the m e t h o d of successive intervals, in: Journal of Applied Psychology 36, 1952a, S. 1 1 8 - 1 2 2 . EDWARDS, A . L . ,
Techniques of a t t i t u d e scale construction, New York
1957.
EDWARDS, A. L. UND L. L. THURSTONE, An internal consistency check f o r scale values determined by the m e t h o d of successive intervals, in: Psychometrika 17, 1952, S. 169-180. EDWARDS, W., T h e theory of decision making, in: Psychological Bulletin 51, 1954, S. 3 8 0 - 4 1 7 . direct method for multidimensional ratio scaling, in: Psychometrika 28, 1963, S. 3 3 - 4 1 .
EKMAN, G . , A
FECHNER, G. TH., Elemente der Psychophysik, 1860. FISCHER, G .
H. (Hrsg.), Psychologische Testtheorie, Bern/Stuttgart
1968.
An axiomatic and experimental study of sensory order and measure, in: Psychological Review 63, 1956, S. 16-28.
GALANTER, E. H . ,
GARNER, W. R. UND H. W. HAKE, The a m o u n t of information in absolute j u d g m e n t s , in: Psychological Review 58, 1951, S. 4 4 6 - 4 5 9 .
180
5. Band: Testen und Messen
An extension of Anderson's solution f o r the latent structure equations, in: Psychòmetrika 20, 1955, S. 6 9 - 7 3 .
GIBSON, W . Α . ,
Techniques for t h e study of group structure and behavior I: Analysis of structure, in: Psychological Bulletin 56, 1959, S. 3 1 7 - 3 3 2 .
G L A N Z E R , Μ . UND Κ . G L A S E R ,
GOODMAN, N . :
T h e structure of appearance, Cambridge, Mass.
1951.
general solution f o r the latent class model of latent structure analysis, in: Psychòmetrika 16, 1951, S. 1 5 1 - 1 6 6 .
GREEN, B. F., A
GREEN, Β. F., A m e t h o d of scalogram analysis using summary statistics, in: Psychòmetrika 21, 1956, S. 7 9 - 8 8 . GUILFORD
, J. P., Psychometric m e t h o d s , New York
1954.
least squares solution f o r successive intervals assuming unequal standard deviations, in: Psychòmetrika 19, 1954, S. 1 1 7 - 1 3 9 .
GULLIKSEN, H . , A
least squares solution f o r paired comparisons with incomplete data, in: Psychòmetrika 21, 1956, S. 1 2 5 - 1 3 4 .
GULLIKSEN, H . , A
A basis for scaling qualitative data, in: American Sociological Research 9, 1944, S. 1 3 9 - 1 5 0 .
GUTTMAN, L.,
GUTTMAN, L., An approach for q u a n t i f y i n g paired comparisons and rank order, in: Annals of mathematical statistics 17, 1946, S. 1 4 4 - 1 6 3 . GUTTMAN, L., T h e Cornell technique f o r scale and intensity analysis, in: Educational and Psychological Measurement 7, 1947a, S. 2 4 7 - 2 7 9 . GUTTMAN, L., Suggestions f o r f u r t h e r research in scale and intensity analysis of attitudes and opinions, in: International Journal of Opinion and A t t i t u d e Research 1, 1947b, S. 3 0 - 3 5 . Relation of scalogram analysis to other techniques, in: υ. Α., Measurement and Prediction, Princeton 1950.
GUTTMAN, L.,
S. STOUFFER
An outline of some new m e t h o d o l o g y f o r social research, in: Public Opinion Quarterly 18, 1954, S. 3 9 5 - 4 0 4 .
GUTTMAN, L.,
HARARY, F. UND I. R o s s , A procedure of clique detection using the group matrix, in: Sociometry 20, 1957, S. 2 0 5 - 2 1 5 . A psychological scale of weight and a formula for its derivation, in: American Journal of Psychology 61, 1948, S. 3 4 3 - 3 5 1.
H A R P E R , R . S . UND S . S . S T E V E N S ,
HOLZKAMP, Κ . ,
Wissenschaft als Handlung, Berlin 1968.
I n c o m p l e t e block rank analysis: some taste test results, in: Biometrics 10, 1954, S. 3 9 1 - 3 9 9 .
HOPKINS , J . W . ,
m e t h o d f o r determining the absolute affective value of a series of stimulus situations, in: Journal of educational psychology 23, 1932, S. 4 1 8 - 4 4 0 .
HORST, P., A
The prediction of personal a d j u s t m e n t , in: Social Science Research Council Bulletin 48, 1941.
HORST, P.,
Mathematical biophysics of t h e central nervous system, in: Mathematical and Biophysical Monographs 1, 1945.
H O U S E H O L D E R , A . S . UND H . D . L A N D A H L ,
KAISER, H. F . ,
Scaling a simplex, in: Psychòmetrika
27, 1962,
S.
155-162.
5. Kapitel: Skalierungsverfahren
181
KATZ, L. UND J. H. POWELL, Probability distributions of random variables associated with a structure of the sample space of sociometric investigations, in: Annals of mathematical statistics 27, 1957, S. 4 4 2 - 4 4 9 . W., Die Beziehungen zwischen multidimensionaler Skalierung und Faktorenanalyse, in: Psychologische Beiträge 7, 1963, S. 3 8 7 - 3 9 6 .
KRISTOF,
J. B., Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, in: Psychometrika 29, 1964a, S. 1-27.
KRUSKAL,
J. B., Nonmetric multidimensional scaling: A numerical m e t h o d , in: Psychometrika 29, 1964b, S. 115-129.
KRUSKAL,
G. F. UND M. W. RICHARDSON, The theory of the estimation of test reliability, in: Psychometrika 2, 1937, S. 151-160.
KUDER,
P. F., Latent structure analysis, in: S. study of a science, Bd. 3, New York 1959.
LAZARSFELD,
KOCH
(Hrsg.), Psychology, A
LIKERT, R., A technique for the measurement of attitudes, in: Archives of Psychology 140, 1932, S. 1-55. J., The technique of homogeneous tests compared with some aspects of "scale analysis" and factor analysis, in: Psychological Bulletin 45, 1948, S. 507-530.
LOEVINGER,
LUCE,
R. D.
UND
H.
RAIFFA,
Games and decisions, New York 1957.
LUCE, R. D., Individual choice behavior, New York 1959. LUCE, R. D., A choice theory of analysis of similarity judgments, in: Psychometrika 26, 1961, S. 151-164. K. UND P. E. M E E H L , On a distinction between hypothetical constructs and intervening variables, in: Psychological Review 55, 1948, S. 9 5 - 1 0 7 .
MACCORQUODALE,
MESSICK, S. J., Some recent theoretical developments in multidimensional scaling, in: Educational and Psychological Measurement 16, 1956, S. 8 2 - 1 0 0 . S. J. UND R. P. ABELSON, The additive constant problem in multidimensional scaling, in: Psychometrika 21, 1956, S. 1-17.
MESSICK,
J. E., Four kinds of reproducibility in scale analysis, in: Educational and Psychological Measurement 15, 1955, S. 4 7 8 - 4 8 2 .
MILHOLLAND,
MOISIER, C. I., A note on item analysis and the criterion of internal consistency, in: Psychometrika 1, 1936, S. 2 7 5 - 2 8 2 . MOISIER, C. I., Psychophysics and mental test theory: fundamental postulates and elementary theorems, in: Psychological Review 47, 1941, S. 3 5 5 - 3 6 6 . F., A theory of scalogram analysis, using noncumulative types of items: a new approach to Thurstone's method of scaling attitudes, Report Nr. 9, Laboratory of social relations, Harvard 1949.
MOSTELLER,
F., Remarks on the method of paired comparisons I: The least squares solution assuming equal standard deviations and equal correlations, in: Psychometrika 16, 1951, S. 3 - 1 1 .
MOSTELLER,
P. B., The non-central χ 2 and F-distributions and their applications, in: Biometrika 36, 1949, S. 2 0 2 - 2 3 2
PATNAIK,
182
5. Band: Testen und Messen
Die axiomatischen Grundlagen einer allgemeinen Theorie des Messens, Würzburg 1959.
PFANZAGL, J . ,
RASCH, G., Probabilistic models for some intelligence and attitude tests, Danish Institute for Educational Research, Copenhagen 1960. Ross , R. T., Optimum orders for the presentations of pairs in the method of paired comparisons, in: Journal of Educational Psychology 25, 1934, S. 375-382. SAFFIR , M., A comparative study of scales constructed by three psychophysical methods, in: Psychometrika 2, 1937, S. 179-198. SAGI, P. C., A statistical test for the significance of coefficient of reproducibility, in: Psychometrika 24, 1959, S. 19-27. Ε. Κ. UND Η. ZEHNPFENNIG, Skalierungsverfahren in der Sozialforschung, in: R . KÖNIG (Hrsg.), Handbuch der empirischen Sozialforschung, 3. erw. Auflage, Bd. 3a, Stuttgart 1974, S. 9 7 - 2 0 3 .
SCHEUCH,
SIXTL, F . ,
Meßmethoden der Psychologie, Weinheim
1967.
The direct estimation of sensory magnitudes-loudness, in: American Journal of Psychology 69, 1959, S. 1-25.
STEVENS, S . S . ,
Problems and methods of psychophysics, in: Psychological Bulletin 55, 1958, S. 177-196.
STEVENS, S . S . ,
, Ratio scales and category scales for a dozen perceptual continua, Harvard University Psycho-Acoustic Laboratory Report PNR-186.
STEVENS, S . S . UND Ε . Η . GALANTER
technique for improving cumulative scales, in: Public Opinion Quarterly 16, 1952, S. 273-291.
STOUFFER, S . U. A., A
Psychophysical analysis, in: American Journal of Psychology 38, 1927a, S. 368-389.
THURSTONE, L . L . ,
THURSTONE, L. L., The method of paired comparisons for social values, in: Journal of Abnormal and Social Psychology 21, 1927b, S. 384-400. Equally often noticed differences, in: Journal of Educational Psychology 18, S. 1927 c, S. 289-293.
THURSTONE, L . L . ,
THURSTONE, L. L., A law of comparative judgment, in: Psychological Review 34, 1927d, S. 273-286. THURSTONE, L. L., A mental unit of measurement, in: Psychological Review 34, 1927e, S, 415-423. THURSTONE,L. L.,
Three psychophysical laws, in: Psychological Review
34,
1927f,
S. 4 2 4 - 4 3 2 .
THURSTONE, L. L., The phi-gamma hypothesis, in: Journal of Experimental Psychology 1 1, 1928, S. 293-305. L., Fechner's law and the method of equal appearing intervals, in: Journal of Experimental Psychology 12, 1929a, S. 214-224.
THURSTONE, L .
THURSTONE, L. L., Theory of attitude measurement, in: Psychological Review 36, 1929b, S. 222-241.
J. Kapitel: Skalierungsverfahren
183
THURSTONE, L. L., Rank order as a psychophysical m e t h o d , in: Journal of Experimental Psychology 14, 1931a, S. 1 8 7 - 2 0 1 . THURSTONE, L. L., T h e indifference f u n c t i o n , in: Journal of Social Psychology 2, 1931b,S. 139-167. THURSTONE, L. L., T h e measurement of social attitudes, in: Journal of A b n o r m a l . and Social Psychology 26, 1931 c, S. 2 4 9 - 2 6 9 . THURSTONE, L. L., Stimulus dispersions in the m e t h o d of constant stimuli, in: Journal of Experimental Psychology 15, 1932, S. 2 4 8 - 2 9 7 . THURSTONE, L. L., T h e prediction of choice, in: Psychometrika 10, 1945, S.237-253. THURSTONE, L. L., Some new psychophysical m e t h o d s , in: L. L. THURSTONE , T h e measurement of values, Chicago 1959, Kap. 16. THURSTONE, L. L., T h e measurement of values, in: Psychological Review 51, 1954, S. 4 7 - 5 8 . THURSTONE, L. L., T h e measurement of values, Chicago 1959. THURSTONE, L. L. UND E. J. CHAVE, T h e measurement of attitudes, Chicago 1929. THURSTONE, L. L. UND L. V. JONES, T h e rational origin for measuring subjective values ( 1 9 5 5 / 5 6 ) , in: L. L. THURSTONE, T h e measurement of values, Chicago 1 9 5 9 , Kap. 1 8 . TORGERSON, W. S., Multidimensional scaling: I: T h e o r y and m e t h o d , in: Psychometrika 17, 1952, S. 4 0 1 - 4 1 9 . TORGERSON, W. S., T h e o r y and m e t h o d s of scaling, New York 1958. TORGERSON, W. S., Multidimensional scaling of similarity, in: Psychometrika 30, 1965, S. 3 7 9 - 3 9 3 .
TUCKER, L. R., A level of proficiency scale for a unidimensional skill, in: American Psychologist 7, 1952, S. 408. TUCKER, L. R. UND S. MESSICK, An individual differences model f o r multidimensional scaling, in: Psychometrika 28, 1963, S. 3 3 3 - 3 6 7 . WITTE, W., Struktur, Dynamik und Genese von Bezugssystemen, in: Psychologische Beiträge 4, 1960, S. 2 1 8 - 2 5 2 . WITTE, W., Über Phänomenskalen, in: Psychologische Beiträge 4, 1960, S. 6 4 5 - 6 7 2 . YOUNG, G. UND A. S. HOUSEHOLDER, Discussion of a set of points in terms of their mutual distances, in: Psychometrika 3, 1938, S. 19-22. YOUNG, G. UND A. S. HOUSEHOLDER, A n o t e on multidimensional psychophysical analysis, in: Psychometrika 6, 1941, S. 3 3 1 - 3 3 3 .
6.
Grundzüge der Faktorenanalyse von Manfred Sturm und Thomas Vajna
6.1
Grundlagen
6.1.1
Die Aufgabenstellung
1. Datenreduktion. Werden bei den untersuchten Merkmalsträgern die Ausprägungen mehrerer Merkmale (Variablen) gemessen, dann läßt sich die zur statistischen Auswertung der Ergebnisse notwendige Klassifikation der Merkmalsträger nicht nach den einfachen Prinzipien vollziehen, die aus der univariaten Statistik geläufig sind: Eine erschöpfende Systematisierung scheitert an den begrenzten technischen Möglichkeiten, gleichzeitig nach einer Vielzahl von Variablen zu klassifizieren. In der Praxis der Sozialforschung begegnet man diesem Problem recht häufig, weil man zur Beschreibung komplexer oder nicht direkt meßbarer Größen häufig multivariate Untersuchungen durchführt. Die Zahl der Klassifikationskriterien kann allerdings vermindert werden, wenn man eine Regelmäßigkeit für das Auftreten von Merkmalskombinationen eruiert hat, d. h. wenn bestimmte Einzelmerkmale der Untersuchung miteinander korrelieren. Eines der jeweils korrelierenden Merkmale vermag die übrigen hinreichend zu repräsentieren. Die sich hierdurch vereinfachende Klassifikation wird durch Informationsverluste in ihrer Aussage gemindert, die umso geringer sind, je stärker die Variablengruppen korrelieren. Die Faktorenanalyse stellt eine Möglichkeit dar, das Datenmaterial in vereinfachter Form zu klassifizieren, ohne wesentliche Informationsverluste erleiden zu müssen ( H E I K E 1 9 7 0 ) . Vgl. die methodologischen Ausführungen -*• Bd. V: Besozzi und Zehnpfennig, Indexbildung. Dabei geht man von der naheliegenden Überlegung aus, daß für eine Gruppe korrelierender Variablen eine gemeinsame Einflußgröße gefunden werden kann, die die Ausprägungen der jeweiligen Variablen determiniert. Diese Einflußgrößen, die man als Faktoren bezeichnet, dienen zunächst lediglich als technisch-mathematische Hilfsmittel, als mechanische Darstellungs- und Systematisierungshilfen ohne eigene Inhalte. Der Zweig der Faktorenanalyse, der sich auf die Datenreduktion beschränkt, ohne qualitative Interpretationen über die formal errechneten Faktoren zu umfassen, wird als deskriptive Faktorenanalyse ( B U R T 1 9 4 1 ) bezeichnet. Nach Ansicht einiger Autoren ist es zweckmäßiger, hierbei von Komponentenanalyse zu sprechen (SCHÄFFER 1 9 6 6 ) . HOFSTÄTTER ( 1 9 6 7 ) stellt die formal-objektive Klassifikation (Kategorisierung) anhand der deskriptiven Faktorenanalyse als notwendige Ergänzung der spekulativen Typisierung dar, wie sie u. a. von Descartes und McDougall praktiziert wurde. 2. Das Grundmodell der inhaltlichen Faktorenanalyse.
Das allgemeinste Modell der
6. Kapitel: Grundzüge der Faktorenanalyse
185
inhaltlichen Faktorenanalyse, deren Ziel die Gewinnung von Hypothesen und Dimensionen ist, geht auf Thurstone zurück;es bildet die Grundlage der multiplen Faktorenanalyse. Das Multi-Faktor-Modell (THURSTONE 1 9 4 7 ; THOMSON 1 9 4 8 ; CATTELL 1952) geht davon aus, d a ß j e d e der gemessenen Variablen durch einige Faktoren "geladen" ist und erklärt werden kann. Wenn auch rechnerisch in der Regel sich stets eine Beziehung zwischen einem Faktor und einer Variablen ermitteln läßt, wird diese nur dann als signifikant angenommen, wenn eine hinreichend hohe Ladung vorliegt. Darstellung 1 zeigt ein Multi-Faktor-Modell; es können drei verschiedene Faktortypen bestimmt werden: (a) Faktor l, der alle vier Variablen lädt, (b) die Faktoren II — IV, die jeweils mehrere, aber nicht alle Variablen laden, und schließlich (c) die Faktoren V — VIII, die jeweils nur auf eine Variable Einfluß nehmen. Einen Faktor, dessen Einfluß bei allen Variablen durchschlägt, nennt man Generalfaktor. Faktoren, die mindestens zwei Variablen laden, sind gemeinsame Faktoren, so daß der Generalfaktor einen Sonderfall des gemeinsamen Faktors darstellt. Als spezifische Faktoren oder Einzelrestfaktoren werden solche Faktoren bezeichnet, die sich auf die Erklärung einer einzigen Variablen beschränken.
Faktoren
Variablen
(Generalfaktor) I
II
III
1
χ
X
2
χ
X
3
X
X
4
X
X
Darstellung 1 :
V
X
X
VI
VII
VIII
X
X
Generalfaktor
X X
X
Variablenspezifische F a k t o r e n
I
II X
1
X
2
X
3
X
4
X
Darstellung
IV
Das Multi-Faktor-Modell (in Anlehnung an ÜBERLA 1968).
Faktoren Variablen
Variablenspezifische Faktoren
Gemeinsame F a k t o r e n
III
IV
V
X X X
2 : Das Zwei-Faktoren-Modell (in Anlehnung an ÜBERLA 1968).
186
5. Band: Testen und Messen
Faktoren Variablen
Gemeinsame Faktoren I
II
III
1
X
X
2
X
X
3
X
X
4
X
X
5
X
X
Variablenspezifische Faktoren IV
V
VI
VII
VIII
X X X X X
Darstellung 3 : Das Bi-Faktor-Modell (in Anlehnung an ÜBERLA 1968).
Führt man in diesem allgemeinen Modell gewisse Restriktionen ein, so entstehen die speziellen Modelle der verschiedenen faktorenanalytischen Schulen, zwischen denen in der ersten Hälfte des 20. Jahrhunderts heftige Methodendiskussionen ausgetragen wurden. Allen Schulen gemeinsam ist die Ansicht, daß erst die inhaltliche Interpretation der errechneten Faktoren als Elementarvariable, als hypothetische Variable oder als Verhaltensdimensionen die Faktorenanalyse wissenschaftlich ergiebig mache. Als technische Vorbereitung der inhaltlichen Interpretation sind neben der Extraktion der Faktoren, d. h. der numerischen Bestimmung der Faktorladungen der einzelnen Variablen, weitere Rechenoperationen notwendig, so daß die inhaltliche Faktorenananlyse auch formal über die beschreibende hinausgeht. Die Interpretation selbst ist hingegen kein mathematisch-statistisches Problem; sie verlangt eine beträchtliche sozialwissenschaftliche Erfahrung, wobei man sich allerdings auf die Ergebnisse verwandter Untersuchungen stützen kann. 3. Die wichtigsten faktorenanalytischen Schulen. Ausgehend von den Diskussionsbeiträgen zum Intelligenzbegriff vor der Jahrhundertwende (Galton, Spencer, McDougall) stellte SPEARMAN ( 1 9 0 4 ) seine Zwei-Faktoren-Theorie auf und untermauerte gemeinsam mit K R Ü G E R ( 1 9 0 6 ) die dabei gewonnenen Ergebnisse. Die Zwei-Faktoren-Theorie, die sich aus der Untersuchung von Schulnoten entwickelt hat, unterstellt eine generelle Begabung der Schüler, die sich in allen Variablen (Zeugnisnoten) niederschlägt; darüber hinaus werden alle Fachnoten von einer jeweils spezifischen, fachbezogenen Begabung beeinflußt. Darstellung 2 zeigt das Spearmansche Modell, das von H O L Z I N G E R UND SWINEFORD ( 1 9 3 7 und 1939) zur Bi-Factor-Theory fortentwickelt wurde. Die Bi-Factor-Methode (Darstellung 3) fordert außer einem allgemeinen Faktor (Faktor I) sich nicht überlappende Gruppenfaktoren (Faktor II und Faktor III) sowie für jede Variable einen Einzelrestfaktor (Faktoren IV — VIII). Beide Schulen wurden vor allem von C A T T E L L ( 1 9 5 2 ) kritisiert, da ihre faktorenanalytischen Lösungen u. a. gegenüber neu aufgenommenen Variablen nicht invariant sind. Die gleiche Kritik wurde auch an B U R T ( 1 9 5 1 ) gerichtet, der als wichtigster Verfechter der deskriptiven Faktorenanalyse gilt und die hierarchische Faktorenstruktur eingeführt hat (vgl. P E E L 1 9 5 3 ) , die untereinander korrelierte (nicht orthogonale) Faktoren zuläßt. Als Begründer der modernen Schule gilt T H U R S T O N E ( 1 9 4 7 ) , dem man neben dem Modell der multiplen Faktorenanalyse (Darstellung 1) auch die Festle-
6. Kapite
rundziige der Faktorenamlyse
187
gung einiger allgemeingültiger Kriterien — u. a. dem der Einfachstruktur — zu verdanken hat: von allen denkbaren Darstellungen des Datenbereichs ist jene vorzuziehen, die mit der kleinstmöglichen Anzahl erklärender Größen (Faktoren) auskommt und auf einer möglichst einfachen Funktion zwischen gemessenen und erklärenden Größen basiert (FERGUSON 1 9 5 4 , SCHÄFFER 1 9 6 9 ) .
6.1.2
Die Verfahrenstechnik einer faktorenanalytischen Untersuchung
Unabhängig von der spezifischen Fragestellung erfolgt die Faktorenanalyse nach einem festgefügten Schema, bei dem die einzelnen Schritte durch ein Ablaufsdiagramm (Darstellung 4) dargestellt werden können. Die methodischen Probleme sind dabei in Anlehnung an ÜBERLA ( 1 9 6 8 ) jeweils an den entsprechenden Stellen des Verfahrensweges zu erläutern. Den Ausgangspunkt der Faktorenanalyse bildet die Matrixdarstellung der gemessenen Ursprungswerte: In den Zeilen der Matrix Y erscheinen die m untersuchten Variablen, in den Spalten die η Merkmalsträger, die bezüglich der m Variablen überprüft worden sind. Das allgemeine Element y¡¡ gibt den Merkmalswert der /'-ten Variablen beim /-ten Merkmalsträger an {i = 1, 2, ..., m; j = 1 , 2 , . . . , « ) . Bei klassischen Lösungsansätzen ist die Restriktion zu beachten, daß die einbezogenen Variablen auf metrischen Skalen meßbar sein müssen. Eine zweckmäßige Umformung der Matrix Y = (y¡j) stellt die Transformation in die Matrix Ζ = (ziy ) dar. Die gemessenen Ursprungswerte werden hierbei standardisiert, d. h. in eine Verteilung mit dem Mittelwert 0 und der Varianz 1 überführt. Nach Errechnung des arithmetischen Mittels ~yt und der Standardabweichung s¡ für die Variable i erfolgt die Standardisierung mittels der einfachen Formel O)
s
i
Die Vorteile der Standardisierung ergeben sich aus.den nachgelagerten Operationen: Bei standardisiertem Datenmaterial sind die Produkt-Moment-Korrelationskoeffizienten nach Pearson identisch mit den einfacher zu bestimmenden Kovarianzen; außerdem ist die zu einem späteren Zeitpunkt notwendige Varianzzerlegung einfacher zu vollziehen und zu deuten, da die Varianz auf 1 normiert ist. Aus der Matrix Ζ = (ζ/;·) kann die Matrix der Kovarianzen S = (s ik ) berechnet werden, die infolge der Standardisierung mit der Matrix R = (r ¡k ) der Korrelationskoeffizienten übereinstimmt. Das Element rik{i = 1 , 2 , ..., w; k = 1,2, ..., m) mißt den Zusammenhang zwischen der Variablen i und der Variablen k. Die quadratische Matrix R besitzt die Hauptdiagonalelemente r¡¡ = 1, da diese die Korrelation des betreffenden Merkmals mit sich selbst darstellen. Da ferner die paarweisen Beziehungen, die durch den einfachen Pearsonschen Korrelationskoeffizienten ausgedrückt werden, umkehrbar sind, d. h. rik = rki, enthält die Matrix R einschließlich der Diagonalelemente (2)
m2 + m m(m + 1) z— =
188
5. Band: Testen und Messen
1
...
/
...
η Matrix der Ursprungswerte
Standardisierte Matrix der Ursprungswerte
a
3
-σ
Korrelationsmatrix der Variablen
Korrelationsmatrix der Variablen mit geschätzten K o m m u n a l i t ä t e n (reduzierte Korrelationsmatrix)
Matrix der Faktorenladungen (Faktorenmuster)
Rotierte Matrix der F a k t o r e n l a d u n g e n (rotiertes Faktorenmuster)
s ^ α V e s:υo "S -C ç
Matrix der F a k t o r e n w e r t e
D a r s t e l l u n g 4 : D e r f a k t o r e n a n a l y t i s c h e P r o z e ß ( i n A n l e h n u n g a n ÜBERLA 1 9 6 8 ) .
6. Kapitel: Grundzüge der Faktorenanalyse
189
verschiedene interessierende Elemente. Kann man aus der Korrelationsmatrix darauf schließen, daß stochastische Abhängigkeiten zwischen den einzelnen Variablen vorliegen, gilt es, diese Regelmäßigkeiten durch die im "Hintergrund" stehenden Faktoren zu erklären. Die formal-mathematische Erklärung der Korrelationen wird im Fundamentaltheorem der Faktorenanalyse postuliert: Zu suchen ist die Matrix A, die mit Hilfe bestimmter Rechenoperationen die Matrix R reproduziert (vgl. 6.1.3). Weitere Überlegungen werden zeigen, d a ß die Reproduktion der Korrelationsmatrix R = (rik ) durch die Matrix der Faktorladungen A = (a¡¡) unter gewissen Prämissen nicht erfolgen kann, wenn die Diagonalelemente r¡¡ = 1 sind. Vielmehr sind die Diagonalelemente zu ersetzen durch die sogenannten Kommunalitäten hj (vgl. 6.2.1). Nach dieser Substitution geht die Matrix R = (r i k ) in die Matrix Rh = (r^.) über. Die Matrix Rh wird als reduzierte Korrelationsmatrix bezeichnet. Die bereits erwähnte Matrix A = (a¡¡) der Faktorenladungen gibt an, wie intensiv das gemessene Merkmal i (i = 1 , 2 , ... ,m) von dem im Hintergrund stehenden, erklärenden Faktor 1(1 = 1 , 2 , ..., r) beeinflußt wird. Die Bestimmung der Elemente a¡¡ wird Faktorextraktion genannt (vgl. 6.2.2). Mit der Kenntnis der Matrix A = (a¡¡) ist die deskriptive Faktorenanalyse abgeschlossen: Vorausgesetzt, d a ß die Anzahl der extrahierten Faktoren die Anzahl der Variablen unterschreitet, hat man das gesetzte Ziel, die Datenreduktion, erreicht. Die Umkehrbarkeit der Rechenoperationen, die zur Ermittlung der Matrix der Faktorladungen geführt haben, erlaubt die Korrelationsmatrix Rh = ( r f k ) aus der Matrix A = (a¡¡) zu reproduzieren. Will man zu einer inhaltlichen Bestimmung der Faktoren gelangen, ist das Rotationsproblem zu lösen (vgl. 6.3.1). Die Rotation der Faktorladungen ist deshalb notwendig, weil eine eindeutige Bestimmung der Matrix A = (a¡¡) nur möglich ist, wenn mathematische Restriktionen beachtet werden, die ihrerseits mit der jeweiligen Extraktionstechnik variieren. Da die bei der Faktorextraktion zu beachtenden Nebenbedingungen einer subjektiven Auswahl unterworfen sind und zunächst nur dem Reproduktionspostulat dienen, ist unter allen denkbaren Lösungen, die dem Fundamentaltheorem genügen, mit Hilfe der Rotation eine bestimmte auszuwählen. Als Selektionskriterien dienen vor allem die Thurstoneschen Forderungen nach der Einfachstruktur und der Invarianz. Die rotierte Matrix A = (a¡¡) sei durch V = (u,·/) symbolisiert. Den letzten Schritt der Faktorenanalyse bildet die die die Beziehung zwischen den Faktoren und den 6.3.3). Die Elemente der Matrix der Faktorenwerte direkt meßbare Einfluß des Faktors /(/ = 1, 2, ..., /' (/ = 1 , 2 , ..., n) ist.
6.1.3
Errechnung der Matrix Ρ = (ρif)·, Merkmalsträgern nachweist (vgl. geben an, wie stark der nicht r) auf den Merkmalsträger
Die wichtigsten Grundprinzipien und Zusammenhänge
1. Skalierung in der Faktorenanalyse. Die Meßergebnisse einer der Faktorenanalyse vorgelagerten multivariaten Erhebung können grundsätzlich in Form von Rohwerten. Abweichungswerten oder Standardwerten angegeben werden, wobei es sich beim klassischen Modellansatz jeweils um metrische Skalen handeln m u ß (-»· Bd. V: Huber und Schmerkotte, Meßtheoretische Probleme 2.5). Sieht man einmal von der Maximum-Likelihood-Schätzung der Faktorladungen (vgl. Abschnitt 6.4) ab, liefern
190
5. Band: Testen und Messen
die drei genannten Skalierungsmöglichkeiten jeweils verschiedene Lösungen, da die traditionellen Extraktionsmethoden gegenüber der Skalierung der Meßergebnisse nicht invariant sind (PAWLIK 1968, S. 46). Die Rohwertanalyse wird in ihrer Anwendbarkeit auf identische Maßsysteme der untersuchten Variablen beschränkt, ebenso wie die Abweichungsanalyse, die den Nachteil einer potentiellen Überbetonung einzelner Variablen aufzuweisen hat. Bei ECKART UND YOUNG (1936) sowie bei HORST (1965) findet man Anhaltspunkte für Rohwertanalysen, während die Methodik der Abweichungsanalyse bei HOTELLING (1933) erläutert wird. Die Analyse der standardisierten Werte — Standardisierung kann für jedes metrische Merkmal vorgenommen werden, indem gemäß Formel (1) die Rohwerte und nach einer ähnlich einfachen Formel die Abweichungswerte transformiert werden — ist die gebräuchlichste Skalierungsmethode der Faktorenanalyse. THURSTONE (1947) spezifiziert die Standardisierung auf normalverteilte Variablen. Neben SLATER ( 1 9 4 7 ) hat vor allem GUTTMAN ( 1 9 5 3 ) sich mit Problemen der nicht-metrischen Faktorenanalyse beschäftigt. Während echte Alternativmerkmale, für die das Kendall-Stuartsche Assoziationsmaß berechnet werden kann, faktorenanalytisch untersucht werden können, lassen sich die für die Faktorenanalyse benötigten Korrelationsmatrizen für Kontingenztafeln nicht aufstellen (PAWLIK 1 9 6 8 ) , es sei denn, man würde auf ein nicht-metrisches Faktormodell (COOMBS UND RAO 1 9 5 5 ) zurückgreifen. ÜBERLA ( 1 9 6 8 ) verweist allerdings auf die grundsätzliche Möglichkeit, statt der Produkt-Moment-Korrelationsmatrix andere Maße des Zusammenhangs zwischen den Variablen zu verwenden. 2. Das Fundamentaltheorem. Das zentrale Problem der Faktorenanalyse besteht zunächst darin, aus den empirisch gewonnenen Korrelationen zwischen den untersuchten Variablen Auskünfte über die Faktoren, die sich auf die Variablen auswirken, zu gewinnen. Dabei geht man von der Überlegung aus, d a ß jedes Element der (standardisierten) Datenmatrix Ζ = (z,y) als Ergebnis zweier Einwirkungskomponenten gedeutet werden kann: einmal als Resultat des Zusammenhangs zwischen Variablen und Faktoren (Matrix A), zum anderen als Ergebnis des Zusammenhangs zwischen Merkmalsträgern und Faktoren (Matrix P)·, formal bedeutet diese Überlegung (3)
Ζ = Α Ρ
oder bezogen auf das Einzelelement
(HENRYSSON
1 9 6 0 , S . 1 6 ; ÜBERLA 1 9 6 8 , S . 5 3 ;
SCHÄFFER 1 9 6 9 , S . 5 9 )
(4)
z,y = anPlj
+ anp2j
+ ... +
airprj.
Die in (3) und (4) getroffene Unterstellung eines linear-additiven Ansatzes genügt der Forderung nach der Einfachstruktur des Faktorenmodells, ohne daß sie zwangsläufig in jedem Fall der sozialwissenschaftlichen Empirie adäquat sein wird. Die Beziehung zwischen der (standardisierten) Datenmatrix Ζ = (z ¿/ ) und der Korrelationsmatrix R = (rjk) bzw. der Kovarianzmatrix S = (sik ) ist folgender Art: (5)
R = S =
(6)
rik = sik
1 η - 1
Ζ Ζ', da
1 =
η - ι
" 2 /=1
z z
a jk·
6. Kapitel: Grundzüge der Faktorenanalyse
191
Ersetzt man Ζ in (5) durch (3), so ergibt sich für die gesuchte Beziehung zwischen den gemessenen Variablen und den im Hintergrund stehenden Faktoren (7)
R - S = —— Α Ρ Ρ' η - 1
Definiert man den Ausdruck 1
(8)
C=
(9)
R - S = A
η - 1
1 η - 1
A'.
Ρ Ρ als Matrix C
P P , so kann (7) vereinfacht werden in CA'.
Die Matrix C = (c; p )ist analog zur Matrix R bzw. zur Matrix S eine Korrelationsbzw. Kovarianzmatrix. Nur stellt sie nicht die paarweisen Beziehungen zwischen den Variablen, sondern zwischen den Faktoren dar. Fordert man zunächst, daß die gesuchten Faktoren untereinander unkorreliert sein sollen, d. h. in der Hauptdiagonale die Elemente c¡¡ = 1 und an allen anderen Stellen der Matrix C die Elemente 0 auftauchen, so wird die Matrix C eine Einheitsmatrix /, so daß (9) in einfacher Form geschrieben werden kann: (10)
R = S = A A'.
Daraus folgt, daß im Falle unkorrelierter (orthogonaler, rechtwinkliger) Faktoren die Korrelationsmatrix aus der Matrix der Faktorladungen A = (a¡¡) und deren Transponierten A' = (a¡¡) reproduziert werden kann; bei korrelierten (schiefwinkligen) Faktoren ist zur Reproduktion zusätzlich die Matrix C = (c/ ) (/ = 1 , 2 , . . . , / • ; ρ = 1, 2, ..., r) notwendig. Die Relationen (9) und (10) werden als Fundamentaltheorem der Faktorenanalyse bezeichnet. Neben der Originalarbeit T H U R S T O N E S (1947) ist die formale Darstellung des Fundamentaltheorems u. a. bei H O R S T (1965), H E N R Y S S O N (1960), P A W L I K (1968) und sehr ausführlich bei Ü B E R L A (1968), an dessen Werk die Symbolik angelehnt wurde, zu finden. 3. Die Zerlegung der Einheitsvarianz. Die Varianz der untersuchten Merkmale (Variablen) wurde durch die Standardisierung der Ursprungswerte in die Einheitsvarianz sj = 1 transformiert. Die Erklärung gemessener Tatbestände durch nicht meßbare Größen kann in der Weise erfolgen, daß man versucht, die Varianz der gemessenen Größen (der Variablen) in solche Komponenten zu zerlegen, die den Einfluß der nicht meßbaren Größen (Faktoren) zum Ausdruck bringen. Grundlage der Zerlegung der Merkmalsvarianz sj sind gewisse Eigenschaften der Faktorladungen. P A W L I K (1968, S. 51 ff.) weist nach, daß die Faktorladungen a¡¡ die standardisierten Regressionskoeffizienten bu der Variablen in den Faktoren darstellen (a it = bn) und daß — sofern die Faktoren unkorreliert sind (Orthogonalität der Faktoren) - die Faktorladungen den Korrelationen ru der Variablen mit den Faktoren entsprechen. Wenn aber die Faktorladungen identisch mit den Produkt-Moment-Korrelationskoeffizienten sind (—1 < a¡¡ = r¡¡ < 1), dann geben die Quadrate der Faktorladungen af¡ als Bestimmtheitskoeffizienten an, welcher Prozentsatz an der Merkmalsvarianz j? auf den /-ten Faktor entfällt. Dementsprechend läßt sich im allgemeinen Modell der multiplen Faktorenanalyse die Einheitsvarianz erklären als
192
5. Band: Testen und Messen
(11)
s2 = al+af2
+ ...+al+bj
+ el
D. h. die Einheitsvarianz der Variablen i setzt sich zusammen aus: den quadrierten Ladungen der insgesamt r gemeinsamen
Faktoren
der quadrierten Faktorladung des Einzelrestfaktors
und
(bj)
| 2
a
j¡ j '
der zufallsbedingten sowie systematischen Fehlervarianz (e2 ), die auf die Tatsache zurückzuführen ist, daß nicht die Gesamtheit, sondern nur eine Stichprobe zur Untersuchung herangezogen wurde (MCNEMAR 1962, S. 174 ff.). Die Summe der quadrierten Faktorladungen der gemeinsamen Faktoren wird als Kommunalität der f'-ten Variablen bezeichnet: Γ
(12)
Σ
= hl
Die beiden übrigen Teile der Einheitsvarianz, (bj) und (e?), werden als Einzelvarianz (uf), die Kommunalität und die Einzelrestvarianz als Zuverlässigkeit (Réhabilitât d2) b e z e i c h n e t (ÜBERLA, S. 57 f f . ) :
(13)
uj=e2
+ b2
(14)
d2 = h2 + b2 = 1 — ej.
Die Zuverlässigkeit zeigt, wie gut die Einheitsvarianz und somit auch die Korrelationsmatrix durch die gemeinsamen Faktoren und den Einzelrestfaktor erklärt werden kann. Die verschiedenen Gütekriterien, die man für ein faktorenanalytisches Verfahren anführen kann, setzen in der Regel bei diesen Beziehungen an. Vielfach wird auch als Güte der Extraktion nur der Anteil der Varianz gewählt, der durch die gemeinsamen Faktoren determiniert ist, d. h. durch die Kommunalitäten. Da wegen der Einheitsvarianz bei jeder Faktorenanalyse m • sf = m • 1 = m Einheiten durch die im Hintergrund stehenden Faktoren maximal erklärt werden können, ließe sich die Güte der Extraktion somit definieren als (15)
G = - (h\1 + h\¿ +... + hm2m). m
4. Verallgemeinerung des Fundamentaltheorems. Das Grundmodell, wie es in (3) und (4) formuliert wurde, betraf den wirklichkeitsfremden Spezialfall, in dem die Einheitsvarianz durch die gemeinsamen Faktoren voll ausgeschöpft werden kann, so daß die Korrelationsmatrix R = (r ik ) durch das Faktorenmuster der gemeinsamen Faktoren Α = (α,-;) und deren Transponierten A' = (an) reproduzierbar ist. Nach (11) und (13) kann das Fundamentaltheorem verallgemeinert werden: (16)
ztj = anpXj+ai2p2j
+ ...+airprj
+ uiP{,
+ i)j,
so daß die Reproduktion der Korrelationsmatrix wie folgt vorzunehmen ist (ÜBERLA 1968, S. 60): (17)
R =
AA'+UU'.
6. Kapitel: Grundzüge der Faktorenanalyse
193
Die Matrix U beinhaltet die Einzelrestfaktoren und die Stichprobenfehler, die in der Hauptdiagonalen von U als Elemente erscheinen; alle anderen Elemente dieser Matrix sind 0. Will man eine Korrelationsmatrix ausschließlich durch die Faktorladungen der gemeinsamen Faktoren reproduzieren, so geht (17) über in (18)
R - U U' = A A' = Rh.
Aus (18) folgt, daß das Fundamentaltheorem neu zu formulieren ist. Das Faktorenmuster der gemeinsamen Faktoren A = (au) und deren Transponierte A ' = (ati) müssen die reduzierte Korrelationsmatrix Rh reproduzieren. Diese Matrix unterscheidet sich nur in den Elementen der Hauptdiagonalen von der ursprünglichen Korrelationsmatrix: statt der Elemente rj¡ = 1 enthält Rh in der Hauptdiagonalen die Kommunalitäten hj. Addiert man die Diagonalmatrix U zur Matrix Rh, erhält man die ursprüngliche Korrelationsmatrix R.
6.2
Die deskriptive Faktorenanalyse
6.2.1
Die Schätzung der Kommunalitäten
1. Das Fehlen einer allgemeingültigen Lösung. Zu den methodisch schwächsten Punkten der Faktorenanalyse gehört die Tatsache, daß die Kommunalitäten hj nicht exakt ermittelt werden können. Das allgemeingültige Intervall (19)
0 < h f < 1,
wie es sich aus (11) und (12) ergibt, läßt sich zwar bei bekannter Korrelationsmatrix R = (rik) weiter einschränken ( D W Y E R 1939;GUTTMAN 1940; MADANSKY 1965; D A R R O C H 1965), ohne daß jedoch diese Grenzen in allen empirischen Fällen unmittelbar bestimmt werden könnten. Als untere Grenze der Kommunalitäten wird das multiple Bestimmtheitsmaß B¡ (Quadrat des multiplen Korrelationskoeffizienten) definiert, das die Korrelation der Variablen i mit allen übrigen Variablen ausdrückt: (20)
h] > 5 ? ; 1,2, ... ,i - l , i + 1, ... m.
Wesentlich seltener kann dagegen die obere Grenze der Kommunalitäten bestimmt werden: Sie ist definiert als die gesamte Zuverlässigkeit der Variablen i nach (14). Es wird dabei also unterstellt, daß die gemeinsamen Faktoren mit Ausnahme des jeweiligen Stichprobenfehlers die gesamte Varianz ausschöpfen können, d. h. es liegen keine merkmalsspezifische Faktoren (Einzelrestfaktoren) vor. Die Lösung des Kommunalitätenproblems muß immer im Zusammenhang mit der Faktorextraktion gesehen werden. Einerseits bestimmen nämlich die Kommunalitäten die Zahl der gemeinsamen Faktoren entscheidend mit, andererseits determiniert die Zahl der gemeinsamen Faktoren die Werte der Kommunalitäten. So erhöhen sich ζ. B. die Kommunalitäten, wenn die Anzahl der zu extrahierenden Faktoren wächst. Daher muß man entweder die Kommunalitäten direkt schätzen, nachdem bereits eine Entscheidung über die Faktorenzahl gefällt wurde, oder aber die Kommunalitätsschätzung vorgeben und daraus die zweckmäßigste Faktorenzahl
194
5. Band: Testen und Messen
ableiten. Für beide Vorgehensweisen existieren zahlreiche Näherungslösungen ( G U T T M A N 1954a, 1955, 1957, 1958; THURSTONE 1947;CATTELL 1952; A L B E R T 1944; KAISER 1961 ; H A R R I S 1962). Algebraisch kann das Kommunalitätenproblem als die Frage der Bestimmung des minimalen Ranges einer Matrix aufgefaßt werden: Die Elemente der Hauptdiagonalen in der Matrix Rh, d. s. die Kommunalitäten, sind so zu bestimmen, daß sich für Rh ein minimaler Rang ergibt. Zwischen der kleinstmöglichen Zahl der gemeinsamen Faktoren und der Zahl der in die Untersuchung einbezogenen Variablen gilt die Beziehung nach LEDERMANN ( 1 9 3 8 ) (21)
r < ^ [{2m + 1) - ] / 8 m + 1],
wobei als Restriktion die Unabhängigkeit zwischen den einzelnen Korrelationen zu berücksichtigen ist (Darstellung 5). Da bei empirischen Korrelationsmatrizen die Unabhängigkeit nur selten gegeben ist, kann auf diesem Wege weder die kleinstmögliche Zahl der zu extrahierenden Faktoren, noch die entsprechende Kommunalität angegeben werden.
Anzahl unabhängiger Korrelationen
2
3
4
5
6
Kleinster Rang der Matrix
1
1
2
3
3
7 4
8 5
9 6
10 11 12 13 14 15 6
7
8
9
10 10
D a r s t e l l u n g 5: Der kleinste Rang der Korrelationsmatrix als Funktion der Anzahl unabhängiger Korrelationen (Quelle: HARMAN 1960, S. 72).
Definiert man die Kommunalitäten als Größen, die für die signifikanten Faktoren die bestmögliche Reproduktion der Matrix R ermöglichen (d. h. die Elemente der Matrix U minimieren), kann man die Interdependenz zwischen Faktorenzahl und Kommunalitäten nach LAWLEY (1940) und R A O (1955) dadurch am ehesten berücksichtigen, daß man beide Größengruppen in einem Iterationsprozeß gemeinsam ermittelt. Die Diskussionen zum Kommunalitätenproblem gehören nach wie vor zu den geläufigsten Themen der Faktorenanalyse. Da allein T H U R S T O N E (1947) mehr als 10 verschiedene Schätzmethoden der Kommunalitätenberechnung anführt, ist im folgenden nur ein kleiner Ausschnitt der bekannten Verfahren zu skizzieren. 2. Einige Schätzverfahren. Ohne den Anspruch auf eine exakte theoretische Begründung erheben zu können, ist besonders bei nicht zu kleiner Variablenzahl die Wahl des höchsten Produkt-Moment-Korrelationskoeffizienten als Kommunalität eine in der Praxis häufig verwendete Schätzmethode. Hierbei wird aus jeder Zeile der Korrelationsmatrix R = (rik ) das größte Element ausgesucht und als Kommunalität definiert; die Hauptdiagonalelemente scheiden bei der Auswahl naturgemäß aus: (22) HARMAN
h] = I/-,·* I m a x , wobei rik Φ ru.
(1960, S. 86) zählt dieses Primitiwerfahren zu den "arbitrary approxima-
6. Kapitel: Grundzüge der Faktorenanalyse
195
t i o n s " ; allerdings wird im Z u s a m m e n h a n g mit der n o c h zu e r ö r t e r n d e n ZentroidSchätzung hiervon h ä u f i g G e b r a u c h g e m a c h t (THURSTONE 1947; BURT 1941; CATTELL
1952;
GUILFORD
1954; UENERT
1961).
Verschiedentlich wird a u c h das multiple Bestimmtheitsmaß, das in ( 2 0 ) zur Untergrenze der K o m m u n a l i t ä t erklärt w u r d e , als S c h ä t z u n g v e r w e n d e t (GUTTMAN 1956; 1957; K A I S E R 1 9 6 0 b ; W R I G H L E Y 1958). Das multiple B e s t i m m t h e i t s m a ß wird auch als empirische ( W R I G H L E Y 1958) o d e r als bestmögliche ( G U T T M A N 1956) K o m m u n a l i t ä t e n s c h ä t z u n g b e z e i c h n e t , da bei gegebener F a k t o r e n z a h l r und wachsender Variablenzahl m die N ä h e r u n g gegen d e n " w a h r e n " Wert der K o m m u n a l i t ä t strebt. Diese von HARMAN ( 1 9 6 0 , S. 8 7 ff.) als " c o m p l e t e a p p r o x i m a t i o n " klassifizierte Met h o d e ist n u r mit erheblichem R e c h e n a u f w a n d zu vollziehen, weil die Korrelationsm a t r i x R dabei invertiert w e r d e n m u ß . Die m e t h o d i s c h e G r e n z e des Schätzverfahrens liegt in der T a t s a c h e begründet, d a ß die Voraussetzung der Invertierbarkeit (die Matrix R m u ß positiv semidefinit sein) nicht i m m e r gegeben ist. D u r c h geringfügige Ä n d e r u n g e n der H a u p t d i a g o n a l e l e m e n t e läßt sich diese Schwierigkeit allerdings b e h e b e n (ÜBERLA 1968, S. 159). I m Gegensatz zu d e n verschiedenen Iterationsverfahren k a n n die K o m m u n a l i t ä t e n s c h ä t z u n g d u r c h das m u l t i p l e Bestimmth e i t s m a ß den Vorteil für sich b u c h e n , d a ß keine l a u f e n d e n K o r r e k t u r e n des jeweiligen S c h ä t z w e r t e s v o r z u n e h m e n sind: andererseits unterschätzt m a n n a c h ( 2 0 ) in der Regel d e n w a h r e n Wert. Sehr rechenintensiv sind auch die verschiedenen Iterationsverfahren (GUTTMAN 1 9 5 7 a ; H O R S T 1965; K A I S E R 1 9 5 6 a , 1 9 5 9 a ) . Dabei geht m a n von einer zunächst beliebigen S c h ä t z u n g der K o m m u n a l i t ä t e n aus u n d extrahiert eine vorher b e s t i m m te Anzahl von F a k t o r e n . Aus d e m F a k t o r e n m u s t e r u n d der T r a n s p o n i e r t e n reproduziert m a n d a n n die K o m m u n a l i t ä t e n und ersetzt die erste S c h ä t z u n g d u r c h die n e u e Näherung. Wenn die D i f f e r e n z zwischen d e r letzten u n d der vorletzten Schätzung u n e r h e b l i c h ist, k a n n die I t e r a t i o n a b g e b r o c h e n werden. H O R S T ( 1 9 6 5 , S. 130) zeigt, d a ß diese Art der I t e r a t i o n in der Praxis zu Schätzungen f ü h r t , die gegen einen festen Wert konvergieren. ÜBERLA ( 1 9 6 8 ) u n d HARMAN ( 1 9 6 0 ) f ü h r e n w e i t e r e S c h ä t z v e r f a h r e n a n , d a r u n t e r dieMaximum-Likelihood-Schätzung(LAWLEY
1 9 4 0 ; LAWLEY UND MAXWELL
1963),
die auch für unterschiedliche Skalierungen Gültigkeit besitzt. Die MiniaturzentroidM e t h o d e von T h u r s t o n e , die Triadenschätzung ( H A R M A N 1 9 6 0 , S. 8 7 ) , die Wahl des durchschnittlichen Korrelationskoeffizienten als S c h ä t z w e r t seien hier nur e r w ä h n t (BURT
6.2.2
1941;
GUILFORD
1954;
LIENERT
1961).
Die Extraktion der Faktoren
N a c h d e m verallgemeinerten F u n d a m e n t a l t h e o r e m der F a k t o r e n a n a l y s e (18) m u ß die Matrix A = (a¡¡) so b e s c h a f f e n sein, d a ß sie nach der Multiplikation mit ihrer T r a n s p o n i e r t e n A ' = ( a u ) die r e d u z i e r t e K o r r e l a t i o n s m a t r i x Rh zu r e p r o d u z i e r e n vermag: Die Regelmäßigkeiten, die zwischen d e n m u n t e r s u c h t e n Variablen beoba c h t e t w u r d e n , müssen d u r c h das Faktorenmuster erklärt w e r d e n k ö n n e n . Die Ext r a k t i o n s m e t h o d e n u n t e r s c h e i d e n sich einmal d a d u r c h , d a ß sie in jeweils verschied e n e n inhaltlichen Modellen (vgl. 6.1) zur A n w e n d u n g k o m m e n u n d diesen Modellen angepaßt w e r d e n müssen. Darüber hinaus k a n n man für das allgemein g e f a ß t e
196
5. Band: Testen und Messen
Multi-Faktor-Modell die Extraktion auf unterschiedlichen Wegen vornehmen, da die Lösung des Faktorenproblems gewisser einschränkender Prämissen bedarf. Die bekanntesten klassischen Verfahren sind neben der Hauptachsen- und der Zentroidmethode die Harman-Holzingersche algebraische Lösung (HOLZINGER UND HARMAN 1 9 4 1 ) , die Diagonalmethode (HARMAN 1 9 6 0 , S. 3 8 ff. und S. 1 0 2 ) , die UniFaktor-Methode (SPEARMAN 1 9 0 4 ) , die Zwei-Faktor-Methode ( K R Ü G E R UND SPEARMAN 1 9 0 6 ) und die multiple Gruppenmethode ( H O R S T 1 9 3 7 ; HOLZINGER 1 9 4 4 ; THURSTONE 1 9 4 5 ; GUTTMAN 1 9 5 2 ) . Diese Verfahren zeichnen sich dadurch aus, daß sie den Stichprobenfehler, mit dem jede Teilerhebung behaftet ist, außer acht lassen (HENRYSSON 1 9 6 0 ) . Demgegenüber wird der Fehleraspekt berücksichtigt in dem moderneren Verfahren der kanonischen Faktorenanalyse ( R A O 1 9 5 5 ) , in der Alpha-Faktorenanalyse (KAISER UND CAFFREY 1 9 6 5 ; CRONBACH U.A. 1 9 6 3 ) und beim Maximum-LikelihoodAnsatz (LAWLEY 1 9 5 3 ; LAWLEY UND MAXWELL 1 9 6 3 ; R A O 1 9 5 5 ; HARMAN 1 9 6 0 ; DERFLINGER
1968).
Die jeweils zweckmäßigste Extraktionstechnik hängt maßgeblich davon ab, welche Rechenanlagen und -programme verfügbar sind. Ein Vergleich der verschiedenen Extraktionsmethoden zeigt, daß die Ergebnisse — die Matrix A = (α(1) der Faktorladungen — nur geringfügig differieren, wenn die gleiche Korrelationsmatrix R = (rik ) und die gleiche Anzahl extrahierter Faktoren unterstellt wird (ÜBERLA 1 9 6 8 , S. 1 5 2 ) .
6.2.2.1 Die Zentroidmethode
(Schwerpunktmethode)
Die Grundgleichungen der Zentroidmethode gehen auf B U R T ( 1 9 1 7 ) , THURSTONE ( 1 9 3 1 , 1 9 4 7 ) und HOLZINGER ( 1 9 4 6 ) zurück. Trotz gewisser Ungenauigkeiten hat die Zentroidmethode den Vorteil, daß sie schon mit Hilfe mechanischer Rechenmaschinen durchgeführt werden kann; sie war daher bis vor kurzem das häufigst angewandte Extraktionsverfahren. Die Darstellung dieser Methode ist u. a. ÜBERLA ( 1 9 6 8 ) , HARMAN ( 1 9 6 0 ) , HORST ( 1 9 6 5 ) oder HARDER ( 1 9 6 6 ) zu entnehmen. Die Zentroidmethode geht von der Überlegung aus, daß der erste zu extrahierende Faktor in die bestmögliche Beziehung zu den m Variablen gebracht werden soll. Geometrisch kann dieses Kriterium dadurch erfüllt werden, daß die erste Koordinatenachse eines /•-dimensionalen Raumes, dessen Nullpunkt bekannt ist, durch den Schwerpunkt der Punktwolke, die aus den m Punkten der m Variablen gebildet ist, gehen soll. Die Erfüllung dieses Kriteriums führt zu den numerischen Werten der Ladungen aller m Variablen durch den ersten Faktor, die sich zum Spaltenvektor (Zj zusammenfassen lassen: a
ll
a
2\
(23)
Α, =
; a
m\
Ausgehend vom Fundamentaltheorem, ist die Reproduktion der reduzierten Korrelationsmatrix Rh durch die Multiplikation der Faktorladungsmatrix Α = (α,·;) mit
6. Kapitel: Grundzüge der Faktorenanalyse
197
der Transponierten A' = (a¡¡) vorzunehmen, wobei die Faktorladungen der gemeinsamen Faktoren additiv zusammenhängen ( 11). Somit ist es statthaft, einen Teil der Einheitsvarianz, d. h. einen Teil der Korrelationsmatrix, bereits durch den ersten Faktor zu erklären, indem man dessen (Spalten-) Vektor mit der Transponierten (= Zeilenvektor) multipliziert. Auf diese Weise erhält man die Matrix R f , die als Elemente die durch den ersten Faktor erklärten Korrelationen enthält: (24)
R* =
aia{
Die noch nicht erklärten Korrelationen zwischen den m Variablen ergeben sich folglich aus (25)
Rl
= Rh -R*
= R„
-aia{.
Die Matrix R j der "Restkorrelationen" muß nun nach dem gleichen Prinzip, das zur Extraktion des ersten Faktors geführt hat, durch den zweiten Faktor bestmöglich erklärt werden. Das Ergebnis der zweiten Extraktionsphase wird analog zu (23) in Vektorform geschrieben und analog zu (24) mit der Transponierten (dem Zeilenvektor) multipliziert. Dann ist die neue Matrix der Restkorrelationen R2 gegeben durch (26)
R2
= Ry - R* =
R1-a2a2-
Wenn nach der Extraktion von r Faktoren die Matrix Rr der Restkorrelationen annähernd eine Nullmatrix wird, kann das Verfahren abgebrochen werden. Die nach jeder Extraktionsphase notwendige Ermittlung des neuen Schwerpunktes führt zum sogenannten Reflektionsproblem: Es müssen in der Restmatrix vorübergehende Vorzeichenänderungen vorgenommen werden, die sich auf das Ergebnis entscheidend auswirken können, ohne jedoch nach objektiven Regeln bestimmbar zu sein. Neben THURSTONE (1947) sei auf praktische Beispiele bei HOFSTÄTTER ( 1 9 6 2 ) , HASELOFF-HOFFMAN ( 1 9 6 5 ) , HARDER ( 1 9 6 6 ) , ÜBERLA ( 1 9 6 8 ) , HARMAN ( 1 9 6 0 ) , LIENERT ( 1 9 6 1 ) u n d PAWLIK ( 1 9 6 8 ) v e r w i e s e n .
6.2.2.2 Die
Hauptachsenmethode
Das zur Zeit meist angewandte Verfahren zur Lösung des Faktorenproblems für den Fall, daß elektronische Rechenanlagen zur Verfügung stehen, ist die Hauptachsenmethode. Die Hauptachsenmethode setzt bereits geschätzte Kommunalitäten voraus: Es gilt, die reduzierte Korrelationsmatrix Rh zu reproduzieren (ÜBERLA 1968, S. 93). Die Hauptachsenmethode geht auf PEARSON (1904) zurück, während die gen a u e F o r m u l i e r u n g des Prinzips HOTELLING ( 1 9 3 6 ) u n d KELLEY ( 1 9 4 0 ) zu verdan-
ken ist; die erste Anwendung auf elektronischer Anlage erfolgt durch WRIGHLEY UND NEUHAUS ( 1 9 5 5 ;
HARMAN 1 9 6 0 , S . 1 5 4 ) . N e b e n HORST ( 1 9 6 5 ) , HARMAN
(1960),
ANDERSON ( 1 9 5 8 ) , KENDALL ( 1 9 5 7 ) , ÜBERLA ( 1 9 6 8 ) , PAWLIK ( 1 9 6 8 ) u n d
HARDER
(1966) sei auf die sehr ausführliche Darstellung der Hauptachsenmethode in der D i s s e r t a t i o n von WÜLSTEN ( 1 9 6 0 ) hingewiesen.
Die Hauptachsenmethode ist eine mathematisch exakte Fassung des multiplen Faktorenmodells und des Reproduktionstheorems als Optimierungsproblem. Es wird gefordert, daß der erste Faktor für alle Variablen den größtmöglichen Varianzanteil
198
5. Band: Testen und Messen
ausschöpfen (SCHÄFFER
(27)
soll, der zweite F a k t o r den größtmöglichen Anteil der Restvarianz usw. 1969):
m 2 aj^ = max! t=l
oder allgemein für d e n / - t e n F a k t o r
m
(28)
Σ 4 i=ι
= max!
Als Nebenbedingung der Maximierung ist zu berücksichtigen, d a ß die Faktorladungen nicht nur die Einheitsvarianzen maximal ausschöpfen sollen, sondern auf die Reproduzierbarkeit der Korrelationsmatrix R mit den errechneten Elementen rik R ü c k s i c h t n e h m e n m ü s s e n (WÜLSTEN 1 9 6 0 , S. 2 5 ; ÜBERLA 1 9 6 8 , S. 9 8 f f . ) : r
(29)
rik
=
2 /=ι
a a
u ki·
Der Maximierungsvorgang unter den insgesamt
m(m-
1)
Nebenbedingungen ist
ein rein mathematisches Problem; er wird mit Hilfe der Lagrange-Multiplikatoren durchgeführt. Zur Bestimmung der Eigenwerte und Eigenvektoren, aus denen durch Normierung die gesuchten Faktorladungen a¡¡ errechnet werden, stehen neben der exakten Lösungsmethode ( Z U R M Ü H L 1 9 6 4 ; WILKINSON 1 9 6 5 ; PAWLIK 1 9 6 8 ; SAWARIS 1 9 6 7 ; WHITE UND BROWN 1 9 6 4 ) m e h r e r e A p r o x i m a t i o n s v e r f a h r e n z u r V e r f ü -
gung, u. a. die iterative Lösung von
und die Jacobi-Methode zeigt in Anlehnung an H A R M A N ( 1 9 6 0 ) , wie mit Hilfe nur mechanischer Rechenmaschinen die Hauptachsenlösung durchgeführt werden kann. HOTELLING ( 1 9 3 3 )
( T O D D 1 9 6 2 ; W I L F UND R A L S T O N 1 9 6 0 ) . Ü B E R L A ( 1 9 6 8 )
6.2.2.3 Die Bestimmung
der zweckmäßigsten
Faktorenzahl
Wie zur Lösung des K o m m u n a l i t ä t e n p r o b l e m s können auch für die Bestimmung der Anzahl der zu extrahierenden F a k t o r e n nur Empfehlungen gegeben werden, wobei die verschiedenen Vorschläge stark differieren. Auf die Interdependenz zwischen der Zahl der gemeinsamen F a k t o r e n und der Werte der Diagonalelemente ( K o m m u nalitäten) der Korrelationsmatrix Rh wurde bereits verwiesen. Berücksichtigt man lediglich zwei der klassischen E x t r a k t i o n s m e t h o d e n , die Zentroid- und die Hauptachsenlösung, und die Tatsache, d a ß die K o m m u n a l i t ä t e n direkt geschätzt oder aus der Kenntnis der Faktorenzahl abgeleitet werden k ö n n e n , ergeben sich bereits vier Lösungstechniken (Darstellung 6). Während bei den Techniken A und C zunächst die Kommunalitätenschätzung durchgeführt, die reduzierte Korrelationsmatrix Rh berechnet und die gemeinsamen F a k t o r e n nach einer der beiden Methoden ermittelt werden, um dann die Faktorenzahl festzulegen, beginnt man bei den Alternativen Β und D mit der Schätzung der Faktorenzahl und führt danach eine simultane Komm u n a l i t ä t e n - u n d F a k t o r b e s t i m m u n g durch (PAWLIK 1968, S. 129). Eines der möglichen Verfahren zur Ermittlung der Faktorenzahl neben der Ledermannschen Formel (21) geht vom Varianzanteil des /-ten F a k t o r s an der Einheits-
6. Kapitel: Grundzüge der Faktorenamlyse
199
Lösung des Kommunalitätenproblems
M e t h o d e der Faktorextraktion
Darstellung 6:
direkte K o m m u n a l i -
Schätzung des
tätenschätzung
kleinsten Ranges
Zentroid-
Α
Β
Hauptachsen-
C
D
L ö s u n g s m ö g l i c h k e i t e n d e s Multi-Faktor-Modells (in A n l e h n u n g an PAWLIK 1 9 6 8 ) .
varianz aus, den alle Untersuchungsmerkmale insgesamt aufzuweisen haben (GurrMAN 1954): m (30)
V,
Σ an ¿=1 m
Es werden so lange Faktoren extrahiert, bis die Summe (31)
Sy =
Γ Σ ν, 1=1
(vgl. (15))
90 % oder 95 % der totalen Merkmalsvarianz m ausmacht. Der subjektive Charakter des Verfahrens zeigt sich in der Wahl des limitierten Prozentwertes. Häufig wird diese Faustregel dahingehend modifiziert, daß der Prozentanteil jedes einzelnen Faktors an der Merkmalsvarianz untersucht wird: Der Faktor r + 1 wird nicht mehr extrahiert, wenn er weniger als 10 % (5 %, 1 %) der Gesamtvarianz m repräsentiert (ÜBERLA 1 9 6 8 , S .
124).
Sofern die Lösung des Kommunalitätenproblems der Bestimmung der Faktorenzahl vorangestellt wurde, kann man die Varianzanteile der gemeinsamen Faktoren auf die Kommunalitäten relativieren. Dabei finden sogenannte "Eigenwertdiagramme" (PAWLIK 1 9 6 8 , S. 1 2 5 ff.) als Entscheidungshilfen Anwendung. Ein anderer Komplex von Techniken setzt bei den Matrizen der Residualkorrelationen R¡ an (25) und (26). Diese Matrizen werden Signifikanztests unterworfen (HOTELLING 1 9 3 3 ;
BARTLETT 1 9 5 0 ,
1 9 5 1 ; B U R T 1 9 5 2 ; RIPPE 1 9 5 3 ; S O K A L
1959;
um festzustellen, ob sie überhaupt noch Elemente enthalten, die wesentlich von Null abweichen. LAWLEY 1 9 5 6 ) ,
Schließlich kann die Extraktion im Zusammenhang mit der Rotation und der Bestimmung der Faktorenwerte betrachtet werden. Es sollten nur so viele Faktoren extrahiert werden, wie später interpretiert werden können. Darüber hinaus sollten Faktoren, die man extrahiert hat, selbst dann stabil bleiben, wenn die Rotation mit einer abweichenden Faktorenzahl durchgeführt wird ( C A T T E L L 1966). Ist eine Schätzung der Faktorwerte (Matrix P) erforderlich, dürfen solche Faktoren, die zu ungenauen Schätzungen der "factor scorces" führen, nicht mehr extrahiert werden. Als weitere Verfahren seien erwähnt: Der Scree-Test von CATTELL ( 1 9 6 0 ; ÜBERLA 1 9 6 8 , S. 1 2 7 ) , der Test von HORN ( 1 9 6 5 ) , das Verfahren von M C N E M A R ( 1 9 4 2 ) und die Schätzung von COOMBS ( 1 9 4 1 ) . Wie in den übrigen Fällen, handelt es sich auch hier eher um Faustregeln als um fundierte Kriterien.
200
5. Band: Testen und Messen
6.3
Die inhaltliche Faktorenanalyse
6.3.1
Die Rotation des Faktorenmusters
Die Rotation der ermittelten Faktorladungen der Matrix A = (flu) stellt die Trennlinie zwischen deskriptiver und inhaltlicher Faktorenanalyse dar; eine Rotation wird immer dann notwendig sein, wenn man sachlich fundierte Erklärungen der gemeinsamen Faktoren vornehmen will (SCHÄFFER 1969). Eine Interpretation des Faktorenmusters ohne nachfolgende Rotation scheitert aus folgenden Gründen: a) Die Faktorladungen hängen von den Zufälligkeiten der jeweiligen Stichprobe ab ; b) die Einbeziehung neuer Merkmale übt einen maßgeblichen Einfluß auf die Faktorladungen aus; c) die Extraktionsmethode, für die man sich entschieden hat, führt zu einer willkürlichen Varianzaufteilung, da es zunächst unendlich viele Lösungen gibt, die dem Fundamentaltheorem genügen und da die jeweils eingeführten Restriktionen das Ergebnis in unterschiedliche Richtungen verzerren können.
6.3.1.1 Algebraische Formulierung
des
Rotationsproblems
Die Rotation der Matrix A = (a tl ) in die Matrix V = (u¡7) verändert zwar die Varianzbeträge des /-ten Faktors m
(32)
£ i=1
m
Φ £ vi, ί=1
wohingegen die Kommunalitäten h j von der Rotation nicht berührt werden. Zu den orthogonalen Faktormustern Rh = AA ' existieren nämlich unendlich viele äquivalente Matrizen, die dem Gleichungssystem ebenfalls genügen. Die rotierte Lösung kann mit Hilfe der Transformationsmatrix Τ aus der Matrix A gewonnen werden: (33)
V =
AT
Formal betrachtet, besteht das Problem der Rotation in der Bestimmung der Matrix T, wobei A bekannt ist und über V gewisse Zielvorstellungen vorliegen (ÜBERLA 1968, S. 164 ff.). Diese Zielvorstellungen werden in Nebenbedingungen zum Ausdruck gebracht, wobei nur die genaue Formulierung der Nebenbedingungen eine eindeutige Lösung der Rotation verbürgen kann. Die verschiedenen Rotationsansätze sind nach den jeweils geforderten Nebenbedingungen zu klassifizieren. Die Festlegung der Kriterien, nach denen die Rotation erfolgen soll, stellt die wesentlichste Problematik der Verwandlung von A = (a¡¡) in V = (ι>,·;) dar; diese Kriterien können je nach den verfügbaren Informationen außerhalb oder innerhalb der Korrelationsmatrix definiert werden. Zu den wichtigsten Annahmen gehört hierbei die Einschränkung auf orthogonale (rechtwinklige, unabhängige) Faktoren bzw. die Zulassung schiefwinkliger (korrelierende, oblique) Faktoren. Darstellung 7 zeigt schematisch die Rotation im Spezialfall von zwei orthogonalen Faktoren und von fünf Variablen.
6. Kapitel: Grundzüge der Faktorenanalyse
201
D a r s t e l l u n g 7: Orthogonale Rotation für den Fall zweier gemeinsamen Faktoren.
6 . 3 . 1 . 2 Rotationsverfahren
zur faktoriellen
Einfachstruktur
In d e n m e i s t e n F a k t o r e n a n a l y s e n wird die B e s t i m m u n g der T r a n s f o r m a t i o n s m a t r i x Τ ( 3 3 ) s o v o r g e n o m m e n , d a ß die rotierte F a k t o r m a t r i x der T h u r s t o n e s c h e n F o r d e rung n a c h Einfachstruktur ( p a r s i m o n y ) genügt (HENRYSSON 1 9 6 0 ) . D a s Kriterium ist erfüllt, w e n n f o l g e n d e fünf B e d i n g u n g e n n i c h t verletzt w e r d e n ( T HURSTONE 1 9 4 7 , S. 3 3 5 ) : (a) Jede Zeile der rotierten Matrix V muß mindestens ein Nullelement aufweisen, d. h. keine der Variablen darf Ladungen von allen r Faktoren aufweisen. (b) Jede Spalte der rotierten Matrix V muß mindestens r Nullelemente besitzen, d. h. ein Faktor soll nur zur Erklärung von (m - r) Variablen herangezogen werden, wobei die Null-Ladungen von Faktor zu Faktor eine andere Kombination ergeben sollen. (c) Für jeweils zwei beliebige Faktoren müssen mehrere Variablen existieren, die hinsichtlich des einen Faktors hoch, in bezug auf den anderen Faktor null-geladen sind. (d) Für jeweils zwei beliebige Faktoren sollen - sofern die Zahl der extrahierten Faktoren größer als 5 ist - mehrere Variablen existieren, die von beiden Faktoren nicht nennenswert geladen werden. (e) Für jeweils zwei beliebige Faktoren soll es nur eine kleine Anzahl von Variablen geben, die von beiden Faktoren hoch geladen werden. PAWLIK ( 1 9 6 8 , S. 181 f . ) verweist in d i e s e m Z u s a m m e n h a n g auf die T a t s a c h e , d a ß die B e d i n g u n g e n ( c ) , ( d ) und ( e ) d e m O r t h o g o n a l i t ä t s p o s t u l a t in e t w a g l e i c h g e s e t z t werden können.
Eine R o t a t i o n n a c h d e m Kriterium der E i n f a c h s t r u k t u r ist die V o r b e d i n g u n g einer e i n f a c h e n inhaltlichen I n t e r p r e t a t i o n der g e w o n n e n e n F a k t o r e n ; darüber h i n a u s er-
202
5. Band: Testen und Messen
füllt eine derartige Rotation weitere Bedingungen, die Thurstone unter dem Begriff "Invarianz" subsumiert hat: Die extrahierten Faktoren müssen danach nicht nur für die jeweilige Untersuchung, sondern generell zur Erklärung der Variablen gültig sein, und zwar auch für den Fall, daß neue Variablen in die Untersuchung einbezogen werden (THURSTONE 1947, S. 360 ff.; HENRYSSON 1960, S. 46 ff.)· Vor allem bei nicht sehr umfangreichen Stichproben weist bereits die Korrelationsmatrix R = (rik ) einen unvermeidbaren Stichprobenfehler auf, der sich auch in der rotierten Faktormatrix V = (υ,Ί) zwangsläufig niederschlägt. Dies erschwert die Beantwortung der Frage, wie groß eine Faktorladung nach der Rotation sein muß, um noch als signifikant betrachtet werden zu dürfen. Da ein allseits befriedigendes Prüfverfahren noch fehlt, ist man auf Faustregeln angewiesen. So wird u. a. vorgeschlagen ( C A T T E L L 1 9 5 2 ) , alle Faktorladungen (34)
I υ,·,Ι < 0,1
als zufällig (nicht-signifikant) anzusehen und sie wie Null-Ladungen zu behandeln. Alle anderen Ladungen gelten dagegen als substantielle Erklärungen der Variablen. Problematisch ist ferner, daß die zur Rotation notwendige Transformationsmatrix Τ nicht direkt, sondern nur iterativ abgeleitet werden kann. Die verschiedenen visuellen und analytischen Iterationsverfahren machen sich den Tatbestand zunutze, daß das Produkt zweier orthogonalen Matrizen (33) wiederum eine orthogonale Matrix ergibt. Unter den visuellen Rotationsmethoden ist die sukzessive zweidimensionale Rotation (THURSTONE 1 9 4 7 ; CATTELL UND FOSTER 1 9 6 3 ) die wichtigste. Ein anschauliches Beispiel für die iterative Rotation zur Einfachstruktur in jeweils einer Ebene ist bei ÜBER LA ( 1 9 6 8 , S . 1 8 8 ff.) zu finden. Allerdings setzt diese Methode trotz ihrer Anschaulichkeit und der relativ einfachen Rechentechnik Rotationserfahrung voraus. Weitere visuelle Verfahren findet man bei THURSTONE ( 1 9 4 7 ) , ZIMMERMANN ( 1 9 4 6 ) , SUTHERLAND ( 1 9 5 1 ) u n d
GOGUELIN
(1954).
Die analytischen Methoden zeichnen sich dadurch aus, daß sie an Stelle der zum Teil subjektiven Kriterien der visuellen Verfahren mathematische Bedingungen setzen. Die Ausgangsforderung nach der Einfachstruktur kann durch mathemtische Formulierungen angenähert werden. Der Vorteil der Objektivität wird allerdings dadurch erkauft, daß die Maximierungs- und Minimierungsvorschriften mit der Konzeption der Einfachstruktur nicht vollkommen deckungsgleich sind. Da die analytischen Rotationen deshalb meist eine ungünstigere Einfachstruktur liefern als die visuell-graphischen, wird der Weg zur Einfachstruktur zunächst mit Hilfe eines analytischen Iterationsprogramms zurückgelegt, dessen Ergebnis dann — ζ. B. mittels der sukzessiven zweidimensionalen Rotation — verbessert wird ( B A E R 1963; COMREY 1959; EYMAN U.A. 1962; GOCKA 1959; KAISER 1960c; MARKS U.A. 1960). Neben dem Quartimax-Kriterium,
das von sowie von
CARROLL ( 1 9 5 3 ) , SAUNDERS ( 1 9 5 3 ) ,
entwickelt wurde, ist das Kaisersche Varimax-Kriterium ( 1 9 5 8 , 1 9 5 9 B ) das wichtigste analytische Verfahren der Faktorrotation. Während das Quartimax-Kriterium sich auf die vereinfachte Beschreibung der Variablen, d. h. der Zeilen der Matrix, konzentriert und auf die Betrachtung der Faktoren (Spalten) weitgehend verzichtet, setzt sich Kaiser mit der Einfachheit der Faktoren auseinander: Er fordert, daß die Varianz der quadrierten
WRIGHLEY UND NEUHAUS ( 1 9 5 3 )
FERGUSON ( 1 9 5 4 )
6. Kapitel: Grundzüge der Faktorenamlyse
203
Ladungen je Faktor möglichst groß werden soll, so d a ß sich für jeden Faktor nur wenige Variablen mit hohen Ladungen ergeben (SCHÄFFER 1969). Definiert man die Varianz der quadrierten Faktorladungen für den /-ten Faktor als (35) dann läßt sich für die Varianz der quadrierten Faktorladungen aller r Faktoren das Maximierungspostulat schreiben als (36)
^
s{ = Max!
ÜBERLA (1968, S. 210) verweist auf einen Mangel der Rotation nach (36): Faktoren mit hohen Kommunalitäten werden über Gebühr berücksichtigt. Eine Art Standardisierung kann jedoch diesen Mangel ausschalten, indem die Faktorladungen auf die jeweilige Kommunalität relativiert werden. Dementsprechend ist in (35) nach KAISER (1958) v i durch (37)
V iΊ w..2 - — " hf
zu ersetzen.
Alle Lösungen, die auf dem Kriterium der Einfachstruktur beruhen, sind insofern mangelhaft, als sie nur dann zu guten Ergebnissen führen, wenn eine genügend große Anzahl von Variablen bei sehr vielen Merkmalsträgern untersucht wurde. Ferner bleibt die Frage unbeantwortet, ob es nicht stets mehrere rotierte Matrizen gibt, die alle dem Kriterium der Einfachstruktur genügen. 6.3.1.3 Die Rotation
korrelierter
Faktoren
Alle bisherigen Überlegungen gelten für orthogonale Faktoren. Da nicht einzusehen ist, warum die hinter den Variablen stehenden Einflußgrößen stets statistisch unabhängig voneinander sein sollen, m u ß die Orthogonalitätsprämisse eliminiert werden. In diesem Falle kann man mit Hilfe des Einfachstrukturkriteriums schiefwinkelige rotierte Faktorlösungen erarbeiten. Bei nichtorthogonalen Faktoren sind die Faktorladungen V¡¡ zwar noch identisch mit den Regressionskoeffizienten b¡h nicht jedoch identisch mit den Korrelationskoeffizienten r¡¡ (PAWLIK 1968, S. 212 ff.). Daraus folgt, d a ß die Faktorladungen nicht mehr auf das Intervall (38)
-1
1). Somit können die Beziehungen zwischen den Variablen und den Faktoren höherer Ordnung nur durch umständliche Berechnungen aufgezeigt w e r d e n (THURSTONE
1947).
Einige Autoren bezeichnen die Faktorenanalyse höherer Ordnung nur dann als hierarchisch, wenn die Extraktion von Faktoren höherer Ordnung so weit durchgeführt wird, bis nur ein Faktor übrig bleibt. Ausgehend von der höchsten Ordnung, deren Struktur notwendigerweise orthogonal sein muß, werden hierbei Transformationen durchgeführt, die auch auf den niedrigeren Ebenen zu unkorrelierten Faktoren führen. Man spricht in diesem Fall von hierarchischen orthogonalen Lösungen (GUILFORD 1 9 5 9 ; EYSENCK 1 9 4 7 ; SCHMID UND LEIMAN 1 9 5 7 ) . M i t E r f o l g k o n n t e n h i e r a r -
chische Modelle dieser Art nur bei psychologischen Untersuchungen angewandt w e r d e n (CATTELL 1 9 5 9 ; CATTELL UND SCHEIER 1 9 6 1 ) .
6.3.3
Die Bestimmung der Faktorenwerte
1. Das Grundproblem. Ebenso wie für jeden Merkmalsträger /'(/' = 1 , 2 , . . . , n) ein Meßwert y¡j bezüglich der Variablen i = 1, 2, ..., m bestimmt wurde, kann allen Merkmalsträgern der errechnete Wert ρί;· zugeordnet werden. Während die Faktorladungen au (bzw. nach der Rotation u (/ ) Merkmalsparameter sind, stellen die Faktorenwerte py (factor scores) die Merkmalsträgerparameter des faktorenanalytischen Modells dar. Ausgehend von der Beziehung (4) bzw. (16) bietet es sich an, eine vereinfachte Beschreibung der Merkmalsträger als eine linear-additive Kombination der Faktorenwerte anzugeben. ÜBERLA (1968) führt aus, daß in der Praxis zumeist die Mühe ge-
6. Kapitel: Grundzüge der Faktorenanalyse
207
scheut wird, die Faktorenwerte auszurechnen. Dieses erscheint umso erstaunlicher, wenn man bedenkt, daß sich mit Hilfe der Dwyer-Methode (DWYER 1937; PAWLIK 1968, S. 278) aus der Ermittlung der Faktorenwerte Wirtschaftlichkeitsvorteile für spätere Untersuchungen ableiten lassen. Werden nämlich in der Ausgangsanalyse von m Variablen die Faktoren extrahiert und die Faktorwerte bestimmt, so genügt es, in weiteren Untersuchungen nur noch (m — χ ) hoch geladene Variablen in die Untersuchung einzubeziehen, denn aus den Faktorenwerten für die zweite Untersuchung können auch die χ Variablen geschätz werden, die nicht beobachtet wurden. Ausgehend von der Beziehung (3) ist das Gleichungssystem in Abhängigkeit davon zu lösen, aufweiche Weise die Faktorextraktion erfolgte. Für die Hauptkomponentenmethode kann eine exakte Lösung angegeben werden (ÜBERLA 1968, S. 237 ff.), da die Einheitsvarianz voll ausgeschöpft wird. Für Modelle der multiplen Faktorenanalyse ist man dagegen auf Schätzungen angewiesen, da die r gemeinsamen Faktoren nur einen bestimmten Varianzanteil erklären. Die Matrix R in (17) enthält (r + tri) Faktoren bei nur m Variablen, d. h. sie ist nicht quadratisch und daher auch nicht invertierbar. Die Auflösung von (3) verlangt jedoch nach der Inversen der Matrix A. Eine mögliche Methode zur Schätzung der r inhaltlich interpretierbaren Faktoren bietet die multiple Regressionsrechnung an. 2. Der multiple Regressionsansatz. Die multiple Regressionsrechnung, bei der mehrere Variablen zur Schätzung anderer Variablen herangezogen werden, kann für die Bestimmung der Matrix P* = ( p f j ) , die als Schätzmatrix für die Matrix der Faktorenwerte Ρ = (Pij) dient, zur Anwendung kommen (THURSTONE 1947). Als abhängige Variablen (Zielgrößen, Regressanden) bieten sich die r gemeinsamen Faktoren an, wogegen die m beobachteten Variablen die Rolle der unabhängigen Variablen (Ausgangsgrößen. Regressoren) übernehmen. Die Matrix P* der geschätzten Faktorenwerte ergibt sich aus der Multiplikation der standardisierten Ausgangswerte Ζ = (z,y) mit einer Gewichtungsmatrix Β = (b¡¡), die die multiplen Regressionskoeffizienten der extrahierten Faktoren bezüglich der m Variablen enthält: (44)
Ρ* = Β Ζ
Nach der Methode der kleinsten Quadrate müssen die Elemente der Matrix Β so beschaffen sein, daß die Summe der quadrierten Schätzfehler ein Minimum wird: (45)
Σ Σ
Liegt eine bestimmte Gesamtexpansionsmenge t vor, dann verringern sich die Möglichkeiten auf: (6.3) In analoger Weise können, wie hier für den "first order subspace", dann auch für die anderen Untermengen solche Überlegungen angestellt werden und die verschiedenen möglichen Gruppenstrukturen errechnet werden. Die Wahrscheinlichkeit für das Auftreten einer bestimmten Struktur des "first order subspace" wird angegeben als die Anzahl der bei einer gegebenen Expansion möglichen Strukturen zu der Anzahl der gesamt möglichen Strukturen:
Bei KATZ UND POWELL (1954) wird auch die Anzahl der Isolierten und die Formel für das Auftreten von Isolierten als Wahrscheinlichkeit berechnet. Die unterschiedlichen "sample spaces" sind gleichbedeutend mit der Einschränkung, die durch die Elementcharakteristika bezeichnet sind.
246
5. Band: Testen und Messen
Von DAVIS ( 1 9 5 3 ) sind auch die Anzahlen von symmetrischen, reflexiven und asymmetrischen Beziehungen in Gruppen unterschiedlicher Größe bestimmt worden. KATZ ( 1 9 5 2 ) bestimmt die Wahrscheinlichkeitsverteilung der Anzahl der Isolierten in einer Gruppe unter Zuhilfenahme einer Methode von Frechet. Es wird gezeigt, daß die binomiale Verteilung die ersten beiden Momente (Mittelwert und Varianz) der exakten Verteilung gut approximiert. KATZ UND POWELL ( 1 9 5 5 ) geben auch Formeln an, um die Tendenz der Reziprozierung von Wahlen zu bestimmen. Ein Anzahlproblem aus einer anderen Sicht wird von MACKENZIE ( 1 9 6 7 ) behandelt, der die Dekomposition von bekannten Netzwerken der experimentellen Gruppenforschung analysiert. Er zählt die Möglichkeiten der Zerlegung von größeren Netzwerken in kleinere Einheiten auf.
7.4
Réhabilitât und Validität
Gemäß den unterschiedlichen Konzeptionen soziometrischer Daten von einer mehr test theoretischen und einer mehr strukturtheoretischen Orientierung her, gibt es die dazugehörenden unterschiedlichen Auffassungen über die Réhabilitât soziometrischer Daten. Hinsichtlich der Validität stellt sich das Problem des Verhältnisses zwischen augenscheinlicher Validität und empirischer Validität. Testtheoretiker in der Soziometrie sind im Zusammenhang mit der Reliabilität daran interessiert, wie zuverlässig sie den der soziometrischen Variable entsprechenden "true score", den wahren Status, die wahre Struktur, die wahren Cliquen schätzen können. Strukturtheoretiker sind ebenfalls an der Zuverlässigkeit der Daten interessiert, doch da sie keine habituelle, individuelle oder kollektive Merkmalsdimension annehmen, geht es ihnen eher um die momentane instrumentelle Zuverlässigkeit der beobachteten Daten, und nicht selten wird alle Variabilität allein durch Variabilität in den aktuellen interpersonellen Beziehungen erläutert. Bei einigen soziometrischen Kriterien und einigen Fragen ist der eine Ansatz, bei anderen Fragen und Kriterien der andere Ansatz angepaßt. Fragt man etwa nach Beurteilungen der anderen Gruppenmitglieder hinsichtlich einer Eigenschaft wie etwa "Jähzorn", würde man die Daten testtheoretisch konzipieren und Reliabilitäten in der gewohnten Weise durch parallele Kriterien, Reteste oder interne Konsistenz bestimmen. Bei soziometrischen Wahlfragen im Sinne MORENOS (1934), die auch praktische Konsequenzen haben, wäre die Annahme zuverlässiger Erhebung sinnvoll zu machen. Veränderungen nach einiger Zeit könnten dann als Veränderungen der Beziehungen in der Gruppe interpretiert werden. Es ist noch nicht entscheidbar, in welchem Ausmaß die beobachtbare Instabilität der soziometrischen Daten zu Lasten des Instrumentes der Datenerhebung oder zu Lasten der Veränderung der interpersonellen Beziehungen geht (vgl. LINDZEY UND BYRNE 1968). Die Erklärung der Veränderungen soziometrischer Daten ist davon abhängig, wie es gelingt, das Entstehen interpersoneller Vorlieben und Abneigungen überhaupt zu erklären. Es ist jedoch zu diesem Problem eine Untersuchung von F J E L D (1965) zu nennen, der zu dem Schluß kommt, daß der Wahlwechsel als solcher eine sozial erstrebenswerte Erfahrung darstellt, wie es etwa erstrebenswert ist, seine Kleider der Mode gemäß zu verändern.
7. Kapitel:
Soziometrische
Verfahren
247
wenden zur Erklärung der Veränderung soziometrischer Daten das Markov-Modell an, welches die Abhängigkeit der aktuellen soziometrischen Wahlen von zu einem früheren Zeitpunkt erhobenen Wahlen abbilden kann.
KATZ UND PROCTOR ( 1 9 5 9 )
Eine "dynamische Soziometrie" fordert BASTIN ( 1 9 6 7 ) . Hierbei sollen Längsschnittuntersuchungen soziometrischer Daten mit gleichzeitiger Kontrolle anderer Variablen verbunden werden, was relativ selten geschieht. Über individuelle Unterschiede in der Stabilität berichten DAVIDS UND PARENTI (1958), welche feststellen konnten, daß emotional gestörte Kinder weniger stabile Wahlen abgaben als gesunde Kinder, oder auch KIPNIS ( 1 9 6 1 ), die Instabilitäten bei solchen feststellen konnte, die ihre besten Freunde schlechter als sich selbst beschrieben. Die soziometrische Variable, für die im wesentlichen die "Reliabilität" bestimmt wird, ist die Zahl der erhaltenen Wahlen oder der soziometrische Status. Reliabilitäten der abgegebenen Wahlen, Rejektionen oder Cliquen, Paare werden seltener angegeben. Hierdurch ist auch das statistische Verfahren bezeichnet: häufig Rangkorrelationen, seltener Produkt-Moment-Korrelationen oder prozentuale Angaben über konstant gebliebene Daten. HARPER ( 1 9 6 8 ) schätzt die Reliabilität varianzanalytisch nach dem bifaktoriellen "random model", welches auf HoYT (1941) zurückgeht. Die Gruppenmitglieder werden hier einmal als Beurteiler und zum anderen als Beurteilte aufgefaßt. Es ist praktisch eine interne Konsistenzschätzung für erhaltene soziometrische Wahlen zu einem Kriterium. Hohe interne Konsistenz liegt vor, wenn sich die Gruppenmitglieder hinsichtlich ihrer abgegebenen Beurteilungen über andere Gruppenmitglieder "einig" sind. Die "interjudge consistency" ( F R E N C H UND MICHAEL 1 9 6 6 ) , auch Auswerterreliabilität oder Objektivität genannt, wird bestimmt, indem man die Analysedaten verschiedener Auswerter innerhalb einer bestimmten Auswertungsmethode miteinander vergleicht. LOOMIS ( 1 9 4 8 ) berichtet von hoher Auswerterreliabilität der soziometrischen Verfahren. Es sei jedoch angemerkt, daß sich bei der Auswertung der graphischen Darstellungen große Unterschiede in Darstellung, Interpretation und Analyse der Cliquen ergeben. Übersichten über die Konsistenz soziometrischer Daten liefern LINDZEY UND BORGATTA ( 1 9 5 4 ) u n d
LINDZEY UND BYRNE ( 1 9 6 8 ) . MOUTON, BLAKE
fassen in einer ausführlichen Übersicht rund gen zur Reliabilität zusammen. UND FRUCHTER ( 1 9 6 0 )
50
Untersuchun-
Nach den in diesen Zusammenfassungen referierten Untersuchungen nimmt die Retestreliabilität des soziometrischen Status mit der Größe des Retestzwischenraumes ab: Nach einer Woche werden im Mittel Korrelationen von .90, nach einer Woche bis etwa einem Monat Zwischenraum Korrelationen zwischen .45 und .90, nach längeren Zwischenräumen werden Korrelationen um den Wert .60 mit erheblicher Streuung berichtet. Wichtige Stabilitätsvariablen sind etwa Alter der Gruppenmitglieder, Dauer der Bekanntschaft und Persönlichkeitseigenschaften. Relevant für strukturelle Analysen soziometrischer Daten ist der mehrfach berichtete Befund, daß die einzelne soziometrische Wahl relativ instabil ist, wenngleich die Anzahl erhaltener Wahlen (Status) je Individuum relativ konstant bleibt (z. B. DOLLASE 1972). Das legt die Vermutung nahe, daß soziometrische Erhebungsverfahren meist mehr oder minder konstante Persönlichkeitszüge erfassen und weniger die mehr strukturellen Aspekte einer aktuellen Gruppensituation. Nun braucht diese Tatsache
248
5. Band: Testen und Messen
nicht weiter zu beunruhigen, wenn gewährleistet ist, daß in der Erhebung sorgfältig nach den Kriterien einer " S t r u k t u r " geforscht wird. Gelegentlich läßt sich die Stabilität der Struktur durch strukturelle Zusammenfassungen der Wahlen oder Beurteilungen (z. B . nach schaltalgebraischen Verknüpfungsoperationen, vgl. D O L L A S E 1 9 7 4 ) mehrerer Kriterien (z. B. eine 1 wird notiert, wenn A den Β gut leiden kann, mit ihm in Urlaub fahren möchte, mit ihm schon mal in Urlaub gefahren ist und ihn länger als drei Jahre kennt — wenn eine Bedingung nicht erfüllt ist, wird eine 0 notiert) oder durch Erhebung und entsprechende Berücksichtigung von Wahrnehmungen erhöhen, so daß auch differenzierte strukturelle Analysen, die ja ζ. T. im Ergebnis stark von der Existenz bzw. Nichtexistenz einzelner Wahlen abhängen, sinnvoll sind. Soziometrische Daten können augenscheinliche Validität (Gültigkeit) für sich beanspruchen (vgl. L I N D Z E Y UND B O R G A T T A 1 9 5 4 ) , sofern die Interpretation sich genügend nah an die operative Gewinnung der Daten hält (ζ. B. bei der Frage "Neben wem möchtest Du sitzen?"). Sollen die Daten zum Schluß auf Verursachungsdimensionen herangezogen werden, ist eine empirische Validierung (oder Konstruktvalidierung) unerläßlich. Soziometrische Forschung wird unter zwei Fragen, die auf die empirische Validität soziometrischer Daten im weitesten Sinne Bezug nehmen, vorangetrieb e n (NEHNEVAJSA
1960):
1. "What are the sociometric configurations predictive of? " oder auch als Vorhersagefragestellung zu bezeichnen. Die soziometrischen Variablen sind die "antecedents" (unabhängige Variablen) anderer Variablen. 2. "What variables predict the sociometric configurations?" oder auch als Entstehungsfragestellung zu bezeichnen. Die soziometrischen Variablen sind die "consequents" (abhängige Variablen) anderer Variablen. Eine weitere Fragestellung ist aus der ersten und zweiten zugleich abzuleiten, nämlich die, welche nach den Kovariaten soziometrischer Variablen fragt (Korrelationsfragestellung). Diese Art der Fragestellung ist in der Soziometrie häufig. Soziometrische Untersuchungen können nach verschiedenen Gesichtspunkten eingeteilt werden, ζ. B.: 1. Art der Fragestellung 2. Art der nicht-soziometrischen Variablen (demographische, Persönlichkeits-, Intelligenz-, Leistungs- und soziale Variablen etc.) 3. Art der soziometrischen Variablen (Status, Struktur, Indizes etc.) 4. Art der Messung der nicht-soziometrischen Variablen (Test, Fragebogen, Beobachtung etc.) 5. Art der Gruppen und Gruppenmitglieder (Schulklassen, Arbeitsteams, Fußballmannschaft etc.). Üblich ist eine Einteilung nach den nicht-soziometrischen Variablen (vgl. L I N D Z E Y UND B O R G A T T A 1 9 5 4 ) . Im Rahmen dieser Übersicht kann keine Referierung der Ergebnisse der soziometrischen Forschung gegeben werden, die einige tausend Veröffentlichungen umfaßt. Eine erschöpfende Übersicht existiert noch nicht, doch sei dem Leser die Lektüre von G R O N L U N D ( 1 9 5 9 ) , E V A N S ( 1 9 6 2 ) , L I N D Z E Y UND B Y R N E ( 1 9 6 8 ) oder H Ö H N UND S E I D E L ( 1 9 6 9 ) empfohlen.
7. Kapitel: Soziometrische
Verfahren
249
Literaturverzeichnis graph theoretic definition of a sociometric clique, in: Journal of Mathematical Sociology 3, 1973, S. 113-126.
ALBA, R . D., A
N. C., A method for processing sociometric data, in: Sociometry 26, 1963, S. 268-269.
ALEXANDER,
C. HIGGINS, Note on a Univac program for contigency analysis in the large scale sociogram, in: Sociometry 26, 1963, S. 128.
A M E S , R . G . UND A .
, P. G., The social interrelations of strangers and acquaintances, in : Sociometry 5, 1942, S. 169-179.
BARKER
J. Α., Graph theory and social networks: A technical comment on connectedness and connectivity, in: Sociology 3, 1969, S. 215-232.
BARNES,
Eine Weiterentwicklung des Soziogramms aufgrund taxometrischer Konzepte, Manuskript, vorgetragen auf der 16. Tagung der exp. arbeitenden Psychologen, Gießen 1974.
BARTRAM, M. UND Β . ROLLETT,
Faktoren der Beliebtheit und Tüchtigkeit in soziometrischen Strukturen. Eine Untersuchung an Schulklassen der 12. Schulstufe, in: Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie 1,1969, S. 223-240.
BARTUSSEK, D . UND G . MIKULA,
BASTIN,
G., Die soziometrischen Methoden, Bern 1967.
A mathematical model for group structure, in: Applied anthropology 7, 1948, S. 1 6 - 3 0 .
BAVELAS, Α . ,
Communication patterns in task oriented groups, in: Journal of the Acoustical Society of America 57, 1950, S. 271 -282.
BAVELAS, Α . ,
A. E., An inter battery factor analytic approach to clique analysis, in: Sociometry 29, 1966, S. 135-145.
BEATON,
S. (Hrsg.), Vom Gemeinschaftsleben der Jugend, in: Quellenschriften zur seelischen Entwicklung, Bd. II, Leipzig/Wien/Zürich 1922.
BERNFELD,
C. O . UND E. G. BRUNDAGE, A method for analyzing the sociomatrix, in: Sociometry 13, 1950, S. 141-145.
BEUM,
Companion choice behavior in the kindergarten, in: Child Development 25, 1954, S. 45-50.
BIEHLER, R . F . ,
BJERSTEDT, Α . ,
Interpretations of sociometric choice patterns, Lund/Kopenhagen
1956. Avoiding distortions in sociometric choices, in: International Journal of Sociometry and Sociatry 5, 1968, S. 16-21.
BLUMBERG, H . H . UND C . B . D E S O T O ,
synthesis of time sampling and sociometric testing, in: Sociometry 15, 1952, S. 263-271.
BOCK, R . D . , A
S. Ζ . H U S A I N , An adaptation of Holzingers B-coefficient for the analysis of sociometric data, in: Sociometry 13, 1950, S. 146-153.
BOCK, R . D . UND
S. Ζ . H U S A I N , Factors of the tele: a preliminary report, in: Sociometry 15, 1952, S. 206-219.
B O C K , R . D . UND
250
5. Band: Testen und Messen
BORGATTA, E. F., A diagnostic n o t e o n t h e construction of sociograms and action diagrams, in: G r o u p Psychotherapy 3, 1951, S. 3 0 0 - 3 0 8 . BORGATTA, E. F. UND W. STOLZ, A n o t e o n a c o m p u t e r program f o r rearrangement of matrices, in: Sociometry 26, 1963, S. 3 9 1 - 3 9 2 . BOYLE, R. P., Algebraic systems f o r normal and hierarchical sociograms, in: Sociometry 32, 1969, S. 9 9 - 1 1 9 . BRONFENBRENNER, U., A constant f r a m e of reference f o r sociometric research, in: Sociometry 6, 1943, S. 3 6 3 - 3 9 7 . BURNS, E., Reliability and transitivity of pair-comparison sociometric responses of retarded and nonretarded subjects, in: American Journal of Mental Deficiency 78, 1974, S. 4 8 2 - 4 8 5 . BUNGARD, W UND H. E. LÜCK, Forschungsartefakte und nicht-reaktive Meßverfahren, Stuttgart 1974. BYRD, E., A study of validity and constancy of choice in a sociometric test, in: Sociometry 14, 1951, S. 1 7 5 - 1 8 1 . CAMPBELL, D. T., A rationale f o r weighting first, second and third sociometric choices, in: Sociometry 17, 1954, S. 2 4 2 - 2 4 3 . CAPPEL, W., Das Kind in der Schulklasse, 4. Aufl. Weinheim/Berlin/Basel 1970, zuerst: 1963. CARLSON, E. R., Clique structure and m e m b e r satisfaction in groups, in: Sociometry 23, 1960, S. 3 2 7 - 3 3 7 . CHABOT, J., A simplified example of the use of m a t r i x multiplication f o r t h e analysis of sociometric data, in: Sociometry 13, 1950, S. 131-140. CLARK, R. A. UND C. MCGUIRE, Sociographic analysis of sociometric valuations, in: Child Development 23, 1952, S. 129-140. COCKRIEL, I. W., Sociometric status scores: A comparision of Jamrich values with conventional scales, in: Journal of Educational Measurement 9, 1972, S. 7 1 - 7 3 . COLEMAN, J. S. UND D. MACRAE, Electronic processing of sociometric data for groups u p to 1000 in size, in: American Sociological Review 25, 1960, S. 7 2 2 - 7 2 7 . COPILOWISH, I. M., Matrix development of t h e calculus of relations, in: Journal of symbolic Logic 13, 1948, S. 193-203. CRISWELL, J. H., Sociometric m e t h o d s of measuring group preferences, in: Sociometry 6, 1943, S. 3 9 8 - 4 0 8 . CRISWELL, J. H., F o u n d a t i o n s of sociometric measurement, in: Sociometry 9, 1946, S. 7 - 1 3 . CRISWELL, J. H., T h e measurement of group integration, in: Sociometry 10, 1947, S. 2 5 9 - 2 6 7 . CRISWELL, J. H., Notes on the constant f r a m e of reference problem, in: Sociometry 13, 1950, S. 9 3 - 1 0 7 . CROFT , I. J. UND T. G. GRYGIER, Social relationships of truants and juvenile delinquents, in: H u m a n Relations 9, 1956, S. 4 3 9 - 4 6 6 .
7. Kapitel: Soziometrische Verfahren
251
, D., An experimental study of the effects of negative sociometric choices on interpersonal relationships in grade five students, in: Dissertation Abstracts 27, 1966, S. 668.
CROSS
CUBE,
F.
UND
R.
GUNZENHÄUSER,
Über die Entropie von Gruppen, Quickborn 1963.
A. UND A. H . PARENTI, Time orientation and interpersonal relations of emotionally disturbed and normal children, in: Journal of abnormal and Social Psychology 57, 1958, S. 299-305.
DAVIDS,
The preliminary analysis of emergent social structure in groups, in: Psychometrika 28, 1963, S. 189-198.
DAVIS, J . H .
Statistical analysis of pair relationships. Symmetry, subjective consistency and reciprocity, in: Sociometry 31, 1968, S. 102-119.
DAVIS, J . ,
L., The number of structures of finite relations, in: Proceedings of the American mathematical society 4, 1953, S. 486-495.
DAVIS, R .
υ. Α . , Syracuse-Amsterdam-Groningen sociometrische Schaal, keine Jahresangabe, Bezug über Swets und Zeitlinger, Amsterdam, Keizersgracht 487.
DEFARES, P. Β.
Erkundung des Zusammenhanges zwischen soziometrischen Daten und spontanem Sozialverhalten in kleinen Gruppen, Diplomarbeit, Düsseldorf 1970.
DOLLASE, R . ,
Zur Unzuverlässigkeit soziometrischer Wahlen in Schulklassen, in: Schule und Psychologie 19, 1972 (a), S. 39-46.
DOLLASE, R . ,
R., Die soziometrische Konnektionsanalyse, in: Psychologische Beiträge 14, 1972(b), S. 68-79.
DOLLASE,
DOLLASE, R . ,
Soziometrische Techniken, Weinheim
DOLLASE, R . ,
Struktur und Status, Weinheim
19732.
1974.
Soziometrie als Interventions- und Meßinstrument, in: Gruppendynamik 6, 1975, S. 8 2 - 9 2 .
DOLLASE, R . ,
DOREIAN, P . , A
note on the detection of cliques in valued graphs, in: Sociometry
32,
1 9 6 9 , S. 2 3 7 - 2 4 2 .
J., Investigation of areas of disagreement in sociometric measurement of preschool children, in: Child Development 28, 1957 (a), S. 93-102.
DUNNINGTON, M .
Behavioral differences of sociometric status groups in a nursery school, in: Child Development 28, 1957 (b), S. 103-111.
DUNNINGTON, M . J . ,
C., Recording of sociometric data made concise and continuous, in: School Review 60, 1952, S. 225-229.
DUNLAP,
D. S., The constant frame of reference problem in sociometry, in: Sociometry 11, 1948, S. 372-379.
EDWARDS,
L. F R E N C H , The determination of sociometric status, in: Sociometry 11, 1948, S. 368-371.
E N G , E . UND R .
O., Schulkinder unter sich. Das Soziogramm in der modernen Schule, Pädagogische Studienhilfen Nr. 6, München 1952.
ENGELMAYER,
ERTEL, S . ,
Neue soziometrische Perspektiven, in: Psychologische Forschung
1 9 6 5 , S. EVANS, K .
329-362.
M., Sociometry and Education, London 1962.
28,
252
5. Band: Testen und Messen
Probleme einer quantitativen Soziometrie, unveröffentlichtes Manuskript, RWTH Aachen 1974.
FEGER , H . ,
FESSENDEN, S. Α., An index of cohesiveness-moralebased on the analysis of sociometric choice distribution, in: Sociometry 16, 1953, S. 321 -326. FESTINGER, L., The analysis of sociograms using matrix algebra, in: Human Relations 2, 1949,S. 153-158. FINDLEY, W. G., Group vs. individual sociometric relations, in: International Journal of Sociometry and Sociatry 5, 1966, S. 60-66. FJELD, S. P., A longitudinal study of sociometric choice and the communication of values, in: Journal of Social Psychology 66, 1965, S. 297-306. FLAMENT, C . ,
Applications of graph theory to group structure, Englewood Clifts 1963.
matrix approach to the analysis of sociometric data: preliminary report, in: Sociometry 9, 1946, S. 340-347.
FORSYTH, E . UND L . KATZ, A
The social relationships of nursery school children, in: Sociometry 9, 1946, S. 200-225.
FRANKEL, Ε. Β.,
Standards for educational and psychological tests and manuals, APA, Washington, D. C. 1966.
F R E N C H , J . W. UND W. B . MICHAEL,
GARDNER, E . F . UND G . G . THOMPSON,
Social relations and morale in small groups,
New York 1956. M. UND R. GLASER, Techniques for the study of group structure: I. Analysis of structure, in: Psychological Bulletin 56, 1959, S. 317-332.
GLANZER,
GRONLUND, N. E., Acquaintance span and sociometric status, in: Sociometry 18, 1955, S. 62-68. GRONLUND, N. E., Sociometry in the classroom, New York 1959. HARARY, F . ,
Status and contrastatus, in: Sociometry
22, 1959,
S.
23-43.
HARARY, F. UND J. C. Ross, A procedure for clique detection using the group matrix, in: Sociometry 20, 1957, S. 205-215. C., The reliability of measures of sociometric acceptance and rejection, in: Sociometry 31, 1968, S. 219-227.
HARPER, D .
HOFFMANN, L. R., A note on ratings versus choices as measures of group attraction, in: Sociometry 25, 1962, S. 313-320. W., Ein Knabenbund in einer Schulgemeinde, in: S. BERNFELD (Hrsg.), Vom Gemeinschaftslebender Jugend, Leipzig/Wien/Zürich 1922, S. 76-144.
HOFFER,
HOHN, F. E., Some methods of comparing sociometric matrices. Technical Report No. 5, University of Illinois, Urbana 1953 (nach: GLANZER UND GLASER 1959). Soziometrie, in: C . F . GRAUMANN (Hrsg.), Sozialpsychologie, 1. Halbband, Band 7 des Handbuchs für Psychologie, Göttingen 1969.
H Ö H N , E . UND G . S E I D E L ,
Research in multivariate statistical analysis, University of North Carolina, Chapel Hill 1948 (nach: GLANZER UND GLASER 1959).
HOTELLING, H . ,
Ηογτ, C., Test reliability estimated by analysis of variance, in: Psychometrika 6, 1941,S. 153-160:
7. Kapitel:
Soziometrische
253
Verfahren
HUBBEL, C. H., An input-output approach to clique identification, in: Sociometry 28, 1965, S. 377-399. X., Application of matrices in the analysis of sociometric data, in: Journal of experimental Education 28, 1960, S. 249-252.
JAMRICH, J .
JENNINGS, H. H., A sociometric study of emotional and social expansiveness, in: BARKER UND WRIGHT (Hrsg.), Child behavior and development, New York 1 9 4 3 . A comparison of three methods of measuring pupil status in the classroom, in: Educational and Psychological Measurement 11, 1951, S. 362-367.
JUSTMANN, J . UND J . W. WRIGHTSTONE,
, L., The utility of a buddy rating procedure as opposed to a sociometric test for the identification of military leaders, in: Psychology Africa 9, 1962, S. 37-43.
KAMFER
KAPPELHOFF, P., Die Bestimmung und Charakterisierung von primären Umwelten mit Hilfe soziometrischer Daten im Rahmen eines Mehrebenenmodells, unveröffentlichtes Manuskript, Universität Kiel, Vortrag auf dem Soziologentag, Kassel, 1.11.1974. quantitative procedure for classifying descriptions of interpersonal behavior, in: Perceptual and Motor Skills 26, 1968, S. 1227-1235.
KATZ, E . W., A
KATZ, L., On the matrix analysis of sociometric data, in: Sociometry 10, 1947, S. 233-241. Punched card technique for the analysis of multiple level sociometric data, in: Sociometry 13, 1950, S. 108-122.
KATZ, L.,
The distribution of isolates in a social group, in: Annals of Mathematical Statistic 23, 1952, S. 271-276.
KATZ, L.,
KATZ, L., A new status index derived from sociometric analysis, in: Psychometrika 18, 1953, S. 39-43. KATZ
, L., A probability model for one dimensional group organization, University of Michigan Seminar in Application of Mathematics, Memo. 23, 1954 (nach: GLANZER UND GLASER 1959). , The number of locally restriced directed graphs, in: Proceedings of the american mathematical society 5, 1954, S. 621-626.
KATZ , L . UND J . H . POWELL
proposed index of the conformity of one sociometric measurement to another, in: J . L . MORENO (Hrsg.) The Sociomctry Reader, Glencoe, 111. 1960, S. 2 9 8 - 3 0 6 .
K A T Z , L . UND J . H . POWELL, A
Measurement of the tendency toward reciprocation of choice, in: Sociometry 18, 1955, S. 659-664.
K A T Z , L . UND J . H . POWELL,
C. H . PROCTOR, The concept of configuration of interpersonal relations in a group as a time-dependent stochastic process, in: Psychometrika 24, 1959, S. 317-327.
K A T Z , J . UND
, D. M., Changes in self concepts in relation to perceptions of others, in: Journal of Personality 29, 1961, S. 449-465.
KIPNIS
LANKFORD, P . M . ,
Comparative analysis of clique identification, in: Sociometry
1 9 7 4 , S. 2 8 7 - 3 0 5 .
37,
254
5. Band:
Testen
und
Messen
R. D . S O L O M O N , Group characteristics as revealed in sociometric patterns and personality ratings, in: Sociometry 15, 1952, S. 7-90.
L E M A N N , T . B . UND
The interpersonal grid: I. Felt and tape technique for the measurement of social relationships, in: Psychonomic Science 8, 1967, S. 173-174.
L E V I N G E R , G . UND J . G U N N E R ,
Sociometric Measurement, in: G . Handbook of Social Psychology, London 1954, S. 420-439.
L I N D Z E Y , G . UND E . F . B O R G A T T A ,
LINDZEY
(Hrsg.),
Measurement of social and interpersonal attractiveness, in: G . L I N D Z E Y UND E. A R O N S O N (Hrsg.), A Handbook of social Psychology, Bd. II, Reading 1968, S. 452-525.
L I N D Z E Y , G . UND D . B Y R N E ,
Ν., The Ohio Social Acceptance Scale, in: Educational Research 12, 1970, S. 240-243.
LORBER,
D. R. UND A. D. P E R R Y , A method of matrix analysis of group structure, in: Psychometrika 14, 1949, S. 95-116.
LUCE,
LUNDBERG, G . Α . ,
Social research:
A
study of methods of gathering data, New York
1942.
D., Decomposition of communication network, in: Journal of mathematical psychology 4, 1967, S. 162-173.
MACKENZIE, K .
F., R. T A N N E N B A U M , Μ. K A H A N E UND J. WESCHLER , Sociometric choice and organizational effectiveness, in: Sociometry 16, 1953, S. 21 1-238.
MASSARIK,
R. UND Η . M A R S H A L L , A picture sociometric technique for preschool children and its relation to teacher judgements of friendship in: Child Development 28, 1957, S. 139-147.
MCCANDLESS, B.
Elementary linkage analysis for isolating orthogonal and oblique types and typal relevancies, in: Educational and Psychological Measurement 18, 1957, S. 207-229.
MCQUITTY, L. L.,
MACRAE, S.
D., Direct factor analysis of sociometric data, in: Sociometry
23,
1960,
360-371.
G. R., Several correlates of sociometric status in a first grade group in: Journal of genetic Psychology 101, 1962, S. 3-13.
MEDINNUS,
Validitätsuntersuchung zum soziometrischen Test, in: Zeitschrift für experimentelle und angewandte Psychologie 7, 1960, S. 631-641.
MERTN, Α . ,
S. UND R. U P D E G R A F F , Sociometric status of preschool children related to age, sex, nurturance giving and dependancy, in: Child Development 35, 1964, S. 519-524.
MOORE,
Sociometric status of children in an nursery school group, in: Sociometry 5, 1942, S. 395-411.
MORENO, F L . Β.,
MORENO, J. L.,
Who shall survive? New York
MORENO, J . L.,
Sociometry in action, in: Sociometry
MORENO, J. L.,
Sociometry and Marxism, in: Sociometry
MORENO, J .
1953,
zuerst: Washington 5, 1942,
S.
12, 1 9 4 9 ,
L., Die Grundlagen der Soziometrie, Köln/Opladen
MORENO, J. L.,
The Sociometry Reader, Glencoe,
111. 1 9 6 0 .
1934.
298-315.
S.
1954.
106-143.
7. Kapitel:
Soziometrische
Verfahren
255
L. UND H. H. JENNINGS, Sociometric statistics of social configurations, in: Sociometry 1, 1937/8, S. 342-374.
MORENO, J .
Sociometric methods of grouping and regrouping with reference to authoritative and democratic methods of grouping, in: Sociometry 7, 1944, S. 397-414.
MORENO, J . L . UND H . H . JENNINGS,
MOUTON, J . , BLAKE,
in:
R.
J . L . MORENO
UND Β . FRUCHTER, The reliability of sociometric measures, (Hrsg.), The Sociometry Reader, Glencoe, 111. 1 9 6 0 , S.
328-361.
Soziometrische Analysen von Gruppen, in: Kölner Zeitschrift für Soziologie und Sozialpsychologie 7, 1955, S. 119-157 und S. 280-302.
NEHNEVAJSA, J . ,
Soziometrie, in: R . KÖNIG (Hrsg.), Handbuch der Empirischen Sozialforschung, Bd. 1, Stuttgart 1962, S. 226-240.
NEHNEVAJSA, J . ,
T. M . NEWCOMB, Group adjustment: a study in experimental sociology, School of Applied Social Sciences, Cleveland 1938.
NEWSTETTER, W . I . , M . J . F E L D S T E I N UND
method for depicting social relationships obtained by sociometric testing, in: Sociometry 3, 1940, S. 144-150.
NORTHWAY, M . L . A
NORTHWAY, M. L., Outsiders: a study of the personality patterns of children least acceptable to their age mates, in: Sociometry 7, 1944, S. 10-25. NORTHWAY, M. L., A plan for sociometric studies in a longitudinal program of research in child development, in: Sociometry 17, 1954, S. 272-281. comparison of several partitioning techniques, in: Sociometry 26, 1963, S. 112-124.
NOSANCHUK, Τ . Α . , A
PEAY, E. R., Hierarchical clique structures, in: Sociometry 37, 1974, S. 54-65. R. UND C. S. WILSON, Peer concept and sociometric analysis of a small group, in: Psychological Reports 25, 1969, S. 452-454.
POWELL , W .
PRITTCHATT, D., A note on the interpretation of the guess who test in the study of sociometric choice behavior, in: British journal of social and clinical psychology 3, 1963, S. 90-93. Analysis of sociometric data, in: M . JAHODA, M . (Hrsg.), Research methods in social relations, Bd. 2 , New York 1951, S. 561-585.
PROCTOR , C . H . UND C . P . LOOMIS, DEUTSCH UND ST. COOK
, C., Analysis of preferential experiments, in: Psychometrika 29, 1964, S. 257-261.
RAMANUJACHARYULU
Eine einfache Methode und ein F O R T R A N - P r o g r a m m zur Ermittlung von Cliquen, in: Zeitschrift für Sozialpsychologie 4, 1973, S. 5-14.
RATTINGER, H . ,
Über soziale Verhaltensweisen in der Vorpubertät, in: C. BÜHLER UND V. FADRUS (Hrsg.), Wiener Arbeiten zur pädagogischen Psychologie, Wien/Leizig/New York 1924.
REININGER, K . ,
H., A method of sociometric identification on the basis of multiple measurement, in: Sociometry 29, 1966, S. 280-290.
RIFFENBURGH, R .
C. UND F. HARARY, On the determination of redundancies in sociometric chains, in: Psychometrika 17, 1952, S. 195-208.
ROSS, I .
256
5. Band:
Testen
und
Messen
Ross, I. C. UND F . H A R A R Y , Identification of the liaison persons of an organization using the structure matrix, in: Management science 1, 1955, S. 251-258. Ross, I. C. UND F. H A R A R Y , A description of strengthening and weakening members of a group, in: Sociometry 22, 1959, S. 139-147. RÖSSNER, L . ,
Das Autosoziogramm, München/Basel
SCHRÖDER, E . , SEABOURNE,
1968.
Algebra und Logik der Relative, Leipzig
1895.
B., The action sociogram, in: Group Psychotherapy 16, 1963,
S.
145-
155. Über den Zusammenhang zwischen Tüchtigkeit und Beliebtheit in Schulklassen. Ein entwicklungspsychologischer Beitrag zur Gruppendynamik, in: Psychologische Forschung 28, 1965, S. 587-597.
SELG, H . ,
S., Structural analysis and the generation of sociograms, in: Behavioral Science 11, 1966, S. 312-318.
SPILERMANN,
comparison of two techniques for measuring sociometric status among nursery school children, in: Proceedings of the Oklahoma Academy of Science 42, 1962, S. 199-205.
STARKWEATHER, E . K . , A
S. Should rejection reports be included in sociometric testing? in: Pedagogisk Forskning 1, S. 28-39.
STENSAASEN,
G., Direct observation as source of quasi sociometric information, in: Sociometry 15, 1952, S. 141-145.
STRAUSS,
R., Relational analysis: an extension of sociometric method with emphasis upon social perception, in: Sociometry 15, 1952, S. 91-104.
TAGIURI,
G., The validity of sociometric choice for the structural analysis of groups, in: Australian Journal of Psychology 1 1, 1959, S. 113-120.
TALLMADGE, K .
L., Schätzverfahren in der Unterrichtsforschung, in: Κ. Η. I N G E N K A M P UND (Hrsg.), Handbuch der Unterrichtsforschung, Teil 1, Weinheim 1 9 7 0 (dt. Bearbeitung des "Handbook of Research on Teaching" von G A G E ) .
TENT,
E . PAREY
An investigation of the rating scale approach to the measurement of social status, in: Educational and Psychological Measurement 11, 1951, S. 440-455.
T H O M P S O N , G . G . UND M . P O W E L L ,
J . G., A sociometric study of London school children, Unpublished Ph. D. Thesis, London 1953.
THORPE,
R., L . O . WALDER UND M . M . LEFKOWITZ, Examiner effect in the use of a near sociometric procedure in the third grades classroom, in: Psychological Reports 11, 1962, S. 785-790.
TOIGO,
E. P., Sociometric techniques for diagnosing group ills, in: Sociometry 18, 1955, S. 342-355.
TORRANCE,
D., Ein einfacher soziometrischer Versuchsplan. Der Group perception test von Hammond und Miller, in: Psychologie in Erziehung und Unterricht 22, 1975, S. 57-61.
VORMFELDE,
VORWERG, M . , WAGNER, K . ,
Sozialpsychologische Strukturanalysen des Kollektivs, Berlin
Graphentheorie, Mannheim
1970;
1969.
7. Kapitel: Soziometrische
Verfahren
257
E., Das Soziogramm, in: Bericht über den 17. Kongreß für Psychologie 1948, Göttingen 1953.
WARTEGG,
R., The sociometric field: A new training and research tool, in: Group psychotherapy 15, 1962, S. 123-125.
WESCHLER, I .
C. L . WINDER, The peer nomination inventory: an empirically derived sociometric measure of adjustment in preadolescent boys, in: Psychological Reports 9, 1961, S. 643-677.
WIGGINS, J. S . UND
On deriving standard scores for peer nominations with subgroups of unequal sizes, in: Psychological Reports 5, 1959, S. 397-403.
WILLINGHAM, W . W . ,
WRIGHT, B . UND M . S . E V I T T S ,
Direct factor analysis in sociometry, in: Sociometry
1 9 6 1 , S. 8 2 - 9 8 .
Selection of compatible flying partners, in: American Journal of sociology 52, 1947, S. 424-431.
ZELENY, L . D . ,
24,
Namenregister
Abeles, R. P. 9 6 Abelson, R. P. 1 1 , 1 1 1 , 136 Adams, E. W. 61 Adler, F. 2 2 Ahmavaara, Y. 2 0 8 Alba, R. D. 237 Albert, A . A . 194 Alexander, N. C. 244 Allport, G . W . 9 2 , 1 5 2 Ames, R. G. 244 Amthauer, R. 89, 91 Anderson, T. W. 1 7 0 , 1 9 7 Anger, H. 8 2 , 9 0 Aronson, E. T. 9 6 Arrow, K . J . 179 Attnaeve, F. 1 1 1 , 1 3 6 Baer, M. E. 202 Baggaley, A. R. 208 Banta, T. J. 9 4 Bargmann, R. 209 Barker, P. G. 228 Barlow, J. A. 208 Barnes, J. A. 2 1 8 , 2 2 1 , 236 Barrett, R. S. 114 Barthol, R. P. 83 Bartko, J. J. 1 1 8 , 1 2 1 Bartlett, M. S. 199 Barton, A. H. 1 2 , 2 4 , 33, 4 2 f. Bartram, M. 237 Bartussek, D. 225 Bass, B. M. 95 Bastin, G. 2 3 3 , 2 4 7 Bavelas, A. 236 Beaton, A. E. 2 3 7 , 2 4 0 Bechtold, H. P. 1 2 4 , 2 0 8 Beezhold, F. W. 204 Bendig, A. W. 114 f. Bennet, J. F. 155
Berg, J. A. 117 Bergmann, G. 2 2 Berkson, J. 179 Bernfeld, S. 217 Beum, C. O. 237 ff. Biehler, R. F. 224 Bissel, H . W . 116 Bjerstedt, A. 2 2 1 , 2 3 1 Blake, P. 247 Blalock, H. M. 9 ff., 22, 27, 3 1 , 3 5 , 4 0 , 4 2 , 45 ff. Block, J. A. 1 0 9 , 1 1 2 Blumberg, H. H. 223 Bock, R. D. 2 2 6 , 2 3 7 , 2 4 0 Bock, R. J. 103 Bogardus, E. S. 96 Bogue, D. F. 46 Bolton, T. L. 78 Bonjean, C. M. 9 f. Borgatta, E. F. 9 , 2 2 1 , 2 4 4 , 247 f. Boudon, R. 9, 1 2 , 2 3 , 2 6 27, 31 ff., 45, 4 7 Boyle, R. P. 47, 232 Bradley, R. Α. 179 Brengelmann, J. C. 89 f., 179 Brengelmann, L. 8 9 f., 179 Bridgman, P. W. 1 6 , 2 2 Bronfenbrenner, U. 235 Brown, R. R. 198 Browne, M.W. 2 0 4 Brundage, E. G. 237 ff. Bungard, W. 9 6 , 2 2 6 Bums, E. 2 2 5 Büros, Ο. K. 79 Burros, R. Η. 179 Burt, C. 184, 195 f., 199, 206, 2 0 8 Burwen, L. S. 87 Byrd, E. 227
Byrne, D. 2 2 2 , 2 2 4 , 246 ff. Caffrey, J. 196 Campbell, D. T. 83 f., 8 7 , 9 3 , 9 5 f., 124 f., 244 Campbell, N. R. 10 Capecchi, V. 1 2 , 2 6 Cappel, W. 231 Carlson, E. R. 226 Carlsmith, J. M. 9 6 Carnap, R. 14 f., 17 ff., 23 Carroll, J . B . 2 0 2 , 2 0 4 Cattel, Α. Κ. S. 204 Cattell, R. B. 77 f., 103, 185 f., 194, 199, 202, 204 ff. . Chabot, J. 239 Chaplin, J. P. 84 Chave, E. J. 93, 150 Christ, C. F. 4 0 Christensen, P. R. 127 Clark, R. A. 232 Cockriel, I. W. 231 Cohen, J. 1 2 3 , 2 0 8 Cohen, R. 113 ff. Coleman, J. S. 9 ff., 22, 35, 4 2 f., 2 4 4 Comrey, A. L. 202 Coombs, C. H. 27, 104 ff. 1 1 0 - 1 1 7 , 125, 131 f., 141, 150 ff., 190, 199 Cook, S. W. 93, 96 Copilowish, I. M. 221 Corbin, H. H. 128 Costner, H. L. 9, 27 ff., 31,40 Craeger, J. A. 211 Cranach, M. v. 117 Criswell, J. H. 234 f.
Namenregister
Croft, I. J. 223 Gonbach, L. J. 83,116, 124, 159, 196 Cross, D. 227 Crowne, D. P. 90, 95 Cube, F. 232 Curtis, R. F. 40 ff., 46
Darley, J. M. 92 Darroch, J. N. 193 Davids, A. 247 Davis, J. A. 46, 233, 242 Davis, R. L. 245 f. Defares, P. B. 224 DeFleur, M. L. 96 DeGroot, A. O. 51 Derflinger, G. 196 De Soto, C. B. 223 Deutscher, I. 9 Dickman, K. W. 204 Diederich, G. W. 169 Dingman, H. F. 211 Dodd, S. 51 Dolíase, R. 221, 224 ff., 230 f., 243, 247 f. Doreian, P. 239 Driver, R. S. 115 Dubin, R. 13 Duncan, O. D. 3 1 , 3 5 , 4 2 Dunlap, C. 243 Dunnington, M. J. 223 Dwyer, P. S. 193,207 Ebbinghaus, H. 77 f. Ebel, R. L. 118 Eckart, G. 190 Edwards, A. L. 94 f., 106, 108 ff., 116 Edwards, D. S. 235 Eells, K. 55 Ekman, G. 111, 145, 177 Eng, E. 223, 228 Engelmayer, O. 221 Ertel, S. 87, 224, 229, 231 Evans, Κ. M. 233, 248 Evitts, M. S. 237, 240 Eyman, R. K. 202 Eysenck, H. J. 79,82, 204, 206
Fagot, R. F. 61 Faunce, W. A. 51 Fechner, G. T. 103,161 Feger, H. 226 Feldstein, M. J. 255 Ferguson, G. A. 187,202 Festinger, L. 237 ff. Fiedler, F. E. 87 Findley, W. G. 233 Fischer, G. H. 68 f., 137 ff., 174 f., 204 f., 208 Fisher, F. M. 40 Fisher, R. Α. 121 Fiske, D. W. 83 f., 124 f. Fjeld, S. P. 246 Flament, C. 236 Flockenhaus, Κ. F. 209 Forsyth, E. 221,237, 244 Forster, M. J. 202 Frankel, Ε. Β. 223 French, R. L. 223, 228, 247 Frenz, H.-G. 117 Fruchter, Β. 247 Galanter, Ε. Η. 180,183 Galtung, J. 10, 12 f., 33, 41, 46 f. Galton, F. 7 7 , 7 9 Gardner, E. F. 224 Garner, W. R. 65, 180 Ghiselli, E. E. 70 f., 83 Gibson, W. Α. 2 6 , 1 7 0 Gilbert, J. Α. 78 Glanzer, M. 180,236, 238 f., 245 Glaser, R. 180,236, 238 f., 245 Gleser, G. C. 4 2 , 2 1 1 Gocka, E. F. 202 Goguelin, P. 202 Goodman, L. A. 123 Goodman, N. 180 Gordon, R. A. 47 Green, B. F. 26, 32, 94, Greene, J. E. 87 Greene, J. E. Jr. 87 Gronlund, Ν. E. 228, 233 f., 248 Grygier, T. G. 223
259
Guilford, J. P. 4 1 , 4 5 , 102 f., 107, 110, 113 ff., 121 ff., 133, 195, 204, 206 Gulliksen, H. 4 1 , 9 0 , 167 ff. Gunner, J. 224 Gunzenhäuser, R. 232 Guttman, L. 2 2 , 3 2 , 4 3 , 94, 123, 156 ff., 164, 190, 193 ff., 196, 199,208 Haer, J. L. 52 Haggard, Ε. Α. 118 Haire, M. 93 Hake, H.W. 180 Harary, F. 181,232, 236 f., 239 Harder, Th. 196 f., 209 Harman, H. H. 194 ff., 198, 208 Harper, D. C. 227, 233, 247 Harper, R. S. 151 Harris, C.W. 194,20 Hartmann, H. 9 Haseloff, O. W. 197 Hays, W. L. 155 Heike, H. D. 184 Heintz, R. K. 127 Heise, D. R. 3 1 , 4 7 Heiss, R. 7 9 , 8 7 Helmholtz, Η. v. 65 Helson, H. 115 Hempel, C. G. 14, 17 f., 22 f. Hendrickson, Α. E. 204 Henry, N.W. 24 ff. Henrysson, S. 190 f., 196, 201 f. Hess, E. 92 Heyns, R. 117 Higgins, A. C. 244 Hildebrandt, F. 209 Hildreth, G. H. 79 Hill, R. J. 9 f. Hiltmann, H. 87 Hinckley, E. 116 Hodge, R.W. 2 7 , 3 5 , 4 0 , 46 Höhn, E. 248
260
Namenregister
Holder, O. 65 Hörmann, H. 87 Hoffer, W. 217 H o f f m a n n , H. J. 1 9 7 , 2 1 2 Hoff mann, L. R. 2 2 8 Hofstätter, P. R. 8 1 , 1 0 8 , 184, 1 9 7 , 2 0 9 Hollingshead, A. B. 4 2 Holm, K. 5 2 , 5 4 , 1 2 8 Holzinger, K. J. 186, 196, 206 Holzkamp, K. 131 Hopkins, J . W . 181 Horn, J. L. 199, 232, 243 Horst, P. 136 f., 190 f., 195 ff. 206 Horwitz, H. 33 f. Hotelling, H. 190, 197 ff., 244 Householder, A. S. 181, 184 Hovland, C. J. 114 ff. Hoyt, C. 81, 118, 247 Hubbel, C. H. 240 Hübner, P. 5 4 , 1 2 8 Hull, C. H. 15 Hunt, W. A. 114 f. Hurley, J. R. 2 0 4 , 2 0 8 Husain, S. Z. 237, 240 Jackson, D . N . 9 1 , 9 5 , 117 Jackson, E. F. 40 ff., 46 Jamrich, J. X. 231 Jennings, H. H. 2 1 7 , 2 3 1 , 244 Johnson, D . M . 104, 115 f., 124 Johnston, J. 40, 4 6 Jones, A. 112 Jones, Ε. E. 97 Jones, L. V. 103, 136 Justman, J. 2 2 8 K a h a n e , M . 254 Kahl, J. A. 46 Kaiser, H. F. 181, 194 ff., 202 ff. Kao, R. C. 27 Kamfer, L. 2 2 8 Kaplan, A. 1 7 , 2 0
Kappelhoff, P. 237 Katz, J. 247 Katz, L. 1 8 1 , 2 2 1 , 2 2 5 , 231 f., 237, 242 ff. K a u f m a n , E. L. 115 Kelley, T. L. 1 1 8 , 1 9 7 Kelly, G. A. 104 Kendall, M. G. 1 1 3 , 1 9 7 Kerlinger, F. Ν. 23, 108,
Long, L. 114 Loomis, C. R. 2 2 1 , 2 3 2 , 234 f „ 247 Lorber, N. 224 Lord, F. M. 26 Lubin, A. 204 Luce, R. D. 1 8 2 , 2 3 7 , 2 3 9 Lück, H. E. 88 ff., 95 f.,
112, 118, 124 Kidd, J. 87 Kipnis, D. M. 247 K n a u f t , Ε. B. 103 Koch, K. 87 König, R. 52 Kohler, R. 9 7 Kräpelin, E. 78 Krishnaiah, P. R. 118 Kristof, W. 1 8 1 , 2 0 4 Kroeber-Kenneth, L. 78 Krüger, F. 1 8 6 , 1 9 6 Kruskal, W. H. 1 2 3 , 1 3 6 ,
Lumsden, J. 94 Lundberg, G. A. 2 2 , 2 5 4
147, 177 Kuder, G. F. 81, 159 Land, K. C. 31 Landahl, H. D. 181 Langer, J. 125 Lankford, P. M. 241 La Piere, R. T. 96 Latane, Β. 92 Lawley, D. N. 194 ff., 199 Lazarsfeld, P. F. 12 f., 18, 20, 22 ff., 33 ff., 4 2 f., 169-173 Ledermann, W. 2 0 8 Lefkowitz, M. M. 256 Leiderman, P. H. 9 7 Leiman, J. M. 206 Lemann, T. B. 2 2 1 , 2 3 4 Levine, J. G. 97 Levinger, G. 224 Lienert, G. A. 41 f., 81 ff., 88, 90, 195, 197 Likert, R. 93, 152 Lindzey, G. 222, 224, 246 ff. Lippitt, R. 117 Loevinger, J. 33, 94, 150, 159
226
McCandless, B. R. 223 McCorquodale, K. 150 McGuire, W. 9 2 , 2 3 2 Mackenzie, K. D. 246 McLemore, S. D. 9 f. McNemar, Q„ 192, 199 McQuitty, L. L. 241, 243 Me Rae, D. 2 3 7 , 2 4 0 , 2 4 4 Machower, K. 87 Madansky, A. 193 Marks, A. 202 Marlowe, D. 9 0 , 9 5 Marshall, H. 223 Martens, S. L. 126 Massarik, F. 243 Maxwell, A. E. 195 f. Mayntz, R. 1 0 , 1 3 , 1 0 4 Meeker, M. 55 Medinnus, G. R. 2 2 8 Medland, D. F. 2 1 4 Meehl, P. E. 83, 124, 150 Meili, R. 7 8 Menzel, H. 34 Mertesdorf, F. 97 Mertn, A. 226 Merton, R. K. 9, 22 Messick, S. J. 95, 111, 136 Meyers, E . C . 211 Michael,W.B. 2 1 4 , 2 1 5 , Michel, L. 83 Mikula, G. 225 Milholland, J. E. 182 Miller, D. C. 9 Miller, G. A. 115 Miner, J. B. 103 Moisier, C. I. 182 Moog, W. 87 Moore, S. 223 Moreno, F. B. 227 Moreno, J. L. 2 1 7 - 2 4 8
Namenregister
Mosteller, F. 1 5 0 , 1 5 9 , 164, 167 Mouton, J. 247 Münsterberg, H. 77 f. Muerle, J. L. 204 Murphy, G. 97 Murray, H . A . 87
Nehnevajsa, J. 235, 248 Neuhaus, J. O. 197, 202 Newcomb, T. 1 2 8 , 2 5 5 Newstetter, W. I. 222 Noelle-Neumann, E. 88 Northrop, S. F. 16 North way, M. L. 2 2 1 , 2 3 1 , 243 Nosanchuk, T. Α. 241 Nowak, S. 21 Nunnally, J. C. 4 2 f., 46, 114 f. Orne, M. T. 9 6 Osgood, C. E. 87, 108 Overall, J. E. 122 Parenti, A. H. 247 Parker, J. M. 126 Patnaik, P. B. 182 Pawlik, K. 190 f., 197 ff., 201, 203 f., 206 f., 209 Pearson, Κ. 193, 197 Peay, E. R. 237 Perry, A . D . 2 3 7 , 2 3 9 Pfanzagl, J. 57, 6 1 , 6 3 f. 133 Pinzka, C. 204 Plateau, Μ. H. 65 Popper, K. R. 1 4 , 1 7 Postman, L. 115 Powell, J. Η. 1 8 1 , 2 2 8 , 242, 245 f. Powell, M. 228 Powell, W. R. 229 Prittchatt, D. 2 2 4 , 2 2 8 Proctor, C. H. 2 2 1 , 2 3 2 , 234 f., 247
Radcliffe, J. A. 208 Raiffa, H. 182 Rajaratnam, N. 211 Ralston, A. 198
261
Ramanujacharyula, C. 232 Rao, C. R. 190, 194 ff. Rasch, G. 173 ff. Rattinger, H. 237 Redlich, F. C. 42 Reese, E. P. 115 Reese, T. W. 128 Reichenbach, H. 16 Reininger, K. 217 Rethlingshafer, D. 116 Richardson, M. W. 81, 159
Seabourne, B. 227 Sears, D. O. 9 6 Sechrest, L. 102, 109 Seidel, G. 248 Selg, H. 232 Seils, S . B . 208 Seiltitz, C. 9 3 , 9 6 Shapiro, G. Α. 9 7 Shaw, Μ. E. 9 Shepard, R. Ν. 27 Shérif, M. 114 ff. Siegel, P. M. 2 7 , 3 5 , 4 0 , 46
Rieger, C. 78 Riffenburgh, R. H. 237 Riley, M. W. 13 Rippe, P. R. 199 Robinson, R. E. 61 Rogers, S. 115 Roghmann, K. 89 Rössner, L. 227 Rollett, B. 237 Roppert, J. 204 f., 2 0 8 Rorer, L. G. 95 Rorschach, H. 87 Rosenberg, M. 5 3 , 9 6 Rosenthal, R. 8 0 , 9 6 Rosenzweig, S. E. 87 Ross, I . C . 181, 236 f., 239
Sixtl, F. 94, 111, 136, 157, 164 ff. Slater, P. 190 Smith, E. 33 f. Sokal, R. R. 199 Solomon, R. D. 2 2 1 , 2 3 4 Spearman, C. 79 f., 186, 196
Ross, R. T. 182 Rüschemeier, D. 54 Saffir, M. 169 Sagi, P. C. 183 Saunders, D. R. 202, 204 Sawaris, M. Y. 198 Schäffer, K. A. 1 8 4 , 1 8 7 , 190, 198, 200, 203, 209 Scheier, J. R. 206 Scheuch, Ε. Κ. 4 4 , 177 Schlesinger, G. 22 Schlicht, Ε. M. 79 Schmidt, J. 1 3 , 2 0 6 Schmidt, H. D. 1 0 3 , 1 1 6 , 118 Schröder, E. 221 Schulz v. T h u n , F. 125 Schwartz, R. D. 102 Scott, W. A. 92, 123
Spilerman, S. 2 3 8 Sprague, J. 114 f. Staabs, G. v. 87 Stagner, R. 78 Starkweather, Ε. Κ. 224 f. Stegmüller, W. 14, 16 ff. Stensaasen, S. 227 Stephenson, W. 112 Stern, W. 78 Stevens, S . S . 10 f., 22, 59, 65, 151 Stockford, L. 116 Stolz, W. 2 4 4 Stouffer, S. 157 Strauss, G. 226 Sturm, M. 209 Suci, G. S. 87, 128 Süllwold, F., 94 Suppes, P. 10 f., 57, 61 Sutherland, J. 202 Swineford, F. 1 8 6 , 2 0 8 Symonds, P. M. 114
Taate, G. 127 Tagiuri, R. 226 Tallmadge, K. G. 226 Tannenbaum, P. H. 87, 128 Tannenbaum, R. 254 Taylor, E . K . 126
262
Namenregister
Taylor, J. A. 88 Taylor, J.B. 123 Tenopyr, M. L. 215 Tent, L. 125,224 Terry, M. E. Thayer, R. E. 88 Thielens, W. 34 Thompson, G. G. 224, 228 Thomson, G. H. 185, 208 Thorndike, E. L. 16 Thorpe, J. G. 233 Toigo, R. 228 Thurstone, L. L. 81, 92 f., 102, 136, 148 ff., 161-169, 185 f., 190 ff., 196 f., 201 f., 204, 206 f. Timaeus, E. 9 0 , 9 5 T o d d . J . 198 Torgerson, W. S. 10 f., 23, 33, 37, 44, 104 ff., 110, 125, 133, 135 f., 141, 150 f., 164, 167 ff., 173 Torrance, Ε. P. 225 Tresselt, Μ. E. 115 Trites, D. K. 208 Tucker, L. R. 173,208
Überla, Κ. 185-209 Updegraff, R. 223 Upshaw, H. S. 2 2 , 3 3 , 92, 116
Vernon, P. E. 152 Vidulich, R. Ν. 116, 124 Volkmann, J. 65, 104, 114 f. Vorwerg, M. 233 Vormfelde, D. 226
Wagner, K. 221 Walder, L. O. 256 Warner, W. L. 42 Wartegg, E. 87, 224 Webb, E. J. 96 Webster, H. 95 Wechsler, D. 91 Weschler, J. 2 2 4 , 2 5 4 Westie, F. R. 96 Westphal, W. H. 66 White, P. Α. 198 White, P . D . 204 Whittaker, J. O. 116 Wiendieck, G. 89 Wiggins, J. S. 224
Wilf, H. S. 198 Wilkinson, J. H. 198 Willingham, W. W. 223 Wilson, C. S. 229 Wilson, R.C. 127 Winder, C. L. 224 Winer, B.J. 118,122 Witte, W. 133 Woodrow, H. 114 Wrighley, C. 195, 197, 202 Wright, Β. 2 3 7 , 2 4 0 Wright, J. M. 9 Wrightstone, J. W. 228 Wülfing, G. 97 Wülsten, A. R. 197 f., 209
Young, G. 184,190
Zajonc, R. Β. 79 Zehnpfennig, Η. 177 Zeisel, Η. L. 55 Zeleny, L. D. 234 Zetterberg, H. 22 Zimmermann, W. S. 202 Zinnes, J. L. 10 f., 57, 61 Zurmühl, R. 198
Sachwortregister
Abbildung 5 8 ff. , 1 3 4 Abgabesummenvektor 220 Abgabevektor 226 Abweichungsanalyse 190 acquiescence s. Ja-Sage-Tendenz Ähnlichkeitsbereich 133 Ähnlichkeitsrating 110, 145 Äquisektion 143 Äquivalenz 57 Aktionstest 227 f. Alpha-Faktorenanalyse 196 Ambiguitätsbereich 4 2 ff. Analyse — konzeptuelle 9, 18 — logische 18 Ankerreiz 115 Außenkriterium 18 Auswahlfehler 43, 4 7 Auswahlverfahren 86, 142, 223 Bedeutsamkeit 61 ff. Bedeutungsanalyse 4 3 Begriff — Beobachtungs- 15 ff. — Dispositions- 18 — metrischer 14 — theoretischer 14 Beobachtbarkeit 17 Beobachtungssprache 13-20 Beobachtungstechniken 226 ff. Bestimmtheitsmaß 195 Beurteilungstendenz 113 f. Beurteilungsverfahren (Rating) 2 2 8 cartwheel-Methode 110 Cliquenidentifizierung 2 3 7 ff. content validity 82 Datenreduktion 184 Definition — nominale 32 — operationale 18 ff., 6 6
Dependenzkoeffizient 4 7 f. Diagonal-Methode 196 Dichotomie, latente 26 Distanz 136 Distanzmatrix 236
Eigenschaft, latente 1 8 , 1 3 4 Eigenschaftsmessung 103 ff. Eigenschaftsraum 13, 32, 133, 177 Eigenvektor 198 Eigenwert 198 f. Einfachstruktur 187, 189, 201 f. Einheitsvarianz 191 Einschätzungen, summierte 108 Einstellungsmessung 9 2 ff. Einzelreizverfahren 107 ff. Einzelrestfaktor 185, 192 Ekman-Verfahren 145, 177 Ergebnisverfálschung 94 ff. Erhaltvektor 220 Erhaltsummenvektor 2 2 0 , 2 3 1 Erwartungswert 67 Expansion 220, 245 Experimentalhandlung 131 f. Extraktion von Faktoren 186, 189, 193, 195 ff.
face validity 81 f., 2 4 8 factor scores s. Faktorwerte Faktoren — Definition 184 — gemeinsame 185, 192 — korrelierte 203 — spezifische 185 Faktorenanalyse 25, 176, 1 8 4 - 2 0 9 , 2 4 0 — kanonische 196 — multiple 185 f., 191 — nicht-metrische 190 Faktorenextraktion 195 ff. Faktorenmuster 195 Faktorenrotation 200 ff.
264
Sackwortregister
Faktorenstruktur 46 — hierarchische 186, 205 ff. — einfache 187 Faktorladung 189, 203 f. Faktorwerte 189, 206 ff. Fehlervarianz 192 Finitismus, Postulat des 15 forced choice 5 , 1 0 9 Fundamentaltheorem 190 f. Gesetz 131 — deterministisches 20, 146 — empirisches 16 — probabilistisches 20, 139, 146 — theoretisches 16 Gewichtung (von Indikatoren) 1 4 , 4 1 - 4 8 Graphentheorie 230, 236 Gruppenentropie 232 Gruppenkohäsion 234 Gruppenstruktur 221 Gültigkeit 41 f., 70 ff., 81 ff., 118 ff., 138, 246 ff. Gültigkeitskoeffizient 7 2 ff., 83 f. Guess-who-Test Halo-Effekt 116 Hauptachsenmethode 197 Homomorphismus 58 ff. Independenz, lokale 25 Index 9 f. Indexbildung 9 - 4 8 Indikatoren 21 — Austauschbarkeit 3 2 ff. — Auswahl 3 1 - 4 0 — Gewichtung 4 1 - 4 8 — Kombination 1 4 , 4 1 - 4 8 — Korrelation 29 ff. — Universum 32 ff. Induktionsmodell 23 ff. Interitem-Konsistenz 81 Interventionssoziometrie 217 f. Interviewerfehler 36 f. Item 137 f. Itemcharakteristik 147 ff., 156 Ja-Sage-Tendenz 95 Kaiser-Kriterium 2 0 2 Kategorialurteilsgesetz 167 ff. Kategorialverfahren 143 f. Kausalmodell 27 ff.
Kausalstrukturtheorie 27 ff. Kombinationsmodell 41 ff. Kommunalität 89, 193 ff., 199 Kompensationshypothese 4 2 Komponentenanalyse 184 Konkordanzkoeffizient 122 Konsistenzkriterium 29 f. Konstruktvalidität 45, 83 Korrelation - empirische 29 f. - epistemische 1 6 , 2 8 Korrespondenzregeln 16 f., 2 0 - 3 1 Kriteriumssituation 7 7 Kriteriumsvariable 42, 70, 131 Lagrange-Multiplikator 198 Latente Strukturanalyse 2 3 - 2 7 , 1 6 9 least squares m e t h o d 2 0 7 Likert-Skala 108, 152 Linearkombination 41, 190 linkage analysis 243 maximum likelihood m e t h o d 195 f. meaningfulness 61 ff. Mehrfachreizverfahren 110 ff. Merkmal, Struktur des 57 ff. Merkmalsträger 104, 184 Messen - abgeleitetes 10 f. - Definition 10 f., 57 ff. - by counting 11 - by fiat 11 - fundamentales 10, 18 - paralleles 69 - S t u f e n d e s 61, 63 ff., 122 ff. - von Einstellungen 92 ff. - von Persönlichkeitseigenschaften 103 ff. - von Verhalten 96 Meßanweisung 65 Meßfehler 12, 17 f., 28, 34 f., 68, 113 Meßinstrument - Gültigkeit 70 ff. - Zuverlässigkeit 65 ff. Meßmodell, probabilistisches 169 ff. Meßniveau 61, 6 3 f., 122 f. Meßreplikation 33 f. Meßtheorie 5 6 - 7 5 Meßverfahren 65, 93 f., 103 ff. Meßwert 65 f. - wahrer 6 7 Milde-Fehler-Effekt 116 Milieusoziogramm 221
Sachwortregister
Mittenbildung 65 Multikollinearität 4 6 f. multiple choice 85 multitrait multimethod matrix 84, 124 Nominalismus, Postulat des 15 Normalogiven-Modell 171 f. Objektivität (eines Tests) 80, 118, 2 4 7 Oblimax-Methode 2 0 4 Operationalismus 23 f. Paarvergleich 65, 125, 141 f., 164 ff. paired comparison s. Paarvergleich Parallelmethode 80 Parallelogramm-Analyse 152 ff. Polaritätenprofil 108, 144, 175 Populationsunabhängigkeit 140 Prädiktorvariablen 4 2 Präferenz-Rating U l f . , 155 Präzision (von Skalen) 133 predictive validity 82 Promax-Methode 204 Psychometrische Funktion 142 ff., 160 Psychophysik 103 Q-Sort-Technik 112 Quadrate, kleinste 207 Quartimax-Kriterium 2 0 2 Quartimin-Methode 204 Randwahrscheinlichkeit 25 Rangreihenverfahren 142 Ratingmethoden 103-125, 144, 222 f. Reaktivität 96, 115 f., 222 Reduktionssätze 19 f. Reflektionsproblem 197 Reflexivität 63 Regression 42, 45 f., 207 Reizvergleichs-Rating 110, 141 ff. Relation - Abstands- 64 — Äqzivalenz- 57, 61 ff. - Ordnungs- 57 relational analysis 226, 229 Relationensystem 58, 65 Réhabilitât s. Zuverlässigkeit response set 116 Rohwertanalyse 290 Rosenzweig-Verfahren 87 Rotation 1 8 9 , 1 9 9 — korrelierter Faktoren 203 f.
-
265
orthogonale 200 schiefwinklige 200 visuelle 202
Schätzfehler 113 f. Schätzverfahren (Rating) 103 ff., 140 Schätzverfahren (statistisches) 194, 199, 207 ff. Schwellenmethode 142, 160 ff. Schwerpunktmethode 196 f. Schwierigkeitsindex 89, 138 Semantisches Differential 87, 108 Sequenz, soziometrische 2 3 2 Skala - Definition 58, 137 f. - graphische 108, 174 ff. - Intervall- 6 4 f., 75 - Likert- 108 - metrische 60, 67 - Nominal- 59, 6 3 f., 6 8 - Ordinal- 5 9 , 6 4 , 6 8 - Standard- 108 - V e r h ä l t n i s - 60 f., 143 skalenbildende F u n k t i o n 131 f. Skalenwert 138 Skalierung 131, 189 - multidimensionale 175 ff. Skalierungstheorie 26, 145 f. Skalierungsverfahren 10, 3 7 f., 131-177, 223 Skalogramm-Analyse 152, 156 ff. social desirability 90, 95 Soziogramm 219 Soziomatrix 219 Soziometrische Verfahren 96, 2 1 7 - 2 4 8 Spezifizierung, dimensionale 43. ff. split half-Methode 80 Sprache - methodologische 21 - theoretische 1 3 - 2 0 Status, soziometrischer 2 2 0 , 2 3 1 Statusrangreihe 2 2 0 Störvariable 28, 37 ff. Symetrie 63 Test 7 9 ff. - projektiver 78 - psychometrischer 78, 103 - soziometrischer 224 Testeichnung 91 Testentwicklung 8 4 - 9 2 Testleitereffekt Testnormen 91
266
Sachwortregister
Test-Retest-Methode 80 Testsituation 77 Testtheorie 10, 26, 56, 77-84, 140 Theorie — auxiliare 27, 39 f. - des Messens 56-75 Thurstone-Modell 161 ff. Transformation, zulässige 59 ff. Transitivität 63 Trennschärfeindex 89 f. Triadenschätzung 195 Typologie 27
Variable - latente 23, 28 f., 94, 137 - manifeste 23 Variationskoeffizient 62 Varimax-Kriterium 202 Verhältnisskala 60 f., 143, 151 Verknüpfung 57 - additive 41, 190 - metrische 65
Unfolding 117, 152, 154 ff. Uni-Faktor-Methode 196 Urteile, subjektive 144
Zellenvektor 220 Zentralitätsindex 236 Zentroid-Methode 196 f. Zuordnungsregeln 16 f. Zuverlässigkeit 41 ff., 65 ff., 80 f., 91, 114, 118 ff., 138 f., 192 f., 246 ff.
Validierung 45 Validität s. Gültigkeit
Wahrscheinlichkeit 139, 160 f., 169 ff. Wert, wahrer 67, 195
Rolf Ziegler
^¡jjjjfl
Theorie und Modell
Oldenbourg
Der Beitrag der Formalisierung zur soziologischen Theorienbildung 1972. 319 Seiten, 41 Abbildungen, 28 Tabellen, Gr.-8°, flexibler Kunststoff DM 5 6 , Aus dem
Inhalt:
Die Definition komplexer Begriffe — Formalisierte Gedankenexperimente — Empirische Regelmäßigkeiten — Formale Modelle komplexer Kausalstrukturen — Die Formalisierung qualitativer Aussagen — Literaturverzeichnis— Register. Die Formalisierung von Aussagen und Begriffen der theoretischen soziologischen Sprache trägt dazu bei, daß logische Transformationen — deren Gültigkeit nur von der formalen Struktur der Aussagen abhängt — exakter, schneller, ja in vielen Fällen überhaupt erst stattfinden können: Die Formalisierung deckt Fehler in der Argumentation auf, sie enthüllt implizite Annahmen eines Argumentes, sie zeigt die Folgen unterschiedlicher Annahmen. — Dieses Buch ist ein Standardwerk, denn es bietet einen in deutscher Sprache noch nie dagewesenen Überblick über formale Modelle in der soziologischen Theorie.
R.OIdenbourg Verlag München
Enzyklopädie der geisteswissenschaftlichen Arbeitsmethoden
Oldenbourg
Herausgegeben von Manfred Thiel Insgesamt 12 Lieferungen
1. Lieferung: Methoden der Philosophie In Vorbereitung
2. Lieferung: Methoden der Theologie In Vorbereitung
3. Lieferung: Methoden der Logik und Mathematik. Statistische Methoden 1968. 141 Seiten, 8 Abbildungen und Tabellen, DM 2 2 , - .
4. Lieferung: Methoden der Sprachwissenschaft 1968. 173 Seiten, 14 Abbildungen, DM 2 8 , - .
6. Lieferung: Methoden der Kunst- und Musikwissenschaft 1970. 153 Seiten, DM 2 4 , - .
7. Lieferung: Methoden der Psychologie und Pädagogik 1969. 349 Seiten, 21 Abbildungen, 6 Tabellen, DM 4 8 , - .
8. Lieferung: Methoden der Sozialwissenschaften 1967. 258 Seiten, 6 graphische Darstellungen, DM 3 7 , - .
9. Lieferung: Methoden der Anthropologie, Anthropogeographie, Völkerkunde und Religionswissenschaft 1973. 417 Seiten, 25 Abbildungen, 12 Figuren und 9 Tabellen im Text, 1 Falttafel, DM 5 6 , - .
10. Lieferung: Methoden der Geschichtswissenschaft und der Archäologie 1974. 301 Seiten, DM 3 9 , - .
11. Lieferung: Methoden der Rechtswissenschaft Teil 1 1972. 216 Seiten, DM 3 6 , - .
12. Lieferung: Methoden der Rechtswissenschaft Teil 2 Methoden der Politikwissenschaft In Vorbereitung
R. Oldenbourg Verlag München