195 112 27MB
German Pages 68 [76] Year 1980
HERAUSGEBER HUBERT FEGER C. F. G R A U M A N N KLAUS HOLZKAMP MARTIN IRLE
B A N D 10 1979 HEFT 3
VERLAG HANS HUBER BERN STUTTGART WIEN
Zeitschrift für Sozialpsychologie 1979, Band 10, H e f t 3 INHALT
Zu diesem Heft
213
Theorie und Methoden L . : Sozialpsychologie: Bindeglied zwischen Verhaltens- und Sozialwissenschaften H A M E R L E , A . & K E M É N Y , P . : Simultane Gruppenvergleiche bei uneingeschränkt zufälligen Designs und dichotomen Erhebungsdaten Z E L I N K A , F.F.: Z u m Einfluß der Protokolleinheiten auf den Aussagewert von Inhalts(Frequenz-)analysen A S E N D O R P F , J . & W A L L B O T T , H . G . : M a ß e der Beobachterübereinstimm u n g . Ein systematischer Vergleich FESTINGER,
214 220 226 243
Empirie Die Ähnlichkeit von Einstellungsstrukturen zur Lebensqualität in elf westlichen Gesellschaften
BORG, I. & BERGERMAIER, R . :
253
Diskussion T.: Ist Reizkontrolliertheit des Menschen eine widersprüchliche Konzeption? Bemerkungen zu einem anti-behavioristischen Argument G R O E B E N , N . : Widersprüchlichkeit und Selbstanwendung: Psychologische M e n s c h e n b i l d a n n a h m e n zwischen Logik und Moral H E R R M A N N , T.: Schlußbemerkung: Ein Platz f ü r behavioristische Theorien HERRMANN,
262 267 274
Literatur Neuerscheinungen Titel und Abstracta
276 278
Autoren
281
C o p y r i g h t 1979 Verlag H a n s H u b e r Bern S t u t t g a r t W i e n H e r s t e l l u n g : S a t / a l e l i e r P a u l S t e g n u m n , Bern P r i n t e d in S w i t z e r l a n d l i b r a r y of C o n g r e s s C a t a l o g C a r d N u m b e r 78-126626 Die Zeitschrift für Sozialpsychologie wird in Social Sciences Citation Current Contents/ Social and Behavioral Sciences e r l a ß t .
Index
(SSC1) u n d
Zeitschrift für Sozialpsychologie 1979,10
Theorie und Methoden
213
214
Festinger: Sozialpsychologie: Bindeglied zwischen Verhaltens- und Sozialwissenschaften
Sozialpsychologie: Bindeglied zwischen Verhaltens- und Sozialwissenschaften* L E O N FESTINGER New School for Social Research, New York
Die Sozialwissenschaften sind immer noch in einem weniger fortgeschrittenen Entwicklungsstadium als es beispielsweise die Naturwissenschaften sind. Der Grund liegt darin, dass die sozialen Prozesse und Phänomene, die hier untersucht werden, über die Zeit nicht konstant sind und folglich ein beständiges, überdauerndes Wissen nicht zugrunde gelegt werden kann. Um dies zu erreichen, ist es notwendig, wesentliche unveränderliche Beziehungen, die langfristige Gültigkeit haben, aufzufinden und zu untersuchen, wie dies beispielsweise in den Verhaltenswissenschaften der Fall ist. Hierbei kann die Sozialpsychologie einen wesentlichen Beitrag leisten, da sie als ein Bindeglied zwischen den Sozial- und den Verhaltenswissenschaften angesehen werden kann.
The social sciences are still less highly developed than for instance the natural sciences. The reason for this is that the social processes and phenomena under investigation are not constant over time and, thus, no body of stable knowledge can be created. In order to obtain a body of stable knowledge, invariant relationships that remain valid have to be found and investigated. This is the case in the behavioral sciences. Social psychology can make an important contribution in this respect as it can be a bridge between the social and behavioral sciences.
Jeder Wissenszweig hat seinen eigenen, unverwechselbaren Charakter. Das soll jedoch nicht heißen, daß die Kriterien der Objektivität, Replizierbarkeit und dergleichen nicht für alle Zweige gelten - sie müssen sogar für alle gelten. Auch soll es nicht heißen, daß die Rolle der Theorie oder das Streben nach einfachen, eleganten Lösungen nicht allgemein von Bedeutung wäre. Das enge Verhältnis zwischen Theorie und Empirie sowie die Vorstellung von dem, was als Beweis angesehen wird, muß allen Wissenschaften gemeinsam sein - und gerade darin unterscheidet sich die Wissenschaft von der Kunst. Unterschiedliche Sachverhalte bedingen jedoch unterschiedliche Möglichkeiten und Limitierungen. So bieten sich z.B. einige Zweige der Wissenschaft geradezu für Laborexperimente an, während sich in anderen diese wissenschaftlich
bedeutende Technik nur schwer einsetzen läßt. Wenn sich eine bestimmte chemische Reaktion in einem Reagenzglas erzeugen läßt, so bedarf es lediglich der Lösung technischer Probleme, um die gleiche chemische Reaktion in industriellen Großanlagen zu erzeugen. Das Lösen derartiger technischer Probleme ist mitunter äußerst zeitaufwendig, und es können sich zahlreiche Schwierigkeiten in den Weg stellen, doch zu wissen, daß sich die im Labor erzeugte Reaktion überhaupt herstellen läßt, bedeutet, daß die wesentlichen Fakten bekannt sind. Meine Absicht ist es, hier vor allem den besonderen Charakter der Sozialwissenschaften herauszustellen, die nach meiner Meinung zu den schwierigsten aller Wissenschaften zählen. Zuvor will ich jedoch erläutern, warum sie derart schwierig sind. Es wird wohl jeder eingestehen, daß die Naturwissenschaften in einem fortgeschritteneren Entwicklungsstadium sind als die Sozialwissenschaften. Dies wird für gewöhnlich damit zu erklären versucht, daß die Sozialwissenschaften
* Vortrag aus Anlaß der Erlangung der EhrendoktorWürde der Philosophie der Universität Mannheim am 15.12. 1978. Aus dem Englischen übersetzt von Volker Möntmann, Mannheim.
Zeitschrift für Sozialpsychologie 1979,10,214-219
erst später begründet wurden. Ich glaube jedoch, daß die Sozialwissenschaften prinzipiell schwieriger sind. Ich bin nicht einmal sicher, daß sie tatsächlich später begründet wurden. Mir scheint, Beobachtungen sozialer Phänomene und damit zusammenhängende Spekulationen lassen sich zeitlich ebenso weit zurückverfolgen wie Beobachtungen und Spekulationen in der Physik oder Biologie. Weshalb haben sich dann aber die Sozialwissenschaften nicht schneller entwickelt? Was verursacht in den Sozialwissenschaften derartige Schwierigkeiten? Es ist hilfreich, einige der zwischen den Sozialwissenschaften und anderen Wissenschaftszweigen bestehenden Unterschiede herauszustellen, will man herausfinden, welcher Art diese Hindernisse sein könnten. Ein beachtlicher Unterschied besteht natürlich in der verglichen mit den Sozialwissenschaften größeren Genauigkeit der Messung, die heutzutage in den Naturwissenschaften erreicht werden kann. Diese Überlegung führt jedoch nicht weiter. In allen Wissenschaften bleibt die derzeitige Möglichkeit der Messung hinter den theoretischen Anforderungen des Gebiets zurück. Meßgenauigkeit ist etwas Relatives, und es nützt wenig, präziser messen zu können, als es Wissensstand und Theorie erfordern. Wenn uns auf irgendeine Weise die Fähigkeit gegeben wäre, extrem genau zu messen, so bliebe immer noch die Frage, was gemessen werden soll und warum. Ein weiterer bedeutender Unterschied zwischen den Sozialwissenschaften und vielen anderen Wissenschaften besteht in der verschieden großen Möglichkeit, vom Experimentieren im Labor in vollem Umfang Gebrauch zu machen. In den Sozialwissenschaften ist diese bedeutende Methode in der Regel nicht an wendbar. Nicht nur die Tatsache, daß im Labor Variablen kontrolliert werden können, macht ihre Bedeutung aus, sondern auch, daß die Beschaffenheit der Materialien, die untersucht werden sollen, verändert werden kann. Es fällt mir schwer vorzustellen, welchen Stand z. B. die Physik oder die Chemie heute erreicht hätten, wenn es nicht möglich wäre, die Materialien ins Labor zu holen, sie von anderen Stoffen zu reinigen und Beobachtungen unter kontrollierten Bedingungen durchzuführen. Sie als die «Naturwissenschaften» zu bezeichnen, erscheint mir im Grunde sogar äußerst unpassend, zumal sie sich nicht sonderlich mit Ereignissen
215 und Prozessen befassen, die in der natürlichen Umwelt stattfinden. Sie befassen sich vielmehr hauptsächlich mit Ereignissen und Prozessen in einer vom Menschen geschaffenen Welt, in der die Materialien nicht mehr in dem Zustand sind, in dem sie in der Natur vorkommen. Versucht man, die Erkennntisse dieser Wissenschaften anzuwenden, um in der Natur auftretende Ereignisse zu erklären, stößt man nicht selten auf erhebliche Schwierigkeiten. Die Meteorologie ist hierfür ein allseits gern herangezogenes Beispiel. Uns allen sind die häufig nicht zutreffenden Vorhersagen über das Wetter von morgen wohlbekannt, und wir machen unsere Witze darüber. Noch schwieriger wird es, wenn der Mensch Gegenstand wissenschaftlicher Untersuchungen ist. Man hat es dabei mit komplexen, gleichzeitig auftretenden und einander beeinflussenden Ereignissen und Prozessen in der natürlichen Umwelt zu tun, ohne daß die beteiligten Komponenten voneinander getrennt wären. Innerhalb der Wissenschaften, die sich mit dem Menschen befassen, besteht jedoch in den biologisch und verhaltenswissenschaftlich orientierten Zweigen weiterhin die Möglichkeit der Laboruntersuchung. Biochemische und neurophysiologische Untersuchungen können statt mit Tieren auch mit Menschen durchgeführt werden. Sogar viele Verhaltensexperimente können im Labor mit Menschen durchgeführt werden. Wir haben im Labor viel über Phänomene wie Erinnerungsvermögen, Wahrnehmung, Motivation und dergleichen erfahren. Die Tatsache, daß die Sozialwissenschaften nur in sehr beschränktem Maße vom Labor Gebrauch machen können, ist ein großes Manko, doch ist dies meiner Meinung nach noch immer nicht der entscheidende Punkt. Die Astronomie ist das große Gegenbeispiel für die Behauptung, daß Laborexperimente von entscheidender Bedeutung sind. Dieses Gegenbeispiel führt uns jedoch direkt zu dem, das, wie ich glaube, tatsächlich das größte Hindernis für den wissenschaftlichen Fortschritt in den Sozialwissenschaften ist. Ereignisse in der Welt der Astronomie wiederholen sich, und die grundlegenden dynamischen Prozesse bleiben über große Zeiträume hinweg unverändert. Beobachtungen, die in verschiedenen Teilen der Erde gemacht werden, stimmen überein. Das ptolomäische System der Bewegungen von Sonne und Planeten um die Erde ist heute
216
Festinger: Sozialpsychologie: Bindeglied zwischen Verhaltens- und Sozialwissenschaften
noch genauso wie zu Ptolomaius Zeiten in der Lage, die Positionen dieser Körper am Himmel vorherzusagen. Dergleichen gilt nicht für die Sozialwissenschaften. Schon die Dynamiksozialen Lebens, sozialer Struktur und sozialer Mechanismen ist nicht stets die gleiche, und die Ereignisse sind nicht wiederholbar. Sie sind auch nicht in verschiedenen Gebieten der Erde gleich oder konsistent. Die Behauptung, «die Geschichte wiederholt sich», ist einfach unzutreffend. Ein Beispiel: Im Jahre 1955 veröffentlichten JAMES GILLESPIE & G O R D O N ALLPORT die Ergebnisse einer Untersuchung, in der sie Studenten in zehn verschiedenen Ländern befragten. In ihrem Bericht schreiben sie: «Wir haben sehr stark den Eindruck gewonnen, daß die in den zivilisierten Ländern vorherrschenden Moralvorstellungen von unseren Studenten uneingeschränkt übernommen werden.» Diese Aussage wurde vor nicht einmal 25 Jahren gemacht. Man bedenke nur einmal die Veränderungen, die sich während der letzten hundert Jahre vollzogen haben. Wie kann man eine Wissenschaft etablieren, wenn das gesammelte Wissen eines Jahrhunderts im nächsten Jahrhundert in erster Linie nurmehr historischen Wert hat? Die Prinzipien und erfahrungsbedingten Regeln, die vor 30 Jahren für die Lenkung der Wirtschaft adäquat schienen, sind heute weitgehend unbrauchbar. Die über Struktur und Rolle der Familie angesammelten Daten verlieren in dem Maße an Gültigkeit, wie der Prozentsatz arbeitender Frauen steigt und die Ehescheidung statt der Ausnahme zur Regel wird. Ohne Zweifel könnte jede Generation von Sozialwissenschaftlern in Anbetracht der mit zunehmender Schnelligkeit erfolgenden Veränderungen in Zusammenhang mit Familie, Verhaltensmustern im sozialen Leben, kulturellen Normen sowie politischen und wirtschaftlichen Institutionen sehr gut ihre gesamte Energie ausschliesslich dafür aufwenden, diese Veränderungen zu dokumentieren und herauszufinden, was sich ändert und wie es sich ändert. Derartige Bestrebungen sind natürlich sinnvoll und zu einem großen Teil sogar notwendig, damit in der Gesellschaft der Versuch unternommen werden kann, einige ihrer Probleme in den Griff zu bekommen. Die sozialen, politischen und wirtschaftlichen Probleme, mit denen wir seit Jahrzehnten konfrontiert werden, werden dadurch je-
doch nicht gelöst. Allenfalls läßt sich sagen, daß Versuche unternommen werden, sie zu lindern. Doch sobald sich deren Erscheinungsform ändert, bedarf es detaillierterer Kenntnisse über ihre momentane Erscheinungsform, um sich in angemessener Weise mit ihnen auseinandersetzen zu können. Die Wahrscheinlichkeit, daß solche Bestrebungen zur Etablierung einer Wissenschaft führen, ist jedochsehrgering.OhnegesicherteKenntnisse und ohne ausreichende theoretische Integration dieser Kenntnisse lassen sich niemals valide Vorhersagen darüber machen, was als nächstes geschehen wird. In der Tat sind heute die meisten soziale Sachverhalte betreffenden Vorhersagen aus der Vergangenheit abgeleitete Analogien. Man könnte beinahe sagen, daß es nicht Vorhersagen der Zukunft, sondern vielmehr Vorhersagen der Vergangenheit sind. Um einen langfristig gültigen Wissensstand über einen Sachverhalt, der sich schnell in nicht zyklischer und nicht gleichbleibender Weise ändert, aufbauen zu können, ist es notwendig, Aspekte zu finden oder zu erfinden, die sich nicht ändern oder sich zumindest relativ langsam ändern. Ich will damit natürlich nicht sagen, daß Sozialwissenschaftler alles untersuchen sollten, was sich nicht ändert, wie trivial es auch sein mag. Das würde nirgendwohin führen. Wir müssen wesentliche, unveränderliche Beziehungen auffinden, deren Gültigkeit bestehen bleibt und die deutlicher beobachtbaren Phänomenen zugrunde liegen. Wollen wir dies erreichen, können wir vergebens auf einen theoretischen Durchbruch ä la Einstein hoffen, wobei in einem einzigen Streich die invariaten Beziehungen höherer Ordnung, die sich mit den kulturellen Veränderungen in vorhersagbarer Weise verändern, umfassend dargelegt werden. Statt dessen könnte man sich - etwas bescheidener und wohl mit mehr Aussicht auf Erfolg - einzelne Phänomene überlegen, die in einer bestimmten Hinsicht relativ konstant bleiben und die mit den wesentlichen Aspekten sozialer Prozesse, die Sozialwissenschaftler zu verstehen bestrebt sind, eng verknüpft sind. Ich neige zu der Überzeugung, daß die Sozialpsychologie in dieser Hinsicht wesentliche Beiträge leisten kann. Der Grund hierfür liegt in der Tatsache, daß die Sozialpsychologie ein Bindeglied zwischen den Verhaltens- und den Sozialwissen-
Zeitschrift für Sozialpsychologiel979,10,214-219
Schäften sein kann, sowie darin, daß sich der Wissensstand in den Verhaltenswissenschaften mit der Zeit weniger ändert als in den Sozialwissenschaften. Das Weber-Fechnersche Gesetz über Empfindungsunterscheidung gilt heute noch genauso wie vor hundert Jahren, und man kann relativ sicher sein, daß es in hundert Jahren immer noch gültig ist. Das angesammelte Wissen über Phänomene wie menschliches Gedächtnis, Vergessen und retroaktive Hemmung wird vermutlich in hundert Jahren noch Gültigkeit haben. Es ließe sich noch eine ganze Reihe solcher Bereiche anführen, in denen eine effektive Zunahme der Datenbasis für die Wissenschaft erfolgen kann, weil die zentralen Faktoren und dynamischen Kräfte keinen zeitlichen Veränderungen unterliegen. Die Sozialpsychologie stellt natürlich kein Bindeglied zwischen Empfindungsunterscheidung oder Gedächtnis und den Sozialwissenschaften dar, und vermutlich will sie es auch nicht sein. Diese Wissensgebiete sind von den Sozialwissenschaften zu weit entfernt. Was sind dann aber einige der Gebiete der Verhaltenswissenschaften, die über die gleiche Art von relativ beständiger Datenbasis verfügen, nicht zu weit entfernt liegen, so daß Verbindungen zu den Sozialwissenschaften hergestellt werden können? Diese Gebiete sind natürlich schwerer zu finden. Man könnte z. B. an den Bereich denken, der sich mit Reaktionen des Menschen auf Frustration befaßt. Befaßt man sich jedoch genauer mit dieser Thematik, so wird sich meines Erachtens erweisen, daß in diesem Bereich die Fakten ebenfalls Veränderungen unterliegen. In westlichen Kulturen erhobene Daten zeigen ziemlich übereinstimmend, daß Frustration sehr häufig zu Aggression führt. Dies trifft jedoch beispielsweise für streng buddhistische Kulturkreise, wie mir gesagt wurde, vermutlich nicht zu. Wenn Fakten in der einen Kultur in einer anderen Kultur keine Fakten sind, dann unterliegen diese Fakten ebenfalls einer zeitlichen Veränderung. Wie sie sich ändern und wie schnell sie sich ändern, wird davon abhängen, wie schnell und in welche Richtung sich die Kultur ändert. Bei Zugrundelegung eines derartigen Kriteriums könnte man beinahe die Hoffnung aufgeben, ein Gebiet der Verhaltenswissenschaften zu finden, bei dem zumindest mögliche Verbindungen zu den Sozialwissenschaften bestehen und das
217 über eine zuverlässige und beständige Datenbasis verfügt. Diesbezüglich hat die Kulturanthropologie in den letzten 50 bis 60 Jahren eine äußerst wertvolle, wenn auch extrem ernüchternde Funktion erfüllt: Sie hat uns gezeigt, daß es so gut wie kein soziales Verhalten gibt, das in allen uns bekannten Kulturkreisen gleich ist. Vielleicht ist das Inzesttabu so gut wie universal, doch wüßte ich nicht, was ich mit dieser geringen Kenntnis anfangen sollte. In der Tat ist fast alles, was sich in diesem Zusammenhang erdenken läßt, äußerst fraglich. Aus diesem Grund zögere ich auch, solche Gebiete aufzuzählen, da ich, sobald ich sie in Betracht ziehe, auch ihre Schwächen einbeziehen muß. Weniger Bedenken habe ich, über meine eigenen Arbeiten zu sprechen, da mich ihre Schwächen - aus verständlichen Gründen - weniger stark beeindrucken und ich gerne bereit bin, andere auf die in ihnen enthaltenen Probleme hinzuweisen. Ich glaube, in zwei Gebieten, mit denen ich mich befaßt habe, könnten Aspekte menschlichen Verhaltens enthalten sein, die relativ überdauernd sind und außerdem Bezug zu sozialem Verhalten haben. Eines dieser Gebiete bezeichne ich als «soziale Vergleichsprozesse». Der Theorie der sozialen Vergleichsprozesse liegt die Vorstellung zugrund, daß Menschen sich mit anderen, ihnen ähnlichen Personen vergleichen müssen, wenn sie sich selbst einschätzen wollen (d.h. ihre Meinungen, Wertvorstellungen, Fähigkeiten, Ansprücheusw.). So neigen Menschen z.B. dazu, sich mit anderen zusammenzuschließen, die die gleichen Werte oder Überzeugungen vertreten und die einen ähnlichen Lebensstil haben. Während dieses Vorgangs tendieren sie ferner dazu, sich gegenseitig in ihren Vorstellungen zu unterstützen. Menschen mit anderen Überzeugungen können ihnen sogar recht bedrohlich erscheinen. Solche Vorgänge können gelegentlich dazu führen, daß Gruppen, Gemeinden oder selbst Gesellschaften sich isolieren, so daß neue Ideen, neue Ereignisse oder von ihrem abweichende Standpunkte nicht so ohne weiteres auf ihre eigenen, von Sicherheitsbedürfnissen getragenen Überzeugungen einwirken können. Es besteht Grund zu der Annahme, daß diese Prozesse allen Menschen zu eigen sind und sie demnach resistent sind gegenüber zeitlichen Veränderungen in Kultur oder Gesellschaft. Auch sind sie eindeutig relevant für soziales Verhalten,
218
Festinger: Sozialpsychologie: Bindeglied zwischen Verhaltens- und Sozialwissenschaften
und mit ihrer Hilfe läßt sich vielleicht eine Reihe sozialer Phänomene verstehen lernen, die von Auflösungserscheinungen in Familien, in denen die Wertvorstellungen der Kinder stark von denen der Eltern abweichen, bis hin zum Beibehalten deutlich unangemessenen Verhaltens in sozialen Institutionen, die sich angesichts der schnell ändernden Umstände selbst isolieren, reichen. Die zweite Theorie ist die Theorie der kognitiven Dissonanz. In ihr wird postuliert, daß es starke motivationale Kräfte gibt, die auf Herstellung und Beibehaltung von Konsistenz zwischen Meinungen und Überzeugungen und insbesondere zwischen diesen Kognitionen und dem Verhalten hinwirken. Tritt Dissonanz auf, so setzen Aktivitäten ein, sowohl verhaltensmäßige als auch kognitive, diese Dissonanz zu reduzieren. Hat z. B. jemand sehr hart dafür gearbeitet, sich einen bestimmten Gegenstand anschaffen zu können, so ist es sehr wahrscheinlich, daß er diesen Gegenstand, wenn er ihn schließlich besitzt, als für ihn besonders wertvoll ansehen wird, und zwar unabhängig davon, welche Erfahrungen er anschließend tatsächlich macht. Es lassen sich zahlreiche soziale Konsequenzen dieser dissonanzreduzierenden Prozesse anführen, die empirisch untersucht worden sind. Dabei stellt sich jedoch die Frage: Ist dies ein universales, unveränderliches Merkmal aller Menschen, oder ist es kulturabhängig, das heißt, ist es ein Produkt der kulturellen Anpassung des Menschen in westlichen Zivilisationen? Von verschiedener Seite wird z.B. angenommen, daß es in Indien nicht das gleiche Bestreben nach Konsistenz zwischen Überzeugungen gibt wie in westlichen Kulturen. Ich persönlich glaube hingegen eher, daß es ein universales Phänomen ist, daß es aber problematisch wird, wenn es um die genaue Festlegung geht, welche Beziehung nun innerhalb einer Kultur oder gar einer bestimmten Person dissonant zu nennen ist und welche nicht. Lassen Sie mich dazu ein Beispiel anführen. Der polnische Psychologe MALEWSKI führte einige Experimente zur Reduktion von Dissonanz nach Entscheidungen durch, und zwar zur Tendenz, die verworfenen Alternativen abzuwerten und die gewählte Alternative aufzuwerten, nachdem eine schwierige Entscheidung getroffen worden ist. Als Ergebnis fand er, daß dieser Prozeß nur bei Personen mit positiver Selbstbewertung auftrat. Denkt man weiter darüber nach, so leuchtet dies durchaus ein. Nur bei
jemandem, der von sich glaubt, daß er ein fähiger und effektiver Mensch ist, besteht Dissonanz zwischen dem Wissen, eine bestimmte Alternative gewählt zu haben, und dem Wissen, Alternativen verworfen zu haben, die zahlreiche positive Eigenschaften aufweisen. Es ist ein ähnliches Problem wie in der Geschichte, in der sich ein Mann seit vielen Jahren intensiv darum bemüht, in einen recht exklusiven Club aufgenommen zu werden. Endlich kommt der Tag, an dem er als Mitglied aufgenommen wird. Doch nun lehnt er es ab beizutreten, da er keinem Club angehören möchte, der Leute wie ihn aufnimmt. Die Schwierigkeit, a priori festzulegen, was für verschiedene Menschen und in verschiedenen Kulturen eine dissonante Beziehung ist und was nicht, stellt eine der größten Schwierigkeiten dar, wenn man die Theorie anwenden will, um soziale Phänomene vorherzusagen und zu erklären. Erweist es sich jedoch als universale und unveränderliche Eigenschaft aller Menschen, dann, so bin ich überzeugt, werden zukünftige sozialpsychologische Arbeiten zumindest schrittweise viele dieser Probleme der a priori-Feststellung dessen, was Dissonanz ist, lösen. Es gibt noch verschiedene, relativ unerschlossene Bereiche, die, wie ich glaube, für die Sozialpsychologie vielversprechend sind - vielversprechend in dem Sinn, als durch kreatives Nachdenken und Forschen Konzepte und Theorien definiert werden könnten, auf deren Grundlage sich fortdauernde Datenbasen ansammeln ließen. Ein solcher Bereich ist beispielsweise die Akkulturation. Wie werden die Wertvorstellungen und Normen einer Kultur internalisiert, das heißt, wie werden sie zu einem integrierten, unabdingbaren Bestandteil des Menschen? Ein Großteil der sozialen Probleme, mit denen wir heute konfrontiert werden oder in der Vergangenheit konfrontiert worden sind, läßt sich schließlich zumindest teilweise auf das Fehlen einer wirksamen kulturellen Anpassung zurückführen. Diese Frage wurde im Rahmen der bisher durchgeführten Forschung noch nicht angemessen angegangen. Das Tier Mensch kann seiner Natur nach als ein eher aggressives Wesen angesehen werden - vielleicht nicht gerade als das gefährlichste in der Tierwelt, doch hinsichtlich dieser Eigenschaften gehört es wahrscheinlich mit zu den führenden. Das Tier Mensch muß gezähmt und domestiziert werden, damit Menschen zusammenleben können -
Zeitschrift für Sozialpsychologie 1 9 7 9 , 1 0 , 2 1 4 - 2 1 9
damit eine Gesellschaft fortbestehen kann. Diese Zähmung und Domestizierung wird von anderen Menschen in Familie, Schule und dergleichen vorgenommen, doch betrachten wir dies nicht als Zähmung, sondern nennen es Kinderaufzucht und Erziehung. Die Vorstellung, daß das Tier Mensch gezähmt und domestiziert wird, mag uns zu unangenehm sein. Wenn wir es jedoch in dieser Weise betrachten, kann es heuristischen Wert haben und zu neuen Wegen der Erforschung unveränderlicher Eigenschaften des nicht ganz so sozialen Tieres, genannt Mensch, anregen. Vielleicht werden wir, wenn wir mehr über diese Dinge erfahren haben, in der Lage sein, die Mängel kultureller Anpassung, die dazu führen, daß Menschen andere Menschen quälen, zu verstehen und vielleicht in den Griff zu bekommen. Davon sind wir heute jedoch noch sehr weit entfernt. BRECHT schreibt, indem er seine eigene Frage danach beantwortet, wie ein Mensch es fertigbringt zu leben: «Nur dadurch lebt der Mensch, daß er so gründlich vergessen kann, daß er ein Mensch doch ist.» Es gibt noch ein weiteres Gebiet, das dem der kulturellen Anpassung in gewisser Weise verwandt ist und von dem ich glaube, daß es reichhaltige Möglichkeiten zur Erweiterung unseres Verständnisses unveränderlicher Aspekte des menschlichen Wesens, die für soziale Phänomene relevant sind, bietet. Dieses Gebiet umfaßt die Möglichkeiten und Grenzen von Erwachsenen, sich kontinuierlichen Änderungen von Werten, Normen und des Lebensstils anzupassen. Es gab eine Zeit, in der derartige Probleme wohl als akut angesehen wurden, heute hingegen ist es von großer Bedeutung und in Zukunft vielleicht lebensnotwendig, zu einem umfassenderen Verständnis dieser Prozesse zu gelangen. Könnten wir universale Gesetzmäßigkeiten, d.h. Prinzipien und Beziehungen, die über die Zeit hinweg konstant bleiben, finden, in Hinblick darauf, wie sich Menschen ändern bzw. nicht ändern können, so wären wir besser in der Lage, die sichtbaren Manifestationen der Auswirkungen, die eine sich schnell ändernde Gesellschaft auf Menschen hat, zu verstehen. Die nachfolgende Darstellung wurde bereits häufig und von vielen Seiten herangezogen, doch schadet es vielleicht nicht, sie nochmals zu wiederholen . Man stelle sich eine Person vor, die 80 Jahre
219 alt ist. Diese Person hat in ihrem Leben die Einführung des Automobils, des Radios, des Flugzeugs, des Fernsehens und des Computers miterlebt. Sie alle haben tiefgreifende Änderungen in allen gesellschaftlichen Bereichen bewirkt. Sie haben Änderungen im Lebensstil aufgezwungen, Änderungen in der Rolle der Familie, Änderungen in den Abläufen von Organisationen und haben sogar die politischen Prozesse geändert. Die Bedeutung von Konzepten wie Unabhängigkeit, Privatsphäre, Moral und dergleichen haben sich in diesem Zeitraum fast unmerklich geändert. Es fällt schwer anzunehmen, daß die hypothetisch angenommene 80jährige Person tatsächlich in der Lage gewesen wäre, sich den aufeinanderfolgenden Wellen von Neuerungen in ihrer sozialen Welt, die ihr nicht mehr vertraut ist und in der sie sich nicht mehr wohlfühlt, anzupassen und sich mit ihnen zu ändern. Als Sozialwissenschaftler muß ich noch einen weiteren Punkt hervorheben. Diese gewaltigen sozialen Änderungen sind nicht das Ergebnis von Planung oder Voraussicht gewesen; sie sind auch nicht aufgrund irgendwelcher Kenntnisse über Menschen und über soziale Prozesse in die Wege geleitet worden; sie sind weder angestrebt noch aktiv vermieden worden. Sie haben einfach stattgefunden. Sie werden auch weiterhin, und zwar mit zunehmender Geschwindigkeit, stattfinden, da der Fortschritt im Bereich der Technik immer schneller wird. So haben wir z.B. noch nicht einmal damit begonnen, die tiefgreifenden sozialen und politischen Änderungen zu begreifen, die der Computer unserer Welt aufzwingen wird. Zur gleichen Zeit sind jedoch viele Sozialwissenschaftler zunehmend zurückhaltender in ihrem Bestreben geworden, in die soziale Welt eingreifen zu wollen, selbst um den Preis eines besseren und tiefgreifenderen Verständnisses. Wenn wir nicht zu neuem Wissen und besserem Verständnis gelangen können, werden uns soziale Änderungen weiterhin überwältigen und überraschen, und es werden immer wieder neue soziale Probleme a u f k o m m e n . Man kann nur h o f f e n , daß wir in Z u k u n f t , in naher Z u k u n f t , genügend über unveränderliche Aspekte erfahren werden, so daß Individuen, Gruppen und GesellSchäften sich in der Lage sehen, Änderungen wirksamer zu bewältigen. J
220
Hamerle & Kemény: Simultane Gruppenvergleiche bei zufälligen Designs und dichotomen Erhebungsdaten
Simultane Gruppenvergleiche bei uneingeschränkt zufälligen Designs und dichotomen Erhebungsdaten ALFRED HAMERLE & PETER KEMENY
Es wird ein verteilungsfreies multiples Testverfahren zum simultanen Gruppenvergleich bei uneingeschränkt zufälligen Designs (k unabhängige Stichproben) mit dichotomen Erhebungsdaten entwickelt. Das Testmodell ist in mehreren empirischen Situationen der sozial wissenschaftlichen Forschungspraxis anwendbar. Es gestattet unter anderem den simultanen paarweisen Vergleich von Treatments bzw. Subpopulationen.
A nonparametric multiple comparison procedure for the simultaneous comparison of k treatments or subpopulations (k > 2) is developed. This new approach is applicable to different empirical situations when the dependent variable (response) is dichotomous and the sample size is not too small. The procedure guarantees that the total error rate per experiment does not exceed a specified significance level a.
1. Problemstellung
der systematischen Variation einer Variablen und die Präzisierung des Aussagegehalts der Ausprägungen des Merkmals sind Gegenstand eines eigenständigen Bereichs der statistischen Datenanalyse: der Meßtheorie oder Skalierung. Prinzipiell gilt, daß sowohl in den Naturwissenschaften als auch in den Sozial Wissenschaften nicht die untersuchten Objekte selbst, sondern lediglich ihre Eigenschaften meßbar sind. Für den in den Naturwissenschaften gebräuchlichen Meßbegriff ist charakteristisch, daß die zu messenden Objekte nicht nur bezüglich dieser Eigenschaft vergleichbar sind, sondern daß darüber hinaus im empirischen Relativ eine Operation des «Zusammenfügens» existiert (eine Verkettungseigenschaft), die durch die Addition der Meßwerte repräsentiert werden kann. So entsteht beispielsweise durch das Aneinanderfügen von zwei Strecken eine neue Strecke, deren Länge die Summe der Längen der beiden ursprünglichen Strecken ergibt. Ferner läßt sich entscheiden, welche von zwei unterschiedlichen Strecken die längere ist. Die klassische Meßtheorie untersucht, welche Forderungen an die Vergleichsrelation und an die Operation des «Zusammenfügens» gestellt werden müssen, damit eine numerische Repräsentation möglich ist.
Die modernen Sozialwissenschaften verstehen sich als empirische Wissenschaften, deren typisches Kennzeichen darin liegt, daß ihre Aussagen, Hypothesen und theoretischen Konstruktionen einer empirischen Überprüfung unterzogen werden und prinzipiell durch die Empirie widerlegbar seinmüssen. Nur solche Hypothesen bzw. Deduktionen eines empirisch-wissenschaftlichen Systems können zur Erklärung unserer Umwelt dienen, die nicht im Widerspruch zur Erfahrung stehen. Die Teilaspekte einer sozialwissenschaftlichen Theorie, die dann als Hypothesen einer empirischen Untersuchung unterzogen werden, konkretisieren sich in jedem Fall auf Eigenschaften der zu untersuchenden Objekte oder Individuen, also auf gewisse Untersuchungsmerkmale. Die Betrachtung einer Einheit, etwa eine Befragung, ein psychologischer Test oder die Durchführung eines Experiments, liefert jeweils einen Wert (eine Ausprägung oder Realisation) dieser Variablen. Die Frage, welche Ausprägungen bei einer Variablen unterschieden werden sollen, und was diese Aussagen bezüglich der einzelnen Untersuchungseinheiten besagen, ist in allen Wissenschaften, welche die Richtigkeit ihrer theoretischen Aussagen durch empirische Untersuchungen überprüfen (Evaluation einer formalen Theorie), von zentralem Interesse. Die Kennzeichnung
Ein derart enger Meßbegriff ist für die Sozialwissenschaften wenig brauchbar. Obwohl die Sozialwissenschaften nach derselben Präzision streben wie die Naturwissenschaften, werden sie mit einer harten Realität konfrontiert: menschliche
221
Zeitschrift für S o z i a l p s y c h o l o g i e l 9 7 9 , 1 0 , 2 2 0 - 2 2 5
Verhaltensweisen und soziale Prozesse sind äußerst schwer zu quantifizieren. Bei der Messung komplexer sozialwissenschaftlicher Merkmale, die sich nicht unmittelbar in physikalische Maßeinheiten umsetzen lassen, ist das hohe Skalenniveau physikalischer Größen nur in den seltensten Fällen erreichbar. Häufig ist es bestenfalls möglich, durch die alternativen Ausprägungen eine Rangordnung auszudrücken. Beispiele für solche ordinal skalierten Variablen sind etwa «Sozialprestige» oder «Soziale Schichtzugehörigkeit». Für weite Bereiche der empirischen Sozialforschung besteht sogar nur die Möglichkeit der Klassifikation (Nominalskalierung). Da der überwiegende Teil der statistischen Datenanalyseverfahren an dem hohen Meßniveau der physikalischen Skalen orientiert ist, steht dem Sozialwissenschaftler oftmals nur ein bescheidenes Methodeninventar zur Verfügung, wenn er sich einer dem Meßniveau der Daten adäquaten Auswertungsmethode bedienen möchte. Dies gilt insbesondere bei varianzanalytischen Fragestellungen, welche vorwiegend für metrische Variablen entwickelt wurden. Für Gruppenvergleiche klassifikatorischer Merkmale liegen bisher nur wenige statistische Verfahren vor, insbesondere für simultane Vergleiche. Diese Lücke versucht der vorliegende Beitrag partiell zu schließen. Die Problemstellung soll an einem Teilaspekt der empirischen Unfallforschung demonstriert werden. Beispielsweise ist die Frage nach einer möglichen Assoziation zwischen Schulart und der Unfallart «Sport» von Interesse. Darüber hinaus möchte man wissen, welche Schultypen sich hinsichtlich der Unfallart «Sport» signifikant voneinander unterscheiden. Ein empirisch gewonnener Datensatz aus dem Jahre 1976 lieferte nach einer (künstlichen) Dichotomisierung des mehrkategorialen Merkmals «Unfallart» die folgende Kontingenztabelle: Unfallart
Sport Nicht Sport
Schulart Grund-, RealGymna- Berufs- SonderHaupt- schulen sien bilschulen schulen dende Schulen (1)
(2)
10823
3575
19586
2974
30409
6549
(3)
(4)
(5)
891
579
22741
4116
984
1417
29077
10989
1875
1996
51818
6873
2. Methodische Vorgehensweise (theoretisches Modell) Die in dem vorliegenden Beitrag behandelten Prüfverfahren zur statistischen Datenanalyse sind in mehreren psychologischen und soziologischen Forschungsbereichen anwendbar. Dem Versuchsplan der Erhebung liegen dabei im wesentlichen drei Modellvorstellungen zugrunde: Modell 1: Das erste Modell untersucht den Vergleich von k Treatments oder Versuchsbedingungen. Als Beispiele nehme man etwa den Wirkungsvergleich eines Medikaments in verschiedener Dosierung oder den Vergleich von verschiedenen Lehrmethoden im Hinblick auf die Variable «Schulleistung». Der Population wird eine Zufallsstichprobe vom Umfang N entnommen und die Individuen bzw. Objekte der Stichprobe werden zufällig den k Treatmentstufen zugeteilt. Auf diese Weise entstehen k unabhängige Stichproben, bei denen dann jeweils das Untersuchungsmerkmal (abhängige Variable) gemessen wird. Diese Situation ist für viele experimentelle Fragestellungen typisch. Modell 2: Eine etwas andere Situation ergibt sich, wenn beispielsweise folgende Hypothese zu überprüfen ist: «Personen mit unterschiedlicher Schulbildung erbringen im Durchschnitt verschiedene Meßwerte auf einer Einstellungsskala zur Erziehung, welche vor allem die grundlegenden Faktoren und enthält (vgl. KERLINGER & KAYA, 1959).» In einem solchen Design wird das Untersuchungsmerkmal (Einstellung zur Erziehung) nicht unter verschiedenen, künstlich realisierten Treatmentstufen gemessen, sondern die Ausprägungen des Faktors Schulbildung sind zum Zeitpunkt der Erhebung bereits vorliegende Eigenschaften der Individuen. Somit können die Personen der Stichprobe den einzelnen Modalitäten auch nicht zufällig zugewiesen werden, denn der Forscher hat keinen Einfluß auf die einzelnen Modalitäten des Faktors Schulbildung. Man muß sich damit begnügen, Individuen, die in dieselben Kategorie fallen, zusammenzufassen und für dieseGruppen - im allgemeinen Fall k Subpopulation - die Resultate der abhängigen Variablen zu vergleichen. Bei diesem Modell werden also k Zufallsstichproben aus k verschiedenen Subpopulationen gezogen und im Hinblick auf die Untersuchungs variable miteinander verglichen.
222
Hamerle & Kemény: Simultane Gruppenvergleiche bei zufälligen Designs und dichotomen Erhebungsdaten
Modell3: Für bestimmte Forschungsvorhaben ist es zweckmäßig, d.h. einfacher oder billiger, der Gesamtpopulation eine Stichprobe zu entnehmen statt k Stichproben aus den einzelnen Subpopulationen. So genügt es für das eben erwähnte Beispiel, von einer Gesamtstichprobe von N Personen einerseits ihre Schulbildung zu erheben und andererseits ihren Meßwert auf der Einstellungsskala zu erfassen. Allerdings sind dann die auftretenden Stichprobenumfänge n , , . . . , n k Realisationen von Zufallsvariablen. In der bedingten Betrachtungsweise der Wahrscheinlichkeitstheorie jedoch, d.h. wenn man die Realisierungen n , , . . . , n k als gegeben ansieht, ist diese Variante äquivalent mit Modell 2. Derartige ex-post-facto-Anordnungen liegen vielen empirischen Fragestellungen der Sozialwissenschaften zugrunde (siehe auch Beispiel von Abschnitt 1). Die hier vorgestellten simultanen Testverfahren mit einer dichotomen abhängigen Variablen sind für die drei Designs gleichermaßen anwendbar. Die unterschiedlichen Modellvorstellungen sind bei der Interpretation der inferenzstatistischen Ergebnisse zu berücksichtigen.
3. Die globale Überprüfung von TreatmentEffekten bzw. Populationsunterschieden Die auftretenden Häufigkeiten der beiden Reaktionskategorien der abhängigen Variablen können für die k Stichproben in einer (2 x k)-Kontingenztabelle angeordnet werden: abhängige Variable
Treatments 1
2
1. Kategorie
n,,
n, 2
n
1 k
mi
n2.
n 22
n
2k
m2
n,
n2
n
k
N
2.Kategorie
k
Die Nullhypothese sei dahingehend spezifiziert, daß keine Treatment-Effekte vorliegen bzw. keine Populationsunterschiede vorhanden sind. Eine geeignete Prüfgröße ist
Die detaillierte Ableitung dieser Formel findet
sich im Anhang, A I . Man beachte, daß (1) die Prüfgröße eines bedingten Tests ist, wobei die Bedingung im allgemeinen durch die Realisierungen der Randhäufigkeiten der Kontingenztabelle gegeben ist (man vergleiche die Ausführungen über die Versuchsplanung im letzten Abschnitt). Gehen die Stichprobenumfänge gegen unendlich, so besitzt H* eine asymptotische x 2 -Verteilung mit k - 1 Freiheitsgraden. Somit ist H„ abzulehnen, falls H* > x (k-1; 1 - a) ausfällt. Für kleine Stichprobenumfänge vergleiche man HAMERLE (1979).
4. Ein multiples Testmodell zur Auffindung signifikanter Gruppenunterschiede Gewöhnlich ist die Analyse des erhobenen Datenmaterials beendet, wenn sich der errechnete H*Wert nicht als signifikant erwiesen hat. Denn daraus schließt man, daß sich die Stichprobenanteilswerte nur zufällig voneinander unterscheiden. Anders hingegen verhält es sich, wenn der Wert der Prüfgröße signifikant ausgefallen ist. Führt die P r ü f u n g der Nullhypothese zur Ablehnung, erlaubt dies noch keine Aussage darüber, welche und wieviele der k Treatments unterschiedlich effektiv sind bzw. welche der k Gruppen sich voneinander unterscheiden. D.h. der akzeptierten Alternativhypothese H, kann man nur entnehmen, daß nicht alle Gruppenanteilswerte gleich sind, d.h. daß sich mindestens zwei Anteilswerte voneinander statistisch signifikant unterscheiden, doch erhält man keine Auskunft darüber, um welche Anteilswerte es sich handelt. Möglicherweise differieren alle Anteilswerte voneinander, möglicherweise nur zwei von ihnen. Die Information, die der im letzten Abschnitt beschriebene Test liefert, ist also sehr allgemein. Sie wird den Forscher in den wenigsten Fällen zufriedenstellen, ihm vielmehr Anlaß für eine weitere Analyse der Daten sein, deren Ziel ist, herauszufinden, welche Anteilswerte nun differieren. Eine detaillierte Analyse des Datenmaterials kann von verschiedenen Phasen der Erhebung ausgehen und entsprechend unterschiedlich motiviert sein. Sind schon vor der Durchführung der Erhebung genaue Hypothesen explizit formuliert worden, so werden nur einige wenige sich aus diesen Hypothesen ergebende Vergleiche von bestimmten Anteilswerten analysiert. Dies ist in der Forschungspraxis jedoch nur selten der Fall. Mei-
Zeitschrift fürSozialpsychologiel979,10,220-225
stens bestehen keine präzisen Vorstellungen von möglichen Differenzen oder Zusammenhängen. Es scheint nun naheliegend, dem k-Stichprobentest noch Zwei-Stichproben-Paarvergleiche ank zuschließen, d. h. jede der ( ) paarweisen Anteilswertdifferenzen, jeweils mit dem Signifikanzniveau a, auf statistische Signifikanz zu prüfen. Diese Vorgehensweise würde jedoch das Gesamtsignifikanzniveau für das Experiment bzw. die Erhebung in unkontrollierter Weise erhöhen. Je mehr Paarvergleiche an denselben Daten vorgenommen werden, desto größer wird die Wahrscheinlichkeit, daß zumindest ein Test fälschlicherweise signifikant ausfällt, d.h. trotz Gültigkeit der Nullhypothese. Mit zunehmender Zahl der Vergleiche erhöht sich das Gesamtrisiko 1. Art, wobei in diesem Zusammenhang zwischen zwei Fehlertypen 1. Art zu unterscheiden ist. Die Fehlerrate pro Vergleich bezieht sich auf die Einzelvergleiche. Sie bezeichnet die Wahrscheinlichkeit dafür, daß ein Einzelvergleich irrtümlich als signifikant erklärt wird. Die Fehlerrate pro Experiment bezieht sich auf die Gesamtheit der in einem Experiment oder einer Erhebung durchführbaren Vergleiche. Sie bezeichnet die Wahrscheinlichkeit dafür, daß bei mindestens einem der Vergleiche H„ irrtümlich abgelehnt wird. Aus diesem Grunde sind nur Verfahren zulässig, die unabhängig von der Zahl der geprüften Anteilswertdifferenzen die Fehlerrate pro Experiment konstant halten. Diesem Erfordernis Rechnung tragend, wird in diesem Beitrag ein multiples Vergleichsverfahren für große Stichproben entwickelt, das einen simultanen Vergleich in dem eben definierten Sinn gestattet. Die multiplen Verk gleiche sind gegeben durch die ( ) Ungleichungen (2) | p, - Pj | < (* a (k - 1 ; 1 - l a ) ) , , a
i , j = l , . . . , k; i < j Dabei sind die p ; die Stichprobenanteilswerte n j / n j . Überschreitet eine D i f f e r e n z ^ - pjden kritischen Wert auf der rechten Seite von (2), so ist der Unterschied zwischen Gruppe i und Gruppe j si-
223 gnifikant. Eine detaillierte Ableitung der Ungleichungen (2) ist im Anhang, A2, zu finden. Das simultane Testverfahren ist konservativ, d.h. das Gesamtsignifikanzniveau ist höchstens a . Es besteht die Möglichkeit, außer Paarvergleichen auch Kontrastvergleiche durchzuführen, ohne das Gesamtsignifikanzniveau über a ansteigen zu lassen.
5. Ein empirisches Beispiel aus dem Bereich der gesetzlichen Schüler-Unfallversicherung An einem Teilaspekt der empirischen Unfallforschung (vgl. KEMENY, 1977) soll im folgenden die Vorgehensweise demonstriert werden. Zugrunde liegt ein im Bereich der gesetzlichen Schüler-Unfallversicherung empirisch gewonnener Datensatz, der insgesamt 60000von den einzelnen Versicherungsträgern der BRD im Jahre 1976 auf Zufallsstichprobenbasis erhobene Unfallanzeigen beinhaltet. In die Untersuchung des Sportunfallgeschehens wurden aufgrund der schwerpunktmäßigen Relevanz die Schularten (3) Grund- und Hauptschulen (1) Realschulen (2) Gymnasien (3) Berufsbildende Schulen (4) Sonderschulen (5) miteinbezogen. Das ursprünglich mehrkategorielle Merkmal «Unfallart» mit den Ausprägungen (4) Pause (1) Sport (2) Schulische Veranstaltung (3) Besondere schulische Veranstaltung (Exkursionen, Betriebspraktika, usw.) (4) Betriebsweg (Gang zum Schulhof bzw. Sportplatz, usw.) (5) wurde (künstlich) dichotomisiert in die beiden Alternativen «Sport» und «Nicht Sport». Als Ergebnis der Erhebung erhielt man die in Abschnitt 1 angegebene Kontingenztabelle. Die zu testende Nullhypothese lautet: Es besteht kein Zusammenhang zwischen dem Anteil des Sportunfallgeschehens am Gesamtunfallgeschehen und der Schulart. Verwendet man die in (1) angegebene Prüfgröße H*, so ergibt sich ein Wert von 2897,1, welcher hochsignifikant ist. Dies liegt natürlich im wesentlichen an dem über-
224
Hamerle & Kemeny: Simultane Gruppenvergleiche bei zufälligen Designs und dichotomen Erhebungsdaten
aus großen Stichprobenumfang. Die statistische Signifikanz besitzt allerdings auch eine substanzwissenschaftliche, d.h. unfallinformatorische, Relevanz, da man im nächsten Schritt wissen möchte, welche Schularten sich nun signifikant voneinander unterscheiden. Dabei stellt sich interessanterweise heraus, daß trotz des großen Stichprobenumfangs zweimal je zwei Schularten sich im Sinne des multiplen Vergleichstests nicht signifikant voneinander unterscheiden. Im einzelnen sieht die Vorgehensweise bei dem vorgeschlagenen multiplen Testmodell folgendermaßen aus:
Anhang AI: Ermittlung der in (1) angegebenen Prüf große H* Ausgangspunkt der Prüfung von H 0 ist der H-Test von Kruskal-Wallis. Da jedoch ein dichotomes Untersuchungsmerkmal vorliegt, ist eine für Ties (Verbundwerte) korrigierte Prüfgröße H* zu verwenden, welche auf mittleren Rängen beruht. Sie lautet (KRUSKAL, WALLIS, 1 9 5 2 ; L I E N E R T , 1 9 7 3 , p.265):
12 N(N + 1)
Wegen ( ) = 10 sind 10 paarweise Vergleiche
I
NJ ( R * - ( N + 1 ) / 2 ) 2
| P; - Pj | durchzuführen, wobei sich die Indizes gemäß (3) auf die jeweiligen Schularten beziehen. Bezeichnet man die kritischen Werte auf der rechten Seite von (2) mit K^, so ergeben sich die folgenden absoluten Differenzen:
H* =
|p,-p2|=0,19 * |Pi _ p31=0,269* |Pl-p4|=0,119* |Pi -p 5 1=0,066 | p 2 - p 3 ¡ = 0,079* | p 2 - p 4 ¡=0,071 |p 2 -p s |=0,256* |p3-p4|=0,15 * |p 3 -p 5 |=0,335* IP4_ Ps | = 0,185*
Bei der Bildung der korregierten Prüfstatistik H* geht man davon aus, daß sich die N Beobachtungen der gepoolten Stichproben nur in ( verschiedenen Werten realisieren (( < N). Ordnet man die Meßwerte der Größe nach, so bezeichnet t| die Zahl der auf ein und denselben Rangplatz entfallenden Meßwerte (i=1,..., Q. Die Rangaufteilung erfolgt durch Zuordnung der «mittleren» Rangzahl R* (xj. R* ist das arithmetische Mittel der mittleren Ränge unter Treatment j und n ; ist die Anzahl der Vpn unter Treatment j (j=1,..., k). Gemäss der (2 x k)-Kontingenztabelle in Abschnitt 3 erhalten die m, Werte der 1. Kategorie den mittleren Rang
K12 = 0,0642 K„ = 0,0524 K14 = 0,1121 K15 = 0,1088 K23 = 0,07 3 5 K24 = 0,1234 K25 = 0,1204 K34 = 0,1177 K35 = 0,1146 K45 =0,1515
Signifikante Differenzen sind durch (*) gekennzeichnet. Wie man sieht, bestehen keine signifikanten Unterschiede zwischen Grund- und Hauptschulen und Sonderschulen bzw. zwischen Realschulen und Berufsbildenden Schulen. Ferner ist ersichtlich, daß die Schulart Gymnasium in bezug auf das Sportunfallgeschehen eine Sonderstellung einnimmt, da sie zu allen anderen Schularten signifikante Differenzen aufweist. Diese Schulart führt in der Rangfolge der Sportunfallquoten.
t i - E (t- -1,) i=1 n3-n
1 + 2 + .. . + m,L 1 / = (m, + l ) , m,
2
die m2 = N - m, Werte der 2. Kategorie den mittleren Rang (m, +1) + . . . + N
1 = m 1 + 2 ( m 2 + l)
zugeordnet. Berechnet man die durchschnittlichen Rangsummen Rj* für die k Treatments und zieht jeweils den Erwartungswert (N+1)/2 ab, erhält man
225
Zeitschrift für Sozialpsychologie 1979,10,220-225
Rf - (N + 1 ) / 2 = (m, - Npj)/2 mit Pj = n, j/nj. Für das Korrekturglied im Nenner von H* ist ( = 2, tj = m, > und es resultiert
Verwendet man (1), so ist dies äquivalent mit Nm,m 2 (6) £ n ; (Npj - m,) 2 ^ %2 (k - 1; 1 - a) N -1 j= l
3m,m, Wird nun der Satz angewendet mit
N2 - 1 Damit ergibt sich für die Prüfgröße
y ^ V n ^ N p . - m , ) 1 = 1, . . . , k
a M
1
H* = — —
^
£
n^Npj-m,)2.
A2: Ableitung der Ungleichungen (2) Ausgangspunkt der Ableitung des multiplen Testmodells ist das folgende Lemma:
< = ^ a i = v^ a ' = 0 f ü r l * i , j 2
2
,
,
. Nmitii;
r = k , c = x (k - 1; 1 - a)
N -1 '
so ergibt die rechte Seite von (5) genau die Ungleichung (6). Daraus folgt nach dem Lemma die linke Seite von (5) und dies ergibt nach einfachen Umformungen das gewünschte Resultat (2).
Literatur
Lemma: Für c > 0 gilt
( 5 ) | I a i y , | < c ( £ a )' / 2 für alle ( a „ . . . , a r ) 1= 1 1=1
HAMERLE, A. 1979. Treatmentvergleiche bei kategorialen Daten und unabhängigen Stichproben. Psychologische Beiträge 21,112-124. KEMENY, P. 1978. Schülerunfälle 1976 - eine multivariate Untersuchung der Unfallstruktur in Kindergärten, Schulen und Hochschulen. Forschungsbericht 1977. Schriftenreihe der BAGUV zur Theorie und Praxis der Unfallverhütung und Sicherheitserziehung in Schulen und Kindergärten. KERLINGER, F. & KAYA, E . 1 9 5 9 . T h e p r e d i c t i v e v a l i d i t y o f
1=1
Beweis: vgl. M I L L E R , 1966, S.63. Unter H 0 gilt für große n; approximativ mit Wahrscheinlichkeit 1 - a: (k-1; 1 -a)
scales constructed to measure attitudes toward education. Educational and Psychological Measurement 19,305-317. KRUSKAL, W . H . & WALLIS, W . A . 1 9 5 2 . U s e o f r a n k s i n o n e -
cirterion variance analysis. J o u r n . A m e r . Statist. Assoc. 47, 583-612.
LIENERT, G. A. 1973. Verteilungsfreie Methoden in der Biostatistik. 2.Auflage. Meisenheim am Glan: Anton Hain. MILLER, R . G . Jr. 1966. Simultaneous statistical inference. New York: Wiley.
B
226
Zelinka: Zum Einfluß der Protokolleinheiten auf den Aussagewert von Inhalts(Frequenz-)analysen
Zum Einfluß der Protokolleinheiten auf den Aussagewert von Inhalts(Frequenz-)analysen FRITZ F. ZELINKA Sozialwissenschaftliches Institut der Bundeswehr, München
Die Bestimmung von recording units (Protokolleinheiten) bei Textanalysen (Inhaltsanalysen) ist seit langem umstritten und muß als noch nicht gelöst betrachtet werden. Der vorliegende Beitrag versucht exemplarisch nachzuweisen, ob «formalbestimmte» (gleiche Anzahl von Textzeilen) Protokolleinheiten im Vergleich mit «natürlichen» (vom Autor durch Absatz, Überschrift oder Abschnitt deutlich als Besprechungseinheit gekennzeichnet) Protokolleinheiten - nach angewandten Rechenprozeduren - zu voneinander abweichenden Analyseergebnissen führen. Es kann gezeigt werden, daß sich die Wahl der Protokolleinheiten zwar auf die erzielten quantitativen Ergebnisse auswirkt, die eingetretenen Verschiebungen in der Ergebniskonstellation aber nicht so bedeutsam sind, daß hierdurch die zur Interpretation erforderliche Datenkonstellation - als Ergebnis verschiedener statistischer Prozesse der Komplexitätsreduktion - wesentlich verfälscht wird.
Although the definition of recording units being connected with content analysis is controversial since a long time, the problem has not yet been settled. This essay tries to answer the question, whether recording units defined by «formal» criteria (e.g. same number of lines) compared with «natural» recording units (e.g. paragraphs determined by the author of a text) will generate different results or not when analysis is undertaken by appropriate methods. According to the finding it can be said: how to define recording units affects the gained quantitative results, indeed; but shifts in result distribution are not so important that the constellation of data necessary for interpretation is garbled in vital points.
Betrachtet man die aufliegenden Dokumentationen über durchgeführte oder laufende Forschungsarbeiten (vgl. Informationszentrum für sozialwissenschaftliche Forschung, 1972-1977), ist leicht festzustellen, daß der Anteil empirischer Untersuchungen, die sich inhaltsanalytischer Methoden und Verfahren bedienen, um über die in ausgewählten Texten vertretenen Meinungen und Ansichten zentrale Aussagen zu ermöglichen, in den letzten Jahren erheblich angestiegen ist. Den meisten Studien gemeinsam ist, daß nach kommunizierten Inhalten in Texten gefragt wird.
auch BERELSON, 1967, p.488f.). Der Begriff «manifester Inhalt» hebt hierbei auf die vom Rezipienten (z.B. Leser, Hörer, Zuschauer) während des Kommunikationsvorgangs aufgenommenen Mitteilungen, die in Kommunikationseinheiten verpackt sind, ab. Bei dieser Betrachtungsweise wird also davon ausgegangen, daß die explizite Bedeutung einer kommunikativen Einheit, «letztlich also das, was innerhalb eines bestimmten Sprachkreises N-SIG) erweisenden Paarvergleiche ändern, wobei nur b von SIG nach N-SIG und c von N-SIG nach SIG wechseln können (vgl. Abb.2). natürliche Protokolleinheiten (Gruppe 1)
formalbestimmte Protokolleinheiten (Gruppe 2) SIG
N-SIG
SIG
Zelle a
Zelle b
N-SIG
Zelle c
Zelle d
Abb.2: Vierfeldertafel zum Vorzeichentest von M C N E M A R , angewendet auf den Paarvergleich aufgrund der Ergebnisse der Kontingenzanalyse.
b+C
6,4 Vergleich der Ergebnisse der Kontingenzanalysen nach dem V o r z e i c h e n t e s t v o n MCNEMAR
Man kann nun danach fragen, ob die Art der Protokolleinheiten Auswirkungen auf die Ergebnisse der Paarvergleiche hat. Davon ausgehend, daß das gleiche Textmaterial unter den variierten Bedingungen der Festlegung der Protokolleinheiten auf das alternative Merkmal «Zutreffen oder Ablehnen der Nullhypothese beim kategorialen Paarvergleich» hin untersucht wird, kann nicht mehr von unabhängigen Vergleichen gesprochen werden; jeder Paarvergleich liefert zwei Beobachtungsdaten, die einander paarweise zugeordnet sind. «Das Häufigkeitsverhältnis der beiden Alternativen wird sich von der ersten zur zweiten Untersuchung mehr oder weniger verändern» (SACHS, 1972, p. 283); die Stärke dieser Änderung p r ü f t der Vorzeichentest von MCNEMAR (vgl.
I s t d i e B e d i n g u n g — — > 4 ( v g l . BENNETT & U N -
DERWOOD, 1970, p.339ff.) erfüllt, dann besteht — 2 die Möglichkeit, solche Änderungen nach chi = ib(h+ -c + ^1 zu testen. Für die Zellenhäufigkeiten b + c gelten dann Erwartungshäufigkeiten von jeweils (b + c)/2. «Je mehr b und c von diesem Erwartungswert abweichen, um so weniger wird man auf die Nullhypothese vertrauen» (SACHS, 1972, p.282). Beim hier vorliegenden Vergleichstest ergeben sich die Werte nach Tabelle 3. Die der P r ü f u n g zugrunde gelegte Nullhypothese (H 0 ) besagt, daß kein echter Unterschied hinsichtlich des Auftretens von SIG bei Anwendung der Kontingenzanalyse auf beide Gruppen erkennbar ist. Unter Zugrundelegung einer Irrtumswahrscheinlichkeit von 0 , 1 % darf diese Nullhypothese nicht verworfen werden. Die Beschaffenheit der
237
Zeitschrift für Sozialpsychologie 1979,10,226-242
Tab. 3: Vierfeldertafel zur Berechnung von chi*.
Tab.4: Eigenwerttabelle für die ersten 10 Faktoren.
natürliche Protokolleinheiten (Gruppe 1)
Hauptstudie
Gruppe 1
Gruppe 2
9,17
9.37
7.11
4.77
5.88
4.55
2.76
3.44
3.86
2.51
2.99
3.54
2.45
2.74
2.87
2.03
2.38
2.54
1.78
2.18
2.30
1.54
2.13
1.99
1.40
1.93
1.79
1.36
1.68
1.73
formal bestimmte Protokolleinheiten (Gruppe 2) SIG
N-SIG
z
SIG
122
181
303
N-S1G
135
1642
1777
I
257
1823
2080
chi ] = 6,675 < o ,ooi chi J = 10,827; Die Hypothese H 0 kann bei Zugrundelegung des 0,1%-Signifikanzniveaus 1 nicht verworfen werden. ' Die Festlegung des sehr hochgegriffenen Signifikanzniveaus rechtfertigt sich aus der Qualität der vorliegenden und verarbeiteten Daten ebenso wie aus der Datenerhebung selbst und aus Vergleichsergebnissen der durchgeführten Korrelationen. Bei Abschätzung der «Gewinne und Verluste» (vgl. WAID, 1950), die eine möglicherweise fehlerhafte Entscheidung, einhergehend mit der Beurteilung der Nullhypothese, mit sich bringt, kann in der möglicherweise ungerechtfertigten Ablehnung der H 0 eine folgenschwerere Entscheidung gesehen werden, als in einer ungerechtfertigten Beibehaltung der H„.
Protokolleinheiten wirkt sich im Rahmen der Ergebnisse, die mittels der Kontingenzanalyse erreicht werden, nicht hochsignifikant aus.
torenanalyse im Hinblick auf das hier vorliegende Untersuchungsziel rechtfertigt sich allein aus dem Verständnis, daß ein Ziel der Faktorenanalyse darin gesehen werden kann, damit «Variablen sinnvoll zu ordnen und zu beschreiben» (DIEHL & KoHRl977,p.363). AufeineausführlicheDiskussion des Für und Wider der Anwendung von Faktorenanalysen, der Durchführung und ihrer Voraussetzungen, der notwendigen Datenqualität und ihrer Aussagereichweite sei an dieser Stelle verzichtet (vgl. hierzu z . B . KRIZ, 1973, p . 2 5 2 f f . ; DIEHL & K O H R , 1 9 7 7 , p . 3 3 8 f f . ; Ü B E R L A , 1 9 6 8 ) .
6.5 Zu den Ergebnissen der durchgeführten Faktorenanalysen Diein allen drei Untersuchungen, d.h. der Hauptuntersuchung und den beiden Teiluntersuchungen, nach dem vorgegebenen Kategorien- und Dimensionsschema ermittelten Variablen können als Indikatoren der interessierenden Phänomene aufgefaßt werden. Es läßt sich aber nicht mit letzter Sicherheit sagen, ob diese unterschiedlich konzipierten Indikatoren die gleichen oder verschiedene inhaltliche Bereiche messen. «Mit Hilfe der Faktorenanalyse soll deshalb ermittelt werden, auf wieviel unabhängige Dimensionen sich eine größere Anzahl von gemessenen Variablen (d.h. Indikatoren), die miteinander in Zusammenhang stehen, reduzieren läßt (MAYNTZ et al., 1972, p.229). Zur Unterscheidung gegenüber den Dimensionen, zu welchen sich das zur Erfassung und Kodierung hergestellte Kategorienraster aggregiert, seien diese in der ursprünglichen Erhebung nicht explizit formulierten Dimensionen als «Faktoren» bezeichnet. Die Anwendung der Fak-
Auch soll nicht versucht werden, die Faktoren über eine einfache Numerierung hinaus zu benennen oder sie über die j n ihnen enthaltenen Variablen zu interpretieren; das Ordnungs- und Beschreibungsprinzip allein soll die Überlegungen leiten. Die Bestimmung der Eigenwerte der j e Untersuchung auftretenden Faktoren gibt einen ersten Hinweis auf die Faktorenordnung im analysierten Material, wenn man die Eigenwerte als relative Größe der Varianzanteile auffaßt, die durch die einzelnen Faktoren aufgeklärt werden (vgl. Tabelle 4). Veranschaulicht man die Abfolge der Eigenwerte der Faktoren aller drei Untersuchungen grafisch (vgl . A b b . 3 ) , s o i s t damit ein Weg gewiesen, zu entscheiden, «wieviele Faktoren zur Klärung der Beziehungen zwischen den Ausgangsvariablen erforderlich bzw. hinreichend sind» (DIEHL & KOHR, 1977, p.362). Einerseits wird pseudo-rational gefordert, daß alle in Erwägung zu ziehenden Faktoren Eigenwerte von 1,0 oder größer aufweisen sollen (vgl. ÜBERLA, p. 127 f.), andererseits soll sich in der Abfolge der Eigenwerte ein deutlicher, auch zahlenmäßig be-
238
Zelinka: Zum Einfluß der Protokolleinheiten auf den Aussagewert von Inhalts(Frequenz-)analysen
Eigenwerte
1
2
3
4
5
6
7
8
9
10
Faktorenzahl
Legende: Verlauf der Eigenwerte der Faktoren bei —
—
-
Hauptstudie Teiluntersuchung Gruppe 1 Teiluntersuchung Gruppe 2
Abb.3: Scree-Test zur Feststellung von Sprungstellen in der Abfolge der Eigenwerte zur Abschätzung von Hauptfaktorengruppen
legbarer, Knick abzeichnen, wenn davon ausgegangen werden darf, daß nicht lediglich Zufallskorrelationen vorliegen (vgl. z.B. FÜRNTRATT, 1969, p. 68; CATTELL, 1966). In den bei der hier beschriebenen Analyse vorliegenden Faktorkombinationen bieten sich nach obigen Kriterien -
f ü r die Hauptstudie eine Drei-Faktoren-Lösung oder eine Fünf-Faktoren-Lösung, f ü r die G r u p p e 1 eine Drei-Faktoren-Lösung und f ü r die G r u p p e 2 entweder eine Zwei- oder eine Fünf-Faktoren-Lösung an (vgl. Abb. 3).
Um die erzielten Faktorkombinationen aller drei Vergleichsuntersuchungen zumindest formal gegeneinander stellen zu können, ist es erforderlich, sich auf eine allen Analysen gemeinsame Faktorenzahl zu einigen, d . h . daß nach dem Mehrheitsprinzip die Drei-Faktoren- oder FünfFaktoren-Lösungen in Betracht zu ziehen wären. Ausschließlich eindeutige Variable, die Ladungen von F > 0.40 aufweisen, werden berücksichtigt. Die Drei-Faktoren-Lösung (vgl. Tabelle 5) zeigt, daß alle gegeneinander gestellten Untersuchungen mindestens 10 gleiche Variablen im jeweiligen Faktor X aufzuweisen haben; dies bedeutet, daß in jeder Untersuchung der jeweilige Faktor X zumindest zu 2A der beinhalteten Variablenzahl mit dem Faktor X der Vergleichsuntersuchung übereinstimmt. Für die Faktoren Y und Z stellen sich die Ergebnisse ungünstiger dar; beim Faktor Y schmilzt das für alle drei Untersuchungen zutreffende Ergebnis auf 2 Variable (= 14) und beim Faktor Z auf eine Variable (= Ve) zusammen. Die abnehmende Anzahl von in den Faktoren auftretenden gleichen Variablen ist mit zunehmender akzeptierter Faktorenzahl grundsätzlich bei allen Vergleichen zu bemerken; lediglich der Vergleich «Haüptstudie» gegen «Gruppe 2» zeigt etwa gleichbleibende Verhältnisse. Die Fünf-Faktoren-Lösung zeigt ein ähnliches Bild. In den jeweiligen Faktoren A der verglichenen Untersuchungen sind aber nur mehr 3 gleicheVariablen vertreten (37,5%), ebenso wie in den Faktoren B; die Faktoren C weisen 4 gleiche Variablen auf, die Faktoren E drei (50%) und die Faktoren D zeigen vollkommen voneinander abweichende Variablenkonstellationen. Der Vergleich der Variablenanordnung in den Faktoren macht deutlich, daß die höchste Übereinstimmung der Variablen in den ausgewiesenen Faktoren zwischen der «Hauptstudie» und der « G r u p p e 1» besteht, während der Vergleich der « G r u p p e 1» mit « G r u p p e 2» nicht bedeutend schlechter ausfällt als der Gesamtvergleich.
7.
Ergebnisüberblick zu den durchgeführten Vergleichen
Miteinander verglichen wurden Ergebnisse, die aufgrund inhaltsanalytischer Verfahren erzielt wurden; die inhaltsanalytischen Verfahren waren auf ein Textmaterial angewandt worden, welches
Zeitschrift für Sozialpsychologie 1979,10,226-242
239
Tab. 5: Variablenordnung innerhalb der Faktoren nach Untersuchungen bei einer Drei-Faktorenlösung. Faktoren Untersuchung Varianz % Variable (Kategorien-Nr.), die zusammen den entsprechenden Faktor ausmachen und die mit Ladungen F > 0.40 ausgewiesen sind
Faktor X Hauptstudie 7,3
Faktor Y
Gruppe Gruppe 1 2 14,4
10,9
Hauptstudie 2,8
5
Faktor Z
Gruppe Gruppe 2 1 9,0
5,9
Hauptstudie 14,1
5,2
1 6
12
12
2
2 3
4 5
13
13
13
18
18
18
8 11
19
19
19
28
28
28
4
4
10 22 32
11
34
16
16 17
22
48
9
9
6
43 47
7,0 1
10
38 43 44
23
45
45
49
24
24
46
46
52
26
26
49
52
52
53
53
30
62
54
34
34
63
55
55
35
35
64
56
56
57
57
63
63 64
36 57
37 42
37
58
58
59
59
59
60
60
60
61
61
46
65
47
65
Gruppe Gruppe 1 2
37
38
65
67
44
48 49
Anzahl gemeinsamer Variablen in allen Untersuchungen je Faktor
10 66,7%*
Anzahl gemeinsamer Variablen in Hauptstudie und Gruppe 1 je Faktor
13
Anzahl gemeinsamer Variablen in Hauptstudie und Gruppe 2 je Faktor
10 66,7%*
Anzahl gemeinsamer Variablen in Gruppe 1 und Gruppe 2 je Faktor
10 66,7%*
86,7%*
2
33,3%*
1
16,7%*
6 40,0%*
1
12,5%*
3
50,0%*
4
66,7%*
3
50,5%*
2
33,3%*
* Relativiert auf die Anzahl möglicher Gleichsetzungen: Bezugsgröße ist die jeweils kleinste auftretende Variablenzahl eines Faktors in den verglichenen Untersuchungen.
240
Zelinka: Zum Einfluß der Protokolleinheiten auf den Aussagewert von Inhalts(Frequenz-)analysen
Tab. 6: Variablenordnung innerhalb der Faktoren nach Untersuchungen bei einer Fünf-Faktorenlösung Faktoren
Faktor A
Untersuchung
Hauptstudie
Varianz %
14,1
Variable (Kategorien-Nr.), die zusammen den entsprechenden Faktor ausmachen und die mit Ladungen F > 0.40 ausgewiesen sind
Faktor B
Gruppe Gruppe 1 2 9,0
10,9
Hauptstudie 7,3
Faktor C
Gruppe Gruppe 1 2 5,9
14,3
12
Hauptstudie 4,2
Gruppe Gruppe 1 2 4,6
13
23
1
15 28
18
43 44
44
45
45
55
55
46
46
56
56
2 4
4
20
6
6
23
8
8 11
11
16
16
47
57
57
48
48
48
58
58
20
49
49
49
59
59
22
22
60
60
60
24
24
62
61
61
61
25
65
65
65
26
62
63
63
57
64
64
4
12
47
62
7,0
30 34
34
35
35
35
36
36
36
37
37
37
38 42 45 63 Anzahl gemeinsamer Variablen in allen Untersuchungen je Faktor
3
37,5%*
3
37,5%*
4
36,4%*
Anzahl gemeinsamer Variablen in Hauptstudie und Gruppe 1 je Faktor
6
75,0%*
8
100%*
8
61,5%*
Anzahl gemeinsamer Variablen in Hauptstudie und Gruppe 2 je Faktor
5
55,6%*
3
37,5%*
5
38,5%*
Anzahl gemeinsamer Variablen in Gruppe 1 und Gruppe 2 je Faktor
4
50,0%*
3
37,5%*
6
54,5%*
* Relativiert auf die Anzahl möglicher Gleichbesetzungen; Bezugsgröße ist mit der jeweils kleinsten auftretenden Variablenzahl eines Faktors in den verglichenen Untersuchungen festgelegt.
nach zwei verschiedenen Maßgaben in Analyseeinheiten (Protokolleinheiten) gegliedert wurde, nämlich einerseits in «natürliche» Protokollein-
heiten (Gruppe 1) und andererseits in «formalbestimmte» Protokolleinheiten (Gruppe 2). Da dieses Textmaterial zufällig aus dem Textmaterial,
241
Zeitschrift für Sozialpsychologie 1 9 7 9 , 1 0 , 2 2 6 - 2 4 2
Faktor D
Faktor E
Haupt-
Gruppe
Gruppe
Haupt-
Gruppe
Gruppe
studie
1
2
studie
1
2
3,9
4,2
3
3
4,4
5
3,8
5,3
2
2
9
9
7
7
10
10
23
12
12
27
5,4
9 18
8
19
13
19
27
27
33 52
15 17
52
52
54
54
18
58 21 24 25 26
28 29 31 44 59
0
0,0%*
3
50,0%*
3
37,5%»
4
66,7%*
0
0,0%*
4
66,7%*
«Hauptstudie» hinsichtlich ausgewählter Ergebnisse zu konfrontieren. Allen Vergleichsuntersuchungen lag dasselbe Kategorien-Dimensionsschema, bestehend aus 251 Kategorien, die zu 59 Dimensionen aggregiert waren, zugrunde. Die Vergleiche der Rangordnungen, die sich nach Belegungshäufigkeiten der Kategorien bzw. Dimensionen ergaben, wiesen auf keineErgebnisunterschiede zwischen den Gruppen 1 und 2, herrührend von der unterschiedlichen Festlegung der Protokolleinheiten, hin. Auch die Ergebnisse der durchgeführten Kontingenzanalysen ließen auf keine unterschiedlichen Assoziationsstrukturen zwischen den Gruppen 1 und 2, die auf die nach verschiedenen Kriterien erfolgte Festlegung der Analyseeinheiten zurückzuführen wären, schließen. Dagegen zeigten die Ergebnisse der durchgeführten Faktorenanalysen sowohl in ihren Faktorlösungen als auch in der Faktorbelegung mit Variablen Abweichungen; je höher die Anzahl der in die Lösungen einbezogenen Faktoren gewählt wurde, desto unterschiedlicher und voneinander abweichender stellten sich die Variablenbelegungen der Faktoren nach den verglichenen Gruppen, einschließlich der Hauptstudie, dar. Grundsätzlich gesehen, reichen die erzielten Vergleichsergebnisse jedoch nicht aus, die Behauptung zu erhärten, daß Ergebnisse von Inhalts(Frequenz-)analysen, die bei Textuntersuchungen zur Anwendung gelangen, durch die Wahl und den Festlegungsmodus von Analyseeinheiten bzw. Protokolleinheiten so stark beeinflußt werden, daß damit bedeutsam unterschiedliche Interpretationsausgangslagen geschaffen sind. Literatur ANDRÄ, S . 1 9 7 4 . D a s I n f o r m a t i o n s a n g e b o t d e r B u n d e s w e h r im B e r e i c h der p o l i t i s c h e n B i l d u n g - E i n e q u a n t i t a t i v e Inhaltsanalyse.
In:
Bundesministerium
der
Verteidigung
( H r s g . ) : S o z i a l w i s s e n s c h a f t l i c h e s Institut der B u n d e s w e h r - I n f o r m a t i o n s s c h r i f t 1, S c h r i f t e n r e i h e I n n e r e F ü h r u n g , 0
0,0%*
4
66,7%*
R e i h e A u s b i l d u n g u n d B i l d u n g , 17, 2 6 - 2 8 . ANDRÄ, S . , ANKER, I. & ZELINKA, F . F . 1 9 7 6 . D a s I n f o r m a t i o n s a n g e b o t der B u n d e s w e h r im B e r e i c h der P o l i t i s c h e n B i l d u n g - E i n e q u a n t i t a t i v e I n h a l t s a n a l y s e . In: B u n d e s m i n i s t e r i u m der V e r t e i d i g u n g ( H r s g . ) : S o z i a l w i s s e n s c h a f t l i c h e s Institut der B u n d e s w e h r - I n f o r m a t i o n s s c h r i f t 2 ,
das einer größeren inhaltsanalytischen Studie zugrunde lag, ausgewählt war, bestand zusätzlich die Möglichkeit, die Gruppen 1 und 2 mit dieser
S c h r i f t e n r e i h e I n n e r e F ü h r u n g , R e i h e A u s b i l d u n g u n d Bildung, 2 3 , 1 1 - 1 5 . ANDRÄ, S . 1 9 7 8 a . Z u m Bild d e s S t a a t e s in der Z e i t s c h r i f t « I n f o r m a t i o n f ü r d i e T r u p p e » - E r g e b n i s s e einer q u a n t i t a t i v e n
242
Zelinka: Zum Einfluß der Protokolleinheiten auf den Aussagewert von Inhalts(Frequenz-)analysen
Inhaltsanalyse. In: Bundesministerium der Verteidigung (Hrsg.): Sozialwissenschaftliches Institut der Bundeswehr - Informationsschrift 3, Schriftenreihe Innere Führung, Reihe Ausbildung und Bildung, 32, 70-86. ANDRÄ, S. 1978b. Das Informationsangebot der Bundeswehr im Bereich der politischen Bildung. In: Sozialwissenschaftliches Institut der Bundeswehr (Hrsg.): Berichte, 13, München: Selbstverlag. BENNETT, B . M . & UNDERWOOD, R . E . 1 9 7 0 . O n M c N e m a r ' s
test for the 2 x 2 table and its power function. Biometrics, 26,339-343. BERELSON, B. 1952. Content analysis in communication research. Glencoe, 111.: Free Press. BERELSON, B. 1967. Content analysis. In: Lindzey, G. (Ed.): Handbook of Social Psychology. Vol. 1, Cambridge Mass.: Addison-Wesley, 488, 518. BÜSCHGES, G. 1973. Empirische Sozialforschung. In: Herder (Hrsg.): Wissen im Überblick. Die Moderne Gesellschaft. Freiburg i.Br./Basel/Wien: Herder, 632-649.
between correlated proportions or percentages. Psychometrika, 12,153-157. MALETZKE, G. 1963. Psychologie der Massenkommunikation. Hamburg: Hans Bredow Institut. MAYNTZ, R . , HOLM, K . & HÜBNER, P . 1 9 7 2 . E i n f ü h r u n g i n d i e
Methoden der empirischen Soziologie. Opladen: Westdeutscher Verlag. OSGOOD, C.E. 1959. The representational model and relevant research methods. In: De Sola Pool, I.(Ed.):Trendsincontent analysis. Urbana: Univ. of Illinois Press, 33-88. PAPPERT, P. 1973. Quantifizierung. In: Fuchs, W., Klima, R., Lautmann, R. Rammstedt, O. & Wienold, H. (Hrsg.): Lexikon zur Soziologie. Opladen: Westdeutscher Verlag, 537. RITSERT, J. 1972. Inhaltsanalyse und Ideologiekritik - Ein Versuch über kritische Sozialforschung. Frankfurt a.M.: Athenäum Fischer. SACHS, L. 1972. Statistische Auswertungsmethoden. Berlin/ Heidelberg/New York: Springer. SCHEUCH, E . K . 1 9 6 7 . E n t w i c k l u n g s r i c h t u n g e n b e i d e r A n a -
of communications. New York: Mac Millan. CATTELL, R. B. 1966. The screetest for the number of factors in multivariate behavioral research (1). Multivariate Behavioral Research, 1, 245-276.
lyse sozialwissenschaftlicher Daten. In: König, R. (Hrsg.): Handbuch der empirischen Sozialforschung, Bd.l. Stuttgart: Enke, 655-690. SCHNEIDER, G. 1962. Aufgabensammlung zur statistischen Methodenlehre. München: Selbstverlag.
DIEHL, J . M . & K O H R , H . - U . 1 9 7 7 . M e t h o d e n i n d e r P s y c h o l o -
SCHNELL, F . & GEBHARDT, F . 1 9 7 6 . H a u p t a c h s e n - F a k t o r e n -
gie, Bd. 1: Deskriptive Statistik. Frankfurt a.M.: Fachbuchhandlung für Psychologie. FÜRNTRATT, E. 1969. Zur Bestimmung der Anzahl interpretierbarer gemeinsamer Faktoren in Faktorenanalysen psychologischer Daten. Diagnostika, 15, 62-75. GEBHARDT, F. 1968. A counterexample to twodimensional varimax-rotation. Psychometrika, 33, 35-36. GEORGE, A. 1959. Quantitative and qualitative approaches to content analysis. In: De Sola Pool, I. (Ed.): Trends in content analysis. Urbana: Univ. of Illinois Press, 7-32. HERKNER, W. 1974. Inhaltsanalyse. In: Koolwijk, J.v.& Wieken-Mayser, M. (Hrsg.): Techniken der empirischen Sozialforschung, H. 3 Erhebungsmethoden: Beobachtung und Analyse von Kommunikation. München/Wien: Oldenbourg, 158-191. HOLSTI, O. R. 1969. Content analysis for the social sciences and Humanities, Reading (Mass.): Addison-Wesley. Informationszentrum für sozialwissenschaftliche Forschung (Hrsg.): 1971 bis 1976. Forschungsarbeiten in den Sozialwissenschaften, Dokumentation. München-Pullach/Berlin: Verlag Dokumentation und Stuttgart: Kohlhammer. KRACAUER, S. 1959. The challenge of qualitative content analysis. In: Public Opinion Quarterly, 16,631-642. KRIZ, J. 1973. Statistik in den Sozial Wissenschaften. Reinbek: Rowohlt. KRIZ, J. 1975. Über den Unterschied zwischen Bedeutungsfeldern und Assoziationsstrukturen - Anmerkungen zu Ansgar Weymanns gescheitertem Versuch, ein neues Verfahren der Inhaltsanalyse zu entwickeln. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 27, 312-317. MCNEMAR, Q. 1947. Note on sampling error of the differences
analyse PAFA, Faktorenanalyse nach der Hauptachsenmethode mit iterativer Kommunalitätenschätzung (Fortran IV), Bonn: Deutsches Rechenzentrum (Vervielfältigung). SCOTT, W.A. 1955. Reliability of content analysis: The case of nominal scale coding. Public Opinion Quarterly, 19, 321325.
B U D D , R . , THORP, R . & DONOHEW, L . 1 9 6 7 . C o n t e n t a n a l y s i s
SELLTIZ, C . , JAHODA, M . , DEUTSCH, M . & COOK, S . W . 1 9 7 2 .
Untersuchungsmethoden der Sozialforschung, Teil II. Neuwied/Darmstadt: Luchterhand. SILBERMANN, A. 1967. Systematische Inhaltsanalyse. In: König, R. (Hrsg.): Handbuch der empirischen Sozialforschung, Bd.l. Stuttgart: Enke, 570-600. STONE, P. J. 1966. Content analysis. In: Stone, P. J., Dunphy, D.C., Smith, M.S. ÄOlgivie, D. M. (Eds.): TheGeneral Inquirer. Cambridge(Mass.)/London: M.I.T. Press, 2-277. ÜBERLA, K. 1968. Faktorenanalyse. Berlin/Heidelberg/New York: Springer. WALD, A. 1950. Statistical decision functions. New York: Wiley. WERSIG, G. 1968. Inhaltsanalyse-Eine Einführung in ihre Semantik und Literatur. Berlin: Spieß. WEYMANN, A. 1973. Bedeutungsfeldanalyse - Versuch eines neuen Verfahrens der Inhaltsanalyse am Beispiel der Didaktik der Erwachsenenbildung. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 25,761-776. ZELINKA, F.F. 1979. Präferenzen sozialwissenschaftliche Militärforschung in der Bundesrepu^^KM blik Deutschland - Ein inhaltsanalytisches Mo^ ^ H dell zur Forschungsplanung. Frankfurt a.M.: ] Lang.
243
Zeitschrift für Sozialpsychologie 1979,10,243-252
Maße der Beobachterübereinstimmung: Ein systematischer Vergleich J E N S ASENDORPF & H A R A L D G . WALLBOTT
Eine systematische Darstellung verschiedener Möglichkeiten der Reliabilitätsberechnung bei Beobachtungs- bzw. Beurteilungsuntersuchungen wird gegeben. Dazu werden die verschiedenen Methoden auf Intervall-, Ordinal- und Nominalskalenniveau dargestellt und durch Zahlenbeispiele illustriert, wobei besonderer Wert auf die Herausarbeitung von Vor- und Nachteilen einzelner Methoden und der Beziehungen der verschiedenen Größen untereinander gelegt wird. Schließlich wird eine Technik vorgeschlagen, mit deren Hilfe auch die Reliabilität von Kodierungen von Ereignissen im Zeitverlauf ermittelt werden kann.
A systematic representation of different possiblities to determine reliability of observation - or judgement - studies is given. Different methods, applicable to interval-, ordinal-, and nominal-scales are presented and illustrated by examples. Advantages and disadvantages of the different methods and the relations between the scores are discussed in detail. Finally a technique is proposed that allows the determination of reliability for coding data of events in time.
Einleitung
W E R N E R , 1 9 7 6 ; HOLLENBECK, 1 9 7 8 ) ,
Sozialpsychologische Forschung und ihre Anwendung erfordert oft menschliche Beobachter oder Beurteiler, deren Aufgabe es ist, Ereignissen (Verhaltenseinheiten) Kategorien oder Skalenwerte zuzuordnen. Beobachtungs-, Beurteilungsund Kategorisierungstechniken spielen unter anderem bei der Untersuchung verbalen und nonverbalen Verhaltens, bei inhaltsanalytischen Techniken oder bei Beurteilungsstudien der verschiedensten Art eine dominierende Rolle. Sie liegen damit vielen Untersuchungen der Sprachpsychologie, der Medienforschung, der nonverbalen Kommunikationsforschung oder der Attributions- und Personenwahrnehmungsforschung zugrunde. Der menschliche Beobachter bzw. Beurteiler als Meßinstrument ist aber - wie jedes Meßinstrument - mit Fehlern behaftet, die durch Reliabilitätsmaße kontrolliert werden müssen. Die Festlegung bzw. Berechnung der Reliabilität der Ratings (Beurteiler, Rater- oder Kodiererübereinstimmung) erfreut sich allerdings bisher - der Wichtigkeit des Problems unangemessen - einer gewissen Willkürlichkeit und Beliebigkeit. Obwohl in einigen Arbeiten versucht wurde, eine systematische Darstellung verschiedener Möglichkeiten der Reliabilitätsbestimmung zu geben (vgl. KRIPPENDORFF, 1 9 7 0 ; TINSLEY & WEISS,
1975;
beschränken sich Reliabilitäts- bzw. Beurteilerübereinstimmungs-Angaben oft auf einfachste (und, wie zu zeigen sein wird, problematische) Daten über prozentuale Übereinstimmung. Oft werden Reliabilitätskoeffizienten berichtet, ohne daß deren genaue Art der Berechnung spezifiziert wird. Schließlich finden sich selbst in renommierten Handbüchern und Übersichtsartikeln zu diesem Thema Unstimmigkeiten und sogar Fehler . In dieser Arbeit soll versucht werden, verschiedene verbreitete und auch weniger bekannte Methoden der Reliabilitätsbestimmung im Zusammenhang darzustellen, die Vor- und Nachteile der Methoden voneinander abzuheben und die Beziehungen der verschiedenen Größen untereinander deutlich zu machen. Ein vollständiger Überblick kann dabei - auch aus Platzgründen - nicht gegeben werden. Im Mittelpunkt steht die Darstellung auch ohne größeren rechnerischen A u f w a n d durchführbarer Verfahren. Dabei wurde ange' So wird, um nur ein Beispiel zu nennen, in einem Artikel über «systematische Beobachtung» von VON CRANACH und l_p p_p FRENZ (1969) der Koeffizient K - falsch - als - — ^ statt - — ^ angegeben. Außerdem hat COHEN (1960) nicht, wie in diesem Artikel ebenfalls dargestellt wird, «... Scotts Koeffizienten (den er Kappa nennt) aufgegriffen...»(p. 302), sondern ihn in einem wichtigen Aspekt, nämlich der Schätzung der nach Zufall zu erwartenden Übereinstimmung P,modifiziert (vgl. später in der vorliegenden Arbeit).
244
A s e n d o r p f & Wallbott: M a ß e der B e o b a c h t e r ü b e r e i n s t i m m u n g . Ein systematischer Vergleich
strebt, Techniken, die A n w e n d u n g auf den jeweiligen Niveaus der Intervall-, Ordinal- u n d N o m i nalskala finden k ö n n e n , im Z u s a m m e n h a n g systematisch a u f e i n a n d e r bezogen darzustellen u n d mit Zahlenbeispielen zu illustrieren. Gleichzeitig w u r d e versucht, eine einheitliche Terminologie in der mathematischen Darstellung d u r c h z u h a l t e n , die V e r w a n d t s c h a f t e n u n d Beziehungen zwischen verschiedenen Koeffizienten o f t erst deutlich werden läßt. Die vorliegende Arbeit stellt nicht zuletzt die F o r d e r u n g , mehr Sorgfalt als bisher o f t üblich dem P r o b l e m der Reliabilitätsermittlung zu widmen u n d bei der A n g a b e von Reliabilitätsdaten genau zu spezifizieren, welcher Koeffizient berechnet wurde. N u r so ist es möglich, Reliabilitätsangaben kritisch zu würdigen u n d miteinander zu vergleichen.
Reliabilität auf Intervallskalenniveau Gegeben sind eine N - P u n k t e - S k a l a 1 , . . . , N und k Items (Verhaltenseinheiten, P e r s o n e n usw.), die von n Ratern auf dieser Skala beurteilt werden. Diese Ratings lassen sich in der folgenden Matrix darstellen:
1 Items
.
Rater j
n
1
x,,
. ..
x„
...
x,„
i
xn
. ..
x„
...
X.n
k
Xk|
x
kj
Xkn
Alle im folgenden a u f g e f ü h r t e n ReliabilitätsG r ö ß e n h a b e n die Voraussetzungen einer Varianzanalyse, d . h . Intervallskalenniveau u n d a n n ä h e r n d e multivariate Normalverteilung der Matrix (1). M a n k a n n mit (1) eine einfaktorielle Varianzanalyse mit Meßwiederholungen (vgl. z . B . WINER, 1962, Kap. 4) d u r c h f ü h r e n u n d erhält folgende Q u a d r a t s u m m e n SS bzw. mittleren Q u a d r a t e MS: -
SS b (= SS betwee „ i t e m s , entspricht der Varianz der Itemmittelwerte)
-
SSW (= SS w i t h i n l t e m „ entspricht der Varianz einer Zeile in (1)) SSj (= SS judges , entspricht der Varianz der Ratermittelwerte) SS r (= SS r e s i d u a l , entspricht der Residualvarianz, SS r = SS w -SSi) MS b , MSW> MS j t MS r (die zugehörigen mittleren Q u a d r a t e ) Je nach konkreter Fragestellung sind n u n folgende Entscheidungen zu t r e f f e n :
a) Sollen Unterschiede zwischen den Ratermittelwerten berücksichtigt werden? Solche Unterschiede k o m m e n vor allem d u r c h einen unterschiedlichen Bias der Rater zustande; z . B . wenn Rater 2 grundsätzlich höhere Werte als Rater 1 gibt. Interessiert nur die Differenzierung der Items relativ zueinander, d . h . benutzt m a n die Skalenwerte de f a c t o auf Ordinalskalenniveau, so k a n n m a n von diesen U n terschieden zwischen den Ratermittelwerten absehen ( « a d j u s t i e r t e Reliabilität»). Interessieren auch die absoluten Skalenwerte, etwa wenn m a n eine Itemselektion mit Hilfe von cutting-points d u r c h f ü h r e n will, so müssen diese Mittelwertunterschiede mit berücksichtigt werden («unjustierte Reliabilität»), b) Interessiert die Reliabilität eines einzelnen «mittleren» Raters oder die Reliabilität der über die gesamte Ratergruppe gemittelten Ratings? Im ersten Fall wird also die Reliabilität eines «durchschnittlich guten» Raters gemessen, im zweiten Fall die Reliabilität der Itemmittelwerte. Je nach Entscheidung werden in der Literatur meist folgende Reliabilitätskoeffizienten angegeben (die Bezeichnungen sind in der Literatur total uneinheitlich; es werden hier neue, möglichst suggestive Bezeichnungen eingeführt): Reliabilität eines Raters
Reliabilität der Ratergruppe
unjustierte Reliabilität
IC„, F u
R„
adjustierte Reliabilität
ic., i c ; , ,
R0> A , F.
R.
Unjustierte Reliabilitäts-Größen. Z u r Schätzung der Reliabilität eines durchschnittlichen Raters wird der Intraclass-Korrelations-Koeffizient:
245
Zeitschrift für Sozialpsychologie 1 9 7 9 , 1 0 , 2 4 3 - 2 5 2
= u
'
MS b -MS w MS b + MS w . (n-1)
vorgeschlagen. Es ist ICU = 1, wenn MS„ = 0 ist, d.h. diegesamte Varianzauf die Itemszurückgeht und damit die Rater sich nicht unterscheiden; es ist ICU = 0, wenn MS b = MSW ist, d.h. die Ratings ebensosehr wie die Itemmittelwerte variieren. Im Falle MS„ < MS„ ist ICU < 0, was aber selten vorkommen dürfte. Nach
WINER
(1962, p. 126) ist ICU = - p , wobei
cov das arithmetische Mittel der Covarianzen aller möglichen Rater-Paare und s2 das arithmetische Mittel der Varianzen der Rater ist. Im Falle von nur zwei Ratern, also n = 2 , ist da2•cov 2 2 h e r I C u = ~2—r, wobeis bzw. s die Varianz von
Rater 1 bzw. 2 ist. Das Verhältnis von ICU zur (Produkt-Moment-) Korrelation R der beiden Rater erkennt man an der Darstellung R = Für s,
s2 ist s, • s 2
I C , u n d A sind ebenso wie ICU von der Varianz der Itemmittelwerte abhängig. Bei zu kleiner Varianz k a n n m a n analog zu (3) den FiNN-Koeffizienten (H)Fa = l -
1
MS r
1
2
3
4
1.00
1.00
.87
.87
1.00
.87
.87
1.00
.59
2 3 4
1.00
N = 9, k = 6, n = 4 SS b ssw SS, SS,
MS b MSW MS; MS r
122.5, 36.0, 17.5, 18.5,
¿.(N'-l) verwenden. F ü r die Reliabilität der Itemmittelwerte erhält m a n analog zu (4): MS, (12)Ra = l MS h
unjustierte Koeffizienten 24.5-2.0 IC
" = 2T5T2T3
R„ = l
2.0 24.5
=
= .92
-74
24.50 2.00 5.83 1.23
247
Zeitschrift für Sozialpsychologie 1979,10,243-252
F
»=
1
hier auf die Matrix der Ränge (r^)). Da in diesemFallSS t o t a l =SS b +SS r ist(die Rangsummen
2.0
-6^7=-70
der Rat er sind j a stets konstant gleich
adjustierte Koeffizienten IC.=
24.5-2.0 = .83 24.5 + 1.23 «3
ist W nichts anderes als das R O B I N S O N - A für Ordinalskalen, vgl. (9). Andererseits kann man das arithmetische Mittel p 0 der SPEARMAN-Rangkorrelationen zwischen den verschiedenen Ratern berechnen und erhält den Zusammenhang
1 23 R . = l - 2 4 l = -95 1.23 F. = l - — — = . 8 2 6.67
ic:= A
(15) p r
24.5-1.23 24.5 + 1 . 2 3 «3 + .67*4.6
= .74
122.5 ~ 122.5 +18.5 ~ ' 8 7
R =.85
Reliabilität auf Ordinalskalenniveau Setzt man bei der Skala 1 , . . . , N nur Ordinalskalenniveau voraus, so kann man die Reliabilität der Ratings wie im Fall des Intervallskalenniveaus bestimmen, indem man statt der Matrix (1) die Matrix der Ränge r (j zugrundelegt ( r u = R a n g , den Rater j Item i gibt). Man muß zwei Fälle unterscheiden: a) Die Items werden von jedem Rater in eine echte Rangfolge gebracht (d.h. keine gleichen Ränge für verschiedene Items zugelassen). In diesem Fall ist N = k und man kann relativ einfach den von KENDALL (1948) vorgeschlagenen Konkordanzkoeffizienten
(14) W =
k 12- I ( f j - r ) 2 i= 1 n2»(k3-k)
ssb SS toIa , n
k»(k+l)
k
0"i= £ i"ij. r =—• £ r j j=l i=l bestimmen (dieQuadratsummen beziehen sich
n.W-1
mit W, der genau Formel (10) im Fall einer Intervallskala entspricht. Da im Fall einer Ordinalskala adjustierte und unjustierte Reliabilität gleich sind und auch Varianzen der Rater bzw. Items keine Rolle spielen, entspricht p 0 den Koeffizienten R 0 , ICU I C . IC; (vgl. (2), (6), (7), (8)). b) Läßt man gleiche Ränge zu (etwa wenn man absolute Ratings Xjj in Ränger i ; umwandelt), muß man Anzahl und Länge der «ties», d. h. der verschiedenen Ranggleichheiten, mit berücksichtigen. Dies geschieht durch den Koeffizienten Tj = E (lj! - 1 ), wobei tj die Anzahl der ties von Rater j und 1, ihre jeweilige Länge ist; z. B. ist für die Rangfolge 1; 2.5; 2.5; 5; 5; 5; 7 Tj = (2 3 -2) + (3 3 -3) = 30. W berechnet sich dann nach der Formel: 12- E (rä - r )2 i= 1 (16) W, = n n2.(k3-k)-n. £ ^ j= l Im Beispiel (13) ergibt sich z. B. ein W t von .85.
Reliabilität auf Nominalskalenniveau Bei den nun zu diskutierenden Reliabilitätsmaßen stehen Klassifikationsurteile bzw. Kategorisierungen im Mittelpunkt. Diese Verfahren sind immer dann anzuwenden, wenn Ereignisse vorgegebenen Kategorien zugeordnet werden sollen. Gegeben sind N Kategorien 1, ..., N sowie k Items
248
Asendorpf & Wallbott: Maße der Beobachterübereinstimmung. Ein systematischer Vergleich
oder Ereignisse, die von n Ratern oder Kodierern kategorisiert werden sollen. Der Einfachheit halber werden wir im folgenden von n = 2 Ratern ausgehen. Alle Größen können allerdings auf verschiedene Weise auf mehr als 2 Rater verallgemeinert werden (s.u.). Zur Reliabilitätsbestimmung werden die Kategorisierungen in eine Matrix überführt, in die die Übereinstimmungen bzw. Nicht-Übereinstimmungen beider Kodierer für alle vorgegebenen Items eingehen:
(17)
Rater 2 j
1
..
N
Raterl 1
f..
..
f(J
...
f 1 N f.-
i
f..
..
f,',
...
f-N f.-
N
fN,
••
fNj
-
fNN f N -
f.,
..
f.,
...
f-N k
N N N N k = I f , = I f.,= £ £ f„ i=l j=l i=l j=l N N Die Randsummen fj. = £ f^bzw. f.j= £ f u j=l i=l geben die Kategoriewahlhäufigkeiten durch Rater 1 bzw. 2 an. Die einfachste Reliabilitäts-Größe, die aus dieser Matrix berechnet werden kann, ist das Ausmaß der prozentualen Übereinstimmung zwischen beiden Ratern:
(18)P = i . £ f„. K i= l Dies gilt allerdings nur, wenn jedes Ereignis einer der vorgegebenen Kategorien zugewiesen werden muß. Liegt dagegen ein Kategoriensystem bzw. eine Forschungslogik zugrunde, die nicht verlangt, daß eine Zuordnung getroffen werden muß, können also Ereignisse als nicht in den gege-
benen Kategoriensatz einordenbar bezeichnet werden (im folgenden mit 0 bezeichnet), muß ein anderes Verfahren gewählt werden, der Index «V 2 » (HOLSTI, 1969): N (19)V 2 =
£ f... k , + k 2 •i = 1
wobei k, = Summe aller Nicht-0-Kategorisierungen von Rater 1, k2 = Summe aller Nicht-0-Kategorisierungen von Rater 2 ist. Dies Verfahren hat den Nachteil, daß im Falle häufiger 0-Kodierungen bei einem oder beiden Kodierern der Index unter Umständen künstlich erhöht wird. Dies läßt sich umgehen, wenn man auch in Fällen, wo 0-Kodierungen erlaubt sind, eine ÜbereinstimmungsNicht-Übereinstimmungsmatrix zugrunde legt, diese jedoch für beide Kodierer um die «Rest-Kategorie» «0» erweitert. In diesem Fall kann dann Formel (18) Anwendung finden. Sowohl die prozentuale Übereinstimmung als auch V2 haben gravierende Nachteile. Vor allem wird der Grad zufälliger Übereinstimmung nicht berücksichtigt. Je weniger Kategorien aber vorgegeben sind, desto größer ist der allein nach Zufallsgesetzen zu erwartende Grad der Übereinstimmung. Diesem Problem tragen verschiedene Methoden der Reliabilitätsbestimmung Rechnung. Die einfachste Methode basiert auf d e m / Verfahren: N N (20)x= L E i=1 j=l
a u
f e,J ..
'
wobei f e i j = erwartete Frequenz für die Zelle (i, j). Die erwarteten Frequenzen können je nach Fragestellung bestimmt werden durch -
eine «erwartete» Verteilung, gegeben beispielsweise durch Expertenkodierungen. Gleichverteilung der Frequenzen in der Matrix, d.h.: k f e i j = — für jede Zelle der Matrix. N
249
Zeitschrift für Sozialpsychologie 1979,10,243-252
Nachteile hierbei sind vor allem, daß (1) kein quantitatives Maß für Beobachter-Übereinstimmungen berechnet wird, sondern nur eine Aussage darüber gemacht werden kann, ob die beobachtete von einer erwarteten Matrix abweicht, und daß (2) von gleicher Auftretenswahrscheinlichkeit aller Kategorien für beide Kodierer ausgegangen wird (vgl. H o l l e n b e c k , 1978). Diesen Nachteil teilt auch der von S c o t t (1955) vorgeschlagene Koeffizient «7t», obwohl dabei ein quantitativer Wert mit globaler Zufallskorrektur berechnet wird:
P e > P j und damit k > n. In jedem Fall gilt also K > 71. Werden die Nicht-Übereinstimmungen zwischen den Ratings der beiden Kodierer nicht als gleich gewichtig betrachtet, sondern j e nach Kategorienpaar verschieden bewertet, müssen die f u für i j mit Gewichten w u versehen werden. Es ergeben sich damit die folgenden beiden Koeffizienten: (23) Der Scorr-Koeffizient P-P,
1-P
P-P (21) n = -—p^, wobei P wie in Formel (18) und ±
k.
N
1 f +f P e = — • X ( ' -> ')2 die erwartete Übereink 2 i= l Stimmung ist, die pro Kategorie durch die über beide Rater gemittelte Kategoriewahlhäufigkeit geschätzt wird. Dieser Koeffizient kann zwischen 0 und 1 variieren. Er wird 0, wenn P gleich P e ist, geht aber von der Annahme aus, daß die Verteilung der Anteile der einzelnen Kategorien für beide Kodierer gleich und bekannt ist (Cohen, 1960). Gerade diese Voraussetzungen sind aber in BeobachtungsUntersuchungen kaum gegeben. Diese Probleme umgeht der von Cohen (1960) entwickelte Koeffizient «k» (Kappa), der von der realen Verteilung der Urteile beider Kodierer ausgeht und keine Annahmen über diese Verteilung voraussetzt: P-P' (22) k = - — g f wobei P wie in Formel (18) und
= 1
mung ist, die pro Kategorie durch die einzelnen Kategoriewahlhäufigkeiten der beiden Rater geschätzt wird. Sind die Kategoriewahlhäufigkeiten der beiden Rater für alle Kategorien gleich, d. h. f,. = fA für alle 1 < i < N, so ist offenbar k=7t. Sind sie ungleich, d.h. f; f i für ein i, so ist wegen (L±L.)'>fl .f 2
i
w
£ £ wird zu 7i = 1
15 • Z — k
U,fU
i . + f.K ,f|. W-»(KJ— -IM - + f.K -) " 2 ' 1 2 ;
(«weighted 7t»); (24) der CoHEN-Koeffizient p - p;
,
i - p
1-PI
= 1
1-PI 1 k
1.
I I
f., f..-f, 1
N 1 P | = r 2 * £ fj »f j die erwartete Übereinstimk i=l
T f ,J .
k wird zu k = 1
1 ^2 k
•
I
I
"
f
"
w . . • t. • t 1.
"
"
(«weighted k»; Cohen, 1968). Je nach Gewichtung, d.h. Wahl der w u , erhält man also verschiedene Koeffizienten. Ordnet man die Kategorien auf einem eindimensionalen Kontinuum an, wobei die Abstände zwischen den Kategorien konstant angenommen werden, geht man also faktisch von einer Intervallskala aus, bieten sich als Gewichte die Abweichungsquadrate Wjj = (i - j) 2 an. Wie Fleiss und Cohen (1973)
250
Asendorpf & Wallbott: M a ß e der Beobachterübereinstimmung. Ein systematischer Vergleich
zeigten, ist bei dieser Gewichtung und bei großem k KW identisch mit der Intraclass-Korrelation ICU. Für K und Kw ist inzwischen eine vollständige Stichprobentheorie erarbeitet worden (vgl.
| — Prozentuale Übereinstimmung (18)
I
FLEISS, C O H E N & E V E R I T T , 1 9 6 9 ) .
Wie erwähnt, wurden hier alle Größen zur Messung der Übereinstimmung auf Nominalskalenniveau nur für den Spezialfall von zwei Kodierern dargestellt. Alle Maße lassen sich auch auf n > 2 Kodierer erweitern. So kann die prozentuale Übereinstimmung für alle
n » (n - 1)
mog-
liehen Kodierer-Paarungen berechnet und anschließend ein Mittelwert (bzw. Median-Wert) gebildet werden. Entsprechend kann auch bei V2 oder n vorgegangen werden. Für K sind inzwischen Methoden erarbeitet worden, die den simultanen Vergleich von n Kodierern in einer n-dimensionalen Übereinstimmungsmatrix erlauben (vgl. FLEISS, 1 9 7 1 ; L I G H T , 1 9 7 1 ) . Allerdings sind diese Verfahren rechnerisch recht aufwendig. Zu allen K-verwandten Größen sollte angemerkt werden, daß sie recht empfindlich auf die Verteilung der Urteile über die Kategorien reagieren, bei Zugrundelegung weniger Kategorien eher zu niedrigen Reliabilitätsschätzungen führen und, wenn viele Zellen der Übereinstimmungsmatrix unbesetzt sind, unter Umständen ebenfalls zu niedrigen Reliabilitätswerten führen können. Trotz dieser Probleme bildet K (bzw. Kw) die angemessendste Möglichkeit zur Reliabilitäts-bzw. Beobachterüberstimmungs-Berechnung auf Nominalskalen-Niveau. Die Vorteile der einzelnen hier diskutierten Koeffizienten können abschließend in Form eines «Verwandtschaftsbaumes» dargestellt werden:
•
| I
Auch 0-Kodierungen zulässig:
I
HoLSTi-Index V2 (19)
Vergleich der erhaltenen mit einer erwarteten Verteilung: X (20)
Globale Korrektur f ü r Zufallsübereinstimmung:
Spezifische Korrektur f ü r Zufallsübereinstimmung:
SCOTT - 7T ( 2 1 )
COHEN - K ( 2 2 )
Différentielle Gewichtung der Nicht-Übereinstimmungen und globale Zufallskorrektur:
Différentielle Gewichtung der Nicht-Übereinstimmungen und spezifische Zufallskorrektur: weighted K (24)
Weighted n (23)
(25) Ein Beispiel: Übereinstimmungs-Matrix:
Prozentuale Übereinstimmung P
=
3 + 7 + 7 + 8 + 1:
50
26*2
50 + 50 = 110.0
= .52
= .52 a < .001
bei d f = N - 1 = 24
trix.
und f = —; = 2.0 für jede Zelle der MaN
251
Zeitschrift für S o z i a l p s y c h o l o g i e l 9 7 9 , 1 0 , 2 4 3 - 2 5 2
Matrix der Gewichtungen für n und K, nach wu = ( i - j ) 2 :
1 Kategorie
2
Kategorie 4 5 3
1
0
1
4
2
1
0
1
3
4
1
0
1
4
9 16
4 9
1
0
1
4
1
0
5
Reliabilität bei der Kodierung des «Verhaltensstroms»
9 4
Die im letzten Abschnitt besprochenen Größen lassen sich in allen Fällen anwenden, wo Items oder «Ereignissen»Kategorien zugeordnet werden sollen. Schwieriger wird die Feststellung von Beobachterübereinstimmung, wenn zusätzlich der Zeitverlauf zu berücksichtigen ist, wenn also beispielsweise bei Beobachtungen natürlich ablaufenden Verhaltens den verschiedenen Verhaltensweisen im Zeitverlauf Kategorien zugeordnet werden. Die Überprüfung der Reliabilität solcher Segmentationen und Klassifikationen im Zeitverlauf stellt ein noch nicht vollständig gelöstes Problem dar. Wir wollen zum Abschluß eine Methode darstellen, die es erlaubt, alle Reliabilitätsgrößen auf Nominalskalenniveau auch für Zeitverlaufs-Kodierungen einzusetzen. Diese Methode geht von der einfachen Annahme aus, den «Verhaltensstrom» (BARKER, 1 9 5 6 ) bzw. den Zeitverlauf in diskrete «Ereignisse» zu zerlegen, die dann mit den herkömmlichen Methoden verglichen werden können. Dazu werden die Kodierungen zweier (oder mehrerer) Kodierer an vorher festzulegenden, regelmäßig angeordneten Punkten verglichen:
16 9 4
n = .38 K = .40 tiw = - . 0 2 Kw = .07 Legt man den Nominal-Kategorien 1 , 2 , 3 , 4 , 5 eine Intervallskala zugrunde, lassen sich auch alle Reliabilitätsgrößen auf Intervallskalenniveau zum Vergleich berechnen: A Fu Fa
= .55 = .29 = .41
R„ = - . 0 1 Ra = .16 IC. = -.01 IC, = .09 i c : = .07
Zeitverlauf Kategorisierungen von Rater 1:
Kategorisierungen von Rater 2:
Festgelegtes Zeitraster, d . h . Punkte, an denen die Kategorisierungen beider Rater verglichen werden:
a
b
a
d
b
c
d
t
t t t t~ t
P,
P2
PJ
P4
P s ••• Pt
252
Asendorpf & Wallbott: Maße der Beobachterübereinstimmung. Ein systematischer Vergleich
Auf dieser Basis kann jetzt eine Übereinstimmungs-Nichtübereinstimmungsmatrix aufgemacht werden, in die diesmal allerdings nicht Ereignisse, sondern Zeitpunkte, zu denen beide Kodierer verglichen werden, eingehen. Aus dieser Matrix können alle Reliabilitäts-Größen auf Nominalskalenniveau berechnet werden. Die Itemzahl k entspricht dann der Anzahl der Vergleichspunkte t. Bei dieser Vorgehensweise geht naturgemäß einige Information verloren, falls beispielsweise einer der Kodierer die Kategorie zwischen zwei Vergleichspunkten mehrfach wechselt. Außerdem ist das Ereignis der Reliabilitätsberechnung in relativ großem Maße abhängig von der «Abtastrate», d.h. der Wahl des Abstandes zwischen jeweils zwei Vergleichspunkten. Bei zu großer Abtastrate (d.h. sehr viele, kurz hintereinander folgende Vergleichspunkte) und gleichzeitig nur langsam variierendem Verhalten im Zeitverlauf wird die Übereinstimmung überschätzt. Bei zu kleiner Abtastrate dagegen können bei schnell variierendem Verhalten viele Kodierungen, die unter Umständen zwischen je zwei Vergleichspunkten liegen, verloren gehen. Das Hauptproblem bei dieser Vorgehensweise bildet also die Wahl einer geeigneten, dem Untersuchungsgegenstand angemessenen Abtastrate. Das Zeitraster sollte dabei von der Dauer des kürzesten auftretenden interessierenden Ereignisses abhängig gemacht werden (vgl. CLARKE&ELLGRING, 1977). Solchen Methoden zur Bestimmung der Beobachterübereinstimmung im Zeitverlauf wird erst in jüngster Zeit verstärkt Interesse entgegengebracht (vgl. besonders zur Verwendung von K in diesem Zusammenhang WALLBOTT, 1977; HOLLENBECK, 1978); gerade sie aber werden mit der verstärkten Zuwendung zur Beobachtung von Verhalten im Zeitverlauf immer wichtiger.
Literatur BARKER, R . G . 1956. The stream of behavior. New York: Appleton. BARTKO, J. J. 1966. The intraclass correlation coefficient as a measure of reliability. Psychological Reports 19, 3-11. CLARKE, A . & ELLGRING, J . H . 1 9 7 7 . A b t a s t r a t e u n d s y s t e m a -
tische Verhaltensbeobachtung. In: W . H . Tack (Hrsg.): Be-
richt über den 30. Kongreß der Deutschen Gesellschaft für Psychologie in Regensburg 1976, Bd. 1. Göttingen: Hogrefe, 326-327. COHEN, J. 1960. A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20, 37-46. COHEN, J. 1968. Weighted kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin 70, 213-220. CRANACH, M . V O N & F R E N Z , H . G . 1 9 6 9 . S y s t e m a t i s c h e B e o b -
achtung. In: C. F. G r a u m a n n (Hrsg.): H a n d b u c h der Psychologie. Bd. 7 / 1 : Sozialpsychologie. Göttingen: Hogrefe, 269-331. FINN, R. H . 1970. A note on estimating the reliability of categorial data. Educational and Psychological Measurement 30, 7 1 - 7 6 .
FLEISS, J . L . 1971. Measuring nominal scale agreement among many raters. Psychological Bulletin 76, 378-382. FLEISS, J . L . & COHEN, J . 1 9 7 3 . T h e e q u i v a l e n c e o f w e i g h t e d
kappa and the intraclass-correlation coefficient as measures of reliability. Educational and Psychological Measur e m e n t 33, 6 1 3 - 6 1 9 . FLEISS, J . L . , COHEN, J . & EVERITT, B . S . 1 9 6 9 . L a r g e s a m -
ple standard errors of kappa and weighted kappa. Psychological Bulletin 72, 323-327. HOLLENBECK, A . R . 1978. Problems of reliability in observational research. In: G.P.Sackett (Hrsg.): Observing behavior. Bd. 2: Data collection and analysis methods. Baltimore: University Park Press, 79-98. HOLSTI, O . R . 1969. Content analysis for the social sciences and humanities. Reading, Mass.: Addison-Wesley. KENDALL, M . G . 1948. Rank correlation methods. L o n d o n : Griffin. KRIPPENDORFF, K. 1970. Bivariate coefficients for reliability of data. In: E. F. Borgotta & G. W . Bohrnstedt (Eds.): Sociological methodology. San Francisco: Jossey-Bass, 139-150. LIGHT, R . J . 1971. Measures of response agreement for qualitative data: Some generalizations and alternatives. Psychological Bulletin 76, 365-377. ROBINSON, W . S . 1957. The statistical measurement of agreement. American Sociological Review 2 2 , 1 7 - 2 5 . SCOTT, W . A . 1955. Reliability of content analysis: The case of nominal scale coding. Public Opinion Quarterly 19, 321325. TINSLEY, H . E . A . & WEISS, D . J . 1 9 7 5 . I n t e r r a t e r r e l i a b i l i t y
and agreement of subjective judgments. Journal of Counseling Psychology 22, 358-376. WALLBOTT, H . G . 1977. Analysemethoden nonverbalen Verhaltens I: Das Gießener System zur Handbewegungsanalyse. Unveröff., Justus-Liebig-Universität, Gießen. WERNER, J. 1976. Varianzanalytische M a ß e zur Reliabilitätsbestimmung von Ratings. Zeitschrift f ü r experimentelle und angewandte Psychologie 23, 489B ^ H 500. V H WINER, B . J . 1962. Statistical principles in experi] mental design. New York: McGraw-Hill.
253
Zeitschrift für Sozialpsychologie 1979,10,253-261
Empirie Die Ähnlichkeit von Einstellungsstrukturen zur Lebensqualität in elf westlichen Gesellschaften INGWER BORG RWTH, Aachen RENE BERGERMAIER Universität München
INGLE-
A s t u d y b y A N D R E W S & INGLEHART o n t h e s i m i l a r i t y o f s t r u c -
HART, die die Struktur verschiedener Items zur Lebensqualität aus verschiedenen westlichen Gesellschaften vergleichen und dabei beträchtliche Übereinstimmung feststellen, wird hier überprüft. Es zeigt sich dabei, daß die Aussage, die auf dem Vergleich von MDS-Konfigurationen basiert, nicht haltbar ist. Es existieren aber Invarianzen höherer Ordnung zwischen den Beobachtungsgruppen, die A&I völlig übersehen. Es wird allgemeiner argumentiert, daß Strukturvergleiche in einem frühen Stadium der Theoriebildung eher nach solchen globaleren Gemeinsamkeiten ordinaler und nominaler Art suchen und sich nicht sofort auf metrische Details konzentrieren sollten.
Der B e f u n d einer Untersuchung
v o n ANDREWS &
tures of well-being items from different Western societies is reanalyzed. Upon close investigation, it is found that A&I's finding of substantial agreement among the items' respective MDS representations has to be rejected. There are, however, invariances of higher order among the observations which were missed entirely by A&I. It is argued more generally that tests for structural correspondence should, at an early stage of theory construction, concentrate more on global similarities of order and class membership and not on metric details.
Im Bereich der Sozialindikatorenforschung ist in den letzten Jahren ein besonderes Interesse an sog. «perzeptiven» Indikatoren entstanden. Im Gegensatz zu den traditionellen («objektiven») Indikatoren wie etwa «Zahl der Arbeitslosen», «Einkommen pro Kopf der Bevölkerung», u . ä . , sollen jene den jeweiligen Forschungsgenstand aus der Sicht der einzelnen Individuen erfassen. Im Bereich der allgemeinen Lebenszufriedenheit sind diese Maße deshalb wichtig, weil man z.B. nicht einfach voraussetzen kann, daß höheres Einkommen höhere Zufriedenheit bedeutet. (Der Zusammenhang beider bleibt natürlich sehr interessant, aber offensichtlich nur untersuchbar, wenn sowohl das eine wie das andere erst einmal unabhängig voneinander erfaßt worden ist.) Die noch recht kurze Forschung auf dem Gebiet perzepti ver Sozialindikatoren hat bereits eine
Vielfalt von Ergebnissen gebracht (siehe z.B.: A N D R E W S & WITHEY, 1 9 7 6 ; CAMPBELL e t
al.,
1976; INGLEHART, 1977). Als vorläufiges Zwischenergebnis hat sich bislang ergeben, daß das zunächst als hochkompliziert vermutete Einstellungsobjekt «Lebenszufriedenheit» (Lebensqualität) in relativ einfacher Weise beschreibbar ist: etwa zehn bis f ü n f z e h n Items reichen im allgemeinen zu einer hinreichend genauen Erfassung der jeweils beobachteten Datenstrukturen aus (ANDREWS, 1974). Eine theoretisch wie praktisch sehr interessante Frage in diesem Z u s a m m e n h a n g ist die, ob fundamentale Ähnlichkeiten der Einstellungsstrukturen zur Lebensqualität f ü r verschiedene Stichproben festzustellen sind. Untersuchungen in dieser Richtung (LEVY, 1976; BORG, 1978a) k o m m e n zu recht positiven Ergebnissen. Extensives Datenmaterial ist aber bislang diesbe-
254
Borg & Bergermaier: Die Ähnlichkeit von Einstellungsstrukturen zur Lebensqualität in elf westlichen Gesellschaften
züglich kaum analysiert worden: nur ANDREWS & INGLEHART (1977) haben erstmals hierzu eine größere Arbeit vorgelegt. Sie kommen dabei ebenfalls zu dem Ergebnis, daß tatsächlich gewisse Grundstrukturen allgemein beobachtbar sind. Für die von ihnen verglichenen neun westlichen Gesellschaften glauben sie zeigen zu können, daß «substantielle» Übereinstimmungen im Gefüge der Bewertungen verschiedener Lebensbereiche existieren. Im Gegensatz zu LEVY (1976) und BORG (1978a), die Vergleiche auf verschiedenen Niveaus der Datenstrukturen vornehmen und nur auf den schwächeren Übereinstimmungen der Ergebnisse zeigen können, bedienen sich ANDREWS & INGLEHART (1977) ausschließlich solcher Methoden, die ihr Augenmerk auf sehr detaillierte Zusammenhänge richten. Wir werden im folgenden zeigen, daß dieser Weg bei genauerem Hinsehen nicht nur kompliziert und problematisch ist, sondern auch Invarianzen «höherer Ordnung», d . h . hier: solche, die mehr qualitativer und ordinaler Natur sind, übersieht. Die Darstellungen sollen auch allgemeiner illustrieren, daß Theoriebildungen in Bereichen, die noch kaum systematisch erforscht sind, nicht zu früh in die Konzentration auf Details vorangetrieben werden sollten: schwächere, d a f ü r aber global-organisierende Ansätze erscheinen sinnvoller.
Daten Wir beschäftigen uns im folgenden vor allem mit dem Vergleich von Daten, die in der Serie «EuroBarometer» erhoben wurden. Diese halbjährlich in den neun EG-Ländern durchgeführten Meinungsumfragen werden durch die EG-Komission koordiniert und umfassen Fragen zu einer ganzen Reihe von Themen. Dieuns zur Verfügung stehenden Daten entstammen dem Euro-Barometer vom Mai 1976 und sind erhältlich von den Belgischen Archiven für Sozialwissenschaften, Katholische Universität Leuven, Belgien. Die Items, die hier von Interesse sind, sind aufgelistet in Tabelle 1. Es wurden in den Ländern Frankreich, Großbritannien, Bundesrepublik Deutschland, Italien, Niederlande, Belgien, Dänemark, Irland, Luxemburg und Nord-Irland - jeweils entsprechend übersetzt - einer repräsentativen Stichprobe ( N = 1 0 0 0 für die ersten acht Länder; N = 3 0 0 f ü r Luxemburg und Nordirland) diese Fragen vorge-
Tab.l: Allgemeine Form der in den Studien verwendeten Items. Klammer-Itemkürzel. Extent you are satisfied with your present situation in the following respects: (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15)
the house, flat, or apartment where you live (Haus) the part of town or village you live in (Nachbarschaft) the income of you and your family (Einkommen) your standard of living; the things you have like furniture, household equipment, etc. (Lebensstandard) your present work - in your job or as a housewife (Job) the way you spend your spare time (Freizeit) your means of transport - the way you can get to work, school, shopping, etc. (Transport) your present state of health (Gesundheit) the amount of time you have for doing the things you want to do (Verwirklichung) the respect people give you (Respekt) in general terms, your relations with other people (Leute) the social benefits you would receive if you became ill or unable to work (Sicherheit) the kind of society in which you live in your country (Gesellschaft) relations between the generations (Generationen) the way democracy is functioning in your country (Demokratie)
legt und die Reaktion der befragten Individuen auf einer 11-Punkt-Skala von «völlig unzufrieden» bis «sehr zufrieden» skaliert. Die Befragungen wurden sämtlich durchgeführt von Meinungsforschungsinstituten in Form von Einzelinterviews. Die US-amerikanischen Daten entstammen einer Befragung des Institute for Social Research der Universität Michigan, USA, durchgeführt im Mai 1972. Sie sind detailliert beschrieben in ANDREWS & WITHEY (1976). Die Stichprobe u m f a ß t e hier 1297 Personen. Zur Skalierung der Antworten wurden 7-Punkt-Skalen verwendet, die von «delighted» bis «terrible» reichten. Die US-Studie bestand aus insgesamt 60 Items, von denen nur die ersten elf Fragen aus Tabelle 1 auch in den europäischen U m f r a g e n enthalten waren.
A n a l y s e n v o n A N D R E W S & INGLEHART A N D R E W S & INGLEHART ( 1 9 7 7 ) a n a l y s i e r t e n
die
Daten vor allem mit der Absicht, die Strukturen zur Lebenszufriedenheit in den europäischen Ländern mit dem entsprechenden Beziehungsgefüge in den USA zu vergleichen. Sie gingen dabei wie folgt vor. Für jedes Land wurde separat eine
255
Zeitschrift für Sozialpsychologie 1979,10,253-261
Interkorrelationsmatrix der Items über die jeweiligen Individuen berechnet. Die Länder Luxemburg und Nordirland wurden hierbei nicht berücksichtigt. Die entstandenen Matrizen hatten die Ordnung 60 x 60 im Fall der amerikanischen und 15 x 15 für die europäischen Daten. Um die Gesamtheit der Zusammenhänge zu erhellen, wurde nun jede der neun vorliegenden Korrelationsmatrizen multidimensional via MINISSA
heiten in der Orientierung der Konfigurationen im Raum (Rotationen), mit Reflektionen entlang der Achsen, mit Verschiebungen gegenüber dem Ursprung und mit der Gesamt-Extension der geometrischen Gebilde. Entfernt man diese bedeutungslosen Verschiedenheiten via P I N D I S (BORG & LINGOES, 1 9 7 7 ; LINGOES & BORG, 1 9 7 7 ; BORG,
1977a), so ist das Quadrat des Korrelationskoeffizienten über die entsprechenden Koordinaten von je zwei Konfigurationen ein Maß für die echte Kommunalität der Strukturen. Nun sind aber in der US-Studie und den europäischen Befragungen nur elf gemeinsame Fragen gestellt worden. Man kann somit auch nur in bezug auf eben diese nach Unterschieden/Gemeinsamkeiten sinnvoll testen: in die PINDIS-Prozedur gehen demnach nur diese elf Punkte ein. Das Ergebnis der Übereinstimmungsanalysen ist wiedergegeben in der unteren Dreiecksmatrix in Tabelle 2. Man erkennt, daß die mittlere Kommunalität, also das arithmetische Mittel der dargestellten r 2 's, etwa 0,55 ist. Etwa die Hälfte der Varianz ist somit - im Durchschnitt - gemeinsam. Auffällig ist aber eine deutliche Streuung: die Ergebnisse von Belgien und Italien weisen nur etwa 34% Gemeinsamkeit, die von Großbritannien und Frankreich dagegen 80% auf. ANDREWS & INGLEHART kommen aber dennoch im wesentlichen zu folgendem Schluß: «The basic similarities between the structures of wellbeing assessments across the nine western societies examined here is ... an important finding for the social indicators movement» ( a . a . O . , p.16).
(ROSKAM SC LINGOES, 1 9 7 0 ; LINGOES & ROSKAM,
1973) skaliert. Die Absicht dieses Verfahrens ist es, die Matrix-Eingänge, also die einzelnen Items, durch Punkte in einem euklidischen Raum bestimmter Dimensionalität so zu repräsentieren, daß die Distanzen zwischen diesen Punkten der Rangordung der Korrelationen entsprechen. Der Grad, in dem eine solche geometrische Konfiguration die ordinale Information der Korrelationsmatrix getreu abbildet, wird ausgedrückt durch den Alienationskoeffizienten K, eine Art Maß für die Residualvarianz. Üblicherweise gilt eine Repräsentation bei K < .15 als akzeptabel. Dieser Wert konnte in drei-dimensionalen Skalierungsräumen unterschritten werden. Es lagen somit als geometrische Bilder der Korrelationsmatrizen neun drei-dimensionale Punkte-Konfigurationen vor. Um eine Aussage über die Ähnlichkeit derselben untereinander machen zu können, entfernt man nun alle Unterschiede, die keinen Zusammenhang mit den Daten haben. Diese «scheinbaren» - im Gegensatz zu den «echten» Unterschieden sind verknüpft mit Verschieden-
Tab. 2: Untere Dreiecksmatrix: Übereinstimmungskoeffizienten (quadrierte Korrelationen; ohne Komma) der ANDREWS & INGLEHART Untersuchung, basierend auf elf Items. Obere Dreiecksmatrix: Übereinstimmungskoeffizienten für europäische Länder, basierend auf fünfzehn Items. USA USA (1297)
7000
F
GB
-
-
BRD -
I
NL -
B
-
-
Dä
Ir
Lux
NIr
-
-
-
-
Frankreich (1000)
407
7000
567
219
553
371
-
541
368
192
266
Großbritannien (1000)
392
806
7000
3Tl
534
420
-
459
567
289
47l
BRD (1000)
496
452
564
7000
226
437
-
359
530
360
432
Italien (1000)
510
564
551
482
TÖÖÖ
365
-
35Ü
587
234
497
628
343
565
370
-
-
-
-
Niederlande (1000)
590
ÜÖ
590
482
482
TÖÖÖ
Belgien (1000)
438
730
686
467
344
603
Dänemark (1000)
407
53fi
603
467
438
788
698
7000
239
322
222
Irland (1000)
578
524
686
708
686
664
422
482
7000
246
446
Luxemburg (300)
-
-
-
-
-
-
-
-
Nord-Irland (300)
7000
-
7000
341 1000
256
Borg & Bergermaier: Die Ähnlichkeit von Einstellungsstrukturen zur Lebensqualität in elf westlichen Gesellschaften
Obwohl man natürlich darüber streiten kann, ob oder ob nicht 50% gemeinsame Varianz noch eine grundsätzliche Ähnlichkeit indiziert, bleiben doch zweifellos eine Reihe von Problemen unbeantwortet. Hierzu gehört natürlich auch die Frage, wie gut denn verschiedene Konfigurationen bestehend aus jeweils elf Punkten in drei Dimensionen noch aufeinander zu fitten wären, wenn sie gänzlich zufällig wären. Man braucht hier nicht unbedingt statistische Überlegungen anzustellen, wie dies A N D R E W S Ä INGLEHART tun, sondern sollte zunächst einmal die für alle europäischen Daten existierenden fünfzehn (statt nur elf) Item-Punkte verwenden. Außerdem ergeben sich neben dieser naheliegenden P r ü f u n g auf Punkt-Punkt-Unterschiede noch andere wichtige Fragen zur Relation der Ergebnisse, die auf Invarianzen anderer Ordnung abzielen. Wir wenden uns nun im folgenden diesen Untersuchungen zu.
Korrelationsmatrizen Ein besonders eindrucksvolles Ergebnis aller Studien ist die Tatsache, daß keine der zehn' europäischen und amerikanischen Interkorrelationsmatrizen einen negativen Koeffizienten aufweist. Dieser Befund wurde von A N D R E W S & INGLEHART gänzlich übersehen, ist aber keineswegs trivial. Immerhin liegen ja insgesamt 2820 Korrelationen vor. Wie ist dieses erstaunliche Ergebnis zu erklären? Positivität der Korrelationen besagt offenbar, daß eine Person, die mit dem Gegenstandsbereich A zufrieden ist, auch bezüglich aller anderen Objekte zur Zufriedenheit neigt. Jedenfalls müssen solche Individuen selten sein, von denen eine Gruppe der Items sehr hohe Zufriedenheits-, eine andere sehr deutliche Unzufriedenheitsskores erhält. Formal scheint hier eine Beziehung zu G U T T MANS sog. «Erstem Einstellungsgesetz» gegeben zu sein, das folgendes besagt: «If any two items are selected from the universe of attitude items toward a given object, and if the population observed is not selected artificially, then the population regressions between these two items will be monotone and with positive sign or zero sign» ( G R A T C H , 1973, p. 36). Das «Gesetz» formuliert also drei Bedingungen für die Nicht-Negativität der Zusam' Die Daten für Belgien standen uns nicht zur Verfügung.
menhänge (Regressionen): (a) Die Items müssen Einstellungsitems sein; (b) die Population der Befragten muß bezüglich des Befragungsgegenstands «natürlich» sein; (c) das Einstellungsobjekt muß für alle Items konstant sein. Diese Voraussetzungen seien nun untersucht. Es sei zunächst geklärt, ob die Items dem Definitionskriterium von G U T T M A N für Einstellungsitems genügen. G U T T M A N formuliert wie folgt: «An item belongs to the universe of attitude items if and only if its domain asks about behavior in a cognitive/affective/instrumental modality toward an obj ect, and its range is ordered from to .20
2 Dies wäre recht einfach möglich durch Gewichtung der Punkte mit ihrer «Reliabilität», d.h. mit ihren K2 Werten (siehe hierzu: LissiTzet al., 1976).
258
Borg & Bergermaier: Die Ähnlichkeit von Einstellungsstrukturen zur Lebensqualität in elf westlichen Gesellschaften
Tab.4: Punkt-Alienationskoeffizienten für die drei-dimensionalen MDS Konfigurationen. Item 1. 2. 3. 4. 5. 6. 7. 8. 9. 10 11. 12. 13. 14. 15.
F
GB
BRD
I
NL
Dä
Ir
Lux
NIr
K2
Haus Nachbarschaft Einkommen Lebensstandard Job Freizeit Transport Gesundheit Verwirklichung Respekt Leute Sicherheit Gesellschaft Generationen Demokratie
.14 .17 .19 .04 .13 .25 .11 .09 .18 .36 .16 .11 .10 .17 .11
.07 .10 .10 .09 .14 .22 .04 .08 .14 .12 .27 .10 .05 .15 .09
.16 .11 .06 .04 .20 .04 .11 .29 .07 .18 .07 .09 .12 .02 .10
.17 .12 .12 .10 .12 .14 .14 .13 .03 .23 .08 .09 .07 .12 .09
.03 .16 .15 .09 .14 .21 .07 .23 .40 .13 .11 .24 .15 .09 .12
.02 .02 .27 .06 .14 .13 .28 .23 .20 .15 .15 .08 .08 .08 .07
.14 .06 .08 .04 .07 .18 .09 .13 .20 .35 .08 .09 .10 .12 .07
.08 .13 .22 .24 .07 .05 .18 .07 .29 .38 .15 .10 .06 .07 .26
.10 .04 .09 .05 .13 .08 .09 .07 .19 .15 .10 .08 .06 .05 .11
.101 .101 .142 .083 .127 .144 .123 .147 .189 .228 .130 .109 .088 .097 .113
K2
.154
.117
.111
.117
.155
.131
.120
.157
.093
gut erklärt sind. Dies bedeutet, daß der Punkt, der ein solches Item repräsentiert, seine Lage nur in geringerem Ausmaß aus den vorliegenden Daten ableitet. Für unsere Fragen sehen wir aber, daß keine völlig unsystematisch in ihrem Zusammenhang zu den übrigen zu sein scheint. Trotzdem darf nicht übersehen werden, daß manche Items nicht ideal sind. Dies gilt offenbar für die «Respekt»* und die «Verwirklichung»-Frage. Man kann darüber spekulieren, warum wohl z.B. für die niederländische Stichprobe die Punktalienation bei der Frage nach der Zeit, die man hat, um das zu tun, was man tun möchte («Verwirklichung») mit den anderen Items einen so vergleichsweise geringen systematischen Zusammenhang aufweist (K2 = .40). Es ist denkbar, daß die Frage verschieden verstanden wird und so zwar systematisch mit den übrigen Items verknüpft wird, aber eben jeweils in unterschiedlicher Weise. Die Aggregation der Daten über die Individuen erzeugt dann natürlich erhebliche Streuung der Aussagen. Denkbar ist aber auch, daß die Frage überhaupt nur eine gering ausgeprägte Einstellung reflektiert, vielleicht deshalb, weil hier eine Selbstverständlichkeit (für die Niederländer) angesprochen wird. Andere Erklärungsversuche sind aber sicher auch möglich. Da sich die K2-Koeffizienten noch in einem in einer solchen vergleichenden Untersuchung akzeptablen Rahmen halten, wollen wir im folgenden darauf verzichten, sie in die Vergleichsanaly-
sen einzubringen 3 . Wir wenden uns nun diesem Vorhaben zu.
Ähnlichkeiten der Konfigurationen auf Punktniveau In diesem Abschnitt wollen wir nun die paarweise Übereinstimmungen der Konfigurationen ermitteln. Dabei verzichten wir im Gegensatz zu ANDREWS & INGLEHART au f die Einbeziehung der USDaten, wodurch sich eine größere Vergleichsbasis ergibt: da in allen europäischen Ländern alle fünfzehn Items aus Tabelle 1 abgefragt wurden, ist es nicht nötig, irgendwelche Items zu eliminieren; A N D R E W S & INGLEHART konnten dagegen ihre Vergleiche nur bezüglich der elf Fragen durchführen, die den europäischen Studien und der amerikanischen Erhebung gemeinsam waren. Die optimale Beseitigung bedeutungsloser Unterschiede der Konfigurationen (Rotationen, Reflektionen, Translationen und zentrale Streckungen) leistet wieder das PINDIS-Programm. Die Übereinstimmungskoeffizienten, also die quadrierten Korrelationen über die Koordinaten aller entsprechenden Punkte, sind in der oberen Dreiecksma-
3
Der Wert K2 > .20 wurde gewählt in Anlehnung an das übliche Grobkriterium für akzeptable Globalalienation (K > .15). Da die Erfahrungen mit K2 noch gering sind, ist diese Spezifikation aber weitgehend arbiträr.
trix in Tabelle 2 wiedergegeben. Man beachte, daß beispielsweise der Koeffizient für das Paar Großbritannien-Frankreich im oberen Teil der Matrix niedriger ist als im unteren (567 vs. 806). Dies hängt damit zusammen, daß im ersteren Fall über fünfzehn, im letzteren nur über elf Items transformiert und korreliert wurde. Es ist natürlich leichter, eine gute Anpassung von Konfigurationen mit weniger Punkten zu erreichen. Da wir hier in fast allen Fällen eine Verschlechterung der Übereinstimmung feststellen, wenn fünfzehn an Stelle von elf Items verwendet werden, deutet sich offenbar ein statistischer Tatbestand dahingehend an, daß die von A N D R E W S & INGLEHART ermittelten Koeffizienten infolge der geringen Vergleichsbasis zu hoch sind. Im Durchschnitt sinken die Korrelationen von etwa 55 % (elf Items) auf etwa 39% (fünfzehn Items) gemeinsame Varianz ab. Der letztere Wert ist aber nicht mehr besonders beeindruckend, insbesondere deshalb, da man ja nicht erwarten kann, daß die Übereinstimmung von Zufallskonfigurationen nach den diese Übereinstimmung maximierenden Transformationen r2 = 0 ergibt. Nach einer extensiven Simulationsstudie von ist bei diesen Transformationen schon für zufällige Daten ein Wert von r2 = .353 zu erwarten. Bei Berücksichtigung des empirisch ermittelten Standardfehlers für diesen Schätzwert wäre dann r2 = . 39 gerade noch bei 5 % signifikant. Man beachte im übrigen aber noch, daß wir ja darauf verzichtet hatten, die verschiedenen Punktalienationen aus Tabelle 4 zu berücksichtigen. LANGHEINE ( 1 9 7 9 )
Im Gegensatz zu A N D R E W S & INGLEHART kommen wir hier also zu dem Ergebnis, daß sich beim Vergleich der europäischen Konfigurationen ganz beträchtliche Unterschiede zeigen. Es ist allerdings wahrscheinlich, daß diese Differenzen wiederum nicht durch alle Items im selben Ausmaß verursacht werden, sondern daß vielmehr einzelne Fragen in einem gegebenen NationenPaar besonders verschiedenartig beurteilt werden. Dies ist tatsächlich der Fall. Statistisch läßt sich das dadurch nachweisen, daß man die sog. Vektorgewichte der PINDIS-Analyse untersucht. Diese Gewichte geben an, in welcher Weise jeder einzelne Punkt der Konfiguration A auf der Geraden, die ihn mit dem Ursprung verbindet, zu verschieben ist, damit er dem entsprechenden Punkt in Konfiguration B maximal nahekommt. Ist das
Gewicht gleich +1, so ist durch diese Transformation offenbar keine Verbesserung der Übereinstimmung zu erreichen. Eine Analyse der fünfzehn Vektorgewichte für alle 36 Konfigurationspaare zeigt aber, daß sie oft deutlich von+1 abweichen und z.T. sogar negativ sind. Dies weist darauf hin, daß die jeweiligen beiden Konfigurationen in ziemlich komplizierter Beziehung stehen. Es zeigt sich, daß meist einige Punkte recht gut übereinstimmen, während andere - relativ zur Vergleichskonfiguration - gänzlich andere Nachbarschaftbeziehungen aufweisen. In Analogie zu LINGOES & ROSKAM ( 1 9 7 3 ) könnte man hier also etwas salopp sagen, Konfiguration A sei aus Konfiguration B durch eine «violent motion» der Punkte hervorgegangen. Wir können hier natürlich nicht alle Details der Vergleichsuntersuchungen wiedergeben. Zusammenfassend sei aber berichtet, daß die Verwendung von Vektorgewichten zusätzlich zu den oben berichteten zulässigen Transformationen die mittlere Übereinstimmung der Konfigurationen (a) beträchtlich erhöhte, daß (b) die Vektorgewichte starke Varianz um +1 aufwiesen, und daß (c) nicht zu beobachten war, daß bestimmte Items in allen europäischen Stichproben gleichartig, andere sehr verschieden wahrgenommen würden. Bezüglich des letzteren Punktes wäre es ja z.B. möglich gewesen, daß ein bestimmtes Item wie «Respekt» oder «Verwirklichung» den Hauptteil der Verschiedenheit aller Lösungen ausmacht. Dies ist nicht der Fall. Als Ergebnis der Vergleichsanalysen auf dem Niveau der Punkte können wir also festhalten, daß die Ähnlichkeit der Konfigurationen insgesamt gering ist, und daß darüber hinaus keine Items auszumachen sind, deren Beziehungen untereinander über alle Stichproben stabil ist. Umgekehrt sind auch keine Items zu identifizieren, die in allen Länder-Vergleichen in deutlich verschiedener Weise zu den übrigen Fragen in Beziehung gesetzt werden.
Invarianzen höherer Ordnung: Stabilität von Kontiguitäten Im Zusammenhang mit Einstellungsstrukturen aus dem Bereich der Lebenszufriedenheit haben L E V Y (1976) und BORG (1978a) gezeigt, daß verschiedene Konfigurationen sich zwar bei einem
260
Borg & Bergermaier: Die Ähnlichkeit von Einstellungsstrukturen zur Lebensqualität in elf westlichen Gesellschaften
Vergleich auf dem Niveau der Punkte beträchtlich unterscheiden können, daß aber dennoch Invarianzen höherer Ordnung zu beobachten sind. Hiermit ist gemeint, daß (a) sich solche Items, die gewisse inhaltliche Gemeinsamkeiten aufweisen, in der MDS Konfiguration kontiguierlich gruppieren, und daß (b) die so entstehenden Teilgebiete des Raums selbst wieder eine Ordnung aufweisen, die allen Untersuchungen gemeinsam ist. Zunächst ist hier zu klären, ob die Menge der Items in Tabelle 1 in Gruppen inhaltlicher Zusammengehörigkeit untergliedert werden kann. Man könnte folgendes System definieren; das den Facetten-Entwürfen von LEVY (1976), L E V Y & G U T T M A N (1975b) und BORG (1978a) ähnlich ist: (Haus, Nachbarschaft), (Einkommen, Lebensstandard), (Job, Verwirklichung), (Respekt, Leute, Generationen), (Sicherheit, Gesellschaft, Demokratie). Die übrigbleibenden drei Items, also «Freizeit», «Transport» und «Gesundheit», bilden dann jeweils eine 1-Element-Menge. Für die ausgesonderten Item-Gruppen wäre zu erwarten - falls die zugrundeliegenden inhaltlichen Überlegungen relevant sind - , daß die jeweiligen Elemente der Gruppen in ihren Punktrepräsentationen nahe zusammenliegen. Beispielsweise sollten also die Punkte, die «Haus» und «Nachbarschaft» repräsentieren, zueinander näher liegen als zu irgendeinem anderen Punkt. Dies ist aber offenbar empirisch nicht der Fall, wie bereits oben ausgeführt. Wir schwächen deshalb die Erwartung dahingehend ab, daß die Konfigurationen nur noch so partitionierbar (zergliederbar) sein sollen, daß inhaltlich verwandte Items in dieselbe Region fallen. Das bedeutet: der Raum soll in nicht-überlappende Regionen aufgeteilt werden; diese Regionen sollen dann jeweils genau die Item-Punkte aus einer Gruppe des Definitionssystems aufnehmen. Zusätzlich sei noch gefordert, daß dieses System von Grenzlinien «einfach» sein soll, also etwa «clusterisierend» (Grenzlinien sind kreis- oder ellipsenförmig bzw., allgemeiner, «konvex».) Diese «Kontiguitätshypothese» BORG, 1977b) bestätigt sich empirisch tatsächlich fast fehlerfrei. Allerdings muß man dabei einschränkend berücksichtigen, daß die Erwartung bei einer derart geringen Zahl von Items und Itemgruppen in einer drei-dimensionalen Konfiguration nur schwach ist. Es wäre notwendig, neben der Konvexitätsforderung weitere Restriktionen über einen Ausbau des Definitionssystems für den Iteminhalt einzuführen.
Die zweite, weitergehende Hypothese, die im Prinzip in diesem Zusammenhang formuliert werden kann, ist gewisse Ordnungsbeziehungen der Itemgruppen zu postulieren. Für unsere Daten haben wir jedoch außer der Erwartung, daß sich (Einkommen, Lebensstandard) und (Job, Verwirklichung) in enger räumlicher Beziehung befinden, keine weiteren begründbaren Vermutungen. Diese allerdings bestätigt sich uniform. Insgesamt ist zu bemerken, daß die Analyse regionaler Invarianzen, die hier kurz angedeutet wurde, durch ihren ad-hoc Charakter nicht befriedigen kann. Sinnvoll wäre es, zunächst durch ein Definitionssystem das Universum der Beobachtungen abzugrenzen, eine systematische Selektion von Items aus dieser Grundgesamtheit vorzunehmen, und deren empirische Struktur dann wiederum mit den Definitionskriterien zu interpretieren. In dieser Weise gehen etwa L E V Y & G U T T M A N (1975a, b), L E V Y (1976) und BORG (1978a) vor. Die erwartete Struktur für Items des Einstellungsbereichs «Lebensqualität» ist dann ein Radex mit dem inhaltlich sinnvollen Ursprung «Zufriedenheit mit dem Leben allgemein» (BORG, 1976).
Diskussion Aufgrund unserer Analysen müssen wir zu folgendem Schluß kommen: 1) Die Ähnlichkeit der europäischen Strukturen zur Lebenszufriedenheit ist auf dem Niveau der Punkte der MDS Konfigurationen bestenfalls als gering zu bezeichnen. 2) Dagegen ergeben sich deutliche Übereinstimmungen hinsichtlich der Partitionierbarkeit der Konfigurationen mit einem einfachen Definitionssystem für den Item-Inhalt. 3) Auf dem allgemeinsten Niveau der Analyse zeigt sich uniform Nicht-Negativität der Interkorrelationen, was auf die Existenz eines konstanten Einstellungsobjektes hinweist. Es ist weiterhin deutlich geworden, daß bei vernünftiger Planung der Untersuchungen im Kontext einer dem Untersuchungsgegenstand angemessenen Theorie stärkere Strukturuntersuchungen auf dem Niveau regionaler Gliederungen möglich gewesen wären. Eine Forschungsstrategie dieser Art formuliert z.B. die Facettentheorie
261
Zeitschrift f ü r Sozialpsychologie 1979,10,253-261
(BORG, 1977b), die insbesondere unmittelbar zu Erwartungen über den Zusammenhang empirischer Beobachtungen aufgrund ihrer inhaltlichen Definitionen führt. Diese Erwartungen sind anfangs sicher meist «schwach», z. B. nur Halbordnungen oder überhaupt nur qualitative Klassen, aber bei genügender Präzisierung und Extension der Definitionsstruktur - etwa durch Einführung geordneter oder sogar metrischer Facetten - , ist ein Übergang in stärkste Aussagen möglich. Es ist aber offenbar nicht sinnvoll, das Augenmerk gleich zu Anfang allzu sehr auf Details zu richten und/oder zunächst einmal lediglich «beschreiben» zu wollen.
Literatur ANDREWS, F. M. 1974. Social indicators of perceived lifequality. Social Indicators Research 1, 279-299. ANDREWS, F . M . & INGLEHART, R . F . 1 9 7 7 . T h e s t r u c t u r e o f
subjective well-being in nine western societies. Papier zum Treffen der American Statistical Association, Chicago, August. ANDREWS, F . M . & WITHEY, S . B . 1 9 7 6 . S o c i a l i n d i c a t o r s o f
well-being: Americans' perception of life quality. New York: Plenum. BORG, 1 . 1 9 7 6 . F a c e t t e n - u n d R a d e x t h e o r i e i n d e r m u l t i d i m e n -
sionalen Skalierung. Zeitschrift für Sozialpsychologie 7, 231-247.
BORG, I. 1977a.Geometrie representation of individual differences. In: J . C . Lingoes (Ed.): Geometric representations of relational data. Ann A r b o r , Michigan: Mathesis Press. BORG, 1.1977b. Some basic concepts of facet theory. In: J . C . Lingoes (Ed.): Geometric representations of relational data. Ann Arbor, Michigan: Mathesis Press. BORG, I. 1978a. Ein Vergleich verschiedener Studien zur Lebensqualität. Zeitschrift f ü r Sozialpsychologie 9,152-164. BORG, I. 1978b. PAL: point-wise alienation coefficients in multidimensional scaling. Journal of Marketing Research 15, 478-479.
BORG, I. & ALLERBECK, M . 1978. Eine Analyse der Gesamtr struktur von Neubergers «Arbeits-Beschreibungs-Bogens» zur Messung von Arbeitszufriedenheit. Problem und Entscheidung 1 7 , 1 - 2 8 . BORG, I . & LINGOES, J . C . 1 9 7 7 . E i n d i r e k t e r T r a n s f o r m a t i o n s -
ansatz zur multidimensionalen Analyse von drei-modalen Datenmatrizen. Zeitschrift f ü r Sozialpsychologie 8, 9 8 114. CAMPBELL, A . , CONVERSE, P . E . & RODGERS, W . L . 1 9 7 6 . T h e
quality of American life. New York: Rüssel Sage Foundation. GRATCH, H . (Ed.) 1973. Twenty-five years of social research in Israel. Jerusalem: Jerusalem Academic Press. GUTTMAN, L. 1972. The concept of c o m m o n range: four applications and four fallacies. Unveröffentlichtes Manuskript, Israel Inst, for Appl. Social Research, Jerusalem. INGLEHART, R.F. 1977. The silent revolution: changing values and political styles among western publics. Princeton: Princeton University Press. LANGHEINE, R. 1979. Erwartete Fitwerte für Zufallskonfigurationen in P I N D I S . Unveröffentlichtes Manuskript, Inst, für Pädagogik der Naturwissenschaften, Universität Kiel. LEVY, S. 1976. Use of the mapping sentence for coordinating theory and research. Quality & Quantity 10,117-125. LEVY, S. & GUTTMAN, L. 1975a. Structure and dynamics of worries. Sociometry 38,445-473. LEVY, S. & GUTTMAN, L. 1975b. On the multivariate structure of well-being. Social Indicators Research 2, 361-388. LINGOES, J . C . & BORG, I . 1 9 7 7 . O p t i m a l e L ö s u n g e n f ü r D i -
mensions- und Vektorgewichte in P I N D I S . Zeitschrift f ü r Sozialpsychologi 8,210-217. LINGOES, J . C . & ROSKAM, E . E . 1 9 7 3 . A m a t h e m a t i c a l a n d
empirical analysis of two multidimensional scaling algorithms. Psychometrika 38, Monograph Supplement. LINGOES, J . C . & SCHÖNEMANN, P . 1 9 7 4 . A l t e r n a t i v e m e a s u r e s
of fit for the Schönemann-Carroll matrix fitting algorithm. Psychometrika 39,423-427. RAMSAY, J . 0 . 1 9 6 9 . Some statistical considerations in multidimensional scaling. Psychometrika 34,167-182. ROSKAM, E . E . & LINGOES, J . C . 1 9 7 0 . M I N I S S A - I :
j ^ H
A Fortran IV program for the smallest space analysis of square symmetric matrices. Behavioral Sciences 15,204-205.
Wi^B 1 1 *
262
Herrmann: Ist Reizkontrolliertheit des Menschen eine widersprüchliche Konzeption?
Diskussion Ist Reizkontrolliertheit des Menschen eine widersprüchliche Konzeption? Bemerkungen zu einem anti-behavioristischen Argument THEO HERRMANN
Nach GROEBEN und anderen ist das behavioristische Menschenbild in sich widersprüchlich. Dieses Argument wird kritisch kommentiert. Man kann es so rekonstruieren, daß der behauptete Widerspruch verschwindet.
According to GROEBEN and others the behavioristic concept of man includes an inconsistency. We comment critically on this argument and demonstrate that it is possible to reconstruct it in such a way that the alleged inconsistency is solved.
a) Vorbemerkungen
sen zum Zusammenhang von beobachtbaren Verhaltensweisen und experimentell evozierten Umweltereignissen. Auch pflegt unterstellt zu werden, daß die Verhaltensereignisse R nicht nur von annähernd gleichzeitig beobachtbaren Umweltereignissen S, sondern daß sie auch beispielsweise von strukturellen Merkmalen der Wahrnehmung oder des Gedächtnisses, von Persönlichkeitsdispositionen o.dgl. abhängen. (S gilt so als notwendige, nicht als hinreichende Bedingung von R.) Wieweit man die nach nomologischer Methodologie arbeitende psychologische Forschung angesichts dieser Kennzeichnungen als «(neo-) behavioristisch», als «S-R-Psychologie», als «mechanistisch» usf. beurteilen sollte, bleibe hier unerörtert. Immerhin mögen solche Etikettierungen für eine Teilmenge der nomologischen Psychologie vertretbar sein. Weiten Teilen dieser Psychologie wird die folgende Hintergrundauffassung zugeschrieben: Man kann den Menschen (quaErkenntnisobjekt) als (partiell) reizkontrolliert bzw. umweltabhängig konzipieren. Diese Hintergrundauffassung verweist nicht auf Kennzeichnungen des Menschen von der Art «Selbstverwirklichung», «Willensfreiheit», «aktive Erschaffung und Gestaltung der Umwelt», «aktive Konstruktion der Realität» u.dgl. Es wird hier nicht diskutiert, genau welchen
Für manchen Psychologen sind die Wörter«Reiz» und « Reaktion» inzwischen Reizvokabeln geworden, auf die er nachgerade allergisch reagiert. Doch bildet und prüft die nach nomologischer Methodologie betriebene Psychologie immer wieder Hypothesen zum Zusammenhang von beobachtbaren Verhaltensereignissen R und beobachtbaren Umweltereignissen S. Diese Zusammenhänge von R und S werden zumeist nach dem Schema «R ist eine Funktion von S» interpretiert. Bei der theoretischen Herleitung oder Begründung solcher Hypothesen wird häufig vorausgesetzt, daß Umweltereignisse S «intervenierende» Ereignisse im Organismus, in der Person, im «zentralen Prozessor» o.dgl. hervorrufen, die ihrerseits zu beobachtbaren Verhaltensereignissen R führen. Eher selten werden empirisch prüfbare Hypothesen zum S-R-Zusammenhang in Theorien begründet, deren sämtliche deskriptiven Ausdrücke als Umweltereignisse, Reize o.dgl. einerseits und als Verhaltensereignisse, motorische Reaktionen o. dgl. andererseits deutbar sind. Die experimentelle Psychologie der Informationsverarbeitung, die «Kognitive Psychologie» genannt zu werden pflegt, bildet überhaupt keine Theorien, die Reiz- und Reaktions-Ausdrücke als theoretische Ausdrücke - wesentlich enthalten. Sie prüft aber diese Theorien über Hypothe-
263
Zeitschrift für Sozialpsychologie 1979,10,262-266
Teilen der derzeit vorhandenen nomologischen Psychologie diese Hintergrundauffassung begründet zugeschrieben werden kann und ob sie falsch, untauglich, unzweckmäßig oder gar ethisch verwerflich ist. Gegen die Auffassung von der Reizkontrolliertheit bzw. Umweltabhängigkeit des Menschen - auf welche Forschungsprogramme sie auch zutreffe - werden bekanntlich ernste Einwände erhoben. Von diesen Einwänden diskutiere ich hier
nur einen, der
Widersprüchlichkeitsargument
(kurz: W-Argument)
genannt sei.
b) Das W-Argument Die genannte Hintergrundauffassung wird auf verschiedene Weise beschrieben (vgl. HOLZKAMP, 1 9 7 2 ; S C H N E E W I N D , 1 9 7 3 ; ECKENSBERGER, 1 9 7 7 ;
TOEBE et al., 1977). Sie kommt im wesentlichen damit überein, was GROEBEN (1975; GROEBEN & SCHEELE, 1977) das «behaviorale Subjektmodell» nennt. Der Autor vertritt die Auffassung, dieses Subjektmodell sei durch eine spezifische «interne Widersprüchlichkeit» gekennzeichnet: «auf der Seite des Erkenntnissubjekts (Forschers) setzt es eine hochgradig aktiv-realisierende Realitätskonstruktion ... voraus, für die Seite des Erkenntnisobjekts ... folgt jedoch gerade aus dieser Realitätsorientierung der Erkenntnishaltung die Konstituierung als hochgradig (bis ausschließlich) von der Umwelt abhängiges/konstruiertes Individ u u m » (GROEBEN & SCHEELE, 1977, p . 1 5 ) . D e r
Defekt des «behavioralen Subjektmodells» bzw. der obengenanntenHintergrundauffassung kann unter dem Gesichtspunkt der Selbstanwendung aufgezeigt werden. Die Psychologie muß nämlich ihren Gegenstand so konstituieren, daß er den Menschen als Erkennenden (und so auch den Psychologen als Erkenntnissubjekt) einbezieht. «Folglich ist auch der Mensch als Gegenstand/ Objekt der Psychologie analog zum Bild des Wissenschaftlers von sich selbst zu realisieren: als Hypothesen generierendes und prüfendes Subjekt.» ( A . a . O . , p.22.) Auch wenn man den Inhalt der Aussage, die in diesem Argumentationsgang die Folgerung bildet, per se akzeptiert, kann der Argumentationsgang selbst Skepsis auslösen. Dies gilt auch für ähnliche Argumentationsfiguren, wie man sie b e i s p i e l s w e i s e bei MACHAN (1974) f i n d e t . D e r
Kern des Widersprüchlichkeitsvorwurfs (W-Argument) läßt sich wie folgt rekonstruieren.
c) Rekonstruktion des W-Arguments Im folgenden werden die deskriptiven Ausdrücke (a) bis (d) verwendet: (a) P bedeutet den forschenden, erkennenden Menschen (konkret: den Psychologen) qua Erkenntnissubjekt. (b) O bedeutet den von P erforschten, erkannten Menschen qua Erkenntnisobjekt. (c) E, bedeutet eine Menge von Attributen, zu denen die Elemente «Umweltabhängigkeit», «Reizkontrolliertheit», «fehlende Autonomie» und «fehlende Reflexivität» gehören. (d) E ; bedeutet eine Menge von Attributen, zu denen die Elemente «aktive Reflexivität», «Hypothesen generierende und prüfende Subjektivität» und «aktiv-realisierende Realitätskonstruktion» gehören. (Die unter (c) und (d) genannten Attribute können im Sinn e v o n GROEBEN & SCHEELE [ 1 9 7 7 ] e x p l i z i e r t w e r d e n . )
Das W-Argument
hat die folgende Form:
(1) Das «behaviorale Subjektmodell» ist (u.a.) durch die Annahmen A und B gekennzeichnet:
A: P schreibt dem P(= sich selbst) die Attributenmenge Elt nicht aber Et zu. B: P schreibt dem O die Attributenmenge Eu nicht aber E2 zu. (2) Auch für das «behaviorale Subjektmodell» ist C z u fordern:
C: P schreibt dem P (= sich selbst) und dem O dieselbe Attributenmenge zu. (3) Die Annahmen A, B und C sind zusammen widersprüchlich. A und C sind indisponibel. Deshalb muß zum Zweck der Widerspruchsvermeidung B in B' verwandelt werden:
B': P schreibt (auch) dem O die Attributenmenge E2, nicht aber E, zu. d) Kommentar Ad(l): Zur Vereinfachung der Darstellung unterstelle ich hier, daß für das «behaviorale Subjektmodell» sensu GROEBEN die Annahmen A und B zutreffen. Ad (2): In der Annahme C ist das bekannte Po-
stulat der Selbstanwendung angesprochen: Sind P und O Menschen, so darf P sich von O kein ande-
264
Herrmann: Ist Reizkontrolliertheit des Menschen eine widersprüchliche Konzeption?
res Bild (E,, E 2 , ...) machen, als P sich von sich selbst macht. Dieses Postulat wird m.E. zur Zeit kaum in Frage gestellt. Seine heute übliche Verwendungbzw. die heute vorherrschende Interpretation der Annahme C erscheinen jedoch problematisch. Der Ausdruck «aktive Reflexivität» (der zur Attributenmenge E2 gehört) bedeutet unter anderem, daß sich der Mensch von sich (und anderen) ein Bild (besser: Bilder) macht. Etwas strikter formuliert: Menschen qua Erkenntnissubjekte P erkennen sich und andere durch «aktive Realitätskonstruktion» im Sinne der Auswahl von Modellen (von Originalen). GROEBEN (1975) spricht selbst von diversen Subjekt-Modellen. Nach STACHOWIAK (1973, p. 56) und anderen ist die menschliche Erkenntnis «Erkenntnis in Modellen». Wissenschaftliche Theorien beziehen sich auf («idealisierte») Modelle der Realität (BUNGE, 1967). Schreibt sich P die Attributenmenge E2 zu, so behauptet P von sich (auch), er sei ein Modellerschaffer und/oder Modellbenutzer. D.h. er beschreibt (kogniziert, konstruiert) sich im MetaModell des Erschaffers bzw. Benutzers von Objekt-Modellen. In die Beschreibung des P in diesem Meta-Modell E2 kann die Beschreibung der Artung von Objekt-Modellen einbezogen werden, welche P erschafft bzw. verwendet. Diese Objektmodelle können durch Attributenmengen E| bestimmt werden. Beschreibt sich P im MetaModell E2, so impliziert dies, daß sich P als einen Akteur beschreibt, der absichtsvoll, zielgerichtet und akzentuierend bestimmte Attribute desjenigen Originals auswählt, das durch das jeweilige Modell repräsentiert werden soll. Das ObjektModell enthält nur diejenigen Attribute, «die den jeweiligen Modellerschaffem und/oder Modellbenutzern relevant erscheinen» (STACHOWIAK, 1973, p. 132; vgl. auch HERRMANN, 1976, p. 81 f.). P wählt - insofern er sich im Meta-Modell E2 beschreibt - Objekt-Modelleaus, die er als Mittelfür bestimmte Problemlösungen (bzw. Zielerreichungen) für richtig, tauglich oder zweckmäßig hält. Ein nicht hinreichend beachteter Sachverhalt ist die spezifische Beziehung zwischen dem MetaModell E2 und den Objekt-Modellen, die P - zufolge von E2 - zur Beschreibung von Menschen konstruiert bzw. verwendet: Besteht zwischen dem Meta-Modell und den Objekt-Modellen eine Modell-Relation? Besteht zwischen ihnen also die
Relation von Original und Modell? Falls dies der Fall wäre, so müßten die Objekt-Modelle (die wesentlichen) Attribute haben, die das Meta-Modell E2 qua Original besitzt. Daraus würde unter anderem folgen: P könntesich nicht als Modellerschaffer bzw. -benutzer (E2) beschreiben und sich zugleich widerspruchsfrei als jemanden beschreiben, der zur Beschreibung von Menschen ein Objekt-Modell auswählt, das nicht durch Elemente der Attributenmenge E 2 , sondern durch die disparaten Attribute E, bestimmt ist. Anders formuliert: Wer sich als Modellkonstrukteur bzw. Modellverwender konstruiert (= Meta-Modell E 2 ), könnte zur Beschreibung von Menschen kein « behaviorales Subjektmodell» sensu GROEBEN konstruieren oder benutzen, ohne die Voraussetzungen des Meta-Modells E2 zu verletzen. Man könnte dann sagen, P verhalte sich widersprüchlich. Nun ist das Meta-Modell des Modellerschaffers bzw. -benutzers nach meiner Auffassung nicht von der Art, daß die erschaffenen bzw. benutzten Objekt-Modelle als Modelle des MetaModells (qua Originals) zu deuten sind. Dies auch dann nicht, wenn solche Objekt-Modelle in bestimmten Problemkontexten zur Beschreibung (usf.) von Menschen ausgewählt werden. (Die hier verwendeten Ausdrücke «Meta-» und «Objekt-» bezeichnen eine semantische Relation, nicht aber eine Modellrelation.) Betrachten wir die Fälle (a) und (b): (a) P beschreibe sich und/oder andere als Modellkonstrukteure (= Meta-Modell) und P beschreibe (rekursiv) das von den Modellkonstrukteuren konstruierte Modell als Modell des Modellkonstrukteurs (= Obj ekt-Modell). Das Meta-Modell und das Objekt-Modell seien beide ausschließlich durch die Attributenmenge E2 bestimmt. Muß das Objekt-Modell dann als (isomorphes) Modell des Meta-Modells beurteilt werden? Das ist nicht der Fall. Vielmehr können beide Modelle als Ergebnisse zweimaliger gleicher Modellwahl des P, die auf zwei verschiedenen semantischen Ebenen beschrieben werden (s. unten), aufgefaßt werden. (Die rekursive Modellwahl ist selbstverständlich per se problematisch, was hier nicht interessiert.) (b) P beschreibe sich und/oder andere wiederum als Modellkonstrukteure (= Meta-Modell) und P beschreibe das konstruierte Modell nicht als Modell des Modellkonstrukteurs, sondern etwa alsModellE, (= Objekt-Modell). Man kann nicht
Zeitschrift für Sozialpsychologiel979,10,262-266
sagen, bei dieser zweimaligen, nunmehr unterschiedlichen Modellwahl sei das Objekt-Modell deshalb defizient, weil es im Extremfall kein Attribut enthält, das das Meta-Modell enthält. (Das Verhalten von P ist nicht widersprüchlich.) Die Fälle (a) und (b) zeigen: Wer sich und/oder andere als Modellkonstrukteure konzipiert, konzipiert sich und/oder andere damit nicht als Originale von konzipierten Modellen. Aus der Aussage «x wählt das Meta-Modell E 2 » folgt nach allem nicht die Aussage: «x wählt das Objekt-Modell E 2 ». Das Meta-Modell E 2 stellt eine semantisch mehrstufige Beschreibung (Konstruktion, Konstitution) des Menschen dar: P beschreibt - vereinfacht formuliert - sich und/ oder andere metasprachlich als solche, die sich objektsprachlich (in bestimmten Problemkontexten) beschreiben. Beschreibt P sich und/oder andere metasprachlich als solche, die sich in bestimmten Problemkontexten objektsprachlich beschreiben, so müssen sich diese nicht objektsprachlich (in bestimmten Problemkontexten) als solche beschreiben, die sich beschreiben. Es gehört ja gerade zu einer unverkürzten Auffassung einer «aktiv-realisierenden Realitätskonstruktion», in bestimmten Problemkontexten auch Modelle von sich und/oder anderen konstruieren zu können, in denen der Sachverhalt dieser aktiven Realitätskonstruktion nicht thematisiert, sondern kalkuliert «vernachlässigt» ist. Beschreibt P sich und/oder andere also im MetaModell E 2 , SO verhält er sich widerspruchsfrei, wenn er sich und/oder andere zugleich als solche beschreibt, die in bestimmten Problemkontexten zur Beschreibung das Objekt-Modell E, auswählen. (P verhält sich sogar widerspruchsfrei, wenn er sich als j emanden beschreibt, der in bestimmten
Problemkontexten nicht sich, sondern andere m Objekt-Modell E, beschreibt.) P kann selbstverständlich außer E, weitere Objekt-Modelle E 3 , E 4 . . . auswählen. So konzipiert zum Beispiel BUNGE (1979) den Menschen emergenzmaterialistisch über mentale Zustände, die er mit zerebralen Systemzuständen identifiziert. Dieses Modell stimmt ersichtlich weder mit E, noch mit E 2 überein. Schreibt P allen Menschen E 2 zu, so unterstellt P, alle Menschen könnten je nach Problemkontext verschiedene Objekt-Modelle desselben Originals, also auch verschiedene Objekt-Modelle des Menschen auswählen und benutzen. Men-
265 schen sind insofern in der Lage, im Zusammenhang derselben oder verschiedener Problemstellungen verschiedene, auch sich gegenseitig ausschließende Hypothesen über den Menschen zu generieren und zu prüfen. Schreibt P dergestalt dem O zu, O sei ein Modellerschaffer bzw. -verwender, der problemspezifisch Modelle auswählt, so kann die oben genannte Selbstanwendung dieser Konstatierung durchaus darin bestehen, daß P sich selbst ebenfalls als Modellerschaffer bzw. -Verwender konzipiert, der in einem bestimmten Problemkontext in bezug auf sich und/oder andere das Modell E^ auswählt. Gerade im Lichte einer wohlverstandenen «epistemologischen» Auffassung vom Menschen ist das Selbstanwendungspostulat, wird es in der simplen Fassung der Annahme C formuliert, mißverständlich. Nach den vorstehenden Erörterungen kann C durch die Annahme C' ersetzt werden:
C': Indem Psich die Attributenmenge E2 (metasprachlich) zuschreibt, schreibt P sich und/ oder anderen (= O) je nach Problemkontext (objektsprachlich) die Attributenmente Eu E2 oder andere Attributenmengen zu. Ad (3): Wie soeben ausgeführt, ist die Annahme C nicht indisponibel. Wird C durch C' ersetzt, so entsteht auch dann keine «interne Wider-
sprüchlichkeit», wenn die Annahme B beibehalten wird: Schreibt P sich selbst die Attributenmenge E 2 , nicht aber E, zu (= A) und folgt aus diesem Meta-Modell E 2 , daß P sich und/oder anderen je nach Problemkontext auch E, zuschreiben kann (= C'), so liegt kein Widerspruch vor, wenn P dem O die Attributenmenge E,, nicht aber E 2 zuschreibt (= B). P kann sich qua O auch selbst E, zuschreiben. Die Selbst- und/oder Fremdzuschreibung von E, kann und sollte auf der Basis desjenigen Problems beurteilt werden, zu dessen Lösung diese Modellwahl erfolgt (vgl. auch SCHÜTZ, 1971, p. 10). Selbstverständlich ist sie kritisierbar, doch erscheint es nicht zwingend, sie als in sich widersprüchlich zu beurteilen. Das W-Argument ist nach allem angreifbar. Die Annahme B braucht nicht aus Gründen der Widerspruchsvermeidung durch die Annahme B' ersetzt zu werden. B' ist nicht durch das W-Argument, so wie es oben rekonstruiert und dann kritisch kommentiert wurde, hinlänglich begründbar. Dennoch mag B' durchaus akzeptiert
266
H e r r m a n n : Ist R e i z k o n t r o l l i e r t h e i t d e s M e n s c h e n e i n e w i d e r s p r ü c h l i c h e K o n z e p t i o n ?
und anders begründet werden. Eine Begründung von B' durch das Argument, es zeige sich empirisch, daß die subjektiven, impliziten Theorien von Leuten die Attributenmenge E 2 enthalten (vgl. G R O E B E N & SCHEELE, 1977), ist nicht der Begründung von B' durch das W-Argument äquivalent. Das «Argument der subjektiven Theorien» stellt seinerseits Probleme, die hier nicht erörtert werden sollen.
KAMP, 1978].) Den Menschen als reizkontrolliertes und umweltabhängiges, nicht aber als aktiv-reflektierendes und Realität konstruierendes Wesen zu konzipieren mag man als untauglich bzw. unzweckmäßig (wofür?) oder gar als ethisch vorwerfbar beurteilen wollen. Diese Konzeption kann sicherlich nicht in dem Sinne falsch sein, wie empirisch prüfbare Hypothesen falsch sein können (HERRMANN, 1976, p.46ff.). Sie ist aber auch nicht in sich widersprüchlich.
e) Ergebnis Die Fragen, ob das «behaviorale Subjektmodell» (GROEBEN) notwendigerweise die Annahme A enthält und ob sich Erkenntnissubjekte P überhaupt notwendigerweise die Attributenmenge E 2 , aber nicht etwa E, zuschreiben, wurden hier nicht diskutiert. Sicherlich gibt es für den Psychologen gute Gründe, das «behaviorale Subjektmodell» durch ein Modell zu ersetzen, das wesentlich die Attributenmenge E 2 enthält. G R O E B E N (1975; G R O E B E N & SCHEELE, 1977) spricht hier von einem «epistemologischen Subjektmodell». Es gibt ebenfalls gute Gründe, vom Erkentnissubjekt P zu fordern, die Beschreibung seiner Erkenntnisobjekte O so anzulegen, daß P sich selbst unter O subsumieren kann. Eine Rekonstruktion und Kommentierung des W-Arguments zeigt jedoch, daß dieses Argument zumindest auch so expliziert werden kann, daß es keine zwingende Begründung für das «epistemologische» und keinen zwingenden Einwand gegen das «behaviorale» Menschenbild darstellt. Man kann die Konstruktion des Menschen als reizkontrolliertes bzw. umweltabhängiges Wesen als ein problemorientiertes Modell auffassen, das von aktiv-realisierenden (usf.) Erkenntnissubjekten erschaffen und benutzt wird, um in bestimmten Zeiten bestimmte Ziele zu erreichen (STACHOWIAK, 1973; p.133), und bei dem problemgerecht davon abgesehen wird, daß Menschen auch aktiv-realisierende (usf.) Erkenntnissubjekte sind. (Dies geschieht zurzeit zum Beispiel sehr erfolgreich bei der Erforschung des menschlichen Gedächtnisses [vgl. u. a. W I P P I C H & B R E D E N -
Literatur BUNGE, M . 1 9 6 7 . S c i e n t i f i c r e s e a r c h . Berlin: S p r i n g e r . BUNGE, M . & LLINÄS, R. 1 9 7 9 (in press). T h e m i n d - b o d y P r o b l e m in t h e light o f n e u r o s c i e n c e . P r o c e e d i n g s 16 W o r l d Congress Philosophy. ECKENSBERGER, L . H . 1 9 7 7 . K o n s t r u k t i o n u n d R e k o n s t r u k t i o n v o n W i r k l i c h k e i t d u r c h d e n M e n s c h e n als P r o b l e m s t e l l u n g der P s y c h o l o g i e . S a a r b r ü c k e n : A r b e i t e n der F a c h r i c h t u n g P s y c h o l o g i e der U n i v e r s i t ä t d e s S a a r l a n d e s , N r . 4 8 . GROEBEN, N . 1975. V o m b e h a v i o r a l e n z u m e p i s t e m o l o g i s c h e n S u b j e k t m o d e l l : P a r a d i g m e n w e c h s e l in der P s y c h o l o g i e ? H e i d e l b e r g : Bericht a u s d e m P s y c h o l o g i s c h e n Institut d e r Universität Heidelberg, N r . l . GROEBEN, N . & SCHEELE, B . 1 9 7 7 . A r g u m e n t e für e i n e P s y chologie des reflexiven Subjekts. Darmstadt: Steinkopff. HERRMANN, TH. 1 9 7 6 . D i e P s y c h o l o g i e u n d ihre F o r s c h u n g s programme. Göttingen: Hogrefe. HOLZKAMP, K. 1 9 7 2 . K r i t i s c h e P s y c h o l o g i e . F r a n k f u r t : Fischer. MACHAN, T . R . 1 9 7 4 . T h e p s e u d o - s c i e n c e o f
B.F.Skinner.
New Rochelle N . Y . : Arlington H o u s e Publishers. SCHNEEWIND, K. A . 1 9 7 3 . Z u m S e l b s t v e r s t ä n d n i s der P s y c h o logie
als
anwendungsorientierter
Wissenschaft
vom
menschlichen Handeln und Erleben. Göttingen: Psychologische Rundschau 24, 2 2 7 - 2 4 7 . SCHÜTZ, A . 1 9 7 1 . W i s s e n s c h a f t l i c h e I n t e r p r e t a t i o n u n d A l l tagsverständnis
menschlichen
Handelns.
Gesammelte
Aufsätze, B d . l . Den Haag: Martinus Nijhoff, 3-110. STACHOWIAK, H . 1 9 7 3 . A l l g e m e i n e M o d e l l t h e o r i e .
Wien/
N e w York: Springer. TOEBE, P . , HARNATT, J . , SCHWEMMER, O . & W E R B I K , H . 1 9 7 7 . B e i t r ä g e der K o n s t r u k t i v e n P h i l o s o p h i e zur K l ä r u n g der b e g r i f f l i c h e n u n d m e t h o d i s c h e n G r u n d l a g e n der P s y c h o l o g i e . In: K. A . S c h n e e w i n d ( H r s g . ) : W i s s e n s c h a f t s t h e o r e t i s c h e G r u n d l a g e n der P s y c h o l o g i e .
München:
r^^H
WIPPICH, W . & BREDENKAMP, J. 1 9 7 8 . B i l d h a f t i g -
^ ^ ^
Reinhardt (UTB), 9 3 - 1 1 5 . keit u n d L e r n e n . S t u t t g a r t : K o h l h a m m e r .
^
H J
267
Zeitschrift für Sozialpsychologie 1979,10,267-273
Widersprüchlichkeit und Selbstanwendung: Psychologische Menschenbildannahmen zwischen Logik und Moral NORBERT GROEBEN
These 1: Da der Behaviorismus mit Universalitätsanspruch auftritt, muß er sich der Selbstanwendung stellen und erweist sich dabei unvermeidbar als intern widersprüchlich HERRMANN rekonstruiert (1979) das von ihm sog. W-Argument (Nachweis der Widersprüchlichkeit von Menschenbildannahmen bei Selbstanwendung) in zweierlei Hinsicht: zum einen in bezug auf die in der Literatur vorfindbare Argumentation (z. B. in GROEBEN & SCHEELE, 1977), zum anderen hinsichtlic h der logischen Möglichkeit(en), Widersprüchlichkeit zu vermeiden (und daher dem W-Argument zu entgehen). In bezug auf die zweite Perspektive, der potentiellen Auflösung von Widersprüchlichkeit, ist der Argumentation von HERRMANN grundsätzlich zuzustimmen, hinsichtlich der ersten Perspektive, der präzisierenden Explikation des Widersprüchlichkeits-Arguments, allerdings nicht. Die Rekonstruktion des (in GROEBEN & SCHEELE, 1977) vorliegenden W-Arguments gegen das