206 73 16MB
German Pages [610] Year 1991
Siegfried
Grubitzsch
Testtheorie Testpraxis Psychologische Tests und Prüfverfahren im kritischen
•
•
Uberblick
l ro = ro s ro
«Testtheorie - Testpraxis» bahnt einen Weg durch das verwirrende Dickicht von Theorien, Methoden und Verfahren, mit denen in Schule, psychologischer Praxis und Beruf getestet, eingeschätzt, geprüft oder differenziert wird. Dieses Handbuch untersucht die allgemeine Funktion von Tests und Prüfverfahren, die Meßbarkeit psychischer Merkmale,
Eigenschaften
oder Verhaltensweisen und nimmt das Verhältnis von Anspruch und Wirklichkeit der Tests kritisch unter die Lupe. In Kurzanalysen werden weitverbreitete Tests von Persönlichkeitsmerkmalen, Intelligenz, Leistung, Konzentration vorgestellt und im Hinblick auf Grundkonzept, Gültigkeit, Normen und Aussagewert ihrer Resultate überprüft.
ro s ro ro s
Zu diesem Buch Überall, wo Eignung und Fähigkeiten von Menschen untersucht, beurteilt und klassifiziert werden, kommen auch psychologische Tests, Prüfverfahren und Befragungstechniken zur Anwendung. Das gilt in immer stärkerem Maß ebenso für Eignungsuntersuchungen in Betrieben und Organisationen, für die Überweisung von Schülern und Schülerinnen in die Sonderschule, für die Beurteilung der Fahrtüchtigkeit von Kraftfahrern, die Einweisung von Kindern und Jugendlichen in Heime, die Auswahl von Auszubildenden, für die Begutachtung des Sorgerechts bei Ehescheidungen und vieles mehr. Die Diskussion um psychologische Test- und Prüfverfahren ist seit ihrer Entstehung nicht abgeflaut. Befürworter und Gegner, Anwender und Betroffene suchen im Widerstreit der Meinungen Möglichkeiten und Grenzen des Testens aufzuzeigen. In dieser Auseinandersetzung will das Handbuch «Testtheorie - Testpraxis» umfassend informieren und neue Impulse für eine Fortentwicklung von Theorie und Praxis des Tests geben. Dieses Grundlagenwerk untersucht und bewertet - Sozialgeschichte und allgemeine Funktion von Tests und Prüfverfahren, - die Frage der Meßbarkeit psychischer Merkmale, Eigenschaften oder Verhaltensweisen, ^ - Anspruch und Wirklichkeit der Tests im Hinblick auf die unterschiedlichen Praxisfelder, in denen sie angewendet werden, - Anwendungsgrenzen und rechtliche Fragen. Weitverbreitete Tests für Intelligenz, Konzentration, Leistung, Persönlichkeitsmerkmale, Interessen werden ebenso wie klinische und schulpsychologische Tests in Kurzanalysen vorgestellt und im Hinblick auf Grundkonzept, Gültigkeit, Norm und Aussagewert der Testresultate überprüft. Der Autor Prof. Dr. Siegfried Grubitzsch, geboren 1940, lehrt an der Universität Oldenburg/O. das Fach Psychologie mit dem Schwerpunkt der Psychologischen Diagnostik. Seit 1985 ist er Leiter der «Test- und gutachtenpsychologischen Beratungs- und Beschwerdestelle» an der Universität Oldenburg. Mitherausgeber der 1977 von ihm gegründeten Zeitschrift «Psychologie und Gesellschaftskritik», zahlreiche Buch- und Zeitschriftenveröffentlichungen zur Psychologischen Diagnostik und ihrer Kritik. Forschungsarbeiten zu Fragen der Psychologie als Sozialtechnologie.
Siegfried Grubitzsch
Testtheorie - Testpraxis Psychologische Tests und Prüfverfahren im kritischen Überblick
Unter Mitarbeit von Thomas Blanke, Friedrich-Carl Braun-Munzinger, Berthold Dunkel, Gisela Erdmann, Anke Hanft, Ulrich U. Hermann, Gunter Herzog, Michaela Huber, Frank Nestmann, Günter Rexilius, Walter Rokita, Peter Schötzau-Fürwentsches, Dieter Sterzel, Ulrich Tappe, Paul Walter, Achim Weiser
ro ro ro Rowohlt
Redaktion Wolfgang Müller Umschlagentwurf Jens Kreitmeyer
31.-40. Tausend Mai 1991 Originalausgabe Vollständig überarbeitete und erweiterte Neuausgabe Veröffentlicht im Rowohlt Taschenbuch Verlag GmbH, Reinbek bei Hamburg, August 1978 Copyright © 1991 by Rowohlt Taschenbuch Verlag GmbH, Reinbek bei Hamburg Satz Times und Helvetica (Linotronic 500) Gesamtherstellung Clausen & Bosse, Leck Printed in Germany 2280-ISBN 3 499 18814 7
Inhalt
I. Vorwort 13 IL Testtheorie 17 1. Siegfried Grubitzsch Ein psychologischer Test-was Ist das? 17 1.1 1.2 1.3 1.3.1 1.3.2
Test und Alltag 17 Illustrierte und Tests 18 Tests in der Psychologie 18 Ausgewählte Definitionen zum Begriff «Test» 21 Zum Bedeutungsumfang des Testbegriffs 22
2.
Siegfried Grubitzsch Vom Alltag zur Wissenschaft Oder: Zur logischen und sozialhistorischen Herausbildung von Tests 28 2.1 2.2 2.2.1 2.2.1.1 2.2.1.2 2.2.1.3 2.2.1.4 2.2.1.5 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.6.1 2.2.7
Vorbemerkung 28 Zur logischen und sozialhistorischen Herausbildung psychologischer Tests und Prüfverfahren 30 Von den Bedingungsfaktoren zur Prüfsituation 31 Zum Beispiel Studienplatzvergabe 33 Zum Beispiel Schüler-Auslese 33 Zum Beispiel Richter-Auslese 33 Zum Beispiel betriebliche Eignungsauslese 35 Zum Beispiel psychiatrische und klinische Menschenbeurteilung 41 Konfliktträchtige Praxis 43 Die Wissenschaft nimmt sich der Probleme an 45 Von der Problemstellung zum fertigen Test 51 Psychologische Tests - eine begriffliche Neubestimmung 54 Zum Sinngehalt eines Testwertes 56 Kritische Tests, kann es die geben? - Ein Exkurs 60 Die Praxis wartet nicht 63
3.
Siegfried Grubitzsch Wissenschaftshistorische Herausbildung psychologischer Testverfahren 65 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8
Einleitung 65 Testverfahren und der Ort ihres Ursprungs 66 Biologische und psychologische Indikatoren des gesellschaftlichen Ranges (Galton) 69 Die Zuordnung von Individuen zu Bildungsinstitutionen (Binet) 78 Verknüpfung von Psychiatrie und Experimentalpsychologie (Kraepelin) 86 Zuordnung zum Arbeitsplatz aufgrund Eignung (Münsterberg) 88 Von der Sozial-zur Individualstatistik 93 Ausblick 96
4. Paul Walter Die «Vermessung» des Menschen: Meßtheoretische und methodologische Grundlagen psychologischen Testens 98 4.1 4.2 4.2.1 4.2.2
4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.4 4.4.1
Meßtheorie und Testpraxis - grundsätzliche Vorbemerkungen 98 Meßtheoretische Grundbegriffe 101 Messung 101 Meßtheorie 105 a) Das Problem der Repräsentation 106 b) Das Problem der Eindeutigkeit 106 c) Das Problem der Bedeutsamkeit 108 Der Ansatz der klassischen Testtheorie 110 Das Grundkonzept 110 Die «Axiome» der klassischen Testtheorie III Die Herleitung der Reliabilität nach der klassischen Testtheorie 113 Erweiterungen der klassischen Testtheorie 115 Anwendungsgrenzen und formale Unzulänglichkeiten der klassischen Testtheorie 115 Alternative Testmethodologie - Fortschritte in der Diagnostik? 117 Grundzüge des Modells von Rasch 118 a) Die logistische Funktion 119 b) Spezifische Objektivität, stichprobenunabhängige Parameterbestimmung 120
4.4.2 4.5 4.5.1 4.5.2
Vorzüge und Nachteile des Rasch-Modells 121 Meßtheorie-Testmodelle. Eine kritische Einschätzung 123 Ideologie der Meßbarkeit 124 Instrumentalisierung der Psyche 126
5. Siegfried Grubitzsch Konstruktion psychologischer Tests: Von der Fragestellung zur Nonntabelle 128 5.1 5.2 5.2.1 5.3 5.3.1 5.3.2 5.3.3 5.4 5.4.1
Einleitung 128 Herstellung der Testvorform 129 Exkurs: Stichprobenorganisation 131 Aufgabenanalyse 132 Schwierigkeitsgrad der Testaufgaben 133 Trennschärfe der Testaufgaben 134 Homogenitätsanalyse 136 Analyse der Häufigkeitsverteilung der Test(roh)werte 136 Exkurs: Normalverteilung, Mittelwert, Standardabweichung, Auftretenswahrscheinlichkeit 137 5.5 Hauptkriterien der Testgüte 146 5.5.1 yalidität (Gültigkeit) 146 5.5.1.1 Übereinstimmungsvalidität 146 5.5.1.1.1 Exkurs: Korrelation 146 5.5.1.2 Vorhersagevalidität (Prädiktive Validität) 153 5.5.1.2.1 Zwischenbemerkung 154 5.5.1.3 Inhaltsgültigkeit 156 5.5.1.4 Konstruktvalidität 156 5.5.1.5 Allgemeines zur Gültigkeit 158 5.5.2 Reliabilität (Zuverlässigkeit) 163 5.5.2.1 Reliabilität nach Re test, Paralleltest und Testhalbierung sowie Konsistenzanalysen 163 5.5.2.2 Standardmeßfehler 166 5.5.3 Anwenderunabhängigkeit (Interpersonelle Übereinstimmung) 171 5.6 Nebenkriterien der Testgüte 174 5.6.1 Normierung, Zulänglichkeit, Vergleichbarkeit, Ökonomie und Nützlichkeit 174 5.7 Standardisierung 175 5.8 Eichung des Tests 176 5.9 Der «Fall» N = l. Und nun? 181
6.
Siegfried Grubitzsch Tests im diagnostischen Prozeß: Grenzen und Probleme 184 6.1 6.2 6.3 6.3.1 6.4 6.4.1 6.4.2 6.4.3 6.4.4 6.4.5 6.4.6 6.4.7 6.4.8 6.5 6.5.1 6.5.2 6.5.2.1 6.5.2.2 6.5.3 6.6 6.6.1 6.6.2 6.6.3 6.6.3.1 6.6.3.2
Vorbemerkung 184 Wo nach Grenzen suchen? 186 Psychologische Tests in der Anwendung 191 Testanwendung am Beispiel von Sorgerechtsbegutachtung Die Testsituation 201 Äußere Bedingungen der Testsituation 202 Testleiter/in 203 Das Verhalten von Testleitern/innen 204 Interaktion Testleiter/in - Proband/in 205 Einstellungen und Erwartungen der Testperson 206 Testangst 207 Die Situation der Getesteten 208 Zusammenfassende Bemerkungen 210 Diagnostische Urteilsbildung 211 Welche Informationen liefern Tests? 211 Der Prozeß der Urteilsbildung 216 Die Fähigkeiten und Eigenschaften des Urteilers 217 Psychometriker, Kasuistiker und die Quintessenz 220 Die Folgen 224 Zur Funktion psychologischer Diagnostik und Testanwendung 230 Der diagnostische Prozeß 230 Anthropologisch-psychologische Erklärungsansätze 231 Gesellschaftlicher Erklärungsansatz 233 Wissenschaft - Mittel für Zwecke 234 Folgen der Mittelanwendung 238
7. Gunter Herzog Testpsychologie und Große Diagnostik Klinische Klassifikationssysteme: ICD und DSM 244 7.1 7.2 7.3 7.4 7.5 7.6 7.7
Einführung 244 Semantische Probleme in der Psychopathologie 245 Psychopathologie und Testbefunde 247 ICD: Klassische Diagnostik 249 Einige systematische Differenzen zwischen ICD und DSM 251 Zwischenbemerkung 253 Das Beispiel Schizophrenie: Nonnen und Konkordanzen 253
7.8 7.8.1 7.8.2 7.9
Ausprägungen und Bewertungen: Die klinische Beobachtung im DSM-III-R 257 Einige weitere Beispiele 259 Wertende Metaphern im DSM-III-R 260 Schluß 261
8. Anke Hanft Eignungsdiagnostik in Betrieben - Psychologische Testverfahren nnd Assessment Center als Instrumente der Personalselektion 263 8.1 8.1.1 8.1.2
8.1.3 8.2
8.3 8.3.1 8.3.2 8.4
Selektion als Eignungsdiagnostik 263 Eignungsbestimmung anhand der Anforderungen des Arbeitsplatzes 263 Eignungsbestimmung aufgrund kongruenter Werte- und Normensysteme 266 Eignungsbestimmung als statische Diagnostik 267 Betriebliche Rekrutierungspolitik 268 Tests und ACs als Selektionsinstrumente 276 Psychologische Testverfahren 277 Das Assessment Center 281 Rekrutierung - ein Machtproblem ? 291
9. Peter Schötzau-Fürwentsches, Siegfried Grubitzsch Der Einsatz des Computers in der psychologischen Diagnostik 297 9.1 9.2 9.3 9.3.1 9.4 9.5
Der Computer - die Psychologie - und was Anwender daraus machen 297 Computer und psychologisches Testen: Allgemeine Vorbemerkung 300 Das computerunterstützte Testen (CUT) 300 Vor- und Nachteile des computerunterstützten Testens 303 Das computergesteuerte adaptive Testen (CAT) 310 Vom computergestützten Testen zur computergestützten psychologischen Diagnostik 311
10. Siegfried Grubitzsch Tests in der öffentlichen Meinung 314 10.1 10.2
USA 314 Bundesrepublik Deutschland 318
11.
Thomas Blanke, Dieter Sterzel Menschenwürde und Tests: Voraussetzungen und Grenzen ihrer rechtlichen Zulässigkeit 325 11.1 11.2 11.3 11.3.1 11.3.2 11.3.3 11.3.4 11.3.5 11.3.6 11.3.7 11.4 11.4.1
11.4.2 11.4.3
}
Die verschiedenen Testarten und ihre jeweilige «Eingriffstiefe» in die Persönlichkeit 327 Verrechtlichung psychodiagnostischer Verfahren - Die rechtlichen Grundlagen für die Anwendung von Tests 330 Die Rechtsprechung zu Bedingungen und Grenzen der Anwendung von Tests 337 Tests und Strafprozeßrecht 338 Die verwaltungsgerichtliche Rechtsprechung zur Einholung medizinisch-psychologischer Gutachten beim Entzug eines Führerscheins 340 Die zivilgerichtliche Rechtsprechung zur Verwendung projektiver Persönlichkeitstests bei Entscheidungen zum elterlichen Sorgerecht 345 / Die beamtenrechtliche Rechtsprechung zur Verwendung von Tests im Rahmen von Eignungsgutachten 346 Die arbeitsgerichtliche Rechtsprechung zur Verwertung psychologischer Gutachten 347 Die verwaltungsgerichtliche Rechtsprechung zur Verwendung von psychologischen Tests in der Schule 349 Die Rechtsprechung des Bundesverfassungsgerichts zum Grundrechtsschutz des allgemeinen Persönlichkeitsrechts (Art. 1 Abs. 1, Art.2 Abs. 1GG) 350 Verfassungsrechtliche Schranken des Einsatzes von psychologischen Testverfahren 359 Der Sozialbezug als Grund des Grundrechtsschutzes und der verfassungsrechtliche Primat der Selbstbestimmung 362 a) Die Menschenwürdegarantie 363 b) Das Recht auf freie Entfaltung der Persönlichkeit 364 c) Personale Selbstbestimmung und Persönlichkeitserfassung 366 Grundrechtsverletzung durch psychologische Testverfahren 368 Konsequenzen 369
III. Testpraxis 373 1. Siegfried Grubitzsch Psychologische Testverfahren in der Meinung von Psychologen 373 1.1 1.2
Ziel der Umfrage zur Anwendung und Beurteilung psychologischer Testverfahren 373 Ergebnisse der Umfrage 374
2. Kurzanalysen psychologischer Testverfahren - Einführung 386 3. Liste der besprochenen Tests 391 4. Kurzanalysen 393
IV. Anhang 553 1. Gheckliste fürs Testen und Getestet-Werden
553
2. Wegweiser für die Testsuche 556 2.1 2.2 2.3 2.4 2.5
Verlage, die u. a. (deutschsprachige) Tests und diagnostische Prüfverfahren anbieten 556 Apparategestütztes Testen und PC-Software für Testanwendung 557 Datenbanken 557 Handbücher und Übersichtswerke zu psychologischen Tests 557 Zeitschriften und Periodika 558
3. Gesamt-Literaturverzeichnis
559
4. Einführende Literatur in ausgewählte Bereiche der Testproblematik 588 5. Personennamenregister
592
6. Sachregister 597 7. Autorinnen und Autoren 607
Für Sören und Hauke, Florian und Felix : Nur gegen sie kam dieses Buch zustande
I. Vorwort
Es gibt nur ein einziges Gut für den Menschen: das Wissen, und nur ein einziges Übel: die Unwissenheit. (Sokrates) Seit der Erstausgabe des Buches sind nunmehr zwölf Jahre vergangen. Und obwohl es längere Zeit vergriffen war, erreichen uns noch immer Anfragen. Ein Familienrichter, der spezifische Fragen zum Aussagewert psychologischer Testverfahren im Rahmen von Sorgerechtsentscheidungen hat. Dann wieder ein Polizeibeamter, der an einer Eignungsuntersuchung für den höheren Polizeidienst teilgenommen hatte und um Rat bittet. Kraftfahrer, die ihren Führerschein wiedererhalten wollen und Studenten und Studentinnen, die mit ihrer Ausbildung in «Testtheorie Testpraxis» nicht einverstanden sind. Die Gewerkschaft, gelegentlich ein Betriebsrat, fragt um argumentative Unterstützung nach und schließlich sind es Industriebetriebe, die bezüglich der Testanwendung bei Personalentscheidungen Auskunft wünschen. Rechtsanwälte schrieben uns an, Ärzte, Lehrer und Lehrerinnen ebenso. Die Palette ist breit und läßt erahnen, wie groß die einschlägige Nachfrage ist. Aber auch Kritik wurde laut. Leser und Fachkollegen kamen aus sehr unterschiedlichen Fragerichtungen und mit ebenso verschiedenen Ansprüchen auf uns zu. Die einen fanden die kritischen Positionen nicht radikal genug, immanent verhaftet. Dann wieder der Vorwurf, die Diktion sei zu leserunfreundlich wie die Literatur, auf die verwiesen wird. Den nächsten fehlte die Nennung besserer (testpsychologischer) Methoden, und wieder andere vermißten eine dezidierte Ableitung oder Begründung der einen oder anderen Aussage. Die große Resonanz, die es in der inner- und außeruniversitären Öffentlichkeit, bei Studenten und Studentinnen wie auch bei Kollegen und Kolleginnen in der Praxis hatte, war dem Herausgeber (und dem Verlag) nunmehr Anlaß genug, eine völlig neu bearbeitete Fassung des Textes zu erstellen. Neu in mehrfacher Hinsicht. 1. Er sollte zunächst dem aktuellen Diskussionsstand im Sachgebiet angeglichen werden. Das bedeutete nun aber nicht, gänzlich neue Test- und Prüfverfahren, nach bislang unbekannten Prinzipien konstruiert und angewendet, vorstellen zu müssen. Im Kern nämlich hat sich diesbezüglich seit 1978 wenig geändert. Geändert hat sich in Fachkreisen vielmehr die
14
Vorwort
Einstellung zu psychologischen Tests bzw. zu ihrer Bedeutung im Gefüge psychodiagnostischen Handelns. Die Anwender sind zurückhaltender bzw. kritischer geworden, weil sie die Möglichkeiten und Grenzen psychologischer Testverfahren durch die wissenschaftliche Diskussion in den letzten Jahren realistischer einzuschätzen gelernt haben. Dazu hat sie selbst die Literatur der Testbefürworter ermuntert. Andere Entwicklungen in der Psychologie haben hier Zuarbeit geleistet. Die unverkennbare Orientierung vieler Fachkollegen und Fachkolleginnen hin zur Psychotherapie hat spezifische Methoden und Begutachtungstechniken hervorgebracht (z. B. Verhaltensdiagnostik oder Familiendiagnostik), die in die psychologische Behandlung und Beratung integriert waren, anstatt separat vorangestellt zu werden als eine abgesonderte Psychodiagnostik. Letztere herrscht freilich immer noch dort vor, wo aus institutionellen oder administrativen Erfordernissen heraus begutachtet werden muß und die Adressaten bzw. Auftraggeber (Gerichte, Psychiater, Gefängnisleitungen) darunter vor allem die Anwendung psychologischer Testverfahren verstehen. Wenn hier das vorliegende Buch festgefahrene Positionen aufzubrechen oder zu verschieben hilft, hätte es einen großen Teil seines Zweckes bereits erfüllt. Die Hoffnung, psychologische Tests für immer abschaffen zu können, wird dieses Buch nicht realisieren helfen. Was sollte sie auch ersetzen? Denn Testverfahren als wissenschaftliche Prüfinstrumente spiegeln einen gesellschaftlichen Bedarf nach präzisen Auslese- und Beurteilungsmethoden wider. Einzig die Aufhebung dieses Bedarfs durch eine grundlegende Veränderung unserer gesellschaftlichen Verhältnisse könnte als praktische Lösung des Problems begriffen werden. Einstweilen sind auch die Skeptiker unter den Testanwendern auf ihre bestehende Praxis verwiesen und handeln allein schon der betroffenen Individuen wegen. Und wo sie über tätigkeitsspezifische Freiräume verfügen, loten sie die Grenzen und Möglichkeiten der Testverfahren gern optimal aus. Sie nutzen deren inhaltliche und zeitökonomische Vielfalt zur (dialogischen) Information über Erlebens- und Verhaltensweisen bei ihnen zunächst unbekannten Personen, aber ignorieren ihren vermeintlichen psychometrischen Aussagegehalt. Diesen beziehen sie nur dann in ihre Überlegungen ein, wenn institutionelle Zwänge keine andere Möglichkeit lassen. Dann aber hilft eine gründliche Kenntnis der Testkonstruktion entschieden weiter, immanente methodische Spielräume in der einen oder anderen Weise zu nutzen. Dafür soll dieses Buch Anregung und Hilfen geben. 2. Der Text ist inhaltlich breiter angelegt als bisher. Zum einen, weil in der Praxis neue Bereiche wie das computerunterstützte Testen hinzugekommen sind. Hier droht eine Gefahr wie in der Pionierzeit psychologischer Testanwendung: Im Vertrauen auf die Technologie wird die Unzu-
Vorwort
15
länglichkeit der Tests vergessen. Darüber hinaus drohen Psychologen und Psychologinnen professionelle Einbußen durch fachfremden Zugriff. Auch die Bedeutung der Klassifikationssysteme psychischer Störungen und psychiatrischer Krankheiten hat erheblich zugenommen. Viele Krankenkassen erwarten seit langem Diagnosen, die darauf Bezug nehmen. Die Verbindungslinien psychologischer Tests - vor allem von Persönlichkeitstestverfahren - zu diesen Klassifikationssystemen ist deshalb von besonders praktischem Belang. Zum anderen hat die kritische Diskussion um psychologische Testverfahren und ihre mögliche Überwindung auch in «klassischen» Anwendungsfeldern wie der betrieblichen Eignungsdiagnostik längst Einzug gehalten. Was dort mit dem «Assessment-Center» zunächst als vielgepriesene Lösung hochgelobt wurde, beginnt sich langsam wieder auf dem Boden der Tatsachen einzurichten. 3. Zwölf Jahre nach Erstveröffentlichung eine Neufassung des Textes zu schreiben, hat auch in bezug auf die (bisherigen) Autoren und Autorinnen Konsequenzen. Manche waren schlichtweg nicht mehr auffindbar. Andere haben in ihrer beruflichen Entwicklung inzwischen einen Weg eingeschlagen, der sie weit von der Testpsychologie weggeführt hat, weshalb sie auf ihre Mitarbeit verzichten wollten. Schließlich Kollegen in beruflichen Unsicherheiten, die nicht zuletzt durch die ängstliche Abwehr von Fachvertretern, sich längerfristig mit psychologiekritischen Positionen auseinandersetzen zu müssen, erzeugt worden waren. Das ist vor allem deshalb bedauerlich, weil es dieser gewiß unbequemen Diskussion zwingend bedarf, um der Wissenschaft ihre innovativen Anteile zu sichern und gerade dadurch für ihre innere Dynamik mehr zu tun, als wenn man sie zu konservieren sucht. Indem all diese Autoren und Autorinnen ihre Texte für eine Überarbeitung ohne großes Zögern freigaben, konnten inhaltliche Grundstrukturen der Argumentation dieses Buches zumindest dort, wo sie noch aktuell waren, erhalten bleiben. Gleichwohl ist die Diktion stellenweise geändert worden ebenso wie manche Ableitungszusammenhänge, die vor zwölf Jahren durchaus ihre Berechtigung hatten und insofern zeitangemessen waren, inzwischen aber durch präzisere Differenzierungen ausgetauscht werden konnten. Und es wurde durch die nun mögliche Überarbeitung über alle Texte hinweg schließlich eine größere Geschlossenheit bei weniger inhaltlichen Überschneidungen erreicht. So ist nunmehr ein geschlossenes Buch zur «Testtheorie Testpraxis» entstanden, das sowohl von Anfang bis Ende entlang eines sich durchziehenden Fadens von der Testentstehung bis zu ihren Grenzen und rechtlichen Rahmenbedingungen gelesen werden kann - die Testbesprechungen führen diesen Faden in concreto durchaus weiter - als auch «quer», meint kapitelweise zu der einen oder anderen Fragestellung aus Theorie und Praxis. In dieser nunmehr vorliegenden Form soll es Ent-
16
Vorwort
Wicklungen der diagnostischen Praxis ergänzen, die dem reflektierten Handeln von Psychologen und Psychologinnen unter Ausnutzung methodischer, institutioneller, rechtlicher und individueller Freiräume auch im Interesse der Betroffenen ein größeres Gewicht verleihen. Dies aus der Einsicht heraus, daß die Wissenschaft kaum tragfähigere als die subjektiven Kriterien der Personbeurteilung entwickelt hat und auch diese bislang nicht zu optimieren vermochte. Der undurchschaubaren Willkür von einst, verbunden mit der behaupteten Objektivität diagnostischen Handelns, ist die reflektierte Unzulänglichkeit von heute als transparente gegenüberzustellen. Dieser Anspruch schließt dort, wo es von den Beteiligten her angezeigt ist, dialogische Prozesse und Korrekturmöglichkeiten ein. Andererseits erweckt er dort, wo dies nicht zugestanden wird, nicht den falschen Eindruck von Wissenschaftlichkeit. Das setzt auch die Bereitschaft voraus, sich kritisch mit den eigenen Positionen auseinanderzusetzen. Jedweder Veränderung geht eine Analyse des Bestehenden in Theorie und Praxis voraus. Die Kritisierten machen es sich leider viel zu leicht, wenn sie ihren Kritikern entgegenhalten, noch selbst keine bessere Methode oder keinen besseren Lösungsvorschlag gemacht zu haben. Denn Wissenschaft ist eine arbeitsteilige Institution. Positive Umgestaltung also Aufgabe aller. Warum sollen nur die Kritiker bessere Verfahren, also eine doppelte Leistung, erbringen? Ganz abgesehen davon, daß einschlägige Weiterentwicklungen lieber ignoriert werden, als die eigene Reputation zu gefährden. Es stünde auch der Psychologie gut an, Widerlegung nicht nur als negativ zu begreifen. Um nut Gould (1983) zu sprechen, entspringt dieser Eindruck «aus einer verbreiteten, aber fehlerhaften Geschichtsbetrachtung» (S. 356) der eigenen Wissenschaft. Diese ist das Resultat menschlichen Denkens und Handelns. Ihre Kritik die Voraussetzung der Veränderung beider. Oldenburg, Oktober 1990
II. Testtheorie
/
I.Siegfried Grubitzsch
Ein psychologischer Test-was ist das?
1.1 Test und Alltag Psychologische Tests sind - dem Wortsinne nach - Prüfverfahren. im Lateinischen, im angloamerikanischen Sprachgebrauch steht für Zeugnis, Probe, Wertbestimmung, Prüfung oder Beweis. In diesem Sinne begegnet uns der Begriff im Alltag so oft, daß ihn viele Menschen längst ihrem deutschen Sprachschatz gutschreiben. «Tests mit Tempolimit beendet», überschreibt eine Zeitung einen Bericht über die Unfallhäufigkeit, auf Teststrecken bundesdeutscher Autobahnen mit Höchstgeschwindigkeit 130 km/h. Kommunalwahlen werden als «Test für bevorstehende Parlamentsneuwahlen» bezeichnet. Und die «Stiftung Warentest unterzog die Speisewagen-Gesellschaft der DSG einem Qualitätstest». In den USA fand ein «britischer Atomtest» statt und «Nur was gründlich getestet ist, kann auch gründlich gegen Haarausfall wirken». Tee wird durch Wissenschaftler einem «Härtetest am Natanebi-Flußdelta» ausgesetzt, und ein «Lackkonservierer-Test» wird durchgeführt. Da macht jemand einen «Zucker-Test», einen «Gehör-Test bei Kleinkindern», und «Matratzen-Testwochen» finden statt. Unsere Kinder kommen aus der Schule und haben einen Test geschrieben, und der «Chef des Donkosakenchores testet seine Sänger». «Linke im Gesinnungstest», kommentierte die Wochenzeitung «Die Zeit» die Überprüfung der Verfassungstreue von Bewerbern für den öffentlichen Dienst.
18
Ein psychologischer Test - was ist das?
1.2 Illustrierte und Tests Nicht selten stoßen wir auf Tests in Illustrierten. «Wählen Sie aus den Abbildungen (Sofas, Betten) Ihre Liegestätte aus und wir sagen Ihnen, wie genußfähig Sie sind.» Und der Hundebesitzer unter uns kann den «Persönlichkeitstest für kleine Hunde» absolvieren - selbstredend stellvertretend. Allerhand muß er wissen: «Von wem läßt sich Ihr Hund anfassen? (a) Von allen Leuten, die er mag, (b) Nur von mir und anderen Familienmitgliedern, (c) Nur von mir» (Zutreffendes ankreuzen). Wir schütteln den Kopf über so viel Plattheit und Unsinn, aber unterziehen uns der Prüf- und Befragungsprozedur, als ging's um unser Seelenheil. Sie üben eine merkwürdige Faszination aus, diese «Testverfahren». Die Wissenschaft begegnet den Illustriertentests mit Skepsis und Ablehnung. Sie will Erklärungen und nicht unbegründete Behauptungen über eine Sache. So würde sie beispielsweise die Frage stellen, was denn unter «Genußfähigkeit» eigentlich zu verstehen sei und wieso sich diese ausgerechnet bei der Entscheidung für eine Liegestätte zu erkennen gibt. Ein bestimmtes Sofa mag zum Stil der Wohnung passen, an die frühe Kindheit erinnern oder abgelehnt werden seiner Form wegen. Und genießen tut man auch beim Essen, Wandern, Reiten oder Sitzen. Mehr noch stellt sich die Frage, ob die ausgewählten Liegestätten denn überhaupt stellvertretend für alle anderen gelten können, warum diese und keine anderen ausgewählt wurden und ob die Entscheidung für oder gegen eine Couch nicht zu sehr stimmungsabhängig sei? Dies schlösse zugleich das Problem ein, bei jeder Wiederholung dieser Wahlentscheidung andere Kriterien zum Tragen kommen zu lassen. Also eben nicht die einem Menschen eigene «Genußfähigkeit» zu erfassen, sondern seine Stimmungsabhängigkeit. Kurzum: überdauernde Wesenszüge eines Menschen werden nicht erkannt, sondern hier und jetzt behauptet. Die Psychologie möchte diese Wesensunterschiede zwischen Menschen begründet und fehlerfrei feststellen, weshalb sie Methoden ersinnt, unbeeinflußt von menschlicher Willkür und Beobachterlaune die motorische Geschicklichkeit, die Intelligenz, die Eignung zum Lohnbuchhalter, Busfahrer oder eben zur Genußfähigkeit zu eruieren.
1.3 Tests in der Psychologie Psychologische Tests dienen diesem Zweck. Als solche verkörpern sie (noch immer) die in der Öffentlichkeit bestehende Vorstellung, Menschen exakt vermessen und durchschauen zu können. Umgekehrt sehen
Tests in der Psychologie
19
die Psychologen und Psychologinnen wenig Veranlassung, diesen Mythos zu durchbrechen, schöpfen sie doch daraus einen guten Teil ihrer wissenschaftlichen und öffentlichen Reputation. Nicht nur in der Psychiatrie, sondern ebenso beim Psychologischen Dienst des Technischen Überwachungsvereins, im Rahmen des Überweisungsverfahrens zur Sonderschule, bei Einstellungen von Arbeitskräften, bei der Berufsberatung, bei der Auswahl von Auszubildenden in Banken und Gewerbe, in der Bundeswehr - überall kommen psychologische Tests zur Anwendung. Darunter werden Methoden verstanden, die unter definierten Bedingungen der Entnahme repräsentativer Stichproben aus dem Denken, dem Erlebens- und Verhaltensrepertoire von Personen dienen sollen. Auf der Grundlage dieser Verhaltensstichproben wird dann auf (dahinterstehende) Leistungsfähigkeiten, Motivationen oder Einstellungen geschlossen. Das beobachtete Verhalten ist mithin der Indikator für ein (dahinter angenommenes) Indikandum (das interessierende psychische Merkmal). Tests ermöglichen unter standardisierten Bedingungen die wiederholbare Informationsbeschaffung beispielsweise über die intellektuellen Fähigkeiten, Motivationen, Ängste, Aggressionen oder über die politischen Einstellungen von Menschen. Ziel der Testanwendung entsprechend ihrer gesellschaftlichen Zwecksetzung ist es, Unterschiede zwischen Personen {interindividuelle Differenzen) und/oder Unterschiede im Verhalten einer Person zu verschiedenen Zeitpunkten {intraindividuelle Differenzen) festzustellen. Immerhin möchte man ja in Erfahrung bringen, welche Person im Vergleich zu einer anderen geeigneter ist, eine komplizierte Maschine zu bedienen, oder im Vergeich zu anderen Schülern der Regelschule nicht mehr gewachsen ist. Dabei kann es sich um Unterschiede zwischen zwei konkreten Schülern handeln, aber auch um Unterschiede zwischen einer konkreten Person und einer theoretisch definierten Normperson - einem «Durchschnittsmenschen». Welche Verhaltens- und Denkweisen bei der Feststellung von Unterschieden jeweils ins Auge gefaßt werden, ist nur scheinbar durch den jeweiligen Test bzw. durch die in ihm enthaltenen Testaufgaben festgelegt. Tatsächlich sind es die im Test vergegenständlichten gesellschaftlichen Zwecke, aus denen sich die anvisierten psychischen Merkmale herleiten und letztlich den Inhalt der Testaufgaben {Items) bestimmen. Ein Schüler der 4. Klasse sollte rechnen und lesen, dem Unterricht aufmerksam folgen und sich in eine Gruppe einfügen können (vgl. z. B. Schulleistungstest AST 4, S. 516.). Deshalb werden dem «auffälligen» oder «schwierigen» Schüler Rechenaufgaben, Leseaufgaben, Schreibübungen oder Aufgaben zur Aufmerksamkeitsprüfung vorgelegt (s. Abbildung 1), die einen vom Lehrerurteil losgelösten Leistungsvergleich mit anderen Schülern ermöglichen sollen. Er wird psychologischen oder pädagogischen Tests oder eben Prüfverfahren unterzogen.
Ein psychologischer Test - was ist das?
20
| 7 3 A 6 8 2 9 3 | ? 3 4^6$ 2 9 3| Vorgabe
Welche der Zahlen wurde falsch übertragen? (Aufmerksamkeitsprüfung)
Abschrift
Finde so schnell wie mög-
b q b q b q b q b b q q b q b q b i t n f rt tr r t t n t t
Z S S S S S S S T Konzentration)
Welche Figur gehört nicht zu den anderen? (Allgemeine Intelligenz)
•~ir~Dizr Z B
s m 4
5
jji c
Eine Figur paßt nicht in der Reihe (Denkvermögen)
Welche der vorgegebenen Figuren 1 - 5 ist an die Stelle des Fragezeichens zu setzen ? (Intelligenz)
Der zusammengefaltete Würfel ergibt welche der drei Vorgaben: a, boderc? (Raumvorstellung)
Abbildung 1: Beispiele von Testaufgaben aus Schulleistungs- und Intelligenztests
Tests in der Psychologie
21
Dem folgenden Abschnitt sind verschiedene Definitionen des Begriffs «Test» zu entnehmen. 1.3.1 Ausgewählte Definitionen zum Begriff «Test» 1. «Unter einem versteht man bekanntlich eine scharf umschriebene Aufgabenstellung, die zur Bekundung einer bestimmten psychischen Beschaffenheit führen soll. Von dem psychologischen Laboratoriumsexperiment unterscheidet sich der Test dadurch, daß er in kurzer Zeit mit einfachen Hilfsamitteln einen für das Individuum kennzeichnenden Individualwert erzielen soll; er ist eine Art psychischer Stichprobe. Von den üblichen pädagogischen Prüfungen unterscheidet er sich dadurch, daß er nicht objektive Leistungserfolge als solche bewertet, nicht die Ergebnisse irgendeiner Unterrichts- und Lernarbeit kontrollieren, sondern die den Leistungen zugrunde liegenden Fähigkeiten verraten soll; er ist nicht Kenntnis-, sondern Fähigkeitsprüfung>> (Stern 1920, S.48). 2. «Ein psychologischer Test ist seinem Wesen nach eine objektive und standardisierte Messung einer Stichprobe aus dem Verhalten» (Anastasi 1967, S. 21; Übersetzung S. G.). 3. «Der Test ist ein diagnostisches Experiment, das den Zweck hat, die individuelle seelische Eigenart oder auch nur einzelne seelische Eigenschaften einer Persönlichkeit möglichst objektiv und exakt zu erfassen» (Remplein 1967, S. 629). 4. «Ein Test ist eine systematische Prozedur zum Vergleich des Verhaltens zweier oder mehrerer Personen» (Cronbach 1965, S.21; Übersetzung S.G.). 5. «Ein Test ist ein systematisches Kategorisierungs- oder Messungsverfahren, das es möglich macht, über eine oder mehrere empirisch-theoretisch begründete Eigenschaften des Untersuchten oder über ein spezifisches Verhalten außerhalb des Tests eine Aussage zu machen; man geht von einer objektiven Verarbeitung von Reaktionen der Person in einer standardisierten, sorgfältig ausgewählten Reiz-Situation aus und vergleicht sie mit den Reaktionen anderer Personen» (Drenth 1969, S. 65). 6. «Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung» (Lienert 1969, S. 7). 7. «Ein psychologischer Test kann definiert werden als objektive und standardisierte Stichprobe aus dem Verhalten und Erleben eines Menschen. Standardisierung bedeutet dabei, daß die Entnahme der Stich-
22
Ein psychologischer Test - was ist das?
probe (d.h. die Durchführung des Tests) für alle Individuen vergleichbar ist; und objektiv, daß Auswertung und Interpretation der Stichprobe unabhängig vom jeweiligen Testleiter sind» (Sommer 1971, S. 192). 8. «Ein Test ist eine standardisierte Stichprobe aus dem Leistungsverhalten eines Probanden; der Test muß genügend differenziert, zuverlässig und gültig sein» (Wewetzer 1972, S. 43). 9. «Ein psychologischer Test kann als ein spezifisches psychologisches Experiment gekennzeichnet werden, das der Erkundung individueller psychischer Unterschiede dient. Es besteht im wesentlichen darin, daß unter standardisierten Bedingungen eine Verhaltensstichprobe des Probanden (Pbn) provoziert wird, die einen wissenschaftlich begründeten Rückschluß auf die individuelle Ausprägung eines oder mehrerer psychischer Merkmale gestattet» (Michel 1971, S. 19). 10. «Ein Test ist ein Spezialfall der Kategorisierung und Messung des menschlichen Verhaltens» (Stoll 1978, S. 321). Die zitierten Definitionen spiegeln die bestehende Sicht der MainstreamPsychologie recht gut wider. Nach Auffassung der meisten Psychologen und Psychologinnen ist tin psychologischer Test ein - wissenschaftliches Routineverfahren für die objektive und zuverlässige Entnahme - einer gültigen Stichprobe aus dem Verhalten und Erleben eines Menschen - unter Standardbedingungen (die die Wiederholbarkeit und Vergleichbarkeit garantieren), - um vor dem Hintergrund einer Norm einen wissenschaftlich begründeten Rückschluß auf die individuelle Ausprägung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale, die dem beobachteten Verhalten als zugrundeliegende angenommen werden, ziehen zu können, - mit dem Ziel der Unterscheidung und zweckgerichteten Vorhersage individueller Verhaltensmöglichkeiten auch für künftige Situationen, 1.3.2 Zum Bedeutungsumfang des Testbegriffs In diesem Buch wird eine von den obengenannten Definitionen abweichende Sichtweise vertreten (s. S. 54), wonach Tests in der Sprache der Wissenschaft geronnene gesellschaftliche Prüf- und Befragungssituationen darstellen. Daraus ergeben sich für die Analyse und Bewertung von Testverfahren weitreichende Konsequenzen, die uns im 2. und den folgenden Kapiteln beschäftigen werden.
Tests in der Psychologie
23
Einstweilen beziehen wir uns noch auf die zusammenfassende, breite Begriffsbestimmung aus der Fachliteratur. Sie umschließt sowohl quantitativ wie auch qualitativ ausgerichtete Testverfahren. Tests, mit denen eint Messung, also die quantitative Erfassung und Beschreibung psychischer Merkmale, angestrebt wird, werden üblicherweise psychometrische Tests genannt. In ihnen werden alle Einzeltestleistungen auf eine einheitliche Bewertungsskala bezogen. Zum Beispiel werden sprachliche Kompetenzen, rechnerische Fähigkeiten, jene des Regelerkennens und des Allgemeinwissens als Intelligenz zusammengefaßt und ihre Ausprägung als (niedriger oder hoher) Intelligenzquotient angegeben. Anders verhält es sich mit den sogenannten projektiven Tests bzw. Persönlichkeits-Entfaltungsverfahren (vgl. Brickenkamp 1975). Sie zielen darauf ab, die qualitative Einmaligkeit psychischer Erlebens-, Vorstellungs- oder Bedürfnisstrukturen beim Menschen, also seine subjektive Einzigartigkeit im Unterschied zu anderen Menschen, zu erfassen. Den Probanden wird weitgehend unstrukturiertes Material (z.B. angefangene Geschichten, Tintenkleckse oder Spielmaterial) vorgegeben, das sie vollenden, deuten oder zum Aufbau einer Szene nach ihrer Wahl benutzen sollen (vgl. die Beispiele S.24ff). Bei dieser Aufgabenstellung wird davon ausgegangen, daß die Testpersonen (Kinder, Erwachsene etc.) bei der Strukturierung des Materials ihre ihnen unbewußten Ängste, Einstellungen, Wünsche oder Hoffnungen in das vorgelegte Material bzw. seine Bearbeitung projizieren. Ihre Testantwort ist somit Ausdruck ihrer jeweiligen psychischen Befindlichkeit. Ein Junge, der unverarbeitete Haßgefühle und Aggressionen gegen seine beiden kleinen Schwestern hat, stellt mit dem ihm vorgegebenen Spielmaterial etwas anderes dar (s. Abbildung 2) als ein Adoptivkind (s. Abbildung 3), das seine Lebenssituation psychisch nicht bewältigt hat. Es ist Aufgabe der Psychologin, aus der angebotenen Antwort einer Person deren psychische Befindlichkeit nach qualitativen Deutungsgesichtspunkten zu entschlüsseln. An Tests wird der Anspruch gestellt, von der Person des Anwenders unabhängige Resultate zu erbringen. Dies garantieren beispielsweise Richtig/Falsch-Antworten, die mit einer aufgelegten Schablone auszuwerten sind. Welchen persönlichen, vielleicht von Antipathien geprägten Eindruck eine Psychologin bezüglich der «wahren» Intelligenz ihres Klienten hat, bleibt dadurch ausgeklammert. Nur wenige projektive Tests genügen diesem Anspruch auf «Objektivität» (vgl. dazu weiter unten S. 171.). Ähnlich die «Zeichnerischen und Gestaltungsverfahren». Ob der von einem Kind ohne Wurzeln gezeichnete und nur im Inneren seiner Krone mit Blättern ausgestattete Baum («Baum-Test» von Koch 1972) tatsächlich Ausdruck sozialer Haltlosigkeit und gehemmter Emotionali-
24
Ein psychologischer Test - was ist das?
Abbildung 2: Schwester begraben (nach v. Staabs 1951, Anhang)
Abbildung 3: Adoptivkind (nach v. Staabs 1951, Anhang)
Tests in der Psychologie
25
tät ist, bleibt weitgehend vom ganzheitlichen, intuitiven Eindruck des Testanwenders und der darauf basierenden Einzelmerkmalsanalyse abhängig. Solche Entfaltungsverfahren wurden deshalb in zurückliegender Zeit in Theorie und Praxis als zu spekulativ abgelehnt und durch besagte psychometrische Testverfahren zu ersetzen versucht. Dies spiegeln in unregelmäßigen Abständen durchgeführte Untersuchungen zum wissenschaftlichen Standard im Umgang mit Tests wider (vgl. u.a. Stoll 1978; Poortinga 1982). Allerdings läßt sich in jüngster Zeit eine Renaissance der qualitativen Methoden, insbesondere auch der Entfaltungsverfahren, in der Praxis beobachten. Sie werden vor allem in therapeutischen Arbeitszusammenhängen (Settings) als «Befindlichkeitssymboliken» benutzt (vgl. Raeithel 1985), mit denen und in denen sich Klienten eher ganzheitlich zum Ausdruck bringen - eben entfalten - können, ohne gleich klassifiziert oder verrechnet zu werden. Andere Nutzer setzen die Testverfahren ein als «Situationsstandardisierer». Das heißt, sie werden als Mittel genutzt, am gleichen Material wiederholt klientenspezifische Probleme zu thematisieren, die einer gemeinsamen (tiefen)psychologischen Sinngebung unterzogen werden. Dieses Vorgehen empfehle sich u.a. auch aufgrund einer eher ganzheitlichen Herangehensweise an psychologische Problemkonstellationen und Leidenszustände (Breuer 1979, S. 153). Immerhin ist der Mensch mehr als nur eine Zahl auf einer Meßskala. In ähnlicher Absicht werden vielerorts auch psychometrische Tests genutzt - gleichsam als Fundgrube für mögliche Aufgabenstellungen, mit denen Klienten zu konfrontieren sind, um über ihr Arbeitsverhalten, ihr Problembewußtsein, ihre Familiensituation oder ihre Geschicklichkeit einen ganzheitlichen und möglichst alltagsnahen Eindruck zu gewinnen. Über den Grad der Alltagsnähe freilich entscheidet letztlich das Testmaterial, das entweder außerordentlich wirklichkeitsfremd (z. B. Raven-Matrizen oder der d2-Test, beide im Testanhang besprochen) oder, wie im Beispiel des Sceno-Tests, dem Alltag sehr stark nachempfunden ist. Von solchen Entwicklungen scheinbar unberührt und wie gesagt durch Psychologen und Psychologinnen auch nicht forciert, gebärdet sich nach wie vor die herkömmliche Anwendung psychologischer Tests vor allem in institutionellen bzw. administrativen Zusammenhängen und Zwängen: Tests im Sonderschulüberweisungsverfahren, in der Berufsberatung, der forensischen Begutachtung, beim TÜV (Fahrtüchtigkeit), beim Studienzugang (Mediziner-Test), der Lehrlingsauswahl oder beim Schuleintritt (vgl. Grubitzsch 1989a, 1990b). Das ist auch nicht erstaunlich. Immerhin eignen sich psychologische Tests in doppelter Hinsicht für ein Versteckspiel. Die Anwender, zumal jene, die sich der weitreichenden, oft existentiellen Konsequenzen für die Betroffenen bewußt sind, aber sich dem
26
Ein psychologischer Test - was ist das?
Testen nicht entziehen können, benutzen sie als Schutzschild. Beispielsweise in der folgenden Art: «Der Test (!) hat erbracht, daß Ihr Kind Nepomuk für die Regelschule ungeeignet ist.» Die Schulbehörde ihrerseits ist dankbar für eine klare Unterlegung ihrer Entscheidung, die rechtlich abgesichert sein und möglichen Anfechtungen aufgebrachter Eltern standhalten soll (vgl. Grubitzsch 1989 b). Nicht das Schulsystem oder der Lehrer, sondern der Schüler hat versagt. «Indem mangelnde schulische Förder- und Stützmaßnahmen durch die Anwendung von psychologischen Tests in einen Mangel individuellen Vermögens verkehrt werden, werden Opfer unseres Schulsystems zu Verursachern ihres Leistungsabfalls» (Grubitzsch 1986, S.286). Dem argumentativen Bedarf für diese Umkehrung (administrative, rechtliche, soziale Legitimationsfunktion) verdanken die psychologischen Tests letztlich ihre Existenz (s. Kapitel 2) und ihre große Zählebigkeit trotz wissenschaftlicher Unzulänglichkeiten und Mängel. Nun ist sicher falsch, von den Adressaten psychologischer Testergebnisse mehr Wissen und Einsicht verlangen zu wollen als von ihren Konstrukteuren. Denn wenn es nach diesen ginge, hätten Tests mit gesellschaftlichen Verhältnissen nichts zu tun, wie uns ein erneuter Blick auf die obige Zusammenstellung der Definitionen verdeutlicht. Statt dessen betont man ihre Wissenschaftlichkeit und Unbestechlichkeit. In dieser behaupteten Eigenschaft halten sie zwar den Schein aufrecht, individuelle Fähigkeiten und Fertigkeiten objektiv erkennen zu können, tatsächlich aber interpretieren sie den Individuen nur das geforderte Verhalten an und machen die Person dafür verantwortlich, wenn sie den gesellschaftlichen Normen bzw. Ansprüchen nicht genügt. In Abänderung einer Formulierung von Berger & Luckmann (1987) konstruieren sie die Individualität und individualisieren damit öffentliche Versäumnisse. Durch die Ausklammerung der sozialen, ökonomischen und politischen Entstehungszusammenhänge von Tests wird ihre gesellschaftliche Funktion weitgehend verdeckt. Nämlich: sie steuern und rechtfertigen den Zugang zu sozialen Orten wie Beruf, bezahlte Therapie, Ausbildung, Freigang oder vorzeitige Entlassung aus dem Knast, Einwanderungsbewilligung, Schulzugang, aber auch zu vergleichsweise abstrakt theoretisch beschreibbaren Orten (mit freilich konkreten Konsequenzen) wie Persönlichkeitsbildern, Typologien, Eigenschaftsdimensionen, Rollen, Zuständen (gesund/krank) (vgl. Schmid 1978, S. 14). Darin helfen sie bestehende soziale Hierarchien und materielle Verteilungsregeln, folglich gesellschaftliche Machtstrukturen aufrechtzuerhalten. Folglich stellen psychologische Tests jedweder Art gesellschaftlich hervorgetriebene Instrumente zur zweckgerichteten Konstruktion und legitimatorischen Absicherung von Unterschieden zwischen Personen oder Perso-
Tests in der Psychologie
27
nengruppen dar, «mittels derer die Zuordnung von Individuen zu sozialen Orten bewerkstelligt, vermittelt und gesteuert werden kann» (Schmid a.a.O.). Wer die Prüfverfahren erfolgreich durchläuft, erhält Zugang zu sozial änerkannteren Berufen, gesellschaftlich attraktiveren Tätigkeiten, wird in der Schule favorisiert oder bekommt besondere Vergünstigungen in der Strafanstalt. Demnach kristallisieren sich drei Funktionen als wesentliche Bestimmungsstücke psychologischer Testverfahren heraus: (a) ihre deklarierte Erkenntnisfunktion, (b) ihre Legitimationsfunktion und (c) ihre Funktion der Sozialkontrolle. Nicht erst in ihrer Anwendung, wie vielerorts behauptet, sondern bereits in ihrer Entstehung sind Tests diesen Zwecksetzungen verpflichtet bzw. entspringen ihnen. Eine solche Sichtweise hat erhebliche Konsequenzen für den kritischen Umgang mit Testverfahren. Sie zu diskutieren empfiehlt sich nach einer Betrachtung des Herausbildungsprozesses psychologischer Tests.
28
2. Siegfried Grubitzsch
Vom Alltag zur Wissenschaft Oder: Zur logischen und sozialhistorischen Herausbildung von Tests
2.1 Vorbemerkung Es ist konstitutives Moment jedweder Wissenschaft, sich nicht mit beobachtbaren Tatsachen abzufinden, sondern nach Gründen für deren Erscheinen zu suchen. Theorien sind gewöhnlich das Resultat derartiger wissenschaftlicher Bemühungen. Sie stellen ein durch das Denken gewonnenes System von Einzelaussagen über den vermuteten Zusammenhang zwischen einem interessierenden Sachverhalt als Folge und den Bedingungen seines Auftretens dar. Warum beispielsweise Menschen Angst haben und wie sie sich äußert, darauf versuchen die Angsttheorien eine Antwort zu geben. Warum bestimmte Menschen Vorurteile gegenüber anderen Völkern oder sozialen (Rand-)Gruppen haben, sucht die Einstellungsforschung zu beantworten. Wer wissen will, warum es Tests gibt, sucht vergeblich nach einem umfassenden Begründungszusammenhang. Eine Testtheorie in diesem Wortsinne gibt es nicht. Zur Geschichte der Testentstehung als /deengeschichte, nicht jedoch als sozialgeschichtliche Theorienbildung, gibt es mehrere Darstellungen. Sie alle betrachten die Herausbildung von Tests als das Resultat grandioser, aber eben zufälliger Einfälle einzelner Wissenschaftler. Beispielsweise schreibt Groffmann (1971): «die Idee (Hervorhbg. S. G.), die Intelligenz von Kleinstkindern zu messen, geht bereits auf Binet (1909) zurück» (S. 175). Dieser personifizierte Geschichtsbegriff war lange kennzeichnend auch für die Mainstream-Psychologie. Eine so verstandene Geschichtsschreibung produziert bestenfalls neue Fragestellungen, statt Antworten zu geben. So etwa, daß auf der Darstellungsebene der Psychologiegeschichte spätestens im 20. Jahrhundert das unvermittelte Nebeneinander verschiedener psychologischer Schulen sichtbar wird, was bestenfalls noch auf Brüche schließen läßt, aber nicht mehr verstehbar wird (vgl. dazu Geuter 1981). Entsprechend findet dann «Fortschritt» nicht mehr innerhalb des Faches Psychologie als ganzem statt, sondern vollzieht sich nurmehr innerhalb der Schulen. Boring (1950) unternahm den Versuch, diesem Problem dadurch gerecht zu werden, daß er das Konzept des «Zeitgeistes»
Vorbemerkung
29
einführte. Damit soll ausschließlich erklärt werden, wie aufgrund eines vorherrschenden Meinungsklimas zu einer bestimmten Zeit und in einer bestimmten Kultur sich spezifische Denkweisen von Wissenschaftlern durchsetzen konnten. Freilich ist damit noch längst nicht die Frage geklärt, wie es überhaupt zu diesen Fragestellungen kam und welche Bedingungen gegeben sein mußten, damit sie sich gesellschaftlich durchsetzen konnten (vgl. Geuter 1981, S.828). Neben dem Paradigma von Boring gibt es noch eine Reihe anderer Ansätze, die sich diesem Problemkreis widmen. Zum Beispiel Bauer (1955), der mit seiner Konzeption des Menschenbildes in seiner Untersuchung zur Geschichte der sowjetischen Psychologie die zentralistische Ideologieproduktion der Partei und des Staates als ausschlaggebende Größe für Denkweisen in der Wissenschaft bestimmt. Der Vollständigkeit halber seien noch der problemgeschichtliche Ansatz von Pongratz (1967) und das «Modell der Geschichte der Naturwissenschaften» von Kuhn (1967) erwähnt. Letzteres geht davon aus, daß sich dann periodisch neue Paradigmen durchsetzen, wenn sie die alten Erkenntnisse widerlegen («wissenschaftliche Revolution»). Dieses Modellfindetin abgewandelter Form bei Buss (1979) auch in der Psychof logie-Geschichtsschreibung Anwendung. Jedoch bieten, wie Geuter (1981) aufzeigt, jene ausschließlich internalistischen Erklärungsansätze keine befriedigenden Antworten auf die eingangs erwähnten Fragen, nämlich, wie kommen solche «Einstellungen» bei Wissenschaftlern bzw. derartige Paradigmen im Netz des Gesellschaftsganzen und seiner divergenten Interessenkonstellationen überhaupt zustande? Dieser Frage widmen sich zunehmend mehr Autoren, deren Aufzählung hier nur exemplarisch sein kann: Bruder (1982); Bruder-Bezzel (1987); Brückner (1982); Dörner (1975 b); Fallend, Handlbauer & Kienreich (1989); Geuter (1984), Herzog (1984); Hildebrandt (1989); Jäger & Staeuble (1978); Lück, Grünwald, Geuter, Miller & Rechtien (1987); Kamper & Wulf (1988); Maikowski, Mattes & Rott (1976); Metraux (1986); Rexilius (1988), die Zeitschriften «Psychologie und Geschichte» und «Psychologie und Gesellschaftskritik» u.a. Diese Arbeiten haben sich mehr oder weniger einer sozialgeschichtlichen Orientierung verschrieben auf der Basis unterschiedlicher Gesellschaftstheorien. Erst allmählich und teilweise gegen fachinternen Widerstand beginnt sich hier ein anderes Geschichtsbewußtsein in der Psychologie durchzusetzen. Der Zusammenhang zwischen gesellschaftlichen Bedingungen und Testherausbildung bleibt bei einer ideengeschichtlichen Sichtweise unberücksichtigt. Einzig Schmid hat 1977 eine ernstzunehmende Arbeit vorgelegt, in der er sozialgeschichtlich zu erklären sucht, «wie sich das Bedürfnis nach Testverfahren (speziell der Intelligenz- und Leistungsmessung S. G.) überhaupt entwickelte und gestaltete» (S. 159). Eine vergleichbare
30
t Vom Alltag zur Wissenschaft
Arbeit von Grünwald (1980) richtet sich auf die soziale Herkunft von Diagnostikkonzeptionen, in deren Rahmen Tests nur einen Bereich unter anderen ausmachen, weshalb hier nicht näher darauf eingegangen wird. Aber auch Schmid (1977) legt in seinem Buch keine abgeschlossene Testtheorie im hier verstandenen Sinne vor. Wie er selbst meint, müsse seine sozialgeschichtliche Analyse ergänzt werden durch jene der Testinhalte (was wird durch einen Test erfragt und warum) und der 'formalen Konstruktionsprinzipien einschließlich ihrer Herkunft (z.B. Meßbarkeit psychischer Merkmale; Prüfung der Meßgenauigkeit eines Tests durch wiederholte Anwendung; Vergleichbarkeit der Testdaten; Normorientierung; Begründung «wahrer Testwerte» etc.). Eine hier geforderte Testtheorie von hohem Integrations- und Erklärungswert (vgl. Schneewind 1969, S. 211) hat die gesellschaftlichen Bedingungen einerseits, die formalen Testkonstruktionsprinzipien und den Testinhalt als die Folgen dieser Bedingungen andererseits in einen Begründungszusammenhang zu stellen. Deshalb eben reicht es auch nicht allein zu fragen, wie sich Tests aus wissenschaftlicher Sicht entwickelt und ausdifferenziert haben (vgl. Kapitel 3), sondern es müssen ihre Entstehungszusammenhänge beleuchtet werden, die der Wissenschaft schließlich erst Anlaß geben, systematische, kontrollierbare und wiederholbare Prüfverfahren zu entwickeln.
2.2 Zur logischen und sozialhistorischen Herausbildung psychologischer Tests und Prüfverfahren Tests fallen nicht vom Himmel. Sie sind auch nicht einer göttlichen Eingebung eines/r Wissenschaftlers/in zu verdanken. Eher schon verkörpern sie Überlegungen von Geistesarbeitern auf gesellschaftliche Problemstellungen. Daß es sich bei Tests um die «Idee» eines Wissenschaftlers handelt, ist insofern nicht ganz abwegig. Aber es ist eben keine «Idee an sich», aus heiterem Himmel, sondern sie stellt einen «Gedankenreflex» auf Gegenwartsprobleme dar. Die folgenden Zitate verdeutlichen diesen Prozeß ein wenig. «Vom Berliner Stadtrat, Herrn Dr. Reimann, erging die Anfrage an uns, ob wir in der Lage wären, auf Grund wissenschaftlicher Prüfungsmethoden eine Auslese unter den von den einzelnen Schulen Berlins gemeldeten Zöglingen durchzuführen, damit für deren endgültige Überweisung auf eine höhere Schule eine exakte Grundlage vorhanden wäre. Ihm waren die guten Erfahrungen nicht unbekannt, die das Militär mit der
Zur logischen und sozialhistorischen Herausbildung
31
Einführung der von uns ausgearbeiteten Prüfungsmethoden für Militärkraftfahrer gemacht hatte... Das Untersuchungsverfahren war durch die Art des vorliegenden Problemes fest vorgeschrieben» (Moede & Piorkowski 1918, S. 64). Bobertag & Hylla (1928) leiten ihre Überlegungen zu Begabungsprüfungen an Schülern nicht viel anders ein. In einem am 12. März 1924 ergangenen Erlaß des preußischen Ministers für Wissenschaft, Kunst und Volksbildung wird geregelt, daß am Übergang von der Grundschule zur mittleren oder höheren Schule jene Schüler einer gesonderten Prüfung bzw. Begutachtung zu unterziehen sind, deren Eignung zweifelhaft ist. «Experimentelle Prüfungsmethoden» (gemeint sind Tests) sind zulässig als Ergänzung, «nicht als ihr Ersatz» (S. 4). In beiden Fällen handelt es sich um ausdrückliche Anfragen bzw. Vorgaben von außen, die die Experten veranlaßt haben, über Möglichkeiten der (messenden) Erfassung der Schulbefähigung nachzusinnen. In anderen Fällen sind es die Fachleute selbst, die öffentliche Debatten, den gesellschaftlichen Diskurs (den «Zeitgeist») sensibel erkennen und in ihre Arbeit als bestimmendes Moment einfließen lassen. Die Abbildung 4 eines Blockdiagramms zur Herausbildung psychologischer Tests setzt an eben dem Punkt an, wo sich gesamtgesellschaftlich oder auch nur in einzelnen ihrer Bereiche Bedingungen der Möglichkeit für die Entstehung von Prüf- oder Befragungssituationen herauskristallisieren. Hier liegt der eigentliche Geburtsort von PrüfSituationen, deren Weiterentwicklung und -gestaltung nicht immer in ein psychologisches Testverfahren im engeren Sinne einmünden muß (typisches Beispiel politische Überprüfungsverfahren). Für die folgende Erörterung des Herausbildungsprozesses anhand der Abbildung 4 sollten zwei Fragen präsent bleiben, die an die Überlegungen des 1. Kapitels anknüpfen und erst hier einer Antwort näher gebracht werden können: a) Messen Tests individuelle Fähigkeiten oder gesellschaftliche Anforderungen? b) Wenn Tests, wie von Kritikern oft behauptet, soziale Benachteiligungen erzeugen bzw. reproduzieren helfen, lassen sich dann bessere, nicht benachteiligende Testverfahren konstruieren? Wir kommen am Ende dieses Abschnittes auf diese beiden Fragen zurück. 2.2.1 Von den Bedingungsfaktoren zur Prüfsituation Bedingungen der Möglichkeit als gesellschaftlich entstandene Voraussetzungen dafür, daß überhaupt der Gedanke an die Einführung von Prüfoder Befrägungssituationen aufkommen konnte, begegnen uns wiederholt.
Abbildung 4: Blockdiagramm Zur Herausbildung psychologischer Tests und Prüfverfahren
Zur logischen und sozialhistorischen Herausbildung
33
2.2.1.1 Zum Beispiel Studienplatzvergäbe: Mitte der 70er Jahre anläßlich der Debatten um die zurückliegende Bildungsreform und ihre Auswirkungen. Die begrüßenswerte sozialdemokratische Devise, einseitige Privilegien für bestimmte soziale Schichten durch eine Umstrukturierung des Bildungssystems von unten zu durchbrechen und den benachteiligten, ebenso anspruchsberechtigten Bevölkerungsgruppen einen chancengleichen Zugang zu Bildung und Ausbildung zu verschaffen (Ausschöpfung von gesellschaftlichen Bildungsreserven), führte in Verbindung mit der Etablierung der zentralen Studienplatzvergabe (ZVS) etwa ab 1967 zu nachhaltigen Problemen. Die knappen Kassen forderten ihren Tribut und die geprellten Abiturienten ihr Recht. «Rechtsprechung und Bildungspolitik stehen vor dem Dilemma, entweder die Zulassungschancen zu den (Orchideen-) Fächern Human-, Zahn- und Tiermedizin sowie Pharmazie, Psychologie zu Unter dem Stichwort „Eignung44 heißt es etwa in der Beurteilungsrichtlinie für Richter der DDR werden auch charakterliche Eigenschaften wie „sachlich, ruhig, impulsiv44 oder „rechthaberisch, besonnen, voreingenommen oder uneinsichtig44 angefordert Verlangt werden daneben auch eine Beurteilung der „äußeren Erscheinungen (Kleidung, Ästhetik)", oder ob der Betreffende politisch aktiv war,sich in der „materiellen Produktion" bewährt hat und mit welchem „Einsatz (er) die einzelnen Etappen44 des beruflichen Werdeganges bewältigt hat Anfertigen sollen die Beurteilungen die Direktoren der 234 Bezirks- und 16 Kreis-
gerichte, an deren Spitze in den allermeisten Fällen aber immer noch die alten SED-Genossen stehen, wie am Rande des ersten DDR-Richtertages in Ost-Berlin am vergangenen Sonntag überraschend bekannt wurde. Die von offizieller Seite bisher verlautbarte Zahl, daß 200 dieser Exponenten der alten DDR-Rechtssprechung bereits atisgeschieden seien, wurde als „viel zu hoch gegriffen44 bezeichnet Rund Zweidrittel der alten Gerichtsdirektoren seien noch unangefochten in Amt und Würden. Der sei in Verwaltungen und im Ministerium verschwunden. Laut Reuter ist der wegen seiner früheren Funktion im SED-Regime ohnehin umstrittene DDR-Justizminister unter Umständen zum Rücktritt bereit Auch die liberale Volkskammerfraktion hatte nach Bekanntwerden der „Personalaktenwäsche44 der DDR-Juristen am Dienstag Wttnsches Rücktritt verlangt In der Berner Tageszeitung „Der Bund44 sagte Wünsche: „Wenn die Mehrheit der Volkskammerfraktion oder der Führung meiner Partei zum Schluß komiqt, ich sei eine zu große Belastung für die Regierung, dann bin ich selbstverständlich bereit die Konsequenzen zu ziehen44. Wünsche erklärte weiter, in seiner ersten Amtszeit als Justizminister habe seine Vorgängerin Hilde Benjamin
(„Rote Hilde44) die Änderungen am Strafgesetzbuch weitergeführt Auf die Frage, ob es für ihn nicht schmerzlich sei, an der Verschärfung des politischen Strafrechtes in der DDR beteiligt gewesen zu sein, sagte der den Liberalen angehörende Wünsche: „Ich war in die Schaffung dieser Gesetze nicht einbezogen. Schon bei meiner Amtseinführung hat mir der damalige Ministerpäsident Willi Stoph erklärt daß die Veränderungen am Strafgesetzbuch allein von meiner Amtsvorgängerin, von Hilde Benjamin also, weitergeführt würden.44 Der Justizminister bezeichnete es als persönliche Schuld, „daß ich gutgläubig die Illusion hatte, daß dieses System reformierbar sei44. Wünsche, der bereits von 1867 bis 1072 Justizminister der DDR war, muß das in dieser Zeit allerdings anders gesehen haben, als er es heute darstellt In44der DDRFachzeitschrift „Neue Justiz schrieb Wünsche zuin Beispiel 1970: „Wir haben nie ein Hehl daraus gemacht daß die Unabhängigkeit der Rechtssprechung im Sinne der bürgerlichen Theorie der *Gewaltenteilung4 dem Sozialismus und dem in ihm erstmalig verwirklichten Prinzip der umfassenden Volkssouveränität wesensfremd ist und daß die sozialistische Rechtssprechung Ausdruck und Bestand-
teil der einheitlichen sozialistischen Staatsmacht ist44 In der Zeitschrift sind zugleich zahlreiche Fälle von Richtern und Staatsanwälten dokumentiert die sich seinerzeit gegen Rechtsbeugung, Willkür und Bevormundung gewehrt haben. Viele von ihnen versanken im Nichts, andere fanden sich kurz nach ihrem „Fehlverhalten44 als Gerichtsdiener oder Boten wieder. Dies war noch bis 1989 gängige Praxis und auch zu Wünsches rund fünfjähriger Amtszeit nicht anders. Auch bundesdeutsche Juristen haben mit der Vergangenheitsbewältigung nach Art des DDR-Justizministeriums ihre Probleme. Der 43jährige Offenbacher Familienrichter Eberhard Carl, Herausgeber der Fachzeitschrift „Betrifft Justiz44 und ausgewiesener Kenner der Justizszene im anderen Deutschland, sagte zur FR: „Wir haben uns als Nachkriegs-Richtergeneration nicht jehrzehntelang mit der fehlenden Vergangenheit in der Justiz nach 1945 abgemüht um nun widerspruchslos mitanzusehen, wie der Nachlaß des totalitären SED-Regimes unaufgearbeitet beziehungsweise nach nicht annehmbaren Maßstäben in die — demnächst gesamtdeutsche — Justiz übernommen werden soll44
Abbildung 5: Beispiel für die Entstehung eines Prüfverfahrens (aus «Frankfurter Rundschau» vom 21.6.90)
Zur logischen und sozialhistorischen Herausbildung
35
2.2.1.4 Zum Beispiel betriebliche Eignungsauslese: Mit dem aufkommenden Kapitalismus, der Entfaltung der großen Industrie und der Durchsetzung der maschinenmäßigen Produktion wird der kalkulierbare, «maschinenmäßig funktionierende Arbeiter» gebraucht, dessen Verhalten vorhersagbar ist. Ein Mensch, der pünktlich zur Arbeit kommt, nur Pausen macht, wenn es der Produktionsablauf erlaubt, und der nicht streikt, sondern sich für den Arbeitsprozeß verantwortlich fühlt, ist der im Sinne des Produktionsprozesses einplanbare und funktionierende Mensch. «Der Mensch als solcher ist für den Betrieb nichts, die Funktion, die er ausüben kann, alles... Funktionen und Funktionäre müssen also wesensmäßig ersetzbar sein. Da sie innerer Teil eines Ganzen, des Betriebes, sind, sind sie ersetzbarer Teil und - von der Mehrheit gesehen - Ersatzteile. Ersatzteile müssen griffbereit sein, daher eingeordnet, gekennzeichnet, katalogisiert sein, eine Nummer tragen. Das Wesentliche und Wichtige an ihnen ist die Nummer, die angibt, wie sie als Ersatzteile verwendet werden können» (entnommen einer Rede eines BASF-Direktors an der Evangelischen Akademie in Bad Boll, 1969/70). Dieses Zitat ist zwar jüngeren Datums, entspricht aber durchaus dem Tenor der Klagelieder frühindustrieller Kapitalisten, die sich über den widerspenstigen, undisziplinierten, unzuverlässigen Plebs beschwerten, dem die einförmige Plackerei in der Fabrik bestenfalls so lange erträglich war, wie er Geld zum Leben brauchte. Hatte er wieder zu essen, ging er, ohne auch nur nach dem Fortgang der Arbeit zu fragen. Im Produktionsprozeß wird aber ein Mensch benötigt, der seine Bedürfnisse den Forderungen der Maschinen und des Arbeitsplatzes unterzuordnen vermag; der sich im Rhythmus der Maschine nicht nur bewegt, sondern diesen Rhythmus lebt, als wäre es sein eigener (Chaplins Film «Moderne Zeiten» ist eine bissige Illustration dieser Verhältnisse). Das gilt freilich nicht nur für die Fabrik, den Ort der Warenproduktion. In vergleichbarer Weise gilt dies ebenso für die Arbeitsabläufe im Bereich der Warenverteilung für Bank, Handel, Verwaltung und schließlich auch für den Transport. Die Ware muß verteilt und verkauft werden, damit sich der in ihr enthaltene Mehrwert baldmöglichst realisieren, d.h. in Geld-Kapital zurückverwandeln kann, das dem Produktionsprozeß aufs neue zum Zwecke seiner Verwertung zugeführt werden kann. Deshalb sind auch hier die reibungslos funktionierenden Menschen nötig, die fähig und bereit sind, sich heute und auch in naher Zukunft den Arbeitszwängen zu fügen, Menschen also, deren Verhalten, deren Leistungen und Bereitwilligkeit von Dauer sind. Auch die zu diesen Arbeitstugenden hinführenden Erziehungsprozesse werden in solche monetären Kalkulationen miteinbezogen, um rechtzeitig zu erkennen, ob sich das «Menschenkapital schlecht verzinse» (Preyer 1889, S. 13).
36
t Vom Alltag zur Wissenschaft
In dem Moment, wo Lohnarbeit zur alles beherrschenden Form der Arbeit geworden ist und der Gebrauch der Lohnarbeiter für den Geldbesitzer das A und O der Verwertung seines Geldes ist, wird die Frage nach dem Nutzen oder Wert-Sein einer Arbeitskraft für die Mehrwertbildung zu einer grundlegenden Überlegung. Nutzen meint hier die Höhe des Wertes, die der Gebrauch der Arbeitskraft dem Kapitaleigner pro Zeiteinheit bringt. Zwei Wege bieten sich für eine höhere «Verzinsung des Humankapitals» an. Man läßt die Arbeitskräfte länger arbeiten oder steigert die Intensität ihrer Entäußerung. «Während des 19. Jahrhunderts ging die industrielle Entwicklung in Amerika und in Europa so rasch vor sich, daß kaum jemand die Notwendigkeit erkannte, den Faktor Mensch in der Produktion zu schützen und zu erhalten... Man verwandte große Mühe darauf, das Kapital wirtschaftlich einzusetzen, die verschlissene Ausrüstung zu erneuern und sparsam mit den Bodenschätzen umzugehen. Aber auf die Verwendung von Menschenleben, die Übermüdung und die Zerstörung der Gesundheit in der Industrie wurde lange nicht so sehr geachtet» (Watkins 1921, S.324). Insbesondere Maßnahmen zur Intensivierung der Produktion waren es, die am Ende des vergangenen Jahrhunderts getroffen wurden, um in der Industrie die Profitmaximierung zu sichern (vgl. dazu Kapitel 3). Für sein Geld, das der Käufer in Form des Lohnes dem Besitzer der Arbeitskraft zahlt, will er verständlicherweise eine möglichst «gute» und billige Arbeitskraft. Sie soll entsprechend den Anforderungen im Produktionsprozeß qualifiziert und also fähig sein, die dort anfallenden Handgriffe, wie beispielsweise Leder bearbeiten, Büchsen verpacken, Maschineschreiben oder als Vorarbeiter zu fungieren, beherrschen. Und die Arbeitskraft soll willens sein, sich dem Produktionsprozeß einzufügen und die Bedingungen ihrer Lohnarbeit nicht zu hinterfragen. Folglich sucht der Käufer von Arbeitskraft nicht nur eine qualifizierte und billige, sondern auch eine loyale Arbeitskraft. Nun lassen sich weder die prozeßabhängigen, konkreten Qualifikationen, noch die proz^unabhängigen, allgemeinen Arbeitsfähigkeiten mir nichts, dir nichts feststellen. Sie sind nur bedingt sichtbar. Aber der Betrieb, der die Arbeitskraft kauft, will kein Risiko eingehen (Kern & Schumann 1973). «Insbesondere die ständig steigenden Personalkosten haben es notwendig gemacht, nach verbesserten Auswahlverfahren zu suchen. Ein durchschnittlicher Fluktuationsfall kostet heute einem Unternehmen 25000 DM. Die Fluktuation einer Führungskraft kann bereits 270000 Mark kosten» (Kitzmann 1981, S. 73). Deshalb will er möglichst genau wissen, ob die Arbeitskraft seinen An-
Zur logischen und sozialhistorischen Herausbildung
37
forderungen und Ansprüchen genügt, sich also gut in den Arbeits- und Verwertungsprozeß einfügen wird. «Mit Tests die Zuordnung von Mensch und Maschine optimieren», sagen Wirtschaftspsychologen (Lamparter 1990, S. 40). Und wie der Käufer eines Pferdes dem Tier ins Maul schaut und der Sklavenhändler die Körpermaße und die Kraft der Sklaven prüfte, tut es der Käufer der Arbeitskraft auf seine Weise. Er läßt die Handschrift seiner künftigen Mitarbeiter beurteilen oder gibt Lehrlingen Arbeitsproben vor, um zu sehen, welche von mehreren zur Auswahl stehenden Arbeitskräften die für seine Zwecke geeignetere ist. Und wer in der Arbeitsprobe am besten abschneidet, von dem erhofft sich das Unternehmen die nützlichste Leistung im künftigen Arbeitsverhältnis. Die Überprüfung der Arbeitsfähigkeiten (Qualifikationen) und der Arbeitswilligkeit, Arbeitsbereitschaft bzw. Loyalität in Form der Messung dient letztlich dem Zweck der Taxierung der Arbeitskraft. Die Erfassung dieser immateriellen «Qualifikationen» ist nur mittelbar über äußerlich beobachtbare, durch bestimmte Untersuchungsbedingungen induzierte Verhaltensweisen möglich (vgl. dazu den Beitrag von Hanft in diesem Buch, S. 263). Diese dienen als Indikator für dahinter angenommene Fähigkeiten (Indikandum), die erschlossen werden müssen. Es ist die (vielumstrittene) Funktion von psychologischen Tests, solche erwarteten Verhaltensweisen zu provozieren und sie in qualitativer und quantitativer Hinsicht zu taxieren: Eine Person PI, die x Fähigkeiten FA hat, wird am Arbeitsplatz k-mal so viel willig leisten wie eine Person P2 mit y Fähigkeiten FB. Ziel ist die Bewertung der Arbeitskraft für den Produktionsprozeß. Taylor und Brogden schlagen vor, wie dies zu bewerkstelligen sei; nämlich «indem die Messung des Wertes eines Mannes als der Gesamtdollar-Wert seiner Produktion minus den Dollar-Kosten für seine Produktion bestimmt wird: Der Arbeiter, der in einer gegebenen Zeitspanne die größte Menge produziert, würde in Ausdrücken der Kostenrechnung einen größeren Wert produzieren, aber dieser größere Wert kann bei einem sorglosen Arbeitnehmer durch kostenverursachende Posten wie Ausschuß, Unfall, Zerstörung der Ausrüstung (Maschinerie) usw. ausgeglichen sein» (zit. nach Guion 1965, S. 92). Deshalb vermag «eine sorgfältige und sachgerechte Bewerberauslese, durch die der für die vakante Stelle geeignetste Bewerber ausgewählt und eingestellt wird,... Kosten zu sparen, da keine lange Einarbeitungszeit nötig ist, Konflikte mit anderen Mitarbeitern vermieden und später eventuell anfallende Fluktuationskosten entfallen» (Die Presse, Wien 1986, Anzeigentext). In welchem Ausmaß sich zwei Arbeitskräfte untereinander oder im Hinblick auf Dritte unterscheiden, wird erst dann zum gesellschaftlichen Problem, wenn die Arbeitskräfte nicht mehr von ihrem Besitzer (also
38
t Vom Alltag zur Wissenschaft
Methoden erfolgreicher Bewerberauslese Eine sorgfältige und sachgerechte Bewerberauslese durch die der für die vakante Stelle geeignetste Bewerber ausgewählt und eingestellt wird, vermag Kosten zu sparen, da keine lange Einarbeitungs2eit nötig ist, Konflikte mit anderen Mitarbeitern vermieden werden und spätere eventuell anfallende Fluk- Abbildung 6: Anzeigentext einer Beratungsfirma (aus «Die Presse», Wien tuationskosten entfallen. 1986). Zeit: 5. bis 6. Mai.
ihnen selbst) angewendet werden können, weil ihm die Produktionsmittel (Maschinen, Rohstoffe) für deren Gebrauch fehlen. Dann verfügt er über nicht mehr als über seine Arbeitskraft und ist gezwungen, um überleben zu können, sie an Besitzer von Geld und Produktionsmitteln zu verkaufen. Er sucht sich Arbeit. Aber er sucht sie nicht allein, sondern andere Menschen tun dies (in Konkurrenz zu ihm/zu ihr) notwendigerweise auch. Nur selten noch liegt es bei ihnen, entscheiden zu können, an wen sie ihre Arbeitskraft verkaufen; es liegt zugleich in der Entscheidung des Käufers, welche (von mehreren Arbeitskräften) er kauft, weil sie ihm gegebenenfalls brauchbarer erscheint als eine andere. Die Freiheit der ursprünglichen Produzenten von ihren Produktionsmitteln und deren Konzentration in den Händen weniger ist also sowohl Voraussetzung für die Bewertung der Arbeitskraft durch die Kapitaleigner wie auch für die Frage nach den Unterschieden zwischen verschiedenen Arbeitsvermögen. Denn solange der einstellende Betrieb die Möglichkeit hat, zwischen mehreren Arbeitsvermögen zu wählen, wird er nach jenen suchen, deren Gebrauch ihm am meisten Wert einzubringen verspricht. Erst wenn Arbeitskräftemangel herrscht, erübrigt sich (zumindest für die weniger gut bezahlten Arbeitsplätze) eine Eignungsauslese. Dies gilt nicht minder für die Studienplatzvergabe oder die Offiziersauslese der deutschen Wehrmacht im Zweiten Weltkrieg (Lück u. a. 1987, S. 133). Die Trennung der Arbeitskraft von den zu ihrer Anwendung notwendigen Produktionsmitteln bedeutet zugleich auch ein zeitliches und räumliches Auseinanderfallen von der «Veräußerung der Arbeitskraft» (Kauf/ Verkauf) und ihrer «wirklichen Äußerung» (Verwendung im Produktionsprozeß). Im Unterschied zur handwerklichen Produktion mit ihren
Zur logischen und sozialhistorischen Herausbildung
39
familienähnlichen Zusammenhängen und Strukturen, in der der Meister im konkreten Arbeitsvollzug oder am konkreten Produkt selbst die Fähigkeiten des Gesellen einschätzen und beurteilen konnte, sieht der Produktionsmittelbesitzer nicht mehr unmittelbar in und durch die gemeinsame Arbeit, was ein Arbeiter zu leisten vermag. Die Anwendung der Arbeitskraft ist für den Kapitaleigner nicht mehr direkt erfahrbar. Die Kenntnis der Gestaltung eines optimalen Verhältnisses von Maschine/ Arbeitsplatz und Mensch, also von Arbeitsplatzanforderung und Qualifikation der Arbeitskraft, veranlaßt einen Betrieb, solche Zuordnungen nicht erst nach langer Beobachtungszeit im Produktionsprozeß selbst, also an Ort und Stelle der Tätigkeit einer Arbeitskraft, vorzunehmen. Das würde voraussetzen, einen Arbeiter oder Angestellten mal hier und mal dort arbeiten zu lassen, um irgendwann herauszufinden, für welchen Arbeitsplatz er geeignet ist. Vielmehr wird diese Erfahrung in einer Eignungsuntersuchung vorweggenommen (vgl. Beitrag Hanft, S. 263.). Der Kaufentscheidung wird folglich eine probeweise Anwendung der Arbeitskraft unter simulierten Bedingungen vorgeschaltet, durch die der Käufer nicht gezwungen ist, den Produktionsprozeß zu stoppen. Oft ist die Arbeitsprobe zugleich noch mit einer Probezeit gekoppelt. Solche Eignungsproben sind aber nicht nur der räumlichen und zeitlichen Trennung von Anwendung der Arbeitskraft und Erfahrbarkeit ihrer Qualifikationen geschuldet. Zugleich nämlich ist im kapitalistischen Gebrauch der Arbeitskraft und dem Zwang für den Arbeiter, seine Arbeitskraft um jeden Preis verkaufen zu müssen, um überhaupt überleben zu können, die Notwendigkeit enthalten, auch andere als die vielleicht erlernten Tätigkeiten ausüben zu müssen. Der Fernsehtechniker muß ans Fließband in die Massenproduktion gehen und verlötet nur noch Drähte, der gelernte Maler lackiert Autos im Akkord, und die Verkäuferin sitzt schließlich von morgens bis abends an der Kasse im Supermarkt. Die Handgriffe und Tätigkeiten, die dort abverlangt werden, sind aber nicht mehr die der Arbeitskraft angehörenden umfassenden Potenzen. Und je weiter einerseits die Arbeitsteilung voranschreitet, andererseits die Ausbildung und die Anwendung der Arbeitskraft auseinanderfallen und schließlich der Gebrauch der Arbeitskraft nicht mehr unmittelbare Zunutzemachung ihrer Qualifikation bedeutet, um so notwendiger werden Zeugnisse und Zertifikate, die dem Käufer der Arbeitskraft deren Anwendbarkeit für seine Zwecke signalisieren. Zeugnisse und Zertifikate sind letztendlich nichts anderes als eine Zusammenstellung schulischer Prüfungs- bzw. Testresultate. Sie geben an, welche Leistungen ein Schüler bislang erbracht hat und wie gut sie im Vergleich zu den Mitschülern sind. Und wehe, Lehrer weigern sich, diese numerischen Leistungsbeurteilungen zu praktizieren.
40
t Vom Alltag zur Wissenschaft
Scherf: Eine Zensur muß stattfinden
Urlaiibssperren für benotungsunwillige GSM-Lehrerlnnen / Schulleiter weigert sich
- HIER.MERM SmtH mm
Pünktlich zu Ferienbeginn droht den Schülerinnen der Gesamtschule Mitte ein in der Bremer Schulgeschichte bislang einmaliges Spektakel: Bildungssenator Henning Scherfwill—notfalls mit der geballten Gewalt seiner Dienstaufsicht — das gesamte GSM-Lehrer-Kollegium zum Zensurenschreiben abkommandieren. Gestern platzte Scherfs oberster Schulaufseher, Helge Meier, gleich mit einem ganzen Stapel Dienstanweisungen in eine Gesamtkonferenz der GSM und verkündete Kraft seines Amtes: Dieinder Gesamtschule geschriebenen Zeugnisse sind weil zensurenlos —samt und sonders null, nichtig und schulgesetzwidrig. Das GSM-Kollegium hatte es—einem Konferenzbeschluß vom April 89 (!) folgend — vorgezogen, differenzierte Entwicklungsberichte, statt Nummern von 1 bis 6 in die Zeugnisse hineinzuschreiben. Gestern wies Schulaufseher Meier an, die Zeugnisse sofort durch Noten zu ergänzen, widrigenfalls werde gegen das gesamte Kollegium eine Urlaubssperre verhingt. Ihre Ferien könnten die GSM-Kollegen dann in der Schulbehörde zubringen, um solange über den Sinn von Noten nachzudenken, bis sie gegeben sind. Sollte sich das Kollegium auch dann noch weigern, wfiiden Schulaufsichtsbeamte die Noten per „Ersatzvornahme" schfiler-unbekannterweise selbst erteilen. Um sicherzustellen, daß sein Ultimatumrichtigverstanden sei, bekamen alle Teile des Lehrkörperses noch einmal schriftlich, den drohenden disziplinari-
schen Sanktionskatalog inclusive. Für kommenden Montag sind die notenunwilligen Lehrerinnen vörsorglich noch einmal zum Dienstgespräch in die Behörde zitiert. Wo Schulaufseher Meier vermutlich vergeblich warten wird: „Wir lassen uns nicht zitieren, man wird uns schon holen müsen," konterte GSMSchulleiter Armin Stolle gestern das Aufseher-Ansinnen.Stolles Motto: Eine Zensurfindetin unserer Schule nicht statt: „Ich werde meinen Kollegen höchstpersönlich ausreden, sich in diesem Punkt dem Druck der Behörde zu unterwerfen." Im Gegenzug will Stollejetzt Dienstaufsichtsbeschwerde gegen Dienstaufseher Meier einlegen. Grund: Seit April 89 liegt der Schulbehöide der GSM-Konferenzbeschluß vor, nachdem an der GSM Entwicklungsberichte geschrieben statt Zensuren erteilt werdensollen. Stattdenzugehörigen, 15 Monatealten Antrag auf eine entsprechende Ausnahmeregelung zu bearbeiten, holte die Schulbehörde jetzt stattdessen die Disziplinarmaßnahmen-Keule heraus. Die angedrohten Prügel, so ein Sprecher Scherfs gestern, will der Bildungssenator als Wahrnehmung seiner „Fürsorgepflicht gegenübet untergebenen Beamten" verstanden wissen: „Wir müssen die Kollegen schließlich Vor Gesetzesübertretungen schützen, und solange der Antrag auf Benotungs-Dispens nicht entschieden ist, besteht Benotungspflicht." K.S.
Abbildung 7: Lehrer verweigern Zensurenerteilung (aus «taz» vom 7.7.90)
Zur logischen und sozialhistorischen Herausbildung
41
Der gesellschaftliche Auftrag der Schule ist das eine. Das andere ist die tatsächliche Aussagekraft der schulischen Leistungsnachweise, die nicht selten angezweifelt wird und längst dazu geführt hat, im Hinblick auf konkrete berufliche Belange nach gesonderten Qualifikationsfeststellungen in Form von Eignungs- oder Aufnahmeprüfungen zu suchen. Diese sollen einer präziseren Taxierung der Arbeitskraft Vorschub leisten. Die Experten sind gefordert, diesbezügliche Vorschläge und/oder Lösungswege anzubieten. Einmal nkehr ist der Gedanke der Begutachtungsforderung/ Prüfsituation konstituiert. Daraus leiten sich im weiteren die uns bekannten Problem- und Fragestellungen an die Wissenschaft ab: - Was haben wir unter dem entsprechenden Qualifikationsmerkmal zu verstehen? - Wie lassen sich die Unterschiede zwischen zwei Personen messen? - Läßt sich die erfaßte interindividuelle Differenz in monetäre Größen umrechnen? - Worin bestehen die einfachsten Möglichkeiten, die geforderten Qualifikationen zu erfassen ? Usw., usf. 2.2.1.5 Zum Beispiel psychiatrische und klinische Menschenbeurteilung: Arbeitskräftemangel war es auch, der nach Ansicht Dörners (1975 a) zur psychiatrischen Diagnostik geführt hat. Er schreibt, «daß zur Zeit der industriellen Revolution, erstmals die 10-40% einer Gesellschaft interessant wurden - als Menschenreservoir für die Expansion der industriellen Produktion - und daß eben in diesem Zusammenhang die psychiatrische Diagnostik erfunden wurde, als Mittel der Unterscheidung zwischen berechenbarem, ungefährlichem und arbeitsfähigem Verhalten einerseits und unberechenbarem, gefährlichem und arbeitsunfähigem Verhalten andererseits» (S. 144; Hervorhbg. S. G.). Auch die klinischen Systematisierungsbemühungen von Kraepelin, über die im folgenden Kapitel dieses Buches u. a. zu lesen ist, folgten zweifellos dem Anspruch, arbeitsfähige von nicht mehr arbeitswilligen Patienten zu unterscheiden. Letztere fallen dem Staat zur Last durch ungeheuerliche Entschädigungsansprüche, weshalb es angezeigt sei, Lazarettinsassen (sog. Kriegsneurotiker im Ersten Weltkrieg) möglichst bald wieder einer geregelten Arbeit zuzuführen. Ohne ausdrücklich und ausschließlich von Kraepelin beeinflußt zu sein, bewegt sich ein gutes Stück klinisch-psychodiagnostischer Tätigkeit speziell in ebendem Bereich zwischen endogenen Psychosen (als klassisches Arbeitsfeld der Psychiatrie) und den Retardierungen (Entwicklungsrückständen) und Verhaltensstörungen bzw. Fehlanpassungen von Individuen, für deren «Verwaltung», institutionelle Bewältigung und rationelle Versorgung (Kriterium der Ökonomie im Sozialbereich) Mittel
42
t Vom Alltag zur Wissenschaft
und Wege gefunden werden müssen, die von der Kalkulierbarkeit dieser Zustandsbilder wie auch von der Differenzierungsmöglichkeit zum Normalbereich (bzw. seiner Entstörungsmöglichkeit) hin ausgehen. Die Behandlung in den Child-Guidance-Kliniken war vornehmlich auf «abweichendes Verhalten» von Kindern ausgerichtet, und die Anfänge des psychologischen Beratungswesens in der Bundesrepublik nach dem Zweiten Weltkrieg fanden im Rahmen amerikanischer Reeducation-Programme finanzielle Unterstützung. Auch die Arbeiten von Binet, über die im folgenden Kapitel noch zu berichten sein wird (s. S.78), waren sowohl darauf gerichtet, geistig zurückgebliebene Kinder zu fördern (spätere Selbständigkeit erspart dem Staat Kosten), als auch den Unterricht der Regelschule von diesen Kindern zu entlasten (Entstörung). Überall dort, wo also über einander widerstrebende Interessen konfliktträchtig entschieden werden muß (Regel- oder Sonderschulausbildung; soziale Trägerschaft oder private Versorgung; Rehabilitationsfinanzierung oder Eigenleistung etc.) entsteht ein Legitimationsbedarf, der im Falle der Beurteilung und Entscheidung bezüglich menschlicher Zustände und psychischer Befindlichkeiten die Frage nach dem Erkennen oder Auseinanderkennen von Individuen aufwirft. Die Psychologie hat sich durch ihre Testentwicklungen in ebendieses Konfliktfeld hineindefiniert, weshalb sie dort, wo Gerichte oder Mediziner/Psychiater an die Grenze ihres Begründungs- oder Legitimationswissens stoßen, gerne als «wissenschaftliche Handwerker der Menschenbeurteüung» gelten. Dies ist auch dort nicht grundsätzlich anders, wo Eltern mit ilirem Kind zur Erziehungsberatung kommen oder ein Erwachsener die Therapeutin aufsucht. Voraus gehen dem Leidensprozesse dergestalt, daß sich der einzelne an den äußeren oder verinnerlichten Normen der Gesellschaft reibt. Erfragt wird letztlich die eigene «Normalität», die nur die zwischenmenschliche Kommunikation beantworten hilft, wobei die Psychologin gleichsam als personifizierte gesellschaftliche Norm auftritt. Die Frage nach der «Normalität» des Ratsuchenden läßt sich auf die Dauer und als Routine besser, schneller und vermeintlich sicherer mit standardisiertem Handwerkszeug erledigen. Dies hat die Psychologin in ihrer Ausbildung erworben bzw. kann auf die systematischen Erfahrungen anderer zurückgreifen. Dabei wird sie spezifische Gesprächstechniken ebenso wie psychodiagnostische Methoden nutzen. Zunächst ist dagegen auch nichts einzuwenden. Nur wer sich fragt, wessen Normen das eigentlich sind, woher sie kommen und was geschieht, wenn man sich ihnen nicht anpaßt, wird um eine kritische Funktionsbestimmung psychologischer bzw. psychodiagnostischer oder im engeren Sinne testpsychologischer Tätigkeiten nicht mehr herumkommen.
Zur logischen und sozialhistorischen Herausbildung
43
2.2.2 Konfliktträchtige Praxis Zurück zu unserem ersten Beispiel: die Studienplatzvergabe. War bis vor wenigen Jahren der Abiturnachweis für die Aufnahme eines Studiums noch ausreichend, begann man Ende der sechziger Jahre die begrenzte Zahl vorhandener Studienplätze entlang eines Schlüssels aus Zeugnisnoten und Wartezeit (seit vormaligen Bewerbungen) zu vergeben. Bislang war in der Regel zur Aufnahme eines Studiums der Nachweis des Abiturs ausreichend. Nun aber öffnete sich ein konfliktträchtiges Praxisfeld. Da gab es Abiturienten aus Bayern, die ihre Zeugnisnoten höher bewertet wissen wollten als die norddeutscher Abiturienten. Andere sahen ihr Recht auf Bildung generell eingeschränkt. Und schließlich wurden die Quoten in bezug auf die Zulassungen von Abiturienten aus verschiedenen Bundesländern angezweifelt. Die rechtlichen Konflikte und sozialen Härten nahmen zu. Immer mehr Unruhe entstand. Das verursachte zusätzliche Kosten in Form von Arbeitsaufwand und Personal, was bald in die Frage nach einer kostengünstigeren und vor allem reibungsloseren Gestaltung des Prüfverfahrens einmündete. So begann man nach Möglichkeiten zu suchen, die Studienplatzvergabe über die Bundesländer hinweg zu vereinheitlichen und zu vereinfachen. Mit Blick auf die Studienplatzbewerber und ohne nach den Ursachen zu fragen, wurde von der Annahme ausgegangen, daß es hier und jetzt offensichtlich Unterschiede in der Leistungsfähigkeit von Abiturienten generell und hinsichtlich der Studieneignung für ein bestimmtes Fach im besonderen gibt. Probestudienzeiten, die vom «learning by doing» ausgehen, um die studiengangsspezifischen Elementarkenntnisse zu erarbeiten, wären für die Universitäten zu kosten- und personalaufwendig (Prinzip der Ökonomie). Also besinnt man sich auf das altbewährte und ebenso fragwürdige Konkurrenzprinzip, nur den momentan Besten eine Chance zu geben. Die Praxis in den USA, die Studierfähigkeit von Bewerbern und Bewerberinnen «vorurteilslos» mittels Eingangstests zu erfassen, war wissenschaftlich bekannt (Prinzip wissenschaftlicher Neutralität). Überdies brächte die Nutzung fähigkeitsdiagnostischer Forschungsansätze ideologische Vorteile mit sich, denn sie kommen der in der Öffentlichkeit weitverbreiteten Wissenschaftsgläubigkeit entgegen. In diesem Fall dem Glauben an die scheinbare Unbestechlichkeit und Objektivität psychologischer Tests. Das hilft administrative Entscheidungen besser zu rechtfertigen, Konfliktpotentiale abzuschwächen (Prinzip wissenschaftlicher Legitimation). Interessant sind die diesbezüglichen Debatten zwischen den Experten. Viele bekamen, so scheint es, Angst vor ihrer eigenen Courage. «Solange noch keine Ergebnisse zum Prognosewert der verwendeten Tests vorliegen, darf den Testergebnissen bei der Zulassungsentscheidung kein zu
44
t Vom Alltag zur Wissenschaft
hohes Gewicht zuerkannt werden», meinen hochkarätige Vertreter der akademischen Psychologie (Report Psychologie 1977). Längst hatte der 5000 Mitglieder umfassende BDP seine ablehnende Haltung zur Einführung von Studierfähigkeitstests kundgetan und hatte auch der erlauchte Kreis wissenschaftlich tätiger Psychologen und Psychologinnen (Deutsche Gesellschaft für Psychologie) seine Zweifel an der Brauchbarkeit solcher Tests angemeldet. Ein Beratergremium dieser beiden Verbände schlug aus seiner Unsicherheit heraus der Kultusministerkonferenz bezüglich des Einsatzes von Hochschulzugangstests vor, die Entscheidungsgewichte von Testdaten niedriger als die des Losverfahrens für die Vergabe von Studienplätzen zu halten: 10% gegen 30% (BDP 1977). Kollege Irle meinte in Verkennung der eigentlichen Funktion dieser Studiereignungstests, daß sie als «Auslesetests» nicht die Eignung für andere Tätigkeiten/Studiengänge feststellen und also für Beratungszwecke, worin Psychologen ihre wesentliche Funktion sehen würden, ungeeignet seien (Frankfurter Rundschau 22.3.1979). Es ist nicht einfach, die Motive für derartige Verlautbarungen jeweils zu erschließen. Immerhin handelt es sich hier um Kollegen und Kolleginnen, die in anderen Praxisbereichen ohne Wenn und Aber die Anwendung von Tests befürworten und vorgetragene Kritik an diesen Verfahren eher mit dem Vorwurf der «Dämonisierung» (Ingenkamp 1981, S. 92) abtun als mit Verständnis. Kaum werden Psychologen mit ihrem vielgepriesenen Handwerkszeug öffentlich zur einklagbaren Verantwortung gezogen (die «DUZ» 1976, S. 208, überschreibt einen einschlägigen Artikel von Ebmeyer «Tester im Test...»), da machen sie auch schon einen Rückzieher. In dieser Reaktion sieht Kaminski (1976) eine Gefahr, wenn er schreibt, daß die Testablehnung allzu schnell dazu führe, «daß immer mehr praktisch-psychologische Tätigkeitsfelder» (S.59) von Nichtpsychologen beackert zu werden drohen, weshalb man die eigenen wissenschaftlichen Vorbehalte gegen die Anwendung von Studierfähigkeitstests bei der Studienplatzvergabe überwinden sollte. Dafür sorgte allein schon die höchstrichterliche Entscheidung vom 18. Juli 1972 (sog. Numerus-clausus-Urteil des Bundesverfassungsgerichtes). Die Bundesländer sahen sich zur Unterzeichnung des «Staatsvertrag(es) über die Vergabe von Studienplätzen» veranlaßt. Diese Regelung wurde ab Wintersemester 1977/78 abgelöst durch diejenige des Hochschulrahmengesetzes (HRG), in dessen Art. 33 die Testanwendung als Option enthalten ist, allerdings nur wenn es gelingt, «die Bedenken gegen die vorgesehenen, anscheinend favorisierten Tests auszuräumen» (Urteil des 1. Senats vom 8. Februar 1977). Längst schon hatte sich eine Gruppe beflissener Konstrukteure an die Arbeit gemacht, wissenschaftliche Lösungen für die anstehenden Probleme zu suchen und für sich selbst eine gehörige Portion Reputation.
Zur logischen und sozialhistorischen Herausbildung
45
2.2.3 Die Wissenschaft nimmt sich der Probleme an Der Prozeß der Transformation vom Alltag in die Wissenschaft ist in voller Blüte. Er wird einmünden in eine Gestaltung des Prüfverfahrens auf dem aktuellen Stand der Wissenschaft und der Gesellschaft, solche Resultate als praktikable zu akzeptieren (vgl. dazu Grubitzsch 1989 c). Der «aktuelle Stand der Wissenschaft» umfaßt sowohl theoretische Sichtweisen wie methodische Herangehensweisen und schließt darüber hinaus auch erkenntnistheoretische Sachfragen mit ein. Wer der Ansicht istj Aggression sei ein den Menschen von Natur aus angeborener Trieb, wird eher eine medikamentöse denn eine verhaltenstherapeutische Therapie bei Kriminellen fordern und als äußere Bestätigung solcher Sichtweisen Tätowierungen oder starke Behaarung heranziehen. Die Leistungsfähigkeit von Schülern mittels Intelligenztest erfaßt nur, wer vom Zusamenhang beider Merkmale überzeugt ist ebenso wie von deren Meßbarkeit. Diese ist selbst erst möglich, seit die Sozial- bzw. Moralstatistiker in der Absicht, die Unterschiede zwischen den Nationen zu beschreiben, bemerkt hatten, daß die Frequenz des Briefverkehrs oder die Fähigkeit, bei der Eheschließung eine Unterschrift zu leisten, nur bedingt eine Aussage über die geistige Potenz einer Nation bzw. die Qualität des Schulsystems liefert (Weilberg & Wacker 1982; Grubitzsch 1985). Erst die numerische Erfassung individueller Fähigkeiten, wie sie etwa Notengebungen in der Schule oder Einzelaufzeichnungen über Schüler darstellen würden, ermöglicht staatliche Kontrollmaßnahmen einschließlich der Lenkung des Arbeitskräftepotentials im Mikro- und Makrobereich (v. Oettingen 1874). Mit dieser Forderung bezieht er sich kritisch auf die «Soziale Physik» von Quetelet (1869) und prospektivisch auf messende und zählende Herangehensweisen am einzelnen Menschen, wie sie E. H. Weber, G. E. Müller oder G. T. Fechner beinahe zeitgleich in Angriff genommen hatten. Quetelet hatte sein Augenmerk auf die zählende und messende Beschreibung menschlichen Verhaltens gerichtet. Nicht nur Naturphänomene durch Zahlen beschreiben und ordnen, sondern ebenso soziale Phänomene (Selbstmordraten in, einer Nation, Hang zum Verbrechen, Geisteskrankheiten) übersichtlich zu machen. Auf ihn geht die Bestimmung des «mittleren Menschen» («homme moyen») zurück als den «Schwerpunkt, um welchen die sozialen Elemente oscillieren» (zit. nach John 1884/1968, S. 341). Der «statistische Durchschnittsmensch» ist beispielsweise definiert aus der Anzahl der Sterberate pro Lebensjahr in einer Nation im Verhältnis zur Zahl der Geborenen des entsprechenden Geburtsjahres, so daß nach dem «Gesetz der großen Zahl» am Ende eine durchschnittliche Lebensdauer z. B. der Belgier angegeben werden kann. Nicht anders die Wahr-
46
t Vom Alltag zur Wissenschaft
scheinlichkeit, als Deutscher kriminell zu werden. Sittlichkeit und Moral wird in naturgesetzlichen Ausdrücken zu fassen gesucht. Das «Chaos Mensch», wie es u. a. Chorover (1982) beschreibt, soll kontrollierbar und kalkulierbar gemacht werden. Gewiß haben nach Quetelet andere bereits erwähnte Autoren (Fechner, Weber, Müller u.a.) seine Gedanken verfeinert, aber sie «veredeln» damit nur die Pflanze, ohne ihre Wurzel zu verändern. In der akademisch betriebenen Mainstream-Psychologie setzen Testkonstrukteure diese Gedanken lange voraus. Menschliches Handeln, Bewußtsein, Denken, Angst, Kreativität oder soziales Verhalten werden als quantifizierbar und folglich meßbar unterstellt. So schreibt Wechsler (1939), amerikanischer Konstrukteur des später in der deutschen Version weitverbreiteten Hamburg-Wechsler-Intelligenztests für Erwachsene (HAWIE) und für Kinder (HAWIK): «Intelligenz ist die zusammengesetzte und globale Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinanderzusetzen» (1956, S. 13). Und weiter: «Durch die Messung (sie!) dieser Fähigkeiten kommen wir letztlich zu einer Bewertung (!) der Intelligenz» (a. a. O.). Was der Mensch tut und denkt, seine Gefühle und sein Handeln werden als meßbar unterstellt, noch bevor die Testkonstrukteure überhaupt wissen, was das von ihnen Gemessene eigentlich ist, denn die Messung soll sie ja dem Gegenstand erst näher bringen! Statt dessen machen sie den konkreten Menschen zur Zahl, berauben ihn seiner Subjektivität ; machen ihn methodisch-technisch verfügbar. Aus dem Subjekt wird ihnen eine Testperson, ein Ding, das zwar nicht nach seiner Länge und Breite, aber doch immerhin darauf befragt wird, wieviel Kreativität, wieviel Intelligenz und wieviel Anpassungsbereitschaft es hat. Durch Verdinglichung und Quantifizierung seiner Eigenschaften, Fähigkeiten und seines Wissens wird das Subjekt zum kalkulierbaren, abstrakten Menschen, dessen Verhalten vorhersagbar und planbar gemacht wird. Um welche Eigenschaften, Fähigkeiten oder Wissensinhalte es sich dabei handelt, ist Ausdruck der jeweiligen Zwecksetzung der Prüfsituation. Eine Sekretärin soll organisieren können, die Rechtschreibung beherrschen und obendrein noch gut aussehen. Ein Vertreter einer Möbelfirma soll sich auf seine Kunden einstellen können, und ein Sonderschüler soll noch lernfähig sein. Nun ist das Messen und Vorhersagen menschlichen Verhaltens nicht ein Ziel, das allein der Testkonstruktion und Testanwendung zukommt, sondern schlechthin für die herrschende empirisch-experimentelle Psychologie in Anspruch genommen wird. Sie hat es sich allgemein zur Aufgabe gemacht, die Gesetzmäßigkeiten menschlichen Erlebens und Verhaltens zu erforschen, um auf der Grundlage dieser Kenntnisse künftiges Verhalten und Erleben vorherzusagen (Thomae & Feger 1969 ; Ruch & Zimbardo 1974 ; Selg 1966 u. a. m.). Auf der Grundlage des
Zur logischen und sozialhistorischen Herausbildung
47
hier und jetzt beobachteten Verhaltens, Denkens und Erlebens wird angestrebt, menschliches Verhalten exakt zu prognostizieren. Dahinter steht die Auffassung, daß die Kenntnis des Verhaltens von Individuen unter spezifischen Bedingungen die Vorhersage ebendieses Verhaltens unter den gleichen Bedingungen ermöglicht. Der Mensch ist gewöhnlich nicht damit zufrieden, nur zu beschreiben, zu verstehen und etwas vorauszusagen. Es gibt viele Gelegenheiten, bei denen er das, was sich ereignet, beeinflussen und verändern, kurz kontrollieren möchte. «Die Fähigkeit, Verhalten zu kontrollieren (!), bietet dem Psychologen die beste Möglichkeit, zu überprüfen, ob er dieses Verhalten auch tatsächlich verstanden hat. Man hat festgestellt, daß im Beruf Erfolg und Arbeitsfreude eng mit bestimmten Fähigkeiten, Interessen und anderen meßbaren (!) Eigenschaften zusammenhängen (...) Die Fähigkeit, Verhalten zu beeinflussen und zu manipulieren, bietet viele neue Möglichkeiten, soziale Zustände und Arbeitsbedingungen zu verbessern ...» (Ruch und Zimbardo 1974, S. 28). Sowohl die Unterstellung der Meßbarkeit menschlichen Verhaltens wie auch der Vorhersagbarkeit sind nicht zufällige Ideen einzelner Wissenschaftler fernab aller gesellschaftlichen Lebens- und Arbeitszusammenhänge, sondern logischer und historischer Ausdruck der gesellschaftlichen Verhältnisse, in denen sie leben. In den gesellschaftlichen Verhältnissen bilden sich jene Erkenntnisfragen und Problemstellungen heraus, um deren Klärung sich die Wissenschaft schließlich bemüht. Ihr Bemühen bezieht sich, zumindest was menschliches Verhalten/Persönlichkeit/Arbeitskraft betrifft, ebenso auf dessen Vergleichbarkeit. Vergleichbar ist nur Gleiches - oder weniger tautologisch gewendet: Um Unterschiede zwischen «verschiedenen Völkern sowohl in physiologischer wie in intellektueller und moralischer Beziehung zu bestimmen», müssen sie vergleichbar gemacht werden in der statistischen Konstruktion des «mittleren Menschen». Er «vertritt» als Gruppenwert die vielen Einzelwerte, aus welchen er gebildet wurde. Das «Sich-ins-Verhältnis-Setzen» von Menschen als Besitzern von Arbeitskraft zum Zwecke ihrer Bewertung setzt zumindest ihre unmittelbare Vergleichbarkeit voraus. Wie aber lassen sich Arbeitsvermögen unterschiedlichster Art, Maler und Werkzeugschlosser, Bäcker und Seemann, miteinander vergleichen? Die Gleichheit ihrer Arbeitsvermögen läßt sich nur durch die Abstraktion von ihrer wirklichen Ungleichheit feststellen. Und diese Abstraktion in Verbindung mit der Bewertung der Arbeitskraft setzt einerseits einen entwickelten Stand der gesellschaftlichen Arbeitsteilung und damit von beruflichen Fähigkeiten voraus und wird andererseits erst dann notwendig und möglich, wenn Arbeitskraft als Ware auf dem Markt erscheint. Solange dies nicht der Fall ist, werden bestenfalls die Produkte der Produzenten ta-
48
t Vom Alltag zur Wissenschaft
xiert, nicht aber die Produzenten selbst. Das heißt, vor allem die gesellschaftlichen und ökonomischen Verhältnisse sind es, die die Denknotwendigkeit eines allgemeinen Vergleichsmaßstabes hervortreiben wie etwa auch ein bestimmtes Menschenbild. Je allgemeiner aber so ein Maßstab gewählt ist, um so schwieriger wird es, wirklich noch entscheiden zu können, ob jemand, der sich auf diesem Maßstab als «besser», «leistungsfähiger» im Vergleich zu einer anderen Arbeitskraft erweist, wirklich auch «besser» den konkreten Bedürfnissen des Käufers der Arbeitskraft entspricht (vgl. auch Beitrag Hanft, S.263). Die Intelligenz beispielsweise ist ein solcher allgemeiner Maßstab, sie ist Resultat menschlichen Denkens als Reflex auf gesellschaftliche Verhältnisse. «Die Eigenschaften, mit denen die wissenschaftliche Psychologie operiert, erheben im Gegensatz zum Eigenschaftsbegriff der Umgangssprache vorerst nicht den Anspruch, Aussagen über in dem Sinne zu sein, daß sie die Realität naturgetreu spiegeln. Sie sind , Konstruktionen unseres Verstandes... Nichts anderes gilt für den Begriff der und für die und , in die wir diese aufgliedern» (Jäger 1970, S. 12). In ihrer Allgemeinheit umschließt die Intelligenz jene Grundpotenzen menschlichen Denkens, die für die Belange aller Einzelinteressenten an Arbeitskraft grundlegend sind. Sie ist das Gemeinsame von Problemlösen in Mathematik und in der Fernsehbranche, von logischem Denken in der Baukonstruktion und der Verkaufstechnik im Supermarkt; sie ist alles, was alle konkreten Ansprüche an die intellektuelle Leistungsfähigkeit einschließt und noch mehr, sie ist das gesellschaftlich durchschnittliche Denkvermögen als Ausdruck gesamtgesellschaftlicher Denknotwendigkeiten. Ob die Bewertung bzw. Messung auf diesem allgemeinen Vergleichsmaßstab der tatsächlichen konkreten Leistungsfähigkeit einer Arbeitskraft im Hinblick auf einen spezifischen Produktionsprozeß tatsächlich entspricht, entpuppt sich dann als Frage nach der Validität (Gültigkeit) einer Messung (vgl. dazu das Kapitel zur Testkonstruktion, S. 128ff.). Denn je allgemeiner ein solcher Bewertungsmaßstab ist, um so unsicherer wird die Voraussage auf die konkrete Tätigkeit, und je konkreter der Inhalt auf die spätere Situation bezogen ist, um so eingeengter wird die Aussagemöglichkeit der Testdaten wie auch die Vergleichbarkeit der Leistungsfähigkeit verschiedener Individuen hinsichtlich künftiger Arbeitsoder Einpassungsleistungen. Und dies ist für den Einkäufer der Arbeitskraft letztlich eine Frage des Geldes, gleich ob es sich um eine Lackfabrik, einen Kindergarten oder einen Supermarkt handelt. Wer in Mark und Pfennig rechnet, hat darauf zu achten, sein Geld effektiv einzusetzen, und will nicht für Arbeit zahlen, die schlecht oder gar nicht gemacht wird.
Zur logischen und sozialhistorischen Herausbildung
49
Werden für solche Entscheidungen über Einstellung oder Nicht-Einstellung psychologische (Eignungs-)Tests eingesetzt, richtet sich das Augenmerk auf den Nutzen, den diese Testanwendung dem Interessenten bringt. Ihn zu optimieren ist das Hauptanliegen jedweder Entscheidung in der Praxis. Die Einteilung von Schülern in unterschiedliche Kursniveaus, die Zuweisung einer Patientin in eine Therapie/Klinikabteilung oder die Zulassung von Studierenden zu einem Numerus-clausus-Fach sind verschiedene Strategien, in jedem Fall aber letztendlich finanzielle Entscheidungen. Cronbach & Gleser (1965) und im Nachvollzug ihrer entscheidungstheoretischen Überlegungen Michel & Mai (1968) haben solche monetären Nutzenkalkulationen diskutiert und einer breiteren Öffentlichkeit zugänglich gemacht. Scheller & Heil (1980) beziehen solche Überlegungen auf die Behandlungsmethoden in der Klinik und das «Manager-Magazin» (Mai 1981) auf personelle Fehlentscheidungen bei der Personalauswahl. Erfreulich anschaulich referiert Gösslbauer (1981) die Grundprinzipien der Entscheidungstheorie und kehrt anhand des von ihm dafür gewählten (fiktiven) Beispiels der Gesamtnutzen-Errechnung von Studieneingangstests für Psychologiestudenten die Leitgedanken dieser Betrachtungsweise heraus - es geht um Geld. Wie sich überhaupt nachweisen läßt, daß die Geschichte der Meßtheorie in der Psychologie den permanenten Versuch darstellt, präzise Voraussetzungen für die qualitative und quantitative Bewertung menschlicher Arbeitskraft zu schaffen. Die ständige Suche nach geeigneten Meßmodellen zielt letztendlich darauf ab, eine absolute Leistungs- bzw. Werttaxierung von Arbeitsvermögen vornehmen zu können. Eine Person A, deren Qualifikationswert (zusammengesetzt aus z.B. Kreativität, Fleiß, Ausdauer und Anpassungsbereitschaft) beispielsweise mit W = 120 angegeben ist, wird der Institution/dem Unternehmen zweimal soviel Ertrag erwirtschaften wie eine Person B mit W = 60. Bislang sind solche Aussagen nicht möglich. An ihrer Statt können wir lediglich auf eine unsichere Bezugsnorm zurückgreifen die uns eine relative Abschätzung der vermeintlichen Leistungsfähigkeit einer Person erlaubt: Person A ist besser oder schlechter als die Norm bzw. Person B. Jüngere Ansätze (Fischer 1974; Kubinger 1988; Rasch 1980) in der Meßtheorie psychologischer Testverfahren zielen darauf ab, die latenten (unsichtbaren) Fähigkeiten einer einzelnen Person abzuleiten aus ihrer gezeigten Leistung (eine Aufgabe von bestimmter Schwierigkeit richtig oder falsch bearbeiten), ohne sie in Vergleich zu derjenigen einer zweiten respektive Durchschnittsperson setzen zu müssen. Dem Beitrag von Walter (Kap. 4, S. 117ff.) ist zu entnehmen, daß auch diese probabilistischen Testmodelle den gesellschaftlich hervorgetriebenen Meßansprüchen nicht genügen. Eher schon den Bedürfnissen nach Legitimation, denn sie
50
t Vom Alltag zur Wissenschaft
sind auch für den gebildeten Laien, ja sogar für Fachkollegen oft schwer nachvollziehbar und ohne fundierte statistische Kenntnisse kaum kritisch zu bewerten. So bleibt der alte Wunsch der Testkonstrukteure weiterhin bestehen, nämlich sagen zu können, «eine Vp A (Versuchsperson A; S. G.) mit IQ = 150 sei doppelt so gescheit wie eine Vp B mit IQ = 75» (Höfstätter & Wendt 1966, S. 47). Bislang ist eine solche Aussage völlig sinnlos. «Ob B die Hälfte, ein Viertel, ein Drittel oder neun Zehntel der Intelligenz A's besitzt, oder was sonst, wissen wir einfach nicht» (Hofstätter & Wendt 1966, S. 47). Die Testbefürworter und -konstrukteure greifen mit diesem der konkurrenz- und geldorientierten Sichtweise unserer Zeit verpflichteten wissenschaftlichen Anspruch nach absoluter Vermessung menschlicher Kompetenzen gesellschaftliche Bedürfnisse auf, die viele von ihnen andernorts (Volkszählung, Datenschutz, Studieneingangstests etc.) aus guten Gründen längst abgelehnt haben. Denn auch ihre Person würde zur gläsernen und kontrollierbaren. Daß ihr Bestreben nach absoluter Leistungs- bzw. Wertfeststellung von Individuen gesellschaftliche Versäumnisse (z.B. schulische Förderung von Schülern, Arbeits- und Ausbildungsplatzangebote, Lohnhierarchien, therapeutische Betreuung von Straftätem, Elitedenken, Gesundheitsförderung usw.) nur besser verdekken hilft, statt sie öffentlich zu kritisieren und zu verändern, nehmen sie ausdrücklich oder aus dem Glauben, Wissenschaft sei neutral und objektiv, weshalb sie sich jeder Wertung enthalten müsse, nicht zur Kenntnis. Aus dem unreflektierten Verhältnis der Wissenschaft zur Gesellschaft, aus dem sich der Schein autonomer wissenschaftlicher Tätigkeit ergibt, glauben Wissenschaftler «nach individuellen Entschlüssen zu handeln, während sie noch in ihren kompliziertesten Kalkulationen Exponenten des unübersichtlichen gesellschaftlichen Mechanismus sind», schreibt Horkheimer (1937) und formuliert später: «Eine Wissenschaft, die in eingebildeter Selbständigkeit die Gestaltung der Praxis, der sie dient und zugehört, bloß als ihr Jenseits betrachtet und sich bei der Trennung von Denken und Handeln bescheidet, hat auf Humanität schon verzichtet» (S. 292). Aus diesem Umstand heraus nimmt es nicht wunder, wenn soziale Benachteiligungen, Ausgrenzung von Minderheiten, Zerstörung von Lebensmöglichkeiten und individuellen Hoffnungen, Quotierungsfragen oder feministische Themen nur sehr sporadisch, wenn überhaupt, zur Kenntnis genommen und wissenschaftlich bearbeitet und gefördert werden. Nicht der Erkenntnisbildung bezüglich der realen Verhältnisse wird Vorschub geleistet, sondern gerade der wissenschaftlichen Rechtfertigung (auch Ideologiebil&xmg genannt) des gesellschaftlichen Ist-Zustandes (vgl. dazu auch Kapitel 6, S. 184). Die kritische Reflexion in bezug auf
Zur logischen und sozialhistorischen Herausbildung 53
die eigene Tätigkeit und den Zustand der Gesellschaft unterbleibt weitestgehend. Deshalb vermag man wohl auch der Theorie von Lifton (1988) ohne Vorbehalte Respekt zollen. Dieser hat in seinem vielbeachteten Buch über die Nazi-Ärzte in den KZ nach einer Erklärungsmöglichkeit für die Tatsache gesucht, daß dieselben Menschen tagsüber andere foltern, töten oder an ihnen wissenschaftliche Versuche vornehmen, und sich zugleich am Abend oder Wochenende zärtlich auf ihre Kinder oder Ehefrauen beziehen können. Lifton kann sich dieses Verhalten nur durch die Annahme einer Doppelung des Selbst in ein «Auschwitz-Selbst» und ein «früheres Selbst» erklären. Nur im Zusammenspiel beider konnten sie überleben, ohne in den nationalsozialistischen Massenmorden ein Schuldgefühl zu entwickeln. Für den vorliegenden Gedankenzusammenhang wichtig scheint mir nun, daß das Phänomen der Doppelung des Selbst keinesfalls eines der Vergangenheit ist, also «weitere Geltung beanspruchen» kann bis in unsere Tage hinein. Die politische Verantwortung vieler Wissenschaftler aktualisiert sich an der Wahlurne und nicht in der täglichen wissenschaftlichen Arbeit, der das Etikett «neutral* parteilos, objektiv» angeheftet wird. Auch dies ist Wesenszug des aktuellen Standes von Wissenschaft, die sich der gesellschaftlich aufgeworfenen Problemstellungen annimmt, sie reformuliert, verallgemeinert und schließlich Lösungsmöglichkeiten anbietet. Psychologische Tests stellen solche wissenschaftlichen Instrumente zur Regelung gesellschaftlicher Probleme dar. 2.2.4 Von der Problemstellung zum fertigen Test Vorhandenes Wissen zur Sache wird gesichtet, neues geschaffen; beispielsweise über die Vorhersagbarkeit von Examensnoten am Ende eines Studiums (Studienabschnittes) aus den Abitursnoten (Trost 1976). Arnelang (1975) strebte an, Anforderungsprofile für verschiedene Studienfächer herauszufinden. Wieder andere fragten sich, ob die statistischen Kennwerte für solche Berechnungen präzis genug sind. Trosien (1978) resümiert u.a. Forschungsarbeiten zur Studieneignungsdiagnostik (S.38ff.) und diskutiert deren gegenwärtigen (inter)nationalen Forschungsstand (S. 66ff.). Er fragt auch danach, was denn eigentlich unter Studierfähigkeit zu verstehen sei. Ein solches Wissen garantiert, Studienbewerber nach dem Richtigen zu fragen. All diese wissenschaftlichen Überlegungen, Bewertungen vorliegender Theorien und statistischer Verfahren im Zusammenspiel mit den individuellen theoretischen und methodischen Präferenzen der jeweiligen Wissenschaftler führen schließlich dazu, daß ein erster Fragenkatalog erstellt wird. Das heißt, es werden
52
t Vom Alltag zur Wissenschaft
mögliche Testaufgaben (Items) formuliert, die im Sinne der angestrebten Informationserhebung der Provokation der einschlägigen individuellen Verhaltensweisen dienlich sind. Eine Testvorform entsteht. Aus dieser Sicht handelt es sich bei den Items gleichsam um Negativformen des erwarteten Antwortverhaltens. Entsprechend schlägt sich in der Itemkonstruktion die objektive, also gesellschaftlich gesetzte Verhaltens- bzw. Fähigkeitserwartung nieder. Dieser so entstandene vorläufige Aufgabenpool (Testvorform) wird dann einer Stichprobe von Personen vorgelegt, die für die spätere Population von Testadressaten möglichst repräsentativ ist. Sollen also künftig mit einem Studieneingangstest Abiturienten abgefragt werden, so auch hier in der Voruntersuchung. Erhalten werden dadurch (Probe-)Daten, die u. a. näheren Aufschluß über die Beschaffenheit der Testaufgaben zu geben vermögen. Wo wird eine Frage nicht verstanden, wo läßt die Antwort zuviel Spielraum etc. Vielleicht sind auch alle Aufgaben viel zu leicht, weshalb sie von allen Testpersonen gelöst werden, so daß der Zweck des Tests, fähige von weniger fähigen Subjekten trennen zu wollen, nicht erreicht wird. Diese und ähnliche Betrachtungen sind Gegenstand der Aufgabenanalyse. Sie umschließt neben anderen Überlegungen jene nach der Aufgabenschwierigkeit und nach der Trennschärfe (vgl. S. 134.). Dieser Schritt mündet ein in die Analyse der Test(roh)werte bzw. ihrer Verteilmgs form. Wie schon Tests von der Prämisse ausgehen, daß sich Individuen eo ipso hinsichtlich ihrer Eignung zu einem Studienfach unterscheiden (interindividuelle Differenzen), unterstellen messende Prüfverfahren auch, daß es viele durchschnittlich begabte, weniger hoch oder niedrig begabte und noch weniger sehr hoch und sehr niedrig begabte Menschen gibt und daß sich die Menge nach oben und unten etwa gleich verteilt (Annahme der Normalverteilung psychischer Merkmale, auch Gaußsche Glockenkurve genannt). Diese verändert ihr Gesicht je nach Schwierigkeitsgrad der Aufgaben. Zu leichte Items erzeugen allwissende bzw. hochbegabte Personen; zu schwierige Aufgaben im Extremfall nur Unwissende. Weder im einen noch im anderen Falle läßt sich dann über Unterschiede zwischen den Personen eine Aussage machen - die Trennschärfe der Testaufgaben ist nicht gegeben. Erfüllt ist auch nicht die Forderung nach der Normalverteilung, worüber aus statistischer Sicht endgültig die Analyse der Test(roh)werte Aufschluß gibt. Ist ihr Genüge getan, gilt es zu überprüfen, ob die so verteilten Meßdaten (Beobachtungswerte Xi) auch auf meßmethodisch exaktem Wege zustande gekommen sind. Das bekannte Beispiel vom Streckenmaß der Schrittlänge im Unterschied zum geeichten Metermaß drängt sich hier auf. Nicht umsonst streiten sich Fußball spielende Kinder immer wieder um die per Schrittmaß festgelegte 11-Meter-Marke. Die Güte des Meßinstrumentes also
Zur logischen und sozialhistorischen Herausbildung
53
steht zur Debatte. Sie wird festgelegt in einem Katalog von sogenannten Testgütekriterien, von denen gewöhnlich drei Haupt- und fünf Nebengütekriterien unterschieden werden (vgl. u.a. Lienert 1969; Rauschfleisch 1980). Bereits angesprochen ist die logische und soziale Herkunft dieser Kriterien. «Objektiv» zu sein hat eine Befragungs- und Prüfsituation, also unabhängig von der Person der Prüferin bzw. des Beurteilers. Ihre Wiederholbarkeit (Zuverlässigkeit) ist darin garantiert, daß die Beobachtungs- oder besser Testdaten eben weder willkürliche noch zufällige Ergebnisse darstellen, und ihre Gültigkeit soll sicherstellen, daß auch das zweckgesetzte Merkmal (z. B. Fahrtüchtigkeit oder emotionale Unausgeglichenheit) erfaßt wird und nicht etwa die Lesefähigkeit den Ausschlag für das Abschneiden im Test gibt. Des weiteren sollte die zeit- bzw. geldökonomische Durchführung eines Tests bedacht sein (je billiger und schneller um so besser), was bei gleichzeitiger zweckgerichteter Treffsicherheit ihre Nützlichkeit ausmacht, zumal wenn «ein praktisches Bedürfnis (für die Anwendung; S. G.) besteht» (Lienert 1969, S. 19). Die Vergleichbarkeit eines Tests liegt vor, wenn Parallelformen die intraindividuelle Messung möglich machen oder Tests vorliegen, deren Ergebnisse aufgrund ihrer ähnlichen Validitätsbereiche (Validitätsähnlichkeit) Vergleiche erlauben. Schließlich steht die Eichung eines Tests an, die im Unterschied zur Eichung eines Längen- oder Volumenmaßes nicht auf die vorliegenden Eichmaße in einem Eichamt zurückgreifen kann, sondern wiederum an einer möglichst großen repräsentativen Stichprobe von Personen vorgenommen werden muß, um zu test- und populationsspezifischen Normen zu gelangen. Es bedarf keiner gesonderten Begründung, daß die so erhaltenen Durchschnittswerte der Referenzpopulation in Form von Normtabellen nur abbilden, was die gesellschaftliche Wirklichkeit tatsächlich «auszeichnet». Beispielsweise daß Sonderschüler in einem Schulleistungstest schlechter abschneiden als Abiturienten oder daß Frauen niedrigere Werte in einem Test für technisches Verständnis haben als Männer. Tests bzw. Testnormen spiegeln also die gesellschaftliche Wirklichkeit als ihren Ursprungsort wider. Ihre Zwecksetzungen sind in ihm geronnen. Deshalb bestätigen Tests das scheinbar Selbstverständliche, ohne es erklären zu können; die Realität verändern sie schon gar nicht. Das allein könnten kritische Anwender, wenn sie die Ergebnisse von Testuntersuchungen aufklärerisch in die Gesellschaft hineinblendeten als Hinweise darauf, wo zu verändern ist (z.B. Förderung statt Ausgrenzung lernschwacher Schüler), anstatt sie händeklatschend als Bestätigung für den gesellschaftlichen Ist-Zustand zu betrachten, wie es Testbefürworter oft genug tun.
54
t Vom Alltag zur Wissenschaft
2.2.5 Psychologische Tests - eine begriffliche Neubestimmung Psychologische Tests - wie z. B. Hochschulzugangstests - sind auf dem jeweiligen Stand der Wissenschaft basierende instrumentelle Resultate gesellschaftlich hervorgetriebener Prüf-, Bewertungs- und Beurteilungssituationen, die in wissenschaftlich abgesicherter Form Informationen über Personen oder Personengruppen (jeweils im Unterschied zu anderen), deren Fähigkeiten, intellektuelle Möglichkeiten, Arbeitsauffassung, individuelle Qualifikationen oder emotionale Verarbeitungsformen zum Zwecke der Entscheidungsfindung (Eignung für welchen Beruf; Aufnahme in welche Schule; Zuweisung zu welcher Therapie etc.) erbringen sollen. Im Test ist die gesellschaftlich zweckbestimmte Prüf- oder Bewertungssituation geronnen und aus ihrer bloßen Zufälligkeit in eine gezielt wiederholbare, beliebig aufs neue herstellbare Befragungs- und Beurteilungssituation überführt. Entsprechend verkörpern Tests in der Sprache wissenschaftlicher Methodik das, was gesellschaftlich längst Selbstverständlichkeit ist. «Was ist ein Knicks?», «Ich hatte noch nie Geldsorgen», «Am liebsten arbeite ich unter Anleitung», «Wie groß ist der deutsche Mann durchschnittlich?», «Was ist das Gemeinsame von Kerze, Taschenlampe und Fackel?» oder «Warum ist es im allgemeinen besser, einer Wohltätigkeitsorganisation Geld zu geben als einem Bettler?» sind Beispiele für Inhalte von Testaufgaben. Sie erfragen neben anderem Wissen, Urteilsvermögen oder persönliche Befindlichkeiten. Aber auch, wie sie dies tun, wie mit den Antworten und den daraus gezogenen Schlußfolgerungen umgegangen wird, ist Ausdruck gesellschaftlicher Übereinkünfte und Regelungen. Menschen werden «vermessen», in Rangreihen ihrer Tüchtigkeit gebracht, einer Norm unterworfen. Ihrer Leistungsbewertung wird die Normalverteilung unterstellt. Weiter wird in den meisten Tests davon ausgegangen, daß psychische Merkmale unveränderlich sind («relative Stabilität») oder Lernprozesse die zugrundeliegenden geistigen Fähigkeiten nicht wesentlich beeinflussen. Normabgleiche, Meßwerte, weitestgehende Unveränderlichkeit der Leistungfähigkeiten, Wiederholbarkeit der Messungen usw. sind Form-Charakteristika von Testverfahren, denen Individuen in der Untersuchung ausgesetzt sind bzw. denen sie sich unterordnen sollen. Diesen Umstand bezeichnet Lorenz (1974) im Anschluß an Bruder (1973) als Unterwerfen «unter technologische Notwendigkeiten» (S. 167), und zwar nicht nur testbezogen, sondern schlechthin als «Unterwerfung unter eine Herrschaft, die sich... als darstellt» und in der wissenschaftlichen Methodik ihre Wesenszüge offenbart. Auch bezüglich der Durchführung sind psychologische Tests geprägt von den Bedingungen, unter denen in unserer Gesellschaft Leistung er-
Zur logischen und sozialhistorischen Herausbildung
55
bracht werden muß: die einzelne Person allein gegen die Konkurrenz (Isolation). Ganz wie wir es aus der Schule kennen. Teamleistung, solidarisches Verhalten sind nicht gefragt. Jedenfalls nicht in gängigen Leistungs- oder Fähigkeitstests. Dafür gibt es wieder gesonderte Test- oder Prüfverfahren, deren Zynismus gerade darin besteht, allein gegen alle die Fähigkeit zur sozialen Beziehung, zur Kommunikation bzw. zur Zusammenarbeit mit anderen zu erfassen. Das in betrieblichen Personalauswahlprozeduren inzwischen vielgenutzte, aber auch -diskutierte Verfahren des Assessment Centers (AC) ist ein typisches Beispiel, wo im Kampf um den Arbeitsplatz neben anderen Verhaltensdimensionen auch die soziale Kompetenz und Kommunikationsfähigkeit bewertet wird (vgl. dazu in diesem Buch Kapitel 8). Neben der Vereinzelung enthält die Testsituation/Testdurchführung noch andere wesentliche Bestimmungsmerkmale. Wer an einem Test teilnehmen soll/will, muß seinen Willen an der Garderobe abgeben, er/sie muß sich anpassen, gehorchen, tun, was die Tests in der Person des Testleiters abverlangen (Loyalität). Und dieser wird angehalten, «dem Kind zu vermitteln, daß Zusammenarbeit notwendig ist» (Handbook for the CPQ 1972, S. 12). Ein Grundsatz, der im übrigen für jede Testdurchführung gilt. Andernorts wird das Testmaterial ausdrücklich angepriesen als solches, das wenig Mißtrauen erzeugt bei den Probanden (Baum-Test, Koch 1972, S. 23). Wieder andere Autoren legen Wert darauf, die Testperson ohne Begleitung untersuchen zu können, aber selbst eine Hilfskraft im Raum zu haben. Wer sich dem Testdiktat nicht beugt, gilt als «sabotierende», «störende», «widerspenstige», kurz oppositionelle Testperson (vgl. Gniech 1975, 1976; Effler & Böhmeke 1977). Das hatten unsere Vorfahren, so scheint es, schon im Blick, denn in Heidelberg wurde 1501 eine Examensordnung erlassen, wonach den Kandidaten das Tragen langer Messer in Prüfungen untersagt war (nach Möller 1968), und die Studenten in Cambridge mußten schwören, sich nicht nachträglich an den Prüfern zu rächen (nach Kvale 1972, S. 126). Furcht vor Rache braucht ja nur zu haben, wer ungerecht war, ohne sich zu legitimieren, wer andere seine Macht hat spüren lassen. Eine Tatsache, die ja auch heutige Testsituationen kennzeichnet. Die Testperson darf niemand mitbringen - den Prüfungsort hat man allein zu betreten. Und wer die abverlangten Aufgaben ordnungsgemäß bearbeitet, läßt zumindest erkennen, daß sie/er loyal und willig den Anweisungen folgt. Dies ist die Innenseite der als Erkenntnisbildung deklarierten Außenseite psychologischer Testverfahren. Ein Verhältnis, das ihre Ambivalenz als Methode psychologischer Erkenntnisbildung kennzeichnet. Ihr Anspruch ist, Intelligenz, motorische Geschicklichkeit oder das Selbstbild einer Person zu erfassen. Ihre Realität ist, daß sie dies nicht zu tun vermö- * gen, ohne zugleich andere, verdeckte Mitteilungen etwa über Anpas-
\
56
t Vom Alltag zur Wissenschaft
sungs-, Reoperations- oder Leistungswilligkeit der Testperson zu geben. In dieser Ambivalenz kommt ihr Wesen als psychologische Tests vollends zum Vorschein: Ein Testscore sagt (mehr oder weniger) etwas über die befragte Person aus, die damit durchschaut, erkannt, bewertet, zugerichtet, kontrollierbar, steuerbar ist und ersatzlos (!) versagt bekommt, wonach sie oft hoffnungsvoll strebt: einen Arbeitsplatz, den Regelschulplatz, den Führerschein, das Sorgerecht für ein Kind etc. «Ihr Testwert ist unzureichend, entspricht nicht der Norm», hört ein/e Bewerber/in (um den Studienplatz) als Antwort. Nicht zu hören ist, daß die Schule die einschlägige Förderung nicht leisten konnte. Auch nicht, daß die bisherige Haft nicht geeignet war, einen Straffälligen zu resozialisieren, sondern er/sie die Voraussetzungen für eine Vollzugslockerung noch nicht erbringt und also ein Sicherheitsrisiko darstellt. Das mag zwar tatsächlich im Einzelfall zutreffen, aber richtig wäre auch zu betonen, daß die üblichen Haftbedingungen gänzlich ungeeignet sind, aus Tätern einsichtige Subjekte werden zu lassen und kaum ein Verantwortlicher an diesem Umstand öffentlich Kritik übt. 2.2.6 Zum Sinngehalt eines Testwertes Erinnern wir uns zurück an die zwei eingangs formulierten Fragen (s. S. 31.). Testwerte, so läßt sich nunmehr die Antwort auf Frage a) geben, indizieren gesellschaftliehe Anforderungen bzw. Leistungserwartungen in Form individueller Fähigkeiten bzw. Leistungsmöglichkeiten. «Der objektive Maßstab wird in die subjektive Dimension getragen, dadurch, daß man diese selber dem objektiven Maßstab der Leistungsanforderungen unterwirft: nicht unter die Frage, welches Verhalten äußert das Individuum, sondern äußert das Individuum das geforderte Verhalten oder nicht» (Bruder 1973, S. 123). In dem Blockdiagramm (Abbildung 4, S. 32.) ist diesem Umstand im Begriff der Verkehrung Rechnung getragen. Das Anforderungsalphabet der Gesellschaft ist in ein individuelles Zeichenrepertoire transformiert. Über die Gründe seiner Beschaffenheit wird allenfalls im Rahmen helfender Maßnahmen (z. B. Therapie) nachgedacht. Nicht dagegen in der pragmatisch gerichteten Eignungsuntersuchung oder Ausleseprozedur. In ihr und durch sie werden gesellschaftliche Versäumnisse oder Unzulänglichkeiten individualisiert bzw. zu einer Seinskategorie («Realsetzung von Gedachtem», Dieterich 1973, S. 16) der getesteten Person erklärt, indem subjektive Fähigkeiten als «wahre» Fähigkeiten deklariert werden, weshalb manche Kritiker auch von der ontologisierenden Funktion psychologischer Tests sprechen (Autorenkollektiv Konstanz 1978; Dörner 1975; Holzkamp 1988; Sonne-
Zur logischen und sozialhistorischen Herausbildung
57
mann 1969 u.a.). Wenn es nicht die Schule war, die Familienerziehung oder der Strafvollzug, sondern das Kind, die Eltern oder der Strafgefangene, wie die «wahren» Testwerte (vgl. S. 166f.) zu zeigen vorgeben, dann ist der jeweilige Gesellschaftsbereich «reingewaschen», erhält die Praxis ihre Rechtfertigung, ihre wissenschaftliche Legitimation. Daß eine Schülerin nicht auf der Hauptschule bleiben, sondern in die Schule für Lernbehinderte überwiesen werden muß, wird aus der Unfähigkeit des Kindes hergeleitet. Jemand, der im Studierfähigkeitstest versagt hat, ist nicht geeignet, ein entsprechendes Studium zu beginnen. Indem von der Annahme ausgegangen wird, Personen seien unterschiedlich hinsichtlich ihrer Fähigkeiten, Leistungen oder Aggressivität, hinsichtlich ihres Angstausmaßes oder ihrer Führungseigenschaften, wundert es um so mehr, wenn die Testkonstrukteure gleichzeitig unterstellen, daß sich diese Unterschiede nur auf das zu messende Persönlichkeitsmerkmal beziehen, nicht jedoch auf andere wie (Versagens-)Ängste, Leistungsmotivation, Sprachverständnis oder körperliche Befindlichkeit. Es wird unterstellt, alle Individuen seien vor dem Test gleich (Chancengleichheit). Allein schon die Tatsache, daß manche Kinder Spielmaterial in ihren Regalen haben, welches dem zu bearbeitenden Testmaterial weitgehend ähnelt oder gar identisch ist, verbietet ein solches Gleichheitspostulat (Wottawa & Amelang 1985). Eine irrige Annahme, oft genug entkräftet, nicht nur in der Psychologie (vgl. z.B. Bossong 1985; Guthke 1978; Schneider 1987; Sprachbarrieren 1971 u. a.). Vielen wird die in die Graphik auf S.59 (Abbildung 8) eingeblendete Karikatur bekannt sein, die den Irrtum von der scheinbaren Chancengleichheit aller Bildungsgänger, hier übertragen auf die Testpersonen, wohl am besten zum Ausdruck bringt. Sie markiert den Startpunkt in eine Testprozedur, deren hervorstechende Charakteristika wissenschaftliche Verdinglichungen gesellschaftlicher Prüf- und Befragungssituationen darstellen. Vermeintliche Chancengleichheit, Konkurrenz, Loyalität und Unterordnung, Machtgefälle, Vereinzelung, Menschenbild, Konzepte psychischer «Eigenschaften», Meßbarkeitsmythos, Normierbarkeit, aber auch individuelle Einzigartigkeit, interindividuelle Unterschiede und ihre augenscheinliche Erkennbarkeit etc. schlagen sich nieder in inhaltlichen und formal-konstruktiven Beschaffenheitsmerkmalen psychologischer Tests. Diese ihre «objektive» Funktionskennzeichnung ist ergänzungsbedürftig durch die «subjektive». Tests sind nicht nur Ausdruck von etwas, sondern erzeugen ihrerseits auch (Sekundär-)Phänomene auf Seiten der Betroffenen bzw. in der Öffentlichkeit (von den Anwendern einmal abgesehen) wie Wissenschaftsgläubigkeit, Testangst oder den Glauben an die Objektivität der Messung (z.B. Queisner 1972).
58
t Vom Alltag zur Wissenschaft
Tesser & Leidy (1968) beispielsweise fanden heraus, daß nach Ansicht von High-School-Studenten und -Studentinnen psychologische Tests faire und unparteiische Instrumente von großem Nutzen seien. Die öffentlichen Testverbrennungen in den USA (vgl. Amrine 1965; Drenth 1969) oder auch deutsche Diskussionen um den «numerierten Bürger» (Hoffmann u. a. 1975) sind andererseits Ausdruck der Sorge, mit einem nichtlöschbaren Datenschatten versehen soziale Nachteile in Kauf nehmen zu müssen (z.B. Arbeitsvermittlung nach Psychiatrie-Aufenthalt). Eltern fügen sich in schulische Entscheidungen, weil sie die testpsychologischen Untersuchungen für bare Münze halten und meinen, gegen Intelligenz- oder Leistungsprofile ihrer Kinder nichts mehr unternehmen zu können. Indem Tests wissenschaftlich scheinbar abgesicherte Aussagen über befragte bzw. untersuchte Personen, ihre Fähigkeiten und Befindlichkeiten erbringen, rechtfertigen sie gesellschaftlich erzeugte Unterschiede und soziale Benachteiligungen sowohl auf inhaltlicher, formal-konstruktiver wie testsituativer Ebene. So helfen sie gesellschaftliche Ist-Zustände unwidersprochen als vermeintlich naturgegebene, also unverrückbare, hinzunehmen und zu reproduzieren: den Mythos von den z. B. rassenbiologisch begründbaren Intelligenzunterschieden, von den Frauen als dem schwachen Geschlecht, von den dummen Schülern oder den auszugrenzenden Minderheiten. Eine Gesellschaft mit ihren eben nicht von Natur, sondern von den Menschen selbst geschaffenen sozialen Ungerechtigkeiten, Gewaltszenarien, Ausgrenzungprozeduren und politischen Benachteiligungen als nun einmal gegebene und demzufolge kaum veränderbare Wirklichkeit hinzustellen, erfordert Rechtfertigungswissen, das die «soziale Ordnung für alle Beteiligten sichtbar macht» (Kreissl 1986, S.41). Es zu besitzen, behaupten vielerorts die Testpsychologen. Wo sich Wissenschaft solchen herrschaftskonformen Legitimationsinteressen andient, ihnen gar entspringt, muß sie sich den Vorwurf der Ideologiebildung gefallen lassen, der Erzeugung und Aufrechterhaltung «falschen Bewußtseins» also. Ja, sie wird selbst zur Ideologie (Autorenkollektiv Wissenschaftspsychologie 1975; Autorenkollektiv I 1974; Bruder 1973; Dick 1974; Hofmann 1969; Holzkamp 1972; Horkheimer & Adorno 1979; Psychologie und Gesellschaftskritik 1977ff.; Rexilius 1988; StormKnirsch 1974 u.v.a.). Als solche gewährleistet sie, daß Machtinteresse nicht mehr «als Interesse erscheint, sondern als sachliche Forderung, als aus dem Lauf der Dinge mit zwingender Logik sich ergebende Tendenz» (Lüth 1976, S. 82f.). Dazu zählen ebenso sozialdarwinistische, rassistische, frauenfeindliche, massenpsychologische, kriminaltheoretische, persönlichkeitstheoretische wie testpsychologische Abhandlungen und Analysen. Diese und andere mehr individualisieren oder naturalisieren
PROZESS DER LEGITIMATION Soziokulturell bedingte Unterschiede zwischen Personen
Abstrakte Individualität (I) angesichts vermeintlicher Chancengleichheit im Test
Individuelle Verschiedenheiten
•Auslese lAvrerotc »j, AufiQABt rü* ate Aiie ,o) kann z. B. folgendes bedeuten: S ist eine Menge von Eisenstangen; die Relation «>» (= «ist länger oder gleich lang wie») und die Relation «o» (= «Aneinanderlegen») gelten für die Menge der Eisenstangen. Die beiden Relationen stellen Symbole für empirische Operationen dar, die nicht mit den analogen arithmetischen Operationen verwechselt werden dürfen (etwa «>» mit dem bekannten und die selbstverständlich auch andere empirische Bedeutungen haben können (bei anderen Objektmengen mit anderen Eigenschaften könnte «>» etwa bedeuten «ist schwerer als oder gleich schwer wie» oder «ist dicker als oder gleich dick wie»). Numerische Relative bestehen demgegenüber aus einer Menge von numerischen Größen bzw. Zahlen und aus den dafür geltenden Relationen; RN = (R,^,+) ist z. B. ein Relativ, das die Menge der reellen Zahlen mit den Relationen «größer oder gleich» i/nd «Addieren» umfaßt. Messung stellt eine besondere Art der Zuordnung eines empirischen zu einem numerischen Relativ, eine besondere Form der Abbildung dar. Unter einer Abbüdung ist ganz allgemein die Zuordnungsmöglichkeit der Elemente x einer Menge X zu jeweils einem y der Menge Y zu verstehen. Bei einer Abbildung f von X in Y (formal: «f: X —• Y») heißen die Elemente y Bilder von x und die x Urbilder von y (vgl. Abbildung 10). r~
—
•
-
— \
•
—yi •—^
• #• •
• •
•
• •
.,„ X
Y
Abbüdung 10: Homomorphe Abbildung der Menge X in Y
Eine Messung ist eine Abbildung mit folgenden Eigenschaften: 1. Ein empirisches Relativ wird in ein numerisches Relativ abgebildet («Abbildung» ist in solchen Fällen gleichbedeutend mit «Funktion»).
104
Die «Vermessung» des Menschen
2. Es liegt ein Homomorphismus vor, d.h., es werden zum einen die Elemente der Objektmenge des empirischen Relativs eindeutig im numerischen Relativ abgebildet (vgl. Abbildung 10, die eine eindeutige Abbildung von X in Y veranschaulicht), zum anderen auch die Relationen zwischen den Objekten innerhalb des empirischen Relativs in entsprechende Relationen des numerischen Relativs übersetzt. Ein Homomorphismus zwischen einem empirischen und einem numerischen Relativ (RE, RM, f), wobei f die Zuordnung symbolisiert, heißt Skala. Zur Verdeutlichung: Das obige Beispiel mit den Eisenstangen illustriert, daß zur Längenmessung ein Homomorphismus notwendig ist. Die Abbildung (S, > , o) (R,^, +) = (RE, RN, f) (Formel 1) bedeutet die eindeutige Zuordnung von reellen Zahlen r aus R zu den Eisenstangen s aus S sowie die Zuordnung der definierten Relationen innerhalb der Menge der reellen Zahlen zu den definierten Relationen zwischen den Eisenstangen: s i ^ s2 —> rx ^ r 2 ; Sio S3 rx 4- r3 (Formel 2) Das Vorliegen von homömorphen Abbildungen (von Messungen) ist also nicht nur als eine Abbildung von Objektmengen zu verstehen; Homomorphie existiert nur in Hinblick auf bestimmte Relationen (bestimmter Objekteigenscfiaften) (vgl. Klaus & Buhr 1970, S. 481f. und S. 541f ). Der Vollständigkeit halber sei erwähnt, daß umkehrbar eindeutige Abbildungen Isomorphismen genannt werden. Hier ergibt sich aus der Kenntnis des Urbild-Elements x einer Menge nicht nur das Bild y, sondern es läßt sich auch aus der Kenntnis von y eindeutig das zugehörige x identifizieren. Bei der Messung ist es sinnvoll, nur von der weniger strengen Homomorphieforderung auszugehen, um auch annähernd gleichen Objekten gleiche Meßwerte zuordnen zu können. Zum Beispiel würde bei der Längenmessung die Isomorphieforderung unendlich empfindliche Meßapparaturen erfordern, um feinste Unterschiede zu erkennen. In vielen praktischen Fällen ist eine solche genaue Unterscheidung von Objekteigenschaften nicht erforderlich oder nicht erwünscht. Zudem brächte die Forderung isomorpher Abbildungen Erschwerungen für die Formulierung von Meßprinzipien (Axiomen) und Ableitungen mit sich. Bei echten Rangreihen (ohne Mehrfachbesetzung von Rangplätzen) entspricht die Messung im übrigen einem Isomorphismus. Meßtheoretisch bedeutsam ist die Unterscheidung zwischen fundamentaler und abgeleiteter Messung. Eine unmittelbare homomorphe Abbildung eines empirischen Relativs in ein numerisches liegt nur bei einer sogenannten fundamentalen Messung vor, wie sie z. B. bei Längen-, Winkel-, Zeitmessung gegeben ist. Abgeleitete Messungen benutzen dagegen gesetzmäßige Zusammenhänge zwischen Größen, die ihrerseits funda-
Meßtheoretische Grundbegriffe
105
mental gemessen werden können. In diesem Sinn leitet sich etwa die Geschwindigkeitsmessung aus dem Quotienten der fundamental meßbaren Größen Weg und Zeit ab. Wenn in der Psychologie (und in den anderen Sozialwissenschaften) gemessen wird, wenn z. B Einstellungsskalen oder Intelligenztests zum Einsatz kommen, dann handelt es sich meist (d.h. beim Vorgehen nach dem Muster der klassischen Testtheorie) weder um fundamentales noch um abgeleitetes Messen, sondern um eine willkürliche Messung, die auch unter der Bezeichnung «measurement by fiat» bekannt ist. Bei dieser theoretisch unbefriedigenden Meßvariante werden Personen (oder anderen Objekten) Zahlenwerte zugeordnet, wobei willkürlich, d. h. aufgrund von Plausibilitätsüberlegungen den dazu benutzten Erhebungsinstrumenten (Tests, Fragebögen etc.) zugetraut wird, die gewünschte psychologische (oder anderweitige) Eigenschaft zu messen. Die Zuordnung der Zahlen beruht in solchen Fällen weder auf der tatsächlichen homomorphen Abbildung des empirischen Relativs in ein numerisches (wäre diese Bedingung erfüllt, läge eine fundamentale Messung vor) noch auf einer funktional aus fundamental meßbaren Eigenschaften abgeleiteten Messung (vgl. Orth 1988, S. 238; Heidenreich 1987, S. 335f.). Das Ungenügen einer auf Quantifizierbarkeit fixierten Psychologie zeigt sich unter anderem im Vorherrschen des «measurement by fiat». Diese fragwürdige Meßvariante wird jedoch als wissenschaftliche Operation geduldet oder gerechtfertigt, weil ihr eine die psychologische Theoriebildung stimulierende heuristische Funktion und eine außerwissenschaftliche Nützlichkeit attestiert wird. 4.2.2 Meßtheorie Die grundlegende Aufgabe der Meßtheorie ist, die Bedingungen für die Meßbarkeit von Eigenschaften eines empirischen Relativs zu untersuchen. Es wird überprüft, nach welchen Bedingungen, nach welchen Axiomen ein empirisches Relativ numerisch dargestellt, repräsentiert werden ann. Während die Erstellung eines solchen meßtheoretischen Axiomensystems mit rein mathematischen, formalen Methoden erfolgt, kann die Geltung der Axiome für ein empirisches Relativ nur auf dem Wege empirischer Untersuchungen überprüft werden. Die Erstellung und formale Überprüfung eines Axiomensystems wird in der Meßtheorie als das Problem der Repräsentation bezeichnet. Eine weitere Fragestellung der Meßtheorie betrifft das Problem der Eindeutigkeit^ es geht hier um das Skalenniveau und um die zulässigen Transformationen von homomorphen Abbildungen, d. h. von Skalen. Das Problem der Bedeutsamkeit ist die dritte
106
Die «Vermessung» des Menschen
Aufgabe der Meßtheorie; festzustellen ist, ob eine bestimmte numerische Aussage bei der vorliegenden Skala sinnvoll ist. Die drei meßtheoretischen Probleme werden in den nachfolgenden Abschnitten erläutert. Die Meßtheorie stellt methodologische Grundlagen für Meßvorgänge und auch für Tests, die irgend etwas zu messen vorgeben, bereit. Insofern sgibt es zwischen Testmethodik und Meßtheorie fließende Übergänge. Die Meßtheorie kann unter Umständen für Tests Annahmen formulieren, die psychologisch von Interesse sind und empirisch anhand von Daten überprüft werden können. In der klassischen Testtheorie wurde allerdings die Meßtheorie nicht zur Formulierung der Grundannahmen herangezogen, die Meßbarkeit psychologischer Eigenschaften wurde hier a priori vorausgesetzt (es liegt also ein «measurement by fiat» vor). Aus diesem Grunde dürfen die sogenannten Axiome der klassischen Testtheorie auch nicht mit den meßtheoretischen Axiomen verwechselt werden. a) Das Problem der Repräsentation Die Lösung des Repräsentationsproblems verlangt, die jeweils erforderlichen Axiome zu finden, die eine homomorphe Abbildung eines empirischen Relativs in ein numerisches erlauben. Bei der Aufstellung eines Axiomensystems muß beachtet werden, daß die einzelnen Axiome widerspruchsfrei formuliert werden und daß sie prinzipiell empirisch prüfbar sind. Zur Illustration einige zur Repräsentation empirischer Relative häufig benötigte Axiome: a o b > c (Positivität); wenn a » b, b « a (Symmetrie); a > b und/oder b > a für alle Elemente (Konnexität); wenn a > b und b > c, dann a > c (Transitivität). Gegen das Axiom der Konnexität, obwohl es implizit als gültig vorausgesetzt wird, verstoßen beispielsweise psychologische Tests, wenn sie bei Personen mit hohen Testwerten nicht zu differenzieren vermögen oder qualitativ etwas anderes «messen» als bei Personen mit niedrigen Testergebnissen. Das Axiom der Transitivität spielt eine wichtige Rolle für den Nachweis eindimensionaler Merkmalsskalen; gleichzeitig handelt es sich um ein Prinzip, das psychologische Daten häufig verletzen (z. B. wegen großer «Fehlerbehaftetheit» der Meßinstrumente oder wegen «Mehrdimensionalität» der beurteilten Objekteigenschaften; vgl. Ahrens 1974, S. 94ff.). b) Das Problem der Eindeutigkeit Da «Messung» einen relativ allgemeinen Sachverhalt bezeichnet, Klassifizierungen, Rangordnungen, metrisches Skalieren umfassend, muß durch die Lösung des Eindeutigkeitsproblems der Skalentyp eines gegebe-
Meßtheoretische Grundbegriffe
107
nen Homomorphismus bzw. einer Skala bestimmt werden. Zu klären ist, wie eindeutig eine Skala ist bzw. welche gleichwertigen Skalen existieren, die dieselbe homomorphe Abbildung ergeben. Der Skalentyp eines Homomorphismus läßt sich an den zulässigen Transformationen ablesen. Zulässige Transformationen verändern zwar die Zahlenwerte, lassen aber die Meßstruktur der Daten unverändert. Je weniger Arten von Transformationen zulässig sind, desto größer ist die Eindeutigkeit der Skala und desto höher ist das sogenannte Skalenniveau. Zu den wichtigsten Skalentypen gehören (nach Stevens) Nominal-, Ordinal-, Intervall- und Verhältnisskala. Am wenigsten eindeutig, d.h. die Skala mit dem niedrigsten Skalenniveau, ist die Nominalskala, die eine Klassifikation von Objekten mit Zahlen ermöglicht (z.B. Nummern einer Fußballmannschaft, Klassifikation von Baumarten unter Verwendung beliebiger Zahlen). Zulässige Transformationen sind hier sämtliche Umbenennungen, die die gleichsinnige Unterscheidung, Klassifikation der Objekte aufrechterhalten. Bei einer Ordinalskala liegt eine Rangordnung der Daten vor. Erlaubt sind alle monoton steigenden Transformationen f , die die Rangordnung der Skalenwerte nicht verändern: f (x) = f (x). Beispiel: Objekte mit der Eigenschaft a > b > c > d lassen sich durch die Rangzahlen 2, 4, 6, 8 genauso repräsentieren wie durch f (x) = f(x2), also 4, 16, 36, 64. Die Ränge der Objekte bleiben bei der Transformation f (x) erhalten. Bei einer Intervallskala (beispielsweise die Temperaturmessung nach Celsius) sind nur lineare Transformationen zulässig (f (x) = u • f(x) +v). Sie lassen sowohl die Rangordnung als auch die Verhältnisse von Differenzen zwischen den Daten invariant. Als Beispiel die lineare Transformation von Grad Celsius in Grad Fahrenheit: F = 9/5 G + 32. Diese Transformation streckt die Werte der Fahrenheit- gegenüber der Celsiusskala, vergrößert die Differenzen zwischen Meßwerten. Das Verhältnis der Differenzen bleibt in beiden Skalen jedoch dasselbe: 35°-30° C = 5°-0° C entspricht 95°-86° F = 41°-32° F). Bei einer Verhältnisskala sind nur Ähnlichkeitstransformationen (f(x) = u • f(x)) zulässig. Beispiele für Verhältnisskalen sind die Temperaturskala nach Kelvin, die Zeit- und die Längenmessung. Verhältnisskalen besitzen einen absoluten Nullpunkt. Ihre Meßwerte haben bei zulässigen Transformationen invariante Verhältnisse, wie z. B. die Umrechnung von Meter in Zentimeter, f (x) = 100 • f(x), zeigt. Das bedeutet etwa 10 m : 5 m = 1000 cm : 500 cm. Erst Verhältnisskalen erlauben Aussagen wie die, daß eine Stange a doppelt so lang ist wie Stange b. Bei Intervallskalen sind solche Vergleiche unmöglich. Tabelle 1 informiert über die Eigenschaften der wichtigsten Skalentypen, führt Beispiele für die Skalentypen an und weist auf jeweils sinn-
Die «Vermessung» des Menschen
108
volle statistische Verfahren hin (ähnliche Darstellungen finden sich bei Orth 1974, S. 27 und 32, bei Gutjahr 1974, S. 28f.). c) Das Problem der Bedeutsamkeit Das Bedeutsamkeitsproblem bezieht sich auf die rechnerische Verarbeitung von Daten. Eine numerische Aussage (z. B. Mittelwert = Summe x-J N) gilt nur dann als sinnvoll (=bedeutsam), wenn ihr Wahrheitswert nach Anwendung aller zulässigen Transformationen gleichbleibt. Es geht hierbei um die Klärung der Frage, welche mathematischen/statistischen Verfahren bei einer Skala, in die ein empirisches Relativ abgebildet wurde, verwendet werden dürfen und welche Verfahren angesichts des gegebenen Skalenniveaus nicht zulässig sind. Beispielsweise bleibt die Funktion, die zur Bildung des arithmetischen Mittels führt, bei den zulässigen linearen Transformationen einer Intervallskala wahr (Formel 3), nicht jedoch nach anderen, bei Ordinalskalen außerdem noch erlaubten Transformationen (Formel 4): x = -—1 —» u • x +v = N jedoch: x =
x2
N
-7
—j^1-
=u • — + V N
(Formel 3) (Formel 4)
(Wenn man für x, u, v geeignete Zahlenwerte Einsetzt, kann man diese Aussagen anschaulich nachprüfen.) Das Bedeutsamkeitsproblem hängt eng mit dem Problem der Eindeutigkeit zusammen: Die Kenntnis des Skalentyps ist notwendig zur Lösung des Bedeutsamkeitsproblems (vgl. Tabelle 1). Das Bedeutsamkeitsproblem verdient innerhalb der empirischen Sozialwissenschaften Aufmerksamkeit, weil es nahezu chronisch mißachtet wird. IQ-Werte sind etwa als Intervallskalen konzipiert, ohne daß ihr Intervallskalenniveau gesichert ist. Bei Schulnoten, die bestenfalls Ordinalskalenniveau besitzen, werden Mittelwertbildungen regelmäßig von offizieller Seite vorgenommen (u. a. bei der Regelung der Hochschulzulassung, bei der Gewährung von Stipendien), obwohl diese gemäß der Meßtheorie sinnlos sind. Von pragmatischer, an bloßen Verwertungsinteressen orientierter Sichtweise aus ist die Tendenz, «sinnlose» Rechenoperationen anzuwenden, durchaus verständlich. Wenn man meßtheoretische Maximen berücksichtigen würde, ließen sich viele alltägliche arithmetische Operationen wie Addieren, Subtrahieren oder auch die in der Psychologie beliebten statistischen Maßzahlen wie Mittelwert, Standardabweichimg, Produkt-Moment-Korrelation nicht mehr ungeprüft und unbeschwert verwenden.
Meßtheoretische Grundbegriffe
109
Skalentyp
Nominalskala
Ordinalskala
Intervallskala
Verhältnisskala (auch: RatioSkala)
empirische Operationen
Bestimmung von Gleichheit und Ungleichheit
zusätzlich: Best, einer Rangfolge, z. B. x > y > z
zusätzlich: Intervalle gleich (z. B. 10-7«7-4) willkürlich festgelegter Nullpunkt
zusätzlich: Bestimmung gleicher Verhältnisse
nur: lineare Transformationen: f'(x) = v + uf(x) (wobei u > 0 )
nur: Ähnlichkeitstransformationen f' ( x) = u-f(x) (wobei u > 0 ) zusätzlich: geometrisches Mittel, Variationskoeffizient
zulässige Transformationen
Umbenennung nur: monoton steigende Transformationen
statistische Maßzahlen (Beispiele)
Häufigkeit, Modalwert
zusätzlich: Median, Quartile, Prozentrangwerte
zusätzlich: arithmetisches Mittel (x) Standardabweichung (s) Schiefe, Exzeß
Zusammenhangsmaße
Kontingenzkoeffizient (C) Vierfelderkoeffizient (Phi)
zusätzlich: RangkorrKoeffizient (Spearmans Rho, Kendalls Tau)
zusätzlich: ProduktMomentKorrelation (r) Regressionskoeffizient
Beispiele
Numerierung von Fußballspielern, Kontonummern, Quantifizierung von dichotomen Merkmalen (z. B. Geschlecht)
Schulnoten, Richtersche Erdbebenskala, Testrohwerte
Temperatur (nach Celsius, Fahrenheit, Reaumur)
Tabelle 1: Die wichtigsten Skalentypen nach Stevens (1959)
absoluter Nullpunkt
Länge, Masse, Zeit, Winkel, Temperatur (nach Kelvin)
110
Die «Vermessung» des Menschen
Eindeutig aussehende Meßergebnisse scheinen jedoch Verwertungsinteressen entgegenzukommen. Auf die zugrundeliegende Meßtheorie bezieht man sich deswegen meist nur so lange, wie sie die Seriosität, die «Richtigkeit» eigenen Vorgehens stützt, um ihre Anforderungen dann zu ignorieren, wenn diese den fragwürdigen «praktischen Bedürfnissen» zuwiderlaufen.
4.3 Der Ansatz der klassischen Testtheorie* Die geläufige Bezeichnung «Testtheorie» stellt grundsätzlich eine begriffliche Anmaßung dar. Denn «psychologische Testtheorien» bieten keine psychologischen Begründungen, geschweige denn Theorien darüber, ob Tests entwickelt werden, für welche Ziele sie eingesetzt werden und welchen Fragen- oder Aufgabeninhalt sie haben sollten. Unter Zuhilfenahme mathematischer Begrifflichkeit beschäftigen sich die «psychologischen Testtheorien» lediglich mit formalen Fragestellungen, so etwa mit der Beziehung von Person- und Testparametern, den Stichprobenproblemen, der Definition von Testeigenschaften wie Homogenität, Reliabilität (vgl. Grubitzsch, S. 163ff.). Tests sollen auf diese Weise als seriöse erfahrungswissenschaftliche Instrumente präsentiert werden können (vgl. Grubitzsch 1981). Die testpraktisch bisher wichtigste Theorie dieser Art ist die klassische Testtheorie. Sie fungiert für die Mehrzahl der psychologischen Tests als nachträglicher «theoretischer Überbau» und als Prinzip der Testkonstruktion und -analyse (vgl. Lienert 1969). Sie ist ein Versuch, erstmals von Gulliksen (1950) in Angriff genommen, zur formalisierten mathematischen Umschreibung und Fundierung psychologischer Tests. Ihre Grundlagen (Grundkonzept;«Axiome»; daraus abgeleitete Resultate) werden im folgenden diskutiert. Die Darstellung orientiert sich an der Fassung der Theorie, wie sie ausführlich und vorbildlich bei Lord & Novick (1968) vorliegt. 4.3.1 Das Grundkonzept Die klassische Testtheorie hat ein denkbar einfaches Grundkonzept. Es besagt, daß der in einem Test erhaltene Meßwert fehlerhaft ist. Deshalb unterscheidet sich der «wahre Wert» («true score», T) einer Messung * (Vgl. auch Kapitel 5)
Der Ansatz der klassischen Testtheorie
111
(d. h. die «wahre» Merkmalsausprägung bei der gemessenen Person im jeweiligen Test) vom beobachteten Wert X durch den Meßfehler E; ausgedrückt in der Formel: X=T+E
(Formel 5)
(Indizes zur näheren Kennzeichnung dieser Variablen werden der Übersichtlichkeit halber, soweit dies möglich ist, weggelassen. X, T, E sind Variablen, die durch Ziehen von Zufallsstichproben von Personen entstehen; sie dürfen nicht als Parameter bzw. Statistik einer einzelnen Person verstanden werden.) Die erste wichtige Annahme im Rahmen der klassischen Testtheorie besteht darin, den Erwartungswert e (E) des Meßfehlers gleich Null zu setzen, so daß X (die beobachteten Meßwerte) zwar nicht im Einzelfall, jedoch im Durchschnitt T (den nicht beobachtbaren wahren Wert) mißt (Erwartungswerte entsprechen ungefähr Mittelwerten, haben jedoch eine andere mathematische Bedeutung; vgl. Hays 1973, S. 871 ff.). Aus dieser postulierten, empirisch eher unwahrscheinlichen Beziehung zwischen X und T wird dann weitergehend gefolgert, daß psychologische Tests trotz offensichtlicher, nicht zu verleugnender Meßfehler konstant dieselben definierten Eigenschaften erfassen würden. 4.3.2 Die «Axiome» der klassischen Testtheorie Die klassische Testtheorie geht von vier Voraussetzungen, Axiomen, aus. Die Axiome enthalten Annahmen über das Verhalten der nicht beobachtbaren Variablen E und T bei der Beobachtung der Variablen X. Die Beweise der Axiome beruhen auf mathematischen und logischen Herleitungen, können somit lediglich ihre formale Stimmigkeit bestätigen (auf die Darstellung der Beweise wurde verzichtet. Sie können bei Bedarf in der Referenzliteratur nachgeschlagen werden) . Die Axiome der klassischen Testtheorie lauten: e(E) = 0
(Formel 6)
Das heißt, der Erwartungswert des Meßfehlers ist Null. Die Fehler bei verschiedenen getesteten Personen gleichen sich nach dieser Annahme im Durchschnitt aus, potenzieren sich also nicht. Die Aussage bezieht sich prinzipiell (nur prinzipiell deshalb, weil dann eine genaue und veränderte Indizierung der Variablen vorzunehmen wäre) auch auf das mehrfache Testen einer Person mit dem gleichen Test. In diesem Falle ist das
112
Die «Vermessung» des Menschen
erste Axiom (Formel 6) reichlich abstrakt und unrealistisch, da die Mehrfachanwendung von Tests bei einer Person oft entweder unmöglich ist oder (durch Übungseffekte u. ä.) zu «unbrauchbaren» Ergebnissen führt. r(E,T) = 0
(Formel 7)
Das heißt, die Korrelation des Fehlers mit dem wahren Testwert ist Null. r(Ei,E 2 )=0
(Formel 8)
Das heißt, die Korrelation des Fehlers in einem Test (Xi) mit dem Fehler in einem anderen Test (X2) ist Null. Die Annahme ist aufgrund vorliegender empirischer Befunde ebenfalls sehr künstlich, besagt sie doch, daß beispielsweise starke «Testangst»-Fehlerkomponenten zweier Tests im Durchschnitt unabhängig voneinander wären, eine positive Korrelation zumindest durch andere Fehlerkomponenten aufgehoben werden müßte. r(Ex,T2) = 0
(Formel 9)
Das heißt, die Korrelation des Meßfehlers in einem Test (Xx) mit dem wahren Wert in einem anderen Test (X2) ist Null. Die Axiome der klassischen Testtheorie formulieren einschränkende Bedingungen für Tests. In Hinblick auf die Realität des Testens enthalten die Axiome der Testtheorie relativ künstliche Annahmen. Doch darin liegt nicht ihre wesentliche Problematik und ihr grundlegender Unterschied zu meßtheoretischen Axiomen begründet. Meßtheoretisch unzulänglich sind die klassisch-testtheoretischen «Axiome», weil sie keine empirisch überprüfbaren Aussagen über psychologische Messungen enthalten, eher eine nachträgliche Rechtfertigung des psychologischen Testens anstreben. Die Axiome dienen in erster Linie dazu, den Gebrauch von Testwerten als psychologisch sinnvolles Vorgehen zu legitimieren (um mit der Annahme e (E) = 0, d.h. e (X) = e (T), etwa Konzepte wie die Reliabilität eines Tests logisch stringent herleiten zu können; vgl. Abschnitt 4.3.3). Erst in zweiter Hinsicht werden Tests, die den einmal gesetzten Annahmen empirisch nicht genügen (z. B. mangelnde Reliabilität besitzen), als unzulänglich betrachtet oder verbessert. Doch mit diesem Vorgehen ist empirisch nicht viel gewonnen. Denn: wenn ein Test in seinen empirischen Ergebnissen der klassischen Testtheorie zuwiderläuft, kann das heißen, daß der Test entweder «schlecht» ist oder daß das Testmodell für diesen Test nicht angemessen ist; wenn umgekehrt ein Test die Kriterien
Der Ansatz der klassischen Testtheorie
113
der klassischen Testtheorie erfüllt, so hat man damit weder die Axiome empirisch bestätigt, noch die psychologische Aussagekraft des Tests bewiesen. 4.3.3 Die Herleitung der Reliabilität nach der klassischen Testtheorie Die Reliabilität stellt neben der Validität für die klassische Testtheorie die wichtigste Testeigenschaft dar. Die formale Ableitung des Reliabilitätskonzepts wird relativ ausführlich abgehandelt, um aufzuzeigen, wie es aus einfachen mathematischen Annahmen und Umformungen entsteht und wie sich der willkürliche Umgang mit der Realität in der testtheoretischen Interpretation des Reliabilitätskonzepts fortsetzt. Bei der Herleitung der Reliabilität bedient man sich folgender, aus den Axiomen ableitbarer Annahmen: o2(X) = A2(T) + o^E) + 2o(E,T) = O2(T) + o2(E)
(Formel 10)
Das heißt, die Gesamtvarianz von Test X ist die Summe aus wahrer Varianz und Fehlervarianz. Die Kovarianz (E, T) fällt weg,da sie nach dem zweiten Axiom (Formel 7) gleich Null sein muß; wenn die Korrelation r(E, T) = 0, dann ist auch o (E, T) = 0, da gilt: (Formelll)
Für die Kovarianz zwischen X und T ergibt sich nach einigen Umformungen: a(X, T) = o^T)
(Formel 12)
Das heißt, die Kovarianz zwischen der beobachtbaren Variablen X und der nicht beobachtbaren Variablen T entspricht im Ergebnis der Varianz von T. Mit Hilfe der beiden Teilergebnisse (Formel 10 und 12) ergibt sich eine im Rahmen des Modells einleuchtende Definition der Testreliabilität : Die Reliabilität entspricht dem Anteil der wahren Varianz an der Gesamtvarianz , kurz: o 2 (T) R e l . = ^o72 (X) ^v
(Formel 13)
Ist die Testvariable X nicht fehlerbelastet, erreicht die Reliabilität einen Betrag von 1. Problematisch wird diese Definition von Reliabilität allerdings unter der Bedingung, daß alle Personen der Testpopulation den
Die «Vermessung» des Menschen
114
gleichen wahren Wert haben (wenn z.B. alle Schüler einer Klasse den «Lehrstoff» beherrschen und die Aufgaben eines Rechentests lösen). In diesem Fall wird o2 (T) = 0, also auch die Reliabilität Null. Dieser Umstand (die Reliabilität wird Null, obwohl der Test «genau» mißt) verdeutlicht, daß Reliabilität ein Maß dafür darstellt, wie gut ein Test Personen einer Population zu unterscheiden vermag. Was der Test tatsächlich «mißt», ist folglich für die klassische Testtheorie allenfalls nachrangig. Durch einfache algebraische Umformung der Ausgangsdefinition läßt sich die Reliabilität auch als quadrierte Korrelation zwischen wahrem Wert T und der Variable X auffassen: p I
o 2 (T) _ a(X,T) _ o ( X , T ) - q ( X , T ) o 2 (X) o2(X) o 2 (X) • o (X, T) ! (X,T) 2 a (X).o>(T) = r ( X ' T ) -
Bei der praktischen Berechnung ist es allerdings notwendig, die Reliabilität mittels beobachtbarer Größen zu bestimmen. Eine solche Nutzung von Beobachtungsgrößen gelingt, wenn die Korrelation zwischen Paralleltests, r(X,X'), der obigen Definition von Reliabilität im Ergebnis entspricht. Wenn X und X' Paralleltests sind, müssen per definitionem folgende beiden Bedingungen erfüllt sein: 1. X = T + E; X ' = T + E';
(Formel 15)
2. O 2 (E) = O 2 (E') ;
(Formel 16)
Aus 1. und 2. folgt zunächst o*(X) = o^X') und e(X) = e(X')
(Formel 17)
Für die Reliabilitätsbestimmung ergibt sich dann: Die Reliabilität dient nicht nur als Testgütekriterium. Mit ihrer Hilfe läßt sich der Standardmeßfehler o (E) berechnen, der zur Bestimmung des Vertrauensintervalls für einen beobachteten Testwert x benötigt wird (vgl. Grubitzsch, S. 163ff.). Da
a2(x)
1
(X)
o 2 (E) = i . ö 2 (X) - r (X, X') • o 2 (X) o(E) =
0(X).Vl-r(X,X')
(Formel 19)
Der Ansatz der klassischen Testtheorie
115
4.3.4 Erweiterungen der klassischen Testtheorie Es existiert eine Reihe von Varianten und Weiterentwicklungen der klassischen Testtheorie, die das ursprüngliche Grundkonzept, eine «Theorie» über das Verhalten des Meßfehlers zu liefern, in modifizierter Weise beibehalten. Die meist unrealistische Annahme, über Paralleltests mit identischem wahrem Wert T wie «tau» zu verfügen, kann beispielsweise abgeschwächt werden. Verlangt werden dann lediglich tau-äquivalente Tests, die denselben wahren Wert unterschiedlich genau messen, oder essentiell tau-äquivalente Tests, die im wesentlichen denselben wahren Wert, aber unterschiedlich genau plus andere Größen erfassen (Fischer 1974, S. 32ff.). Die Generalisierbarkeitstheorie befaßt sich mit mehreren äquivalenten Tests oder mit ganzen «Testfamilien». Mit Hilfe varianzanalytischer Methoden werden die Reliabilität dieser Tests (bzw. Testitems) gleichzeitig bestimmt, Aussagen über einen «generellen Testwert» angestrebt (vgl. Heidenreich 1987, S. 372ff.). Den Möglichkeiten der probabilistischen Ansätze nähert sich das «Klassische Latent-Additive Testmodell» (vgl. Moosbrugger 1988, S.259f£.). Das Modell, das die empirische Überprüfung einiger seiner Vorannahmen gestattet, setzt wie die klassische Testtheorie voraus, daß der Erwartungswert des Meßfehlers eines Tests Null ist. Erweitert wird die klassische Testtheorie insofern, als der «wahre Wert» einer Messung in zwei latente Komponenten bzw. Parameter zerlegt wird, in einen Persönlichkeitsanteil («Fähigkeit») und einen Itemanteil («Schwierigkeit»). 4.3.5 Anwendungsgrenzen und formale Unzulänglichkeiten der klassischen Testtheorie Innerhalb der etablierten Wissenschaften wird die klassische Testtheorie wegen ihrer begrenzten Änwendungsmöglichkeiten und aus formalen Gründen als mangelhaft oder ungenügend beurteilt. Der Anwendungsradius der klassischen Testtheorie reduziert sich darauf, die Grundlage und Rechtfertigung für die Konstruktion herkömmlicher psychologischer Tests zu liefern, mit deren Hilfe Personen in bezug auf bestimmte Dispositionen (Fähigkeiten, Charaktermerkmale) unterschieden werden sollen. Für eine Reihe inzwischen in der Psychologie und in Nachbardisziplinen gebräuchlicher diagnostischer Verfahren enthält das Modell der klassischen Testtheorie nicht die passenden und (für praktische Zwecke) ausreichenden Annahmen. Die Modellannahmen versagen etwa bei kriteriumsorientierten Tests,
116
Die «Vermessung» des Menschen
die vor allem als Instrumente der pädagogischen Diagnostik eingesetzt werden, um das Erreichen von Lehrzielen zu überprüfen. Hier sind die Möglichkeiten zur Selektion formal-statistisch gesehen «schlechter» Testitems aus inhaltlichen Gründen eingeschränkt, und geringe Meßwertvarianzen - d.h. o^X) und damit cr^T) nähern sich dem Wert Null unter Umständen erwünscht (weil sie anzeigen, daß viele Schüler den als Lehrziel definierten Leistungsstandard erreichten). Die Verlaufsdiagnostik, wie sie beispielsweise in der Verhaltenstherapie zur Objektivierung von Symptomveränderungen angewandt wird, ist ebenfalls mit den ursprünglichen Annahmen der klassischen Testtheorie unvereinbar. Gelten diese Annahmen, lassen sich gemessene Symptomveränderungen kaum interpretieren. Denn während das aus der klassischen Testtheorie abgeleitete Reliabilitätskonzept bei einer Meßwiederholung eine Konstanz des «wahren Werts» (und damit auch ein möglichst geringes Oszillieren der Beobachtungsvariablen) postuliert, wird im Gegensatz dazu bei wiederholten Messungen im Therapieverlauf eine möglichst große Veränderung der Meßwerte, d. h. eine Verringerung der Symptomatik, angestrebt. Andere testtheoretische Begründungen verlangt auch die neuartige Technik des individualisierten oder adaptiven Testens. Abhängig von ihrem Antwortverhalten bei vorausgehenden Testitems erhält eine Person einen Set von Items mit einer individuell angepaßten Schwierigkeitsstufe vorgelegt. Die beschränkten Anwendungsmöglichkeiten haben zum Teil ihren Grund in den formalen Unzulänglichkeiten des Modells. Kritikwürdig sind künstliche, psychologisch unzutreffende Annahmen der klassischen Testtheorie. Empirische Untersuchungen und Erfahrungen bei der Testapplikation widersprechen etwa den Axiomen, denen zufolge Meßfehler - wie sie z. B. durch «Testangst» oder durch bestimmte Anwortstile entstehen können - bei verschiedenen Testitems oder bei wiederholter Messung unabhängig voneinander sind und nicht mit dem «wahren Wert» korrelieren. Eine weitere unrealistische Voraussetzung macht die klassische Testtheorie, wenn sie Tests die Messung psychologischer Größen mindestens auf Intervallskalenniveau zutraut. Mit dieser apriorischen Annahme über die Art der Meßbarkeit bzw. Abbildbarkeit psychologischer Größen steht und fällt aber die Plausibilität abgeleiteter Konzepte wie Reliabilität und Validität sowie die Zulässigkeit statistischer Operationen, die die klassische Testtheorie gebraucht und braucht. Besondere Schwierigkeit bereitet in der klassischen Testtheorie die psychologische Interpretation des «wahren Werts». Zum einen beruht die Interpretationsschwierigkeit auf dem Widerspruch zwischen den verbalen Verlautbarungen und dem tatsächlichen Vorgehen der klassischen
Alternative Testroethodofogie - Fortschritte in der Diagnostik?
117
Testtheorie. Während sie suggeriert, daß der aus einem Test erschlossene «wahre Wert» eine fixe, psychologische Eigenschaft einer Person anzeigt, variiert diese «Eigenschaft» tatsächlich in Abhängigkeit der Personenstichprobe, an welcher der Test standardisiert wurde. Wegen dieser Populationsabkängigkeit der nach der klassischen Testtheorie bestimmten Test- und Personenparameter würde paradoxerweise, den suggerierten psychologischen Annahmen zuwiderlaufend, ein und dieselbe Testleistung eines Individuums je nach Eichstichprobe eine andere psychologische Merkmalsausprägung oder Eigenschaft repräsentieren können. Je nach Bezugspopulation würde einer Person also eine andere psychologische Identität zugeschrieben werden (diese von der klassischen Testtheorie ungewollt erzeugte psychologische Aussage wäre durchaus diskussionswürdig; sie entspricht allerdings überhaupt nicht den Intentionen des psychologischen Mainstream und dessen ahistorisch und naturalistisch verfaßter psychologischer Methodologie). Ein solcher paradoxer Effekt der klassischen Testtheorie impliziert, daß dem zentralen Konzept des «wahren Werts» - entgegen anderslautenden Beteuerungen - keine überzeugende oder konsistente psychologische Bedeutung zukommt. Zum anderen leidet die «Validität» klassisch testtheoretischer Aussagen darunter, daß die Axiome nicht - wie meßtheoretisch gefordert empirisch zu überprüfen sind. Es läßt sich bei den nach der klassischen Testtheorie konstruierten Tests nicht hinreichend prüfen, für welches psychologische Merkmal der geschätzte «wahre Wert» gilt. Wegen der unzulänglichen empirischen Verifizierbarkeit besteht denn auch, wie Kubinger (1988 b, S.276) dezidiert feststellt, bei den herkömmlichen psychodiagnostischen Verfahren die Gefahr, «ein Konglomerat von irgend etwas zu testen, ohne etwas Bestimmtes zu messen».
4.4 Alternative TestmethodologieFortschritte in der Diagnostik? Die Entwicklung sogenannter probabilistischer Testmodelle wurde in den vergangenen Jahren energisch vorangetrieben. Der Grund: Die psychodiagnostische Forschung erwartet von diesen Entwicklungen, sie würden die meßtheoretische Unzulänglichkeit der klassischen Testtheorie überwinden, könnten - eines Tages - psychologische Tests auf eine neue, solidere methodische Basis stellen und seien flexibel veränderbar, um der «Logik» des jeweiligen diagnostischen Verfahrens und dem jeweiligen Untersuchungsziel angepaßt werden zu können. Während die klassische Testtheorie latente Größen auf beobachtbare
1t8
Die «Vermessung» des Menschen
reduziert (die beobachtete Variable X ist gleich dem «wahren Wert» T, ergänzt um einen additiven Meßfehlerterm), besagt der «probabilistische» Charakter der so bezeichneten Modelle, daß vom beobachteten Verhalten einer Person, d.h. von ihren Testantworten, nur mit einer gewissen Wahrscheinlichkeit auf die interessierende, nicht beobachtbare Eigenschaft der Person geschlossen werden kann. Zwischen dem manifesten Verhalten und der latenten (psychologischen) Größe besteht demnach eine kategoriale Differenz. Im Prinzip muß deshalb ein Test bei der Konstruktion nicht nur formalmethodisch abgesichert werden; es ist außerdem eine inhaltliche Theorie vonnöten, die das Verhältnis zwischen dem latenten Merkmal und dem beobachtbaren Indikator klärt (operationale psychologische Definitionen in dem Sinne, daß etwa Intelligenz dasjenige sei, was der Intelligenztest messe, widersprechen ebenso wie der Rekurs auf den «praktischen Nutzen» theoretisch oder methodisch unzulänglicher Testverfahren grundsätzlich der Logik der probabilistischen Testmodelle). Fischer (1974, S. 148ff.) meint, die probabilistische Auffassung von Tests, der zufolge das Testverhalten nur Symptom oder Indikator der latenten Eigenschaft einer Person sei, entspräche bewährten psychologischen, speziell persönlichkeitstheoretischen Ansätzen besser als die Annahmen der klassischen Testtheorie: Die Psychologie wisse schon lange, daß vom manifesten Verhalten nicht unmittelbar auf ein dahinterstehendes Charaktermerkmal geschlossen werden dürfe, da das Verhalten einer Person auch von zufälligen, fluktuierenden Einflüssen und von den konkreten situativen Bedingungen (im Test: vom variierenden «Schwierigkeitsgrad» der Items) abhängig sei. Ein begnadeter Psychologe und Wissenschaftler braucht man indessen nicht zu sein, um zu der Einsicht zu gelangen, daß beispielsweise auch ein hochgradig dominanter Robinson sich in seiner Insel-Einsamkeit nicht dominant verhalten könnte - interessant ist eher, daß es komplizierter, probabilistischer Meßmodelle bedarf, um schlichte Alltagsweisheiten methodisch angemessen zu erfassen. 4.4.1 Gründzüge des Modells von Rasch Der von G. Rasch entwickelte probabilistische Ansatz fungiert als Grundlage für eine Reihe von Modellen, die spezielle Varianten oder Verallgemeinerungen des bereits 1960 der wissenschaftlichen Öffentlichkeit präsentierten «dichotomen logistischen Modells» sind (ein Überblick über die diversen Modellvarianten für Tests findet sich in Kubinger, 1988 a). Im folgenden werden nur die Hauptprinzipien und -begriffe des einfa-
Alternative Testroethodofogie - Fortschritte in der Diagnostik?
119
chen dichotomen logistischen Modells von Rasch dargestellt, das für Tests ohne Zeitbegrenzung und mit zwei Antwortkategorien (Richtig-/Falschoder Ja-/Nein-Antworten) konzipiert ist. a) Die logistische Funktion Das Rasch-Modell nutzt lediglich die Summe der gelösten Aufgaben eines Tests (bei nicht Leistungen erfassenden Tests gilt analog: die Summe der im Sinne des zu testenden Merkmals beantworteten Fragebogenitems) als Informationsquelle für die Schätzung des latenten Persönlichkeitsparameters £ der getesteten Person. In der Sprache des Modells: Die Summe der gelösten Aufgaben (der Testrohwert) ist eine erschöpfende Statistik für das Merkmal Damit man den Testrohwert zur Schätzung eines Persönlichkeitsmerkmals verwenden kann, müssen die Antworten auf die Testitems bestimmten Vorbedingungen genügen. Ausgangspunkt im Modell von Rasch ist die sogenannte logistische Funktion, die Annahmen über das Zustandekommen der Wahrscheinlichkeit macht, daß eine Person v ein behebiges Testitem i löst bzw. zustimmend beantwortet («+»): P (" + "/§v, öi = ^C-Ot
(Formel 20)
Die Wahrscheinlichkeit einer «richtigen» Beantwortung eines Items durch eine Person ist nach der Formel ausschließlich vom Personenparameter (im Vorgriff auf psychologische Interpretationen häufig als «Fähigkeits»- oder als «Eigenschaftsparameter» bezeichnet) und vom Aufgabenparameter Oi, der in Hinblick auf Leistungstests «AufgabenSchwierigkeit» genannt wird, abhängig (in der Funktion ist e eine Konstante, die transzendentale Zahl 2,718... ). In Formel 20 ist weiterhin zu erkennen, daß mit zunehmendem und abnehmenden Oi die Wahrscheinlichkeit steigt, daß eine Testaufgabe gelöst wird. Formel 20 kann dazu genutzt werden, für jedes Item eines Tests, abhängig von der Ausprägung des Personenparameters, eine Wahrscheinlichkeitsfunktion, die sogenannte Itemcharakteristik, zu bestimmen (vgl. Abbildung 11). Die Wahrscheinlichkeit der richtigen Beantwortung eines Items steigt, wie Abbildung 11 zeigt, mit dem Anwachsen des Personenparameters bzw., wie oft voreilig gesagt wird, mit steigender «Fähigkeit». Die Wahrscheinlichkeiten p = 0 und p = 1 stellen im Modell Grenzwerte dar, denen sich die Itemcharakteristiken asymptotisch nähern. Abbildung 11 ist ferner zu entnehmen, daß die Itemcharakteristiken bei Geltung des Rasch-Modells sich nicht überschneiden dürfen, sondern
120
Die «Vermessung» des Menschen
p("+"li)=i
P(" + "|1) = 0
I
Abbildung 11: Itemcharakteristiken dreier nach dem Rasch-Modell skalierter Testitems
parallel verlaufen müssen. Je seltener ein Item beantwortet/gelöst wird, um so weiter ist die Kurve des Items auf der Abszisse nach rechts verschoben; denn: schwer zu lösende Items werden wahrscheinlich erst von Personen mit relativ hoher Ausprägung des Personenparameters § gelöst. Der modellkonforme, parallele Verlauf der Itemcharakteristiken gewährleistet, daß die Items eines Tests homogen sind. Das bedeutet einerseits, daß die Lösungswahrscheinlichkeiten für die Items sich durch einen einzigen Parameter erklären lassen, daß die Items Indikatoren eines abgrenzbaren Merkmals sind. Andererseits müssen die Items dieselbe Trennschärfe haben (würde ein Item eine steilere Itemcharakteristik-Kurve aufweisen als die in der Abbildung berücksichtigten Items, würde dieses Item «besser» zwischen Personen mit ähnlicher Ausprägung des «Persönlichkeitsmerkmals» § diskriminieren, also eine größere Trennschärfe besitzen). b) Spezifische Objektivität, stichprobenunabhängige Parameterbestimmung Als besonderer Vorzug des Rasch-Modells wird hervorgehoben, daß es sogenannte spezifisch objektive Vergleiche gestattet. Spezifische Objektivität heißt, daß ein eindeutiger Vergleich zweier beliebiger Personen möglich ist, unabhängig davon, welche und wie viele modellkonforme Items (welche Itemstichprobe) eines Tests dafür verwendet werden. Genauso muß umgekehrt der Vergleich zweier Testitems in Hinblick auf ihre Aufgabenparameter o{ und Oj bei jeder Teilstichprobe aus der Personengruppe, bei der der Test eingesetzt wird, zu gleichen Ergebnissen führen. Diese Modelleigenschaft bringt den praktischen Vorteil mit sich, den Geltungsbereich eines Tests genau eingrenzen zu können. Im einfachen Fall zweier Items bleibt die Wahrscheinlichkeit, daß Item i gelöst («+»), Item j dagegen nicht gelöst («—») wird, für alle Personen mit unterschiedlichem Personenparameter 5 gleich:
Alternative Testroethodofogie - Fortschritte in der Diagnostik?
p (i = " + ", j = " - 7 | v , Oj, Gj) =
121
(Formel 21)
Formel 21 kommt zustande, wenn man die logistischen Funktionen (siehe Formel 20) für die beiden Items i und j heranzieht. Nach einfachen algebraischen Umformungen verschwindet auf der rechten Seite der Funktion (Formel 21) der in die logistischen Funktionen eingehende Personenparameter, der damit die Wahrscheinlichkeit des Antwortmusters für beide Items nicht beeinflußt. Diese vom Rasch-Modell postulierte Stichprobenunabhängigkeit bei der Parameterbestimmung kann bzw. muß empirisch überprüft werden. Die notwendige (wenn auch nicht hinreichende) Bedingung dafür, daß ein Test dieser Modellanforderung entspricht, ist gegeben, wenn die statistische Schätzung der Aufgabenparameter in Teilstichproben der fraglichen Population zu (annähernd) gleichen Ergebnissen führt. Andernfalls erfüllt ein Test nicht die Forderung des Rasch-Modells, ein abgrenzbares, «eindimensionales» Persönlichkeitsmerkmal zu messen. Unterschiedliche Ergebnisse bei der Modellkontrolle würden nämlich besagen, daß die Summe der gelösten bzw. gleichsinnig beantworteten Testitems, die «erschöpfende Statistik» im Rasch-Modell, in verschiedenen Teilstichproben nicht durch dasselbe Merkmal zustande kommt. 4.4.2 Vorzüge und Nachteile des Rasch-Modells Die (prinzipiell mögliche) empirische Verifizierbarkeit der Modellannahmen und die Erfüllung meßtheoretischer Kriterien machen das Plus des Ansatzes von Rasch (und anderer probabilistischer Ansätze) gegenüber der klassischen Testtheorie aus. Tests, die dem Rasch-Modell entsprechend entwickelt oder geprüft werden, müssen methodisch streng gefaßten Ansprüchen genügen. Gleichwohl ist das Rasch-Modell nicht frei von Widersprüchen und Unschärfen, die von Modell-Protagonisten bisweilen vernachlässigt werden und die deshalb Fehldeutungen und Mißverständnisse begünstigen. Beispielsweise ergibt sich aus der Logik des Modells, daß die Personenund Itemparameter auf Verhältnisskalenniveau meßbar sind. Dieses methodisch bedingte Qualitätsniveau der Messung impliziert, daß Aufgaben- und Personenparameter einen absoluten Nullpunkt besitzen und daß Verhältnisaussagen möglich sind wie « Der Personenparameter von v ist doppelt so groß wie der von Person w», oder «Parameter Oi von Item i ist hundertmal kleiner als der von Item j». Solche modellbedingt möglichen Aussagen sind für psychologische Tests irrelevant, sie lassen sich psychologisch nicht sinnvoll deuten. Es gibt keine seriöse psychologische
122
Die «Vermessung» des Menschen
Theorie, die zu Behauptungen berechtigen würde wie «Die Intelligenz von Otto N. ist absolut Null» oder «Theresa von Avila war lOmal mystischer als Johannes vom Kreuz», selbst wenn diese Aussagen durch nach dem Rasch-Modell konstruierte Tests für «Intelligenz» und «Mystizismus» zustande kämen. Weiterhin sollten die apriorisch festgelegten und mathematisch abgeleiteten Eigenschaften und Möglichkeiten des Rasch-Modells von der mit empirischen Schätzungen und Kontrollen tatsächlich erreichten Modellkonformität eines Tests klar unterschieden werden. Mit den bisher möglichen empirischen Kontrollen lassen sich keine völlig eindeutigen Modell-Test-Übereinstimmungen nachweisen. Fraglich ist beispielsweise, ob beim Schätzvorgang mit empirischen Testdaten die Aufgaben- und Personenparameter unabhängig voneinander erfaßt werden, so wie es das Rasch-Modell vorschreibt. Erstaunlich ist die Diskrepanz zwischen der wissenschaftlichen Anerkennung des Testmodells und seinem bisher zurückhaltenden Einsatz bei der Testkonstruktion und nachträglichen Testüberprüfung. Kubinger (1988 b, S. 271 f.) kann insgesamt nur fünf diagnostische Instrumente nennen, die nach dem Modell von Rasch erstellt wurden. Für die sparsame testpraktische Anwendung des Modells sind wohl vor allem folgende Gründe verantwortlich: - Der Testmarkt ist weitgehend gesättigt. Der praktisch arbeitende Psychodiagnostiker gibt sich mit den herkömmlichen, angeblich bewährten Tests zufrieden, zumal die methodisch verbesserten Verfahren nicht gleichzeitig eine qualitative Verbesserung der althergebrachten psychologischen Konzeptbildung versprechen können. - Das Rasch-Modell bringt neue Restriktionen für den Einsatz diagnostischer Verfahren mit sich. Dem Zugewinn an methodischer Qualität des Tests steht kein entsprechender praktischer Effekt gegenüber. Angesichts der Unwägbarkeiten und Handlungszwänge des psychologischen Berufsalltags grenzt die Verwendung genauer Meßverfahren ohnehin meist an Absurdität. - Die Nutzung des Modells für die Testkonstruktion steht für eine technische Perfektionierung und «Industrialisierung» der Testproduktion, die die Kluft zwischen Testkonstrukteuren und «Testanwendern» vergrößern und Vorbehalte gegen Tests, deren Konstruktionsprinzipien Anwender kaum noch durchschauen, aufkommen lassen könnten. Hinzu kommt, daß Befürworter des Testmodells von Rasch zur wichtigsten, zur inhaltlich-psychologischen Seite von Tests, zur Frage der sogenannten Validität, und darüber hinaus zur Frage sinnvoller psychologischer Merkmalsabstraktionen allenfalls ungereimte Äußerungen beisteuern (vgl. auch Michel & Conrad 1982, S. 33).
Meßtheorie - Testmodelle. Eine kritische Einschätzung
123
Zwar fordert das Modell eine eigenständige psychologische Theorie, postuliert einen unüberbrückbaren Hiatus zwischen formalen meßtheoretischen Aussagen und inhaltlichen Theorien über den potentiellen Gegenstand des Messens. Zugleich enthält das Modell jedoch implizite «psychologische» Vorannahmen (was auch die voreilige «psychologische» Terminologie bei der Parameterbezeichnung anzeigt), nämlich einfache eigenschaftspsychologische Vorstellungen, nach denen «objektives» (Test-) Verhalten auf innerpsychische Eigenheiten und Potenzen des Individuums zurückgeführt werden kann. Es verwundert aus diesem Grund nicht, daß Arbeiten mit dem Rasch-Modell sich denselben psychologischen Theorien bzw. Paradigmen andienen, wie es die klassische Testtheorie tat und tut. Eine psychologische Innovation, die diesen Namen verdiente, wäre erst erreicht, wenn die Erarbeitung und Anwendung probabilistischer Testmodelle mit einer expliziten (nicht bloß kosmetischen) Revision psychologischer Theorie einherginge. Es ist unwahrscheinlich, daß eine derartige Programmatik, die Entwicklung einer tatsächlich psychologischen Testtheorie, in Angriff genommen werden wird. Denn sie liefe nicht nur der vorherrschenden Arbeitsteilung in der Psychologie zuwider, sondern würde auch bedeuten, sich mit dem fragwürdigen Verwertungszusammenhang und mit der Objektivierungsgrenze auseinanderzusetzen, die den Meßoperationen in der Psychologie inhärent sind.
4.5 Meßtheorie-Testmodelle. Eine kritische Einschätzung Kritik an Theorien des Messens und Testens, die sich mit formalen, methodischen Aussagen begnügen, richtet sich im wesentlichen gegen die damit verbundene Ideologie, den Fortschritt, ja die Geschichte der Psychologie - unter Mißachtung der Besonderheit ihres «Gegenstandes» von der Objektivierbarkeit/Meßbarkeit psychologischer Merkmale abhängig zu machen, und gegen die den scheinbar neutralen, objektiven Meßinstrumenten innewohnende manipulatorische/technokratische Tendenz.
124
Die «Vermessung» des Menschen
4.5.1 Ideologie der Meßbarkeit Wenn wie hier (vgl. Abschnitt 4.2) von einem weiten Begriff des Messens ausgegangen wird, der das Klassifizieren und Ordnen von Objekten (= Messen auf Nominal- und Ordinalskalenniveau) umfaßt, erübrigt sich die in der Psychologie bisweilen zu schlicht gestellte Frage, ob psychologische und andere sozialwissenschaftlich relevante Merkmale überhaupt meßbar seien. Zweifellos lassen sich Individuen hinsichtlich zuvor abstrahierter (psychischer) Größen in Klassen einteilen oder in Rangreihen bringen, somit «messen». Solche auch im Alltagsleben geläufigen Klassifizierungen sind Ausgangspunkt und Ziel der Mainstream-Psychologie, die lediglich die Ungenauigkeit des alltäglichen «Messens» durch meßtheoretische Anleihen, durch Verfeinerung der Testmethodologie etc. beseitigen möchte. Der in der Renaissance revolutionären Aufforderung Galileis, «Miß, was meßbar ist, und was nicht meßbar ist, versuche meßbar zu machen» (zit. nach Gutjahr 1974, S. 30), fühlt sich der psychologische Mainstream nach wie vor verpflichtet. Denn das Ideal dieser Psychologie ist die Naturwissenschaft, speziell die Physik, der man seit dem 19. Jahrhundert nachzueifern versucht. Gefragt wird nicht, warum sich die Psychologie trotz aller Anstrengungen in dieser Richtung von ihrem naturwissenschaftlichen Vorbild noch sehr unterscheidet, ob sie vielleicht das falsche Ideal gewählt hat. Es wird auch kaum darüber nachgedacht, warum psychologischen Begriffen beim Meßvorgang gravierende semantische und pragmatische Einschränkungen und Verkürzungen widerfahren. Um die Psychologie in ihrer vorherrschenden Form bewahren und weiter fortschreiten lassen zu können, wird ignoriert, daß keineswegs mit einer Zunahme der Meßqualität auch der Erkenntnisgrad psychologischer Aussagen anwachsen muß. Die Erhöhung der Meßqualität bringt in der Regel eine Reihe spezieller Bedingungen und Restriktionen mit sich, denen die empirischen Objekte folgen müssen, soll dem Meßvorgang ein interpretierbares Ergebnis entnommen werden. Je hochwertiger eine Messung, um so mehr entfernt sich in der Psychologie der Inhalt der untersuchten «Variablen» vom ursprünglichen und konventionellen Verständnis dieser pychologischen Größe außerhalb des Meßvorganges. D. h., es wird durch die Messung ein psychologisches Artefakt geschaffen, das in der phänomenalen Welt kein Pendant besitzt, es wird eine neue Scheinwelt konstruiert. Da die phänomenale Welt, der Alltag, sowohl Ausgangspunkt als auch Ziel psychologischer Anstrengungen, auch der Messungen, ist, sind die per Messung geschaffenen Kunstprodukte nicht deutbar, ohne Bedeutung (zweifellos kann die
Meßtheorie - Testmodelle. Eine kritische Einschätzung
125
psychologische Forschung das Alltagsverständnis beeinflussen, wie das etwa bei der «Intelligenz» der Fall ist; aber auch hier bedurfte es eines Anstoßes von außen, der Suche nach einem neuen, zusätzlichen Kriterium zur Plazierung der Individuen in der revolutionierten Ökonomie und in der sozialen Hierarchie). In ihrem Bezug zur Alltagswelt unterscheidet sich die Psychologie von der Naturwissenschaft. Zwar entfernen sich auch naturwissenschaftliche Erkenntnisse mit dem Fortschritt der Forschung, mit der Verfeinerung der Meßapparaturen vom Alltagsverständnis der entsprechenden Phänomene. Solange diese Phänomene keine unmittelbare Bedeutung für die soziale Interaktion haben, außerhalb der alltäglichen Erfahrung angesiedelt sind, besitzt die jeweilige Naturwissenschaft das Interpretationsmonopol: Sie bestimmt, was als die (nicht unmittelbar erfahrbare) «Natur» anzusehen ist. Der chronische Biologismus, der Versuch, psychische Erscheinungen auf biochemische, hirnphysiologische Prozesse zu reduzieren, kann angesichts dieser Bedingungen beinahe als notwendig für einen psychologischen Mainstream gehalten werden, der Fortschritt mit Erhöhung der Meßqualität gleichsetzt. Nur durch den Bezug auf natürliche, biologische Vorgänge kann er erfolgreich das Interpretationsmonopol für die per Messung geschaffenen, im Alltag sonst bedeutungslosen psychologischen Kunstprodukte oder «Konstrukte» verteidigen. Die Kritik an der Ideologie der Meßbarkeit psychologischer Merkmale und der damit verbundenen Folgen ist selbstverständlich kein Plädoyer für ungenaues Messen (etwa für die Bevorzugung von Schulnoten gegenüber Intelligenztests als pädagogisches Selektionskriterium), wie das kritischen Kommentaren zu psychologischen Meßoperationen tendenziös unterstellt wird (vgl. Ingenkämp 1985, S. 257ff.). Vielmehr gilt es, die Ideologie der Meßbarkeit zu korrigieren, ihr ein (keineswegs neues) Paradigma gegenüberzustellen, das statt auf das «Erklären» auf das «Verstehen» setzt, das monomane Bemühen um quantative Vergleiche von Individuen durch qualitative Analysen ohne unmittelbare Verwertungs- oder Anwendungsintentionen ersetzt. Nicht daß durch das bloße Ersetzen alter durch neue, begrifflich unscharfe und mehrdeutige Strategien schon die Ideologieträchtigkeit der Psychologie aufgehoben wäre (man kann sogar, wie es Petermann 1988, S. 23, vorführt, die Kontroverse aufgreifen, ohne zu realisieren, was dabei des «Pudels Kern» ist). Sogenannte qualitative Methodologien, wie sie etwa von Oevermann entwickelt wurden (vgl. Oevermann u.a. 1979, zur Psychodiagnostik vgl. Jüttemann 1984), belegen immerhin, daß die herkömmlichen abstrakten psychologischen Begriffe und Verfahren äußerst ungenau sind, Erkenntnisse über soziales Handeln eher verhindern als ermöglichen.
126
Die «Vermessung» des Menschen
Die Psychologie erreicht also durch Meßoperationen den angestrebten Erkenntniszuwachs nicht, weil sie ihren Gegenstand und ihr implizites Ziel (nämlich Erkenntnisse übet konkrete Individuen zu liefern) verfehlt. Der Grund für dieses Versagen kann noch etwas genauer umschrieben werden. Was die Psychologie in Einklang mit dem Common sense vergißt, ist, daß die Annahme universeller Kategorien des Psychischen eine neuzeitliche Sichtweise darstellt. Wie sozialgeschichtliche Studien nahelegen, gewinnen psychologische Merkmalsabstraktionen und ein «psychologisiertes» Bild des Menschen im Okzident erst ab einer Epoche an Bedeutung, in der sich die Gesellschaft differenziert und zivilisiert und dem Individuum ein wachsendes Maß an Selbstkontrolle abverlangt (vgl. Elias 1977, S. 312ff.). Was der psychologische Mainstream als seinen unveränderlichen, universellen Gegenstand begreift - eine Veränderung wird nur in dessen fortschreitend genauerer Erkenntnis gesehen - , ist wie die Psychologie selbst Produkt eines historischen Prozesses. Die Idee und Ideologie «des berechenbaren Menschen» (Foucault 1977, S. 249) ist nicht Ergebnis eines bejubelten wissenschaftlichen Fortschritts, sondern entspringt opaken gesellschaftlichen Erfordernissen und Interessen. Was heute als psychologisches Merkmal und als Gegenstand der wissenschaftlichen Psychologie begriffen wird, sind Abstraktionen von gesellschaftlichen und interaktioneilen Prozessen, stereotype und autostereotype Attributionen, Ergebnis der Trennung von Individuum und Gesellschaft. Bei psychologischen Merkmalen handelt es sich somit nicht um natürliche Prozesse bzw. Konstanten; allenfalls kann man, wie es Revers aus geisteswissenschaftlicher Perspektive tut, davon sprechen, daß durch die Gleichsetzung psychologischer Wirklichkeit mit Meßbarkeit psychologische Merkmale , die «res cogitans», auf eine «res extensa» reduziert würden (Revers 1987, S. 76 f.). 4.5.2 Instrumentalisierung der Psyche Von den ideologisch bedingten Grenzen der Abstraktion und Meßbarkeit psychologischer Merkmale sollte nicht auf die Wirkungslosigkeit der vorherrschenden «vermessenden» Psychologie geschlossen werden. In den Worten Foucaults : «Das Individuum ist zweifellos dasfiktiveAtom einer ideologischen» Vorstellung der Gesellschaft; es ist aber auch eine Reali- • tät, die von der spezifischen Machttechnologie der produziert worden ist» (Foucault 1977, S. 249f.). Messungen, auch alltägliche Meßvorgänge, haben somit grundsätzlich die Funktion der Ermächtigung über ein Objekt, sind Voraussetzung für
Meßtheorie - Testmodelle. Eine kritische Einschätzung
127
die instrumenteile und manipulatorische Verfügung über die betreffenden Objekte (die Folgen dieses instrumentellen Umgangs der Naturwissenschaft mit der Natur sind in den letzten Jahrzehnten ins Zentrum der gesellschaftlichen Aufmerksamkeit gerückt). Instrumentelle Funktionen erfüllen auch psychologische Messungen mehr oder weniger gut. Welche ideologisch bedingten Verzerrungen und Verkürzungen das psychologische Meßinstrument erzeugt, scheint zwar nicht belanglos, aber von sekundärer Bedeutung zu sein. Wie am Beispiel der klassischen Testtheorie aufgezeigt wurde, genügt diese «Theorie» weder den Kriterien einer Meßtheorie noch dem Anspruch, eine (inhaltliche) psychologische Theorie des Testens zu sein. Trotzdem wird den danach konstruierten bzw. legitimierten Tests zu Recht Nützlichkeit bei praktischen Entscheidungen und Prognosen zugebilligt (vgl. z. B. Orth 1988, S. 239; Heidenreich 1987, S. 372). Tests sind nämlich weniger wegen «psychologisch valider» Aussagen nützlich, sondern weil sie einen Vergleich und eine Differenzierung von Individuen gestatten und damit die Basis für die instrumenteile Verfügung über diese bereiten. Die klassische Testtheorie muß nichts anderes leisten, als solche instrumentellen Prozesse formalmethodisch abzusichern und zu legitimieren. Auf solche technologischen Aufgaben sind auch die probabilistischen Ansätze wie das skizzierte Testmodell von Rasch zugeschnitten und durch ihr Festhalten an herkömmlichen psychologischen Konzepten beschränkt. Die Modelle beseitigen die offensichtlichen formalen Mängel der klassischen Testtheorie und enthalten Konstruktionsprinzipien für Tests, um Personalrekrutierung und -Selektion für beliebige Zwecke zu verfeinern. Daß die Kenntnis psychologischer Gesetzmäßigkeiten für das «vermessene» Individuum nützlich, unter Umständen überlebenswichtig sein kann, wird durch diese Ausführungen nicht bestritten. Hinweise auf spektakuläre individuelle Nutzeffekte von Testapplikationen oder auf Bemühungen, etwa durch berufsethische Standards den personengerechten Einsatz psychodiagnostischer Meßinstrumente sicherzustellen, sind jedoch eher geeignet, den ideologischen Charakter und die manipulatorischen/technokratischen Implikationen von psychologischen Meßoperationen zu verschleiern als zu verringern.
128
5Siegfried Grubitzsch
Konstruktion psychologischer Tests: Von der Fragestellung zur Normtabelle
5.1 Einleitung Psychologische Tests sind die instrumenteilen Resultate gesellschaftlich hervorgetriebener allgemeiner Prüf- und Entscheidungssituationen, deren Zwecke und Funktionen in ihnen sowohl inhaltlich wie konstruktiv ihren Niederschlag finden. Ihr wissenschaftlicher Anspruch auf der einen Seite in Verbindung mit der Wissenschaftsgläubigkeit auf der anderen (sowohl bei Testanwendern wie Betroffenen) resultiert vielerorts in der unhinterfragten Aussage, man wisse nun, wes Geistes Kind jemand sei, was einer Person gegenwärtige Befindlichkeit, ihr Wortschatz oder ihr Entwicklungsstand seien. Zumeist wird dabei verkannt, daß solche Schlußfolgerungen aus methodischen Gründen entweder gar nicht oder nur sehr bedingt möglich sind. Deswegen sollen in diesem Kapitel die konstruktiven Aspekte psychologischer Tests dargestellt und erörtert werden, um hinter ihrer scheinbaren wissenschaftlichen Exaktheit ihre Schwächstellen, ihre Mängel und Fragwürdigkeiten erkennbar werden zu lassen. An Tests wird der methodische Anspruch gestellt, von der Person des Testanwenders unabhängige Resultate zu erbringen, die die anvisierten «wirklichen» psychischen Eigenschaften des Getesteten in Form eines «wahren» Wertes wiedergeben. Weil dies nur wenige projektive Tests tun, werden sie in Theorie und Praxis zumeist als zu spekulativ abgelehnt und durch psychometrische Tests zu ersetzen versucht (vgl. dazu Stoll 1978; Poortinga 1982). Aufgrund dieser Tatsache und des hier zur Verfügung stehenden Raums werden wir uns im weiteren auf die Darstellung und Analyse der Konstruktionsprinzipien psychometrischer Tests beschränken (vgl. dazu auch die Testkurzanalysen zu einigen ausgewählten projektiven Verfahren, S. 529ff.).
Herstellung der Testvorform
129
5.2 Herstellung der Testvorform Soll ein Test konstruiert werden, muß bekannt sein, wozu. Erst aus der genauen Kenntnis und Analyse der Zwecksetzung eines Tests lassen sich jene psychischen Merkmale bzw. Merkmalsbereiche festlegen, die er erfassen soll. Ein Hochschuleingangstest, der der Auslese von Studienbewerbern für harte Numerus-clausus-Fächer dienen soll, wird notwendigerweise andere Verhaltensweisen abverlangen müssen als ein Test, durch den Aufschlüsse über die politische Einstellung von Arbeitern und ihre mögliche Streikbereitschaft in der nächsten Tarifrunde gewonnen werden sollen. Im Test werden jeweils solche Verhaltensweisen oder Bewußtseinsinhalte, Einstellungen oder Befindlichkeiten abgefragt, von denen anzunehmen ist, daß ihr Vorhandensein/Nichtvorhandensein ausschlaggebend für die Bewältigung/Nichtbewältigung gegenwärtiger/ künftiger situationsspezifischer Anforderungen ist. Der Studienbewerber soll z.B. Abstraktionsvermögen besitzen, um sein Studium erfolgreich abschließen zu können; die Arbeiterin soll Fingerfertigkeit und Verläßlichkeit nachweisen, der Kraftfahrer Übersicht in komplexen Verkehrssituationen etc. Ist der Verhaltensbereich umrissen, für den der zu konstruierende Test einmal gelten soll, und sind die bereichsspezifischen Anforderungen definiert, bedarf es «nur» noch einer Anzahl von Aufgaben (eines Aufgabenpools), die diese bereichsspezifischen Verhaltens- oder Erlebensweisen stellvertretend provozieren und aus deren Auftreten/Nichtauftreten die dahinterstehenden Fähigkeiten erschlossen werden können (vgl. u.a. Kapitel 8, S.263). Bei der Zusammenstellung solcher Aufgaben ist man zunächst an keine Regeln gebunden. Sie können aus einer bestimmten Theorie über das erfragte Merkmal abgeleitet und formuliert (z. B. leiten sich aus einer soziologischen Theorie der Aggression Fragen nach Vorurteilen gegenüber anderen Völkern ab, Einstellungen zu ethnischen Minderheiten wie Sinti, Behinderten etc.), aber auch aus Schulbüchern, anderen Tests oder aufgrund von Alltagsbeobachtungen oder Expertenbefragungen ausgewählt sein.* Hinweise zur praktischen Gestaltung finden sich bei Kleber (1978, S. 131) . Gleichwie, die Testitems beinhalten immer nur das, was sich dem Augenschein oder Denken des Testkonstrukteurs als das gesellschaftlich Übliche aufdrängt. Tests setzen damit an den herrschenden Werten und soziokulturellen Normen an z. B. an der durchschnittlich geforderten bzw. tatsächlich gezeigten Lei* Überlegungen darüber, welches die beste Aufgabenform ist (z. B. Auswahl einer richtigen aus mehreren falschen Antworten; freie Antwortmöglichkeit etc.), sind zum Verständnis des Gesamtzusammenhangs der Testkonstruktion nicht wichtig, weshalb sie hier vernachlässigt werden.
130
Konstruktion psychologischer Tests
stungsfähigkeit von Abiturienten und Abiturientinnen oder an den scheinbar geringeren Fähigkeiten von Frauen, technische Probleme zu lösen. Wenn in einem Test nach den Gemeinsamkeiten von Bagger, Traktor, LKW, Omnibus, PKW gefragt wird, ohne dabei unterschiedliche Voraussetzungen von Jungen und Mädchen zu bedenken, dann reproduzieren psychologische Tests gesellschaftliche Ist-Zustände - soziale Ungerechtigkeiten, individuelle oder geschlechtsspezifische Benachteiligungen, herrschende Organisationsformen, «Regelwissen» usw. anstatt zur Reflexion ihrer Ursachen und Veränderungsmöglichkeiten herauszufordern. Gleiches geschieht, wenn in der Testbatterie von Terman & Merrill (1960) sechsjährige Kinder danach befragt werden, wer von den abgebildeten Personen hübscher sei (siehe Abbildung 12).
Abbildung 12: Wer ist hübscher? (Entnommen aus der letzten Version des Stanford-Binet-Intelligenz-Test nach Terman & Merrill 1960; zit. nach Chorover 1982)
Daß solche herrschenden «Selbstverständlichkeiten» gewahrt werden sollen, zeigt ein Beispiel aus der Schweiz. Prüfungsmodi wurden geändert, um zu verhindern, daß mehr Mädchen aufgrund ihrer tatsächlich besseren Primarschulleistungen zur Sekundarstufe kamen als Jungen (siehe nachfolgenden Zeitungsausschnitt). Mädchen durften nicht klüger sein als die Knaben Im Kanton Waadt (Schweiz) kamen aufgrund besserer Leistungen mehr Mädchen als Jungen auf das «College». Die Schulbehörden aber meinten, auf eine Gleichverteilung hinarbeiten zu müssen. Deshalb setzten sie für jede Schule je nach Leistungsverteilung der Geschlechter ein eigenes Benotungssystem fest mit dem Ergebnis, daß begabtere Mädchen auf der Strecke blieben/Das Gericht entschied gegen die Notenkorrektur; vielleicht seien die «Demoiselles» ja wirklich begabter. (Frankfurter Rundschau 19.2.82)
Eine solche realitätsbezogene Leistungsmanipulation ist versuchsweise von Hackett, Holland, Pearlman & Thayer (1987) im Test simuliert wor-
Herstellung der Testvorform
131
den, indem sie Schwierigkeitsgrad und Aufgabeninhalt so gestalteten, daß sie Testwertdifferenzen zwischen schwarzen und weißen Prüflingen nach Belieben minimieren und maximieren konnten. Ein Sachverhalt, der in zurückliegenden Jahren sowohl in bezug auf Kinder unterschiedlicher sozialer Herkunft wie auch bezogen auf die Benachteiligung von ausländischen Kindern in unserem Bildungssystem unter dem Stichwort «Testfairness» erörtert wurde (vgl. Möbus 1987). Noch kaum gibt es diese Diskussion zur geschlechtsspezifischen Benachteiligung (s. S.324) von Frauen durch psychologische Tests (Landesinstitut Sozialforschungsstelle Dortmund 1983; Beere 1979). Die Itemkonstruktion ist diesbezüglich jedoch nur einer unter mehreren Faktoren, die die gesellschaftliche Diskriminierung von Frauen im Test fortschreiben. Bleiben wir bei den Testaufgaben, die in ihrer Gesamtheit (Aufgabenpool) zunächst zu einer sogenannten Testvorform zusammengestellt werden, die anschließend einer Stichprobe von Personen vorgegeben wird, welche nach Alter, Geschlecht, sozialer Herkunft etc. jener Personengruppe gleicht, für die die Testendform als Prüfverfahren einmal gedacht ist. Was diese bei der Bearbeitung der Prüfaufgaben zu tun oder zu lassen haben, wird in der Testinstruktion festgeschrieben. Sie enthält generelle (den gesamten Test betreffende), spezifische (aufgabengruppenbezogene) und (seltener) is/nze/anweisungen an die Testpersonen und das von diesen im Test erwartete Verhalten. 5.2.1 Exkurs: Stichprobenorganisation* Um eine repräsentative Stichprobe aus einer Grundgesamtheit (Population) auszuwählen, bedarf es besonderer Sorgfalt. Immerhin muß ja gewährleistet sein, daß die Stichprobe eine «Miniausgabe» der Population, gleichsam deren «Modell», darstellt. Nur wenn dies sichergestellt ist, kann das Testverhalten der Stichprobe stellvertretend für das Testverhalten der Grundgesamtheit (Population) betrachtet werden. Angenommen, ein Test soll den Wortschatz achtjähriger Kinder erfassen. In die Stichprobe sind aber durch eine Unachtsamkeit mehr Kinder aus sozial höheren Schichten aufgenommen worden, als ihrem tatsächlichen Anteil an der Grundgesamtheit der achtjährigen Kinder entspricht. Die Folge wäre vermutlich eine Erhöhung des durchschnittlichen Wortschatzes zugunsten der Kinder aus der sozialen Oberschicht und eine Benachteiligung von Kindern aus sozial niedrigeren Schichten. Auf die Prinzipien * Die mit «Exkurs» überschriebenen Unterkapitel dienen der Detailerläuterung und können beim ersten Lesen übersprungen werden.
132
Konstruktion psychologischer Tests
der Organisierung solcher Stichproben durch den Testkonstrukteur sollte ein Testanwender deshalb stets besonderes Augenmerk legen. Denn die Stichprobenorganisation entscheidet wesentlich darüber, ob einem Test überhaupt Aussagekraft in bezug auf eine Einzelperson - von der angenommen wird, sie entstamme der Grundgesamtheit, für die der Test konstruiert wurde - beigemessen werden kann. Über einige damit verbundene Probleme ist weiter unten (S. 149 und S. 171 ff.) nachzulesen (vgl. zur Stichprobenorganisation auch Lienert 1969; Selg & Bauer 1971; Starke & Ludwig 1975).
5.3 Aufgabenanalyse Ziel der Vorgabe der Testvorform an eine Stichprobe ist, durch eine Aufgabenanalyse jene Items herauszufinden, die für die mit dem Test verfolgten Zwecke am geeignetsten erscheinen. Deshalb ist es generell sinnvoll, von vornherein eine größere Anzahl (ein Mehr von etwa 20 % ) zu formulieren. Die Analyse beginnt damit, daß für jede Testperson (i) die Menge der von ihr richtig gelösten Aufgaben - bewertet mit einem Punkt - zum Testrohwert (xj) aufsummiert wird. Im Anschluß daran wird der Schwierigkeitsgrad jeder Aufgabe berechnet, dem zu entnehmen ist, wieviel Testpersonen die jeweilige Aufgabe richtig/falsch beantwortet haben. Die Analyse der Trennschärfe schließt sich an. Sie soll erbringen, ob ein einzelnes Item stets von jenen Testpersonen gelöst wird, die auch in der Testvorform insgesamt «gut» abgeschnitten haben, und von jenen Testpersonen nicht gelöst wird, deren Testrohwert (xi) niedrig ist. D.h., es wird überprüft, ob jede einzelne Testaufgabe - quasi als Minitest - in gleicher Weise wie der Gesamttest «fähige» von «unfähigen» Personen zu trennen bzw. zu unterscheiden vermag. Entsprechend bezeichnen manche Autoren die Schwierigkeitsanalyse als formalen Betrachtungsaspekt von Testaufgaben {«wieviel» Personen lösen ein Item?), während die Trennschärfe die inhaltliche Ebene der Aufgabenanalyse verkörpert («wer» löst ein Item?). Sodann wird auf der Grundlage dieser (gelegentlich auch zusätzlicher)* Aufgabenkennwerte eine empirisch begründete rationale Itemselektion durchgeführt. Testaufgaben, die beispielsweise zu schwer sind oder aber zu leicht, werden eliminiert, andere umformuliert oder an anderer Stelle im Test plaziert. Es empfiehlt sich in diesem Zusammenhang, ein besonderes Augenmerk auf nichtbeantwortete/ausge* Manchmal wird auch die Validität jeder einzelnen Testaufgabe als Kriterium bei ihrer Analyse berücksichtigt.
Aufgabenanalyse
133
lassene Items zu haben. Hier ist die Wahrscheinlichkeit von adressatenbezogenen Mißverständnissen (Nicht-Verstehen der Items) bzw. Unklarheiten relativ groß. 5.3.1 Schwierigkeitsgrad der Testaufgaben Durch die Analyse der Testitems sollen Anhaltspunkte für eine rationale Entscheidung über die Beibehaltung bzw. Streichung der Aufgaben der Testvorform gewonnen werden. Es liegt auf der Hand, daß nur solche Items Eingang finden werden, die dem verfolgten Ziel des Tests nicht zuwiderlaufen. Erfaßt werden sollen stets quantitative Unterschiede zwischen Personen oder Differenzen im Verhalten bzw. in den dahinterstehenden Fähigkeiten einer Person zu verschiedenen Zeitpunkten. Deshalb sind nur solche Testitems brauchbar, die weder von allen Personen noch von niemand gelöst werden. Denn solche Items lassen keinen Rückschluß auf die dem Lösungsverhalten unterstellten unterschiedlichen Fähigkeiten der Testpersonen zu, da sich ja alle Individuen scheinbar gleich verhalten haben. Der Schwierigkeitsgrad (ps) von Testaufgaben wird im einfachsten Fall als das Verhältnis der Anzahl der Richtig-Antworten (NR) zur Gesamtzahl N der befragten Probanden (N = Umfang der Analyse-Stichprobe), die die Aufgabe zu lösen versucht haben, bestimmt (Formel 22). (Formel22) Die Umkehrung des Wertes ps in (Formel 23) gibt über die Wahrscheinlichkeit Auskunft, mit der die Testaufgaben nicht gelöst wurden. Der ps-Wert ist um so größer, je einfacher (leichter) das betreffende Item ist; wenn es also von vielen Probanden gelöst wurde. Er ist um so niedriger, je schwieriger die Testaufgabe für die Individuen war.* Angenommen, die befragten Individuen verfügten - wie mit jeder Testkonstruktion unterstellt - tatsächlich über ein unterschiedliches Ausmaß jener Fähigkeiten, die zur Lösung eines bestimmten Items erforderlich wären. Weiter angenommen, niemand löse das Item, oder aber umge* Die Höhe des Schwierigkeitsgrades ist von der Population abhängig, für die der Test gelten soll. Ein Intelligenztest für elfjährige Kinder wird daher für Sonderschüler «schwer», für Gymnasiasten «leichter» zu bewältigen sein.
134
Konstruktion psychologischer Tests
kehrt, alle lösten das Item: Dann ermöglicht dieses Item keine Aussage über die unterschiedlichen Fähigkeiten der Probanden, weil es ausnahmslos von allen nicht beantwortet wurde/beantwortet wurde. Es ist nicht trennscharf. 5.3.2 Trennschärfe der Testaufgaben Von einem trennscharfen Item muß erwartet werden können, daß leistungsfähigere Personen die Aufgabe lösen, leistungsschwächere Personen dagegen nicht. Wird dieser einen Aufgabe eine zweite, dritte usw. zur Seite gestellt, so ist zu erwarten, daß jeweils die Probanden ein bestimmtes Item lösen, die auch im Gesamttest die meisten Aufgaben lösen. Der sogenannte Trennschärfe-Koeffizient bringt nun zum Ausdruck, ob die einzelne Testaufgabe wie der Gesamttest in der Lage ist, «leistungsfähigere» von «leistungsschwächeren» Individuen zu unterscheiden. In der Sprache der Teststatistik ausgedrückt, wird für jedes Item zwischen den richtigen Aufgabenantworten einerseits und den Testrohwerten andererseits ein Korrelationskoeffizient (vgl. weiter unteji S. 146.) - der sogenannte punktbiseriale Korrelationskoeffizient (pbis^it) - berechnet nach: (Formel24) In dieser Formel steht Xi für das arithmetische Mittel aller N Testrohwerte X;; xR für das arithmetische Mittel der Testrohwerte Xj derjenigen Probanden, die die betreffende Aufgabe beantwortet haben; sx für die Standardabweichung (mehr zum Begriff S. 140ff.) der Testrohwerte aller Individuen; ps gemäß Formel 22; qs gemäß Formel 23. Ein Rechenbeispiel dazu findet sich bei Lienert (1969, S. 94f.). Ein hoher Trennschärfe-Koeffizient besagt, daß das einzelne Item in gleicher Richtung wie der gesamte Test «gute» von «schlechten» Testpersonen trennt. Items mittlerer Schwierigkeitsgrade (sogenannte balancierte Items) besitzen die größte Trennschärfe, Items mit kleinem oder großem Schwierigkeitsgrad sind weniger trennscharf. Die folgende Abbildung 13 macht die Beziehung zwischen der Trennschärfe und dem Schwierigkeitsgrad von Testitems deutlich. Ist diese Beziehung für die konkreten Items einer Testvorform gra-
Aufgabenanatyse
135
1.0p
< &2
tc
o ^ o
0.5
Q'
c
'n O
p 2/°
o
w
o
o o
o
o o
o o
Ov o O °\°o o o °>N o o
O
O
°\
o^o o
o
\
o 4p
o
° V
°
+
4-h -h 40.5 1.0 Schwierigkeit Abbildung 13: Die Beziehung zwischen Trennschärfe und Schwierigkeit von Testitems. Die gestrichelte Linie stellt die parabolische Abhängigkeit in idealer Form dar.
-h
-h
H-
0
phisch dargestellt, läßt sich in Verbindung mit den entsprechenden rechnerischen Operationen entscheiden, welche Items im weiteren beibehalten und welche als ungeeignet für die Testendform ausgeschieden werden sollen (Aufgabenselektion).* Items mittleren Schwierigkeitsgrades, deren Trennschärfe am höchsten ist, werden beibehalten. Hier wie auch anderswo wird bereits deutlich, wie solche Test(item)kennwerte von der jeweiligen Population abhängig sind. Die gleichen Testaufgaben erhalten unterschiedlich hohe Schwierigkeitsgrade, wenn sie Mädchen oder Jungen, Mittelschichtkindern oder Slum-Kindern, Weißen oder Schwarzen vorgelegt werden. * Andere Methoden der rationalen Aufgabenselektion, die auf den Reliabilitätsund Validitätsindizes der Items basieren, beispielsweise die Gulliksen-Tecjinik, werden hier nicht aufgezeigt (vgl. dazu Lienert 1969, S. 19ff. und S. 155).
136
Konstruktion psychologischer Tests
5.3.3 Homogenitätsanalyse Nicht immer empfehlenswert, weil sehr zeitaufwendig, ist die Berechnung der Korrelationen zwischen einzelnen Testaufgaben (Item-Interkorrelationen). Hierbei wird jede Testaufgabe mit jeder anderen korreliert. Ihr geht die Frage voran, «wieweit beide Aufgaben den gleichen oder einen verschiedenen Aspekt des untersuchten Persönlichkeitsmerkmals erfassen» (Lienert 1969, S. 117). Homogene Tests weisen nur geringe Unterschiede zwischen den N(N - l)/2 Korrelationskoeffizienten auf. Um ein konkretes Beispiel zu nennen: Ein Test, der Wortschatz und rechnerisches Denken erfassen soll, wird sicherlich zwei Gruppen von Items enthalten, die innerhalb geringe, zueinander aber große Unterschiede in den Interkorrelationen zeigen. Hier setzen dann auch zur Analyse der Dimensionalität von Testverfahren Faktoren- oder C/wsteranalysen an. Entsprechend unterscheidet Lienert (1969, S. 119) zwischen heterogenen und homogenenTestverfahren. Letztere sollen «maximal trennscharfe und zugleich maximal homogene Aufgaben enthalten»; erstere besitzen bei maximaler Trennschärfe geringe Homogenität. Der Rechenaufwand ist gelegentlich ein Hinderungsgrund für Testkonstrukteure, diese Kennwerte zu ermitteln. Die Entscheidung über Verbleib öder Streichung einer Testaufgabe wird jedoch nicht nur aus der Aufgabenanalyse, sondern auch aus der Analyse der Häufigkeitsverteilung der Testrohwerte (xi) begründet.
5.4 Analyse der Häufigkeitsverteilung der Test(roh)werte Der Analyse der Häufigkeitsverteilung der Test(roh)werte kommt eine wesentliche Bedeutung im Rahmen der Testkonstruktion zu. Das hat vor allem zwei Gründe. Zum einen basieren alle wesentlichen klassischen Testkennwerte wie die noch zu besprechenden Testgütekriterien Gültigkeit, Zuverlässigkeit und Anwenderunabhängigkeit (Interpersonelle Übereinstimmung oder «Objektivität») auf spezifischen Annahmen über die Häufigkeitsverteilung der Test(roh)werte. Zum anderen wird in bezug auf die meisten psychischen Merkmale wie Intelligenz, Konzentration, Gedächtnis, Aggressivität etc. angenommen, sie verteilten sich normal. So wundert es nicht, wenn Lienert (1969, S. 171) schreibt: «Eine ausgezeichnete und erwünschte (Hervorhbg. S. G.) Verteilungsform unter diesen Möglichkeiten ist die der Normalverteilung» der Test(roh) werte.
Analyse der Häufigkeitsverteilung der Test(roh)werte
137
5.4.1 Exkurs: Normalverteilung, Mittelwert, Standardabweichung, Auftretenswahrscheinlichkeit Die Annahme über die Normalverteilung psychischer Merkmale hat ihren Ursprung in den Untersuchungen, die der Engländer Galton (vgl. oben, S. 69ff.) gegen Ende des 19. Jahrhunderts durchführte. Galton versuchte, die biologischen Evolutionsgesetze auf das Studium menschlicher Individuen und ihre intellektuellen Fähigkeiten, von deren Vererbung er überzeugt war, zu übertragen. «Mittelmäßigkeit... definiert den Standard der intellektuellen Kapazität... Daher rekrutiert sich die zurückgebliebene Bevölkerung aus der Mittelmäßigkeit». Hochbegabte sind «Wesen, die von Natur aus edel und überlegen sind, dazu geboren, Könige unter den Menschen zu sein!» (Galton 1869, zit. nach Liungman 1973, S. 17). Messen wir beispielsweise die Größe aller Menschen in der BRD, so werden wir finden, daß es nur wenige ganz kleine und wenige ganz lange, jedoch zahlreiche mittelgroße Menschen gibt. Aus dieser Tatsache leiten schließlich Autoren wie Kramer (1965) die Annahme her, daß sich psychische Merkmale ebenso verteilen: «Größe und Intensität aller somatischen und psychischen Eigenschaften und Fähigkeiten (!; S.G.) des Menschen, des Tieres und der Pflanze unterliegen hypothetisch der sogenannten biologischen Verteilung. Werden zum Beispiel alle Blätter eines Baumes nach ihrer Größe geordnet, so zeigt sich, daß von den kleinsten und größten am wenigsten vorhanden sind, von den mittleren am meisten» (Kramer 1965, S. 45). Stellen wir das graphisch dar, indem wir auf der X-Achse die Körpergröße, auf der Y-Achse die Häufigkeit (fj) abtragen, mit der die einzelnen Körpergrößen jeweils vorkommen, so ergibt sich eine Häufigkeitsverteilung wie in Abbildung 14. Denken wir uns über die Häufigkeitssäulen eine Verbindungslinie gezeichnet, so deckt die Fläche unter der so erstellten Kurve 100% der beobachteten Häufigkeiten ab. Der Mathematiker Gauß (1777-1855) hat die mathematischen Grundlagen dieser glockenförmigen Häufigkeitsverteilung erarbeitet und ihre charakteristischen B eschreibungsmerkmale benannt, weshalb sie auch Gaußsche Kurve, Gaußsche Fehlerkurve* oder Normalverteilung genannt wird. Gelegentlich wird in diesem Zusammenhang auch von der Galtonschen Regel gesprochen. Von ihrer Form her weist die Gaußsche Kurve drei wesentliche Charakteristika auf: Sie ist symmetrisch, hat nur einen Gipfel und steigt von beiden Seiten * Fehler ist hier allgemein im Sinne von «Nicht-Durchschnitt», also «Abweichung vom Durchschnitt», zu verstehen.
138
Konstruktion psychologischer Tests
Abbildung 14: Häufigkeitsverteilung der Körpergrößen
gleichmäßig gegen diesen Gipfel an. Und weiter folgert Kramer (1965), nachdem sie bereits von einem biologischen Gesetz spricht, das auch für den psychischen Bereich herzuleiten sei: es gibt ein durchschnittliches Individuum, von dem die anderen abweichen, also «fehlerhaft» sind (vgl. dazu auch oben, S. 69 ff.; 137). «Dieses biologische Verteilungsgesetz unci seine Darstellung in der Glockenkurve ermöglicht es, auch im psychischen Bereich zu bestimmen, was als mittlere, als unterdurchschnittliche und was als überdurchschnittliche Leistung zu gelten hat. Die Gaußsche Kurve stellt darum eine der wichtigsten mathematischen Grundlagen für die ganze Testpsychologie, insbesondere für die Eichung (Normierung) der Tests dar» (Kramer 1965, S. 47). Nun sind aber Intelligenz, Depressivität oder Schulleistung keine natürlichen, sondern von Menschen erdachte Sachverhalte, und der nach natürlichem Vorbild konstruierte Durchschnittsmensch ist eine gedankliche Fiktion. Woher aber kommt die Vorstellung, Intelligenz oder Persönlichkeitseigenschaften oder Fähigkeiten seien in der Bevölkerung exakt oder wenigstens annähernd normal verteilt? Simon (1971) stellt einige Gründe zusammen: Einmal wird von physikalischen Meßwerten, etwa der Körpergröße, geschlossen auf psychische Qualitäten; dann werden
Analyse der Häufigkeitsverteilung der Test(roh)werte
139
bestimmte psychophysiologische Leistungen herangezogen als Beleg : die Zahl der Wörter, die Kinder in der Minute schreiben können, die Zahl der klopfenden Bewegungen pro Minute und ähnliche Leistungen sind in der Regel normal verteilt. Warum also nicht auch die Intelligenz, lautet der anschließende Analogieschluß? Aber: es gibt andererseits physikalische Charakteristika - etwa Gewicht und Haarfarbe die nicht normal verteilt sind. Und: «Leistungstests sind keine kognitiven Tests, sondern solche der Muskel-Koordination und -kontrolle. Über die fundamentale Natur kognitiver und psychischer Prozesse durch Analogie mit physikalischen Charakteristika Schlüsse ziehen zu wollen ist ein sehr bedenkliches Unterfangen, weil das Gehirn und das höhere Nervensystem eine qualitativ andere Organisation der Materie sind, über deren Struktur und Funktion wir wenig wissen» (Simon 1971, S. 69). Die Annahme, daß eine undefinierbare Größe wie die Intelligenz auch noch normal verteilt ist, ist deshalb «ein Schuß ins Dunkle. Dennoch werden auf der Grundlage der Normalverteüung die weitreichendsten Schlußfolgerungen gezogen» (Simon 1971, S. 69). Denn jedermanns Alltagsverständnis demonstriert, daß es wenige «ganz intelligente», wenige «ganz dumme» und ganz viele «durchschnittlich intelligente» Personen gibt, und auch die Positionen in der Gesellschaft sind entsprechend aufgeteilt - der beste «Beleg» für eine normal verteilte Intelligenz (dem schon Galton, s. S. 137, aufgesessen war) und auch für die Normalverteilung anderer wichtiger Eigenschaften, Fähigkeiten usw. Kann die gesellschaftliche Struktur, kann das Bildungssystem aber, so fragt Simon weiter, etwas anderes als genau diese Verteilung produzieren? Die Ungleichverteilung der Intelligenz usw. ist u. a. ein Produkt der gesellschaftlichen Verhältnisse und ihrer Gesetzmäßigkeiten; die Normalverteilung aber ist ein Axiom der Testkonstrukteure, die damit in Wirklichkeit den Fakten Gewalt antun, aber das «Glück» haben, daß aufgrund der gesellschaftlichen Schicht- und Klassenstruktur der Augenschein ihrer willkürlichen mathematischen Voraussetzung recht gibt. Psychometrische Tests auf der Grundlage der klassischen Testtheorie (KTT) werden von vornherein so konstruiert, daß eine Normalverteilung entsteht - das ist eine mathematische Forderung an die Testkonstruktion - , die ihrerseits wiederum als Beleg für die Richtigkeit der zugrunde gelegten Annahme dient. Ein empirischer Zirkelschluß. Und noch ein Punkt ist wichtig: Wenn Intelligenz, psychische Merkmale allgemein, gar nicht exakt definiert werden können, wenn neben die Unsicherheit der Definition die der Repräsentation im Verhalten tritt, wenn dazu die Unsicherheit der Repräsentation der Repräsentation im Verhalten in den Aufgaben kommt - mit welcher Kühnheit wird dann
Konstruktion psychologischer Tests
140
eigentlich noch die Normalverteilung von Eigenschaften, Fähigkeiten usw. angenommen? Da die Meßobjekte nicht die Eigenschaften selbst, sondern die Verhaltensweisen sind, in denen sie sich äußern, muß deren Normalverteilung angenommen werden - eine Annahme, die stillschweigend vorausgesetzt und fast nie diskutiert wird, die aber unmöglich ist: Verhalten ist von so vielen und je nach Individuum derart unterschiedlichen Einflußgrößen (Störvariablen, wie der Testkonstrukteur sagt) situativer, interaktiver, kommunikativer Art mitgeprägt, daß kein angenommener Meßfehler zur Korrektur ausreicht und die Annahme einer Normalverteilung ins Absurde vorstößt. Wer wovon um wieviel abweicht, «entscheidet» also nicht der Abweichende selbst, sondern der gesellschaftlich definierte Durchschnitt - der immer ein Durchschnitt der Führungseliten und herrschenden sozialen Gruppen ist, die die gesellschaftliche Verfügungsgewalt über die Mittel haben, die der Definition der Abweichung dienlich und der Rechtfertigung der eigenen Herrschaft nützlich sind. Eine «Normal»verteilung kann sich aus mathematischer Sicht in zweierlei Hinsicht ändern.
(a)
(b)
Abbildung 15: Beispiele, die zeigen, daß zur Beschreibung einer Normalverteilung zwei Kennwerte angegeben werden müssen - einer zur Beschreibung ihrer Lage (Xi) und ein anderer zur Beschreibung ihrer Streuung (sx); (a) gleiche Streuung bei unterschiedlichem Mittelwert; (b) gleicher Mittelwert bei unterschiedlicher Streuung.
Sie kann unter Beibehaltung ihrer Form ihre Lage verändern, indem sie ihren Gipfelpunkt über einem anderen Xi-Wert errichtet (Abbildung 15 a). Sie kann aber auch unter Beibehaltung ihrer Lage ihre Form ändern, indem sie breiter oder schmaler wird (Abbildung 15 b). Schließlich können sich beide Beschreibungsmerkmale, nämlich Form und Lage, zugleich ändern. Abbildung 15a/b macht also deutlich, daß zur Beschreibung einer Gaußschen Glockenkurve sowohl der Mittelwert (x) als auch die Streuungsbreite (Standardabweichung s*) um diesen erforderlich
Analyse der Häufigkeitsverteilung der Test(roh)werte
141
sind. Denn die Verteilung kann sich im Hinblick auf diese beiden Merkmale verändern. Der Xi-Wert, über dem die größten Häufigkeiten liegen, der Gipfelpunkt der Kurve also, kennzeichnet das arithmetische Mittel x{ aller x r Werte. Es berechnet sich über die Summe (2) aller beobachteten Xi-Werte geteilt durch ihre Anzahl N (Umfang der Stichprobe): (Formel25) Ist dieser Mittelwert bestimmt, der die Lage der Häufigkeitsverteilung auf der X-Achse festlegt, läßt sich nun der zweite Kennwert berechnen, dem zu entnehmen ist, wie breit die einzelnen Xi-Werte um ihren gemeinsamen Mittelwert (x4) streuen. Zu diesem Zweck wird für jeden x r Wert der Abstand zum Mittelwert x{ errechnet (xj - Xj). So werden genausoviel Abstandswerte erhalten, wie x r Werte vorhanden sind. Für alle diese Abweichungen gilt es nun, den Durchschnitt zu berechnen, indem sie summiert und anschließend durch N - 1 dividiert werden. Da die Gaußsche Fehlerkurve symmetrisch ist und folglich genausoviel negative wie positive Abstandswerte zum Mittelwert erhalten werden, würde die Summe aller Abweichungen Null ergeben. Um dies zu verhindern, werden sämtliche Abstandswerte vor ihrer Aufsummierung quadriert und im Anschluß daran durch die um 1 verminderte Anzahl der Abstände («neue Meßwerte») dividiert. Erhalten wird so die Varianz (sx2) einer Stichprobe (bzw. Häufigkeitsverteilung) als die mittlere quadratische Abweichung aller Einzelwerte vom gemeinsamen (theoretischen) Mittelwert. 2_z(xi-xx)
N—1
2
(Formel 26)
Die Quadratwurzel aus der Varianz erbringt die Standardabweichung (Sx), jenen Streuungswert also, der das durchschnittliche Ausmaß der Unterschiede zwischen den Testwerten einer Stichprobe (z. B. Schulklasse, Fahrauffällige o. ä.) zu erkennen gibt. Oben (S. 137) hatten wir festgestellt, daß die Fläche unter der Gaußschen Normalverteilung sämtliche beobachtete Häufigkeiten abdeckt. Setzen wir die Fläche = 100%, so läßt sich aufgrund der Kenntnis der beiden Kennwerte X| und sx einer Stichprobe zwischen zwei beliebig angenommenen Xi-Werten präzise die Größe der eingegrenzten Flächen und damit die Prozentzahl der Häufigkeiten angeben, die theoretisch (oder auch empirisch) durch diesen Flächenabschnitt erfaßt bzw. abgedeckt werden (Abbildung 16). Trägt man vom Mittelwert X| aus nach links und rechts jeweils eine Standardabweichung ab, so schließt die über dem !ß ereich von ± lSx einge-
142
Konstruktion psychologischer Tests
x. Xi —1,0 Sx -2,0 Sx - 3 , 0 sx
68,26% +-+l,0sx 95,44% 99,73%
+2,0 Sx +3,0 sx
Abbildung 16: Prozentuale Häufigkeiten unter der Normalverteilung in Abhängigkeit von den Einheiten der Standardabweichung s x
grenzte Fläche 68,26 % aller beobachteten Häufigkeiten ab. Die Fläche X| ± 2sx umfaßt 95,44% aller beobachteten Messungen, und schließlich deckt die Fläche ± 3 sx = 99,73% der gesamten Beobachtungen ab. Dieser Gedankengang läßt sich nun umdrehen (vgl. Abbildung 17) in jene Erwartungswerte, mit denen gemeinhin «operiert» wird, wenn beispielsweise über die Verteilung der Intelligenz in der Bevölkerung oder einer entsprechenden Stichprobe «spekuliert» wird. Ist ein Persönlichkeits- oder ein Leistungstest nach den bislang angegebenen Schritten konstruiert und sind Mittelwert und Standardabweichung bekannt, wird erwartet, daß im Falle einer neuerlichen Testung einer repräsentativen Stichprobe ca. 34,13 % aller dann erhaltenen Xj-Werte zwischen dem Mittelwert Xi und der positiven Standardabweichung hegen. Werte, die zwi-* sehen x4 ± 1 sx liegen, sind mit einer Wahrscheinlichkeit von 68,26% zu erwarten. Anders formuliert: 68,26% aller beobachteten Häufigkeiten werden Beobachtungswerte der Größe zwischen xt ± lsx sein. Ebenso läßt sich die Auftretenswahrscheinlichkeit angeben von xrWerten zwischen^ ± 2sx (95,44%) und ^ ± 3 sx (99,73%). Drücken wir den Abstand eines beliebig angenommenen x r Wertes in Teilen von sx aus, so schließt der Bereich ^ +1.5 sx beispielsweise 40,93 % der gesamten Fläche, präzi-
Analyse der Häufigkeitsverteilung der Test(roh)werte
143
Abbildung 17: Erwartungswerte x, und die Wahrscheinlichkeiten ihres Auftretens
ser der beobachteten Häufigkeiten ein. Beobachtungswerte zwischen Xj + 1.96 sx sind mit 95%iger Wahrscheinlichkeit und Messungen, die zwischen Xi + 2.58 sx hegen, mit 99%iger Auftretenswahrscheinlichkeit zu erwarten. Nun hatten wir zu Beginn dieses Exkurses betont, daß der Normalverteilung ein besonderer Stellenwert im Rahmen der Teststatistik und Testkonstruktion zukommt. In der Regel werden nämlich die Testgütekriterien wie Reliabilität (Zuverlässigkeit) oder Validität (Gültigkeit) als sogenannte Produkt-Moment-Korrelationskoeffizienten angegeben, deren Berechnung (s. S. 146ff.) die Normalverteilung der beobachteten Test(roh)werte voraussetzt (vgl. oben S. 137ff.). Da sich die gesamte klassische Testtheorie zu einem erheblichen Teil die Methode der Produkt-Moment-Korrelation zunutze macht und zugleich auf dieser basiert, wird bei der Testkonstruktion zumeist angestrebt, eine Normalverteilung der Test(roh)werte zu erhalten. Die oben (s. S. 136) zitierte Aussage von Lienert (1969, S. 171) bestätigt dies. Angenommen nun, ein Test bestünde im wesentlichen aus Items mittlerer bis leichter Schwierigkeitsgrade, so verteilten sich die Test(roh)werte x{ nicht mehr normal. Sie verteilten sich vielmehr asymmetrisch rechtsgipflig (Abbildung 18a). Sie würden sich asymmetrisch linksgipfhg verteilen, wenn die Testaufgaben mittleren bis hohen Schwierigkeitsgrad aufwiesen (Abbildung 18b). Diese Anormalität der Verteilung läßt sich nun dadurch beseitigen, daß die zu einfachen oder zu schwierigen Items von geringer Trennschärfe
Konstruktion psychologischer Tests
144
Xj hoch
niedrig
(a)
(b)
Abbildung 18: Verteilungsformen, die aufgrund zu leichter oder zu schwieriger Testaufgaben zustande kommen; (a) rechtsgipflig asymmetrisch; (b) linksgipflig asymmetrisch
eliminiert bzw. ersetzt werden oder ihre Gewichtung bei der Punktvergabe verändert wird, um so eine Normalverteilung djer Beobachtungswerte zu erzielen. Eine Lehrerin, die nach Durchsicht der Klassenarbeit die Aufgabenbewertung ändert, weil zuviel gute und sehr gute Noten erhalten werden, folgt diesem Phantom aufs Wort. Genau dadurch aber wird die Mittelmäßigkeit der Probanden künstlich produziert, wird «die nivellierte Mittelstandsgesellschaft» im Test erst re-produziert. Die Normalverteilung der Test(roh)werte ist nicht eine Folge «in natura» normalverteilter menschlicher Fähigkeiten, Kenntnisse und Fertigkeiten, die durch die Testanwendung erst herausgefunden wird, sondern sie ist die Voraussetzung, ohne die bestimmte Teststatistiken in der klassischen Testkonstruktion gar nicht möglich wären (vgl. dazu auch Gutjahr 1971, S. 164ff.). Diese selbstgewählten Voraussetzungen-zustande gekommen durch die Gleichsetzung natürlicher (z. B. Körpergröße) mit psychischen Merkmalen (z. B. Intelligenz) - sind selbst von Psychologen und Testkonstrukteuren schon soweit verinnerlicht worden, daß bereits bestimmte psychische Merkmale von vornherein als unwesentlich angenommen werden, weil sie sich nicht normal verteilen würden. «Die Mehrheit der Persönlichkeitsforscher fordert aber, daß die Meßwerte derjenigen Individuen, die auf einer Variablen ihren Platz erhalten sollen, normal verteilt sind. Wollten wir alle Menschen auf einer Interessenskala für koreanische Schmetterlinge unterbringen, so würde sich sicherlich keine Normalverteilung ergeben... Beim üblichen Intelligenztest dürfte, aufs Ganze gesehen, eine Normalverteilung für (in Annäherung) alle Menschen zu erwarten sein» (Herrmann 1969, S. 133). Stern (1920) meint gar, dieses Gesetz empirisch bestätigt zu haben! Er schreibt: «Galton - und im Anschluß an ihn Pearson - hatten den Satz von der symmetrischen Normalverteilung der Intelligenzen als eine Art apriorisches Gesetz aufgestellt und aus ihm eine Einteilung der vorkommenden Begabungen in eine Reihe von Stufen mit bestimmten Häufigkeitsprozenten abgeleitet. Pearson hatte, dann diese Gliederung der Begabungsgrade durch eine experimentielle Erhebung zu stützen gesucht... Nunmehr liegt aber mit Hilfe
Analyse der Häufigkeitsverteilung der Test(roh)werte
145
der IP (Intelligenzprüfung; S. G.) eine empirische Bestätigung (sie!; S. G.) des Gesetzes vor... Der Nachweis dieser massenpsychologischen Gesetzmäßigkeit darf als das gewichtigste theoretische Ergebnis angesehen werden...» (S. 158 f.). Ein illustratives Beispiel zur Sache findet sich bei Terman (1916) hinsichtlich der ersten Version des Standford-Binet-Intelligenztests. Frauen erzielten bessere Resultate als Männer, und dies immerhin in einer Zeit, da Intelligenz als angeboren betrachtet wurde und zudem Frauen in den USA noch kein Wahlrecht hatten. «Terman und seine Kollegen», schreibt Chorover (1982, S. 86), «beschlossen deshalb, der Gesellschaft eine so peinliche Erkenntnis zu ersparen. Bei einer erneuten Durchsicht des Tests stellten sie fest, daß er gewisse Items enthielt, bei denen die Frauen durchweg tendenziell besser abschnitten; also sie eben den Test, indem sie (1) eine Reihe dieser Items strichen und (2) eine Reihe von Items, die eher Männern entgegenkamen, neu hinzufügten. Mit anderen Worten, der Test wurde , damit er Ergebnisse brachte, die mit den Vorurteilen der Tester im Einklang standen. So wurde zur Tatsache erhoben, daß Männer und Frauen gleichen Alters im Durchschnitt den gleichen IQ haben.» Wir halten fest: Die Normalverteilung ist eine willkürliche Annahme, ein «nützliches Dogma» (Vernon 1964, S. 285) der Testkonstruktion, «durch nichts begründet» (Itelson 1967, S. 133). Entsprechend wird bevorzugt gemessen, was sich auch normal verteilt, oder werden durch einen zirkulären Rückgriff auf die Aufgabenanalyse nicht normal verteilte Testwerte zu normal verteilten gemacht. Ist die Aufgabenanalyse abgeschlossen, liegt eine vorläufige Testendform vor, die erneut einer repräsentativen Stichprobe vorgelegt wird, um nunmehr festzustellen, ob der Test das anvisierte psychische Merkmal wirklich mißt (Gültigkeit), ob er es exakt mißt (Zuverlässigkeit) und schließlich, ob seine Meßwerte von der Person des Testanwenders unabhängig sind (Anwender-Unabhängigkeit oder interpersonelle Übereinstimmung). Mit der Benennung der Gültigkeit, der Zuverlässigkeit und der Anwender-Unabhängigkeit sind die wichtigsten Kriterien (Hauptkriterien) angesprochen, nach denen herkömmlicherweise die methodische Güte von psychologischen Tests beurteilt wird. Indem Kerlinger (1979) diese Anforderungen «regulative Zielideen» (1979, S. 406) nennt, bringt er bereits im Vorfeld sprachlich zum Ausdruck, daß methodischer Anspruch und Wirklichkeit zweierlei Dinge sind.
146
Konstruktion psychologischer Tests
5.5 Hauptkriterien der Testgüte 5.5.1 Validität (Gültigkeit) Was besagt die Frage, ob ein Test wirklich das psychische Merkmal mißt, das er anvisiert? Sehr einfach: Ein Schulreifetest muß auch tatsächlich Schulreife messen, und ein Test, von dem der/die Konstrukteur/in behauptet, er messe «soziale Einstellungen», muß auch tatsächlich diese und nicht etwa «Aufgabenverständnis» erfassen. Immerhin wäre ja denkbar, daß die Aufgabenformulierung derart kompliziert ist, daß die Lösung eines Items nicht an dem Nicht-Vorhandensein sozialer Einstellungen der Probanden «scheitert», sondern an der Art der Fragestellungen im Prüfverfahren. Dieser Sachverhalt begegnet uns im Alltag in Situationen, wo wir eine Frage einer Gesprächspartnerin (z. B. Prüferin) nicht verstehen, obwohl uns die Antwort darauf leichtgefallen wäre. Ein Test, der beispielsweise «Schulangst» oder irgendein anderes psychisches Merkmal zu messen vorgibt und dessen Resultate weitgehend mit den Schätzurteilen der Eltern und/oder Lehrer bezüglich der «Schulangst» dieser Kinder übereinstimmen, wird als gültiger (valider) Test bezeichnet. Der Begriff Gültigkeit (Validität) ist ein Oberbegriff für eine Reihe verschiedener spezifischer Gültigkeitsformen, deren Unterschied lediglich in der methodischen Vorgehensweise liegt, die zur Bestimmung der Validität gewählt wird. 5.5.1.1 Übereinstimmungsvalidität Eine besonders oft benutzte Validierungsmethode zeichnet sich dadurch aus, daß die erhobenen Testresultate einer Stichprobe von N Personen - z. B. von Schülern, Lehrlingen etc. - mit außerhalb des Tests liegenden Vergleichsdaten (Außenkriterium) hinsichtlich des gleichen psychischen Merkmals verglichen werden. Im günstigsten Falle müßten dann beide Meßwertreihen in der Weise übereinstimmen, daß die Individuen, die im Test die höchsten/niedrigsten Werte erhalten haben, auch in bezug auf das Außenkriterium die höchsten/niedrigsten Meßwerte erhalten haben. Das heißt, die beobachtete Häufigkeitsverteilung aller xrTestwerte (Prädiktorwerte) müßte (im Idealfall) gleich der Häufigkeitsverteüung der Kriteriumswerte (yO sein. Die so bestimmte Validität wird in der klassischen Testtheorie Übereinstimmungsvalidität (engl, concurrent validity) genannt und zumeist durch rtk (gelegentlich rtc) symbolisiert: r für Korrelationskoeffizient, t für Test und k (bzw. c) für Kriterium. 5.5.1.1.1 Exkurs: Korrelation Das Grundprinzip dieses statistischen Verfahrens besteht darin, den Grad des Zusammenhangs zwischen zwei
147
Hauptkriterien der Testgüte
(oder mehr) Meßwertreihen zu bestimmen. Im vorgenannten Beispiel enthält eine Meßwertreihe die Testwerte Xi für N Schüler aus dem Schulangst-Test (t), die andere Meßwertreihe gibt die Angstwerte (yt = k, Kriterium) wieder, die die Lehrer denselben N Schülern per Schätzung zugeschrieben haben. So liegen also für jeden Schüler zwei Meßwerte vor. Das statistische Verfahren der Korrelationsrechnung ermöglicht nun, das Ausmaß des Zusammenhangs zwischen diesen beiden N Meßwertpaaren zu bestimmen. Resultat dieser Rechnung ist der sogenannte Korrelationskoeffizient (rxy). Dieser Korrelationskoeffizient kann stets nur zwischen rxy = +1.00 und rxy = —1.00 schwanken. Der erste der beiden Werte besagt, daß - um im Beispiel zu bleiben - jene Schüler, die im Test die höchsten Angstwerte erhalten haben, auch laut Lehrerurteil als die schulängstlichsten Schüler gelten. Wer dort also den höchsten Wert bekommen hat, hat ihn hier auch. Wer dort den zweithöchsten Wert hat, hat ihn hier auch etc. Im Schaubild (Abbildung 19) stellt sich dies so dar:
t! © £ a S2
d*
P>
Ifi I j 3.3 •S
1 niedrig
hoch
Testwert Xj
Abbildung 19: Darstellung einer positiven Korrelation rxy = +1.00
Nun ist freilich auch gerade das Gegenteil denkbar. Hohe Angstwerte (xi) im Test sind jeweils mit niedrigen Schätzwerten (k = yO gepaart und umgekehrt (Abbildung 20). Tritt das eine Mal ein hoher Testwert x, mit einem niedrigen Schätzwert auf und ein anderes Mal nicht - läßt sich also keinerlei systematisches Miteinander-Vorkommen von Meßwertpaaren (xi/yi) feststellen, sondern herrscht völlige Regellosigkeit - , so stellt sich diese wie in Abbildung 21 dar. Je nachdem, welche Meßqualität bzw. welches Meßniveau die beobachteten Meßwerte haben (liegen also lediglich «Kleiner-größer-Relatio-
Konstruktion psychologischer Tests
148
V
O _J
J u
J
i L
niedrig
hoch
Testwert x{
Abbildung 20: Darstellung einer negativen Korrelation rxy = - 1 . 0 0
« 5
J
niedrig
i
i
hoch
Testwert Xi
Abbildung 21: Darstellung einer Null-Korrelation (fehlender korrelativer Zusammenhang) Txy = 0.00
nen» oder präzise metrische Größenangaben über eine Menge Objekte vor, vgl. Beitrag Walter, S. 109), müssen unterschiedliche Methoden für die Berechnung des Korrelationskoeffizienten angewendet werden. Das nach wie vor in der Teststatistik am häufigsten angewendete Korrelationsverfahren ist die Berechnung des Produkt-Moment-Korrelationskoeffizienten (rxy) nach Pearson-Bravais. Er darf allerdings nur dann berechnet werden, wenn die beiden Meßwertreihen in einem linearen Zusammen-
Hauptkriterien der Testgüte
149
hang stehen, jeweils annähernd normal verteilt sind, mindestens Intervallskalen-Niveau aufweisen und schließlich die Anzahl der beobachteten Fälle möglichst groß ist: N ^ 400 (nach Huber 1973, S. 104). Nur dann nämlich lassen sich die Fehleranteile (Stichprobenfehler) des Korrelationskoeffizienten vernachlässigen. Ein Gesichtspunkt, der bei der Auswertung und Beurteilung von Testergebnissen eine eminent wichtige Rolle spielt und trotz allem von Testkonstrukteuren zumeist ignoriert wird (vgl. weiter unten S. 171). Zur besseren Nachvollziehbarkeit der Berechnung eines Korrelationskoeffizienten rxy folgt ein Beispiel: Angenommen, von N = 30 Schülern lägen die Testwerte X| aus einem Schulangst-Test vor und zugleich die ermittelten Schätzurteile y{ von Lehrern bezüglich der Schulangst dieser N = 30 Schüler. Die folgende Tabelle 2 enthält diese Beobachtungsdaten (bereits ergänzt durch weitere Werte für die spätere Berechnung): Die graphische Darstellung (Abbildung 22) der Beispieldaten aus Tabelle 2 läßt einen positiven, wenngleich nur mittleren Zusammenhang zwischen den beiden Variablen X und Y vermuten.
10
o
Regressionslinie von o ^ —XaufY
o
o ö l 6 p
o 6
-*
^ o ^ - ^
^ j o t ^ o
o
•B 2 „
o
^o o
o
o
9
10
11
o
o
1 14
. 15
o
o o
o
7
8
. 12
. 13
W Test16 w e r t x i
Abbildung 22: Graphische Darstellung der Beispieldaten von N = 30 Schülern in einem Korrelationsdiagramm. Jeder Punkt repräsentiert darin ein Meßwertpaar
xj/yi. Will man wissen, wie groß der zu einem xrWert gehörige yrWert im Durchschnitt ist; will man also die yi-Werte aufgrund der Kenntnis um die Xi-Werte schätzen, dann geschieht dies mittels der Regression. Deshalb ist in Abbildung 22 zugleich die sogenannte Regressionslinie von Y auf X» (Vorhersage von yrWerten bei bekannten xrWerten) als jene Linie einge-
Konstruktion psychologischer Tests
150 Schüler
Xi
Yi
X*2
yi2
A B C D E ' ' F G H I J K L M N O P Q R S T U V W Ei Ä Ö Ü Sch St Au
10 11 14 14 9 8 8 12 11 12 13 13 12 11 12 15 15 10 11 10 13 14 12 11 10 12 11 14 12 9
5 7 8 9 6 7 4 7 7 8 6 10 7 8 10 10 8 6 6 5 7 9 8 9 8 5 6 8 7 5
100 121 196 196 81 64 64 144 121 144 169 169 144 121 144 225 225 100 121 100 169 196 144 121 100 144 121 196 144 81
25 49 64 81 36 49 16 49 49 64 36 100 49 64 100 100 64 36 36 25 49 81 64 81 64 25 36 64 49 25
50 77 112 126 54 56 32 84 77 96 78 130 84 88 120 150 120 60 66 50 91 126 96 99 80 60 66 112 84 45
349
216
4165
1630
2569
Summe
Xi-yi
Tabelle 2: Wiedergabe der Testwerte Xi aus einem Schulangst-Test für N = 30 Schüler und der Kriteriumswerte yi (Lehrerurteil). Zusätzlich enthält die Tabelle im Vorgriff bereits die für die Berechnung der Korrelation erforderlichen Zwischenwerte x , y ; und x{ y{.
strichelt, deren Abstand zu allen Punkten möglichst klein ist. Die Punktwerte auf der «Regressionslinie von Y auf X» geben die bestmögliche Vorhersage der Schätzwerte yi auf der Y-Achse aus den entsprechenden Werten auf der X-Achse an. Das tatsächliche quantitative Ausmaß dieses Zusammenhangs berechnet sich nach der bekannten Formel der Produkt-Moment-Korrelation:
Hauptkriterien der Testgüte
151
(Formel 27) >2 Rechenbeispiel: 56,2 46656 163030
S 8 * 64
= + .634
Was besagt nun der berechnete Maßkorrelationskoeffizient? Er beschreibt die Enge des Zusammenhangs zwischen den beiden beobachteten Variablen (also Veränderlichen): Testwert (X) und Schätzurteil der Lehrer (Y). Der Korrelationskoeffizient besagt nicht, daß die Xi-Werte die yi-Werte verursachen oder umgekehrt. Eine solche Interpretation ist unzulässig und falsch.* Bestenfalls erlaubt er eine Aussage über die Häufigkeit des Miteinander-Vorkommens der beobachteten Meßwertpaare. Völlig falsch ist es, rxy als Prozentzahl zu deuten. Der Koeffizient besagt nicht, daß die Werte beider Variablen - entsprechend unserem Beispiel in 0.634 • 100 = 63,4 Prozent übereinstimmen. Anders ist es mit dem quadrierten Korrelationskoeffizienten (r2 xy), dem sogenannten Determinationskoeffizienten (D).** Er ermöglicht eine Aussage darüber, wieviel Prozent der Varianz der y r Wert durch die Varianz der Xi-Werte vorausbestimmt sind und umgekehrt. Für unser Beispiel ergibt sich ein Determinationskoeffizient von D = (0.634) = 0.402. Danach sind 40 % der Streuung der yrSchätzwerte aus der Veränderung der Schulangst-Testwerte (xj) durch lineare Regression bestimmbar. Diese Aussage basiert auf der Überlegung, daß ja im Fall einer nicht-idealen Korrelation zu jedem Xj-Wert mehrere yi-Werte vorge* Welche Bedeutsamkeit bzw. welcher Stellenwert einem spezifischen Korrelationskoeffizienten zukommt - ob er hoch oder niedrig, erwartet oder unerwartet ist ergibt die sogenannte Signifikanzprüfung von Korrelationskoeffizienten. Auf deren Darstellung müssen wir hier verzichten. Grundsätzlich erbringt sie, ob ein Korrelationskoeffizient «per Zufall», d. h. durch Aufeinandertreffen mehrerer glücklicher Umstände zustande gekommen ist oder in annähernd gleicher Höhe immer wieder erhalten werden würde, wenn eine gleiche Untersuchung an unendlich vielen neuen Stichproben aus der gleichen Grundgesamtheit durchgeführt würde. ** Gelegentlich wird dieses Maß auch Bestimmtheitsmaß genannt (Weber 1976, S. 360f.).
152
Konstruktion psychologischer Tests
funden werden. Welcher ist aber dann der zu dem jeweiligen x,-Wert wirklich paarige? Die Abbildung 23 verdeutlicht dieses Problem.
o
Regressionslinie von —Y auf X
Test15
lT
wertXi
x2 Abbildung 23: Darstellung der Unsicherheit, von einem Xj-Wert einen und nur einen yi-Wert vorherzusagen, wenn die Korrelation kleiner als rxy = 1.00 ist. Das Beispiel ist am Wert x2 wiederholt.
Demnach lassen sich sichere Aussagen über einen Schüler (dessen Testwert Xj bekannt ist und dessen Schulangst beispielsweise vorhergesagt werden soll) nicht machen, wenn keine ideale Korrelation vorliegt. Zum Wert xx finden sich drei y r Werte. Welcher ist der richtige? Der Mittelwert yi der verschiedenen y r Werte ist der Wert, der am wahrscheinlichsteh zum beobachteten Xi-Wert gehört, alle anderen y r Werte (ausgedrückt durch die Varianz bzw. Standardabweichung der y r Werte) variieren mehr oder weniger stark um ihren gemeinsamen Mittelwert. Je kleiner diese Varianz ist, um so präziser läßt sich folglich jeweils der zu einem Xi-Wert gehörige y r Wert voraussagen. Das bedeutet zugleich einen hohen Korrelationskoeffizienten. Ist die Varianz über alle zu einem besonderen x r Wert gehörigen y r Werte gleich Null, so liegt eine ideale Korrelation von (rxy = + 1.00) vor. Die gleiche Überlegung gilt nun freilich nicht nur für die zu einem Xi-Wert gehörigen yrWerte. Sie gilt ebenso für die übrigen yi-Werte, die jeweils einem besonderen Xi-Wert zuzuordnen sind. Eine, andere Maßzahl, die aus dem Korrelationskoeffizienten (rxy) ableitbar ist, ist der Schätzungseffekt (E). E = 100(1 - Vi — r 2 ) (Formel28) Er gibt an, um wieviel Prozent weniger Fehler bei der Vorhersage von
Hauptkriterien der Testgüte
153
den Testdaten auf das Lehrerurteil unterlaufen, wenn die Korrelation von Test und Lehrerurteil bekannt ist. Um am Beispiel zu bleiben: E = 100 (1 - VI " 0.402) = 22,70% Demnach beträgt der relative Verlust an Unsicherheit aufgrund der Kenntnis um die Korrelation 22,7%. Einer bei Hofstätter & Wendt (1966, S. 180) abgedruckten Tabelle ist zu entnehmen, wie der Schätzungseffekt (E) bei zunehmenden Korrelationskoeffizienten steigt (Tabelle 3). rxy
E%
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.86 0.90 1.00
0.00 0.50 2.02 4.61 8.35 13.40 20.00 28.59 40.00 50.00 56.41 100.00
Tabelle 3: Die Höhe des Schätzungseffektes in Abhängigkeit von rxy
Gehen wir einmal davon aus, daß Korrelationskoeffizienten in der Testpraxis üblicherweise bestenfalls zwischen 0.50 ^ rxy ^ 0.70 liegen (s. weiter unten S. 162), so weisen die dazugehörigen Schätzungseffekte Größen zwischen 13% und 30% (sie!) auf. Um diesen Betrag also wird die Auslese von Schülern beispielsweise besser, wenn der Zusammenhang zwischen Test und Kriterium bekannt wäre. Nun raten ja auch Lehrer nicht blind, wenn sie z. B. einen Schüler für die höhere Schule oder die Sonderschule empfehlen und ihre Empfehlung aufgrund oft langjähriger Schülerbeobachtung aussprechen. D.h., auch bei ihnen ist ein gewisser Schätzungseffekt durch Erfahrung anzunehmen. Dadurch wird aber die Bedeutung von Tests, deren Validität z. B. rxy = 0.50 beträgt, noch weiter herabgesetzt (vgl. Frenz, Krüger & Tröger 1973, S. 92). 5.5.1.2 Vorhersagevalidität (Prädiktive Validität) Während bei der Übereinstimmungsvalidität Testwerte und Kriteriumswerte etwa gleichzeitig erfaßt werden, wird bei der Bestimmung der Vorhersagevalidität (prognostische Gültigkeit, engl, predictive validity) erst hinterher überprüft, ob die aufgrund der Testresultate gehegten Erwartungen tatsäch-
154
Konstruktion psychologischer Tests
lieh eingetreten sind. Zum Beispiel wird ein Schulleistungstest dadurch validiert, daß am Ende der Schulzeit festgestellt wird, ob diejenigen Schüler, die im Test am besten abgeschnitten haben, auch die Schule mit dem größten Erfolg durchlaufen haben. Ähnliches ließe sich mit den «Mediziner-Tests» praktizieren. Und wieder wird ein rtk berechnet, der den korrelativen Zusammenhang zwischen Test und Kriterium quantitativ zum Ausdruck bringt. 5.5.1.2.1 Zwischenbemerkung Übereinstimmungsvalidität und Vorhersagevalidität werden auch gemeinsam unter dem Begriff KriteriumsvdXidität gefaßt, denn beide machen sich die Korrelation mit einem Außenkriterium zunutze. Mit welchem aber? Von was beispielsweise hängt der künftige Berufserfolg ab? (Vgl. die Überlegungen im Beitrag von Hanft zur betrieblichen Eignungsuntersuchung, S. 263ff.). Von der Intelligenz einer Bewerberin, ihrem Durchsetzungsvermögen oder ihrem Fleiß? Oder der Schulerfolg - woran läßt sich überprüfen, ob ein Test wirklich Schulerfolg mißt? Der Schulerfolg ist eine unendlich komplexe Größe, in die Sozialisationsbedingungen und -erfahrungen, akute Probleme und Schwierigkeiten, Verhalten und Vorurteile wie didaktische und inhaltliche Fähigkeiten des Lehrers, Klassengröße und viele andere Determinanten eingehen. Ähnliches gilt, wenn das Urteil von Lehrern über die Intelligenz von Kindern zur Validierung von Intelligenztests herangezogen wird - die Unzuverlässigkeit und vielfaktorelle Abhängigkeit von Lehrerurteilen ist ja schon sprichwörtlich (vgl. Simon 1971, S. 73 f.). Die Validierung eines psychologischen Tests an einem Außenkriterium setzt voraus, daß die Kriteriumswerte ihrerseits valide sind. Immerhin könnten ja die Urteile eines Lehrers über die Intelligenz seiner Schüler und Schülerinnen eher für das größere und geringere Selbstbewußtsein der Schüler als ihre tatsächliche Schulangst sprechen. Eine Überprüfung der Validität des Außenkriteriums ist also notwendig. Validieren woran? An einem anderen Kriterium. Und woran dieses? Dies mündet ein in einen «unendlichen Regreß», wie er visualisierbar ist in der Gegenüberstellung zweier Spiegel. Die Validierung eines Kriteriums bedarf der Validierung des Kriteriums bedarf der Validierung des Kriteriums usw. usf. Die Mehrzahl der Testautoren unterstellt in der Regel Genauigkeit und vor allem Gültigkeit des Außenkriteriums. Sie messen beispielsweise die Intelligenz von Kindern und validieren diesen ihren Intelligenztest am Schulerfolg. Woher aber nehmen sie die Gewißheit, daß Schulerfolg wirklich etwas mit Intelligenz und nichts mit «Dem Lehrer nach dem Munde reden und schön brav sitzen» zu tun hat? Möglicherweise mißt ja auch der Intelligenztest nur Anpassungsfähigkeit und korreliert deshalb mit dem Schulerfolg, nicht aber weil beide etwas mit Intelligenz zu tun haben. Und
155
Hauptkriterien der Testgüte
obwohl die Redewendung von'der Intelligenz, die stets das sei, was der Intelligenztest messe, in aller Expertenmunde ist, korrelieren die Testkonstrukteure ihre Verfahren mit denen anderer, als hätten sie noch nichts von Äpfeln und Birnen gehört. Die folgende Abbildung 24 spricht diesbezüglich Bände. Vorliegende Intelligenztests wurden daraufhin durchgesehen, an welchen anderen Intelligenztests ihre Übereinstimmungsvalidität überprüft wurde (Grubitzsch 1984).
SASKA BT 2-3 WBT10+
BT 1-2 —
^MDA 10+
AIM—"J^SPM
/
\ HAWIK
WIP
TBGB
FRT HYGIT
FAT 4-6
7
' B-T-S Kramer-Test
/
/
\
L-P-S
FAT 7-8 ^ SABET 8+
SON
Testreihen zur Prüfung von Schweizer Kindern
Abbildung 24: Graphik zu Validitätsprüfungen (Übereinstimmungsvaliditäten) von Intelligenztests an anderen Intelligenztests nach Grubitzsch (1984, S. 106) ; (Testnamen und -abkürzungen im Sachregister)
Die Graphik macht zirkuläre Gültigkeitsbestimmungen sichtbar. Der Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK) beispielsweise wurde am Stanford-Binet-Test überprüft (für den nach Brickenkamp 1975; 1983 keine Validitätsdaten vorliegen) und an seiner Erwachsenenform (!), dem HAWIE. Der Bildertest BT 1 - 2 wurde am Bildertest 2-3, beide aber am HAWIK überprüft. Der Kramer-Test wurde am Stanford-BinetTest validiert und auch am HAWIK, dessen Ergebnisse ja mit dem Stanford-Binet-Test korreliert worden waren, ohne dessen Validität zu kennen. So gesehen geben die hier angesprochenen Validitätsstudien oder besser gesagt das, was man dafür hält, bestenfalls Aufschluß über gleichgerichtete Testwerte, nicht jedoch darüber, was die Tests wirklich messen.
156
Konstruktion psychologischer Tests
5.5.1.3 Inhaltsgültigkelt Es gibt eine ganze Reihe von Tests, deren Aufgabeninhalt keinen Zweifel darüber läßt, was durch den Test erfaßt wird. Zum B eispiel erübrigt es sich bei einem Test zur Erfassung der Additionsfähigkeit, die Validität zu überprüfen, wenn seine Aufgaben ausschließlich das Zusammenzählen von Zahlen abverlangen. Gleiches gilt für einen Schulleistungstest in Geographie, dessen Items geographische Kenntnisse abfragen. In solchen Fällen stimmt also der Inhalt der Testaufgabe anscheinend mit dem Testzweck selbst überein. Deshalb wird hier von der Inhaltsgültigkeit (logische Validität) gesprochen in Anlehnung an Cronbach & Meehl (1955), die erstmals die Bezeichnung «content-validity» benutzten. Ein Koeffizient für diese Form der Validität läßt sich nicht berechnen. Zur groben Orientierung wird bei solchen Tests deshalb ersatzweise der Reliabilitätskoeffizient herangezogen (vgl. Lienert 1969, S.313). Genausowenig läßt sich eine scharfe Grenzziehung vornehmen, ab wann aus dem Inhalt der Aufgaben des Tests per Augenschein nicht mehr auf seinen Gültigkeitsbereich zu schließen ist. Dieterich (1973, S. 100) empfiehlt, von inhaltlicher Validität nur dann zu sprechen, wenn ein Test oder Prüfverfahren einen psychischen Merkmalsbereich in seinem gesamten Bedeutungsumfang erfaßt, und dies meint: alle an «Einzelgegenständen feststellbaren relevanten Attribute, die gemäß der terminologischen Vereinbarung die Zugehörigkeit der Gegenstände zu einer Gegenstandsklasse festlegen» (Dieterich 1973, S. 99). Dies verweist auf ein gesondertes Problem, für dessen begriffliche Identifizierung der gleiche Autor von «repräsentativer Validität» spricht. Ein Vokabeltest oder auch ein Geographie-Test enthält ja nicht alle im Unterricht behandelten Vokabeln oder beispielsweise Hauptstädte der Welt; er ist nicht erschöpfend. Vielmehr stellt er eine Stichprobe ungeklärter Repräsentativität aus dem Bedeutungsumfang «Fremdsprache» oder «geographisches Wissen» dar. Zu fordern bleibt aber, «daß der Test das Merkmal, das er erfassen soll, in seinem gesamten Bedeutungsumfang oder in einem repräsentativen Ausschnitt abbildet» (Dieterich 1973, S. 101). Über dieses Verhältnis läßt sich aber mit Sicherheit keine präzise Aussage machen, so daß letztlich in der Praxis Augenschein und Erfahrung den Ausschlag geben. 5.5.1.4 Konstruktvalidftät Menschliches Verhalten und Erleben sind außerordentlich komplexe Sachverhalte, ganz zu schweigen von der Persönlichkeit. Was ist «Fahrtüchtigkeit», was Angst? Angst mündet in Träume ein, schlägt sich in der Sprache nieder, blockiert das Gedächtnis, wird bei Jungen ungern gesehen, bewirkt körperliche Symptombildung (Magenschmerzen, Schweißausbruch) oder lähmt geistige Kapazitäten. Auch die Kindererziehung ist von Fall zu Fall davon beeinflußt, und das
Hauptkriterien der Testgüte
157
berufliche Fortkommen kann erheblich durch permanente Angstzustände beeinträchtigt werden. Angst beflügelt aber auch, läßt einen schneller laufen oder reagieren, erhöht die Konzentration usw. Die vielfältigen (Wechsel-) Beziehungen zwischen solchen psychischen, körperlichen, geistigen, emotionalen, sozialen, ökonomischen, geschlechtsspezifischen Merkmalen oder Merkmalsbereichen umfassen das menschliche Dasein in seiner unauflösbaren und faktisch nicht reduzierbaren Ganzheit, a) «Sonderschulbedürftigkeit», b) «Verwahrlosung», c) «Fahrtüchtigkeit» sind Begrifflichkeiten zur Beschreibung entsprechender Teilganzheiten. Sie zu erhellen genügt nicht nur die Kenntnis um das a) Lehrerurteil, den b) Gebrauch der Autohupe oder das c) häufige Weglaufen von zu Hause. Der Bedeutungsumfang ist größer; ihn zu umschreiben bedarf es vieler Prädikatoren (Merkmalsbenennungen). Auf eine kurze Formel gebracht, meint dies: Selbst noch die einfachste Verhaltensweise ist so komplex, daß' für ihre testpsychologisch gültige Erfassung nicht nur ein Prädikator ausreicht, sondern ein ganzer Merkmalskomplex mit möglichen gegenseitigen Abhängigkeiten und wechselseitigen Beziehungen gedacht werden muß, um die betreffende Verhaltensweise erschöpfend zu charakterisieren. Für die Annahme eines solchen Merkmalskomplexes ist der fKonstrukt-Bcgrifi eingeführt worden (McCorquodale & Meehl 1948). «Fahrtüchtigkeit» oder «Intelligenz» etc. sind solche Konstrukte, deren Prädikatoren nicht immer alle bekannt sind. Dann müssen an ihrer Statt andere Anhaltspunkte gewählt werden: beispielsweise statt subjektiver Sicherheit beim Fahren oder Erfolg an der Sonderschule eine Befragung der gelegentlichen Mitfahrer oder im anderen Fall des ehemaligen Regelschullehrers. Gelegentlich sind weitere Prädikatoren noch unbekannt und werden erst im Laufe des weiteren Forschungsprozesses sichtbar, weshalb sie vorerst zur Erhellung etwa des Konstrukts «Fahrtüchtigkeit» nicht berücksichtigt werden können. So wird nach und nach ein «nomologisches Netz» (Feigl 1958) von Prädikatoren und ihren empirischen Beziehungen geknüpft, das über den tatsächlichen Bedeutungsumfang des jeweiligen Konstrukts Aufschluß gibt. Was wir über dieses dann wissen, ist folglich stets weniger als die für seine umfängliche Erklärung notwendige und gewünschte Bedeutung. Das macht dann eben das «surplus-meaning» eines hypothetischen Konstrukts aus, welches alle denkbaren Prädikatoren eines Merkmalskomplexes umschließt, auch wenn sie nicht im einzelnen bereits benennbar sind. Konstruktvalidierung meint demnach die « zwischen dem nomologischen Konzept und dem Testverfahren» (Dieterich 1973, S. 108f.). «Je dichter das
Registrierung
Auswertung
_L
Diagnostiker/in Interpretation d. Datensatzes
TÜV
Gericht
H I
Operational. d. Fragest.
P
- Sozialisation - Sprache - Motivation
Methoden - Exploration - Tests - Verhaltensbeobachtung
Diagnose
I
T"
| Gütekriterien
Obj7|
|
|Rel.H Val.|
DIAGNOSTISCHE ANTWORT - Gutachten - Therapie - Beratung 3 Q.
O g; CD
3
zu antworten, weil man dokumentieren soll, daß man kein ist. Unter Umständen zeigt man sich durch eine solche Antwort aber als phantasielos und stumpf...» Wie man's auch anstellt - die Dumme ist immer die Getestete; ist sie keine Träumerin, dann eben phantasielos und dumm. «Man kann bei manchen Fragen des Fragebogens den Eindruck haben, leicht durchschauen zu können, welche Antwort den macht. Glauben Sie mir, das ist eine Fehlannahme!» (Hoeth & Koebler 1967, S. 119, S. 121). Soziale Wünschbarkeit (engl.: social desirability) wird dieses Phänomen genannt, dem besonders in Persönlichkeitstests entgegengearbeitet wird, da hier die Tendenz einer wohlgefälligen Selbstdarstellung am größten ist und folglich Fehlbeurteilungen zustande kommen.
210
Tests im diagnostischen Prozeß: Grenzen und Probleme
Die «Offenheitsskala» im Freiburger Persönlichkeitsinventar (FPI), gelegentlich auch als «Lügenskala» bezeichnet, dient beispielsweise der Kontrolle solcher Antworttendenzen. Um sie möglichst gering zu halten, wird von Testkonstrukteuren gelegentlich vorgeschlagen, die Inhaltsvalidität der eigentlichen Absicht des Tests entgegenzustellen. «Aus psychologischen Gründen empfiehlt es sich manchmal, die tatsächliche Gültigkeit eines Tests - insbesondere eines charakterologischen Tests - zu verschleiern, so daß der Proband vom Inhalt der gestellten Aufgaben nicht auf die Absicht schließen kann. In diesem Fall wäre also die Prima-facie-Gültigkeit (face-validity, Augenschein-Gültigkeit; S. G.) irreführend» (Belser 1975, S. 117). Damit Testergebnisse nicht verfälscht (!) werden, schlägt Ebel (1971) vor - «mehr falsche alsrichtigeAussagen im Test zu verwenden, - die Aufgaben so zu formulieren, daß eine oberflächliche Logik> die Wahl einer falschen Antwort nahelegt, - die Distraktoren (Ablenkungsaufgaben; S. G.) in Übereinstimmung mit allgemein vertretenen Fehlauffassungen oder irrelevanten Meinungen zu formulieren und - die Antwortmöglichkeiten so zu gestalten, daß Testerfahrene, die die geforderte Kenntnis nicht besitzen, in die Irre geführt werden« (Ebel 1971, S. 423). Ohnedies ist die Testerfahrung - mehr noch in den USA als bei uns - ein Problem. Es hat sich nämlich in Untersuchungen herausgestellt, daß man von Tests profitieren kann und bei ihrer zweiten Beantwortung besser ist als bei der ersten (Quereshi 1968; Schneider 1987). Wiederholte Testteilnahme fördert die Kompetenzen; Übungseffekte bewirken eine Überbewertung tatsächlicher Leistungsfähigkeiten. Im Zusammenhang mit Hochschulzugangstests gelten entsprechende Trainingsseminare gleichsam als Kavaliersdelikte. Schneider (1987) schlägt deshalb zur Kontrolle solcher «Test-Weisheit» (test sophistication oder auch test-wiseness) in der Eignungsdiagnostik vor, für alle Testteilnehmer einen gleichen Informationsstand durch entsprechende Aufklärung herzustellen. Braucheri wir dann wieder Tests, diesen Informationsstand zu überprüfen? 6.4.8 Zusammenfassende Bemerkungen Die äußeren Bedingungen der Testsituation sind nicht zu standardisieren, sowenig wie die äußeren Charakteristika einer Testleiterin und ihr Verhalten. Auch die Interaktion Testleiterin - Getesteter unterwirft sich keiner noch so strengen Regelung, die Einstellungen und Erwartungen des
Diagnostische Urteilsbildung
211
Getesteten lassen sich durch keine Instruktion und keine Drohung disziplinieren. Gelernte Angst wie auch Testangst entzieht sich jeder wirksamen Kontrolle im testpsychologischen Sinne. Das Ausmaß der Verzerrung von Testdaten durch äußere und innere «Störbedingungen» ist aus wissenschaftlicher Sicht nur punktuell und allenfalls qualitativ, quantitativ überhaupt nicht angebbar. Folglich hegt die Entscheidung darüber, welcher Stellenwert einem Testbefund zukommt, bei den Nutzern dieser Verfahren. Von vielen werden die Fehler bedingenden Einflüsse ignoriert, manche bestreiten sie schlichtweg, und wieder andere führen sie als Argument an, Testdaten nicht überzubewerten bzw. sie im Feld der Befundliste zu relativieren. Andersherum: erneut fließen subjektive Anteile in den Umgang mit «objektiven» Testdaten ein und akzentuieren deren Stellenwert. Wir halten fest: Eine Fülle unbekannter, nicht kontrollierter und zum Teil nachweislich bedeutend einflußreicher «Störvariablen», die über die Standardmeßfehleranteile hinausgehen, verzerren in unbekanntem Ausmaß die Testdaten. Deren Repräsentativität und Aussagewert ist deshalb zusätzlich erheblich beeinträchtigt.
6.5 Diagnostische Urteilsbildung Da dieses Buch keine Einführung in die Psychodiagnostik bzw. in die psychologische Begutachtung darstellen soll (Fisseni 1990; Hartmann & Haubl 1984; Jäger 1988 u.a.), zentrieren wir die hier anstehenden Erörterungen über die diagnostische Urteilsbildung auf den Gebrauch von psychologischen Tests und Prüfverfahren und die daraus resultierenden Datensätze. Psychophysiologische Befunde, solche aus der Verhaltensbeobachtung oder der Anamnese für sich und in gegenseitiger Korrespondenz vernachlässigen wir der übersichtlicheren Darstellung wegen. 6.5.1 Welche Informationen liefern Tests? Daß sie Informationen erbringen, ist unbestritten. Die eine Person findet in einem Text alle verkehrt gesetzten 'd' und 'b' heraus, die andere übersieht viele. Gnome, von Kinderhand gesteuert, die auf dem Bildschirm Monster fangen, bleiben Sieger beim geübten Spieler, der ungeübte Erwachsene muß sich geschlagen geben. Was aber besagen diese Befunde über die betreffenden Personen, ihre psychische Einzigartigkeit im Unterschied zu anderen und was über ihr künftiges Verhalten «draußen, im
212
Tests im diagnostischen Prozeß: Grenzen und Probleme
echten Leben»? Sind die Ergebnisse einmalig und zufällig? Welche Gewißheit haben wir über ihren Aussagewert? Wo liegen die Grenzen dieser Gewißheit? Die Beantwortung all dieser und sich anschließender Fragen hat keinen «intersubjektiven Ausgang». Sie ist abhängig von den methodischen und theoretischen Grundpositionen einer Psychologin, ihren individuellen Erkenntnisinteressen (und denen der Auftraggeber) wie von ihren tätigkeitsspezifischen Rahmenbedingungen (vgl. dazu Kuda 1981). Probst (1973), der «Über die wirkliche und scheinbare Funktion des Intelligenztests im Sonderschulüberweisungsverfahren» eine interessante empirische Untersuchung durchgeführt hat, wäre zu seinen kritischen Daten bezüglich des Einsatzes vom Hamburg-Wechsler-Intelligenztest für Kinder nicht gekommen, hätte er diese Studie nicht durchgeführt, und er hat sie begonnen aufgrund seiner skeptischen Haltung gegenüber Tests. Eigene Umfragen unter Psychologen im Jugendhilfe-Heimbereich (Grubitzsch, Hashagen & Scheibler 1989) haben erbracht, daß die Häufigkeit der Diagnosestellung im allgemeinen wie die der Testanwendung im besonderen erheblich zurückgegangen ist (vgl. auch Büttner 1982, Breuer 1979 usw.). Durchkreuzt wird diese Expertenmeinung vor Ort allerdings allzuoft durch die fachfremden Kollegen, die das Testen den Psychologen als Berufsaufgabe zuschreiben möchten, ohne die beschränkten Aussagemöglichkeiten psychologischer Tests wirklich zu durchschauen. Das vorliegende Buch wül diese Grenzen aufzeigen helfen. Andere Autoren haben dies partiell getan. Einer gründlichen empirischen Arbeit von Löschenkohl (1975) über die bei uns gebräuchlichsten Schulreifetests sind erhebliche Zweifel an diesen Verfahren zu entnehmen. Dort heißt es in der Zusammenfassung: «Schulreifetests weisen mit dem Schulerfolg bei unterschiedlichen Bedingungen unterschiedliche Zusammenhänge auf. Die Höhe der signifikanten Zusammenhänge zeigt, daß mit einem Schulreifetest nur eine Art von Lernvoraussetzungen gemessen wird und nicht die Summe der Lernvoraussetzungen, die für einen Erfolg in der Schule nötig sind» (S. 97). Außerdem wird auf den geringen Zusammenhang zwischen Schulreifetest und Intelligenztest und ihre, bei gemeinsamer Anwendung, geringe Vörhersagesicherheit hingewiesen. Die Psychologen im Schulpsychologischen Dienst des Bremer Bildungssenators weigerten sich, eine Schülerauslese in Richtung «Bilinguales Gymnasium» ausschließlich anhand von Zeugnisnoten und KognitivemFähigkeits-Test 4-13 (Heller u. a. 1976) durchzuführen, von dessen Leistungsfähigkeit Professor Todt (Gießen) als hinzugezogener Experte überzeugt war (wenn auch vergebens). Solche und andere (erfreuliche) Meinungsverschiedenheiten bringen zum Ausdruck, daß wir nicht nur auf die Testverfahren, sondern gleichermaßen auf die Einstellung bzw. Er-
Diagnostische Urteilsbildung
213
kenntnisinteressen und Motive der Anwender zu achten haben, wenn wir uns fragen, welche Informationen Tests eigentlich erbringen. Vier verschiedene Verfahren setzte ein amerikanischer Forscher ein, um die jeweils gelieferte Information vergleichen zu können: den MMPI, den Rorschach-Test, den Satz-Vervollständigungs-Test (Sentence completion, ein projektives Verfahren), die Fallgeschichte des Klienten; zusätzlich wurde das Bild des Klienten gezeigt zuzüglich einiger Informationen über Alter, Beruf und Erziehung des Klienten. Die letzte - sehr spärliche - Information gestattete die besten absoluten Vorhersagen über die Entwicklung des Klienten, übertroffen nur von einer Kombination Fallgeschichte-Rorschach (Kostlan 1954). In einer ähnlichen Untersuchung stellte sich heraus, daß über vier Eigenschaften (Anpassung, IchStärke, Intelligenz, Abhängigkeit - was immer damit gemeint sein mag) die besten Informationen dann eingeholt werden konnten, wenn eine einzige Methode (MMPI, Rorschach, Wechsler-Intelligenz-Test oder Informatiornsüber die berufliche Vergangenheit) angewendet wurde zur Informationsgewinnung; mit der Zunahme der Methoden verringerte sich der Informationsgehalt (Goldberg & Werts 1966). Sines (1959) stellte fest, daß Anamnesedaten und Interview zuverlässigere Aussagen erlaubten als zusätzlich MMPI und Rorschach als Informationsquellen. Ähnliche Ergebnisse fanden auch andere Autoren (Barendregt 1961; Soskin 1954, 1959; Golden 1964). Noch fataler wird die Sache, wenn der Informationsgewinn durch «projektive» Verfahren überprüft wird, deren Schwierigkeit im wesentlichen darin besteht, daß - erst einmal die getestete Person einen ambivalenten Reiz - und dann noch der Kliniker den ambivalenten Reaktionsset des Klienten interpretiert. Eschenbach & Borgatta (1955) resümieren, daß die Korrelationen projektiver Daten mit externen Kriterien oft bei Null oder wenig darüber liegen, also praktisch zwischen Testergebnis und anderen Maßen oder Urteilen oder Verhaltensweisen keinerlei Zusammenhang besteht - außer bei der Intelligenz; aber Intelligenztestdaten sind mit weniger Aufwand, so die Autoren, leichter zu erhalten. Die Zuwachsvalidität (incremental validity; Mischel 1968), d.h. der Informationsgewinn durch Hinzuziehung einer neuen Methode (bei näherem Hinsehen das einzig akzeptable Validitätsmaß), der meisten diagnostischen Verfahren ist außerordentlich gering. Die gegenwärtigen Standard-Diagnose-Verfahren sind so gesehen ein «extravagant waste of time» (eine zügellose Zeitverschwendung) (Marks 1961). Eine solche Aussage läßt sich nur unter zwei Gesichtspunkten aufrechterhalten: 1. Jedwedes Diagnostizieren setzt Informationen über die Probanden
214
Tests im diagnostischen Prozeß: Grenzen und Probleme
voraus. Diese können zufällig, intuitiv, alltagsnah, erfahrungsabhängig erhoben werden. Nicht alle Auftraggeber geben sich mit dieser im Fachbegriff «klinischen» Vorgehensweise zufrieden bzw. messen ihr keinen sonderlichen Wert bei. Sie erwarten «wissenschaftliche Methoden»; kontrollierbar, nachvollziehbar und gerichtsverwertbar. Mit diesem Anspruch erhobene Daten verdienen kritisch befragt zu werden auf ihren Aussagewert und ihre wissenschaftliche Tragfähigkeit. Zumeist genügen sie ihrem eigenen Anspruch nicht und nicht den Erwartungen, die an sie geknüpft werden. Dann drängt sich die Frage auf, ob das Verhältnis von Wissenszuwachs zur verausgabten Zeit unter Einbeziehung wissenschaftlicher Güteanforderungen optimal ist. Wer einen hohen Zeitaufwand betreibt, mit der Wissenschaftlichkeit der Methoden kokettiert und anschließend behauptet, unumstößliche Befunde zu haben, deren Folge schließlich die Heimunterbringung eines Kindes, der weitere Führerscheinentzug, die Überweisung in die Sonderschule oder der weitere Verbleib im Gefängnis sind, muß dies schon mit Sicherheit und nicht nur mit Wahrscheinlichkeit belegen können. Kann er dies nicht, so waren entweder die Methoden unzulänglich oder der Zeitaufwand umsonst. 2. Anders stellt sich die Situation dar, wenn Tests nicht der normorientierten Vorgehensweise wegen angewandt werden, sondern der problemorientierten, inhaltlichen Füllung des diagnostischen Settings wegen. Denn in ihrer ganzen Vielzahl verkörpern sie mal mehr, mal weniger - je nach Testart - das «volle Menschenleben», in das es sich lohnt zu greifen, wenn die eigene Phantasie nicht mehr ausreicht, um den Klienten Befindlichkeitssymboliken anzubieten, in denen sie sich und ihre Lebenssituation darstellen können - ihre Leistungsfähigkeit ebenso wie ihre Emotionen oder Aggressionen, ihre Aufmerksamkeit und ihre Neigung, anderen «einen Bären aufzubinden». Gerade dann wird eine zeitaufwendige diagnostische Kommunikation von Vorteil sein, entgegen der oben zitierten Aussage von Marks (1961). Die Daten werden nicht ungenauer sein als die im zuvor geschilderten Fall - mit einem Unterschied: die Testbefunde sind in eine qualitative Aussage eingebunden, die «Sozio- und Psychodiagnose zugleich sein» sollte (vgl. Lorenz 1990). Was sagen schon einzelne Testwerte aus? So z. B. bei der psychometrischen Definition der Minderbegabung. Die American Association on Mental Deficiency benennt Testleistüngen unterhalb einer (sic!) Standardabweichung (—1 sx) vom Mittelwert bereits als subnormal. V. Bracken (1966, nach Wegener 1969, S. 506) schätzt Minderbegabung bei IQ ^78 und viele andere in- und ausländische Autoren, wenn der IQ weniger als 70 Punkte beträgt. «Probanden mit einem IQ zwischen 70 und 90 werden dann als oder als eingestuft» (Wegener 1969, S. 506). Erst diese Daten im Zusammenspiel mit anderen (beispielsweise
Diagnostische Urteilsbildung
215
der Wohnsituation der Kinder, der Unterstützung und Förderung durch die Eltern usw.) erbringen Hinweise auf die besondere Situation eines Kindes. «Warum kann es nicht lernen?... Konkrete Antworten werden gebraucht, die sich in Handlungsmöglichkeiten übersetzen lassen» (Lorenz 1990). Zentraler Punkt bei jedweder (test-)psychologischen Diagnostik kann nicht die Frage nach einigen aus sich heraus nicht eindeutig interpretierbaren quantitativen Daten sein, sondern sollte die der gesamten Lebenssituation sein. Ein «ungünstiges» Testdatum bezüglich der Konzentrationsfähigkeit eines Schülers oder der Intelligenz eines Mädchens wird je nachdem anders bewertet werden müssen, wenn die Eltern in einem Fall jedwede Hilfe und Unterstützung geben oder im anderen Fall deren Einsichtsfähigkeit in die Notwendigkeit einer Fördermaßnahme vermißt wird. Eine erstmals alkoholauffällig gewordene Kraftfahrerin, die mit einem Alkoholiker zusammenlebt, befindet sich in einer gänzlich anderen Situation als die Frau eines Arztes, der zwar Mitglied in einer Antialkoholiker-Liga ist, sich aber von seiner Frau trennen will. Oder denken wir an die Verkehrsdelikte prominenter Persönlichkeiten. «Borderline-Werte» in einem Test, sagen wir dem Kurz-Fragebogen für Problemfälle (K-F-P 30), erscheinen jeweils in gänzlich anderem Licht und müßten es hier wie dort vielleicht auch. Also ist eine dezidierte und umfassende Informationserhebung erforderlich, die ja stets von der Tatsache ausgeht, daß eine Diagnostikerin ihr Nicht-Wissen mit Blick auf eine gegebene Fragestellung gegen Wissen austauschen möchte. Aus Unkenntnis werde Erkenntnis. Das setzt, denken wir an unseren Alltag, eine lange Zeit des Kennenlernens und Miteinander-Umgehens voraus. Manch einer gesteht selbst nach Monaten oder Jahren zu, den Partner eigentlich nicht richtig zu kennen, sich in ihm getäuscht zu haben. Von Psychologen wird erwartet, sie könnten dies, und umgekehrt verstärken sie in ihren Begutachtungen diesen Eindruck immer wieder. Die für testund gutachtenpsychologische Untersuchungen aufzuwendende Zeit steht der tatsächlich für umfassende Recherchen notwendigen entgegen (z. B. sind zwei differentialdiagnostische Gutachten pro Tag in einer Klinik nicht selten), so daß der Griff zu Tests sich geradezu aufdrängt. In relativ kurzer Zeit werden Daten gewonnen, die der diagnostischen Klassifikation dienlich sind, weil sie an erfahrungsbedingten oder statistischen Normen abgeglichen werden können. Das ist einfach und schafft Sicherheit für die Diagnostiker - oft genug zum Nachteil der Betroffenen. Was im Umgang mit diesen «harten Fakten» fehlt, sind die konkreten, einzelfallbezogenen Interpretationsregeln. Wie also ist ein Testdatum oder sind auch mehrere in ihrem Verhältnis zueinander und im Insgesamt einer Biographie zu beurteilen? Die einzelne Person mit ihrer Lebenssituation und ihrem spezifischen Werdegang in einer augenblicklichen oder künftigen
216
Tests im diagnostischen Prozeß: Grenzen und Probleme
Situation, mit ihren Widersprüchlichkeiten und psychischen Befindlichkeiten, ihren Leistungs- und Anpassungsfähigkeiten und ihrer eigenen Sichtweise der Dinge und sozialen Bezüge hat im Mittelpunkt testpsychologischer Untersuchungen zu stehen. 6.5.2 Der Prozeß der Urteilsbildung Es scheint, als beginne die Urteilsbildung in bezug auf die psychische Situation einer Person oder ihre Fähigkeit, ein Kraftfahrzeug zu fahren, erst jetzt. Das ist freilich ein Trugschluß, denn Vor-Urteile, Hypothesen, Erwartungen existieren auch schon zu Beginn einer testpsychologischen Untersuchung und lassen sich nicht einfach beiseite schieben. Allein die Tatsache, welcher sozialen Schicht jemand entstammt, reicht aus, spätere Diagnosen zu beeinflussen (Di Nardo 1975). Die Häufigkeit von diagnostischen Klassifikationen (Schizophrenie, Neurose etc.) verändert sich signifikant mit dem Wechsel eines Klinik-Chefs (Höchter 1976). Die Auswahl der Testverfahren geschieht entlang solcher Vor-Urteile, wie wir wissen. Schließlich liegen Testdaten der verschiedensten Art (aus Intelligenztests, Aufmerksamkeitstests, Berufsinteressentests, Angstfragebögen, Persönlichkeitsfragebögen usw.) vor und bedürfen ihrer zunächst testbezogenen Interpretation. Ein IQ = 105 Punkte bedeutet demnach zumeist, durchschnittlich intelligent zu sein. Fisseni (1982) schlägt vor, aus solchen Testdaten eine themenspezifische Befundliste, die später in eine Befundskizze einmündet, zu erstellen. Dies meint, all jene Daten, die die intellektuellen Fähigkeiten einer Person betreffen, zusammenzustellen, des weiteren die zum sozialen Umfeld oder zur Konzentrationsfähigkeit. Erst dort, wo diese Befunde zu einer endgültigen Beantwortung der diagnostischen Fragestellung herangezogen werden, erfolgt die eigentliche Urteilsbildung. Urteile sind bewertende Aussagen über eine Person, Sache oder eine Situation. Sie basieren im hier erörterten Zusammenhang auf Test- und/oder Befragungsdaten, die gemäß einer vorliegenden Fragestellung gebündelt und interpretiert werden (vgl. Grubitzsch 1990b). Jedoch: welche Daten sind wesentlich und welche randständig? In welche Richtung sind die Vertrauensintervalle der Testwerte zu berücksichtigen? Im Prozeß der Urteilsbildung begegnen sich eine Vielfalt von nicht immer gleichgerichteten Eindrücken und Testdaten auf verschiedenen Ebenen, die zu einem konsistenten Gesamturteil (so jedenfalls der Anspuch) gebündelt werden sollen. Nach welchen Regeln? Wo liegen verbindliche Kriterien für die bewertende Verknüpfung von Daten? Einen verbindlichen Regelkatalog dafür gibt es nicht; nur systematische Ansprüche (Grubitzsch 1990 b; Leichner 1978; Mattenklott 1988 u. a.).
Diagnostische Urteilsbildung
217
6.5.2.1 Die Fähigkeiten und Eigenschaften des Urteilers Einstweilen aber werden weiterhin Individuen durch andere Individuen begutachtet und beurteilt. Damit sie nicht völlig willkürlich und ungeregelt handeln und schlußfolgern, werden ihnen diese wissenschaftlichen, zusätzlich auch ethische Anforderungen (Hartmann & Haubl 1984; GutachtenAusschuß im BDP 1985; Berufsverband Deutscher Psychologen [BDP] 1988; Berufsethische Verpflichtungen für Psychologen 1967) auferlegt. Das ist auch gut so, um allzu leichtfertige Fachkollegen in die Schranken zu verweisen und den Betroffenen ein Mindestmaß an Schutz zu bieten. Folgenlos allerdings scheint eine Zuwiderhandlung, wenn man die Gruppe der Schriftpsychologen ins Auge faßt (vgl. Kuda 1981, S. 120). Die Kehrseite dieser Verpflichtungen ist ihre Alibifunktion für die wissenschaftliche Diagnostik. Allzu schnell ist aus einer wissenschaftlichen Unzulänglichkeit in der Praxis ein persönliches Versagen konstruiert, und selten findet sich dann jemand, das Kind aus dem Brunnen zu holen. Verlangt wird vom Gutachter «eine optimale geistige Beweglichkeit... Diese Flexibilität muß optimal sein, d. h. sie muß die Mitte halten zwischen Starrheit und undisziplinierter Flüchtigkeit»; sie muß zur «treffsicheren Einsicht» gelangen, es geht insgesamt bei der Frage nach dem psychologischen Urteiler um «die Qualität des menschlichen Geistes» (Bierkens 1968, S. 157). Die Begründung für diese Anforderungen an den Urteiler folgt auf dem Fuße: «Bei der individuellen psychologischen Untersuchung gibt es keine einzige Formel, keinen Testbefund und keine Verhaltensform, die imstande ist, die Treffsicherheit des psychodiagnostischen Denkens, Reagierens, Handelns und Folgern^ vollständig zu fundieren. In den konkreten Umständen dieser Art ist der Psychologe, soviel Rückhalt ihm seine Wissenschaft auch gibt, letztlich auf sich selbst angewiesen, auf die eigene Findigkeit und Gewandtheit, denrichtigenWeg zu einem adäquaten Urteil oder zu einer adäquaten Beratung zu finden. Genau hier liegt der Tätigkeitsbereich seiner , die umschrieben wird mit wissenschaftliche Kenntnis, Erfahrung, Besonnenheit, Phantasiebegabung, Mut zur Entscheidung, mitmenschliche Anteilnahme» (Bierkens 1968, S. 173; vgl. auch Spörli 1978; Pulver, Lang & Schmid 1978 etc.). Abgesehen davon, wieviel Vertrauen dieser «ars» (Kunst) zu schenken ist und wie wenig griffig sie ist; daß keiner der vielen schönen und moralisch wertvollen Begriffe auch nur annähernd verbindlich und vermittelbar definiert ist und vom Klienten verlangt wird, daß er mit einer gehörigen Portion Gottvertrauen und noch mehr blinder Zuversicht davon ausgeht, sein Urteiler besitze alle diese lobenswerten Eigenschaften; und daß hier jeglicher Anspruch auf Kontrolle und Überprüfbarkeit eines Urteils aufgegeben wird: Da keine Ausbildung eines Psychologen sich mit
218
Tests im diagnostischen Prozeß: Grenzen lind Probleme
derartigen Inhalten belastet, muß die «klinische Erfahrung» dann wohl zur Entwicklung jener «Qualität des menschliches Geistes» führen! Auf die klinische Erfahrung als Garanten verläßlicher und richtiger Urteüe berufen sich denn auch alle Praktiker. Dazu stellte Crow (1957) fest, daß geübte Urteiler bei der Vorhersage der Reaktionen von Klienten nicht besser waren als ungeübte Personen; Goldberg (1959; 1965) ließ den Bender-Gestalt-Test (ein Verfahren zur Feststellung geistiger Behinderung bzw. Hirnschädigung) von erfahrenen Klinikern und einfachen Mitarbeitern auswerten und stellte keinen Unterschied fest; zusätzlich stellten sich die Urteile beider Gruppen als schlechter heraus als ihre Urteile aufgrund einer Basisinformation - die Prozentzahl Hirngeschädigter in der Gesamtbevölkerung nämlich. «Die klinische Erfahrung, auf welche zahlreiche Praktiker und Dozenten psychologischer Diagnostik so gerne pochen» (Cohen 1965, S. 151), erweist sich als unsichere Basis für richtige Urteile, wie auch eine Fülle anderer Untersuchungen zeigte (Hammond 1955; Silvermann 1959; Hunt & Blomberg 1961; Oskamp 1962). Ein anderer «Punch» gegen die Verläßlichkeit des künischen Urteils ist die «Zuwachsschnelligkeit» (incremental speed) (Mischel 1968), d.h. die Schnelligkeit, mit der ein endgültiges Urteil gefällt wird. Hamlin (1954) konstatierte, daß neben zuwenig auch zuviel Information die Urteilsgenauigkeit beeinflußt. Dabei ist die Fülle der Informationen nicht einmal entscheidend; es stellte sich nämlich heraus, daß schon nach den ersten Sitzungen das Urteil über den Klienten feststeht und sich dann so gut wie nicht mehr ändert, welche Informationen auch immer hinzukommen (Meehl I960); weitere Informationen werden unter dem Gesichtspunkt der einmal entwickelten Vorstellungen selektiert (Soskin 1954). Eine interessante Pointe dieser Untersuchungen ist, daß die Genauigkeit des Urteils negativ korreliert mit der Selbstsicherheit des Urteilers (Goldberg 1965); diese Selbstsicherheit steigert sich mit der klinischen Erfahrung (Oskamp 1962). Und noch ein Ergebnis ist für diesen Zusammenhang wichtig: Es stellte sich in einigen Untersuchungen ein sog. «Drall ins Pathologische» heraus (Cohen 1965, S. 146). Klinische Experten, also «gute Urteiler» nach ihrem Selbstverständnis und den eingangs formulierten Ansprüchen, interpretierten Testdaten (TAT, Rorschach) eher pathologisch als andere Urteiler bzw. als sie selbst aufgrund anderer Informationen (biographische Daten) (Soskin 1954, 1959; Little und Shneidman 1959); ganz ähnliche Erfahrungen berichtet Dörner (1975, S. 143). Cohen (1965, S. 146f.) j führt diese Verzerrungstendenzen des Urteils auf die «implizite Persönlichkeitstheorie» zurück; er weist damit auf Determinanten des künischen Urteils hin, die noch schwerer zu untersuchen, aber auch zu kon-
Diagnostische Urteilsbildung
219
trollieren sind als die bislang erwähnten. So wird in der sozialpsychologischen Literatur immer wieder auf den «Halo-Effekt» (etwa «Hof-Effekt») hingewiesen: Die positive oder negative, sympathische oder unsympathische Einstellung einem Menschen gegenüber (etwa durch einen «ersten Eindruck», dem auch die «erfahrene Urteilerin» unterliegt), führt zu einer positiven oder negativen Färbung aller folgenden Eindrücke und Informatioilen. Dann läßt sich ein «logischer Fehler» nachweisen: Verhaltensweisen, Eindrücke, Informationen werden ähnlich bewertet und zusammenhängend interpretiert, die einem - aufgrund bestimmter Vorstellungen über Persönlichkeit, Verhalten, psychische Gesetzmäßigkeiten - logisch erscheinen. Dazu kommt noch die «implizite Persönlichkeitstheorie»: Schon ganz wenige Informationen über eine Person führen zu einem fixen, vollständigen und unverrückbaren Büd von der Person. Daneben treten andere nachgewiesene, aber weniger gründlich untersuchte Urteilsfehler auf: Mildefehler, Kontrastfehler, Ähnlichkeitsfehler, Projektionsfehler (s. im einzelnen dazu: Cranach & Frenz 1969). Und last, not least, weil in einer besonders differenzierten und schwer zu durchschauenden und kontrollierenden Wirkungsweise die «Erwartungshaltung des Urteilers zu einer self-fulfilling prophecy» führen kann: Sie «verändert das Verhalten des Diagnostizierten (und das Verhalten des Diagnostikers) in der einmal - aus welchen Gründen auch immer - vermuteten, befürchteten oder gewünschten Richtung» (Dörner 1975, S. 145); und das gilt sicher nicht nur für die psychiatrische Diagnose, das gilt in gleichem Maß für das psychologische Urteil, die Empfehlung der Psychologin. Selbst die bestgeschulten Psychologen, die erfahrensten Urteiler mit der perfekten Selbstkontrolle dürften nicht in der Lage sein, all die genannten Fehlermöglichkeiten, von der Diskrepanz zwischen Selbstsicherheit und Urteilsgenauigkeit bis hin zu Milde- und Projektionsfehlern, auch nur annähernd zu kontrollieren. Es klingt geradezu wie Hohn, vor dem Hintergrund dieser Sachverhalte über den Urteiler zu sagen: «Er muß die Befunde kategorisieren, kombinieren, interpretieren und sie gegeneinander abwägen... in vielen Fällen kann er gar nicht verhindern, daß dabei allmählich ein Persönlichkeitsbild entsteht, aber er muß bis zum Schluß bereit bleiben, aus dem Gesamtbereich der Befunde neue Gesichtspunkte aufzunehmen» (Bierkens 1968, S. 173). Als wäre auch nur ein einziger potentieller Fehler durch den moralischen Appell an irgendeine «Bereitschaft» zu vermeiden! Auch mit dem «hohen Verantwortungsbewußtsein» und den «gründlichen psychologischen Fachkenntnissen» (Gutjahr 1974, S. 16) dürfte es kaum getan sein und nicht mit «einer langen Periode intensiven Trainings und supervisierter Erfahrung» (Anastasi 1976, S. 45). Wir wissen inzwi-
220
Tests im diagnostischen Prozeß: Grenzen lind Probleme
sehen, daß nicht nur auf die Instrumente, sondern auch auf die erfahrenen Experten absolut kein Verlaß ist - wer soll dann die «supervisierte Erfahrung» vermitteln? Und weiter: die meisten Psychologen haben von Urteilsfehlern und empirischen Resultaten zur Verläßlichkeit von Urteilen vielleicht während ihres Studiums etwas gehört, aber dann unter dem Druck der Praxis die Gewichte verschoben (vgl. Dick 1988, Lorenz 1988 etc.). «Psychometriker haben sich mehr und mehr auf die technischen Verbesserungen der Testkonstruktion konzentriert und dabei den Kontakt mit Entwicklungen in Bereichen des Lernens, der kindlichen Entwicklung, der individuellen Unterschiede verloren... Testergebnisse können aber nur adäquat interpretiert werden auf dem Hintergrund allen Wissens über das Verhalten, das die Tests messen sollen» (Anastasi 1976, S. 46). 6.5.2.2 Psychometriker, Kasuistiker und die Quintessenz Vor dem Hintergrund der Materialien über den Informationsgehalt psychologischer Tests und den Urteüsprozeß mutet der heftig geführte Streit zwischen «Psychometrikern» und «Kasuistikern» an wie der Kampf zweier blinder Hühner um das Korn, das längst Wurzeln geschlagen hat. So schimpft der Kasuistiker Bierkens: Die «Menschen mit psychischen Schwierigkeiten» fühlen sich oft menschlich vernachlässigt, wenn sie direkt mit seltsamen und für sie undurchschaubaren Prüfungsaufgaben konfrontiert werden, die zwar ein Maximum an meßtechnischer Exaktheit darstellen, aber auch ein Maximum an Unpersönlichkeit... In dieser Situation kann und muß man von dem Gedanken ausgehen, daß ein metrischer Test nur ganz bestimmte - wenn auch wichtige - Aspekte des ganzen menschlichen Verhaltens aktivieren kann. Was mit Hilfe von Tests zum Vorschein kommt, ist... zu einem guten Teil das Ergebnis einer subjektiven Auswahl des Testkonstrukteurs mit allen deren Einschränkungen« (Bierkens 1968, S. 167). Diesem Gemisch aus moralischer Anklage und richtiger Kritik hält der Psychometriker entgegen: Es ist darauf zu verweisen, «daß kasuistisch begründete Aussagen noch viel größere Unsicherheiten enthalten, die oft nicht einmal quantitativ zu fassen seien, da sie keine Möglichkeit zur Bestimmung des Meßfehlers bieten» (Gutjahr 1974, S.264). Mattenklott (1988) bringt es auf den Punkt: «Welche dieser Anteile des gespeicherten Fachwissens das diagnostische Urteil determiniert, ist zur Zeit noch wenig bekannt» (S. 395). Und einer der Ahnherren der modernen Testerei, R. B. Cattell, meint: «Was die Kliniker aus jahrelanger Erfahrung in Form wahrgenommener dynamischer Einheiten extrahierten, abhängig vom menschlichen Gedächtnis mit all seinen Fehlermöglichkeiten, kann viel objektiver und präziser erreicht werden durch die Hypothesenbildung, wie sie in der multivarianten statistischen Analyse enthalten ist» (Cattell & Warburton 1967, S. 3).
221
Diagnostische Urteilsbildung
Ich weiß nicht, ob R. B. Cattell als Zyniker in Kollegenkreisen bekannt ist; mit diesem Satz hat er sich aber als solcher qualifiziert. Die ganze bisherige Diskussion hat gezeigt, daß im Zusammenhang mit psychometrischen Tests weder von Präzision noch von «Objektivität» gesprochen werden kann. Die wenigen Informationen, die sie liefern, sind uneindeutig, praktisch kaum zu interpretieren. Ihr Vorteil besteht aus Sicht der institutionellen Praxis eher in ihrer Zeitökonomie und ihrer Schutzschildfunktion. Zudem haben Tests keine «incremental validity», d.h., sie vermitteln über Basisinformationen hinaus (Anamnese, Sozialdaten) keine wesentlichen Kenntnisse über die getestete Person. Daß Tests kaum weniger Fehlermöglichkeiten enthalten als der Mensch in seinem Urteilsprozeß, ist bekannt. Beides aber zusammen - eine invalide und unzulängliche Methode und ein «improvisierendes und damit fraglos subjektiveres Vorgehen» (Schmidt 1982, S. 485) - birgt die Gefahr fehlerhafter Aussagen und Entscheidungen. Wir halten fest: Ob Kasuistiker - mehr am Rande - oder «objektive» Psychologen vor allem Tests verwenden - ihre Aussagen sind von einer derartigen Fülle von Urteils- und Interpretationsfehlern mitgeprägt und nachweislich derart verzerrt, daß - beide Faktoren, den fehlenden Informationsgehalt psychologischer Tests und die fehlende Urteilsgenauigkeit, zusammengenommen - Urteile, Gutachten, Empfehlungen sachlich gesehen kaum Berechtigung haben. Von der Seite des gesellschaftlichen Bedarfs sind die Nachfragen groß - vor allem wo gerichtliche, pädagogische oder behördliche Entscheidungen getroffen werden sollen. «Wahrscheinlich ließe sich manche Patientenkarriere und manches Obergutachten vermeiden, wenn rechtzeitig intensive diagnostische Begutachtungen mit entsprechenden Vorschlägen bezüglich der zu ergreifenden Maßnahmen durchgeführt würden» (Schmidt 1982, S. 496). Dazu ist es auch sachdienlich, die «Quellen häufiger Fehler in der Urteilsbildung» zu kennen, wie sie der eben zitierte Autor tabellarisch zusammengetragen hat. Wir geben diese Tabelle hier wieder, allerdings (aus Platzgründen) ohne die ca. 80 belegenden Literaturverweise. Sie sind dort zu entnehmen.
Fehlerart / -quelle
Erläuterungen / Trends
1. Informationsverarbeitung positiver Bias
im Extremfall pathologic bias; für den Pb ungünstige, negative (i. S. der Medizin positive) Informationen werden überbewertet
222
Tests im diagnostischen Prozeß: Grenzen lind Probleme
Informationsmenge
zu wenige, aber auch zu viele Daten können zu Beurteilungsfehlern führen
Reihenfolge der Informationen
primacy oder recency Effekte, Ankereffekte
Vorinformationen Kontext Gütekriterien der Informationen
Kaskadeneffekt mit zunehmend geringer Güte im Verlauf der Urteilsbildung; Urteile immer weniger konservativ
Konsistenz der Informationen
konsistente Informationen werden besser genutzt; Informationen werden von Klienten und Diagnostikern konsistent «gemacht»
Basiswahrscheinlichkeiten, probabilistische Beziehungen
Wahrscheinlichkeitsaussagen über Informationen und ihre Beziehungen werden unzureichend genutzt; häufig Schlüsse nach typischen oder «repräsentativen» Merkmalen
2. Variablen des Diagnostikers Persönlichkeit
zu global; fast nur in Interaktionen mit Klienten zu beurteilen
implizite Persönlichkeitstheorie
auch illusory correlation; pathologic bias (s. o.) als Persönlichkeitvariable
Übertragung, Gegenübertragung Erfahrung
Ergebnisse widersprüchlich; oft ist die «Streuung» der Erfahrung der Pbn in den Vergleichsgruppen zu gering
Urteilssicherheit
Ergebnisse teilweise widersprüchlich; meist ist die Validität nicht korreliert mit der Sicherheit, wobei übermäßige Sicherheit Gefahren hinsichtlich der Hypothesenzahl und -Offenheit in sich birgt
223
Diagnostische Urteilsbildung diagnostische und/oder therapeutische Ausrichtung (Schule)
beeinflußt den gesamten diagnostischen Prozeß von Fragestellung über Auswahl und Durchführung der Verfahren bis zur Urteilsbildung äußerst stark; vor allem problematisch, wenn dadurch nur bestimmte Hypothesen zugelassen werden und die Auswahl der Verfahren sich auf bestimmte Modalitäten beschränkt, weil dann ein Korrektiv z.B. durch multiple assessment fehlt
3. Variablen des Klienten Persönlichkeit
s. Variablen des Diagnostikers
soziale Klasse
vor allem die Unterschicht wird stärker pathologisch bewertet, jedoch ist es noch in der Diskussion, wie diese Ergebnisse zu interpretieren sind
Rasse
unterschiedliche Ergebnisse, auch abhängig von Interaktionen und Situationen
Übertragung/ Gegenübertragung
s. Variablen des Diagnostikers
Art der Symptome
soziale Bewertung der Symptome; Intensität - Häufigkeit usw.; auch Klarheit des «Falles»
Bedeutsamkeit
Bedeutung der Begutachtungssituation für den Klienten und damit einhergehende Reaktionstendenzen
Informationsvermittlung
vor allem in der Anamnese ; Art der Darstellung/ Reihenfolge, Kontext, Sprachfaktoren, Konsistenz !5
4. Interaktionen Diagnostiker-Klient
vgl. Variablen des Diagnostikers und Variablen des Klienten; hiervon wird der Beurteilungsprozeß am stärksten geprägt; vor allem Reaktionen in der Anamnese
224
Tests im diagnostischen Prozeß: Grenzen lind Probleme
5. Begutachtungssituation Institution
Institution, in der die Untersuchung stattfindet, mit unterschiedlichen Basiswahrscheinlichkeiten und diagnostischen Ausrichtungen
Zielsetzung
Art der diagnostischen Fragestellungen und Zielsetzungen
Art der Informationen
z. B. psychologisch vs. psychiatrisch
Tabelle 8: Quellen häufiger Beurteilungsfehler in der diagnostischen Urteilsbildung (nach Schmidt 1982, S. 496ff.)
6.5.3 Die Folgen «Psychodiagnostische Aussagen sind oft die Grundlage für weitreichende, in das Leben der betreffenden Persönlichkeit (Probanden) tief eingreifende Entscheidungen» (Gutjahr 1974, S. 16). «Karin wird künftig bei ihrer Mutter leben, die das alleinige Sorgerecht erhält.» «Die mehrtägige psychologische und pädagogische Überprüfung hat ergeben, daß Rina ein eigenwilliges Mädchen mit mittelmäßiger Intelligenz ist. Ihre Arbeitsweise ist schnell, zuversichtlich, aber flüchtig; sie handelt intuitiv, unüberlegt...» (Auszug aus einem Gutachten; einziger Test: der HAWIK). Der folgende Auszug stammt aus einem Gutachten, das in einer Justizvollzugsanstalt erstellt wurde, um zu entscheiden, ob eine Insassin in eine Wöhngruppe der Frauenabteilung verlegt werden könne: «Aufgrund der testpsychologischen Untersuchung und der bisherigen Biographie scheint der Befund, daß sich Frau W. in einer permanenten Selbstwertkrise befindet, nahezuliegen... Es scheint immer wieder der Mangel an Akzeptanz zu sein, der Frau W. zu ihren Straftaten verleitet.» «Da Herr L. noch immer nicht in der Lage ist, ausreichend Selbstkontrolle in sozialen Situationen zu zeigen, bleibt er hinsichtlich des Alkoholgenusses weiter gefährdet und sollte seinen Führerschein vorerst noch nicht zurückerhalten.» Allesamt urteilende Stellungnahmen von großer Reichweite für die Betroffenen. Entscheidungen, die sie auf der gesellschaftlichen Landkarte fixieren, ihnen ihr zukünftiges Verhalten vor-schreiben (vgl. Szasz 1978; Grubitzsch 1985 a; Hilke 1984; Rufer 1988). Dazu tragen die psychodiagnostischen Tests ein Gutteil bei: Ob sie zu dem Schluß führen, «kein Führerschein»; Hauptschule «günstiger» als Gymnasium; Elektri-
Diagnostische Urteilsbildung
225
ker besser als technischer Angestellter; der andere Bewerber sei für den Job geeigneter; jemand sei neurotisch oder labil öder psychisch gefährdet, seine Intelligenz nur durchschnittlich - in jedem Falle wird über die Person eine Aussage gemacht, es wird ein Urteil gefällt, das in der Regel einem «lebenslänglich» gleichkommt. Daten und Urteile einer Testerin oder eines Diagnostikers führen zu Entscheidungen, die existentiell sind. «Die Testdiagnostik enthält die Gefahr einer endgültigen Beurteilung von Schülern. Aufgrund der Verwendung von Tests als Prognoseinstrumente werden nur Frühentwickler weitergefördert, während andere Kinder schon frühzeitig als oder dergl. abqualifiziert werden» (Projektgruppe 1973, S.90). Der künftige Lebensweg wird festgelegt, und es gibt kaum Möglichkeiten einer Revision. Warum auch ? Die Regelung des Sorgerechts zugunsten einer Mutter und die damit verbundene Aufenthaltsregelung für das Kind wird bei unauffälligem Verlauf keinen Anlaß für eine neuerliche Entscheidung in der Familiensache geben. Aber sie läßt die Frage unbeantwortet, ob es dem Kind beim Vater entgegen der ursprünglichen Annahme schließlich nicht doch besser ergangen wäre. Das Kindeswohl stellt sich unter den neuen Lebensbedingungen in einem fortwährenden Prozeß her und wird nicht in regelmäßigen Abständen erneut überprüft. Die Validität des Kriteriums also läßt sich gar nicht eindeutig kontrollieren. Zu diesem Schluß kommt auch Langfeldt (1975), wenn er bezüglich der Überweisung von Schülern in die Sonderschule schreibt: «Versagt der Schüler auch in der Sonderschule für Lernbehinderte, so wird er in die Sonderschule für Geistigbehinderte umgeschult. Die Entscheidung zur Herausnahme aus der Völksschule war also richtig. Besucht er die Sonderschule für Lernbehinderte mit durchschnittlichem Erfolg, so ist es offensichtlich, daß er jetzt richtig beschult wird. Die Entscheidung war richtig. Besucht er die Sonderschule mit überdurchschnittlichem Erfolg, so ist dies (mit Recht?) den sonderpädagogischen Bemühungen zugute zu halten. Die Entscheidung war also genaurichtig»(zit. nach Langfeldt 1976, S. 83). Die Gefahr solcher lebenslänglichen Festschreibungen wird natürlich besonders eklatant, wenn wir uns der Aussage von Boesch (1971) erinnern, wonach es Psychologen (oft noch leichter als einem Arzt) nicht schwerfalle, «Anomalien (zu) entdecken» (S.940). Viele aus der Presse oder der Fachliteratur bekanntgewordene Einweisungs-, Unterbringungs-, Vollzugs- und Behandlungsfehlentscheidungen sind darauf zurückzuführen und aus psychologischer Sicht niemals wieder korrigierbar. Dann sind psychologische Urteile oder Diagnosen zur Drehscheibe und zum Bruchpunkt individueller Karrieren bzw. Lebenschancen und Lebensmöglichkeiten geworden. Als solche stellen gutachterliche Stellungnahmen von Psychologen in Verbindung mit der Wissenschaftsgläubig-
226
Tests im diagnostischen Prozeß: Grenzen lind Probleme
keit von Auftraggebern und Betroffenen einen folgenschweren Akt der Herrschaftsausübung dar. Diesen Akt der Zuordnung und Zurichtung auf wissenschaftlicher Grundlage zu begreifen, zu reflektieren, und, wo möglich, zu durchbrechen, setzt Kenntnisse nicht nur der Testkonstruktion und Testanwendung, sondern ebenso der Gutachtenfertigung einschließlich ihrer Probleme, Schwierigkeiten und Freiräume voraus. Psychologische Tests, so hat sich bis hierher herausgestellt, • haben eine meßtheoretisch und konstruktiv fragwürdige Basis; • ihre meßtheoretischen Voraussetzungen sind mit den psychologischen Inhalten nicht kompatibel und deshalb auf diese nur bedingt anwendbar; • werden hinsichtlich ihrer Güte anhand von Kriterien (Anwenderunabhängigkeit, Zuverlässigkeit, Gültigkeit etc.) beurteilt, die ihren Ansprüchen nicht im entferntesten gerecht zu werden vermögen; • werden bei ihrer Anwendung von einer unermeßlichen Fülle situativer Störvariablen beeinflußt; • liefern im Einzelfall kaum aussagefähige und eindeutig interpretierbare Informationen; • fundieren in der ihnen zugeschriebenen bzw. behaupteten Wissenschaftlichkeit an Willkür grenzende Fehlentscheidungen und versubjektivierte Urteilsprozesse. Es gibt weder für die Testerei selbst noch für auf dieser basierende Urteile, Entscheidungen, Empfehlungen eine sichere, hinreichende, auch nur in dieser oder jener Hinsicht verläßliche Grundlage diagnostischer Urteilsbildung. Hatten wir dies bereits durch die Zusammenstellung von Fehlerquellen in Tabelle 8 zu belegen begonnen, ergänzen wir hier nun den Sachverhalt der Informationsverzerrung in seiner Gesamheit durch eine Übersicht von Hartmann (1970). Er analysiert den diagnostischen Prozeß unter den Gesichtspunkten der Selektion und Akzentuierung im Umgang mit testpsychologischen bzw. diagnostischen Informationen (Tabelle 9).
Person 1.
Selektionen, Akzentuierungen
Auftraggeber
1.1 selbst
...nimmt seine eigenen Probleme, deren Ursachen und Konsequenzen selektiv wahr und setzt subjektive Akzente, indem er manche Sachverhalte überbewertet und andere unterschätzt.
Diagnostische U rtei Isbi Id u ng 1.2 in Interaktion mit dem Diagnostiker
2.
227
.. .schildert sein Problem in unzureichender Weise, da er a) manche Sachverhalte und Zusammenhänge nicht mitteilen kann, weil er sie - selbst nicht erkennt; - nicht ausdrücken kann (mangelnde Verbalisierungsfähigkeit); b) andere Sachverhalte und Zusammenhänge nicht mitteilen will, weil er sie - für unwichtig hält; - als peinlich empfindet.
Psychodiagnostiker
2.1 Auftragsempfänger
... selegiert sie und akzentuiert Informationen aufgrund a) seiner theoretischen Position (Ausbildung, «Schule», Selbstverständnis als Psychologe u.a.); b) seiner Fähigkeiten (als Explorator, als Beobachter, Einfühlungsfähigkeit u. a.) und Erfahrung; c) seiner Einstellungen, Erwartungshaltungen, Bedürfnisse, Reaktionstendenzen, Hypothesen, Projektionsneigungen usw. - allgemeiner Art; - im speziellen Fall.
2.2 Planer der psychodiagnostischen Untersuchung
... bestimmt das Ausmaß (Selektion) und die Art (Akzentuierung) der zu gewinnenden Befunde durch die Auswahl der Untersuchungsverfahren.
3.
Testsituation
. . . in ihren Komponenten a) Anlaß-und Folgesituation für den Probanden; b) Verlauf und Atmosphäre der Untersuchung; beeinflußt Erwartungshaltungen, Motivationen und Verhalten des Probanden und damit die Befunde
4.
Proband (Klient)
... steuert Produktion und Qualität von Informationen über sich selbst durch a) mangelnde Äußerungsfähigkeit (Verzerrung von Daten); b) mangelnde Äußerungswilligkeit (Unterdrükkung von Daten); c) andere, spezielle Taktiken (Verzerrung).
Tests im diagnostischen Prozeß: Grenzen lind Probleme
228 5.
Psychodiagnostiker
5.1 Testleiter
. . . modifiziert und unterdrückt Daten durch a) seine Person und Persönlichkeit («Testleitereffekt»); b) fehlerhafte und selektive Protokollierung.
5.2 Beurteiler
...interpretiert die erhaltenen Daten selektiv und akzentuierend aufgrund a) seiner theoretischen Position (Ausbildung, «Schule»); b) seiner Fähigkeiten (als Diagnostiker) und Erfahrung; c) seiner Einstellungen, Erwartungshaltungen, Bedürfnisse, Reaktionstendenzen, Hypothesen, Projektionsneigungen usw. - allgemeiner Art; - im speziellen Fall.
5.3 Gutachter
.. .bestimmt (selegiert) und gewichtet (akzentuiert) die Informationen, die dem Auftraggeber übermittelt werden, danach, was er für notwendig und geeignet hält, a) die Frage des Auftraggebers zu beantworten; b) eine mögliche Einstellungsänderung beim Auftraggeber zu erzielen.
6.
Gutachtenempfanger ...selegiert (sie!) und akzentuiert (bewertet) Aussagen und Empfehlungen des Gutachtens (bzw. Beratungsgesprächs) nach a) seinen Vorstellungen über psychologische und soziale Sachverhalte und Zusammenhänge (kognitiver Aspekt); b) seinen Erwartungshaltungen, Interessen und Zielvorstellungen im speziellen Fall (emotionalmotivationaler Aspekt); c) der dem Gutachter zugebilligten Glaubwürdigkeit (situativer Aspekt).
Tabelle 9: Selektion und Akzentuierung als Störvariablen psychologischer Begutachtung (nach Hartmann 1970, S. 99ff.)
Diagnostische Urteilsbildung
229
Auch diese systematische Übersicht ist lediglich ein Versuch, die Vielzahl der vermuteten und tatsächlichen Störmomente testpsychologischer Untersuchungen und der daraus gezogenen Stellungnahmen zu erhellen. Angesichts dieser erdrückenden Belege erübrigt es sich wohl, weitere Argumente anschließen zu müssen, um die Fragwürdigkeiten psychodiagnostischer Erkenntnisbildung im Zusammenspiel mit testpsychologischen Untersuchungen nachzuweisen. Der Argumentationsstand ist zwingend, auch wenn er sich nicht in eine numerische Größe nach Art des Schätzungseffektes umsetzen läßt (s. S. 152), um damit der Hoffnung Nachdruck zu verleihen, Befürworter psychologischer Tests und Prüfverfahren in ihrer Sprache leichter von der Fragwürdigkeit der Testpsychologie bzw. der psychologischen Diagnostik zu überzeugen. Für das Feld der betrieblichen Eignungsuntersuchungen ziehen deshalb Neubauer & Volkmann (1989) eine eigenwillige, gleichwohl konsequente Schlußfolgerung, die subjektiven Urteilskriterien wieder stärker zum Tragen kommen zu lassen in der Psychodiagnostik, weil die Wissenschaft kaum bessere Techniken als der Alltag entwickelt habe und auch die subjektiven Einflußgrößen durch Trainings nicht kontrollierbar seien. Schmidt (1982) zieht aus den diagnostischen Unsicherheiten die gegenteilige Schlußfolgerung und fragt, «ob Psychologen bei vielen Problemstellungen nicht besser als jede andere Berufsgruppe geeignet sind, diesen Verzerrungen des Informationsflusses und Selektionseffekten entgegenzuarbeiten und sogar zu ermöglichen» (S. 521). Für die Einzelfalldiagnostik ist dies zwar ein löblicher Anspruch, aber seine Umsetzung läßt sich nicht wirklich kontrollieren. Was bleibt, ist also eine Legitimation für die mängelbehaftete Psychodiagnostik. Ein Argument kommt hinzu: Selbst der nur anteilig gewichtete Einsatz psychologischer Hochschulzugangstests wurde von der Mehrheit der Psychologen als unverantwortlich bzw. fragwürdig angesehen (vgl. oben S. 44) - woher also solcher Sinneswandel dort, wo es um weitreichende Einzelentscheidungen anderer Art geht? Eines bleibt festzuhalten: Tests und Prüfverfahren sollen dem Zweck psychologischer Erkenntnisbildung dienen. Dies ist ihr Anspruch. Am Ende stellt sich aber heraus, daß diesem aus wissenschaftlicher Sicht kaum zu genügen ist und (bei weniger optimistischer Sicht als Schmidt) weitgehend in HandlungsSubjektivismen verfällt. Sehr gut kommt diese Bandbreite auch in dem Buch von Wöttawa & Hossiep (19^7) zum Ausdruck. Sich dies vorzustellen gelingt vielleicht besser anhand einer einfachen Graphik, die zwei entgegenstehende Dreiecke zeigt, entstanden aus einer diagonalen Halbierung eines liegenden Rechteckes. Während das eine aus einer wissenschaftlichen Sicherheit sich zur wissenschaftlichen Unsicherheit verjüngt, nimmt der Anteil der subjektiven Urteilsbildung und Handlungsvollzüge stetig zu.
230
Tests im diagnostischen Prozeß: Grenzen lind Probleme
Diagnostischer Prozeß
Abbildung 32: Abnahme wissenschaftlicher Urteilsgenauigkeit (Eindeutigkeit und Sicherheit) im diagnostischen Prozeß bei gleichzeitiger Zunahme subjektiver Urteilsanteile
Aus eben dieser skeptischen Sicht stellen Autoren in den verschiedensten Anwendungsfeldern psychologischer Tests und Begutachtungsmaßnahmen wiederholt die Frage nach dem Sinn bzw. der Funktion der Testerei im Gesamtfeld psychologischer Diagnostik. Denn obwohl deren wissenschaftliche Tragfähigkeit stark angezweifelt wird, läßt man sie ja in der Praxis nicht fallen wie eine heiße Kartoffel, sondern wärmt sich an ihr. Diese Tatsache hat neben anderen Probst (1973, 1984), Lorenz (1974), Spörli (1978), Jantzen (1983), Heim (1986), Hilke (1984), Kobi (1977), Pfäfflin (1978), Kornmann (1984), Lang (1978), und wie sie alle heißen, zu der Frage geführt, warum denn angesichts dieser eingeschränkten Erkenntniszuwächse überhaupt noch soviel, zumal kostenaufwendige Diagnostik und Testanwendung betrieben werden? Denn allein aus wissenschaftlicher Perspektive läßt sich diese Frage nicht zufriedenstellend beantworten. Statt dessen führt sie uns zurück zu den gesellschaftlichen Rahmenbedingungen.
6.6 Zur Funktion psychologischer Diagnostik und Testanwendung 6.6.1 Der diagnostische Prozeß Der erste Schritt auf dem Wege zu einer grundsätzlichen Beantwortung der Frage nach den Gründen für die Anwendung psychologischer Tests und deren tatsächlicher Funktion führt zum diagnostischen Prozeß. Ob pädagogische oder klinische, ob Persönlichkeits- oder Einstellungsdiagnostik: der Test selbst ist immer in den Gesamtablauf des Diagnoseprozesses eingebettet. Ein Ziel ist vorgegeben, das der Auftraggeber formu-
Zur Funktion psychologischer Diagnostik und Testanwendung
231
liert hat, und zur Erreichung dieses Zieles (Urteil, Empfehlung, Entscheidung) soll das Testergebnis beitragen. Es soll dem Auftraggeber Erkenntnisse bringen und seine Entscheidung rational unterlegen. Dieses Ansinnen ist gerechtfertigt, wenn damit die Interessen der Auftraggeber wie die der Getesteten in gleichem Maße befriedigt werden und wenn der Gewinn auf beiden Seiten gleich groß ist. Daß dem nicht (immer) so ist, haben wir auf den vorangegangenen Seiten oft genug angesprochen. Die gegebenen ökonomischen, politischen oder sozialen Machtstrukturen in unserer Gesellschaft und die Möglichkeiten des Zugriffs auf sie schließen teils die Transparenz des diagnostischen Prozedere, vor allem aber ausgeglichene Nutzenanteile aus; oft stellen sie gar bloße Nullsummenspiele dar: Was der eine gewinnt, geht zu Lasten des anderen. Machtstrukturen wirken sich aber bestenfalls auf das Wieviel des Erkenntnisgewinns und seinen Inhalt aus; sie erklären jedoch weder das Erkenntniswtere&se hinreichend noch die Wahl der Mittel. Dafür gibt es sehr unterschiedliche Erklärungsansätze, die in ihrer Verschiedenheit zwei Sichtweisen zuzuordnen sind: einer eher anthropologisch-psychologischen und einer gesellschaftlichen , die ökonomische, politische und soziale Faktoren gleichermaßen berücksichtigt. 6.6.2 Anthropologisch-psychologische Erklärangsansätze Als menschliches Grundbedürfnis (gleichsam eine anthropologische Konstante) begreift Szasz (1978), wohl einer der radikalsten Kritiker der (institutionalisierten) Psychiatrie, die Tätigkeit des psychiatrischen Diagnostizierens bzw. Unterscheidens. «Der Mensch ist das einzige Tier, welches einstuft. Alles was wir wahrnehmen oder tun, muß in die ihm gemäße Kategorie eingeordnet werden» (S. 148). Das typische Schubladendenken, was uns tagtäglich begegnet. «Klassifikation ist kein Reservat der Wissenschaft oder der Wissenschaftler, sondern ein elementarer menschlicher Akt... Der Akt der Benennung oder Klassifizierung ist auf das Innigste mit dem menschlichen Bedürfnis nach Kontrolle oder Bemeisterung verquickt» (S. 149). Es liefert uns Ordnungen, «dank deren wir über allerlei Geschehnisse in unserer Umgebung nicht immer wieder in Erstaunen geraten brauchen» (S. 158). Und weiter schreibt Szasz: «Aber es genügt nicht, daß der Mensch die Bewegungen der Planeten, das Wachsen und Vergehen der Pflanzen und das Verhalten der Tiere versteht und daher berücksichtigen oder ändern kann. Für den Menschen gibt es noch eine andere Quelle des Geheimnisvollen: andere Menschen» (S. 159). Den Mitmenschen werden soziale Rollen bzw. Identitäten zugeschrieben - der «Nörgler» oder «Pyromane», der «Querulant» oder die
232
Tests im diagnostischen Prozeß: Grenzen lind Probleme
«Hysterikerin». Menschen sperren sich ein in ein Klassifizierungsgefängnis, dessen Zellen die persönlichen Identitäten sind. Unter Bezugnahme auf Heiß (1969, S. 4) formuliert Spörli (1978): «Hinter der Psychodiagnostik steht wie hinter anderen Bewältigungsstrategien des Menschen ... der , dessen letztliches Ziel der Umbau des hilflosigkeitserzeugenden Chaos zu einer handlungsermöglichenden Welt ist» (S.41). Das Klassifikationbedürfnis nimmt zu, je komplexer und vielschichtiger die Gesellschaft wird. Dort, wo sich bewegliche soziale Rangordnungen mit variablen Besetzungsmöglichkeiten gegenüber starren etablieren (Industriegesellschaften vs. Kastensystem Indiens), wird ein Auswahlsystem und werden Kriterien für die soziale oder fähigkeitsorientierte Unterscheidung notwendig (Boesch 1969, S. 4). «Je beweglicher aber eine Rangordnung ist, desto mehr gehört zur Struktur einer solchen Gesellschaftsform, Prüf- und Auswahlsysteme zu entwickeln, welche der Bewertung, Beurteilung und Einstufung des Individuums dienen» (Boesch 1969, S. 5). Auch die Analyse des Arbeitsprozesses bei Marx (Das Kapital, Bd. 1) - für die Psychologie z.B. durch Leontjew in der Theorie der Aneignung nutzbar gemacht (Leontjew 1971) - bietet für die Erklärung des Erkenntnisinteresses von Menschen in bezug auf andere Menschen oder sich selbst gegenüber Ansatzpunkte. Nach ihm ringt der Mensch im Arbeitsprozeß der Natur gemeinsam mit anderen Menschen die lebensnotwendigen Stoffe ab und bringt sie in eine für sein eigenes Leben brauchbare Form. Eine Reproduktion menschlichen Lebens, die nicht der bloßen Zufälligkeit ausgeliefert sein soll, sondern vernunftgeleitet, geregelt und bewußt gestaltet ist, bedarf sowohl der Kenntnis der Gesetzmäßigkeiten der Natur, der die lebensnotwendigen Stoffe abgerungen werden, als auch der Kenntnis der Fähigkeiten und Bedürfnisse aller am Arbeitsprozeß Beteiligten. Zu wissen, wie schnell ein anderes Mitglied der Gemeinschaft bei der Tierjagd ist oder wie mutig, ermöglicht dem anderen Orientierung und Handlungskorrektiv. Im gemeinsamen Umgang kristallisiert sich ein «Bild vom anderen» heraus. Der andere wird jemand «für mich» (der Weitsichtige zum «Adlerauge», der Fährtenleser zur «Kojotennase») wie ich «für ihn». Hier öffnet sich dann auch der anthropologische Blick dem Sozialen. Nur indem ich erfahre, wie andere sich mir gegenüber verhalten, erfahre ich etwas über mich, erkenne mich. Indem ich in ein erkennendes, also gnostisches Verhältnis zu einem anderen Menschen trete, trete ich zu mir selbst in eine «gnostische Beziehung». Nicht der Fichtesche Philosoph («Ich bin ich») verschafft sich sein Wissen über sich aus sich selbst heraus, sondern im Spiegel des anderen. «Erst durch die Beziehung auf den Menschen Paul als seinesgleichen bezieht sich der Mensch Peter auf sich selbst als Menschen» (Marx: Das Kapital Bd. 1, S. 67). Das selbstrefle-
Zur Funktion psychologischer Diagnostik und Testanwendung
233
xive wie das fremdgerichtete Erkenntnisinteresse, auch wenn sie über den Prozeß der Arbeit vermittelt sind, haben noch nicht die Gesellschaft als Ganzes im Blick, sondern sind individuell in der Natur der Sache begründet. 6.6.3 Gesellschaftlicher Erklärungsansatz «Wenn eine Gesellschaft gut funktionieren soll, müssen sich ihre Mitglieder einen Charakter aneignen, aus dem heraus sie so handeln wollen, wie sie aufgrund ihrer Zugehörigkeit zu dieser Gesellschaft oder einer besonderen Klasse innerhalb dieser handeln müssen. Sie müssen genau das zu tun wünschen, was sie notwendigerweise tatsächlich zu tun haben. Äußerer Druck wird durch inneren Zwang und durch eine besondere Art menschlicher Energie ersetzt, die in die Charakterzüge einfließt» (Türk 1981, S. 132, alle Hervorhebungen im Original). In sozialen Systemen existieren Vereinbarungen und/oder Setzungen von Reproduktionszielen und -prozessen auf allen Ebenen des sozialen Zusammenlebens und in allen gesellschaftlichen (ökonomischen, politischen, institutionellen, administrativen etc.) Bereichen. Allgemein geht es darum, die Sozietät, sich selbst sowie die Bedingungen der eigenen Existenz (den Sozialpartner wie die Natur) am Leben zu erhalten. Diese Vereinbarungen sind entweder kodifiziert im Recht oder in den vorherrschenden Wert- und Normsystemen, Leitideen, Regeln, Symbolen des Alltags bis hinunter in die «Benimmregeln» des Herrn Knigge oder seiner Nachfolger. Diese allesamt sind für jedes Individuum und jede soziale Gruppe handlungs- und bewertungsleitend bzw. geben für jedwedes individuelles Verhalten den internen oder externen Rahmen ab. Sich innerhalb dieser sozial abgesteckten Grenzen zu bewegen heißt, sich konform, loyal, angepaßt, unauffällig, normal zu verhalten. Die einen leiden darunter und fühlen sich zu sehr in einer Zwangsjacke, weil sie entsprechend ihren eigenen Interessen entweder nicht die Zwecke, die Ziele oder die 1 Wege der Vorgaben akzeptieren. Die anderen haben diese Verhaltensregeln so verinnnerlicht, daß ihnen das, was sie tun und wie sie es tun, als alltägliche, nicht mehr zu überdenkende Selbstverständlichkeit vorkommt. * Hier geht es einstweilen nur darum, deutlich werden zu lassen, daß soziale Systeme auf ihre Selbsterhaltung bzw. Reproduktion ausgerichtet sind. Der Staat, den sich die Bürger einstmals im Akt des Gesellschaftsvertrages als Institution schufen, soll u.a. diesem Zweck dienen: ihr Eigentum, ihre Freiheit, ihre Selbstverständlichkeiten vor inneren und äußeren Feinden zu schützen etc. Daß sich diese Verhältnisse auch umkeh-
234
Tests im diagnostischen Prozeß: Grenzen lind Probleme
ren können, wie für die Bundesrepublik wiederholt aufgewiesen wurde (Appel u.a. 1988; Brückner & Krovoza 1972; Cobler 1976; Gipser u.a. 1984; Wambach 1983), ist bekannt und soll hier nicht weiter vertieft werden. Dort, wo die gesellschaftliche Ordnung angezweifelt wird und in den Zielkonflikt zwischen Bestandserhaltung und emanzipatorischen Interessen gerät (vgl. Kaiser 1972), werden Sanktionen sichtbar, die der Aufrechterhaltung der Konformität und der sozialen Integration dienlich sind. Wer die Reproduktion einer Gesellschaft seiner subjektiven Interessen oder spezifischer Gruppeninteressen wegen gefährdet, wird «zurechtgestutzt». Wer begründeten Zweifel an der Menschlichkeit unserer Gesellschaft oder ihrer staatlichen Institutionen hat, wer sie der Inhumanität, der Unterdrückung und Gewaltanwendung, aber auch der Reproduktion sozialer Ungleichheiten bezichtigt, und gemäß seiner Einsicht (politisch) handeln will, dem droht Ausgrenzung, Stigmatisierung, Strafverfolgung, Berufsverbot etc. Der kritische Staatsbürger wird zum Sicherheitsrisiko erklärt. «Die Gefahr geht vön den Menschen aus», wurde bereits 1951 von der Bundesregierung formuliert. Also muß die Gefahr unter Kontrolle gebracht, müssen die Menschen kontrolliert werden sowohl ihr Handeln als auch ihr Denken und ihre Gesinnung. Notfalls muß "gemaßregelt werden, um eine innerstaatliche Ruhigstellung zu erwirken (vgl. Vobruba 1983). Die politische und gesellschaftliche Wirklichkeit der BRD spiegelt Machtverhältnisse wider, die ihrerseits in der ungleichen Verteilung von und Zugriffsmöglichkeiten auf ökonomische Ressourcen begründet sind. Die Aufrechterhaltung dieser herrschenden Verhältnisse setzt das bereitwillige Funktionieren und die Loyalität der Mehrzahl der in ihnen arbeitenden und lebenden Menschen voraus. Dies allzeit - besonders aber in Krisenzeiten - zu gewährleisten, ist die Aufgabe der Polizei, der Rechtsprechung, der öffentlichen Medien, des Militärs und nicht zuletzt auch der Wissenschaft. 6.6.3.1 Wissenschaft - Mittel für Zwecke Die Funktion der Psychiatrie mit ihren Theorien, Klassifikationssystemen und Methoden einerseits, ihren institutionellen (Gewalt-)Strukturen andererseits haben Dörner (1975 b), Heitkamp (1987), Jervis (1978), Rasch (1990), Rufer (1988), Szasz (1978) herausgearbeitet und einer (sozialgeschichtlichen) Analyse unterzogen. Mit dem Ergebnis, daß die psychiatrische Diagnostik den Prozeß der sozialen Ausgrenzung und Etikettierung abweichenden Verhaltens im Alltag wissenschaftlich fortsetzt und perfektioniert. Dörner schließt an die anthropologisch-psychologisierende Sichtweise an und bezieht sie auf unsere gegenwärtigen gesellschaftlichen Verhältnisse. Zunächst vertritt er die Auffassung, nach der «Diagnostizieren... dem Ordnungsbedürfnis der Menschen (entspricht; S. G.), dem Bedürfnis, in
Zur Funktion psychologischer Diagnostik und Testanwendung
235
einem bisher undurchschaubaren, chaotischen, freien, vielleicht auch sozial gefährlichen und angstauslösenden Bereich Ordnung zu schaffen durch Einordnen, Klassifizieren, Systematisieren» (Dörner 1975 a, S. 139). Mit der Klassifikation ist dieser ordnungsgebende Prozeß aber noch nicht abgeschlossen. «Der andere Anspruch des Diagnostizierens besteht darin, Handlungsanweisungen zu schaffen... für Therapie und Heilung ... Diagnosen sind somit die Basis für Administration, Planung, sonstige Statistik, jede Forschung und Therapie in der Medizin» (Dörner 1975 a, S. 139). Wer sozial gefährlich ist, wer Angst auslöst, der muß diagnostiziert werden, um therapiert und schließlich geheilt werden zu können; zwischen der Diagnose und der Heilung stehen außer der Therapie noch Verwaltung und Planung, Statistik und Forschung. Das «Ordnungsbedürfnis» läßt sich so präzisieren: Wer den Anschein erweckt, sozial gefährlich zu sein oder Angst bei Mitmenschen auszulösen, der wird diagnostiziert; bestätigt die Diagnose den Schein, wird geforscht (welche Gründe für seine Gefährlichkeit, wie zu beheben?), Statistik getrieben (gibt es noch mehr ähnlich Gefährliche?), verwaltet (wo können wir mit ihm hin, damit seine Gefährlichkeit nicht manifest wird?), geplant (was müssen wir unternehmen?) und therapiert (seine Gefährlichkeit wird beseitigt). In Einzelfällen wird ein dauerhafter Erfolg, in anderen nur ein zeitlich begrenzter erreicht, und wo es gar nicht mit der Therapie klappt, finden sich ausreichend Möglichkeiten der kontrollierten Verwahrung. Was auf den ersten Blick eine abstrakte Beschreibung eines sozialen Vorganges ist, wird von Dörner bei der Analyse des diagnostischen Prozesses unzweifelhaft in eine soziale Wirklichkeit zurückgeführt, die seinen kritischen Blick auf die Herrschaftsverhältnisse in unserer Gesellschaft zuerkennen gibt: Soziale Eliten, politische Machtgruppen bzw. von diesen legitimierte Experten und nicht die Betroffenen selbst oder ihre Fürsprecher definieren, was abweichendes (gefährliches) Verhalten ist und machen es durch Gesetz und Normen erkennbar, diagnostizierbar und greifbar. In diesen Prozeß schaltet sich selbst der CDU-Vorsitzende ein. «Politische Gegner (Schreihälse) gehören in eine psychiatrische Behandlung» (Bundeskanzler Kohl am 28.8.1987 auf einer Wahlkampfveranstaltung in Itzehoe). Wird die Normverletzung für «die Gesellschaft» zu gefährlich (ist etwa der Arbeits-, der soziale, der Familien- oder Betriebsfrieden gestört), setzt sie Institutionen mit diagnostischer Valenz in Bewegung (Ärzte, Psychologen, Polizei, Jugendamt usw.), es «setzt der Prozeß der sozialen Etikettierung ein, mit dem Ziel der Ausgrenzung und dem Zweck der Stabilisierung einer vermeintlich bedrohten Sozialstruktur... Die Diagnose verstärkt die Grundregelverletzung weiter, definiert und stabilisiert sie und ontologisiert sie schließlich zur Krankheit» (Dörner 1975 a, S. 143). Krankheit und gar ihre
236
Tests im diagnostischen Prozeß: Grenzen lind Probleme
«Verwaltung» (Krankenhaus) komplettieren ein Stigma, das tödlich sein kann (Dörner 1975 a, S. 137, berichtet über einen solchen Fall); «in der Nazi-Zeit war die Diagnose Schizophrenie ein Todesurteil» (Dörner 1975 a, S. 144; ausführlicher dazu Dörner 1988). Die Schlußfolgerungen für den diagnostischen Prozeß lauten so: «Die Diagnose erfüllt demnach eine Ordnungsfunktion für die Gesellschaft und für das jeweilige konkrete soziale System eines Individuums. Die Diagnose ist ein Instrument, mit dem die Gesellschaft Störungen, Gefährdungen in ihrem empfindlichsten Bereich, den Grundregeln, gerade nicht durchschaut, sondern abdeckt, abwiegelt, administrativ in den Griff bekommt und unschädlich macht, indem die soziale Etikettierung medizinisch-wissenschaftlich vervollständigt wird» (Dörner 1975 a, S. 144). Der Diagnostiker hat «gesellschaftliche Kontrollfunktion und Macht» (Dörner 1975 a, S. 145); sie wird ihm über seine Ausbildung und seine berufliche Funktion von der Gesellschaft zugesprochen; er handelt im Auftrag der Gesellschaft. «Die Diagnose der Abnormität ist ein sozialer Akt, der in einer gegebenen Situation aufgrund des Verhaltens einer Person mittels einer verfügbaren Diagnoseeinheit und eines Diagnostikers zustande kommt» (Ullman & Krasner 1969, S. 22). Daß Dörner (1975 a) zwar die Ordnungs-, nicht jedoch die Erkenntnisfunktion der Diagnostik heraushebt, mag in der Selbstverständlichkeit liegen, die diese für ihn hat. Denn es wäre einäugig, ihr diese abschreiben zu wollen. Gewiß möchte ein Therapeut beispielsweise wissen, warum jemand unerträgliche Angst vor Verfolgung oder Schmutz hat, weshalb jemand nicht aufmerksam sein kann oder depressiv ist. Auch eine Ärztin in der Psychiatrie wird sich über eine geheilte Patientin freuen (gerade weil dies in den unzulänglich ausgestatteten psychiatrischen Anstalten so selten ist). Und selbstverständlich hat ein psychiatrischer Gutachter in seiner Funktion den Anspruch, sachlich Richtiges und Begründetes über einen Sexualstraftäter niederzuschreiben. Je stimmiger dies ist, um so perfekter greifen ja auch die Ordnungsmaßnahmen. Kontroll- und Erkenntnisfunktion transportieren sich also im diagnostischen Prozeß gegenseitig, eng umschlungen und verbunden wie die Innenseite mit der Außenseite. Diesen ihren Doppelcharakter gilt es festzuhalten, weil er und nur er begreiflich werden läßt, daß die psychologische Diagnostik ihre repressive Bestimmung nicht erst in der Anwendung erhält, sondern bereits mitbringt in ihrer Erkenntnisfunktion. In diesem Gesamtprozeß haben dann auch die psychologischen Tests und Prüfverfahren als Methoden den Stellenwert, welchen wir ihnen im Kapitel 1 und 2 zugewiesen haben. Sie entstehen in konkreten gesellschaftlichen Bedingungskonstellationen, für die sie technische Lösungen bieten w(s)ollen, und erhalten aus diesem Zusammenhang ihre besonderen Eigenschaften, die ihnen
Zur Funktion psychologischer Diagnostik und Testanwendung
237
innewohnen{genuines Zweck-Mittel-Verhältnis). Sie sollen dem Klassifizieren dienen, dem Normabgleich oder der Definition der Abweichungsbreite. So sind sie Instrumente oder besser Werkzeuge wissenschaftlicher Ordnungsproduktion zur Aufrechterhaltung bestehender Herrschaftsverhältnisse, die sie auch dann bleiben, wenn ein gutmeinender Sonderschullehrer oder eine uneinsichtige Psychologin sie anwendet. Eine «Diagnostik im Interesse der Betroffenen» (Jantzen 1982) ist dann zwar löblich, aber im Vergleich zu Dörners Sichtweise einäugig zur anderen Seite. In dessen Ausführungen (Dörner 1975 a), übertragbar auch auf die psychologische Diagnostik, wird der genuine, nicht der praxeologische Zweck-Mittel-Charakter der Wissenschaft, besonders der Diagnostik mit ihren Klassifikationssystemen und Methoden hervorgekehrt. Ein nosologisches System wie der DSM III (vgl. Kapitel 7, S. 244), ebenso aber ein Test oder das Ausfragen der Klienten (Exploration) sind Mittel, die durch und in ihrer Beschaffenheit dem Zweck der gesellschaftlichen Ordnungsund Erkenntnisfunktion genuin dienlich sind. Deretwegen konnten sie sich ja auch erst herausbilden. Ihrer Eigenschaft der Individualisierung oder Ontologisierung gesellschaftlicher Anforderungen wegen eignen sich psychologische Tests nun hervorragend als ordnungsstiftende Instrumente. Der einzelne, nicht die Gesellschaft, muß nachweisen, ob die abverlangten Leistungen oder Verhaltensweisen vorhanden sind bzw. gezeigt werden können und warum nicht. Daß die sozialen, politischen oder allgemeinen Lebensumstände für das Vorhandensein oder Nicht-Vorhandensein der erwarteten Fähigkeiten oder Kompetenzen mindestens ebenso verantwortlich sind, wird abgedeckt, ignoriert oder in Abrede gestellt, entgegen tatsächlichen Gegebenheiten. Löschenkohl hat eine Fülle von Zusammenhängen zwischen Schulreife und Sozialisations- und Entwicklungsbedingungen untersucht und festgestellt, daß vor allem die Lebensumstände sozial benachteiligter (Unterschicht-)Kinder zu verspäteter Schulreife führen (1975, S. 163ff.). Oft genug wird «Lernbehinderung» bei Unterschichtkindern festgestellt mit dem Resultat der Sonderschuleinweisung, obwohl die Kinder wohl «verhaltensauffällig», aber normal intelligent sind (Ferdinand & Uhr 1973, S.31). Die Opfer institutioneller oder rechtlicher Regelungen werden im Prozeß der testpsychologischen Begutachtung zu ihren eigenen Verursachern umdefiniert. Als dieses Mittel täuschen psychologische Tests auch Interesse vor an den Getesteten. «Dies entspricht jedoch nicht den Tatsachen: indem die psychodiagnostische Untersuchung sich den Anschein gibt, über die unmittelbare Lage des Untersuchten als Patient hinauszureichen und seine Lebenssituation zu betreffen, wird sie klägliches Substitut tatsächlicher materiell faßbarer - Rehabilitationsmaßnahmen» (Lorenz 1974, S. 166).
238
Tests im diagnostischen Prozeß: Grenzen lind Probleme
Ein weiteres Moment kommt hinzu: Den Betroffenen gegenüber wird der Eindruck wissenschaftlicher Gewißheit, Präzision und Machbarkeit erzeugt, der schließlich in Wissenschaftsgläubigkeit kulminiert: die unbestechliche Wissenschaft als «Heilsbringer» und «Problemloser». Diesen Mythos haben psychologische Tests allemal, und sie bewirken darin auch, daß sich Getestete diesem Diktat - der technologischen Notwendigkeit und vermeintlichen Möglichkeit - unterwerfen. Entsprechend sind Prüfverfahren und Tests Mittel, deren Anwendung «die Unterwerfung unter eine Herrschaft (Hervorhbg. S. G.), die sich nicht als schlicht machtausübend, sondern als «rational urteilend» darstellt», erwirkt und vermittelt (Lorenz 1974, S. 167). Anders stellt sich ihr Mittelcharakter auf Seiten der Testanwender bzw. Auftraggeber dar. Typisch sind Situationen, in denen beispielsweise Eltern im Gespräch mit Schulvertretern über die Ergebnisse der Sonderschulüberprüfung informiert werden. Das hochgehaltene Ergebnisblatt, mit der einen oder anderen Profilkurve versehen, wird als untrüglicher Beleg hingestellt, was die Leistungsfähigkeit des Kindes angeht. «Sachzwänge» nennen es die einen, «Schutzschild» die anderen. Die Verantwortung für die biographischen Folgen einer Entscheidung zu übernehmen wird abgelehnt. Zumal wenn die Testanwendung gegen subjektive Überzeugungen geschieht. Die Diagnose als abschließendes Urteil über eine Person, das hatte Dörner bereits benannt, ist ein Mittel der Etikettierung oder Stigmatisierung der betreffenden Person. «Samson ist ein schlechter Schüler»; «Elisabeth ist in ihrem Verhalten einer Hysterikerin gleichzusetzen», «Herr K. ist bis auf weiteres zum Führen von Kraftfahrzeugen nicht geeignet» usw. Diese in die wissenschaftlichen Begründungszusammenhänge hineinreichenden Schlußfolgerungen verweisen auf den Mittelcharakter von Wissenschaft und Forschung insgesamt. Dieser sticht besonders ins Auge, wo sich die Wissenschaft bzw. ihre Träger zur Lösung der gesellschaftlich aufgeworfenen Probleme andient, wo Wissenschaftler zu «Befriedungsstrategen» statt zu Fürsprechern der Betroffenen werden, die Opfer gesellschaftlicher Ungleichheiten und Miseren sind (Grubitzsch 1988). Haben wir bislang den genuinen Mittelcharakter der Wissenschaft skizziert, bedarf es nun zum Verständnis des Gesamtzusammenhanges der Seite der Folgen, um die von den Zwecken gesellschaftlich hervorgetriebenen Mittel besser beurteilen zu können. Zweck-, Mittel- und Folgenauflistung sind in übersichtlicher Form der nachfolgenden Tabelle zu entnehmen. 6.6.3.2 Folgen der Mittelanwendung Nachdem Lorenz (1974) seine Untersuchung zur Psychodiagnostik in der Psychiatrie durchgeführt hatte, mit der er speziell die Frage nach der gesellschaftlichen Bedeutung
Zur Funktion psychologischer Diagnostik und Testanwendung Grand/Zwecke Menschliches Grundbedürfnis nach Ordnung (anthropologisches Grundbedürfnis) Gesellschaftliches/staatliches Bedürfnis nach sozialer Ordnung und Konformität
239
Mittel
Folgen
Exploration Statistik Diagnostik Psychiatrie Test Charakterologie Nosologie Therapie
Legitimation von Zwang, Macht, Normen Stigmatisierung, Individualisierung Zurichtung Verhaltenskontrolle Loyalitätskontrolle Erkenntnisbildüng Ideologie Sozialkontrolle
Tabelle 10: Zweck-, Mittel- und Folgerelation im Hinblick auf die psychologische Diagnostik bzw. Anwendung von Test- und Prüfverfahren im engeren Sinne
psychodiagnostischer Arbeit in den psychiatrischen Kliniken beantwortet wissen wollte, kommt er zu dem Schluß: «Der Nutzen der Psychodiagnostik kann daher im Augenblick wohl kaum umfassend und unmittelbar ökonomisch (finanziell) bestimmt werden» (S. 164). Ihre Kosten veranschlagt er mit 1 DM pro 10 000 DM, die für die Wiederherstellung bzw. den Erhalt der Gesundheit verausgabt werden. Daß Psychodiagnostik ohne erkenntlichen monetären Nutzen betrieben wird, vermag er nur mit ihrer ideologischen bzw. apologetischen Funktion zu erklären. Psychodiagnostik dient der «nachträglichen Legitimation (Hervorhbg. S. G.) bereits gefällter Urteile über die Patienten» (S. 167). Übrigens auch eine Schlußfolgerung, zu der Probst (1973) kommt, nachdem er den Nutzen der Anwendung des HAWIK im Sonderschulüberweisungsverfahren i|berprüft hatte. Seinen Ergebnissen folgend besteht ein eklatantes Mißverhältnis zwischenfinanziellemAufwand und Qualität der Testdaten bzw. ihrer prognostischen Validität. Billiger wäre es, sozioökonomische Basisdaten (Wohnungsgröße, Urlaubsfahrten, Einkommen der Eltern etc.) zu verwenden, um gleiche Vörhersageeffekte zu erzielen. In der Tatsache, daß in der Praxisfinanziellaufwendigere Wege gegangen werden, sieht Probst einen Beleg dafür, daß den Testverfahren offensichtlich weitere Aufgaben zukommen; eine davon sei die ex-post-Legitimation bereits getroffener institutioneller Entscheidungen über den künftigen Schulaufenthalt einer/s Schülerin/s. In einem Buch über Aufnahmetests für Gymnasien und Realschulen steht: «Das Gymnasium dient der Entfaltung theoretisch-wissenschaftlicher Begabungen... die Realschule ist auf Begabungen hin orientiert, die ihren Schwerpunkt im geistigen Nachvollzug haben... der Schwerpunkt der Hauptschule liegt im Bereich der prakti-
240
Tests im diagnostischen Prozeß: Grenzen lind Probleme
sehen Begabung» (Nikol & Lindauer 1972, S. 6), und entsprechende Berufsbereiche werden den unterschiedlichen Begabungen zugeteilt. Folge der Tests ist dann - natürlich den Eltern schwarz auf weiß die Begabung, damit den notwendigen Schultyp ihrer Kinder und damit ihren Platz in der Gesellschaft zu demonstrieren. «So liegt in der Eignungs- und Leistungsbeurteilung durch Tests wiederum nur die schon im Aufstieg der Begabten vorhandene Absicht der Auslese einiger , , , » (Schmid 1977, S. 178). Wer muß sich hier eigentlich vor wem legitimieren? Die Schulbehörde vor den Eltern, die Richterin vor den Rechtsvertretern der streitenden Parteien, der Staat bzw. seine Organe vor den Bürgern, der Arzt vor den Patienten? Die Legitimation hilft, die gegebenen Macht- und Entscheidungsstrukturen m der Gesellschaft bzw. ihren Institutionen und Organisationen aufrechtzuerhalten. Die Aussagen, jemand sei für niedere Sklavenarbeit geschaffen, oder die Frauen seien von Natur aus (gottgewollt) für ihre Rolle als Mutter und Hausfrau prädestiniert, sind solche Legitimationen. Dadurch werden bestehende Herrschaftsstrukturen abgesichert bzw. entnehmen die in ihnen agierenden Entscheidungsträger ihre Rechtfertigung. Wenn Tests oben als «Schutzschild» eingestuft wurden, so sind sie dies eben auch in diesem legitimatorischen Sinn: «Der Test hat erbracht...» Soweit ist die Folge bzw. der Zweck der Testanwendung aus Sicht der kulturellen Eliteii bzw. der von ihnen Beauftragten benannt; sie helfen die eigene Definitionsgewalt abzusichern. Auf der anderen Seite stehen die Betroffenen dieser Entscheidungen als Ziel«objekte». Sie gilt es zu kontrollieren, zu behandeln, zu verurteilen, zu überweisen, zu beobachten, zu bestrafen - als einzelne oder als soziale Gruppen (Grubitzsch 1985 b). Entsprechend müssen wir zwischen zwei Arten von Stabilisierungs- bzw. Kontrollmaßnahmen unterscheiden, die einmal auf die Sozietät als Ganzes, auf die Gesellschaft gerichtet sind (z.B. Sozialkontrolle), zum anderen nur dem Individuum ('Verhaltenskontrolle, Loyalitätsüberprüfung) gelten. Deutlich wird dies auch bei der Überweisung in die Sonderschule: Dorthin kommt, wer den Unterrichtsablauf in der Regelschule stört, aufhält oder in anderer Weise belastet. Das gilt für andere Institutionen ähnlich. «In Wirklichkeit werden Personen ausgewählt, die in den Rahmen einer Institution nicht hineinzupassen scheinen. Dadurch, daß die der Institution dienenden Tests den Probanden auf seine Brauchbarkeit in bestehenden Institutionen hin überprüfen, üben sie eine systemstabilisierende Wirkung aus» (Zeuch 1973, S. 341). Sozialer Konfliktstoff, das Infragestellen offizieller Entscheidungsstrukturen und scheinbarer sozialer oder politischer Selbstverständlichkeiten, konkreter: von Umschulungsmaßnahmen, Studienplatzvergabe, Sorgerechtsregelung, Fahreignung oder Erwerbsunfähigkeitsüberprüfungen,
Zur Funktion psychologischer Diagnostik und Testanwendung
241
wird gedämpft bzw. abgefedert durch die Einbeziehung Wissenschaft-, licher Befunde. Vor allem sozial benachteiligte Personen(gruppen) oder Minderheiten sind hier wiederholt die Leidtragenden, denen bereits im Vorfeld Einhalt zu gebieten ist. Dies erörtert auch Kreissl (1986) in seinem Buch zur sozialen Kontrolle. Unser Rechts- und Strafsystem zielt darauf ab, täterorientiert Schuld sühnen zu wollen, ohne darin wirkliche Effizienz erkennen zu lassen. Diese soll durch die «Erzeugung des Eindrucks einer umfassenden Kontrollpotenz» (S. 78) geschaffen werden. «Da sich die symbolische Inszenierung sozialer Kontrolle zunehmend weniger auf die Demonstration konkret repressiver Akte stützen kann, gewinnt die Erzeugung ... an Bedeutung. Aufgabe der Soziologie ist es dabei, zu erhöhen oder anders: der «Inszenierung kollektiver Bedrohung^ durch die Bereitstellung wissenschaftlicher Begründungszusammenhänge dienlich zu sein. Dies tut die Psychologie als Nachbarwissenschaft nicht minder, wenn sie Theorien abweichenden Verhaltens, sozialpsychologische Erklärungsansätze für Gewaltakte Jugendlicher in Fußballstadien oder Begründungszusammenhänge für die Gefährlichkeit von politisch Andersdenkenden oder Nicht-Seßhaften erarbeitet, über die dann Ausgrenzungs-, Kontroll- oder Stigmatisierungsmaßnahmen legitimiert werden, anstatt die eigentlichen Ursachen der gesellschaftlichen Probleme anzugehen. Indem benachteiligte gesellschaftliche Gruppen am Zugang zu Machtpositionen gehindert werden, beispielsweise durch ungleich verteilte Bildungschancen, die Umverteilung des gesellschaftlichen Reichtums durch die unterschiedlichen Zugriffsmöglichkeiten darauf verunmöglicht wird und die Zerstörung öffentlicher Lebensqualität durch die Verurteilung der Ankläger weiter fortgesetzt werden kann, Regelverletzung und Normgebung also durch gesellschaftliche Eliten und ihre Zuträger definiert und geprägt sind, wird jedweder zum Störer, der das System als Ganzes anzweifelt. Anstatt die sozialen Gruppen* die eine Gesellschaft als eine ihrer Existenzbedingungen erst erzeugt, als innovative Potentiale zu begreifen, die Chancen bieten, die Lebensbedingungen zu verändern (Moskovici 1979), werden sie diszipliniert und ausgegrenzt - vom politisch Oppositionellen bis hin zum Obdachlosen, der ein unbewohntes Haus zu seiner Bleibe macht. Deshalb müssen Maßnahmen ergriffen werden, den einen zu beruhigen, den anderen zu vertreiben. Die Diagnostik im allgemeinen zählt im weitesten Sinne zu solchen ordnungsstiftenden Maßnahmen. Und nicht minder - im besonderen - die «Zubereitung» der Klienten bei der Definition ihrer Abweichungen durch Tests. Abweichungen, die den diagnostischen Prozeß herausforderten, waren immer und in erster Linie solche der Loyalität gegenüber dem Staat
242
Tests im diagnostischen Prozeß: Grenzen lind Probleme
und der Gesellschaft. Loyalität ist die zentrale «prozeßunabhängige Fähigkeit» des gesellschaftlichen Individuums. Der diagnostische Prozeß übernimmt die Aufgabe der Loyalitätsprüfung und -Wiederherstellung, wo «gefährliche» Abweichung sich zeigt. «Ein Test ist eine Prüfung» (Autorenkollektiv I, S. 120); er prüft Dinge, «an denen die Gesellschaft interessiert ist» (Ingenkamp 1975, S. 37): Anpassung an die gesellschaftlichen Normen und Regeln; Einsicht in die Angemessenheit des gesellschaftlichen Status quo. Der Prüfling ist potentieller Gegner, vielleicht illoyal, vielleicht gefährlich. Tests prüfen mehr oder weniger deutlich, ob der Prüfling die legalen und «gesellschaftlich» sanktionierten Normen und Regeln sich zu eigen gemacht hat. Sie gehen entweder in den Testinhalt ein (z. B. HAWIK: Rexilius 1976, S. 194; Zimmermann u.a. 1971, Probst 1985) oder in die Testkonstruktion als Konkurrenz und individuelles Leistungsprinzip, womit die scheinbare Selbstverständlichkeit des Kampfes um Arbeitsplätze sich als strukturelles Prinzip darstellt. «Die Tests sind im wesentlichen Loyalitätsuntersuchungen oder vielmehr Untersuchungen der möglichen Loyalität» (Zeuch 1973, S. 346). Und deshalb wird - trotz allem - getestet. Tests «messen» die «perfekte Anpassung... Wer den Rahmen akzeptiert, ist für Bildung geeignet... Intelligenz mißt sich nach der Logik des Reifetests am zu entwickelnden Gespür für das Passende, für das sogenannte Normale... Alles muß im Rahmen bleiben... Indem das sogenannte 65 Jahre - werden. Hier zeigen sich gelegentlich Extreme bis zu nur 2 Vpn. als «Normgruppe». Das solch Unsinn überhaupt veröffentlicht wird, liegt aber vor allem auch daran, daß es viele Psychologen gibt, denen das entsprechende Unrechtsbewußtsein einfach fehlt. Nach Testdurchführung und Auswertung wird ein Normabgleich durchgeführt und das Testdatum interpretiert. Damit endet die Untersuchung; Fragwürdigkeiten werden ignoriert. Die Computernutzung auf dieser Ebene hebt dieses Problem freilich nicht auf, sondern verschärft es eher noch. Ein anderes Problem kommt hinzu. Mit Hilfe des Computers lassen sich unendlich viele Variationen ein und desselben Tests herstellen - etwa zur Untersuchung des Konstruktes Daueraufmerksamkeit. So würde ein wahres Testchaos entstehen können, das jegliche Verbindlichkeit über die gemessenen Merkmale bzw. Merkmalsbereiche ignoriert. Ein Beispiel: Die Kollegin Greta untersucht den Patienten Seppel aus München. Sechs Monate später wird Seppel, der inzwischen nach Straubing zurückgekehrt ist, erneut im Krankenhaus behandelt. Der Kollege Gretas, Aloisius, liest von dem auffälligen Leistungsverlauf des Patienten bei der Daueraüfmerksamkeitsüberprüfung durch Greta. Selbst wenn Aloisius, genau wie Greta, über das «Wiener Testsystem» verfügte und daher die gleichen Testverfahren einsetzen könnte, so müssen beide noch lange nicht dasselbe tun. Die beiden Untersuchungen zur Daueraufmerksamkeitserfassung können völlig verschieden sein, dabei genügen geringfügige Parameterveränderungen (also der Vörgabegeschwindigkeit, Abfolge der Reize, Farbe der Reizvorgabe etc.), und dennoch wäre die Konstruktvalidität erhalten. Die maschinelle Durchführungs«objektivität» wäre allerdings nur dann gewährleistet, wenn Greta den Kopf der Testbatterie «Daueraufmerksamkeit» dem Untersuchungsbefund beilegte und Aloisius sich genötigt sehen würde, auf seinem System die gleichen Parameter einzustellen. Seine etwaige Befundung, daß die durch ihn erhaltenen Werte der Daueraufmerksamkeitsprüfung im Gegensatz zu Gretas Ergebnissen nun unauffälliger wären, würde im Sinn der Konstruktvalidität auch dann nicht zu widerlegen sein, wenn er andere Einzel-
Das computerunterstützte Testen (CUT)
305
parameter der gleichen Verfahren unter Einhaltung der Konstruktforderungen (1,5 Std., unterschiedliche Belastungsblöcke usw.) auf seinem System eingestellt hätte. Die Gefahr, daß sich hier jeder so seine Gedanken über die notwendigen Parameter («Testkonstruktion») macht, um die Kriterien beispielsweise für das Konstrukt «Daueraufmerksamkeit» oder «automatisierte Aufmerksamkeit» (Säring 1988; Anderson 1989) zu erfüllen, die nun ja auch dank des Computers leicht und unmittelbar umsetzbar sind, ist unübersehbar, solange keine Verbindlichkeiten hinsichtlich der Bestimmung spezifischer Konstrukte bestehen. Jäger (1990) sieht ähnliche Probleme und verweist auf erste, aber noch unzulängliche Ordnungsversuche. Wenn die völlige Offenheit («Manipulierbarkeit») der computergestützten Testverfahren einerseits die aufgezeigten Gefahren in sich birgt, so soll andererseits ein weiterer Vorteil der PC-Nutzung kurz angesprochen werden. Die Kollegin Greta verfügt neben den Leistungsparametern des Pat. Seppel auch über biographische Daten, Sozialdaten oder Aussagen von Arbeitskollegen über sein Verhalten am Arbeitsplatz. Solche Pat.-Daten werden routinemäßig in der vom «Testleitprogramm» bereitgestellten Datei «Psychindex» für jeden Pat. abgelegt und sind in dieser Form schnell abrufbar. Testergebnisse zur Daueraufmerksamkeit, Intelligenz, Streßverarbeitung, eventuelle zyklische Leistungsschwankungen (zu deren Bedeutung vgl. Wildgrube 1990) usw: ergänzen diesen Datensatz. Schließlich wird die ärztliche oder psychologische Diagnose festgehalten, werden Hinweise zur therapeutischen Intervention usw. abgespeichert. Der Vorteil liegt nun darin, daß diese patientenspezifischen Daten je nach Zweck und Bedarf nach eigenem Gusto geordnet und plaziert werden können durch eine freie Maskengenerierung. Auch Erweiterungen solcher Patientendateien sind jederzeit möglich. Für Forschungszwecke, klinikinterne Statistiken , Normenbildung in bezug auf bestimmte Pat.-Gruppen usw. lassen sich unterschiedliche Zugriffsmöglichkeiten und Auswertungsmodi bewerkstelligen, bis hin zu statistischen oder graphischen Analysen, ohne irgendwelche Zwischenschritte einschalten zu müssen. Die systematische Aufbereitung erleichtert das Suchen spezifischer Informationen, welches im übrigen dann auch automatisch abgewickelt werden kann. Halten wir fest: Der bestechende Vorteil des Computereinsatzes in der Testpsychologie ist die Möglichkeit eines nachvollziehbaren, transparenten Handelns mit komplexen Datensätzen, was der Eröffnung einer in der Psychodiagnostik bislang unbekannten bzw. ungenutzten Dimension gleichkommen dürfte. Vorauszusetzen dabei ist ein differenziertes Fachwissen, mit dem reflektiert umgegangen werden kann einerseits, geeignete technische Systemvoraussetzungen mit Profiqualität andererseits. Daß diese technischen Optionen flankiert sind
306
Der Einsatz des Computers in der psychologischen Diagnostik
von geeigneten Datenschutzkontrollen im Interesse der Betroffenen und nicht gegen sie verwendet werden, muß wohl nicht noch einmal ausdrücklich betont werden . Ein Streitpunkt bezüglich des Computereinsatzes in der diagnostischen Untersuchungspraxis ist der seiner «Seelenlosigkeit». Ein individualisierender Umgang mit einem ängstlichen Kind, einem mißtrauischen Erwachsenen oder einem schnell ermüdenden Patienten sei nicht zu erwarten. Dies sei nur einem geschulten Testleiter möglich. Und wenn schon Computereinsatz, dann doch wenigstens versierte Verhaltensbeobachtung, um die apparativen Daten später personbezogen besser interpretieren zu können, um Güte und Zuverlässigkeit der Aussagen zu erhöhen. Erfahrungen aus der Praxis legen allerdings eine andere Sichtweise nahe. Was weiter oben (s. S. 204f.) mit den Testleitereffekten als mögliche Störmomente im Rahmen von Testdurchführungen angesprochen wurde, wird durch das elektronische Medium endlich reduziert. Menschliche Kontakte etwa in einer Warming-up-Phase bleiben ja bestehen und könnten aus den nachfolgenden Zeitgewinnen durch die Technik sogar intensiviert werden. Das gilt auch für viele projektive Testverfahren, von denen ihrer materialen Beschaffenheit wegen gern behauptet wird, sie ließen sich mittels Computer nicht durchführen. Längst könnte ein RorschachTest, Baum-Test, ein TAT oder ein Wartegg-Zeichentest über den Monitor präsentiert werden. Daß diese Verfahren unter methodischen Gesichtspunkten deshalb nicht hochwertiger werden, ist wohl einsichtig. Immerhin wären aber die allerorten festgestellten Versuchsleitereffekte dadurch vielleicht zu minimieren. Erhöhen würden sich damit die Anwenderunabhängigkeit («Objektivität») ebenso wie die Zuverlässigkeit einer Untersuchung. Praktische Erfahrungen lassen erkennen, daß gegenüber herkömmlichen Testapplikationen computergesteuerte Testvorgaben erstaunliche Wiederholungszuverlässigkeiten aufweisen. Hierher zählt auch ein für einige Pat.-Gruppen wesentlicher Gesichtspunkt: Beispielsweise ist das Testergebnis von Pat., die schlecht sehen können, oftmals eine erhebliche Unterschätzung ihrer tatsächlichen Leistungsfähigkeit, die sie der kleinen oder eng gedrängten Schrift wegen (auf dem Testbogen oder im Testheft) gar nicht äußern können. «Sehartefakten» sind die Folgen (beispielsweise im «d2» oder LPS). Bei Verfahren mit vielen Fragen sind viele Pat. schon angesichts des Umfanges oft entmutigt oder verlieren den Überblick. Zwischendurch Pausen zuzulassen ist oft problematisch, da der Testleiter nicht immer überprüfen kann, inwieweit die Pat. zurückliegende Antworten verändern oder schon vorarbeiten. Zusätzlich erzeugen solche Tests außerdem sehr häufig Aufmerksamkeitsartefakte, auch im Sinn von Interferenzstörungsartefakten, die z. B. innerhalb einer Persönlichkeitsuntersuchung nichts zu suchen haben. Das
Das computerunterstützte Testen (CUT)
307
Adaptieren des Testmaterials wie des Testablaufs an die konkrete Person bleibt als gewichtiger Vorteil computerunterstützten Testens festzuhalten, entgegen der Meinung, die Apparate seien inflexibel und klientenfeindlich. Bereits angesprochen wurde im Beispiel von Greta und Aloisius die Konstruktorientiertheit der .Computersysteme. Sie besitzen diese ihrer hohen Flexibilität wegen. In der Literatur finden sich immer wieder gute und umfangreiche Beschreibungen über das Konstrukt «Daueraufmerksamkeit» (wie für Aufmerksamkeit schlechthin), aber kein Test, der dieses Konstrukt tatsächlich erfassen könnte. Mit Hilfe des Computers wird hier ein Weg eröffnet, der nur dank der apparativen Voraussetzungen möglich wird. Aus verschiedenen Testeinzelprogrammen mit jeweils frei wählbaren Parametern bezüglich Präsentationsgeschwindigkeit, Wiederholungszahl, Dauer der Darbietung, Länge der Testblöcke etc. können Testbatterien zusammengestellt werden (z. B. im Wiener Testsystem), die dann einem Patienten zur Bearbeitung vorgegeben werden. Für eine Wiederholung der Überprüfung der Daueraufmerksamkeit bei der gleichen Testperson oder auch einer anderen (beispielsweise ein künftiger Busfahrer, der zu untersuchen ist) besteht nun die Möglichkeit, eine andere Testbatterie aus dem Pool der gleichen Testprogramme in geänderter Abfolge mit anderen Parametern zu erstellen, so daß Lerneffekte reduziert und immanente Wiederholungen gleicher Testaufgaben vermieden oder umgekehrt durch Platzvertauschungen ähnliche Anforderungen ausdrücklich wiederholt werden können. In der Nutzung von Computern für die Praxis stehen wir noch am Anfang. Irrationale Begründungen sind es oft, deretwegen sich Kollegen/ innen auf diese technischen Möglichkeiten nicht einlassen. Wenn sie statt dessen den herkömmlichen Testmethoden den Vorzug geben, weil sie an ihrem Arbeitsplatz um testpsychologische Untersuchungen nicht herumkommen, sollten sie bedenken, welche nicht zuletzt auch im Interesse der Betroffenen verwertbaren Informationen sie vielleicht verschenken bei gleichzeitigem Zeitgewinn. Bei alledem steht nicht zur Diskussion Computer vs. Qualität oder gar Computer gleich Qualität. Auch weiterhin muß das psychologische Fachwissen entscheiden: Ist im Einzelfall überhaupt eine psychologische Testung notwendig, und wenn ja, was soll erfaßt werden entsprechend der vorgegebenen Fragestellung, und mit welchen psychodiagnostischen Methoden ist dies zu erreichen? Erst dann stünde die Frage des Computereinsatzes zur Disposition. Versprechungen und Hoffnungen, daß der Computer nun alles sicher und zuverlässig (gleich einem Deus ex machina) bewerkstellige und man sich nun keine Gedanken mehr über das Testen oder die Testverfahren zu machen brauche, sind leider Trugschlüsse (vgl. dazu auch die anregende Darstellung
308
Der Einsatz des Computers in der psychologischen Diagnostik
von Völpert 1985). Wer nun aber diesen apparativ bunt gepflasterten Weg gehen möchte, wird mit einem Hard- und Software-Angebot konfrontiert, das auf seine wirkliche Leistungsfähigkeit sehr genau befragt werden sollte, um nicht bereits im Vorfeld durch kostengünstigere Varianten spezifische Anwendungsmöglichkeiten auszuklammern (Applikationsund Verarbeitungsgeschwindigkeiten, Speicherkapazitäten, Farbmonitor usw.). Gleichermaßen bedeutsam ist die äußere Beschaffenheit der technischen Geräte, die bereits bei der Tastatur beginnt, wenn z. B. motorische Reaktionsfähigkeit gemessen werden soll: Hub- oder Sensortasten, ein oder zwei Reihen von Tasten, ja, selbst die Tastenform spielt eine Rolle. Vertiefte Tasten beispielsweise mit dünnem Rand können bei wiederholten schnellen Reaktionen aus Schmerzvermeidungsgründen zu verhaltenerem Reagieren verleiten. Dann würde statt Reaktionsgeschwindigkeit Schmerzempfindlichkeit gemessen - ein konstruktfremdes, invalides Merkmal. Ein Beispiel: Die motorische Reaktionsausführung der Hand ist bei Hubtasten anders als bei Sensortasten. Bei letzteren ist die Bewegungsbahn direkter, horizontal, der Tastendruck erfolgt aus dem Handgelenk. Hubtasten bedingen eine ballistische Bewegungskurve der Hand und benötigen so längere Reaktionszeiten. Weiterhin scheint diese Tastenart aufzufordern, «kraftvoller» oder «richtiger» drücken zu wollen, wodurch am Ende gerätebedingte Unterschiede zu verzeichnen sind. Bei Normwertvergleichen oder Verlaufsanalysen an unterschiedlichen Tastaturen macht sich dies signifikant bemerkbar. Auch sind die Größe und die Flimmerfreiheit des Patienten-Monitors Variablen, die beachtet werden sollten, um bei unzulänglicher Qualität nicht davon abhängige, unrichtige Meßergebnisse zu erhalten. Fehler in Programmen, die immer wieder reproduziert werden, weil sie so schwer zu entdecken sind, sind einer der größten Nachteile der Computernutzung. Deshalb sollte zu Anfang jedwede Fragwürdigkeit mit den Herstellern/Vertreibern abgeklärt werden, um folgenschwere Beurteilungsfehler zu vermeiden. Während nämlich zweifelhafte Ergebnisse in Papier-Bleistift-Versionen eher zu gründlichen Überprüfungen letztlich auch des gesamten Verfahrens führen, verleitet der Computer allzu schnell zu der Schlußfolgerung, das erzielte Ergebnis habe schon seine Richtigkeit: zum einen, weil die Technik diese Glaubwürdigkeit suggeriert, zum anderen auch aus Kenntnismangel oder Zeitknappheit oder eben aus ihrer gemeinsamen Schnittmenge. Oft ist die Software rechnergebunden (Atari/Amiga/C-64 usw.), was den Preisvorteil solcher Software schnell wieder zunichte machen kann. Denn bei jeder Erweiterung oder Veränderung ist man an die jeweilige Rechnerversion gebunden und kann nicht auf preisgünstigere Angebote des allgemeinen (IBM-compatiblen) Marktes zurückgreifen. Viele solcher gesichteten Programme sind
Das computerunterstützte Testen (CUT)
309
zwar mit viel Liebe und hohem persönlichem Aufwand hergestellt, manchmal auch sehr anregend gestaltet, in der Handhabung und Einsatzmöglichkeit für psychodiagnostische Zwecke teilweise jedoch nur begrenzt einsetzbar. Woran es ihnen in der Regel gänzlich mangelt, ist ihre Kompatibilität. Zuletzt noch ein zentraler Gesichtspunkt der Computernutzung in der Testpsychologie bzw. bei psychologischen Begutachtungen. Sowohl in der klassischen Testkonstruktion (normorientiertes Testen) wie in neueren probabilistischen Ansätzen (vgl. Beitrag Walter, S. 98ff.) gibt es empirische Wege der Aufgabenanalyse bzw.-Selektion, die von mehr oder weniger strengen meß- und persönlichkeitstheoretischen'Modellannahmen ausgehen. Diese vorausgesetzt, bietet ein fertiges Testverfahren eine Menge von Aufgaben an, die jeglichem Zweifel enthoben scheinen und am Ende einer Testung verbindliche Aussagen über eine Person zu machen versprechen. Der Computerausdruck wird im wahrsten Sinne zur «baren Münze», der sich laut Gebührenordnung für Ärzte (GOÄ) abrechnen läßt. Eine unreflektierte Anwendung scheint vorprogrammiert. Andere und kreativere Möglichkeiten böte angesichts der apparativen Potenzen die kriteriumsorientierte Diagnostik. So könnte mit Hilfe einer Zielanalyse herausgearbeitet werden, was z.B. alles notwendig ist, damit ein älterer Mensch selbständig in einer Wohnung leben kann, und was davon eine konkrete Person bereits erfüllt, was noch nicht und wie dies zu erreichen wäre. Anders formuliert: einem Anforderungsprofil steht ein Kompetenzprofil gegenüber, aus deren größerer oder geringerer Passung Beratungshilfen oder bestimmte therapeutische Maßnahmen abgeleitet werden können: ein Feld ungeahnter und längst nicht ausgeschöpfter Möglichkeiten, in der Praxis diagnostische bzw. testpsychologische Vorgehensweisen anzubieten, die nicht selektiv, sondern helfend auf die Patienten in ihrer Lebenswelt ausgerichtet sind. In diesem Sinn sollte Diagnostik grundsätzlich zielgebunden verstanden und betrieben werden. Sie hat keinen Selbstzweck. Und sie sollte die Folgen für die Klienten rechtzeitig bedenken. Ihre Resultate haben immer und zwangsläufig eine Wirkung auf die Betroffenen wie auch in der Öffentlichkeit. Das ist bei der Planung und erst recht bei der Präsentation von Ergebnissen gewissenhaft zu bedenken. Besonders gerichtlichen Gutachten kommt die Aufgäbe zu, immer wieder zu Fragen von Glaubwürdigkeit, Schuldfähigkeit, von Gesundheit und Krankheit Stellung nehmen zu müssen. Über die biographischen und gesellschaftlichen Konsequenzen für die Betroffenen muß ein/e Gutachter/in rechtzeitig und umfassend nachdenken. Parsons (1968) hat dies am Beispiel, was Gesundheit und was Krankheit für die Patienten bedeutet und was für die Gesellschaft und welche Institution darüber in welcher Art und Weise zu entscheiden haben, plastisch aufgezeigt.
310
Der Einsatz des Computers in der psychologischen Diagnostik
Der Computereinsatz in der Psychodiagnostik läßt nun ganz konkret befürchten, daß diese funktionalisiert wird: Techniken von adaptivem Testen (s. dazu unten), werden als optimierende Methoden den ökonomischen Aspekt sichtbar in der Vordergrund rücken und damit einerseits den Prozeß der Entprofessionalisierung erheblich beschleunigen (immer mehr Arztpraxen, Lehrer, Sozialarbeiter, Heilpraktiker und auch Mütter - «Jetzt können Sie Ihr Kind selber testen, kinderleicht mit Ihrem Computer - oder dem Ihres Kindes!» werden über Computer-Tests verfügen). Andererseits wird sich über diesen «Umweg» die Befürchtung skeptischer Kollegen bestätigen können, daß das Menschliche verlorengehe, daß das optimale «Durchtesten» im Vordergrund stehe, nicht zuletzt die sogenannten ökonomischen «Zwänge». Bereits seit 1978 geistert das Gespenst des «kognitiven Taylorismus» durch die einschlägige Fachliteratur, worunter ein immer weiteres Aufteilen, Automatisieren und damit Entfremden der Menschen von ihrer Arbeit und von ihren sozialen Bezügen gemeint ist, hier in bezug auf die psychodiagnostische Begutachtung mittels computergestütztem Testen (Sommer 1978 ; Graf Hoyos 1980 ; Frese 1987). Psychodiagnostik, die nicht durch Computer optimierungsfähig ist, wird in dem Maß zunehmend eliminiert werden, wie es nicht gelingt, diese im oben gemeinten Sinne kreativ zu funktionalisieren entlang neuer Denkmodelle. Vielleicht liegt gerade darin die wahre Chance für die Psychologie als Wissenschaft? Wäre eine Wegentwicklung von den alten Vorurteilen der Gesellschaft über das Berufsbild des Psychologen als «Testknecht» zugunsten eines Berufsbildes, das auf die Aufklärung der Bedingungszusammenhänge menschlicher Lebensäußerungen auch in der Psychodiagnostik bzw. ihren Methoden ausgerichtet ist (s. dazu oben, Kap. 2, S. 25), nicht erstrebenswert ?
9.4 Das computergesteuerte adaptive Testen (CAT) Im wesentlichen liegt das Adaptive in den Optimierungsversuchen des Testablaufes unter Einbeziehung beispielsweise des Raschmodells (vgl. Kapitel 4). Der Grundgedanke hierbei ist ein kybernetischer Regelkreis: Die Maschine gibt etwas vor - der Mensch reagiert - die Maschine reguliert und optimiert die erneute Vorlage entsprechend der vorangegangenen und der daher mit einer gewissen Wahrscheinlichkeit zu erwartenden weiteren Reaktionsweise usw. usf. (vgl. Hornke 1983). Besagte Greta kann mit Hilfe ihres «Wiener Testsystems» dies bereits heute schon, wenn sie z. B. das Programm «Multitest» oder «Psigenerator» aufruft. Sie kann
Das computerunterstützte Testen (CUT)
311
selbständig Fragebogenitems, zeichnerische Items in beliebiger Art und Weise herstellen oder den Ablauf bestimmter Reize der Peripheriegeräte (etwa Wiener Reaktions- oder Determinationsgerät, Flimmerverschmelzung oder Tachistoskop usw.) programmieren. Über die Itemverzweigungstabelle bestimmt sie dann, was der Computer bei welcher Pat.-Reaktion oder welchem Ereignis zu tun hat. Das einfachste Beispiel adaptiven Testens sind Lernschleifen. Greta könnte z. B. eine Testbatterie entwickelt haben, die es der Testperson freistellt, den jeweils gewünschten Schwierigkeitsgrad entweder selber zu bestimmen oder dies dem Computer zu überlassen. Heraus kämen die individuelle Belastungsfähigkeit, die individuelle Tagesform und weitere Positionen wie eher selbstüber- oder unterfordernd etc. Allerdings ist dieses Beispiel nur ein Quasi-adaptives Testen, da bislang noch kein Testsystem die notwendige Flexibilität zur Verfügung stellt, ein solches Vorgehen in der Praxis theoriegeleitet und rechnergestützt durchzuführen. Dies ist wichtig hervorzuheben, da erst bei solcher Flexibilität tatsächlich von adaptivem Testen die, Rede sein kann, womit die Psychodiagnostik einen wichtigen Schritt in die notwendige Richtung der gezielten, inhaltsschwangeren Untersuchung mit minimalen Aufwand vorangekommen wäre. Und auch hier wird wieder deutlich: die Fragwürdigkeit liegt erneut in der Theoriebildung und Konstruktrealität sowie deren Transformation in ein valides Item. Auf die Bedenken von Booth (1988, S. 150), daß das adaptive Testen zu einer Konfundierung wahrer Fähigkeitsparameterunterschiede zwischen zwei Gruppen führen kann, soll ausdrücklich hingewiesen werden, da der jeweilige, individuelle Lösungsweg (CUT vs. CAT) und die jeweilig erbrachte Leistung erheblich differieren, ja eigentlich nicht (direkt) miteinander verglichen werden können.
9.5 Vom computerunterstützten Testen zur computergestützten psychologischen Diagnostik Abschließend sei noch kurz auf die computergestützte Psychodiagnostik eingegangen, die einmal die hoffnungsvollste Einsatzmöglichkeit von Computern in der Psychologie darstellen könnte. Es handelt sich hierbei im Kern um ein «intelligentes» System, das aus allen zur Verfügung stehenden Informationen über eine Person und deren augenblickliche Situation und Befindlichkeit sowie aus den zur Verfügung stehenden psychodiagnostischen und weiteren Möglichkeiten die adäquate aüswählt, um anstehende (differentialdiagnostische) Fragen zu beantworten (vgl. dazu auch Booth 1988). Dies kann auch in Form eines perma-
312
Der Einsatz des Computers in der psychologischen Diagnostik
nenten Handlungs-Checks erfolgen, indem der Psychologe eine elektronische Checkliste durchlaufen muß und der Computer an den «neuralgischen» Punkten entsprechend «interveniert», wie im Umgang mit einem Pat. weiter zu verfahren sei. Das kann durchaus soweit gehen, daß Luftdruck, Luftfeuchtigkeit usw. vom Computer täglich ausgeweitet und in bezug auf entsprechende Patientengruppen (Kreislaufpatienten etwa), Medikamentenart und -dosierung festgelegt werden. Es ist im Grunde genommen ein Expertensystem für komplexe, wirklichkeitsbezogene Informationsverarbeitung. Nach der Eingabe von Grunddaten über eine Person wird dieses Expertensystem in der Lage sein, dem Diagnostiker den optimalen Entscheidungsweg aufzuzeigen und mit äußerster «Sensibilität» und Flexibilität - mit Hilfe der eingegebenen und selbständig weiterverarbeiteten Patientendaten sowie den Ergebnissen von Testbearbeitungen (inklusive Testabbrüchen) und deren «Interpretation» - die Testperson durch die Untersuchungen zu führen. Der «Hauptpferdefuß» liegt hier in der Gefahr, daß der Patient ganz dem Computer überlassen wird, daß die den Menschen auszeichnende kritische Würdigung auch der eigenen Person zur Farce wird. Mehr noch stellt sich die Frage nach den Einwirkungsmöglichkeiten auf dieses System, seine Veränderbarkeit und last, not least auf die sozialen Machtstrukturen. Über sie regelt sich nicht nur der Zugriff auf das operative Wissen allgemein, sondern auch auf die Art des Wissens, die Definition der Verhaltensnormen, die gesellschaftlichen Selbstverständlichkeiten und Handlungsmöglichkeiten. Die ersten für den Routineeinsatz fähigen Expertensysteme dieser Art sind in etwa drei bis fünf Jahren zu erwarten, wenn die Computertechnik die Transputer-, die RISC- und CISC-Prozessorentechnik (Großcomputer-Prozeduren, die erst für den PC nutzbar gemacht werden müssen) sowie die Lichtspeicher entsprechend sicher handhaben kann. Für die psychologische Diagnostik ist die wirklichkeitsnahe Darstellungsmöglichkeit lebensweltlicher Zusammenhänge und Entscheidungsstrukturen von erheblicher Relevanz. An entsprechenden Simulationstechniken, durch die Personen in eine künstliche Welt versetzt werden, wird, in Anlehnung an Pilotensimulationsanlagen, seit längerem gearbeitet. Für den klinischen Routinebetrieb wäre eine solche Simulationsanlage für definierte Aufgabengebiete zweifellos nutzbar, sieht man einmal von der Kostenseite ab. Eine entsprechend «abgespeckte» Version, die sich auf die Simulation etwa der realistisch-räumlichen Wahrnehmung und Augenbewegungskontrolle konzentriert, ließe sich für Aufmerksamkeitsprüfungen, die Prüfung von Problemwahrnehmung und Problemstrukturierung etc. verwenden. Andere Anwendungsgebiete wie Fahreignungsuntersuchungen lassen sich denken. Dieser technischen Möglichkeit steht allerdings vorerst wohl noch das Gros der Psychologenschaft ablehnend ge-
Das computerunterstützte Testen (CUT)
313
genüber, denn es würde an die Stelle der zwischenmenschlichen die Mensch-Maschine-Kommunikation in diagnostischer und beratender Absicht setzen. Und es würde «das unberechenbar Spontane im Menschen, was, indem es immer wieder aus- und durchbricht, neue Erfahrungen schafft und die Kollektivnorm verändert» (Sonnemann 1981, S. 194), ignoriert. Menschliches Verhalten und Erleben würde auf die Dimension technischer Reproduzierbarkeit in der Maschinenlogik beschränkt. Lassen sich diese Vorbehalte (zumal der noch unvollkommenen Technik wegen) als berechtigte verstehen, so nicht jene Skepsis und Abwehr der Psychologenschaft, die alle solche Softwareentwicklungen gutheißt, die herkömmliches Testen in einfachster Form (Testdurchführung, Auswertung, Normabgleich, Klassifikation) abzuwickeln erlaubt, aber andere ablehnt. Eine kritische Haltung der Psychodiagnostik gegenüber ist berechtigt, sollte erworben und, wo vorhanden, bewahrt werden. Aber es gibt gerade in der Praxis immer wieder Situationen, in denen schlichtweg abzuklären ist, was eine Klientin beispielsweise leiden läßt, was ihr Hoffnung vermitteln könnte und worin die Quellen für die derzeitige psychische Befindlichkeit und Lebenssituation gesehen werden - dazu benötigen wir auch einschlägiges Wissen und anwendbare Methoden. Wenn es dabei um den Computereinsatz geht, sollte dieser stets nur als methodische Hilfskonstruktion verstanden werden, die in einseitiger Abhängigkeit von den sie benutzenden Psychologen Anwendung findet.
314
10. Siegfried Grubitzsch
Tests in der öffentlichen Meinung*
10.1 USA Sehr bald, nachdem die psychologischen Testverfahren in das öffentliche Bewußtsein gerückt waren, wurden sie auch Gegenstand zum Teil heftiger sozialpolitischer Auseinandersetzungen. Vor allem trifft dies für die jüngste Vergangenheit zu, in den USA mehr als in anderen Ländern. Dort hat sich Cronbach 1975 über «Fünf Jahrzehnte öffentlicher Kontroverse übers Testen» geäußert und dabei zwei zentrale Themen angeschnitten: die Jensen-Debatte Ende der sechziger und zu Beginn der siebziger Jahre und eine Debatte über die Anwendung von Testverfahren bei «morons» (Schwachsinnigen) und Immigranten in den zwanziger Jahren, die jedoch in ihren Ursprüngen noch gut zehn Jahre weiter zurückreicht. Die Testbewegung in den USA schloß in einigen Aspekten von Anfang an starke sozialdarwinistische Strömungen im Verein mit eugenischen und rassistischen Überlegungen ein (vgl. besonders Gould 1983). Sie müssen in Verbindung gebracht werden mit den zu Beginn des Jahrhunderts vorhandenen szientistischen Erörterungen zur Planung einer Gesellschaft, in der unnütze Elemente unter Kontrolle zu bringen seien (siehe oben, S. 45). «Der amerikanisierte wurde von Terman in einem Buch aus dem Jahr 1916 veröffentlicht. Die Hoffnung auf den Test wurde im Einleitungskapitel expliziert:... ... Der Test war in Termans Augen insbesonders nützlich bei der Diagnose hochgradigen oder -Mangelzustände; d.h. im Bereich eines IQs zwischen 70 und 80. Dieses Intelligenzniveau » (Kamin 1974, S.6). Auch Eysenck sieht die unterschiedliche Leistungsfähigkeit von Rassen in ihren IQ-Unterschieden (vgl. Billig J981, S. 164) oder anderen angeborenen Persönlichkeitsmerkmalen (Hahne 1975; Hirsch 1989) begründet. Abgesehen von den von Terman geforderten innernationalen Bemühungen, klingt bei ihm auch ein Problem an, mit dem die USA zu Beginn dieses Jahrhunderts konfrontiert waren: dais der Einwanderung, das man mit einer zunehmend restriktiveren Einwanderungspolitik in den Griff zu bekommen suchte (dazu ausführlich Chorover 1982, S. 52ff.). Dabei wurden u. a. Tests verwendet, die den Zweck hatten, die Einwanderer aus verschiedenen Ländern in eine Rangreihe hinsichtlich ihres Intelligenzniveaus zu bringen und aus dieser Rangreihe Einwanderungsquoten abzuleiten. Auf den Spitzenplätzen in einer von Yerkes 1921 aufgestellten Rangreihe rangieren Engländer, Holländer und Dänen, am Ende finden sich Russen, Italiener und Polen (vgl. Kamin 1974, S. 15ff.). In einer in Zeitschriftenmagazinen ausgetragenen Kontroverse stritten sich u. a. aus diesem Anlaß in mehreren Beiträgen die Psychologen Yerkes und Terman und der Publizist Walter Lippmann, der sich schließlich heftig gegen die Möglichkeit der Messung von Intelligenz aussprach (vgl. Cronbach 1975, S. 9 f.) und bei diesem Unterfangen von einer «Selbsttäuschung als Vorstadium der öffentlichen Täuschung» sprach. Wenngleich der Anlaß - Einwanderungsprobleme - nach dem Ende der zwanziger Jahre allmählich an Wichtigkeit einbüßte, ebbte doch die öffentliche Diskussion um Sinn und Nutzen von Intelligenztests nur zeitweise ab. Mit Heftigkeit trat sie spätestens Ende der sechziger Jahre wieder auf, als Jensen (1969) seine Thesen zu Sinn und Unsinn kompensatorischer Erziehungsprogramme veröffentlichte. Dies geschah auf der Basis von Überlegungen zur genetischen Determiniertheit von Bildungsfähigkeit. Daß die Jensenschen Behauptungen allerdings diese positive und negative Resonanz fanden (Cronbach faßt sie kurz zusammen, 1975, S. 2 ff.), liegt wahrscheinlich an der Rassenproblematik, die in den sechziger Jahren zu kritischen Situationen in den USA geführt hatte (Aufstände der schwarzen Bevölkerung, «Black-power-Bewegung»). Dabei war die Jensen-Debatte im übrigen Beispiel dafür, wie psychologische Tests in die Schußlinie geraten, die ja nur Ausdruck der Absicht von sozialen Eliten sind, Entscheidungen zu formalisieren und zu systematisieren. Die Test-
316
Tests in der öffentlichen Meinung
verfahren selbst trifft freilich nicht die «Schuld», daß z. B. Jensen solche und nicht andere Ergebnisse und Interpretationen veröffentlichte; allerdings erweisen sie sich als brauchbare Mittel, da sie von ihrer Konstruktion her den Standard einer bestimmten gesellschaftlichen Schicht oder die Anforderung von Organisationen und Institutionen repräsentieren und insofern Individuen und gesellschaftliche Gruppen, die diesen Standard nicht teilen, benachteiligen können. Testverfahren «reproduzieren» also mögliche Benachteiligungen. Am Beispiel von C. Burt mag allerdings abgelesen werden, wie diese Reproduktion auch schon unter vorgeblicher Verwendung empirischer Meßinstrumente wie Tests zustande kommen kann, vor allem, wenn - wie geschehen - solchermaßen gewonnene Ergebnisse in den Kronzeugenstand erhoben werden. Eine Reihe von Burts Daten, ermittelt im Zusammenhang mit Untersuchungen zur Vererbung von Intelligenz, haben sich bei Nachuntersuchungen als kaum haltbar, wenn nicht als (teilweise) sogar gefälscht herausgestellt (vgl. Gould 1983; Kamin 1974; Ernst 1977; Gillie 1977). In der Tat gilt, daß «die Bedeutung von Tests für das Entscheiden... häufig überschätzt wird. Aber es ist verständlich, daß sich auch dann, wenn die Rolle der Tests richtig gesehen wird, in der Beurteilung der Testanwendung doch allerlei emotionelle Stellungnahmen der Sympathie und Antipathie einstellen. Es geht ja zuletzt immer um Entscheidungen über Menschen, und oft haben diese Entscheidungen für den Betroffenen sehr weitreichende Konsequenzen» (Drenth 1969, S. 279). Die emotional geladene Stellungnahme gegenüber Tests kann dabei zu Fällen führen, wie sie Nettler (1959) berichtet: In Houston/Texas wurden Testformulare verbrannt, auch mit der Begründung, daß die gegebenen Antworten der Schulkinder von «Kommunisten» verwendet werden könnten (Eron & Walder 1961; Ervin 1965). Solche Aktionen haben einer kritisch-rationalen Einschätzung dessen, was ein Test ist, höchstens geschadet. Drenth meint, «daß hinter den erwähnten Testverbrennungen rechts-reaktionäre Organisationen wie die < American Legion> und das < American Flag Committee> standen. Auch ein Mann wie Goldwater zog in seinem Wahlkampf gegen das zu Felde, was er Schulreife der Testvalidierung». Eng bedruckt sind die Seiten und gefüllt mit Daten aus empirischen Untersuchungen, in denen der FPI, eine seiner Einzelformen oder einzelne Skalen mit Daten aus Verhaltensbeobachtungen, Angst-Tests, Selbsteinstufungsscores etc. korreliert oder Diskriminanzanalysen durchgeführt wurden. Die Korrelationskoeffizienten schwanken zwischen r = 0.26 und 0.80 und gelten wie üblich für Stichproben. Rückschlüsse auf die Gültigkeit des FPI - zumal im Einzelfall - werden beliebig und können keine bindende Bedeutung für die Praxis haben. 4. Zuverlässigkeit, Interpretation und Aussagewert Die meisten Reliabilitätskoeffizienten des Gesamttests (Konsistenz und Stabilität der Skalenwerte) liegen zwischen 0.7 und 0.9, die Konsistenzkoeffizienten der Halbformen zwischen 0.56 und 0.79. Die Vertrauensgrenzen betragen bei 5 % Irrtumswahrscheinlichkeit für die verschiedenen Skalen des Gesamttests minimal 1.2 oder maximal 1.8 Stanine-Werte, d. h., daß die Abweichung vom Normwert 5 mindestens 2 Stanine-Werte nach oben und unten betragen muß, damit eine tatsächliche Abweichung mit 95 % Wahrscheinlichkeit angenommen werden kann. «Diese Vertrauensgrenzen liegen verhältnismäßig weit auseinander und kennzeichnen die Unsicherheit eines individuellen Testwertes» (Manual, S.59). Eine Untersuchung über die Stabilität des FPI nach längerer Zeit (9-16 Monate) ergab niedrigere Koeffizienten von durchschnittlich 0.58, die Stabilitätskoeffizienten der Testwertprofile schwankten zwischen + 0.95 und -0.49. Die Frage nach der Interpretierbarkeit von Testwerten aus dem FPI ist schließlich auch davon abhängig, ob die Antworten Tendenzen der «so-
Persönl ich keits-Stru ktu r-Tests
469
zialen Erwünschtheit» beinhalten. Im Sinne einer Konvention und ohne zwingende empirische Belege wird von den Autoren vorgeschlagen, Testergebnisse dann nicht zu interpretieren, wenn die Werte der Skala 9 (Offenheit) auffällig niedrig seien (Stanine 1-3). Möglichkeiten, Erwünschtheits-Antworten zu verhindern, hat man noch nicht gefunden; ähnlich um «test-wiseness» auszuschließen. Ob derartige Tendenzen auftreten, liegt sicher auch an der Offenheit der Testleiter in Wechselwirkung mit dem Klienten und sollte nicht nur zu Lasten der Klienten gehen. Umgekehrt wäre hier für diese eine Möglichkeit, Testresultate gezielt ungültig werden zu lassen. 5. Normen Es liegen Normen vor für den Gesamttest mit 212 Items, die beiden Halbformen mit 114 Items in Stanine- und T-Werten und für die Kurzform mit 76 Items in Quartilwerten, jeweils differenziert nach Geschlecht und drei Altersgruppen (15-30,31-50,51 und älter). Allerdings umfaßt die Eichstichprobe nur 630 Personen, deren Repräsentativität für die Gesamtbevölkerung noch dazu bezweifelt werden muß, da die Probanden nach dem Quotenverfahren von Studenten aus deren Bekanntenkreis ausgewählt wurden. Die Normen müßten zumindest im Altersbereich 15-20 stärker differenziert werden, da besonders in diesem Alter wichtige Entwicklungsprozesse stattfinden. Eine Untersuchung von Kury und Bäuerle (1975) ergab signifikante Unterschiede bei 15jährigen im Vergleich zu den Normen des FPI in mehreren Skalen. Kury & Stephan (1976) machen Vorschläge einer neuen Altersklassifikation, wenn auch ihre Daten anderen Zweifeln unterzogen werden müssen (Methodenartefakt). 6. Allgemeine Kritik Als Ganzes betrachtet, stellt das FPI einen Versuch dar, ein differenzierteres Persönlichkeitsbild zu erfassen* als es etwa beim EPI, MPI, MMQ und ähnlichen Verfahren der Fall ist. Es scheint aber aufgrund einer Untersuchung von Schenk u. a. (1977) nicht ganz klar, ob die 9-FaktorenLösung des FPI dem Itempool wirklich angemessen ist und nicht möglicherweise überdifferenziert. Andererseits beklagen gerade Kollegen in der Praxis (z. B. bei Patienten mit Suchtproblematik wie Alkoholabhängigen) die unzureichende Differenzierung des FPI im Bereich der Aggressivität. Darüber hinaus gibt es Hinweise, daß die unterschiedlichen Ergebnisse der verschiedenen Faktorenanalysen stichprobenabhängig sind. Unklar ist auch, ob ein FPI-Profil ein relativ konstantes Persönlichkeitsbild wiedergibt oder ob es sich nach einem Zeitraum von einem Jahr stark verändern kann und wovon solche Veränderungen abhängen. Die Validitätsuntersuchungen haben gezeigt, daß nicht alle Skalen als /
470
Psychometrische PersonIich keitstests
ausreichend validiert gelten können. Dies sollte man bei der Interpretation des FPI berücksichtigen. Die Anwendung des FPI sollte aus zwei Gründen nur bei einer echten freiwilligen Entscheidung des Probanden zur Teilnahme an der Testdurchführung geschehen: Aus ethischen Gründen ist es nicht vertretbar, Informationen über den persönlichen Bereich gegen den Willen oder bei unzureichender Aufklärung des Probanden zu erheben. Falls Zweifel an der Offenheit der Beantwortung aufgrund der Umstände der Testsituation bestehen, sollte man ohnehin auf eine Interpretation verzichten. Die computerunterstützte Version einschließlich Auswertungsprogramm sollte nicht anders bewertet und gehandhabt werden (vgl. dazu auch S. 303 in diesem Buch). Literatur Schenk, J., u.a.: Zur Struktur des Freiburger Persönlichkeits-Inventars (FPI). Zeitschrift für angewandte und experimentelle Psychologie, 3 (1977), S. 492-509 Kury, H., & Bäuerle, S.: Ein Beitrag zur Standardisierung des Freiburger Persönlichkeitsinventars FPI: 13- bis 15jährige Volksschüler. Diagnostica, 21 (1975), S. 53-65 Kury, H., & Stephan, E.: Testtheoretische Analyse des FPI-K bei 14- bis 25jährigen männlichen Probanden. Psychologie und Praxis, 20 (1976), S. 82-94
Anton Rosner
1.2 Testname: Gießen-Test (GT) Autoren: D. Beckmann; E. Brähler, H. E. Richter Bern: Huber 1978 (3. Aufl.) 1. Testart: «Objektiver» Persönlichkeitstest 2. Allgemeines Grundkonzept Der Proband soll ein Selbstbild entwerfen, das seine innere Verfassung und seine Umweltbeziehungen beschreibt; dies geschieht im Hinblick auf Merkmale, die psychoanalytisch aufschlußreich bzw. interpretierbar sind. Nicht Eigenschaften (traits) sollen gemessen werden, sondern mit dem Test wird ein «aktionstheoretischer Ansatz» auf psychoanalytischer Basis verfolgt. Ziel bei der Entwicklung des GT war es, ein objektives und praktisches Instrument mit mittlerer Bandbreite und Präzision zu erhalten, das als ökonomisches diagnostisches Routineinstrument für Personen ab 15 Jah-
Persönl ich keits-Stru ktu r-Tests
471
ren mit normaler Intelligenz (IQ = 80) anwendbar ist. Die Beantwortung der 40 bipolaren, siebenstufigen (-3... +3) Items dauert ca. 10-15 Minuten. Indem die Testfragen von der ersten in die dritte Person umgesetzt werden, wird (neben dem Vergleich Selbstbild/Idealselbstbild) ein Vergleich Selbstbild/Fremdbild möglich. Hierdurch kann der GT auch für sozialpsychologische Untersuchungen verwandt werden (im Hinblick auf Therapeuten-Patienten- oder Partner-Beziehungen [vgl. Beckmann & Maack 1978] oder für Familien oder Gruppenstrukturen). Die Items sind so gewählt, daß sie einerseits konstante Qualitäten mit genügender Reliabilität messen sollen, andererseits sensibel für Veränderungen über die Zeit oder durch eine Therapie sind. Inhaltlich beziehen sie sich auf Merkmale des sozialen Befindens (Nähe, Abhängigkeit, Durchhaltefähigkeit, Selbstkritik) und auf emotionale Grundbefindlichkeiten (Ängstlichkeit, Depressivität). Der GT kann über die 40 Items oder über die sechs Standardskalen interpretiert werden. Die Standardskalen beziehen sich auf 1. «Soziale Resonanz», 2. «Dominanz», 3. «Kontrolle», 4. «Grundstimmung», 5. «Durchlässigkeit» und 6. «Soziale Potenz». Stereotype Antwortmuster werden durch die zusätzlichen Skalen M (Tendenz zur Mitte) und E (Extremantworten) erfaßt. Die ersten fünf Standardskalen wurden mittels Faktorenanalysen an unausgelesenen Neurotikern (N = 235) mit verschiedener körperlicher Symptomatik konstruiert, die sechste Skala («Soziale Potenz») aufgrund von Korrelationen der Items mit Einkommen und Schulbildung. Auf klassische eindimensionale Neurotizismuskonzepte (wie im MPI oder FPI) wird hier nicht Bezug genommen, auch werden keine speziellen körperlichen Symptome erfragt. 3. Gültigkeit Auf eine (faktorielle) Validierung wurde kein Wert gelegt, um den erwähnten inhaltlichen Kriterien vorzugsweise Rechnung zu tragen. Im Mittelwertsprofil von Neurotikern (N = 235), Ulkuskranken (N = 35), jugendlichen Delinquenten (N = 70) und anderen Gruppen ergaben sich z. T. signifikante, interpretierbare Abweichungen von der Standardisierungsstichprobe. Dies repräsentiert nach Ansicht der Autoren verschiedene Aspekte der Gültigkeit des GT. Korrelationen der Standardskalen des GT bei unausgelesenen Neurotikern (N = 144) mit MMPI-Skalen und einem Fragebogen über neurotisch bedingte körperliche Beschwerden (BSB) erbrachten überwiegend nur geringe Zusammenhänge.
472
Psychometrische PersonIich keitstests
4. Zuverlässigkeit, Interpretation und Aussagewert Die mittlere Test-Retest-Reliabilität nach sechs Wochen bei einer «repräsentativen» Stichprobe (N = 204 von 660 Personen der früheren Standardisierungsstichprobe) beträgt für die 40 Items r = 0.30, für das Testprofil (N = 202) r = 0.56 und für die Standardskalen r = 0.72. Die Autoren meinen zu diesen relativ niedrigen Werten, daß die Standardskalen zu ca. 50 % zeitkonstante, zu weiteren 25 % zeitvariable Merkmale und der Rest auf unaufgeklärte zeitvariable Faktoren rückführbar sind. Dies widerspricht dem Konzept der klassischen Testtheorie; es wurde (daher?) kein Standardmeßfehler berechnet. Zur Interpretation der Testdaten sei auf das im Handbuch erwähnte Fallbeispiel einer 25jährigen Studentin mit «depressiver Neurose» hingewiesen, die mit dem GT vor ,und nach 35stündiger psychoanalytischer Therapie getestet wurde. Folgende Ergebnisse zeigten sich vor und nach der Therapie (in T-Werten; M = 50, s = 10): «Soziale Resonanz» 32;47 (lediglich auf dieser und der Skala «Kontrolle» entspricht ein höherer Skalenwert einer höheren Variablenäusprägung), «Dominanz» 47;49, «Kontrolle» 56;37, «Grundstimmung» 79;59, «Durchlässigkeit» 42;50 und «Soziale Potenz» 51 ;53. Die Patientin litt nach Beschreibung der Autoren vor der Therapie unter ängstlich-depressiven Gefühlen und starkem Über-Ich-Druck (s. Skala «Grundstimmung») und war im Kontakt ohne Resonanz, was sich jedoch beides durch die Therapie verbesserte; zuvor war sie eher zwanghaft (s. Skala «Kontrolle»), nach der Therapie wesentlich gelockerter, was einer freieren Verfügbarkeit von Triebwünschen entspräche. Die Differenzen sind, eigenen Berechnungen zufolge, nach Lienert (1969) signifikant (5%-Niveau). Die Werte und Veränderungen auf den anderen Skalen sind nicht so aussagekräftig bzw. bewegen sich im Bereich des «Normalen». 5. Normen Die Normen der 3. Auflage des GT basieren auf den von Beckmann, Brähler & Richter (1977) erhobenen Daten an einer Stichprobe von N = 1601 (durch ein Meinungsforschungsinstitut ausgesuchten) Personen im Alter von 18 bis 60 Jahren. Eine gesonderte Standardisierung für die Altersgruppe 60-75 Jahre (N = 718) liegt aus der ersten Version vor. Gegenüber der Standardisierungsstichprobe von 1968 hat sich in der neuen lediglich geringfügig die Schulbildung verschoben (5 % mehr Mittelschulabschluß). Von der Stichprobe (N = 1601) sind für die 40 Items und die Standardskalen entsprechende T-Wert-Normen berechnet worden. Gegenüber den Daten aus 1968 haben sich kaum überzufällige Unterschiede bezüglich der Normen nach sieben Jahren gezeigt. Lediglich Skala 6 verschiebt sich um drei T-Einheiten in Richtung «Soziale Potenz», wenn auch ohne größere klinische Relevanz. Skala 3 und 5 erbringen eine
Persönl ich keits-Stru ktu r-Tests
473
um ca. zwei T-Einheiten erhöhte Unterkontrolle und Durchlässigkeit. Ohne Veränderung sind Skala 1,2 und 4. Die Verschiebungen sind in den Auswertungsblättern berücksichtigt. Allgemein zeigte sich, daß die Befragten 1975 weniger egozentrisch und mehr auf soziale Kommunikation gerichtet sind. Eher die älteren (35r-60) als die jungen Männer, weniger die Frauen, haben sich gegen 1968 geändert: sie sind «liebevoller», «kontaktoffener» und emotionaler geworden. Noch aus der ersten Version liegen die Itemmittelwerte oder Mittelwertsprofile für Neurotiker (N = 235), Ulkuskranke (N — 35), jugendliche Delinquenten (N = 70) und andere Gruppen aus früheren Studien vor. Inzwischen werden von verschiedenen Verlagen bereits PC-Versionen angeboten. 6. Allgemeine Kritik Der GT begeht, allerdings nicht so augenscheinlich wie andere Persönlichkeitstests (MPI, MMPI, FPI etc.), den Fehler einer dubiosen Etikettierungsdiagnostik, die höchstens im Fall des GT über die Interpretation wieder hineinkommen könnte. In den gegenüber (u. a. zeithchen) Veränderungen sensiblen Items schlägt sich recht gut die momentane Gefühlsund Stimmungslage nieder; der Test hat also «an sich» als Möglichkeit zur Introspektion oder des Feedbacks bereits einen gewissen Wert, auch im Hinblick auf die vielfältigen sozialpsychologischen Anwendungsgebiete (stimmt meine Wahrnehmung einer Person oder Gruppe mit der eigenen überein?). Es fehlen jedoch genauere Angaben über die Stufen der Testkonstruktion und das dahinterstehende Konzept ebenso wie eine hinreichende inhaltliche Validierung der Items und Skalen mit entsprechender statistischer Absicherung. Einzelne Items des GT erwiesen sich (z. T. hochsignifikant) von Alter, Geschlecht, Bildung und Einkommen abhängig; die Daten von 1975 bestätigen diese Altersabhängigkeiten erneut. Dennoch ist die Transformation der Rohwerte in T-Werte zur Ermittlung der Standardskalenwerte für alle Probanden gleich. Die Fremdbeurteilung einer Person oder Gruppe durch den GT wird zwar empfohlen, es hegen hierzu jedoch keine genaueren Untersuchungen oder gar Standardisierungen vor; trotzdem werden diese Werte genauso transformiert. Ähnlich verhält es sich bei dem Alter: der Test sei für 15- bis 16jährige prinzipiell geeignet, Normen (und Transformationen) liegen erst ab 18 Jahren vor. Die Interpretation der Items und der Standardskalen erfordere nach Aussagen der Autoren hinreichende klinische Erfahrung und Wissen; u.a. hierdurch, neben den unterschiedlichen theoretischen Bezugsrah-
474
Psychometrische PersonIich keitstests
men der Auswerter, ist nicht von einer allzu hohen Interpretationsobjektivität oder -Übereinstimmung auszugehen, wodurch das Ziel, einen Test mit mittlerer Präzision und Bandbreite vorzulegen, nur bedingt erreicht wird. In einer neueren Untersuchung (Liepmann & Hoppe 1976) mit N = 3767 Lehrlingen elektrotechnischer Berufe (Altersdurchschnitt: 17 ;9 Jahre) wird nachgewiesen, daß es sich bei den fünf GT-Faktoren nicht um allgemeine Persönlichkeitsfaktoren handelt, an die man die Forderung der Konsistenz, Generalität und Universalität stellen kann. In den von diesen Autoren durchgeführten Faktorenanalysen erwies sich ebenfalls eine Fünf-Faktoren-Lösung als optimal, wobei sich diese Faktoren auf dem 0.1%-Niveau als stabil erwiesen. Sie stimmen jedoch mit den von Beckmann & Richter gefundenen Faktoren nicht hinreichend überein, was sich auch in den jeweils unterschiedlichen Markierungsitems zeigt. Unserer Meinung nach trifft diese Kritik nur teilweise die Intentionen des GT: Es war sicher kein Anliegen der Autoren des GT, hierdurch neue faktorielle Persönlichkeitsdimensionen zu entwickeln, zumal sich in den Standardskalen typische Merkmale bestimmter «Krankheitsbilder» nicht abbilden lassen. Andrerseits wurde eine genauere faktorielle Validierung gar nicht angestrebt; hierfür waren die Autoren des GT (gerne?) bereit, Ärgernisse seitens «methodisch orientierter Psychologen» in Kauf zu nehmen. Trotzdem weist die o. g. Kritik auf den wohl schwächsten Punkt des GT, die recht dürftige methodische Untermauerung, hin. Entsprechende Versuche der Autoren des GT stellen auch unserer Meinung nach eher eine Art von Garnierung zu den praktischen Anwendungsmöglichkeiten des Tests dar.
Literatur Beckmann, D.; Brähler, E., & Richter, H.E.: Neustandardisierung des GießenTest (GT). Diagnostica, 23 (1977), S. 287-297 Beckmann, D., & Maack, T.: Interaktionsdiagnostik bei Paaren mit dem GießenTest. Medizinische Psychologie (1978) Lienert, G. A.: Testaufbau und Testanalyse (3. Aufl.). Weinheim 1969 Liepmann, D., & Hoppe, S.: Einige empirische Befunde zur faktoriellen Struktur des Gießen-Tests. Diagnostica, 22 (1976)
Achim Weiser, Friedrich-Carl Braun-Munzinger
Persönl ich keits-Stru ktu r-Tests
475
1.3 Testname: Hamburger Neurotizfsmus- und Extraversionsskala für Kinder und Jugendliche (HANES-KJ) Autoren: F. Buggle, F. Baumgärtel Göttingen: Hogrefe 1975 (2. verbesserte Aufl.) 1. Testart: «Objektiver» Persönlichkeitstest 2. Allgemeines Grundkonzept Der HANES-KJ ist ein Persönlichkeitsfragebogen für Kinder und Jugendliche, der durch die Methode der Selbstbeschreibung die Persönlichkeitsdimensionen «Neurotizismus» und «Extraversion-Introversion» erfassen soll. Er wurde entwickelt auf der Grundlage des von Sybil! Eysenck Mitte der sechziger Jahre veröffentlichten Junior Eysenck Personality Inventory (JEPI) und stellt den Versuch dar, für den deutschsprachigen Raum ein Instrumentarium zur objektiven Erfassung der von H. J. Eysenck konstatierten Persönlichkeitsdimensionen Stabilität/Emotionalität («Neurotizismus» ) und Extraversion/Introversion bei Kindern und Jugendlichen der Altersstufen 8;0 bis 17;11 zu erarbeiten. Der Ausprägungsgrad dieser Dimension ist um so größer, so die Grundannahme des Tests, je mehr sich die Kinder bestimmte Persönlichkeitszüge bzw. Symptome zuschreiben. Die Autoren nennen für die Dimension «Neurotizismus» folgende Merkmale: «Insuffizienzgefühle, verbunden mit sozialer Empfindlichkeit und Verletzbarkeit, Neigung zu Tagträumen und Grübelei, verstärkte Neigung zu Stimmungsschwankungen, vor allem als Neigung zu depressiven Verstimmungen, Sorgen um die eigene Gesundheit, Angst vor zukünftigen Ereignissen, innere Unruhe und , Erregbarkeit, Einschlafstörungen, häufige Müdigkeit und Abgespanntheit, Neigung zu Kopfschmerzen» (Handanweisung, S. 7). «Extraversion» schreibt sich jemand um so mehr zu, je mehr er sich «Freude an der Gesellschaft anderer, Bedürfnis nach und Fähigkeit zu regem, eher heiter akzentuiertem Kontakt mit anderen Menschen ^Geselligkeit), Lebhaftigkeit, Erlebnisdrang, Unternehmenslust und Unbeschwertheit () zuschreibt» (Handanweisung, S. 7). Die Kinder und Jugendlichen vollziehen ihre Selbstbeschreibung im Rahmen eines voll standardisierten Fragebogens, der in zwei Kurzformen vorliegt, die hinsichtlich der Dimension «Neurotizismus» (N) parallelisiert sind. Diese Aufteilung der Gesamtform wurde mit der Intention vorgenommen, ein den restriktiven Bedingungen psychologischer Praxis (z.B. Zeitmangel, Gruppenuntersuchungen) und den Interessen psychologischer Forschung (z.B. Wiederholungsuntersuchungen) gerecht werdendes ökonomisches Instrumentarium zu schaffen. Die Ge-
476
Psychometrische PersonIich keitstests
samtform des Tests enthält drei Skalen, innerhalb deren die Items nach ansteigender Schwierigkeit geordnet sind: A. eine Neurotizismus-Skala (N3) mit 40 Items, die geteilt werden kann in parallelisierte Halbskalen (Ni, N2) mit je 20 Items, B. eine Extraversionsskala (E3) mit 16 Items, die sich unterteilt in die Unterskalen «Geselligkeit» (Ei) und «Aktivität» (E2), C. eine Lügen-Skala (L) mit 12 Items, die zur Aussonderung nicht interpretierbarer Fragebögen dient. Die Kurzformen setzen sich wie folgt zusammen : Form 1:20 Neurotizismus-Items 16 Extraversions-(8 Geselligkeits-, 8 Aktivitäts-)Items Form II: 20 Neurotizismus-Items 12 Lügen-Items. Die Items müssen jeweils mit «Ja» oder «Nein» beantwortet werden. Um eventuell auftretenden Bejahungstendenzen entgegenzuwirken, wurde die Schlüsselrichtung der Beantwortung bei den E- und I-Items teils mit «Ja», teils mit «Nein» bestimmt. Dies konnte aus verschiedenen Gründen (u. a. Verminderung der Verständlichkeit) bei der N-Skala nicht realisiert werden. Die Schlüsselrichtung der Beantwortung liegt dort ausschließlich bei «Ja». Zur Anwendung: Die Anwendungsmöglichkeiten des Tests liegen im gesamten Spektrum psychologisch-diagnostischer Praxis (Beratungstellen, Schulen, Forschung etc.). Er kann sowohl als Einzel- als auch als Gruppenuntersuchung durchgeführt werden. Die Handhabung des Tests ist sehr einfach: Bis zum Alter von zwölf Jahren sollen Instruktion und Fragen vom Testleiter noch vorgelesen werden, bei Kindern ab zwölf Jahren ist dies nicht mehr erforderlich. Die Durchführungszeit beträgt je nach Alter 15-40 Minuten. Zur Auswertung: Die Auswertung ist, wie die Autoren formulieren, «völlig objektiv, erfordert wenig Zeit und kann, im Gegensatz zur Interpretation, auch von Hilfekräften wahrgenommen werden» (Handanweisung, S. 14). Mit Hilfe von Schablonen werden die jeweiligen Rohpunkte bestimmt, dann für jede Skala getrennt addiert und schließlich in Stanine-Werte, Prozentrangbereiche und verbale Klassifikationen (in fünf Abstufungen von weit unterdurchschnittlich bis weit überdurchschnittlich) transformiert. Für eine maschinelle Auswertung liegt ein Computerprogramm vor.
Persönl ich keits-Stru ktu r-Tests
477
3. Zuverlässigkeit, Interpretation und Aussagewert Die Ausführungen zu den Gütekriterien in der Handanweisung zum HANES-KJ sind wie die gesamte Handanweisung relativ knapp gehalten. Die Autoren beschränken sich auf die kurze Darstellung verschiedener Untersuchungsergebnisse. Buggle & Baumgärtel haben die Zuverlässigkeit des Tests an der inneren Konsistenz der Skalen (Äquivalenzreliabilität) und ah der Retest-Reliabilität überprüft. Die Berechnungen ergaben bei N = 1755 Personen Konsistenzkoeffizienten von r = 0.83 bis r = 0.93 für die verschiedenen Skalen. Die Werte für die Retest-Reliabilität wurden an einer Gruppe von 876 Kindern erhoben. Die zeitliche Differenz zwischen Test und Retest betrug drei Monate. Es wurden dabei Korrelationskoeffizienten zwischen r = 0.50 und r = 0.70 für die Altersgruppen 8;6 bis 10 ;5 und zwischen r = 0.62 und r = 0.75 für die Gruppe der 10;6- bis 16;0jährigen erreicht. «Im ganzen erscheinen die E-Dimensionen im angegebenen unteren Altersbereich weniger gesichert und nicht so stabil wie die Dimension Neurotizismus auf .allen Altersstufen und die Extraversionsdimensionen im oberen Altersbereich» (Handanweisung, S. 11). 4. Gültigkeit Zur Bestimmung der Validität des HANES-KJ führen die Autoren in der Handanweisung eine Reihe von Untersuchungen an. Sie wollen diese verstanden wissen als Beiträge «im Rahmen eines liberalistischen Konzepts von Konstruktvalidität» (Handanweisung, S. 11). Eigene Validitätsuntersuchungen nahmen die Autoren an Gruppen vor, von denen angenommen wurde, daß sie sich durch hohe N-Werte auszeichnen, wie sie der HANES messen soll. Diese Kriteriumsgruppe von 225 Kindern setzte sich aus Jungen und Mädchen zusammen, die sich zur Behandlung oder Beobachtung in einer Poliklinik, in Erziehungsberatungsstellen, in einer Schule für «verhaltensgestörte Kinder» oder in einem Heim aufhielten. Kriterium für die Aufnahme in die Gruppe war eine nicht näher erläuterte Diagnose durch die jeweilige Institution von «Neurotizismus». Das Alter der Kriteriumsgruppe liegt im oberen Altersbereich, den der HANES-KJ erfaßt (z.B. Gruppe der Mädchen: 14;6-16;6). Bei einem Vergleich der Fragebogenergebnisse der Kriteriumsgruppe mit denen der Normpopulation ergaben sich für die Kriteriumsgruppe signifikant erhöhte Mittelwerte für N (auf dem 1 %-Niveau bei Jungen, auf dem 0,1 %-Niveau für Mädchen). Dies werten die Autoren als Beleg für die Gültigkeit des HANES-KJ. Die im weiteren von den Autoren angeführten Validitätshinweise können hier im einzelnen nicht aufgeführt werden. Es handelt sich dabei um Korrelationen mit Testverfahren, die ähnliche Kategorien messen sollen
478
Psychometrische Person I ich keitstests
wie der HANES-KJ (z.B. Kinder-Angst-Test, Woodworth-MathewsSkala, Gruppentest für soziale Einstellung), und um Belege für statistische Zusammenhänge zwischen Merkmalen wie schlechter Rechtschreibung, Sprechstörungen, «sozialer Reife» und sozialer Beliebtheit und den entj sprechenden N-und E-Werten des HANES-KJ. Die dargestellten Untersuchungsergebnisse vermitteln insgesamt den Eindruck, daß die Validität inbesondere der N-Skala befriedigend ist. 5. Normen Die Normierung des Tests erfolgte an 6333 Kindern und Jugendlichen aus städtischen und ländlichen Gebieten verschiedener Bundesländer. Die Untersuchungen ergaben keine Beziehungen zwischen sozioökonomischem Status der Eltern und Schultypus einerseits und den Fragebogenwerten andererseits. Der Test gilt somit als schichtenunabhängig. Es ergeben sich jedoch Abhängigkeiten der Fragebogenwerte von Alter und Geschlecht der Kinder. Deshalb mußten alters- und geschlecjitsspezifische Normen aufgestellt werden. Diese basieren allerdings in den unteren Altersgruppen auf sehr kleinen Normpopulationen (z.B. Mädchen 8;0-8; 11 bei N = 67). Zur besseren Veranschaulichung und Vergleichbarkeit der Testergebnisse liegen für die Rohwerte Transformationen in Stanine-Werte, in Prozentrangbereiche und verbale Klassifikationen für die verschiedenen Alters- und Geschlechtsgruppen vor. 6. Allgemeine Kritik Eine Kritik des Tests muß sicher an dem ihm zugrundeliegenden, nicht unumstrittenen theoretischen Konzept von «Neurotizismus» und «Extraversion» ansetzen. Dies kann im Rahmen einer Darstellung wie dieser allerdings nicht geschehen. Die folgenden Bemerkungen beziehen sich daher auf die Frage, inwieweit der HANES-KJ Bedingungen bietet, so schwer zu bestimmende Konstrukte wie «Neurotizismus» und «Extraversion» sicher und objektiv zu erfassen. Dabei sollen an dieser Stelle nicht die einzelnen angeführten Validitätshinweise und die damit verbundenen methodisch-statistischen Fragestellungen diskutiert werden, es soll hier die Brauchbarkeit des HANES-KJ, ausgehend von Fragebogenitems und Testsituation, reflektiert werden. Die These, die im folgenden erläutert und belegt werden soll, lautet: Der HANES-KJ bietet den Kindern und Jugendlichen wenige Möglichkeiten, sich selbst wirklich zu beschreiben. Sie werden in ein Frage- bzw. Beschreibungssystem gepreßt, in dem sie weder auf die Fragestellungen, anhand deren sie sich beschreiben, noch auf die Antwortmöglichkeiten Einfluß nehmen können. Die Möglichkeit zur Selbstbeschreibung liegt ausschließlich im Ankreuzen von «Ja» oder «Nein» bzw. in der Verweige-
Person! ich keits-St ruKtu r-Tests
479
rung der Antwort. (Dies darf allerdings nicht mehr als einmal pro Skala geschehen, da der Fragebogen sonst nicht mehr quantitativ auswertbar und so ein Hauptzweck des Tests hinfällig ist.) Die Psychologin, die mit dem HANES-KJ arbeitet, erhält durch den Fragebogen Informationen von Kindern, die jedoch nicht ohne weiteres («sicher und objektiv») einen bestimmten Ausprägungsgrad an «Neurotizismus» indizieren. Dies soll im folgenden deutlich gemacht werden. Die Items des HANES sind in der Regel sehr allgemein gehalten und müssen daher sehr allgemein beantwortet werden. Das hat zur Folge, daß die Eingebundenheit der Antworten des Kindes in bestimmte soziale und inhaltliche Lebenszusammenhänge und situative Gegebenheiten nicht berücksichtigt werden kann. Das Kind entscheidet sich aufgrund bestimmter Vorstellungen von der Frage und aus dem eigenen Erfahrungszusammenhang heraus für «Ja» oder «Nein» und legt damit eine bestimmte Interpretation in die Antwort. Diese muß dann allerdings nicht mit der Interpretation übereinstimmen, die bei der Testauswertung durch die Addition der Rohwerte zur Geltung kommt und die zu einer bestimmten Klassifizierung führt. Ein Beispiel: Item 1/7 (N-Skala) lautet: «Kannst du manchmal schlecht einschlafen, weil dir so viele Gedanken durch den Kopf gehen?» Eine Ja-Antwort ergibt in der Auswertung einen Rohpunkt, der dann Teilpunkt der Gesamtdiagnose auf «Neurotizismus» ausmacht. Eine solche Antwort kann aber aus den verschiedensten Gründen, die nicht unbedingt etwas mit «Neurotizismus» zu tun haben, zustande gekommen sein. Gründe könnten in diesem Fall sein: der Begriff «manchmal» ist sehr weit ausgelegt worden, die Schlafstörungen haben organische Ursachen, die Gedanken sind nur scheinbare Ursache, was von dem Kind nicht gesehen wird. Dieses Beispiel weist auf einen weiteren kritischen Punkt hin. Die Items enthalten viele Begriffe, die extrem unterschiedliche Interpretationen zulassen. Es sind dies Begriffe wie «selten», «meistens», «manchmal», «häufig», «öfter» oder «empfindlich», «unangenehm», «vergnügt» etc. Sie alle ergeben nur einen Sinn bei Erläuterung oder in einem bestimmten sprachlichen Kontext. Eine Diagnose, die auf sprachlich so unpräzise gefaßten Items basiert, ist daher äußerst fragwürdig. Problematisch erscheint auch die Lügenskala. In ihren Items werden soziale Verhaltensweisen erfragt, die stark sozialisationsabhängig sind: «Ißt du immer alles, was auf den Tisch kommt?» (II/9) «Ist dein Benehmen immer gut und einwandfrei?» (11/16). Antworten mit «Ja» auf diese beiden Fragen können aufgrund einer bestimmten Sozialisation durchaus ehrliche und konsequente Antworten sein. Sie müssen bei der Auswertung aber als Lügenpunkte gezählt werden. Auf diese Weise können dann
480
Psychometrische PersonIich keitstests
völlig unbegründete Lügenwerte und damit verbundene Interpretationen Zustandekommen.
Im HANES-KJ wird aus dem Verhalten der Kinder in der Testsituation, nämlich die Fragen in einer bestimmten Art (Tendenz) zu beantworten, auf Persönlichkeitsmerkmale geschlossen. Dies ist ein fragwürdiges Vorgehen, betrachtet man die Testsituation etwas genauer: Die Testsituation beim HANES-KJ ist wie jede andere Testsituation eine soziale Situation, die durch bestimmte strukturelle Merkmale gekennzeichnet ist. Testleiter und Kind gehen mit bestimmten Erwartungen, Vorstellungen und Interessen in die Befragung. Während der Testleiter größere Verhaltenssicherheit sucht, zum Teil sicher auch Legitimation für weitere Entscheidungen, weiß das Kind, daß der Fragebogen in Beziehung zu wichtigen Entscheidungen und Problemen aus seinem ganz konkreten Lebenszusammenhang steht (z.B. Schulentlassung, Heimeinweisung). Das Kind wird versuchen, die Fragen so zu beantworten, wie es für sein Problem «günstig» scheint. Dies wird einerseits verschiedene Antworttendenzen bewirken, wie etwa sozial erwünschte Antworten zu geben oder ein Negieren bzw. Bejahen von Krankheitssymptomen. Andererseits werden Unsicherheit und gleichzeitig Entscheidungsdruck in der Testsituation verstärkt, da es dem Kind vielfach nicht möglich ist, zu unterscheiden, welche Antwort gerade «günstig» ist. Ob dies dann allerdings noch Bedingungen sind, die Gewähr bieten, einigermaßen valide eine quantitative, vergleichbare Diagnose «so schwer zu fassender Dimensionen wie und » (Handanweisung, S. 11) zu stellen, muß bezweifelt werden. Die Relevanz und Beliebtheit des HANES-KJ liegen einerseits in seiner einfachen Handhabung begründet, andererseits aber auch in der schnellen quantitativen Auswertung und in der Möglichkeit, die Ergebnisse verständlich und vergleichbar in Prozentrangbereichen und verbalen Klassifikationen darzustellen. Dies quantitative Ergebnis wird, zumal in der Handanweisung keinerlei Hinweise für eine qualitative Auswertung gegeben werden, entscheidenden Einfluß auf diagnostische und damit verbundene Entscheidungen haben. Der Test fördert so Tendenzen, schnelle (vorschnelle) Klassifikationen vorzunehmen, die Entscheidungen legitimieren helfen, nicht unbedingt aber dem Kind gerecht werden bzw. seine Persönlichkeit erfassen. Ulrich Tappe
Persönlichkeits-Struktur-Tests
481
1.4 Testname: Problemfragebogen für Jugendliche (Deutsche Fassung des SRA Youth Inventory von H. H. Remmers und B. Shimberg) Autoren: F. Süllwold, H. Roth, M. Berg Göttingen: Hogrefe 1967 1. Testart: Einstellungs- und Interessentest 2. Allgemeines Grundkonzept Der Problemfragebogen soll Auskunft geben über die Einstellungen, Schwierigkeiten und Ängste von Jugendlichen. Die Verfasser sind der Ansicht, daß er «in Form von Feststellungen, Fragen und Wünschen eine Zusammenstellung von Problemen (liefert), die für die inneren und äußeren Entwicklungsvorgänge der Jugendzeit charakteristisch sind». Damit sei «für Eltern, Lehrer, Berufsberater, Juristen, Jugendleiter, Erziehungsberater, Personalleiter in Betrieben u. a. m. ein bedeutsames Hilfsmittel» geschaffen. Die deutsche Fassung stimmt weitgehend mit dem amerikanischen Original überein, dessen erste Form 1949 erschien. Die Zusammenstellung der Probleme erfolgte anhand von eigens für diesen Zweck angefertigten Schüleraufsätzen in den USA. Die beiden Formen des Fragebogens - Form M für Jungen, Form W für Mädchen - enthalten je 306 Items, die, teils als Frage oder Feststellung, teils als Wunsch formuliert, acht Problembereiche abdecken sollen: «Meine Schule», «Nach der Schulzeit (bzw. Lehre)», «Über mich selbst», «Ich und die anderen», «Zu Hause», «Jungen und Mädchen», «Gesundheit» und «Allgemeines». Der Problemfragebogen ist für Jugendliche zwischen 14 und 18 Jahren gedacht und als Einzel- oder Gruppentest anzuwenden. In der Instruktion werden die Probanden «vom Versuchsleiter eindringlich darauf hingewiesen), daß es in (ihrem) eigenen Interesse... liegt, die Fragen ehrlich und gewissenhaft zu beantworten». Es wird ihnen dann erklärt, daß sie die Möglichkeit haben, anzukreuzen, ob sie das jeweilige Item «sehr stark bewegt» (zählt bei der Auswertung 3 Punkte), «nicht so stark, aber doch häufig beschäftigt» (2 Punkte), «wenig und nur gelegentlich beschäftigt» (1 Punkt) oder «überhaupt nicht beschäftigt oder aus irgendeinem Grunde nicht betrifft» (0 Punkte). Die Untertests im einzelnen: 1. «Meine Schule» (40 Items): Es werden Probleme mit der Schule allgemein («Ich wollte, ich könnte schon jetzt die Schule für immer verlassen») sowie mit einzelnen Schulfächern («Ich wünschte, ich verstünde die
482
Psychometrische PersonIich keitstests
sprachlichen Fächer besser») angesprochen, außerdem das Verhältnis zu den Lehrern («Ich wünschte, meine Lehrer wären warmherzige und freundliche Menschen») und die Einschätzung der eigenen Leistungen («Ich brauche Nachhüfestunden»). Die Auswertungs- bzw. Interpretationshinweise zu diesem Bereich sind recht vage gehalten: «Die Antworten ... können auf Ursachen und Motive hinweisen, die das soziale Verhalten und die Leistungen in der Schule maßgebend beeinflussen» (Beiheft, S. 6). 2. «Nach der Schulzeit (bzw. Lehre)» (42 Items): Hier werden vor allem Probleme, die gegen Ende der Schulzeit auftauchen und einen eventuellen weiteren Schulbesuch («Ich wünschte, ich hätte genügend Geld, um studieren [eine Fachschule besuchen] zu können») bzw. dierichtigeWahl des Berufsweges («Ich möchte eine andere Lehrstelle haben») betreffen, abgefragt. Auch hier wird zur Auswertung nur verschwommen auf die «wertvolle^) Hinweise» verwiesen, die «die Antworten auf diese Fragen... für die schulische oder berufliche Laufbahnberatung (liefern)» (Beiheft, S. 6). Bemerkenswert ist die Frage Nr. 63. In der «Form M» heißt es da: «Wie wird der Wehrdienst meine Laufbahn beeinflussen?», in der «Form W» lautet das entsprechende Item «Welche Berufe sind für Mädchen besonders geeignet?» 3. «Über mich selbst» (43 Items): Hier werden Probleme mit dem eigenen Körper («Ich möchte meine Pickel loswerden»), mit den eigenen Emotionen («Es fällt mir schwer, die Ruhe zu bewahren») und mit der Umwelt («Ich habe Angst, im Unterricht etwas zu sagen») behandelt. Dieses Mal lassen die Interpretationshinweise an Deutlichkeit nichts zu wünschen übrig: «Probanden mit hohen Summenwerten in diesem Bereich leiden vermutlich an Fehlanpassungen und Störungen der Ichentwicklung. Sie sollen zur eingehenderen Untersuchung dem Schulpsychologen vorgestellt werden.» Allerdings: Was «hohe Summenwerte» sind, wird im einzelnen nicht angegeben, so daß der «kritische Score» von den Auswertern willkürlich festgelegt werden kann. 4. «Ich und die anderen» (46 Items): Hier wird das Verhältnis zu Gleichaltrigen («Ich muß lernen, mit meinen Altersgenossen auszukommen»), zu gesellschaftlichen Verpflichtungen («Soll man sich darum bemühen, zu Gesellschaften oder Bällen eingeladen zu werden ?») bzw. zu Erwachsenen («Ich schwärme für einen Menschen, der älter ist als ich») angesprochen. Bei der Auswertung wird lediglich auf die «wertvolle Information» verwiesen, die die Antworten auf diese Fragen «über die Beziehungen zur sozialen Umwelt» liefern sollen. 5. «Zu Hause» (43 Items): Der Erziehungsstil der Eltern («Meine Eltern interessieren sich nicht für das, was ich erreiche und leiste») sowie die
Persönlichkeits-Struktur-Tests
483
finanzielle und wohnliche Situation («unsere Familie hat zu häufig Geldsorgen») werden hier behandelt. Zur Auswertung wird auch hier nur empfohlen, «die Antworten in diesem Bereich immer sorgfältig (zu) beachten». 6. «Jungen und Mädchen» (31 Items): Die Fragen umfassen Probleme mit der eigenen Sexualität («Es ist mir unangenehm, wenn von geschlechtlichen Dingen die Rede ist»), mit moralischen Vorstellungen («Ich möchte wissen, wie lange man sich kennen sollte, bevor man heiratet») und mit dem Verhältnis zum anderen Geschlecht. Was den letztgenannten Problembereich angeht, so gibt es hier wiederum charakteristische Unterschiede in den Testbögen für Jungen und für Mädchen. So heißt es z. B. in Form M: «Ich frage mich, warum ich so gehemmt bin, wenn ich ein Mädchen um eine Verabredung bitten möchte» oder « Wie lange sollte man ein Mädchen kennen, ehe man ihm das anbieten kann?», während die entsprechenden Passagen aus den korrespondierenden Items in Form W lauten: «... wenn ein Junge mich anspricht» und «... ehe man sich das anbieten läßt», was auf geschlechtsspezifische Vorurteile der Testkonstrukteure hinweist. Ein weiteres Beispiel ist das Item 225: «Ich frage mich, warum es anstößig sein soll, wenn Jugendliche meines Alters abends ohne Begleitung ausgehen» (Form M) bzw. «Manchmal wünschte ich, daß auch Mädchen meines Alters ohne Begleitung ausgehen dürften» (Form W). Die Antworten auf die Fragen dieses Untertests sollen laut Auswertungsanweisung «.. .Hinweise auf die notwendigen sexualpädagogischen Maßnahmen geben». 7. «Gesundheit» (26 Items): körperliche Probleme aller Art («Ich habe oft Kopfschmerzen» bis «oft stört mich, daß ich eine Brille tragen muß») werden hier abgefragt. Wie es allerdings gelingen soll, anhand dieser Fragen herauszufinden, «ob sich der Proband durch tatsächliche oder nur befürchtete» (also nicht tatsächlich vorhandene?) «Krankheiten oder körperliche Fehler behindert fühlt», bleibt das Geheimnis der Verfasser. 8. «Allgemeines» (35 Items): In dieser Sammelkategorie werden schließlich religiöse («Ich mache mir Gedanken über Himmel und Hölle»), moralische («Ich mache mir Gedanken darüber, ob man ein bißchen schwindeln [z.B. in der Schule abschreiben] darf») und politischsoziale («Was kann ich tun, damit wir eine vertrauenswürdige Regierung haben?») Probleme angeschnitten. Hier sollen «Hinweise auf den Grad der geistigen und sozialen Reife eines Jugendlichen» erhalten werden. Wodurch aber eine solche «geistige und soziale Reife» gekennzeichnet sein soll, darüber ist im Testbeiheft nichts zu finden.
484
Psychometrische PersonIich keitstests
3. Gültigkeit Die Autoren behaupten, der Test sei inhaltsvalide: «Wichtig für die Beurteilung der Inhaltsvalidität eines Tests... ist, daß eine repräsentative Stichprobe von Items des betreffenden Gesamtbereichs ausgewählt wurde. Diese Bedingung dürfte beim Problemfragebogen erfüllt sein» (Beiheft, S. 16). Ob allerdings eine aus dem Amerikanischen übersetzte 1949 zum erstenmal erschienene - Sammlung von Problemen für Jugendliche in der BRD rund dreißig Jahre später auch für deren Probleme repräsentativ ist, muß stark bezweifelt werden. Kaum ein Jugendlicher wird sich heute noch mit der Frage herumquälen, ob er sich bemühen soll, auf Bälle eingeladen zu werden; eher wird er damit zu tun haben, sich in Jugendheimen oder Discotheken zurechtzufinden. Probleme mit Alkohol oder Drogen bleiben völlig ausgeklammert, ebenso Schwierigkeiten, die sich aus praktizierter Sexualität unter Jugendlichen ergeben (offensichtlich nehmen die Verfasser an, junge Leute bis 18 Jahre machten sich bestenfalls Gedanken über zukünftige «geschlechtliche Dinge»). Den Autoren mag die Inhaltsvalidität dieses Tests selbst auch nicht so ganz unzweifelhaft vorgekommen sein, jedenfalls geben sie als weiteren Beleg für die Gültigkeit an: «Schließlich sagt in diesem Fall auch der Grad der inneren Konsistenz des Problembereichs, wie er zahlenmäßig durch den berechneten Reliabilitätskoeffizienten angezeigt wird, etwas über die Validität des Problemfragebogens aus» (Beiheft, S. 16f.). Dies ist nun allerdings falsch. Reliabilitätsmaße sagen lediglich etwas darüber aus, wie zuverlässig ein Test mißt, «gleichgültig, was er mißt. Reliabilität ist also kein inhaltliches, sondern ein formales Kriterium» (Selg & Bauer 1971, S. 69). Die Zweifel an der Validität dieses Tests werden durch das gewählte Reliabilitätsmaß nicht ausgeräumt. 4. Zuverlässigkeit, Interpretation und Aussagewert Die Zuverlässigkeit wurde überhaupt nur bei einer Vörform dieses Tests erhoben, die nur die Antwortmöglichkeit «Ja-Nein» vorsah (statt der schließlich verwendeten vierstufigen Skala). Bei einer Stichprobe von 217 weiblichen und 283 männlichen Jugendlichen zwischen 16 und 17 Jahren (also nicht repräsentativ für die Altersgruppe, für die der Test vorgesehen ist), ergab sich je nach Untertest ein Maß der inneren Konsistenz von r tt = 0.83 bis r tt = 0.94. Die Autoren fügen zwar hinzu, «wie Vergleichsuntersuchungen gezeigt haben», seien die Werte bei der neueren Form des Tests nicht wesentlich anders, doch fehlt hier jede Möglichkeit der Überprüfung, da von den Verfassern keine Quellenangabe gemacht wird. Fassen wir noch einmal zusammen, was alles den Aussagewert des Tests - wenn er heute bei Jugendlichen angewendet wird - beeinträchtigt:
Persönlichkeits-Struktur-Tests
485
- Die Sammlung der Probleme erfolgte in den vierziger Jahren in den USA (die damals Befragten dürften heute Kinder haben, die im Alter der heute noch damit getesteten Jugendlichen sind!). Die Probleme, die damals für die Jugendlichen vielleicht repräsentativ waren, sind es heute wahrscheinlich nicht mehr. Mit Sicherheit aber sind wesentliche neue Problembereiche dazugekommen, die im Test nicht angesprochen werden. - Der Test genügt nicht einmal immanenten Gütekriterien (echte Nachweise der Gültigkeit und Zuverlässigkeit der heutigen Testform bleiben aus). - Die Eichung des Tests erfolgte nur anhand von Ergebnissen bei Berufsschülern, und das vor langer Zeit. - Der Willkür des jeweiligen Auswerters, wann er welche Testergebnisse für signifikant hält, wird keinerlei Grenze gesetzt. 5. Normen Geeicht wurde der Test nur an Berufsschülern, und zwar bei den Jungen im Jahr 1959, bei den Mädchen 1965. Jeder, der sich heute daranmacht, die bei seinen Probanden erhobenen Rohwerte in Prozentrangnormen umzurechnen, sollte sich diese Tatsache vor Augen halten, denn es schränkt die Aussagemöglichkeit heutiger Testergebnisse zusätzlich ein. Durch die Umwandlung der Rohwerte in Prozentrangnormen soll festgestellt werden, ob der Proband in den einzelnen Problembereichen unterdurchschnittlich, durchschnittlich oder überdurchschnittlich viele Probleme hat. Darüber hinaus sind Tabellen über die Häufigkeitsverteilung der Einzelantworten dazu da, «ab(zu)schätzen, ob die Intensität eines Problems, mit dem sich ein Proband beschäftigt, ungewöhnlich ist oder bei vielen Jugendlichen seines Alters angetroffen wird» (Beiheft, S. 20). 6. Allgemeine Kritik Eines ist bisher noch überhaupt nicht angesprochen worden: die Reaktion der Probanden auf diesen Problemfragebogen. Eigentlich kann man jedem Jugendlichen, der diesen Test vorgesetzt bekommt, nur raten, die Beantwortung zu verweigern. Denn dieser Test dringt in die Privatsphäre der Jugendlichen ein und fragt sie aus, ohne daß die Getesteten auch nur die geringste Einflußmöglichkeit auf die Auswertung, Interpretation und Verwertung ihrer Antworten haben. Im Gegenteil wird ihnen auch noch eingangs erklärt, eine Beantwortung der Fragen läge in ihrem eigenen Interesse. Wer sich jedoch nicht weigern kann oder will (vielleicht aus Angst, dann einen besonders «schlechten Eindruck» zu hinterlassen), dem kann man nur raten, worauf sicherlich zahlreiche Probanden von selbst kom-
486
Psychometrische PersonIich keitstests
men: auf gar keinen Fall wahrheitsgemäß zu antworten, sondern statt dessen einen souveränen Jugendlichen zu mimen, der zwar über die Probleme dieser Welt nachdenkt, persönlich aber - von ein paar Kleinigkeiten abgesehen, die man ruhig zugeben sollte - keine Probleme hat. Literatur Selg, H., & Bauer, W.: Forschungsmethoden der Psychologie. Stuttgart 1971
Michaela Huber
2. Einstellungs- und Interessentests 2.1 Testname: Berufs-Interessen-Test (B-I-T), B-I-T.II Autor: M. Irle Göttingen: Hogrefe 1955,1984 1. Testart: Interessentest bzw. Berufseignungstest 2, Allgemeines Grundkonzept a) Aufgabe: Diagnose der Richtung und Stärke berufsbezogener Interessen: Die Ergebnisse sollen objektiv, vergleichbar, zuverlässig und gültig sein (vgl. Handanweisung, S. 5). Die Aufgabenstellung (wie auch die Konstruktion) des Tests erfolgt offensichtlich in Anlehnung an die Bedürfnisse der Käufer von Arbeitskraft, nicht aber der einen Arbeitsplatz oder eine Ausbildungsstelle suchenden Test-Probanden. Ein Ratsuchender benötigt keine «objektive» Diagnose der Richtung und Stärke seiner Interessen, er kennt aus unmittelbarem Erleben seine Interessen. Was er benötigt, sind zum einen Antworten auf die Frage, ob die in seinen Interessen enthaltenen Vorstellungen über den interessierenden Gegenstandsbereich realistisch sind, zum anderen, wie er diese seine Interessen in die Tat umsetzen kann; dazu nützt ihm der Test aber überhaupt nichts, im Gegenteil, er verschleiert nur die wirklichen Arbeitsbedingungen. Auch die «Vergleichbarkeit» seiner Interessen mit denen anderer Pbn. interessiert nicht ihn (er ist einfach mehr oder weniger interessiert), sondern den potentiellen Käufer seiner Arbeitskraft, der sich ein möglichst
Ei nstel lungs- und interessentests
487
starkes Interesse für die angebotene Tätigkeit als «subjektiven Faktor» ihrer Verwertbarkeit wünscht. Ähnlich verhält es sich mit «Zuverlässigkeit» und «Gültigkeit». Der Arbeitgeber» muß sich darauf «verlassen» können, daß die Interessen auch wirklich in die Tätigkeit eingebracht werden und sich nicht etwa nur zum Zeitpunkt der Messung einstellen , und er möchte natürlich sichergehen können, daß es wirklich das Interesse an der verlangten Tätigkeit ist, das jemanden zu einer Bewerbung motiviert, und nicht ein vorgetäuschtes, nicht der bloße Anreiz z. B. einer höheren Entlohnung. Und auch in dem Fall, daß ein Ratsuchender nicht so recht weiß, was seine Interessen sind, hilft ihm der Test nicht weiter oder doch nur scheinbar. Interessen entwickeln sich in Auseinandersetzung mit der natürlichen und gesellschaftlichen Umwelt, in praktischer Tätigkeit und sozialem Verkehr; wo die nötige Praxis und Erfahrung fehlen, um Interessen entwickelt zu haben bzw. vorhandene Interessen sicher auf ihre Bedeutung für die eigene Lebensplanung einschätzen zu können, kann ein Blatt Papier mit 162 aufgedruckten Tätigkeiten keine Praxis ersetzen. Auf den Begriff gebracht wird die Funktion des Tests durch Irle selbst: Es geht um das «bisher sehr schwierig zu lösende... Problem, zu diagnostizieren, ob ein Mensch vorhandene Fähigkeiten und Leistungseigenschaften mit großer Sicherheit in dem Beruf und an dem Arbeitsplatz aktivieren wird, die in ihren Anforderungscharakteren seiner Anlagenstruktur entsprechen» (Handanweisung, S. 5). (Vgl. auch Abschnitt «Aussagewert»). b) Anwendungsbereich: Alter: Ab 13 Jahren. «Es ist jedoch zu beachten, daß sich die beruflichen Interessen noch während der Pubertät entwickeln und spezifizieren, in dieser Zeit im allgemeinen also noch instabiler sind als beim erwachsenen Menschen» (Handanweisung, S. 16). Gerade für Zwecke der Berufseignungsdiagnose bei Jugendlichen erscheint es daher unangemessen, sie hinsichtlich ihrer Interessen mit «erhöhter diagnostischer Intensität» (Handanweisung, S. 9) auf einen «objektiv» und «zuverlässig» ermittelten Wert zu fixieren. Praxisfelder: Psychologische Berufseignungsuntersuchung (Berufsberatung, Personalauslese, berufliche Umschulung etc.); nur zur Ermittlung der beruflichen Interessen zu benutzen. Zu denken gibt, daß ein und derselbe Test sowohl für die Interessen des Arbeitnehmers» bzw. Auszubildenden als auch für die des Arbeitgebers» dienlich sein soll.
488
Psychometrische Person I ich keitstests
c) Testimmanente Theorie: Interessen sind nach Irle «latente Dispositionen, welche die aktuellen Handlungen in einer konkreten Lebenssituation des Individuums allgemein antreiben, ordnen und steuern... Interessen sind immer gerichtet auf bestimmte Objekte, Regionen bzw. Bereiche der Umwelt ... Interessen werden definiert durch ihre Richtung und Stärke» (Handanweisung, S* 5; Hervorhebungen von Irle). In der Auffassung Irles wird dem für die Entwicklung der Persönlichkeit besonders wichtigen Gesichtspunkt der bewußten, erkenntnismäßigen Auseinandersetzung des Individuums mit dem Gegenstand seines Interesses nicht genügend Rechnung getragen. Die Entscheidungen des Pbn. für bestimmte Tätigkeiten «werden als Symptome für die zu untersuchenden beruflichen Interessen gewertet» (Handanweisung, S. 8). Ein bestimmtes Interesse eines Pbn. kann sich sehr wohl in bestimmten Wahlhandlungen objektivieren. «Aber man kann diese Handlung nur in der konkreten Situation, auf dem Hintergrund der Gesamtheit des Bewußtseins, auf dem Hintergrund der Gesamtheit der äußeren Bedingungen als Ausdruck einer best. Denkweise ansehen» (Dick 1974, S. 318f.; Hervorhebung von Dick). Es ist daher unwissenschaftlich, Entscheidungen eines Pbn., und ganz besonders in der parzellierten, redimerten und labilisierten quasi-experimentellen Test-Situation (vgl. Holzkamp 1972, S. 26ff.), mechanisch als Symptom beruflicher Interessen zu deuten. d) Aufbau: Untersucht werden neun Interessenrichtungen: 1. Technisches Handwerk (TH) 2. Gestaltendes Handwerk (GH) 3. Technische und naturwissenschaftliche Berufe (TN) 4. Ernährungs-Handwerk (EH) 5. Land- und forstwirtschaftliche Berufe (LF) 6. Kaufmännische Berufe (KB) 7. Verwaltende Berufe (VB) 8. Literarische und geisteswissenschaftliche Berufe (LG) 9. Sozialpflege und Erziehung (SE) Die Benennung und Auswahl der mit dem Test erfaßten Interessenrichtungen wird nicht begründet. Jede Richtung ist durch 18 berufliche Tätigkeiten vertreten. Eine spezielle Anordnung der Testitems in einer lO-x-lO-Matrix (auf jeder der beiden Fragebogenseiten 81 verschiedene Items und 19 konstruktionsbedingte Wiederholungen an den Rändern der Matrix) erlaubt es, «jede
Ei nstel lungs- und interessentests
489
Tätigkeit aus einer Richtung mit Tätigkeiten aus allen übrigen acht Richtungen zu konfrontieren, indem sie je 4mal in einem Wahlakt erscheinen» (Handanweisung, S. 8). Jede einzelne Tätigkeit kann insgesamt 0- bis 4mal gewählt werden, der Maximalwert in einer Richtung beträgt daher 72 Punkte (4 x 18), der Minimalwert 0 Punkte. Da insgesamt 162 Entscheidungen zu treffen sind, beträgt der Gesamtwert aller Richtungen immer 162 Punkte. Infolge des Wahlzwanges erhält jeder Pb. grundsätzlich den Gesamtpunktwert 162. Diese Gleichschaltung der Pbn. nivelliert interindividuelle Unterschiede in der generellen Stärke der Interessen. Ebenso werden intraindividuelle Interessenunterschiede verzerrt; bei subjektiv auch nur leichter - Bevorzugung einer Interessenrichtung bleibenfür die anderen acht Richtungen infolge der ipsativen Meßtechnik nur relativ kleine Punktzahlen übrig (vgl. auch Abschnitt «Interpretation»). e) Testmaterial: Handanweisung, Testbogen mit angehängtem Personal-, Anweisungsund Profilbogen, ein Satz von drei Auswertungsschablonen; außerdem Schreibgerät. f) Durchführung: Form: Einzel- oder Gruppentest; Gruppengröße: «Geübter Testleiter» bis zu 50 Personen; «Anfänger» höchstens 20 Personen. Handhabung: «Bevor der BIT im Ernstfall angewandt wird, muß der Versuchsleiter mehrere Probeuntersuchungen mit ihm durchführen» (Handanweisung, S. 6). Die Anweisung wird dem /den - mitlesenden - Pb. vom Versuchsleiter «so langsam, rhythmisch, das Wichtige eindringlich betonend» vorgelesen, «daß keine Schwierigkeiten beim Verständnis der Anweisungen entstehen» (Handanweisung, S. 6). Außerdem hat der Testleiter Verständnisfragen zu beantworten und die Bearbeitung der Testbogen auf Korrektheit hin zu kontrollieren. Nach Kettel und Simmat gelingt «das Verständnis der Instruktion nicht allen Probanden auf Anhieb..., so daß es zu Fällen kommt, deren Korrektur nicht nur äußerst zeitraubend ist, sondern vor allem die Motivation der Untersuchten beeinträchtigt» (1967, S.30). Sie schlagen daher eine Erweiterung der Instruktion vor. Der Testleiter-Einfluß dürfte bei der Durchführung des BIT erheblich sein. Nach Sader & Keil kann «fast jede Eigenart des TL..., wenn sie extrem genug ausgebildet ist, einen statistisch signifikanten... Einfluß haben» (1966, S. 291). Die Durchführung des BIT kann daher nur als bedingt objektiv angesehen werden.
490
Psychometrische PersonIich keitstests
Der Pb. hat sich 162mal zu entscheiden (Zwangswahlverfahren), welche von vier verschiedenen Tätigkeiten, und zwar jeweils nur eine, er «am liebsten tun würde» (vgl. Handanweisung, S. 7). Die Abfolge der einzelnen Entscheidungen wird durch ein dem Testbogen aufgedrucktes System von Pfeilen und Zahlen gesteuert. (Zu den Implikationen des Zwangswahlverfahrens s. Abschnitt 4.) Der Pb. soll sich «beim AusfüEen immer vor(stellen): Alle Arbeiten werden gleich gut bezahlt; Sie haben alles Notwendige zu ihrer Durchführung gelernt; alle Tätigkeiten genießen ein gleich gutes Ansehen bei allen Menschen» (Handanweisung, S. 7). Die an den Pb. gerichtete Erwartung, daß er sich im Sinne «reiner» Interessen entscheidet, muß als irreal angesehen werden (zu den Implikationen dieser Abstraktions-Erwartung vgl. Abschnitt 4, «Aussagewert»). Zeit: Keine zeitliche Begrenzung; meistens «(ohne Erteilung der Anweisungen) etwa 30-40Minuten, mindestens 20 und höchstens 80» (Handanweisung, S. 6). «Es empfiehlt sich, den BIT bei Gruppenuntersuchungen, z. B. in der Berufseignungsdiagnostik, vor größeren Pausen oder als letzten Test der gesamten Untersuchung durchzuführen» (Handanweisung, S. 6). Die große Spannweite der in der Praxis zu konstatierenden Bearbeitungszeiten läßt vermuten, daß unterschiedliche Antwortstile (z. B. spontan vs. überlegt) bzw. Unterschiede in der Fähigkeit (Geübtheit), Tests zu bearbeiten, zu Verzerrungen führen. Der in den «Handanweisungen» enthaltene Hinweis: «Es gibt keine richtigen und falschen Antworten; Sie entscheiden nur, was Sie am liebsten tun» (S. 7), kann, zumindest bei einer Verwendung des Tests zu Zwecken der Personalauslese, nur als Irreführung des Pbn. gewertet werden. g) Auswertung: Mit Hilfe der Schablonen werden die Rohwerte der neun Interessenrichtungen ausgezählt und addiert. Bei Abweichungen von mehr als ± 10 Punkten vom Gesamt-Punktwert (162) ist eine Test-Wiederholung angebracht. Auf dem Profilbogen, in den die neun Rohwerte eingetragen werden, können die ihnen entsprechenden Prozentrangplätze abgelesen werden. 3. Normen Die Normpopulation bestand aus 1150 männlichen und 260 weiblichen Personen; davon waren mehr als die Hälfte Lehrlinge, etwa 20% Schüler und etwa 30% Erwachsene. Weibliche Probanden sind in der Normpopulation stark unterrepräsentiert. Die den Rohwerten entsprechenden Prozentrangplätze sind als Gesamtnormen auf dem Profilbogen aufgedruckt.
Ei nstel lungs- und interessentests
491
Die Normen sind nicht differenziert, weder nach Geschlecht noch nach Alter und Bildungsstand; sie eignen sich daher genaugenommen nur für den Vergleich der Ergebnisse von Probanden-Gruppen, deren Zusammensetzung und Charakteristika der Norm-Population entsprechen. Kettel und Simmat (1968) zeigen dann auch eine Abhängigkeit der Ergebnisse von der Vorbildung der Pbn. auf sowie von traditionellen Geschlechtsröllenstereotypen. Für eine Kurzform des BIT (Berücksichtigung nur der Vorderseite des Testbogens) errechneten Kettel und Simmat (1968) neue Normen: 13-, 14-, 15jährige Volksschüler/innen, 15- und 16jährige Realschüler/innen, 16- und 17/ 18jährige Gymnasialschüler/innen (N = 69-327). Die Verteilung der Prozentrangplätze «ist graphisch so vorgenommen, daß die Normalverteilung der Gaußschen Kurve entspricht (±3 Sigma)» (Handanweisung, S. 9). Bei dieser Transformation handelt es sich um ein methodisch zumindest zweifelhaftes und zu Mißverständnissen Anlaß gebendes Verfahren, da die Verteilung der Werte aus konstruktionsbedingten Gründen (ipsative Messung) prinzipiell schief ist. Damit soll nach Irle die Gefahr eingeschränkt werden, «daß der statistisch Unkundige hohe und niedrige Prozentrangplätze überschätzt» (Handanweisung, S. 9). Die Frage stellt sich hier, was ein solcher Test in der Hand des «statistisch Unkundigen» überhaupt zu suchen hat?! 4. Interpretation, Zuverlässigkeit und Aussagewert Interpretation: Rangplätze im Bereich zwischen 0 und 25 % weisen auf ein mit Vergleich zur Normpopulation «schwaches» Interesse hin, zwischen 26 und 75% auf eine «durchschnittliche» und zwischen 76 und 100% auf eine «starke» Interessenausprägung. Der methodische Aufbau des BIT (ipsative Messung: Die Entscheidung für eine der je vier zur Wahl stehenden Tätigkeiten ist - gewollt oder nicht - eine Entscheidung gegen die drei anderen) führt zu verzerrten Ergebnissen. Nur wenig unterschiedliche Interessensausprägungen können erheblich unterschiedliche Prozentrangplätze zur Folge haben. Aussagen über die Intensität von Interessen, über die Größe intraindividueller Unterschiede zwischen den Interessen eines Pbn. sowie über Unterschiede zwischen verschiedenen Pbn. sind nicht verläßlich möglich. So kann z. B. Pb. A, der generell desinteressiert ist, aber - wenn überhaupt - «technisch-handwerkliche» Tätigkeiten bevorzugt, ebenso einen sehr hohen TH-Prozentrang erhalten wie Pb. B, der sich für viele Tätig-
492
Psychometrische PersonIichkeitstests
keiteir stark interessiert, darunter aber - wenn man ihm schon eine Entscheidung für nur jeweils eine der Tätigkeiten abverlangt - ebenfalls besonders für das «Technische Handwerk». Es ist daher keinerlei Gewähr gegeben, daß die prozentrangmäßige Einteilung der Interessensstärke mit der subjektiven Realität der Pbn. übereinstimmt. Ein Prozentrang von z.B. 60 für die Richtung TH läßt also nur die formale Aussage zu, daß der ihm entsprechende Testrohwert 18 höher ist als derjenige, den 60 % der Normpopulation erreicht haben. Da die Meßwertverteilung nicht der Normalkurve entspricht, können darüber hinaus Standardabweichungen und somit Standardmeßfehler und Vertrauensgrenzen nicht angegeben werden. Eine weitere Möglichkeit der Interpretation besteht darin, das erhaltene Rohwertprofil mit 25 (bis auf zwei Ausnahmen signifikant unterschiedlichen) «berufstypischen Interessenprofilen» zu vergleichen (vgl. Handanweisung, S. 15). Aufgrund der Abhängigkeit der Messungen der neun Interessenrichtungen voneinander sind über die Interkorrelationen der Skalen keine der üblichen testtheoretischen Aussagen möglich (vgl. Handanweisung, S. 14), daher auch nicht über die Profileigenschaften der nebeneinander aufgezeichneten Skalenwerte. Die «berufstypischen Interessenprofile» sind also bestenfalls individuell als Rangreihe interpretierbar. Eine Interpretation von BIT-Ergebnissen, die sich an den in den fünfziger Jahren ermittelten Normen oder den «berufstypischen Profilen» orientiert, hat konservative Funktion; sie perpetuiert - bewußt oder unbewußt - die damals herrschenden Strukturen beruflicher Sozialisation. Persönlichkeits- und Interessenstrukturen, die den damit gegebenen Maßstäben nicht entsprechen, wird qua Auswahlentscheidung eine Abfuhr erteilt. Zuverlässigkeit: Nach der Methode von Kuder-Richardson (innere Konsistenz): TH - 0.940 E H - 0.811 VB - 0.902 GH -r 0.874 LF - 0.949 LG - 0.865 TN - 0.831 KB - 0.752 SE -0.902
Ei nstel lungs- und interessentests
493
(N = 310) (Handanweisung, S. 14). Die Höhe der angegebenen Koeffizienten reicht (in Anlehnung an Lienert 1969, S. 309) zur Beurteilung individueller Differenzen aus. Allerdings werden über die Varianz der Kontrollstichprobe keine Angaben gemacht. Da diese Stichprobe nicht nach Geschlecht, Alter etc. differenziert war, ist ihre Varianz u. U. deutlich größer als die der Testpopulation. Die angegebenen Reliabilitätskoeffizienten sind daher in Hinblick auf spezifische Testpopulationen u. U. als zu hoch anzusehen (vgl. Lienert 1969, S. 238). Aussagewert: Aus schwerpunktmäßig methodischer Sicht: Eine «objektive, zahlenmäßige Verifizierung des Grades der Gültigkeit» fand mangels einer «objektiven, vergleichbaren und statistisch behandelbaren Bestimmung der Berufsbilder» (Handanweisung, S. 16) nicht statt. Diesen Verzicht dürfte sich der Autor angesichts seiner hohen testtheoretischen Ansprüche eigentlich nicht zugestehen (vgl. Abschnitt 5). «Die Ermittlung berufstypischer Interessenprofile kann... als erfolgreiche Probe auf die Gültigkeit des BIT gewertet werden» (Handanweisung, S. 16). In Anbetracht u. a. der eingeschränkten Interpretierbarkeit der «berufstypischen Interessenprofile» (vgl. Abschnitt Interpretation) ist diese Probe als für Validierungszwecke nicht ausreichend zu bewerten. Anzunehmen ist nun zwar, daß dem Test - nach den Kriterien der klassischen Testtheorie - eine gewisse inhaltliche Gültigkeit zukommt. Wichtiger ist aber der prognostische Wert des Tests; seine Konstruktion war schließlich kein Selbstzweck, sondern soll Entscheidungshilfen geben zur Beurteilung der beruflichen Eignung des Pbn. Eine diesbezügliche prognostische Gültigkeit kann aber aus der Ermittlung der o. a. Profile auch von daher nur mit Einschränkungen erschlossen werden, daß die herangezogenen Stichproben durchweg aus (überwiegend 16jährigen) Lehrlingen und Berufsanwärtern bestanden, also durchaus nicht «typisch» waren für «berufsgeeignete», am Arbeitsplatz stehende Kollegen, deren soziale Stellung im Betrieb und deren psychische Verfassung (Fähigkeiten, Bedürfnisse, Interessen etc.) sich u. U. wesentlich von den Charakteristika der Validierungsstichprobe unterscheiden. Mit anderen Worten: die Validität des Kriteriums kann nicht als gesichert betrachtet werden. Die Validität der Ergebnisse leidet weiterhin - vor allem bei einer Verwendung des Tests zu Auslesezwecken - unter ihrer relativ leichten Verfälschbarkeit. Irle selbst stellt dazu fest, «daß bei entsprechender Motivation die wirklichen Interessen hinter vorgetäusch-
494
Psychometrische PersonIich keitstests
ten Interessen verborgen werden können» (1963, S.53). Allerdings war den Pbn. seiner Untersuchung «die Fälschung von Interessen... nicht in dem Maße möglich, daß berufsspezifische Konstellationen von verschiedenen Interessenrichtungen vorgetäuscht werden konnten» (Irle, 1963, S.53). Aus schwerpunktmäßig inhaltlicher Sicht: Die Inhalte beruflicher Tätigkeiten und das Interesse an ihnen sind nicht unabhängig zu sehen vom Stand der politisch-ökonomischen, sozial-kulturellen und technisch-wissenschaftlichen Entwicklung. Da Tätigkeiten, die zur Zeit der Konstruktion des Tests repräsentativ waren für bestimmte Berufe, zwanzig und mehr Jahre später u. U. nicht mehr diese Funktion erfüllen, bestünde eine Bedingung der Sicherstellung einer ausreichenden Validität des Tests in der inhaltlichen Revision der Items. Diese Unzulänglichkeit dürfte aber aufgrund der ipsativen Messung und darin besteht ihr wohl einziger Vorteil - praktisch nicht allzu bedeutsam sein, können Interessen doch nicht differenziert, in quantitativer Abstufung ihrer jeweiligen Stärke, bekundet werden (geschweige denn in ihrer Widersprüchlichkeit), sondern nur in Abgrenzung zu Interessen an Tätigkeiten aus anderen Gebieten. Darüber hinaus aber unterliegt die Konstruktion des BIT einem viel grundsätzlicheren Mangel. Die mit dem BIT erhaltenen Ergebnisse gründen nicht auf der Realität beruflicher Arbeit, sondern auf den Vorstellungen bzw. der Vorstellungskraft des Pbn., und dies in zweierlei Hinsicht: Zum einen wird der Pb. aufgefordert, gerade von den Bedingungen zu abstrahieren, die für eine berufliche Tätigkeit, vor allem im Rahmen des kapitalistischen Wirtschaftssystems, charakteristisch sind: vom Verkauf der Arbeitskraft, der zu ihrem Verkauf benötigten Qualifikation sowie vom sozialen Ansehen, das ihr entgegengebracht wird. Zum anderen sind - im Einklang damit - die Tätigkeiten selbst als abstrakte formuliert: Es geht z. B. darum, ob man Interesse hat, «an einer Rechenmaschine (zu arbeiten)», von den konkreten Bedingungen am Arbeitsplatz, von Sinn und Zweck der Arbeit ist keine Rede. Die im Text der «Anweisungen» demnach enthaltene Aufforderung, Interesse zu zeigen an abstrakter Arbeit, deckt sich sehr gut mit den realea Verhältnissen der Arbeitswelt, in der sich der Lohnarbeiter ebenfalls nicht für Sinn und Zweck seiner Arbeit zu interessieren hat, sondern seine Fähigkeiten und Interessen einsetzen soll für die - fremdbestimmten - (in den Worten Irles) «Anforderungscharaktere von Beruf und Arbeitsplatz». Aus einem Interesse an solchen abstrakten, erst aus der subjektiven Erfahrung heraus mit konkretem Inhalt gefüllten Tätigkeiten kann natürlich auf ein Interesse an der betreffenden realen Berufstätigkeit kaum valide ge-
Ei nstel lungs- und interessentests
495
schlössen werden; die nötige Konkretisierung in der Vorstellung des Pbn. trifft aufgrund mangelnder Kenntnisse und anderer subjektiver Bedingungen oft nicht die tatsächlichen Verhältnisse der Berufswelt. Von der Einwilligung in das Ausfüllen eines solchen Tests überhaupt kann - so gesehen - eher auf eine Bereitschaft des Pbn. geschlossen werden, sich der Fremdbestimmung - Entfremdung - seiner Arbeit zu unterwerfen. So «unbefriedigend» es in der berufspsychologischen Diagnostik sein mag, «den Probanden nach seinen beruflichen Interessen direkt zu befragen» (Handanweisung, S. 5), so unbefriedigend ist es zweifellos, Aufschlüsse darüber durch Anwendung des BIT erlangen zu wollen. «Unbefriedigend» ist die direkte Befragung aber nur für den im Interesse der Arbeit«geber»seite arbeitenden, auf zeitliche Ökonomie bedachten Testleiter. Eine «mangelnde Bewußtheit der eigenen Interessen» (Handanweisung, S. 5) verlangt nach Bewußtmachung durch kritisch-solidarische Gespräche über die anstehenden Sachfragen und ihre erlebnismäßige Verarbeitung bzw. überhaupt erst nach Möglichkeiten der Entwicklung von Interessen. Dazu aber dient kein Test, sondern z. B. ein Berufspraktikum, durch das der Ratsuchende Gelegenheit findet, geeignete Erfahrungen im realen Leben zu machen. «Objektivität» (im testkonstruktiven Sinn): Durchführung: bedingt objektiv Auswertung: objektiv Interpretation : anhand der Prozentrangskala objektiv, anhand der berufstypischen Interessenprofile bedingt objektiv. 5. Allgemeine Kritik Irles «Glaubensbekenntnis», «daß der BIT den strengen Anforderungen der modernen Testforschung und -entwicklung in jeder Weise gerecht wird» (Handanweisung, S. 4), darf angezweifelt werden. Eine Verwendung dieses Tests in der Berufsberatung kann nicht empfohlen werden. Gegen eine Verwendung zu Zwecken der Personalauslese ist in Anbetracht der leichten Verfälschbarkeit seiner Ergebnisse nichts einzuwenden. 6. Der B-I-T.II Die Lektüre der Handanweisung zum 1984 erschienenen B-I-T.II läßt erkennen, daß in der Neufassung des Tests eine Vielzahl der o. a. Kritikpunkte zum B-I-T (1955) - teils faktisch, teils verbal - Berücksichtigung gefunden hat.
496
Psychometrische PersonIich keitstests
Das Zwangswahlverfahren ist jetzt mit zwei Parallelformen vertreten, die jeweils nur noch 81 Items beinhalten. Im Rahmen der Wahlentscheidungen ist zusätzlich diejenige der vier Tätigkeiten zu kennzeichnen, die der Pb. «am wenigsten gern tun» würde («Hinweise zur Bearbeitung»). Schiefe Verteilungen werden dadurch laut Handbuch zwar «normativ» vermieden, da das alte Konstruktionsprinzip aber beibehalten wurde, bestehen die weiter oben aufgezeigten Interpretationsprobleme - wenn auch abgemildert - im Prinzip weiter (vgl. Handanweisung S. 8 u. S. 19). Außerdem stehen zwei neue Parallelformen in «Free-choice»-(Fragebogen)-Technik zur Verfügung. Bei ihrer Bearbeitung werden 81 Präferenzurteile ohne Vergleich mit anderen Tätigkeiten abgegeben, so daß die durch ipsative Messung und Zwangsauswahl bedingten Verzerrungen hier nicht auftreten. In beiden Varianten des B-I-T.II wurden die Items großenteils neu formuliert, jedoch beinhalten sie weiterhin «abstrakte» Tätigkeiten. Auch hier wird an den Pbn. die - paradoxe - Aufforderung gerichtet, sein «Interesse» an Entlohnung und Ansehen eines Berufes zu verleugnen. Angaben zur Reliabilität und Validität wird man in der Handanweisung vergeblich suchen. Die Standardisierungsstichprobe setzt sich je zur Hälfte ausschließlich aus berufsunerfahrenen Schülerinnen und Schülern 9. bis 13. Klassen zusammen. Irle und Allehoff scheinen sich der damit verbundenen Problematik bewußt zu sein: «Berufliche Interessen von (Noch-Nicht-) Berufsanfängerinnen und -anfängern sind Vörausurteile und damit ein Spezialfall von Vorurteilen» (Handanweisung, S. 7). Die Autoren lehnen die Interpretation der Testergebnisse als Interessen-Profile im Gegensatz zum B-I-T (1955) ausdrücklich ab, da «keine Basis objektiver Daten» (Handanweisung, S. 16) dafür gegeben sei. Darüber hinaus wird der B-I-T.II i. E. «nie ausreichen, um... Auslesen oder Beratungen allein von diesen diagnostischen Informationen abhängig zu machen» (Handanweisung, S. 30). Sie erinnern außerdem mehrfach an die grundgesetzlich verbürgten Rechte des Pbn. und appellieren verstärkt an das Verantwortungsbewußtsein des Benutzers. Den Erfordernissen des Datenschutzes tragen sie Rechnung, indem sie die Eintragung persönlicher Daten in den Testbogen auf eine Teilnehmernummer beschränken. Fazit: Ein für die Betroffenen wenig nutzbringender Test mit einer zwar lückenhaften, aber sympathischen Handanweisung.
Kl inische Tests
497
Literatur Dick, F.: Kritik der bürgerlichen Sozialwissenschaften. Heidelberg 1974 Holzkamp, K.: Kritische Psychologie. Frankfurt a. M. 1972 Irle, M.: Die Vortäuschung von Interessen im Berufs-Interessen-Test (BIT). Diagnostic^ 9 (1963), S. 49-55 Irle, M., & Allehoff, W.: Berufs-Interessen-Test.II (BIT.II). Göttingen 1984 Kettel, K. J., & Simmat, W. E.: Über BIT-Instruktion und Kurzform. Diagnostica, 13 (1967), S. 30-37 Kettel, K. J. , & Simmat, W. E.: Geschlecht, Alter und Bildung als Bedingung der Interessenausprägung. Diagnostica, 14 (1968), S. 156-173 Lienert, G. A.: Testaufbau und Testanalyse. Weinheim 1969 Roth, R., & Mittenecker, E.: Berufs-Interessen-Test II. (Testbesprechung). Z. f. diff. u. diag. Psychologie, 6 (1985) 4, S. 241 f. Sader, M., & Keil, W.: Bedingungskonstanz in der psychologischen Diagnostik. Archiv für die gesamte Psychologie, 118 (1966), S. 279-308
Walter Rokita
3. Klinische Tests 3.1 Testname: Benton-Test Autor: A. L. Benton Deutsche Bearbeitung: O. Spreen Bern: Huber 1972 (4. Aufl.) 1. Testart: Der Benton-Test ist ein klinischer Test, der jedoch teilweise auch im Rahmen der Intelligenzdiagnostik und Entwicklungsdiagnostik eingesetzt wird. 2. Allgemeines Grundkonzept Feststellung von Leistungsstörungen im Bereich visueller Merkfähigkeit; gibt Hinweise auf das Vorhandensein von Hirnerkrankungen und Hirnverletzungen. Vor allem bei Kindern wird häufig davon ausgegangen, daß mit Hilfe dieses Verfahrens zwischen «psychisch bedingten» und hirnorganischen Störungen im Erleben und Verhalten unterschieden werden kann. Diese Ansicht basiert auf der ungeprüften Annahme, daß bei Kindern im Gegensatz zu Erwachsenen emotionale und motivationale Faktoren wie Testangst und Leistungsdruck kaum eine Rolle spielten und die Testresultate entsprechend eindeutiger in Richtung auf das Vorhandensein zerebraler Schädigungen interpretierbar seien.
498
Psychometrische PersonIich keitstests
Der Test existiert als Zeichenform und als Wahlform (für Probanden, die aufgrund ihrer Behinderungen nicht zeichnen können), enthält drei Bilderserien von zehn geometrischen Figurenkombinationen (die Wahlform zwei Serien zu je 15 Bildern) und wird ab 6/7 Jahre und als Einzeltest angewendet. Die Probanden bekommen in der Standard-Versuchsanordnung der Zeichenform nacheinander je eine Tafel für zehn Sekunden gezeigt und sind dann aufgefordert, das Gesehene mit Papier und Bleistift zu reproduzieren (auf einer solchen Tafel ist z. B. rechts ein großes, auf der Seite stehendes Dreieck zu sehen, links daneben ein großer Kreis und ganz links in der Mitte ein kleines Quadrat). Andere Möglichkeiten der Durchführung sind die mit - verkürzter Reproduktionszeit (fünf Sekunden) - gleichzeitiger Reproduktion/verzögerter Reproduktion. Bei der Wahlform muß der Pb. die gesehenen Figurenkonstellationen auf einer Wahltafel mit vier Alternativen herausfinden und zeigen (auch hier gibt es die oben aufgeführten weiteren Möglichkeiten der Durchführung). Außerdem besteht die Möglichkeit der Kombination beider Testformen. Die Auswertung der Zeichenform des Tests besteht einmal in der Festlegung derrichtigenReproduktionen und dem Vergleich dieses Ergebnisses mit einem durch die Intelligenzhöhe bestimmten Erwartungswert, zum zweiten in der qualitativen Fehleranalyse auf der Grundlage der in der Handanweisung angegebenen Fehlerkategorien (wie: Auslassen, Entstellen, Perseveration, Drehung, Fehlplazierung und Größenfehler) und Fehlerbeispiele. Die Auswertung der Wahlform erfolgt analog hierzu. 3. Gültigkeit Die Validität des Benton in bezug auf die Erfassung von Hirnschädigungen ist trotz verschiedenster neuer Untersuchungen weiterhin umstritten. Während zahlreiche Untersuchungen von signifikanten Zusammenhängen zwischen Testwert und unterschiedlichen Hirnschädigungen berichten, bei anderen lediglich Trends festgestellt wurden, erbrachten einige keinerlei Hinweise auf diesbezügliche, oft postulierte Zusammenhänge oder sprechen für eine geringe Bedeutung des Tests bei differentialdiagnostischen Fragestellungen (z. B. bei der Frage, liegt eine Hirnschädigung vor, oder handelt es sich um «depressive» oder «schizophrene» Reaktionen) (vgl. Spreen 1974). Da die meisten Untersuchungen zur Verläßlichkeit, Gültigkeit und vor allem zur Normierung im englischen Sprachraum durchgeführt wurden, ist eine direkte Übertragung auf deutsche Verhältnisse nicht vollkommen unbedenklich, obwohl es sich beim Benton um ein sprachfreies Verfahren handelt.
Kl inische Tests
499
Der Benton-Test zielt auf die Erfassung von Störungen visueller Merkfähigkeit und kann diese auch diagnostizieren. Seine eigentliche Aufgabe in der diagnostischen Praxis liegt jedoch im differentialdiagnostischen Bereich. So spielt der Benton-Test außer in der Kinderdiagnostik innerhalb der Erziehungsberatung, vor allem im Rahmen der Erwachsenenrehabilitation und im Zusammenhang mit forensischer Diagnostik, eine bedeutende Rolle. In diesen Bereichen steht aber die wenig umstrittene Qualität des Tests, Störungen visueller Merkfähigkeit zu erfassen, nicht im Mittelpunkt des Interesses. Gefragt (aber meist nicht in Frage gestellt) ist hier vielmehr die äußerst problematische differentialdiagnostische Aussagekraft des Verfahrens, d. h., liegt eine organische Hirnschädigung vor, oder handelt es sich um «psychisch bedingte» Ausfälle (so z. B. in Entscheidungen über Verantwortlichkeit für eine Straftat etc.). 4. Zuverlässigkeit, Interpretation und Aussagewert Im Rahmen der Testinterpretation des Benton wird im dazugehörigen Handbuch (Spreen 1974) sehr differenziert vorgegangen. So werden als Erklärungen für eine Störung der Leistungsfähigkeit der visuellen Merkfähigkeit neben Hirnverletzungen und Hirnerkrankungen (die als häufigste Ursache schlechter Testleistungen angesehen werden) durchaus auch Faktoren wie: ablehnende Einstellung zum Test, Unfähigkeit aufgrund organischer Störungen, autistisches Verhalten bei schizophrenen Patienten, mangelnde Ausbildung entsprechender sozialer Erfahrung etc. angeführt. (Fragwürdig ist hierbei jedoch die Nennung mangelnder Motivation «asozialer Patienten» als Quelle schlechter Testergebnisse.) Es wird ferner darauf hingewiesen, daß sich nicht jedes Hirntrauma in mangelhafter Leistung in den gestellten Aufgaben niederschlägt, und hierbei treffend auf die Vielfältigkeit dieser zerebralen Verletzungsformen und ihrer Folgen hingewiesen. Auch in der Interpretation der qualitativen Leistungsanalyse wird vom Verfasser berechtigt mit einer gewissen Vorsicht argumentiert, was die Aussagekraft bestimmter Fehlerarten für die Differentialdiagnose der Störungen betrifft. So wird den Einzelbeobachtungen und darauf basierenden Vermutungen von Klinikern in bezug auf Zusammenhänge bestimmter Fehler mit bestimmten Schädigungen korrekt der Status von noch zu überprüfenden Hypothesen zugewiesen. Die gleiche Vorsicht ist in bezug auf Lokalisierung der Hirnschädigung festzustellen. In allen diesen Punkten werden im Handbuch zum Benton-Test zahlreiche Untersuchungen berücksichtigt und zitiert. Zu den Testleistungen bei Erwachsenen, Kindern (mit Leseschwächen), Schwachsinnigen, Schizophrenen und depressiven Patienten werden gesonderte Abhandlungen geliefert.
500
Psychometrische PersonIich keitstests
Vor allem in der 4. überarbeiteten und ergänzten Auflage des BentonTest-Handbuches liefern die Autoren eine Vielzahl von neueren Untersuchungen zur Validität, Reliabilität und Normierung des Tests. Für den Benton-Test bestehen Normen für verschiedene Altersgruppen von Erwachsenen und für Kinder für die verschiedenen Instruktionsund Durchführungsarten des Tests. Von den Autoren wird sowohl eine «ziemlich hohe» Korrelation mit der Intelligenzhöhe angegeben als auch eine signifikante Beziehung zwischen Testergebnis und Lebensalter. So steigt die Testleistung von 8 bis 14/15 Jahren an, bleibt relativ gleich bis zum Alter von 40/50 und fällt dann wieder ab. Diese Zusammenhänge fordern somit eine Berücksichtigung von Intelligenzniveau und Alter bei der Interpretation des Tests. Zur Zuverlässigkeit des Benton-Tests ist zu sagen, daß die Reliabilität (Retest) der Zeichenform des Benton bei 0.85 liegt und Korrelationen zwischen einzelnen Formen Koeffizienten von 0.79 bis 0.84 erbrachten. Geringe Zusammenhänge zwischen den beiden Hauptformen 0.55 wurden in neueren Untersuchungen bestätigt. Korrelationen des Benton-Tests mit Untertests des HAWIE erbrachten Zusammenhänge zwischen 0.46 und 0.62. Korrelationen mit dem Bender-Gestalttest lagen bei 0.52-0.72. 5. Allgemeine Kritik Trotz zahlreicher, auf Gültigkeit hinweisender Untersuchungen in bezug auf den Niederschlag zerebralpathologischer Erscheinungen in der visuellen Merkfähigkeit bleiben Rückschlüsse aus den Testergebnissen auf die Unterscheidung zwischen organischen und psychischen Schädigungen und auf das Vorhandensein bestimmter Hirnschädigungen fragwürdig. Gründe hierfür hegen sowohl in sich widersprechenden Ergebnissen - die im Benton-Handbuch offen aufgeführt werden - als auch in möglicher Kritik an diesen Untersuchungen im Rahmen der Validitätsermittlung, der Validitätskriterien und der ausgewählten Stichproben (z.B. Validitätsüberprüfungen, die zum großen Teil nur mit schon länger in stationärer Behandlung befindlichen Patienten durchgeführt wurden; Validierung an ebenso umstrittenen Kriterien wie psychiatrische Klassifikationen oder EEG-Befunde; sehr kleine Stichproben etc.). Eine Aussage in den entsprechenden Fragestellungen auf der Grundlage dieses Verfahrens ohne Berücksichtigung anamnestischer bzw. Beobachtungsdaten und vor allem medizinisch-physiologischer Erkenntnisse wäre nahezu ebenso unverantwortlich wie Aussagen aufgrund der Benton-Testergebnisse im Rahmen von Intelligenzdiagnostik und bei der Untersuchung als «depressiv» oder «schizophren» bezeichneter Störungen.
Kl inische Tests
501
Abgesehen von der Problematik dieser psychiatrischen Klassifizierungen, auf die in dem zur Verfügung stehenden Raum nicht näher eingegangen werden kann, lassen die kaum abgesicherten Positionen der Autoren zu Testleistungen entsprechend kategorisierter Patienten hier keine aussagekräftige Anwendung des Benton-Tests gerechtfertigt erscheinen. Ein weiterer Kritikpunkt in der Anwendung des Verfahrens liegt in der Voraussetzung, daß der Test vor allem dann Störungen visueller Merkfähigkeit als Indiz organischer Hirnschädigungen erfassen kann, wenn man davon ausgeht, daß die Leistung der Pb. nicht von motivationalen (Bereitschaft, Anstrengung, Verweigerung), emotionalen (Streß, Angst) und situationalen (Testsituationen, Leistungsdruck) Faktoren beeinflußt wird. Gerade diese im Sinne der klassischen Testdiagnostik «störenden» Einflüsse scheinen jedoch in den obengenannten Anwendungsbereichen des Benton-Tests von großer Bedeutung. Da der zu Untersuchende in ebendiesen Feldern diagnostischer Untersuchung in den häufigsten Fällen weiß, welche Fragen vom Gerichtspsychologen, Krankenkassenpsychologen etc. «geklärt» werden sollen, und vor allem, welche Konsequenzen für seine berufliche und soziale Zukunft sich aus dessen diagnostischer Beurteilung ergeben, liegt es geradezu auf der Hand, daß die Testergebnisse zu einem erheblichen Teil aus Einflüssen solcher motivationaler und emotionaler Faktoren zu erklären sind. Ein Indiz für diese Behauptung findet man auch im Benton-Handbuch, in dem unter der Überschrift «Testleistungen bei Simulation» auf zwei Untersuchungen der Autoren (Benton & Spreen 1961 /1963) eingegangen wird, die die Testleistungen hirngeschädigter Patienten mit denen «experimenteller Simulanten» (absichtlicher Versuch, durch Hirnverletzung bedingte intellektuelle Störungen zu simulieren) und schwachsinniger Patienten mit denen «experimenteller Simulanten» (analog) verglichen. Hier wird zwar um Vorsicht bei der Übertragung der Ergebnisse auf Einzelfälle in der klinischen Anwendung gebeten, man gibt dem Diagnostiker aber trotz der zugegebenen «erheblichen individuellen Variationen» innerhalb der festgestellten Resultate klare Anhaltspunkte für die Diagnose von Simulanten (diese machen noch mehr Fehler als «echte» Hirngeschädigte und Schwachsinnige, andere Fehlertypen etc.). Bezeichnenderweise wird anderen Einflußgrößen wie z.B. Testangst aufgrund der oft weitreichenden Folgen einer solchen diagnostischen Entscheidung oder Streß- und Leistungsdruck, unter dem sich der hier meist «Zwangsdiagnostizierte» befindet, von den sonst recht umfassend und sorgfältig vorgehenden Autoren keine besondere Aufmerksamkeit gewidmet. Wichtig für die Autoren ist, wie hier deutlich wird, eher das Interesse der «Auftraggeber», bewußte Verzerrungen der Testresultate zu verhindern, die eindeutige Klassifikationen und damit verbundene Zuweisungen
502
Psychometrische Persönlichkeitstests
(zu bestimmten Sanktionen wie z. B. Strafen) in der Gerichtspsychologie (oder zu bestimmten Gratifikationen wie z. B. Rentenansprüchen) in der Rehabilitationsdiagnostik etc. unterlaufen und zugunsten des einzelnen Betroffenen wenden könnten. Ein Aspekt, der selbst keines weiteren Kommentars bedarf, aber ein bezeichnendes Licht auf die Problematik eines Verfahrens wirft, was «immanent» (für sich genommen) wenig schwache Stellen zu bieten scheint, im Gesamtraum seiner Anwendung aber erhebliche Bedenken auslösen muß. Frank Nestmann 3.2 Testname: Befindlichkeitsskala (BF-S) Autoren: D. v. Zerssen & D.-M. Koeller 1. Testart: Klinischer Test 2. Allgemeines Grundkonzept Das Verfahren soll dazu dienen, die momentane Befindlichkeit einer Person (Klient, Patientin) zu erfassen. In ihren beiden Parallelformen BF-S und BF-S' ist die Befindlichkeitsskala Bestandteil der Klinischen Selbstbeurteilungsskalen (KSB-S) aus dem Münchner Psychiatrischen Informationssystem (PSYCHIS-München) . Im Unterschied zu den anderen KSBSkalen, die stärker symptomorientierte Item-Inhalte enthalten, soll die BF-S nicht der Feststellung eines komplexen Beschwerdebildes dienen, sondern lediglich der eines momentanen Querschnitts subjektiver Bestimmtheit. Wiederholte Befragungen eines Patienten sollen selbst kurzfristige Zustandsänderungen der psychischen Bestimmtheit quantifizieren; so jedenfalls der Anspruch. Entsprechend liegt der Hauptanwendungsbereich der BF-S/S* in psychologischen und psychopathologischen Längsschnittuntersuchungen vor allem an Patienten mit subjektiven Befindlichkeitstörungen (insbesondere psychiatrische Fälle mit affektiven Störungen). Weiterhin ist auch die Erfassung von krankheitsbedingten Befindlichkeitsänderungen intermedizinärer Fälle und ihrer Beeinflussung durch therapeutische Maßnahmen möglich. Beispiele für die Anwendung des Verfahrens in Längsschnittuntersuchungen sind z.B. folgende: - Medikamenteneffekte bei Gesunden und Kranken - Spontane oder therapeutisch bedingte Abwandlungen der inneren Gestimmtheit
Kl inische Tests
503
- Veränderungen der subjektiven Gestimmtheit aufgrund von Streßwirkungen oder anderen äußeren Einflüssen. Zur Erfassung der subjektiven Befindlichkeit wurden paarweise Eigenschaftswörter in einer Liste zusammengestellt, die als Gegensatzpaare Zustände des Zumuteseins charakterisieren. Das eine Eigenschaftswort bezieht sich als Extrem auf einen Zustand gesteigerten Wohlbefindens, das andere auf einen Zustand beeinträchtigten Wohlbefindens («minderwertig» - «vollwertig»). Hinter jedem Eigenschaftswort sind Beantwortungs-Rubriken vorgegeben: «eher» oder «weder/noch», wenn sich die Probanden nicht für eines der beiden Eigenschaftsworte entscheiden können. Der Testbogen enthält insgesamt 28 Items, die unterschiedliche Aspekte des Befindens ansprechen, z.B. «Stimmung: ernst - heiter»; «Antrieb: frisch-matt» oder «Vitalgefühl: lebendig-leblos». Durch den Begriff «Befindlichkeit» soll zum Ausdruck kommen, daß der auf diesem Wege erhaltene Testwert den aktuellen subjektiven Befindenszustand in einem ganz globalen Sinne reflektiert. Nicht immer jedoch ist erkennbar, welche Eigenschaftspaare welchen Persönlichkeits- bzw. Empfindungsaspekt meinen. Gleichwohl erheben sie den Anspruch, sämtlich zur verbalen Differenzierung des Zumuteseins von Patienten mit affektiven Psychosen in depressiven bzw. manischen Phasen der Erkrankung gleichermaßen geeignet zu sein. Die Items der beiden Skalenformen sind weitestgehend parallelisiert und entsprechen einander nicht nur bezüglich ihrer Inhalte, sondern auch hinsichtlich ihrer formalen, testkonstruktiven Kennwerte (Schwierigkeits- und Trennschärfen-Indices, Ladung auf einem allgemeinen Befindlichkeitsfaktor). Der mit Hilfe der beiden Parallelformen gewonnene Testwert kann entweder als zeitlicher Querschnitt einer Befindlichkeit interpretiert werden, der die Position einer Probandin zwischen den Polen ausgesprochenen Wohlbefindens (Minimalwert) und hochgradigen Mißbefindens (Maximalwert) anzeigt, oder bei mehrfach wiederholter Testung in relativ kurzen und regelmäßigen Abständen als zeitlicher Längsschnitt, der den Grad eventueller Positionsveränderung zwischen den extremen Befindlichkeitswerten anzeigt. a) Durchführung Die beiden Parallelformen der Befindlichkeitsskala können einzeln oder in beliebiger Kombination mit anderen Skalen zur klinischen Selbstbeurteilung aber auch mit anderen Tests im Einzel- oder Gruppenversuch durchgeführt werden. Wie bei den meisten Tests gilt auch hier: «Je weniger die Testpersonen um den Zweck der Testung wissen, um so besser.» Was im einzelnen getestet wird, bleibt für die Patienten vage und veran-
504
Psychometrische PersonIich keitstests
laßt sie eher zum Spekulieren, als es hilft, Verfälschungstendenzen zu. minimieren. Zudem seien die Selbsteinschätzungen dann mit Vorbehalt nur hinzunehmen, wenn die 20- bis 64jährigeri Patienten einen HAWIEVerbal-IQ von mindestens 80 haben. b) Auswertung Die Auswertung beginnt mit der Überprüfung der Vollständigkeit der Daten. Mehr als 10% unbeantworteter Items sollten nicht vorliegen. Erst dann erfolgt die Auswertung der Antworten (mit einer Schablone), wonach eine Bevorzugung des negativen Pols mit 2 Punkten bewertet wird, jene des positiven Pols mit 0 Punkten; für Weder/noch-Antworten wird 1 Punkt gegeben. Die Summe der Bewertungspunkte pro Bogen bildet den Test-Scöre. Werden beide Testformen angewendet, kann der Testwert einer Person aus den Einzelwerten der beiden Skalen gemittelt werden. Der auf diese Weise gemittelte oder jeweils für eine Skala erhaltene Testwert einer Person wird im Anschluß mit den Normwerten der Eichstichprobe verglichen und so im Hinblick auf die durchschnittliche Befindlichkeit der Bevölkerung relativiert. 3. Gültigkeit Die Befindlichkeitsskala ist ihrem Zweck nach darauf gerichtet, bei Einzelpersonen Aussagen über ihre subjektive Befindlichkeit und deren Veränderung über die Zeit machen zu wollen. Sieht man sich die Validitätsquotienten einzelner Studien an, so liegen die Werte für die externe Validität bei r tc = 0.80, aber auch niedriger (rtc = 0.51). Die Werte zur internen Validität (Übereinstimmung der Werte der Befindlichkeitsskala mit solchen aus anderen validitätsähnlichen Skalen bzw. Tests) liegen im Durchschnitt bei ca. r tc = 0.60. Im Spiegel des Schätzungseffektes (E) betrachtet (s. S. 152), heißt dies im Klartext, daß eine völlige Unkenntnis der subjektiven Befindlichkeit einer Person nach Testanwendung lediglich um ca. 20% reduziert ist, das Nichtwissen über die Befindlichkeit einer Patientin also noch immer 80% und mehr beträgt. Da der Schätzungseffekt aber von 100 Prozent ausgeht und nicht die Kenntnis berücksichtigt, die ein behandelnder Arzt oder Psychologe gewöhnlich von seinen Patienten haben sollte, verringert sich der tatsächliche Informationsgewinn nochmals um einen gehörigen Anteil. Neben diesem bedenklichen Datum sollte nicht übersehen werden, daß viele der durchgeführten bzw. erwähnten Validitätsstudien auf Stichproben basieren, die weit unter N = 100 Hegen (gelegentlich kleiner N = 10) und dadurch die entsprechenden Koeffizienten nicht mehr aussagekräftig sein lassen. Darüber hinaus hat sich in Längsschnittuntersuchungen depressiver Verstimmungzustände gezeigt, daß die diesbezügliche Validität der Befindlichkeitsskala je nach «Er-
Kl inische Tests
505
krankung» schwankt, die den depressiven Zuständen zugrunde liegt: geringste Validität bei schizophrenen Psychosen, mittlere Validität bei neurotischen Störungen, höchste Validität bei affektiven Psychosen. Der Wert solcher Untersuchungen ist freilich sehr begrenzt. Ja noch mehr: da die Diagnosen der Patienten der Untersuchung mit der Befindlichkeitsskala vorausgehen, würde die größere oder geringere Gültigkeit eines Testwerts entweder dazu führen müssen, die Diagnose in Richtung der angezeigten klinischen Gruppe zu modifizieren oder aber den Testwert als solchen nicht gelten zu lassen. 4. Zuverlässigkeit, Interpretation und Aussagewert Die Parallel-Test-Zuverlässigkeit beträgt r tt = 0.90; bei einer Stichprobe gesunder Personen r tt = 0.86, Gering ist sie bei Patienten zwischen einer Testung am Aufnahmetag und der Untersuchung am darauffolgenden Tag. Diese Werte steigen mit Zunahme des Zeitraums des stationären Aufenthalts der Patienten und erreichen schließlich den zuvor genannten hohen Wert. Erklärbar ist dies bestenfalls dadurch, daß die äußeren Bedingungen der Behandlung in einer Klinik zu einer ausgeglichenen Befindlichkeit der Patienten führen. Wenn also die Befindlichkeitsskala ein «standardisiertes Hilfsmittel zur Registrierung globaler subjektiver Zustandsänderungen» darstellen soll, ermöglicht sie keine Aussagen über die Gründe für die Veränderung des subjektiven Befindens. Die Skala spricht auf ein sehr breites Spektrum subjektiver Gestimmtheit und deren abnorme Variationen an; deshalb hat selbst ein Null-Wert nicht die Bedeutung eines abnormen Zustands im Sinne einer Euphorie. Er bedeutet lediglich, daß sich der Proband zum Zeitpunkt der Testung ausgesprochen wohl fühlt. Es gibt zahlreiche weitere Möglichkeiten, zu einem niedrigen Test-Score zu kommen. Eine mögliche Tendenz zur Krankheitsverleugnung kann durch eine andere Skala der Testreihe (Kv-Items der PD-S, vgl. S. 491) nachgewiesen werden. Bei einem sehr unruhigen Patienten mit sehr niedrigen Befindlichkeitsskala-Werten ist immer an Krankheitsverleugnung oder an ein maniformes Zustandsbild (Drogen, Psychose) zu denken. Auch bei manischen oder hypomanischen Patienten kommen häufig extrem niedrige Testwerte vor (obwohl manische Patienten auch normal hohe Testwerte haben können durch Negativ-Items wie z.B. «gereizt», «verstimmt» , «gespannt», «innerlich getrieben», «unruhig»). Über die Norm erhöhte Testwerte sind in ihrem Aussagewert noch unspezifischer als unterdurchschnittliche Werte, da es mehr Formen des Mißbehagens als solche des Wohlbehagens gibt. Nicht bloß bei - in der Regel - depressiven Verstimmungen, sondern auch bei vielen körperlichen und der Mehrzahl von seelischen Erkrankungen ist die subjektive
506
Psychometrische PersonIich keitstests
Gesamtverfassung beeinträchtigt, wodurch es zu hohen Test-Scores kommt. Der Verlauf der Testwerte während einer Behandlung kann nur ausnahmsweise diagnostisch gedeutet werden. Sinken z.B. erhöhte Werte auf subnorme Werte ab, oder umgekehrt, so liegt der Verdacht auf eine bipolare affektive Psychose nahe. Empfohlen wird, die durch den Test objektivierten Phänomene zu beschreiben, wobei beschreibende Aussagen als durchaus informativ angesehen werden und auch quantifiziert werden können. Die Normtabellen im Anhang des Tests erlauben die Beurteilung der Abweichung von der Durchschnittsnorm. Dabei gelten Stanine-Wert von 7 als fraglich erhöht, von 8 als deutlich erhöht und von 9 als stark erhöht. Ein Stanine-Wert von 3 und darunter gilt als auffallend niedrig, aber nicht als abnorm. Erhöhte, insbesondere stark erhöhte Testwerte seien dagegen fast durchweg Zeichen eines herabgesetzten Wohlbefindens, das viel eher den Charakter einer krankhaften Störung trage als sein Gegenteil. Dieser Aussage steht eine andere aus dem Testmanual (S. 10) entgegen: «Über die Norm erhöhte Werte sind andererseits in ihrem Aussagewert noch unspezifischer als unterdurchschnittliche.» Der Anwender der Befindlichkeitsskala steht vor einem Rätsel ob der Bedeutung dieser gegenläufigen Aussagen. Meint sie doch nicht mehr, als was der Testung an Annahme zurunde liegt: krank ja, sonst wäre eine Person wohl nicht zur Behandung; aber krank woran? Zur Interpretation der Testwerte aus der Befindlichkeitsskala sind noch mehr Fragen offen, die einer Klärung bedürfen: a) Wie groß müssen die kritischen Differenzen zweier Testwerte sein, um überzufällige Unterschiede einer Person zu verschiedenen Zeitpunkten oder verschiedener Individuen zu einem gleichen Zeitpunkt feststellen zu können? b) Welche Differenzen zwischen Testwerten der Parallelformen können als zufällige hingenommen werden, und welche müssen auf eindeutig inadäquates Testverhalten zurückgeführt werden? c) Welche psychologische Relevanz hat die erhöhte Benutzung der indifferenten Beantwortungsrubrik «weder - noch»? Bei psychisch Kranken nämlich scheint diese Tendenz insgesamt zwar nicht ausgeprägter zu sein als in der Normalbevölkerung, jedoch ist nicht auszuschließen, daß bestimmte Gruppen psychisch Kranker eine stärker ausgeprägte Tendenz in Richtung «weder - noch» zeigen. Der Durchschnitt liegt bei etwa 7-9 Items, bei mehr als zwanzig derart beantworteten Testfragen sollten die Testwerte mit Skepsis betrachtet werden.
Kl inische Tests
507
5. Allgemeine Kritik Es ist allgemein bekannt, daß die Versorgungslage in den psychiatrischen Kliniken der Bundesrepublik mehr als desolat ist. Therapeutische, auf den Einzelfall gerichtete Angebote werden kaum oder gar nicht unterbreitet. Statt dessen wird bevorzugt medikamentiert, mit der Absicht, Patienten ruhigzustellen (Lehmann 1986; Rufer 1988). Man kann sich des Eindrucks nicht erwehren, und manche Anhaltspunkte sprechen auch dafür, daß die Befindlichkeitsskala vor allem kurzfristige Befindlichkeitsveränderungen aufgrund von Medikamenteneinnahme anzeigen soll. Ein zweiter Punkt bleibt festzuhalten: Die Befindlichkeitsskala ist nicht auf die Erklärung von psychischen Befindlichkeiten und die .Gründe ihrer Veränderung ausgerichtet, sondern lediglich auf deren Beschreibung. Und dies - wie sich gezeigt hat - auch nur sehr unverbindlich. Als außerordentlich zeitökonomisches und preisgünstiges Verfahren bietet es letztlich vor allem die Möglichkeit, den direkten Umgang mit Patienten weiterhin zeitlich einzuschränken und damit die Versorgungsmöglichkeit einer größeren Anzahl von Kranken in der stationären Behandlung sicherzustellen. Literatur Lehmann, P.: Der chemische Knebel. Berlin 1986 Rufer, M.: Irrsinn Psychiatrie. Bern 1988
Siegfried Grubitzsch
3.3 Testname: MMPI-Saarbrücken Autoren: S. R. Hathaway; J. C. McKinley, (deutsche Bearbeitung: O. Spreen) Herausgeber: Psychologisches Institut der Universität des Saarlandes Bern/Stuttgart: Huber 1963 1. Testart: «Objektiver» Persönlichkeitstest (Handanweisung, S. 7) Diese Bezeichnung ist irreführend, da der Test subjektiv interpretiert werden muß. 2. Allgemeines Grundkonzept a) Aufgabe: Aufgabe des Tests soll es sein, «Meßwerte für alle wesentlichen Persönlichkeitsbereiche» eines Probanden (Handanweisung, S. 11) zu liefern. «Die Bedeutung eines Persönlichkeitszuges wurde unter dem Gesichts-
508
Psychometrische PersonIich keitstests
punkt eines im klinischen Bereich oder in der Personalauslese Arbeitenden bestimmt, der diejenigen Züge erkennen möchte, die charakteristisch für krankhafte oder in anderer Weise störende psychische Auffälligkeiten sind» (Handanweisung, S. 11). Als «wesentlich» zu erachten sind die im MMPI thematisierten Persönlichkeitsbereiche vor allem für eine auf dem psychopathologischen Klassifikationssystem Kraepelins fußende (psychiatrische) Praxis (zur Kritik des medizinischen Krankheitsmodells vgl. z.B. Dörner 1972; Keupp 1972). Die theoretische Orientierung des Tests und die seine Konstruktion leitenden «Gesichtspunkte» sprechen dafür, den MMPI als Instrument der Auslese bzw. (pseudo)wissenschaftlichen Rechtfertigung der Auslese von (im Sinn der testimmanenten Normen) kranken und unangepaßten Personen zu betrachten. (Schon Kraepelin war sich der Bedeutung der Psychologie für Wirtschaft und Volksgesundheit bewußt; vgl. Kapitel 3, S. 86ff.). b) Anwendungsbereich: Alter: 14-55 Jahre Es fehlen Normen für Personen von mehr als 55 Jahren. Auf ihre Erstellung wurde verzichtet, da diese Personen «erfahrungsgemäß... seltener als Proband in psychologischen Untersuchungen zu finden» sind (Handanweisung, S. 52). (Frage: Lohnt sich der Aufwand nicht mehr?) Praxisfelder: Grundsätzlich Psychiatrie und Klinische Psychologie, praktisch aber auch häufig Personalauslese, TÜV, Justiz, Strafvollzug etc. Eine Anwendung des MMPI im «Normalbereich» erscheint angesichts seines vielfältigen Bezuges zur klinischen Praxis nicht als angemessen. Guilford hält einen solchen Einsatz für «recht ungeschickt, wenn nicht sogar - wegen der pathologischen Kategorisierungen - äußerst peinlich» (1970, S. 175). c) Testimmanente Theorie: «Ausgangspunkt der Entwicklung des MMPI war nicht eine Theorie der Persönlichkeit, sondern die Klinik» (Blaser & Gehring 1972, S.7). Die dem MMPI - vermittelt über das Klinikerurteil - zugrundeliegende Persönlichkeitstheorie («das auf den Kraepelinschen Einteilungen aufgebaute Denken» (Handanweisung, S. 45) muß - wie bereits unter 2a) angeführt - als wissenschaftlich fragwürdig eingeschätzt werden. «Der MMPI verwendet die Terminologie des Klinikers und korreliert klinische Tatbestände mit dem in der Beantwortung der Fragen zum Ausdruck kommenden verbalen Verhalten» (Blaser & Gehring 1972, S.7).
Kl inische Tests
509
Es ist problematisch, Reaktionen auf Testitems («verbales Verhalten») als unmittelbare Indikatoren subjektiver Größen («klinische Tatbestände») zu werten. Rückschlüsse von Objektivierungen von Bewußtsein auf das Bewußtsein selbst sind nur im Kontext der konkret-historischen Situation möglich (vgl. Dick 1974, S. 317f.). d) Aufbau: 566 Feststellungen aus 26 Bereichen «von der körperlichen Verfassung bis zur moralischen oder sozialen Einstellung» (Handanweisung, S. 11), von denen etwa 400 zu 14 Standardskalen (zehn klinische und vier Validitätsskalen) zusammengefaßt werden. Die klinischen Skalen: Hypochondrie (Hd), Psychopathie (Pp), Maskulinität-Femininität (Mf), Paranoia (Pa), Psychasthenic (Pt), Schizophrenie (Sc), Hypomoanie (ma), Soziale Introversion (Si). Die Validitätsskalen: Weiß nicht (?), Lügen (L), Validität (F),K(K). Keine Parallelformen. Von den 400 auszuwertenden Items werden etwa 350 doppelt und mehrfach ausgewertet, was hohe unerwünschte Interkorrelationen der Skalen zur Folge hat (vgl. Bottenberg & Wehner 1966). Die Gesamtzahl der Items wird zur Bildung der mehr als 200 bisher konstruierten zusätzlichen Skalen benötigt (vgl. Handanweisung, S. 65-97). Die für die amerikanische Ausgabe konstruierten Zusatzskalen (die 213 im Handbuch aufgeführten Skalen stammen ohne Ausnahme aus den Jahren 1947-1958) lassen vom MMPI zum Teil Wunderdinge erwarten, zum Teil gleicht ihre Zusammenstellung einem Panoptikum von Kuriositäten: So ist der MMPI z. B. nicht nur zur Diagnose der «Fähigkeit zum fortgeschrittenen Universitätsstudium» (Nr. 71) geeignet, sondern auch dienlich zur Feststellung von Persönlichkeitsfaktoren bei der «Wahl der Säuglingsernährung» (Nr. 127) sowie des «Erfolg(es) im Basebällspiel» (Nr. 20). Über die Gütekriterien der Zusatzskalen werden im Handbuch keine Aussagen gemacht. e) Testmaterial: Handanweisung, Testheft, Antwortblätter, Auswertungsschablonen, Profilblätter für weibliche und männliche Pb.; außerdem Schreibmaterial. f) Durchführung: Form: Einzel- oder Gruppentest Handhabung: Die auf dem Titelblatt des Testheftes vorgedruckte Instruktion wird dem leise mitlesenden Pb. vorgelesen. «Man sollte sich
510
Psychometrische Person I ich keitstests
sehr bemühen, das Vertrauen des Patienten zu gewinnen und ihn im Hinblick auf den Gebrauch, der von den Testdaten gemacht wird, zu beruhigen» (Handanweisung, S.41). «Es ist offensichtlich, daß eine Versuchsperson, die weiß, daß die Testdaten zu ihren Ungunsten verwendet werden können, anders beim Beantworten des MMPI reagiert als eine Person, die den Test in einer nicht bedrohlichen, freien Situation ausfüllt» (Handanweisung, S. 41). Die Durchführung zielt im Interesse der Validität des Tests auf eine subtile Manipulation des Pbn. ab. «Es gibt eine unbekannte (!) Zahl solcher Variablen der Einstellung zum Versuch, die vom Benutzer des MMPI berücksichtigt werden muß» (Handanweisung, S.41). Keine leichte Aufgabe! Eine Durchführungs-Objektivität ist demnach nur bedingtgegeben. Auf einem gesonderen Antwortblatt sollen die Feststellungen vom Pb. - möglichst zügig, ohne langes Überlegen - mit «richtig» oder «falsch» beantwortet werden. Zeit: Keine zeitliche Begrenzung; die Beantwortung der 566 Items dauert laut Handbuch etwa 90 Minuten. Die unter den Testitems enthaltenen «doppelten Verneinungen, Ambivalenzen und dgl.» (Handanweisung, S. 8) lassen vermuten, daß seine Anwendbarkeit bei Personen mit niedrigem Büdungsgrad eingeschränkt ist und daß in gewissem Ausmaß generell mit Verzerrungen zu rechnen ist. Die in erheblicher Anzahl mehrdeutig, unpräzise, primitiv und brüskierend formulierten Items werden, falls sie statistisch dennoch unerheblich sein sollten, beim Pbn. zumindest Verunsicherungs-, Unlust-, Verärgerungseffekte bewirken. Ebenso dürfte die enorme Länge des Tests zu Verzerrungen führen wie die schwer kontrollierte Art der Beantwortung (z.B. spontan vs. zögernd-überlegt). Eine Fehlerquelle prinzipiellen Charakters liegt in der Beschränkung der Antwörtmöglichkeiten auf «richtig» oder «falsch» (sowie «weiß nicht») begründet. Gerade die Information, die aus den spezifischen (dem angebotenen Schema nicht entsprechenden) Lebensumständen und Erfahrungen des Pbn. erwächst, wird auf diese Weise methodisch eliminiert. Vor allem soziale Orientierungen, die durch Ambivalenz oder innere Widersprüchlichkeit gekennzeichnet sind (vgl. Berger 1974, S. 95) können durch standardisierte Frage-und-Antwort-Schemata prinzipiell nicht erfaßt werden. g) Auswertung: Auszählen der Rohwerte jeder Skala mittels Auswertungsschablonen (Ausnahmen sind der Lr und «Weiß-nicht»-Wert, die ohne Schablonen
Kl inische Tests
511
ermittelt werden), und Eintragung in das Profilblatt (dadurch «automatische» Umrechnung in T-Werte). Zur Möglichkeit der Computer-Auswertung s. Blaser & Gehring (1972) sowie Abschnitt «Der Computer-Service» in dieser Kurzdarstellung; allg. zum PC in der Testanwendung, Kap. 9, S. 301ff.). Das Auswertungsverfahren ist «objektiv». 3. Gültigkeit «Die Validität der deutschen Fassung wurde durch die Herstellung von Gruppenprofilen für zahlreiche klinische Gruppen überprüft (es handelt sich dabei um die im Abschnitt 5. angesprochenen Mittelwertprofile; der Verf.). Eine Umvalidierung wurde nicht vorgenommen, da dies - so erwünscht es bei einzelnen Skalen wäre - einer völligen Neukonstruktion des Tests gleichkommen würde» (Handanweisung, S. 9). Die deutsche Ausgabe des MMPI wurde de facto nicht auf Validität hin überprüft. Die «Überprüfung» «durch Herstellung von Gruppenprofilen» genügt nicht den testkonstruktiven Mindestanforderungen an einen sog. objektiven Persönlichkeitstest. So waren die Gruppen zahlenmäßig sehr klein (von 19 hatten 7 eine Größe von 2-9 Mitgliedern) und in ihrer Zusammensetzung sehr heterogen «durch große Altersunterschiede der Patienten und durch die unterschiedliche Handhabung diagnostischer Klassifizierungen von einer Klinik zur anderen» (Handanweisung, S. 54). Weder für die deutsche noch für die amerikanische Fassung werden Zahlenangaben zur Validität gemacht. Die zur Validierung der amerikanischen Fassung herangezogenen pathologischen Gruppen (N = 20-50) werden von Guilford (1970, S. 171 f.) als «ungewöhnlich kleine Stichproben» gekennzeichnet. Außerdem muß die Repräsentativität dieser Stichproben für die zu testenden deutschen Populationen in Anbetracht ihrer zeitgeschichtlichen und kulturell-sozialen Differenzen stark bezweifelt werden. Es erscheint daher nicht als gerechtfertigt, als Argument für die Validität des MMPI-Saarbrücken die Untersuchungen zur amerikanischen Basis-Ausgabe anzuführen. Eine Umvalidierung des Tests wäre also dringend erforderlich gewesen, zumal bei der Übersetzung «auf eine genaue grammatikalische und inhaltliche Entsprechung jeder einzelnen Feststellung Wert gelegt (wurde)» (Handanweisung, S. 8). Die Vorstellung, auf diese Weise für die deutsche Ausgabe eine der amerikanischen vergleichbare statistische Qualität gesichert zu haben, mutet naiv an, wird doch die Frage der Stichproben-Repräsentativität dadurch nur noch virulenter. Was vor vierzig Jahren dem puritanisch-religiösen Amerika z. B. als Anzeichen «(asozialer) Psychopathie» galt, kann hier und heute ganz anders bewertet werden. Und Beispiele kultureller Klischeevorstellungen finden sich - trotz «Aufklärung
512
Psychometrische Person I ich keitstests
linguistischer Besonderheiten» (Handanweisung, S. 8) - in allen Skalen. Die (Maskulin-Feminin-)Interessen -Skala enthält fast ausschließlich entsprechende Items. Die Validität eines kriterienvalidierten Tests kann nicht höher sein als seine Reliabilität und die Validität seines Kriteriums. Die Reliabilität des MMPI ist - wie weiter unten angemerkt - kaum befriedigend, die mangelnde Validität seines Kriteriums - der klinischpsychiatrischen Diagnose - ist bekannt. Guilford zieht in Zweifel, «ob die diagnostischen Gruppen, die der Psychiater gewöhnlich anwendet, überhaupt jemals ausreichend valide sind, um aus ihnen Bewertungskategorien... für den MMPI abzuleiten» (1970, S. 174). Die Validität des MMPI muß also auch von daher als gering eingeschätzt werden. Sö bleibt denn auch Spreen nichts anderes übrig, als festzustellen: «Man sollte ständig im Auge behalten, daß die große Mehrzahl der Personen, die ein vom Normalen abweichendes Profil haben, nicht im üblichen Sinne des Wortes geistig krank ist oder einer psychischen Behandlung bedarf» (Testmanual, S. 44). Auf die Frage, was der MMPI denn muß, wenn nicht das, was er messen soll, gibt eine Untersuchung Jacksons & Messicks (1967, S. 541 ff.) eine Antwort. Bei drei unabhängigen Stichproben wiesen sie übereinstimmend nach, daß etwa die Hälfte der Gesamtvarianz der Testwerte und nahezu 75 % der «common variance» durch die formalen Beantwortungstendenzen der «Acquieszenz» (Tendenz zur Ja-Antwort) und der «Tendenz zur sozial erwünschten Antwort» zu erklären sind. Die Anfälligkeit gegenüber solchen Antworttendenzen dürfte als Tribut zu zahlen sein für die - auswertungsbequeme - Einschränkung der Antwortmöglichkeiten auf «richtig» oder «falsch». Dem ließe sich zwar entgegenhalten, daß auch diesen «formalen» Tendenzen eine inhaltliche Bedeutung zukommen kann, eine Validität des MMPI im Sinn der Definition seiner Skalen wird durch diese Ergebnisse aber dennoch zumindest in Frage gestellt. In Entsprechnung dazu ermittelte Hobi (1972) bei einer Untersuchung der Faktorenstruktur des MMPI-Saarbrücken nur sechs psychologisch sinnvoll interpretierbare Faktoren, die ebenfalls nicht mit den Standardskalen übereinstimmten. Die Differenzierung des MMPI in 14 Skalen muß daher als Artefakt bezeichnet werden. Insgesamt ist Spreens Feststellung sicherlich nicht übertrieben, daß «die Überprüfung der Validität, wie sie hier vorgenommen wurde, für den kritischen Leser viele Wünsche offen lassen (wird)» (S. 9). Die sog. Validitäts-Skalen sollen eine Kontrolle des Pbn.-Verhaltens
Kl inische Tests
513
ermöglichen in Hinblick auf Ehrlichkeit (L-Wert), Leseverständnis/Gewissenhaftigkeit (F-Wert) und Simulation/ Dissimulation (K-Wert). Einem Pbn., der dem Test, dem Diagnostiker, der Situation mißtraut und deshalb nicht bereit ist, sein «Innerstes» preiszugeben (und dies zu Recht), soll mit diesen Skalen «auf die Schliche gekommen» werden. Ihre Validität unterliegt großenteils der gleichen Kritik wie die der Klinischen Skalen. 4. Interpretation, Zuverlässigkeit und Aussagewert Vor einer Interpretation der klinischen Skalenwerte muß durch Beurteilung der Werte der vier Validitätsskalen geklärt werden, «ob die Antworten der Versuchsperson eine gültige Reihe von Skalenwerten erbracht haben» (HandanWeisung, S. 42). Die Werte der klinischen Skalen können dann einzeln als Maß eines bestimmten psychopathologischen Zuges interpretiert werden, wozu im Handbuch (S. 23ff.) Interpretationshinweise gegeben werden. Bei einer Irrtumswahrscheinlichkeit von 5% liegt der «wahre» Wert z. B. eines Pbn. mit einem Psychopathie-T-Wert von 65 zwischen den TWerten 78,45 und 51,55 (bei r = 0.53 - niedrigster Split-half-Koeffizient der Skalen). Der Skalen-Wert erlaubt demnach keine Entscheidung darüber, ob der Pb. als völlig normal (T-Wert etwa 50) oder deutlich psychopathisch (T-Wert über 70) zu diagnostizieren ist. Es wird aber angesichts praktischer Erfahrungen - z. B. der Häufigkeit psychiatrischer Mischformen - dringend dazu geraten, das «Zueinander» der einzelnen Skalen auszuwerten und sich durch Vergleich des erhaltenen Profils mit Profilen bereits diagnostizierter Gruppen die empirisch gesammelten MMPI-Erfahrungen nutzbar zu machen. Für die amerikanische Ausgabe existiert dazu ein «Atlas» von Profiltypen (Hathaway & Meehl 1951), der auch im Handbuch der deutschen Ausgabe zur Benutzung empfohlen wird. Kaum vorstellbar ist, daß die im «Atlas» vor etwa dreißig Jahren in den USA gesammelten und beurteilten Profile valide Kriterien abgeben für eine Beurteüung aktuell mit der deutschen Ausgabe ermittelter Profile. Spreen weist denn auch darauf hin, daß «das MMPI-Profil selbst bei der Mehrheit der psychiatrischen Patienten keinen definitiven Anhalt auf eine Erkrankung oder eine Diagnose (liefert)» (S. 40). Auch aus testkonstruktiver Sicht verwundert dies nicht, handelt es sich bei den Profilen doch weitgehend um «Scheinprofile» (vgl. Abschnitt «Zuverlässigkeit»). «Das Profil muß vom Untersuchenden subjektiv (!) aufgrund seiner Beurteilung der Symptombedeutungen ausgewertet werden» (Handanweisung, S. 40).
514
Psychometrische PersonIich keitstests
Außerdem gilt: «Es ist äußerst naiv und verantwortungslos, eine Diagnose oder eine Behauptung über eine Versuchsperson aufgrund der Testdaten ohne weitere Untersuchung und ohne Berücksichtigung des Herkommens der Versuchsperson und der Umstände, unter denen sie die Feststellungen beantwortete, zu machen» (Handanweisung, S. 41). Die Verfahrensvorschriften zur Interpretation zeigen, daß eine Interpretations-Objektivität beim MMPI gegeben ist. Zuverlässigkeit: Die Frage der Zuverlässigkeit der deutschen Ausgabe des MMPI «konnte im Vertrauen auf die zahlreichen Reliabilitätsuntersuchungen in den USA zurückgestellt werden» (Handanweisung, S.9). Untersuchungen und Koeffizienten des deutschsprachigen Tests werden im Handbuch nicht genannt. In Anbetracht der Abhängigkeit der Reliabilität von der untersuchten Stichprobe kann dem nicht zugestimmt werden, zumal Angaben über die Varianz der Kontrollstichproben nicht gemacht werden (vgl. Lienert 1969, S. 238). Bottenberg & Wehner (1966) geben für die Standardskalen Split-half-Koeffizienten von 0.53 bis 0.89 an, mit einem Durchschnitt von 0.70 (N = 127; 84 männliche und 43 weibliche Pbn., Altersdurchschnitt etwa 21 Jahre). Der Standardmeßfehler der Skalen beträgt unter Zugrundelegung der o. a. Koeffizienten zwischen 6,86 T-Werten (Psychopathie-Skala mit r = 0.53) und 3,32 T-Werten (Schizoidie-Skala mit r = 0.89). Wehner & Bottenberg (1969) ermittelten Test-Retest-Koefözienten von 0.57 bis 0.80 mit einem Durchschnitt von 0.69 bei einem 10-TageIntervall (N = 61; 34 männliche und 27 weibliche Pbn.) und von 0.39 bis 0.71 mit einem Durchschnitt von 0.51 bei einem Intervall von 6 Monaten (N = 65; 33 männliche und 32 weibliche Pbn.) Nach Lienert (1969, S. 309) reicht ein Wert von r = 0.70 zur Beurteilung individueller Differenzen «eben noch» aus - nur 6 der 13 Standardskalen («Weiß-nicht»-Skala nicht gerechnet) erreichen diesen Wert. Es wird denn auch einschränkend darauf hingewiesen, daß «MMPISkalen... eine beträchtliche Variabilität von einem Versuch zum anderen (zeigen);... So kann z. B. eine klinisch signifikante Depression beinahe innerhalb von Minuten verschwinden» (Handanweisung, S. 40). Die Reliabilität von Profilen ist «dann am größten, wenn die Einzelteste hoch reHabel sind und zugleich niedrig interkorreUeren» (Lienert 1969, S. 457). Da beide Bedingungen beim MMPI nicht erfüllt sind - im Gegenteü (vgl. Bottenberg & Wehner 1966) - , dürften sie den von Lienert für Testprofile als Minimum erachteten Wert von r = 0.60 kaum erreichen. MMPI-Profile sind daher weitgehend als «Scheinprofile» zu betrachten.
515
Kl inische Tests
So ist es verständlich, daß Spreen klarstellt: «Die MMPI-Profile reichen nicht zur Bewertung der Symptombedeutungen und ihres Einflusses auf die Anpassungsfähigkeit der Versuchsperson aus» (S. 40). \
Objektivität im testtheoretischen Sinn : Durchführung = bedingt objektiv Auswertung = objektiv Interpretation = nicht objektiv Der Computer-Service: Seit 1972 existiert ein programmierter Kurs zur deutschsprachigen Ausgabe des MMPI (Blaser & Gehring 1972), der mit Konstruktion und Auswertung des Tests vertraut machen soll und - auf 56 seiner 80 Seiten (ohne Anhang) die Benutzung eines vom schweizerischen Pharma-Konzern Hoffmann-La Roche «gewährleisteten» Computer-Service erläutert und anbietet (vgl. auch BF-S, S. 474ff.) Das Angebot der Hilfestellung zur Psychodiagnostik läßt sich sehr wohl aus den ökonomischen Interessen dieses zu den größten Herstellern von Psychopharmaka auf dem Weltmarkt gehörenden Konzerns erklären. Zum einen ist die Benutzung des «Computer-Service» natürlich nicht kostenlos, zum andern zielt das in der psychiatrischen Klassifikation des Pbn. repräsentierte medizinische Krankheitsmodell zuvörderst auf eine medikamentöse Behandlung seiner Schwierigkeiten ab. Es würde sich lohnen zu prüfen, inwieweit die Verordnung von Psychopharmaka statt Psychotherapie durch die Nutzung des «Computer-Service» nahegelegt wird - auf jeden Fall kann sie dadurch «wissenschaftlich» gerechtfertigt werden. Im Rahmen eines «MMPI-Scoring» überprüft der Computer die Validitätsskalen, erstellt das Standardprofil und berechnet nach Bedarf Spezialskalen. Die ausgedruckten Ergebnisse müssen vom Benutzer selbst interpretiert werden. Zur Erstellung eines «Computer-Berichts» wird über die rechnerische Auswertung hinaus das erhaltene Profil in Form einer «Konfigurationsanalyse» mit den «bekannten MMPI-Profiltypen» (Blaser & Gehring 1972, S. 34), denen bestimmte klinische Erfahrungsdaten zugeordnet sind, verglichen. Aus einer «Bibliothek von statements» werden dann die «statements» zu einem «Bericht» zusammengestellt, die dem Profil zugeordnet sind, das am besten mit dem erhaltenen Profil übereinstimmt. Der Bericht enthält demnach - ähnlich einer schriftlichen Diagnose - ausformulierte, inhaltliche Aussagen über «Befindlichkeit, Problematik und Auffälligkeiten von Patienten» (Blaser & Gehring 1972, S. 73). Computer-Berichte werden laut Blaser & Gehring «nur an Ärzte und
516
Psychometrische PersonIich keitstests
Psychologen ausgehändigt, die in Fachbereichen der Psychiatrie arbeiten» (S. 74). «Psychologen in außerklinischen Tätigkeitsbereichen erhalten den MMPI-Scoring». «Ein MMPI-Computer-Bericht ersetzt keinesfalls die Untersuchungen durch einen Fachmann» (S. 64). Die umfassende und perfekt anmutende Interpretation der Testergebnisse und ihre «mundgerechte» Ausformulierung im Computerbericht fordert in der Pjaxis - z. B. aus Rationalitätserwägungen - sicherlich häufig seine Verwendung als «Untersuchungsersatz» geradezu heraus. Der im Abschnitt Interpretation zitierte Hinweis aus dem Handbuch, es sei «äußerst naiv und verantwortungslos, eine Diagnose... auf Grund der Testdaten ohne weitere Untersuchung... zu machen» (S. 41 f.), fehlt sinnigerweise im «Programmierten Kurs» (vgl. Blaser & Gehring 1972). Genau dies geschieht aber bei Erstellung eines Computer-Berichtes! Das Angebot einer solchen - allein auf den Testrohwerten sowie der Nennung von Alter und Geschlecht des Pbn. basierenden - Computer-Diagnose erweist die eigenen (höchst berechtigten) methodischen Skrupel und ethischen Ansprüche als bloße Fassade, hinter der sich zuvörderst pragmatisch-ökonomische Interessen verbergen. Die Stellung des Pbn. gleicht unter diesen Bedingungen noch mehr der eines Untersuchungsobjektes, dessen Individualität in der Testsituation nicht einmal mehr durch das Diagnostikerurteil berücksichtigt wird. Die Funktion der Computer-Diagnose selbst ist als affirmativ-konservativ zu werten. Die zur Beurteilung von Profilen herangezogenen «MMPI-Erfahrungen» sind immer die (gespeicherten) Erfahrungen der Vergangenheit. Ihre Validität, und d. h. auch ihre Aktualität, kann aber vom Benutzer des Tests nicht kontrolliert und gegebenenfalls als für Diagnosezwecke hier und heute unzureichend erkannt werden. Gemessen an diesen Erfahrungen «unnormale» Reaktionen des Pbn. werden vom Computer entsprechend bewertet und kommentiert. Die Konsequenzen können z. B. in einem Versuch der pharmakologischen Änderung dieser Reaktionen bestehen (u. U. zwangsweise-stationär) oder in einer Auslese des Pbn. als für eine bestimmte Aufgabe nicht geeignet. Die Möglichkeiten zukünftiger Entwicklung des Pbn. werden so an den Maßstäben der Vergangenheit ausgerichtet. 5. Normen In den für weibliche und männliche Pbn. normierten Profilblättern sind die den Rohwerten entsprechenden T-Werte abzulesen. Die zur Berechnung der T-Werte herangezogene Formel (vgl. Handanweisung, S. 19) gilt nach Lienert (1969, S. 331) nur bei Normalverteilung der Werte. Diese Bedingung wird aber von den MMPI-Skalen offensichtlich nicht erfüllt.
Kl inische Tests
517
Die Normen sind nur nach dem Geschlecht differenziert. Für die Standardisierung der einzelnen Skalen wurde aus den Antworten einer Gesamtpopulation von 998 «gesunden» Versuchspersonen (705 Männer und 293 Frauen im Alter von 14-55 Jahren) für jedes Geschlecht jeweils ein «gewogener Mittelwert» errechnet (vgl. Handanweisung, S.51). Der Normierung Hegt ein statistischer Normalitätsbegriff zugrunde: Als psychisch gesund gilt, wer «normal» ist, eine inhaltliche Begründung der psychischen Gesundheit der Standardisierungsgruppe wird nicht gegeben. Von einem kultur- bzw. gesellschaftskritischen Standpunkt aus zu diagnostizierende weitverbreitete psychische Deformationen werden damit methodisch in psychische Gesundheit - da «normal» - umgefälscht. Außerdem werden im Handbuch «Mittelwertsprofile» für verschiedene klinische Gruppen abgebildet. Für Standardisierungszwecke sind diese Profile unbrauchbar (vgl. auch Abschnitt 4., «Interpretation»). 6. Allgemeine Kritik Der Gebrauch des MMPI trägt zur Zementierung der überkommenen Verhältnisse in Diagnostik, Psychiatrie und Gesellschaft bei. Patienten, Arbeitnehmern und «sonstwie auffälligen» Probanden dürfte sein Gebrauch eher schaden als nutzen. 7. Die MMPI-Kurzform Im Jahr 1982 wurde dem «selbst auswertenden Psychodiagnostiker» die «Deutsche Kurzform für Handauswertung» (Blaser & Gehring) zur Verfügung gestellt. Sie enthält die 211 Items, «die am höchsten mit ihrer Skala korreliert sind» (Handbuch, S. 6). Im Vorwort des Handbuchs illustrieren Blaser & Gehring einleitend die Aktualität der MMPI-Gesamtform, um sie anschließend - mehr oder weniger explizit - als methodologisch und qualitativ unzureichend zu kritisieren. Diese Kritik hat sie jedoch nicht davon abgehalten, die Kurzform an der fragwürdigen Gesamtform zu validieren (!). Die Reliabilität des Tests (Split-half und Retest) ist ihren Angaben zufolge gewährleistet. Seine Anwendung wollen die Autoren auf «klinische Fragestellungen» (Handbuch, S. 11) bei «normalintelligente(n) Personen» (Handbuch, S. 10) beschränkt wissen. In ihrer an die Pbn. adressierten «Anleitung» zur Testdurchführung billigen Blaser & Gehring «jedermann seine eigenen Ansichten zu» (Testheft). Sie verschleiern damit die für den Pbn. potentiell nachteiligen Konsequenzen normabweichender Ergebnisse.
518
Psychometrische PersonIichkeitstests
Die Objektivität der Interpretation im Sinn einer «ersten diagnostischen Groberfassung» (Handbuch, S. 12) versuchen sie durch den Abdruck eines «Kochbuches» von Vorschriften und Formeln zu fördern, das die Interpretation in der Art des oben diskutiertetfComputer-Programms schematisiert, aber «kein Ersatz (ist) für die klinische Untersuchung des Probanden» (Handbuch, S. 12). Die «Original-Spezialskalen» raten die Autoren nur mit großer Vorsicht zu interpretieren. Fazit: «Alter Wein» wurde hier in «neue Schläuche gegossen»: Die MMPI-Kurzform ist moderner als die Gesamtform, weniger redundant, nicht ganz so weltfremd und optisch ansprechender.
Literatur Berger, H.: Untersuchungsmethode und soziale Wirklichkeit. Frankfurt a. M. 1974 Blaser, P., & Gehring, A.: Ein programmierter Kurs zur deutschsprachigen Ausgabe des Minnesota Multiphasic Personality Inventory von S. R. Hathaway & J. C. McKinley. Bern 1972 Blaser, P., & Gehring, A.: MMPI-Deutsche Kurzform für Handauswertung. Bern/ Stuttgart 1982 Bottenberg, E. H., & Wehner, E.G.: Mitteilung zur Zuverlässigkeit und Interkonsistenz der Standardskalen des MMPI Saarbrücken. Diagnostica, 12 (1966), S.85f. Dick, F.: Kritik der bürgerlichen Sozialwissenschaften. Heidelberg 1974 Dörner, K.: Entstehung und Wirkung psychiatrischer Diagnosen. Sozialpsychologische Informationen, 1 (1972) Guilford, J. P.: Persönlichkeit. Weinheim 1970 Hathaway, S. R., & Meehl, P. E.: An atlas for the clinical use of the MMPI. Minneapolis: University of Minnesota Press, 1953 Hobi, V.: Ein Beitrag zur Faktorenstruktur des MMPI. Psychologie (Schweizer Zeitschrift für Psychologie und ihre Anwendungen), 31 (1972), S. 298-305 Jackson, D. N., & Messick, S.: Response Styles and the Assessment of Psychopathology. In: dies. (Hg.): Problems in Human Assessment. 1967 Keupp, H. (Hg.): Der Krankheitsmythos in der Psychopathologie. München 1972 Lienert, G. A.: Testaufbau und Testanalyse. Weinheim 1969 Schmid, R.: Anmerkungen zur Geschichte und Funktion von Tests. b:e Sonderdruck Nr. 5: Nützen Tests?, Weinheim 1976, S. 35-40 Wehner, E G., & Bottenberg, E. H.: Wiederholungsreliabilität und faktorielle Konstanz des MMPI-Saarbrücken. Diagnostica, 15 (1969), S. 36-40
Walter Rokita
Kl inische Tests
519
3.4 Testname: Paranoid-Depressivitäts-Skala (PD-S) Depressivitäts-Skala (D-S) Autor: D. v. Zerssen, unter Mitarbeit von D. M. Koeller Weinheim: Beltz 1976 1. Testart: Bei dem Verfahren handelt es sich um einen mehrdimensionalen, klinischen Fragebogen zur Selbsteinschätzung von Patienten. Anhand von Statements über psychische Beeinträchtigungen «durch eine Reduktion vom Typ ängstlich-depressiver Verstimmtheit (D-S bzw. D-S') sowie eine klinisch und faktoriell davon eindeutig unterscheidbare Mißtrauenshaltung und Realitätsfremdheit bis zu ausgeprägter Wahnhaftigkeit (PD-S bzw. die Parallelform PD-S')» werden subjektive Befindlichkeiten und Erlebnisreaktionen erfaßt (Präsentationstext, Beltz 1990). 2. Allgemeines Grundkonzept Die Skalen gehören zur Testreihe KSB-S (Klinische SelbstbeurteüungsSkalen) aus dem Münchener Psychiatrischen Informationssystem PSYCHIS. Ebenfalls hierzu zählen die oben (s. S. 474ff.) besprochene Befindlichkeitsskala BF-S/BF-S' und die Beschwerdeliste B-L/B-L'. Fremddiagnosen gemäß dem ICD-9 oder DSM-III werden hierdurch nicht ersetzt (vgl. Kap. 7). Nicht unerheblich in diesem Zusammenhang ist wohl die Tatsache, daß alle diese Verfahren entwickelt worden sind durch Finanzierung mehrerer großer pharmazeutischer Firmen, um ohne großen Aufwand Daten subjektiver Art von Patienten bzw. Patientengruppen zu bekommen, aus denen die Wirkung spezifischer Medikamente zu entnehmen ist. Die methodische Voraussetzung also für ein Feldexperiment größten Ausmaßes mit ökonomischen Vorteilen für die Pharmaindustrie in Zusammenarbeit mit der Psychiatrie. Neben den Items zur Messung depressiver Verstimmtheit (D-S) und der Erfassung paranoid-depressiver Verhaltensweisen (PD-S) enthält das Verfahren auch Statements zur Feststellung von Krankheitsverleugnung (Kv) und in geringerem Umfang, um die Testmotivation (M) bzw. das Testverständnis zu überprüfen. Zusammen ergibt dies 43 Items: 16 D-S: «Ich weine leicht»; 16 PD-S: «Man wül mich geistig vernichten»; 8 Kv: «Ich war hin und wieder erkältet» und schließlich 3 M-Items: «Ich habe die Anweisung verstanden». Die Antwortskalen sind vierstufig («trifft ausgesprochen zu»... bis.. .«trifft gar nicht zu>x). In der klinischen Praxis wird der Test zur Objektivierung und Quantifizierung eines Ausschnitts aus dem subjektiven psychopathologischen Befund des Probanden eingesetzt. Die Depressivitätsskala nur dann, wenn
520
Psychometrische PersonIich keitstests
paranoide Erlebensweisen von vornherein auszuschließen sind. Ansonsten wird die PD-S eingesetzt, die subjektiv erlebte psychische Gestörtheit auf der kognitiven durch P-, auf der emotionalen durch D-Items ausschnittweise erfaßt. Die Fragen wurden aus der klinischen Fachliteratur, vor allem aber dem MMPI, nach Expertenbefragung entnommen. Dauer der Testung beträgt ca. zehn Minuten. 3. Gültigkeit Die kriterienbezogene Validität wurde an insgesamt N = 50 Fällen überprüft, unterteilt in vier klinische Diagnosegruppen gegenüber einer Kontrollgruppe. Es ergaben sich Produkt-Moment-Korrelationen der Höhe von 0.49-0.72; allesamt zwar signifikant, aber aufgrund der kleinen Stichprobe anzuzweifeln hinsichtlich ihres Aussagewertes. Interne Validitätsköeffizienten ergaben sich aus Abgleichen mit Werten aus der Berschwerdeüste und der Befindlichkeitsskala (r = 0.57; 0.58). Beide Male also nicht mehr als 20% Unsicherheitsreduktion (Schätzungseffekt E%) gegenüber völligem Nicht-Wissen, von dem wir bei einem behandelnden Arzt oder einer Psychologin wohl nicht ausgehen können. Warum dann dieses Verfahren? 4. Zuverlässigkeit, Interpretation und Aussagewert Die Paralleltest-Reliabilität der D-Skala beträgt für die Eichstichprobe (N = 1600) r tt = 0.76, für Klinikpatienten ca. 0.85. Niedriger für die P-Skala (bei gleicher Stichproben-Größe), nämlich ca. rtt = 0.65. Die Auswertung der Skala erfolgt mit Schablonen. Eine gesonderte Untersuchung zur «Objektivität» ist nicht durchgeführt worden. Das Verfahren wird unterschiedlich angewendet. Sowohl zur (wiederholten) Überprüfung des Therapieverlaufs (Aufnahme, Entlassung, Wiederaufnahme) als auch als Ausgangspunkt für weitergehende psychodiagnostische Gespräche. Die Benutzung der Parallelformen ermöglicht zusätzlich festzustellen, ob die Probandin in ihrem Antwortverhalten konsistent bleibt (Diskrepanz-Score). Ob im Einzelfall eine Interpretation der Testwerte vorgenommen werden kann, muß zunächst die Überprüfung der Ausschlußkriterien erbringen -z.B. des Kv-Scores, der im erhöhten Bereich für Krankheitsverleugnung spricht, oder des Verbal-IQ. Auffällig ist, daß für alle Beobachtungswerte bei überdurchschnittlichen Scores sehr bald in die eine oder andere Richtung Verdachtsmomente bezüglich pathologischer Störungen geäußert werden. Wird einerseits konstatiert, die PD-S und D-S erfaßten nur subjektive Zustände und Befindlichkeiten, so zeigt sich an diesen und
Kl inische Tests
521
anderen Stellen (beispielsweise wenn der Diskrepanz-Score erhöht ist, liege manische Ideenflucht und Getriebenheit vor, oder ein erhöhter DWert spreche für Suizidgefährdung), daß sehr wohl diagnostische Urteile gefällt werden. Auch bei unauffälligen Testwerten sollte nicht von einer Abwesenheit von Unstimmigkeiten ausgegangen werden. So können u.a. gedankliche Zerfahrenheit, Stereotypien und Manierismen, aber auch mnestische Störungen oder hypomanische, schließlich auch apathisch-abulische dem Test verborgen bleiben. Was geschieht, wenn es einem Patienten wieder einigermaßen gutgeht, dies aber nach «objektiven» Gesichtspunkten nicht sein kann? 5. Normen Die Standardisierungsstichprobe umfaßt ca. 1600 erwachsene Bundesbürger im Alter von 20-64 Jahren. Alle weisen einen Verbal-IQ > 80 auf, der als Voraussetzung für das Verständnis der Testfragen angesehen wird. Männer und Frauen sind je zur Hälfte berücksichtigt. Außerdem hegen für verschiedene klinische Gruppen Normwerte vor (körperlich Kranke, Psychiatrie-Patienten mit unterschiedlicher Diagnose etc.). Die Normtabellen enthalten neben den Standardwerten Perzentil-, Stanine- und T-Werte. 6. Allgemeine Kritik Die vorliegenden Skalen als besonderes Verfahren zur Feststellung subjektiver Beeinträchtigungen anzupreisen entspricht nicht dem tatsächlichen Zweck des Verfahrens. Klinikpatienten, die den Fragebogen ausfüllen, können dies eben nur anhand der vorgegebenen Kategorien. Andere, unangepaßte Antworten lassen gleich den Verdacht von pathologischen Störungen aufkommen, die aber eben nicht von den Betroffenen, sondern den Experten diagnostiziert werden. Da die Skalen aufgrund ihrer Konstruktionsmerkmale für die Einzelfallanalyse nur bedingt geeignet sind (z. B. sind Diskrepanzwerte zwischen den Zeitpunkten Aufnahme und Entlassung für den Individualfall gar nicht zufallskritisch überprüfbar) und letztlich doch dem subjektiven Urteil der behandelnden Ärztin ausgesetzt sind, drängt sich die Frage nach der bereits eingangs geäußerten Hypothese auf, ob nicht das Münchener Psychiatrische Informationssystem insgesamt weniger für die Patienten als für die pharmazeutische Forschung gemacht ist. Dafür sprächen auch die unzulänglichen methodischen Absicherungen. Sie sind einerseits Ausdruck testkonstruktiver Ansprüche, andererseits werden einzelfallorientierte • Rückschlüsse doch wieder in die Hand der Experten gegeben. Es scheint, als würde mit dem Verfahren - neben forschungsorientierten Absichten dem Klinikalltag ein weiteres Instrument zeitökonomischer Gestaltung
522
Psychometrische PersönIi c h ke i tstests
zur Verfügung gestellt worden sein, das an den Patientenbelangen eher vorbeiagiert. Siegfried Grubitzsch 3.5 Testname: Testbatterie für geistig behinderte Kinder (TBGB) (s. Intelligenztests, 1,1.9).
3.6 Testname: Tübinger-Luria-Christensen Neuropsychologische Untersuchungsreihe (TÜLUC) / Autoren: W. Hamster, W. Langner, K. Mayer Weinheim: Beltz 1980 1. Testart: Klinischer Test zur Diagnostik und Differentialdiagnose neuropsychologischer Störungen 2. Grundkonzept Die TÜLUC ist ein Untersuchungsverfahren, das auf dem Konzept der verschiedenen Rollen der kortikalen Hirnfunktionen und deren Beziehungen untereinander des russischen Psychologen und Mediziners A. R. Luria beruht, das in seinem Werk «Die höheren kortikalen Funktionen des Menschen und ihre Störungen bei örtlichen Hirnschädigungen» (Luria 1970) dargelegt ist, einschließlich einer umfassenden Darstellung seiner neuropsychologischen Untersuchungstechniken. Die TÜLUC wurde entwickelt als deutschsprachige Bearbeitung der von Christensen (1974) veröffentlichten «Lurias Neuropsychological Investigation», in der Christensen den Versuch unternahm, Lurias klinische Untersuchungsmethoden als standardisiertes Prüfverfahren herauszugeben. a) Aufgabe des Tests/Anwendungsbereich: Aufgrund moderner medizinischer Diagnoseverfahren (z. B. CCT oder PET, Erläuterung am Ende der Besprechung, S. 527) geht es in der neuropsychologischen Diagnostik heute im wesentlichen nicht mehr um die Klärung, ob eine Hirnschädigung vorhegt oder nicht, sondern um die genaue Beurteilung von Qualität und Ausmaß überwiegend erworbener Funktionsbeeinträchtigungen. Die TÜLUC soll zur Erfassung dieser neuropsychologischen Funktionsbeeinträchtigungen in der ganzen Spannweite von der Psychomotorik bis hin zu den Denkprozessen dienen. Akute Funktiönsbeeinträchtigungen sind zu erwarten bei Patienten mit:
Kl inische Tests
523
-zerebralen Gefäßprozessen, - Schädel-Hirn-Traumen, - raumfordernden Prozessen (Tumorbildung), -zerebralinfektiösem Geschehen, -Anfallsleiden. Demnach findet die TÜLUC überwiegend Anwendung in neurologischen Abteilungen oder in Rehabilitationskliniken, wo der Test, so weisen es die Autoren aus, zur Therapieindikation und Therapiekontrolle eingesetzt werden soll. Einen definierten Altersbereich für die Anwendung gibt es nicht. Offensichtlich wird, auch durch die Validierungsstudien, eine Anwendung bei erwachsenen Patienten nahegelegt. b) Aufbau: Die Items der TÜLUC sind überwiegend aus der englischen Version von Christensen übernommen. Sprachliche Items sind den lautsprachlichen Strukturen des Deutschen angepaßt. Geprüft werden die Bereiche: motorische Funktionen, akustisch-motorische Organisation, höhere hautkinästhetische Funktionen, höhere visuelle Funktionen, rezeptive Sprache, expressive Sprache, Schreiben und Lesen, Rechnen, mnestische Prozesse, Denkprozesse. Die Autoren haben die Untersuchungsreihe um den Token-Test von de Renzi Vignolo (1962) in der deutschen Revision von Orgaß (1976) erweitert, ein üblicherweise zur Aphasiediagnostik eingesetztes Verfahren. Die verschiedenen Untersuchungsbereiche sind in sich in Untertests mit jeweils zwei bis acht Items unterteilt (siehe Abbüdung S. 524). Den Untersuchungen o. g. Funktionsbereiche sind ein «orientierendes Explorationsgespräch» zur Erfassung der Bewußtseinslage, des prämorbiden Niveaus, des Beschwerdebildes und der Krankheitseinsicht des Patienten sowie zwei orientierende Prüfungen zur Hemisphärendominanz vorangestellt. Die hieraus gewonnenen Informationen sollen in Form einer vorläufigen Klassifikation der neuropsychologischen Störungen als Eintragung im Protokollheft vorgenommen werden. Unklar bleibt jedoch der Stellenwert dieser vorläufigen Klassifikation für Durchführung und Auswertung des Tests. c) Testmaterial: Die TÜLUC besteht aus einem Testkoffer mit Handanweisung, Protokollheft, Befundbogen, verschiedenen Bildkarten und etlichen, für die Handlungsaufgaben benötigten Gegenständen. d) Durchführung: Der Test ist ausgewiesen als Einzeltest, eine Parallelform Hegt nicht vor. Die TÜLUC-Autoren sprechen sich gegen die von Christensen (1974) diskutierte Selektion von Untersuchungsbereichen aus und empfehlen eine «umfassende und differenzierte Erfassung
524
Psychometrische Pe rsö n I i c h ke i tstests Lernprozeß I-
M
mnestische | Prozesse
Behalten und Wiedererinnern
logisches Einprägen
Serien beziehungsloser Wörter und Zahlen Formen erkennen Größenkontrast unmittelbare Reproduktion visueller, akustischer, kinästhetischer und verbaler Spuren Wiedererinnern von Worten Wiedererinnern von Sätzen und Abschnitten Erinnern mit visuellen Hilfen Erinnern mit der «Pictogramm»-Methode
Abbildung 37: Unterteststruktur der TÜLUC am Beispiel mnestischer Prozesse
aller höheren kortikalen Funktionen» (Handanweisung, S. 39). Für deren Dauer veranschlagen sie eine Untersuchungszeit von bis zu drei Stunden, aufgeteilt in zwei Sitzungen, was angesichts der bei neurologischen Patienten häufig anzutreffenden psychomotorischen und kognitiven Verlangsamung sowie Aufmerksamkeits- und Konzentrationsstörungen stark alltagsrelevante Beeinträchtigungen, die der Test nicht oder nur über die Leistungsbeurteilung zu erfassen versucht - nicht realistisch ist. Der Test enthält standardisierte Instruktionen, so daß Durchführungsobjektivität wahrscheinlich ist. e) Die Autoren haben, anders als in der Christensen-Version, in der die Leistungen des Patienten als richtig oder falsch beurteilt wurden, ein 16stufiges Scoring-System von Porch (1971) eingeführt, womit eine qualitative und quantitative Einordnung der Patientenleistung unter folgenden Aspekten möglich sein soll: 1) Korrektheit der Reaktion 2) Responsivität des Patienten 3) Vollständigkeit der Reaktion 4) Benötigte Zeit 5) Effektivität der Reaktion Die Scores der bewerteten Items werden dann in einen Profilbogen
Kl inische Tests
525
übertragen. Unterschieden werden soll zwischen einer Makro- und Mikroanalyse (quantitative Analyse und qualitative Analyse auf Itemebene) der Störungen, die in einem Sterndiagramm als neuropsychologischer Befund graphisch dargestellt werden können. Das löstufige Scoring-System, in das der Testleiter während der Untersuchung die Leistung des Probanden in schneller Entscheidung einordnen muß (z. B. «unrichtig» oder «falsch»; «rasch», «leicht verzögert», «deutlich verzögert» - Zeitangaben gibt es nicht), wurde in seiner Validität schon an anderer Stelle angezweifelt (Martin 1977 ; Sturm 1987). So umfaßt jede Score-Einstufung verschiedene Verhaltensweisen (z. B. Score 9, «wiederholt: Untersucher wiederholt die Aufgabe». Völlig unklar bleibt, welche Verhaltensweisen des Patienten ihn dazu veranlassen), so daß die von den Autoren bekundete hohe Ausweftungsobjektivität fraglich erscheint. Die 16 Antwortkategorien werden außerdem unzulässigerweise so verrechnet, als ob sie Intervallskalenniveau hätten (es werden Mittelwerte für jeden Untertest errechnet), was nicht der Fall ist - die bewerteten Patientenreaktionen stehen nicht in ordinaler Relation zueinander. 3. Normen Für die TÜLUC liegen keine Normwerte vor, so daß eine Einordnung individueller Testleistung in den Kontext des angenommenen prämorbiden Niveaus eines Patienten nicht möglich ist, was jedoch für eine neuropsychologische Diagnostik wesentlich wäre. Ein großer Teil der Items ist außerdem so leicht, daß bei gesunden Probajiden kaum Fehler zu erwarten sind (das wird schon daran deutlich, daß kein Lösungsschlüssel beigegeben wurde). Das bedeutet aber auch, daß eine Leistungsdifferenzierung bei leichter beeinträchtigten Patienten in vielen Funktionsbereichen nicht möglich ist. 4. Reliabilität/Interpretation Reliabilitätsangaben zur TÜLUC existieren nicht. Eine Retest-Reliabilitätsbestimmung wäre weder an gesunden Probanden aus oben genannten Gründen (Items zu leicht) sinnvoll, da keine Unterschiede in den Daten zu erwarten sind, noch wäre sie sinnvoll an neurologischen Patienten, da der Krankheitsverlauf gerade keine Konstanz der zu erfassenden Merkmale erwarten läßt. Für Verlaufsuntersuchungen, die in der neuropsychologischen Diagnostik von zentraler Bedeutung zur Beurteilung des Remissionsverlaufes sind, kann die TÜLUC deshalb mangels Reliabilitäts- und Meßfehlerangaben nicht eingesetzt werden, da veränderte Testergebnisse nicht zufallskritisch interpretiert werden können (siehe auch Sturm 1987, S. 86), was die Testautoren nicht davon abhält, ihr Instrumentarium besonders
526
Psychometrische Persönlichkeitstests
auch zur Verlaufskontrolle zu empfehlen, «da kleinste Veränderungen im Leistungsbild des Patienten» objektivierbar seien (Handanweisung, S. 73). Dabei ist selbst eine rein qualitative Veränderungsbeurteilung mit der TÜLUC aufgrund der niedrigen Itemzahl pro Aufgabengebiet kaum möglich. 5. Validität Eine ausführliche und kritische Einschätzung der Validierungsstudien zur TÜLUC referiert Sturm (1987). Validierungsuntersuchungen wurden ausschließlich an einer kleinen Gruppe aphasischer Patienten vorgenommen. Bestimmt wurden konvergente Validität und Interkorrelationen. Ferner wurde eine Faktorenanalyse (R-Technik) und eine invertierte Faktorenanalyse (Q-Technik) mit Clusteranalyse durchgeführt. Die konvergente Validität wurde über Korrelationen zwischen Gesamt-Testwert der TÜLUC und der klinischen Einschätzung der Schwere der Aphasie bestimmt (r = —0.67). Die Korrelationsberechnungen der Leistungsdefizite im Token-Test und aller TÜLUC-Funktionsbereiche ergaben durchweg hochsignifikante Korrelationen, besonders aber für die Sprachfunktionen (—0.70... -0.74). Die Autoren werten dies als befriedigende Ergebnisse im Sinn der Übereinstimmungsvalidität, wobei diese eben nur die sprachliche Funktion betrifft. Untersuchungen zu den anderen Funktionsbereichen liegen nicht vor, was den Test für Patienten mit anderen neuropsychologischen Störungen wie Amnesien, Störungen der räumlichen Orientierung, Apraxien etc. nicht anwendbar macht, obwohl die entsprechenden Funktionen geprüft werden. Ausgehend von der faktoriellen Struktur (die sich weitgehend mit den einzelnen Untertests deckt), wurde versucht, eine Zuordnung zu Patientengruppen vorzunehmen. Die ermittelten acht Patientencluster waren ausschließlich durch den Schweregrad der Aphasie bestimmt (keine qualitative Unterscheidung) und zeigten hohe Übereinstimmung mit der klinischen Einschätzung und dem Token-Test-Ergebnis. Eine weitergehende Clusteranalyse erbrachte ebenfalls Zuordnung nur nach Schweregrad der Aphasie. Angesichts dieser Ergebnisse bleibt allerdings zu fragen, welchen Vorteil ein nicht normiertes, nicht reliabilitätsgeprüftes und u.a. an klinischer Einschätzung validiertes, aber standardisiertes Untersuchungsverfahren eigentlich gegenüber der mit ihr hoch korrelierenden «klinischen Einschätzung» überhaupt hat. 6. Allgemeine Kritik Zusammenfassend ergibt sich aus dem oben Dargestellten, daß die Absicht der Testautoren, Lurias neuropsychologische Untersuchungsmethoden als standardisiertes Prüfverfahren zu entwickeln, das eine sinnvolle
Kl inische Tests
527
Verbindung von quantitativer und qualitativer Analyse neuropsychologischer Störungsmuster ermöglichen sollte, nicht eingelöst werden konnte. Als quantitatives Meßinstrument ist die durch das Fehlen von Normen, Reliabilitäts- und Meßfehlerangaben, Validierungsuntersuchungen für unterschiedliche neurologische Patientengruppen sowie durch ein testtheoretisch unzulässiges Auswertungssystem disqualifiziert und verweist den neuropsychologischen Untersucher auf das Zusammenstellen von Testbatterien, die die Gütekriterien psychologischer Tests besser erfüllen. Als deutsche Fassung der immer noch vorbildlichen Untersuchungsreihe von Luria, ohne deren Kenntnis die Anwendung der TÜLUC sowieso nicht ratsam ist, hat sie jedoch für die in der neuropsychologischen Diagnostik ebenso wichtige qualitative Störungsbeurteilung durchaus ihren Stellenwert. «Die entscheidende Rolle für das richtige Erfassen des Symptoms muß seine qualitative Analyse spielen, die Untersuchung der Struktur der Störung und schließlich die Ermittlung desjenigen Faktors oder Primärdefekts, der zur Entstehung des beobachteten Symptoms geführt hat» (Luria 1970, S. 102). Leider wurde die für diesen Zweck nützliche lokalisationsspezifische Untersuchungseinteilung, wie sie Christensen (1974) vogenommen hat, von den TÜLUC-Autoren aufgegeben.
Literatur Christensen, A. L.: Luria's Neuropsychological Investigation. Text. Kopenhagen 1974 Hamster, W.; Langner, W., & Mayer, R.: Tübinger-Luria-Christensen Neuropsychologische Untersuchungsreihe. Handbuch. Weinheim 1980 Luria, A. R.: Die höheren kortikalen Funktionen des Menschen und ihre Störungen bei örtlichen Hirnschädigungen. Berlin 1970 Martin, A. D.: Aphasia testing: A second look at the Porch index of communicative ability. Journal of Speech and Hearing Disorders, 42 (1977), S. 547-562 Orgaß, B.: Eine Revision des Token Tests I. Vereinfachung der Auswertung, Itemanalyse und Einführung einer Alterskorrektur. Diagnostica, 22 (1976), S. 70-87 Sturm, W.: Testbesprechung TÜLUC. Zeitschrift für Klinische Psychologie, 26 (1987) 1,S. 83-87 Erläuterungen Aphasie: Störung der Sprache bei erhaltener Funktion der zum Sprechen benötigten Muskulatur, bedingt durch Beeinträchtigungen der sprachdominanten Hirnhemisphäre. Apraxie: Unfähigkeit, bei erhaltener Beweglichkeit zu handeln (z. B. Körperteile zweckmäßig zu bewegen). CCT (Craniale Computertomographie): Röntgendiagnostisches Verfahren des
528
Psychometrische Persönlichkeitstests
Kopfes, bei dem der aus dem Körper wieder austretende Strahlenanteil nicht einen Röntgenfilm schwärzt, sondern durch einen Computer in einer Körperquerschnittsebene errechnet und abgebildet wird. PET (Positronenemissionstomographie): Bei den computertomographischen Emissionsverfahren wird nach Verabreichung radioaktiver Marker deren Verteilung im Hirngewebe festgestellt, wodurqh Rückschlüsse auf , dessen Stoffwechsel oder Durchblutung möglich werden.
Gisela Erdmann
529
III. Persönlichkeits-Entfaltungsverfahren (Projektive Tests)
1. Formdeuteverfahren
1.1 Testname: Rorschach-Test Autor: H. Rorschach Bern: Huber 1962 (8. Aufl.; Erstveröffentlichung 1921) 1. Testart: Formdeuteverfahren 2. Allgemeines Grundkonzept Rorschach entwickelte das nach ihm benannte Verfahren seit 1911 (einschließlich Vorstudien). Das Rorschach-Verfahren (RoV) besteht aus zehn Bildtafeln mit zufällig entstandenen symmetrischen Klecksfiguren; auf einem Teil der Tafeln befinden sich nur schwarzweiße Klecksgebilde ; der andere Teil der Tafeln enthält mehrfarbige Kleckse. Im als Individualtest konzipierten RoV soll der Proband zu jeder Klecksfigur Deutungen produzieren (Frage an den Probanden: «Was könnte das sein?»). Der Testleiter verabreicht die zehn Tafeln nacheinander in festgelegter Reihenfolge. Im Anschluß an die eigentliche Testdurchführung folgt häufig eine Befragungsphase, in der die einzelnen Deutungen des Probanden nochmals durchgegangen werden (um z.B. Informationen darüber zu erhalten, in welchen Tafelregionen der Proband seine Deutungen lokalisierte). Insbesondere in der Vergangenheit gab es viele Theoretiker und Praktiker des RoV, die der Überzeugung waren, aus den Deutungen zu den Rorschachtafeln eine umfassende Diagnose der Persönlichkeitsstruktur und -dynamik gewinnen zu können; diesem umfassenden Anspruch entsprechen die differenzierten, vielschichtigen Interpretationsvorschläge in den Lehrbüchern zum RoV, die Interpretationshinweise zur Intelligenzstruktur, zu kognitiven Stilen, zur affektiven und emotionalen Erlebnisweise, zur Verarbeitungsform von psychischen Konflikten, zu sozialen Kontaktbedürfnissen usw. enthalten. Die Vielzahl der psychologischen Interpretationsvorschläge zu Testantworten und die Beliebtheit des RoV in der Beratungspraxis stehen in einem ziemlichen Gegensatz zu den Ergebnissen empirischer Untersuchungen des RoV; die Kritik richtet sich im wesentlichen gegen die fehlende oder unzulängliche testtheoretische/ psychometrische Absicherung der Testergebnisse oder gegen die vereinfachten und im Anspruch übersteigerten diagnostischen Schlußfolgerungen angesichts dürftiger Erfahrungsgrundlagen.
530
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
Für die Auswertung der Pbn-Deutungen liegen mehrere «Signierungssysteme» vor (die folgenden, beispielhaft aufgeführten Signa entstammen der Klopferschen Konvention; vgl. Klopfer & Davidson 1967; Bottenberg 1972): - Erfassungsmodus (z. B. W = der ganze Klecks wurde zur Deutung herangezogen; D = Klecksdetail wurde gedeutet), - Determination (z.B. F = Formbestimmtheit, C = ausschließliche Farbbestimmtheit, M = menschliche Bewegung), - Inhalt (z. B. H = ganzer Mensch, Ad = Deutung eines Tierdetails), - Häufigkeit (P = Vulgärantwort, O = originelle, seltene Deutung). An die Signierung der Antworten schließen sich einfache Verrechnungen an, in denen Summen- bzw. Prozentwerte und einige Quotienten zwischen zentralen Signa gebildet werden (z. B. F% = Prozentwert formbestimmter Antworten; Quotient aus M/C, der sogenannte «primäre Erlebnistyp», der zur Unterscheidung einer «nach innen» von einer «nach außen» zentrierten Erlebnisrichtung taugen soll). In den Lehrbüchern zum RoV werden für die (verrechneten, im Protokoll des Probanden vorherrschenden) Signierungen «persönlichkeitsumfassende» Interpretationshinweise gegeben. Neben der Auswertung nach den skizzierten formalen Gesichtspunkten wird meist eine inhaltsanalytische, symbolexegetische Interpretation der Probanden-Antworten erfolgen, die ganzheitlich aufgrund eines Vergleichs psychoanalytischen, klinischen Erfahrungswissens mit psychologischen Anmutungscharakteristiken der Testantworten erfolgt. Es darf vermutet werden, daß in der Anwendungspraxis diese ganzheitliche Interpretationsform des RoV häufig gegenüber einer mühsamen, den formalen Signierungskriterien folgenden Testinterpretation vorgezogen wird. Angesichts der sehr unsicheren psychologischen Gültigkeit der Signa ist ein solches zeitökonomisches Vorgehen verständlich. 3. Gültigkeit Die herkömmlichen interpretativen Aussagen in den Lehrbüchern zum RoV entstammen weitgehend den «klinischen Erfahrungen» der Autoren, wobei die Aussagen vornehmlich auf erwachsene Personen bezogen sind. Einige solcher Interpretationshypothesen zu einzelnen Signa werden hier zur Veranschaulichung dargestellt (orientiert an der halbwegs distanzierten Zusammenstellung von Bottenberg 1972, S. 134f.): - W (Ganzantwort), Interpretation: abstraktes, theoretisches Denken bzw. globale oberflächliche Auffassung, Leistungsmotiviertheit; - F (Formbestimmtheit), Interpretation: sachlicher, bewußter Lebensstil, Indikator eines allgemeinen Intelligenzniveaus;
Formdeuteverfah ren
531
- c (ausschließliche Bestimmtheit durch Schattierungseffekte, z.B. «etwas Flauschiges»), Interpretation: unreife, unmittelbar-direkte Liebes-bzw. Kontaktbedürfnisse; - «Blut» (Deutungen entsprechenden Inhalts), Interpretation: aggressive Impulse, unzulängliche Bewältigung aggressiver Impulse. Bei der Erstellung des Testbefundes hat der Diagnostiker eine Gewichtung der Interpretationsaspekte vorzunehmen, die den Antworten des jeweiligen Probanden angemessen ist; die Befunderstellung ist sehr komplex, da im Einzelfall z. T. widersprüchliche Hinweise aus den zahlreichen Signierungsgesichtspunkten «stimmig» zusammengefaßt werden sollen. Die verschiedenen empirischen Untersuchungen zur Validität des Ro V (eine Zusammenstellung findet sich bei Bottenberg 1972, S. 139ff.), die einzelne Auswertungsaspekte des RoV mit Außenkriterien (anderen psychodiagnostischen Verfahren) in Beziehung setzen, sind nach Bottenberg als heterogen zu bezeichnen. Etwas günstigere Ergebnisse scheinen sich in Untersuchungen zu ergeben, die die Zuordnung des RorschachGesamtbefundes zu psychopathologisch klassifizierten Patientengruppen bzw. zu Intelligenzdiagnosen überprüften. Es ergaben sich hier Urteilsübereinstimmungen von über 50% bzw. z.T. Korrelationskoeffizienten über 0.60. Die Begründung der Stichhaltigkeit des Rorschach-Testbefundes mit «klinischer Erfahrung» des Diagnostikers wird von den vorliegenden empirischen Untersuchungen nicht bestätigt: Beurteilern mit höherem Grad an Ausbildung und Erfahrung mit dem RoV scheint keine signifikant bessere, validere Voraussage anhand des Rorschachbefundes zu gelingen. Zusammenfassung a) Den zahlreichen Untersuchungen ist zu entnehmen, daß das RoV zu keinen psychologisch eindeutigen und befriedigend gültigen Befunden gelangt. Besonders im Einzelfall entbehren psychologische Entscheidungen anhand des Testbefundes einer gesicherten Basis; die u. a. mit Hilfe des RoV getroffenen, oft weitreichenden Entscheidungen (z. B. in der Gerichtspsychiatrie: «Blut»-Deutungen = «mangelnde Aggressionskontrolle») lassen sich somit nicht psychologisch rechtfertigen. b) Anders als den thematischen Apperzeptionsverfahren (z.B. der TAT) fehlt der Rorschach-Interpretation die «Augenschein»-Validität. Die Interpretation von Deutungen des Probanden zu abstrakten Textgebilden beruht auf ebenso abstrakten psychologischen Schlußfolgerungen (Formbestimmtheit der Deutung: Sachlichkeit des Realitätsbezugs; Farbbestimmtheit: affektive, emotionale Erlebnisweise) und Symbolexegesen (Blut: Aggression).
532
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
c) Die Interpretation des Rorschachbefundes gründet auf ausgesprochenen und unausgesprochenen persönlichkeitstheoretischen Vorstellungen klassisch-psychiatrischer Provenienz und psychologistischer Grundtendenz. Diese Persönlichkeitstheorie schlägt nicht nur bei der Interpretation einzelner Signa durch, sondern dürfte besonders auch die «stimmige» Zusammenstellung der Einzelinterpretationen zum «Gesamtbefund» steuern. 4. Zuverlässigkeit, Interpretation und Aussagewert Bei der Überprüfung der Zuverlässigkeit des RoV muß eine Vielzahl von Aspekten und Einflußgrößen beachtet werden. Zu den einzelnen Gesichtspunkten liegen Untersuchungen vor; eine exakte und direkte Gesamtschätzung der Rorschachzuverlässigkeit läßt sich daraus nicht ableiten. Diese verschiedenen Einfluß- und Fehlerquellen des RoV in seiner vorliegenden Form verhindern allerdings, daß das Verfahren dem testtheoretischen Kriterium eines zuverlässigen Tests genügt. Die folgenden Punkte geben wichtige Aspekte der Zuverlässigkeit/Fehlervarianz des RoV wieder: a) Rolle des Testleiters/Testdurchführung: Untersuchungen belegen, daß z. B. die Testatmosphäre, hervorgerufen durch bestimmte Reaktionstendenzen des Testleiters, die Art und Häufigkeit der Deutungen des Probanden beeinflußt (positive emotionale Atmosphäre: u. a. mehr Deutungen, mehr M-Antworten). Geschlechts-, Alters- und Berufs- bzw. Statusmerkmale (z.B. Testleiter in Alltagskleidung - versus im weißen Arztmantel) sind weitere Testleitervariablen, die sich in den Testergebnissen auswirken. b) Auswertungsobjektivität: Die Übereinstimmung von verschiedenen Testleitern bei der Zuordnung von Signa zu gleichen Rorschachtestprotokollen ist im Vergleich zu anderen Aspekten der Reliabilität hoch. Die in der Literatur angegebenen Korrelationskoeffizienten erreichen z.T. Werte von > 0.90. Allerdings sind die verschiedenen Ergebnisse nur teilweise vergleichbar, da die Übereinstimmungen auch in Abhängigkeit vom jeweiligen Signum und vom benutzten Signierungssystem schwanken. c) Einfluß des Bildmaterials: Untersuchungen bestätigen die Abhängigkeit bestimmter Deutungsinhalte und Signa von Tafelmerkmalen, wie z. B. der Helligkeit der Klecksflächen, der Farbigkeit oder dem globalen Aufforderungscharakter der einzelnen Tafel, und von der Aufeinanderfolge der Tafeln. d) Zuverlässigkeit der Signierung: Die Untersuchungen zur Reliabilitätsbestimmung nach der Halbierungs- und Retestmethode ergeben für die meisten Signa niedrige Werte; in diesem Punkt erweist sich
Formdeuteverfahren
533
das RoV als vollkommen unzulänglich für individualdiagnostische Zwecke. e) Objektivität und Zuverlässigkeit der Interpretation: Die Beurteilungen verschiedener Interpreten führen zu beträchtlich schwankenden Übereinstimmungskoeffizienten (von rund r = 0.0 bis r > 0. 90). Relativ hohe Übereinstimmungen ergaben sich bezüglich des Merkmals «Intelligenz» (mittlere Korrelation ca. 0.60). Auch in diesen Reliabilitätsuntersuchungen war Erfahrung und Ausbildung der Beurteiler ohne Bedeutung (erfahrene Interpreten erreichten keine höheren Übereinstimmungen). 5. Normen Die vorliegenden Normen zu einzelnen Signa sind bislang unzulänglich, da sie auf zu kleinen Stichproben beruhen und kaum eine brauchbare Hilfe für die Interpretation der Testergebnisse darstellen. 6. Allgemeine Kritik Die Kritik am RoV kann aus methodologischer/testtheoretischer und aus inhaltlicher/psychologiekritischer Perspektive geführt werden. a) Bei der Beurteilung nach üblichen teststatistischen Kriterien schneidet das RoV denkbar schlecht ab. Das Verfahren erfüllt danach nicht die Voraussetzungen, um für individuelle psychologische Entscheidungen brauchbare und verläßliche Informationen zu liefern. In neuerer Zeit versucht man, die methodischen Mängel des RoV zu beseitigen: durch die Entwicklung von Testmodifikationen (Holtzman Inkblot Technique, Ro 30) oder durch den Versuch einer testtheoretischen Neubegründung anhand probabilistischer Testmodelle (Hinweise in Fischer 1974). b) Eine Kritik des RoV muß vor allem die psychologische Theorie treffen, die im RoV und seiner Anwendung zum Ausdruck kommt: Sie muß gerichtet sein gegen die dem RoV zugrundeliegende (wenngleich nicht vollständig ausformulierte) Persönlichkeitstheorie, in der der Proband weitgehend zum Objekt psychopathologischer Etikettierungen degradiert wird; gegen eine psychologische Praxis, in der der Proband unter Deutungszwang steht, in der psychologische Streßreaktionen o.ä. als projizierte Persönlichkeitsdispositionen interpretiert werden können, ohne daß dem Probanden Möglichkeiten zur aktiven Einflußnahme auf diesen Prozeß gegeben sind.
Literatur Bottenberg, E.H.: Rorschachtest und Modifikationen. In: Arnold, W.: Psychologisches Praktikum, Bd. 2. Stuttgart 1972
534
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
Fischer, G.: Einführung in die Theorie psychologischer Tests. Bern 1974 Klopfer, B., & Davidson, H. H.: Das Rorschach-Verfahren. Bern 1967
Paul Walter 2. Verbal-Thematische Verfahren 2.1 Testname: Rosenzweig-Picture-Frustration-Test (FFT) Autor: S. Rosenzweig Form für Kinder: deutsche Bearbeitung E. Duhm und J. Hansen Form für Erwachsene: deutsche Bearbeitung H. Hörmann und W. Moog Göttingen: Hogrefe 1957 1. Testart: Der PFT ist ein «semi-projektives» Verfahren. 2. Allgemeines Grundkonzept: Ziel dieses Tests ist es, Reaktions- und Verhaltenstendenzen von Individuen in alltäglichen Konflikt- bzw. belastenden kommunikativen Alltagssituationen zu erfassen. Wie der Name «Bilder-Frustrations-Test» schon andeutet, wird den Probanden in einem Testheft eine Reihe von 24 schematischen Zeichnungen vorgelegt, die alle konflikthaltige und frustrierende soziale Situationen darstellen. In jeder Zeichnung sind zwei gesichtslose Personen zu sehen, von denen die eine in einer Sprechblase Aussagen macht, die die andere Person in ihren Strebungen, Wünschen oder Zielen beeinträchtigen oder behindern. Das Verfahren geht nun von der (nicht geprüften) Annahme aus, daß ein Proband sich mit der so frustrierten Person identifiziert und die Projektion eigener Einstellungen, Reaktionen und Verhaltenstendenzen in die leere Sprechblase dieser Figur einträgt. Die vom Probanden niedergeschriebenen Antworten sollen dann Hinweise auf die Art und die Richtung der Reaktion, die hier stark auf «aggressive» Reaktionen verschiedener Formen eingeengt wird, geben und entsprechende Rückschlüsse auf Reaktionsmuster und Verhaltenswahrscheinlichkeiten in Belastungssituationen des Alltags erlauben. Zur Verdeutlichung hier je ein Beispiel aus der Testform für Kinder (6-14 Jahre) und für Erwachsene: 1. Beispiel aus der Form für Kinder: Eine Frauengestalt sagt zu einer Mädchengestalt, die mit Blumen in der Hand im Garten vor dem Haus auf sie zukommt: «Du bist ein ungezogenes Kind, du hast meine Blumen abgepflückt.» 2. Beispiel aus der Fqrm für Erwachsene: Ein skizzierter Kellner sagt zu
Verbal-Thematische Verfahren
535
einem am Tisch sitzenden Gast: «Machen Sie da nicht ein bißchen zu viel Aufhebens?» Der Test, der als Einzel- oder Gruppentest durchgeführt werden kann und keiner Zeitbegrenzung der Bearbeitung unterliegt, wird nach einem komplexen Verrechnungsschema des Verfassers ausgewertet. Der besseren Veranschaulichung wegen hat Rauchfleisch (1979) ein übersichtliches Profilblatt zur Abtragung der individuellen Werte entwickelt. Diese ergeben sich aus den verschlüsselten Antworten, die ihrem Inhalt entsprechend verschiedenen Kategorien zugeordnet werden. Rosenzweig unterscheidet zwischen: - «Aggressionsrichtungen» («Extrapunitivität», «Intropunitivität» und «Impunitivität»), die in der Reihenfolge widerspiegeln sollen, ob durch Frustration entstandene Aggressionen eher gegen andere (bzw. das Hindernis) oder gegen sich selbst gerichtet oder (in der dritten Richtung) verdrängt werden. Beispielantworten von Rosenzweig mit entsprechender Signierung für jede Zeichnung (Situation) werden gegeben. - «Reaktionstypen», wie z. B. die Tendenz, Schwierigkeiten und Belastungen auf die leichte Schulter zu nehmen oder sie im Gegenteil als unüberwindliche Hindernisse zu betrachten. Nach einer Auszählung der Häufigkeiten verschiedener Kategorien und der Ermittlung prozentualer Häufigkeitsverteilungen sowie verschiedener Merkmalskombinationen erfolgt ein Vergleich mit Normen (neu erstellt von Rauchfleisch). Die Gesamtinterpretation der erstellten Stanine-Werte schließt sich an. Es soll hier noch kurz darauf verwiesen werden, daß der PFT in der psychologischen Praxis häufig nicht nach den angegebenen Vorschriften ausgewertet wird, sondern nur im Überblick über die verschiedenen Antworten festgestellt wird, ob ein bestimmter Antworttyp (z. B. Beschuldigung anderer) vorherrscht. 3. Gültigkeit Die Werte für die Kriteriumsvalidität lagen in mehreren Studien (im Durchschnitt) unter rtc = 0.20. Auch die Werte für die externe Gültigkeit (z. B. Berufserfolg oder reales Verhalten) sind nicht aussagekräftig. Studien zur Konstruktvalidität haben lediglich erbracht, daß interkulturell ähnliche Verhaltensmuster (USA, Japan, Deutschland) feststellbar sind. Was sie besagen, bleibt derweil noch im unklaren. Differentialdiagnostische Aussagen (z.B. Unterscheidung zwischen verschiedenen psychopathologischen Reaktionsformen) sind nicht tragfähig. Wie die Erwachsenenform läßt sich für die Kinderform lediglich festhalten, daß die Antworten der Probanden charakteristische Reaktionsweisen abzubilden gestatten.
536
Person I ich keits-Entfaltu ngsverfah ren (Projektive Tests)
4. Objektivität In Untersuchungen zur Signierungsübereinstimmung unabhängiger Auswerter stellten Duhm & Hansen (Form für Kinder) bei 100 Testheften eine Übereinstimmung von 89% fest, Hörmann & Moog 84% (s. Brikkenkamp 1975). 5. Zuverlässigkeit Retest-Untersuchungen, die von Rauchfleisch zusammengestellt wurden, sind für projektive Testverfahren (ähnlich wie schon hinsichtlich der Objektivität) nicht ungünstig. Immerhin lagen die Koeffizienten einschlägiger Untersuchungen für neun Auswertungskategorien zwischen r = 0.27 und r = 0.83 (Zeitintervall zwischen drei und acht Monaten). Aus eigenen Retest-Studien berichtet Rauchfleisch Koeffizienten bis 0.72. 6. Normen Dank der umfangreichen Arbeiten von Rauchfleisch kann mittlerweile auf neue Normwerte sowohl in der Kinder- als auch der Erwachsenenform zurückgegriffen werden. Er hat 950 Kinder zwischen sieben und vierzehn Jahren als Eichstichprobe zugrunde legen können, über verschiedene Schulstufen gestreut, für die er getrennt nach Alter und Geschlecht entsprechende Tabellen der Stanine-Werte erstellt hat. 1040 gesunde psychische Erwachsene umfassen die Eichstichprobe, deren Verhaltenstendenzen in den Frustrationssituationen zur Norm erhoben wurden - selbstkritisch von Rauchfleisch als nicht gänzlich repräsentativ angesehen. 7. Allgemeine Kritik Der PFT wurde schon vor 1948 entwickelt und ist von 1957 bis heute in deutscher Fassung unüberarbeitet im Handel, was vor allem z. B. in den Skizzen der Erwachsenenform erkennbar ist. Trotz dieses veralteten Äußeren erfreut er sich sowohl im klinischen und Beratungsbereich als auch im Rahmen der Personalauslese noch relativ verbreiteter Beliebtheit. Kein Wunder, wenn man davon ausgeht, daß gerade heute im Zusammenhang mit dem Anwachsen «aggressiver» Handlungen in Schule und Kindergarten aufgrund wachsender Einengung des Lebensraums, der Zunahme von Streßfaktoren etc. einerseits und bezüglich «durchsetzungsbetonten» Verhaltens im Berufsbereich vor dem Hintergrund wachsender Rivalität um Arbeitsplätze andererseits für Diagnostiker und vor allem für «Diagnose-Auftraggeber» von Interesse ist, welches Verhalten bei Problem- und Frustrationssituationen von den untersuchten Menschen zu erwarten ist. Kann diese Information nun vom PFT auch erwartet werden? Sicher-
Verbal-Thematische Verfahren
537
lieh nicht in der Form so eindeutig, wie es die Autoren für dieses Verfahren in Anspruch nehmen. So scheint doch die ungeprüfte Gültigkeitsannahme, die eingetragene Antwort eines Probanden lasse Rückschlüsse auf sein tatsächliches Verhalten in Konfliktsituationen zu, äußerst zweifelhaft, wenn man die Unterschiedlichkeit realsozialer Situationen zu den Eintragungen in einen Bogen mit skizzierten Situationen in Betracht zieht. So fehlen dem Antwortenden in dieser Testsituation sowohl reale Anhaltspunkte zum Zustandekommen der gezeigten Situation, zu deren Ablauf und Prozeßcharakter, zu näheren Charakteristika (z.B. Machtposition, äußere Erscheinung) der «frustrierenden» Person, zu Beziehungen zwischen Sprecher und Projektionsfigur, zu den zu erwartenden Konsequenzen etc., kurz, zu allen den situationalen und darüber hinaus sozialgesellschaftlichen Größen, die gerade das reale Handeln beeinflussen. Auch die Hypothese der Projektion eigener Gefühle, Reaktions- und Handlungstendenzen in die frustrierte Person entbehrt jeder Stichhaltigkeit. Zumindest muß man davon ausgehen, daß bei verschiedenen Probanden völlig unterschiedliche Grade von Identifikation zustande kommen können (z. B. allein bedingt durch das unterschiedliche Geschlecht der dargestellten frustrierten Personen). Einen näheren Hinweis bzw. eine Aufforderung, sich in die Rolle des Frustrierten zu versetzen, mußten sich die Autoren in der Instruktion beider Formen wohl sparen, um den eigentlichen Zweck der Untersuchung vor den Untersuchten zu verbergen. So gibt man den Erwachsenen keinen Hinweis auf den Sinn und Zweck des Tests und macht den Kindern (bei denen man noch mit neugierigen Fragen rechnet) vor: «Wir wollen jetzt ein Spiel zusammen spielen.» Der so im ungewissen belassene bzw. belogene Getestete soll möglichst wenig bewußt («Schreiben Sie die allererste Antwort, die Ihnen dazu einfällt.. . Arbeiten Sie so schnell wie möglich/Schreib immer die erste Antwort, die dir dazu einfällt... Sieh zu, daß du so schnell wie möglich fertig wirst») und unbedacht antworten. Er wird in seinen Handlungsmöglichkeiten ebenso auf das bloße unreflektierte Reagieren reduziert wie die «frustrierte» Person im Bild. Ein weiterer der zahlreichen Kritikpunkte am PFT ist die Interpretation der Ergebnisse, die auf der selbst äußerst fragwürdigen und umstrittenen psychologisch-theoretischen Grundlage einer irgendwie «dynamisch orientierten» Frustrations-Aggressions-These aufbaut (die jedoch im Testbegleitmaterial nie explizit deutlich gemacht wird und nur aus Begriffen wie «überich- und ich-blockierende Situation» «extra-, intro- und impunitive Aggressionsrichtungen» und «ego Defense»-Reaktionstypen zu erschließen ist). Auf diese theoretische Grundlage kann hier jedoch nicht näher einge-
538
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
gangen werden. Ebenso aufschlußreich für den Leser ist sicher die Signierung und Interpretation der Reaktionen in den im Beiheft gegebenen Beispielen. So sind in der Konfliktsituation (eine Frau tadelt ein Mädchen, weil es Blumen abgepflückt hat) aus der Kinderform des PFT die Antworten: «Ach, das ist doch nicht schlimm, es sind ja noch welche da»; «Du hast es mir ja gesagt» oder «Nun kann ich auch nichts mehr daran ändern» Indiz für Feindseligkeit} die sich gegen eine Person oder Sache der Umgebung richtet. Die Antwort: «Hab ich nicht abgepflückt - nein, das stimmt nicht» ist ein Zeichen für aggressive Ableugnung von Verantwortung. Es muß wohl kaum erwähnt werden, daß sich viele solcher Antworten im Gesamtergebnis negativ niederschlagen. Während Antworten wie «Ich will sie gern bezahlen» oder «Pflanz ich sie wieder ein» als eigenes Bemühen um eine Lösung aus einem gewissen Schuldgefühl heraus angesehen werden und entsprechend positiv zu Buche schlagen. Entsprechendes gilt selbstverständlich für die Form des Tests für Erwachsene. So gilt eine Reaktion des Gastes, der dem Kellner antwortet: «Ich finde nicht, meine Beanstandung ist berechtigt» - als aggressive Ablehnung von Verantwortlichkeit und die Antwort «Ich weiß nicht, vielleicht bin ich wirklich aufgeregt» - als auf sich selbst gerichtete Beschuldigung und Tadel; Beide Antworten werden bei häufigem Auftreten im Gesamtergebnis sicherlich negativ bewertet. Was hier, wie in allen anderen Unteraufgaben, deutlich wird, ist sowohl die relative Willkürlichkeit der Interpretation in bestimmten Kategorien (die auch aus der Praxis oft als Interpretationsunsicherheit vernommen wird und Objektivitätsuntersuchungen und Auswerterübereinstimmungen [s. o.], die beim PFT angegeben werden, recht fragwürdig erscheinen läßt) als auch die implizite positive und negative Bewertung der signierten Antworten. Die Bewertung des gesamten Testresultats ist eigentlich eine Beurteilung der «richtigen» Mischung von Reaktionsformen bzw. Antworttypen, die dem jeweiligen Diagnostiker bzw. seinem Auftraggeber überlassen bleibt und sich letztlich aus dem Diagnoseziel bestimmt. So wird bei der Selektion durchsetzungskräftiger Manager sicher ein anderer Antwortmodus als positiv bewertet und als angemessen angesehen als bei der Auswahl einer anpassungsfähigen Sekretärin oder als in der Untersuchung eines Kindes mit «Disziplinproblemen» in der Schule.
Verbal-Thematische Verfahren
539
Die Kritik am PFT (wie an allen anderen Testverfahren) wäre jedoch falsch und gefährlich, ginge sie lediglich auf die immanente Fragwürdigkeit dieses Tests ein. So ist zwar wichtig und richtig, mangelnde Gütekriterien zu benennen und sie den Anwendern und Befürwortern dieses Verfahrens entgegenzuhalten. Diese Kritik ist jedoch nicht imstande zu erklären, warum der Test entwickelt und weiter angewendet wird, und somit nicht dazu geeignet, seinen Charakter und seine Funktion zu erfassen. Was erfaßt also der PFT, was für den Anwender von Interesse sein kann? Er mißt, und das müßte aus dem bisher Gesagten auch klargeworden sein, vor allem die Bereitschaft eines Menschen, eine Situation, in der er selbst sich befindet, als gegeben zu akzeptieren. Er stellt weiter die Bereitwilligkeit und Fähigkeit fest, sich dieser scheinbar unveränderlichen Situation des Reagierens im Sinne der vermuteten Präferenz des Untersuchenden unterzuordnen. Er mißt die Anpassungsfähigkeit an soziale Konfliktsituationen, deren Beurteilung nicht von den Testpersonen selbst vorgenommen wird, sondern von sozialen Eliten mit spezifischen Verhaltenserwartungen und Normen: Unterordnung - Widerstand oder Leichtnehmen von Schwierigkeiten - zielstrebiges Herangehen an Probleme etc. So fragwürdig, wie Rückschlüsse auf reales Verhalten in alltäglichen sozialen Problemsituationen scheinen, so naheliegend sind Rückschlüsse auf die Position und auf das Handeln des Getesteten in anderen, der Testsituation ähnlichen Anpassungssituationen. Konkret: Will er dort gegen «frustrierende» Autoritäten aufmucken oder sich nur gezielt gegen behinderte Untergebene und Gleichgestellte durchsetzen? Hat er vor, eher die Schuld auf sich zu nehmen? Ist er bereit, sich sozial erwünscht zu verhalten? Kann er das? Stellt er es durch sozial erwünschte Antworten im Test unter Beweis: Ist er zur Anpassung bereit ? Diese Bereitschaft des Getesteten wird in einer Form erhoben, die ihm möglichst undurchsichtig ist bzw. die ihm keine Hinweise auf das Ziel des Verfahrens liefert. Durchschaut er es nicht, so zeigt er sich ohne sein Wissen als anpassungsbereit, widerspenstig, durchsetzungsbewußt etc. Durchschaut er das «Spiel», hat er die Wahl zwischen offener eigener Antwort mit der Gefahr, nicht den Vorstellungen des Diagnostizierenden bzw. dessen Auftraggeber zu entsprechen, und auf der anderen Seite zielgerichtetem Testverhalten. Hier antwortet er in Richtung auf die angenommenen Erwartungen und gibt ein erstes Zeichen für seine Bereitwilligkeit zur Unterordnung in Situationen, in denen andere (hier der Diagnostiker) den Ton angeben. Denn auswerten und interpretieren tun diese, nicht die Testperson. Frank Nestmann
540
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
3. Zeichnerische und Gestaltungsverfahren 3.1 Testname: Baum-Test Autor: K. Koch Bern: Huber 1988 (8. Aufl.) 1. Testart: Zeichnerisches Gestaltungsverfahren 2. Allgemeines Grundkonzept «Aber seht, jeder Baum, sinnvoll betrachtet, ist ein Bäum der Erkenntnis» (Hiltbrenner, nach Koch 1949, S. 7). Koch geht von dieser Weisheit aus, die durch eine «Kulturgeschichte des Baumes» und Hinweise auf Mythologie und Religion, Märchen und Sagen ergänzt wird. «Was in der Baumzeichnung zum Ausdruck kommt, ist keine echte Physiognomie, sondern fast eher eine Ausscheidung des Innern, ein Hinausverlegen des Innern in ein zwar menschenähnliches, aber seinem inneren Wesen nach verschiedenartiges Gebilde. Es ist ein der Seele, und was herauskommt, ist nicht etwa ein . Wie es dem Gesetz des Baumes entspricht, das Innere hinauszuverlegen, so folgt die Seele des Menschen dem Gesetz des Baumes» (Koch 1949, S. 10). «Der Baumtest gehört in die Reihe der Projektionstests» (Koch 1949, S. 9). Der Zeichner projiziert seine Seele in den Baum, obwohl auch dem Testautor nicht so ganz klar ist, «mit welcher seelischen Schicht die (Testperson; G. R.) auf die Aufgabe reagiert, einmal ist die Oberfläche, einmal die Tiefe angesprochen» (Koch 1949, S. 8). Trotz dieser Unklarheit soll der Test das psychische Entwicklungsniveau normaler und debiler Kinder, emotionale Störungen, neurotische Fehlentwicklungen usw. erkennen lassen ; selbst «Betrüger» und «Lügner» entlarven sich im BaumTest, «die Baumzeichnung des ist zum Röntgenbild des Scheins geworden» (Koch 1957, S. 104). So öffnen sich Persönlichkeit und Seele nach Ansicht von Koch dem Interpreten, wenn auch das BaumMaterial «nicht etwa zu einer vollen Charakteranalyse» reicht (Koch 1949, S. 7). Testmaterial ist naturgemäß nicht nötig. Probandin/Proband erhält ein weißes Blatt (Format DIN A 4), einen Bleistift und ein Radiergummi; dann wird er aufgefordert, einen Baum zu zeichnen, aber keinen Tannenoder Fichtenbaum. Kindern wird die Instruktion gegeben: «Zeichne einen Apfelbaum». Es gibt keine Zeitbegrenzung. Ist der Testleiter mit dem Ergebnis unzufrieden, wird um Wiederholung gebeten mit dem Hinweis, einen ganz anderen Baum zu zeichnen. Der Baum-Test kann auch als Gruppentest durchgeführt werden.
Zeichnerische und Gestaltungsverfahren
541
Wichtigster Auswertungsfaktor ist die Erfahrung des Interpreten, dessen Eindruck vom Baum im Vergleich mit vielen anderen Bäumen von vielen anderen Probanden eine Gewähr für ein richtiges und treffendes Urteil liefere. Reicht das nicht, kann die «Baumsymbolik» herangezogen werden: «Links» und «Rechts», «Unten» und «Oben» des Baumes, in dem der Test gezeichnet worden ist, werden als Ausdruck bestimmter Eigenschaften und/oder Entwicklungstendenzen der Persönlichkeit betrachtet. Eine weitere Auswertungsebene ist die «Baumsymbolik», nach der Krone und Äste, Stamm und Wurzel, Blätter, Blüten und Laub usw. nach den verschiedensten Kriterien interpretiert werden. Eine letzte Auswertungsebene ist die «Graphologie»; bestimmte Merkmale graphologischer Deutungen werden auf den Baum-Test übertragen. Für den ungeübten Anwender enthalten die Koch-Bücher (im wahrsten Sinne!) eine ungezählte Fülle von Interpretationsbeispielen und -hinweisen. Im übrigen hat Koch Häufigkeitstabellen für verschiedene Interpretationsmerkmale, aber auch für einige Gruppen «Auffälliger» oder «Abweichender» erstellt, die eine grobe Richtschnur für quantitative Kontrolle der Interpretation sein sollen. 3. Gültigkeit Der Baum-Test hat keine Gültigkeit im strengen testtheoretischen Sinn. Validitätsversuch ist der sog. «Wittgensteinindex», der die Beziehung zwischen der Höhe einer Linie, die den Baum durchtrennt, und Entwicklungsdaten oder -ereignisse «indiziert», d.h. Vermutungen über ihn anstellt. Es ist versucht worden, Korrelationen zwischen der «Gesamtinterpretation» des Baum-Tests und klinischen Befunden (Städel 1955) bzw. zwischen Rorschachtest und Baumtest (Tolor 1957) zu errechnen. Schließlich ist der Zusammenhang zwischen differentialdiagnostischen Kategorien (Schizophrenie; Hertrich 1954); konstitutioneller Reifeentwicklung (Schröder 1956) und Baum-Test untersucht worden. Festzuhalten bleibt: Der Test hat keine Validität im psychometrischen Sinn. 4. Zuverlässigkeit, Interpretation und Aussagewert Zuverlässigkeitsdaten liegen nicht vor, auch keine näheren Erläuterungen dazu vom Testautor. Zur Interpretation lassen sich deskriptiv-statistische Daten heranziehen, die hinsichtlich bestimmter Merkmale wie «Stammhöhe/Kronenhöhe»,«Kronenbreite» usw. Verhältnis(Prozent-)zahlen verschiedener Per-
542
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
sonengruppen angeben: debile Hilfsschüler und Imbezille zu normalen Kindern, angelernte Arbeiter und kaufmännische Angestellte zu KinderAltersgruppen, «Neger» zu Kindern usw. Es gibt aber weder verbindliche Hinweise auf die in bestimmten Merkmalsausprägungen sichtbar werdenden «Gesetzmäßigkeiten» noch auf gesicherte Interpretationsmuster der von Koch gelieferten Prozentzahlen. Der Aussagewert richtet sich allein nach der klinischen Erfahrung des Anwenders bzw. nach seiner «Intuition». 5. Normen Koch stellt Häufigkeitstabellen zusammen hinsichtlich bestimmter Auswertungskriterien und Personengruppen (s. unter «Zuverlässigkeit»), die vage Vergleiche ermöglichen. Normtabellen im strengen Sinn gibt es nicht. 6. Allgemeine Kritik Mehr noch als andere «projektive Verfahren» läßt der Baum-Test dem Anwender bzw. Interpreten nahezu unbegrenzten Spielraum. Kontrolle, Überprüfbarkeit und Vergleichbarkeit von Ergebnissen und Schlußfolgerungen sind nicht gewährleistet. Die theoretischen Grundlagen sind interessant und lehrreich, aber mehr aus kulturgeschichtlichen als psychologischen Gründen. Sie sind unverbindlich; über den Zusammenhang zwischen dem gezeichneten Baum und psychischen Zuständen oder Prozessen gibt es so viele Auffassungen wie Anwender. Das Urteil des Interpreten ist in der Regel ein kunstvolles Gebäude aus begrifflichen Bausteinen, deren Undefinierter und beliebig interpretierbarer Inhalt der Phantasie der Psychologin alle Möglichkeiten, dem Getesteten aber eher beängstigende Perspektiven eröffnet. «Während die Linksbetonung... interpretiert werden kann als: Introversion, Unehrlichkeit, Eigenbezüglichkeit, Sammlung, Beschaulichkeit, Ablehnung, Zurückhaltung, Vorsicht, Grübelei, Selbstbespiegelung usw., so läßt sich die Rechtsbetonung» interpretieren als «sich breit machen, selbstbewußt sein, Geltungwille, Extraversion in der Phantasie, halb und ganz träumerisches Schweigen, Flüchtigkeit, Mangel an Konzentration, Erlebnisdrang» (Koch 1949, S. 13). Mit diesem Jargon herablassender Demütigung wird nicht beschrieben, mit ihm werden Urteile gesprochen, die weder recht noch billig, weder begründet noch überprüfbar sind. Der Baum-Test wird überraschend oft angewendet. Immerhin sind seit seiner Erstveröffentlichung Ende der vierziger Jahre bis heute bereits acht Auflagen erschienen. Da dieses zeichnerische Gestaltungsverfahren noch mehr als andere nach psychometrischen Regeln konstruierte Tests
543
Zeichnerische und Gestaltungsverfahren
der Willkür und Beliebigkeit Tür und Tor öffnet, ist hier besondere Aufmerksamkeit angebracht. Gerade deshalb muß auf fahrlässige Äußerungen wie die folgenden hingewiesen werden: «Die Tatsache, daß definierbare Merkmale der Baumzeichnung gewisse entwicklungsbedingte Gesetzlichkeiten erkennen lassen, kann als Ausweis der Gültigkeit des Baumtests zur Erfassung der kindlichen Entwicklung und ihrer Störungen beurteilt werden» (Hiltmann 1977, S. 210). Es gibt weder für dieVoraussetzungen noch für die Auswertungskategorien, noch für die Interpretationsmuster des Baum-Tests gültige Grundlagen. Literatur Hertrich, O. H.: Der Baumtest am Schizophrenen (Dissertation). Tübingen 1954 Hiltmann, H.: Kompendium der psychodiagnostischen Tests (3. Aufl.). Bern 1977 Koch, K.: Der Baum-Test (1. Aufl. 1949); (8. Aufl.). Bern 1988 Schröder, R.: Über den Zusammenhang zwischen der konstitutionellen Reifeentwicklung in der Pubertät und der graphischen Gestaltung im Baum-Test (Dissertation). Tübingen 1956 Städel, B.: Der Baumtest nach Koch als Hilfsmittel bei der medizinisch-psychologischen Pilotenselektion und ähnlicher Verfahren (Dissertation). Zürich 1954 Tolor, A.: The stability of tree drawings as related to several Rorschach signis of rigidity. Journal of Clinical Psychology, 13 (1957), S. 162-164
Günter Rexilius
3.2 Testname: Familie in Tieren Autor: L. Brem-Gräser München: Reinhardt 1970 (2. Aufl.), 1980 (4. Aufl.) 1. Testart: Projektives, zeichnerisches Gestaltungsverfahren 2. Allgemeines Grundkonzept Das Verfahren «Familie in Tieren» ist für die Schul- und Erziehungsberatung vorgesehen. Dem Kind wird die Aufgabe gestellt, sich seine Familie als Tierfamilie vorzustellen und sämtliche Familienmitglieder einschließlich der eigenen Person als Tiere zu zeichnen. Zusätzlich soll das Kind die Reihenfolge der Zeichnungen, die Tiernamen und den Namen des jeweils zugeordneten Familienmitglieds auf dem Büd festhalten. Die Instruktion kann je nach Alter des Kindes modifiziert werden. Die Autorin glaubt, daß «das unmittelbar seelische Erleben... ablesbar an den Zeichnungen» ist (S. 27), daß das Kind eigene Erlebnisse und Affekte in die Zeichnungen projiziert, die dem Diagnostiker Rück-
644
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
schlüsse auf die Persönlichkeit des Kindes und auf das Erleben der familiären Situation erlauben. Unter recht lockerem Rückgriff auf geistesgeschichtliche und anthropologische Quellen versucht die Autorin zu belegen, daß die Darstellung von Tieren aufgrund des engen Verhältnisses zwischen Mensch und Tier und aufgrund der vielschichtigen Tiersymbolik geeignet sei, kindliches Erleben zum Ausdruck kommen zu lassen. Die Auswertung der Zeichnungen berücksichtigt formale und inhaltliche Gesichtspunkte: a) formale Aspekte (graphologisch: Strichcharakter, Strichführung usw.), b) Reihenfolge der Tiere, c) gleiche/ungleiche Tiere, d) Gruppierungen (stereotype Reihung, zentrifugale Anordnung usw.), e) Größenverhältnis, f) Ausdrucksgebaren der Tiere, g) Charakter der Tiere, h) Gesamtbetrachtung bezüglich der kindlichen Problematik. 3. Gültigkeit Das Verfahren soll vom 4./5. Lebensjahr bis zum 14./15. Lebensjahr anwendbar sein. In den zeichnerischen Darstellungen sollen insbesondere kindliche Erlebnisverarbeitungen folgender familiärer Themenbereiche zum Ausdruck kommen: Geborgenheitsproblematik, Kontaktproblematik (Mittelpunktkind, nichtbeachtetes Kind), Machtproblematik. Die Autorin berichtet, daß mit 800 von einer Beratungsstelle untersuchten Kindern (ohne Altersangabe) das Verfahren durchgeführt worden sei (allerdings werden davon nur 683 Zeichnungen als gelungen im Sinne der Testaufgabe bezeichnet). Von 372 Zeichnungen, in denen eine der drei famüiären Grundthematiken hervortrat, wiesen 301 eine Übereinstimmung zwischen psychologischem Gutachten und Testergebnis auf (keine Angaben über empirische Vorgehensweise und statistische Überprüfung bei diesen Ergebnissen). Die psychologische Bedeutung der Testbefunde versucht die Autorin anhand von Fallbeispielen (Zeichnungen, Interpretation, anderweitige Explorationsbefunde) zu unterstreichen. Zur Illustration Fallbesprechung XI (vgl. S. 108 f.): - Beratungsgrund, Problematik: W., 12 J., Einzelkind, als Kleinkind «sehr zart», «tyrannisiert Eltern u. Großeltern durch maßlose Ansprüche», mangelnde Anstrengungsbereitschaft und Schulleistungen, Vater Arzt, Mutter Arzthelferin, beide haben wenig Zeit für W., jedoch «abgöttische Liebe» zu W. - Zeichnung: Vater als Pferd, dahinter Mutter als Tiger, W. als Adler über beiden «schwebend». - Interpretation der Autorin (zusammengefaßt): schwebender Adler zeigt gewisse Domination an, jedoch «kompensatorische Erhöhung» von W. (tonige Strichführung, gesenkte Kopfhaltung des «Adlers»);
Zeichnerische und Gestaltungsverfahren
545
«Spannung zwischen Unabhängigseinwollen und Abhängigseinmüssen»; anscheinend keine tatsächliche Überlegenheit von W. Das Beispiel zeigt, wenngleich hier etwas unanschaulich, wie über intuitive, mehr oder weniger nachvollziehbare Analogieschlüsse Zeichnungen aus «Familie in Tieren» mit psychologischer Bedeutung vollgeladen werden; die Interpretation der Zeichnung scheint zudem auf die übrigen Explorationsdaten inhaltlich abgestimmt worden zu sein. 4. Zuverlässigkeit, Interpretation und Aussagewert Hierzu liegen keine Angaben vor. 5. Normen Anhand von 2000 Kinderzeichnungen gibt die Autorin einen Überblick, welche Tiere am häufigsten gezeichnet werden, welche Tiere am häufigsten bestimmten Familienmitgliedern zugeordnet werden und welche Eigenschaften (positiv/negativ) den verschiedenen Tieren zugeordnet werden. Altersspezifische Unterschiede oder sonstige Unterschiede werden bei diesen Daten nicht mitgeteilt; eine ausdrückliche Relativierung der Testinterpretation aufgrund dieser mitgeteilten Häufigkeitsdaten wird nicht vorgeschlagen (keine explizite Normierung). 6. Allgemeine Kritik Das Verfahren entspricht in vielerlei Hinsicht nicht den üblichen Anforderungen und Kriterien psychologischer Tests (halbwegs standardisiert ist lediglich die Instruktion und das Thema der Zeichnungen; Angaben zu den Testgütekriterien liegen nicht vor). Die psychologischen Interpretationsvorschläge orientieren sich an vagen Analogieschlüssen; d.h., Analogien werden zwischen der Form der Zeichnung (Reihenfolge, Strichführung, Raumlage der Tiere usw.), «Eigenschaften» der Tiere einerseits und davon herrührenden psychologischen Anmutungen andererseits hergestellt. Die empirische Absicherung der Interpretationen ist unzureichend: Testbefunde werden mit Befunden aus anderen Informationsquellen vermischt (s. Beispiel); die von der Autorin mitgeteilten Ergebnisse aus der Beratungspraxis werden weder problematisiert (obwohl von 800 Zeichnungen mehr als ein Siebtel unzulänglich war, nur knapp die Hälfte auf eine der drei zentralen Thematiken hinwies) noch einigermaßen stichhaltig auf ihre Gültigkeit überprüft. Inwieweit «Familie in Tieren» eine wichtige Ergänzung eines Explorationsgesprächs sein kann, ist vor diesem Hintergrund fraglich. Zweifellos besitzt das Verfahren eine gewisse Attraktivität für jüngere Kinder, nicht zuletzt wohl auch für interpretationsfreudige Diagnostiker. Zweifellos transportieren Zeichnungen, wie alle menschlichen Äußerungen,
546
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
psychologische Informationen; man wird jedoch kaum aufgrund der kindlichen Zeichnungen zuverlässige Aufklärung darüber erwarten können, ob diese Informationen besondere Interessen, aktuelle Wahrnehmungen, Befürchtungen, Wünsche oder «tieferliegende Dispositionen» signalisieren oder auch nur Ausdruck sozialer (individuell gebrochener) Stereotype sind. Unter Umständen erlaubt der «Test» hypothetische Hinweise zur Steuerung des weiteren Explorationsverlaufs; möglicherweise taugt aber das Verfahren weit weniger zur Gewinnung zentraler psychologischer Hypothesen als zur Befriedigung voyeuristischer Tendenzen des Diagnostikers (wogegen sich die Autorin mit Hinweis auf das Berufsethos ausdrücklich verwahren zu müssen glaubt; vgl. S. 15). Paul Walter 3.3. Testname: Seenot est Autorin: G. von Staabs Stuttgart: Hirzel 1951 (2. Aufl.), 1964 (3. Aufl.) 1. Testart: Projektives Gestaltungsverfahren 2. Allgemeines Grundkonzept Der Scenotest ist eigentlich kein Test, sondern ein «Szenarium», auch wenn v. Staabs meint, «daß es sich hier, wie die weiteren Darlegungen zeigen, um einen Test handelt, weil dieser ein experimentelles Werkzeug darstellt, um für praktische Zwecke auf kurzem Wege zu einem Urteil zu gelangen, das für wissenschaftliche Zwecke sonst längerer und weiterer Umwege bedürfte» (S. 15). «Szenarium» meint, daß es sich um ein Verfahren handelt, in dem der Proband unter Verwendung vorgegebener Figuren und Gegenstände in handlicher Form Szenen nach eigenem Interesse, Bedürfnis, Gutdünken darstellen soll. Das Ziel besteht darin, «die nicht selten vom Patienten oder den Angehörigen mehr oder weniger subjektiv gefärbte Vorgeschichte zu erhellen, also die Tatbestandsdiagnostik zu erweitern, als auch zweitens zu ermitteln, wie der Patient bewußt und unbewußt seine Umgebung erlebt und innerlich zu ihr Stellung nimmt, um dadurch die Persönlichkeitsdiagnostik (Hervorhbg. im Orig.) zu vertiefen» (S. 10). Das Spielmaterial (erhältlich im Huber-Verlag) besteht aus 16 biegsamen Puppen (acht Erwachsene, acht Kinder), die alle unterschiedliches Aussehen haben und ganz verschiedene «Rollen» spielen können; dazu kommen Bausteine, Bäume, Blumen, Fahrzeuge, Tiere, alltägliche Gebrauchsgegenstände. Die Figuren sollen durch ihre «Beweglichkeit in al-
Zeichnerische und Gestaltungsverfahren
547
len Gelenken das Kind besonders anregen, wechselseitige Beziehungen, Stimmungen und Affekte der einzelnen Personen durch Gebärde und Haltung in szenischen Darstellungen zum Ausdruck zu bringen. Dadurch wird die Versuchsperson gedrängt, ganz speziell ihre Affekte und Konflikte gegenüber Personen ihrer nächsten Umgebung im Spiel zu erleben und sich mit ihnen auseinanderzusetzen» (S. 13). Weil die Personen in der Regel «Szenen» ihrer eigenen Problematik oder aktuelle Konfliktsituationen spielen, heißt der Test «Scenotest». Der Test wird als Einzeltest von drei Jahren an aufwärts, auch mit Erwachsenen^ angewendet. Er wird nicht nur diagnostisch appliziert, sondern auch zu therapeutischen Zwecken verwendet, im Verlauf einer Therapie zur Darstellung, zur Reflexion des Behandlungsverlaufs oder zum «kathartischen Abreagieren» (etwa Ausleben, inneres Bereinigen). 3. Gültigkeit Über die Gültigkeit liegen keine Angaben vor. Knehr (1982) berichtet über ihre Bemühungen, die Testergebnisse intern anhand ihrer zurückliegenden Erfahrungen zu verifizieren (S. 11 und S. 87ff.). Was freilich die Testergebnisse im psychometrischen Sinne nicht überzeugender werden läßt. 4. Zuverlässigkeit, Interpretation und Aussagewert Zur Zuverlässigkeit gibt es keine Informationen. Der Test soll Aussagen ermöglichen über das Erleben und seine Verarbeitung, über die Beziehungen des Probanden zu seiner Umwelt, soweit sie mit den Testmaterialien darstellbar ist. Nach Staabs spielen sich beim Scenotest die Affekte im Rahmen einer Miniaturwelt ab. «Die Bedeutung liegt darin, daß hier am Spiel der häuslichen Umwelt - die durch Beziehungspersonen und Umgebung dargestellt werden kann - die Äußerungshemmungen der Menschen unmerklich überwunden werden und die innerseelischen Schwierigkeiten frei Gestalt gewinnen. Unwillkürlich bewirkt dabei das Spiel mit Puppenfiguren stärkere Distanzierung vom eigenen Erleben. Durch seine vielseitigen Ausdrucksmöglichkeiten vermag das Zusatzmaterial jegliche Handlung und Szenerie anzudeuten und unwillkürlich auch Aussagen über die Wesensart zu machen, die für die einzelnen auftretenden Figuren charakteristisch sein soll» (S. 15). Durch Beobachtung und Festhalten der Szene (Zeichnung, Fotografie) wird das Spiel interpretierbar. Zusätzliche Interpretationshilfen liefert die anschließende Frage an den Probanden oder die Klientin, was er dargestellt habe. Diese Informationen, Anamnesedaten und Kenntnisse aus dem Therapieverlauf bilden den Hintergrund der Interpretation. Anhand kasuistischer Beispiele gibt Staabs zusätzliche Interpreta-
548
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
tionshilfen. Umfangreiches Fallmaterial mit Bebilderung gibt Knehr (1982). 5. Normen Über Normen liegen keine Angaben vor. 6. Allgemeine Kritik Nach Staabs läßt sich der Scenotest in der Diagnostik, in der Forschung, in der forensischen Medizin und in der Therapie anwenden. Er erscheint als ein Mittel, das unter bestimmten Voraussetzungen eine große Hilfe für Diagnostiker und Therapeuten sein kann: 1. Über den sozialen und psychischen Hintergrund (inklusive Familie, Schule, peer-group) müssen differenzierte Kenntnisse vorliegen. 2. Die Anamnese muß umfassend und gründlich erhoben werden. 3. Die Interpretation muß mit dem Probanden gemeinsam geschehen und im Therapieverlauf überprüft werden. Unter diesen Bedingungen lassen sich mit Hilfe des Scenotests wichtige Zusammenhänge, in denen der Proband steckt, aufdecken, bestätigen, Auffassungen des Therapeuten über sie korrigieren. Da er dem Rollenspiel ähnelt und die Erlebniswelt herausfordert, sind ihm wichtige Hinweise zu entnehmen. Anzumerken ist auch, daß mit Hilfe des Scenotests Schwerhörigen, Taubstummen und Sehgestörten die Möglichkeit gegeben werden kann, ihr Erleben, Fühlen, ihr mögliches oder erwünschtes Handeln zu äußern. Allerdings scheinen auch erhebliche Einschränkungen notwendig zu sein. Staabs weist auf die Möglichkeiten des Einsatzes in der forensischen Medizin hin und berichtet über zwei Fälle, die den Einsatz eher fragwürdig erscheinen lassen - Entscheidungen lassen sich an den Scenotest nicht binden, er kann nur unter den genannten Voraussetzungen ein diagnostisches Hilfsmittel sein. Noch problematischer wird der Einsatz des Scenotests : «zur Erfassung charakterologischer Struktur». Angeblich «ergeben sich bei der Versuchsbeobachtung eine Reihe von Hinweisen auf die allgemeine Struktur der Psyche, auf das, was man häufig Wesensart nennt, auf Züge ihrer Begabung, auf bewußte Neigungen und Charaktereigentümlichkeiten». Angeblich können «Produktivität und Gestaltungsfreude, Einfallsreichtum und Phantasie, Farbenfreudigkeit, Selbständigkeit, Temperament und Gefühlsbetontheit sowie Wirklichkeitssinn» (S. 24) über den Scenotest erfaßt werden. Wer sich hütet, seine Arbeit mit dem Scenotest von derartigen Wortund Sinnungetümen freizuhalten, kann ihn zum Wohle des Probanden einsetzen, überlegt und nutzbringend.
549
Zeichnerische und Gestaltungsverfahren
Literatur Knehr, E.: Konflikt-Gestaltung im Scenotest. München/Basel 1982
Günter Rexilius
3.4 Testname: Wartegg-Zeichentest (WZT) Autor: E. Wartegg Göttingen: Hogrefe 1953,1968 (2. Aufl.) 1. Testart: Projektives, zeichnerisches Gestaltungsverfahren 2. Allgemeines Grundkonzept Der WZT ist ein diagnostisches Verfahren zur «Graphoskopie», unter der «ein psychodiagnostisches Verfahren» zu verstehen ist, «welches die zeichnerisch testmäßige Weiterführung planmäßig variierter Reizgegebenheiten ingefügehaft überschaubarem Zusammenhang fordert und auf Grundlage experimentell kontrollierter Wechselbeziehungen der Antriebs- und Empfindungsfunktionen im optischen Felde Einblick in den Schichtenaufbau kortikaler Steuerung von reflexiblen Ausgangspositionen bis zur qualitativen Differenzierung geistiger Sinnbezüge ermöglicht» (Wartegg 1953, S. 9). Reizgegebenheiten sind acht quadratische Felder auf einem DIN-A4Bogen, die jeweils ein Anfangszeichen enthalten. Aufgabe des Probanden ist es, aus jedem Zeichen eine Figur zu zeichnen; am Schluß wird nach Sinn und Inhalt der Figuren und nach den «besten» und «schlechtesten» gefragt. Von den Anfangszeichen wird angenommen, daß sie eine «archetypische Funktion... im Sinne von C. G. Jung haben» und deshalb «als Meßkriterium entwicklungs- und strukturell-bedingter Haltungen» dienen können. Archetypen sind «als gleichsam kollektives Erfahrungsgut phylogenetisch vorgebahnt» (Wartegg 1953, S. 27) und deshalb als Grundlage für ein Meßkriterium geeignet. Aus den Zeichnungen können dann schließlich «alle jenen reflexiblen Teilreaktionen abgelesen werden, die als kortikale Faktoren der sensomotorischen Reizbewältigung den zeichnerischen Gestaltungsprozeß physiologisch unterbauen» (Wartegg 1953, S. 21) und von denen dann auf die Gesamtpersönlichkeit geschlossen werden kann. Der Test kann als Gruppen- oder Einzeltest durchgeführt werden.
550
Person I ich keits-Entfaltu ngsverfah ren (Projektive Tests)
3. Gültigkeit Für Wartegg selbst scheint das Problem der Gültigkeit nicht zu bestehen, es taucht bei ihm nicht auf. Bei Sehringer (1964) sind Arbeiten zur Itemvalidierung angeführt, denen keine überzeugenden Validitätsaussagen zu entnehmen sind. Andere Arbeiten zur Differentialdiagnose von Psychosen, Süchtigkeit und Sonderschulbedürftigkeit können kaum als Validierungsversuche gelten, weil diese Validitätskriterien vor allem durch ihre Uneindeutigkeit und eigene «Ungültigkeit» ausgezeichnet sind: Der Begriff der Psychose ist nahezu beliebig verwendbar und wird praktisch von Diagnostikerin zu Diagnostikerin verschieden interpretiert (vgl. Dörner 1975; Jervis 1978). Süchtigkeit ist ein Oberbegriff für die verschiedensten Ursachen, Verläufe und Zustände; und Sonderschulbedürftigkeit ist weder durch Tests noch durch Lehrerurteile einigermaßen definierbar, ist vielmehr ein multifaktorieller Zustand (vgl. Ferdinand & Uhr 1973; Löschenkohl 1975). Andere Tests als Validierungskriterium (MPI) sind keine bessere Lösung, weil ihre eigene Validität eher fragwürdig ist. Die Gültigkeit ist für den WZT bislang unbelegt. 4. Zuverlässigkeit, Aussagewert und Interpretation Über die Zuverlässigkeit des WZT gibt es ebenfalls keine Angaben. Ausgewertet werden die Bilder nach: Bildabfolge und Zeit; Schichtprofil; Qualitätenprofil; qualitative Dominante; qualitatives Polverhältnis; Bildgefüge; Charakterologische Projektion der Darstellungs- und Sinnakzente (Einzelheiten auch bei Brickenkamp 1975, S. 560-562). Grundlage für die Interpretation sind die Einzelauswertungen und ihre Einzelheiten: Begriffe, Kategorien, Interpretationsmuster. Da jedoch keine verbindlichen oder kommunizierbaren Regeln für die Auslegung, Deutung, Entfaltung der Begriffe und Kategorien vorliegen, werden zusätzlich Fallbeispiele als paradigmatische Interpretationshilfe herangezogen. Der Anspruch des WZT auf Anwendung ist groß: So soll er in der psychiatrischen Diagnostik, bei der Sonderschulauslese, in der Erziehungsberatung, bei der Auslese zur höheren Schule, in der Berufsberatung, in der Charakterologie, in der Neurosenanamnese, in der forensischen Diagnostik angewendet werden (Wartegg 1953, S. 39-52). Gründe, warum der Test in allen diesen Bereichen anwendbar sein könnte, führt Wartegg nicht an, schon gar nicht Belege für ihren prognostischen und therapeutischen Entscheidungswert; er fügt lediglich einige lockere Assoziationen über mögliche Zusammenhänge zwischen möglichen Notwendigkeiten und Zielen in den jeweiligen Aufgabengebieten, möglichen psychischen Voraussetzungen und möglichen Details in den Zeichnungen im WZT aneinander. Im Zusammenhang mit Erziehungs-
Zeichnerische und Gestaltungsverfahren
551
beratung heißt es etwa: «Es ist - bei weitgehender Berücksichtigung der von der Normalreihe abweichenden Original-Minus-Lösungen - im einzelnen festzustellen, ob Zeichen 1 durch diffuse Verlagerung der Mittelpunkte Störungen der Selbstsicherheit oder Zeichen 2 in Einengung oder Verfestigung der Wellenlinie Kontakthemmungen hervorkehrt» (Wartegg 1953, S. 41) usw. usf. Weitere Angaben darüber, weshalb sich etwa «Kontakthemmung» «in Einengung oder Verfestigung der Wellenlinie» äußert, fehlen, wie für jeden anderen Interpretationshinweis, jede andere Kategorie auch. 5. Normen Wartegg teilt eine «autogenetische Grundreihe» mit, in der für drei- bis sechsjährige Kinder die gesetzmäßige Entwicklung der zeichnerischen Fertigkeiten erfaßt wird als «stufenweise Reizbewältigung und die allmähliche Einbettung sensomotörischer Reflexe in optische Sinnbezüge» (Wartegg 1953, S. 18). Darüber hinaus gibt es eine «Normalreihe», «eine Zusammenstellung jener Sinnmotive, die unter 100 Lösungen durchschnittlich mehr als einmal vorkommen» (Wartegg 1953, S. 18). Woher diese Tabellen kommen, wie sie entstanden sind, an wie vielen Probanden sie erhoben wurden, wie der Bezug der einzelnen Zeichnung der einzelnen Probandin auf sie zu interpretieren ist, bleibt ungeklärt. Es handelt sich um die Zusammenstellung von Zeichnungen und Begriffen, deren enger Zusammenhang mit Test und Interpretation unerfindlich bleibt. 6. Allgemeine Kritik Die theoretische Grundlage, von der Wartegg ausgeht, ist eine unter Dutzenden von Persönlichkeitstheorien. Er deutet «den graphischen Ausdruck vor dem Hintergrund eines erklärtermaßen zuerst entworfenen Persönlichkeitsmodells. Dabei wird in jedem Fall die Fülle der beobachteten graphischen Merkmale und der zugeordneten Persönlichkeitsbezüge experimentell nicht mehr faßbar» (Sehringer 1971, S.708). Die Theorie, die Wartegg über die Persönlichkeit entwickelt, ist einerseits ein eklektisches, unverständliches und unbegründetes Kauderwelsch aus psychoanalytischen, psychiatrischen, behavioristischen und reflexologischen (Pawlow) Segmenten, andererseits ein bunt schillerndes Mosaik aus unzähligen Eigenschaften, Charakterzügen, individuellen Eigenarten, über deren Zusammenhang, Bedeutung, Sinn und Ausdruck im Verhalten nichts Näheres bekannt ist. Sie sind damit nicht nur als solche, sondern auch in ihrer Interpretation beliebig. Ideologisch bedenklich wird es, wenn von Berufsberatung und «Arbeitscharakteren» gesprochen wird. Da gibt es neben den «Einfühlend-
552
PersonIich keits-Entfaltu ngsverfah ren (Projektive Tests)
Besinnlichen» für das «weiche, organische Material» die «GefühlsbewegtFindigen» für «reizbetont wechselvolle Tätigkeit mit Geltungsanspruch», neben den «Gefühlswarm-Lebensnahen» für «weiches und halbhartes Material» die «Praktisch-Wendigen» für «Freiluft, Reise oder Betriebsgruppenarbeit am beweglichen Material», neben den «Tatkräftig-Zielstrebigen» für «hartes Material und selbständigen Arbeitsplatz» die «Triebkräftig Zähen», die in «naturverbundener Freiluftarbeit vital-instinktiv verwurzelt sind» (Wartegg 1953, S. 42f.). Und in der Charakterologie soll in «eindeutig polarer Anordnung das letztlich biologisch fundierte Wechselspiel von Antrieb und Empfindung unter dem Aspekt personaler Strukturiertheit» herausgearbeitet werden. Die Testinterpretation bleibt schließlich willkürlich bei derart weiten, metaphysischen und undefinierbaren Interpretationsgrundlagen. Es gibt keine auch nur annähernd verläßliche, sinnvolle und nachprüfbare Sicherheit für irgendwelche Aussagen auf der Grundlage des WZT. Der beabsichtigte Einsatz dieses Testverfahrens bei der Offiziersauslese im «Dritten Reich» wurde bald fallengelassen (Geuter 1984).
Literatur Brickenkamp, R.: Handbuch psychologischer und pädagogischer Tests. Göttingen 1975 Dörner, K.: Diagnosen in der Psychiatrie. Frankfurt a. M. 1975 Ferdinand, W., & Uhr, R.: Sind Arbeiterkinder dümmer - oder letztlich nur