120 107 140MB
German Pages 180 [175] Year 2012
Basiswissen Psychologie Herausgegeben von J. Kriz, Osnabrück
Die Lehrbuchreihe im VS Verlag: Das Basiswissen ist konzipiert für Studierende und Lehrende der Psychologie und angrenzender Disziplinen, die Wesentliches in kompakter, übersichtlicher Form erfassen wollen. Eine ideale Vorbereitung für Vorlesungen, Seminare und Prüfungen: Die Bücher bieten Studierenden in aller Kürze einen fundierten Überblick über die wichtigsten Ansätze und Fakten. Sie wecken so Lust am Weiterdenken und Weiterlesen. Neue Freiräume in der Lehre: Das Basiswissen bietet eine flexible Arbeitsgrundlage. Damit wird Raum geschaffen für individuelle Vertiefungen, Diskussion aktueller Forschung und Praxistransfer.
Herausgegeben von Prof. Dr. Jürgen Kriz Universität Osnabrück
Wissenschaftlicher Beirat: Prof. Dr. Markus Bühner Ludwig-Maximilians-Universität München
Prof. Dr. Jochen Müsseler Rheinisch-Westfälische Technische Hochschule Aachen
Prof. Dr. Thomas Goschke Technische Universität Dresden
Prof. Dr. Astrid Schütz Otto-Friedrich-Universität Bamberg
Prof. Dr. Arnold Lohaus Universität Bielefeld
Matthias Ziegler • Markus Bühner
Grundlagen der Psychologischen Diagnostik
Prof. Dr. Matthias Ziegler Humboldt-Universität zu Berlin, Deutschland
Prof. Dr. Markus Bühner Ludwig-Maximilians-Universität München, Deutschland
ISBN 978-3-531-16710-7 DOI 10.1007/978-3-531-93423-5
ISBN 978-3-531-93423-5 (eBook)
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Springer VS © VS Verlag für Sozialwissenschaften | Springer Fachmedien Wiesbaden 2012 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: KünkelLopka GmbH, Heidelberg Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Springer VS ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.springer-vs.de
Inhalt
Vorwort
......................................................
9
1 Der diagnostische Prozess .................................. 1.1 Definition Psychologische Diagnostik . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Der diagnostische Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Planungsphase ........................................ 1.2.2Durchführungsphase .................................. 1.2.3 Integrationsphase .............. ..... ..... ..... ..... ... 1.2.4 Investigatorische vs. Terminale Entscheidung ............. 1.2.5 Diagnostische Entscheidungsfehler ............ • . . . . . . . . . 1.2.6 Berichterstattung ...................................... 1.3 Die DIN 33430 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Fallbeispiel ................................................
11
2 Auftragsklärung und Formulieren Psychologischer Fragen 2.1 Auftragsklärung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Wer steht im Fokus der Frage? . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Was ist die Konsequenz der Diagnose? ................... 2.1.3 Welche zeitliche Stabilität soll die Diagnose haben? 2.1.4 Ist die Frage ethisch vertretbar? . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Ist die Frage prinzipiell beantwortbar? .. . . . . . . . . . . . . . . . . . 2.1.6 Verfüge ich als Aufragnehmer über ausreichende fachliche Kompetenz? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.7 Das Gespräch mit dem Auftraggeber . . . . . . . . . . . . . . . . . . . . 2.2 Ableiten spezifischer psychologischer Fragen (Hypothesen) 2.2.1 Verhaltensgleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Knowledge, Skills, Abilities und Personality (KSAs + P) 2.2.3 Klinische Klassifikationssysteme ........................ 2.2.4 Allgemeine Hinweise zur Hypothesenformulierung ....... 2.3 Fallbeispiel ................................................ 2.3.1 Knowledge (Wissen) . . . . . . . . . . . . . . .. . .. . . . . . . . . . . . . . . . . 2.3.2 Skills (Fertigkeiten) .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. . 2.3.3 Abilities (Fähigkeiten) .. .. .. .. .. .. .. .. .. .. .. .. . .. .. . .. . 2.3.4 Persönlichkeit .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . .. .
11
15 15 20 21 22 24 24 25 26 29 29 30 32 37 37 38 38 39 39 41
46
4B
49 52 53 55 55 56
6
Inhalt
3 Entscheidungsregeln und Operationalisierung .............. . 3.1 Entscheidungsregeln ...................................... . 3.1.1 Kompensatorische Regel .............................. . 3.1.2 Oder-Regel .......................................... . 3.1.3 Konjunktive Regel .................................... . 3.1.4 Mischformen ........................................ . 3.2 Entscheidungsregeln im diagnostischen Prozess .............. . 3.2.1 Fall 1 ............................................... . 3.2.2 Falb ............................................... . 3.2.3 Fall 3 ............................................... . 3.2.4 Fall 4 ............................................... . 3.2.5 Fall 5 ............................................... . 3.3 Die Auswahl geeigneter Methoden (Operationalisieren der Fragestellungen) ..................... . 3.3.1 Arten psychologisch-diagnostischer Verfahren .......... . 3.3.2 Gütekriterien psychologisch-diagnostischer Verfahren .... . 3.4 Fallbeispiel ............................................... . 3.4.1 Wissen .............................................. . 3.4.2 Fertigkeiten ......................................... . 3.4.3 Fähigkeiten .......................................... . 3.4.4 Persönlichkeit ....................................... .
59 59 59 61 62
64 65
66 66
&J &J
68
4 Erstellen eines Untersuchungsplans ........................ . 4.1 Ein- und mehrstufige Untersuchungspläne ................... . 4.1.1 Einstufige Untersuchungspläne ........•......•..•...... 4.1.2 Mehrstufige Untersuchungspläne ...................... . 4.1.3 Integrierende Betrachtung ............................. . 4.2 Allgemeine Hinweise zur Untersuchungsplanung ....•..•...... 4.2.1 Zeitliche Anordnung ................................. . 4.2.2 Formalia ............................................ . 4.2.3 Vorbereiten von Testleitem und Protokollanten 4.2.4 Vorbereitung des Untersuchungsleiters ................. . 4.3 Fallbeispiel ............................................... .
105 1°5 106 108
5 Ergebnisintegration und Güte von Entscheidungen .......... . 5.1 Integration der Ergebnisse ................................. . 5.1.1 Klinische vs. statistische Urteilsbildung ........•..•...... 5.1.2 Messfehlerkritische Absicherung ....................... . 5.1.3 Profilauswertung ..................................... .
123
111 116 116 117 117 118 119
123
124 129 140
Inhalt
7
5.1.4 Integration von Informationen aus unterschiedlichen Methoden 5.1.5 Umgang mit Diskrepanzen .. . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.2 Güte von Entscheidungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Sensitivität und Spezifität .. .. .. . .. .. . .. .. . .. .. . .. .. . ... 5.3 Fallbeispiel ................................................ 5.3.1 Berechnung KI ....................................... 5.3.2 Zwischengutachten .................................... 5.3.3 Diagnostische Entscheidung ............................
142 145 146 149 149 150 157
6 Das Psychologische Gutachten .............................. 6.1 Das Psychologische Gutachten - Eine Definition . . . . . . . . . . . . . . . 6.2 Der Aufbau eines Gutachtens ....................... . .. . . . . . . 6.2.1 Titelseite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Untersuchungsaniass .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.3 Fragestellung und Hypothesen ....... . .. . . . . . .. . .. . . . . . . 6.2.4 Untersuchungsmethoden ............................... 6.2.5 Ergebnisse ........................................... 6.2.6 Befund ...................................... . .. .. . .. . 6.2.7 Stellungnahme ........................................ 6.3 Häufige Fehler und Möglichkeiten zur Vermeidung . . . . . . . . . . . .
159 160 161 161 162 162 163 164 165 165 167
Literatur
169
Stichworte
......................................................
175
Vorwort
Zu Beginn des Psychologiestudiums haben viele die Vorstellung, durch die im Studium vermittelten Inhalte in die Lage versetzt zu werden, die Handlungen anderer Menschen komplett verstehen zu können. Schnell stellt sich dann bei einigen Ernüchterung ein, wenn sie, in den ersten Monaten mit Statistik und anderen Grundlagenfächern beschäftigt, dieses Ziel nur noch weit entfernt sehen. Das Fach Psychologische Diagnostik klingt dann meist wie der Heilsbringer, ja, die ultimative Veranstaltung, um endlich in die Lage versetzt zu werden, andere Menschen und deren Handlungen zu verstehen oder gar vorherzusagen. In den eigentlichen Lehrveranstaltungen kann es dann dennoch schnell passieren, dass einem die Lust am Fach vergeht. Noch mehr Methodik, graue Theorie und viel geduldiges Papier scheinen das leuchtende Ziel zu verstellen. Dieses Buch will sich natürlich nicht in diese Reihe der Hindernisse einordnen. Dennoch ist es mit Sicherheit nicht der gewiinschte Heilsbringer. Stattdessen versuchen wir in diesem Buch, den diagnostischen Prozess mit allen Stufen möglichst konkret darzustellen. In diesem Sinne kann das Buch schon als hilfreiche Anleitung für später verstanden werden. Dennoch können wir nicht auf die wissenschaftliche Präzision und gerade methodische Exaktheit verzichten. In der Praxis existieren bereits genügend schlecht geplante und noch schlechter umgesetzte diagnostische Prozesse. Ein Schwerpunkt des Buches liegt auf der Eignungsdiagnostik. Dies mag einige Leser abschrecken, wollen sie doch gute Therapeuten werden. Diese Einschätzung wäre aber zu kurz gedacht. Der diagnostische Prozess, so wie er hier an einem praxisnahen, eignungsdiagnostischen Beispiel dargestellt wird, ist ein Prozessmodell, dass sich so auch auf andere psychologisch-diagnostische Kontexte anwenden lässt. An den Stellen, an denen aus klinisch-psychologisch oder pädagogisch-psychologischer Sicht andere Vorgehensweisen oder Schwerpunkte empfehlenswert sind, weisen wir darauf hin. Natürlich möchten wir an dieser Stelle auch unseren Dank an all diejenigen richten, die dieses Buch unterstützt haben: Doreen Bensch, Dr. Erik Danay, Johanna Eisenhofer, Dr. Moritz Heene, Tom Landes, Ulrike Maaß, Anja Scheuer und Franziska Schölmerich. Besonderer Dank gilt unseren Partnerinnen für das wieder einmal gezeigte Verständnis und die Geduld mit uns.
10
Vorwort
Nun soll der Vorrede genug Raum eingeräumt sein. Wir wünschen dem Leser viel Freude und vor allem viel Erkenntnisgewinn mit diesem Buch. Sollten Sie bei der Lektüre auf Unstimmigkeiten oder Fehler stoßen, zögern Sie bitte nicht, uns zu kontaktieren. Nur durch einen guten Feedbackprozess ist eine leserorientierte Optimierung möglich. Matthias Ziegler und Markus Bühner Berlin und München, im Februar 2012
Der diagnostische Prozess
In diesem Kapitel soll zunächst eine Definition für die Psychologische Diagnostik erarbeitet werden. Im Anschluss führen wir das Modell des psychologisch-diagnostischen Prozesses ein, welches die Grundlage für die folgenden Kapitel darstellt. Danach stellen wir ein Beispiel vor, das wir nutzen, um die Inhalte der Kapitel praktisch zu veranschaulichen.
1.1
Definition Psychologische Diagnostik
Kenntnisse in Psychologischer Diagnostik werden bei Psychologen als Basiskompetenz vorausgesetzt (Jimenez & Raab, 1999). Tatsächlich lässt sich die praktische Tätigkeit eines Psychologen' ohne fundiertes psychologischdiagnostisches Fachwissen kaum vorstellen. Hier sind einige Beispiele aus verschiedenen Bereichen praktisch psychologischer Tätigkeit aufgeführt, die dies etwas überspitzt verdeutlichen: Würden Sie ein Kind von einem Schulpsychologen untersuchen lassen, der Hoch- oder Minderbegabung aufgrund eines fünfminütigen Gesprächs attestiert? Würden Sie einem Therapeuten vertrauen, der eine kostspielige Therapie beginnt, ohne genau diagnostiziert zu haben, welche Symptome vorliegen? Würden Sie für eine Firma arbeiten wollen, deren Psychologen lediglich auf Basis eines diffusen Bauchgefühls Einstellungsentscheidungen treffen? Würden Sie einer Sportmannschaft die Dienste eines Sportpsychologen empfehlen, der ohne die Probleme im Team zu kennen, sofort für alle Spieler vertrauensbildende Maßnahmen durchführt? Sie werden jetzt sicher sagen, natürlich nicht. Selbstverständlich muss eine fundierte Diagnostik stattfinden. Aber was genau heißt es, eine fundierte Diagnostik durchzuführen? Aus den überspitzten Fragen werden mehrere Aspekte eines fundierten Vorgehens 1 Aus Gründen der Lesbarkeit verwenden wir meist die männliche Form. Damit ist in keiner Weise eine diskriminierende Absicht verbunden.
M. Ziegler, M. Bühner, Grundlagen der Psychologischen Diagnostik, DOI 10.1007/978-3-531-93423-5_1, © VS Verlag für Sozialwissenschaften | Springer Fachmedien Wiesbaden 2012
12
Der diagnostische Prozess
deutlich: (1) Es gibt eigentlich kaum einen Bereich, in dem Psychologen arbeiten, ohne dass sie diagnostisch tätig werden. (2) Psychologische Diagnostik kann nur dann sinnvoll betrieben werden, wenn eine eindeutige und prinzipiell beantwortbare Fragestellung vorliegt. (3) Psychologische Diagnostik ist zweck- oder zielorientiert bzw. anforderungsbezogen. Das heißt, diagnostische Verfahren werden in der Regel eingesetzt, um konkrete Fragestellungen gezielt zu beantworten. Ein weiterer Aspekt, der aus den Beispielfragen hervorgeht, ist (4) die Bereichsspezifität der Psychologischen Diagnostik. Je nach Feld, in dem der Psychologe tätig ist, unterscheiden sich die Phänomene und Fragestellungen, die untersucht werden. So geht es in der Klinischen Psychologie primär um Störungsbilder. In der Pädagogischen Psychologie spielen häufig Aspekte der Motivation oder der kognitiven Leistung eine Rolle. Im eignungsdiagnostischen Bereich werden neben kognitiven Fähigkeiten auch sogenannte Softskills (z. B. Teamfähigkeit) betrachtet. Im Folgenden werden wir meist die Oberbegriffe Konstrukt oder Eigenschaft verwenden, um diese unterschiedlichen Phänomene zu beschreiben. Das Wissen über diese Konstrukte erlernen Psychologen in den dazugehörigen Grundlagen- bzw. Anwendungsfächern wie Klinischer Psychologie, Pädagogischer Psychologie, Arbeits- & Organisationspsychologie, Entwicklungspsychologie, Sozialpsychologie und Persönlichkeitspsychologie. Da sich die untersuchten Konstrukte zum Teil erheblich unterscheiden, sind auch bestimmte Aspekte der Psychologischen Diagnostik in den spezifischen Feldern verschieden. Darauf werden wir an den entsprechenden Stellen hinweisen. Allerdings ist in diesem Zusammenhang auch hervorzuheben, dass sich das Wissen in den Fächern stetig vergrößert. Das bedeutet, auch nach dem Studium ist es wichtig, laufend auf dem aktuellen Stand der Forschung in seinem Bereich zu sein. Andernfalls läuft man schnell Gefahr, zwielichtigen diagnostischen Verfahren Glauben zu schenken. Damit sind wir bei einem weiteren Aspekt, der Psychologische Diagnostik auszeichnen sollte. (5) Die untersuchten Konstrukte und verwendeten Methoden sollten wissenschaftlich, das heißt: empirisch, fundiert und evaluiert sein. Jeder Erstsemesterstudent weiß, dass im Rahmen der Psychologischen Diagnostik auch standardisierte Testverfahren eingesetzt werden (Bühner, 2010, S. 18). Allerdings sind viele Studierende überrascht, wenn sie das erste Mal in ihre Testbibliothek gehen und sehen, wie viele Testverfahren es wirklich gibt. Wie soll man da nur das richtige finden (siehe Kapitel 3)? Ein wichtiges Merkmal psychologischer Testverfahren ist neben der theoretischen Fundierung die psychometrische Qualität. Darunter fällt zunächst, ob das Verfahren eine testtheoretische Fundierung aufweist, d. h. nach der klassischen
Definition Psychologische Diagnostik
13
oder probabilistischen Testtheorie konzipiert ist. Danach werden Haupt- und Nebengütekriterien unterschieden (siehe Kapitel 5). Anhand der Hauptgütekriterien wird geprüft, ob der Test unabhängig vom Testleiter zum selben Ergebnis führt (Objektivität), genau misst (Reliabilität) und, ob er misst, was er messen soll (Validität). Manche Autoren fassen auch die Skalierung hierunter (vgl. Bühner, 2010, S. 67). Nebengütekriterien sind Normierung/Cutoff-Werte, Nützlichkeit, Zumutbarkeit, Fairness, Ökonomie, Vergleichbarkeit und NichtVerfälschbarkeit. Die genannten Qualitätsmaßstäbe können auf alle psychologischen Methoden, auch das Interview und die Verhaltensbeobachtung angewandt werden. Eine ausführlichere Darstellung findet sich bei Bühner (2010, S. 58 ff.). Mancher Leser mag es an dieser Stelle bereits ahnen: die Beurteilung dieser Gülekriterien setzt ein fundiertes statistisches Wissen voraus
(einen guten Überblick über die notwendigen statistischen Kenntnisse findet man bei Bühner & Ziegler, 20"9). Das heißt, (6) Methoden- und Statistikwissen sind ebenfalls wichtige Voraussetzungen für erfolgreiche diagnostische Arbeit. Zusammenfassend lässt sich also folgende Definition für Psychologische Diagnostik ableiten: Psychologische Diagnostik ist ein essenzieller Bestandteil der praktischen Tätigkeit von Psychologen, die zielgerichtet eingesetzt wird, um konkrete Fragestellungen zu beantworten. Dazu bedient sich die Diagnostik verschiedener, entsprechend der Fragestellung ausgewählter Methoden, zu denen Tests, Fragebögen, Verhaltensbeobachtungen, Interviews sowie andere Quellen (z. B. Dokumente oder Nebengutachten) gehören. Zudem ist für eine zieUührende und bereichsspezifische Diagnostik spezifisches Wissen aus den jeweiligen angewandten sowie grundlagenorientierten, psychologischen Teildisziplinen notwendig. Dieses Wissen muss fortlaufend aktualisiert werden, um die wissenschaftliche Qualität der untersuchten Konstrukte und eingesetzten Verfahren kritisch einschätzen zu können. Schließlich stellen fundierte Kenntnisse der Methodenlehre, Statistik und Urteilsbildung das Handwerkszeug dar, das notwendig ist, um qualitativ hochwertige psychologische Methoden bzw. Verfahren zur Beantwortung einer Fragestellung auszuwählen bzw. qualitativ hochwertige Entscheidungen zu treffen. Methoden- und Statistikwissen bildet nicht nur in der Psychologischen Diagnostik einen Grundstein, sondern ist aus allen empirisch orientierten
Richtungen der Psychologie nicht mehr wegzudenken. Daher kann man diese Fächer geWissermaßen als den Grundstein eines integrativen Modells sehen, das neben Methoden und Statistik, Psychologischer Diagnostik auch die Anwendungs- sowie Grundlagenfächer (z. B. Klinische Psychologie, Päd-
14
Der diagnostische Prozess
agogische Psychologie, Arbeits- & Organisationspsychologie, Entwicklungspsychologie, Sozialpsychologie und Persönlichkeitspsychologie) beinhaltet. Abbildung 1 verdeutlicht die zentrale Position der Diagnostik in diesem Gefüge. Damit soll in keiner Weise impliziert werden, dass die Diagnostik die wichtigste Teildisziplin innerhalb der Psychologie ist. Vielmehr kann man sie als eine Komponente auffassen, die in den meisten anderen Teildisziplinen der Psychologie eine Bedeutung hat.
Diagnostik
Abbildung 1
Modell zur Funktion der Diagnostik in der Psychologie
Das Modell verdeutlicht zudem zwei weitere wichtige Aspekte. Zum einen wird veranschaulicht, dass alle Teilbereiche sich überlappen, also verknüpft sind. Zum anderen symbolisieren die Pfeile, dass sich die verschiedenen Teildisziplinen gegenseitig beeinflussen. So kann es sein, dass methodische Neuerungen, wie beispielsweise Strukturgleichungsmodelle, auch zu ganz neuen Ansätzen bei der Überprüfung der Validität von Verfahren führen (Deinzer et al., 1995). Es wäre aber auch denkbar, dass ein spezielles diagnostisches Problem, wie zum Beispiel die soziale Erwünschtheit, eine Methodenentwicklung notwendig macht (z. B. Ziegler & Bühner, 2009). Ebenso können neue diagnostische Ansätze, wie der Einsatz von Videos, das Wissen über spezifische Konstrukte, beispielsweise soziale Intelligenz, erweitern helfen (Weis & Süß, 20"7). Umgekehrt werden diagnostische Instrumente notwendig, wenn neue Konstrukte vorgeschlagen und erfasst werden, z. B. emotionale Intelligenz (Roberts et al., 2006). Trotz der vielen Besonderheiten aufgrund der spezifischen Anforderungen in den einzelnen Teildisziplinen (Rief, Hautzinger, Rist, Rockstroh, & Wittchen, 2007) können die Grundlagen Psychologischer Diagnostik unserer Ansicht nach zunächst weitestgehend fachunspezifisch gelehrt werden. Es gibt zwar spezifische Aspekte der Diagnostik, die nur in Teildisziplinen relevant
Der diagnostische Prozess
15
sind. Diese beziehen sich dann jedoch meist auf spezielle Verfahren oder Evaluationstechniken (siehe auch Kapitel 2, Fragestellungen). Der diagnostische Prozess selbst muss in den wenigsten Fällen fachspezifisch grundlegend anders gestaltet werden. Das bedeutet, trotz der zum Teil sehr unterschiedlichen Anforderungen der Teildisziplinen an die Psychologische Diagnostik, gibt es ein gemeinsames Prozessmodel. Im nächsten Abschnitt werden wir dieses Modell erläutern. 1.2
Der diagnostische Prozess
In diesem Abschnitt stellen wir den diagnostischen Prozess dar. Dabei wer-
den wir zunächst lediglich den allgemeinen Ablauf schildern. Auf die spezifischen Einzelheiten, Besonderheiten und Praxistipps gehen wir dann in den folgenden Kapiteln ein. Eine schematische Darstellung des Prozesses findet sich in Abbildung 2. Zunächst verdeutlicht die Abbildung, dass sich der diagnostische Prozess grob in drei Phasen gliedern lässt: (1) Planung, (2) Durchführung und (}) Integration. 1.2.1 P/anungsphase Vereinbarung der Fragestellung Zu Beginn einer diagnostischen Untersuchung steht in der Regel eine Vereinbarung zwischen Auftraggeber und Diagnostiker. Auftraggeber können beispielsweise die Eltern eines Kindes sein, bei dem Anhaltspunkte für Hochbegabung vorliegen. Die Eltern können sich dann beispielsweise an einen Schulpsychologen als Diagnostiker wenden. Ein anderes Beispiel wäre der Ratsuchende, der sich aufgrund seiner Niedergeschlagenheit an einen psychologischen Psychotherapeuten als Diagnostiker wendet. Auch der Unternehmenschef, der sich an seine Personalabteilung (Diagnostiker) wendet, um eine Stelle zu besetzen, ist als Auftraggeber anzusehen. In diesem Sinne erbringt der Diagnostiker oder Auftragnehmer eine Dienstleistung für den Auftraggeber. Um diese Dienstleistung zu erbringen, ist es zunächst nötig, eine präzise, ethisch vertretbare und psychologisch beantwortbare Fragestellung zu vereinbaren. Im Gespräch tnit dem Auftraggeber ist also zu klären, ob die Fragestellung prinzipiell beantwortbar ist und damit bereits hinreichend klar definiert ist, ob prinzipiell auf Seiten des Diagnostikers genügend Wissen zur
16
r .. Au.rbeI\IeIleinerFr~
L
I
_•
Der diagnostische Prozess
A""'_ .... I
j.
~ AUSEboiIm einer di&rmzierIm Fr~
•
t1mEtrhorIa!I.t In poydIaIopdte HJPOIh-n
"--
""""""-
- .... +
Riickpbo """ Auftngo
•
I'
•
~l
l
e---
I
"•
~lammgund Dun:hffihnmg
•
• rL ..... [ """"""""""-
""""'~
Abbildung 2
1
1Ieuttwortunf der l'ngesbI!IIung ja
IntepIIonder~Z\lden
einzi!lnenHJPOIb-n
v_ r-
u_""'"" We:i~
~tIond '30 oder bei einer klinischen Diagnose mindestens 4 von 7 Symptomen) oder gesetzlich (z. B. Behinderung: § '9 SGB III) definiert. Es kann jedoch auch vorkommen, dass es solche Grenzen nicht gibt. In diesen Fällen sollte der Diagnostiker nicht einfach auf eine Grenzsetzung verzichten. Dadurch entsteht die Gefahr, dass später bei der Bewertung der Ergebnisse Grenzen gesetzt werden, die dann allerdings willkürlich und ggf. durch das Ergebnis beeinflusst sind. Um solche Verzerrungen zu vermeiden, sollten Grenzen vor der Datenerhebung aufgestellt werden. Es empfiehlt sich, diese Grenzen gemeinsam mit Experten aufzustellen, wenn man unsicher ist. Experten können der Auftraggeber oder aber auch StelleninhaberNorgesetzte (bei der Personalauswahl) oder tatsächliche Fachexperlen sein. Grenzsetzungen können auch empirisch ermittelt werden (siehe Bühner, 2010, S. 279). An dieser Stelle sei noch einmal angemerkt, dass es bei Investigatorischen Entscheidungen schwierig sein kann, gerichtete Hypothesen aufzustellen. Dennoch sollten auch in solchen diagnostischen Prozessen Entscheidungsregeln vorab definiert werden. In vielen Kontexten, in denen das Ergebnis der Diagnostik einen beratenden Charakter hat, lässt sich das Problem dann durch einen mehrstufigen diagnostischen Prozess lösen, in dem im Verlauf von Investigatorischen zu Terminalen Entscheidungen übergegangen wird. Ein weiterer wichtiger Aspekt bei der Grenzsetzung stammt aus einer rein statistischen Überlegung. Nehmen wir an, wir stellen 5 Hypothesen zu Konstrukten auf, die weitgehend unkorreliert und damit unabhängig sind. In
52
Auftragsklärung und Formulieren Psychologischer Fragen
jeder Hypothese formulieren wir, dass eine Person zumindest einen durch-
schnittlichen Wert (z. B. bei IQ-Werten mindestens einen IQ von 85) erzielen muss. Wenn wir nun unterstellen, dass die Messwerte der erfassten Kon-
strukte in ihren jeweiligen Normstichproben einer Normalverteilung folgen, dann sind rein statistisch betrachtet für jedes der Merkmale ca. 84 % (84 von 100) der Untersuchten durchschnittlich bzw. überdurchschnittlich (erreichen also mindestens einen IQ-Wert von 85, siehe Bühner & Ziegler, 2009, Kapitel 2). Von unseren untersuchten Personen erwarten wir nun, dass sie in jedem der fünf Tests zu diesen 84 % der mindestens durchschnittlichen bzw. überdurchschnittlichen Personen gehören. Gemäß dem Multiplikationssatz für unabhängige Ereignisse ergibt sich die Wahrscheinlichkeit in allen fünf dieser Anforderung zumindest durchschnittlich zu sein, durch Multiplikation der Einzelwahrscheinlichkeiten:
P = ·84 . ·84 . ·84 . ·84 . ·84 " .42 Das heißt, durch das Aufstellen einer Vielzahl solcher Grenzen, laufen wir Gefahr, dass nur noch ein kleiner Teil der untersuchten Personen in den von den Hypothesen geforderten Bereichen liegt. Das ganze Vorgehen ähnelt dann einem Hürdenlauf (Multiple Hurdle Problem). Daher ist es notwendig, differenziertere Entscheidungsstrategien für das Zusammenfassen der Ergebnisse zu den spezifischen Hypothesen aufzustellen. Darauf wird in Kapitel 3 näher eingegangen. Zusammenfassend lässt sich sagen, dass mit der Formulierung einer globalen Fragestellung sowie der spezifischen Hypothesen Weichen gestellt werden, die für das Ergebnis der Diagnostik eine hohe Bedeutung haben. Dabei ist vor allem spezifisches Wissen über wissenschaftliche Theorien und Konstrukte, die bei der Beantwortung der Frage eine Rolle spielen wichtig, um Redundanzen oder Fehlinterpretationen zu vermeiden. 2.3
Fallbeispiel
In unserem Fallbeispiel hatten wir folgende Ausgangssituation in Kapitel 1 definiert: Am Lehrstuhl für Psychologische Diagnostik ist zum nächstmöglichen Zeitpunkt eine Stelle zu vergeben, die die Möglichkeit zur Promotion bietet. Der Stelleninhaber soll auch in jedem Semester ein Seminar selbstständig
Fallbeispiel
53
durchführen. Das Promotionsthema ist entweder frei wählbar oder kann vorgegeben werden. In jedem Fall ist die Stelle auf 3 Jahre befristet. Wir wollen an dieser Stelle das Ableiten spezifischer Hypothesen mit Hilfe der Klassifikation der KSAs + P verdeutlichen. Wir gehen davon aus, dass alle Bewerber einen entsprechenden Abschluss vorweisen können und machen daher keine spezifischen Hypothesen hierüber, um die Darstellung zu vereinfachen. Zunächst jedoch die Antworten auf die Fragen, die mit dem Auftraggeber geklärt werden müssen: Wer steht im Fokus der Frage? Individuen sind im Fokus der Untersuchungen. Von Bedeutung für den Auftraggeber ist sicher zu vermeiden, ungeeignete Personen einzustellen. Daher ist der Fehler 1. Art zu minimieren. Werden solche Einstellungen routinemäßig vorgenommen, würde es sich um institutionelle Diagnostik handeln. Was ist die Konsequenz der Diagnose? Auswahl des geeignetsten Bewerbers: Selektions diagnostik, genauer Personenselektion oder Konkurrenzauslese. Dabei soll der Fehler mini-
miert werden, eine eigentlich ungeeignete Person als geeignet zu klassifizieren.
Welche zeitliche Stabilität soll die Diagnose haben? Eine Prognose ist gewünscht, da die Stelle über 3 Jahre angelegt ist. Es handelt sich also um eine Frage mit prognostischem Charakter, der berufliche Erfolg soll vorhergesagt werden. Ist die Frage ethisch vertretbar? o Ja. Ist die Frage prinzipiell beantwortbar? o Ja. Verfüge ich als Aufragnehmer über ausreichende fachliche Kompetenz? o Ja.
2.3.1 Knuwledge (Wissen)
Die zu vergebende Stelle ist im Bereich Psychologische Diagnostik angesiedelt, so dass auch die Lehre hier angeboten werden muss. Darüber hinaus wird sicher auch das Promotionsthema, so diese Option gewählt wird, einen diagnostischen Hintergrund haben. Daher ergibt es sich aus den Jobanforderun-
Auftragsklärung und Formulieren Psychologischer Fragen
54
gen, dass sehr gutes Wissen in diesem Bereich notwendig ist. Die Hypothese lautet entsprechend: Verfügt der Bewerber im Vergleich zu anderen Psychologieabsolventen über überdurchschnittliches Wissen im Bereich Psychologische Diagnostik? Wir haben allerdings in Kapitell veranschaulicht, dass gerade Wissen in den Bereichen Methoden und Statistik sowie Differenzielle und Persönlichkeilspsychologie in der Psychologischen Diagnostik von besonderer Bedeutung sind. Daher stellen wir anforderungsbezogen auch die folgenden Hypothesenauf:
Verfügt der Bewerber im Vergleich zu anderen Psychologieabsolventen über überdurchschnittliches Wissen im Bereich Methoden und Statistik? Verfügt der Bewerber im Vergleich zu anderen Psychologieabsolventen über überdurchschnittliches Wissen im Bereich Differenzielle und Persönlichkeilspsychologie ? Englisch ist mittlerweile zu der Wissenschaftssprache geworden, und Promotionsordnungen erlauben eine kumulative Dissertation, bestehend aus
internationalen Publikationen, so dass dieses Wissen ebenfalls anforderungsbezogen ist. Verfüg! der Bewerber über eine im Vergleich zu gleichaltrigen und ähnlich akademisch ausgebildeten Personen über mindestens durchschnittliche Englischkenntnisse? An dieser Stelle ließe sich auch erwägen, Hypothesen bezüglich didaktischen Wissens aufzustellen. Wir verzichten jedoch darauf, da dieses Wissen im Laufe der Promotion erworben werden kann und daher zunächst nicht als entscheidend angesehen wird. Allerdings werden wir im nächsten Bereich zumindest einen Teilaspekt der Didaktik, das verständliche Erklären, aufgreifen.
Fallbeispiel
55
2.3.2 Skills (Fertigkeiten)
Eine Expertenbefragung (Prof. Dr. Bühner, Prof. Dr. Ziegler als Vorgesetzte, Dr. Heene und Dr. Danay als Kollegen) ergab, dass die Beherrschung von verschiedenen Softwareprogrammen sehr hilfreich ist. Zu diesen Programmen zählen vor allem SPSS, Mplus, WINMIRA, PowerPoint, Word und Endnote. Diese Programme sollten nicht nur angewendet werden, sondern deren Ergebnisse auch sicher interpretiert und erklärt werden können. Gerade letzteres ist für die Lehre eine wichtige Grundvoraussetzung. Daher formulieren wir folgende Hypothesen: Kann der Bewerber Varianzanalysen mit unterschiedlichem Design mit
SPSS durchführen? Kann der Bewerber eine konfirmatorische Faktorenanalyse durchführen? Kann der Bewerber ein Mixed-Rasch-Modell für ordinale Daten durchführen? Kann der Bewerber ein Interaktionsdiagramm aus SPSS in PowerPoint einfügen und so modifizieren, dass Psychologiestudierende dessen Interpretation verstehen? Kann der Bewerber eine verständliche Erläuterung zur Interpretation einer Interaktion in der Varianzanalyse als Skriptausschnitt für Psychologiestudierende verfassen? Kann der Bewerber für einen Kurzaufsaiz ein Literaturverzeichnis mit Endnote erstellen? In Bezug auf die abzuhaltende Lehrveranstaltung sollte der Stelleninhaber über didaktische und rhetorische Fertigkeiten verfügen. Befragungen von Studierenden zeigen, dass diese Bereiche wichtig für eine erfolgreiche Lehre sind. Daher stellen wir folgende Hypothesen auf: Kann der Bewerber, auch komplexe Themen, verständlich referieren? 2.3.3 Abilities (Fähigkeiten)
Zahlreiche Studien zeigen die Bedeutung der Allgemeinen Intelligenz bei der Vorhersage beruflicher bzw. akademischer Leistung (Kuncel, Hezlett, & Ones, 2004; Schmidt & Hunter, 2004). Aber auch spezifischere Fähigkeiten, vor
56
Auftragsklärung und Formulieren Psychologischer Fragen
allem die verbale Intelligenz haben sich als hilfreiche Prädiktoren erwiesen. Das lässt sich sicherlich dadurch begründen, dass die meiste Information, die erschlossen werden muss, heutzutage verbal gebunden ist (Ziegler, Danay,
Schölmerich, & Bühner, 2010). Daher formulieren wir folgende Hypothesen: Verfügt der Bewerber im Vergleich zu gleichaltrigen und ähnlich akademisch ausgebildeten Personen über eine mindestens durchschnittliche Allgemeine Intelligenz? Verfügt der Bewerber im Vergleich zu gleichaltrigen und ähnlich akademisch ausgebildeten Personen über eine mindestens durchschnittliche verbale Intelligenz? Hier ist zu beachten, dass verbale Intelligenz ein Teil der Allgemeinen Intelligenz ist, die Hypothesen sich also zum Teil überschneiden. Dennoch zeigen die aufgeführten Studien, dass beide Konstrukte wichtige Informationen liefern. Daher nehmen wir beide Konstrukte trotz Überlappung auf und nehmen die stärkere Gewichtung der verbalen Intelligenz in Kauf. Eine relativ große Herausforderung für die Bewerber stellt hier der Normbezug dar. Immerhin ist anzunehmen, dass Personen in diesem Alter, die noch dazu sowohl Abitur als auch einen akademischen Abschluss haben, eher höhere kognitive Leistungsfähigkeit besitzen. Daher haben wir die Grenzen so gesetzt, dass ein durchschnittliches Abschneiden im Bezug auf die relevante Bezugsgruppe ausreichend ist. 2.3.4 Persönlichkeit
Auch zur Prognosekraft spezifischer Persönlichkeitseigenschaften existieren empirische Studien. So zeigt die Metaanalyse von Poropat (2009), dass Gewissenhaftigkeit ein guter Prädiktor akademischer Leistung ist. Auch hier gibt es weitere Studien, die die Bedeutung spezifischer Persönlichkeitsfacetten betonen. So fanden Ziegler et al. (2010), dass die Extraversionsfacette Geselligkeit von Bedeutung ist. In einer anderen Studie fanden Ziegler, Knogler und Bühner (2009), dass Leistungsstreben, eine Facette von Gewissenhaftigkeit, ebenso eine Rolle bei der Prädiktion von akademischer Leistung spielt. Im wissenschaftlichen Kontext spielt Teamarbeit eine immer größere Rolle. Die Persönlichkeitseigenschaft Verträglichkeit trägt dazu bei, dass Teams als Ganzes erfolgreicher sind (Peeters, Van Tuijl, Rutte, & Reymen, 2006). Schließlich wissen viele Wissenschaftler aus eigener Erfahrung, dass eine Promotion mit
Fallbeispiel
57
vielen Frustrationen verbunden sein kann, eine gewisse Frustrationstoleranz ist daher unumgänglich.
Verfügt der Bewerber über eine im Vergleich zu gleichaltrigen mindestens durchschnittliche Gewissenhaftigkeit? Verfügt der Bewerber über eine im Vergleich zu gleichaltrigen mindestens durchschnittliche Geselligkeit? Verfügt der Bewerber über ein im Vergleich zu gleichaltrigen mindestens durchschnittliches Leistungsstreben ? Verfügt der Bewerber über eine im Vergleich zu gleichaltrigen mindestens durchschnittliche Verträglichkeit? Verfügt der Bewerber über eine im Vergleich zu gleichaltrigen mindestens durchschnittliche Frustrationstoleranz ?
Personen Personen Personen Personen Personen
Für eine erfolgreiche Stellenbesetzung ist es auch wichtig, dass die angebotene Stelle kongruent zu den beruflichen Interessen des Stelleninhabers ist (Ishitani, ZOlO; Rolfs & Schuler, ZO02). Daher wird auch hierzu eine Hypothese aufgestellt: Entspricht das berufliche Interessenprofil des Bewerbers dem Profil der Stelle? Im folgenden Kapitel werden wir nun betrachten, wie sich die spezifischen Hypothesen auf unsere Entscheidungsstrategie und die Auswahl der Methoden auswirken können.
mWeiterführende literatur Kline, R. B. (2004). Beyond Significance Testing: Reforming Data Analysis Methods in Behavioral Research. Washington, De: APA. Krantz, D. H. (1999). The null hypothesis testing controversy in psychology. Journal of the American Statistical Association, 94(448), 1372-1381. MicheIl, J. (ZOOl). Teaching and misteaching measurement in psychology. Australian Psychologist, 36(3), 211-218.
Entscheidungsregeln und Operationalisierung
ln diesem Kapitel soll zunächst veranschaulicht werden, welche Entscheidungsregeln existieren, um die mit den Verfahren gesammelten Informationen zu integrieren. Im weiteren Verlauf des Kapitels sollen unterschiedliche psychologisch-diagnostische Methoden vorgestellt werden, anhand derer die spezifischen Hypothesen operationalisiert werden können. Operationalisierung bedeutet dabei, dass geeignete Methoden ausgewählt werden, um über Hypothesen entscheiden zu können. Dabei liegt das Hauptaugenmerk im Folgenden auf Kriterien, die zur Beurteilung und dann auch zur Auswahl der Verfahren herangezogen werden können. 3.1
Entscheidungsregeln
ln Kapitell hatten wir geschrieben, dass man im Prinzip bei jeder aufgestellten Hypothese festlegen muss, anhand welches Kriteriums die Hypothese angenommen oder verworfen werden kann. Ebenso muss auch festgelegt werden, anhand welcher Entscheidungsregel die globale Fragestellung beantwortet werden soll. Dabei ist der Unterschied zwischen einer lnvestigatorischen und einer Terminalen Entscheidung zu berücksichtigen. So kann das Fallbeispiel in diesem Buch als Beispiel für eine Terminale Entscheidung angesehen werden, da im Anschluss an die Diagnostik direkt die Einstellung erfolgt. In den folgenden Abschnitten werden wir eine Übersicht über die gebräuchlichsten Entscheidungsregeln geben.
3.1.1 Kompensatorische Regel Ein wenig vereinfachend ließe sich sagen, dass diese Entscheidungsregel ein wenig dem Spruch ,Viele Wege führen nach Rom' gleicht. Methodisch werden hier Anleihen bei der Regressionsanalyse genommen. Dort gibt es in M. Ziegler, M. Bühner, Grundlagen der Psychologischen Diagnostik, DOI 10.1007/978-3-531-93423-5_3, © VS Verlag für Sozialwissenschaften | Springer Fachmedien Wiesbaden 2012
Entscheidungsregeln und Operationalisierung
60
Form der Regressionsgleichung die Möglichkeit, die gewichtete Summe mehrerer Prädiktoren zu bilden, z. B. (Note) ~ 4.77 - .12 x T-Wert Gewissenhaftigkeit - .02 x T-Wert Intelligenztest. Diese gewichtete Summe wird dann als vorhergesagter Kriteriumswert einer Person interpretiert. Im diagnostischen Prozess kann man nun dieselbe Vorgehensweise wählen. Um die Antwort auf eine Frage zu finden, werden verschiedene Informationen zu einem Wert zusammengefasst. Das bedeutet dann aber auch, dass ein- und derselbe Gesamtwert durch verschiedene Merkmalskombinationen hervorgerufen werden kann. Nehmen wir einmal an, ein Diagnostiker soll vorhersagen, ob ein Schüler das Gymnasium erfolgreich abschließen kann. Er nimmt nun an, dass es für gute Noten Intelligenz und Gewissenhaftigkeit bedarf. In welchem Ausmaß Intelligenz und in welchem Ausmaß Gewissenhaftigkeit zum Einsatz kommen, sei nicht relevant, Hauptsache der Durchschnitt beider Konstrukte übersteigt ein festzulegendes Mindestmaß. Das bedeutet, das Kriterium gilt als erfüllt, wenn beide Werte zusammen mittelhoch ausfallen, um gerade den Kriteriumswert noch zu übersteigen. Es gilt aber auch als erfüllt, wenn ein niedriger Wert in einem der Bereiche durch einen extrem hohen Wert im anderen Bereich ausgeglichen wird. Gewissenhaftigkeit Positive Entscheidung
~
R ::5 + +-, 1il
(+)
~ -F"'I"""''I''''"''I''''''"
1il
Abbildung 1
30 40 50 60 70 80
Intelligenz
Kompensatorisches Entscheidungsmodell
In Abbildung 1 ist dies noch einmal grafisch veranschaulicht. Im Koordinatensystem ist auf der x-Achse der Prädiktor Intelligenz und auf der y-Achse der Prädiktor Gewissenhaftigkeit aufgetragen. Die dunklere Fläche gibt den Bereich der Wertekombinationen an, der zu einer negativen Beantwortung
Entscheidungsregeln
61
der Frage führen würde. Der hellere Bereich beinhaltet alle Merkmalskombinationen, die zu einer positiven Entscheidung führen. Nehmen wir für das Beispiel der Vorhersage des Schulerfolgs im Gymnasium anhand von Noten einmal an, der Diagnostiker hätte festgelegt, beide Eigenschaften in Form von T-Werten zu bestimmen und anschließend zu mitteln. Eine positive Entscheidung würde er treffen, wenn dieser Mittelwert mindestens 50 ergibt. Die Entscheidungsregellautet also: Beträgt der aus beiden Bereichen gemittelte T-Wert mindestens 50, wird positiv entschieden. Die Grafik zeigt sehr schön, dass verschiedene Kombinationen aus Intelligenz und Gewissenhaftigkeit dieses Kriterium erfüllen. Allerdings ist hier mit Nachdruck darauf hinzuweisen, dass solche Festlegungen empirischer Belege bedürfen oder anforderungsbezogen begründet (Anforderungsanalyse durch Experten) werden müssen. Weiterhin wird in der Literatur immer wieder diskutiert, ob es günstiger ist, alle Merkmale mit demselben Gewicht zu verrechnen im Gegensatz zu einer spezifischen Gewichtung. Die einfache Gewichtung bietet sich nur dann an, wenn man keine empirische Gewichtung mangels Daten vornehmen kann bzw. wenn man anforderungsbezogen nicht klar argumentieren kann, welche Anforderung wichtiger ist. Ansonsten ist eine Gewichtung bei guter Begründung als das bessere Vorgehen zu empfehlen. Wichtig für die Verrechnung von Normwerten mit kompensatorischen Gewichtungen ist, dass die Normwerte anhand derselben Normstichprobe ermittelt werden oder für jede relevante Teilnorm eine Gleichung aufgestellt wird. In der Regel empfehlen sich Rohwerte, um solche Probleme zu vermeiden. So macht es wenig Sinn, hier eine Verrechnung vorzunehmen, wenn die Normstichproben sich in wichtigen Aspekten (z. B. Alter- und Geschlechtszusammensetzung) unterscheiden. 3.1.2 Oder-Regel
Eine Sonderform der kompensatorischen Entscheidungsregel stellt das OderKonzept (auch disjunktive Regel genannt) dar. Hier werden die beiden Werte nicht verrechnet, sondern es genügt, in einem der Bereiche die geforderte Anforderung (im Beispiel T-Wert von 50) zu erfüllen. Dies ist eine starke Annahme, da davon ausgegangen werden kann, dass das Vorhandensein eines Mindestwerts in einem Bereich den anderen Bereich völlig kompensieren kann. Im Beispiel würde dies bedeuten, dass ein Mindestmaß an Gewissenhaftigkeit Intelligenz obsolet macht oder umgekehrt (siehe Abbildung 2).
62
Entscheidungsregeln und Operationalisierung Gewissenhaftigkeit
al R-
+
a _
'""' 0
~ -
iil -
~.t
Abbildung 2
30 40 50 60 70 80
Intelligenz
'"
Oder-Regel
Die Entscheidungsregel würde lauten: Es wird positiv entschieden, wenn der T-Wert in mindestens einem der Bereiche 50 oder mehr beträgt. Diese Annahme kann sicher nur in wenigen Fällen getroffen werden. Ein gutes Beispiel liefern die Klassifikationssysteme in der klinisch-psychologischen Diagnostik. Hier finden sich häufig reine Oder-Regeln. Beispielsweise wird hier im Rahmen der Depressionsdiagnostik unter anderem gefordert, dass aus neun vorgegebenen Symptomen (z. B. Schlaflosigkeit, Schuldgefühle oder Energieverlust) fiinf in den letzten beiden Wochen aufgetreten sein müssen. Die einzelnen Symptome kompensieren sich also vollständig (Einschränkend sei gesagt, dass dabei jedoch entweder die depressive Stimmung oder der Verlust an Interesse und Freude zu den Symptomen gehören muss.).
3.1.3 Konjunktive Regel Die konjunktive Regel macht hingegen explizit die Annahme, dass ein Merkmal nicht kompensierbar ist. Diese Entscheidungsregel ist angemessen, wenn in jedem Merkmalsbereich bestimmte Mindestanforderungen vorliegen müssen. Daher wird hier auch von einer Und-Regel gesprochen. Abbildung 3 beinhaltet zum einen eine grafische Veranschaulichung des konjunktiven Modells und zum anderen einen Vergleich mit dem kompensatorischen. Die dunklen Bereiche, zusätzlich mit einem Minus versehen, ver-
deutlichen die Merkmalsausprägungen, die zu einer negativen Entscheidung
Entscheidungsregeln
63 Trennl:inie aus dem Kompensatorischen Modell
Gewissenhaftigkeit
+
~ -
g
- ...,.....,~"T"....,.....,~,.,......,..
~ 3040 50 60 70 80
Intelligenz
"'~q; Abbildung 3
Konjunktives Modell und Vergleich mit dem kompensatorischen Modell
gehören. Der hellere Bereich, zusätzlich mit einem Plus versehen, definiert den Bereich, in dem eine positive Entscheidung getroffen wird. Zudem ist die Linie abgetragen, die nach dem kompensatorischen Modell zwischen positiv und negativ trennt. Es wird deutlich, dass sowohl bei Intelligenz als auch bei Gewissenhaftigkeit Bereiche in den Ablehnungsbereich fallen, die nach dem kompensatorischen Modell zu einer positiven Entscheidung geführt hatten. Es gibt jedoch auch einen Bereich (hier das dunkelgraue Dreieck), der in einem kompensatorischen Modell zu einer positiven, in einem konjunktiven Modell aber zu einer negativen Entscheidung führt. Die entsprechende Entscheidungsregel würde lauten: In beiden Bereichen muss mindestens ein T-Wert von 50 erreicht werden. Im Allgemeinen ist das konjunktive Modell das strengere. Wir hatten bereits in Kapitel 2 darauf hingewiesen, dass das Aufstellen vieler konjunktiver Entscheidungsregeln einem Hürdenlauf ähnelt. Irgendwann wird es sehr unwahrscheinlich, dass jemand auch alle Hürden überspringen kann. Daher sollte man sparsam im Umgang mit konjunktiven Entscheidungsregeln sein. Es gibt auch eine Reihe von Mischlormen, auf die wir im nächsten Abschnitt näher eingehen.
Entscheidungsregeln und Operationalisierung
64
3.1.4 Mischformen In der diagnostischen Praxis ist es oft schwer, strikt genau eine der bereits
erläuterten Entscheidungsregeln zu verwenden. Daher beschreiben Schmidt und Gschwendner (2006) zwei Mischformen. Zum einen ist dies eine schwach konjunktive (schwache Und-Regel) und zum anderen eine schwach disjunktive Entscheidungsregel (schwache Oder-Regel). Bei der schwach konjunktiven Regel müssen alle betrachteten Eigenschaften in einem Mindestmaß vorhanden sein. In unserem Beispiel könnte dies nach wie vor ein T-Wert von 50 in beiden Verfahren sein (siehe Abbildung 4). Um dann jedoch die Eignung zu bestimmen, werden für alle Personen mit Werten oberhalb dieser Grenze die Werte wieder kompensatorisch verrechnet. Für unser Beispiel könnte die Regel so formuliert sein: Geeignete Personen benötigen in beiden Bereichen jeweils mindestens einen T-Wert von 50 und insgesamt mindestens einen kombinierten T-Wert von 60. Dadurch werden
Personen ausgeschlossen, die zwar das Mindestkriterium in jedem Bereich erfüllt haben, aber eben nicht den nötigen Gesamtscore erreichen. Wie dieser Gesamtscore erreicht wird, also durch welche Eigenschaftskombination, ist
jedoch wiederum beliebig. Gewissenhaftigkeit
+
~ _.~~~~~~--~~
30 40 50 60 70 80
Abbildung 4
Intelligenz
Schwach konjunktive Regel
Bei der schwachen Oder-Regel ist es wieder so, dass ein Überschreiten des gesetzten Grenzwertes in einem der Bereiche in einer positiven Diagnose
mündet, egaL wie die Werte in den anderen Bereichen sind. Ein Unterschrei-
Entscheidungsregeln im diagnostischen Prozess
65
ten führt jedoch nicht direkt zu einer negativen Diagnose. Stattdessen gibt es einen Bereich, in dem sich die beiden Eigenschaften wieder kompensieren können.
Gewissenhaftigkeit
~ -
~
",304050607080
I
Intelligenz
~.f
«.:
Abbildung 5
Schwache Oder-Regel
Die entsprechende Entscheidungsregel würde lauten: Mindestens einen T-Wert von 60 in einem der beiden Bereiche oder einen gemittelten T-Wert von mindesten 50. Aus der Formulierung wird deutlich, dass diese Regel vor allem das sehr gute Abschneiden in einem der Bereiche belohnen soll. Hier sollte man sich wiederum sicher sein, dass eine Kompensation wirklich realistisch ist. Die Wahl der Entscheidungsregel muss dabei sowohl für jede Hypothese als auch für das Zusammenfassen der verschiedenen Hypothesen getroffen werden. Daraus ergibt sich eine Reihe von Spezialfällen, auf die wir im nächsten Abschnitt näher eingehen. 3.2
Entscheidungsregeln im diagnostischen Prozess
Im diagnostischen Prozess müssen Entscheidungen für jede der aufgestellten Hypothesen getroffen werden. Dabei kann die Information zur Annahme oder Ablehnung einer Hypothese aus einem oder mehreren Verfahren stammen. Schließlich müssen aber auch die Antworten der verschiedenen Hypothesen mittels einer vor der Untersuchung aufzustellenden Entscheidungsregel integriert werden. Tabelle 1 stellt die verschiedenen Kombinationen schematisch
66
Entscheidungsregeln und Operationalisierung
dar. Sollen Entscheidungen innerhalb einer Hypothese getroffen werden und wird dabei nur ein Verfahren eingesetzt, so ist natürlich keine Kompensation möglich. Tabelle 1
Entscheidungsregeln im diagnostischen Prozess Kompensatorisch! Oder
Ergebnisse innerhalb einer Hypothese integrieren
Ergebnisse mehrerer Hypothese integrieren
1 Verfahren Mehrere Verfahren
Konjunktiv/Und Falll
Fall 2
Fall 3
Fall 4
FallS
3.2.1 Falll
Zur Beantwortung einer Hypothese wird nur ein Verfahren eingesetzt. Häufig lauten die aufgestellten Hypothesen dann beispielsweise: "Liegt die Ausprägung des Merkmals X im Vergleich zur Norm Y mindestens im Bereich Z?". Die Verwendung des Begriffs "mindestens" zeigt dann, dass eine Hürde aufgestellt wurde, die übersprungen werden muss. Dies ist gleichbedeutend mit der Verwendung einer konjunktiven Entscheidungsregel. Im Falle eines investigatorischen Vorgehens bzw. einer ungerichteten Hypothese lässt sich auch eine entsprechende Entscheidungsregel definieren. Diese könnte lauten: "Liegt die Ausprägung des Merkmals X im Vergleich zur Norm Y außerhalb des Durchschnittsbereichs ?".
3.2.2 Fa1l2
In vielen Fällen wird zur Beantwortung einer Hypothese ein multimethodales Vorgehen gewählt, das heißt, Informationen aus unterschiedlichen Quellen werden gesammelt. Dies könnten zum Beispiel zwei Intelligenztests sein (Hypothese über Intelligenz) oder ein Fragebogen, ein Interview und eine Verhaltensbeobachtung (Hypothese über z. B. Extraversion). Eine Variante für eine Entscheidungsregel wäre hier eine kompensatorische Regel. Allgemein formuliert würde die Entscheidungsregel dann lauten: Die Hypothese wird
Entscheidungsregeln im diagnostischen Prozess
67
positiv beantwortet, wenn der aus Verfahren X und Y gemittelte Normwert mindestens über Z liegt. Bei Verwendung der Oder-Regel, würde ein Wert über Z in einem der beiden Verfahren ausreichen. 3.2.3 Fa1l3
Es wäre aber auch denkbar, dass die Informationen aus verschiedenen Verfahren durch eine konjunktive Regel verknüpft werden. Die entsprechende Regel würde dann beispielsweise lauten: Wenn in Verfahren X und Y mindestens eine Merkmalsausprägung von Z vorliegt, wird die Hypothese positiv entschieden. Es ist auch denkbar, dass zur Beantwortung einer Hypothese eine Mischung aus kompensatorischer und konjunktiver Entscheidungsregel angewandt wird. Die allgemeine Regel könnte lauten: Die Hypothese wird positiv beantwortet, wenn der aus Verfahren A und B gemittelte Normwert mindestens Y beträgt (kompensatorisch) und der Wert in Verfahren B mindestens Z beträgt (konjunktiv). Das Ganze lässt sich auch auf drei Verfahren ausdehnen. So ließe sich im Rahmen eines Assessment Centers für Verkäufer denken" dass die Hypothese sich auf Freundlichkeit bezieht. Diese wird nun zum einen durch einen Frage-
bogen und ein Interview erfasst, zum anderen aber auch durch ein Rollenspiel, in dem ein Verkaufsgespräch simuliert wird. Die Mischung aus einer kompensatorischen und einer konjunktiven Entscheidungsregel könnte dann lauten" dass aus der Verrechnung von Fragebogen und Interview ein entsprechender Minimalwert erzielt werden muss. Das Rollenspiel als Tätigkeitssimulation ist jedoch so wichtig, dass hier zusätzlich ein Minimalkriterium erfüllt sein muss, um die psychologische Frage abschließend positiv zu beurteilen. Nachdem wir kurz beschrieben haben" wie Informationen innerhalb einer Hypothese integriert werden, gehen wir nun auf die Integration der Ergebnisse über alle Hypothesen ein. 3.2.4 Fa1l4
Bei der Anwendung einer kompensatorischen Entscheidungsregel zur Integration verschiedener Hypothesen ist wiederum große Vorsicht geboten. Die Hypothesen beziehen sich schließlich auf unterschiedliche Merkmale und es muss sehr plausibel und am besten anhand empirischer Studien argumen-
68
Entscheidungsregeln und Operationalisierung
tiert werden, warum sich der Einfluss verschiedener Eigenschaften in Bezug auf eine globale Fragestellung kompensieren kann. Lässt sich der Nachweis jedoch führen, dann lautet die allgemeine Entscheidungsrege]. die sich nun nicht mehr auf eine einzelne Hypothese, sondern vielmehr auf die globale Fragestellung bezieht: Die globale Fragestellung kann positiv beantwortet werden, wenn die Verrechnung der Ergebnisse aus Hypothese A, B, ... min-
destens den Wert X ergibt. Bei einer reinen Oder-Regel würde man sagen, dass für eine positive Antwort auf die globale Frage wenigstens eine der sich kompensierenden Hypothesen positiv entschieden werden muss.
3.2.5 FallS
Werden für einzelne Hypothesen keine kompensatorischen Mechanismen angenommen, wird implizit eine konjunktive Regel angewendet. Schließlich muss jede der Hypothesen positiv beantwortet werden, um die globale Fragestellung ebenfalls positiv zu beantworten. In der Regel wird zur Beantwortung der globalen Frage eine Mischung aus kompensatorischen und konjunktiven Entscheidungsregeln angewandt. Oft wird in der Praxis, gerade im Rahmen von Selektionsprozessen, auch die Unterscheidung zwischen sogenannten Knock-Out oder KO-Kriterien und Nice-to-Haves getroffen. KO-Kriterien entsprechen dabei konjunktiven Kriterien. Werden bei den entsprechenden Hypothesen keine positiven Urteile gefällt, fällt die Antwort auf die globale Frage unweigerlich negativ aus. Niceto-Haves hingegen werden erst dann herangezogen, wenn mehrere Kandidaten gleich geeignet sind, aber nicht alle ausgewählt werden können. Wir raten von diesem Vorgehen jedoch ab, da hier subjektiven Entscheidungen Tür und Tor geöffnet werden. Im Rahmen des diagnostischen Prozesses wurden also nun aus der globalen Frage spezifische Hypothesen abgeleitet. Zudem wurde für jede Hypothese ebenso wie für die Beantwortung der globalen Fragestellung eine Entscheidungsregel festgelegt. Im nächsten Schritt müssen nun die Hypothesen operationalisiert werden, das heißt, es müssen geeignete Verfahren ausgewählt werden, um die zur Beantwortung notwendigen Informationen zu sammeln.
Die Auswahl geeigneter Methoden 3.3
69
Die Auswahl geeigneter Methoden (Operationalisieren der Fragestellungen>
In der Psychologischen Diagnostik kann man sich einer Vielzahl unterschiedlicher Methoden bedienen, um Informationen zur Beantwortung einer Fragestellung zu gewinnen. Zu den gebräuchlichsten Methoden gehören psychometrische Tests, Fragebögen, Interviews und Verhaltensbeobachtungen. Allerdings gibt es auch die Möglichkeit, vorhandene Dokumente (z. B. Zeugnisse) oder existierende andere Gutachten zu Rate zu ziehen. Im Folgenden beschränken wir uns auf die Darstellung der gebräuchlichsten Methoden. Dabei werden wir zunächst jeweils einen kurzen Überblick über jede Kategorie geben. In den später folgenden Abschnitten zu den Gütekriterien werden dann spezifische Hinweise zu den einzelnen Methoden gegeben.
3.3.1 Arten psychologisch-diagnostischer Verfahren Bereits zu Beginn des Buches haben wir darauf hingewiesen, dass es eine große Anzahl der verschiedensten psychologischen Tests gibt. Eine erste Einteilung psychologisch-diagnostischer Verfahren stammt von Raymond B. Cattell (1957), der zwischen Test (T)-, Life (L)- und Fragebogen (Q für questionnaire)-Daten unterschied. T-Daten gewinnt man mit Leistungstests (siehe unten) und Q-Daten mit Fragebögen und Interviews, L-Daten hingegen primär durch Verhaltensbeobachtungen. Eine weitere Unterscheidung mit der sich Cattell beschäftigte, ist die zwischen "objektiven" und "subjektiven" Tests (1958). Im allgemeineren Sinne bezieht sich "objektiv" darauf, dass es für einen Test einen Auswertungsschlüssel gibt, so dass jeder Anwender bei der Auswertung zum selben Ergebnis kommt (siehe Objektivität). Eine Matheklausur wäre hier ein gutes Beispiel. "Subjektiv" sind Verfahren, bei denen das Auswertungsergebnis stärker vom Auswertenden abhängt. Hier wäre eine Deutschklausur ein gutes Beispiel. Cattell prägte jedoch für den Begriff "objektiver Test" eine spezifischere Bedeutung, die sich darauf bezieht, dass der Test von der Person, die ihn ausfüllt oder bearbeitet, nicht durchschaubar und somit auch nicht verfälschbar ist. Diese einfache Klassifikation hilft bereits weiter. Dennoch ist die Vielzahl der Tests damit nur schwer in den Griff zu bekommen. Um hier ein wenig Ordnung zu erzeugen, gibt es eine sehr hilfreiche Kategorisierung von Brähler, Holling, Leutner, und Petermann (2002):
70
Entscheidungsregeln und Operationalisierung Leistungstests Entwicklungstests Intelligenztests Allgemeine Leistungstests Schultests Spezielle Funktionsprüfungs- und Eignungstests Psychometrische Persönlichkeitstests Persönlichkeitsstrukturtests Einstellungstests Interessentests Klinische Tests Persönlichkeitsentfaltungs-Verfahren Formdeuteverfahren Verbal-thematische Verfahren Zeichnerische und Gestaltungsverfahren
Leistungstests Leistungstests entsprechen im Cattell'schen Sinne T-Daten. Lösungen sind meist eindeutig als richtig oder falsch bewertbar und somit sind die Tests auch meist als objektiv im allgemeinen Sinne zu bewerten (siehe auch Objektivität). Eine wichtige Besonderheit ist, dass Leistungstests zum Teil mit Zeitbegrenzung (Speedtest oder speeded Test) vorgegeben werden und zum anderen ohne Zeitbegrenzung (Niveau- oder Powertest). Reine Speedtests bestehen meist aus vielen leichten oder maximal mittelschweren Aufgaben (Items), die in der Regel von jedem, wenn keine Zeitbegrenzung vorliegt, richtig gelöst werden können. Das bedeutet jedoch nicht, dass die Testpersonen keine Fehler machen. Die Zeitbegrenzung wird so gesetzt, dass eine komplette Beantwortung innerhalb der Zeit nicht möglich ist. Somit ist jeder angehalten, möglichst schnel1" aber auch genau zu arbeiten. Durch diesen Trade-off (Speed-Accuracy-Trade-off) kommt es zu Fehlern. Zur Testauswertung werden die Anzahl richtig bearbeiteter Aufgaben gezählt (Schnelligkeitsaspekt). Allerdings kann es auch sein, dass die Genauigkeit mitbetrachtet wird, anhand der Fehler, die begangen wurden. Ein Beispiel ist der Test d2 (Schmidt-Atzert, 2004) zur Erfassung von Konzentration und Aufmerksamkeit. In diesem Test müssen die Versuchspersonen in 14 Zeilen mit Buchstaben jeweils alle d's durchstreichen, die in der Summe 2 Striche über oder unter sich haben. Als Distraktoren dienen p's oder d's mit mehr oder weniger Strichen. Niveautests (Powertests) setzen sich aus Aufgaben zusammen, die im Schwierigkeitsgrad kontinuierlich ansteigen. Dabei werden die Schwierig-
Die Auswahl geeigneter Methoden
71
keiten so hoch, dass es nicht möglich ist, dass jeder Proband alle Aufgaben richtig löst, auch nicht bei theoretisch unendlich viel Zeit. Lediglich die Personen mit den höchsten Ausprägungen des zu messenden Merkmals sollten dies schaffen. Dabei gibt es keine oder eine sehr großzügige Zeitbegrenzung. Somit spielt Schnelligkeit eher eine untergeordnete Rolle, es geht vielmehr um die Ermittlung eines intellektuellen Leistungsniveaus. Die Advanced Progressive Matrices (Raven, Raven, & Court, 1998) zur Erfassung der Allgemeinen Intelligenz sind ein sehr gutes Beispiel für diese Testart. In diesem Verfahren werden dem Probanden Matrizen vorgestellt, in denen ein Teil fehlt. Dieses fehlende Teil soll dann aus mehreren dargebotenen Alternativen ausgewählt werden. Es finden sich mittlerweile auch zahlreiche Tests, die mehr oder weniger eine Verknüpfung der beiden Methoden darstellen. Meist handelt es sich dabei um Intelligenztests, die zwar nach Schwierigkeit aufsteigende Aufgaben beinhalten, aber dennoch eine Zeitbegrenzung haben (speeded Tests). Wilhelm und Schulze (2002) weisen darauf hin, dass solche Tests wesentlich höher mit reinen Speedtests zusammenhängen als reine Powertests. Das bedeutet, die Messeigenschaften sind andere. Dies sollte bei der Testauswahl unbedingt berücksichtigt werden. Trotz der hohen Qualität vieler Leistungstests hängt ihre Nutzung stark vom jeweiligen Feld ab. Vor allem in der Personalauswahl stoßen diese Tests oft auf eine geringe Akzeptanz und werden trotz ihrer hohen Güte seltener eingesetzt (Schuler, Hell, Trapmann, Schaar, & Boramir, 2007).
Psychometrische Persönlichkeitstests Die häufigste Testform in diesem Bereich sind Fragebögen (Q-Daten). Üblicherweise soll sich eine Person selbst einschätzen, bezogen auf eine Reihe von
Aussagen. Es kann jedoch auch sein, dass Fragebögen zur Fremdeinschätzung eingesetzt werden. Bei der Selbsteinschätzung bezüglich einer Aussage ist es schwer zu sagen, ob die gegebene Antwort nun richtig oder falsch ist, da es keinen objektiven Standard gibt. Daher empfehlen wir, hier auch tatsächlich von einem Fragebogen zu sprechen und nicht von einem Test. Letzteres deutet meist eher darauf hin, dass es einen objektiven Bewertungsstandard und somit falsche und richtige Antworten gibt. Dies kann beim Auftraggeber oder aber auch bei der Testperson zu Ablehnung führen. Natürlich lassen sich auch für solche Verfahren objektive Bewertungsschlüssel erstellen. Diese sind insofern objektiv, als dass jeder Auswerter zum selben Ergebnis kommt. Cattells Definition von Objektivität, die beinhaltete, dass ein Test durch die Testperson nicht durchschaubar und somit
72
Entscheidungsregeln und Operationalisierung
nicht verfälschbar ist, ist da schon schwerer zu erzielen. Ein Fragebogen ist in der Regel leicht verfälschbar (Birkeland, Manson, Kisamore, Brannick, & Srnith, 2006; Ziegler, Schrnidt-Atzert, Bühner, & Krumm, 2007) und so besteht gerade bei diagnostischen Prozessen von hoher Bedeutung für die Testperson (z. B. Personalauswahl, Arbeitsunfähigkeit), sogenannten high-stakes Assessments (Situationen, in denen die Diagnose für den Begutachteten mit positiven Konsequenzen verbunden sein kann), die Angst, dass die Aussagen nicht mehr nutzbar sind, da sie nicht mehr (nur) die Persönlichkeit widerspiegeln. In der Tat belegen empirische Ergebnisse, dass mindestens 30 %der Bewerber in Personalauswahlsituationen ihre Antworten in Persönlichkeitsfragebögen verfälschen (Griffith, Chmielowski, & Yoshita, 2007). Dennoch gibt es Hinweise, dass diese Verfälschung sich nicht negativ darauf auswirkt, ob ein Verfahren Berufserfolg vorhersagen kann oder nicht (Ones & Viswesvaran, '998; Ziegler & Bühner, 2009). Dies gilt jedoch in der Regel nur für die Nutzung der Aussagen auf einer eher abstrakten Ebene wie den Big 5. Nutzt man zur Auswahl weniger abstrakte Ebenen, die Persönlichkeitsfacetten, kann sich Verfälschung durchaus auswirken (Ziegler, Danay, Schölmerich, & Bühner, 2010). In der Konsequenz bedeutet das nicht, dass Fragebögen gar nicht in high-stakes Situationen eingesetzt werden sollten. Vielmehr sollten bestimmte Aspekte beachtet werden. So empfiehlt es sich, Fragebögen vor allem zum Ausschließen weniger geeigneter Bewerber in Auswahlkontexten zu nutzen (siehe KapiteI4). Zum anderen ist es sinnvolL die zu messenden Eigenschaften auch in einem Interview zu betrachten. Eine ausführliche Betrachtung des Themas Verfälschung findet sich bei Ziegler, MacCann und Roberts (2011).
PersänlichkeitsentJaltungs-VerJahren Persönlichkeitsentfaltungs-Verfahren, auch projektive Verfahren genannt, gehören zu den Klassikern der Psychologischen Diagnostik. Allerdings hat ihr Ruf in den letzten Jahrzehnten stark gelitten, so dass sie heute nur noch wenig verbreitet sind. Die bekanntesten Vertreter dieser Kategorie sind sicher der Rohrschach Test und der Thematische Apperzeptionstest. Im Cattell'schen Sinne sind Persönlichkeitsentfaltungs-Verfahren meist objektiv, da das Messziel nur selten durchschaubar ist und die Tests so vermeintlich kaum verfälschbar sind. Dies kann in der Praxis jedoch ein Trugschluss sein (Ziegler et al., 2007). Viele der Verfahren in dieser Kategorie stehen in einer psychoanalytischen Tradition und beruhen auf der Idee, dass die Vorgabe mehrdeutiger Stimuli (z. B. Tintenkleckse oder Bilder) unbewusste (implizite) Wünsche oder Motive anspricht, die dann spontan geäußert werden. Die Grundannahme ist also,
Die Auswahl geeigneter Methoden
73
dass Personen, denen ein uneindeutiger Stimulus vorgegeben wird, unbewusste Gefühle, Einstellungen" Wünsche und Bedürfnisse offenbaren" wenn sie dem Stimulus spontan Bedeutungen zuweisen sollen (projektive Hypothese). Von den Antworten der Person wird angenommen, dass sie gültige und wichtige Hinweise auf die Persönlichkeit der Testperson geben. Es existieren zu den Verfahren meist recht komplexe Auswertungsschlüssel, deren Beherrschung ausführliches Trainieren voraussetzt. Daher sind Auswertung und Interpretation der Verfahren nicht nur langwierig, sondern auch subjektiv und stark abhängig von den Fertigkeiten und Fähigkeiten des Auswertenden. Somit lässt sich abschließend sagen" dass vor dem Einsatz eines Persönlichkeitsentfaltungs-Verfahrens gründlich geprüft werden sollte, ob die zugrunde liegende Theorie heutigen wissenschaftlichen Bewertungsmaßstäben standhält. Weiterhin ist dem Einüben der Durchführung und Auswertung ein wesentlich höherer Stellenwert zuzuordnen als bei Leistungstests oder Fragebögen. Welche Diagnosemöglichkeiten bieten Tests und Fragebögen? Die meisten Testverfahren und Fragebögen folgen einem normorientierten Ansatz. Das bedeutet, die Anzahl der richtigen Lösungen einer Person in einem Leistungstest oder die Punktsumme der Antworten in einem Fragebogen werden nicht absolut interpretiert, sondern vielmehr in Relation zu einer Bezugsgruppe gesetzt. Das Ergebnis ist ein Normwert. Der Normwert drückt aus, wie weit der erreichte Punktwert einer Person vom jeweiligen Bezugsgruppenmittelwert entfernt liegt. Dabei dient die Standardabweichung des jeweiligen Normwerts als Maßeinheit. Normwerte haben also ohne Kenntnis der genutzten Bezugsnorm eigentlich keinerlei Bedeutung. Bekannte Normwerte sind IQ-Werte, T-Werte und Standardwerte (SW) (siehe Bühner & Ziegler, 2009, Kapitel 2). Normwerte drücken also die relative Position einer Person auf einem Merkmal, verglichen mit einer Vergleichsstichprobe, aus. Diese vergleichende Einstufung wird häufig bei der Statusdiagnostik benötigt. Natürlich lassen sich auch die Normwerte einzelner Personen miteinander vergleichen, was bei der Konkurrenzauslese notwendig ist. Werden bei einer Person mehrere Eigenschaften erfasst, lässt sich auch ein Profil abbilden. Dies selzt aber voraus, dass die Normstichproben vergleichbar sind, was selten der Fall ist. Ein solches Profil lässt sich auch bei der Prozessdiagnostik für den Verlauf der Veränderung eines Merkmals über die Zeit erstellen. Die ist gerade im Rahmen einer Therapie oft sinnvoll, um bei ungünstigen Therapie-
verläufen gegen zu steuern.
74
Entscheidungsregeln und Operationalisierung
Neben der normorientierten Auswertung gibt es auch eine kriteriumsorientierte Auswertung. Hierbei wird das Ergebnis eines Tests oder Fragebogens nicht mit einer Norm, sondern mit einem festgesetzten Kriterium
verglichen. In der Regel wird dieses Vorgehen bei Prüfungen oder auch im Rahmen von Assessment Centern angewandt. Hier ist es nicht wichtig, zu den Besten zu gehören, um zu bestehen. Vielmehr muss ein bestimmtes Kriterium,
sprich eine bestimmte Punktzahl, erreicht werden. An dieser Stelle sei schon einmal darauf hingewiesen, dass psychologische Tests und Fragebögen nicht messfehlerfrei sind und der reine Punktwert oder Normwert somit nie als absoluter Wert interpretiert werden sollte. Stattdessen ist das Berechnen eines Vertrauensintervalls unumgänglich (siehe 5.1.2 und Bühner, 2010, Kapitel 4.8, S. 184 H.).
Verhaltensbeobachtung Neben Tests und Fragebögen gehören Verhaltensbeobachtungen zum Standardrepertoire der Psychologischen Diagnostik. Daher existieren auch ganze Lehrbücher, die sich mit der Thematik beschäftigen (Renner, in Vorbereitung). So werden Verhaltensbeobachtungen standardmäßig im Rahmen von Assessment Centern durchgeführt. Auch bei der klinisch-psychologischen Diagnostik können Verhaltensbeobachtungen eine große Rolle spielen. Allerdings ist der Einsatz einer Verhaltensbeobachtung meist schwieriger als zunächst gedacht. Daher möchten wir an dieser Stelle auf ein paar Grundregeln eingehen. Dabei lehnen wir uns stark an die DIN33430 an. Die erste wichtige Grundregel ist, dass eine Verhaltensbeobachtung nie einfach so durchgeführt wird, sondern ein konkretes Messziel haben sollte. So dient das Beobachten von Rollenspielen im Assessment Center beispielsweise der Erfassung des Verkaufsgeschicks. In der klinisch-psychologischen Diagnostik kann eine Beobachtung eingesetzt werden, um das Sozialverhalten einer Person zu erfassen.
Eine weitere wichtige Grundregel ist das Einhalten des Beobachtungsprozesses, der in Abbildung 6 dargestellt ist. Den Rahmen für den Beobachtungsprozess bildet der Beobachtungsplan, der sich aus den Schritten der Verhaltensbeobachtung, auf die wir weiter unten eingehen, ergibt. Die Verhaltensbeobachtung selbst sollte aus drei getrennt verlaufenden Phasen bestehen. Zu Beginn nimmt der Beobachter das Verhalten der beobachteten Person wahr. Dabei ist die Aufmerksamkeit so auszurichten, dass das interessierende Verhalten in der größtmöglichen Detailauflösung wahrgenommen werden kann. Allerdings ist es schwer möglich, wirklich das gesamte Verhalten auch zu registrieren. Dies ist auch gar nicht
Die Auswahl geeigneter Methoden
75
Beobachtungsplan (Schritte der Verhaltensbeobachtung)
Abbildung 6
Der Beobachtungsprozess
verlangt, schließlich liegt ein konkretes Messziel vor und die Wahrnehmung richtet sich primär auf relevantes Verhalten. In der zweiten Phase, dem Registrieren, werden die Verhaltensweisen einer Person, die Indikatoren für das
Messziel sind, notiert/dokumentiert. Erst nach dem Registrieren findet das Beurteilen statt. Das bedeutet, die Dokumentation des Verhaltens während der Beobachtung ist - im Idealfall- unvoreingenommen und noch nicht wertend. Eine Wertung des Beobachteten findet erst nach der Beobachtung statt. Die Dokumentation sollte daher möglichst verhaltensnah erfolgen. um das spätere Bewerten zu erleichtern. Werden in einer Verhaltensbeobachtung mehrere Kompetenzen oder Eigenschaften beobachtet, sollte vor der Beurteilung noch eine Klassifikation der dokumentierten Verhaltensweisen erfolgen. Das heißt, für jede notierte Verhaltensweise ist zu entscheiden. für welches der zu beobachtenden Merkmale diese ein Indikator ist. Erst dann erfolgt die Beurteilung. Im Folgenden gehen wir auf die Schritte der Verhaltensbeobachtung ein. die wir in Form von sechs Fragen darstellen. 1. Was wird beobachtet? Am geeignetsten für die Verhaltensbeobachtung ist offenes Verhalten (z. B. verbale Äußerungen. motorische Aktivitäten. Gestik und Mimik). Offenes Verhalten lässt sich direkt beobachten und kann einen Indikator für bestimmte Persönlichkeitseigenschaften darstellen. Abbildung 7 veranschaulicht diese Idee. Die Abbildung zeigt die Hierarchie eines Traits (Eigenschaft). Auf dem obersten Level befindet sich der
76
Entscheidungsregeln und Operationalisierung
Eigenochaft 2
Level 3 (Traits)
Gewolmheit3
Level! (Verhal_weisen)
Abbildung 7
Veranschaulichung von Verhaltensindikatoren
Trait selbst. Dieser ist in der Regel nicht direkt beobachtbar (man spricht auch von latenten Variablen). Zudem handelt es sich um ein vergleichsweise recht abstraktes Konstrukt, was dadurch deutlich wird, dass es auf der 3. Hierarchieebene ist. Es könnte sich hier zum Beispiel um Extraversion handeln. Auf der sich darunter befindenden Ebene sind Gewohnheiten (Habits) verankert. Schließlich folgen auf der untersten Ebene konkrete Verhaltensweisen. Der Unterschied zwischen den unteren beiden Ebenen besteht darin, dass sich Gewohnheiten in mehreren Situationen manifestieren, wohingegen sich Verhaltensweisen in einer ganz konkreten Situation zeigen. Die Verhaltensbeobachtung setzt nun in solch einer konkreten Situation an. Wenn also festgelegt wird, was beobachtet werden soll, dann sollten neben dem Trait oder den Gewohnheiten unbedingt auch die jeweiligen konkreten Verhaltensweisen definiert werden, in denen sich das Messziel in der jeweiligen Situation ausdrückt. Diese werden auch als Verhaltens anker bezeichnet. Ein Definieren solcher Verhaltensanker erleichtert die Verhaltensbeobachtung ungemein, da man dadurch als Beobachter weiß, worauf zu achten ist. Zum anderen hilft es auch, die Beobachtungen zu objektivieren, wenn mehrere Beobachter tätig
Die Auswahl geeigneter Methoden
77
sind. Durch das Festlegen von Verhaltensankern wird sichergestellt, dass unterschiedliche Beobachter alle auf dieselben Anker bzw. Kriterien achten. Abbildung 7 zeigt eine weitere Herausforderung. Neben dem eigentlichen Messziel kann es weitere Messziele geben, die mit dem eigentlichen Messziel korreliert sind. In der Abbildung gibt es eine zweite Eigenschaft, die mit der ersten korreliert. Beim Definieren der Verhaltensanker ist nun unbedingt darauf zu achten, dass keine Verhaltensanker ausgewählt werden, die indikativ für die zweite, korrelierte Eigenschaft sind. Beispielsweise könnte in einem Assessment Center der Anker "einem Mitarbeiter eine Arbeitsanweisung
geben" sowohl für Führungskompetenz als auch für Kommunikationskompetenz stehen. 2. Wo wird beobachtet? Es lassen sich zwei Beobachtungsorte unterscheiden, das Feld und das Labor. Unter einer Beobachtung im Feld versteht man die Beobachtung in einer natürlichen Situation, beispielsweise das Verhalten in einer Schulklasse. Eine Beobachtung im Labor bedeutet, dass der Beobachter eine standardisierte Situation schafft, in der er bestimmte Aspekte manipuliert hat. Zu dieser Kategorie gehören Rollenspiele im Rahmen eines Assessment Centers, bei denen der Bewerber zum Beispiel die Rolle eines Verkäufers einnimmt und ein instruierter Rollenspieler den Part des Kunden mimt. Vor- und Nachteile der Methoden sind in Tabelle 2 zusammengefasst.
Tabelle 2
Wo wird beobachtet? Vorteile
Feld
LabOl'
Natürlicher Ausschnitt • Ergebnisse direkt übertragbar
Gezielte Gestaltung der Bedingungen Kontrolle von Störungen
Nachteile
Kontrolle von Störungen schwierig Verhalten unter Beobachtung verändert Künstliche Situation Vorbehalte der Teilnehmer
3. Wer beobachtet? Auf diese Frage gibt es drei mögliche Antworten: a) aktiv-teilnehmende Beobachtung, b) passiv-teilnehmende Beobachtung und c) nicht-teilnehmende Beobachtung.
78
Entscheidungsregeln und Operationalisierung
Eine aktiv-teilnehmende Beobachtung liegt vor, wenn der Beobachter selbst aktiv an einer Situation teilnimmt und zeitgleich beobachtet. In diesen Situationen ist die Einhaltung des Beobachtungsprozesses besonders schwierig. Wesentlich häufiger sind passiv-teilnehmende Beobachtungen. In diesen Fällen ist der Beobachter zwar in der Situation, greift aber nicht aktiv ein. Wir sprechen in diesem Zusammenhang auch vom Prinzip IIZimmerpflanzell. Eine Zimmerpflanze ist zwar auch Teil einer Situation, wird sicher auch zu Beginn wahrgenommen, trägt aber ansonsten zum Handlungsverlauf nichts und zur Atmosphäre allenfalls minimal etwas bei. Der ideale Beobachter in einer passiv-teilnehmenden Beobachtung verhält sich ebenso. Bei der nichtteilnehmenden Beobachtung ist der Beobachter entweder überhaupt nicht anwesend und die zu beobachtende Situation wird zum Beispiel per Video aufgezeichnet. Andernfalls ist der Beobachter für die beobachtete Person zumindest nicht direkt sichtbar, sitzt beispielsweise hinter einer Einwegscheibe. Vor- und Nachteile der Methoden finden sich in Tabelle 3.
Tabelle 3
Wer beobachtet? Vorteile
Teilneh-
mend
manchmal einzig mögliche Methode Technisch unaufwändig
Nachteile Doppelbe1astung bei aktiver Teilnahme Beobachtete fühlen sich gestört
Nicht Ieilnehmend
Situation nur wenig beeinflusst Fehlerkontrolle möglich
Technischer Aufwand Meist fester Beobachtungsblickwinkel
4. Wann wird beobachtet? Die Beobachtung kann entweder gleichzeitig (direkt) mit dem zu erfassenden Verhalten oder zeitversetzt (indirekt) erfolgen. Die direkte Beobachtung entspricht einer Beobachtung im engeren Sinne. Hier sollte dennoch der Beobachtungsprozess, wie oben beschrieben, durchlaufen werden. Eine indirekte Beobachtung wäre eine rückblickende Einschätzung des Beobachtungsziels. Auch hier sollte man sich während der Beobachtung Notizen machen. Allerdings kann eine solche rückblickende Einschätzung auch im Rahmen eines jährlichen Mitarbeitergesprächs erfolgen. In diesem Fall kann es ohne systematische Instrumente (z. B. Beurteilungsbögen) zu starken Verzerrungen durch Erinnerungslücken oder Urteilerfehler oder -verzerrungen kommen.
Die Auswahl geeigneter Methoden
79
In solchen Fällen spricht man auch von Gedächtnisbeurteilungen. Auch eine Videobeurteilung zählt zu den indirekten Methoden. Sie ermöglicht das wiederholte, auch zeitferne Ansehen, wodurch Fehler vermieden werden können.
Diese Variante ist jedoch technisch und auch zeitlich recht aufwendig und daher oft nicht realisierbar. Vor- und Nachteile sind in Tabelle 4 aufgeführt.
Tabelle 4
Wann wird beobachtet? Vorteile
Direkt
Wenig Interpretation Keine Verzerrung durch Er-
Beschränkte Menge der registrierten Einzeldalen Aufwändige Vorbereitung
Datenaggregation vor der Beurteilung möglich Längere Verhaltensausschnitte
Fehleranfällig für Erinnerungseffekte Qualität abhängig von Einteliung der Beobachtungseinheilen
innerung
Indirekt
Nachteile
5. Womit wird beobachtet? Hier werden vermittelte und unvermittelte Beobachtung unterschieden. Bei einer unvermittelten Beobachtung dient das Urteil eines Beobachters als Messung. Dieses basiert idealerweise auf einer verhaltensverankerten Beurteilungsskala, aber daneben sind keine weiteren Hilfsmittel nötig. Bei einer vermittelten Beobachtung werden technische Hilfsmittel herangezogen. Die Messung ist also sozusagen durch die Technik vermittelt. Solche Hilfsmittel können wiederum Video- oder Audioaufzeichnungen sein. Tabelle 5 enthält Vor- und Nachteile. Tabelle 5
Womit wird beobachtet? Vorteile
Nachteile
Vermittelt
Durch wiederholte Beobachtung Fehlerminimierung möglich
Technische Hilfsmittel nötig Versagen der Anlage führt zu Datenverlust
Unvermittelt
Qkonomisch, wenig Aufwand Uberali einsetzbar
Auf Kompetenz des Beobachters angewiesen Eingeschränkter Beobachtungsaussclmitt
Entscheidungsregeln und Operationalisierung
80
6. Wie wird beobachtet? Diese Frage bezieht sich darauf, ob die Beobachtung strukturiert oder unstrukturiert erfolgt. Bei unstrukturierten Beobachtungen liegt meist kein genaues oder nur ein vage formuliertes Messziel vor (Was fällt bei der Beobachtung auf?). Daher ist es eher eine geeignete Methode, um zunächst Hypothesen über potenzielle Messziele zu generieren. Bei strukturierten Beobachtungen wird hingegen ein konkreter Beobachtungsplan auf Basis der bis hier aufgestellten fünf Fragen definiert. Auch hier haben wir Vor- und Nachteile tabellarisch zusammengefasst (siehe Tabelle 6). Tabelle 6
Wie wird beobachtet? Vorteile
Strukturiert
Liefert quantitative Ergeb-
Vorbereitungsaufwand. hoch
Gibt Beobachtungsrahmen
nötig
Geeignet zur Ersterkundwtg eines Beobachtungsziels Liefert qualitative Ergebnisse
Ergebnisse wenig objektiv und reliabel Abschätzung von Aufwand zu Ertrag schwierig
nisse
vor
UlIlItrukturiert
Nachteile Einübwtg der Beobachter
An dieser Stelle weisen wir darauf hin, dass dieser kurze Abriss lediglich grob einige Grundregeln skizziert. Der interessierte Leser sollte weitere Quellen heranziehen (z. B. Renner, in Vorbereitung).
Interview Interviews gehören wohl in allen Bereichen zu den am häufigsten eingesetzten diagnostischen Methoden. Umso wichtiger ist es, dass der Diagnostiker über fundierte Kenntnisse verfügt. Werden bestimmte Regeln bei der Konstruktion, Durchführung und Auswertung von Interviews nicht befolgt, kommt es schnell zu diagnostischen Fehlurteilen. Der große Reiz des Interviews ist es, dass sich Diagnostiker und zu beurteilende Person in einer direkten Interaktion befinden. So entsteht das Gefühl, dass man sein Gegenüber besser kennenlernt und einschätzen kann. Dennoch ist hier Vorsicht geboten. Auch in Interviews kann es zu Verfälschungen durch die befragte Person kommen, die die Aussagekraft der Informationen einschränken (Levashina & Campion, 2006, 2007)' Aber auch auf der Seite des Interviewers kann es zu Fehlern kom-
Die Auswahl geeigneter Methoden
81
men. Suggestivfragen, ein zu hoher eigener RedeanteiL fehlender Einsatz von Gesprächsverstärkern (z. B. Nicken oder Nachfragen) oder mangelndes Paraphrasieren (Zusammenfassung einer Aussage des Interviewten durch den Interviewer mit eigenen Worten) gehören zu den häufigsten Problemen. Daher empfehlen wir zum einen den Einsatz eines Interviewleitfadens und zum anderen das Prinzip "Backform Während beim Prinzip Zimmerpflanze bei der ll •
Verhaltensbeobachtung kein Einfluss auf die Situation genommen werden soll, ist dieser Einfluss beim Interview sogar erwünscht. Allerdings sollte dieser Einfluss allen interviewten Personen in gleichem Maß zukommen. Dies ist
besonders in high-stakes Situationen (Situationen, in denen die Diagnose für den Begutachteten mit positiven Konsequenzen verbunden sein kann) von Bedeutung. Das bedeutet, als Interviewer sollte man sich einen bestimmten
Stil angewöhnen, der dann bei jeder Testperson gleich angewandt werden kann, eben wie eine Backform. Ein weiterer Vorteil von Interviews ist es, dass sie neben der Informations-
gewinnung durch Fragen auch Verhaltensbeobachtungen ermöglichen. Hier sollte man sich aber auf Aspekte wie die Ausdrucksweise, den Kommunikationsstil oder das Auftreten einer Person beschränken. In jedem Fall sollten auch beim Interview die Phasen des Beobachtungsprozesses eingehalten werden. Dies gilt auch für die durch Fragen gewonnen Informationen, die während des Gesprächs lediglich dokumentiert und erst nach dem Gespräch bewertet werden sollten. Interviews werden nach dem Grad ihrer Strukturiertheit eingeteilt: a) unstrukturierte, b) teilstrukturierte, c) völlig strukturierte und d) standardisierte Interviews. Bei unstrukturierten Interviews liegen keinerlei Hinweise zur Durchführung oder Auswertung vor. Bei allen weiteren Formen liegt jeweils ein Interviewleitfaden vor. Dieser enthält beim teilstrukturierten Interview die zu stellenden Fragen, die der Interviewer vorlesen sollte. Allerdings kann die Reihenfolge dieser frei gewählt werden. Beim völlig strukturierten Interview ist neben den Fragen auch deren Reihenfolge vorgegeben. Das standardisierte Interview gleicht einem vorgelesenen Fragebogen, da neben Fragen und deren Reihenfolge auch die Antwortalternativen vorgegeben sind und vorgelesen werden. Für den Bereich der Personalauswahl oder eines Anamnesegesprächs in der Klinischen Psychologie empfehlen sich teilstrukturierte Interviews. Standardisierte Interviews werden erfolgreich in der Klinischen Psychologie als Teil der Standarddiagnostik eingesetzt (z. B. Das Strukturierte Klinische Interview nach DSM-IV, SKID, Wittchen & Fydrich, 1997). Auch die Fragen, die üblicherweise im Interview gestellt werden, lassen sich unterteilen. Zum einen gibt es sogenannte freie Fragen. Damit ist gemeint,
82
Entscheidungsregeln und Operationalisierung
dass der Interviewer zu beliebigen Themengebieten Fragen formuliert. Hier ist unbedingt darauf zu achten, dass die Frage, die man stellen will, tatsächlich einen Bezug zur jeweiligen spezifischen Hypothese hat. Weiterhin gibt es geschlossene Fragen. Diese ermöglichen dem Interviewten nur sehr eingeschränkt, beispielsweise mit Ja oder Nein, zu antworten. Im Rahmen eines standardisierten Interviews können geschlossene Fragen sehr zielführend
eingesetzt werden. In Interviews, die das breite Sammeln von Informationen zum Ziel haben, eignen sich geschlossene Fragen eher weniger. In diesen Fällen sind offene Fragen, die eine breite Antwort ermöglichen, vorzuziehen. Diese kommen zudem einem natürlichen Gesprächscharakter sehr nahe. Fragen können zudem auf unterschiedliche Aspekte abzielen. Zum einen kann die Biografie oder bestimmte Aspekte der Biografie des Befragten Inhalt der Frage sein. Solche biografischen Fragen beruhen oft auf dem alten psychologischen Leitspruch, dass vergangenes Verhalten der beste Prädiktor für zukünftiges Verhalten sei. Es gibt aber auch Fragen, die eine zumeist hypothetische Situation beinhalten. Diese sog. situativen Fragen sind mentale Simulationen und erfassen, wie sich eine Person vorstellt, sich in einer bestimmten Situation zu verhalten. Die Mischung biografischer und situativer Fragen ist in den meisten Fällen bei der Gestaltung des Interviewleitfadens vorzuziehen. Ähnlich wie bei der Verhaltensbeobachtung umfasst das Thema Interview weit mehr wichtige Aspekte als hier dargestellt werden können. Daher verweisen wir wieder auf weiterführende Literatur (z. B. Renner in Vorbereitung). Welche diagnostische Methode zur Beantwortung einer spezifischen Hypothese am besten geeignet ist, hängt zum einen immer auch vom Messziel selbst ab. So ist es offensichtlich, dass sich Intelligenz am besten mit Tests und nicht mit Fragebogen oder Interview erfassen lässt. Allerdings ist es bei vielen Eigenschaften günstig, multimethodal vorzugehen. So ließe sich Extraversion beispielsweise durch einen Fragebogen und innerhalb eines Interviews erfassen. Dieser Aspekt zeigt noch einmal, dass ein Interview nicht zum Selbstzweck durchgeführt wird, sondern vielmehr, um gezielt Informationen zur Beantwortung der Hypothesen zu sammeln. Das bedeutet, wie bereits angemerkt, dass sämtliche Fragen, die im Interview gestellt und bewertet werden, in einer Beziehung zu den Hypothesen stehen müssen. Unabhängig von der Art der jeweiligen diagnostischen Methode, sind bei der Auswahl dieser Methode eine Reihe von Gütekriterien zu beachten, auf die wir in den folgenden Abschnitten kurz eingehen werden.
Die Auswahl geeigneter Methoden
83
3.3.2 Gütekriterien psychologisch-diagnostischer Verfahren Gütekriterien psychologisch-diagnostischer Verfahren sind Bestandteil der Testtheorie und werden meist in speziellen Vorlesungen behandelt. Daher geben wir hier nur eine kurze Übersicht, die für das weitere Verständnis notwendig ist, und verweisen auf Bühner (ZOlO). Abbildung 8 stellt eine leicht verkürzte Übersicht über die Gütekriterien dar, die zur Beurteilung einer psychologisch-diagnostischen Methode herangezogen werden können. Bei Interviews und Verhaltensbeobachtungen ist es schwer, vorab eine Beurteilung der Gütekriterien treffen zu können, wenn es sich nicht um ein Standardverfahren handelt, welches evaluiert wurde. Oft kommt es vor, dass speziell für die zu beantwortende Fragestellung ein Interview oder eine Verhaltensbeobachtung entwickelt werden. Somit liegen noch keine Gütekriterien vor. Daher gilt hier umso mehr, dass durch eine gute Konstruktion der Grundstein für zufriedensteIlende Gütekriterien gelegt wird. Nichtsdestotrotz soll dies nicht heißen, dass man für Interviews und Verhaltensbeobachtungen Gütekriterien nicht berücksichtigen muss. Das Gegenteil ist der Fall.
Objektivität Ein Verfahren ist objektiv', wenn es weitgehend unabhängig von der Person des Testleiters ist. Das heißt, egal, wer das Verfahren durchführt (Durchführungsobjektivität), auswertet (Auswertungsobjektivität) oder interpretiert (Interpretationsobjektivität), sollte zum selben Ergebnis kommen. Gerade bei Tests und Fragebögen wird dieses Gütekriterium schnell attestiert. Liegen doch standardisierte Instruktionen, Auswertungsschablonen und Normen in den meisten Fällen vor. Sicher sind diese für die Durchführungs- und Auswertungsobjektivität von Bedeutung. Bei der Interpretationsobjektivität ist jedoch Vorsicht geboten. Ein Manual sollte klare Hinweise darauf enthalten, was es bedeutet, in dem Verfahren hohe, durchschnittliche oder geringe Werte zu erzielen. Zudem sollten die angebotenen Interpretationshilfen empirisch untermauert sein. Dies gilt natürlich auch für Persönlichkeitsentfaltungs-Verfahren, Verhaltensbeobachtungen und Interviews.
" An dieser Stelle sei darauf hingewiesen... dass die Gütekriterien sich eigentlich auf das Er-
gebnis eines Verfahrens beziehen und nicht auf das Verfahren selbst. Weiterhin gibt es auch
keine definitiven Beweise für die Erfüllung der Gütekriterien. Vielmehr kann nur Evidenz gesammelt werden. In diesem Sinne kamt Evidenz existieren, die die Annahme unterstützt,
dass ein Testscore objektiv, reliabeI und valide ist.
'" ----l
'"
Kriterium
Konstrukt
Inhalt Ökonomie
'"
Skalierbarkeit
Nutzen
Zumutbarkeit
Normierung
Zusammenfassende und gekürzte Übersicht über Gütekriterien in Anlehnung an Bühner (2010, S. 74)
Retes!
Interpretation
Abbildung 8
Paralleltest
Konsistenz
'"
Validität
t t
Reliabilität
Auswertung
führung
Durch-
Objektivität
I
Hauptgüte'" kriterien
Gütektiterien
Fairness
Nicht-
Vergleichbarlceit
Verfälschbarkeit
ktiterien
N~te'"
~.
1
[
~
1
R
I
B-
a-t>1
~
Die Auswahl geeigneter Methoden
85
Bei Persönlichkeitsentfaltungs-Verfahren ist die Objektivität häufig ein Problem. Vor allem bei der Auswertung können subjektive Verzerrungen auftreten. Daher sind klare Auswertungsschlüssel ein unbedingtes Muss. Dass die Auswertung anhand dieser Schlüssel hinreichend trainiert werden sollte, haben wir bereits weiter oben ausgeführt. Gerade bei Interviews und Verhaltensbeobachtungen ist die Objektivität gefährdet. Neben der Auswertungsobjektivität ist bei beiden Verfahren verstärkt auch die Durchführungsobjektivität gefährdet. Hier helfen Beobachtungsplan bzw. Interviewleitfaden, größere Probleme zu vermeiden. Ein Kennwert für die Objektivität wird in den seltensten Fällen angegeben. Am ehesten finden sich noch bei kommerziellen Interviewsystemen Angaben zu Beobachterübereinstimmungen.
Reliabilität Unter der Reliabilität versteht man die Messgenauigkeit eines Verfahrens. Das bedeutet, es wird quantifiziert, wie genau das Verfahren misst, unabhängig davon, was es tatsächlich misst. So ließe sich eine hohe Messgenauigkeit erzielen, wenn man Körpergröße mit Körpergewicht multiplizieren würde. Trotz der hohen Genauigkeit wäre dies dennoch kein Maß für Intelligenz. Ob der Test misst, was er messen soIL ist vielmehr eine Frage der Validität. Die Reliabilität wird auch definiert als der Anteil der systematischen Varianz an der gesamten beobachteten Varianz eines Messwerts. Um die Reliabilität zu schätzen, existieren verschiedene Methoden, die für Tests und Fragebögen entwickelt wurden, sich aber nur mit Einschränkungen auf Interviews und Verhaltensbeobachtungen anwenden lassen. Der numerische Wert, der bei den Schätzungen resultiert, kann zwischen Null und Eins variieren. Dabei bedeutet ein Wert von Null, dass überhaupt keine systematische Varianz erfasst wurde. Ein Wert von .50 zeigt an, dass die Hälfte der beobachteten Varianz des Messwerts systematisch ist. Ein Wert von Eins bedeutet schließlich, dass völlig messfehlerfrei gemessen wurde. Bei der Internen Konsistenz wird ein Verfahren nur einmal einer Stichprobe zum Bearbeiten vorgegeben. Die Stärke des Zusammenhangs zwischen den Items und die Testlänge haben dann einen positiven Einfluss auf die Reliabilitätsschätzung. Bei der Paralleltestreliabilität existiert von einem Verfahren sozusagen ein Zwilling. Das bedeutet, beide Verfahren beinhalten dieselbe Anzahl an Items, die zudem in Schwierigkeit und Trennschärfe identisch sind. Der Zusammenhang zwischen beiden Verfahren, berechnet durch eine Korrelation, wird
86
Entscheidungsregeln und Operationalisierung
auf den Einfluss derselben systematischen Varianz quelle zurückgeführt und dient somit als Reliabilitätsschätzung. Bei der Schätzung der Reliabilität durch die Retestkorrelation wird ein Verfahren an zwei Zeitpunkten vorgegeben. Dabei heißt es oft, dass ein angemessener Zeitabstand gewählt werden soll. Angemessen bezieht sich hierbei auf die Stabilität des erfassten Konstrukts. Je stabiler ein Konstrukt ist, desto größer kann der Zeitabstand zwischen den Messungen sein. Auch hier dient eine Korrelation zwischen den beiden Messungen als Reliabilitätsschätzung. Zu beachten ist, dass aufgrund der wiederholten Vorgabe, vor allem bei Leistungstests, Übungseffekte auftreten können, die das Ergebnis verzerren. Generell kann es auch zu Erinnerungseffekten kommen, die die Reliabilitätsschätzung verzerren können. Für die Frage, welcher Reliabilitätsschätzer zur Beurteilung eines Verfahrens betrachtet werden sollte, ist die an den Diagnostiker gerichtete Frage ausschlaggebend. Hat die zu beantwortende Frage einen prognostischen Charakter, sollte das Verfahren über eine Reliabiliätsschätzung in Form einer Retestkorrelation verfügen. Bei einer Status diagnostik stellen hingegen die Interne Konsistenz oder Paralleltestkorrelation eine geeignetere Reliabilitätsschätzung dar. Bei der Methodenauswahl sollte hierauf geachtet werden. Es kann vorkommen, dass Verfahren zur Verfügung stehen, die keine Angaben zur Retestkorrelation machen, obwohl eine prognostische Frage vorliegt. Hier ist genau abzuwägen, ob der Einsatz des Verfahrens sinnvoll ist. Bieten sich keine Alternativen, sollte das Fehlen der Retestkorrelation bei der Auswertung berücksichtigt werden. Dies kann beispielsweise dadurch erfolgen, dass man auf andere Studien zurückgreift, die sich generell mit der Stabilität des untersuchten Merkmals beschäftigen. Diese Befunde können genutzt werden, um Rückschlüsse für die Stabilität der eigenen Ergebnisse zu ziehen. Es existiert keine allgemein verbindliche Grenze für die Reliabilität. Im Anhang zur DIN33430 findet sich die Empfehlung, dass der Wert nicht unter .70 liegen sollte, um eine Einzelfalldiagnostik durchzuführen. Je nach Autor finden sich auch andere Richtlinien. Wir werden diesen Aspekt in Kapitel 5 beim Besprechen der Vertrauensintervalle wieder aufgreifen. An dieser Stelle sei nur angemerkt, dass auf Basis der Angaben im Manual eines Verfahrens vor der Datenerhebung bestimmt werden kann, wie groß das zu berechnende Vertrauensintervall werden wird. Fällt dieses zu groß aus und lassen sich an den Parametern zur Berechnung des Intervalls keine Veränderungen verantworten (siehe Kapitel 5), dann sollte ein anderes Verfahren mit einer höheren Reliabilität verwendet werden.
Die Auswahl geeigneter Methoden
87
Validität
Ganz allgemein ausgedrückt versteht man unter der Validität eines Verfahrens, ob dieses tatsächlich das Konstrukt erfasst, das es erfassen soll. Diese
Behauptung lässt sich natürlich nicht direkt prüfen, daher werden verschiedene Arten der Validitätsschätzung postuliert. Die Inhaltsvalidität nimmt gewissermaßen eine Sonderposition ein, da sie
sich nicht direkt durch einen Koeffizienten berechnen lässt. Inhaltsvalidität wird angenommen, wenn aus dem Universum aller möglichen Items, die ein bestimmtes Konstrukt erfassen können, eine repräsentative Menge in dem je-
weiligen Verfahren vorkommt. Meist werden zur Beurteilung Expertenurteile herangezogen. Konstruktvalidität nähert sich der Frage über die Analyse verschiedener Korrelationen bzw. Korrelationsmuster. Die Idee ist, dass ein Verfahren, das Konstrukt A erfasst, mit anderen Verfahren, die ebenfalls Konstrukt A erfassen, vergleichsweise stark korrelieren sollte (konvergente Validität). Dasselbe Verfahren sollte jedoch mit anderen Verfahren, die ein Konstrukt B, C, 0 o. a. erfassen, wesentlich geringer korrelieren (diskriminante oder divergente Validität). Ebenfalls in den Bereich der Konstruktvalidität zählt die faktorielle Validität. Hier wird meist mithilfe faktorenanalytischer Methoden geprüft, ob ein Verfahren die Struktur abbildet, die für das zu erfassende Konstrukt theoretisch angenommen wird. Letztendlich werden psychologisch-diagnostische Verfahren eingesetzt, um spezifisches Verhalten oder Erleben einer Person zu messen. In Kapitel 2 hatten wir bereits von einem Analogieschluss gesprochen. Es wurde angenommen, dass das Abschneiden in einem Verfahren sich auf verschiedene Situationen generalisieren lässt. Aus dieser Perspektive wird auch durch die Kriteriumsvalidität versucht, die Güte eines Verfahrens zu beurteilen. Bei der Kriteriumsvalidität wird das Abschneiden in einem Verfahren mit relevanten Kriterien korreliert. Beispielsweise werden Intelligenztestergebnisse oft mit SchuInoten in Verbindung gesetzt, da angenommen wird, dass Intelligenz einen Zusammenhang mit der Schulleistung aufweisen sollte. Die Beurteilung der Kriteriumsvalidität ist oft nicht einfach. Die reine Korrelation ist von zahlreichen Einflüssen abhängig (z. B. Reliabilität des Prädiktors und Kriteriums, Kriteriumskontamination und -defizienz, Varianzeinschränkung und
Symmetrie der Indikatoren). Um hier wirklich fundierte Urteile treffen zu können, sollten diese Aspekte verinnerlicht werden (siehe Bühner, 2010, S. 68). Andernfalls kann die Kriteriumsvalidität eines Verfahrens schnell zu unrecht als zu gering eingestuft werden.
88
Entscheidungsregeln und Operationalisierung
In jedem Fall machen die Ausführungen zur Validität deutlich, dass man das zu erfassende Konstrukt und seine theoretischen Annahmen sehr gut kennen sollte, um zu beurteilen, ob ein Verfahren eine adäquate Operationa-
lisierung darstellt. Dies verdeutlicht erneut die enge Verknüpfung von Diagnostik und grundlagenorientierter Forschung.
Skalierbarkeit Vor allem bei Tests und Fragebögen wird zur Bewertung in der Regel ein Summenwert gebildet. Bei Leistungstests ist dies häufig die Summe der richtig gelösten Aufgaben und bei Fragebögen die Summe der Zahlen, die hinter den angekreuzten Antwortkategorien festgelegt sind (z. B. Trifft absolut nicht zu = 1, Trifft nicht zu = 2, Trifft zu = 3, Trifft absolut zu = 4). Unter Skalierbarkeit versteht man die Prüfung der Korrektheit dieser einfachen Verrechnungsvorschriften (siehe Bühner, 2010, S. 68). In den folgenden Abschnitten gehen wir nun auf die Nebengütekriterienein. Normierung Viele Tests und Fragebögen erlauben keine absolute Interpretation der erzielten Ergebnisse. So hilft es wenig zu wissen, dass eine Person in einem Intelligenztest '5 von 20 Aufgaben korrekt gelöst hat oder der Summenwert über 20 Extraversionsitems mit einer 4-stufigen Ratingskala 34 ist. Weiter oben hatten wir bereits beschrieben, dass diese einzelnen Rohwerte mit den Ergebnissen einer Vergleichsstichprobe verglichen werden (normorientierte Testung). Diese Vergleichsgruppe wird auch als Normstichprobe bezeichnet und stellt somit ein herausragendes Qualitätsmerkmal eines Verfahrens dar, was durch die Einordnung dieses Kriteriums als Nebengütekriterium etwas verschleiert wird. Normen sollten aktuell sein. Daher legt die DIN33430 fest, dass sie alle acht Jahre bezüglich ihrer Gültigkeit überprüft werden müssen. Zur Beantwortung einer diagnostischen Fragestellung reicht es jedoch nicht aus, dass eine aktuelle Norm vorliegt. Vielmehr muss die Zusammensetzung der Norm auf die jeweilige Fragestellung passen sowie hinreichend repräsentativ sein. Soll beispielsweise im Rahmen einer Personalauswahl eine Person getestet werden, dann sollte die Norm für eine Person nicht das beste Ergebnis erbringen, sondern die Normstichprobe den typischen Bewerbern entsprechen, mit dem die Person konkurriert. Anders sieht es wieder aus, wenn zum Beispiel Fragebögen im Rahmen einer Depressionsdiagnostik eingesetzt werden. llier
sollte die Norm die getestete Person in Bezug auf Alter, Geschlecht und evtI.
Die Auswahl geeigneter Methoden
89
Bildungsgrad möglichst gut repräsentieren. Das Überprüfen, ob eine geeignete Norm vorliegt, muss unbedingt im Rahmen einer Testauswahl erfolgen, da die Ergebnisse andernfalls nur schwer interpretierbar und bei stark verzerrten Normstichproben auch irreführend sind.
Vergleichbarkeit Ein Verfahren ist vergleichbar, wenn es die Möglichkeit bietet, das Ergebnis mit dem Ergebnis in anderen Verfahren mit demselben Messanspruch zu vergleichen. Andere Verfahren können dabei parallele Versionen des eingesetzten Verfahrens sein oder auch andere Verfahren. Dieses Nebengütekriterium ist vor allem im Rahmen von Prozessdiagnostik wichtig, wenn wiederholt gemessen wird. So lässt sich der Einfluss von Übungs- und Transfereffekten minimieren.
Ökonomie Ökonomie ist ein häufig falsch interpretiertes Gütekriterium. Prinzipiell muss vorab gesagt werden, dass sich die Ökonomie eines Verfahrens nur im Vergleich mit anderen Verfahren, die dasselbe Messziel haben, beurteilen lässt. Der Vergleich zwischen den Verfahren bezüglich der Ökonomie sollte dann folgende Aspekte beinhalten: a) Durchführungszeit, b) Materialverbrauch, c) Handhabbarkeit, d) Möglichkeit der Gruppentestung, falls relevant und e) Dauer und Aufwand der Auswertung. Dabei ist allerdings immer zu betonen, dass es je nach Fragestellung auch angemessen sein kann, einen aufwendigeren Test einzusetzen. Vor allem, wenn es um Fragen der Intelligenz- oder Persönlichkeitsstruktur geht, kann es sein, dass ein aufwendigeres Verfahren ökonomischer ist, da der erhöhte Aufwand durch aussagekräftigere Informationen aufgewogen wird. Ökonomie ist also immer eine Frage nach dem Verhältnis von Kosten und Nutzen im Vergleich mit anderen Verfahren und im licht der Bedeutung des Verfahrens für die zu beantwortende Fragestellung.
Zumutbarkeit Ein Verfahren ist zumutbar, wenn es die getestete Person weder in körperlicher, zeitlicher noch psychischer Hinsicht unverhältnismäßig beansprucht. Die Verhältnismäßigkeit ergibt sich dabei meist aus der Bedeutung des zu messenden Merkmals für die Fragestellung, aber auch aus dem Allgemeinzustand der getesteten Person. So ist gerade im neuropsychologischen und im klinischen Kontext diesem Nebengütekriterium besonders Rechnung zu tragen.
90
Entscheidungsregeln und Operationalisierung
Fairness Ein Verfahren ist fair, wenn die Ergebnisse keine für die Fragestellung relevante Gruppe systematisch benachteiligen. So sollte bei einer Konkurrenzauslese das eingesetzte Verfahren keine systematischen Unterschiede zwischen Männern und Frauen aufweisen. Im angloamerikanischen Sprachraum wird hier auch von adverse impact (nachteiligem Einfluss) gesprochen.
Nuk;en Das Nebengütekriterium Nützlichkeit oder Nutzen ist erfüllt, wenn das Verfahren ein Konstrukt erfasst, für dessen Untersuchung es ein praktisches Bedürfnis gibt. Das bedeutet auch" das Verfahren sollte nicht vorgeben, etwas zu erfassen, das bereits durch andere Verfahren hervorragend erfasst werden kann, es dann aber neu benennen.
Nicht-Verfälschbarkeit Dieses Nebengütekriterium wird häufig herangezogen, um zu begründen, warum Fragebögen nicht in einem diagnostischen Prozess eingesetzt werden. Schließlich ist es nicht schwer, sich in einem Fragebogen besser (Fake good) oder schlechter (Fake bad) darzustellen. Allerdings erfüllen auch die meisten Leistungstests dieses Kriterium nicht völlig. Es ist meist auch bei diesen Verfahren möglich, sich schlechter darzustellen. Das Problem der Verfälschung ist somit wahrscheinlich vorerst nicht aus der Welt zu schaffen. Im Rahmen einer Diagnostik sollte man sich daher überlegen, wie man mit dem Problem umgehen möchte (siehe auch Kapitel 4). Neben diesen Haupt- und Nebengütekriterien gibt es weitere Aspekte, die im Rahmen der Operationalisierung der spezifischen Hypothesen in Erwägung gezogen werden sollten. Weitere Aspekte Häufig kommt es in der Diagnostik vor, dass Verfahren eingesetzt werden, um in den Extrembereichen eines Konstrukts zu differenzieren (z. B. Hochoder Minderbegabungsdiagnostik). Dabei kann erwartet werden, dass die erhaltenen Messwerte sich in den Extrembereichen des zu messenden Merkmals befinden. Extreme Messwerte werden in der Regel ungenauer erfasst als Messwerte mittlerer Merkmalsausprägungen. Es kann nun sein, dass gerade bei extremen Merkmalsausprägungen das statistische Phänomen der Regression zur Mitte auftritt. Damit ist gemeint, dass es bei erneuter Messung wahrscheinlicher wäre, dass der zweite beobachtete Messwert weniger extrem ausfällt und zur Mitte tendiert. Damit kann man umgehen, indem für beson-
Die Auswahl geeigneter Methoden
91
ders schwerwiegende Entscheidungen das betreffende Merkmal mindestens zweimal mit unterschiedlichen Verfahren (z. B. zwei Intelligenztests) gemessen wird. Treten in beiden Fällen extreme Messwerte auf, kann eine Regression
zur Mitte weitestgehend ausgeschlossen werden und eine allzugroße Messungenauigkeit auch. Dies setzt natürlich voraus, dass es zu dem eingesetzten Verfahren eine parallele Version oder ein Verfahren mit demselben Messanspruch sowie vergleichbaren Normen gibt. Alternativ lässt sich auch ein Vertrauensintervall nach Regressionshypothese (siehe Kapitel 5) berechnen. Ein verwandtes Problem stellen Test-, Übungs- und Transfereffekte dar. Diese Thematik ist vor allem auch im Rahmen der Prozessdiagnostik relevant. So konnten Bühner et al. (2006) zeigen, dass die wiederholte Bearbeitung eines Konzentrationstests zu starken Übungsgewinnen führen kann. Gleiches hat sich auch für Intelligenztests - aber in geringerem Ausmaß - gezeigt. Hier konnten Hausknecht et al. (2007) zeigen, dass eine wiederholte Testung im Durchschnitt zu einer Verbesserung um .26 Standardabweichungen führt. Verallgemeinernd lässt sich also festhalten, dass der wiederholte Einsatz, vor allem desselben Tests, zu Hinzugewinnen führen kann. Transfereffekte auf andere Verfahren treten hingegen wesentlich seltener auf. Bei der Operationalisierung von Hypothesen in der Prozess diagnostik ist also sehr gut zu überlegen, welche Verfahren eingesetzt werden. Diese sollten idealerweise Parallelformen haben oder mehrere andere Verfahren sollten existieren, die
einen vergleichbaren Messgegenstand haben. Das Verwenden anderer Verfahren, die denselben Messanspruch haben, sollte allerdings sehr wohl überlegt sein und nicht alleine darauf basieren, dass die verschiedenen Tests oder Fragebögen alle denselben Konstruktnamen verwenden. So konnten Pace und Brannick (2010) anhand einer MetaAnalyse zwar zeigen, dass für verschiedene Operationalisierungen von Konstrukten die konvergente Validität höher ausfiel als die diskriminante, insgesamt waren die konvergenten Korrelationen jedoch weitaus geringer als wünschenswert. Das bedeutet, nur weil zwei Verfahren vorgeben, dasselbe zu erfassen, muss das noch lange nicht der Fall sein. Im Rahmen eines diagnostischen Prozesses kann dies jedoch zu diskrepanten Ergebnissen führen, die im Nachhinein schwer zu erklären sind. Daher sollte bei der VerfahrensauswahI genau darauf geachtet werden, wie ein Konstrukt im jeweiligen Verfahren definiert ist und mit welchen ltems es erfasst wird. Nur, wenn für zwei oder mehr Verfahren hier eine hohe inhaltliche Konvergenz vorliegt, sollten diese Verfahren zur Erfassung desselben Konstrukts eingesetzt werden. Weiter oben hatten wir besprochen, dass ein Verfahren über eine der Fragestellung angemessene Norm verfügen sollte. Es gilt jedoch auch, dass die
92
Entscheidungsregeln und Operationalisierung
Formulierungen und Verfahrensinhalte der Zielgruppe angemessen sein sollten. So ist es wenig ratsam bei der Intelligenzdiagnostik im Kreise von Führungskräften Verfahren einzusetzen, deren Items sehr stark einen schu-
lisch geprägten Charakter haben. Geeigneter sind hier sicher Verfahren, deren Items stärker auf den beruflichen Kontext zugeschnitten sind. Hierbei sollte man jedoch nicht vergessen, dass die berufliche Spezifikation nicht anderen Haupt- oder Nebengütekriterien übergeordnet werden darf. Schließlich gibt es noch zwei weitere Gütekriterien, die vor allem in der Klinischen Psychologie relevant sind. Dies sind zum einen die Sensitivität und zum anderen die Spezifität. Beide Aspekte beschäftigen sich damit, wie gut ein Verfahren zwischen Gruppen trennen kann. Die Sensitivität drückt dabei aus, wie hoch der Anteil der tatsächlich "KrankenIl ist, die ein Verfahren
auch korrekt als solche klassifiziert. Spezifität hingegen gibt den Anteil der tatsächlich "Gesunden" an, die korrekt erkannt werden. Welcher Aspekt der wichtigere ist, hängt immer auch von der spezifischen Fragestellung ab (siehe Kapitel 5). Im diagnostischen Prozess sind nun Hypothesen und Entscheidungsregeln aufgestellt und die diagnostischen Verfahren ausgewählt. In manchen Fällen kann es vorkommen, dass nach der Auswahl der Verfahren eine Feinabstimmung der Entscheidungsregeln notwendig wird. Beispielsweise, wenn Tests verwendet werden und die Regeln auf die jeweiligen Normwerte angewandt werden müssen. Das Ergebnis ist dann die sogenannte Assessment Matrix, die wir im Folgenden für unser Fallbeispiel ableiten werden. 3.4
Fallbeispiel
In unserem Fallbeispiel geht es um die Besetzung einer DoktorandensteIle im Bereich der Psychologischen Diagnostik. In Kapitel 2 haben wir bereits ein Anforderungsprofil erstellt und entsprechende Hypothesen abgeleitet. Im nächsten Schritt müssen für die gefundenen Hypothesen nun Entscheidungsregeln aufgestellt werden. Hiernach erfolgt eine Operationalisierung, also die Auswahl der Erfassungsmethoden. In Fällen, in denen zur Beantwortung einer Hypothese mehr als ein Verfahren eingesetzt wird, ist es dann wiederum notwendig, Entscheidungsregeln für die Integration der entsprechenden Verfahren innerhalb einer Hypothese aufzustellen. Das Ergebnis dieses Prozesses für unser Fallbeispiel haben wir in Tabelle 7 zusammengefasst. Das Aufstellen der Entscheidungsregeln muss immer im Hinblick auf die Fragestellung geschehen. Allerdings ist es oft schwierig, jede einzelne Hy-
Fallbeispiel
93
pothese mit Blick auf die Gesamtfragestellung direkt zu entscheiden. Daher gehen wir hier so vor, dass wir zunächst Entscheidungsregeln für die einzelnen Bereiche (KSA+P) aufstellen. Zur Beantwortung der Gesamtfragestellung legen wir eine Mischregel fest. Da in den Bereichen Persönlichkeit und Fähigkeiten Veränderungen nur sehr schwer erzielbar und Defizite hier kaum schnell behebbar sind. soll hier konjunktiv entschieden werden. Für die Bereiche Wissen und Fertigkeiten gehen wir davon aus, dass Defizite ausgleichbar sind. Hierfür legen wir allerdings Randbedingungen fest. Diese sind das Erfüllen der Anforderungen bezüglich der Allgemeinen Intelligenz sowie des Leistungsstrebens (Begründung siehe Hypothese zum Wissen in der Persönlichkeitspsychologie). Somit müssen die Bereiche Persönlichkeit und Fähigkeit positiv entschieden werden. Bei den Fertigkeiten und Wissen können Defizite durch Allgemeine Intelligenz und Leistungsstreben kompensiert werden, um insgesamt positiv entscheiden zu können und von Eignung zu sprechen. Das heißt, hier verfolgen wir eine Oder-Regel, die mit einer erneuten konjunktiven Regel kombiniert ist: Erfüllen der Anforderungen im Bereich Wissen und Fertigkeiten oder Erfüllen der Anforderungen für die Allgemeine Intelligenz und Leistungsstreben. 3.4.1 Wissen Im Bereich Wissen (Knowledge) haben wir zunächst definiert, wie die Ergebnisse zu den einzelnen Hypothesen insgesamt zu bewerten sind. Wir haben uns hierbei für eine Mischstrategie entschieden: Das Wissen in den Bereichen Diagnostik, Methoden und Englisch ist nicht kompensierbar. Hier ist zur Integration eine konjunktive Regel notwendig. Die Mindestanforderungen in diesen Bereichen müssen also alle erfüllt sein. Das Wissen im Bereich Persönlichkeitspsychologie ist jedoch kompensierbar, da wir davon ausgehen, dass dieses Wissen auch während der Promotion noch erlernbar ist. Für die Kompensation, also das Ausgleichen eines Nichterreichens dieser Mindestanforderung, setzen wir dieselben zwei Bedingungen wie für die Gesamtentscheidung: Zum einen müssen die Anforderungen bei Leistungsstreben erfüllt werden und zum anderen auch die Anforderungen bei der Allgemeinen Intelligenz erfüllt sein. Unter diesen Umsländen ist davon auszugehen, dass ausreichend Ehrgeiz und kognitive Leistungsfähigkeit vorliegen, um das Defizit aufzuholen. Bis auf die Anforderung im Bereich Persönlichkeitspsychologie gehen wir also davon aus, dass es sich bei den anderen Anforderungen um K O-Kriterien
94
Entscheidungsregeln und Operationalisierung
handelt. Die zu besetzende Stelle ist zeitlich befristet und der Stelleninhaber muss bereits nach kurzer Zeit in der Lage sein, mit der eigenen Qualifikationsarbeit zu beginnen bzw. Wissen in der Lehre zu vermitteln. Zeitaufwendige Lernanstrengungen sind hier schwer möglich. Daher haben wir lediglich für einen Bereich, der vermeintlich die schnellste und kognitiv am wenigsten anspruchsvolle Wissensaneignung erlaubt und zugleich nicht unmittelbar die Lehre beeinflussen muss, eine Kompensation vorgesehen. Bei der Operationalisierung der einzelnen Hypothesen haben wir in den meisten Fällen eine Kombination aus der Note im jeweiligen Fach im Diplomzeugnis bzw. Vordiplomzeugnis sowie dem Abschneiden im Interview vorgesehen. Im Fall der Englischkenntnisse liegt die letzte Prüfung mit dem Abitur zu weit zurück, so dass wir hier, zusätzlich zum Interview, eine Arbeitsprobe
vornehmen. Angedacht ist sowohl das Lesen eines kurzen englischen Abschnitts mit anschließender Wiedergabe der Inhalte, als auch das Verfassen eines eigenen kurzen Abschnitts in englischer Sprache beispielsweise zum
Thema der Diplomarbeit. Die Zeugnisnoten sollten jeweils mindestens gut (2) sein. Für die Bewertung des Interviews bzw. der Arbeitsproben werden verhaltensverankerte Ratingskaien (siehe Kapitel 5) mit den Stufen ,1' - nicht geeignet, ,2' - wenig
geeignet, ,J' - geeignet und 4' - sehr geeignet eingesetzt. Ein Wert von 3 wird jeweils mindestens angestrebt. Die Entscheidungsregeln für das Zusammenfassen der Verfahren innerhalb der Hypothesen sind alle konjunktiv. Es ist also sowohl mindestens eine Note mit dem Prädikat gut als auch eine Bewertung mit mindestens 3 im Interview notwendig, um die jeweilige Hypothese zu bejahen. Für die Anforderungen im Bereich Englisch sollte in jedem Verfahren auf der verhaltensverankerten Ratingskala mindestens ein Wert von 3 erreicht werden. Es würde an dieser Stelle zu weit führ"", das genaue Vorgehen bei der Erstellung des Interviewleitfadens zu erläutern. Es sei lediglich die Bemerkung erlaubt, dass sich hier natürlich Wissensfragen anbieten würden.
3.4.2 Fertigkeiten Im Bereich der Fertigkeiten (Skills) haben wir insgesamt sieben Hypothesen aufgestellt, die ein sehr breites Feld abdecken. Es ist recht unwahrscheinlich, dass Bewerber hier tatsächlich alle geforderten Fertigkeiten bereits mitbringen. Daher haben wir uns für eine Mischung aus einer konjunktiven und
Fallbeispiel
95
einer kompensatorischen Entscheidungsregel entschieden. Grundsätzlich sollen mindestens fünf der sieben Anforderungen erfüllt sein (kompensatorisch), wobei jedoch die Hypothese 11 in jedem Fall erfüllt sein muss (konjunktiv). Da es sich um Fertigkeiten handelt, eignen sich besonders Arbeitsproben, um die einzelnen Hypothesen zu prüfen. Für unser Fallbeispiel könnte man den Bewerbern einen Datensatz und einen pe mit einer konkreten Fragestellung zur Verfügung stellen (z. B. einen Datensatz mit der Fragestellung mit den entsprechenden Variablen eine zweifaktorielle Varianzanalyse sowie eine einfaktorielle Varianzanalyse mit Messwiederholung durchzuführen und das Vorgehen sowie die Ergebnisse anschließend zu erläutern). Hier ließen sich auch direkt die Hypothesen 8 und 9 mit abprüfen. Auch hier bietet sich zur Bewertung wieder eine vierstufige, verhaltens-
verankerte Ratingskala an. Die Bewerber sollten dann wiederum mindestens einen Wert von 3 erzielen, um die entsprechende Anforderung als erfüllt anzusehen.
Für die letzte Hypothese in diesem Bereich würde es sich anbieten, den Bewerber seine Diplomarbeit vorstellen zu lassen. Alle Bewerber sollten hier große Expertise haben, so dass keine Verzerrungen aufgrund unterschiedlicher Wissensniveaus zu erwarten sind. Zur Bewertung kann wieder eine vierstufige verhaltensverankerte Ratingskala eingesetzt werden. 3.4.3 Fähigkeiten
Im Bereich der Fähigkeiten haben wir zwei Hypothesen. Da es sich bei beiden Hypothesen um Intelligenz handelt, werden wir hier zur Erfassung Tests nutzen. Eine Besonderheit ist, dass die beiden Anforderungen nicht unabhängig voneinander sind. Verbale Intelligenz ist ein untergeordneter Faktor im Konstrukt Allgemeine Intelligenz. Zudem wird in den meisten Tests der Wert für die Allgemeine Intelligenz als Summe oder Durchschnitt aller im Test erfassten Bereiche ermittelt. Somit liegt hier sowohl theoretisch als auch durch die Verrechnungsvorschrift eigentlich ein kompensatorisches Verhältnis vor. Dennoch haben wir uns für eine konjunktive Strategie entschieden. Zum einen zeigen empirische Studien den Wert spezifischer Intelligenzfacetten, vor allem verbaler Intelligenz (Ziegler, et al., 2010). Zum anderen ist Intelligenz gerade für den anfänglichen Berufserfolg sehr wichtig und kann nur schwerlich kompensiert werden (Lindqvist & Vestman, 2011). Daher haben wir uns für eine konjunktive Regel entschieden.
keitspsychologie?
differenzielle und Persönlich-
gieabsolventen über überdurchschnittliches Wissen im Bereich
H3: Verfügt der Bewerber im Vergleich zu anderen Psycholo-
gieabsolventen über überdurchschnittliches Wissen im Bereich Methoden und Statistik?
H2: Verfügt der Bewerber im Vergleich zu anderen Psycholo-
gieabsolventen über überdurchschnittliches Wissen im Bereich Psychologische Diagnostik?
Zeugnis Interview
Zeugnis Interview
Zeugnis Interview
Verfahren
Assessment Matrix Fallbeispiel
Hl: Verfügt der Bewerber im Vergleich zu anderen Psycholo-
Wissen
Hypothese
Tabelle 7
X
der Methodeniehre wenigstens 2.0 sein. Im Interview mindestens 3 von 4 Punkten)
(Im Zeugnis sollte die Diplomnote in
X
(Im Zeugnis sollte die Diplomnote wenigstens 2.0 sein. Im Interview mindestens 3 von 4 Punkten)
X
Konjunktiv tori.ch
Kompensa-
Entscheidungsregel Hypothese
torisch
Knmpensa-
x
Mischung
Das Wissen in den Bereichen Diagnostik, Methoden und Englisch ist nicht kompensierbar. Diese Bereiche müssen alle erfüllt sein,. um den Bereich positiv zu beantworten. Das Wissen im Bereich Persönlichkeitspsychologie ist auch während der Promotion noch erlernbar. Daher kann es kompensiert werden" wenn die Anforderungen bei Leistungsstreben erfüllt werden. Neben diesem Aspekt muss dann auch die Anforderung bei der Allgemeinen Intelligenz erfüllt sein.
junktiv
Kon-
Entscheidungsregel Bereich
1"
~.
[
~
1
R
I
B-
a-t>1
~
X
Arbeitsprobe (Datensatz mit entsprechender Fragestellung wird übergeben und Ergebnisse sollen in Power Point dargestellt werden.)
H6: Kann der Bewerber eine konfirmatorische FaktorenanaIy.. durchführen?
(mindestens 3 Punkte in verhaltensverankerter Ratingskala)
X
(mindestens 3 Punkte in verhaltensverankerter Ratingskala)
von 4 Punkten)
Arbeitsprobe (SPSS Datensatz mit entsprechenden Fragestellungen wird übergeben und Ergebnisse sollen in Power Point dargestellt werden.)
weiteren Absatz selbst schreiben.) Interview
X (In beiden Verfahren mindestens 3
Konjunktiv
pensatorisch
Kom-
Enlscheidungsregel Hypothese
H5: Kann der Bewerber Varianzanalysen mit unterschiedlichem Design mit SPSS durchführen?
Fertigkeiten
Arbeitsprobe (Kurzen Absatz in Englischer Sprache lesen und
H4: Verfügt der Bewerber über eine im Vergleich zu gleichaltrigen und ähnlich akademisch ausgebildeten Personen über nrindestens durchschnittliche Englischkenntnisse? ~tvnede~e~
Verfaluen
Hypothese
pensatorisch
Kom-
x
schung
Mi-
Mindestens 5 der 7 spezifischen Hypothesen sollten positiv beantwortet werden. Dabei muss die letzte Hypothese auf jeden Fall positiv beantwortet werden.
junktiv
Kon-
Entscheidungsregel Bereich
~
ft
'"Cl
~.
g;
;;J'
Arbeitsprobe (als Teilaufgabe bei Punkt 1
Arbeitsprobe
HlO: Kann der Bewerber für einen Kurzaufsatz ein literaturverzeichnis mit Endnote erstellen?
Skills)
Skills)
Arbeitsprobe (als Teilaufgabe bei Punkt 1
den.)
H9: Kann der Bewerber eine verständliche Erläuterung zur Interpretation einer Interaktion in der Varianzanalyse als Skriptausschnitt für Studeoten verfassen?
tion verstehen?
Studiereode dessen Interpreta-
H8: Kann der Bewerber ein Interaktionsdiagramm aus der 2-faktoriellen Varianzanalyse aus SPSS in Powerpoint einfügen und so modifizieren. dass
Arbeitsprobe (Daten-
H7: Kann der Bewerber ein Mixed-Rasch-Modell für ordinale Daten durchführen? satz mit entsprechender Fragestellung wird übergeben und Ergebnisse sollen in Power Point dargestellt wer-
Verfahren
Hypothese
Ratingskala)
Punkte in verhaltensverankerter
(mindestens 3
X
Ratingskala)
Punkte in verhaltensverankerter
X
(mindestens 3
Ratingskala)
Punkte in verhaltensverankerter
(mindestens 3
X
Ratingskala)
Punkte in verhaltensverankerter
X
(mindestens 3
Konjunktiv pensatorisch
Kom-
Entscheidungsregel Hypothese Kon-
junktiv
pensatorisch
Kom-
Mi-
schung
Entsdteidungsregel Bereich
1"
~.
[
~
1
R
I
B-
a-t>1
~
H14: Verfügt der Bewerber über eine im Vergleich zu Gleichaltri.gen mindestens durchschnittliche Gewissenhaftigkeit?
Persönlichkeit NEO-PI-R Interview
(Im NEO muss das untere Ende des KI über einem. T-Wert von 40 liegen UND 3 von 4 Punkten im Interview)
X
Mindestens 4 der 6 spezifischen Hypothesen sollten positiv beantwortet werden" Verträglichkeit aber in jedem Fall positiv.
X
X
Verbale Skala aus dem WIT2
H13: Verfügt der Bewerber im Vergleich zu gleichaltrigen und äbnlich akademisch ausgebildeten Personen über eine mindestens durchschnittliche verbale Intelligenz? (Unteres KI Ende sollte über IQ BS liegen oder KI sollte 100 beinhalten)
Intelligenz ist kaum veränderbar, sehr wichtig für den anfanglichen Berufserfolg und einer der wichtigsten Prädiktoren, daher gehen wir davon aus, dass im Rahmen dieser Fragestellung keine Kompensation möglich ist.
Misehung
X
(Unteres KI Ende sollte über IQ BS liegen oder KI sollte 100 beinhalten)
Kompensatoriseh
APM
junktiv
Kon-
H12: Verfügt der Bewerber im Vergleich zu gleichaltrigen und ähnlich akademisch ausgebildeten Personen über eine mindestens durchschnittliche Allgemeine Intelligenz?
(mindestens 3 Punkte in verhaltensverankerter Ratingskala)
X
Kompensatoriseh
Entsdteidungsregel Bereieh
X
Arbeitsprobe (Darste1lung der Diplomarbeit)
Hll: Kann der Bewerber auch komplexe Themen verständlich referieren?
Konjunktiv
Entscheidungsregel Hypothese
Fähigkeiten
Verfahren
Hypothese
'" '"
ft
'"Cl
~.
.g;...,
NEO-Pl-R Interview
NEO-Pl-R Interview
NEO-Pl-R Interview
H15: Verfügt der Bewerber über
H16: Verfügt der Bewerber über ein im Vergleich zu gleichaltrigen Personen mindestens durchschnittliches Leishmgsstreben?
H17: Verfügt der Bewerber über
altrigen Personen mindestens durchschnittliche Verträglichkeit?
eine im Vergleich zu gleich-
altrigen Personen mindestens durchschnittliche Geselligkeit?
eine im Vergleich zu gleich-
Verfaluen
Hypothese
(hn NEO muss das untere Ende des KI über einem T-Wert von 40 liegen UND 3 von 4 Punkten im Interview)
X
(hn NEO muss das untere Ende des KI über einem T-Wert von 40 liegen UND 3 von 4 Punkten im Interview)
X
(hn NEO muss das untere Ende des KI über einem T-Wert von 40 liegen UND 3 von 4 Punkten im Interview)
X
Konjunktiv
Kompensatorisch
Enlscheidungsregel Hypothese Konjunktiv
Kompensatorisch Mischung
Entscheidungsregel Bereich
.....
1"
~.
[
~
1
R
I
B-
a-t>1
es
Verfahren
NEO-PI-R Interview
AIST-R Interview
Hypothese
HiS: Verfügt der Bewerber über eine im Vergleich zu gleichaltrigen Personen mindestens durchschnittliche Frustrationstoleranz?
H19: Entspricht das berufliche Interessenprofil des Bewerbers dem Profil der Stelle? X
(Im AIST sollte eine hohe Kongruenz mit dem Code lCA (Hochschulassistent) vorliegen UND 3 von 4 Punkten im Interview)
(Im NEO muss das untere Ende des KI über einem T-Wert von 40 liegen UND 3 von 4 Punkten im Interview)
x
pensatorisch
Kompensatorisch Mischung
Konjunktiv
Konjunktiv Kom-
Entsdteidungsregel Bereich
Entscheidungsregel Hypothese
s
ft
'"Cl
~.
g;
;;J'
102
Entscheidungsregeln und Operationalisierung
Zunächst stellt sich die Frage, ob ein oder mehrere Tests eingesetzt werden sollen. Wir haben uns hier für jeweils ein Verfahren entschieden. Die Bewerber haben alle ein Numerus-Clausus-Fach studiert und demnach ist bereits eine Vorauswahl anhand kognitiver Fähigkeiten erfolgt. Für die Erfassung der verbalen Intelligenz kommen verschiedene Verfahren in Frage. So ließe sich diese Fähigkeit beispielsweise mit dem IST 2000 R (Amthauer, Brocke, Liepmann, & Beauducei, 2001), dem WIT 2 (Kersting, Althoff, & Jäger, 2008) oder dem BIS Gäger, Süß, & Beauducel, 1997) erfassen. Um nun zu entscheiden, welcher der vielen Tests wirklich geeignet sind, sollten die Gütekriterien geprüft und verglichen werden. Es empfiehlt sich zunächst genau zu prüfen, ob die ausgewählten Verfahren über die notwendigen Normen, in unserem Fall ca. 25 bis 30jährige Personen, verfügen. Dies ist beim BIS nicht der Fall, der somit entfällt. Ein weiterer Schritt ist die genaue Prüfung, was im Test eigentlich genau erfasst wird, wenn von verbaler Intelligenz gesprochen wird. Im IST 2000 R werden hierfür die Subtests Analogien, Gemeinsamkeiten und Satzergänzung angewandt (für Beispiele siehe Amthauer et aI., 2001). Beim WIT 2 sind es Analogien und Gleiche Wortbedeutung (für Beispiele siehe Kersting, Althoff & Jäger, 2008). Es kann also angenommen werden, dass die Inhaltsvalidität vergleichbar ist. Ebenso sind die anderen VaIiditätsbelege beider Verfahren überzeugend. Diese Aspekte bringen also noch keine Entscheidung. Für unsere Fragestellung ist es wichtig, dass die gemessene Fähigkeit stabil ist. Daher ist eine Retestreliabilitätsschätzung einer Internen Konsistenzschätzung vorzuziehen. Diese liegt für den WIT 2 vor und beträgt für ein neun Monatsintervall .80. Für den IST 2000 R gibt es keine vergleichbare Angabe. Auch der Aspekt der Ökonomie ist beim WIT 2 und dem IST 2000 R gegeben. Beide sind als Gruppentests durchführbar und erlauben so eine sehr detaillierte und theoretisch fundierte Aussage über die Intelligenz in vergleichbarer Zeit. Ein leichter Vorteil ist hier beim WIT 2 zu sehen, der insgesamt weniger Items benötigt, um die verbale Intelligenz zu erfassen, ohne Reliabilitäts- oder VaIiditätseinbußen. Bezüglich der Objektivität sind beide Verfahren in hohem Maße vergleichbar. Von den Nebengütekriterien bleiben nun noch Zumutbarkeit, Nutzen, Verfälschbarkeit, Fairness und Vergleichbarkeit. Auch hier zeigen sich keine nennenswerten Unterschiede. In der Summe der einzelnen Vergleiche haben wir uns für den WIT 2 zur Erfassung der verbalen Intelligenz entschieden. Durch ein ähnliches Vorgehen haben wir uns zur Erfassung der Allgemeinen Intelligenz für die APM (Raven et aI., 1998) entschieden.
Fallbeispiel
103
Da wir hier Tests einsetzen, die die Angabe von Normwerten (IQ-Werte) erlauben, müssen wir an dieser Stelle festlegen, wie die Entscheidungsregel auf diese angewandt werden soll. In beiden Hypothesen haben wir gefordert, dass mindestens eine durchschnittliche Ausprägung vorliegen soll. Dementsprechend muss die Beurteilung des Konfidenzintervalls (siehe Kapitel 5) durchschnittlich lauten. Dies bedeutet, dass das untere Ende des Konfidenzintervalls über einem IQ-Wert von 85 liegen muss oder das Konfidenzintervall den Wert 100 beinhalten sollte. 3.4.4 Persönlichkeit
Für den Persönlichkeitsbereich haben wir sechs Hypothesen aufgestellt. Ähnlich wie bei den Fertigkeiten ist es zunehmend unwahrscheinlich, dass eine Person in allen Bereichen die Mindestanforderungen erfüllt. Wir haben demzufolge hier wiederum eine Mischstrategie zur Integration vorgesehen. So sollen mindestens vier der sechs Bereiche positiv beantwortet werden, dazu muss jedoch die Verträglichkeit in jedem Fall gehören. Diese ist vor allem für den Erfolg und die Produktivität des Teams wichtig (siehe Kapitel 2). Auch in diesem Bereich haben wir das Problem, dass Leistungsstreben eine Facette der Gewissenhaftigkeit ist, hier also wieder eine Abhängigkeit und damit eine Kompensation besteht. Wie in Kapitel 2 aufgezeigt, sind jedoch beide Eigenschaften kriteriumsvalide. Zudem beinhaltet das Konstrukt Gewissenhaftigkeit, wenn es ausreichend breit erfasst wird, zahlreiche weitere Facetten, so dass die Kompensation durch hohe Werte im Bereich Leistungsstreben alleine eher gering ausfällt. Zur Operationalisierung haben wir hier jeweils einen Fragebogen als auch ein Interview vorgesehen. Es ist kein unbekanntes Phänomen, dass Persönlichkeitsfragebögen in Auswahlprozessen von ca. 30 % der Bewerber verfälscht werden (Ziegler, MacCann & Roberts, 2011). Daher ist vorgesehen, die Ergebnisse des Fragebogens als Gesprächsgrundlage für das Interview zu nutzen und durch entsprechende biografische und situative Fragen zu validieren. Hier eignet sich wieder eine verhaltensverankerte Ratingskala zur Bewertung des Interviews. Nach einem Entscheidungsprozess wie für die verbale Intelligenz beschrieben, haben wir uns für das NEO-PI-R (Ostendorf & Angleitner, 2004) sowie den AIST-R (Bergmann & Eder, 2005) entschieden. Beim NEO-PI-R erhalten wir wieder Normwerte (T-Werte). Die Hypothesen zielen auf eine
104
Entscheidungsregeln und Operationalisierung
mindestens durchschnittliche Ausprägung ab. Daher sollte das Konfidenzintervall über einem T-Wert von 40 liegen oder die 50 beinhalten. Der AIST-R erlaubt neben der Berechnung von Normwerten auch das Bestimmen eines sogenannten Holland-Codes. Dieser Code aus drei Buchstaben steht für die drei dominanten Interessen einer Person und kann sich aus den Interessenbereichen realistisch (R), investigativ (I), künstlerisch (A), sozial (5), unternehmerisch (E) und konventionell (C) zusammensetzen. Für unsere Stelle empfiehlt das Manual einen Code aus investigativ, konventionell und künstlerisch. Das Profil der Bewerber sollte also möglichst hiermit übereinstimmen. Allerdings erfassen wir wie bereits angesprochen jede Eigenschaft zusätzlieh im Interview. Hier sollte jeweils ein Rating von mindestens drei auf einer verhaltensverankerten Ratingskala erzielt werden. Als Entscheidungsregel pro Hypothese haben wir uns für eine konjunktive Regel entschieden. Das heißt, das Kriterium muss im Fragebogen und im Interview erfüllt sein. So lässt sich vermeiden, dass Personen nur aufgrund von Verfälschung die Anforderungen erfüllen.
mWeiterführende Literatur Borsboom, 0., Mellenbergh, G.J., &; Van Heerden, J. (2004). The concept of validity. Psychological review, 111(4), 1061-1071. Cicchetti, D. V. (1994). Guidelines, criteri", and rules of thumb for evaluating normed and standardized assessment instruments in psychology. Psychological Assessment, 6(4), 2B4 -290. Morgeson, F.P., Campion, M.A., Dipboye, R.L., Hollenbeck, J.R., Murphy, K, &; 5chmitt, N. (2007). Reconsidering the use of personality tests in personnel selection contexts. Personnel Psychology, 60(}), 683-729. Tett, R.P., &; Christiansen, N.D. (2007). Personality tests at the crossroads: A response to Morgeson, Campion, Dipboye, Hollenbeck, Murphy, and 5chmitt (2007). Personnel Psychology, 60(4), 967-993.
Erstellen eines Untersuchungsplans
ln den bisherigen Kapiteln haben wir nach einer theoretischen Einführung die Vorbereitung einer psychologisch-diagnostischen Untersuchung erläutert. Dabei haben wir den diagnostischen Prozess als Leitlinie genutzt. In diesem Kapitel wenden wir uns nun der zweiten Phase im diagnostischen Prozess, der Untersuchungsplanung und Durchführung, zu. Nachdem also die globale Fragestellung festgelegt und in spezifische Hypothesen heruntergebrochen wurde, für die jeweils Entscheidungsregeln und Methoden ausgewählt wurden, muss nun die Reihenfolge der Erhebung spezifiziert werden. An dieser Stelle gilt es allerdings nicht nur, einfach den Ablauf festzulegen, es können auch mehrstufige Untersuchungspläne aufgestellt werden. Dies bietet sich zum einen bei der Selektion an, wenn es viele Kandidaten gibt. Aber auch in einem klinischen oder beraterischen Kontext ist ein gestuftes Verfahren oft sehr sinnvoll (siehe Terminale vs. Investigatorische Entscheidung, Kapitell). Daher beginnen wir das Kapitel mit der Darstellung verschiedener gestufter Untersuchungspläne. Im Anschluss werden einige praktische Ratschläge für die Durchführung gegeben und schließlich stellen wir das Vorgehen für unser Fallbeispiel dar. 4.1
Ein- und mehrstufige Untersuchungspläne
ln einem Untersuchungsplan wird festgelegt, in welcher Reihenfolge die eingesetzten Verfahren zum Einsatz kommen. Zudem werden auch Pausen eingeplant. Bei der Pausenplanung sollte immer die Leistungsfähigkeit der zu untersuchenden Person berücksichtigt werden. Ein wichtiger Aspekt bei der Untersuchungsplanung ist die Berücksichtigung der Ökonomie. So kann es sinnvoll sein, dass eine Untersuchung so geplant wird, dass nicht alle angedachten Verfahren zum Einsatz kommen. Gibt es beispielsweise bei einer institutionellen Diagnostik (siehe Kapitel 2) M. Ziegler, M. Bühner, Grundlagen der Psychologischen Diagnostik, DOI 10.1007/978-3-531-93423-5_4, © VS Verlag für Sozialwissenschaften | Springer Fachmedien Wiesbaden 2012
Erstellen eines Untersuchungsplans
106
im Rahmen einer eignungsdiagnostischen Frage Hypothesen, die mit einer konjunktiven Entscheidungsregel versehen sind, kann es ökonomischer sein, diese zuerst zu prüfen und die Erhebung der Information bezüglich möglicher Hypothesen mit kompensatorischen Entscheidungsregeln auf den Personenkreis zu beschränken, der die ersten Hürden alle übersprungen hat. Prinzipiell lassen sich zwei Arten von Untersuchungsplänen unterscheiden: einstufige und mehrstufige Pläne.
4.1.1 Einstufige Untersuchungspläne In einem einstufigen Untersuchungsplan werden grundsätzlich erst dann Entscheidungen gefällt, wenn alle geplanten Verfahren auch durchgeführt worden sind, das heißt, alle Informationen auch vorliegen.
Single Screen Im Extremfall wird zur Diagnostik lediglich ein einziges Verfahren eingesetzt. In solchen Fällen spricht man auch von einem Single Screen. Bei einem Single Screen basieren alle diagnostischen Entscheidungen also auf einem einzigen Verfahren.
II
Abbildung 1
Single Screen
Diese wie auch die folgenden Abbildungen sind für das Beispiel einer Konkurrenzauslese konzipiert. Der Kreis verdeutlicht alle Bewerber und die Varianz, die zwischen ihnen besteht (Venn-Diagramm). Befindet sich die gesammelte Information für eine Person im Bereich I führt dies zu einer Ablehnung der aufgestellten Frage. Im Annahmebereich (11) wird die Frage hingegen bejaht. Im eignungsdiagnostischen Kontext ließe sich als Beispiel ein Interview anführen, das zur Ermittlung des Potenzials im Rahmen einer Personalent-
Ein- und mehrstufige Untersuchungspläne
107
wicklungsmaßnahme durchgeführt wird. Hier wird lediglich ein Verfahren eingesetzt, auf dessen Ergebnis sich die gesamte Diagnostik stützt. Die Anwendung dieses Single Screens ist nur in relativ wenigen Situationen anzuraten. Vor allem gilt zu beachten, dass das ausgewählte Verfahren über sehr gute Gütekriterien verfügen sollte.
Nichtsequenzielle Untersuchungsbatterie Ein weiterer einstufiger Untersuchungsplan ist die nichtsequenzielle Untersuchungsbatterie. Hier werden durchaus mehrere Verfahren zur Untersuchung
eingesetzt. Die Entscheidung resultiert dann aus der Verrechnung aller Informationen. In der Regel werden zur Verrechnung Entscheidungsregeln aufgestellt wie in Kapitel 3 beschrieben.
Abbildung 2
Nichtsequenzielle Untersuchungsbatterie
Wie bei einem Single Screen werden auch hier ein Annahme- (III) und ein Ablehnungsbereich (IV) definiert. Die gesammelte Information aus den verschiedenen Verfahren wird anhand der Entscheidungsregeln (siehe Kapitel 3) integriert und die aufgestellte Frage beantwortet. Auch hier ließe sich ein Beispiel im Bereich der Personalentwicklung finden. Gerade zum Zwecke der Potenzialanalyse bereits eingestellter Mitarbeiter werden immer wieder Assessment Center eingesetzt. Diese setzen sich aus mehreren mehr oder weniger unterschiedlichen Verfahren zusammen. Die
Potenzialdiagnose beruht nun auf der Integration der Ergebnisse aus diesen Verfahren. Dabei durchlaufen jedoch alle Kandidaten in der Regel das komplette Assessment Center. In der Praxis kann es vorkommen, dass die für eine diagnostische Untersuchung zur Verfügung stehende Zeit recht knapp bemessen ist. In solchen Fällen wird dann gerne auf einen einstufigen Untersuchungsplan mit nur einem oder wenigen Verfahren zurückgegriffen. Die Tauglichkeit dieser Art
108
Erstellen eines Untersuchungsplans
von Plänen ist stark abhängig von der Art der Fragestellung und der Bedeutung für den Auftraggeber. Von großem Vorteil ist sicher der Aspekt, dass stets die gesamte Information erhoben wird. Die so getroffenen Entscheidungen basieren also potenziell auf einer breiten Informationsbasis. Allerdings sollten Ökonomieüberlegungen auch stets berücksichtigt werden. Vor allem, wenn es eine Reihe konjunktiver Entscheidungsregeln gibt, kann es ratsamer sein, einen mehrstufigen Prozess heranzuziehen.
4.1.2 Mehrstufige Untersuchungspläne Zu Beginn des Buches hatten wir von institutioneller Diagnostik gesprochen (siehe Kapitel 2). Damit waren diagnostische Prozesse gemeint, die routinemäßig und mit eher hohen Personenzahlen durchgeführt werden. Dies trifft beispielsweise auf Personalauswahlprozesse oder klinisch-psychologische Eingangsdiagnostik zu. Das gemeinsame an diesen Beispielen ist, dass sich Hypothesen für die zu beantwortenden Fragen aufstellen lassen, die eine konjunktive Entscheidungsregel mit sich bringen. So ist für die Ausbildung zu manchen Berufen ein bestimmter Schulabschluss bindend. Teil der Diagnose der meisten psychischen Störungen sind bestimmte Kemsymptome. In beiden Beispielen wäre es nun unökonomisch, mit jeder Person die gesamte Untersuchungsbatterie zu durchlaufen. Stattdessen ist es weitaus ökonomischer, bereits an verschiedenen Stellen im Laufe der Untersuchung Entscheidungen zu treffen. So kann die Eignung ohne entsprechenden Schulabschluss nicht gegeben sein. Ebenso wenig wird sich die Diagnose einer Störung ohne das Vorliegen der Kemsymptome ergeben. Die Anwendung eines mehrstufigen Untersuchungsplans bedeutet dann, dass es mehrere Entscheidungsstufen gibt.
Vorauswahl Untersuchungsplan (Pre-Reject) Bei diesem Untersuchungsplan werden mehrere Verfahren zur Beantwortung der Fragestellung genutzt. Allerdings werden nicht alle Personen auch mit allen Verfahren untersucht. Stattdessen erfolgt zunächst eine Vorauswahl anhand des Ergebnisses in einem ersten Verfahren. Es ließe sich auch denken. die Vorauswahl auf Basis der Ergebnisse in mehreren zu Beginn durchgeführten Verfahren zu treffen. In Abbildung 3 ist dieses Vorgehen noch einmal schematisch dargestellt. Die untersuchte Bewerbergruppe wird nun in drei Teile aufgespalten. Zunächst wird anhand eines ersten Verfahrens eine Vorauswahl getroffen. Das
Ein- und mehrstufige Untersuchungspläne
109
bedeutet, alle Personen, die sich im Bereich I befinden, nehmen nicht mehr an den weiteren Untersuchungen teil.
Abbildung 3
Vorauswahl Untersuchungsplan
Die verbliebenen Bewerber durchlaufen nun weitere Verfahren und es wer-
den weitere Informationen gesammelt. Die abschließende Entscheidung, ob ein Bewerber angenommen (HI) oder abgelehnt (IV) wird, basiert dann aber wiederum auf der Integration aller Informationen. Der Vorauswahl Untersuchungsplan kommt in der Bewerberauswahl (Personenselektion) sehr häufig zum Einsatz. Hier dienen die Bewerbungsunterlagen als erstes Verfahren (manchmal kombiniert mit einem Telefoninterview). Nur wer die aufgestellten Mindestanforderungen erfüllt, wird zu weiteren Untersuchungen eingeladen. So kann Zeit und Geld gespart werden. Allerdings muss an dieser Stelle auch angemerkt werden, dass die Kriteriumsvalidität von Bewerbungsunterlagen im Vergleich zu anderen Methoden eher mäßig ist (Schmidt & Hunter, 1998). Ein Vorauswahl Untersuchungsplan eignet sich auch, um mit dem Problem der Verfälschung von Persönlichkeitsfragebögen umzugehen. So kann der Fragebogen zur Vorauswahl eingesetzt und ein vergleichsweise geringer Cutoff angesetzt werden. Wer diesen trotz des Verdachts des Fakings nicht schafft, ist wohl tatsächlich nicht geeignet. Im zweiten Schritt sollte dann auf jeden Fall im Interview erneut ein Blick auf die Persönlichkeit geworfen werden, um die Ergebnisse des Fragebogens zu validieren. Auch in der klinisch-psychologischen Diagnostik werden häufig Screeningverfahren eingesetzt und anhand der Ergebnisse dann Selektionen für weitere diagnostische Untersuchungen vorgenommen. Ähnlich wie bei einem Single Screen ist besonders darauf zu achten, dass die Verfahren, die zur Vorauswahl eingesetzt werden, besonders gut sind.
110
Erstellen eines Untersuchungsplans
Vorentscheidungs-Untersuchungsplan (Pre-Select) Bei diesem Untersuchungsplan findet auch eine Vorauswahl statt. Allerdings werden hier Personen nicht terminal ausgeschlossen, sondern vielmehr terminal aufgenommen.
II
Abbildung 4
Vorentscheidungs-Untersuchungsplan
In Abbildung 4 sieht man, dass die Bewerbergruppe wiederum in drei Teile aufgeteilt wird. Dabei findet die erste Entscheidung nach dem Einsatz eines Verfahrens (oder mehrerer Verfahren) statt. Die gesammelte Information wird integriert und es werden Personen terminal aufgenommen (11). Mit den übrigen Personen werden weitere Verfahren durchgeführt, um dann auf Basis aller Informationen die Entscheidung über Ablehnung (I) oder Aufnahme (ill) zu treffen. Ein solches Vorgehen findet sich in der Praxis eher selten. Gerade bei diesen Untersuchungsplänen muss sichergestellt sein, dass die zur Vorauswahl eingesetzten Verfahren sehr gut sind. Zudem stellt sich das Problem, dass Personen aufgenommen werden, ohne dass die komplette Information vorliegt. Dies ist nur dann wirklich unbedenklich, wenn große Teile der zur Vorauswahl erfassten Merkmale die in den weiteren Tests erhobenen Merkmale kompensieren. Wer nun schon im ersten Schritt die Mindestanforderungen schafft, der muss dies nicht bei den sowieso kompensierbaren, weiteren Untersuchungen erneut beweisen.
Vollständig sequenzieller Untersuchungsp/an Hierbei handelt es sich um die Kombination aus Vorauswahl- und Vorentscheidungs-Untersuchungsplan. Die untersuchte Personengruppe wird demzufolge zunächst anhand eines oder mehrerer Verfahren in drei Gruppen aufgeteilt. Gruppe I wird terminal aus dem Verfahren ausgeschlossen und Gruppe II terminal aufgenommen.
111
Ein- und mehrstufige Untersuchungspläne
III II
IV Abbildung 5
Vollständig sequenzieller Untersuchungsplan
Die dritte Gruppe wird weiter untersucht, und auf Basis aller Informationen wird erneut nach Ablehnung (IV) und Aufnahme (III) entschieden. Alle bei den vorher angeführten Verfahren genannten Aspekte, die es zu berücksichtigen gilt, sind hier natürlich auch zu beachten. 4.1.3 Integrierende Betrachtung
Es fällt schwer, eine generelle Empfehlung für eine Variante der Untersuchungspläne zu geben. Es kommt stark auf die Frage an, die beantwortet werden soll. Dennoch haben wir hier einige wichtige Aspekte zusammengetragen. Neben möglichen Vorteilen in der Ökonomie lassen sich bei mehrstufigen Verfahren weitere Vorteile gegenüber einstufigen Verfahren ausmachen. Ein weiterer Vorteil mehrstufiger Verfahren ist es, dass eine Vielzahl unterschiedlicher Methoden (z. B. Tests, Fragebögen, Interview) genutzt werden können. Allerdings stellt die Integration dieser verschiedenen Informationsquellen auch oft eine Herausforderung dar (siehe Kapitel 5). Zudem ist es auch denkbar, im Rahmen eines nicht sequenziellen Untersuchungsplans mehrere Verfahren zu integrieren. Dies ist in der Praxis zwar eher selten, aber grundsätzlich denkbar. Bei einigen Lesern stellt sich an dieser Stelle sicher die Frage, in welcher Reihenfolge die zu untersuchenden Hypothesen in die gerade erläuterten Untersuchungspläne aufgenommen werden sollten. Wir hatten bereits darauf hingewiesen, dass es gerade bei den Vorauswahlplänen sinnvoll sein kann, die Hypothesen zuerst zu untersuchen, die mit einer konjunktiven Entscheidungsregel versehen sind. Allerdings haben wir auch darauf hingewiesen, dass die Gütekriterien der eingesetzten Verfahren eine Rolle bei der Anordnung spielen sollten. Nun
Erstellen eines Untersuchungsplans
112
ließe sich vermuten, dass die prognosestärksten Verfahren zuerst oder zuletzt eingesetzt werden sollten. DeCorte, Lievens und Sackett (2006) konnten allerdings in einer Simulationsstudie zeigen, dass sich solche einfachen Regeln nicht formulieren lassen und es immer auch auf andere Aspekte, z. B. wie hoch die Korrelation zwischen den Verfahren ist, ankommt. Allerdings existieren auch einige historische Ansätze, die als gute Dau-
menregeln angesehen werden können. Diese betrachten Aspekte, die wir bisher vernachlässigt haben, die aber von hoher Bedeutung sein können: Selektionsquote, Grundquote, Kriteriumsvalidität und deren Zusammenspiel.
Nicht nur im eignungsdiagnostischen Kontext spielen diese Konzepte eine wichtige Rolle und sollen daher kurz erläutert werden. Hierbei dient Abbildung 6 der Veranschaulichung. Kriterium Umsatz in
Cutoff
1000 € 55
geeignet 50
t
45
'i'
30
43-------I 40
Cutoff
nicht geeignet 20 10
•
90 95 100105110115120 125
lntelligenztestleistong SW-Wert
Selektionsquote Abbildung 6
Selektions- und Grundquote
Das abgebildete Koordinatensystem stellt auf der x-Achse die diagnostische Entscheidung dar. Aus Griinden der Einfachheit haben wir hier ein Single Screen gewählt. Die Bewerber werden anhand eines Intelligenztests ausgewählt und müssen mindestens einen Standardwert von 110 besitzen. Dieser Cutoff teilt die Bewerber in Eingestellte und Abgelehnte. Auf der y-Achse befindet sich dann das Kriterium, an dem später die tatsächliche Berufseignung
Ein- und mehrstufige Untersuchungspläne
113
festgemacht wird. Hier haben wir den erzielten Jahresumsatz in Euro gewählt und ebenfalls einen Cutoff gesetzt, der die Bewerber in tatsächlich Geeignete und tatsächlich Ungeeignete teilt. Natürlich hat man in der Praxis nicht die Möglichkeit, alle Personen einzustellen und dann zu schauen, wer geeignet ist und wer nicht. Insofern ist die Darstellung zunächst ein Gedankenexperiment. Die Punktwolke setzt sich aus den Ergebnissen der Bewerber im Test und im Kriterium zusammen. Da zwischen beiden eine positive Korrelation besteht, hat die Punktwolke einen positiven Anstieg. Dieser fällt umso steiler aus, je größer der Zusammenhang ist. Der Zusammenhang ist natürlich die Kriteriumsvalidität des eingesetzten Verfahrens (siehe Kapitel 3). Die beiden Cutoffs teilen die Punktwolke in vier Bereiche: a) Abgelehnte Geeignete, b) Eingestellte Geeignete, c) Abgelehnte Ungeeignete und d) Eingestellte Ungeeignete. Dies verdeutlicht, dass die Verwendung des Cutoffs 110 beim Intelligenztest zu Fehlentscheidungen führt. Wir hatten bereits darauf hingewiesen, dass sich dies im Rahmen der Diagnostik nicht vermeiden lässt, da streng genommen nur Wahrscheinlichkeitsaussagen getroffen werden. In Kapitel 5, wenn wir über die Güte von Entscheidungen sprechen, kommen wir hierauf noch einmal zurück. Allerdings gilt es auch bei der Untersuchungsplanung einige der hiermit verbundenen Aspekte zu berücksichtigen. Selektionsquote Unter der Selektionsquote versteht man den Anteil der Bewerber die tatsächlich eingestellt werden: (b+d)/(a+b+c+d). Dabei ist natürlich von Interesse, dass sich unter den Eingestellten möglichst viele tatsächlich Geeignete befinden. Man spricht hier auch von der Trefferquote oder Hitrate: b/(b+d). Liegt eine hohe Kriteriumsvalidität vor, wird die Punktwolke enger und somit die Fehlerbereiche a und d schmaler. Dies wirkt sich vorteilhaft auf die Trefferquote aus. Zugleich ist dies eine der wenigen Möglichkeiten, beide Arten von Fehlentscheidungen zu minimieren. Daher kommt der Kriteriumsvalidität der Verfahren besondere Bedeutung zu. Das Verschieben der Selektionsquote kann hingegen, je nach Richtung, immer nur einen der beiden Fehlerbereiche verkleinern. Wird der Cutoff gesenkt und mehr Personen werden eingestellt (geringere Selektionsquote), dann werden zwar weniger Geeignete abgelehnt, dafür aber eben mehr Ungeeignete eingestellt. Eine Erhöhung des Cutoffs hat den gegenteiligen Effekt. In einem mehrstufigen Untersuchungsplan ist also genau zu überlegen, wie viele Personen ggf. vorab aus dem Verfahren ausgeschlossen werden. Ist das eingesetzte Verfahren nicht besonders kriteriumsvalide, empfehlen sich
114
Erstellen eines Untersuchungsplans
eher geringere Selektionsquoten (also die Aufnahme vieler Personen in die nächste Stufe), um zu verhindern, dass bereits früh zahlreiche, eigentlich geeignete Personen fälschlicherweise ausgeschlossen werden.
Grundquote (Basisrate) Die Grundquote quantifiziert den Anteil der tatsächlich Geeigneten an allen Bewerbern: (a + b) / (a + b + c + d). Die Grundquote drückt im Prinzip aus, wie hoch die Trefferquote wäre, wenn eine Auswahl per Zufall erfolgen würde. In einem mehrstufigen Verfahren hat man auf die Grundquote der nach Stufe 1 folgenden Stufen einen Einfluss. Gelingt es, durch eine gute Vorauswahl den Anteil der tatsächlich Geeigneten (die Basisrate) zu erhöhen, verringert sich automatisch der Bereich der zu Unrecht eingestellten (d). Ein solcher Effekt lässt sich auch durch ein gutes Personalmarketing erzielen. Es sei aber auch erwähnt, dass in Zeiten des Fachkräftemangels der Einfluss mitunter sehr begrenzt ist.
Zusammenspiel zwischen Grundquote, Selektionsquote und Kriteriumsvalidität Aus den bisherigen Ausführungen geht hervor, dass eine hohe Grundquote und eine gute Kriteriumsvalidität förderlich sind, um eine möglichst hohe Trefferquote zu erzielen. Es kann jedoch auch vorkommen, dass man an bestimmte Verfahren gebunden ist und damit auch an deren Validitäten. Zudem gelingt es nicht immer, die Grundquote so zu beeinflussen, wie man es gerne hätte. Hier helfen die Taylor-Russel-Tafeln (Taylor & RusselI, 1939), um Trefferquoten unter der Annahme bestimmter Grund- und Selektionsquoten sowie Kriteriumsvaliditäten abzuschätzen. Diesem Zusammenspiel haben sich auch Meehl und Rosen (1955) zugewandt. Diese Autoren weisen darauf hin, dass bei extrem hohen oder niedrigen Grundquoten der Einsatz von Verfahren mit geringer oder moderater Validität sogar zu einem Zuwachs an Fehlentscheidungen (abgelehnte Geeignete + eingestellte Ungeeignete) im Vergleich zu einer Zufallsauswahl führen kann. Nichtsdestotrotz können die TaylorRussell-Tafeln helfen, mögliche Trefferquoten vor dem Festlegen eines Untersuchungsplans abzuschätzen. Tabelle 1 fasst die Ergebnisse verschiedener Taylor-Russel-Tafeln für drei verschiedene Grundquoten und eine Auswahl an Selektionsquoten zusammen. Dabei haben wir immer angenommen, dass ein Verfahren mit einer Kriteriumsvalidität von r = .50 (entspricht ungefähr der meta-analytischen Kriteriumsvalidität von Intelligenztests) angewandt wird. Die enthaltenen Trefferquoten zeigen zunächst, dass bei gleicher Selektionsquote und Kriteriumsvalidität eine höhere Grundquote (mehr Geeignete) immer zu besseren
115
Ein- und mehrstufige Untersuchungspläne Tabelle 1
Taylor-Russel-Tafeln für eine angenommene Kriteriumsvalidität von r = .50 und 3 verschiedene Grundquoten (.2, .5 und .8) Selektionsquote
Grundquote
.05
.10
.20
.30
.40
.50
.60
.70
.80
.90
.95
.20
.59
.52
.44
.38
.35
.31
.29
.26
.24
.22
.21
.50
.88
.84
.78
.74
.70
.67
.63
.60
.57
.54
.52
.80
.98
.97
.%
.94
.93
.91
.90
.88
.86
.84
.82
Trefferquoten führt. Dies sollte nicht verwundern, drückt die Grundquote doch die Trefferquote bei zufälliger Auswahl aus. Diese liegt bei einer Grundquote von 80% eben auch bei 80%. Es zeigt sich weiterhin, dass die Trefferquote steigt, wenn weniger Personen ausgewählt werden. Dabei sollte aber nicht vergessen werden, dass dies ggf. gleichbedeutend damit ist, dass auch eine erhebliche Anzahl eigentlich Geeigneter abgelehnt wird. In einem mehrstufigen Verfahren sollte dies vor allem zu Beginn vermieden werden. Zudem hat auch die Validität des Verfahrens einen großen Einfluss. So beträgt die Trefferquote bei einer Kriteriumsvalidität von r = .20 (nicht in der Tabelle), einer Selektionsquote von .05 und einer Grundquote von 20 % nur noch .33 und bei einer Grundquote von 80 % .90. Dies legt nahe, dass der Einsatz wenig kriteriumsvalider Verfahren bei extremen Grundquoten die Trefferquote nur geringfügig verbessert, wenn nur wenige Personen ausgewählt werden.
Werden hingegen kaum Personen ausgeschlossen, ist die Trefferquote auch kaum besser als der Zufall. Das bedeutet, Kosten-Nutzen-Überlegungen verhindern in solchen Fällen ggf. den Einsatz eher aufwendiger Verfahren zu Beginn eines Vorauswahlplans. In einem mehrstufigen Verfahren gilt es also besonders bei extremen Grund- oder Selektionsquoten genau zu bedenken, wonach zunächst ausgesucht wird. Dabei spielen neben der Kriteriumsvalidität auch immer KostenNutzen Überlegungen eine Rolle. Es gilt zudem zu beachten, dass die Trefferquote, die für die Vorauswahl geschätzt wird, als Grundquote für die weiteren Stufen angesehen werden kann. So lassen sich auch für diese dann erneute Schätzungen der Trefferquote vornehmen.
116 4.2
Erstellen eines Untersuchungsplans Allgemeine Hinweise zur Untersuchung.planung
Dieser Abschnitt gliedert sich in vier Teilbereiche. Es wäre sicher vermessen anzunehmen, dass dies eine erschöpfende Liste darstellt. Vielmehr soll hier ein erster Wegweiser gegeben werden.
4.2.1 Zeitliche Anordnung Wir hatten bereits darauf hingewiesen, dass die Belastbarkeit der zu untersuchenden Person bei der Versuchsanordnung unbedingt berücksichtigt werden muss. Dabei sollte das Alter, mögliche vorliegende Erkrankungen (z. B. Depression), das Einnehmen von Medikamenten u. Ä. berücksichtigt werden. Auch das allgemeine Bildungsniveau ist sicher ein relevanter Hinweis. Personen, die es eher gewohnt sind, lange und anstrengende Tests zu bearbeiten, haben mit einer langen Testbatterie sicher weniger Schwierigkeiten als Personen, die eine solche Anforderung nicht kennen. So konnten Süß und Schmiedek (2000) zeigen, dass Studierende selbst nach mehrstündiger kognitiver Testung nur geringe Ermüdungseffekte aufzeigen. Bei Patienten einer psychiatrischen Einrichtung kann dies jedoch ganz anders aussehen. Es sollte auch berücksichtigt werden, wie lange die zu testende Person vor der Untersuchung angereist ist und ob damit ggf. ein frühes Aufstehen verbunden war. Gerade wenn anstrengende kognitive Tests Teil der Untersuchung sind, sollte man vorab darauf hinweisen, dass sich die zu testende Person ausgeruht in die Testung begeben sollte. Erstreckt sich eine Untersuchung über mehr als einen Tag, sollte darauf geachtet werden, dass die eingesetzten Verfahren abwechslungsreich sind. Der geschickte Einsatz von Pausen sollte ebenfalls helfen, Ermüdung vorzubeugen. In Kapitel 3 hatten wir bereits darauf hingewiesen, dass es auch bei der Prozessdiagnostik und dem damit verbundenen wiederholten Testeinsatz gilt, Vorkehrungen gegen Übungs- und Transfereffekte zu treffen. Werden im Rahmen einer Untersuchung mehrere Tests eingesetzt, um eine Hypothese zu untersuchen (z. B. mehrere Konzentrationstests), dann sollte auch hier berücksichtigt werden, dass Übungseffekte auftreten können.
Allgemeine Hinweise zur Untersuchungsplanung
117
4.2.2 Formalia
Bei der Untersuchungsplanung gilt es zudem, eine Reihe von Formalia zu
beachten. Diese werden häufig als selbstverständlich angesehen. Läuft hier allerdings etwas schief, ist es meist besonders ärgerlich und zeitraubend. Zu den Formalia zählt die Absicherung aller organisatorischen Aspekte. Hierunter fallen Terminvereinbarungen, Raumfestlegungen und die Weitergabe wichtiger Unterlagen an die zu testende Person oder die Testleiter. Während der Untersuchung sollte man darauf achten, eine offene und freundliche Atmosphäre zu schaffen. Dabei hilft eine freundliche Begrüßung, etwas Small Talk bzw. der Einsatz von Icebreaker-Fragen (freie Fragen) und das genaue Erklären des Ablaufs. Hilfreich ist zudem ein individueller Zeitplan, den die Testperson ausgehändigt bekommt. Sollten an der Untersuchung mehrere Personen als Testleiter beteiligt sein, kann es für die Testperson sehr erleichternd sein, wenn der Zeitplan mit allen Namen und den jeweiligen Rollen versehen ist. Auch das Bereitstellen von Getränken und kleinen Snacks sollte bei längeren Testungen in Erwägung gezogen werden. Eine heikle Angelegenheit ist immer die Frage, ob Feedback während der Untersuchung gegeben werden soll. Bei eignungsdiagnostischen Fragen ist es oft angemessen, dies zu vermeiden. Bei Platzierungsfragen oder einem investigatorischen Vorgehen sind Feedbacks hingegen oft sehr hilfreich. In beiden Fällen lassen sich Test- oder Fragebogenergebnisse sicher auch als Startpunkte eines Gesprächs nutzen.
4.2.3 Vorbereiten von Testleitern und Protokollanten Nicht immer werden bei einer Untersuchung alle Verfahren von derselben Person durchgeführt. Oft verteilt sich die Arbeit auf mehrere Testleiter und in manchen Fällen auch auf Protokollanten. Die diagnostische Entscheidung trifft dann jedoch der Auftragnehmer, bei dem alle Informationen zusammen laufen. Daher ist es wichtig, dass alle am Prozess beteiligten Personen gut instruiert und vorbereitet werden, damit keine wichtigen Informationen verloren gehen. Jede Information kann bei der Datenintegration entscheidend sein. Bearbeitet die Testperson beispielsweise zwei Intelligenztests, aber nur einen motiviert, lässt sich eine auftretende Diskrepanz später aufgrund der Zusatzbeobachtung auflösen. Ohne die Zusatzbeobachtung ist unter Umständen eine weitere Testung notwendig. Dabei kann es durch Übungseffekte zu Verzerrungen kommen. Daher ist auf diesen Punkt besonders zu achten.
118
Erstellen eines Untersuchungsplans
Jede Person, die ein diagnostisches Verfahren durchführt, muss sich zunächst intensiv damit beschäftigen. Dazu gehört das Studium des Manuals (soweit vorhanden) und. wenn möglich, der Selbstversuch. Hierbei sollten erfahrene Testleiter für Fragen und Feedback zur Verfügung stehen. Zudem empfiehlt es sich meist, zunächst supervidierte Testungen durchzuführen oder Probetestungen. Inwieweit bei einer Testung auch Zusatzbeobachtungen relevant sind, sollte ebenso vermittelt werden wie die Regeln, um diese zu protokollieren. Alle Testleiter und Protokollanten sollten zudem darüber informiert sein, wie mit auftretenden Problemen umgegangen werden soll. Hierzu zählt auch der Umgang mit möglichen Fragen, die während der Untersuchung auftreten können.
Im Interviewbereich gibt es ein Selbstdiagnose- und Selbstfeedbackinventar, um genau zu prüfen, wie gut ein Interviewer vorbereitet ist bzw. die Durchführung beherrscht: Das Diagnoseinstrument zur Erfassung der Interviewerkompetenz in der Personalauswahl (Strobel & Westhoff, 2009). Viele der hier aufgeführten Aspekte lassen sich auch auf den Untersuchungsprozess an sich generalisieren.
4.2.4 Vorbereitung des Untersuchungsleiters
Viele der bereits erwähnten Aspekte fallen in das Aufgabengebiet des Untersuchungsleiters. Es lassen sich aber noch weitere Aspekte finden, die jeder Untersuchungsleiter vor einer Untersuchung mit sich ausmachen sollte. Kein Tag ist wie der andere, und es kann vorkommen, dass man als Untersuchungsleiter einen schlechten Tag hat. Daher sollte man sich vor der Untersuchung seiner VoreinsteIlungen gegenüber der Testperson bewusst werden und ggf. regulierend eingreifen. Es ist zudem wichtig, dass man sich zu keiner Zeit durch persönliche Sympathie und Antipathie leiten lässt. Auch hier hilft nur, sich regelmäßig seine Gefühle und Einstellungen bewusst zu machen. Gerade wenn sich im Verlauf einer Untersuchung ein bestimmtes Meinungsbild zu festigen scheint, muss der Untersuchungsleiter unbedingt darauf achten, dass nun keine Scheuklappendiagnostik erfolgt. Das bedeutet, nach wie vor müssen sämtliche Informationen berücksichtigt werden und nicht nur die, die das entstehende Meinungsbild festigen.
Fallbeispiel
119
Die Ausführungen zeigen, dass es im Laufe der Untersuchung immer wieder notwendig ist, auch über das eigene Vorgehen und die eigenen Ansichten zu reflektieren, um Fehler zu vermeiden.
4.3
Fallbeispiel
In unserem Fallbeispiel, der Auswahl eines Doktoranden im Bereich der Psychologischen Diagnostik, nutzen wir einen Vorauswahl-Untersuchungsplan. In Kapitel 3 haben wir dargestellt, welche der Fragestellungen konjunktiv und welche kompensatorisch sind. Dabei haben wir das Wissen in den Bereichen Psychologische Diagnostik und Methoden als nicht kompensierbar definiert. Zur Erfassung haben wir das Diplom- oder Masterzeugnis sowie das Interview ausgewählt. Die Entscheidungsregeln innerhalb jeder Hypothese waren ebenfalls konjunktiv und sahen jeweils mindestens eine Zeugnisnote von 2.0 VOl. Hier setzen wir für die Vorauswahl an.
Die Erfahrung zeigt, dass die Basisrate bei den Doktoranden in unserem Bereich eher hoch ist, das heißt, dass sich viele geeignete Kandidaten bewerben. Wir schätzen hier, dass ca. 80 % der Bewerber auch geeignet sind. Laut einer Metaanalyse von Kuncel, Hezlett und Ones (2001) erzielen Noten (Undergraduate Grade Point Average) Kriteriumsvaliditäten zwischen .20 und .35 bei der Vorhersage des Graduate Grade Point Averages. Dieser ist sicher nicht vergleichbar mit einem deutschen Doktorgrad in Psychologie, soll uns aber als Hinweis dienen. Es liegt also eher eine hohe Basisrate und eine vergleichsweise geringe Kriteriumsvalidität vor. Um unter diesen Umständen eine starke Verbesserung der Trefferquote durch die Auswahl zu erzielen, müssten sehr viele Bewerber direkt ausgesondert werden. Davon nehmen wir jedoch Abstand, da wir möglichst wenige tatsächlich Geeignete direkt zu Beginn verlieren möchten. Tatsächlich können wir aufgrund des kriterienorientierten Vorgehens (Note 2 wurde bereits festgelegt) die Selektionsquote nicht frei wählen. Diese ergibt sich. je nachdem, wie viele Bewerber diese ersten Hürden schaffen. Alle Bewerber, die dies schaffen, werden für die weiteren Untersuchungen eingeladen. Hier kommen nun als weitere Verfahren Arbeitsproben, ein Interview, zwei Persönlichkeitsfragebögen und zwei Intelligenztests zum Einsatz. Dabei stellen die Arbeitsproben und die Intelligenztests die größten zeitlichen Belastungen für die Bewerber dar. Hier sollten entsprechend zeitlicher Abstand und Pausen vorgesehen werden.
120
Erstellen eines Untersuchungsplans
Es ließe sich auch überlegen, die Aufgaben für die Arbeitsproben vorab zu verteilen und zur Untersuchung lediglich die Ergebnisse zu betrachten. Hier sollte man allerdings damit rechnen, dass die Personen diese Aufgaben dann nicht unbedingt alleine bearbeiten. Hier der Entwurf eines exemplarischen Untersuchungsplans für unser Fallbeispiel.
Tabelle 2
Exemplarischer Untersuchungsplan
Uhrzeit
Aufgabe
Personen
Ort
08:00-08:45
Begrüßung, Ablaufplanung und Vorstellung DA
und Assistent
Bewerber, Professor
Bürol
08:45-09:00
Pause
09:00-12:00
Bearbeiten der Arbeitsprobe
Bewerber und Assistent
Labor 2
12:00-13:00
Gemeinsames Mittagessen
Ganzes Team
Mensa
13:00-14:00
Präsentation der Arbeitsprobe
Bewerber, Professor, Assisten~ studentische Hilfskraft
Bürol
14:00-14:15
Pause
14:15-17:00
WIT2, Fragebögen, APM
Bewerber, Assistent
Labor
17:00-17:30
Pause
17:30-19:00
Interview
Bewerber, Professor
Büro 3
und Assistent
Die einzige Aufgabe, die der Bewerber vorab bekommt, besteht darin, eine 10-minütige Power Point Präsentation über die eigene Diplom- oder Masterarbeit vorzubereiten. Diese ist dann auch gleich Bestandteil des ersten Abschnitts. Zum einen dient dies der Informationssammlung, zum anderen hat
es aber auch eine gewisse lcebreaker-Funktion. Die Bewerber reden über ein Thema, das ihnen bestens vertraut ist, und können sich zuhause vorbereiten. Als Beobachter sind hier der Professor sowie ein Assistent vorgesehen. Es ist ratsam, die Zahl der Beobachter auf ein notwendiges Minimum zu begrenzen. Der Rest des Vormittags ist der Bearbeitung der Arbeitsproben vorbehalten. Das anschließende Mittagessen findet mit der gesamten Arbeitsgruppe statt und fließt natürlich nicht in die Ergebnisse ein. Vielmehr bekommt der
Fallbeispiel
121
Bewerber hier die Chance, das Team kennen zu lernen und zu befragen. Dieser Aspekt muss dem Bewerber unbedingt klar gemacht werden. Es ist dann auch nicht zulässig, im Nachhinein hier getätigte Aussagen doch in die Bewertung aufzunehmen, was schwer fallen kann. Die Ergebnisse der Arbeitsproben werden im Anschluss präsentiert. Hier wird zudem eine studentische Hilfskraft als Beobachter herangezogen, um eine studentische Perspektive zu erhalten. Arbeiten mehrere Assistenten am Lehrstuhl, empfiehlt es sich, bei dieser Übung einen anderen Assistenten als zu Beginn zu beauftragen. So erhalten möglichst viele Teammitglieder die Gelegenheit, die Bewerber in Testsituationen kennen zu lernen. Nach einer kurzen Pause bearbeiten die Bewerber dann die restlichen Tests und Fragebögen. Dabei sollte während dieses Blocks durchaus die Möglichkeit einer weiteren kurzen Pause in Erwägung gezogen werden. Es ist auch denkbar, die Fragebögen bereits zuhause ausfüllen zu lassen, um so Zeit zu sparen.
Nach einer erneuten kurzen Pause schließt die Untersuchung mit dem Interview ab. Hierfür haben wir 9" Minuten vorgesehen, was sicher eher an der Obergrenze liegt. Zum Abschluss sollte dem Bewerber das weitere Vorgehen verdeutlicht und die Gelegenheit für Fragen eingeräumt werden.
mWeiterführende literatur Baumann, u., & Stieglitz, R. D. (2008). Multimodale Diagnostik-30 Jahre später. Zeitschrift für Psychiatrie, Psychologie und Psychotherapie, 56(3), '9 - 202. '
StrobeL A., & Westhoff, K. (2009). Diagnoseinstrument zur Erfassung der Interviewerkompetenz in der Personalauswahl (DIPA). Göttingen: Hogrefe.
Ergebnisintegration und Güte von Entscheidungen
In diesem Kapitel geht es darum, wie die Ergebnisse aus den verschiedenen Methoden integriert werden können, um die Fragestellung zu beantworten. In Kapitel 3 hatten wir uns bereits ausführlich mit verschiedenen Entscheidungsregeln beschäftigt. Diese kommen natürlich bei der Datenintegration wie zuvor festgelegt auch zum Einsatz. Daher gehen wir in diesem Kapitel auf generelle Aspekte (klinische vs. statistische Urteilsbildung), statistische Besonderheiten (messfehlerkritische Absicherung und Profilauswertung), aber auch auf weitere praktische Aspekte (Integration von Informationen aus unterschiedlichen Methoden und Umgang mit Diskrepanzen) ein. Bei jeder diagnostischen Entscheidung besteht die Gefahr, Fehler zu machen. Mit der Güte von Entscheidungen beschäftigen wir uns daher auch in diesem Kapitel. Den Abschluss bildet dann wieder das Fallbeispiel.
5.1
Integration der Ergebnisse
Als Ergebnis einer diagnostischen Untersuchung liegen zahlreiche Informationen, meist aus unterschiedlichen Quellen, vor. Diese müssen nun innerhalb der einzelnen Hypothesen, aber auch für die Gesamtfragestellung integriert werden. Bisher haben wir hierfür kompensatorische und konjunktive Entscheidungsregeln sowie Mischformen beschrieben. Wie die Ausführungen in Kapitel 3 zeigen, findet hier meistens eine Verrechnung numerischer Werte statt. Der ein oder andere Leser mag sich fragen, ob dies wirklich realistisch ist. Wenn wir zum Arzt gehen, dann fällt dieser seine Diagnose schließlich auch nicht nach einer Verrechnungsvorschrift. Vielmehr beruht die Diagnose auf dem Wissen des Arztes und seiner Erfahrung. Die Integration der Information erfolgt scheinbar intuitiv. Dieses Vorgehen wird auch als klinische Urteilsbildung bezeichnet und steht im Gegensatz zu dem bisher häufig angedeuteten Vorgehen, welches auch als statistische Urteilsbildung bezeichnetwird. M. Ziegler, M. Bühner, Grundlagen der Psychologischen Diagnostik, DOI 10.1007/978-3-531-93423-5_5, © VS Verlag für Sozialwissenschaften | Springer Fachmedien Wiesbaden 2012
124
Ergebnisintegration und Güte von Entscheidungen
5.1.1 Klinische vs. statistische Urteilsbildung Unter klinischer Urleilsbildung versteht man die freie Integration der diagnostischen Ergebnisse ohne festgelegte und klar definierte RegeIn, anhand der eigenen Intuition bzw. Expertise. Im Gegensatz dazu steht die statistische Urteilsbildung, die Ergebnisse aufgrund einer - gemäß Definition - empirisch ermittelten Verrechnungsvorschrift zu einer Diagnose integriert. Dabei ist die Tatsache, dass die Vorschrift empirisch begründet sein muss, also aus der Analyse vieler Datensätze stammt, besonders zu betonen. Die statistische Urteilsbildung stößt in der Praxis oft auf wenig Gegenliebe. Diagnostiker haben manchmal das Gefühl, diese Art von Urteilsbildung schränke sie in ihrem Vorgehen ein und ließe keinen Platz für ihre Erfahrung. Dies ist sicher nicht komplett von der Hand zu weisen, hat aber einen entscheidenden Haken. Klinische Urteile sind aufgrund ihrer Natur anfälliger für subjektive Verzerrungen. So beschreibt Arkes (1991) drei mögliche Ursachen für das oft unzulängliche klinische Urteil: strategie-basierte Fehler, assoziations-basierte Fehler sowie psychophysikalisch-basierte Fehler. Zu einem strategie-basierten Fehler kommt es demnach, wenn Diagnostiker den Mehraufwand für eine gut durchdachte Strategie als höher einschätzen als den potenziellen Nutzen und daher auf suboptimale Strategien zurückgreifen. Assoziations-basierte Fehler rühren daher, dass im menschlichen Gedächtnis zahlreiche Aspekte, Geschehnisse und Personen assoziiert sind. Dies erleichtert normalerweise das menschliche Handeln. Es kann aber im Rahmen einer Diagnose kontraproduktiv sein, wenn die falschen oder irrelevanten Assoziationen aktiviert und genutzt werden. In diesen Bereich zählt Arkes auch einige kognitive Verzerrungen (z. B. Explanation Bias, Hindsight Bias, Confirmation Bias, Overconfidence, Repräsentativitätsheuristik). Psychophysikalisch-basierte Fehler gehen auf Erkenntnisse der Entscheidungsforschung und der Psychophysik zurück. Dabei werden Funktionen gesucht, die menschliche Entscheidungen (z. B. Ist Gewicht A größer als Gewicht B) mathematisch erklären. In den Extrembereichen, also bei sehr seltenen oder sehr häufigen bzw. unauffälligen oder überauffälligen Ergebnissen bzw. Handlungen wird hier weniger akkurat geprüft. Viele dieser Formeln haben dann Bereiche, in denen es zu Fehlentscheidungen aufgrund einer fehlerhaften Verrechnung von Kosten und Nutzen oder von anderen Informationenkommt.
Integration der Ergebnisse
125
Als Gegenmaßnahmen schlägt Arkes vor, sich die Bedeutung der Diagnose und die eigene Verantwortung zu verdeutlichen. Zudem sollte eine "consider the opposite Strategie helfe1\- falsche Assoziationen zu erkennen. Weiterhin schlägt Arkes das Erlernen neuer Informationen vor, die das eigene Assoziationsnetzwerk vergrößern. Schließlich wird empfohlen, sich die Opportunitätskosten einer Strategie bzw. Entscheidung vor Augen zu führen. Das bedeutet, die Strategie bzw. Entscheidung führt dazu, dass keine "Mittel" bzw. keine Möglichkeit mehr vorhanden sind, eine alternative Strategie ll
zu unterstützen bzw. eine alternative Entscheidung auszuführen. Arkes be-
schreibt weitere Gegenmaßnahmen, deren Ausführung hier aber zu weit führen würde. Die genannten Punkte sprechen alle gegen ein klinisches Urteil. Ein entscheidendes Argument für das statistische Urteilen ist dann auch meist, dass es ein höheres Maß an Objektivität biete und weniger anfällig für Urteilsfehler sei.
Empirischer Vergleich Um diesen Disput zu klären, wurden zahlreiche Untersuchungen, vor allem in der Klinischen Psychologie und der Medizin, durchgeführt. Dabei sieht der typische Versuchsaufbau so aus, dass für eine Patientengruppe, für jeden einzelnen Patienten, per Expertenurteil eine Diagnose festgelegt worden ist. Dann wird diese Patientengruppe mit einer Testbatterie untersucht. Die Ergebnisse der Untersuchung werden nun einer Gruppe von Testpersonen übergeben. Diese Gruppe soll die Ergebnisse aufgrund ihrer klinischen Erfahrung und Expertise integrieren und zu einer Diagnose kommen (klinisches Urteil). Zusätzlich werden die Ergebnisse der Untersuchung anhand eines empirisch begründeten Auswertungsschlüssels ausgewertet (statistisches Urteil). Diese Auswertung mündet auch für jeden der Patienten in einer Diagnose. Die jeweilige Übereinstimmung der beiden Diagnosen mit den Expertendiagnosen zeigt nun, ob das klinische oder das statistische Urteilen zu besseren Ergebnissen führte. Seit einiger Zeit existiert eine Metaanalyse (Grove, Zald, Lebow, Snitz, & Nelson, 2000), die Ergebnisse von 136 solcher Studien zusammenfasst. Dabei zeigte sich, dass das statistische Urteil bei 63 (46 %) der 136 Studien besser abschnitt. Bei weiteren 65 (48 %) Studien fand sich kein Unterschied. Lediglich bei acht (6 %) Studien schnitt das klinische Urteil besser ab. Die Autoren berechneten außerdem im Rahmen der Metaanalyse eine Effektstärke, die den Unterschied zwischen der Trefferquote der klinischen und der Trefferquote der statistischen Urteilsbildung ausdrückt. Dabei lässt sich vereinfacht sagen,
126
Ergebnisintegration und Güte von Entscheidungen
dass ein Betrag von .10 für diese Effektstärke ca. 9-10% Unterschied in der Trefferquote (Hitrate, siehe Kapitel 4) ausmacht. Der meta-analytisch berichtete Range für diese Effektstärke liegt zwischen -.30 (klinisch besser als statistisch) und .74 (statistisch besser als klinisch). Der Median lag bei .09. Dies zeigt, dass die Ergebnisse zwischen den Studien stark um einen vergleichsweise geringen Wert schwanken. Ein solches Schwanken bedeutet, dass es Moderatoren (siehe Bühner & Ziegler, 2009, Kapitel 7) geben muss, die die breite Schwankung der gefundenen Effekte zwischen den Studien erklären. Eine Analyse möglicher Moderatoren zeigte, dass es vor allem beim Auswerten von Interviewdaten zu signifikant größeren Vorteilen für das statistische Urteil kommt. Werden hingegen medizinische Daten integriert, fallen die Vorteile tendenziell geringer aus. Ob bei der Integration auch psychologische Tests und Verhaltensbeobachtungen hinzugezogen werden, wirkt sich kaum auf den Unterschied aus. Interessanterweise hatte die Erfahrung der Rater keinen Einfluss auf die Differenz. Es ist also nicht so, dass besonders erfahrene DiJlgnostiker den Vorteil des statistischen Urleilens wett machen könnten. Sieben der acht Studien, in denen das klinische Urteil besser abschnitt, zeichneten sich dadurch aus, dass hier mehr Information an die Personen gegeben wurde, die klinisch urteilten, und weniger Information für das statistische Urteil zur Verfügung stand. Als Erklärung für die Unterschiede führen die Autoren an: "Humans are susceptible to many errors in clinical judgment [00']' These include ignoring base rates, assigning nonoptimal weights to cues, failure to take into account regression toward the mean, and failure to properly assess covariation. Heuristics such as representativeness (which leads to belief in the law of small numbers) or availability (leading to over-weighting vivid data) can similarly reduce clinicians' accuracy. Also, clinicians often do not receive adequate feedback on the accuracy of their judgments [00']' which gives them scant opportunity to change maladaptive judgment habits" (S. 25).
Ideen zur Verbesserung des klinischen Urteils Die Metaanalyse belegt also einen geringen Vorteil des statistischen Urteilens, der vor allem dann größer ausfällt, wenn Interviewdaten zu den InIormationsquellen zählen. Daher schlagen Grove et al. vor, immer dann auf statistische Urteilsbildung zurückzugreifen, wenn es eine empirisch ermittelte Verrechnungsvorschrift gibt. In vielen Fällen liegt eine solche empirisch ermittelte Verrechnungsvorschrift allerdings nicht vor. Stattdessen legen wir als Diagnostiker durch die
Integration der Ergebnisse
127
Wahl der Entscheidungsregeln selbst fest, wie die Ergebnisse verrechnet werden. In den meisten Fällen ist das Urteil also als klinisches anzusehen, auch wenn eine Verrechnungsvorschrift verwendet wird. Da diese zu einem gewis-
sen Grad subjektiv und nicht empirisch begründet ist, liegt streng genommen keine statistische Urteilsbildung vor. Westen und Weinberger (2004) greifen dieses Dilemma auf und argumentieren, dass die Unterlegenheit des klinischen Urteils auch darauf beruht, dass keine systematische Datenauswertung durch reliable und valide Auswertungsmethoden stattfindet. Daher schlagen sie vor, solche Auswertungsmethoden zu entwickeln und einzusetzen. Die Autoren geben zahlreiche Praxisbeispiele, die nahelegen, dass durch die Verwendung systematischer Auswertungsmethoden das klinische Urteil verbessert werden kann. Die Idee dahinter ist, dass durch die Verwendung solcher Auswertungsmethoden die Information so aufbereitet wird, dass sie einem statistischen Urteil zugänglich ist. Die Problematik der fehlenden systematischen Auswertungssysteme ergibt sich vor allem für Interviews und Verhaltensbeobachtungen. Hier fallen Daten an, die nicht einfach wie bei Tests und Fragebögen aufsummiert
und dann verrechnet werden können. Stattdessen wird die gewonnene Information oft intuitiv verknüpft und so ein klinisches Urteil erstellt. Westen und Weinbergers Argumentation legt nun nahe, dass dieser Prozess dadurch verbessert werden kann, dass systematische Auswertungsinstrumente genutzt werden. Ein sehr gutes Beispiel für ein solches Auswertungsinstrument ist eine
verhaltensverankerte Ratingskala (behavior-anchored rating scale - BARS). Die Abbildung 1 zeigt eine solche BARS, die im Rahmen eines Seminars an der Humboldt-Universität zu Berlin erstellt wurde. Sie sollte bei einem Rollenspiel zur Auswahl einer studentischen Hilfskraft zum Einsatz kommen (Bewerber interagiert mit Professor, der durch einen Rollenspieler gemimt wird, und muss eine Beschwerde über einen Mitarbeiter vorbringen). Die Abbildung verdeutlicht das Prinzip. Das beobachtete Verhalten wird nach Abschluss der Beobachtung klassifiziert (siehe Kapitel 3). Dabei stehen bereits qualitativ unterschiedliche Kategorien zur Verfügung. Es ist auch Raum für Zusatzbeobachtungen. Schließlich muss die Entscheidung für eine von drei vorgegebenen numerischen Kategorien fallen. Dabei entsprechen höhere Werte einem positiveren Urteil. Hier sollte die Entscheidung dann nicht durch Abzählen der Beobachtungen pro Kategorie erfolgen, da die Listen der Verhaltensanker in jeder Kategorie nie erschöpfend sein können. Stattdessen sollte die Bewertungskategorie gewählt werden, für die am meisten Evidenz
128
Ergebnisintegration und Güte von Entscheidungen
Kommunlutlon Auswahlinstrument: Rollenspiel
Verhillten
• nuschelt,. redet: undeutlich • redet um neiDen Brell'lerum • fliit dem Anderen Ins Wort!
lasst nicht ilussprechen • kann keine Antwort geben, d. er ~nbar nicht zuhört! führt seine eigene Argumentatlonsl1nle fort. ohne auf Elnwlnde einzugehen
• benutzt Schimpfwörter
• glhnt
• spricht kblr & deutlich
• I'IIIt angemessen Bilckkontakt (sucht Ihn hin und wieder) • verwendet: kurze Sätze • verwendet nicht/kaum Rlllwörter (.hllt")
• KhtetaufdasGegenüber • Erzlhlung Ist fUr Zuhörer verstlndllchIGegenUber kann offenbar dem Gesagten folgen • nutzt Gesprlchswrstlrker wie
Nlcken •..,Ia':.mhm-
• lacht grundlos wlhrend des Gesprächs
• ilngemesseneWortwilhl
• unangemessene Wortwahl
Zusatzbeob-
ilchtungen Ausprigung "'hl
Abbildung 1
I
-
0
• stellt duld! Nilchfrigen Verstlndnls sicher (fl'llgt bei
Nlcht:/Verstlndnls nach) • mKht sich Notizen • drUckt deutlich aus, was sein Ziel dieses GesprIchs sein sollIwas er in dem Gespräch errelcl'len will
• blut eine verstlndllcne und logische Argumenmtlon auf (z.B~ der Reihe nKhl • Pisst seinen Gesprichsstili Kommunikatlonmilin die Situationiln
+
I I'
I I2
Verhaltensverankerte Ratingskala
spricht. Dazu kann es beispielsweise hilfreich sein, Anker zu benennen, die in einer Kategorie auf jeden Fall erfüllt sein müssen, damit das Verhalten in diese Kategorie fallen kann, z. B. für Kommunikationsfähigkeit Kategorie 1 "spricht klar und deutlich" sowie "angemessene WortwahllI. Werden diese Anker nicht beobachtet, ist das Ergebnis nicht in Kategorie ,,1". Weitere in der Literatur beschriebene Auswertungsinstrumente sind das Time- oder das Event Sampling bei der Verhaltensbeobachtung. Beim Time Sampling wird beispielsweise ein Beobachtungsabschnitt in gleich große Zeitintervalle eingeteilt und dann gezählt, ob das Zielverhalten in den Abschnitten gezeigt wurde. Beim Event Sampling wird gezählt, wie häufig das Verhalten insgesamt im Beobachtungszeitraum ausgeführt wird. In beiden Fällen erhält man so ein quantitatives Maß. Zusammenfassend lässt sich also sagen, dass im Allgemeinen ein geringer Vorteil für das statistische Urteil gegenüber dem klinischen besteht. Der Vorteil ist vor allem bei der Auswertung von Interviewdaten besonders groß. Der Grund für die leichte Überlegenheit des statistischen Urteils sind zahlreiche subjektive Urteilsfehler auf Seiten des klinischen Urteils. Allerdings liegen empirisch begründete Verrechnungsvorschriften, die für statistische Urteile benötigt werden, nur selten vor, so dass doch meist, zwangsweise oder unbe-
Integration der Ergebnisse
129
wusst, auf klinische Urteilsbildung zurückgegriffen werden muss. Werden hierbei allerctings für die Auswertung systematische Instrumente wie BARS verwendet, lässt sich der Einfluss subjektiver Verzerrungen minimieren.
In vielen diagnostischen Prozessen stammen zumindest einige der Ergebnisse auch aus psychometrischen Tests und Fragebögen. Bereits in Kapitel 3 hatten wir darauf hingewiesen, dass diese Verfahren, wie auch alle anderen Informationsquellen, messfehlerbehaftet sind. Dies muss bei der Interpretation der Ergebnisse, aber auch bei der Integration verschiedener Ergebnisse unbedingt beachtet werden. 5.1.2 Messfehlerkritische Absicherung
Das Ergebnis eines psychometrischen Tests oder Fragebogens ist zunächst erst einmal ein Rohwert. Dieser ergibt sich meist als die Summe der richtig
gelösten Items (im Test) bzw. die Summe der angekreuzten Kategorien (im Fragebogen). Die Verwendung von Normwerten ermöglicht es dann, den Wert so zu transformieren, dass er in Bezug auf eine Vergleichsgruppe interpretiert werden kann. Die Interpretation des Normwerts hat nun mindestens zwei problematische Aspekte. Zum einen ist der Normwert ohne Kenntnis der Vergleichsgruppe wenig aussagekräftig. Das zweite Problem hängt mit der Messgenauigkeit zusammen. Wenn wir sagen, dass eine Person im Vergleich zur Norm einen IQ von 97 hat, dann legt diese Aussage nahe, dass wir Intelligenz sehr genau, ja geradezu perfekt, erfassen könnten. Wie sonst könnten wir den numerischen Wert so genau ausdrücken? Dies ist jedoch ein Irrglaube, da psychologisch-diagnostische Verfahren immer auch mit einem Messfehler behaftet sind (siehe Kapitel 3). Bühner (2010, Kapitel 4) erläutert das Problem des Messfehlers in der Einzelfalldiagnostik mit Tests und Fragebögen sehr anschaulich. Vereinfachend lässt sich sagen, dass jede Person eine tatsächliche Ausprägung (wahrer Wert, T) auf der zu messenden Dimension besitzt. Allerdings kann die Messung dieses Wertes durch unsystematische Einflüsse (Messfehler, E) wie beispielsweise Ermüdung verzerrt sein. Würden wir eine Person mit demselben Verfahren unendlich oft messen können, ergäbe sich hypothetisch eine Normalverteilung der Messwerte dieser Person mit dem wahren
Wert als Mittelwert. Die Klassische Testtheorie (siehe Bühner, 2010) beschäftigt sich ausführlich mit dieser Thematik. Abbildung 2 veranschaulicht die Idee. Auf der x-Achse ist der jeweils ermittelte Messwert abgetragen. Auf der y-Achse befindet sich die Wahrschein-
130
Ergebnisintegration und Güte von Entscheidungen Wahrscheinlichkeit des Messwerts .25
Hypothetische Werteverteilung einer Person /
(WahrscheinIichkeitsverteilung)
Ol...::;""'--+--!----:-"";:::'_T Testzeitpunkt 1
1
Testzeitpunkt 3
f
f
Testzeitpunkt 2
niedriger _ Messwert --+ höher
Abbildung 2
Hypothetische Messwertverteilung einer Person
lichkeit, mit der ein solcher Wert beobachtet wird. Extreme Abweichungen vom wahren Wert kommen nur mit geringer Wahrscheinlichkeit vor. Die Abbildung soll zeigen, dass beim Messen eben nur zufällig aus einer intraindividuellen Messwertverteilung ein Wert einer zufällig gezogenen Person gezogen wird. Daher verbietet sich im Rahmen der Einzelfalldiagnostik eigentlich die Interpretation des absoluten Messwerts, egal, ob als Rohwert oder als Normwert. Wie kann man sich nun gegen diesen Messfehler wappnen? Ein wichtiger Aspekt, der hiermit im Zusammenhang steht, ist die Frage, mit wie vielen Verfahren eine Eigenschaft gemessen werden soll. Prinzipiell ist es so, dass der Messfehler kleiner wird, je häufiger man misst (Aggregationsprinzip). Ökonomieüberlegungen setzen jedoch Grenzen. Allerdings sollten Eigenschaften, die im Rahmen der Fragestellung besonders wichtig sind, mit mehr als nur einem Verfahren erfasst werden. Beispielsweise werden bei der Hochbegabtendiagnostik in vielen Beratungsstellen standardmäßig mindestens zwei Intelligenztests eingesetzt (siehe Rost, 2009, S. 165). Je breiter die in Abbildung 2 dargestellte hypothetische intraindividuelle Verteilung ist, desto weniger messgenau ist auch das eingesetzte Verfahren. Die Reliabilitätsschätzer, die wir in Kapitel 3 erläutert haben, schätzen nun, wie stark der Messfehler eines Tests und somit die Breite der intraindividuellen Verteilung ist. Mithilfe der Reliabiliätsschätzer kann dann ein Intervall
Integration der Ergebnisse
131
berechnet werden, das den wahren Wert mit einer gewissen Wahrscheinlichkeit überdeckt. Diese Intervalle werden Konfidenz- oder Vertrauensintervalle genannt.
KonfidenzintmJ/llle Ein Konfidenzintervall (1