112 51 1MB
German Pages 235 Year 2004
Abhandlungen zu Bildungsforschung und Bildungsrecht Band 14
Hochschul-Ranking: Vorschlag eines ganzheitlichen Ranking-Verfahrens Von
Christian R. Bayer
asdfghjk Duncker & Humblot · Berlin
CHRISTIAN R. BAYER
Hochschul-Ranking: Vorschlag eines ganzheitlichen Ranking-Verfahrens
Abhandlungen zu Bildungsforschung und Bildungsrecht Herausgegeben von Frank-Rüdiger Jach
Band 14
Hochschul-Ranking: Vorschlag eines ganzheitlichen Ranking-Verfahrens
Von
Christian R. Bayer
asdfghjk Duncker & Humblot · Berlin
Die Wirtschaftswissenschaftliche Fakultät der Universität Fridericiana zu Karlsruhe hat diese Arbeit im Jahre 2001 als Dissertation angenommen.
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Alle Rechte vorbehalten # 2004 Duncker & Humblot GmbH, Berlin Fremddatenübernahme: L101 Mediengestaltung, Berlin Druck: Berliner Buchdruckerei Union GmbH, Berlin Printed in Germany ISSN 1433-0911 ISBN 3-428-10891-4 Gedruckt auf alterungsbeständigem (säurefreiem) Papier ∞ entsprechend ISO 9706 *
Internet: http://www.duncker-humblot.de
Inhaltsverzeichnis A. Einführung in die Problemstellung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I. Historische Entwicklung des Ranking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II. Problematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III. Zielsetzungen der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV. Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B. Entscheidungsprozessorientierte Definition eines Ranking-Verfahrens und seine Einordnung in die Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I. Ausgewählte Definitionen von Rating und Ranking. . . . . . . . . . . . . . . . . . . . II. Entscheidungsprozessorientierte Definition eines Ranking und eines Ranking-Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Einordnung eines Ranking-Verfahrens in die Evaluationsforschung. . . 2. Einordnung eines Ranking-Verfahrens in die Entscheidungstheorie . . . 3. Einordnung eines Ranking-Verfahrens in die Systematik betriebswirtschaftlicher Kennzahlensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 10 14 18 19 24 25 27 31 48 55
C. Ganzheitliches Ranking-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 I. Verfahrensstandard für Evaluationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 II. Verfahrensstandard für Lebensversicherungs-Ratings . . . . . . . . . . . . . . . . . . . 67 III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings . . . . . . . 69 1. Ranking-Ziel und Ranking-Zielgruppe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2. Ranking-Objektmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3. Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4. Zielsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5. Operationalisierung des Zielsystems durch ein Kennzahlensystem. . . . 91 6. Kennzahlinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 7. Repräsentation der Kennzahlenartenpräferenz durch ein Ranking . . . . 113 8. Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 9. Sensitivitätsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 D. Leistungsmessung im Hochschulbereich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 I. Qualität von Hochschulleistungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 II. Vergleich der Meßverfahren Hochschul-Evaluation und HochschulRanking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 III. Historische Entwicklung der Hochschul-Evaluation und des HochschulRanking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 1. Evaluation und Ranking von Forschungs- und Lehrleistungen für die Zielgruppen Wissenschaft und Politik. . . . . . . . . . . . . . . . . . . . . . . . . . 138
6
Inhaltsverzeichnis 2. Evaluation und Ranking von Forschungs- und Lehrleistungen für die Zielgruppen Studierende und Unternehmen . . . . . . . . . . . . . . . . . . . . 152 IV. Hochschul-Evaluation durch Rating-Agenturen . . . . . . . . . . . . . . . . . . . . . . . 159
E. Anwendung des ganzheitlichen Ranking-Verfahrens auf HochschulRankings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I. Validitäts- und Reliabilitätsforderungen für Hochschul-Rankings . . . . . . . 1. Ranking-Ziel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Ranking-Zielgruppe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Ranking-Objektmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Zielsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Operationalisierung des Zielsystems durch ein Kennzahlensystem . . . 7. Kennzahlinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Repräsentation der Kennzahlenartenpräferenz durch ein Ranking . . . . 9. Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II. Analyse des entscheidungsunterstützenden Informationsgehaltes deutscher und US-amerikanischer Hochschul-Rankings . . . . . . . . . . . . . . . . . . . . 1. Ranking-Ziel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Ranking-Zielgruppe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Ranking-Objektmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Zielsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Operationalisierung des Zielsystems durch ein Kennzahlensystem . . . 7. Kennzahlinterpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Repräsentation der Kennzahlenartenpräferenz durch ein Ranking . . . . 9. Datenerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F. Zusammenfassung, Wertung aktueller Forschungen über HochschulRankings und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II. Wertung aktueller Forschungen über Hochschul-Rankings . . . . . . . . . . . . . III. Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Induzierte Verhaltensänderungen durch Hochschul-Rankings . . . . . . . . 2. Verbesserungsvorschläge für Hochschul-Rankings. . . . . . . . . . . . . . . . . .
161 161 162 162 166 170 174 175 177 178 178 179 179 180 180 181 181 181 188 188 189 191 191 193 197 197 198
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Tabellen- und Abbildungsverzeichnis Tabelle 1:
Anforderungen an ein deutsches Lebensversicherungs-Rating nach DAV (1997) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Tabelle 2:
Anforderungen an ein Zielsystem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Tabelle 3:
Anforderungen an ein Kennzahlensystem. . . . . . . . . . . . . . . . . . . . . . . 93
Tabelle 4:
Beispiele für zulässige Kennzahlinterpretationen . . . . . . . . . . . . . . . . 110
Tabelle 5:
Kennzahlkategorien für Hochschul-Rankings . . . . . . . . . . . . . . . . . . . 182
Tabelle 6:
Zuordnung der Kennzahlen in Spiegel 1989, 93, 98 zu den Kennzahlkategorien für Hochschul-Rankings . . . . . . . . . . . . . . . . . . . 184
Tabelle 7:
Zuordnung der Kennzahlen in Spiegel, Manager Magazin, Stern, Focus, US News zu den Kennzahlkategorien für HochschulRankings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Tabelle 8:
Zuordnung der Kennzahlen in US News zu den Kennzahlkategorien für Hochschul-Rankings. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Tabelle 9:
Zuordnung der Suchfilter in CHE und Business Week zu den Kennzahlkategorien für Hochschul-Rankings . . . . . . . . . . . . . . . . . . . 187
Abbildung 1: Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Abbildung 2: Ganzheitliches Ranking-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Abbildung 3: Klassifikation von Forschern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 Abbildung 4: Quantifizierbares Wirkungsmodell einer Universität nach Syrbe und Bayer (1997) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
A. Einführung in die Problemstellung Viele bedeutende Entscheidungssituationen wie z. B. die Beurteilung der Bonität eines Unternehmens oder die Bewertung der Qualität von Hochschulleistungen besitzen eine hohe Komplexität. Die Komplexität ergibt sich u. a. aus der Anzahl der zu bewertenden Objekte, der Anzahl der Bewertungskriterien und der Unsicherheit der verfügbaren Informationen. Daraus resultiert oft eine Nachfrage nach Verfahren, die Produkt- und Dienstleistungsqualitäten transparent und nach wissenschaftlichen Standards bewertet darstellen. Diese Nachfrage ist dann besonders hoch, wenn es sich für einen Entscheidungsträger um eine neuartige, nicht routinisierte Entscheidung handelt wie z. B. die im Regelfall einmalige Wahl einer Hochschule oder einer Lebensversicherung. Hier bestehen bei einem Entscheidungsträger zunächst nur unvollständige oder unklare Vorstellungen über die Menge der für ihn entscheidungsrelevanten Handlungsalternativen, Bewertungskriterien und über seine Präferenzen.1 Er will dann häufig im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses (Lootsma 2000) die Kriterien, für die er nicht die Informationsbeschaffungskapazität oder für deren Bewertung er nicht die Informationsverarbeitungskapazität besitzt, von einem Dritten übernehmen. Dadurch werden intrapersonelle Vorgänge der Informationsbereitstellung, -aufbereitung und -verarbeitung durch interpersonelle Vorgänge ersetzt bzw. ergänzt. Hierbei agieren Ranking- und Rating-Agenturen als Informationsintermediäre, die entscheidungsunterstützende Informationen sammeln, aufbereiten und zu einem Qualitätsurteil bzw. zu einem Indexwert verdichten. Dabei haben die Agenturen im Regelfall Zugang zu nicht-öffentlichen Informationen und eine bessere Marktkenntnis als ihre Kunden. Der Indexwert eines Ranking oder Rating bestimmt den Rangplatz einer Handlungsalternative bzw. deren Zugehörigkeit zu einer Bonitäts- bzw. Qualitätsklasse. Zwischen einem Ranking- und einem Rating-Verfahren bestehen keine bedeutenden Verfahrensunterschiede. Die Bonität bzw. die Qualität einer Objektmenge wird zunächst durch eine Kriterienmenge beschrieben. Die relative oder absolute Position eines Objektes bezüglich eines Kriteriums wird anschließend durch Expertenbefragungen und/oder durch quantitative Kennzahlen geschätzt, kalkuliert, berechnet oder festgesetzt. Qualitative In1 „Präferenzen“ sind Einstellungen des Entscheiders zu Konsequenzen oder zu Handlungsalternativen (Eisenführ und Weber 1994, S. 30).
10
A. Einführung in die Problemstellung
formationen werden dabei „geeignet“ quantifiziert oder zur Interpretation und Korrektur von quantitativen Informationen verwendet. Sowohl die Rangreihung der Untersuchungsobjekte durch ein Ranking, als auch die Zuordnung der Objekte zu ordinalen Bonitäts- bzw. Qualitätsklassen durch ein Rating, sind das Ergebnis einer Informationsaggregation. Ein Kennzahlensystem wird durch eine Kenn- bzw. Indexfunktion in den Raum der reellen Zahlen abgebildet (Eichhorn 1978). Im Folgenden wird, sofern nicht ausdrücklich zwischen Rating und Ranking differenziert wird, der Begriff Ranking als Synonym für den Begriff Rating verwendet. Als Ranking wird die Kenn- bzw. Indexfunktion und als Rangfolge die Ordnung der Objekte nach den Funktionswerten der Kenn- bzw. Indexfunktion bezeichnet. Die Validität und die Reliabilität einer Rangfolge sind notwendige Voraussetzungen dafür, dass eine Rangfolge entscheidungsunterstützende Informationen im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses liefern kann. Die Voraussetzungen für die Validität und die Reliabilität von Rangfolgen im Rahmen verteilter, multi-kriterieller Entscheidungsprozesse wurden in der Literatur bislang nicht explizit behandelt. Eine verwandte Fragestellung ist die Validität und Reliabilität von Evaluationen, die in der Evaluationsforschung intensiv diskutiert wird und zu einem Verfahrensstandard für Evaluationen geführt hat. Auch für ein Rating deutscher Lebensversicherungsunternehmen wird ein Verfahrensstandard entwickelt. Die Verfahren betonen bereits die Notwendigkeit einer präferenzbasierten Differenzierung einer Evaluation und eines Rating nach Zielgruppen, berücksichtigen jedoch nicht die entscheidungstheoretischen Implikationen einer präferenzbasierten Evaluation bzw. eines präferenzbasierten Ranking.
I. Historische Entwicklung des Ranking Die volks- und betriebswirtschaftlichen Anwendungen des Ranking haben ihren Ursprung in der Bewertung der Qualität von Finanzkontrakten wie Warenkrediten, Versicherungsverträgen und Schuldverschreibungen in den USA in der Mitte des 19. Jahrhunderts.2 Die Qualität eines Finanzkontraktes wird durch eine Bewertung der Bonität der Schuldner3 aus dem Finanzkontrakt und einer Bewertung der rechtlichen Rahmenbedingungen der 2
„Das heutige, mit Varianten international verbreitete Rating-System kann auf eine erstaunlich lange Tradition in den Vereinigten Staaten zurückblicken. Als unmittelbarer Vorgänger des Bond-Rating gilt das ‚commercial credit-rating‘ welches bereits 1850 die Bonität der Schuldner von Warenkrediten bewertete. Das daraus abgeleitete Bond-Rating-System fand einerseits durch wirtschaftliche Ereignisse, andererseits durch gesetzliche Regelungen immer größere Verwendung“ (Baum 1987, S. 2). 3 Z. B. Kaufleute, Unternehmen, öffentliche Institutionen, Nationen.
I. Historische Entwicklung des Ranking
11
Finanzkontrakte ordinalen Risiko- oder Kreditausfallwahrscheinlichkeitsklassen (im Vergleich mit Wettbewerbern und deren Risikoklassen) zugeordnet. Unter der Bonität eines Schuldners wird hier dessen Fähigkeit der fristgerechten Begleichung eines für die Zukunft abgegebenen Zahlungsversprechens verstanden. Die rechtlichen Rahmenbedingungen der Finanzkontrakte bestimmen u. a. die Behandlung der Gläubiger bei Zahlungsverzug bzw. Zahlungsausfall. Die ordinalen Risikoklassen werden mit Buchstabenkombinationen wie von A++ bis S (16 Risikoklassen bei A. M. Best), Aaa bis C (19 Risikoklassen bei Moody’s), AAA bis D (21 Risikoklassen bei Standard & Poor’s), AAA bis D (22 Risikoklassen bei Fitch) bezeichnet und in übergeordnete Gruppen wie Secure Ratings und Vulnerable ratings (A. M. Best) oder Investment Grade und Speculative Grade (Moody’s, Standard & Poor’s, Fitch) eingeteilt. Heute sind die volks- und betriebswirtschaftlichen Anwendungen vielfältiger Natur und umfassen so unterschiedliche Bereiche wie das Ranking der Wettbewerbsfähigkeit der größten Industrieländer,4 das Ranking der Wettbewerbsfähigkeit europäischer Regionen,5 das Rating von Lebensversicherungen,6 Warentests wie die Klassifikation von Nahrungs- und Genussmitteln, das Ranking von Ländern,7 Städten8 und Hochschulen. Alfred Magilton Best gründete mit 21 Jahren am 13. Dezember 1899 in New Jersey, USA die Agentur Alfred M. Best „with the purpose of performing a constructive and objective role in the insurance industry towards the prevention and detection of insurer insolvency“ (A. M. Best Company 2000b). Er gab im Jahr 1900 erstmalig den Best’s Insurance Report mit Informationen zum finanziellen und operativen Ergebnis von Versicherungsunternehmen heraus, der durch die Initiative des New York Insurance Department 1906 zum Best’s Key Rating Guide erweitert wurde.9 Das Unternehmen ist heute noch auf das Rating von Versicherungsunternehmen spezialisiert und deckt mit seinen Analysen nahezu den gesamten US-ame4
Z. B. seit 1977 durch das World Economic Forum (WEF 1997) oder durch das IMD Lausanne (IMD 1997). 5 Z. B. Dunkel (1998). 6 Z. B. Manfred Poweleit (1995), Capital und Morgen (1996c), Finanztest (1996), Wagner (1991), Sönnichsen (1992). 7 Siehe Evertz (1992), Huckemann und van Suntum (1994), Steiner (1992). 8 Siehe Lackner (1992). 9 „In New York State there was a legal provision for issuing special licences to brokers, authorizing them to place insurance with non-admitted insurers, provided both the insured and the broker first made affidavit that the market in admitted companies was exhausted. A lot of these licenses were issued by the New York Insurance Department, which came to us and asked that we prepare a confidential list of all such concerns, indicating our opinion of their reliability by the numbers 1, 2, 3, 4, 5“ (A. M. Best Company 2000b).
12
A. Einführung in die Problemstellung
rikanischen Versicherungsmarkt ab.10 Es hatte in diesem Marktsegment bis 1971 eine Monopolstellung, bis die Standard & Poor’s Rating Group und vor einigen Jahren Moody’s Investors Service ihr Kerngeschäft des BondRating auch auf das Rating von Versicherungsunternehmen erweiterten (Sönnichsen 1992).11 John Moody veröffentlichte 1900 mit 32 Jahren „Moody’s Manual of Industrial and Corporation Securities“ und führte mit „Moody’s Analyses of Railroad Investments Containing in Detailed Form an Expert Comparative Analysis of Each of the Railroad Systems of the United States, with Careful Deductions, Enabling the Banker and Investor to Ascertain the True Values of Securities by a Method Based on Scientific Principles“ im Jahr 1909 die erste Bewertung der Bonität von Eisenbahnunternehmen bzw. ihrer Kreditausfallwahrscheinlichkeit und der Qualität ihrer Emissionen nach Bonitätsklassen ein, die als Bond-Rating-System weltweit bekannt wurde (Everling 1991, Baum 1987).12 Diese Zeit war gekennzeichnet durch ein hohes Wirtschaftswachstum in den USA. Durch Akquisitionen und Fusionen entstanden große Industrieunternehmen mit einem hohen Kapitalbedarf, der nur durch ein breites Anlegerpublikum gedeckt werden konnte. Eisenbahnanleihen bildeten die Grundlage des Investmentgeschäfts. In der Folge erhöhte sich der Bedarf an öffentlich verfügbaren Informationen über diese Unternehmen (Everling 1991). Das Rating-System wurde im Laufe der Jahre geringfügig modifiziert und wird heute von der im Jahr 1914 gegründeten Moody’s Investors Service zur Bonitätsbeurteilung von über 4 500 Unternehmen weltweit, von über 20 000 öffentlichen Institutionen in Nordamerika und von über 50 Nationen und einer Vielfalt von Finanzinstrumenten13 angewendet.14 10 „A. M. Best currently rates more than 2 600 property/casualty and over 1 700 life/health companies, as well as over 1 100 insurers in 65 countries. The objective of Best’s rating system is to provide an overall opinion of an insurance company’s ability to meet its obligations to policyholders. A Best’s Rating is an independent third-party evaluation that subjects all insurers to the same rigorous criteria, providing a valuable benchmark for comparing insurers, regardless of their country of domicile“ (A. M. Best Company 2000c). 11 1999 trat A. M. Best auch in Konkurrenz zu Moody’s Investors Service und der Standard & Poor’s Rating Group mit dem Best’s Credit Rating genannten BondRating von Long-Term Debt und Preferred Stock. 1997 wurde A. M. Best Europe Limited in London gegründet und das Versicherungsunternehmen Lloyd’s zum ersten Mal während seines 300jährigen Bestehens durch A. M. Best Europe Limited bewertet. 12 Moody’s System des Bond-Rating geht ursprünglich auf eine bei Dun & Bradstedt entwickelte Systematik zurück. 13 „We rate a variety of instruments from bonds, commercial paper, and preferred stock to numerous structured financial transaction in the securitized markets. We also rate the credit risk of bank dept and deposit obligations, the claims-paying
I. Historische Entwicklung des Ranking
13
Es folgten die Gründungen weiterer Rating-Agenturen wie Poor Corporation, Standard Statistics, Fitch Investor Service, Duff & Phelps, sowie nationaler Agenturen wie IBCA Banking Analysis (1978, London), The Japan Bond and Research Institute (1979, Tokio), Australian Ratings (1981, Melbourne), Credit Information Bureau (1982, Manila), Nippon Investors Service (1985, Tokio), Japan Credit Rating Agency (1985, Tokio), Korea Business Reserach & Information (1986, Seoul), Agence d’Evaluation Financiere (1986, Paris) und EuroRatings (1987, London). Durch die Deregulierung des europäischen Lebensversicherungsmarktes 1994 wurde die staatliche Aufsicht der Lebensversicherungsunternehmen durch das Bundesamt für Versicherungswesen (BAV) in einigen wesentlichen Bereichen zurückgenommen. Dies führte bereits im Vorfeld zu einer lebhaften Diskussion und Nachfrage nach einem europäischen Lebensversicherungs-Rating.15 A. M. Best und Moody’s Investors Service begannen ihr Geschäft mit der strukturierten Sammlung und Aufbereitung von entscheidungsrelevanten Informationen für Versicherungsnehmer bzw. Anleger. Nach einem standardisierten Verfahren werden Jahresabschlüsse, Bilanzen, Marktanalysen und Presseartikel aufbereitet, die unternehmerischen Zielsetzungen und die Qualität des Management bewertet, und zusammen mit makroökonomischen, branchen-, finanz- und emissionsspezifischen Analysen veröffentlicht.16 Sie erweiterten innerhalb weniger Jahre dieses Basisgeschäft um die Aggregation dieser Informationen durch einen Bonitätsindex (Rating). Die Ratings waren zunächst sehr umstritten und mussten sich im Laufe der Jahre ihre Reputation erst erwerben.17 Zahlreiche Revisionen der Ratings und ihre empirisch bestätigte Fähigkeit der Vorhersage von Zahlungsverzögerungen, -ausfällen und Insolvenzen18 trugen dazu bei, dass diese Ratings heute als globaler Standard und objektiver Vergleichsmaßstab der Fiability of insurance companies, and counterpart risk in derivatives transactions“ (Moody’s Investors Service 2000a). 14 Siehe Baumann (1996), Baetge (1994), Gündling und Everling (1994), Rudolf (1989). 15 Siehe Jung et al. (1996), Capital und Morgen (1996a), Capital und Morgen (1996b), Capital und Morgen (1996c), Finanztest (1996), Manfred Poweleit (1995), Henry (1996), Wagner (1991), Soennichsen (1992). 16 Siehe Baum (1987, XVI–XIX) für einen standardisierten Ablaufplan zur Beurteilung der Management-Qualifikation von Moody’s Investors Service. 17 „In 1935 we were attacked most vigorously by certain life insurance companies, which did not like our comments and policyholders’ ratings; most of them have since gone out of business. . . . About the same time, in six different States, bills were introduced with the intend to drive us out of business in those States. By the simple process of educating the members of the legislatures concerned, we defeated them with little trouble, though the some of our attackers had the backing of very strong local interests“ (A. M. Best Company 2000b).
14
A. Einführung in die Problemstellung
nanz- und Erfolgskraft von Unternehmen allgemein akzeptiert sind und von Versicherungsnehmern und Anlegern weltweit eingefordert werden.19 Die Ratings und die Rating-Änderungen bestimmen u. a. maßgeblich den Fremdkapitalzins von Kapitalmarktobligationen.20 In den USA sind seit 1938 die Finanzierungsvorschriften für Wertpapiere im Eigenbestand der Banken von dem Rating der Wertpapiere abhängig (Baum 1987, S. 3–4). In Japan ist die Emission, der Emissionshöchstbetrag und die maximale Laufzeit vom Rating des Emittenten abhängig (Baum 1987, IV). Ihre große Marktmacht ruft bei den Emittenten von Kapitalmarktobligationen immer wieder Kritik hervor. Als Moody’s Mitte der 90’er Jahre dazu überging, Emittenten unaufgefordert zu bewerten, führte dies zu einer heftigen Protest- und Prozesswelle in den USA (Baumann 1996, Buchholz 1996). Dass auch Rating-Agenturen nicht gegen Fehlbewertungen gefeit sind, zeigen populäre Beispiele. In der zweiten Weltwirtschaftskrise wurden 78% der 1929 mit Aa oder Aaa bewerteten Kommunalobligationen und 48% aller mit Aaa bewerteten Obligationen notleidend, 1970 hatten die „commercial papers“ der Penn Central Transportation Corporation zum Zeitpunkt ihrer Insolvenzerklärung eine „prime“ Klassifikation von Moody’s und Standard & Poor’s (Baum 1987, S. 9), im April 1986 konnte die Ticor Insurance Company mit der Klassifikation AAA eine abgegebene Garantie für ein Unternehmen über 200 Millionen US-Dollar nicht bedienen, als dieses mit der Rückzahlung der garantierten Emission in Verzug geriet (Baum 1987, S. 38). 1991 erklärte das Versicherungsunternehmen Executive Life seine Insolvenz, nach dem es bis 1990 von A. M. Best und von Standard & Poor’s eine „prime“ Klassifikation erhielt (DAV 1997, S. 14).
II. Problematik Der Übergang von einer Industrie- zu einer Informations- und Wissensgesellschaft ist verbunden mit einschneidenden Änderungen in den gesetzlichen oder wirtschaftlichen Rahmenbedingungen, die zu einem höheren Grad an Entscheidungskomplexität führen. Beispiele für diese Veränderun18 Denenberg (1967), Pinches und Trieschmann (1974), Harmelink (1974), Ambrose und Seward (1988), Ambrose und Carroll (1994) und Pottier (1998) beinhalten empirische Analysen zur Insolvenzprognose des A. M. Best Rating. 19 „Für Banken und Versicherungen sind die Noten der Agenturen verlässlicher Vergleichsmaßstab für eigene Risiko-Einschätzungen“ (Claus 1999). „Today many banks, school boards and similar organizations will not accept any policy unless a company carries a high rating for us . . . Financial ratings also have become a strategic requirement for many insurers“ (A. M. Best Company 2000a). 20 Siehe Fisher (1959), Ang und Patel (1975), Ederington, Yawitz und Roberts (1984), Crabbe und Post (1992) und Cantor und Packer (1996).
II. Problematik
15
gen sind die Globalisierung und die Deregulierung nationaler Märkte,21 die zunehmende weltweite Informationspräsenz durch neue Medien wie z. B. durch das Internet, die schnelle Veralterung von Informationen und der hohe Zeitdruck, unter dem heute Entscheidungen gefällt werden müssen. Auch sind in vielen Märkten Sättigungserscheinungen zu beobachten, die von einer stärkeren Produktdifferenzierung und einer größeren Anzahl konkurrierender Produkte und Dienstleistungen begleitet werden. Die Menge an Entscheidungsalternativen (z. B. die Anzahl zur Auswahl stehender Hochschulen) und die zu verarbeitende Informationsmenge (z. B. die unterschiedliche Qualität von Forschung und Lehre, die Arbeitsmarktaussichten für Absolventen, Details der Studien- und Prüfungsordnungen) wächst auf ein Maß an, das die persönliche Informationsbeschaffungs- und -verarbeitungskapazität bei weitem übersteigt („information overload“).22 Der (Vor-) Strukturierung einer Entscheidungssituation, insbesondere der Auswahl entscheidungsrelevanter Kriterien, der Erhebung der erforderlichen Daten und der Verdichtung von Einzelinformationen zu Kennzahlen, die schnell und einfach über entscheidungsrelevante Tatbestände informieren sollen, wird im Rahmen von verteilten, multi-kriteriellen Entscheidungsprozessen ein großer Stellenwert beigemessen. „In dieser Situation können Rankings als Ersatzmaßstab dienen, um den eigenen Standpunkt zu bestimmen. . . . An die Stelle von vormals selbst gebildeten oder im Diskurs entstandenen Meinungen treten Bewertungen aus zweiter Hand“ (Klostermeier 1994, S. 4). Die Entwicklung von Rankings ist historisch gekennzeichnet durch einen iterativen Prozess einer Vorstellung, Kritik und Revision. Die bewerteten Unternehmen oder öffentlichen Institutionen leisten anfangs erheblichen Widerstand gegen diese Form der Bewertung ihrer Produkte und Dienstleistungen. Sie weisen den Agenturen methodologische und methodische Fehler nach. Dieser Kritik durch die Bewerteten steht jedoch weiter eine starke Nachfrage der Konsumenten gegenüber, die von den Agenturen unbeirrt befriedigt wird. Im Laufe der Zeit werden die Rankings modifiziert und wissenschaftlich abgesichert. Rankings beginnen sich dann zu etablieren, wenn staatliche Maßnahmen sich an Rangplätzen oder -klassen orientieren oder die mit „gut“ Bewerteten mit diesen werben um z. B. ihre Kapitalkosten zu senken oder vermehrt qualifizierte Studienanfänger für ihre Hochschule zu gewinnen. Die Kritik der mit „schlecht“ Bewerteten wird dann unglaubwürdig. 21 Z. B. die Deregulierung und Liberalisierung des europäischen Lebensversicherungsmarktes 1994 und des deutschen Telekommunikationsmarktes 1998. 22 Vgl. auch Neidhardt (1986): „Die Verwissenschaftlichung unserer Welt läuft darauf hinaus, dass wir an immer größer werdenden Frontabschnitten unseres Lebens Laien sind“ und Klostermeier (1994, S. 4): „Vielen Menschen fehlt es daher an Orientierung. Komplexes Wissen ist vonnöten; alte auf traditionelle Werte bezogene Maßstäbe hingegen sind oft nicht mehr anwendbar.“
16
A. Einführung in die Problemstellung
Haben sich Rankings in einem Markt etabliert, beeinflussen sie maßgeblich wesentliche ökonomische Entscheidungen.23 Sie erzielen in der Öffentlichkeit und in der Fachpresse eine große Resonanz. In den Ursprungsländern USA und Großbritannien haben sich über die Zeit regelrechte „Ranking-Kulturen“ etablieren können. Z. B. sind Hochschul-Rankings in den USA für Arbeitgeber, Wissenschaftler und Studierende ein umstrittenes, aber akzeptiertes Qualitätsmaß für Hochschulleistungen. In Deutschland antworten bereits 15 Prozent der durch HIS an den Universitäten befragten Studienanfänger des Wintersemesters 1998/99 auf die Frage „Aus welchen Gründen studieren Sie an Ihrer jetzigen Hochschule?“, dass „Hochschule erhielt für mein Studienfach gute Bewertung in einer Hochschulrangliste/ Ranking“ ein entscheidungsrelevantes Kriterium ist.24 Fragt man nach der wissenschaftlichen Fundierung der Rankings, so verweisen die Agenturen in der Regel auf ein Betriebsgeheimnis oder führen die Unmöglichkeit einer wissenschaftlichen Fundierung an. Die Ranglisten und Klassifikationen sind stets Ausdruck rein subjektiver Expertenmeinungen, die allerdings den Anspruch erheben nach professionellen Standards erstellt worden zu sein. Sie gelten in den USA als Meinungen. RatingAgenturen wie Moody’s Investors Service, Standard & Poor’s und Fitch werden der Medienlandschaft zugerechnet und berufen sich auf das Recht der freien Meinungsäußerung als Rechtsgrundlage für ihre Veröffentlichungen (Baum 1987, S. 5). Obwohl einerseits zahlreiche wissenschaftliche Arbeiten über die Aussagekraft und die Wirkungen von Rangfolgen existieren, ist andererseits ihre wissenschaftliche Fundierung bisher nur in Ansätzen vorhanden und auf mehrere Wissenschaftsdisziplinen wie multi-attributive und präskriptive Entscheidungstheorie, Theorie betriebswirtschaftlicher Kennzahlensysteme und Evaluationsforschung verteilt. Obwohl wissenschaftlich fundierte Verfahren z. B. aus der multi-attributiven Nutzentheorie anwendbar wären, wird auf sie in Praxis zugunsten von einfachen Scoring-Verfahren verzichtet (von Nitzsch 1992). 23
Das „Netherlands Educational Review Office“ veröffentlicht im Internet Daten zur „pädagogischen Qualität,“ zum „Lernstil“ und zu „Performance-“Daten niederländischer Schulen (sortierbar nach der Schule, der Schulart, der Region und über die Zeit). „This kind of evaluative information plays a role in decision-making processes of parents, grass root groups and lobby groups but also makes it possible for journalists to comment on the performance of schools“ (Leeuw 2000, S. 73). 24 28 Prozent geben als wichtigen Grund für Ihre Hochschulwahl „guter Ruf von Hochschule und Professoren“ an (Lewin, Heublein, Schreiber und Sommer 1999). „Die Ergebnisse einer Wirkungsstudie zur Spiegel-Rangliste 1999 zeigen, dass in allen ZVS-Studiengängen ein enger Zusammenhang besteht zwischen der Platzierung einer Universität nach dem Urteil der Studierenden und der Zu- und Abnahme der Bewerberzahlen“ (Daniel 2001).
II. Problematik
17
Die in Fachzeitschriften an Rankings geübte Kritik betrifft überwiegend die objektive, ziel- und zielgruppenübergreifende Validität und Reliabilität von Rankings und beschränkt sich meist auf eine Kritik an den Definitionen und der grundsätzliche Aussagefähigkeit einzelner Kennzahlen als Indikatoren für einen nicht direkt messbaren Sachverhalt und auf die Angemessenheit der angewendeten statistischen Auswertungsmethoden. Der entscheidungsunterstützende Informationsgehalt eines Ranking, das ein Bestandteil verteilter, multi-kriterieller Entscheidungsprozesse unterschiedlicher Zielgruppen ist, wird jedoch maßgeblich durch das Ranking-Verfahren festgelegt, bei dem die Erhebung und statistische Auswertung von Kennzahlen abhängig sind von dem Ziel, der Zielgruppe, den Objekten, dem Wirkungsmodell, dem Ziel- und Kennzahlensystem. Bewertungsmodelle sind meist inhärent subjektiver Natur und somit muss eine Überprüfung der Validität und Reliabilität eines Ranking seine Verwendung im Rahmen verteilter, multi-kriterieller Entscheidungsprozesse unterschiedlicher Zielgruppen berücksichtigen. Die Beschränkung auf „wichtige“ oder messbare Einflüsse, deren Konsequenzen bekannt sind, die Entscheidung für eine bestimmte Art der Messung dieser Einflüsse und die anschließende Aggregation der Informationen zu einem Ranking wird in Abhängigkeit der faktischen und wertenden Entscheidungsprämissen einer Ranking-Zielgruppe vorgenommen. Unterschiedliche faktische und wertende Entscheidungsprämissen können zu verschiedenen Rangfolgen oder Rangklassen führen, die nur für die Zielgruppen einen entscheidungsunterstützenden Informationsgehalt besitzen, die gleiche oder ähnliche Entscheidungsprämissen aufweisen.25 Diese Problematik tritt in der Anwendung z. B. bei den konkurrienden Ratings von Standard & Poor’s und Moody’s durch split ratings auf. Methodische Fehler bei der Aggregation von Informationen zu einem Ranking oder Fehler bei der Interpretation und Anwendung der Rangfolgen können, besonders bei kurzfristig nicht reversiblen Entscheidungen, zu großem wirtschaftlichen Schaden führen. So können z. B. aus einer Rangfolge der Wettbewerbsfähigkeit von Industrieländern falsche wirtschaftspolitische Maßnahmen abgeleitet werden, Lebensversicherungsnehmer können durch Rangfolgen ungünstige Entscheidungen treffen und Vermögensnachteile erleiden oder Studierberechtigte entscheiden sich durch eine Rangfolge nicht für die Hochschule, die am besten zu ihren Neigungen, Studienzielen, Fähigkeiten und finanziellen Möglichkeiten passt. Diese Problematik gewinnt weiter an Gewicht durch die große Attraktivität von „leicht konsumierbaren“ Informationen wie Kennzahlen, die dazu neigen, ein „Eigenleben“ zu bekommen, und die Gefahr einer „self-fulfilling prophecy“ aufweisen. 25 Vgl. Baum (1987, S. 9): „Ein Rating ist damit immer auf einen repräsentativen Investor zugeschnitten.“
18
A. Einführung in die Problemstellung
Kennzahlen werden oft losgelöst von ihrem Erhebungszweck und ihrer Erhebungsmethodik als objektive Fakten interpretiert. So können Rangfolgen das produzieren was sie fälschlicherweise zu messen vorgeben. Wird z. B. die Kreditausfallwahrscheinlichkeit eines Emittenten fälschlicherweise zu hoch bewertet, so wird dieser zu hohe Fremdkapitalzinsen am Kapitalmarkt bezahlen müssen und seine Kreditausfallwahrscheinlichkeit wird allein durch die Folgen seines falschen Rangplatzes steigen. Wird eine Lebensversicherung zu schlecht bewertetet, wird sie ein geringeres Neukundengeschäft verzeichnen. Dadurch verschlechtert sich ihre Kundenstruktur, erhöhen sich ihre Zahlungen und ihre Überschussprognosen müssen nach unten korrigiert werden. Dies führt wiederum zu einem schlechteren Rangplatz. Wird die Qualität der Hochschulleistungen einer Hochschule zu schlecht bewertet, werden sich u. a. qualifizierte Studierberechtigte vermehrt an anderen Hochschulen bewerben. Dies kann zu einer Verschlechterung der Hochschulleistungen der falsch bewerteten Hochschule führen. Mit dem zunehmenden Einfluss von Rankings auf wesentliche ökonomische Entscheidungen sind die Wirtschafts- und Sozialwissenschaften aufgefordert, sich wissenschaftlich konstruktiv mit einem Verfahrensstandard für Rankings auseinander zu setzen, der eine Bewertung des entscheidungsunterstützenden Informationsgehaltes eines Ranking im Rahmen verteilter, multi-kriterieller Entscheidungsprozesse ermöglicht.
III. Zielsetzungen der Arbeit Ziel der Arbeit ist es zu zeigen, welche Validitäts- und Reliabilitätsforderungen ein Ranking als Bestandteil verteilter, multi-kriterieller Entscheidungsprozesse erfüllen muss. Für diesen Zweck wird ein ganzheitliches Ranking-Verfahren (siehe Abbildung 2 in Abschnitt C.III.) aus der Entscheidungstheorie, der Systematik betriebswirtschaftlicher Kennzahlensysteme und der Evaluationsforschung unter Berücksichtigung der Literatur zur Kritik von Rankings in den ausgewählten Anwendungsbereichen Schuldverschreibungen, Lebensversicherungen und Hochschulleistungen abgeleitet. Als Anwendung des ganzheitlichen Ranking-Verfahrens werden Möglichkeiten und Grenzen von Rankings aufgezeigt und Validitäts- und Reliabilitätsforderungen für ein Hochschul-Ranking vorgeschlagen. Auf diese Weise können die unterschiedlichen Rahmenbedingungen, unter denen die Hochschulen ihre Leistungen erstellen, berücksichtigt werden, und es können Arbeiten, z. B. zur Identifikation von strategischen Gruppen unter Hochschulen,26 zur Bewertung der Qualität von Lehrleistungen,27 von Absolven26 Siehe Simon (1985), Elsbach und Kramer (1996), Segev, Raveh und Farjoun (1999).
IV. Aufbau der Arbeit
19
ten,28 von Forschungsleistungen,29 und von „value added“ von Studiengängen30 strukturiert zusammengeführt werden. Abschließend wird die Validität und Reliabilität deutscher und US-amerikanischer Hochschul-Rankings anhand des ganzheitlichen Ranking-Verfahrens beurteilt. Daraus ergeben sich Vorschläge für eine Verbesserung des entscheidungsunterstützenden Informationsgehalts von Hochschul-Rankings. Die Arbeit wurde von Prof. Dr. Dres. h. c. Wolfgang Eichhorn und Prof. Dr. Dr. h. c. Max Syrbe betreut. Sie gehört zum Bereich der präskriptiven Entscheidungstheorie.
IV. Aufbau der Arbeit Kapitel B. gibt einen Überblick über verschiedene Definitionen von Ranking und Rating in der Literatur. Darauf aufbauend werden die Begriffe Rangfolge, Ranking, verteilter multi-kriterieller Entscheidungsprozess und ganzheitliches Ranking-Verfahren als Bestandteile eines rationalen Entscheidungsprozesses definiert. Die Begriffe unterscheiden zwischen einem Bewertungsverfahren, dessen Methoden und deren Ergebnis. Unter Rationalität wird in dieser Arbeit eine prozedurale Rationalität im Sinne der präskriptiven Entscheidungstheorie verstanden. Ein Ranking wird als ein Spezialfall von Eichhorn (1978) als Index, d. h. als eine spezielle Funktion auf der Objektmenge einer Zielgruppe definiert, deren Funktionswerte zu einer die Präferenzrelationen der Zielgruppe repräsentierenden Rangfolge führt. Die Begriffe werden in die Literatur zur Evaluationsforschung, zur betriebswirtschaftlichen Entscheidungstheorie und zu betriebswirtschaftlichen Kennzahlensystemen eingeordnet. Die Gemeinsamkeiten und die Unterschiede zwischen einem Ranking-Verfahren und einem Evaluations-Verfahren, einem Entscheidungsprozess und einem entscheidungsorientierten Kennzahlensystem werden erarbeitet. Wir übertragen die Validitätsund Reliabilitätsforderungen aus diesen Disziplinen auf ein ganzheitliches Ranking-Verfahren. Aus der historischen Entwicklung der Evaluationsforschung und der Folge unterschiedlicher Phasen wie Measurement, Description, Judgement und Constructivism lassen sich Entwicklungsparallelen zur Ranking-Forschung zeigen. Diese befindet sich derzeit im Übergang von der Measurement- zu einer Description-Phase. Die Definition eines Ranking als Bestandteil eines verteilten, multi-kriteriellen Entschei27 Siehe Kromrey (1992), Ewell (1992), Treinen (1993), Hansen, Henning-Thurau und Wochnowski (1997). 28 Siehe Bankhofer und Hilbert (1995), Tracy und Waldfogel (1997). 29 Siehe Hornbostel (1997), Fisch und Daniel (1986), Daniel und Fisch (1988). 30 Siehe Tracy und Waldfogel (1997).
20
A. Einführung in die Problemstellung
dungsprozesses in dieser Arbeit ist der so genannten Constructivism-Phase zuzuordnen. In Kapitel C. werden ein Verfahrensstandard für Evaluationen und erste Ansätze von Gütekriterien für Lebensversicherungs-Ratings beschrieben. Anschließend wird ein ganzheitliches Ranking-Verfahren vorgeschlagen. Es unterteilt die Validitäts- und Reliabilitätsforderungen in Anlehnung an einen verteilten multi-kriteriellen Entscheidungsprozess nach den Verfahrensschritten: Bestimmung des Ranking-Ziels, der Ranking-Zielgruppe, der Ranking-Objektmenge, des Wirkungsmodells, des Zielsystems, des Kennzahlensystems, der Kennzahlinterpretation, des Ranking und der Datenerhebung. Durch eine Definition dieser Verfahrensschritte und durch das Aufzeigen von Interdependenzen wird erstmals eine ganzheitliche Bewertung der Validität und Reliabilität eines Ranking erreicht. Das ganzheitliche Ranking-Verfahren fordert eine präferenzbasierte Unterscheidung der RankingEmpfänger nach Ranking-Zielgruppen und der Handlungsalternativen nach Ranking-Objektmengen. Bei der Formulierung eines Zielsystems und bei der Ableitung eines Kennzahlensystems stellt die gegenseitige Präferenzunabhängigkeit der Ziele und Kennzahlen eine zentrale Forderung dar, da sie eine notwendige Voraussetzung für eine Dekomponierung einer Präferenz in Einzelpräferenzen und in eine Aggregationsvorschrift darstellt. Ein multilineares, multiplikatives oder lineares Ranking wird durch eine Überprüfung von Differenzunabhängigkeitsbedingungen aus der Nutzen- und Präferenztheorie abgeleitet. In diesem Kapitel werden die Möglichkeiten und Grenzen von Ranking-Modellen diskutiert. Es wird deutlich, dass bei der Erstellung von Ranking-Modellen zahlreiche subjektive Faktoren einfließen und einfließen müssen, eine logisch konsistente Vorgehensweise die Menge der subjektiven Wahlmöglichkeiten an einigen Stellen jedoch stark einschränken kann und sich aus relativ einfachen Anforderungen zwingende Kalküle zur Bewertung von Handlungsalternativen ableiten lassen. Kapitel D. gibt einen Überblick über die Leistungsmessung im Hochschulbereich. Hochschulleistungen werden als Dienstleistungen charakterisiert und ihre Bewertungen, in Analogie zum Dienstleistungsmanangement, gegenüber Produktbewertungen abgegrenzt. Unter einer Fülle von Instrumenten zur Leistungsmessung werden die Gemeinsamkeiten und die Unterschiede zwischen einer Hochschul-Evaluation und einem Hochschul-Ranking erörtert. Sowohl die Hochschul-Evaluation als auch das HochschulRanking stellen subjektive Qualitätsmaße dar, die sich jedoch in der Transparenz ihrer Subjektivität unterscheiden. Bei einem subjektiven Qualitätsmaß muss die theoretische Validität und Reliabilität durch einen Verfahrensstandard gewährleistet werden (Objektivierung durch Verfahren). Darin schließt eine kurze Darstellung der historischen Entwicklung von Hochschul-Evaluationen und Hochschul-Rankings in den USA, Großbritannien,
IV. Aufbau der Arbeit
21
Kapitel B. I. Ausgewählte Definitionen von Rating und Ranking. Kapitel B. II. Definition Rangfolge, Ranking, ganzheitliches Ranking-Verfahren, verteilter, multi-kriterieller Entscheidungsprozess
Kapitel B. II. 1. Evaluationsforschung. Kapitel C. I. und C. II. Evaluations- und Rating-Verfahren
Kapitel B. II. 2. Entscheidungstheorie.
Kapitel C. III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
Kapitel B. II. 3. Systematik betriebswirtschaftlicher Kennzahlensysteme.
Kapitel D. Leistungsmessung im Hochschulbereich
Kapitel E. I. Validitäts- und Reliabilitätsforderungen für Hochschul-Rankings. Kapitel E. II. Analyse des entscheidungsunterstützenden Informationsgehaltes deutscher und US-amerikanischer Hochschul-Rankings.
Kapitel F. Zusammenfassung und Ausblick.
Abbildung 1: Aufbau der Arbeit
22
A. Einführung in die Problemstellung
Frankreich, den Niederlanden und Deutschland für die Zielgruppen Wissenschaft, Politik, Studierende und Unternehmen an. Durch den historischen Vergleich wird deutlich, warum Hochschul-Evaluationen und HochschulRankings heute populär sind und warum diese Instrumente zur Leistungsmessung und Entscheidungsunterstützung, die eine über hundertjährige Tradition in den USA haben, insbesondere in Deutschland als unseriös, als nicht auf das deutsche Hochschulsystem übertragbar und als nicht wissenschaftlich gelten. Abschließend wird eine aktuelle Entwicklung in den USA geschildert. Dort erweitern Rating-Agenturen wie Standard & Poor’s und Moody’s Investors Service ihr Geschäftsfeld auf die Bewertung von USamerikanischen Hochschulen. In Kapitel E. wird das in Kapitel C. vorgestellte ganzheitliche RankingVerfahren auf Hochschul-Rankings angewendet, die vermehrt Bestandteile verteilter, multi-kriterieller Entscheidungsprozesse von Anspruchsgruppen wie Studierenden, Hochschul-Politikern und Unternehmen sind. Es werden jeweils für die Verfahrensschritte Ranking-Ziel, Ranking-Zielgruppe, Ranking-Objektmenge, Wirkungsmodell, Zielsystem, Kennzahlensystem, Kennzahlinterpretation und Datenerhebung Validitäts- und Reliabilitätsforderungen aufgestellt, die ein Hochschul-Ranking im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses erfüllen muss. Zentrale Forderungen sind: eine Differenzierung eines Hochschul-Ranking nach Ranking-Zielgruppen, d. h. nach einer Menge von Entscheidungsträgern, die bezüglich eines Ranking-Ziels homogene Entscheidungsprämissen besitzen, eine Differenzierung nach Ranking-Objekten, d. h. nach einer Menge von entscheidungsrelevanten Handlungsalternativen, die von einer RankingZielgruppe bezüglich eines Ranking-Ziels als strukturgleich oder strukturähnlich wahrgenommen werden, und eine wirkungsmodellgestützte Ableitung eines Ziel- und Kennzahlensystems. Wir zeigen, dass eine Anspruchsgruppe wie Studierende noch keine Ranking-Zielgruppe darstellt, sondern erst in Ranking-Zielgruppen unterschieden werden muss. Auch Hochschulen müssen erst, in Abhängigkeit von dem Ranking-Ziel und der Ranking-Zielgruppe, in verschiedene RankingObjektmengen unterschieden werden. Die Validitäts- und Reliabilitätsforderungen berücksichtigen die Interdependenzen der einzelnen Verfahrensschritte. Eine Anwendung des ganzheitlichen Ranking-Verfahrens auf eine Überprüfung der Validität und Reliabilität deutscher und US-amerikanischer Hochschul-Rankings zeigt, dass heute erfüllbare theoretische Forderungen noch keinen Eingang in die Praxis des Hochschul-Ranking gefunden
IV. Aufbau der Arbeit
23
haben.31 Eine nachträgliche, wirkungsmodellgestützte Klassifikation der in den Hochschul-Rankings verwendeten Kennzahlen ergibt, dass diese größtenteils nicht dazu geeignet sind, die untersuchten Hochschulen nach dem vorgebenen Ranking-Ziel zu bewerten. Sowohl die deutschen als auch die US-amerikanischen Hochschul-Rankings geben vor, die Qualitäten akademischer Leistungen zu messen. Einer der wesentlichen Unterschiede zwischen den deutschen Hochschul-Rankings und den US News Rankings liegt darin, dass die von US News verwendeten Kennzahlen Qualitäten der Einund Ausgangsgrößen erfassen und deutsche Hochschul-Rankings vorrangig Studienbedingungen und Methoden/Strukturen des Lehrprozesses, die keine Qualitäts- oder Leistungskriterien darstellen, bewerten. Kennzahlinterpretationen werden weder bei den deutschen, noch bei den US-amerikanischen Hochschul-Rankings angewendet, die Ableitung der Rankings sind willkürlich. Während die US-amerikanischen Hochschul-Rankings vorwiegend auf einer Auswertung quantitativer Kennzahlen basieren, liegen deutschen Hochschul-Rankings größtenteils Meinungsumfragen zugrunde. Die vorgestellte Analyse unterscheidet sich von bisherigen Analysen methodisch durch ihren ganzheitlichen Ansatz. Bisher beschränkte man sich auf einzelne Verfahrensschritte und man vernachlässigte die Interdependenzen zwischen Verfahrensschritten. Diese werden durch das ganzheitliche RankingVerfahren ergänzt. Kapitel F. enthält eine Zusammenfassung der Arbeit, eine Wertung aktueller Forschungsarbeiten über Hochschul-Rankings und einen Ausblick. Aktuelle Forschungsarbeiten über Hochschul-Rankings im deutschsprachigen Raum behandeln u. a. die Fragestellung, inwiefern Meinungsumfragen, wie z. B. eine Studierendenbefragung, als Datenbasis für ein Hochschul-Ranking geeignet sind. Diese Art der Datenerhebung für ein Hochschul-Ranking wurde bereits oft kritisiert, doch mangels aussagekräftiger Hochschul-Statistiken weiter angewendet. Eine Erfassung von bias-Variablen wie z. B. Studierstile und persönliche Studienbedingungen bei Studierendenbefragungen und die Berechnung „statistisch adjustierter“ Qualitätsmaße führte bislang zu keiner maßgeblichen Verbesserung der Reliabilität von Rangfolgen auf der Basis von Studierendenbefragungen. Abschließend wird auf durch Hochschul-Rankings induzierte Verhaltensänderungen hingewiesen, und es werden Vorschläge zur Verbesserung der Validität eines Hochschul-Ranking durch den Einsatz neuer Medien wie des Internet gemacht. 31 „Fehlerhafte Messung, inadäquate Methoden, Aussagen ohne Realitätsbezug, . . . sind nicht entschuldbar mit der Unstrukturiertheit des Forschungsobjektes im Vergleich zu den hochentwickelten und strengen Anforderungen des statistisch-mathematischen Instrumentariums. Vielmehr sind sie auf die geringe Beachtung der heute bereits erfüllbaren methodologisch-methodischen Standards zurückzuführen“ (Hujer und Cremer 1977, S. 5).
B. Entscheidungsprozessorientierte Definition eines Ranking-Verfahrens und seine Einordnung in die Literatur In Abschnitt B.I. werden ausgewählte Definitionen von Rating und Ranking vorgestellt um darauf aufbauend in Abschnitt B.II. eine entscheidungsprozessorientierte Definition eines Ranking und eines Ranking-Verfahrens vorzuschlagen. Diese Definition wird in den Abschnitten B.II.1., B.II.2. und B.II.3. in die Evaluationsforschung, in die Entscheidungstheorie und in die Systematik betriebswirtschaftlicher Kennzahlensysteme eingeordnet. Die grundlegende Annahme dieser Arbeit ist die Quantifizierbarkeit und die formale Abbildbarkeit von ökonomischen Entscheidungssituationen. Eine Qualität, ein Nutzen oder ein Wert einer Handlungsalternative wird durch eine Aggregation von Bewertungen einzelner Komponenten der Handlungsalternative errechnet. Empirisch beobachtbare Sinnzusammenhänge (Sachlogik, Präferenzstruktur) einer komplexen ökonomischen Entscheidungssituation werden in eine Zahlenlogik umgesetzt und dadurch operationalisiert. Orth (1974, S. 18) spricht in diesem Zusammenhang von der homomorphen Abbildung eines empirischen Relativs in ein numerisches. Flashkämper (1959, S. 29 ff.) von der Umsetzung einer Sachlogik in eine Zahlenlogik (Menges 1978). Die Annahme der Quantifizierbarkeit und der formalen Abbildbarkeit von ökonomischen Entscheidungssituationen ist umstritten. Auch RatingAgenturen wie A. M. Best und Moody’s Investors Service betonen in ihren Veröffentlichungen die Dynamik,32 den qualitativen Charakter und die Subjektivität33 ihrer Ratings. Dennoch konnte in mehreren empirischen Analysen mit zwei bis vier Finanzkennzahlen eine äquivalente oder bessere Prog32
„The rapid pace of change across the globe continues to present significant challenges . . . to the analytical rating process . . . to recognize the different operating environments within each company or market“ (A. M. Best 2000). „. . . decision-making in an increasingly complex world would not yield to a single formula, a panacea. . . . we are constantly . . . refining our analytic techniques . . .“ (Moody’s 2000). 33 „. . . we believe that any attempt to reduce credit rating to a formulaic methodology would be misleading and would lead to serious mistakes . . . Moody’s ratings are not based on a defined set of financial ratios or rigid computer models. Rather, they are the product of a comprehensive analysis of each individual issue and issuer by experienced, well-informed, impartial credit analysts“ (Moody’s 2000).
I. Ausgewählte Definitionen von Rating und Ranking
25
nose der Kreditausfallwahrscheinlichkeit von Unternehmen erzielt werden als durch die Ratings von A. M. Best, Standard & Poor’s oder Moody’s.34 Pinches und Mingo (1973, S. 14–15) fassen die Ergebnisse der empirischen Analysen wie folgt zusammen: „While certain unusual circumstances may occasionally occur where rater judgement is essential, it appears that present bond ratings rely fairly heavily on quantitative factors.35 Mit dem Bewusstsein möglicher Einwände gegen die Annahme der Quantifizierbarkeit und der formalen Abbildbarkeit von ökonomischen Entscheidungssituationen wird die Annahme weiter aufrecht erhalten. Keeney und Raiffa (1993, S. 12–13) bemerken in diesem Zusammenhang: „. . . we should be wary of analysts that try to quantify the unquantifiable . . . however . . . it is also wrong . . . not to learn how to quantify the quantifiable. The question is: What is quantifiable? . . . Is it legitimate to work with . . . numbers? We do it all the time“.
I. Ausgewählte Definitionen von Rating und Ranking In der Literatur und in der Anwendung werden die Begriffe Rating und Ranking mit unterschiedlichen, zum Teil widersprüchlichen Bedeutungen belegt. In diesem Abschnitt werden zunächst ausgewählte Definitionen und Anwendungen vorgestellt, um darauf aufbauend im nächsten Abschnitt eine eigene, entscheidungsprozessorientierte Definition von Ranking einzuführen. Das Oxford Advanced Learner’s Dictionary behandelt die Begriffe Rating und Ranking synonym als Klassifikation einer Person oder einer Sache nach ihrer Qualität. Dort findet man als Beispiele den Status einer Person, gemessen durch seine finanzielle Verantwortung und die Popularität von Spielfilmen, gemessen durch die Anzahl der Zuschauer. Der Duden unterscheidet zwischen Ranking als „Rangliste, Bewertung“ und Rating als „Verfahren zur Einschätzung von Personen, Situationen o. Ä. mithilfe von Ratingskalen“. Der Begriff der Ratingskala wird aus der Psy34 Z. B. Denenberg (1967), Pinches und Trieschmann (1974), Harmelink (1974), Ambrose und Seward (1988), Pinches und Mingo (1973), Ang und Patel (1975) und Pinches (1978). In diesen Arbeiten werden Finanzkennzahlen und deren Gewichte durch Anwendung der Faktorenanalyse und der linearen multiplen Diskriminanzanalyse (MDA) bestimmt, die die Menge der solventen Unternehmen von der Menge der insolventen „bestmöglichst“ z. B. nach einem Varianzkriterium trennen. Für die statistischen Anforderungen an die empirischen Daten bei der Anwendung der MDA siehe Pinches (1978). MDA und künstliche neuronale Netze (KNN) werden heute nicht nur zur Rekonstruktion, sondern auch zur Erstellung von statistisch gestützten Ratings eingesetzt (Beatge 1994). 35 Siehe auch Baum (1987, S. 43–44).
26
B. Ranking-Verfahren und seine Einordnung in die Literatur
chologie und Soziologie entnommen als „in gleichmäßige Intervalle aufgeteilte Strecke, die den Ausprägungsgrad (z. B. stark – mittel – gering) eines Merkmals . . . zeigt“. Das Gabler-Volkswirtschafts-Lexikon entlehnt die Definitionen von Rating und Ranking ihrer Verwendung in der empirischen Sozialforschung. Rating und Ranking werden als Methoden der Datenerhebung mittels Befragung von Testpersonen definiert. Die Testpersonen müssen beim Rating vorgegebene Merkmale/Eigenschaften der Untersuchungsobjekte auf vorgebenenen Skalen, wie dem semantischem Differential, einordnen. Qualitative Skalen werden dabei in numerische Skalen (Rating-Skalen) transformiert, aus denen die Messwerte zur Einordnung der Untersuchungsobjekte entnommen werden. Im Unterschied dazu stellt das Ranking ein Rangreihenverfahren dar, bei dem die Testpersonen die Untersuchungsobjekte nach ihren Präferenzen global beurteilen und als Rangreihe anordnen. Hierbei werden keine Merkmale/Eigenschaften der Untersuchungsobjekte vorgegeben. Eine Unterscheidung zwischen dem Verfahren und dem Ergebnis des Verfahrens nimmt das The Oxford English Dictionary sowohl bei Rating als auch bei Ranking vor. Rating wird abgleitet aus dem Verb to rate und definiert als Prozess des Schätzens, des Kalkulierens, des Berechnens oder der Festsetzung eines Betrages bzw. Wertes einer Person oder Sache und als resultierender absoluter oder relativer Betrag oder Wert der Person oder Sache. Ranking wird abgleitet aus dem Verb to rank und definiert als Prozess der Ermittlung einer Rangfolge bzw. Klassifikation von Personen oder Sachen und daraus resultierend als Rangfolge bzw. Klassifikation. Das The New Palgrave Dictionary of Economics enthält keinen Eintrag zu Rating und bei Ranking wird auf den Eintrag zu orderings verwiesen. Blackorby (1987) definiert dort eine Ordnungsrelation als reflexive, transitive und vollständige Binärrelation und beschreibt deren Anwendung in der Präferenz- und Nutzentheorie. Die aufgeführten Definitionen machen deutlich, dass zwischen einer Rangfolge, einem Ranking, einem Ranking-Verfahren und den Methoden eines Ranking-Verfahrens zu unterscheiden ist und deuten auf eine gewisse Subjektivität eines Ranking oder Rating hin. Ein Ranking-Verfahren muss die Validität und die Reliabilität eines Ranking durch Anwendung sozialwissenschaftlicher, betriebswirtschaftlicher und entscheidungstheoretischer Methoden gewährleisten. Dabei werden Objekten (natürliche oder juristische Personen, Sachen) numerische Werte zugeordnet, die einen Vergleich der Objekte, z. B. nach ihrer Qualität, erlauben sollen. Die numerischen Werte erhält man entweder durch eine Aggregation von Kennzahlen, deren Werte Indikatoren von Teildimensionen der Qualität sind, zu einem Index oder im Rahmen einer Datenerhebung durch Befragung von Testpersonen
II. Entscheidungsprozessorientierte Definition eines Ranking
27
zur Qualität der Objekte bzw. einzelner Qualitätsdimensionen. Der Begriff des Rating ist bei den aufgeführten Definitionen eng mit sozialwissenschaftlichen Methoden, dem Begriff der Ratingskala und der Befragung von Testpersonen verbunden.
II. Entscheidungsprozessorientierte Definition eines Ranking und eines Ranking-Verfahrens Eine wesentliche Voraussetzung für eine rationale Wahl zwischen verschiedenen Handlungsalternativen sind Informationen über deren relative Qualitäten. Bei abstrakten und komplexen Produkten oder komplexen Dienstleistungen erschweren die Beschaffung und die Verarbeitung von Informationen ein intendiert rationales Entscheidungsverhalten (Eisenführ und Weber 1994, Sönnichsen 1992). Entscheidungsnotwendige Informationen können individuell, trotz einer Vielzahl anderer verfügbarer Informationen, nicht beschafft werden oder der Entscheidungsträger ist durch die Vielzahl der zu verarbeitenden Informationen überfordert.36 In einer solchen Situation kann ein Ranking einem Entscheidungsträger entscheidungsunterstützende Informationen liefern und ihn bei der rationalen Wahl zwischen verschiedenen Handlungsalternativen unterstützen, wenn es für ihn relevante Informationsbeschaffungs- und -verarbeitungsprozesse erledigt. Unter Rationalität wird im Rahmen dieser Arbeit eine prozedurale Rationalität im Sinne der präskriptiven Entscheidungstheorie verstanden.37 Einer Messung und einer Bewertung der Qualität eines Produktes oder einer Dienstleistung liegt meist ein multi-kriterielles Qualitätskonzept zugrunde, das durch Kriterien, Indikatoren und Verfahrenstandards beschrieben und operationalisiert wird. Die Deutsche Aktuarvereinigung definiert z. B. das qualitätsrelevante Leistungsspektrum einer Lebensversicherung durch die Kriterien Leistungen im Erlebensfall, im Todesfall, bei Ablauf oder Rückkauf und zu weiteren versicherbaren Risiken wie Berufsunfähig36
„Das Ausmaß unserer Möglichkeiten, wissen zu können, was wir wissen möchten, ist historisch beispiellos. Aber historisch beispiellos sind damit auch die Schwierigkeiten geworden, objektiv gegebene Möglichkeiten subjektiv sinnvoll zu nutzen“ (Lübbe 1979). 37 In der präskriptiven Entscheidungstheorie steht eine logisch konsistente Beschreibung eines ökonomischen Entscheidungsprozesses im Mittelpunkt und nicht die (ex-post) Erklärung eines empirischen Entscheidungsprozesses. Die mathematischen Strukturen sind die Konsequenz aus der geeigneten Beschreibung der Entscheidungssituation und werden nicht für die Begründung einer Entscheidung vorausgesetzt. Im Gegensatz hierzu stehen bei der normativen und deskriptiven Entscheidungstheorie die Wahrheit von Aussagen, deren Überprüfbarkeit und Prognosen im Mittelpunkt der Betrachtung (Eisenführ und Weber 1994, von Nitzsch 1992).
28
B. Ranking-Verfahren und seine Einordnung in die Literatur
keit, Pflegefall, Heirat, Beratungs- und Serviceleistungen, vertragliche Regelungen (AVB), garantierte und sichere Verzinsung der Beiträge, während der Vertragslaufzeit unveränderliche Kostenzuschläge, Gewährung einer Überschussbeteiligung, Sicherheit der Kapitalanlagen (DAV 1997, S. 30). Durch unterschiedliche Gewichtungen der Leistungskriterien entstehen verschiedene Produkte, die unterschiedliche Versicherungsnehmer mit unterschiedlichen Zielsetzungen wie Altersvorsorge, Steuern sparen, Kredit absichern, adressieren. Diese unterschiedlichen Nutzergruppen werden im Folgenden als Zielgruppen bezeichnet. Da es nicht möglich ist, alle Einflüsse und deren Folgen für die Qualität zu erfassen, wird in der Praxis zwischen wesentlichen, entscheidungsrelevanten Einflüssen und nicht wesentlichen Einflüssen unterschieden. Welche Einflüsse entscheidungsrelevant sind, ist abhängig von der Zielgruppe.38 Somit muss ein entscheidungsunterstützendes Ranking in Abhängigkeit von einem Ranking-Ziel, einer Ranking-Zielgruppe und dieser Zielgruppe zur Verfügung stehenden, strukturell vergleichbaren Handlungsalternativen (im Folgenden als Ranking-Objektmenge bezeichnet), unterschiedliche Informationsinhalte repräsentieren. „Mit der Festlegung, aus wessen Perspektive Kriterien und Standards ausgewählt und formuliert werden, ist dann bereits eine wesentliche Vorentscheidung getroffen“ (Kromrey 2000b). Die Validität und die Reliabilität einer Messung oder einer Bewertung muss durch Vergleichsmaßstäbe, d. h. Verfahrenstandards, gewährleistet werden. Eine Messung oder Bewertung muss durch ein Mess- bzw. Bewertungsverfahren objektiviert werden. Die Qualität eines technischen Produktes kann z. B. durch seine wesentlichen technischen Eigenschaften beurteilt werden. Bei einem Autoreifen ist dies z. B. seine Laufleistung in Kilometer, seine Bodenhaftung und seine Sicherheit. Als Verfahrensstandard sind mögliche exogene Einflüsse wie das Verhältnis gerader Strecken zu Kurvenfahrten, der Fahrstil, die Witterungsverhältnisse, Straßenverhältnisse, Fahrzeuggewicht etc. festzulegen. Hier sind valide und verlässliche physikalische Indikatoren, messbare Standards und zuverlässig durchführbare Qualitätstests relativ leicht zu definieren. Die Auswahl der entscheidungsrelevanten technischen Eigenschaften und ihre Aggregation zu einem Qualitätsindex bleibt jedoch subjektiv.39 Die Qualität einer Dienstleistung entsteht erst in der 38
Ein Modell kann immer nur einen Ausschnitt der Realität abbilden, muss also aus der Vielzahl realer Einflüsse, die für die betrachtete Fragestellung relevanten Einflüsse und Einflussmöglichkeiten erfassen. Hier ergibt sich ein Abgrenzungsproblem, da die Auswahl der relevanten Einflüsse von der Präferenzstruktur bzw. der Zwecksetzung des Modellierers abhängt. 39 „. . . even in product evaluation, there are multiple standards that can be applied, and the value is ultimately a judgement, not a matter of the relatively stable reality we call ‚knowledge‘ . . .“ (Lee 2000, S. 146).
II. Entscheidungsprozessorientierte Definition eines Ranking
29
Interaktion des Dienstleistungsgebers mit dem Dienstleistungsnehmer. Hier treten bei der Qualitätsmessung, im Unterschied zu ex-ante beschreibbaren Leistungen, zusätzliche Probleme auf, da die Qualität einer Dienstleistung keine direkt zurechenbare Eigenschaft ist, sondern eine relationale. Sie kann nicht allein durch ihre technischen Eigenschaften beschrieben werden, sondern muss den Kontext ihrer Nutzung und ihrer Nutzer- bzw. Zielgruppen mit einbeziehen. Relative, inhalts- und ergebnisbezogene Qualitätsdefinitionen sind auch in den DIN/ISO-Normen enthalten.40 Definition 1 Rangfolge: Vollständige Ordnung auf einer Objektmenge. Anmerkung 1 Eine vollständige Ordnung auf einer Objektmenge wird z. B. durch eine vollständige, reflexive und transitive Präferenzrelation einer Zielgruppe bestimmt. Definition 2 Ranking: Index, d. h. eine bestimmte Funktion auf der Objektmenge einer Zielgruppe, deren Funktionswerte zu einer die Präferenzrelationen der Zielgruppe repräsentierenden Rangfolge führt.
Die Definitionen (1) und (2) unterscheiden zwischen einer Kennfunktion bzw. einem Ranking und einem Kennfunktionswert bzw. einer Rangfolge (Eichhorn 1978).41 Sie trennen eine Vorschrift zur Bewertung von Handlungsalternativen von dem Ergebnis, d. h. der Bewertung. Die Vorschrift zur Bewertung der Handlungsalternativen muss aus den faktischen und wertenden Entscheidungsprämissen einer Zielgruppe abgeleitet und durch ein Ranking repräsentiert werden, deren Funktionswerte zu einer Rangfolge führen. Es werden keine inhaltlichen Forderungen an die Entscheidungsprämissen, insbesondere nicht an die Präferenzrelationen einer Zielgruppe, erhoben. Diese sind subjektiv. Sie müssen jedoch konsistent mit Rationalitätsaxiomen sein, d. h. der Forderung nach einer subjektiven Formalrationalität genügen. „Deshalb können in einer äußerlich gleichen Entscheidungssituation zwei Personen zu unterschiedlichen Entscheidungen kommen, ohne dass eine Person rationaler handelte als die andere: Der Grund kann in unter40 „Qualität ist die Beschaffenheit einer Einheit bezüglich ihrer Eignung, festgelegte und vorausgesetzte Erfordernisse zu erfüllen“ (DIN/ISO-Norm 8402). „Unter der Qualität eines (Versicherungs-)Produkts versteht man die Gesamtheit der Eigenschaften und Merkmale, die sich auf die Eignung zur Erfüllung gegebener Erwartungen der . . . (potentiellen) Kunden beziehen“ (DAV 1997, S. 29). 41 Genauer gesagt kann die Rangfolge erst anhand der Kennfunktionswerte berechnet werden.
30
B. Ranking-Verfahren und seine Einordnung in die Literatur
schiedlichen Einschätzungen der Zukunft und/oder unterschiedlichen Zielen liegen“ (Eisenführ und Weber 1994, S. 10). In dieser Arbeit werden nur deterministische Rankings behandelt. Die Beschränkung auf Entscheidungssituationen bei Sicherheit hat ihre Ursache in der bei praktischen Fragestellungen oft gegebenen Notwendigkeit einer stark vereinfachten Modellbildung.42 In der Praxis werden häufig bereits im Stadium der Informationsgewinnung unsichere Erwartungen durch Risikoabschläge bzw. -zuschläge auf quasi-sichere Erwartungen reduziert. (Strebel 1975, S. 41) argumentiert bei Scoring-Modellen für die Zweckmäßigkeit Unsicherheiten in den verfügbaren Datenquellen und in den Schätzungen von subjektiven Wahrscheinlichkeiten durch Intervallschätzungen und eine Zuordnung von Nutzenwerten zu Intervallausprägungen zu behandeln. Eine explizite Erfassung der einzelnen Quellen der Unsicherheit verursacht „zusätzliche unverhältnismäßige Schwierigkeiten der Datenbeschaffung“. Bamberg und Coenenberg (1994, S. 40) bemerken hierzu: „. . . ist es indessen immer noch besser, mit vereinfachten Modellen zu rechnen als auf eine modellanalytische Fundierung der Entscheidung ganz zu verzichten“. Definition 3 Verteilter, multi-kriterieller Entscheidungsprozess: Informationsbeschaffungs- und -verarbeitungsprozesse für eine Teilmenge der Bewertungskriterien einer Zielgruppe werden an Dritte delegiert. Anmerkung 2 Ein Ranking ist Bestandteil eines verteilten, multi-kriteriellen Entscheidungsprozesses, wenn eine Ranking-Agentur für eine Zielgruppe Informationen zu einer Teilmenge ihrer Bewertungskriterien beschafft und sie durch ein Ranking zu einer Rangfolge verarbeitet. Definition 4 Ganzheitliches Ranking-Verfahren: Methodologie und Methoden zur Sicherstellung der Rationalität, Validität und Reliabilität eines Ranking als Bestandteil eines verteilten, multi-kriteriellen Entscheidungsprozesses. 42 „Der Fall vollkommener Information bezüglich der zielrelevanten Ergebnisse dürfte in der Wirklichkeit nur selten anzutreffen sein. Dennoch kommt der Sicherheitssituation für die Formulierung von Entscheidungsproblemen in der Praxis eine relativ große Bedeutung zu“ (Bamberg und Coenenberg 1994, S. 39). „Bei einer Entscheidung unter Sicherheit ist mit jeder Handlungsalternative unmittelbar deren Konsequenz determiniert . . . Streng genommen gibt es keine Entscheidung unter totaler Sicherheit. Es ist eine subjektive Vorentscheidung, die grundsätzlich vorhandene Unsicherheit zu vernachlässigen oder zu berücksichtigen“ (Eisenführ und Weber 1994, S. 19–20).
II. Entscheidungsprozessorientierte Definition eines Ranking
31
Durch ein Ranking-Verfahren werden allgemeine, allen Rangfolgen zugrunde liegenden Elemente und Strukturen beschrieben. Das Ziel eines Ranking-Verfahrens ist, durch eine Anwendung wissenschaftlicher Methoden z. B. aus den Sozialwissenschaften oder der Entscheidungstheorie eine systematische Analyse des Wertes oder des Nutzens einer Menge von Handlungsalternativen im Rahmen verteilter, multi-kriterieller Entscheidungsprozesse vorzunehmen. Eine intendiert rationale Entscheidungsfindung wird durch Rationalitäts-, Validitäts- und Reliabilitätspostulate an den Entscheidungsprozess unterstützt.43 Ein Ranking-Verfahren beschreibt eine methodisch kontrollierte, verwertungs- und bewertungsorientierte Form der Erfassung und der Verarbeitung von Informationen im Rahmen verteilter, multikriterieller Entscheidungsprozesse. Anmerkung 3 Zusammenhang zwischen Ranking und Rating Ein Rangklassenverfahren (Rating-Verfahren) und ein Rangordnungsverfahren (Ranking-Verfahren) unterscheiden sich in der Ordnung auf der Objektmenge, d. h. in der Rangfolge. Durch ein Ranking wird eine strikte Ordnung, durch ein Rating eine schwache Ordnung auf der Objektmenge einer Zielgruppe definiert.
1. Einordnung eines Ranking-Verfahrens in die Evaluationsforschung Der Begriff Evaluierung wird aus dem lateinischen Wort evaluare abgeleitet, besitzt die Bedeutungen beurteilen, bewerten und beschreibt einen Prozess der Generierung von Entscheidungswissen. Im Unterschied zu Zufallsentscheidungen, intuitiven Entscheidungen, Entscheidungen aufgrund von Erfahrungen, Ratschlägen oder Befehlen, werden zu einem Evaluationsobjekt, einem Evaluandum, in systematischer Form Informationen gesammelt, interpretiert, bewertet und aggregiert. Beispiele für Evaluanda sind (politische) Programme,44 Personen, Produkte, Projekte, Reformen, Gesetze, Dienstleistungen, Maßnahmen, Organisationen und Evaluationen im Rahmen von Meta-Evaluationen. Beispiele für Evaluationsziele sind Effizienz43
„Je komplexer die Situation, desto größer ist die Bedeutung einer Unterstützung durch Verfahren, die für eine systematische Erfassung und Verarbeitung der relevanten Informationen sorgen sollen. Der Mensch braucht formalisierte Regeln und Prozeduren, um seine teilweise unbewussten, unklaren, widersprüchlichen Erwartungen und Wünsche zu formen und transparent zu machen und um Informationen konsistent zu verarbeiten“ (Eisenführ und Weber 1994, S. 3). 44 Unter einem Programm wird ein Bündel von Maßnahmen zur Erreichung definierter Ziele verstanden. Z. B. ein politisches Programm zur Bekämpfung des Drogenkonsums oder ein Lehrcurriculum einer Hochschule zur Ausbildung ihrer Studierenden.
32
B. Ranking-Verfahren und seine Einordnung in die Literatur
und Effektivitätsmessungen sowie Analysen zur Eignung und Funktionsfähigkeit eines Evaluandum zur Erreichung definierter Ziele. Beispiele für Evaluationsmethoden sind durch Umfragen ermittelte Zufriedenheits- oder Unzufriedenheitsäußerungen und Analysen des Akzeptanz- und Abstimmungsverhaltens von Klienten- und Zielgruppen. Evaluationen sind somit spezielle Entscheidungsprozesse. Wie bei der Messung sozialer Sachverhalte durch Sozialindikatoren existiert auch bei der Evaluation das zentrale theoretische und methodologische Problem der Unbestimmtheit des Begriffs „Qualität“, der in Abhängigkeit der betrachteten Einzeldimensionen und der Beurteilungsperspektive sehr unterschiedliche Bedeutungen besitzen kann. Kromrey (2000a, S. 19) bezeichnet den umgangssprachlichen Gebrauch von Evaluation als Alltagsevaluation, bei der „irgendwer, irgend etwas, irgend wie, unter irgend welchen Gesichtspunkten“ bewertet. Der wissenschaftliche Gebrauch von Evaluation grenzt sich von der Alltagsevaluation durch die Anwendung sozialwissenschaftlicher Forschungsparadigmen und empirischer Forschungsmethoden ab. An den Prozess der Evaluation werden u. a. Validitäts- und Reliabilitätsforderungen gestellt. Zu einem Evaluandum sind die qualitätsrelevanten Dimensionen zu bestimmen und zu deren Beurteilung Qualitätsindikatoren zu begründen und zu operationalisieren. In den folgenden Abschnitten werden die historische Entwicklung der Evaluationsforschung und verschiedene Klassifikationen von Evaluationen geschildert und daraufhin untersucht, in wie weit Erkenntnisse der Evaluationsforschung auf ein Ranking-Verfahren übertragbar sind. Historie der Evaluation Mertens (2000) gibt eine Übersicht der historischen Entwicklung der Evaluationsforschung für die USA und Leeuw (2000) für Europa. Siehe Kuhlmann (2000) für die Evaluation in der Forschungs- und Innovationspolitik, Bangel, Brinkmann und Deeke (2000) für Evaluationen in der Arbeitsmarktpolitik, Huber und Müller (2000) für Evaluationen von Umweltschutz-Maßnahmen und Stockmann (2000b) für Evaluationen staatlicher Entwicklungspolitik. Evaluationen haben ihren Urspung in den USA, wo im 19. Jahrhundert erstmals externe Experten mit der Evaluation öffentlicher Institutionen wie Schulen, Waisenhäuser, Gefängnisse und Krankenhäuser betraut wurden (Madaus, Stufflebeam und Scriven 1983).45 Die ersten Evaluationsstudien 45 „By 1800, statistical reports were in common use by governments, and by 1900, sociologists and other social scientists were conducting many studies . . . also
II. Entscheidungsprozessorientierte Definition eines Ranking
33
folgten der Annahme, das durch Anwendung wissenschaftlicher Methoden die Qualität eines Evaluandum wertneutral und objektiv, d. h. zielgruppenübergreifend, durch Kausalmodelle quantifiziert und bewertet werden kann (Measurement-Phase). In den 1930er und 1940er Jahren wurden Reformprogramme zur Verminderung der Arbeitslosigkeit und der Verbesserung der sozialen Sicherheit im Rahmen des „New Deal“ von Evaluationsstudien begleitet (Deutscher 1985, S. 17 ff.). Mit Smith und Tyler (1942)46 und dem „behavioral objectives approach as a process for assessing educational programs or experiments“ begann die Description-Phase. Die Qualität eines Bildungsprogrammes wird nicht mehr durch ein Kausalmodell bestimmt, sondern durch gemessene Zielerreichungsgrade bei vorher festgelegten Programmzielen. Die Objektivität und die Wertneutralität der Programmziele wird hier erstmals durch ein Evaluations-Verfahren gesichert, das vorschreibt die Programmziele und deren Operationalisierungen u. a. durch Experten-Panels festlegen zu lassen.47 Als wissenschaftliche Pionierarbeiten gelten weiter „Lewins (1951) Feldstudien, die Arbeit von Lippitt und White über demokratische und autoritäre Führungsstile (Lippitt 1940; White/Lippitt 1953), sowie die Western-ElectricStudie (Hawthorne-Werke) über die psychischen und sozialen Folgen technologischer Innovationen (Roethlisberger/Dickson 1934). Während des 2. Weltkriegs versuchte sich die U.S. Army die angewandte Sozialforschung zu Nutze zu machen. In ihrem Auftrag entwickelten Stouffer und seine Mitarbeiter (Stouffer u. a. 1949) Instrumente zur kontinuierlichen Messung der Stimmung in der Truppe und zur Evaluierung bestimmter Maßnahmen im Bereich des Personalwesens und der Propaganda (vgl. Rossi u. a 1988:5)“ (Stockmann 2000a, S. 20). Die ersten professionellen Evaluationen wurden in den 1960er und 1970er Jahre im Rahmen umfangreicher Sozial-, Bildungs-, Gesundheits-, Ernährungs-, Infrastruktur- und Entwicklungshilfeprogramme durchgeführt.48 Bei vielen durch die Weltbank finanziell geförderten Projekten wurstudies of the effectiveness of public education and of specific educational methods“ (Lee 2000, S. 130). Frühe Beispiele sind die Studien von Joseph Rice (1897), Alfred Binet, Arthur Otis (1904) und die Einführung von Intelligenztests beim Militär. 46 „The study was designed to determine if students from progressive high schools would perform as well in college as those from high schools using conventional, Carnegie-unit curricula“ (Lee 2000, S. 131). 47 This was the first time both methods of investigation and equally systematic methods of determining value combined into one theory for judging programs“ (Lee 2000, S. 131). 48 „Evaluations in the 1960s and 1970s were concerned with programs of delinquency prevention, family planning and other public health programs, agricultural and community development, pharmacological treatments, rehabilitation programs
34
B. Ranking-Verfahren und seine Einordnung in die Literatur
den Evaluationen als Bestandteile des Programmes vorausgesetzt.49 Die Mehrzahl der Evaluationen dieser Zeit folgten dem „behavioral objectives approach“ von Ralph W. Tyler, der bis heute in den USA für Evaluationen politischer Programme im Bildungssektor maßgeblich ist. Suchman (1967) ist die erste wissenschaftliche Monographie zur Evaluationsforschung. Im gleichen Jahr wurde mit Stufflebeam (1967) das CIPP Modell (Context, Input, Process, Output) veröffentlicht. Die Notwendigkeit der Entwicklung effektiverer Evaluationsmethoden führte Ende der 1970er Jahren zur Gründung der wissenschaftsorientierte Evaluation Research Society und des praxisorientierten Evaluation Network in den USA.50 „In den späten 80er und 90er Jahren bekam die Evaluationsforschung einen neuen Aufschwung. Die Reform- und Modernisierungsdebatte gewann unter dem Stichwort ‚New Public Management‘ neue Konturen, zuerst in Holland, Großbritannien und in den skandinavischen Ländern . . .“ (Stockmann 2000a, S. 20-3).51 Heute ist in vielen industrialisierten Ländern die Evaluation von politischen Programmen und öffentlichen Institutionen gesetzlich vorgeschrieben.52 Problemstellungen der Evaluationsforschung Vedung (2000) beschreibt die Problemstellungen der Evaluationsforschung am Beispiel der Politikforschung. Er unterscheidet die acht Problemstellungen: 1. The purpose problem. 2. The organization problem. 3. The intervention analysis problem. for felons, and public housing programs, as well as educational programs“ (Lee 2000, S. 131). 49 „In einem Großteil der Fälle wurden die Evaluationen sogar gesetzlich vorgeschrieben . . . Am bekanntesten sind die Wohlfahrts- und Reformprogramme der demokratischen Präsidenten John F. Kennedy (1961–63) und Lyndon B. Johnson (1963–69)“ (Stockmann 2000a, S. 21). 50 „By 1980, it was widely recognized that even the most scientifically sound evaluations were not guiding decisions of evaluators had hoped“ (Lee 2000, S. 132). 51 Schlagwörter des „New Public Management“ sind Accountability, Value-formoney und Result-Orientation. Seine Folgen decentralisation, public/private partnerships, marketisation, privatization und competitive tendering. 52 „In a variety of sectors – most notably for the EC Structural Funds – evaluation has been made legally or conventionally manditory“ (Pollitt 1998, S. 214). In der Europäischen Union durch Artikel 205 ihres Gründungsvertrages (Maastricht Vereinbarungen), in Deutschland durch eine vorläufige Verwaltungsvorschrift (VV) zu § 7 der Bundeshaushaltsordnung (BHO) 1970, in den USA u. a. durch „The Government Performance and Results Act of 1993“.
II. Entscheidungsprozessorientierte Definition eines Ranking
35
4. The conversion problem. 5. The results problem. 6. The impact problem. 7. The value criterion problem. 8. The utilization problem. „The purpose problem“ beschreibt das Problem der Zieldefinition einer Evaluation, „The organization problem“ das Problem der Festlegung eines Evaluationsträgers und der Organisation einer Evaluation. „The intervention analysis problem“ behandelt Fragen einer geeigneten Charakterisierung und Beschreibung einer politischen Intervention, ihrer Ziele und ihrer Maßnahmen. „The conversion problem“ betrifft die Beschreibung des Implementierungsprozesses, seiner Direktiven und Ressourcen, „The results problem“ behandelt Fragen der Messung der Ergebnisse wie qualitativer und quantitativer „output“ oder kurz-, mittel- oder langfristige, beabsichtigte und unbeabsichtigte Wirkungen („outcome“). „The impact problem“ untersucht im Rahmen einer Kausalanalyse, in wie weit die gemessenen Ergebnisse eine Folge der politischen Intervention oder externer Einflüsse sind. „The value criterion problem“ umfasst Fragen der Festlegung von Interpretations- und Bewertungskriterien und deren Anwendung auf das erhobene Datenmaterial zur Beurteilung des Erfolges einer politischen Intervention. Als Beispiele für deskriptive und präskriptive Bewertungskriterien führt Vedung (1999, S. 216) an: Descriptive criteria of merit: – Goal-attainment, – Client concerns, expectations, and conceptions of quality,53 – Professional conceptions of merit,54 – Citizens’ expectations and values, – Merit criteria of diverse stakeholding audiences. Prescriptive criteria of merit: – Client needs, – Equal distribution, – Public interest. 53
„Is the program or the service acceptable to or highly appreciated by the recipients? . . . responsiveness to client tastes is the major value criterion to be met“ (Vedung 2000, S. 108). 54 Z. B. Peer-Reviews. „The rationale for this approach is that the value structure in some fields is so complicated that only the expert practicioners themselves can judge the quality of what is performed“ (Vedung 2000, S. 109).
36
B. Ranking-Verfahren und seine Einordnung in die Literatur
Der Evaluator kann die Beurteilungskriterien des Auftraggebers bzw. der Zielgruppe, die evaluiert wird, übernehmen (z. B. Zielerreichung, Erwartungen der Zielgruppe)55 oder eigene Bewertungskriterien festlegen (z. B. Bedürfnisse der Zielgruppen, Beitrag zum Abbau sozialer oder gesellschaftlicher Ungleichheit).56 „Prescriptive theories of valuing maintain that some values are superior to others whereas descriptive theories depict values held by others without contesting them or claiming that one value is best or better than some alternative ones“ (Vedung 2000, S. 107). Das „The utilization problem“ beschreibt den Verwendungszweck einer Evaluation.57 Vedung (2000, S. 100-3) unterscheidet die folgenden Verwendungszwecke: instrumental use, conceptual/enlightment use, legitimizing use, tactical use, discursive use. Ein instrumentaler Verwendungszweck liegt vor, wenn Evaluationen im Rahmen eines verteilten multi-attributiven Entscheidungsprozesses entscheidungsunterstützende Informationen liefern.58 Ein konzeptioneller Verwendungszweck verfolgt ein besseres kognitives oder normatives Problemverständnis, ohne das die Evaluationsergebnisse direkt entscheidungswirksam werden. Ein legitimierender Verwendungszweck soll eine bereits geplante Entscheidung „wissenschaftlich absichern“.59 Ein taktischer Verwendungszweck liegt vor wenn die Evaluation und nicht die Evaluationsergebnisse von Interesse sind. Beispiele dafür sind zeitliche Verzögerungstaktiken bei anstehenden Entscheidungen oder zur Vermeidung öffentlicher Diskurse.60 Sollen Evaluationen nur einen kleinen, allgemeinen Beitrag zur Entschei55 „In descriptive valuing the evaluator herself does not have to be normative. She is adopting the normative position of others“ (Vedung 2000, S. 109). 56 Präskriptiven Bewertungskriterien müssen Theorien oder allgemein akzeptierte Konventionen zugrunde liegen. 57 Im Englischen use und utilization. 58 „Evaluation findings are used instrumentally if adopted by users and employed as means in goal-directed problem solving processes. Evaluation research sets no goals . . . Since the goals have been determined by the politicians, the evaluators can pursue factfinding about means in a purely value neutral and objective fashion“ (Vedung 2000, S. 111). 59 „In legitimizing use, evaluation is seized upon to justify established positions grounded on other considerations, such as for instance political ideology, . . . The de facto task of evaluation is to deliver ammuniation for political battles, where alliances are already formed and frontlines already exist“ (Vedung 2000, S. 111–112).
II. Entscheidungsprozessorientierte Definition eines Ranking
37
dungsunterstützung liefern und werden die Evaluationsergebnisse anschließend mit anderen Daten kombiniert und mit einem „gesunden Menschenverstand“, „Intuition“ und „Erfahrung“ zu einer Entscheidung verarbeitet, so liegt ein diskursiver Verwendungszweck vor.61 Um sicherzustellen, dass eine Evaluation ihren Verwendungszweck bei ihren Adressaten bzw. Zielgruppen auch erreicht, schlägt Vedung (2000, S. 199–124) folgende Strategien zur Beeinflussung der Nutzung der Evaluationsergebnisse vor. „Diffusion-orientated Strategies“ haben eine weite Verbreitung der Evaluationsergebnisse zum Ziel, die durch den Evaluator kommentiert werden um Missverständnissen und Fehlinterpretationen vorzubeugen. „Production-orientated Strategies“ versuchen den Evaluationsprozess so auf die Nachfrage und die Bedürfnisse potentieller Adressaten anzupassen, das die Evaluationsergebnisse eine große Akzeptanz und Nutzung erfahren. Ein Beispiel ist die responsive evaluation. „Various plausible users have diverse information wants . . . Preferably, the likely recipients . . . frame the questions and then leave them to the evaluator for investigation . . . Theory in this context stands for explanatory theory“ (Vedung 2000, S. 122). „User-orientated Strategies“ sollen den Nutzen der Evaluationsergebnisse durch eine Institutionalisierung des Evaluationsprozesses bei den Adressaten erhöhen. „Meta-Evaluation Strategies“ fassen die Evaluationsergebnisse verschiedener Evaluationsstudien zusammen und interpretieren sie in ihrem Kontext. Klassifikationen von Evaluationen Evaluationen wurden durch die Forschungsdisziplinen Soziologie, Psychologie, Philosophie, Erziehungs- und Wirtschaftswissenschaften geprägt. Wissenschaftler übertrugen Theorien, Methoden und Instrumente ihrer jeweiligen Fachdisziplin auf die Messung und Bewertung vorwiegend politischer Programme. Das Ziel war stets, bei Entscheidungen unter Unsicherheit entscheidungsunterstützende Informationen für die Adressaten bzw. Zielgruppen der Evaluation zu liefern. Die starke interdisziplinäre Orientierung der Evaluationen führte zu einem „wonderful level of creativity and diversity in evaluation methods and thinking“ (Lee 2000, S. 127).62 Scriven (1999) sieht die Evaluationsforschung heute als Transdisziplin wie Mathe60 „Evaluation may be used . . . to hide shortcomings and failures . . . Assessments are ordered to gain time, to show up a front of rationality . . .“ (Vedung 2000, S. 117). 61 „Discursive use involves the application of evaluation-informed knowledge in conjunction with further research-based data and other forms of background like common sense, conventional wisdom, intuition, and recipients’ own first-hand experiences (Weiss 1979:206 ff.)“ (Vedung 2000, S. 113).
38
B. Ranking-Verfahren und seine Einordnung in die Literatur
matik und Statistik, deren Methoden und Instrumente in vielen Disziplinen und Kontexten anwendbar sind. Es existieren keine speziellen Methoden der Evaluation und kein allgemeingültiges Evaluationsdesign; „. . . vielmehr ist aus dem gesamten Arsenal der empirischen Sozialforschung das für die spezifische Aufgabe Geeignete auszuwählen und an die jeweiligen Gegebenheiten anzupassen“ (Kromrey 2000a, S. 22).63 Im Folgenden werden verschiedene Klassifikationen von Evaluationen nach ihrem Erstellungszeitpunkt, Evaluatoren, intendierten Nutzen, Forschungsparadigma und methodologischen Paradigma vorgestellt, um anschließend die Gemeinsamkeiten und die Unterschiede zwischen einem Evaluations-Verfahren einem Ranking-Verfahren darzulegen. Bei einer formativen Evaluation (Verbesserungsevaluation) werden vorläufige Evaluationsergebnisse als Instrument der Qualitätsentwicklung und -sicherung bereits während der Evaluation mit dem Ziel eingesetzt, systeminterne Lernprozesse auszulösen und Ansatzpunkte zur Verbesserung aufzuzeigen. Formative Evaluationen sind aktiv-gestaltend, prozessorientiert, konstruktiv, kommunikationsfördernd angelegt. Ihre primären Adressaten sind demzufolge innerhalb des Systems zu finden. Eine abschließende bzw. summative Evaluation (Bilanzevaluation) soll die Qualität eines Systems oder von Systemkomponenten dokumentieren und Entscheidungsgrundlagen zur Verfügung stellen. Ihre Adressaten befinden sich vorwiegend außerhalb der Systemgrenzen. Wird die Evaluation als Instrument der Qualitätssicherung im Rahmen einer kontinuierlichen Überprüfung und Ergebniskontrolle von Mitgliedern der evaluierten Organisation durchgeführt, liegt eine interne Evaluation vor, anderenfalls eine externe Evaluation.64 62 „Evaluators now have a great wealth of methods, models, styles, and reporting formats to draw upon that have been invented, adapted, borrowed, or stolen from many other fields (Chelimsky/Shadish 1997), including economics, personnel assessment, product evaluation and auditing, to name only a few (Scriven 1991)“ (Lee 2000, S. 151). „As the limitation of experimental method became more obvious, a variety of tools were being brought in from anthropology, qualitative sociology, and phenomenomology (Patton 1997)“ (Lee 2000, S. 149). Siehe auch Caracelli (2000, S. 176–178). 63 „Designs are characterized by the manner in which evaluators develop a methodological approach for responding to the defined questions, and formulate a data collection plan and analysis plan for answering the questions with appropriate data. These tasks take into consideration the questions guiding the study, the ressource needs and constraints faced by the evaluator or evaluation team, and the information needs of the intended users“ (Caracelli 2000, S. 170). 64 Fachliche Experten, die über theoretisches Wissen verfügen bezüglich der Struktur der Zusammenhänge zwischen Zielen, Maßnahmen, Wirkungen und Umwelteinflüssen, bewerten durch einen komparativ-statischen Vergleich, inwieweit die Implementierung und die Wirkungen des Programms ihre definierten Ziele erreicht haben.
II. Entscheidungsprozessorientierte Definition eines Ranking
39
Nach dem intendierten Nutzen einer Evaluation klassifizieren Stufflebeam und Shinkfield (1985) Evaluationen in Pseudo-Evaluationen, QuasieEvaluationen und wahre Evaluationen. In der Klasse der Pseudo-Evaluationen sind verdeckte oder taktische Untersuchungen mit den Zielen Informationen für z. B. politische Dispute zu generieren, politische Entscheidungen nachträglich zu legitimieren oder Evaluationen zu Zwecken der Öffentlichkeitsarbeit.65 Die Klasse der Quasi-Evaluationen wird in zielorientierte Evaluationen und experimentelle Arbeiten unterteilt. Die Klasse der wahren Evaluationen besteht aus entscheidungsorientierten Evaluationen, „clientcentered studies“ oder „stake responsive evaluation“.66 Cook und Shadish (1986) unterscheiden Evaluationsmodelle, bei denen eine „machbare Lösung“ gesucht wird,67 kausale Erklärungen gefunden werden sollen,68 oder die sich am Informationsbedarf der stakeholder orientieren.69 Nach dem Zweck bzw. der Funktion einer Evaluation unterscheidet Chelimsky (1997, S. 100 ff.) zwischen Evaluationen zur Verbreiterung der Wissensbasis (Forschungsparadigma), Evaluationen zu Kontrollzwecken (Kontrollparadigma) und Evaluationen zu Entwicklungszwecken (Entwicklungsparadigma). Eine Evaluation nach dem Forschungsparadigma verfolgt den Zweck, wertneutrale, technologische Aussagen über die Wirksamkeit z. B. eines politischen Programmes zu treffen. Sie vergleicht durch Evaluations-Designs wie Feldexperimente, Quasi-Experimente,70 ex-post-facto Experimente,71 65 „. . . als dekorative Symbole für eine moderne Politik, ohne die Ergebnisse von Evaluationen ernsthaft nutzen zu wollen“ (Stockmann 2000a, S. 16). 66 Siehe MacDonald (1975), Rippey (1973) oder Guba (1978). 67 Siehe Campbell (1969), Cook und Campbell (1979), Scriven (1983). 68 Siehe Cronbach (1982), Chen und Rossi (1980), Chen und Rossi (1983), Weiss (1977), Weiss (1978). 69 Siehe Wholey (1983), Stake (1978), Guba und Lincoln (1981). 70 Bei Quasi-Experimenten werden theoretische Anforderungen an das Design des Feld-Experimentes pragmatisch durch alternative methodische Kontrollen ersetzt. „So tritt etwa bei der Zusammenstellung strukturäquivalenter Versuchs- und Kontrollgruppen das matching-Verfahren an die Stelle der Randomisierung; oder die nicht mögliche Abschirmung von Störgrößen in der Informationsbeschaffungsphase wird ersetzt durch umfassende Erhebung . . . potentieller exogener Wirkungsfaktoren, um nachträglich in der Auswertungsphase die exogenen Einflüsse statistisch zu kontrollieren“ (Kromrey 2000a, S. 47). 71 Bei ex-post-facto Experimenten werden Daten, die nicht experimentell erhoben wurden, in der Auswertungsphase nachträglich so gruppiert und klassifiziert, dass aus ihnen Schlussfolgerungen gezogen werden können, als stammten sie aus einem Experiment. Hier tritt das Problem der Selbstselektion, d. h. der experimentell nicht kontrollierten Entscheidung potentieller Probanden am Experiment teilzunehmen, auf (Kromrey 2000a, S. 47–48).
40
B. Ranking-Verfahren und seine Einordnung in die Literatur
theoriebasierte Evaluationen72 oder Meta-Analysen73 die im Experiment beobachteten oder durch eine Theorie vorhergesagten Veränderungen mit den von dem politischen Programm angestrebten Effekten. Hierbei wird eine Zuordnung von empirischen Effekten zu Programm-Elementen nach wissenschaftlichen Gütekriterien vorgenommen, und es werden verallgemeinerbare Aussagen angestrebt. Für eine Lehrevaluation könnte z. B. das zu bewertende Programm ein Diplomstudiengang, die Programmziele, die an Studierenden zu vermittelnden Qualifikationen, und als Maßnahmen Studien- und Prüfungsordnungen, Lehrveranstaltungen und Studieninfrastruktur sein. Kromrey (2000a, S. 37, 48–49) weist darauf hin, dass auch bei Evaluationen nach dem Forschungsparadigma normative Urteile, z. B. bei der Festlegung des Zielsystems, der Maßnahmen und der erforderlichen Zielerreichungsgrade einfließen können. In diesen Fällen verliert die Evaluation ihren „Status als lediglich technologisches Vergleichsurteil“. Eine Evaluation nach dem Kontrollparadigma verfolgt den Zweck, einen Beitrag zur Planungsrationalität durch Erfolgskontrolle des Programmhandelns zu leisten, indem sie Informationen über die Planung, die Implementierung und die Wirkungen eines Programmes nach Kriterien wie Effizienz, Effektivität und Akzeptanz sammelt und bewertet.74 Die Gewinnung von übergreifenden, transferfähigen Erkenntnissen steht hier nicht im Vordergrund, sondern Entscheidungshilfen bei Fragen der Qualitätssicherung und -entwicklung und eine Dokumentation des Effizienz- und Wirkungsgrades eines Programmes. Sie setzt klar formulierte, operationalisierbare Ziele und Zielerreichungskriterien sowie ihre Zurechenbarkeit zu dem Evaluandum voraus. Die Erfolgskontrolle kann u. a. durch Experimente, quasi-Experimente, ex-post-facto Experimente und Akzeptanzbefragungen durchgeführt werden. Eine Evaluation nach dem Entwicklungsparadigma verfolgt den Zweck, die Fähigkeit einer Organisation zur Problemwahrnehmung, -strukturierung und zur Entwicklung von (politischen) Programmen zu steigern (Kromrey 2000b, S. 236). Sie untersucht „die materiellen, personellen, institutionellen, finanziellen und theoretischen Rahmen- bzw. Eingangsbedingungen ei72 Theoriebasierte Evaluation basieren auf einem handlungslogischen Rahmenkonzept bzw. auf einem Wirkungsmodell. Die Hypothesen sind gegenstandsbezogen, oft subjektive „Konstrukte des Forschers um sein Evaluationsdesign methodologisch begründet entwickeln zu können“. 73 Meta-Analysen und Evaluationssynthesen prüfen die Geltung, die Differenzierung und die Übertragbarkeit von Evaluationsergebnissen. Meta-Evaluationen hingegen untersuchen die methodische Qualität von Evaluationen mit dem Ziel, methodologische Standards zu überprüfen und weiter zu entwickeln. 74 Z. B. durch „performance management/monitoring/measurement systems“ im öffentlichen Sektor.
II. Entscheidungsprozessorientierte Definition eines Ranking
41
nes Programms“ (Brandstädter 1990, S. 217). Sie wird auch als „offene Evaluation“ bezeichnet, da hier das Evaluandum, das zu entwickelnde Programm, nur vorläufig feststeht. Die Problemstellung, das methodische Vorgehen, die Bewertungskriterien und die Zielgruppen können sich im Verlauf der Evaluation durch vorläufige Evaluationsergebnisse ändern. Evaluationen nach dem Entwicklungsparadigma sind formative Evaluationen, sie sind in den Funktionen Qualitätsentwicklung und -sicherung wesentlicher Bestandteil des Entwicklungsprozesses insbesondere politischer Programme. Weitere Bezeichnungen sind „ex-ante evaluations“, „input-evaluations“ und „preformative evaluations“ (Scriven 1991, S. 169). Nach dem methodologischen Paradigma einer Evaluation unterteilen Guba und Lincoln (1989) die Evaluationsforschung in die vier Phasen Measurement, Description, Judgement und Constructivism. Die Measurement-Phase und die Description-Phase sind nach Stockmann (2000a, S. 17) geprägt vom Gedanken eines „positivistisch bestimmten methodologischen Rigorismus“ und der Vorstellung einer „Welt als ein Labor für Sozialexperimente“.75 Die Paradigmen76 des Positivismus und Postpositivismus beschreibt Mertens (1998, S. 6–21) wie folgt: Es existiert nur eine Realität abseits von verzerrten Wahrnehmungen und unterschiedlichen Interpretationen. Diese kann durch den Versuch der Falsifikation verschiedener plausibler Modelle gefunden werden. Durch Anwendung wissenschaftlicher Methoden, die vorrangig aus den Naturwissenschaften stammen, sollen verallgemeinerbare kausale Beziehungen gefunden werden.77 Durch experimentelle Evaluations-Designs wurde versucht, die „wahren Zusammenhänge zwischen kausalen Kräften“ aufzudecken. Die interne Validität eines Evaluations-Modells wurde an der Güte der Indikatoren-Indikandum Beziehungen überprüft. Ralph W. Tyler übertrug Messverfahren der Erziehungswissenschaften für die Formulierung seines „objectives-based model for evaluating educational curricula“ (Smith und Tyler 1942, Tyler 1949).78 Scriven 75 Siehe Campbell (1969) zum Thema „Social reforms as experiments“ und die Literatur zu quasi-experimentellen Evaluations-Designs. 76 „A paradigm is a world-view, a general perspective . . . carry with them basic beliefs about the nature of reality, the nature of knowledge about that reality, and how one should approach systematic inquiry into that reality“ (Lee 2000, S. 141). 77 „Early in the history of evaluation, it was generally assumed that ‚truth‘ had an objective existence, and was there waiting to be discovered. . . . All of the activities . . . were conceptualized with a strong focus on measurement and objectivity“ (Lee 2000, S. 136–137). 78 „By using experts to determine the objectives of the program, considerable responsiveness to complexity around cultural values was possible, . . . Tyler had great concern for the objectivity, reliability, and the validity of the instruments used
42
B. Ranking-Verfahren und seine Einordnung in die Literatur
(1972) formulierte als Alternative zu Tyler seinen Vorschlag einer „goalfree evaluation“. Der Erfolg eines politischen Programmes soll nicht an der Erreichung ex-post definierter Ziele gemessen werden, sondern durch die Beurteilung der durch das Programm ausgelösten, beabsichtigten und nicht beabsichtigten Wirkungen.79 Die Lieferung entscheidungsunterstützender Informationen in einem politischen Entscheidungsprozess ist ein zentrales Anliegen der Evaluationen in der Judgement-Phase.80 „Stufflebeam (1983) was instrumental in pushing the definition of evaluation beyond the achievement of objectives to include the idea that it was a process of providing information for decision making“ (Mertens 2000, S. 43). Die Evaluationsergebnisse sind hier eng verknüpft mit dem Kontext eines Evaluations-Designs (spezifisches Programm, spezifisches Umfeld, Evaluationsperspektive der stakeholder)81 und sind nur begrenzt verallgemeinerbar. Eine Überprüfung der Objektivität, der Validität und der Reliabilität einer Evaluation wird in den entscheidungsunterstützenden Ansätzen durch statistische Verfahren und einer Überprüfung messtheoretischer Anforderungen vorgenommen.82 Die Constructivism-Phase ist durch ein „konstruktivistisches, interpretatives Paradigma“ geprägt. Stake (1967) „advocated for the concept that evaluation must always include both description and judgement“ (Lee 2000, S. 138).83 Stufflebeam, Foley, Gephart, Guba, Hammond, Merriman und Provus (1971) gilt als „first truly sophisticated theory of evaluation which to test each objective, whether it was a process objective or an outcome“ (Lee 2000, S. 137). 79 „Scriven’s goal-free approach was directly targeted to avoid the bias of focusing evaluation on the outcomes chosen by the program staff or managers. Instead, the evaluator would have to look for all possible outcomes . . . would not be told in advance what the people running the program thought was important or ‚should‘ be measured“ (Lee 2000, S. 138, 147). 80 „Greater sophistication about the complexity of social programs and the political climate in which evaluators work led to the development of more decisionbased models of evaluation“ (Mertens 2000, S. 42). 81 „If the heart of objectivity is to avoid bias, then it seems to necessitate inclusion of perspectives of all relevant groups . . . A good evaluator would want to provide as accurate a picture as possible“ (Mertens 1999, S. 6). 82 Vgl. Widmer (2000, S. 80–81). 83 „Stake said that the purpose of evaluation was to establish what congruence there was among intended versus observed outcomes, the antecedents, and the transactions that occured, linked by logical or empirical contingency . . . characterizing evaluation as a complex, but highly integrated activity, in which judgement component was as important as science, and the methods of investigation did not rely solely on measurement . . . All approaches to the collection of information, however, were expected to meet standards of objectivity, reliability, and validity (Lee 2000, S. 138).
II. Entscheidungsprozessorientierte Definition eines Ranking
43
included all the components Stake suggested, well elaborated and with methods tied to each one. The CIPP theory structured evaluation as four major components, each of which had specific suggestions on what to assess, how to assess it, and how to link it together with other components“ (Lee 2000, S. 139). Der Context beschreibt die Rahmenbedingungen eines Programmes und seine Ziele. Der Input umfasst die notwendigen Programmresourcen wie die Programmteilnehmer und ihre Varianz in den programmrelevanten Qualitätsdimensionen, das erforderliche Personal und seine notwendigen Qualifikationen, die erforderlichen finanziellen Mittel und Sachmittel. Der Process beschreibt das logische Modell eines Programms durch seine Maßnahmen und die logischen oder empirischen Begründungen wie einzelne Maßnahmen zur Erreichung einzelner Programmziele in welcher Weise beitragen. Das Product beschreibt die Wirkungen des Programms, sowohl die gewünschten, als auch die unerwünschten. Die Ziele werden aus den „wahrgenommenen“ sozialen Bedürfnissen der intendierten Zielgruppe des Programmes abgeleitet (deskriptive Bewertungskriterien). Der Evaluator bewertet, welche Bedürfnisse welcher Zielgruppen durch das Product wie gut befriedigt werden (Mertens 2000, S. 43). Die Existenz einer „wahren bzw. objektiven Realität“ wird hier verneint.84 Wissen wird als Ergebnis einer sozial konstruierten Realität angesehen. An die Stelle einer Realität tritt hier eine Mehrzahl unterschiedlicher Betrachtungsperspektiven, eine Mehrzahl sozialer Realitäten, die untereinander in Konflikt stehen können.85 „The result was pluralist conceptions of evaluation in which multiple methods, measures, criteria, perspectives, audiences, and interests were recognized. Conceptually, evaluation moved from monolithic to pluralist conceptions, reflecting the pluralism that had emerged in the larger society. How to synthesize, resolve, and adjudicate all these multiple multiples remains a formidable question . . .“ (House 1993, S. 11).
84 „Cronbach’s (1980) concept of evaluation . . . was one of the first works theorizing about evaluation that recognized that even through rigorous, credible methods may be thought to be relatively value-neutral, evaluation as a whole is not“ (Lee 2000, S. 155). 85 „Realität ist ein soziales Konstrukt, eine nur zu einem bestimmten Zeitpunkt in einem partikularen Kontext gültige Konvention, die bei jeder Evaluation neu zu definieren ist“ (Mertens, S. 6–21). „. . . whatever knowledge claims are made by an evaluation, they will apply only to that specific program in that place, and at that time with those particular representatives of the stakeholder groups involved“ (Lee 2000, S. 143). „. . . we need to place those viewpoints within a political, cultural, and economic value system to understand the basis for the differences. This leads to the explicit consideration of how to reveal those multiple constructions, as well how to make decisions about privileging one perspective over another“ (Mertens 2000, S. 45).
44
B. Ranking-Verfahren und seine Einordnung in die Literatur
Das heutige Verständnis von Evaluationsforschung Evaluation wird heute u. a. definiert als „systematic investigation of the merit or worth of an object (program) for the purpose of reducing uncertainty in decision making“ (Mertens 1989, S. 219), als „methodisch kontrollierte, verwertungs- und bewertungsorientierte Form des Sammelns und Auswertens von Informationen“ (Kromrey 2000a, S. 22), als „systematische Anwendung sozialwissenschaftlicher Forschungsmethoden zur Beurteilung der Konzeption, Ausgestaltung, Umsetzung und des Nutzens sozialer Interventionsprogramme“ (Rossi, Freeman und Hofmann 1988, S. 3) und als „applied research carried out to make or support decisions regarding one or more service programs“ (Mitchell 1995). Der intendierte Nutzen einer Evaluation liegt in der Generierung entscheidungsunterstützender Informationen, d. h. es handelt sich um „wahre Evaluationen“ (Stufflebeam und Shinkfield 1985), die sich an dem Informationsbedarf der stakeholder orientieren (Cook und Shadish 1986). Beim Zweck bzw. der Funktion einer Evaluation dominieren das Entwicklungs- und das Kontrollparadigma (Chelimsky 1997). Bis heute stehen die unterschiedlichen methodologischen Paradigmen in Konkurrenz zueinander,86 und es wurde mehrfach der Versuch unternommen, sie zu vereinen und weiter zu entwickeln wie z. B. durch das „comprehensive“ Paradigma von Rossi & Freeman (1982, 1993) und durch das transformative/emanzipatorische Paradigma von Mertens (1998). Evaluationen sollen heute gleichzeitig wissenschaftlichen Anforderungen genügen und für die Auftraggeber und andere Interessenten von Nutzen sein (Rossi, Freeman und Hofmann 1988, S. 10), sie folgen einer kritisch-rationalen Logik. Weitgehender Konsens herrscht heute darüber, dass bei einer Evaluation an vielen Stellen Wertungen und Urteile einfließen müssen. Diese betreffen z. B. die Auswahl eines Bewertungsmodells, die Auswahl von Datenerhebungsmethoden und Datenquellen,87 sowie die Aggregation von Informationen zu einem zusammenfassenden Urteil88 durch den Evaluator. Neuere 86 „Despite constructivist critiques, the aspiration for rigorous, scientific and independent evaluation is continually renewed, and so is the quest for knowledge about whether, how and why public programmes work or not. . . . basing policy on ‚hard facts‘ rather than the subjective perspectives of an ever-increasing number of stakeholders and sectional interest groups“ (Leeuw 2000, S. 74). 87 „Facts and values are inextricably intertwined, and even the most ‚scientific‘ methods have built-in bias . . . For each type of data, the basis for and limits of its claims to credibility is made explicitly clear“ (Lee 2000, S. 158–159). 88 „Evaluation . . . must also address methodological questions of how to make (or help others make) judgements and choices“ (Leeuw 2000, S. 57). „. . . the questions asked about programs will differ depending on the particular group and the stake they have in the outcome (Weiss 1972)“ (Lee 2000, S. 145).
II. Entscheidungsprozessorientierte Definition eines Ranking
45
Ansätze in der Evaluationsforschung versuchen die Validität und Reliabilität von Evaluationsverfahren durch einen Perspektiven-, Werte- und Methodenpluralismus sowie durch eine explizite Modellierung des speziellen Kontextes eines Evaluandums sicherzustellen. „ ‚Value‘ cannot be separated from the context in which the object of evaluation operates. The evaluation ideally makes clear the nature of that physical, economic, cultural, historical, and political context, and how these elements affect the object of evaluation and the evaluation itself. Because context is essential to judgements of worth, and is never simple, the use of the evaluation itself will be limited when applied to other contexts, and no assumptions of generalizability can be made until there is accumulation of similiar evidence, consistently across many different contexts“ (Lee 2000, S. 159). Die unterschiedlichen Beurteilungsperspektiven relevanter StakeholderGruppen sollen bei einer Evaluation explizit durch unterschiedliche Bewertungsmodelle („value frameworks“) berücksichtigt werden.89 Unterschiedliche Beurteilungsperspektiven und Bewertungsmodelle führen jedoch zu einem Abstimmungsproblem, wenn durch die Evaluation eine zusammenfassende Bewertung vorgenommen werden soll.90 „Evaluation theories differ in how they would treat this kind of issue. Some will advocate for some value over others, such as Scriven, who would choose based on assessment of need . . . Others like Stake and Weiss will describe values and who holds them, without claiming one is superior over the other. This latter approach clearly favors a reality in which plural values compete with each other in the political arena. The former approach is vulnerable to attack by stakeholder groups who perceive or believe their values were not attended to equitably“ (Lee 2000, S. 146). Caracelli (2000, S. 184) führt als „frontiers in evaluation research“ an: „Current standards provide little guidance on how evidence from multiple perspectives should be put together to provide a coherent assessment“. Durch eine Kombination von verschiedenen sozialwissenschaftlichen Methoden und Forschungsparadigmen sollen deren methodenimmanenten Einschränkungen und Verzerrungen reduziert werden.91 89 „Der Blickwinkel“ einer Evaluation kann „nicht auf den Sachverhalt ‚Programm‘ (Ziele – Maßnahmen – Effekte) beschränkt bleiben, sondern muss explizit auch die Beteiligten einbeziehen“ (Kromrey 2000a, S. 56). „. . . there is a general agreement in evaluation theory, that evaluation is about assigning value, and values are a matter of context and cultural (as well as personal) perspective“ (Lee 2000, S. 158). 90 „. . . there will often be competing values. Choices will inevitable result . . . Theories of evaluation need to be clear about the basis for making choices“ (Lee 2000, S. 156, 158). Siehe auch Caracelli (2000, S. 183). 91 „The multi-trait, multi-method matrix was developed as an approach for assessing the construct validity of a set of measures in a study (Campbell/Fiske 1959) . . . The logic of Triangulation assumes that the use of only one method to assess a
46
B. Ranking-Verfahren und seine Einordnung in die Literatur
Der Kontext eines Evaluandums beschreibt die Rahmenbedingungen, die einen wesentlichen Einfluss auf die Evaluation und die anzuwendenden Methoden besitzen. Gemeinsamkeiten und Unterschiede zwischen einem Ranking-Verfahren und einem Evaluations-Verfahren Ein Ranking-Verfahren nach Definiton 4 (S. 30) lässt sich in die Klassifikationen von Evaluationen wie folgt einordnen. Es entspricht einem summativen, externen und „wahren“92 Evaluations-Verfahren. Es orientiert sich am Informationsbedarf der stakeholder93 und entspricht nach seinem Zweck bzw. seiner Funktion einem Evaluations-Verfahren nach dem Kontrollparadigma94 und nach seinem methodologischen Paradigma einem EvaluationsVerfahren der Constructivism-Phase. Beide Verfahren sollen in einer komplexen Entscheidungssituation durch eine Bewertung der Qualität bzw. des Wertes oder des Nutzens eines Evaluandums entscheidungsunterstützende Informationen für eine Stakeholder-Gruppe liefern. Wie in der Sozialindikatorenforschung steht auch ein Ranking-Verfahren vor dem zentralen theoretischen und methodologischen Problem der Unbestimmtheit des Begriffs Qualität. Beide Verfahren besitzen einen Auftraggeber, einen Verwendungszweck und die Ergebnisse sollen unmittelbar durch eine StakeholderGruppe nutzbar sein. Sowohl ein Ranking-Verfahren als auch ein Evaluations-Verfahren muss sich an den Zielbestimmungen seines bzw. seiner Auftraggeber orientieren und muss je nach Stakeholder-Gruppe unterschiedliche Informationsinhalte bereit stellen.95 Beiden Verfahren muss ein Bewertungskonzept bzw. ein Wirkungsmodell zugrunde liegen, das durch Kriterien beschrieben und durch geeignete, valide und zuverlässige Indikagiven phenomenom will yield biased or limited results. When two or more methods, with offsetting biases, are used to assess a given phenomenon, and the results converge or corroborate one another, the validity of the findings is enhanced (Denzin 1978; Mathison 1988; Webb/Campbell/Schwartz/Sechrest 1966). Triangulation of data sources . . . provided the methods do not share the same source of bias but rather offset the bias and limitations of the contrasting method type (Shotland/Mark 1987)“ (Caracelli 2000, S. 184). 92 Siehe Stufflebeam und Shinkfield (1985). 93 Siehe Cook und Shadish (1986). 94 Siehe Chelimsky (1997). Ein Ranking-Verfahren liefert durch die systematische Beschaffung, Interpretation, Bewertung und Aggregation entscheidungsnotwendiger Informationen einen Beitrag zur Planungsrationalität. 95 Ein Zielsystem einer Ranking-Zielgruppe ist ein mehrdimensionales Konstrukt, das von außen an die Handlungsalternativen zum Zwecke der Beurteilung herangetragen wird. Dieses kann, in Abhängigkeit der betrachteten Einzeldimensionen und der Beurteilungsperspektive, sehr unterschiedliche Bedeutungen besitzen.
II. Entscheidungsprozessorientierte Definition eines Ranking
47
toren operationalisiert werden kann. Im Prinzip können bei einem RankingVerfahren, wie auch bei einem Evaluations-Verfahren, alle Methoden der empirischen Sozialforschung angewendet werden. Die Validität und Reliabilität einer Evaluation oder eines Ranking muss durch wissenschaftliche Verfahren und Verfahrenstandards überprüft werden. Ein Ranking-Verfahren und ein Evaluations-Verfahren unterscheiden sich u. a. in der Differenzierung von Stakeholder-Gruppen in Ranking-Zielgruppen, in der Differenzierung von Evalunda in Ranking-Objektmengen und in der Aggregation von Informationen zu einem zusammenfassenden Urteil. Die Aggregation wird bei einer Evaluation durch Experten vorgenommen, deren Urteil sich aus den unterschiedlichen Beurteilungsperspektiven und den unterschiedlichen Bewertungsmodellen verschiedener StakeholderGruppen zusammensetzt bzw. diese repräsentieren muss. Diese Problemstellung beschreibt einen „social decision-making process“. Mehrere MikroPräferenzrelationen der Stakeholder-Gruppen werden durch eine Aggregationsvorschrift in Form einer Makro-Präferenzrelation repräsentiert.96 Im Unterschied hierzu geschieht bei einem Ranking-Verfahren die Aggregation durch einen Index bzw. durch eine Mikro-Präferenzrelation einer Stakeholder-Gruppe. Die Mikro-Präferenzrelation repräsentiert eine empirisch unterscheidbare Ranking-Zielgruppe (deskriptive Bewertungskriterien, responsive evaluation, individual decision-making process). Eine Synthese oder das Privilegieren einzelner Beurteilungsperspektiven ist nicht erforderlich. Die acht Problemstellungen bei einer Politik-Evaluation nach Vedung (2000) können auf die Problemstellungen bei einem Ranking-Verfahren durch eine Ergänzung der Problemstellung „The index problem“ übertragen werden. Von den in Vedung (2000, S. 110–113) besprochenen Verwendungszwecken einer Evaluation sind nur die intendiert entscheidungsunterstützenden „instrumental use“ und „discursive use“ auf ein Ranking-Verfahren übertragbar. Als Nachteil eines Ranking-Verfahrens gegenüber einem EvaluationsVerfahren wird u. a. die Vernachlässigung inhaltlich-qualitativer Kriterien zugunsten formaler, zählbarer Kriterien (Giese 1986, Daniel 1986a), als Vorteil die Transparenz angeführt. Durch ein Ranking-Verfahren werden die Zielsysteme verschiedener Ranking-Zielgruppen explizit formuliert. Dadurch werden mögliche Zielkonflikte erst deutlich und einer wissenschaftlichen Analyse zugänglich. Alle einer Bewertung zugrunde liegenden Informationen werden operationalisiert und sind nachvollziehbar.
96
Siehe die Literatur zu Social Choice.
48
B. Ranking-Verfahren und seine Einordnung in die Literatur
2. Einordnung eines Ranking-Verfahrens in die Entscheidungstheorie Als Entscheidungstheorie wird die logische und empirische Analyse eines rationalen oder indentiert rationalen Entscheidungsverhaltens bezeichnet.97 Das Grundmodell der betriebswirtschaftlichen Entscheidungstheorie Das Grundmodell der betriebswirtschaftlichen Entscheidungstheorie ist charakterisiert durch ein Entscheidungsfeld und durch die von einem Entscheidungsträger verfolgten Ziele. Das Entscheidungsfeld besteht aus einem Aktionenraum A, einem Zustandsraum Z und einer Ergebnisfunktion g: A ã fa1 ; :::; am g; Z ã fz1 ; :::; zn g; g
Èa; zê 7! x ã g Èa; zê:
Der Aktionenraum A besteht aus der Menge der entscheidungsrelevanten Handlungsalternativen, der Zustandsraum Z aus der Menge der relevanten (Umwelt-)Zustände, die den Wert einer Handlungsalternative beeinflussen98 und durch den Entscheidungsträger nur teilweise oder gar nicht beeinflusst werden können. Die Ergebnisfunktion g ordnet jeder Kombination einer Handlungsalternative mit einem Zustand aufgrund der Kenntnis bestehender natur-, sozialwissenschaftlicher oder sonstiger Zusammenhänge einen Wert zu.99 Der Aktionenraum A muss der Forderung einer vollkommenen Alternativenteilung genügen. Diese Forderung beeinhaltet eine vollständige Repräsentation aller möglichen Aktionen des Entscheidungsträgers und dass sich je zwei Aktionen gegenseitig ausschließen (Exklusionsprinzip). Sind alle Handlungsalternativen ai ; i ã 1; :::; m, eineindeutig mit einem Umweltzu97 „Dabei geht es einerseits um die Analyse und Gestaltung der . . . Bedingungen für das Treffen . . . vernünftiger Entscheidungen, andererseits um Herausarbeitung, Analyse und Gestaltung der – unabhängig von den jeweils vorliegenden konkreten Bedingungen – allen . . . Entscheidungen zugrunde liegenden gemeinsamen Elemente und Strukturen“ (Bamberg und Coenenberg 1994, V). 98 Beispiele für (Umwelt-)Zustände sind Marktstruktur, Konjunktur, Gesetze oder mögliche Konkurrenzreaktionen. „Welche Faktoren der Umwelt als relevante Daten in einem Entscheidungsmodell zu erfassen sind, hängt von der jeweiligen Entscheidungssituation ab“ (Bamberg und Coenenberg 1994, S. 17). 99 „Die Modellierung ist keineswegs eindeutig; die gleiche Problemsituation kann auf verschiedene Weisen durchaus gleichwertig abgebildet werden“ (Eisenführ und Weber 1994, S. 16).
II. Entscheidungsprozessorientierte Definition eines Ranking
49
stand zj ; j ã 1; :::; n, verbunden, so liegt eine Entscheidung unter Sicherheit vor. Sind für jede Handlungsalternative ai ; i ã 1; :::; m, Wahrscheinlichkeitsverteilungen über die möglichen Umweltzustände zj ; j ã 1; :::; n, bekannt, liegt eine Entscheidung unter Risiko vor. Ist lediglich bekannt, dass ein Umweltzustand zj 2 Z eintreten wird, so liegt eine Entscheidung unter Ungewissheit vor. Der Kenntnisstand über das Eintreten von möglichen Umweltzuständen kann durch ein Informationssystem verbessert werden.100 Die Ergebnisfunktion g kann deterministisch, stochastisch oder weder deterministisch noch stochastisch sein.101 Bei einer multi-kriteriellen Entscheidung, z. B. bei einem Zielsystems mit r Zielen, wird die Ergebnisfunkg tion zu einer vektorwertigen Funktion g : Èa; zê 7! x 2 IRr .102 xk ; k ã 1; :::; r, beschreibt den Wert oder Nutzen einer Handlungsalternative bei Vorliegen eines Zustandes bezüglich des k-ten Ziels bzw. einen Spezialfall eines Systems von Indizes (Eichhorn 1978, S. 37). Werden durch das Zielsystem alle entscheidungsrelevanten Ergebniskomponenten der Handlungsalternativen beschrieben, so sind die Handlungsalternativen selbst wertfrei und werden ausschließlich durch die ihnen zugeordneten Ergebniswerte repräsentiert (Schneeweiß 1967, S. 33). Die für den Entscheidungsträger zu komplizierte direkte Bewertung der Handlungsalternativen wird auf eine Bewertung ihrer r Ergebniswerte reduziert. Als Voraussetzungen für eine rationale Entscheidung muss ein Zielsystem den Forderungen Vollständigkeit, Operationalität und Unabhängigkeit genügen. Das Zielsystem muss die entscheidungsrelevanten Ergebnisse der Handlungsalternativen vollständig beschreiben. Die Operationalität aller Ziele ist eine der Voraussetzungen für die Berechnung eines Ergebniswertes bzw. Zielrealisationsgrades. Die Unabhängigkeit der Ziele ist eine notwendige Voraussetzung für eine isolierte Bewertung ihrer Ergebnisbeiträge. Ein Entscheider muss bezüglich aller Ergebniswerte xk Präferenzrelationen besitzen. Diese müssen stetig, vollständig103 und transitiv104 sein, um sie u durch eine numerische, ordinale Nutzenfunktion x 7! uÈxê 2 IR repräsentie100
Siehe Bamberg und Coenenberg 1994 (S. 17–21). In diesem Fall legt gÈa; zê nur „eine Menge von potentiell möglichen Konsequenzen fest, ohne dass Wahrscheinlichkeiten dafür bekannt sind, welche dieser potentiell möglichen Konsequenzen tatsächlich eintritt“ (Bamberg und Coenenberg 1994, S. 22). 102 „Die Annahme einer einzigen Zielsetzung . . . wird in vielen Fällen der Wirklichkeit nicht gerecht. Vielfach ergeben sich neben den finanziellen auch personelle, organisatorische, psychologische, rechtliche usw. Konsequenzen, deren Gewicht die Bewertungsrangfolge der Aktionen maßgeblich beeinflussen kann“ (Bamberg und Coenenberg 1994, S. 24). 103 Der Entscheidungsträger muss in der Lage sein, „Indifferenz oder Präferenz zwischen je zwei zu vergleichenden Ergebnissen festzustellen . . .“ (Bamberg und Coenenberg 1994, S. 32). 101
50
B. Ranking-Verfahren und seine Einordnung in die Literatur
ren zu können (Debreu 1954).105 Zur Erstellung einer Rangfolge im Aktionenraum A muss das Zielsystem aus den r Zielen und Höhen- und Artenpräferenzrelationen106 auf den zulässigen Ergebniswerten x 1 ; :::; x k bestehen. Eine Artenpräferenzrelation, wie z. B. eine Zielgewichtung, legt die Präferenzen des Entscheiders bei mehreren, teilweise konfliktären Zielen fest. Eine Bewertung der Ergebniswerte €x kann eine mehrfache, sequentielle Anwendung von Präferenzrelationen erfordern. Eine Ordnung der Handlungsalternativen nach ihren Nutzenwerten entspricht dann der Präferenz des Entscheidungsträgers. Laux (1998b, S. 185–273) behandelt betriebswirtschaftliche Fragestellungen bei der Delegation von Entscheidungen. Überträgt ein Entscheidungsträger Entscheidungskompetenzen im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses an einen Dritten, so gibt er diesem ein Entscheidungsziel, häufig die Menge der Handlungsalternativen, aus denen eine Auswahl zu treffen ist, und eventuell den Prozess der Informationsbeschaffung und -verarbeitung vor. Es besteht die Gefahr, dass der Dritte vom Entscheidungsträger abweichende Ziele verfolgt, sich an anderen Zielgrößen orientiert oder die Zielgrößen abweichend gewichtet. Laux (1998b, S. 187–189) fordert eine Kompatibilität der Ziele des Dritten mit den Zielen des Entscheidungsträgers und eine Operationalität der Ziele des Entscheidungsträgers. Bei Vorgabe mehrerer, konkurrierender Ziele müssen die „Präferenzvorstellungen“ des Entscheidungsträgers an den Dritten übermittelt werden. Eine partielle Delegation liegt vor, wenn der Dritte nur eine Vorauswahl aus der Menge der Handlungsalternativen nach den Vorgaben des Entscheidungsträgers trifft. In diesem Fall gelten abgeschwächte Anforderungen an die Operationalität der Zielvorgaben.
104 „Verletzungen der Transitivität kommen dennoch gelegentlich in der Realität vor; vor allem deshalb, weil Ergebnisunterschiede oft erst jenseits bestimmter Fühlbarkeitsschwellen empfunden werden. Diese Beobachtung spricht indessen nicht gegen die Vernünftigkeit der Transitivität als normativem Postulat rationalen Verhaltens“ (Bamberg und Coenenberg 1994, S. 32). 105 Bei einer ordinalen Nutzenfunktion gibt der Größenvergleich zweier Nutzenwerte nur an, ob ein Ergebniswert gegenüber einem anderen präferiert wird, nicht jedoch die Präferenzstärke. Für eine kardinale Nutzenfunktion muss der Entscheidungsträger zusätzlich eine Präferenz hinsichtlich der Nutzendifferenzen besitzen: uÈyê uÈxê > uÈy 0 ê uÈx 0 ê. 106 Präferenzrelationen entsprechen generellen Imperativen über die Vorziehenswürdigkeit bestimmter Ergebniswerte (Bamberg und Coenenberg 1994, S. 28).
II. Entscheidungsprozessorientierte Definition eines Ranking
51
Erkenntnisziele der Entscheidungstheorie Als gedankliches Modell eines Entscheidungsprozesses schlagen u. a. Gaefgen (1968, S. 96), Zangemeister (1972) und Bamberg und Coenenberg (1994, S. 1) einen Interaktionsprozess zwischen einem Subjektsystem und einem Objektsystem vor. Das Objektsystem besteht aus der Menge von Handlungsalternativen und deren Rahmenbedingungen bzw. deren Kontext wie Technologien, Marktstrukturen, institutionelle und juristische Normen. Das Subjektsystem besteht aus den drei Bestandteilen Informationssystem, Zielsystem und Entscheidungslogik. Durch das Informationssystem wird der Entscheidung ein subjektives Situationsbild zugrunde gelegt (Bamberg und Coenenberg 1994, Simon 1981, Kirsch 1970). Es bildet die entscheidungsrelevanten Kriterien des Objektsystems in das Subjektsystem ab. Das Zielsystem eines Entscheidungsträgers „liefert die notwendigen Wertprämissen zur zielorientierten Ausrichtung der Informationsgewinnung und für den Prozess der entscheidungslogischen Informationsverarbeitung“ (Bamberg und Coenenberg 1994, S. 2). Die Entscheidungslogik verknüpft die „wertenden und faktischen Entscheidungsprämissen“. Durch eine Bewertung der Handlungsalternativen wird eine „Lösung des Entscheidungsproblems erreicht“. Ein Entscheidungsprozess ist durch eine intendiert rationale Ableitung einer Entscheidung aus faktischen und subjektiven Entscheidungsprämissen charakterisiert. Messen bedeutet relationsgetreues Abbilden. Durch eine Messung werden den entscheidungsrelevanten Eigenschaften von Objekten Zahlen so zugeordnet, dass die Relationen zwischen den Zahlen die Relationen zwischen den Objekten repräsentieren. In der Entscheidungstheorie handelt es sich bei einer Messung um ein präferenzerhaltendes Abbilden. „Die Nutzenrelationen zwischen den Messobjekten folgen aus der Präferenzstruktur des Entscheidungsträgers, die der Bewertung zugrunde liegt . . . Die Präferenzstruktur und die daraus resultierende Nutzenrelationen zwischen Messobjekten sind also nur empirisch . . . zu ermitteln“ (Strebel 1975, S. 48).107 Eine Untergliederung der Entscheidungstheorie nach den Erkenntniszielen unterscheidet zwischen normativer, präskriptiver und deskriptiver Entscheidungstheorie (Bell, Raiffa und Tversky 1988, S. 16). „Descriptive decision science says how people do make up their minds . . . Normative decision science says people how ideal people would make up their minds . . . 107 „Die nach der jeweiligen Präferenzstruktur zwischen den Messobjekten gültigen Relationen bestimmen, welche Eigenschaften (Axiome) der Maßzahlen (Nutzenwerte) zur Abbildung der Nutzenrelationen (Messung) verwendet werden dürfen. Diese Axiome bestimmen ihrerseits die Rechenoperationen, die mit den Maßzahlen sinnvoll ausgeführt werden können und die Art und Weise, wie aus mehreren Nutzenwerten . . . Projektwerte errechnet werden dürfen“ (Strebel 1975, S. 48).
52
B. Ranking-Verfahren und seine Einordnung in die Literatur
Prescriptive decision science says how people should make up their minds . . .“ (Brown 1989, S. 467). Hierbei wird zwischen formaler und substanzieller sowie zwischen objektiver und subjektiver Rationalität unterschieden.108 Beispiele für formale Rationalitätspostulate sind die Widerspruchsfreiheit des Zielsystems und eine Gewinn- oder Nutzenmaximierung. Die substanzielle Rationalität eines Zielsystems wird bei einer speziellen Anwendung durch einen Vergleich mit einem als Standard akzeptierten Referenzsystem bewertet (Bamberg und Coenenberg 1994, S. 3). Bei objektiver Rationalität müssen die durch das Informationssystem eines Entscheidungsträgers subjektiv wahrgenommenen Informationen mit dem Situationsbild übereinstimmen, das ein objektiver Beobachter ermitteln würde.109 Beispiele für objektive Rationalitätspostulate sind die vollkommene Information und die vollkommene Voraussicht des Entscheidungsträgers. Bamberg und Coenenberg (1994, S. 3) bemerken: „. . . würde die Annahme objektiver Rationalität die Entscheidungstheorie für die meisten praktischen Zwecke untauglich machen und, als Forderung verstanden, in vielen Fällen gegen das Postulat formaler Rationalität verstoßen“. Bei einem subjektiven Rationalitätspostulat gilt eine Entscheidung auch dann als rational, wenn sie mit den durch das Informationssystem subjektiv wahrgenommen Informationen „in Übereinstimmung steht“ (Bamberg und Coenenberg 1994, S. 4). Die normative Entscheidungstheorie befasst sich mit Fragestellungen der Entscheidungslogik. Gegeben ein Informations- und ein Zielsystem, werden auf der Basis von Rationalitätspostulaten Regeln zur Bewertung von Handlungsalternativen abgeleitet. Eisenführ und Weber (1994, S. 1, 10) bemerken: „Es gibt keine objektiv richtigen Entscheidungen. Vielmehr beruhen Entscheidungen notwendig . . . auf subjektiven Zielen und Präferenzen des Entscheiders . . . Sie müssen nur konsistent mit den Axiomen sein, die der Entscheider anerkennt“.110 Die präskriptive Entscheidungstheorie behandelt die „Analyse von Entscheidungen unter dem Postulat subjektiver Formalrationalität“ (Bamberg und Coenenberg 1994, S. 4), d. h. die „systematische, nachvollziehbare und 108 Diese Rationalitätspostulate stellen Anforderungen an die faktischen und subjektiven Entscheidungsprämissen dar. 109 „Eine Forderung nach objektiver Rationalität hätte sicherlich den Vorteil, das Entscheidungsverhalten unmittelbarer empirischer Beobachtung und wissenschaftlicher Erklärung zugänglich zu machen; . . .“ (Bamberg und Coenenberg 1994, S. 3). 110 „Der Wert eines Projektes entspricht seiner relativen Vorzugswürdigkeit gegenüber anderen Projekten. Er wird nach der gerundiven Werttheorie – bei gegebenem Entscheidungsfeld – vom Wertsystem des Entscheiders bestimmt. Dieses Wertsystem gibt an, wie die Konsequenzen einer Entscheidung aus der Sicht des Entscheidungsträgers zu bewerten sind. Es umfasst die von ihm verfolgten Ziele (das Zielsystem) sowie seine Präferenzstruktur bezüglich dieser Ziele (Zielgewichtung) und ihrer alternativen Erfüllungsgrade“ (Strebel 1975, S. 12).
II. Entscheidungsprozessorientierte Definition eines Ranking
53
logisch fundierte Auswertung der verfügbaren Informationen, so unvollständig, subjektiv und veränderlich diese auch seien“ (Eisenführ 1989, S. 397). Die subjektiven Ziele eines Entscheiders werden, im Unterschied zur normativen Entscheidungstheorie, als Grundlage der Entscheidung anerkannt, solange sie widerspruchsfrei sind. Nach von Nitzsch (1994, S. 10) lässt sich die präskriptive Entscheidungstheorie auch als eine approximierende oder abgeschwächte Form der normativen Entscheidungstheorie auffassen. „Von entscheidender Bedeutung ist hier allein die instrumentale Rationalität, d. h. die Rationalität im Entscheidungsprozess innerhalb des subjektiven Zielsystems. Rationalität in diesem Zusammenhang beinhaltet die Erfüllung normativer Regeln, die sich nur auf den Entscheidungsprozess beziehen und nicht auf die zugrundeliegenden Ziele“ (von Nitzsch 1994, S. 11–12). Nach Eisenführ und Weber (1994) charakterisiert Keeney (1982) die präskriptive Entscheidungstheorie als „formalization of common sense for decision problems which are too complex for informal use of common sense“ und Howard (1988) als „systematic procedure for transforming opaque decision problems by a sequence of transparent steps“.111 Keeney und Raiffa (1993) und Keeney (1992a) übertragen z. B. Erkenntnisse der Nutzen- und Präferenztheorie auf Konsistenzanforderungen für menschliche Informationsverarbeitungsprozesse. Verfahren der präskriptiven Entscheidungstheorie sind z. B. die in der Praxis weit verbreiteten Punktbewertungsverfahren (Scoring), die Nutzwertanalyse und die Verfahren der mathematischen Programmierung, der multi-attributiven Nutzentheorie, der Prävalenztheorie und z. B. der Analytical Hierarchy Process.112 Die deskriptive Entscheidungstheorie will tatsächliches menschliches Entscheidungsverhalten unter der Annahme einer intendiert rationalen Entscheidungslogik modellgestützt beschreiben, erklären und vorhersagen.113 „. . . es gilt auf der Basis hinreichend abgesicherter Gesetzeshypothesen und bekannter Ausgangsbedingungen zu erklären, warum bestimmte Ereignisse 111 Laux (1998a, S. 59–60) bemerkt, dass bei Entscheidungsmodellen eine Mehrzahl subjektiver Faktoren wie subjektive Zielvorstellungen des jeweiligen Entscheiders, verschiedene Alternativenmengen durch individuelle Lebensumstände, individuelle Informationsstände, subjektive Bewertungen und Interpretationen sowie individuelle Vereinfachungen des Entscheidungsproblems und verschiedene Arten und Weisen der Informationsverarbeitungen der jeweiligen Entscheider einfließen. 112 Für eine vergleichende Übersicht und eine Abgrenzung der unterschiedlichen Verfahren siehe von Nitzsch (1994, S. 16–37). 113 Empirische Analysen realen Entscheidungsverhaltens zeigen, dass dieses nur intendiert rational ist und häufig gegen theoretische Rationalitätspostulate verstößt. Die „behavioral theory of the firm“ (Cyert und March 1963) basiert u. a. auf der „psychologischen Erkenntnis, dass die Rationalität wegen der begrenzten Informationsgewinnungs- und Informationsverarbeitungskapazität des Individuums Begrenzungen unterliegt . . .“ (Bamberg und Coenenberg 1994, S. 6).
54
B. Ranking-Verfahren und seine Einordnung in die Literatur
eingetreten sind bzw. eintreten werden“ (Bamberg und Coenenberg 1994, S. 4). Dabei werden, wie in der „behavioral theory of the firm“ (Cyert und March 1963), psychologische und verhaltenswissenschaftliche Ansätze zur Erklärung kognitiver Entscheidungsprozesse angewendet. „Neben dem eigentlichen Auswahlprozess stehen . . . in der Verhaltenstheorie der Unternehmung das Zustandekommen der faktischen und wertenden Entscheidungsprämissen, nämlich der Prozess der Informationsgewinnung und Zielbildung, im Mittelpunkt der Betrachtung“ (Bamberg und Coenenberg 1994, S. 6). Diese Prozesse sind z. B. abhängig von den verwendeten Auswertungsmethoden, den Persönlichkeitsfaktoren des Entscheidungsträgers und der Intensität und der Richtung des Informationsgewinnungsprozesses. Die deskriptive Entscheidungstheorie ist für die präskriptive Entscheidungstheorie von hoher Bedeutung, da ihre Erkenntnisse über die Charakteristika menschlichen Entscheidungsverhaltens wie z. B. systematische Verzerrungen in der Verarbeitung von Informationen für eine valide und verlässliche Ermittlung und Abbildung von Präferenzaussagen erforderlich sind (von Nitzsch 1994). Gemeinsamkeiten und Unterschiede zwischen einem Ranking-Verfahren und einem Entscheidungsprozess Die Begrenzungen in der menschlichen Informationsgewinnungs- und -verarbeitungskapazität können zu einem verteilten, multi-kriteriellen Entscheidungsprozess (Definition 3, S. 30) führen. Eine intendiert rationale Ableitung der Entscheidung einer Zielgruppe aus faktischen und wertenden Entscheidungsprämissen durch ein Ranking-Verfahren (Definition 4, S. 30) sichert die subjektive Formalrationalität, Validität und Reliabilität eines Ranking (Definition 2, S. 29). Durch eine systematische Erfassung und Verarbeitung von entscheidungsrelevanten Informationen liefert ein RankingVerfahren einen Beitrag zur Verbesserung von intendiert rationalen Entscheidungen. Das gedankliche Modell eines Entscheidungsprozesses der betriebswirtschaftlichen Entscheidungstheorie ist auf ein Ranking-Verfahren übertragbar. Durch ein Informationssystem wird die Entscheidungssituation einer Zielgruppe aus einem Objektsystem in ein valides Situationsbild (Subjektsystem) abgebildet. Die Entscheidungsprämissen sind auch bei einem Ranking-Verfahren abhängig von den Persönlichkeitsfaktoren der Zielgruppe. Ein Ranking-Verfahren stellt eine Modellierung, ein Ranking eine Optimierungsvorschrift und eine Rangfolge eine Lösung eines Vektoroptimierungsproblemes, einer Entscheidung unter mehrfacher Zielsetzung oder eines multi-attributiven Entscheidungsproblemes dar. Dem Aktionenraum A entspricht eine Ranking-Objektmenge. Dem Zielsystem eines Entschei-
II. Entscheidungsprozessorientierte Definition eines Ranking
55
dungsträgers entspricht das Zielsystem einer Ranking-Zielgruppe. Die Forderungen an den Aktionenraum und an das Zielsystem sind auf die Ranking-Objektmenge und das Zielsystem einer Ranking-Zielgruppe übertragbar. Das Zielsystem liefert die notwendigen Wertprämissen zur zielorientierten Ausrichtung der Informationsgewinnung und für den Prozess einer rationalen, entscheidungslogischen Informationsverarbeitung. Die Entscheidungslogik, die Verknüpfung von faktischen und wertenden Entscheidungsprämissen, entspricht bei einem Ranking-Verfahren dem Ranking. Bei einem verteilten Entscheidungsprozess muss das Zielsystem und die Entscheidungslogik zusätzlich die Forderung Kompatibilität mit den Zielvorgaben und Präferenzen der Ranking-Zielgruppe erfüllen. Ein Ranking ist ein einperiodisches, deterministisches,114 multi-attributives Entscheidungsmodell mit expliziter Erfassung der Entscheidungsalternativen. 3. Einordnung eines Ranking-Verfahrens in die Systematik betriebswirtschaftlicher Kennzahlensysteme „Ein Kennzahlensystem ist die Gesamtheit von auf logisch deduktivem Wege geordneten Kennzahlen, die betriebswirtschaftlich sinnvolle Aussagen über Unternehmungen und/oder Teile vermitteln. Die Kennzahlen sind entweder rechentechnisch miteinander verknüpft (= Rechensystem) oder stehen lediglich in einem bloßen Systematisierungszusammenhang zueinander (= Ordnungssystem)“ (Küting 1983, S. 238). Das Ziel dieses Abschnittes ist, in sehr begrenztem Umfang, ausgewählte, in der Literatur zu betriebswirtschaftlichen Kennzahlensystemen diskutierte, methodologische Fragestellungen, auf ein Ranking-Verfahren zu übertragen. Für eine allgemeine Diskussion betriebswirtschaftlicher Kennzahlensysteme sei auf Reichmann (1997), Meyer (1994), Gritzmann (1991), Baumbusch (1988) und die dort angegebene Literatur verwiesen.115
114 Bei deterministischen Modellen können aus pragmatischen Gründen nicht alle entscheidungsrelevanten Einflüsse exakt erfasst werden. Der Entscheider trifft eine Auswahl „hinsichtlich Inhalt, Wirkung und Struktur der Informationen“. 115 Beispiele betriebswirtschaftlicher Kennzahlensysteme sind Kennzahlensysteme zur Jahresabschlussanalyse (Baetge 1994), Kennzahlensysteme zur Kontrolle, Planung und Steuerung eines Unternehmens (Meyer 1994, Gritzmann 1991) oder Benchmarking-Modelle (Homburg, Werner und Englisch 1995). Reichmann (1997, S. 24–30) schildert weitere betriebswirtschaftliche Einsatzmöglichkeiten, eine Übersicht ist in Meyer (1994, S. 11) zu finden.
56
B. Ranking-Verfahren und seine Einordnung in die Literatur
Rechensystem Bei einem Rechensystem wird eine globale Spitzenkennzahl durch eine Aufgliederung,116 durch eine Substitution117 oder durch eine Erweiterung stufenweise in eine Kennzahlenhierarchie zerlegt, bei der alle Kennzahlen eindeutig additiv oder multiplikativ miteinander verknüpft sind.118 Jede Kennzahl einer Hierarchieebene ist das rechnerische Ergebnis der Kennzahlen ihrer nachgeordneten Hierarchieebenen bzw. ein rechnerischer Einflussfaktor der Kennzahlen ihrer übergeordneten Hierarchieebenen. Ein Rechensystem verfolgt den Zweck, Informationen über das Zustandekommen und über die Ursachen von Veränderungen einer Spitzenkennzahl zur Verfügung zu stellen. Ein prominentes Beispiel für ein Rechensystem ist das Du-PontSystem of Financial Control zur Planung, Steuerung und Kontrolle des Unternehmenserfolgs119 (Baumbusch 1988, Meyer 1994). Die Kennzahlen z1 ; z2 ; z3 seien wie folgt definiert: z1
:
Umsatzerlöse,
z2
:
Gesamtvermögen,
z3
:
Gewinn.
Die Spitzenkennzahl Return-on-Investment (ROI) ergibt sich als Quotient z3 z1 z2 . Durch eine Erweiterung des Bruches mit z1 lässt sich die Spitzenkennz1 zahl darstellen als Produkt aus Umschlagshäufigkeit z und Umsatzrentabi2 z3 lität z . Das Gesamtvermögen kann substituiert werden durch die Summe 1 aus Anlage- und Umlaufvermögen, der Gewinn durch die Differenz aus Umsatzerlösen und Kosten des Umsatzes. Bei der Bewertung der Bilanzbonität im Rahmen der Jahresabschlussanalyse wird bei einer Veränderung der Spitzenkennzahl ROI beispielsweise zwischen den Ursachen „Veränderung der Umschlagshäufigkeit“ und „Veränderung der Umsatzrentabilität“ unterschieden (Bayer und Krtscha 1999). Ein Rechensystem ist nur dann einsetzbar, wenn ein Ziel, wie z. B. der Unternehmenserfolg, durch eine Spitzenkennzahl, wie z. B. durch das ROI, repräsentiert werden kann. Ökonomische Entscheidungssituationen zeichnen 116
Einer Zerlegung einer Gesamtgröße in Teilgrößen. Z. B. von Umsatz durch „Preis mal abgesetzte Menge“. 118 Die rechentechnische Verknüpfung bedeutet keinen funktionalen Zusammenhang und keine (mono-)kausale Beziehung (Baumbusch 1988, S. 119). 119 Als firmeninternes Kontrollinstrument für konzerngebundene Betriebe und Produkt-Manager-Bereichen. 117
II. Entscheidungsprozessorientierte Definition eines Ranking
57
sich aber im Regelfall durch mehrere, konkurrierende Ziele aus, die sich nur durch verschiedene, rechentechnisch nicht miteinander verknüpfte Kennzahlen operationalisieren lassen. In diesen Fällen liegt ein Ordnungssystem vor. Ordnungssystem Ein Ordnungssystem ist eine Bezeichnung für ein sachlogisch strukturiertes Kennzahlensystem. Es wird wie ein Rechensystem in Form einer Kennzahlenhierarchie graphisch dargestellt. Im Unterschied zu einem Rechensystem besteht jedoch zwischen mindestens zwei Kennzahlen keine rechentechnische Verknüpfung, sondern lediglich ein betriebswirtschaftlicher Sachzusammenhang. „So kann eine Anordnung der Kennzahlen z. B. nach Unternehmensfunktionen oder – wie im ZVEI-System praktiziert – nach den Gruppen Rentabilität, Ergebnisbildung, Kapitalstruktur und Kapitalbindung erfolgen“120 (Küting 1983, S. 238). Die zentrale Problemstellung bei einem Ordnungssystem ist die Quantifizierung der betriebswirtschaftlichen Sachzusammenhänge. Entscheidungsorientierte Informationssysteme Ein entscheidungsorientiertes Informationssystem ist als Lieferant quantifizierbarer Informationen in den Prozess der Unternehmensführung eingebunden, der nach einem Sechs-Phasenkonzept in die Phasen Problemstellung, Suche, Beurteilung, Entscheidung, Realisation und Kontrolle eingeteilt wird (Gritzmann 1991, S. 18).121 Die folgenden Ausführungen beschränken sich auf die ersten vier Phasen, von denen die ersten drei der Informationsgewinnung und Informationsbereitstellung und die vierte der entscheidungsorientierten Informationsaufbereitung dienen. In der Phase der Problemstellung wird der spezielle Informationsbedarf eines Entscheidungsbereichs definiert. Mag (1977, S. 5) definiert Information als „zweckorientiertes Wissen eines Entscheidungsträgers in einer konkreten Entscheidungssituation“ und macht dadurch deutlich, dass Informationen immer in Bezug zu einem Objekt und einem Verwendungszusammenhang stehen.122 In dieser Phase wird die kognitive Repräsentation, d. h. die Wahrnehmung einer Entscheidungssituation und ihrer Abgrenzung, 120 Das in den 1970er Jahren entwickelte ZVEI-System des Zentral Verband der Elektrotechnischen Industrie gilt als das erste im deutschsprachigen Raum entwickelte Kennzahlensystem. 121 Gritzmann (1991) entlehnt das Sechs-Phasenkonzept der Phasenfolge eines Entscheidungs- und Führungsprozesses.
58
B. Ranking-Verfahren und seine Einordnung in die Literatur
ermittelt und die Zielsysteme unterschiedlicher Stakeholder-Gruppen des Entscheidungsbereichs analysiert sowie relevante Leistungsprozesse und -faktoren durch ein Wirkungsmodell abgebildet „Damit ein Informationsangebot sinnvoll zur Unterstützung von Entscheidungssituationen genutzt werden kann, muss es auf den speziellen Informationsbedarf des entsprechenden Entscheidungsbereiches ausgerichtet sein. Der einzelne Entscheidungsbereich ist durch seine Zielsetzungen sowie seinen aufbauorganisatorischen, sachlichen und zeitlichen Bezugsrahmen charakterisiert . . .“ (Gritzmann 1991, S. 8, 13). Die Suchphase ist gekennzeichnet durch eine am spezifischen Informationsbedarf eines Entscheidungsbereiches ausgerichtete, zielgerichte Suche nach Handlungsalternativen. In der Phase der Beurteilung werden die in der Suchphase identifizierten Handlungsalternativen nach dem speziellen Informationsbedarf des Entscheidungsbereichs bewertet, indem die Zielerreichungsgrade der einzelnen Alternativen durch Kennzahlen, d. h. Indikatoren, quantifiziert werden. Gritzmann (1991, S. 42) bemerkt: „Inwieweit Ziele in zufriedenstellendem Ausmaß erreicht wurden, ist keine Frage der Kennzahlenrechnung und ihrer Ergebnisse, sondern eine Frage der Kennzahlinterpretation“. In der Entscheidungsphase wird eine Handlungsalternative ausgewählt. Die Wahl ist abhängig von den Zielen und den Zielerreichungs-„trade-offs“, die zwischen verschiedenen Stakeholder-Gruppen des Entscheidungsbereichs differieren können. Exkurs: Benchmarking Am Anfang einer Benchmarking-Studie steht die Suche nach geeigneten „Benchmarking-Partnern“.123 Die relevanten Rahmenbedingungen bzw. der Kontext oder die „Demographie“ eines Benchmarking-Objektes wie z. B. eines Unternehmens oder eines Produktionsprozesses wird qualitativ und quantitativ beschrieben124 um strukturähnliche Benchmarking-Objekte zu identifizieren.125 Das Zielsystem einer Unternehmung126 und dessen Operationalisierung durch Kennzahlen ist die Basis einer Auswahl von Bench122 Siehe auch Reichmann (1997). Gritzmann (1991, S. 13) fordert einen Ziel-, Subjekt-, Objekt- und Zeitbezug von Informationen. 123 Siehe z. B. Dreher (1997), Ester (1997), Sabisch und Tintelnot (1997). 124 Z. B. die Unternehmensgröße, die Industrie, die Firmenkultur, die geographische Lage oder die Absatzmärkte. 125 Die Suche nach strukturähnlichen Benchmarking-Objekten kann dabei konzernintern, branchenintern oder branchenübergreifend erfolgen und wird oft über Benchmarking-Verbände, Industrieverbände oder externe Experten durchgeführt. 126 Z. B. Wirtschaftlichkeit, Zukunftssicherung, Kundenzufriedenheit oder ökologische Verantwortung.
II. Entscheidungsprozessorientierte Definition eines Ranking
59
marking-Kennzahlen. Die Kennzahlen sollen so genannte „success factors“ repräsentieren, also in einem „signifikanten“ Ursache-Wirkungs-Zusammenhang mit den Unternehmenszielen stehen bzw. aus einem Wirkungsmodell und den Unternehmenszielen ableitbar sein.127 Nach einer Erhebung der Benchmarking-Kennzahlen bei allen Benchmarking-Partnern werden diese durch statistische Lage- und Streuungsmaße, Lückenprofildiagramme, Stärken-/Schwächen-Diagramme o. ä. aufbereitet und die sogenannten „critical success factors“ bestimmt. Das sind jene Kennzahlen, bei denen das Unternehmen im Vergleich zu den Benchmarking-Partnern schlechtere Werte aufweist. Darauf aufbauend wird untersucht, wie einzelne Unternehmensprozesse die „critical success factors“ beeinflussen und ein sogenannter „kritischer Prozess“ bestimmt, der zentraler Gegenstand weiterer Untersuchungen wird. Die Effizienz und Effiktivität des „kritischen Prozesses“ wird durch Prozessparameter (Kennzahlen) modelliert. Ziel der weiteren Untersuchungen ist, durch den direkten Vergleich mit Benchmarking-Partnern Stärken und Schwächen des „kritischen Prozesses“ zu erkennen und die Ursachen für unterschiedliche Effizienzen und Effektivitäten des kritischen Prozesses unter den Benchmarking-Partnern zu analysieren. Die Ergebnisse der Analyse werden zur (inkrementalen) Verbesserung des kritischen Prozesses verwendet. Gemeinsamkeiten und Unterschiede zwischen einem Ranking-Verfahren und einem entscheidungsorientierten Kennzahlensystem Ein Ranking-Verfahren ist ein Verfahren zur Erstellung eines entscheidungsorientierten, quantitativen Informationssystems, das zusätzlich Informationen durch ein Ranking, das die Präferenzrelationen einer Zielgruppe repräsentiert, aggregiert. Es kann in Anlehnung an einen Führungsprozess in die Phasen Problemstellung, Suche, Beurteilung, Entscheidung und gegebenenfalls Kontrolle eingeteilt werden. Das Kennzahlensystem stellt eine kognitive Repräsentation des speziellen Informationsbedarfs (entscheidungsrelevante Handlungsalternativen und Entscheidungskriterien) der Stakeholder eines Entscheidungsbereiches dar. Es ist ziel-, subjekt-, objektund zeitgebunden. Ein Ranking ist ein Index, d. h. eine spezielle Funktion die ein Kennzahlensystem sachlogisch durch eine Abbildung der Präferenzen der Stakeholder des Entscheidungsbereiches strukturiert (Ordnungssystem) und deren Funktionswert zu einer Rangfolge der Handlungsalternativen bzw. zu einer Entscheidung führt. Wie bei einem Benchmarking muss ein Ranking-Verfahren die Strukturgleichheit oder -ähnlichkeit der entschei127 Die Ursache-Wirkungs-Zusammenhänge werden mit Methoden wie PIMS, Netzwerkanalyse, MICMAC überprüft oder durch Befragungen erhoben.
60
B. Ranking-Verfahren und seine Einordnung in die Literatur
dungsrelevanten Handlungsalternativen der Stakeholder eines Entscheidungsbereiches durch eine Analyse der relevanten Rahmenbedingungen bzw. des Kontextes der Handlungsalternativen gewährleisten (Ranking-Objektmenge).
C. Ganzheitliches Ranking-Verfahren In der Entscheidungstheorie wird von der Annahme ausgegangen, dass Menschen ihre Entscheidungen auf der Basis von faktischen und wertenden Entscheidungsprämissen intendiert rational treffen. Dieser Intention stehen natürliche Grenzen in der menschlichen Informationsgewinnungs- und -verarbeitungskapazität entgegen, die u. a. zu Entscheidungen unter Unsicherheit führen. Ein Teil dieser Unsicherheit kann unter bestimmten Voraussetzungen dadurch reduziert werden, dass eine zu komplizierte direkte Bewertung von Handlungsalternativen in eine isolierte Bewertung entscheidungsrelevanter Komponenten geringerer Komplexität zerlegt wird und Teile eines Entscheidungsprozesses, d. h. Teile der Informationsgewinnung und -verarbeitung, an Agenturen delegiert werden. Wenn eine Agentur die ihr übertragenen Teile der Informationsgewinnung und -verarbeitung in Form einer Rangfolge aufbereitet, dann wird diese Rangfolge zum Gegenstand verteilter, multi-kriterieller Entscheidungsprozesse (Definition 3, S. 30).128 Die Beurteilung der Validität und der Reliabilität einer Rangfolge hängt von dem Ziel bzw. Zweck der Rangfolge ab. Ein deskriptiver Zweck liegt vor, wenn durch eine Rangfolge ein empirischer Sachverhalt beschrieben wird. Eine empirische Überprüfbarkeit einer Rangfolge ist dann gegeben, wenn das Ranking-Ziel oder dessen Grenzfälle durch objektive Kriterien gemessen werden können. Dies ist z. B. bei der Bonität eines Unternehmens oder eines Kreditnehmers der Fall. Der Eintritt der Insolvenz oder der Zahlungsunfähigkeit wird durch gesetzliche Kriterien festgelegt. Die empirische Validität und Reliabilität einer deskriptiven Rangfolge wird durch statistische Verfahren überprüft, die die Prognosefähigkeit der Rangfolge an empirischen Zeitreihen testen.129 Bei einem normativen oder präskriptiven Zweck wie z. B. bei einer Beurteilung der Qualität einer Hochschule, einer 128
Reale Entscheidungsprozesse sind überwiegend multi-kriteriell. Strebel (1975, S. 37) wertet eindimensionale Zielsysteme als Fiktion. 129 Es existieren sowohl Arbeiten, die eine Bewertung von Produkten und Dienstleistungen durch ein Ranking allgemein ablehnen als auch Arbeiten, die empirisch nachweisen, dass mit wenigen Kennzahlen eine Rangfolge mit vergleichbarer oder besserer Prognosefähigkeit bestimmbar ist. Siehe die empirischen Arbeiten zur Insolvenzprognosefähigkeit der Ratings von Moody’s, Standard & Poor’s und A. M. Best wie Horrigan (1966), Denenberg (1967), Pogue und Soldofsky (1969), West (1970), Pinches und Mingo (1973), Harmelink (1974), Pinches und Trieschmann (1974), Ang und Patel (1975), Pinches (1978), Ambrose und Seward (1988).
62
C. Ganzheitliches Ranking-Verfahren
Lebensversicherung oder bei Verfahren der Wertanalyse ist die theoretische Validität einer Rangfolge und eines Ranking bzw. die Erfüllung messtheoretischer Anforderungen von zentraler Bedeutung.130 Die Definition eines Ranking als präskriptiven Index, d. h. als eine bestimmte Funktion auf der Objektmenge einer Zielgruppe deren Funktionswerte zu einer die Präferenzrelationen der Zielgruppe repräsentierenden Rangfolge führt (Definition 2, S. 29), ermöglicht die Anwendung einer Vielfalt bereits gut dokumentierter wissenschaftlicher Methoden z. B. aus der Wirtschaftstheorie (axiomatische Indextheorie, Nutzen- und Präferenztheorie) und aus der Betriebswirtschaftslehre (normative und multi-kriterielle Entscheidungstheorie) im Rahmen des vorzustellenden ganzheitlichen Ranking-Verfahrens. In der axiomatischen Indextheorie behandelt z. B. Eichhorn (1978) die Frage „. . . what kind of mechanism produces an economic index from a set of economic figures or objects?“. Er kommt zu dem Schluss: „An economic index is an economic measure, i. e., a real-valued function whose domain is a set of vectors of economic figures and which satisfies a system of economically motivated conditions. The form and the content of these conditions depends on what we want to measure“. Die ökonomisch relevanten Bedingungen, die einen Index definieren, sind in der Indextheorie ökonomisch zu motivierende, mathematische Eigenschaften von Funktionen wie z. B. Monotonie, Symmetrie und Homogenität.131 Wird ein Axiomensystem als die relevanten ökonomischen Bedingungen in einer Entscheidungssituation von einer Zielgruppe akzeptiert, so ist der Mechanismus, der den Index produziert, eine formale bzw. mechanistische Ableitung aus dem Axiomensystem. In der Nutzen- und Präferenztheorie wird untersucht, welche Präferenzrelationen eines Entscheidungsträgers durch Nutzenfunktionen repräsentierbar sind. Ist die Präferenzrelation eines Entscheidungsträgers bekannt, ist der Mechanismus, der den Index produziert, die Repräsentation der Präferenzrelation in Abhängigkeit von der Überprüfung spezieller Unabhängigkeitsaxiome durch eine Nutzenfunktion. Das Axiomensystem einer Zielgruppe oder ihre Präferenzrelationen und die Erfüllung spezieller Unabhängigkeitsforderungen sind wesentlich für die Beurteilung der Validität eines präskriptiven Ranking. Bei dem Forschungsstand der für Rankings anwendbaren Theorien, überrascht die Praxis durch eine geringe Validität und Reliabilität präskriptiver 130
Ein normatives oder präskriptives Ranking beinhaltet meist auch deskriptive Elemente. „. . . ohne deskriptive Entscheidungsmodelle fehlt es an den für praktischnormative Entscheidungsmodelle notwendigen erfahrungswissenschaftlichen Aussagen über verfolgte Ziele, mögliche Handlungsprogramme sowie die Konsequenzen der alternativen Handlungsprogramme“ (Bamberg und Coenenberg 1994, S. 10). 131 Für eine ausführlichere Aufzählung siehe Eichhorn (1978, S. 36).
C. Ganzheitliches Ranking-Verfahren
63
Rankings.132 Die Gründe hierfür liegen vielleicht in praktischen Anwendungsproblemen der überwiegend formalen Theorien133 und dem Fehlen eines ganzheitlichen Ranking-Verfahrens, das die Bedingungen definiert, unter denen ein präskriptives Ranking valide und zuverlässige Informationen als Gegenstand verteilter, multi-kriterieller Entscheidungsprozesse liefern kann. Die Bedingungen folgen u. a. aus der Bedingung der subjektiven Formalrationalität eines Ranking.134 Das Fehlen eines ganzheitlichen Ranking-Verfahrens führt u. a. dazu, dass sich die Kritik an Rangfolgen oft auf eine Kritik an der Güte der IndikatorIndikandums-Beziehung einzelner Kennzahlen und an den statistischen Auswertungsmethoden beschränkt. Die Kritik betrifft die Verfahrensschritte der Operationalisierung eines Ranking-Ziels durch ein Kennzahlensystem und der Datenerhebung. Die Validitäts- und Reliabilitätsforderungen an Rangfolgen auf diese Verfahrensschritte zu beschränken, greift zu kurz. Sie müssen auf den gesamten Prozess der Erstellung einer Rangfolge ausgeweitet und somit um die Überprüfung der Validität des Ranking-Ziels, der Ranking-Zielgruppe, der Ranking-Objektmenge, des Wirkungsmodells, des Zielsystems, der Kennzahlinterpretation und der Repräsentation der Kennzahlenartenpräferenz durch ein Ranking erweitert werden. Nach einer kurzen Vorstellung eines Standards für Evaluationsverfahren in Abschnitt C.I. und einer kurzen Darstellung einer Definition von Qualitätskriterien für Lebensversicherungs-Ratings in Abschnitt C.II., wird in Abschnitt C.III. ein ganzheitliches Ranking-Verfahren vorgeschlagen. Dabei liegt der Schwerpunkt auf der Verfahrensbeschreibung und der Motivation des Verfahrens durch Beispiele und Anwendungen aus der Entscheidungstheorie, der Evaluationsforschung und der Systematik betriebswirtschaftlicher Kennzahlensysteme (siehe auch Abbildung 1 in Abschnitt A.IV., S. 21). 132 Für eine ausführliche Analyse der Validität von Hochschul-Rankings siehe Bayer (1999) und Abschnitt E.II. 133 Die in der betriebswirtschaftlichen Entscheidungstheorie entwickelten Modelle und Verfahren zur Unterstützung von Mehrfachzielentscheidungen sind „zwar algorithmisch und logisch im wesentlichen ausgereift, doch erfüllen sie nicht die Anforderungen, die von der Seite der Praxis an sie gestellt werden. Zwischen der möglichen und tatsächlichen Anwendung entscheidungsunterstützender Verfahren in der Praxis existiert eine große Lücke“ (von Nitzsch 1994, VII). 134 Z. B. diskutiert Strebel (1975) ein Scoring-Verfahren zur Planung von Forschungsprojekten. „Rationalität kann . . . nur im Sinne von subjektiver formaler Rationalität . . . verstanden werden. Subjektive Formalrationalität einer Entscheidung bedeutet logische Richtigkeit der Entscheidung bei vorgegebenem Informationsstand des Aktors. Beim Testen des Handelns auf formale Rationalität ist das zugrundeliegende Zielsystem also nicht Gegenstand einer Beurteilung. Soll hingegen die substanzielle Rationalität einer Entscheidung überprüft werden, so ist das Zielsystem des Aktors an einem als normal oder richtig anzusehenden Wertsystem zu messen“.
64
C. Ganzheitliches Ranking-Verfahren
Eine ausführliche Behandlung der im Rahmen des beschriebenen RankingVerfahrens anwendbaren mathematischen Methoden würde den Rahmen dieses Kapitels überschreiten. Deshalb wird an den betreffenden Stellen lediglich auf ausgewählte mathematische Methoden und Modelle verwiesen.
I. Verfahrensstandard für Evaluationen „Evaluation hatte über Jahrzehnte einen ungeklärten Status, erschien z. B. als Spezialfall angewandter Sozialforschung, wurde mit unterschiedlichen Synonymen (z. B. Erfolgskontrolle) belegt, war diffus in ihrem professionellen Kern und ihrer Abgrenzung gegenüber benachbarten Konzepten wie Programmforschung, Controlling, Qualitätsmanagement oder Organisationsentwicklung . . . Evaluation besitzt . . . bislang . . . eine sehr schmale Professionalisierungsbasis. . . . Methodologische, methodische und ethische Fragen der Evaluation wurden hier bislang kaum diskutiert“ (Beywl 1999). Im Zuge der Professionalisierung von Evaluationen wurden methodologisch-methodische Standards für die fachlich fundierte Bewertung, Planung und Umsetzung von Evaluationen durch Berufsverbände und öffentliche Institutionen im englischsprachigen Bereich135 erarbeitet wie die CDEP-Standards des Committee to Develop Standards for Educational and Psychological Testing (Erstfassung 1954), die ERS-Standards des ERS Standards Committee (Erstfassung 1982), die Program Evaluation Standards des Joint Committee on Standards for Educational Evaluation (Erstfassung 1981), die AR-Normen der Algemenen Rekenkamer (Erstfassung 1996) und das MEANS-Handbuch des Centre for European Evaluation Expertise (Erstfassung 1996) (Beywl und Widmer 1999).136 Die Deutsche Forschungsgesellschaft (DFG) veröffentlichte 1999 die DFG-Kriterien, die technische Anforderungen an Evaluationsmethoden und Datenerhebungsprozesse beinhalten. Alle Standards besitzen einen präskriptiven Evaluationszweck. Die weiteste Verbreitung und Anwendung fanden nach Widmer (2000, S. 98–99) „The Program Evaluation Standards: How to Assess Evaluations 135
In Europa wurden die ersten Evaluationsgesellschaften in den späten 80er Jahren in Großbritannien gegründet, der die Gründung einer „European Evaluation Society (EES)“ folgte (Leeuw 2000, S. 60). 136 Weiter existieren Standards zur Qualifikation der Evaluatoren wie die AREAStandards der American Educational Research Association (Erstfassung 1992) und der APSA-Guide der Ethikkommission der APSA (Erstfassung 1968), zum ethischen Verhalten der Evaluatoren wie der CMC-Kodex der Zertifizierungskommission der Schweizer Vereinigung der Unternehmensberater und zum Evaluationsmanagement wie der BAG-Leitfaden des Fachbereich Evaluation des Bundesamt für Gesundheit in der Schweiz (Erstfassung 1997) und die Ontario-Principles (Erstfassung 1997).
I. Verfahrensstandard für Evaluationen
65
of Educational Programs (1994)“ des Joint Committee on Standards for Educational Evaluation137 (nachfolgend „Standards“ genannt) und „The Guiding Principles for Evaluators“ (Shadish, Newman, Scheirer und Wye 1995) der American Evaluation Society.138 Die „Standards“ beurteilen die Qualität einer Evaluation in den vier Dimensionen „utility“, „feasibility“, „propriety“ und „accuracy“.139 „The Guiding Principles for Evaluators“ beschreiben die Qualitätsentwicklung und -sicherung bei Evaluationen in den fünf Dimensionen „Systematic Inquiry“, „Competence“, „Integrity/ Honesty“, „Respect for People“ und „Responsibilities for General and Public Welfare“. Die „Standards“ werden häufig bei Ausschreibungen und Evaluationskontrakten als rechtlich verbindlicher Vertragsbestandteil aufgeführt. „Damit entwickeln sich die Evaluationsstandards . . . sukzessive zu einem allgemein perzipierten und auch akzeptierten Referenzpunkt der Evaluationspraxis“ (Widmer 2000, S. 99). Widmer und Beywl (2000, S. 92) empfehlen die „Standards“ auch auf Evaluationen in Deutschland, Österreich und der Schweiz und auch auf Evaluationen außerhalb der Bereiche Bildung und Erziehung anzuwenden. Die wichtigsten, für ein Ranking-Verfahren übertragbaren Qualitätskriterien der „Standards“ betreffen die funktionalen Phasen „Definition des Problems“, „Evaluationsdesign“, „Informationssammlung“ und „Informationsauswertung“ (zitiert nach Widmer (2000, S. 87–92)):140 N – Nützlichkeit: Eine Evaluation muss an den Informationsbedürfnissen ihrer Nutzer ausgerichtet sein. – N1 – Ermittlung der Beteiligten und Betroffenen und Berücksichtigung derer Interessen und Bedürfnisse. 137 „The joint committee was initiated by the efforts of three organizations: the American Educational Research Association, the American Psychological Association, and the National Council on Measurement in Education. Representatives of these organizations were joined by members of 12 other professional organizations . . .“ (Mertens 2000, S. 47). 138 „The American Evaluation Association (AEA) is the primary professional organization whose mission is focused exclusively on evaluation in the United States. AEA was formed in 1986 through the merger of two smaller evaluation associations, Evaluation Network and the Evaluation Research Society. As of the Year 2000, AEA had about 3,000 members . . .“ (Mertens 2000, S. 46). 139 Widmer (2000) gibt einen Überblick über die Program Evaluation Standards und ihre Anwendung in der Evaluationspraxis. 140 Für eine Übersicht über die weiteren funktionalen Phasen einer Evaluation und eine Zuordnung der in den einzelnen Phasen relevanten Einzelstandards siehe Widmer (2000, S. 95). Für eine Übersicht über die sieben Qualitätsdimensionen einer Evaluation des U.S. General Accounting Office: „Accurarcy“, „Objectivity and Fairness“, „Context Sophistication“, „Scope and Completeness“, „Significance and Value“, „Timeliness“ und „Clarity“ siehe Caracelli (2000, S. 168–73).
66
C. Ganzheitliches Ranking-Verfahren
– N3 – Umfang und Auswahl der Informationen sollen die Behandlung sachdienlicher Fragen zum Programm ermöglichen und gleichzeitig auf die Interessen und Bedürfnisse des Auftraggebers und anderer Beteiligter und Betroffener eingehen. – N4 – Feststellung von Werten: Die Perspektiven, Verfahren und Gedankengänge, auf denen die Interpretationen der Ergebnisse beruhen, sollen sorgfältig beschrieben werden, damit die Grundlagen der Werturteile klar ersichtlich sind. – N5 – Klarheit des Berichts: Evaluationsberichte sollen das evaluierte Programm einschließlich seines Kontextes ebenso beschreiben wie die Ziele, Verfahren und Befunde der Evaluation, damit die wesentlichen Informationen zur Verfügung stehen. G – Genauigkeit: Eine Evaluation muss fachlich angemessene Informationen hervorbringen und vermitteln. – G1 – Programmdokumentation: Klare und genaue Beschreibung und Dokumentation des zu evaluierenden Programms. – G2 – Kontextanalyse: Detaillierte Untersuchung des Kontextes, in dem das Programm angesiedelt ist, damit mögliche Beeinflussungen des Programms identifiziert werden können. – G3 – Beschreibung von Evaluationzweck, -zielen und -vorgehen – G4 – Verlässliche Informationsquellen: Beschreibung der genutzten Informationsquellen und ihrer Angemessenheit. – G5 – Valide Informationen: Die Verfahren zur Informationsgewinnung sollten so gewählt oder entwickelt und dann umgesetzt werden, dass die Gültigkeit der gewonnenen Interpretationen für den gegebenen Zweck sichergestellt ist. – G6 – Reliable Informationen: Die Verfahren zur Informationsgewinnung sollten so gewählt oder entwickelt und dann umgesetzt werden, dass die Zuverlässigkeit der gewonnenen Interpretationen für den gegebenen Zweck sichergestellt ist. – G7 – Systematische Informationsüberprüfung: Die in einer Evaluation gesammelten, aufbereiteten und präsentierten Informationen sollten systematisch überprüft und alle gefundenen Fehler korrigiert werden. – G8 – Analyse quantitativer Informationen: Angemessenheit der Analyse quantitativer Informationen für die Fragestellungen der Evaluation. – G9 – Analyse qualitativer Informationen: Angemessenheit der Analyse qualitativer Informationen für die Fragestellungen der Evaluation.
II. Verfahrensstandard für Lebensversicherungs-Ratings
67
– G10 – Begründete Schlussfolgerungen: Die in einer Evaluation gezogenen Folgerungen sollen ausdrücklich begründet werden, damit die Beteiligten und Betroffenen diese einschätzen können. – G12 – Meta-Evaluation: Die Evaluation sollte formativ und summativ in bezug auf die vorliegenden Standards evaluiert werden, so dass . . . die Beteiligten und Betroffenen bei Abschluss einer Evaluation deren Stärken und Schwächen gründlich überprüfen können. Widmer (2000, S. 91–92) weist auf gewollte Inkonsistenzen in den „Standards“ hin. Die „Standards“ formulieren Maximalansprüche, deren gemeinsame Erfüllung eine Evaluation anstreben sollte. Sie stellen keine Minimalansprüche dar, die eine Evaluation erfüllen muss. Die Inkonsistenzen zwischen einzelnen Standards sind erforderlich, um der Vielfalt an möglichen Evaluations-Designs gebührend Rechnung zu tragen. In der Praxis treten konkurrierende Ansprüche zwischen den Einzelstandards auf, und die Erfüllung eines Standards ist dann nur zu Lasten eines anderen möglich. Das Joint Committee on Standards for Educational Evaluation verzichtet in diesem Fall darauf eine Gewichtung der Einzelstandards vorzugeben, da „die Bedeutung eines Standards nur im konkreten Einzelfall festgelegt werden kann und deshalb eine generelle Gültigkeit beanspruchende Gewichtung nicht angemessen wäre.“
II. Verfahrensstandard für Lebensversicherungs-Ratings Die Bewertung der Bonität von Schuldern aus Finanzkontrakten wie Kreditverträge und Schuldverschreibungen wurde in den USA bereits Anfang des Jahrhunderts auf ein Rating von Lebensversicherungen übertragen.141 Dort ist ein Rating als ein deskriptives Verfahren der Finanzanalyse etabliert und dient „Anlegern und Investoren als Entscheidungshilfe bei Anlageentscheidungen“ (DAV 1997, S. 3). In Deutschland wurde die Bonität von Lebensversicherungsunternehmen, speziell ihre Fähigkeit zur dauerhaften Erfüllung der eingegangenen Leistungsversprechen, durch eine materielle Staatsaufsicht, durch das Bundesaufsichtsamt für das Versicherungswesen, garantiert.142 Durch die Schaffung eines europäischen Versicherungs-Binnenmarktes am 1. Juli 1994 und der mit der Deregulierung verbundenen partiellen Freigabe von Rechnungsgrundlagen und Lockerung der Kapitalanlagevorschriften wurde die materielle Staatsaufsicht reduziert. 141
A. M. Best und seit 1980 Standard & Poor’s Insurance Rating Services und Moody’s Investors Service Inc. 142 Im Unterschied zu den USA gab es in Deutschland nach dem 2. Weltkrieg keine Konkurse von Lebensversicherungsunternehmen.
68
C. Ganzheitliches Ranking-Verfahren
Daraus resultiert ein höherer Informationsbedarf von Anlegern und Investoren (Versicherungsnehmer, Vermittler, Unternehmen, Aktionäre) über die Bonität von Lebensversicherungsunternehmen, der heute u. a. durch Lebensversicherungs-Ratings wie map-Report, Capital, Morgen & Morgen befriedigt wird.143 Ein Lebensversicherungs-Rating wird dadurch ein Gegenstand verteilter, multi-kriterieller Entscheidungsprozesse. Die deutsche Aktuarvereinigung fordert: „Damit Ratings geeignet sind, den mit ihnen verbundenen Erwartungen im Rahmen der Unterstützung bei Entscheidungen über betriebswirtschaftliche Sachverhalte gerecht werden zu können, müssen sie gewisse Mindestanforderungen für Bewertungsverfahren genügen. Ansonsten führen sie zu keiner Verbesserung der Entscheidungssituation der jeweiligen Rating-Empfänger und werden infolge dessen von diesen auf Dauer auch nicht als ökonomische Entscheidungshilfen akzeptiert werden“ (DAV 1997, S. 4). Sönnichsen (1992, S. 48–50) formuliert für ein präskriptives Rating deutscher Lebensversicherungsunternehmen folgende qualitative, quantitative, zeitliche und ökonomische Forderungen. Ein Rating muss zweckadäquate, richtige und vollständige Informationen bereitstellen (qualitative Forderungen), der Informationsverarbeitungskapazität des Entscheiders entsprechen (quantitative Forderung), aktuell sein (zeitliche Forderung) und in seinen Bereitstellungskosten unter dem Nutzen liegen, der durch das Rating beim Entscheider entsteht (ökonomische Forderung). Die deutsche Aktuarvereinigung (DAV) hat diese Forderungen übernommen und erweitert (siehe Tabelle 1, S. 69). Ein präskriptives Rating gilt als angemessen, falls einem „potentiellen Entscheidungsträger zweckmäßige, problemadäquate und zielgerichtete Informationen zur Verfügung gestellt werden“ (DAV 1997, S. 5). Die Beurteilung der Angemessenheit eines Rating erfordert eine Analyse der individuellen Entscheidungssituationen und der unterschiedlichen Interessenlagen von z. B. Verbrauchern, Vermittlern, Maklern, Journalisten und Aktionären, sowie deren Bewertungskriterien und Präferenzen. Ein Rating gilt als einsichtig, wenn das Rating für die Informationsempfänger verständlich, plausibel und nachvollziehbar ist und als genau, wenn die verschiedenen Informationsbedarfe der unterschiedlichen Informationsempfänger durch ein Rating-Verfahren vollständig erhoben und fehlerfrei verarbeitet werden. Die Richtigkeit der Informationen stellt eine Sorgfaltspflicht des Rating-Erstellers bei der Informationsbeschaffung dar. 143 Die DAV führt als weitere Gründe für die Etablierung eines deutschen Lebensversicherungs-Rating die Globalisierung der Märkte und die zunehmende Einbindung deutscher Unternehmen in internationale Konzerne an, die zu einer Nachfrage nach international einheitlichen Bewertungsverfahren, nach einem normativen Rating, führen.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
69
Tabelle 1 Anforderungen an ein deutsches Lebensversicherungs-Rating nach DAV (1997) Zeitpunktbezogene Forderungen:
Angemessenheit Einsichtigkeit Genauigkeit
Zeitraumbezogene Forderungen:
Aktualität Stabilität
Die Zweckadäquatheit und die Vollständigkeit der Informationen sind abhängig von den Handlungsalternativen und von den individuellen Präferenzen der Entscheidungsträger. Die Informationsverarbeitungskapazität des Entscheiders kann den Aggregationsgrad des Rating bestimmen. „Das bedeutet, dass die Informationsbereitstellung einerseits differenziert genug erfolgen muss, damit der Entscheidungsträger ihre Entstehung und Herkunft nachvollziehen kann; andererseits ist das Volumen der bereitgestellten Information durch Aggregation und Selektion soweit zu verringern, dass für den Entscheider weder eine Situation der Verwirrung entsteht, noch seine Verarbeitungskapazitäten über ein gewolltes Maß hinaus beansprucht werden“ (Sönnichsen 1992, S. 49–50). Die Aktualität des Rating und sein ökonomischer Nutzen beeinflussen die Auswahl der Kennzahlen. Ein Rating gilt als zeitlich stabil, wenn „kleine Schwankungen der zugrunde liegenden Teilbewertungen . . . auch nur zu entsprechend geringen Veränderungen des Rating . . . führen“ (DAV 1997, S. 8).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings Die in Abschnitt C.I. und Abschnitt C.II. skizzierten Verfahrensstandards für Evaluationen und Lebensversicherungs-Ratings machen bereits deutlich, dass die Maßstäbe und Messvorschriften einer Evaluation und eines Rating aus dem Wertesystem einer Zielgruppe abzuleiten sind. Die Beurteilung der Validität einer Evaluation und eines Rating ist davon abhängig, inwieweit durch die Evaluation oder durch das Rating die Ziele und die Präferenzen der Zielgruppe repräsentiert werden. Die Existenz eines objektiven, d. h. eines zielgruppenübergreifenden, präskriptiven Ranking stellt wohl eine Ausnahme dar. Diese Feststellung deckt sich mit den Erkenntnissen der prä-
70
C. Ganzheitliches Ranking-Verfahren
skriptiven Entscheidungstheorie144 und sehr alten Erkenntnissen der Wirtschaftstheorie.145 Die skizzierten Verfahrensstandards vernachlässigen bislang wichtige entscheidungstheoretische Implikationen, was im folgenden gezeigt wird. Es wird davon ausgegangen, dass eine Zielgruppe imstande ist, ein differenziertes Zielsystem widerspruchsfrei zu formulieren, durch Kennzahlen zu operationalisieren und bezüglich der Kennzahlenwerte und ihrer zulässigen Kombinationen Ordnungsrelationen anzugeben. Ein ganzheitliches Ranking-Verfahren kann nur dann eine intendiert rationale Entscheidung einer Zielgruppe im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses unterstützen, wenn die Validität und die Reliabilität der Informationsbeschaffungs- und -verarbeitungsprozesse gewährleistet sind. Diese Prozesse sind ziel-, subjekt-, objekt- und zeitgebunden, also abhängig von den faktischen und wertenden Entscheidungsprämissen bzw. abhängig von dem Kontext der Handlungsalternativen und von den Wertesystemen der Zielgruppen. Die Validität eines Ranking erfordert die Berücksichtigung des Kontextes der Handlungsalternativen, einerseits bei der Bestimmung strukturgleicher bzw. -ähnlicher Objekte, die zu einer Ranking-Objektmenge zusammengefasst werden, andererseits bei einer Interpretation der erhobenen Daten und einer „geeigneten Quantifizierung“ qualitativer Daten. Ein Ranking muss, je nach Ranking-Zielgruppe, unterschiedliche Informationsinhalte bereit stellen bzw. es muss kompatibel sein mit ihrem Informationsbedarf. Eine empirische oder normative Definition einer Ranking-Zielgruppe ist eine notwendige Voraussetzung für die Überprüfung der Kompatibilität eines Ranking mit den faktischen und wertenden Entscheidungspämissen einer RankingZielgruppe. Sie ist weiter eine notwendige Voraussetzung für eine valide Abbildung einer Entscheidungssituation aus dem Objektsystem in das Subjektsystem einer Zielgruppe und dafür, dass ein Ranking seinen Verwendungszweck erfüllen und einer Ranking-Zielgruppe unmittelbar nutzbare Informationen liefern kann. Die intersubjektive Vergleichbarkeit eines Ranking wird in dem vorgestellten ganzheitlichen Ranking-Verfahren durch eine Bestimmung strukturgleicher bzw. -ähnlicher faktischer und wertender 144
Eine nicht ausreichende Berücksichtigung der subjektiven Präferenzen von Entscheidungsträgern in Verfahren zur Unterstützung von Mehrfachzielentscheidungen führt zu großen Akzeptanzproblemen. 145 „Bernardo Davanzati (1529–1606) erkannte bereits, dass der Wert nicht eine den Gütern anhaftende Eigenschaft ist, sondern sich ständig mit den Bedürfnissen und Wünschen ändert. Ferdinand Galiani (1728–1787) hob in seiner Schrift ‚Della Moneta‘ (1751) die Relativität des Wertbegriffs hervor, der sowohl von der Nützlichkeit eines Gutes wie von seiner Seltenheit abhänge. Die Nützlichkeit stehe mit den Bedürfnissen des jeweils urteilenden Wirtschaftssubjektes im Zusammenhang“ (Fuchs-Seliger 1991, S. 65–66).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
71
Entscheidungspämissen unter den Nutzern, die zu einer Ranking-Zielgruppe zusammengefasst werden, gewährleistet. Bei der Bestimmung eines validen, präskriptiven Ranking gehen an vielen Stellen Schätzungen und unsichere Daten ein. Die Reliabilität eines Ranking muss folglich durch Sensitivitätsanalysen überprüft werden. Das in Abbildung 2, S. 72 vorgestellte ganzheitliche Ranking-Verfahren wird, in Anlehnung an einen Entscheidungsprozess, in die drei Phasen Konzeption, Disaggregation und Aggregation unterteilt. Es soll die Praktikabilität wissenschaftlicher entscheidungsunterstützender Verfahren verbessern und ein ganzheitliches Verfahren einem weiten Kreis von Wissenschaftlern und Praktikern zugänglich machen. Es wurde speziell für präskriptive Rankings entwickelt. Es kann auch auf die Beurteilung der theoretischen Validität normativer und deskriptiver Rankings angewendet werden. Das ganzheitliche Ranking-Verfahren wurde in Bayer (1999) und Bayer (2000) veröffentlicht und u. a. durch Kreutzmann (2001) und Syrbe (2001) diskutiert. Die Konzeptionsphase, d. h. die Verfahrensschritte (1), (2), (3), behandeln die Problemstellung einer Repräsentation einer Entscheidungssituation bzw. einer Abbildung eines Entscheidungsproblems aus dem Objektsystem in ein Subjektsystem. Hier werden das Ranking-Ziel, die Ranking-Zielgruppe, die Ranking-Objektmenge und ein Wirkungsmodell der Ranking-Objekte festgelegt, um so sicherzustellen, dass ein Ranking zweckadäquate und richtige Informationen bereitstellt (qualitative Forderungen an ein Rating-Verfahren deutscher Lebensversicherer). Eine Ranking-Objektmenge besteht aus den entscheidungsrelevanten und strukturell vergleichbaren Handlungsalternativen. Durch ein Wirkungsmodell soll die Güte der Ursache-Wirkungs-Zusammenhänge zwischen einzelnen Zielen einer Ranking-Zielgruppe und deren Operationalisierung durch Kennzahlen überprüft werden. Die Disaggregationsphase, d. h. die Verfahrenschritte (4), (5), (6), betreffen die Problemstellung einer Ermittlung eines Ziel- und Informationssystems. Dadurch wird sichergestellt, dass ein Ranking vollständige Informationen liefert und der Verarbeitungskapazität des Entscheiders entspricht (qualitative und quantitative Forderungen an ein Rating-Verfahren deutscher Lebensversicherer). Das Zielsystem einer Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Ranking-Objektmenge und Wirkungsmodell liefert die notwendigen Wertprämissen zur zielorientierten Ausrichtung der Informationsgewinnung und Informationsverarbeitung. Es definiert eine kognitive Repräsentation des spezifischen Informationsbedarfs einer Ranking-Zielgruppe bei gegebenem Ranking-Ziel und Ranking-Objektmenge, der durch ein Kennzahlensystem operationalisiert wird. Das Kennzahlensystem stellt eine Operationalisierung eines Bewertungskonzeptes dar, das aus einem
72
C. Ganzheitliches Ranking-Verfahren
1
Definition von Ranking-Ziel und Ranking-Zielgruppe
2
Definition der Menge an Ranking-Objekten
Konzeption
3
Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell
4
Zielsystem-Forschung und deduktive Ableitung eines hierarchischen Zielsystems
5
Operationalisierung des Zielsystems durch ein Kennzahlensystem
6
Kennzahlinterpretation
7
Repräsentation der Kennzahlenartenpräferenz durch ein Ranking
Aggregation
8
Datenerhebung
Rangfolge
Disaggregation
Abbildung 2: Ganzheitliches Ranking-Verfahren
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
73
Wirkungsmodell der Ranking-Objekte und dem Zielsystem einer RankingZielgruppe abgeleitet wird. Es ist die Basis einer Bewertung der RankingObjekte nach dem Ranking-Ziel. Eine Kennzahlinterpretation und ein Ranking leiten sich aus weiteren wertenden Entscheidungsprämissen der Ranking-Zielgruppe ab. Die Aggregationsphase, d. h. Verfahrensschritt (7), befasst sich mit der Entscheidungslogik, der Verknüpfung der wertenden und faktischen Entscheidungsprämissen durch Präferenzrelationen, die aus den wertenden Entscheidungsprämissen abgeleitet und durch ein Ranking repräsentiert werden. Das Ranking stellt eine Abbildung des Zielsystems und der Präferenzrelationen einer Ranking-Zielgruppe auf diesem Zielsystem bzw. eine Abbildung der faktischen und wertenden Entscheidungsprämissen durch einen, die sachlogische Struktur des Informationssystems repräsentierenden, Index dar. Anhand der Indexwerte können die Handlungsalternativen nach dem Ranking-Ziel geordnet werden. Diese Ordnung stellt eine Lösung eines Vektoroptimierungsproblems, einer Entscheidung unter mehrfacher Zielsetzung oder eines multi-attributiven Entscheidungsproblemes dar, die durch eine intendiert rationale Ableitung aus faktischen und wertenden Entscheidungsprämissen gewonnen wird. Die Informationsverarbeitungskapazität der Entscheidungsträger kann den Aggregationsgrad des Ranking bestimmen. Weitere Verfahren und Entscheidungsregeln zur Lösung von multi-kriteriellen Entscheidungsproblemen wie z. B. eine lexikographische Ordnung der Ziele,146 eine Maximierung des minimalen Zielerreichungsgrades, Goal-Programming147 oder Electre werden in dieser Arbeit nicht behandelt. Die Evaluationsforschung behandelt überwiegend Fragestellungen der Verfahrensschritte (1), (3), (4) und (8). Die Entscheidungstheorie beschränkt sich vorwiegend auf Fragestellungen der Verfahrensschritte (4), (5), (6), (7) und die Systematik betriebswirtschaftlicher Kennzahlensysteme befasst sich mit dem Verfahrensschritt (5). Durch eine Zusammenführung der drei unterschiedlichen Forschungsdisziplinen und durch eine Ergänzung durch Verfahrensschritt (2) wird erstmals ein ganzheitliches Verfahren zur Bewertung der Validität und Reliabilität eines Ranking vorgestellt. Die Qualitätsanforderungen für Evaluationsverfahren aus Abschnitt C.I. und für ein Rating146 „Im Gegensatz zur Zielgewichtung beruht die lexikographische Nutzenmessung nicht auf der Annahme der Substituierbarkeit der verschiedenen Zielgrößen. Sie setzt . . . lediglich eine ordinale Präferenzordnung bezüglich der verfolgten Zielkriterien voraus“ (Bamberg und Coenenberg 1994, S. 51). 147 Goal-Programming setzt voraus, dass der Entscheidungsträger hinsichtlich aller entscheidungsrelevanten Kriterien quantitative Zielvorstellungen (Planzahlen) hat und sich z. B. für diejenige Alternative entscheidet, bei der die Summe der gewichteten, absoluten Abweichungen von den Planzahlen minimal ist (Bamberg und Coenenberg 1994, S. 53).
74
C. Ganzheitliches Ranking-Verfahren
Verfahren deutscher Lebensversicherungsunternehmen aus Abschnitt C.II. sind auf die Forderungen an die Konzeptions- und Disaggregationsphase eines ganzheitlichen Ranking-Verfahrens übertragbar. Die Forderungen müssen jedoch um entscheidungstheoretische Implikationen erweitert und um Forderungen an die bisher nicht behandelte Aggregationsphase ergänzt werden. 1. Ranking-Ziel und Ranking-Zielgruppe Mertens (2000, S. 47) zitiert als Kritik an den „Standards“: „The Standards have been criticized for insufficiently addressing the complexities of conducting interpretative-constructivist evaluations (Lincoln 1995), and for inadequately addressing the concerns about diversity and multiculturalism (Kirkhardt 1995; Mertens 1998)“. Kromrey (2000b, S. 251–256) führt aus, dass die Qualität, der Nutzen oder der Wert eines Produktes oder einer Dienstleistung ein soziales Konstrukt, eine nur in einem partikulären Kontext gültige Konvention darstellt. Die Existenz unterschiedlicher Wahrnehmungen, die zueinander widersprüchlich sein können, ist wahrscheinlich und erfordert eine Rekonstruktion des persönlichen Kontextes und des persönlichen Wertesystems der Evaluatoren und der Zielgruppe der Evaluation. Cronbach, Weiss und Stake empfehlen bei einer Evaluation die Perspektiven aller Stakeholder zu rekonstruieren und die Auswahl einer speziellen Beurteilungsperspektive dem Auftraggeber der Evaluation zu überlassen (Lee 2000, S. 146–148).148 Dieser Kritik wird in dem vorgestellten ganzheitlichen Ranking-Verfahren durch die Definition eines Ranking-Ziels und einer Ranking-Zielgruppe Rechnung getragen. Durch sie wird festgelegt, für welche potentiellen Entscheidungsträger das Ranking angemessene, genaue bzw. kompatible Informationen liefert (Qualitätsanforderungen für ein Rating-Verfahren deutscher Lebensversicherer). Es werden die Nutzer, deren Informationsbedürfnisse und die fachliche Angemessenheit eines Ranking bestimmt (Qualitätsanforderungen N1, N3 und G3 für Evaluationsverfahren).149 Ein Ranking kann nur für eine definierte Ranking-Zielgruppe valide, entscheidungsunterstützende Informationen im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses liefern. 148
„Developments in the last decade of evaluation theory have seen a growing interest . . . in . . . explicit clarification of the values held by different stakeholder groups . . . The description of whose values under what contingencies, are going to continue to be prominent in the discipline“ (Lee 2000, S. 148). 149 „Before any analysis can start, the goal or objective must be defined“ (Chicken und Hayns 1989, S. 12–13).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
75
Definition 5 Ranking-Ziel: Bewertung von Qualitäts-, Nutzen- oder Wertkomponenten eines Produktes oder einer Dienstleistung. Definition 6 Homogene Entscheidungsprämissen: Entscheidungsprämissen, die durch ein normatives Verfahren festgelegt oder durch strukturerkennende Verfahren empirisch bestimmt werden. Definition 7 Ranking-Zielgruppe: Entscheidungsträger, die bezüglich eines Ranking-Ziels homogene Entscheidungsprämissen besitzen.
Eine notwendige Voraussetzung für die Validität eines präskriptiven Ranking ist die Kompabilität der Entscheidungsprämissen des Ranking mit den Entscheidungsprämissen einer definierten Ranking-Zielgruppe. Die Homogenität der Entscheidungsprämissen ist eine wesentliche Voraussetzung für die intersubjektive Vergleichbarkeit eines Ranking und für die Überprüfung der Kompatibilität. Eine Inkompatibilität hat zur Folge, dass ein Ranking für die Ranking-Zielgruppe keine entscheidungsunterstützenden Informationen liefern kann. Baum (1987, S. 9) bemerkt im Zusammenhang mit einer fehlenden Differenzierung von Bond-Ratings nach Zielgruppen: „Will der einzelne Investor aufgrund eines Rating zu einer Kaufentscheidung finden, muss er den ordinalen Wertmaßstab unter Berücksichtigung seiner eigenen Präferenzstruktur in ein seinen Vorstellungen gemäßes kardinales System verwandeln. . . . für den Investor ist es unumgänglich, sich einen Überblick über jene Faktoren zu verschaffen, welche die Rating-Agentur bereits berücksichtigt hat, sowie über die Gewichtung dieser Faktoren bei der letztendlichen Einstufung. Nur jene bestimmenden Elemente dürfen bei seiner persönlichen Bewertung eine Rolle spielen, die bei den Agenturen keine oder nicht ausreichende Beachtung gefunden haben. Ein Rating ist damit immer auf einen repräsentativen Investor zugeschnitten“. Heimes und Will (1995) bemerken hierzu: „Problematisch ist . . . ob aufgrund der unterschiedlichen Ziele, Gewichtungen und Präferenzen professionelle Entscheider noch auf ein Rating, das für nicht-professionelle Entscheider konzipiert wurde, zurückgreifen sollen“. Die Problematik des interpersonellen Nutzenvergleiches führt z. B. im Marketing zur Definition von Kunden- und Marktsegementen. Im Markt für PKW-Ersatzreifen wird z. B. zwischen dem sicherheitsbewussten, dem preisbewussten, dem sportlichen und dem ökonomischen Reifenkäufer un-
76
C. Ganzheitliches Ranking-Verfahren
terschieden.150 Jeder dieser verschiedenen Käufertypen beurteilt die Qualität eines Reifens nach unterschiedlichen Entscheidungsprämissen. Der Versuch, die Entscheidungsprämissen sowohl des sportlichen als auch des ökonomischen Reifenkäufers zu den Entscheidungsprämissen eines „repräsentativen“ Reifenkäufers zusammenzufassen, liefert weder für den sportlichen, noch für den ökonomischen Reifenkäufer eine (kauf-)entscheidungsunterstützende Information, selbst wenn die sportlichen und ökonomischen Reifenkäufer in jeder Stadt denselben prozentualen Anteil besitzen. Ein Ranking-Ziel und eine Ranking-Zielgruppe legen ein Bewertungsziel und eine Bewertungsperspektive fest. D. h. es werden wesentliche faktische und wertende Entscheidungsprämissen für eine Abbildung einer Entscheidungssituation aus einem Objektsystem in ein Subjektsystem, für eine Abbildung des Kontextes einer Menge von Handlungsalternativen, für eine Abbildung des Informationsbedarfes einer Menge von Entscheidungsträgern und für den Prozess der Informationsgewinnung und Zielbildung festgelegt. Erst durch ein Ranking-Ziel und eine Ranking-Zielgruppe wird eine Rangfolge zu einer Information, da dadurch wesentliche Teile einer kognitiven Repräsentation einer konkreten Entscheidungsituation festgelegt werden wie z. B. der Zweck der Rangfolge und ihr Ziel-, Subjekt-, Objekt- und Zeitbezug (Mag 1977, Gritzmann 1991). Unterschiedliche Ranking-Zielgruppen tragen einem Perspektiven- und Wertepluralismus Rechnung. Eine für eine Ranking-Zielgruppe gemäß einem Ranking-Ziel aufbereitete Information kann aussagelos sein für eine andere Ranking-Zielgruppe oder für dieselbe Zielgruppe unter einem alternativen Ranking-Ziel.151 Analogien zu einem Ranking-Ziel und einer Ranking-Zielgruppe sind in der betriebswirtschaftlichen Entscheidungstheorie und in der Systematik betriebswirtschaftlicher Kennzahlensysteme der Bedarf an entscheidungsunterstützenden Informationen einer Menge von Entscheidungsträgern oder Stakeholder eines Entscheidungsbereiches. Analogien in der Evaluationsforschung sind der Verwendungszusammenhang, der Verwendungszweck und die Adressaten einer Evaluation. Kromrey (2000a) führt dazu aus: „Eine Zieloder Maßnahmenanalyse kann keine interessenneutrale Rekonstruktion oder Präzisierung eines Programmes sein, sondern nur eine Perspektive, unter der das komplexe Gefüge Programm/Beteiligte/Umwelt betrachtet und untersucht wird. Selbst im Idealfall umfassender Evaluation (comprehensive evaluation) können nur wenige, ausgewählte Perspektiven evaluationsrelevant 150
Siehe Bayer (1995). Mertens (1998) begründet ihr Paradigma der Transformation/Emanzipation damit, dass immer mehrere Realitäten existieren und diese einen unterschiedlichen Einfluss auf den sozialen, politischen und kulturellen Kontext, sowohl des Programmes als auch der Evaluation aufweisen. 151
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
77
sein. Je nach Betrachtungsperspektive kann ein und derselbe Sachverhalt ein Ziel oder aber eine Maßnahme sein“. Auch Lee (2000, S. 155–156) fordert: „The enduring problem in the assignment of value to programs, is that what is desirable to some stakeholders may be undesirable to others. By whose standards, then, is ‚better‘ to be measured? . . . judgement of some kind . . . may be unique to the judge who is making it, as well as to the specific time and context within which it is made. Thus, to understand the unique context of any given evaluation, the implicit values of the stakeholders, the evaluator, and the evaluation itself must be clear, and described with impartiality“. In der präskriptiven Entscheidungstheorie fordern u. a. Keeney und Raiffa (1993, S. 8, 66–67): „Let’s first clarify for whom we are prescribing. Who is the client for our proposed analysis? . . . The tradeoff issue often becomes a personal value question and, in those cases, it requires the subjective judgement of the decision maker. There may be no right or wrong answer to these value questions and, naturally enough, different individuals may have very different value structures“. In der „behavioral theory of the firm“ (Cyert und March 1963) wird eine Unternehmung nicht als eine konfliktfreie Wirtschaftseinheit, repräsentiert durch einen Prinzipal, angesehen, sondern als eine Koalition aus verschiedenen Stakeholder-Gruppen wie Kunden, Lieferanten, Beschäftigte, Manager, Banken die meist widersprüchliche Zielsystemen besitzen. Das organisatorische Zielsystem kommt durch einen Verhandlungsprozess zwischen den Koalitionspartnern zustande. Oft existiert eine Mehrzahl an Ranking-Zielen und das Ranking-Ziel einer Ranking-Zielgruppe ändert sich mit der Zeit. Maßgeblich für die Definition eines Ranking-Zieles ist seine Wahrnehmung als ein entscheidungsrelevantes Ziel durch eine Ranking-Zielgruppe.152 So bemerkt Stockmann (2000a, S. 34), dass sich die Evaluationsziele der Anspruchsgruppe Politiker bei der Bewertung politischer Programme durch externe Evaluationsgruppen von einer Bewertung des Input eines politischen Programms (z. B. die eingesetzten Investitionsmittel), über eine Bewertung des Output (z. B. die Zahl ausgebildeter Fachkräfte) zu einer Bewertung des Outcome, des Impact oder der Wirkungen (z. B. ob die ausgebildeten Fachkräfte einen berufsadäquaten Arbeitsplatz gefunden haben oder nicht und ob sie nutzbringend eingesetzt werden können) gewandelt haben. 152 „Although evaluation serves a number of purposes, more recently there has been an emphasis on accountability at all levels of the U.S. government. At the federal level there has been an increased emphasis on program results. The various reform initiatives such as Government Performance and Results Act of 1933 . . . have shifted the emphasis from the characteristics of program constituents and the services they receive . . . to an increased demand for information on program effectiveness. The shift in perception about what counts as useful information for decisionmaking is also found at state and local levels“ (Caracelli 2000, S. 182–3).
78
C. Ganzheitliches Ranking-Verfahren
Verfahren zur Bestimmung einer Ranking-Zielgruppe Durch Verfahren der empirischen Sozialforschung werden selbst innerhalb einer Anspruchsgruppe wie Politiker oft heterogene Entscheidungsprämissen und somit eine Mehrzahl an Ranking-Zielgruppen ermittelt. Kromrey (2000a, S. 44, 48) bemerkt im Zusammenhang mit Evaluationsverfahren: „Für Untersuchungsgegenstände, bei denen in Bevölkerungs-Teilgruppen jeweils unterschiedliche Auswirkungen der gleichen Maßnahme möglich sein könnten (z. B. alte Leute gegenüber Jugendlichen, Frauen gegenüber Männern, Familien mit Kleinkindern gegenüber älteren Ehepaaren usw.) wäre das Design auf eine größere Zahl von Experimental- und zugeordneten Kontrollgruppen auszuweiten (für jede relevante BevölkerungsTeilgruppe ein komplettes Experimentaldesign) . . . Soll die Gültigkeit der Analyse-Resultate gesichert sein, müssen alle potentiellen exogenen Einflüsse und müssen alle relevanten Persönlichkeitsmerkmale nicht nur bekannt, sondern auch operationalisierbar sein und zuverlässig gemessen werden“ (Kromrey 2000a, S. 48). Bei empirisch unterscheidbaren Ranking-Zielgruppen wird oft versucht, diese in eine repräsentative Zielgruppe zu überführen. Der Mechanismus, der eine repräsentative Zielgruppe produziert, ist z. B. ein Verhandlungsoder Abwägungsprozess,153 der eine Konvention oder normative Kriterien wie Gerechtigkeit oder öffentliches Interesse154 in eine die unterschiedlichen Ranking-Zielgruppen repräsentierende Zielgruppe überführt. Die Art des Verhandlungs- oder Abwägungsprozesses, die Machtverteilungen zwischen den Ranking-Zielgruppen,155 die Art der Konvention und der normativen Kriterien besitzen dabei einen großen Einfluss auf die Festlegung der repräsentativen Zielgruppe.156 Allen Verfahren liegt die Annahme der Exis153 Hansen, Henning-Thurau und Langer (2000) schlagen z. B. für den Fall von Interessendiskrepanzen in und zwischen unterschiedlichen Anspruchsgruppen vor, das „Stakeholder-Interessen übergreifende“ Qualitätsurteil entweder durch Priorisierung oder Konsensfindung zu bilden. 154 Scriven und Rossi sehen das „öffentliche Interesse“ als maßgebliche „stakeholder group“ an und unterscheiden zwischen den Bedürfnissen und der Nachfrage der Adressaten politischer Programme. Beide betonen die Erfordernis klar und explizit darzulegen, welche Beurteilungskriterien welcher Zielgruppe einer Evaluation zugrunde liegen. 155 Lee (2000, S. 143) bemerkt zum Paradigma der Transformation/Emanzipation: „This paradigm recognizes that even the most so-called ‚objective‘ methods of random assignment and other experimental approaches have imbedded within them cultural values that favor the majority, ignore the individual, and tend to invalidate the unique experiences of minorities or marginalized individuals“. 156 „Theorists in evaluation have differed in the importance they have given to different stakeholders, and all recognize that no single stakeholder group is made up
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
79
tenz von allgemein akzeptierten zielgruppenübergreifenden Entscheidungsprämissen zugrunde. Kromrey (2000b) bemerkt hierzu: „Der Versuch, einem imaginären ‚Durchschnitt‘ heterogener Zielgruppen mit heterogenen Bedürfnissen und Ansprüchen gerecht zu werden, führt nahezu zwangsläufig zu dem Resultat, dass die Leistung für keine Gruppe von großem Nutzen ist“. Die Repräsentation von unterschiedlichen Beurteilungsperspektiven und Entscheidungsprämissen bzw. Ranking-Zielgruppen durch eine kollektive Beurteilungsperspektive und ein kollektives Wertesystem z. B. eines Entscheidungsgremiums oder -kollektives wird in der „Social Choice Theory“ behandelt.157 Eine Sozialwahlfunktion, die bestimmte Rationalitätspostulate erfüllen muss, amalgamiert die unterschiedlichen Beurteilungsperspektiven und Entscheidungsprämissen zu einer neuen Beurteilungsperspektive und neuen Entscheidungsprämissen, die von allen Ranking-Zielgruppen als rationaler Kompromiss akzeptiert werden muss. Dabei geht die „Social Choice Theory“ davon aus, dass die unterschiedlichen Beurteilungsperspektiven und Entscheidungsprämissen der Ranking-Zielgruppen bereits empirisch ermittelt wurden. Die Rationalitätspostulate an die Sozialwahlfunktion gleichen den Rationalitätspostulaten, die in dieser Arbeit an die Kennzahlinterpretation und an das Ranking gestellt werden. Eine Sozialwahlfunktion kann z. B. eine Abstimmungsregel oder ein Kollektivnutzenindex darstellen (Strebel 1975, S. 123–124). Auf spezielle Problemstellungen der „Social Choice Theory“ wie z. B. die Existenz von Sozialwahlfunktionen bei intransitiven Präferenzen oder die Problematik interpersoneller Nutzenvergleiche wird in dieser Arbeit nicht eingegangen. 2. Ranking-Objektmenge Die Ranking-Objektmenge einer Ranking-Zielgruppe wird bei gegebenem Ranking-Ziel durch den entscheidungsrelevanten Kontext der Handlungsalternativen bestimmt (Qualitätsanforderungen N5, G1 und G2 für Evaluationsverfahren). Die Entscheidungsprämissen legen den entscheidungsrelevanten ökonomischen, psychologischen, sozialen und physischen Kontext fest,158 definieren unterschiedliche Leistungsprofile, die ein „eigenständiges of people who all hold exactly the same set of values . . . it is often difficult to resolve competing expectations from different stakeholders“ (Lee 2000, S. 146, 152). 157 Siehe die Literatur zur „Social Choice Theory“. Z. B. Bossert und Stehling (1990), Bamberg und Coenenberg (1994, S. 204–218), Laux (1998a, S. 401–461) und die dort angeführte Literatur. 158 Z. B. Verhaltensregeln, Traditionen, Anforderungen, Werte, Organisationsstrukturen und geographische Faktoren.
80
C. Ganzheitliches Ranking-Verfahren
spezifisches Klientel anziehen und versorgen“ (Rau und Hummel 1986, S. 223) und bilden die Handlungsalternativen in Abhängigkeit von dem Ranking-Ziel aus dem Objektsystem in das Subjektsystem einer Ranking-Zielgruppe ab. Sie führen zu Nebenbedingungen und Optimierungsbedingungen bzw. Zielen. Die Nebenbedingungen reduzieren die Menge der denkbaren auf die Menge der entscheidungsrelevanten Handlungsalternativen. Hierbei werden die gewünschten und realisierbaren Handlungsalternativen von den gewünschten, aber nicht realisierbaren, und den realisierbaren, aber nicht gewünschten Handlungsalternativen getrennt. Diese Nebenbedingungen stellen nicht-graduierbare und nicht-kompensatorische Ziele bzw. „Killer“-Kriterien dar, durch die eine Vorauswahl getroffen wird, ohne die Handlungsalternativen vollständig zu bewerten.159 Definition 8 Ranking-Objektmenge: Entscheidungsrelevante Handlungsalternativen, die von einer Ranking-Zielgruppe bezüglich eines Ranking-Ziels als strukturgleich oder strukturähnlich wahrgenommen werden.
Besteht die Menge der entscheidungsrelevanten Handlungsalternativen aus strukturgleichen oder strukturähnlichen Handlungsalternativen, die in Abhängigkeit von dem Ranking-Ziel und der Ranking-Zielgruppe durch ein gemeinsames Wirkungsmodell, Zielsystem und Kennzahlensystem beschrieben und durch einheitliche Kennzahlinterpretationen und dasselbe Ranking bewertet werden können, so ist die Menge der entscheidungsrelevanten Handlungsalternativen identisch mit der Ranking-Objektmenge.160 In allen anderen Fällen müssen aus der Menge der entscheidungsrelevanten Handlungsalternativen strukturgleiche oder strukturähnliche Teilmengen (Ranking-Objektmengen) gebildet werden.161 Strebel (1975, S. 56) schildert, dass bei der Bewertung von Forschungsund Entwicklungsprojekten „für Kategorien von Projekten unterschiedliche Entscheidungsfolgen von Bedeutung“ sind und deshalb „unterschiedliche Kategorien von Projekten . . . durch unterschiedliche Kriteriensysteme zu beurteilen“ bzw. bei zeitlich lang andauernden Projekten „die Kriterien mit dem Projektfortschitt zu wechseln“ sind. „Konsequenz dieses Vorgehens ist, dass die Projektwerte – je nach Kategoriezugehörigkeit der Projekte – nach 159 „Der Vorteil solcher Restriktionen ist ihre Einfachheit. Mit ihnen kann man die Menge der Alternativen drastisch reduzieren, ohne viel über die Alternativen zu wissen. Entsprechend groß ist allerdings die Gefahr, gute Alternativen voreilig auszusondern“ (Eisenführ und Weber 1994, S. 82). 160 Vgl. Rau und Hummel (1986, S. 219–222). 161 Heckhausen (1986, S. 37) bemerkt, dass die Wahl der richtigen Analyseeinheit eine der wichtigsten Bedingungen für die Validität einer Evaluation darstellt.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
81
unterschiedlichen Regeln ermittelt werden müssen, was wiederum bedeutet, dass für jede Projektkategorie eine Rangreihe nach dem Projektwert entsteht und die Programmwahl folglich ausgehend von mehreren Rangreihen der Projekte geschehen muss“. Er schlägt vor Projektkategorien nach den Kriterien Grundlagenforschung/angewandte Forschung, Fristigkeit, Dringlichkeitsstufe, Risikointensität und Kapitalinanspruchnahme zu bilden (Strebel 1975, S. 108–114). Bei der Bewertung der Qualität von PKWs werden Mengen strukturgleicher oder strukturähnlicher Handlungsalternativen durch die Bildung von technischen Leistungs- und Ausstattungsklassen wie Mini, Kleinwagen, Kompakt, Van, Limousine, Cabrio, Sport oder Luxus gebildet. Die Klassen addressieren jeweils unterschiedliche Käufertypen, die eine Qualitätsbewertung nach ihren typspezischen Kriterien vornehmen.162 Bei der Bewertung der akademischen Qualität von Hochschulen bildet U.S. News Klassen von Hochschulen nach „similar missions“ (o.V. 1998). Bei der Bewertung der Bonität von Schuldverschreibungen werden diese anhand ihrer Strukturmerkmale verschiedenen Klassen zugeordnet und die Bonität nach klassenspezifischen Kriterien beurteilt.163 Die deutsche Aktuarvereinigung fordert, beim Rating von Lebensversicherungsunternehmen nach strukturellen Unterschieden in der Strategie und der Stellung eines Unternehmens am Markt wie z. B. Nischenversicherer, zielgruppenorientierter Versicherer, Massenversicherer, in der Kapitalanlagestrategie wie z. B. Geldmarkt, Renten- und Aktienmarkt, in der Produktpolitik wie z. B. Risiko-, Renten-, gemischte Versicherungen, in den Geschäftsfeldern, in den Beteiligungsverhältnissen und in den Vertriebswegen zu differenzieren. An die Elemente einer Ranking-Objektmenge werden dieselben Anforderungen gestellt wie an einen Aktionenraum A in der betriebswirtschaftlichen Entscheidungstheorie. Sie müssen sich jeweils gegenseitig ausschließen164 (Exklusionsprinzip) und alle strukturgleichen bzw. strukturähnlichen entscheidungsrelevanten Handlungsalternativen einer Ranking-Zielgruppe bei einem Ranking-Ziel beschreiben (vollkommene Repräsentation). Eine große Zahl von Ranking-Objekten ist oft eine Folge einer nicht präzisen Formulierung des Ranking-Ziels und der Ranking-Zielgruppe und somit der Entscheidungsprämissen. Gegebenenfalls müssen zunächst das Ranking-Ziel und die Ranking-Zielgruppe präziser definiert werden.
162
Eine Klasse kann natürlich auch mehrere Ranking-Zielgruppen addressieren. „It was found that in some rating categories, the quality component (judgment by analysts) played a greater role than in other categories“ (Chandy und Duett 1990). 164 Der gegenseitige Ausschluss zweier Handlungsalternativen kann durch eine geeignete Formulierung der Handlungsalternativen stets erzwungen werden. 163
82
C. Ganzheitliches Ranking-Verfahren
Verfahren zur Bestimmung der Ranking-Objektmenge Eine Ranking-Objektmenge kann z. B. durch die Definition einer IdealAlternative und zulässiger Toleranzbereiche bestimmt werden. Eine Möglichkeit ist hier die Formulierung von Kriterien, die eine optimale Alternative auf jeden Fall erfüllen muss (Killer-Kriterien, K.-O.-Kriterien, Restriktionen) und Anspruchsniveaus bezüglich einzelner Eigenschaften (Nebenbedingungen). Eine weitere Möglichkeit ist eine Gruppierung der entscheidungsrelevanten Handlungsalternativen in homogene Teilgruppen durch strukturerkennende Verfahren der deskriptiven Statistik. 3. Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell Ein Modell ist eine zweckorientierte Abbildung der Realität. Nach dem Zweck eines Modells werden z. B. Beschreibungs-, Erklärungs- und Entscheidungsmodelle unterschieden.165 Durch eine Aufgliederung eines Realsystems in Elemente und Eigenschaften, die explizit im Modell erfasst werden und in solche, die nicht explizit in das Modell eingehen, lässt sich ein Modell als eine Gliederung eines Realsystems in Äquivalenzklassen interpretieren.166 Durch ein Wirkungsmodell wird der sachliche Bezugsrahmen der Ranking-Objekte bzw. ein weiterer Teil des entscheidungsrelevanten Kontextes abgebildet (Qualitätsanforderungen G1 und G2 für Evaluationsverfahren). Nur die unter dem Ranking-Ziel für die Ranking-Zielgruppe bei den Ranking-Objekten relevanten Elemente des Realsystems und die zwischen ihnen relevanten logischen oder empirischen Beziehungen werden im Modell explizit erfasst.167 Diese sind Ein- und Ausgangsgrößen und Prozessbeziehungen und -bedingungen. Definition 9 Wirkungsmodell: Zweckorientierte, vereinfachende, strukturähnliche Abbildung der Systemeigenschaften der Ranking-Objekte sowie der zwischen den Systemeigenschaften bestehenden Wirkungszusammenhänge eines Realsystems. 165 Beschreibungs- und Erklärungsmodelle sind Voraussetzung für die praktische Anwendung von Entscheidungsmodellen (Bamberg und Coenenberg 1994, S. 13–14). 166 „Das Modell gibt die Realität insofern vereinfacht wieder, als jedes Element des Modells eine Klasse von unter der jeweiligen Fragestellung als äquivalent betrachteten Elementen und Eigenschaften des Gegenstandsbereiches repräsentiert“ (Bamberg und Coenenberg 1994, S. 12–13). 167 „Eine erste wichtige Aufgabe im Rahmen der Konzipierung einer Evaluation ist es, ein Modell des zu evaluierenden Systems zu erstellen, um die relevanten Dimensionen der Evaluation identifizieren zu können“ Landsheere (1990).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
83
Das Wirkungsmodell in der Evaluationsforschung In der Evaluationsforschung wird unter einem Wirkungsmodell ein System „in sich schlüssiger und operationalisierbarer Hypothesen und empirisch bewährter Theorien über die Struktur des Evaluandums und über die Zusammenhänge und wechselseitigen Beziehungen dessen wesentlicher Elemente“ verstanden (Kromrey 2000a). Es beschreibt alle für die Beurteilung des Evaluandums relevanten potentiellen Wirkungen und Wirkungszusammenhänge bzw. die logische Beziehungsstruktur der Programmelemente einschließlich der Programmumwelt.168 „Dieses Denkmodell eines Wirkungsfeldes . . . ist die Basis für die Entwicklung eines ‚maßgeschneiderten‘ Forschungsdesigns. Dieses Design soll einerseits unter methodologischen Gesichtspunkten möglichst hohen Standards der empirischen Wissenschaft genügen, zugleich aber unter den durch das Programm gesetzten Rahmenbedingungen realisierbar sein“ (Kromrey 2000a, S. 42, 49). Ein Wirkungsmodell ist Bestandteil jeder kausalanalytischen Evaluationsforschung und Basis einer Wirkungs- und Erfolgskontrolle. Es verknüpft die vier Variablenbereiche Ziele, Maßnahmen, Effekte und Programmumwelt und ermöglicht deren Abbildung durch empirische Daten. Das Evaluandum muss hierzu empirisch abgrenzbar definiert werden und seine wesentlichen Rahmenbedingungen dürfen sich während der Evaluation nicht in unvorhersehbarer Weise ändern. Es werden die drei Stufen der Wirkungsentfaltung Output (Leistungserbringung), Outcome (Wirkungen bei den direkten Adressaten) und Impact (Summe aller beabsichtigten und unbeabsichtigten Wirkungen) unterschieden. Erst auf der Grundlage eines Wirkungsmodells können die Effekte von unabhängigen, explikativen Variablen (z. B. Maßnahmen des Programms) auf definierte abhängige Variablen (z. B. beabsichtigte und unbeabsichtigte Effekte) beschrieben, Programmziele in Form eines widerspruchslosen, unabhängigen, operationalisierbaren und praktikablen169 Zielsystems mit angestrebten Zielniveaus definiert und z. B. den Programmzielen Instrumente zur Zielerreichung (Maßnahmen des Programms) zugeordnet werden (Ziel-Mittel-Relationen). Es ist eine notwendige Voraussetzung für eine Messung der Wirkungen von Maßnahmen durch Indikatoren und deren Interpretation (Kromrey 2000a, S. 36). Unter 168 „Methods and practice of evaluation are not independent of the setting and context within which it will occur. Because any particular method or model used in practice must be applied to a specific situation or program, intimate knowledge of the evaluand is also needed . . . to have a sufficiently deep understanding of how any object of evaluation functions, and how it interacts with the context in which it exists and operates . . . The importance of context for the program and for evaluation is recognized by virtually all theories about practice“ (Lee 2000, S. 151, 153). 169 Auf praktisches Handeln ausgerichtete Ziele, die in ihrer Verwirklichung kontrollierbar sind.
84
C. Ganzheitliches Ranking-Verfahren
Berücksichtigung von exogenen Einflüssen (Programmumwelt) werden die gemessenen Effekte den jeweiligen Maßnahmen nach den definierten Zielerreichungskriterien als Wirkungen zugerechnet.170 Das Wirkungsmodell als Bewertungskonzept Donabedian (1980) hat für das Gesundheitswesen ein differenziertes und weit verbreitetes Qualitätskonzept entwickelt. Er unterscheidet die drei Qualitätsbereiche Strukturqualität, Prozessqualität und Ergebnisqualität, die durch eine Wirkungshypothese miteinander verbunden sind. „Die Strukturqualität (personelle, finanzielle und materielle Ressourcen, physische und organisatorische Rahmenbedingungen, physische und soziale Umwelt) ist die Bedingung der Möglichkeit von Prozessqualität (Erbringung der Dienstleistung, Interaktionsbeziehungen zwischen Anbieter und Klienten); diese wiederum ist eine Voraussetzung für Ergebnisqualität (Zustandsveränderung der Klienten im Hinblick auf den Zweck der Dienstleistung, Zufriedenheit der Klienten) . . . zu jeder der Dimensionen diejenigen Indikatoren zu bestimmen und zu operationalisieren, die dem konkret zu evaluierenden Programm angemessen sind. Dies kann nicht ohne Einbeziehung der Programmträger, des eigentlichen Dienstleistungspersonals sowie der Adressaten der Dienstleistung ggf. weiterer Beteiligter und Betroffener geschehen . . .“ (Kromrey 2000a). Donabedian (1980) definiert Qualität als Grad der Übereinstimmung zwischen zuvor formulierten Kriterien und der tatsächlich erbrachten Leistung (Kromrey 2000a). Dabei werden die Voraussetzungen für die Qualität einer Dienstleistung durch die Strukturen bzw. die Rahmenbedingungen ihrer Erstellung und ihrer Wirkung bei den Adressaten berücksichtigt. Ein ähnliches Modell schlagen Hansen, Henning-Thurau und Langer (2000) und Syrbe und Bayer (1997) für die Bewertung der Qualität akademischer Dienstleistungen vor. Das Wirkungsmodell in der betriebswirtschaftlichen Entscheidungstheorie Die betriebswirtschaftliche Entscheidungstheorie unterscheidet nach der Darstellung eines Wirkungsmodelles in formale Wirkungsmodelle und Mittel-Ziel-Netzwerke. Die Ergebnisfunktion g stellt ein formales Wirkungsmodell dar, das jeder Kombination einer Handlungsalternative a mit einem Zustand z einen Ergebniswert zuordnet.171 Hierbei wird zwischen Entscheidungs- und Ereignisvariablen unterschieden. Eine graphische Darstellung 170 „Strong linkages between social science theory and theories about the program to be evaluated are necessary“ (Riggin 1990).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
85
eines Wirkungsmodelles ist z. B. ein Mittel-Ziel-Netzwerk, das „vermutete Wirkungen von Maßnahmen auf die Erreichung von Zielen, gegebenenfalls über Zwischenstufen“ darstellt. „In einem Mittel-Ziel-Netzwerk stellen der Entscheider oder Experten ihr faktisches Wissen über Wirkungszusammenhänge übersichtlich dar. Dies kann der erste Schritt zur Formulierung eines quantitativen Wirkungsmodells sein“ (Eisenführ und Weber 1994, S. 64). Ein Ranking, das nicht auf einem Wirkungsmodell basiert, läuft Gefahr, Eingangsgrößen, Prozesse und Ausgangsgrößen unvollständig durch Fragen und Kennzahlen zu repräsentieren, Prozesse, die in Wirkungszusammenhängen stehen, isoliert zu bewerten, interne Prozesse zu bewerten ohne Berücksichtigung der Eingangs- und Ausgangsgrößen der Prozesse, und Abhängigkeiten zwischen den Fragen bzw. Kennzahlen nicht zu berücksichtigen. Verfahren zur Bestimmung eines Wirkungsmodells Ein Wirkungsmodell kann z. B. ein einfaches logisches Strukturmodell oder ein Kausalmodell sein, bei dem eine empirische Überprüfung der Indikatoren-Indikandums-Beziehungen nach wissenschaftlichen Gütekriterien erfolgen kann. 4. Zielsystem Jede intendiert rationale Bewertung basiert auf einem, häufig mehrdimensionalen, Zielsystem.172 Das Zielsystem repräsentiert die Präferenzen einer Ranking-Zielgruppe bei gegebenen Ranking-Objekten und Wirkungsmodell. Es strukturiert das Ranking-Ziel durch die Festlegung aller Systemeigenschaften der Ranking-Objekte, die eine Ranking-Zielgruppe bei gegebenem Ranking-Ziel und Wirkungsmodell als entscheidungsrelevant wahrnimmt.173 Die Existenz eines allgemeinen oder objektiven Zielsystems stellt eine seltene Ausnahme dar (Strebel 1975, S. 53–54). Das Zielsystem ist die Basis 171 „Ein Wirkungsmodell . . . bildet die kombinierte Wirkung der Handlungsalternativen und der Umwelteinflüsse deterministisch im Attributeraum ab“ (Eisenführ und Weber 1994, S. 73). 172 „Ohne Vorgabe von Zielen ist Bewerten und Entscheiden unmöglich“ (Strebel 1975, S. 46). 173 „Zu den subjektiven Vorentscheidungen gehört, durch wieviele und welche Eigenschaften die Konsequenzen der Entscheidung beschrieben werden sollen“ (Eisenführ und Weber, S. 30).
86
C. Ganzheitliches Ranking-Verfahren
für ein Ranking. Die Rationalität einer Entscheidung und die Validität eines Ranking können nur auf der Basis eines Zielsystems beurteilt werden.174 Durch ein Zielsystem werden die Interessen, die Bedürfnisse und die Werte der Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Ranking-Objektmenge und Wirkungsmodell ermittelt und bei der Bestimmung einer Rangfolge zugrunde gelegt (Qualitätsanforderungen N1, N3, N4, N5 und G3 für Evaluationsverfahren). Die Präferenzen bilden die kognitive Repräsentation einer Entscheidungssituation und die Basis für eine systematische Beschaffung, Interpretation und Aggregation von Informationen. Das Zielsystem muss zweckadäquat, richtig und vollständig bzw. angemessen, einsichtig und genau, der Informationskapazität des Entscheiders entsprechen (qualitative und quantitative Forderungen an ein Rating deutscher Lebensversicherer) und kompatibel sein mit dem Informationsbedarf einer Ranking-Zielgruppe. Diese Qualitätsanforderungen für Evaluationsverfahren und für ein Rating deutscher Lebensversicherer werden im Folgenden präzisiert und durch entscheidungstheoretische Implikationen ergänzt. In der präskriptiven Entscheidungstheorie wird zwischen einem Fundamental- und einem Instrumentalziel unterschieden (Eisenführ und Weber 1994, S. 54–58). Ein Fundamentalziel ist ein Ziel, das in einem Entscheidungskontext (Ranking-Ziel, Ranking-Zielgruppe, Ranking-Objektmenge, Wirkungsmodell) aus den Präferenzen einer Ranking-Zielgruppe abgeleitet wird. Es bedarf keiner weiteren Begründung, es stellt eine normative Aussage oder eine imperativische Prämisse dar (Strebel 1975, S. 16). In einem gegebenen Kontext ist ein Ziel fundamental, wenn es nicht Mittel zur Erreichung eines anderen im gleichen Kontext behandelten Zieles ist (Eisenführ und Weber 1994, S. 56). Im Unterschied dazu wird ein Instrumentalziel aus faktischen Entscheidungsprämissen abgeleitet. Es steht in einer MittelZweck-Beziehung bzw. in einem Wirkungszusammenhang zu einem Fundamentalziel, der begründet werden muss.175 Das Fundamentalziel Sicherheitslage eines Versicherungsunternehmen kann z. B. in die Instrumentalziele Versicherungsrisiko, qualitatives und quantitatives Kapitalanlagerisiko und Kostenrisiko zerlegt werden.176 Bei der Bewertung der Bilanzbonität besteht das Zielsystem z. B. aus den Fundamentalzielen Ertragslage und Vermögens- und Finanzlage (Baetge 1994). Die Ertragslage soll Auskunft 174 „Unterschiedliche Wertsysteme führen ceteris paribus zu unterschiedlichen Wahlakten“ (Strebel 1975, S. 15). 175 „Instrumentalziele haben im Rahmen des gegebenen Kontexts keine eigenständige Bedeutung, sondern sind Mittel zur Erreichung fundamentalerer Ziele. Die vermuteten Instrumentalbeziehungen können in einem Mittel-Ziel-Netzwerk veranschaulicht werden“ (Eisenführ und Weber 1994, S. 75). 176 Trautvetter und Lust (1993) und darauf bezugnehmend Heimes und Will (1995).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
87
darüber geben, wie gut ein Unternehmen im Zeitablauf und im Vergleich mit seinen Wettbewerbern abgeschnitten hat, die Vermögens- und Finanzlage soll Auskunft über die Bestandssicherung geben. Wenn ein Zielsystem aus Instrumental- und Fundamentalzielen besteht, kann durch diese „versteckte Mehrfachgewichtung“ eines Zieles eine Fehlentscheidung resultieren. Weiter kann der Fall auftreten, dass ein Instrumentalziel zu einem Fundamentalziel in einer positiven Mittel-Zweck-Beziehung steht und gleichzeitig in einer negative Mittel-Zweck-Beziehung zu einem weiteren Fundamentalziel. Dann ist unklar, ob das Instrumentalziel geeignet ist, die wertenden Entscheidungsprämissen der Ranking-Zielgruppe zu repräsentieren. Definition 10 Zielsystem Z: Endliche Menge von Fundamentalzielen Z ã fZ1 ; :::; Zf g; f 2 IN:
Ein Zielsystem muss bei gegebenem Ranking-Ziel, Ranking-Zielgruppe, Ranking-Objektmenge und Wirkungsmodell das Ranking-Ziel in allen entscheidungsrelevanten Systemeigenschaften vollständig beschreiben, widerspruchsfrei, operationalisierbar, redundanzfrei, gegenseitig präferenzunabhängig, minimal sein, sowie zwischen den Ranking-Objekten diskriminieren (siehe Tabelle 2, S. 88). Im Folgenden werden die kursiv geschriebenen Begriffe der Reihe nach definiert. Ein Zielsystem ist vollständig, wenn es bei gegebenem Ranking-Ziel und Wirkungsmodell alle entscheidungsrelevanten Fundamentalziele einer Ranking-Zielgruppe bei einer gegebenen Ranking-Objektmenge beschreibt. Die Vollständigkeit eines Zielsystems ist eine notwendige Voraussetzung für die subjektive substanzielle Formalrationalität eines Zielsystems und eines Ranking. Aus ihr folgt die Kompatibilität des Zielsystems mit den Präferenzen der Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Ranking-Objektmenge und Wirkungsmodell.177 Ein Zielsystem ist widerspruchsfrei, wenn es keine Ziele enthält, die sich grundsätzlich gegenseitig ausschließen. Ein widersprüchliches Zielsystem kann keine Basis für eine intendiert rationale Entscheidung darstellen. 177 Überträgt eine Ranking-Zielgruppe im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses Informationsbeschaffungs- und -verarbeitungsprozesse an eine Ranking-Agentur, so gibt sie dieser ein Ranking-Ziel und eventuell die Ranking-Objektmenge vor. Es besteht die Gefahr, dass die Ranking-Agentur sich an anderen Zielen orientiert als die Ranking-Zielgruppe oder die Ziele abweichend gewichtet. Bei der Vorgabe mehrerer, konkurrierender Ziele müssen die Präferenzen der Ranking-Zielgruppe an die Ranking-Agentur übermittelt werden (vgl. Laux 1998b, S. 185–273).
88
C. Ganzheitliches Ranking-Verfahren Tabelle 2 Anforderungen an ein Zielsystem Vollständigkeit Konsistenz Operationalisierbarkeit Redundanzfreiheit gegenseitige Präferenzunabhängigkeit Minimalität Diskriminanz
Ein Zielsystem ist operationalisierbar, wenn jedes Fundamentalziel Z1 ; :::; Zf präzise und eindeutig formuliert ist und wenn für jedes Fundamentalziel Instrumentalziele und Kennzahlen ermittelbar sind, die die zielrelevanten Konsequenzen möglichst treffend und eindeutig wiedergeben (Eisenführ und Weber 1994, S. 51). Die Operationalität aller Ziele ist eine Voraussetzung für die verlässliche Ermittlung einer Rangfolge der RankingObjekte durch ein Ranking und eine notwendige Bedingung für rationales Handeln (Strebel 1975, S. 16). Ein Zielsystem ist redundanzfrei, wenn jedes Fundamentalziel Z1 ; :::; Zf eine unterschiedliche Komponente des Ranking-Zieles erfasst. Wird eine Komponente durch mehrere Fundamentalziele gleichzeitig erfasst, wird durch die Mehrfachzählung diese Komponente übergewichtet. Strebel (1975, S. 59–60) bemerkt, dass die Redundanzfreiheit eines Zielsystems „. . . in allen Scoring-Modellen ausdrücklich oder stillschweigend unterstellt“ wird, sie aber, „wie auch die Kriterien der . . . Scoring-Modelle zeigen, wegen definitorischer Zusammenhänge . . . und infolge der Interdependenz wirtschaftlicher Größen selten tatsächlich gewährleistet“ ist.178 178 Für eine Bewertung der Unternehmensqualität einer Lebensversicherung werden in der Literatur beispielsweise die Fundamentalziele Sicherheitslage, Ertragskraft und Wachstumskraft als entscheidungsrelevant angesehen. Dabei wird unter der Sicherheitslage „die Fähigkeit eines Lebensversicherers, seinen vertraglichen Verpflichtungen dauerhaft nachkommen zu können“ unter der Ertragskraft „die Fähigkeit des Unternehmens, Gewinne zu erwirtschaften“ und unter der Wachstumskraft „die positive Veränderung von Größenmerkmalen des Unternehmens im Zeitablauf“ verstanden. Zwischen diesen Zielen bestehen jedoch Abhängigkeiten. So kann z. B. ein ertragsstarkes Lebensversicherungsunternehmen eher seine Sicherheitskapitalausstattung verbessern als ein ertragsschwaches (Heimes und Will 1995, S. 316).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
89
Ein Zielsystem ist gegenseitig präferenzunabhängig, wenn der Zielerreichungsgrad jedes Fundamentalzieles Zi unabhängig von den Zielerreichungsgraden der übrigen Fundamentalziele Zj ; j 6ã i, bestimmt werden kann. Eine gegenseitige Präferenzunabhängigkeit ist eine notwendige Voraussetzung für eine Dekomponierbarkeit eines komplexen Entscheidungsproblems in unabhängig voneinander lösbare Teilprobleme geringerer Komplexität bzw. für eine Dekomponierbarkeit einer Präferenz in voneinander unabhängige Einzelpräferenzen.179 Eine empirische bzw. kausale Abhängigkeit zwischen Fundamentalzielen, wie z. B. eine hohe Korrelation oder eine funktionale Abhängigkeit, ist nur ein Indiz für eine Präferenzabhängigkeit. Ein Zielsystem ist minimal, wenn es die übrigen Forderungen erfüllt und die geringste Zahl an Fundamentalzielen aufweist. Eine Vereinfachung eines Zielsystems kann z. B. durch eine geeignete Aggregation von Fundamentalzielen zu einem übergeordneten Fundamentalziel oder durch Elimination von Fundamentalzielen, die bei einer gegebenen Ranking-Objektmenge zwischen den Ranking-Objekten nur gering diskriminieren, vorgenommen werden. Ein Zielsystem diskriminiert zwischen den Ranking-Objekten, wenn nach einer Operationalisierung der Fundamentalziele durch Kennzahlen, einer Kennzahlinterpretation und einer Ermittlung eines Ranking eine Rangfolge bestimmbar ist. Verfahren zur Bestimmung eines Zielsystems „Man kann selten Handlungsalternativen, Umwelteinflüsse und Ziele völlig getrennt voneinander modellieren . . . Diese Einflüsse bewirken, dass die Teilmodelle nicht in einem einzigen linearen Durchlauf erstellt werden können. Vielmehr führt eine Veränderung in einem Teilmodell dazu, dass ein anderes Teilmodell revidiert wird. Der Entscheider kommt also immer wieder auf die einzelnen Teilmodelle zurück, um sie optimal aneinander anzupassen“ (Eisenführ und Weber 1994, S. 32). Somit ist ein Ranking-Verfahren durch einen schleifenartigen, iterativen Prozess, durch eine rekursive Modellierung gekennzeichnet (siehe Abbildung 2, S. 72). Eine Veränderung der Ranking-Objektmenge kann zu einem neuen Zielsystem führen (Eisen179 „Das Präferenzsystem eines Entscheiders ist nur im Wege der Dekomposition zu ermitteln“ (Eisenführ und Weber 1994, S. 10). „Anstatt das Problem als Ganzes zu behandeln, analysiert man die Komponenten und erzeugt Modelle dieser Komponenten des Problems. Danach fasst man die Teilmodelle zusammen und erhält ein Gesamtmodell der Situation“ (Eisenführ und Weber 1994, S. 16).
90
C. Ganzheitliches Ranking-Verfahren
führ und Weber 1994, S. 52). Eine vorläufige Ranking-Objektmenge muss solange überarbeitet werden, bis sie konform mit dem Zielsystem der Ranking-Zielgruppe ist (Eisenführ und Weber 1994, S. 71–72). Eine Veränderung des Ranking-Zieles kann ein neues Wirkungsmodell erfordern und ein verändertes Wirkungsmodell zu einer neuen Ranking-Objektmenge führen. Zwischen einer Ranking-Zielgruppe, einer Ranking-Objektmenge, einem Wirkungsmodell und einem Zielsystem wird solange „hin und her gesprungen“, bis ein valides Zielsystem ermittelt ist. Enthält ein vorläufiges Zielsystem neben Fundamentalzielen auch Instrumentalziele, wird die Ranking-Objektmenge zu stark eingeschränkt. Je fundamentaler ein Zielsystem ist, desto größer wird oft die Ranking-Objektmenge. „Damit Fundamental- von Instrumentalzielen unterschieden werden können ist bei jedem Ziel die Frage zu stellen: Warum ist dieses Ziel wichtig? Wenn ein Ziel X nur deshalb wichtig ist, weil es zur Erreichung eines anderen Ziels Z beiträgt, sollten Sie prüfen, ob es sinnvoller ist, das Instrumentalziel X aus der Liste zu streichen und durch das Fundamentalziel Z zu ersetzen . . . Die Instrumentalität der Instrumentalziele zu beurteilen, ist oft nur Fachleuten möglich – und auch dies ist nicht immer zweifelsfrei. Die Fundamentalziele zu definieren ist dagegen nicht Sache von Experten, sondern desjenigen, der für sich selbst entscheidet oder ein Mandat zur Entscheidung für andere hat“ (Eisenführ und Weber 1994, S. 55–56). Die Unterscheidung zwischen Fundamental- und Instrumentalzielen ist in der Praxis jedoch oft relativ. Fundamentalziele können in einem erweiterten Kontext Instrumentalziele darstellen. Die gegenseitige Präferenzunabhängigkeit in dem Zielsystem einer Ranking-Zielgruppe kann durch eine geeignete Redefinition des Zielsystems, durch eine Redefinition der präferenzabhängigen Ziele, stets erreicht werden. In der Literatur zur multi-attributiven Nutzentheorie gilt ein präferenzabhängiges Zielsystem als ein fehlerhaft formuliertes Zielsystem, in dem entweder entscheidungsrelevante Kriterien nicht berücksichtigt wurden oder entscheidungsirrelevante Kriterien Bestandteil des Zielsystems sind (von Nitzsch 1994, S. 3–4, 78–82). Die Präferenzunabhängigkeit eines Zielsystems kann abhängig sein von den Wertebereichen der Kennzahlen, durch die das Zielsystem operationalisiert wird. Ihre Überprüfung geschieht in diesen Fällen erst nach der Bestimmung des Kennzahlensystems und der zulässigen Kennzahlenwerte.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
91
5. Operationalisierung des Zielsystems durch ein Kennzahlensystem Mit der Definition eines Ranking-Ziels, einer Ranking-Zielgruppe, einer Ranking-Objektmenge, eines Wirkungsmodelles und eines Zielsystems werden die Rahmenbedingungen für die Ableitung valider und substanzieller Kennzahlen bzw. eines Kennzahlensystems als sachlogisch strukturierte Kennzahlenmenge festgelegt. Ein Kennzahlensystem stellt zweckorientiertes und zweckgebundenes Wissen in Form einer wirkungsmodellgestützten, quantitativen Repräsentation der Ranking-Objekte nach dem Zielsystem einer Ranking-Zielgruppe dar.180 Je nach Ranking-Ziel, Ranking-Zielgruppe, Wirkungsmodell und Zielsystem können auf einer Ranking-Objektmenge unterschiedliche Kennzahlensysteme bestimmt werden. In der präskriptiven Entscheidungstheorie wird zwischen natürlichen, künstlichen und Proxy-Kennzahlen unterschieden.181 Wenn ein Ziel eindeutig durch eine Kennzahl operationalisierbar ist, wie die Auflagenstärke einer Zeitung oder die Stärke eines PKW-Motors, wird die Kennzahl als natürliche Kennzahl bezeichnet. Wenn ein Ziel nur durch eine Funktion von mehreren Kennzahlen, d. h. durch einen Index bzw. durch ein Bewertungsäquivalent operationalisierbar ist, bezeichnet man den Index als künstliche Kennzahl. Kann ein Ziel weder durch eine natürliche Kennzahl noch durch eine künstliche Kennzahl hinreichend exakt operationalisiert werden oder ist die Messung dieser Kennzahlen zu aufwendig, muss eine ProxyKennzahl definiert werden. Eine Proxy-Kennzahl ist entweder ein Indikator für den Erfüllungsgrad eines nicht direkt messbaren Zieles wie z. B. die Anzahl der Reklamationen als Indikator für die Kundenzufriedenheit, die Anzahl der Veröffentlichungen in Fachzeitschriften als Indikator für die wissenschaftliche Produktivität, das Einhalten von Bilanzrelationen wie Verschuldungsgrad, Anlagendeckung und Liquidität als Indikatoren für die Liquidität und die Kreditwürdigkeit eines Unternehmens oder ein Instrument zur Zielerreichung. Sie basiert auf einer empirischen Mittel-ZweckBeziehung. Durch ein Fundamentalziel wird ein in der Regel nicht direkt messbarer Sachverhalt beschrieben, der durch Proxy-Kennzahlen operationalisiert werden muss.182
180 Ein Kennzahlensystem soll eine komplexe ökonomische Entscheidungssituation „zahlenmäßig in effizienter Weise kennzeichnen, also sie in Zahlen übersetzen oder abbilden“ (Stehling 1994, S. 3). 181 Diese Unterscheidung ist jedoch in vielen Fällen nicht eindeutig vornehmbar. 182 „Kennzahlen erfassen in der Regel nicht unmittelbar messbare Phänomene anhand einer oder mehrerer Merkmalsdimensionen“ (Hujer und Cremer 1977, S. 78).
92
C. Ganzheitliches Ranking-Verfahren
Definition 11 Kennzahl x: Quantitativer Indikator für die Ausprägung eines Fundamentalziels.
Für eine Übersicht ausgewählter betriebswirtschaftlicher Kennzahlen, die seit Anfang des 20. Jahrhunderts im Rahmen der Bilanzanalyse, des Betriebsvergleichs und der Betriebsanalyse eingesetzt werden, siehe Meyer (1994, S. 65–116) und Hacker (1979), für eine ausführliche Kritik und Diskussion der Aussagekraft ausgewählter betriebswirtschaftlicher Kennzahlen, siehe Reichmann (1997). Für eine detaillierte Systematisierung betriebswirtschaftlicher Kennzahlen siehe Meyer (1994, S. 7) und Reichmann (1997, S. 21). Beispiele aus dem volkswirtschaftlichen Bereich sind ein Preisindex, ein Bruttosozialprodukt, eine Arbeitslosenquote oder ein Börsenindex (Stehling 1994). Kennzahlen stellen hier hochverdichtete Messgrößen dar, die in konzentrierter Form über einen zahlenmäßig fassbaren Sachverhalt berichten. Durch eine verdichtete Informationsübermittlung soll sich eine Ranking-Zielgruppe anhand der Kennzahlen schnell und einfach über alle entscheidungsrelevanten Tatbestände informieren. Eine Kennzahl x kann auf einer objektiven oder subjektiven Skala gemessen werden. Bei einer subjektiven Skala wird der Wert einer Kennzahl durch eine Befragung erhoben. Z. B. durch ein semantisches Differential oder Methoden der Psychometrie. Bei einer objektiven Skala wird der Wert einer Kennzahl auf einer allgemein akzeptierten, quantitativen Skala gemessen. Subjektive Skalen werden häufig durch objektive Skalen approximiert, die allerdings auch eine subjektive bzw. eine substanzielle Bedeutung besitzen müssen. Nach dem Skalenniveau bzw. dem Informationsgehalt und der Zulässigkeit mathematischer Operationen werden nominal-, ordinal und kardinalskalierte Kennzahlen unterschieden. Definition 12 Kennzahlensystem: Endliche Menge fx1 ; :::; xn g, n 2 IN von Kennzahlen.
Die entscheidungsrelevanten Konsequenzen eines Ranking-Objektes bei gegebenem Ranking-Ziel, Ranking-Zielgruppe, Wirkungsmodell, Ziel- und Kennzahlensystem werden durch die n Kennzahlenwerte x 1 ; :::; x n des Kennzahlensystems fx1 ; :::; xn g beschrieben. Ein Kennzahlensystem muss vollständig, problemadäquat und operational sein. Die Kennzahlen müssen einen Informationsgehalt besitzen, gegenseitig präferenzunabhängig sein, ein minimales Kennzahlensystem bilden und ihr Erhebungsaufwand muss in einem effizienten Kosten-Nutzen Verhältnis stehen (siehe Tabelle 3, S. 93). Im Folgenden werden die kursiv geschriebenen Begriffe der Reihe nach definiert.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
93
Tabelle 3 Anforderungen an ein Kennzahlensystem
Problemadäquatheit Vollständigkeit Operationalität Informationsgehalt Gegenseitige Präferenzunabhängigkeit Minimalität effizientes Kosten-Nutzen Verhältnis
Ein Kennzahlensystem ist problemadäquat, wenn es aus einem Wirkungsmodell der Ranking-Objekte bei gegebenem Ranking-Ziel, RankingZielgruppe und Zielsystem ableitbar ist. Ein Kennzahlensystem ist vollständig, wenn es das Zielsystem einer Ranking-Zielgruppe vollständig repräsentiert.183 Dann werden alle entscheidungsrelevanten Ergebniskomponenten erfasst, so dass die Ranking-Objekte, bis auf die Höhen- und Artenpräferenzen auf dem Kennzahlensystem, selbst wertfrei sind und ausschließlich durch die ihnen zugeordneten Kennzahlenwerte repräsentiert werden (Schneeweiß 1967, S. 33). Ein Kennzahlensystem ist operational, wenn seine Kennzahlen zuverlässig, einheitlich und genau bei allen Ranking-Objekten auf einer Skala mit operationaler Maßeinheit erhebbar sind. Die Kennzahlen müssen nach einheitlichen Grundsätzen erhoben werden können (identischer Formalaufbau) und um systematische Verzerrungen bzw. um strukturelle Unterschiede aus ihrem Erhebungskontext wie z. B. unterschiedliche handels- und steuerrechtliche Vorschriften bei internationalen Bewertungen bereinigt werden. Die Kennzahlen müssen hierzu zeitlich, räumlich und sachlich präzise definiert und abgegrenzt werden.184 Unpräzise Definitionen führen oft zu einer ‚Produktion von Zahlenfriedhöfen‘, weil es an den notwendigen Selektionskriterien für die Steuerung der Informationsgewinnungs- und -verarbeitungspro183 Siehe Baumbusch (1988, S. 25) für mögliche Unternehmensziele und Kennzahlensysteme. Siehe Botta (1993, S. 215–224) für eine Diskussion über problemadäquate Spitzenkennzahlen wie EKP-, FKP-, GKP-Rentabilität, Cash-Flow oder für eine Diskussion zu der Vielzahl möglicher Kapital-, Erfolg- und Liquiditätsdefinitionen. 184 Alewell (1986, S. 49) fordert für Kennzahlen eine exakte Definition, ein Aussageziel und Hinweise auf die Begrenzungen in der Aussagefähigkeit durch Erfassungs- und Bearbeitungsprobleme und generelle sowie situationsbedingte Störfaktoren.
94
C. Ganzheitliches Ranking-Verfahren
zesse fehlt (Bamberg und Coenenberg 1994, S. 30). Fehlt eine geeignete Grundlage für die Erhebung einer Kennzahl, so darf sie nicht Bestandteil eines Kennzahlensystem sein. In diesem Fall sind gegebenenfalls das Ranking-Ziel, die Ranking-Zielgruppe oder die Ranking-Objektmenge geeignet einzuschränken. Qualitative Kennzahlen können operational sein, wenn ihre Ausprägungen z. B. durch eine Kennzahlinterpretation in Skalen mit operationalen Maßeinheiten transformierbar sind. Quantitative Kennzahlen können nicht operational sein, wenn die Kennzahlwerte nicht empirisch erhoben werden können. Nicht operationale Kennzahlen müssen durch operationale Kennzahlen ersetzt werden. Die Forderung der Operationalität einer Kennzahl beinhaltet auch die Forderung einer geringen Manipulationsmöglichkeit.185 Ein Kennzahlensystem ist informal, wenn die Kennzahlenwerte bei gegebener Ranking-Zielgruppe, Ranking-Objektmenge, Wirkungsmodell und Zielsystem zwischen den Ranking-Objekten diskriminieren und jede Kennzahl durch die Ranking-Zielgruppe einheitlich interpretiert wird. Die Kennzahlenwerte diskriminieren zwischen den Ranking-Objekten, wenn sich die Ranking-Objekte in den Kennzahlenwerten unterscheiden. Definition 13 Präferenzrelationen: ®: Indifferenz, μ: strikte Präferenz, ©: schwache Präferenz.
Eine Ranking-Zielgruppe ist bei gegebenem Ranking-Ziel, Ranking-Objektmenge, Wirkungsmodell, Zielsystem und Kennzahlensystem zwischen des Kennzahlensystems x und x 0 indifferent den Kennzahlenwerten 0 x ® x , wenn sie diesen beiden Kennzahlenwerten den gleichen Wert oder 0 Nutzen beimisst. Sie präferiert die Kennzahlenwerte x gegenüber x 0 x μ x , wenn sie den Kennzahlenwerten x einen größeren Nutzen oder Wert beimisst als den Kennzahlenwerten x 0 (strikte Präferenz). Misst sie den Kennzahlenwerten x mindestens den Nutzen oder Wert der Kennzahlenwerte x 0 bei x © x 0 bei, so handelt es sich um eine schwache Präferenz. Definition 14 Präferenzunabhängigkeit: Eine Kennzahl xi ist präferenzunabhängig von den Kennzahlen xj ; j ã 1; :::; n; j 6ã i, falls für je zwei zulässige Kennzahlenwerte x 1 ; :::; x n und x 01 ; :::; x 0n gilt: 185 Die Produzenten der Ranking-Objekte können versuchen die Kennzahlwerte durch ein strategisches Anpassungsverhalten zu manipulieren. Siehe auch Abschnitt F.III.1.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
95
0
0 0 1 0 1 0 1 1 x1 x1 0 x1 x1 B . C B . C B . C B . C B .. C B .. C B .. C B .. C B B C B C C B C B B 0 C B 0 C C B C Bxi1 C Bxi1 C Bxi1 C Bxi1 C B B C B C C B C B B C B C C B 0 C B x i C © B x 0i C , B x i C © B x i C: B B 0 C B 0 C C B C Bxiþ1 C Bxiþ1 C Bxiþ1 C Bxiþ1 C B B C B C C B C B . C B . C B . C B . C B . C B . C B . C B . C @ . A @ . A @ . A @ . A xn
xn
x 0n
x 0n
Eine Kennzahl xi ist präferenzunabhängig von den Kennzahlen xj ; j ã 1; :::; n; j 6ã i, wenn die bedingte Präferenz bei der Kennzahl xi unabhängig von den Präferenzen bei den übrigen Kennzahlen ist. Unterscheiden sich zwei Kennzahlenwerte nur in der Kennzahl xi und wird eine Ausprägung schwach gegenüber der anderen präferiert, so muss diese Präferenz für alle zulässigen Kennzahlenwerte x 01 ; :::; x 0i 1 ; x 0i þ 1 ; :::; x 0n erhalten bleiben. Falls jede Kennzahl xi präferenzunabhängig von den übrigen Kennzahlen xj ; j ã 1; :::; n; j 6ã i, ist, liegt der Fall der gegenseitigen Präferenzunabhängigkeit vor. Nur für den Fall der gegenseitigen Präferenzunabhängigkeit eines Kennzahlensystems, kann jede Kennzahl unabhängig von den übrigen Kennzahlen interpretiert werden. Nur in diesem Fall ist es entscheidungslogisch zulässig, den Gesamtwert eines Ranking-Objektes aus der Aggregation von Teilwerten zu ermitteln (Strebel 1978, S. 2182). Die gegenseitige Präferenzunabhängigkeit ist eine notwendige Voraussetzung für eine Dekomponierbarkeit einer Präferenz in voneinander unabhängige Einzelpräferenzen. Sie kann durch eine geeignete Redefinition des Kennzahlensystems, z. B. durch eine Zusammenfassung der präferenzabhängigen Kennzahlen zu präferenzunabhängigen künstlichen Kennzahlen, stets erreicht werden. In der Literatur zur multi-attributiven Nutzentheorie gilt ein präferenzabhängiges Kennzahlensystem als ein fehlerhaft formuliertes Kennzahlensystem, in dem entweder entscheidungsrelevante Kennzahlen nicht berücksichtigt wurden oder entscheidungsirrelevante Kennzahlen Bestandteil des Kennzahlensystems sind (von Nitzsch 1994, S. 3–4, 78–82). Bei präferenzabhängigen Kennzahlen sind die wirksamen Gewichtungsfaktoren von den durch die Ranking-Zielgruppe bei der Bestimmung eines Ranking angegebenen Gewichten verschieden. Dies kann zu systematischen Fehlern bei der Ermittlung der Präferenzen führen. Im Unterschied zur Präferenzabhängigkeit, die nur subjektiv aus der Präferenzstruktur einer Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Wirkungsmodell und Ranking-Objekten ableitbar ist, ist eine empirische Abhängigkeit objektiv gegeben. Empirische Abhängigkeiten zwischen Kennzahlen implizieren oft die Präferenzabhängigkeit eines
96
C. Ganzheitliches Ranking-Verfahren
Kennzahlensystems. Mindestens eine entscheidungsrelevante Komponente wird dann durch mehr als eine Kennzahl gleichzeitig erfasst. Bei der Bestimmung einer Kennzahlinterpretation und eines Ranking wird durch diese „verdeckte Abhängigkeit“ bei komplementärer empirischer Abhängigkeit diese Komponente übergewichtet und bei konkurrierender Abhängigkeit untergewichtet. Ein Kennzahlensystem ist minimal, wenn es unter der Menge der möglichen bzw. äquivalenten Kennzahlensystemen die geringste Anzahl von Kennzahlen aufweist. Ein effizientes Kosten-Nutzen-Verhältnis ist eine ökonomische Forderung. Die Kennzahlenwerte müssen mit einem ökonomisch vertretbaren Aufwand in vertretbarer Zeit ermittelbar sein (Stehling 1994). In der Praxis tritt das Problem der problemadäquaten Anzahl von Kennzahlen auf (Strebel 1975, S. 57). Mit zunehmender Anzahl der Kennzahlen wächst der Erhebungsaufwand an, der sich häufig nicht mehr durch eine Verbesserung der Güte eines Ranking ökonomisch rechtfertigen lässt, und die Gefahr von „unerwünschten technologischen und nutzenabhängigen Abhängigkeiten“ zwischen den Kennzahlen nimmt zu, da es schwieriger wird, die Kennzahlen „sauber gegeneinander abzugrenzen“. Verfahren zur Bestimmung eines Kennzahlensystems Die Bestimmung eines Kennzahlensystems einer Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Ranking-Objekten, Wirkungsmodell und Zielsystem kann z. B. auf der Basis von wahrgenommenen Mängeln in einer Entscheidungssituation, einer Analyse diskriminierender Unterschiede zwischen den Ranking-Objekten, auf der Basis strategischer Ziele, externer Vorgaben, einer Auswahl von Kennzahlen aus problemspezifischen bzw. wirkungsmodellgestützten Kennzahlenkatalogen,186 einer interaktiven Ermittlung einer Kennzahlenliste oder einer interaktiven Ermittlung einer Zielhierarchie geschehen.187 Es existieren unterschiedliche softwaregestützte Programme, mit deren Hilfe eine Ranking-Zielgruppe ein Ziel- und Kennzahlensystem interaktiv konstruieren kann. Beispiele sind HISTRA (Eisenführ und Weber 1994, S. 69) und MAUD (Humphreys und McFadden 1980, von Nitzsch 1994). 186
Problemspezifische Kennzahlenkataloge dienen der „Bestandsaufnahme aller für die Bewertung eines Projektes relevanten Gesichtspunkte, verbunden mit einer groben Beurteilungsskala für jeden Beurteilungsgesichtspunkt“ (Strebel 1975, S. 31). 187 „Wer die Ziele formuliert, sollte sich fragen, welche Personen von den Konsequenzen der Entscheidung betroffen sind und welche Ziele diese Personen haben könnte“ (Eisenführ und Weber 1994, S. 54).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
97
Bei einem deskriptiven Ranking kann ein Kennzahlensystem empirisch bestimmt werden, z. B. durch den Einsatz statistischer Methoden oder Verfahren der künstlichen Intelligenz. In diesem Fall kann die Validität und Reliabilität eines Kennzahlensystem durch statistische Maße angegeben werden. Bei einem normativen und präskriptiven Ranking kann ein Kennzahlensystem z. B. durch einen iterativen Prozess aus einer Befragung der Ranking-Zielgruppe, einer Kritik durch Experten und einer Überarbeitung des Kennzahlensystems bestimmt werden. Bei den softwaregestützten, interaktiven Verfahren wird ein Kennzahlensystem z. B. durch einen wiederholten Diskriminanzvergleich ausgewählter Ranking-Objekte oder durch Kreativitätstechniken ermittelt. Bei einem Diskriminanzvergleich wird die Ranking-Zielgruppe befragt, in welchen entscheidungsrelevanten Kennzahlen sich die ausgewählten Ranking-Objekte unterscheiden. Statistische Diskriminanz- und Korrelationsmaße geben Hinweise auf die Vollständigkeit und die Präferenzunabhängigkeit eines vorläufigen Kennzahlensystems. Diese Kennzahlensysteme sind subjektiv, da oft eine Vielzahl möglicher Kennzahlensysteme die zielrelevanten Konsequenzen einer Ranking-Objektmenge repräsentieren und die Entscheidung für das „repräsentativste“ Kennzahlensystem in den seltensten Fällen eindeutig ist. Eisenführ und Weber (1994, S. 51–69) bemerken, dass die Ermittlung eines (präskriptiven) Kennzahlensystems „mehr Kunst als Wissenschaft“ ist. Ein häufig angewandtes präskriptives Verfahren ist die Ableitung eines Kennzahlensystems aus einer Zielhierarchie.188 Die Ermittlung einer Zielhierarchie kann bottom-up durch eine stufenweise Zusammenfassung von Instrumentalzielen zu einem Zielsystem, top-down durch eine stufenweise Zerlegung eines Zielsystems in Instrumentalziele oder durch hybride Verfahren geschehen. Ein Instrumentalziel ist ein Unterziel, das „wesentlich“ zur Erreichung eines Oberzieles beiträgt.189 Durch jede Zerlegung eines Zieles in weitere Instrumentalziele wird die Bedeutung des Oberzieles näher spezifiziert. Es wird die minimale Anzahl präferenzunabhängiger Instrumentalziele gesucht, die alle wesentlichen Eigenschaften des Oberzieles weiter konkretisieren und in einer Ziel-Mittel-Beziehung stehen. Eine Zerlegung stoppt auf den Hierarchiestufen, auf denen ein Instrumentalziel durch Kennzahlen operationalisiert werden kann, die eine Messung der Ausprägung des Instrumentalzieles definieren.190 Die Kennzahlen der untersten Hierarchieebenen bilden das Kennzahlensystem.191 188 Siehe Keeney und Raiffa (1993, S. 41–49) und die dort angegebene Literatur sowie Keeney (1992b), Eisenführ und Weber (1994). 189 Ein Unterziel könnte z. B. dann als „wesentlich“ angesehen werden, wenn die Frage „Würde ohne dieses Unterziel die Gefahr bestehen, dass sich ein anderes Ranking ergibt?“ bejaht werden muss („test of importance“).
98
C. Ganzheitliches Ranking-Verfahren
Die Überprüfung eines Kennzahlensystems auf Vollständigkeit und Präferenzunabhängigkeit ist bei einer Zielhierarchie oft einfacher vorzunehmen als bei einer Kennzahlenliste. Dazu werden die Zielbeziehungen auf einer Hierarchiestufe und zwischen verschiedenen Hierarchiestufen analysiert. Zwischen zwei Zielen können als mögliche Beziehungen Indifferenz, Komplementarität (symmetrische, asymmetrische) und Konkurrenz bzw. Konflikt auftreten. Zwei Ziele verhalten sich zueinander indifferent, wenn die Ausprägung eines Zieles ohne Einfluss auf die Ausprägung des anderen Zieles ist.192 Zwei Ziele verhalten sich zueinander komplementär, wenn die Ausprägung eines Zieles auch die Ausprägung des anderen Zieles erhöht. Zwei Ziele verhalten sich zueinander konfliktär, wenn die Ausprägung eines Zieles die Ausprägung des anderen Zieles veringert. Ein Beispiel für einen Zielkonflikt ist z. B. die ökonomische Beziehung zwischen Rentabilität und Liquidität. Bei symmetrischer Komplementarität zwischen zwei Instrumentalzielen kann man eines entfernen. Asymmetrische Komplementarität zwischen zwei Zielen liegt vor, wenn die Ausprägung eines Zieles die Ausprägung des anderen Zieles erhöht, aber nicht umgekehrt. Asymmetrisch komplementäre Ziele stehen in einer Ziel-Mittel-Beziehung, d. h. in einer Oberziel-Unterziel-Hierarchie. Jedes Unterziel bzw. Instrumentalziel beschreibt eine Eigenschaft eines übergeordneten Zieles, dessen Operationalisierbarkeit dadurch erhöht wird. Die Gesamtheit der Instrumentalziele bildet ein Ziel-Mittel-Netzwerk, das es ermöglicht, die Entscheidung allein an den Instrumentalzielen der untersten Ebenen auszurichten.193 Eine Zielindifferenz, -komplementarität oder -konkurrenz muss sich nicht über den ge190 „The more an objectives hierarchy is subdivided, the easier it usually is to identify attribute scales that can be objectively assessed. When the hierarchy is limited, we often must resort to subjective measures of effectiveness . . . when we go down a hierarchy, there is no obvious point where we stop specifying the objectives. Our judgement must be used to decide where to stop the formalization by considering the advantages and disadvanteges of further specification . . . we must be pragmatic about the level of detail or specification we are prepared to assess“ (Keeney und Raiffa 1993, S. 45, 43). 191 Strebel (1978, S. 2183) schlägt vor diejenigen Kennzahlen für ein Kennzahlensystem auszuwählen, die das jeweils letzte Glied in einer Kette von Ursachen und Wirkungen bilden. Dies führt tendenziell zu einer Reduktion der Anzahl der Kennzahlen. 192 Die Präferenzunabhängigkeit von Zielen ist äquivalent mit ihrer paarweisen Indifferenz. 193 Ein Ziel-Mittel-Netzwerk, bei dem jeder „Beitrag eines beliebigen Zieles der Zielhierarchie zum Erfüllungsgrad eines höherrangigen Zieles seiner Mittel-ZweckKette“ quantifiziert ist, wird als Relevanzbaum bezeichnet. Bei der Relevanzbaumanalyse tritt zusätzlich zu dem horizontalen Amalgamierungsproblem eines Ranking ein vertikales Amalgamierungproblem auf. Relevanzbaumverfahren werden auch als mehrstufige Bewertungsverfahren, Scoring- und Ranking-Verfahren als einstufige Bewertungsverfahren bezeichnet (Strebel 1975, S. 141–146).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
99
samten Wertebereich der Ziele erstrecken. Gelten diese Zielbeziehungen nur für Teilbereiche, liegt partielle Zielindifferenz, -komplementarität oder -konkurrenz vor. Befinden sich in einem Kennzahlensystem präferenzabhängige Kennzahlen, so wird versucht, durch eine Zusammenfassung der präferenzabhängigen Kennzahlen zu einer übergeordneten künstlichen Kennzahl ein gegenseitig präferenzunabhängiges Kennzahlensystems zu erzeugen. Bei Vorliegen einer nur partiellen Präferenzunabhängigkeit kann durch eine Reduzierung der Ranking-Objektmenge auf die Objekte, deren Kennzahlenwerte innerhalb des Präferenzunabhängigkeitsbereich liegen, ein gegenseitig präferenzunabhängiges Kennzahlensystem erzeugt werden (Strebel 1975, S. 64–66).194 Kennzahlen sind oft nicht eindeutig bestimmbar und unterliegen neben dem zu messenden Ursache-Wirkungs-Zusammenhang noch weiteren Störeinflüssen. In den meisten Fällen werden mehrdeutige bzw. mehrschichtige, sich evtl. kompensierende, verstärkende oder ständig wechselnde UrsacheWirkungszusammenhänge mit einer Proxy-Kennzahl gemessen. So kann z. B. eine kurze Studiendauer Ausdruck für ein gut strukturiertes Studium, für eine auf das Wesentliche konzentrierte Prüfungsordnung oder für eine gute Betreuung durch Lehrende sein (Klostermeier 1994, S. 18). Eine empirische Überprüfung des Ursache-Wirkungs-Zusammenhangs lässt sich genau genommen nur dann vornehmen, wenn alle übrigen Ursachen-Wirkungszusammenhänge im Zeitablauf und bei allen Ranking-Objekten konstant bleiben (Baumbusch 1988, S. 60–64). Deshalb sind Globalgrößen wie die Eigenkapitalrentabilität als Proxy-Kennzahlen weniger geeignet als spezifische Kennzahlen mit wenigen Ursachen-Wirkungszusammenhängen.195 Durch diese Einschränkungen besteht jedoch die Gefahr, dass wichtige Einzelheiten der Entscheidungssituation nicht erfasst werden. Kromrey (2000a, S. 53–54) bemerkt, dass bei Evaluationen anstelle einer empirischen Überprüfung der Validität von Proxy-Kennzahlen oft ein Aushandlungsprozess zwischen den Beteiligten einer Evaluation steht oder sie 194 „So dürfte es häufiger der Fall sein, dass die Nutzenschätzungen der einzelnen Ergebnisse unterhalb bestimmter Mindestwerte und oberhalb bestimmter Höchstwerte der Ergebnisse voneinander abhängig sind, innerhalb dieser Anspruchsniveaugrenzen dagegen voneinander unabhängig sind. Durch explizite Berücksichtigung dieser mindestens geforderten bzw. maximal hingenommenen Ergebnisse wird der Raum zulässiger Aktionen von vornherein auf den Bereich nutzenunabhängiger Ergebnisse begrenzt“ (Bamberg und Coenenberg 1994). 195 „. . . die Aussagefähigkeit der Ergebnisse in dem Maße ansteigt, in dem man sich von einer Betrachtung nur globaler Größen mit vielschichtigen Ursachen-Wirkungs-Zusammenhängen . . . löst und spezielle Kennzahlen mit möglichst begrenzten Ursache-Wirkungs-Zusammenhängen vergleicht“ (Baumbusch 1988, S. 63).
100
C. Ganzheitliches Ranking-Verfahren
unter dem Gesichtspunkt leichter Messbarkeit ausgewählt werden. „Nicht nur ist die Validität solcher Indikatoren zweifelhaft (Wird damit wirklich die angezielte „Qualität“ gemessen?). Sie bergen auch die Gefahr der Fehlsteuerung, indem statt der gewünschten Qualität vor allem die leicht messbaren Sachverhalte optimiert werden . . . Die Entscheidung nach dem Konsensprinzip führt erfahrungsgemäß zur Einigung auf ein System von Indikatoren, dessen Anwendung am gegenwärtigen Zustand wenig bis gar nichts ändert“. 6. Kennzahlinterpretation In der Regel führen erst Interpretations- und Deutungsprozesse von Kennzahlen zu Entscheidungen, die unterschiedliche Ausgangslagen und Kontextfaktoren berücksichtigen (Heckhausen 1986, S. 38). Die Grundlagen für die Interpretations- und Deutungsprozesse stellen die Werturteile, die Perspektiven, die Verfahren und die Gedankengänge dar, auf denen die Interpretationen der Kennzahlwerte beruhen. Diese werden durch Kennzahlinterpretationen explizit dargelegt (Qualitätsanforderung N4 für Evaluationsverfahren). Die Kennzahlinterpretationen für ein Kennzahlensystem werden im Folgenden aus den Präferenzen der Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Wirkungsmodell, Ziel- und Kennzahlensystem abgeleitet. In der Präferenztheorie196 und in der Entscheidungstheorie wird eine Kennzahl durch eine Einzelpräferenzfunktion oder eine partielle Nutzenskala interpretiert. Ein Fundamental- oder Instrumentalziel wird durch eine Kennzahl und eine Höhenpräferenz auf den zulässigen Kennzahlwerten operationalisiert. D. h. ein Entscheidungsträger muss bezüglich aller zulässigen Kennzahlenwerte x i Präferenzrelationen besitzen. Die binären Präferenzrelationen müssen die Rationalitätspostulate Reflexivität, Vollständigkeit und Transitivität erfüllen.197 Diese Eigenschaften stellen die notwendigen und hinreichenden Bedingungen für eine Messung und Abbildung der Präferenzrelationen durch ordinale Präferenzfunktionen dar.198 Eine Kennzahlinter196 Die Grundlagen der Präferenztheorie wurden durch Vilfredo Pareto (1848– 1929) gelegt. 197 „Verletzungen der Transitivität kommen . . . in der Realität vor . . ., weil Ergebnisunterschiede oft erst jenseits bestimmter Fühlbarkeitsschwellen empfunden werden. Diese Beobachtung spricht indessen nicht gegen die Vernünftigkeit der Transitivität als normativem Postulat rationalen Verhaltens“ (Bamberg und Coenenberg 1994, S. 32). Theorien, die auch nicht-transitive Präferenzrelationen abbilden, werden unter dem Sammelbegriff Regret Theories zusammengefasst. Hier werden Handlungsalternativen nicht einzeln, sondern paarweise, in Abhängigkeit von einer zweiten Handlungsalternative, bewertet. Siehe z. B. Bell (1982), Loomes und Sudgen (1982) und Fishburn (1984). 198 Reflexive, vollständige und transitive binäre Präferenzrelationen werden als Ordnungsrelationen bezeichnet. Jede stetige Ordnungsrelation kann durch eine ordi-
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
101
pretation muss zusätzlich zur Ordnung zwischen zwei Kennzahlwerten auch die Stärke der Präferenz bzw. eine Ordnung zwischen den Differenzen zweier Kennzahlwerte repräsentieren.199 Somit werden auch an die Stärke der Präferenzrelation bzw. an die Präferenzrelation auf den Übergängen zwischen zwei Kennzahlwerten die Rationalitätspostulate Reflexivität, Vollständigkeit und Transitivität gestellt.200 Diese zusätzlichen Eigenschaften stellen die notwendigen und hinreichenden Bedingungen für eine Repräsentation der binären Präferenzrelationen durch kardinale Präferenzfunktionen dar. Durch eine Formalisierung der Präferenzen einer Ranking-Zielgruppe werden den zulässigen Kennzahlwerten Zielerreichungsgrade bzw. Nutzenwerte zugeordnet.201 Übertragen auf das ganzheitliche Ranking-Verfahren muss eine Kennzahlinterpretation die inhaltliche Bedeutung eines Kennzahlwertes durch eine Beziehung zwischen dem Kennzahlwert und dessen Zielerreichungsgrad herstellen. Die Kennzahlwerte werden durch eine Abbildung ihrer Semantik in fiktive Werte mit dem Ziel transformiert, die Sachlogik der ökonomischen Entscheidungssituation besser zu beschreiben. Die Notwendigkeit einer Kennzahlinterpretation ist in der Literatur unumstritten.202 Für eine Diskussion der Interpretations-, Fehler- und Vergleichsproblematik betriebswirtschaftlicher Kennzahlen siehe Baumbusch (1988, S. 53–118) und Meyer (1994, S. 24–29, 50–60). Eine Bewertung z. B. des wirtschaftlichen Erfolges eines Unternehmens erfordert die Interpretation z. B. des Return on Investment durch Zusatzinformationen wie Cash-Flow-Eigenkapitalrentabilität und Eigenkapitalquote (Baetge 1994, Botta 1993). Baum (1987, S. 30, 32–33) schildert Beispiele für Kennzahlinterpretationen bei der Bewertung der Bilanzbonität eines Unternehmens durch Rating-Agenturen wie Standard & Poor’s und Moody’s.203 „Die Bedeutung von Art und Ausstattung einer Anleihe nimmt mit der abnehmenden Bonität des Schuldners zu und nale Präferenzfunktion repräsentiert werden (Debreu). Ein Beispiel für eine nichtstetige Ordnungsrelation, die sich nicht durch eine Präferenzfunktion repräsentieren lässt, ist die lexikographische Ordnung. 199 „Da es bei Ordinalskalen nicht möglich ist, bei der Amalgamierung . . . gewichte zu berücksichtigen, kommen für Scoring-Modelle nur Kardinalskalen (Intervall- und Verhältnisskalen) in Betracht“ (Strebel 1975, S. 51). 200 Vgl. Eisenführ und Weber (1994, S. 97–99). 201 Inwieweit Ziele in zufriedenstellendem Ausmaß erreicht werden, ist keine Frage der Kennzahlenrechnung und ihrer Ergebnisse, sondern eine Frage der Kennzahlinterpretation (Gritzmann 1991, S. 42). 202 „Die Informationen bekommen volle Aussagekraft für einen Vergleich aber nur dadurch, dass sie differenziert erhoben werden und mit wesentlichen Zusatzinformationen verbunden werden können“ (Morwind 1995, S. 30). „Obviously, the data collected in an investigation of a program has no real value until it is interpreted“ (Lee 2000, S. 146).
102
C. Ganzheitliches Ranking-Verfahren
das Rating ist dann abhängig von den Bestimmungen in der Schuldverschreibungsurkunde“ (Baum 1987, S. 20). Heimes und Will (1995, S. 317– 318) fordern die Interpretation von Kennzahlwerten durch eine „Zuweisung von Nutzenwerten“. Trautvetter und Lust (1993, S. 545) bemerken, dass zur Beurteilung der Ertragskraft einer Lebensversicherung eine Betrachtung der Höhe des Gewinns nicht ausreicht, sondern um Angaben zu den möglichen Ursachen wie Art (ordentlich/außerordentlich) und Herkunft des Gewinns (Versicherungs- und Kapitalanlagebereich) ergänzt werden müssen. Heimes und Will (1995, S. 311) kritisieren, dass bei Trautvetter und Lust (1993) die Beurteilung der Qualität eines Lebensversicherers nicht das Unternehmenspotential und die Dienstleistungsqualität berücksichtigt. Baetge (1994, S. 1) weist darauf hin, dass in Geschäftsberichten die „wirtschaftliche Lage nur partiell ausgewiesen“ wird und wichtige qualitative Daten wie z. B. die Qualität des Managements, das technische Know-Know, die Marktstellung, die rechtlichen Bindungen und die Branchenkonjunktur für eine Interpretation der Bilanzkennzahlen erforderlich sind. Reichmann (1997, S. 63–64) schlägt vor, dem Anhang zum Jahresabschluss wesentliche, für erfolgs- und finanzwirtschaftliche Analysen erforderliche, qualitative und quantitative Informationen zu entnehmen. Heimes und Will (1995, S. 309–310) bemerken, dass Kennzahlen für Unternehmen in verschiedenen Branchen unterschiedliche Bedeutungen besitzen und ein potentieller Aktionär die Gewinnbeteiligung eines Versicherten anders beurteilt als ein potentieller Versicherungsnehmer. Die geschilderten Beispiele deuten darauf hin, dass eine Kennzahlinterpretation eine Erweiterung einer Höhenpräferenz bzw. einer Einzelpräferenzfunktion um qualitative und quantitative Zusatzinformationen erfordert, die für eine Interpretation der Kennzahlen bzw. für eine Ermittlung der k
Zielerreichungsgrade notwendig sind. Der Vektor €yi ã y1i ; :::; yi i ; ki 2 IN erfasse alle zur Interpretation der Kennzahl xi erforderlichen Zusatzinformak tionen. Formal kann man alle y1i ; :::; yi i als eigenständige Kennzahlen auf204 Die hier vorgeschlagene Trennung zwischen einer Haupt- und fassen. Zusatzinformationen zur Korrektur der Hauptinformation entspricht u. a. der Vorgehensweise bei einem Bond-Rating. 203
Eine Interpretation der Kennzahlen Verschuldungsgrad, Anspannungs- und Verschuldungskoeffizient erfolgt unter Einbeziehung der Fristigkeit der Schulden, der Herkunft der Fremdmittel, der Wettbewerbssituation in einer Branche und eines branchenweiten Vergleiches mit den Kennzahlwerten der Konkurrenten. Falls ein Unternehmen sich stagnierenden oder schrumpfenden Absatzmärkten gegenüber sieht, kann eine tiefgehende vertikale Integration ein Flexibilitätshemmnis darstellen und in einen Kostennachteil umschlagen. 204 Nach einer geeigneten Quantifizierung qualitativer Zusatzinformationen.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
103
Durch eine Erweiterung von Einzelpräferenzfunktionen um Referenzpunkte bzw. Anspruchniveaus wurde in der deskriptiven Entscheidungstheorie eine bessere Beschreibung menschlichen Entscheidungsverhaltens erzielt. Als Endowment effect bezeichnet Thaler (1980) die empirisch nachweisbare Abhängigkeit der Bewertung eines Geldbetrages von einem Referenzpunkt des Entscheiders. „Die Präferenzen sind unterschiedlich, je nach dem, ob der Entscheider etwas erhält, das heißt sich vom Referenzpunkt aus gesehen im Gewinnbereich befindet, oder ob er etwas abgeben muss, das heißt vom Referenzpunkt aus gesehen einen Verlust erleidet“ (Eisenführ und Weber 1994, S. 328). In der Prospect Theory (Kahneman und Tversky 1979) wird der Wert oder Nutzen einer Handlungsalternative nicht absolut, sondern relativ zu einem, zuvor in der Coding-Phase eines Entscheidungsprozesses ermittelten, Referenzpunkt bestimmt.205 In den Disappointment Theories von z. B. Bell (1985), Loomes und Sudgen (1986) oder Gul (1991) führt eine Überschreitung eines Anspruchsniveaus zur „Freude“, eine Unterschreitung zu einer „Enttäuschung“. „Der Nutzen einer Konsequenz . . . wird als Summe des Wertes der Konsequenz plus der für diese Konsequenz möglichen Enttäuschung bzw. Freude definiert“ (Eisenführ und Weber, S. 343). k Der Vektor €a i ã a 0i ; :::; a i i ; ki 2 IN enthalte Informationen über die Mindestanforderungen der Ranking-Zielgruppe hinsichtlich der Kennzahl xi und der Zusatzinformation €yi bei gegebenem Kennzahlensystem. Die Anspruchsniveaus können als Nebenbedingungen die Ranking-Objektmenge einschränken,206 ermöglichen die Anwendung von ad-hoc Entscheidungsprozeduren, bei denen die Präferenzstruktur nicht explizit formalisiert werden kann207 und begründen empirisch den Nullpunkt einer Kennzahlinterpretation. Die folgende Definiton der Differenzunabhängigkeit ist eine Übertragung der weak difference independence von Dyer und Sarin (1979, S. 814). Siehe auch von Nitzsch (1991, S. 45).
205 Siehe auch Tversky und Kahneman (1991) für einen Referenzpunkt bei Entscheidungen unter Sicherheit und einem Endowment effect. 206 Anspruchsniveaubezogene Zielsetzungen besitzen dann eine große praktische Bedeutung, wenn es sich um die Lösung eines Entscheidungsproblems mit unbekannten Handlungsalternativen handelt. Angemessenheitsvorstellungen dienen als Stopregeln zur Vereinfachung eines Such- bzw. Informationsgewinnungsprozesses. Für den Fall, dass die Überschreitung eines Schwellenwertes bei einer Kennzahl über die Aufnahme eines Objektes in die Ranking-Objektmenge entscheidet, sollte das Anspruchsniveau mit diesem Schwellenwert identisch sein. 207 Siehe Keeney und Raiffa (1993, S. 73–74).
104
C. Ganzheitliches Ranking-Verfahren
Definition 15 Differenzunabhängigkeit: Eine Kennzahl xi und ihre Zusatzinformationen €yi sind differenzunabhängig von den übrigen Kennzahlen xj mit ihren Zusatzinformationen €yj ; j ã 1; :::; n; j 6ã i, falls die bedingte Ordnung der Präferenzunterschiede in der Kennzahl xi und ihrer Zusatzinformationen €yi unabhängig von den Kennzahlwerten xj und ihren Zusatzinformationen €yj sind, d. h. falls für alle zulässigen x i ; €y i ; x 0i ; €y 0i ; gilt: y 000 x 00i ; €y 00i ; x 000 i ; € i 00
1 0 0 11 00 1 11 x1 x1 x1 x1 C BB C B €y CC BB €y C B €y CC BB €y 1 C B 1 CC BB 1 C B 1 CC C BB B B CC BB C CC BB . C B .. CC BB .. C B .. CC BB .. C B B B C C CC B C BB B . CC B . C B . CC C BB C B B B B C C CC B B B xi 1 C B x i 1 CC B x i 1 CC BB x i 1 C C BB B B CC C CC BB C BB C B €y B €y i 1 CC C BB €y i 1 C BB €y i 1 C B i 1 CC B C CC BB C BB C B 0 CC BB 00 C B 000 CC BB x i C B B B C C CC x x x B i CC C BB B i C B i CC C!B BB ©B B €y 0 CC BB €y 00 C ! B €y 000 CC , BB €y i C C B i CC BB i C B i CC C BB B B CC BB C CC BB x i þ 1 C B B B x i þ 1 CC C C B x x i þ 1 i þ 1 C BB C BB B B C C CC C BB B €y B €y CC BB €y C CC BB €y i þ 1 C i þ 1 CC iþ1C i þ 1 CC B B B B C BB B B CC C CC BB BB . C C B .. CC BB .. C B .. CC BB . C B B B C C CC B BB . C B . CC B . CC BB . C C BB B B B CC C CC B BB x m C @ x m AC @ x m AA A @@ A @@ x m A €y m €y m €y m €y m 00
0 0 11 00 0 1 0 0 11 1 x 01 x1 x1 x1 B €y 0 CC BB €y 0 C B €y 0 CC BB €y 0 C B 1 CC BB 1 C B 1 CC BB 1 C B B C CC BB C CC BB B .. CC BB .. C B .. CC BB .. C B . CC BB . C B . CC BB . C B B C CC BB C CC BB B 0 CC BB 0 C B 0 CC BB 0 C B x i 1 CC BB x i 1 C B x i 1 CC BB x i 1 C B B CC BB C CC BB 0 C B €y 0 CC BB €y 0 C B €y 0 CC C BB €y B i 1 CC BB i 1 C B i 1 CC BB i 1 C B 0 CC BB 00 C B 000 CC C BB B x CC BB x C B x CC BB x i C C ! B i CC © BB i C ! B i CC: BB B €y i 0 CC BB €y 00 C B €y 000 CC BB €y i C B B i CC C CC BB i C BB B 0 CC BB 0 C B 0 CC BB 0 C B x i þ 1 CC BB x i þ 1 C B x i þ 1 CC BB x i þ 1 C B B C CC BB C CC BB B €y 0 CC BB €y 0 C B €y 0 CC BB €y 0 C B i þ 1 CC BB i þ 1 C B i þ 1 CC BB i þ 1 C B B C CC BB C CC BB B .. CC BB .. C B .. CC BB .. C B . CC BB . C B . CC BB . C B B C CC BB C CC BB B 0 CC BB 0 C B 0 CC BB 0 C @ x m AA @@ x m A @ x m AA @@ x m A €y 0m €y 0m €y 0m €y 0m
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
105
Eine gegenseitige Differenzunabhängigkeit liegt vor, wenn jede Kennzahl xi mit ihrer Zusatzinformation €yi differenzunabhängig von den übrigen Kennzahlen xj und deren Zusatzinformationen €yj ; j 6ã i; i ã 1; :::; n ist. Anmerkung 4 Existenz einer Kennzahlinterpretation Für den Fall der gegenseitigen Differenzunabhängigkeit existieren Kennzahlinterpretationen, und ein Ranking kann durch Kennzahlinterpretationen und eine Aggregationsvorschrift dekomponiert werden. Von Winterfeldt und Edwards (1986, S. 309) bemerken, dass durch eine geeignete Redefinition des Zielsystems in praktisch jedem Anwendungsfall ein präferenz- und differenzunabhängiges Kennzahlensystem bestimmt werden kann.
Für den Beweis siehe die Literaturhinweise in Fußnote 3 in von Nitzsch (1994, S. 45). Für die Existenz einer „nicht meßbaren“ Kennzahlinterpretation ist die gegenseitige Präferenzunabhängigkeit notwendig und hinreichend (von Nitzsch 1994, S. 44). Für die Existenz einer Kennzahlinterpretation gelten dieselben Kriterien wie für die Existenz eines Ranking bzw. für die Möglichkeit einer Dekomponierung eines Ranking in Kennzahlinterpretationen und eine Aggregationsvorschrift (siehe Abschnitt C.III.7). Anmerkung 5 Die gegenseitige Präferenzunabhängigkeit sollte nicht mit der statistischen Unabhängigkeit verwechselt werden, die bei statistischen Verfahren der multi-variaten Datenanalyse wie Regressionsanalyse, Varianzanalyse, Faktorenanalyse, multidimensionale Skalierung gefordert wird (Nieschlag, Dichtl und Hörschgen 1991, Backhaus, Erichson, Plinke und Weiber 1994, Opitz 1978). Definition 16 Kennzahlinterpretation: zi ã fi Èxi ; €yi ê 2 È0;1ê; y€i ã y1i ; :::; y ki i ; €a i ã a 0i ; :::; a ki i : zi > zj , Èxi ; €yi ê μ Èxj ; €yj ê; zi ã zj , Èxi ; €yi ê ® Èxj ; €yj ê; zi < zj , Èxj ; €yj ê μ Èxi ; €yi ê; zi z 0i > zj z 0j , Èxi ; €yi ê ! Èx 0i ; €y 0i ê μ Èxj ; €yj ê ! Èx 0j ; €y 0j ê ; zi z 0i ã zj z 0j , Èxi ; €yi ê ! Èx 0i ; €y 0i ê ® Èxj ; €yj ê ! Èx 0j ; €y 0j ê ; zi z 0i < zj z 0j , Èx 0i ; €y 0i ê ! Èxi ; €yi ê μ Èx 0j ; €y 0j ê ! Èxj ; €yj ê ; fi È€a i ê ã 0.
Die Kennzahlen xi ; i ã 1; :::; n eines Kennzahlensystems werden oft auf verschiedenen Skalen in unterschiedlichen Maßeinheiten und mit verschie-
106
C. Ganzheitliches Ranking-Verfahren
denen Monotonieeigenschaften gemessen.208 Dies führt oft zu einer Inkommensurabilität der Skalen. Durch eine Kennzahlinterpretation werden auf das Intervall È0;1ê normierte Verhältnisskalen mit gleichen Monotonieeigenschaften erzeugt. Dies sind notwendige Voraussetzungen für die kardinale Vergleichbarkeit von Kennzahlen.209 Der Raum der möglichen Kennzahlenn werte wird in den „Einheits-“Raum ½0;1Å der Zielerreichungsgrade abgebildet. Durch die Normierung ist eine Kennzahlinterpretation eindeutig bestimmt. Eine Kennzahlinterpretation zi ist eine Funktion, die einer Kennzahl xi und ihren Zusatzinformationen €yi einen (reellen) Zielerreichungsgrad im Intervall ½0;1Å derart zuordnet, dass ihr Zielerreichungsgrad genau dann größer als der Zielerreichungsgrad der Kennzahl xj und deren Zusatzinformationen €yj ist, falls die Ranking-Zielgruppe Èxi ; €yi ê gegenüber Èxj ; €yj ê strikt präferiert. Genau dann wenn die Ranking-Zielgruppe zwischen Èxi ; €yi ê und Èxj ; €yj ê indifferent ist, werden der Kennzahl xi mit ihren Zusatzinformationen €yi und der Kennzahl xj mit ihren Zusatzinformationen €yj durch die Kennzahlinterpretation zi derselbe Zielerreichungsgrad zugeordnet. Die Zielerreichungsgraddifferenz zi z 0i ist bei einer Kennzahlinterpretation genau dann größer als die Zielerreichungsgraddifferenz zj z 0j , wenn die Ranking-Zielgruppe den Übergang von der Kennzahl xi bei der Zusatzinformation €yi zur Kennzahl x 0i mit der Zusatzinformation €y 0i strikt präferiert gegenüber dem Übergang von der Kennzahl xj bei der Zusatzinformation €yj zur Kennzahl x 0j mit der Zusatzinformation €y 0j . Genau dann wenn die RankingZielgruppe zwischen dem Übergang von der Kennzahl xi bei der Zusatzinformation €yi zur Kennzahl x 0i mit der Zusatzinformation €y 0i und dem Übergang von der Kennzahl xj bei der Zusatzinformation €yj zur Kennzahl x 0j mit der Zusatzinformation €y 0j indifferent ist, sind die Zielerreichungsgraddifferenzen zi z 0i ; zj z 0j gleich. Die Gefahren einer Bildung und Verwendung wirtschaftlicher Kennzahlen fasst Stehling (1994, S. 15–19) zusammen als Reduktion komplexer ökonomischer Sachverhalte auf eine (Zahlen-)Dimension, Überbetonung quantitativ verfügbarer Informationen zu Lasten qualitativer Information, fragwürdige Vergleiche bei der Abbildung strukturell unterschiedlicher Sachverhalte auf identische Maßeinheiten, Anschein der Zulässigkeit von mathematischen Operationen (insbesondere Summen- und Mittelwertbildung) auf die in Zahlen ausgedrückten Informationen (dies ist jedoch nur 208
Vgl. Strebel (1975, S. 12, 30). „Das besondere Problem der Modelle für mehrdimensionale Zielsysteme liegt in der notwendigen Transformation von Intensitäten verschiedener Kriterien in Nutzengrößen, die dazu dient, Erfüllungsgrade verschiedener Kriterien im Hinblick auf ein Projekt vergleichbar zu machen“ (Strebel 1975, S. 41). 209
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
107
bei kardinalskalierten Kennzahlen der Fall) und Vortäuschung von Genauigkeit, Objektivität und Wissenschaftlichkeit. Bei dem ganzheitlichen Ranking-Verfahren wird die strukturelle Vergleichbarkeit der Handlungsalternativen durch die Bildung von Ranking-Objektmengen erzeugt; ein Wirkungsmodell garantiert eine modellgestützte Komplexitätsreduktion und Ableitung eines Kennzahlensystems. Vergleichbare, kardinale Zielerreichungsgrade werden unter Einbeziehung qualitativer Zusatzinformationen und Anspruchsniveaus durch eine Kennzahlinterpretation erzeugt. Verfahren zur Bestimmung einer Kennzahlinterpretation Die Verfahren zur Bestimmung einer Kennzahlinterpretation dienen der Abbildung und der Messung von Präferenzen und Zielerreichungsgraden.210 Da eine Kennzahlinterpretation die Präferenz einer Ranking-Zielgruppe abbilden soll, muss ihre Bestimmung präferenzbasiert erfolgen. Hierbei können Erkenntnisse der normativen und präskriptiven Entscheidungstheorie dazu beitragen, die Rationalität von Entscheidungsprozessen durch eine Korrektur menschlich intuitiver Verhaltensabweichung von rationalen Normen zu gewährleisten.211 Es genügt nicht, eine Ranking-Zielgruppe zwischen alternativen Formen einer Kennzahlinterpretation, wie z. B. konkaven und konvexen Funktionen entscheiden zu lassen. Falls zur Interpretation einer Kennzahl xi keine Zusatzinformationen erforderlich sind, kann eine Kennzahlinterpretation durch Verfahren der präskriptiven Entscheidungstheorie zur Bestimmung einer Wertfunktion bei einem Ziel unter Sicherheit ermittelt werden. Durch die Zusatzinformationen €yi wird zi zu einer multi-attributiven Funktion, bei der jedoch die Zusatzinformationen €yi präferenzabhängig sind von der Kennzahl xi . Somit können die in Abschnitt C.III.7. beschriebenen Verfahren der multi-attributiven Entscheidungstheorie, die eine gegenseitige Präferenzunabhängigkeit aller Kennzahlen voraussetzen, nicht zur Bestimmung einer multi-attributiven Kennzahlinterpretation angewendet werden, sondern nur alternative Verfah210 Die Abbildung und die Messung von Präferenzen und Zielerreichungsgraden stellt ein „zentrales Anliegen“ der Entscheidungsforschung dar (Eisenführ und Weber 1994, S. 99). 211 Entscheidungsträger besitzen selbst in einfachen Entscheidungssituationen oft keine exakten Präferenzen. Die Präferenzen müssen im Prozess der Entscheidungsfindung konstruiert werden und „sind daher stark davon abhängig, zu welchem Zeitpunkt, mit welcher Methode, in welcher Darstellungsform usw. der Entscheider befragt wird. Der Entscheider besitzt bestimmte Heuristiken (Verfügbarkeitsheuristiken, Repräsentativitätsheuristiken und Anchoring-and-adjustment-Heuristiken), die er heranzieht, wenn er Werturteile abgeben soll“ (Eisenführ und Weber 1994, S. 332).
108
C. Ganzheitliches Ranking-Verfahren
ren, z. B. aus der axiomatischen Wirtschaftstheorie. Deshalb sollte überprüft werden ob durch eine Redefinition des Kennzahlensystems die Anzahl der erforderlichen Zusatzinformationen zur Interpretation einer Kennzahl reduziert werden kann. Anmerkung 6 In der präskriptiven Entscheidungstheorie werden streng monotone Einzelpräferenzfunktionen gefordert. Nicht monotone Einzelpräferenzfunktionen stellen ein Indiz für ein fehlerhaftes Ziel- und Kennzahlensystem dar. Hier wird eine Aufspaltung einer stückweise streng monotonen Einzelpräferenzfunktion zi Èxi ê in die streng monotonen Einzelpräferenzfunktionen zi1 Èxi1 ê; zi2 Èxi2 ê; ::: empfohlen.
Die Verfahren der präskriptiven Entscheidungstheorie zur Bestimmung einer Wertfunktion bei einem Ziel unter Sicherheit werden in Rating-Verfahren, Indifferenzverfahren und Verfahren der funktionalen Vorbestimmung unterteilt (Dyer und Sarin 1982, S. 877). Der beste Kennzahlwert x i wird durch eine Wertfunktion auf 0 und der schlechteste Kennzahlwert xþ i auf 1 þ ; x Å ist, desto abgebildet. Je kleiner der Wertebereich einer Kennzahl ½x i i leichter lässt sich eine Kennzahlinterpretation ermitteln.212 Bei einem Rating-Verfahren werden den Kennzahlwerten direkt kardinale Präferenzstärken (Scores) aus dem Intervall ½0;1Å zugeordnet.213 Bei einer großen Zahl verschiedener Kennzahlwerte wird eine Auswahl an Werten getroffen, die relativ gleichmäßig im Intervall der Kennzahlwerte verteilt sind, und der Graph der Kennzahlinterpretation wird anschließend z. B. durch Interpolationsverfahren oder statistische Verfahren festgelegt. Bei einem Indifferenzverfahren wird aus den Indifferenzaussagen einer Ranking-Zielgruppe zu einfachen Paarvergleichen zwischen Kennzahlwerten die Kennzahlinterpretation abgeleitet. Es werden jeweils Ausprägungsintervalle gesucht, die identische Präferenzunterschiede implizieren. Bei der Difference Standard Technique wird ein Kennzahlwert x1i beliebig ! x1i ® festgelegt und derjenige Kennzahlwert x2i bestimmt, für den x i 1 wird als Normübergang bezeichnet. Anschliex1i ! x2i gilt. x i ! xi ßend wird der Kennzahlwert x3i bestimmt, für den x1i ! x2i ® x2i ! x3i d gilt. Dies wird solange wiederholt, bis x Di ã xþ i . Es folgt zi x i ã 212
Vgl. Scoring-Paradox (Eisenführ und Weber 1994, S. 137–139) und die Ausführungen zur partiellen, gegenseitigen Differenzunabhängigkeit von Kennzahlen. 213 Bei Scoring-Modellen werden die Kennzahlwerte zunächst in Klassen von Nutzengrößen (Scores) transformiert, die anschließend zu einem Gesamtnutzen amalgiert werden (Strebel 1975, S. 34–36). Scoring-Modelle wurden ursprünglich für Projektwahlprobleme im Forschungs- und Entwicklungsbereich und zur Bewertung neuer Produktideen konzipiert. Sie gleichen formal den Verfahren der analytischen Arbeitsbewertung zur anforderungsgerechten Entlohnung.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
109
d=D; d ã 1; :::; D. Bei der Midvalue Splitting Technique bzw. der Bisection þ 0:5 Method wird das Intervall x in die zwei Intervalle x i ; xi zunächst i ; xi 0:5 þ ; xþ mit x ® x 0:5 aufgeteilt. Daraus folgt und x 0:5 i i ! xi i ! xi i 0:5 0:5 und zi x i ã 0:5. In analoger Weise werden für die Intervalle x i ; xi 0:5 þ 0:25 0:75 0:25 ã 0:25 x i ; xi die Kennzahlwerte x i und x i bestimmt mit zi x i 0:75 ã 0:75. Dies wird solange wiederholt, bis eine ausreichende und zi x i Zahl von Stützpunkten ermittelt wurde. Bei Indifferenzverfahren wird die Konsistenz der Indifferenzaussagen214 anhand von Paarvergleichen, die nicht zur Ermittlung der Kennzahlinterpretation verwendet wurden, überprüft. Treten Inkonsistenzen auf, wird durch einen iterativen Prozess die Kennzahlinterpretation solange verändert, bis keine Inkonsistenzen mehr festgestellt werden.215 Die Difference Standard Technique und die Midvalue Splitting Technique sind auch zur Bestimmung einer Kennzahlinterpretationen zi geeignet, die nicht monoton in den Kennzahlwerten xi ist. In þ ; x in Teilintervalle zerlegt werden, in diesem Fall muss das Intervall x i i denen die Kennzahlinterpretation zi stückweise monoton steigend oder monoton fallend ist. Bei diskreten Kennzahlwerten kann nur die Direct Rating Technique angewendet werden. Für weitere Verfahren der präskriptiven Entscheidungstheorie siehe z. B. von Winterfeldt und Edwards (1986) und Farquhar und Keller (1989). Bei den Verfahren der funktionalen Vorbestimmung werden Axiomensysteme überprüft, aus denen Kennzahlinterpretationen abgeleitet werden können. Anschließend werden die Parameter der Kennzahlinterpretation bestimmt und ihre Funktionswerte auf das Intervall ½0;1Å normiert. Die axiomatischen Verfahren in der Wirtschaftstheorie, bei denen wünschenswerte ökonomische Eigenschaften von Funktionen durch mathematische Axiomensysteme formuliert werden, aus denen eine oder mehrere Funktionenklassen ableitbar sind,216 basieren auf mathematischen Grundlagenarbeiten von z. B. Aczel (1966). Diese Verfahren haben eine weite Verbreitung gefunden und werden z. B. in Arbeiten angewendet, die Probleme des Messens und Bewertens auf den Gebieten der Preisindextheorie (Olt 1995), der kooperativen Spieltheorie (Moulin 1988), der Wohlfahrtstheorie (Krtscha 214 „Die Präferenz ist in aller Regel nicht fest, d. h. jederzeit abrufbar . . . vorhanden. Sie muss durch geschickte Befragungstechnik sorfältig elizitiert werden. Bei der Befragung . . . können Fehler auftreten. Es ist daher unumgänglich, Konsistenzprüfungen bei der Ermittlung von Wertfunktionen durchzuführen“ (Eisenführ und Weber 1994, S. 99–100). 215 „Eine Entscheidungshilfe muss auch die Beschränkungen der Urteilsfähigkeit von Entscheidern in ihr Kalkül miteinbeziehen“ (Eisenführ und Weber 1994, S. 105). 216 Es werden nur Axiomensysteme betrachtet, die als Lösung nicht die leere Menge besitzen.
110
C. Ganzheitliches Ranking-Verfahren
1996) und der Preis-, Produktions- und Nutzentheorie (Eichhorn et al. 1978) behandeln. Beispiele für Kennzahlinterpretationen In Tabelle 4 sind Beispiele für Kennzahlinterpretationen dargestellt, die Kennzahlwerten ohne Zusatzinformationen Zielerreichungsgrade zuordnen. A stellt jeweils eine Normierungskonstante dar, die für zi 2 ½0;1Å zu bestimmen ist. Das Anspruchsniveau a 0 wird auf zi Èa 0 ê ã 0 abgebildet. (1a) beschreibt eine streng monoton wachsende Kennzahlinterpretation, die für b < 1 einen unterproportional steigenden (1. Gossensche Gesetz), für b ã 1 einen proportionalen und für b > 1 einen überproportional steigenden Präferenzverlauf zeigt. (1b) beschreibt eine streng monoton fallende Kennzahlinterpretation, die für b < 1 einen unterproportional fallenden, für b ã 1 einen proportionalen und für b > 1 einen überproportional fallenden Präferenzverlauf zeigt. a 0 bezeichnet in diesem Fall ein maximales Toleranzni-
Tabelle 4 Beispiele für zulässige Kennzahlinterpretationen
È1aê
zi
È1bê zi
È2aê
zi
È2bê zi
( 0 b ã A xi a 0
xi > a0 ; sonst
A; b 2 IR þþ :
( b 0 ã A a xi 0
xi < a 0 ; sonst
A; b 2 IR þþ :
8 0 > > > > z 1i > < 2 ã zi > > > > > : 1 8 0 > > > 1 > z > > < i ã z 2i > > > > > > : 1
xi a 0 ; xi 2 Èa 0 ; x 1i Å; xi 2 Èx 1i ; x 2i Å; .. .
0 < z 1i < z 2i < 1:
xi > x Ki 1 ; xi a 0 ; xi 2 ½ x iK 1 ; a 0 ê; xi 2 ½ x iK 2 ; x Ki 1 ê; .. . xi < x 1i ;
0 < z 1i < z 2i < 1:
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
111
veau. Durch (2a) und (2b) werden die Kennzahlwerte xi in K Indifferenzbzw. Äquivalenzklassen abgebildet. (2a) beschreibt eine monoton steigende und (2b) eine monoton fallende Kennzahlinterpretation. Den Kennzahlwerten einer Indifferenz- bzw. Äquivalenzklasse wird derselbe Zielerreichungsgrad zugeordnet.217 Diese diskrete Kennzahlinterpretation wird aufgrund von systematischen Ungenauigkeiten bei der Ermittlung von Punktschätzungen für Scores bzw. aufgrund des „sehr begrenzten menschlichen Differenzierungs- und Bewertungsvermögens“ (Strebel 1975, S. 74) häufig in Scoring-Modellen verwendet. Durch psychometrische Untersuchungen zur Beschränkungen des menschlichen Differenzierungs- und Bewertungsvermögens wurde eine maximale Anzahl von K ã 9 Indifferenzklassen ermitteln. Bayer und Krtscha (1999) geben ein Beispiel für eine axiomatische Bestimmung der Kennzahlinterpretation für die Kennzahl Cash-Flow-Return on Investment (CF-ROI) mit den Zusatzinformationen y1 Eigenkapitalquote (EKQ) und y2 Cash-Flow-Eigenkapitalrentabilität (CF-EKR). Es gilt: x ã y1 y2 . Da verschiedene Kombinationen von EKQ und CF-EKR sehr unterschiedliche wirtschaftliche Lagen eines Unternehmens beschreiben, jedoch zu dem gleichen CF-ROI führen können, muss der Wert des CF-ROI unter Berücksichtigung des „Grades der Ausgewogenheit“ zwischen EKQ und CF-EKR interpretiert werden. Die Kennzahlinterpretation z : IR2þþ ! IRþ ; Èy1 ; y2 ê 7! zÈy1 ; y2 ê wird durch ökonomisch motivierte mathematische Axiome zu ihrem Monotonieverhalten und zu ihrer Homogenitätseigenschaft festgelegt zu:
È1ê zÈy1 ; y2 ê ã
8 > k y2b c1 yc21 > > < 1 1
f u¨ r
> > c 2 c2 > : k2 y2b y2 1
f u¨ r
y2 < l; y1 k1 mit 0 < c2 < b < c1 < 2b; ã l c2 c1 k2 y2 l; y1
Die Kennzahlinterpretation (1) gleicht einer Bewertungsfunktion von Tversky und Kahnemann (1991) mit l als Referenzpunkt für den Besitz eines Entscheiders. Eine Präferenzstruktur, bei der „Mischungen werden gegenüber Extremen bevorzugt“ werden, existiert in vielen Bereichen der Bewertung mehrdimensionaler Leistungserbringung.218 In der Produktionstheo217 Durch eine Kennzahlinterpretation werden die Kennzahlen problem- und benutzeradäquat aufbereitet. So wird z. B. bei der Kennzahl „Wohnungsfläche in m2 “ bei dem Fundamentalziel Wohnkomfort eine streng monoton wachsende Kennzahlinterpretation und bei dem Fundamentalziel Pflegeaufwand der Wohnung eine monoton fallende Kennzahlinterpretation sinnvoll sein. 218 Z. B. sind die Kennzahlen Stückgewinn p k und Absatzmenge x multiplikativ verknüpft. Die Absatzmenge ist umso wertvoller je höher der Stückgewinn.
112
C. Ganzheitliches Ranking-Verfahren
rie findet sie Anwendung in den Cobb-Douglas-Produktionsfunktionen, die eine hohe empirische Bestätigung bei der Bewertung der Produktionsfaktorkombinationen Kapital und Arbeit erfahren haben. Abgrenzung einer Kennzahlinterpretation von einer Kennzahltransformation Die Bestimmung einer Kennzahlinterpretation zi ist, um Unterschied zu einer Kennzahltransformation gi , abhängig von den Präferenzen der Ranking-Zielgruppe. Eine Kennzahltransformation ist z. B. notwendig zur Operationalisierung einer Kennzahl. In diesem Fall werden die Kennzahlwerte um systematische Verzerrungen bzw. um strukturelle Unterschiede aus ihrem Erhebungskontext bereinigt und zeitlich, räumlich und sachlich abgegrenzt. In vielen Fällen wird durch eine Kennzahltransformation lediglich eine, von den Präferenzen der Zeilgruppe unabhängige, Normierung der Kennzahlwerte vorgenommen. Beispiele oft angewendeter Kennzahltransformationen sind: gi ã
xi xi; min 2 ½0;1Å; xi; min ã minj x ji ; xi; max ã maxj x ji ; xi; min 6ã xi; max ; xi; max xi; min
und gi ã
xi xi; max
2
xi; min ;1 : xi; max
Eine Kennzahltransformation, die in der Ökonometrie oft zur Verbesserung der Normalverteilungseigenschaften einer Zufallsvariable, zur Verringerung ihrer Heteroskedastizität und zur Linearisierung multiplikativer Funktionen angewendet wird, ist: gi ã A logÈxi a 0 ê.219 Werden die m empirisch erhobenen Werte einer Kennzahl xi , wie im Lebensversicherungs-Rating von Capital und Morgen (1996c), als m Realisationen einer normalverteilten Zufallsvariable angesehen, werden Kennzahltransformationen wie z. B. xi ^xi gi ã A ; ™i
m 1 X ^xi ã x j; m jã1 i
vffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi uX u m j 2 ™i ã t x i ^xi jã1
219 „. . . a common log transformation was applied to a number of variables to improve normality and reduce the heteroscedasticity of the distributions.“ (Pinches und Mingo 1973, S. 4).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
oder
gi ã
xi ^xi ™i
113
2 ½0;1Å
angewendet. 7. Repräsentation der Kennzahlenartenpräferenz durch ein Ranking Nach einer Repräsentation der Ranking-Objekte durch ihre Zielerreichungsgrade wird ein Verfahren gesucht, das aus den Zielerreichungsgraden eine Rangfolge der Ranking-Objekte ermittelt. Vor der Repräsentation der Kennzahlenartenpräferenz220 einer Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Ranking-Objekten, Wirkungsmodell, Zielsystem, Kennzahlensystem und Kennzahlinterpretationen durch ein Ranking sollte überprüft werden, ob den Ranking-Objekten durch einfachere, artenpräferenzunabhängige Verfahren ein objektiver Rangplatz zuordenbar ist. Definition 17 Rangplatz: € ½0;1Ån 7! f1; :::; wg IN: Sei w die Anzahl der Ranking-Objekte. r : D
Durch r wird jedem der w Ranking-Objekte ein Rangplatz 1; :::; w zugeordnet und dadurch die Rangfolge festgelegt. Definition 18 Binäre Vektorvergleichsoperatoren: €z > €z0 €z €z0
, ,
zi > z 0i zi z 0i
8i ã 1; :::; n; 8i; zi > z 0i f u¨ r mindestens ein i ã 1:::; n;
€z ã €z0
,
zi ã z 0i
8i ã 1; :::; n:
Sind die Skalen der Kennzahlinterpretationen kardinal vergleichbar, d. h. messen sie den Zielerreichungsgrad einer Kennzahl in einer Standardeinheit, oder kann durch den binären Vektorvergleichsoperator „>“ eine vollständige Ordnung221 auf den w Vektoren der Zielerreichungsgrade €z 2 ½0;1Ån der Ranking-Objekte definiert werden, lässt sich ein objektives, d. h. arten220
Eine Artenpräferenz besteht aus generellen Imperativen über die Vorziehenswürdigkeit bestimmter Merkmalsausprägungen der Ergebnisse (Bamberg und Coenenberg 1994, S. 28). 221 Die binären Vektorvergleichsoperatoren stellen nicht-vollständige Relationen auf dem IRn dar. Durch sie kann die Menge der pareto-effizienten Ranking-Objekte bestimmt werden.
114
C. Ganzheitliches Ranking-Verfahren
präferenzunabhängiges Ranking ableiten. Im ersten VerPn Fall liegen Pn additive 0 222 Die hältnisskalen vor und es folgt: rÈ€zê < rÈ€z0 ê , i ã 1 zi > i ã 1 z i. Bedingung der kardinalen Vergleichbarkeit ist in Anwendungsfällen im Regelfall nicht erfüllt. Im zweiten Fall ergibt sich die Rangfolge der RankingObjekte durch rÈ€zê < rÈ€z0 ê , €z > €z0 :223 Das Ranking-Objekt mit dem Rang 1 ist allen anderen Ranking-Objekten in jedem Zielerreichungsgrad überlegen. Es gilt: rÈ€zê ã 1 , €z > €z0 ; 8 €z0 6ã €z: Die Menge der pareto-effizienten Ranking-Objekte besteht dann nur aus dem Ranking-Objekt mit dem Rang 1. Dieses ist strikt dominant bzw. das gleichmäßig beste Ranking-Objekt. In den anderen Fällen gibt es keine offensichtliche Lösung, da die Zielerreichunggrade der Ranking-Objekte zumindest teilweise zueinander im Konflikt stehen. Eine Rangfolge muss durch die Ableitung einer subjektiven Artenpräferenzrelation aus den Präferenzen einer Ranking-Zielgruppe bei gegebenem Kennzahlensystem und Kennzahlinterpretationen abgeleitet werden.224 Unterschiedliche Ranking-Zielgruppen wie z. B. nicht-professionelle und professionelle Entscheider besitzen bei gegebenem Ranking-Ziel, Ranking-Objekten, Wirkungsmodell, Zielsystem, Kennzahlensystem und Kennzahlinterpretationen oft verschiedene Artenpräferenzrelationen, die zu unterschiedlichen Rangfolgen führen können. Für den Fall nicht-substituierbarer Zielerreichungsgrade kann eine Rangfolge z. B. durch die Bestimmung einer Rangordnung der Kennzahlinterpretationen zi und eine lexikographische Ordnung auf den Zielerreichungsgraden der Ranking-Objekte bestimmt werden. Für den Fall substituierbarer Zielerreichungsgrade kann eine Rangfolge z. B. durch einen Index bestimmt werden. Die Problemstellungen der Ermittlung einer Artenpräferenzrelation tritt auch in der Theorie kollektiver Entscheidungen bei der Bestimmung einer Sozialwahlfunktion auf.225 Die Rangfolgen der Ranking-Objekte nach ihren Zielerreichungsgraden in den Kennzahlinterpretationen zi ; i ã 1; :::; n entsprechen hier den Präferenzordnungen der n Mitglieder eines Entscheidungsgremiums. Die Aufgabe der Mitglieder, sich auf eine gemeinsame 222
Vgl. Strebel (1975, S. 82–92). Dies ist der Fall, wenn für die Zielerreichungsgrade zi jeder Kennzahlinterpretation zi ; i ã 1; :::; n durch den binären Vergleichsoperator „>“ dieselbe Rangfolge der Ranking-Objekte ermittelt wird. 224 Eine Höhenpräferenzrelation wie eine Maximierungsregel, eine Minimierungsregel oder eine anspruchsniveaubezogene Ergebnisbewertung ist stets erforderlich. Je nach Art der Entscheidungssituation muss zusätzlich eine Arten-, Zeit-, Risikound Unsicherheitspräferenzrelation vorliegen (Eisenführ und Weber 1994). In diesem Fall ist eine Rangfolge subjektiv und ein Ranking keine objektive Bewertungsfunktion. Die Bestimmung einer Rangfolge erfordert eine Abwägung zwischen den unterschiedlichen Zielerreichungsgraden. 225 Siehe Bamberg und Coenenberg (1994, S. 49, 204–218), Laux (1998b, S. 121– 182). 223
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
115
Rangfolge zu einigen, wird durch die Aufstellung einer Sozialwahlfunktion gelöst, mittels derer die individuellen Rangfolgen zu einer kollektiven Rangfolge aggregiert werden. Unter mehreren Möglichkeiten zur Bestimmung eines Ranking wie z. B. Verfahren der mathematischen Programmierung (z. B. eine sukzessive Einzelbetrachtung der Ziele, Goal-Programming, Nutzenmaximierung), der multi-attributiven Bewertung (z. B. Verfahren der multi-attributiven Nutzentheorie, der Nutzwertanalyse und des Analytic Hierarchy Process) und der Prävalenztheorie (z. B. Promethee, Electre) plädiert von Nitzsch (1994) für die Verfahren der multi-attributiven Nutzentheorie.226 Die multi-attributiven Bewertungsverfahren bestimmen ein problembezogenes Modell der Präferenz eines Entscheidungsträgers, das aus einem Präferenzfunktional bzw. Ranking besteht, das jedem Ranking-Objekt einen Nutzenwert bzw. Zielerreichungsgrad zuordnet, aus dem eine Rangfolge der Ranking-Objekte abgeleitet wird. Das Präferenzfunktional besteht aus Einzelpräferenzfunktionen bzw. Kennzahlinterpretationen und einer Aggregationsvorschrift, die angibt wie die Kennzahlinterpretationen zu einem Ranking zusammengefasst werden. Die Verfahren der multi-attributiven Nutzentheorie, der Nutzwertanalyse und des Analytic Hierarchy Process unterscheiden sich durch die Art der Bestimmung der Kennzahlinterpretationen und der Aggregationsvorschrift. Bei der Nutzwertanalyse und dem Analytic Hierarchy Process können methodische Probleme bei der Bestimmung der Zielgewichte auftreten, wenn diese unabhängig von den Skaleneinheiten vorgenommen werden.227 Die Verfahren der multi-attributiven Nutzentheorie sind messtheoretisch fundiert. Sie stellen „einen Validitätsmaßstab für alle vergleichbaren Vorgehensweisen“ dar (von Nitzsch 1994, S. 2). 226 Die Auswahl eines Verfahrens in einer Entscheidungssituation hängt wesentlich von deren Charakteristik ab. Für eine vergleichende Darstellung der Anwendungsfelder und der Problembereiche der Verfahren der mathematischen Programmierung, der multi-attributiven Bewertungsverfahren und der Prävalenztheorie siehe von Nitzsch (1994, S. 16–37). 227 Für diesen „Bandbreiteneffekt“ siehe von Nitzsch (1994, S. 32–37). Die Zielgewichte stellen keine allgemeinen Austauschrelationen zwischen Zielen dar, sondern Koeffizienten, die jeweils Skaleneinheiten der Ziele relativ zueinander gewichten (Substitutionsraten zwischen Skaleneinheiten der Ziele). Dies muss bei der Ermittlung der Zielgewichte berücksichtigt werden. Z. B. repräsentiert im Regelfall ein þ kleineres Intervall ½x i ; xi Å auch einen geringeren Wert- oder Nutzenzuwachs bei ei nem Übergang von xi auf xþ i , der durch ein entsprechend kleineres Gewicht gi in das Ranking eingehen muss. Eisenführ und Weber (1994, S. 138–139) geben ein anschauliches Beispiel eines Gebrauchtwagenkaufes, bei dem eine geringe Variation þ des zulässigen Ausprägungsintervalles ½x i ; xi Å ohne eine entsprechende Korrektur der Gewichtungen des Ranking eine Rangumkehr zur Folge hat.
116
C. Ganzheitliches Ranking-Verfahren
Die Artenpräferenzrelationen etablierter Rating-Agenturen, wie z. B. Moody’s und Standard & Poors oder A. M. Best, gelten als Betriebsgeheimnisse und werden nicht veröffentlicht.228 Durch den großen Einfluss, den die Rating-Ergebnisse auf z. B. die Fremdfinanzierungskosten von Unternehmen und öffentlichen Institutionen haben, wurden umfangreiche empirische Studien durchgeführt und veröffentlicht, die zum Ziel hatten das Kennzahlensystem und die Artenpräferenzrelationen mit statistischen Methoden wie z. B. Korrelationsanalyse, Regressionsanalyse, Faktoranalyse und lineare, multivariate Diskriminanzanalyse zu schätzen (Pinches und Mingo 1973, Ang und Patel 1975, Pinches 1978, Kaplan und Urwitz 1979). Den Autoren war es in ihren Stichproben möglich ca. 2/3 der Ratings von Neuemissionen korrekt vorherzusagen,229 wobei die Fehler überwiegend nur Abweichungen von einer Bonitätsklasse betrafen. Definition 19 Kennfunktion: F : D 2 ½0;1Ån ! IR;
Èz1 ; :::; zn ê 7! IR;
mit den Eigenschaften F È€zê F È€z 0 ê > F È€z 00 ê F È€z 000 ê , È€z 7! €z 0 ê μ È€z 00 7! €z 000 ê; F È€zê F È€z 0 ê ã F È€z 00 ê F È€z 000 ê , È€z 7! €z 0 ê ® È€z 00 7! €z 000 ê; 8 €z; €z 0 ; €z 00 ; €z 000 :
Definition (19) ist ein reellwertiges Präferenzfunktional, eine „meßbare Wertfunktion“ (von Nitzsch 1994, S. 41–42)230 und ein Spezialfall einer allgemeinen Kennfunktion nach Eichhorn (1978). Eine Kennfunktion F wird zu einem Ranking, wenn sie kompatibel mit den Präferenzen einer Ranking-Zielgruppe ist. D. h. wenn sie den Zielerreichungsgraden der RankingObjekte (Punkte des Definitionsbereichs D) eine reelle Zahl so zuordnet, dass die Artenpräferenzrelation zwischen den Kennzahlinterpretationen einer Ranking-Zielgruppe repräsentiert wird bzw. wenn das Ranking aus 228 Veröffentlicht werden nur Informationen über den Ablauf des Rating-Prozesses. Siehe Baum (1987). 229 Ang und Patel (1975, S. 634–636) zeigen, dass es sich hier nur um die kurzfristige Prognosefähigkeit handelt und weisen auf „unstable coefficients across time periods“ hin. Eine von mehreren möglichen Erklärungen wäre, dass die Kennfunktion nicht linear ist. In diesem Fall müsste die Güte einer linearen Regression mit der Anzahl der Beobachtungspunkte abnehmen. 230 Jede messbare Wertfunktion ist auch eine nicht-messbare Wertfunktion. Messbare Wertfunktionen geben zusätzlich an, wie stark der „Präferenzunterschied“ zwischen den Zielerreichungsgraden zweier Ranking-Objekte ist.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
117
einem die Artenpräferenzrelation repräsentierenden Axiomensystem logisch ableitbar ist.231 Aus einer Kennfunktion ist die zugrundeliegende Präferenzstruktur stets eindeutig ableitbar. Durch F werden die in der Menge D erkannten oder für wichtig gehaltenen Strukturen (Verhältnisse/Beziehungen) in entsprechende Verhältnisse und Beziehungen zwischen den zugehörigen Kennfunktionswerten abgebildet. An die Stelle einer Bewertung der Ranking-Objekte durch die Ranking-Zielgruppe tritt die Wahl einer geeigneten Kennfunktion F. Ist F gegeben, besteht das Entscheidungsproblem daraus eine Rangfolge der Ranking-Objekte nach den Funktionswerten von F zu bestimmen. F kann durch eine Normierung der Kennfunktionswerte auf das Intervall ½0;1Å eindeutig bestimmt werden. Die einfachste Pn und am häufigsten verwendete Form der Kennfunktion ist Fadditiv È€zê ã i ã 1 gi zi ; gi 2 IRþ . Sie wird z. B. bei der Nutzwertanalyse, bei Punktbewertungsverfahren, bei Scoring-Modellen, bei Warentests, bei Verfahren der analytischen Arbeits- und Leistungsbewertung und bei Rankings wie Hochschul-Rankings, Lebensversicherungs-Rankings (Manfred Poweleit 1995, Capital und Morgen 1996c, Capital und Morgen 1996a, Finanztest 1996), Bewertungen der internationalen Beschäftigungspolitik (Huckemann und van Suntum 1994), Städtevergleichen, Vergleichen der wirtschaftlichen Wettbewerbsfähigkeit von Nationen (WEF 1997, IMD 1997) angewendet. Die Validität von Fadditiv bzw. ihre Kompatibilität mit den Artenpräferenzrelationen von verschiedenen Ranking-Zielgruppen bei gegebenem RankingZiel, Ranking-Objektmenge, Wirkungsmodell, Zielsystem, Kennzahlensystem und Kennzahlinterpretationen ist nur unter bestimmten Bedingungen gegeben.232 Nur wenn diese Bedingungen erfüllt sind, kann Fadditiv im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses einer Ranking-Zielgruppe entscheidungsunterstützende Informationen liefern. „Um ein additives Wertmodell rational begründen zu können, müssen eine Reihe von Bedingungen erfüllt sein, die die Unabhängigkeit der Bewertung in den Attributen betreffen. Gilt eine der Bedingungen nicht, so ist das additive Modell keine mögliche Abbildung der Präferenzen des Entscheiders. Wird es trotzdem angewendet, sollte man mit dem Ergebnis besser nichts anfangen; es ist falsch weil es im Widerspruch zu den Präferenzen des Entscheiders steht“ (Eisenführ und Weber 1994, S. 115). 231
„Es gibt keine objektiv richtigen Entscheidungen. Vielmehr beruhen Entscheidungen notwendig . . . auf subjektiven Zielen und Präferenzen des Entscheiders . . . Sie müssen nur konsistent mit den Axiomen sein, die der Entscheider anerkennt“ (Bamberg und Coenenberg 1994). 232 „Gegenüber der meist naiven Anwendung solcher Verfahren in der Praxis kann die Theorie aber sagen, unter welchen Umständen ein additives Modell korrekt ist und wie man vorgehen muss, um Bewertungen zu erhalten, die mit der Präferenz des Entscheiders konsistent sind“ (Eisenführ und Weber 1994, S. 31).
118
C. Ganzheitliches Ranking-Verfahren
Existenz eines Ranking Im Folgenden werden in knapper Form die Bedingungen für die Existenz eines Ranking dargestellt. Aus der gemeinsamen Differenzunabhängigkeit der Kennzahlinterpretationen zi ; i ã 1; :::; n folgt die Existenz eines multilinearen Ranking als allgemeinste Darstellungsform. Die gemeinsame Differenzunabhängigkeit ist gleichzeitig eine notwendige Voraussetzung für eine Dekomposition eines komplexen Entscheidungsproblems in voneinander unabhängig lösbare Teilprobleme, deren Lösungen durch Kennzahlinterpretationen und ein Ranking ermittelt werden können. Werden zusätzliche Unabhängigkeitsbedingungen wie die multiplikative oder die additive Differenzunabhängigkeit erfüllt, folgen als Spezialfälle des multi-linearen Ranking ein multiplikatives oder ein additives Ranking. Für eine ausführliche Darstellung siehe u. a. Keeney und Raiffa (1993, S. 66–130) und von Nitzsch (1994, S. 39–68). Definition 20 Gemeinsame Differenzunabhängigkeit: Eine Kennzahlinterpretation zi ist differenzunabhängig von den übrigen Kennzahlinterpretationen zj ; j ã 1; :::; n; j 6ã i, falls die bedingte Ordnung der Präferenzunterschiede in der Kennzahlinterpretation zi unabhängig von den Zielerreichungsgraden in den Kennzahlinterpretationen zj sind (Vergleich Definition 15). Eine gegenseitige Differenzunabhängigkeit liegt vor, wenn jede Kennzahlinterpretation zi differenzunabhängig von den übrigen Kennzahlinterpretationen zj ; j 6ã i; i ã 1; :::; n ist.
Eine hinreichende Bedingung für die Existenz eines multi-linearen Ranking ist die gemeinsame Differenzunabhängigkeit. Dann existieren die Kennzahlinterpretationen zi ; i ã 1; :::n und es gibt keine allgemeinere Dekomposition des Präferenzfunktionals F als durch ein multi-lineares Ranking (von Nitzsch 1994, S. 52–53). Definition 21 Multi-lineares Ranking: Seien zi ; i ã 1; :::; n Kennzahlinterpretationen des Ranking F. F : D 2 ½0;1Ån ! IR heißt multi-lineares Ranking, wenn es Gewichte gi1 i2 ::: ir ; 1 r n; 1 i1 < i2 < ::: < ir n gibt, so dass für alle €z gilt: È2ê
FÈ€zê ã
n X
n X
r ã 1 i1 ; i2 ; :::; ir ã 1 i1 < i2 < ::: < ir
gi1 i2 ::: ir zi1 zi2 zir ;
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings È3ê
n X
n X
r ã 1 i1 ; i2 ; :::; ir ã 1 i1 < i2 < ::: < ir
119
gi1 i2 :::ir ã 1:
Das multi-lineare Ranking ist streng monoton in den Kennzahlinterpretationen zi und wird durch (3) auf das Intervall ½0;1Å normiert. Eine Veränderung des Zielerreichungsgrades in einer beliebigen Kennzahlinterpretation zi um den Wert d führt, in Abhängigkeit der Zielerreichungsgrade der restlichen Kennzahlinterpretationen zj ; j ã 1; :::; n; j 6ã i, zu unterschiedlichen Änderungen des Kennfunktionswertes. Je größer der Zielerreichungsgrad der Kennzahlinterpretation zj , desto größer ist die Änderung des Kennfunktionswertes durch eine Änderung von zi . D. h. die relative Bedeutung einer Kennzahlinterpretation wächst mit zunehmenden Zielerreichungsgrad einer anderen Kennzahlinterpretation (komplementäre Interaktion bzw. überadditives Ranking) oder fällt mit zunehmenden Zielerreichungsgrad einer anderen Kennzahlinterpretation (substitutive Interaktion bzw. unteradditivites Ranking) (von Nitzsch 1994, S. 62–64). Bei Vorliegen einer komplementären Interaktion wird ein „hoher“ Kennfunktionswert nur dann erreicht, wenn alle Kennzahlinterpretationen hohe Zielerreichungsgrade aufweisen („Mischungen werden gegenüber Extremen bevorzugt“). Bei einer substitutiven Interaktion werden „hohe“ Kennfunktionswerte nur dann erreicht wenn eine Kennzahlinterpretation einen hohen Zielerreichungsgrad und die restlichen Kennzahlinterpretationen geringe Zielerreichungsgrade aufweisen („Extreme werden gegenüber Mischungen bevorzugt“). Interaktionen der Ordnung 2 r n werden durch das Gewicht bzw. den Interaktionskoeffizienten gi1 i2 :::ir bestimmt. Für gi1 i2 :::ir > 0 liegt eine komplementäre Interaktion, für gi1 i2 :::ir < 0 eine substitutive Interaktion vor. Im Unterschied zu einer empirischen Abhängigkeit z. B. in Form einer Korrelation basiert eine Interaktion auf einer subjektiven, präferenzbasierten Abhängigkeit zwischen Kennzahlinterpretationen. Eine komplementäre Interaktion zwischen zwei Kennzahlinterpretationen kann bei einer anderen Ranking-Zielgruppe eine substitutive Interaktion oder keine Interaktion darstellen. Interaktionen erschweren die Bestimmung einer Artenpräferenzrelation und somit eines Ranking. Deshalb wird in der präskriptiven Entscheidungstheorie versucht, durch eine Redefinition des Kennzahlensystems oder durch eine Zusammenfassung von interagierenden Kennzahlen zu einer Ersatzkennzahl Interaktionen zu eliminieren (von Nitzsch 1994, S. 78–80).233 233 „Nur und wirklich nur für den Fall, dass eine Vermeidung von Interaktionen nicht möglich ist, weil z. B. keine Operationalisierbarkeit der Fundamentalziele erreicht werden kann, ist eine Modellierung von Interaktionen in geeigneten Modellen vorzunehmen“ (von Nitzsch 1994, S. 82).
120
C. Ganzheitliches Ranking-Verfahren
Für n ã 3 wird (2) zu FÈz1 ; z2 ; z3 ê ã g1 z1 þ g2 z2 þ g3 z3 þ g12 z1 z2 þ g13 z1 z3 þ g23 z2 z3 þ g123 z1 z2 z3 mit g1 þ g2 þ g3 þ g12 þ g13 þ g23 þ g123 ã 1: Eine Veränderung von z1 um den Betrag d führt zu einer Veränderung des Kennfunktionswertes um dÈg1 þ g12 z2 þ g13 z3 þ g123 z2 z3 ê: Definition 22 Multiplikative Differenzunabhängigkeit: Die Kennzahlinterpretationen zi ; i ã 1; :::; n sind multiplikativ differenzunabhängig, falls die bedingte Ordnung der Präferenzunterschiede in jeweils n 1 variierten Kennzahlinterpretationen unabhängig von der jeweils fixierten Kennzahlinterpretation ist, d. h. falls für alle zi ; z 0i ; z 00i ; z 000 i ; i ã 1; :::; n gilt: 00
0 0 11 00 00 1 0 000 11 1 z1 z1 z1 z1 B .. CC BB .. C B .. CC BB . C B . CC BB . C B . CC BB .. C B B C CC BB C CC BB B z 0 CC BB z 00 ; C B z 000 CC C BB z B i 1 CC BB i 1 C B i 1 CC BB i 1 C B B C CC BB C CC BB BB z i C ! B zi CC © BB zi C ! B zi CC B 0 CC BB 00 C B 000 CC C BB B z i þ 1 CC BB z i þ 1 C B z i þ 1 CC BB z i þ 1 C B B C CC BB C CC BB B . CC BB . C B . CC BB .. C @ .. AA @@ .. A @ .. AA @@ . A zn z 0n z 00n z 000 n , 0 0 11 00 00 1 0 000 11 00 1 z1 z1 z1 z1 B B CC BB C CC BB C B .. CC BB .. C B .. CC BB . C B . CC BB . C B . CC BB .. C B B CC BB C CC BB C B 0 CC BB 00 C B 000 CC BB B B B C C CC BB z i 1 C B C z z z C B i 1 CC BB i 1 C B i 1 CC BB B B B C C C BB 0 C B C 0 0 0 z CC © BB z C ! B z i CC BB z i C C: C!B B i CC BB i C B CC BB C B z 0 CC BB z 00 C B z 000 CC BB z i þ 1 C B i þ 1 CC BB i þ 1 C B i þ 1 CC BB C B B CC BB C CC BB B B B . CC C C BB . C B C . . B .. CC BB .. C B .. CC B@ .. C A @ @ AA @@ A AA @ zn
z 0n
z 00n
z 000 n
Eine hinreichende Bedingung für die Existenz eines multiplikativen Ranking ist die multiplikative Differenzunabhängigkeit.234 Vergleich von Nitzsch (1994, S. 53) und von Winterfeldt und Edwards (1986, S. 329 f.), Dyer und Sarin (1979, S. 815). 234 Eine hinreichende Bedingung für die Existenz eines ordinalen, multiplikativen Ranking ist die gemeinsame bzw. die gegenseitige Präferenzunabhängigkeit.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
121
Definition 23 Multiplikatives Ranking: Seien zi ; i ã 1; :::; n Kennzahlinterpretationen des Ranking F. F : D 2 ½0; 1Ån ! IR heißt multiplikatives Ranking, wenn es additiv ist oder es Gewichte gi > 0; i ã 1; :::; n und ein g > 1 mit g 6ã 0 gibt, so dass für alle €z gilt: Qn È4ê
FÈ€zê ã
iã1
1þgã
È5ê
È1 þ ggi zi ê 1 g
n Y
;
È1 þ ggi ê:
iã1
Das multiplikative Ranking Qr stellt einen Spezialfall des multi-linearen Ranking für gi1 i2 :::ir ã gr1 m ã 1 gim dar. Die Bedingung g > 1 entspricht der Forderung nach strenger Monotonie des Ranking F in den Kennzahlinterpretationen zi . Im multiplikativen Modell werden Interaktionen der Ordnung 2 r n durch das Gewicht bzw. den Interaktionskoeffizienten gr1 g1 g2 gr bestimmt. Für g > 0 oder für g < 0 und r ungerade sind alle Interaktionen der Ordnung 2 bis n komplementär, für g < 0 und r gerade sind alle Interaktionen mit geraden Ordnungszahlen substitutiv und alle Interaktionen mit ungeraden Ordnungszahlen komplementär. Im Unterschied zum multi-linearen Ranking können durch das multiplikative Ranking nur komplementäre und substitutive Interaktionen zwischen Kennzahlinterpretationen innerhalb einer Ordnung dargestellt werden. Für n ã 3 wird (4) zu FÈz1 ; z2 ; z3 ê ã g1 z1 þ g2 z2 þ g3 z3 þ gÈg1 g2 z1 z2 þ g1 g3 z1 z3 þ g2 g3 z2 z3 ê þ g2 g1 g2 g3 z1 z2 z3
mit g1 þ g2 þ g3 þ gÈg1 g2 þ g1 g3 þ g2 g3 ê þ g2 g1 g2 g3 ã 1:
Eine Veränderung von z1 um den Betrag d führt zu einer Veränderung des Kennfunktionswertes um dg1 È1 þ gg2 z2 þ gg3 z3 þ g2 g2 g3 z2 z3 ê: Definition 24 Additive Differenzunabhängigkeit: Die Kennzahlinterpretationen zi ; i ã 1; :::; n sind additiv differenzunabhängig, falls die absoluten Präferenzunterschiede in jeweils einer Kennzahlinterpretationen unabhängig von den Zielerreichungsgraden der jeweils übrigen Kennzahlinterpretation sind, d. h. falls für alle zi ; z 0i ; i ã 1; :::; n gilt:
122
C. Ganzheitliches Ranking-Verfahren 00
0 0 0 11 1 11 00 0 1 z1 z1 z1 z1 B .. CC BB .. C B .. CC BB .. C B . CC BB . C B . CC BB . C B B 0 C CC BB C CC BB B z i 1 CC BB z 0i 1 C B z i 1 CC BB z i 1 C B 0 CC BB B 0 CC C C BB BB z C ! B z CC ® BB z C ! B z i CC: B i CC BB 0 i C B 0 CC BB i C B z i þ 1 CC BB z i þ 1 C B z i þ 1 CC BB z i þ 1 C B B C CC BB C CC BB B . CC BB . C B . CC BB . C @ .. AA @@ .. A @ .. AA @@ .. A zn
z 0n
zn
z 0n
Eine hinreichende Bedingung für die Existenz eines additiven Ranking ist die additive Differenzunabhängigkeit. Siehe von Nitzsch (1994, S. 54) und von Winterfeldt und Edwards (1986, S. 326 f.), Dyer und Sarin (1979, S. 813). Definition 25 Additives Ranking: Seien zi ; i ã 1; :::; n Kennzahlinterpretationen des Ranking F. F : D 2P½0;1Ån ! IR n heißt additives Ranking, wenn es Gewichte gi > 0; i ã 1; :::; n mit i ã 1 gi ã 1 gibt, so dass für alle €z gilt: FÈ€zê ã
È6ê
n X
gi zi :
iã1
n X
È7ê
gi ã 1:
iã1
Das additive Ranking stellt einen Spezialfall des multiplikativen Ranking Qn für g ã 0 dar. Die Bedingung 1 þ g ã i ã 1 È1 þ ggi ê normiert die Werte von F auf das Intervall ½0;1Å. Eine Veränderung des Zielerreichungsgrades in einer beliebigen Kennzahlinterpretation zi um den Wert d führt, unabhängig von den Zielerreichungsgraden der Kennzahlinterpretationen zj ; j ã 1, :::; n; j 6ã i, immer zu der Veränderung des Kennfunktionswertes um gi d. Die Zielerreichungsgrade sind perfekt substituierbar. Es bestehen keine Interaktionen zwischen den Kennzahlinterpretationen. Für n ã 3 wird (6) zu FÈz1 ; z2 ; z3 ê ã g1 z1 þ g2 z2 þ g3 z3
mit g1 þ g2 þ g3 ã 1:
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
123
Verfahren zur Bestimmung eines Ranking Die Verfahren der präskriptiven Entscheidungstheorie zur Bestimmung eines Ranking leiten aus paarweisen Präferenzvergleichen und Rationalitätsforderungen ein die Artenpräferenzrelation einer Ranking-Zielgruppe repräsentierendes Ranking ab.235 Dieses Vorgehen hat gegenüber vielen in der Literatur angebotenen, willkürlichen Verfahren und Entscheidungsregeln236 den Vorteil, dass es auf einer Abbildung der tatsächlichen Präferenzen einer Ranking-Zielgruppe basiert. Das Ranking ist axiomatisch begründet und folgt zwingend aus Präferenzvergleichen der Ranking-Zielgruppe (Eisenführ und Weber 1994, S. 32). Der Erhebungsaufwand für eine präferenzbasierte Bestimmung eines Ranking kann sehr hoch sein und steigt mit der Anzahl und der Art zulässiger Interaktionen an. Die Überprüfung der wechselseitigen Präferenzunabhängigkeit erfordert bereits n 1 Mengenvergleiche (Gorman 1968).237 Zur Überprüfung der multiplikativen Differenzunabhängigkeit genügt bei Vorliegen von gemeinsamer Präferenzunabhängigkeit die Variation zweier Kennzahlinterpretationen (von Nitzsch 1994, S. 53) und für n 3 folgt aus der wechselseitigen Präferenzunabhängigkeit und der additiven Differenzunabhängigkeit einer beliebigen Kennzahlinterpretation zi die Existenz eines additiven Ranking (Dyer und Sarin 1979, S. 812 f.). Eine Überprüfung der Kennzahlinterpretationen zi ; i ã 1; :::; n auf gegenseitige Präferenz- und Differenzunabhängigkeit kann durch ihre reellwertigen Werteskalen ½0;1Å streng genommen nicht durchgeführt werden. Dazu wären unendlich viele Paarvergleiche erforderlich. In der Anwendung beschränkt man sich deshalb auf drei bis fünf mögliche Zielerreichungsgrade wie z. B. 0; 0:2; 0:4; 0:6; 0:8; 1. Im Folgenden werden mögliche Verfahren zur Bestimmung eines Ranking kurz dargestellt. Bei allen Verfahren muss eine Ranking-Zielgruppe für je zwei Kennzahlinterpretationen angeben, welche Zunahme eines Zielerreichungsgrads sie einer bestimmten Minderung des anderen Zielerreichungs235 Eine Ranking-Zielgruppe muss in der Lage sein zwischen jeweils zwei Zielerreichungsgraden entweder eine Indifferenzrelation oder eine Präferenzrelation festzulegen (Bamberg und Coenenberg 1994, S. 32). 236 Bei diesen Verfahren führen fehlende, widersprüchliche oder mehrdeutige Informationen über die Präferenzen der Ranking-Zielgruppe zu Problemen. Z. B. wenn keine Entscheidungsregel vorgegeben ist, sondern diese aus einem Katalog möglicher Entscheidungsregeln auszuwählen ist (Bamberg und Coenenberg 1994, S. 54– 59). 237 Z. B. genügt die Überprüfung der wechselseitigen Präferenzunabhängigkeit der n 1 Mengen fzr ; zr þ 1 g; r ã 1; :::; n 1 oder fz1 ; zs g; s ã 2; 3; :::; n von ihren Komplementärmengen.
124
C. Ganzheitliches Ranking-Verfahren
grads für äquivalent hält. Diese Austauschregeln gelten oft nur innerhalb gewisser Grenzen für die Zielerreichungsgrade (Bamberg und Coenenberg 1994, S. 49). Die Verfahren werden nach von Nitzsch (1994, S. 88–110) in dekompositorische Verfahren, trade-off Verfahren und holistische Verfahren eingeteilt.238 Für eine ausführlichere Darstellung siehe z. B. Eisenführ und Weber (1994) und von Nitzsch (1994). Diese Verfahren stellen Prozeduren dar, die die „teilweise unbewussten, unklaren, widersprüchlichen Erwartungen und Wünsche“ einer Ranking-Zielgruppe ermitteln und formen (Eisenführ und Weber 1994, S. 3). Bei den dekompositorischen Verfahren werden die Gewichte eines Ranking durch ordinale, kategoriale oder durch kardinale Präferenzaussagen der Ranking-Zielgruppe direkt bestimmt. Dekompositorische Verfahren sind nur bei Kennzahlinterpretationen zulässig, zwischen denen keine Interaktionen bestehen, die folglich durch ein additives Ranking aggregiert werden können. Zur Vermeidung des Bandbreiteneffektes müssen die Kennzahlinterpretationen normiert sein. Beispiele für dekompositorische Verfahren mit ordinalen Präferenzaussagen sind das Rangfolgeverfahren und das Matrixverfahren. Beim Rangfolgeverfahren werden durch eine Transformation der Rangordnung der Kennzahlinterpretation die Gewichte gi abgeleitet. Das Matrixverfahren wird in der Nutzwertanalyse häufig angewendet. In n 1 ordinalen Paarvergleichen wird für jede mögliche Kombination zweier Kennzahlinterpretationen angegeben, welche Kennzahlinterpretation wichtiger ist. Aus diesen Informationen werden die Gewichte gi berechnet. Dekompositorische Verfahren mit kategorialen Präferenzaussagen stellen Erweiterungen des Matrixverfahrens dar, in denen die wichtigere Kennzahlinterpretation in einem Paarvergleich einer Kategorie zugeordnet wird, die das Gewichtsverhältnis zwischen ihnen repräsentiert. Beispiele sind das Eigenvektorverfahren wie es im AHP-Verfahren angewendet wird und das Verfahren der Kategorisierung. Beispiele für dekompositorische Verfahren mit kardinalen Präferenzaussagen sind das Direct Rating-Verfahren und das Direct-Ratio Verfahren. Beim Direct-Ratio-Verfahren bzw. beim ScoringVerfahren werden die Kennzahlinterpretationen nach ihrer Wichtigkeit geordnet und in paarweisen Vergleichen die Präferenzstärke zwischen zwei Kennzahlinterpretationen durch die Vergabe von Punktwerten bzw. beim Direct Ratio-Verfahren durch die Angabe von n 1 Austauschverhältnissen bestimmt. Aus einem linearen Gleichungssystem sind dann die Gewichte gi ermittelbar. Zu weiteren Verfahren siehe Schneeweiß (1991), Isermann (1979), Dinkelbach (1982) und Zimmermann und Gutsche (1991). Bei den Verfahren, die auf ordinalen oder kategorialen Präferenzaussagen basieren, 238 Für die Bestimmung eines Ranking bei intervallskalierten und kardinal nicht vergleichbaren Kennzahlinterpretationen siehe Strebel (1975, S. 81–92).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
125
werden die Gewichte aus den Präferenzaussagen eines niedrigeren Skalenniveaus berechnet. Sie stellen somit Schätzungen dar, die mit systematischen Fehlern behaftet sein können. Im Unterschied zu den dekompositorischen Verfahren werden bei den trade off-Verfahren die Gewichte unter Einbeziehung der Kennzahlinterpretationen ermittelt. Die Gewichte eines additiven oder multiplikativen Ranking werden durch Indifferenzaussagen zwischen zwei Ranking-Objekten, die sich jeweils nur in den Zielerreichungsgraden zweier Kennzahlinterpretationen unterscheiden, hergeleitet. Gesucht werden jeweils zwei Vektoren €z und €z0 , die sich nur in z i und z j unterscheiden und zwischen denen eine Ranking-Zielgruppe indifferent ist. Z. B. €z ã Èz1 ; :::; z i 1 ; z i ; zi þ 1 ; :::; z j 1 ; 0; z j þ 1 ; :::; z n ê und €z0 ã Èz1 ; :::; z i 1 ; 0; z i þ 1 ; :::; z j 1 ; 1; z j þ 1 ; :::; z n ê mit €z ® €z0 . Bei einem additiven und multiplikativen Ranking folgt solcher linear unabhänaus dieser Indifferenzaussage z i ã gj =gi . Aus n 1P n giger Gleichungen und der Normierungsbedingung i ã 1 gi ã 1 lassen sich bei einem additiven Ranking die Gewichte gi ; i ã 1; :::; n eindeutig bestimmen. Bei einem multiplikativen Ranking müssen noch zusätzlich zwei Vektoren wie z. B. €z ã Èz1 ; :::; z i 1 ; z 0i ; z i þ 1 ; :::; z j 1 ; 0:5; z j þ 1 ; :::; zn ê und €z0 ã Èz1 ; :::; z i 1 ; 0; z i þ 1 ; :::; zj 1 ; 1; z j þ 1 ; :::; zn ê mit €z ® €z0 zur Bestimmung der Normierungskonstante ermittelt werden. Dies führt zu der Gleichung ggj ã z i =z 0i 2 (von Nitzsch 1994, S. 97–98). Bei den holistischen Verfahren werden die Gewichte eines Ranking durch Präferenzaussagen zu Ranking-Objekten auf der Basis einer gleichzeitigen Betrachtung aller Kennzahlinterpretationen €z 2 IRn abgeleitet. Alle dekompositorischen Verfahren lassen sich mit €z ã È0; :::; 0; z i ; 0; :::; 0ê bzw. €z0 ã È0; :::; 0; z 0i ; 0; :::; 0ê in holistische Verfahren transformieren.239 Sie werden unterschieden nach der Art der Ableitung der Gewichte aus den Präferenzaussagen in algebraische und statistische Verfahren. Ein Beispiel für ein algebraisches Verfahren ist das Swing-Verfahren, das die Transformation des Direct Rating-Verfahren darstellt. Hier muss eine Ranking-Zielgruppe für jede Kennzahlinterpretation zi die Präferenzstärke ti für den Übergang von € 0 2 IRn auf È0; :::; 0; z i ã 1; 0; :::; 0ê 2 IRn angeben. Das Swing-Verfahren ist bei einem additiven und bei einem multiplikativen Ranking anwendPn bar. Die Gewichte gi ergeben sich aus gi ã ti = i ã 1 ti . Durch eine Erweiterung des Swing-Verfahrens um die Bewertung von Ranking-Objekten, die nicht nur in einer Kennzahlinterpretation, sondern in allen zulässigen Kombinationen der Kennzahlinterpretationen die Werte 1 annehmen, wird auch die Ermittlung der Gewichte eines multi-linearen Ranking möglich. Ein Beispiel für statistische Verfahren ist ein Regressionsverfahren. 239
FÈ€zê ã gi ; FÈ€z 0 ê ã gi 0 .
126
C. Ganzheitliches Ranking-Verfahren
Aus einem Vergleich der Vor- und Nachteile der kurz skizzierten Verfahren zur Bestimmung der Gewichte eines Ranking folgert von Nitzsch (1994, S. 110), dass unter präskriptiven Gesichtspunkten die trade off-Verfahren zu bevorzugen sind. Die von ihm entwickelte Software „Entscheidungsanalyse (EA)“ ermittelt auf der Basis eines trade off-Verfahrens sowohl die Kennzahlinterpretationen, als auch die Gewichte eines multilinearen, multiplikativen oder additiven Ranking. Eine Überprüfung der Unabhängigkeitsbedingungen wird durch eine Ermittlung von Indifferenzkurven240 für n 1 Paare241 von Kennzahlinterpretationen242 und eine Abfrage bezüglich der Abhängigkeiten der Indifferenzkurven von den Zielerreichungsgraden der restlichen Kennzahlinterpretationen243 durchgeführt. Ein multi-lineares Ranking gilt als Indiz für ein fehlerhaftes Zielsystem bzw. eine fehlerhafte Operationalisierung des Zielsystems durch ein Kennzahlensystem. Die ermittelten Interaktionen geben Hinweise zur Redefinition des Ziel- oder Kennzahlensystems (von Nitzsch 1994, S. 120–181).244 Praktische Probleme bei der Bestimmung eines Ranking Kirsch (1971, S. 154–157) und Wrapp (1984) schildern taktische Probleme bei der Ermittlung von Zielsystemen, Kennzahlensystemen, Kennzahlinterpretationen und Artenpräferenzrelationen bei Ranking-Zielgruppen, die durch eine Offenlegung ihrer Präferenzen bei gegebenen Ranking-Objekten und Wirkungsmodell einen Machtverlust oder eine nicht gewünschte Kontrolle ihrer Entscheidungen befürchten. Diese Probleme treten bei Personengruppen wie Managern und Politikern auf, die im Zusammenspiel mit anderen Entscheidungsträgern ihre Entscheidungen treffen müssen. „Die Transparenz der Entscheidungsgrundlagen, die von der Theorie gefördert wird, macht den Entscheider verwundbar, wenn die Entscheidung später durch andere überprüft wird. Schließlich fürchtet der Manager auch, durch Benutzung eines theoretischen Verfahrens die Kontrolle über die Entscheidung aus der Hand zu geben“ (Eisenführ und Weber 1994, S. 12–13). Bam240 Für die Existenz der Indifferenzkurven sind streng monotone Kennzahlinterpretationen erforderlich. 241 Es werden die Paarvergleiche Èz ; z ê; Èz ; z ê; :::; Èz 1 2 2 3 n 1 ; zn ê durchgeführt. 242 Für alle Paarvergleiche werden Interaktionsmaße berechnet, die entweder keine Interaktion oder eine substitutive oder komplementäre Interaktion implizieren. 243 Bei einem additiven und multiplikativen Ranking sind die Indifferenzkurven zwischen zwei Kennzahlinterpretationen unabhängig von den Werten der restlichen Kennzahlinterpretationen. 244 „Ein additives Aggregationsmodell fordert z. B. dass alle Interaktionsmaße genau null sind. Das multiplikative Modell impliziert, dass alle Interaktionsmaße dasselbe Vorzeichen haben“ (von Nitzsch 1994, S. 115).
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
127
berg und Coenenberg (1994, S. 29) bemerkt, dass eine Operationalisierung eines Zielsystems durch Kennzahlen „vor allem bei tiefgreifenden unternehmenspolitischen Entscheidungen außerordentlich schwierig, weil die Bereitschaft der Organisationsteilnehmer zur Einigung auf präzise Ziele im allgemeinen gering ist, wenn die zu treffenden unternehmenspolitischen Entscheidungen bedeutsamen Einfluss auf die Machtverteilung im Unternehmen haben“. 8. Datenerhebung Die Informationsquellen müssen der Problemstellung angemessen sein, und die Verfahren zur Informationsgewinnung sollen so gewählt oder entwickelt und dann umgesetzt werden, dass die Validität und die Reliabilität des Ranking für den gegebenen Zweck245 sichergestellt ist (Qualitätsanforderungen G4, G5, G6, G7, G8, G9 für Evaluationsverfahren). Bei der Datenerhebung sind objektive und subjektive Kennzahlen zu unterscheiden. Bei objektiven Kennzahlen werden die Kennzahlwerte quantitativ und bei subjektiven Kennzahlen z. B. durch eine Meinungsumfrage erhoben. Die Validität und die Reliabilität der Erhebung und Auswertung von objektiven Kennzahlen kann durch statistische Verfahren überprüft werden (Kromrey 2000a, S. 29). Für eine Diskussion über Grundlagenproblemen ökonomischer Messprozesse siehe z. B. Cicourel (1974) oder Hujer und Cremer (1977), für eine Diskussion der Probleme bei der Datenerhebung siehe z. B. Nieschlag, Dichtl und Hörschgen (1991), für eine Diskussion der Problematik von Datenbeschaffungs- und Erhebungsfehlern siehe Baumbusch (1988, S. 66–70). Bei der Erhebung und Auswertung von subjektiven Kennzahlen im Rahmen eines Ranking-Verfahrens sind die statistischen Anforderungen zur Validität und Reliabilität um die Forderungen nach einer intersubjektiven Vergleichbarkeit der Meinungen und einer Kompabilität mit den Präferenzen einer Ranking-Zielgruppe zu erweitern. Evaluationen und Hochschul-Rankings basieren oft auf einer Erhebung von Meinungen von z. B. Studierenden oder Absolventen durch Fragebögen und ihrer Aufbereitung, Auswertung und Verdichtung zu einem globalen Qualitätsurteil. Diese Meinungen stellen Alltagsevaluationen dar, für die im Regelfall keine intersubjektiven Vergleichsstandards vorgegeben werden. U. a. Kromrey (2000b, S. 248–249) 245 Hujer und Cremer (1977, S. 2) betonen z. B. dass die Vernachlässigung der Beziehungen zwischen dem zu untersuchenden Objekt und den verwendeten Messmethoden regelmäßig zu unzutreffenden Aussagen führen.
128
C. Ganzheitliches Ranking-Verfahren
verweist auf die Gefahr, durch methodologische Fehler Erhebungs- und Auswertungsartefakte zu erzeugen. Siehe auch Abschnitt F.II. 9. Sensitivitätsanalyse Bei der Datenerhebung und der empirischen Ermittlung von Kennzahlinterpretationen und eines Ranking treten Unsicherheiten auf, die eine Sensitivitätsanalyse oder eine Fehlerrechnung zur Überprüfung der Reliabilität einer Rangfolge erforderlich machen. Fehlerquellen sind z. B. empirisch ermittelte, widersprüchliche Höhen- und Artenpräferenzen einer RankingZielgruppe, die durch Kennzahlinterpretationen und ein Ranking nur approximiert werden können und eine oft nicht zu vermeidende Unsicherheit in der Datenerhebung. Bei der Ermittlung eines Ranking können systematische Fehler z. B. durch den Splitting-Effect auftreten.246 Dieser Effekt beschreibt eine kognitive Verzerrung bei der Bestimmung von Gewichten. Wird eine Kennzahl z. B. im Rahmen einer Zielhierarchie in eine Menge von Subkennzahlen zerlegt, so erhält die Menge der Subkennzahlen insgesamt ein größeres Gewicht als die zerlegte Kennzahl (von Nitzsch 1994, S. 76). In der Folge werden disaggregierte Instrumentalziele übergewichtet und aggregierte Instrumentalziele untergewichtet.247 Je stärker eine Kennzahl eine Rangfolge beeinflusst, desto genauer ist diese auf mögliche Datenerhebungsfehler zu untersuchen. Bei einem Rating-Verfahren wird z. B. durch Heckhausen (1986, S. 37) und Backes-Gellner und Sadowski (1986, S. 275) gefordert, nur soviele Rangklassen zu bilden wie es der vermutete Standardmessfehler zulässt.248 Durch eine Sensitivitätsanalyse soll die Zuverlässigkeit der aus einer Rangfolge zulässigen Folgerungen beschrieben werden (Qualitätsanforderungen G10, G12 für Evaluationsverfahren). Die Reliabilität von Kennzahlinterpretationen und eines Ranking kann z. B. durch Verfahren der konvergenten Validierung erzeugt werden. Die Ermittlung des Zielsystems, des Kennzahlensystems, der Kennzahlinterpretationen und des Ranking einer Ranking-Zielgruppe bei gegeben Ranking-Objekten und Wirkungsmodell wird in einem iterativen Prozess durch unterschiedliche Verfahren solange wiederholt, bis die Verfahren zu gleichen oder ähnlichen Ergebnissen gelangen.249 Ist eine Konsistenz nicht erzielbar, 246 Siehe Eisenführ und Weber (1994, S. 141–142), Eisenführ und Weber (1986) und Weber (1987). 247 Für weitere kognitive Verzerrungen bei der Bestimmung von Gewichten eines Ranking siehe Borcherding, Eppel und von Winterfeldt (1991) und Borcherding (1983). 248 Siehe auch Chicken und Hayns (1989, S. 22, 89) zum Thema Datenzuverlässigkeit.
III. Vorschlag eines ganzheitlichen Verfahrensstandards für Rankings
129
können die widersprüchlichen Informationen als unvollständige Informationen aufgefasst werden. Eisenführ und Weber (1994, S. 129–137), Weber (1983), Kirkwood und Sarin (1985) und Weber (1985) geben Beispiele für fehlerminimierende und dominanzprüfende Verfahren bei unvollständiger Information. Eisenführ und Weber (1994, S. 135–137) diskutieren z. B. ein einfaches Verfahren der Sensitivitätsanalyse, bei dem das Gewicht gi von 0 bis 1 variiert wird bei konstanten Verhältnissen gj =g0j ; j; j0 2 f1; :::; ng; j 6ã j0 der restlichen Gewichte. Statistische Verfahren wie das Ranggruppenverfahren, das Bootstrap-Verfahren (Jensen 2001) oder die Monte-Carlo-Simulation unterstellen, dass die Gewichte oder die Daten Realisationen einer Zufallsvariablen sind. Sie liefern statistische Aussagen zur Güte einer Rangfolge. „Die präskriptive Entscheidungstheorie versucht, bei der möglichst zutreffenden Artikulation der Erwartungen und Präferenzen zu helfen, aber sie muss die Existenz eines Unschärfebereichs anerkennen. Es genügt nicht, auf der Basis geäußerter Erwartungen und Präferenzen eine Alternative als ‚die optimale‘ zu identifizieren, sondern man sollte auch untersuchen, wie stabil diese Lösung gegenüber Variationen der verarbeiteten Informationen ist“ (Eisenführ und Weber 1994, S. 11).
249 „Gewöhnlich wird die Erzeugung redundanter Informationen dazu führen, dass die Gewichte nicht eindeutig sind, weil der Entscheider in seinen Aussagen nicht vollkommen konsistent ist. Diese Inkonsistenz wird ihm bewusst und kann dazu führen, dass er seine Aussagen genauer überdenkt und revidiert, bis sie widerspruchsfrei sind“ (Eisenführ und Weber 1994, S. 129).
D. Leistungsmessung im Hochschulbereich Das öffentliche Interesse an geeigneten Informationen über die Art, den Umfang, und insbesondere über die Qualität von Hochschulleistungen hat in den vergangenen Jahrzehnten international stark zugenommen und zur Entwicklung von Messverfahren wie Hochschul-Evaluation und HochschulRanking geführt. Die Bedeutung dieser Messverfahren wird in Zukunft durch eine gesetzlich vorgeschriebene Leistungsberichterstattung zunehmen. In Deutschland wird in mehreren Bundesländern bereits ein Teil der Sachmittel nach Leistungs- und Belastungskriterien vergeben. Dadurch soll ein Wettbewerb unter den Hochschulen simuliert und stimuliert werden.250 Abschnitt D.I. beinhaltet allgemeine Ausführungen zur Qualitätsmessung von Hochschulleistungen. Eine zentrale Feststellung wird in Analogie zum Qualitätsmanagement von Dienstleistungen getroffen: Die Qualität einer Hochschulleistung kann nur in Abhängigkeit von definierten Zielgruppen gemessen werden. In Abschnitt D.II. werden zunächst die Gemeinsamkeiten und die Unterschiede zwischen einer Hochschul-Evaluation und einem Hochschul-Ranking dargestellt. Sowohl die Hochschul-Evaluation als auch das Hochschul-Ranking stellen subjektive Qualitätsmaße dar, die sich jedoch in der Transparenz ihrer Subjektivität unterscheiden. Anschließend wird die historische Entwicklung von Hochschul-Evaluationen und Hochschul-Rankings für die Zielgruppen Wissenschaft und Politik (Abschnitt D.III.1.) und Studierende und Unternehmen (Abschnitt D.III.2) skizziert. Hochschul-Evaluationen und Hochschul-Rankings existieren u. a. für die USA, Großbritannien, Frankreich, die Niederlande und Deutschland. Durch den historischen Vergleich wird deutlich, warum Hochschul-Evaluationen und Hochschul-Rankings, die eine über hundertjährige Tradition in den USA besitzen, insbesondere in Deutschland als unseriös und nicht wissenschaftlich gelten. Zum einen unterscheiden sich die beiden Hochschulsysteme strukturell. Zum anderen wird die Diskussion in Deutschland seit den 1970er Jahren überwiegend zwischen Hochschulvertretern und der Hochschulpolitik geführt. Die Diskussion ist wenig durch wissenschaftliche, aber 250 „Wenn es gelänge, die Qualität der Leistungen der Institution Hochschule und ihrer Gliederungen umfassend, detailliert, gültig und zuverlässig zu messen, dann stünde damit ein ‚objektives‘ Kontrollinstrument zur Verfügung; andererseits existierte in Gestalt der Qualitätsmaße auch eine Art ‚Währung‘ die für einen funktionierenden Wettbewerb . . . notwendig scheint“ (Kromrey 2000b, S. 240).
I. Qualität von Hochschulleistungen
131
viel durch emotionale und politische Argumente sowie durch gegenseitige Schuldzuweisungen geprägt. Die Hochschulvertreter sehen durch eine geplante Verknüpfung der Evaluationsergebnisse mit finanziellen Konsequenzen einen massiven Eingriff in das Selbstorganisations- und Selbststeuerungsprinzip bzw. in das Autonomieprinzip der Hochschulen. HochschulEvaluationen und Hochschul-Rankings werden stets sehr kontrovers und heftig diskutiert. Wissenschaftliche Verfahren und Methoden werden vorwiegend dazu eingesetzt, Fehler in Evaluations- und Ranking-Verfahren aufzudecken und um die Unmöglichkeit einer objektiven Messung von Hochschulleistungen zu zeigen. Die Versuche einzelner Wissenschaftler, z. B. aus der Soziologie oder der Psychologie, zu aussagefähigeren Hochschul-Rankings zu gelangen erregen den Unmut eines Großteils der wissenschaftlichen Gemeinde. Die Entscheidungstheorie hat sich mit diesem Thema bisher nur rudimentär befasst. In Abschnitt D.IV. wird eine aktuelle Entwicklung der Hochschul-Evaluation in den USA geschildert. RatingAgenturen mit hundertjähriger Tradition wie Standard & Poor’s und Moody’s Investors Service erweitern ihre Geschäftstätigkeit von der Bonitätsbewertung börsennotierter Unternehmen auf die Hochschul-Evaluation.
I. Qualität von Hochschulleistungen Bei der Güterproduktion lassen sich die Effizienz und die Effektivität eines Produktionsprozesses sowie die Qualität eines Produktes auch objektiv beurteilen und in standardisierter Form messen. So kann z. B. bei der Automobilproduktion die Effektivität des Produktionsprozesses durch dessen Fehlerquote, dessen Effizienz durch die Stückkosten pro Automobil eines bestimmten Typs und die Qualität des Automobils durch Qualitätskriterien wie Straßenlage, Kraftstoffverbrauch und darauf zugeschnittene Tests gemessen werden. Die Qualität eines Autoreifens kann z. B. durch Kriterien wie Haltbarkeit (Laufleistung), Bodenhaftung (bei trockener und nasser Straße) und Sicherheit objektiv beschrieben und durch physikalische Tests gemessen werden. Beim Leistungsspektrum von Hochschulen handelt es sich in der Mehrzahl um „nicht konkret fassbare Gegenstände“, also um Dienstleistungen und in der Mehrzahl um Humandienstleistungen. Die Qualität einer Dienstleistung wird in der Literatur zum Dienstleistungsmanagement u. a. durch die beabsichtigten und unbeabsichtigten Wirkungen einer Dienstleistung bei einem Dienstleistungsnehmer beschrieben, die von der Akzeptanz und von der aktiven Mitwirkung der Dienstleistungsnehmer abhängig sind.251 Die 251 „Universitäre Lehrangebote haben immateriellen Charakter, stellen Potentialangebote dar, deren Qualität frühestens zum Zeitpunkt der Inanspruchnahme beur-
132
D. Leistungsmessung im Hochschulbereich
Wirkungen einer Dienstleistung sind oft nicht gegenständlich sichtbar, oft schwer kommunizierbar, und zahlreiche Akteure mit je unterschiedlichen Zielsetzungen bestimmen durch ihr Handeln die Qualität entscheidend mit. Die wahrgenommene Qualität einer Dienstleistung ist folglich keine objektive, sondern eine relationale Eigenschaft, ein mehrdimensionales Konstrukt, das von außen an die Dienstleistung zum Zwecke der Beurteilung herangetragen wird. Sie besitzt in unterschiedlichen Kontexten und für unterschiedliche Zielgruppen unterschiedliche Bedeutungen252 und ist nicht objektiv in einer Weise empirisch abbildbar, wie es das wissenschaftliche Konzept „Messen“ nach dem Entwicklungs-, Forschungs- oder Kontrollparadigma der empirischen Sozialforschung verlangt (Kromrey 2000b, S. 241).253 Qualitätsaussagen über Hochschulleistungen sind somit Werturteile,254 deren Validität und Reliabilität nur durch die Festlegung von Vergleichsmaßstäben oder Verfahrensstandards gewährleistet ist. Jede Beurteilung der Güte eines Qualitätsmaßes für eine Hochschulleistung unter der Forderung der Objektivität wird schließlich zur Ablehnung dieses Maßes führen, da regelmäßig Spezialfälle konstruiert werden können (bedeutsame und unbedeutsame), bei denen die Qualität einer Hochschulleistung nicht richtig gemessen wird. Als pragmatische Forderungen an ein Qualitätsmaß können nur eine nach methodologisch-methodischen Standards erfolgte Ableitung und ein „im Kreis der Experten breit getragener Konsens“ über die Güte des Qualitätsmaßes aufgestellt werden. Kromrey (2000b) fordert in Anlehnung an das Qualitätsmanagement von Dienstleistungen eine relative, inhalts- und ergebnisorientierte Definition der Qualität von Hochschulleistungen in Abhängigkeit von definierten Zielgruppen.255 teilt werden kann und erfordern im Rahmen der Leistungserstellung bzw. -inanspruchnahme die Integration und teilweise Mitwirkung der Studierenden im Sinne eines externen Faktors. Die Produktion und der Konsum haben gleichzeitig zu erfolgen. Universitäre Lehrangebote erfüllen somit sämtliche konstitutive Merkmale von Dienstleistungen“ (Hansen, Henning-Thurau und Wochnowski 1997, S. 378). 252 „Deshalb kommt es sehr darauf an, wer eine Evaluation in Auftrag gibt, wer sie durchführt, welche Ziele von wem verfolgt werden, welche Vorgehensweisen gewählt und welche Methoden angewendet werden“ (Stockmann 2000a, S. 11–12). 253 „. . . erwächst daraus ein methodisches Problem, das . . . in der Sozialindikatorenbewegung unter den Schlagworten objektive versus subjektive Indikatoren ausgiebig diskutiert wurde“ (Kromrey 2000a, S. 52–53). 254 „Letztlich erfolgt jede Beurteilung – auch wenn sie unter Nennung der Kriterien publiziert wird – subjektiven Erwägungen; dies dürfte bei der Einschätzung der Forschungsqualität, aber auch der Lehrqualität in der Regel unvermeidlich sein“ (Alewell 1986, S. 50). 255 Qualität kann nur nach der Festlegung einer Perspektive, aus der die qualitätsrelevanten Dimensionen und die Qualitätsindikatoren zu deren Beurteilung zu bestimmen, definiert werden. „Von Studienanfängern und Fortgeschrittenen, von ge-
II. Vergleich der Meßverfahren
133
II. Vergleich der Meßverfahren Hochschul-Evaluation und Hochschul-Ranking Kromrey (2000b) folgert aus theoretischen Überlegungen und empirischen Untersuchungen, dass eine Hochschul-Evaluation in der Methodologie der empirischen Sozialforschung streng genommen nicht möglich ist. Er definiert Hochschul-Evaluation als methodisch kontrollierte, verwertungsund bewertungsorientierte Form des Sammelns und Auswertens von Informationen. Die Validität und die Reliabilität der Evaluationsergebnisse wird durch einen Verfahrensstandard überprüft (Objektivierung durch Verfahren), wie z. B. durch die Verfahrensvorschläge zur Gewinnung entscheidungsrelevanter Informationen bei Evaluationsgutachten von Sachverständigen im Hochschulbereich (Wissenschaftsrat 1996), die allen Beteiligten und Betroffenen am Evaluationsprozess die Möglichkeit der Einflussnahme bietet (kommunikative Validierung).256 Obwohl die Qualität von Hochschulleistungen nicht objektiv gemessen werden kann, ist es möglich, durch differenzierte Verfahren diejenigen Informationen empirisch zur Verfügung zu stellen, die es erlauben, die Qualitäten aus unterschiedlichen Perspektiven einzuschätzen. Das Erkenntnis- und Verwertungsinteresse von HochschulEvaluationen umfasst in der Praxis das Entwicklungs-, Forschungs- und Kontrollparadigma. Sie sollen die Qualitäten von Hochschulleistungen mit dem Ziel messen, Qualitätsdefizite und erforderliche Maßnahmen zu ihrer Beseitigung zu identifizieren. Z. B. soll bei einer Lehrevaluation empirisch gesichertes Wissen über die Faktoren gewonnen werden, die ein erfolgreiches Lehren und Studieren fördern (Forschungsparadigma), die Effizienz und die Effektivität der Verwendung von Haushaltsmitteln kontrolliert und dokumentiert werden (Kontrollparadigma) um Erkenntnisse für Maßnahmen zur Qualitätssicherung und -steigerung wie z. B. für die Reform eines Curriculums zu gewinnen (Entwicklungsparadigma). Die Ziele einer Hochschul-Evaluation können die Sicherung, die Verbesserung, die Kontrolle, die Dokumentation oder die Erhöhung der Effizienz und Wirtschaftlichkeit der Qualität von Lehre, Prüfung, Forschung und Verwaltung sein sowie die leistungsbasierte Mittelverteilung oder die Erhöhung genwärtig Studierenden und künftigen Absolventen, von Arbeitgebern und fachwissenschaftlicher community werden unterschiedliche, teils sogar gegensätzliche Erfordernisse geltend gemacht“ (Kromrey 2000b). 256 „In besonders systematischer, formalisierter und nachprüfbarer Form geschieht dies in dem Verfahren der zweistufigen (internen und externen) Evaluation, wie es im Verbund Norddeutscher Universitäten und von der Zentralen Evaluierungsagentur (ZEvA) in Niedersachsen angewendet wird und das auf Empfehlungen der Hochschulrektorenkonferenz (1995) und des Wissenschaftsrates (1996) beruht“ (Kromrey 2000b, S. 245).
134
D. Leistungsmessung im Hochschulbereich
der Transparenz und des Wettbewerbs zwischen Fakultäten und Universitäten. Dabei sollen entscheidungsunterstützende Informationen für die Zielgruppen der Hochschul-Evaluation wie Fakultäts- und Hochschulleitung, Forschungsförderungsgesellschaften, vorgesetzte Ministerien oder die interessierte Öffentlichkeit generiert werden. „Hochschulevaluation sollte zeigen, dass die Ziele der Hochschulen und ihrer Nutzer vielschichtig sind, in ihrer Vielfalt bewahrt werden sollten und deshalb auch nicht eindimensional bewertet werden können“ (Rau und Hummel 1986, S. 224). Evaluations-Objekte können Wissenschaftler, Lehrveranstaltungen, Prüfungsordnungen, Fakultäten, Universitäten, Forschungs- oder Lehreinheiten, die Verwaltung oder die Studienberatung sein. Bei der Abgrenzung der Evaluations-Objekte werden das Leistungsprofil und die Rahmenbedingungen berücksichtigt. Wie z. B. bei der Evaluation eines Studienganges das Profil des Studienganges (Vorbereitung auf einen praktischen Beruf oder eine wissenschaftliche Karriere, zu vermittelnde Lerninhalte, Lehrmethoden, Fächerschwerpunkte, . . .), das Betreuungsverhältnis Dozenten/Studierende, die Räumlichkeiten und die finanzielle Ausstattung.257 Auf der Basis eines von akademischen Gremien, Berufsverbänden oder Dritten festgelegten Kriterienkatalogs wird der Erfüllungsgrad einzelner Zieldimensionen durch die Evaluatoren festgelegt und im Vergleich mit strukturgleichen oder ähnlichen Evaluations-Objekten interpretiert bzw. bewertet.258 Die Einzelergebnisse können durch die Evaluatoren zu einer Gesamtaussage aggregiert werden, auf die Erstellung einer Rangfolge wird in den meisten Fällen verzichtet. An ihre Stelle treten Stärken-Schwächen-Analysen, Ausstattungsvergleiche, Benchmarking- und „best-practice“ Studien.259 Gehören die Evaluatoren dem Evaluations-Objekt an, so handelt es sich um eine interne Evaluation bzw. um eine Selbstevaluation, anderenfalls um eine externe Evaluation durch Experten bzw. eine Peer-Evaluation. Nach dem Auftraggeber der Evaluation wird zwischen einer offiziellen Evaluation (Hochschulen, eine akademische oder eine staatliche Institution) und einer inoffiziellen Evaluation (z. B. Publikumszeitschriften, Studierende) unterschieden.260 Die Datenerhebung geschieht durch Methoden der empirischen 257
Vgl. die Rubriken Kurzbeschreibung des Faches und seiner Studienangebote, Ziele für Lehre und Studium und Studienschwerpunkte des Fragebogens zur Selbstbeschreibung des Verbunds Norddeutscher Universitäten (Universität Hamburg 2000) und Fischer-Bluhm, Ruhne und Mittag (1999). 258 Siehe Universität Hamburg (2000), Fischer-Bluhm, Ruhne und Mittag (1999). 259 Vgl. Fischer-Bluhm, Ruhne und Mittag (1999). 260 Beispiele für offizielle externe Evaluationen sind die Evaluationen im Verbund Norddeutscher Universitäten bzw. durch HIS, ZEvA, CHE und Unternehmensberatungen (Fischer-Bluhm, Ruhne und Mittag 1999), Beispiele für inoffizielle externe Evaluation sind die Ranking von Publikumszeitschriften wie Der Stern, Focus, Der Spiegel, Beispiele für offizielle interne Evaluationen sind die Selbstevaluation
II. Vergleich der Meßverfahren
135
Sozialforschung wie Einzelinterviews, Gruppendiskussionen, Beobachtungen, Dokumentenanalysen, Feedback-Verfahren und Auswertung statistischer Daten. Am Ende einer Hochschul-Evaluation werden die „Eindrücke, Schlussfolgerungen und Empfehlungen“ mit den Evaluierten bzw. der evaluierten Organisation diskutiert bevor das abschließende Gutachten erstellt wird.261 Geht einer externen Evaluation eine interne Evaluation voraus, handelt es sich um eine Evaluation nach dem „niederländischem Modell“ (z. B. HIS, ZEvA, CHE),262 wenn die Empfehlungen des abschließenden Gutachtens von der Hochschule in Verbesserungsstrategien in Form von messbaren Zielvereinbarungen umgesetzt werden. Die Ziele eines Hochschul-Ranking sind z. B. die Messung bzw. die Bewertung der Qualität der Lehre (Spiegel 1989, Spiegel 1993, Spiegel 1998a) bzw. der Ausbildung (Manager Magazin 1990) bzw. der Einstellungswahrscheinlichkeit (Gronwald und Wöhrle 1998), der Qualität der Forschung (Manager Magazin 1990, Fischer und Schwarzer 1992a) oder allgemein des Image (Fischer und Schwarzer 1992b) bzw. der allgemeinen Leistungen (Stern 1993, Fischer, Rieker und Riesch 1994, Rieker und Riesch 1995, Rieker 1996, Sommer 1997, Focus 1997a) einer Hochschule oder einer Fakultät. Durch eine systematische Beurteilung der Stärken und Schwächen soll eine vergleichende Klassifikation der bewerteten RankingObjekte entscheidungsunterstützende Informationen für die Zielgruppen eines Hochschul-Ranking wie Schulabgänger, Hochschulleitungen oder Unternehmen generieren. Ranking-Objekte sind vorwiegend nationale Studiengänge oder Hochschulen. Analog zur Hochschul-Evaluation wird auch beim Hochschul-Ranking ein Kriterienkatalog definiert. Im Unterschied zur Hochschul-Evaluation wird der Kriterienkatalog durch ein Kennzahlensystem operationalisiert, in dem die einzelnen Kennzahlen die Messung und Interpretation der Erfüllungsgrade einzelner Leistungsdimensionen durch einen Evaluator oder ein Team von Evaluatoren ersetzen sollen (Kieser, Frese, Müller-Böling und Thom 1996). Im Unterschied zu einem Hochschul-Ranking müssen bei einer Evaluation die Messgrößen und die Interpretation der Messungen nicht exakt definiert werden. Die ausgewählten Leistungsdimensionen und Messgrößen stellen bei einer Evaluation Richtlinien zur Beurteilung dar. Die Evaluatoren entscheiden, welche Messgrößen tatsächlich in die Evaluation einfließen und mit welcher Bedeutung sie belegt werden. Dadurch können die tatvon Fachbereichen in Form von Stärken-Schwächen-Analysen und Beispiele für inoffizielle interne Evaluationen sind die Evaluationen von Lehrveranstaltungen durch Studierende. 261 Vgl. Universität Hamburg (1999a), Beywl (1999). 262 Vgl. Universiät Hamburg (2000, Abschnitt 3 und 4) und Kieser (1998).
136
D. Leistungsmessung im Hochschulbereich
sächlichen Messgrößen und deren Interpretationen von Evaluations-Objekt zu Evaluations-Objekt verschieden sein, und ein direkter „besser/schlechter“ Vergleich zwischen zwei Evaluations-Objekten ist nicht durchführbar. Ein weiterer Unterschied besteht darin, dass bei einer Evaluation eine Aggregation von Einzelbewertungen zu einem Gesamturteil im Unterschied zu einem Hochschul-Ranking nicht zwingend vorgenommen werden muss. Es kann dem Entscheider bzw. der Zielgruppe der Evaluation überlassen bleiben, die Einzelbewertungen individuell zu einem Gesamturteil zu aggregieren.263 Sowohl die Evaluation als auch das Ranking stellen subjektive Qualitätsmaße dar. Die Subjektivität besteht in der Auswahl der zu beurteilenden Leistungsdimensionen, der Definition der Messgrößen, der Interpretation und der Aggregation der Messungen. Eine Evaluation und ein Ranking unterscheiden sich jedoch in der Transparenz ihrer Subjektivität.264 Bei einem Ranking wird durch die Operationalisierung der Leistungsdimensionen und der exakten Definition der Messgrößen sichergestellt, dass alle Ranking-Objekte hinsichtlich derselben Messgrößen mit denselben Bedeutungen evaluiert werden. Wird bei einer Hochschul-Evaluation eine nicht näher definierte Aggregation durch Experten vorgenommen, so ist diese im Detail nicht nachvollziehbar. Im Unterschied dazu werden bei einem Ranking alle Einzelbewertungen durch eine definierte, nachvollziehbare Aggregationsfunktion einheitlich gewichtet. Eine Hochschul-Evaluation ist mit einem hohen personellen und finanziellen Aufwand verbunden,265 bei einem Hochschul-Ranking fallen nach seiner Konzeption nur noch Kosten für die Datenerhebung und eventuelle Revisionen an.
263 „Das . . . konzipierte Verfahren stellt umfangreiche Daten zur Verfügung, überlässt aber den Prozess, durch den diese Daten zu einer quantitativen Bewertung verdichtet werden, nicht einem Algorithmus, sondern dem Urteil der Peers. Dieses wird durch die Daten und ihre Strukturierung ‚unterstützt,‘ andererseits wird den Peers aber auch die Möglichkeit der Akzentuierung und Korrektur gelassen“ (Kieser 1998). 264 „Die Einführung von Evaluationen wird häufig mit dem Argument begründet, mit ihrer Hilfe würde die Leistungserstellung der evaluierten Institutionen transparent gemacht. Allerdings bleibt der Prozess der Evaluation, durch den die Transparenz hergestellt werden soll, häufig selbst intransparent. . . . Die Evaluation wird so gewissermaßen zu einer Black Box, welche die Illusion der Transparenz erzeugt“ (Kieser 1998). 265 Die Evaluationsagentur der niedersächsischen Hochschulen hat bei einer Beteiligung von 37 Hochschulen Personal- und Sachkosten in Höhe von ca. 3.5 Millionen DM pro Jahr (MWFK BW 1999).
III. Historische Entwicklung
137
III. Historische Entwicklung der Hochschul-Evaluation und des Hochschul-Ranking Interne Untersuchungen zur Produktivität von Wissenschaftlern in der Forschung und das Ranking von Forschungsleistungen haben eine lange Tradition. Auftraggeber und Adressaten der ersten Untersuchungen waren am Beginn des 20. Jahrhunderts Wissenschaftler und Hochschulleitungen. Die Ergebnisse von z. B. bibliometrischen Untersuchungen und Evaluationen wurden teilweise in Fachzeitschriften veröffentlicht. Wie unterschiedlich die Forschungsproduktivität von Wissenschaftlern einer Disziplin sein kann, zeigt eindrucksvoll ein bereits durch Lotka (1926) postulierter und in vielen Fachdisziplinen hochbestätigter Zusammenhang266 zwischen der Anzahl der einer Fachdisziplin i angehörigen Wissenschaftler ni und der Anzahl publizierter wissenschaftlicher Arbeiten in dieser Disziplin. Dieser Zusammenhang wird als Gesetz von Lotka und Price267 (Kornhuber 1986) bzw. „square root law of elitism“ (Daniel 1986b, S. 229) bezeichnet und lautet: Ca. die Hälfte der publizierten Arbeiten einer Disziplin i wird von pffiffiffiffi ni Wissenschaftlern erbracht. Die Evaluationen hatten damals keine direkten finanziellen Folgen, trugen jedoch in Form einer sozialen Sanktion in erheblichem Umfang zur Reputation von Wissenschaftlern, Fachbereichen und Universitäten bei, die bei der Zuteilung von Haushalts- und Forschungsmitteln, bei der Festsetzung von Studiengebühren und bei Gehaltsverhandlungen eine entscheidende Rolle spielt. Die Attraktivität von Studiengängen und das Renomée der Absolventen wird stark von der Reputation geprägt, die einer Hochschule beigemessen wird. Durch die weltweite Expansion post-sekundärer Ausbildung nach dem zweiten Weltkrieg veränderten sich die Rahmenbedingungen für Forschung und Lehre an den Hochschulen. Z. B. hat sich die Zahl deutscher wissenschaftlicher Hochschulen im Zeitraum von 1960 bis 1995 laut Deutschem Hochschullehrerverband fast verdreifacht und die Zahl deutscher Ordinariate fast vervierfacht. Ähnliche Entwicklungen vollzogen sich auch in anderen Industrienationen. Z. B. stieg in den USA die Anzahl der jährlichen verliehenen MBA-Abschlüsse von ca. 5000 in 1960 auf über 70 000 in 1989 und die Zahl der Business Schools auf über 650. Der traditionelle Anspruch einer Universität als elitäre Ausbildungsanstalt wird in den Industrieländern zunehmend überlagert von dem Dienstleistungscharakter einer Massenhochschule. Eigenständige Profile, Zielsetzungen und Leistungs266
Siehe Dobrov (1969), Fränz (1973), Allison (1980), Rescher (1982). Lotka (1926), Price (1971). Für Kritik am Gesetz von Lotka und Price siehe Roeder, Baumert, Naumann und Trommer (1986), Merton (1968), Glänzel und Schubert (1985). 267
138
D. Leistungsmessung im Hochschulbereich
potentiale werden nicht mehr deutlich (Rau und Hummel 1986, S. 210– 211).268 Die damit verbundene Intransparenz der Struktur und der Qualität von Forschung und Lehre an den Hochschulen und die Notwendigkeit der Kürzung öffentlicher Mittel für den Bildungsbereich führten dazu, das zum Ende des 20. Jahrhunderts staatliche Organisationen als Auftraggeber von Evaluationen und Rankings hinzukamen, die sich nicht mehr ausschließlich mit der Bewertung der Qualität von Forschungsleistungen, sondern ebenfalls mit der Bewertung der Qualität von Lehrleistungen beschäftigen. Diese Evaluationen verfolgen die Ziele einer Steigerung der Qualität von Lehr- und Forschungsleistungen und einer leistungsabhängigen Mittelvergabe.269 Sie untersuchen die Erfolgsbedingungen für Forschungsleistungen, die Möglichkeiten für eine Ertragsoptimierung, die Beeinflussbarkeit herausragender Leistungen und die normengerechten Verteilung von Reputation (Rau und Hummel 1986, S. 219). 1. Evaluation und Ranking von Forschungs- und Lehrleistungen für die Zielgruppen Wissenschaft und Politik Die Evaluations- und Ranking-Praxis in den Vereinigten Staaten, Großbritannien, Frankreich und in den Niederlanden weist verschiedene, teilweise stark divergierende Ansätze auf, die auf länderspezifischen Wertprämissen und unterschiedlichen politischen und administrativen Besonderheiten beruhen (Klostermeier 1994, Vorwort von H.W. Hetzler). Die in einem Land entwickelten Konzepte und Verfahrensweisen sind nicht einfach unter anderen nationalen Bedingungen anwendbar. Für eine detailliertere Übersicht der Evaluationspraxis der Lehre in den USA, Großbritannien und den Niederlanden siehe Holtkamp und Schnitzer (1992). USA Die Evaluation und das Ranking von Forschungs- und Lehrleistungen hat in dem wettbewerbsorientierten, weitgehend dezentralisierten, vielfältigen Hochschulsystem der USA eine lange Tradition. Der tertiäre Bildungssektor in den USA wird bestimmt durch eine große Zahl privater Colleges und Universitäten, große Qualitätsunterschiede zwischen den Hochschulen, ei268
„Der Ruf einer Universität oder eines Gelehrten war in der Vergangenheit hinreichend bekannt. Die moderne Massenuniversität steht in dieser Hinsicht vor großen Schwierigkeiten“ (Klostermeier 1994, Vorwort von H.W. Hetzler). 269 „Durch mehr Wettbewerb zwischen den Universitäten und durch verstärkte Konzentration der Ressourcen soll die Leistungsfähigkeit und die Qualität der Hochschulen gesteigert werden“ (Klostermeier 1994, S. 23).
III. Historische Entwicklung
139
nen harten Wettbewerb um Studierende und Wissenschaftler, den Zwang, private Einnahmen zu erzielen, und eine Organisationsform und Personalstruktur, die auf Differenzierung im Wettbewerb ausgerichtet ist. Es gibt mehr als 3000 Colleges und Universitäten in den USA, die ihre Studierenden vorwiegend anhand des Scholastic Aptitude Test (SAT)270 selbst auswählen. „Die Universitäten berücksichtigen ferner den Rang in der Klasse, Empfehlungsschreiben sowie spezielle Talente und Aktivitäten außerhalb der Schule. Viele Universitäten bitten die Bewerber zum persönlichen Interview“ (Klostermeier 1994, S. 72). Die führenden Hochschulen wie Yale, Princeton, Stanford und Harvard akzeptieren jährlich nur 15–20% der Studienbewerber. 97 Prozent aller amerikanischen Hochschulen führen eine Evaluation von Lehrveranstaltungen271 im Rahmen einer jährlichen PeerReview durch. Das Ergebnis der Bewertung bestimmt die Höhe der Bezüge, die innerhalb eines College oder einer Universität um den Faktor drei oder größer variieren können. „Wer die beste Lehre und Forschung anbietet, wird die besten und klügsten Studenten anziehen, die wiederum Forschungsgelder und die besten Lehrer anziehen“ (Brinck 1992). Als erste Evaluationsstudie gilt die von Joseph Rice, der von 1887 bis 1898 das Lesenlernen an ca. 33 000 US-amerikanischen Schülern untersuchte und nachwies, „dass die zur damaligen Zeit überaus starke Betonung des Buchstabierens beim Lesenlernen nicht den erwarteten Erfolg hätte“ (Daumenlang, Altstötter und Sourisseaux 1995, S. 703). Der Beginn der Evaluationsforschung war eng verbunden mit der Entwicklung standardisierter Tests zur zuverlässigen Erhebung von entscheidungsnotwendigen Daten. In den 1930er Jahren wurden Forschungsprojekte zur „Entwicklung und Evaluierung pädagogischer Programme auf nationaler Ebene“ finanziell durch das vom US-amerikanischen Präsident Roosevelt zur Bekämpfung der wirtschaftlichen Depression aufgelegten Aktionsprogramm „New Deal“ gefördert. Ralph W. Tyler untersuchte die Effektivität innovativer Curricula und neuer Lehr- und Lernstrategien. „Während das bislang übliche Forschungsdesign im Messen der Kenntnisse und Fertigkeiten der Schüler bestand, forderte Tyler dagegen, dass dem Messen und Testen klar definierte Lernziele zugrunde liegen müssten“ (Daumenlang, Altstötter und Sourisseaux 1995, S. 703). 1930 wurde eine internationale Konferenz zum Thema 270
Der SAT wurde vom College Entrance Examination Board in Princeton entwickelt. „Dieser Test prüft an erster Stelle nicht Schulwissen ab, sondern die sprachliche und gedankliche Eignung, dem Unterricht an der Universität zu folgen“ (Klostermeier 1994, S. 72). 271 „Die Dozenten sollen Rückmeldungen und Anregungen zur Verbesserung der Lehre erhalten, die Institutsleiter Entscheidungshilfen bei Einstellungen, Beförderungen und Gehaltszuschüssen und die Studenten Hilfe bei der Auswahl ihrer Kurse und Dozenten“ (Klostermeier 1994, S. 74).
140
D. Leistungsmessung im Hochschulbereich
„Ausbildungserfolg und Leistungsmessung“ von der Carnegie-Stiftung veranstaltet. 1959 führte Keniston im Auftrag der University of Pennsylvania ein Ranking von „Ph.d. programs“ in den USA durch (Bradburn 1987, Hess 1992). Cronbach (1963) forderte die Abkehr von der normorientierten Evaluation und definierte Evaluation als Prozess der Datensammlung und Informationsvermittlung. 1965 wurde in der politischen Ära der US-amerikanischen Präsidenten Kennedy und Johnson272 die jährliche Evaluation pädagogischer Programme durch standardisierte Tests durch den Elementary and Secondary Education Act gesetzlich vorgeschrieben. Evaluationsforschung als Teilgebiet der angewandten sozialwissenschaftlichen Forschung wurde überwiegend von privaten Unternehmen wie Westinghouse oder der Rand Corporation betrieben. Erst in den frühen 1970er Jahren begann sich die Evaluationsforschung als eigenständige wissenschaftliche Diziplin durch die Herausgabe wissenschaftlichlicher Zeitschriften, die Gründung wissenschaftlicher Gesellschaften, die Aufnahme von Themen der Evaluationsforschung in das Ausbildungsprogramm der Universitäten und die Gründung von Forschungszentren zu etablieren. Die ersten seriösen Ranking-Studien sind nach Frackmann (1988, S. 141–147) die Studien von Cartter (1966), Roose und Andersen (1970) und Jones, Lindzey und Coggeshall (1982), in denen die „scholary competence and achievements“ von „Ph.D.-granting departments“ in 29 Disziplinen („vergleichbaren Fachbereichen“) und 106 Institutionen (Cartter 1966, Roose und Andersen 1970) im Auftrag des American Council on Education durch eine Befragung von Wissenschaftlern (sogenannten peers) bewertet werden. 1972 werden die Stärken und Schwächen von Technologie und Wissenschaft erstmals durch Wissenschaftsindikatoren dargestellt (Weingart, Sehringer und Winterhagen, 1984) „Die breite Anerkennung des neuen Forschungsfeldes fand 1981 in einer Konferenz der American Sociological Association über die Ausbildung in angewandter sozialwissenschaftlicher Forschung ihren Niederschlag . . .“ (Daumenlang, Altstötter und Sourisseaux 1995, S. 705). Das 1976 veröffentlichte „The Policy Analysis Source Book for Social Programs“ verzeichnet über 4 000 Evaluationsstudien aus den staatlichen Bereichen Gesundheitswesen, Unterbringung, Energieverbrauch, Erziehung und Fürsorge (Daumenlang, Altstötter und Sourisseaux 1995, S. 709). „Im Bundesstaat Tennessee gibt es seit 1979 zusätzlich zu der Finanzierung, die sich nach der Zahl der Studenten richtet, eine leistungsbezogene Finanzierung der Hochschulen“ (Banta 1992). Eine umfangreichere Studie, bei der neben den Befragungsergebnissen quantitative Kennzahlen in die Bewertung eingehen ist Webster (1983). Landesweite Studien zur Verbesserung der Lehrqualität an amerikanischen 272
Im Rahmen der Evaluation der Great Society Programs.
III. Historische Entwicklung
141
Colleges und Universitäten wie Involvement in Learning (1984, National Study Panel on the Conditions of Excellence in Higher Education), Integrity in the College Curriculum (1985, Association of American Colleges) und Time for Results (1986, National Governors’ Association) führen zur Empfehlung der Institutionalisierung von Leistungsbewertungen im amerikanischen Hochschulsystem. „Im Jahre 1988 gab der Bildungsminister William Bennett eine Verordnung heraus, nach der alle Anerkennungsorgane, . . . zwecks ministerieller Genehmigung Leistungsbewertungen in ihre Anerkennungskriterien einbeziehen müssen“ (Banta 1992). Seit den 1980er Jahren „wird . . . verstärkt auf die Bedeutung von Ausbildung und Lehre als bedeutsame Leistungsaspekte von Hochschulen und die Notwendigkeit der Berücksichtigung von Ausbildungs- und Lernergebnissen für die Beurteilung von Hochschulleistungen verwiesen. Hierzu bereits vorliegende Konzepte zielen darauf ab, die „gesamtgesellschaftlich wertvollen Ausbildungsleistungen ‚normaler‘ Hochschulen gegenüber den ‚Erfolgen‘ der herausragenden, weltbekannten Universitäten . . . in ein angemessenes Licht zu rücken. Sie berücksichtigen unterschiedliche Ausgangslagen und verschiedene Rahmenbedingungen, um tatsächliche Lernzuwächse (‚value added‘) ermitteln zu können“ (Rau und Hummel 1986, S. 222). Großbritannien Auch in Großbritannien hat die Evaluation und das Ranking von Forschungs- und Lehrleistungen eine lange Tradition. Das britische Hochschulsystem orientierte sich bereits früh am US-amerikanischen (Ben-David 1968). Die öffentlichen Mittel für den tertiären Bildungssektor wurden von der britischen Regierung an das University Grants Committee (UGC) überwiesen, das die Mittel nach Abzug einer fachabhängigen Grundausstattung nach einem Leistungsschlüssel verteilte. Der Leistungsschlüssel basierte auf einer Evaluation und einem Ranking der Forschungsleistungen der Hochschulen. Die Hochschulen waren nur verpflichtet eine bestimmte Zahl von Studierenden, für die sie sich entschieden hatten, auszubilden (Klostermeier 1994). Nach dem Wahlgewinn der Konservativen Partei 1979 wurde das britische Hochschulsystem mit dem Ziel refomiert, durch einen größeren Wettbewerb die Leistungsfähigkeit und die Qualität britischer Hochschulen zu erhöhen. „Bis Mitte der 80er Jahre schenkten die Universitäten der Frage der ‚quality of studies offered by universities‘ nur geringe Beachtung. Man war aufgrund der strengen Studentenauswahl und der niedrigen Abbrecherquote lange davon überzeugt, im internationalen Vergleich gut abzuschneiden und fühlte sich dadurch ausreichend legitimiert“ (Klostermeier 1994,
142
D. Leistungsmessung im Hochschulbereich
S. 76).273 Eine Untersuchung des öffentlichen Sektors nach den Gesichtspunkten „accountability“ und „value-for-money“ wurde von der Politik in Auftrag gegeben, die zu starker öffentlicher Kritik274 an der Legitimation der Hochschulen und 1981 zu ersten Mittelkürzungen führte. Das UGC führte daraufhin zusammen mit dem unabhängigen Verband der Vice-Chancellors and Principals Effizienzuntersuchungen an britischen Hochschulen durch, die im Jarratt Report 1985 veröffentlicht wurden. 1983 wurde die Academic Standards Group gegründet, deren Aufgabe in Form einer ISO-Zertifizierungsstelle „in der Prüfung, Steuerung und Beurteilung der Strukturen und Mechanismen, mit denen die Hochschulen selbst, in Erfüllung ihres formalen Auftrags, die eigenen akademischen Maßstäbe setzen, erhalten und die Qualität des von ihnen angebotenen Ausbildungsprogramms sichern“ (Williams 1992a) kann, besteht. Mit ihrer Veröffentlichung „formal codes of practice“ zur Erhaltung, Überwachung und Steuerung des universitären Niveaus, begann 1986 eine breite Diskussion über Qualitätsstandards im britischen Hochschulsystem. Der politische Reformdruck auf die Universitäten nahm zu. 1988 folgte eine Evaluation der britischen Universitäten nach den „formal codes of practice“ und das UGC wurde mit dem „Educational Reform Act“ durch das neu gegründete Universities Funding Council (UFC) abgelöst und die Mittelverteilung gegen den erklärten Willen der Hochschulen an Leistungskriterien gekoppelt. „Aufgrund des neuen Ranking-Systems wurden etwa der Universität Aberdeen 24 Prozent der Forschungsmittel gestrichen“ (Spiegel 1989, S. 76). Die Hochschulpräsidenten versuchten ihre finanzielle Autonomie gegenüber der Politik zu verteidigen und gründeten im selben Jahr als freiwillige Kontrollinstanz der Hochschulen die Academic Audit Unit zur Qualitätssicherung und -verbesserung in der Lehre.275 Das UFC wurde 1991 in die drei Einheiten England, Schottland und Wales aufgespalten. „Neben den im Auftrage der Universitäten für alle höheren Bildungseinrichtungen in ganz Großbritannien tätigen ‚quality assessment units‘ bekommen die ‚funding councils‘ ‚quality assessment committees‘ zugeordnet. Diese sollen die Qualität der Universitäten untersuchen und verbunden mit Leistungskennzahlen den ‚funding councils‘ Informationen liefern, auf deren Grundlage zukünftig (nach Verzögerungen ab Februar 273
Siehe auch Williams (1992b, S. 141–159). Hochschulen wurden als „unaccountable, unresponsive, non-relevant, badly managed and generally ill-fitted to meet the needs of the new entrepreneurial world“ bezeichnet (Williams 1992b, S. 141–159). 275 „The Unit neither inspects courses of teaching nor does it validate courses or accredit institutions. . . . Rather it monitors, and comments on the structure and mechanisms by which the institutions themselves assure the quality of the educational programs they offer“ (Williams 1992b, S. 144). 274
III. Historische Entwicklung
143
1993) die Vergabe der öffentlichen Mittel erfolgen soll“ (Klostermeier 1994, S. 78). Die Leistungsdimensionen sind die Qualität der Lehre, der Forschung, des Management, der Organisation, der Unterbringung der Studierenden und der Ausstattung an den Hochschulen. Die offiziellen Evaluationen der Qualität der Forschung, Research Assessment Exercise (RAE), wurden erstmals 1986, dann 1989, 1992 und seit 1996 im Vier-JahresRhythmus durchgeführt und erstmals 1992 durch The Times Higher Education Supplement in Form eines Hochschul-Ranking veröffentlicht (THES 1992). Die offiziellen Evaluationen der Lehre, Teaching Quality Assessment (TQA) wurden erstmals 1993 veröffentlicht (Gabriel 1997). Frankreich „Die grandes écoles suchen sich als Elitehochschulen seit dem frühen 19. Jahrhundert ihre Studenten selbst aus. Seit langem werden als Kriterien für die Beurteilung der Qualität von Hochschulen öffentlich zugängliche Daten über das Leistungsprofil der Studienbewerber, das Niveau der Studienanforderungen, die Absolventen- und Abbrecherrate sowie das soziale Prestige herangezogen“ (Klostermeier 1994, S. 81). 1985 wurde durch die Gründung des Comité National d’Evaluation (CNE) eine regelmäßige, nationale externe Evaluation der Leistungsfähigkeit französischer Hochschulen, Grandes Écoles und anderen Bildungseinrichtungen institutionalisiert. Das CNE ist seit 1989 nicht mehr dem Erziehungsministerium, sondern direkt dem Staatspräsidenten unterstellt und besteht aus 17 Mitglieder aus Wirtschaft und Wissenschaft. „Analysiert werden etwa die Qualität der Forschung und die Struktur der Studiengänge, die Stärken und Schwächen der Ausbildung, der Lehrenden und der Personalverwaltung sowie das Campusleben, das Zulassungsverfahren und die Studienberatung an den Hochschulen“ (Klostermeier 1994, S. 81–82). Eine Evaluation erfolgt auf Antrag einer Hochschule und soll diese veranlassen selbst organisierte Maßnahmen der Qualitätskontrolle zu übernehmen. Ein direkter Zusammenhang zwischen dem Evaluationsergebnis und der Vergabe öffentlicher Mittel besteht in Frankreich – im Unterschied zu Großbritannien – nicht. Niederlande In den Niederlanden wurden bis in die 1980er Jahre den Universitäten Mittel für Forschung und Lehre vorwiegend belastungskennzahlenorientiert nach der Zahl der Studierenden innerhalb der Regelstudienzeit zugewiesen. Als die Regierung 1982 beschloss, einen Teil dieses Budgets ausdrücklich der Forschung zuzuweisen, wurden Evaluationen von Forschung und Lehre
144
D. Leistungsmessung im Hochschulbereich
eingeführt. Seit 1982 werden ca. 23% der Grundfinanzierung einer Hochschule leistungsunabhängig und ca. 77% leistungsabhängig nach dem Plaatsen-Geld-Model (PGM) vergeben. Die Leistungskriterien des PGM sind die Anzahl der Absolventen und die Anzahl der Studienabbrecher. Pro Absolvent werden der Hochschule die Ausbildungskosten für 4,5 Jahre gutgeschrieben, pro Studienabbrecher die Ausbildungskosten für 1,35 Jahre. Die Forschungsprogramme der Fakultäten werden mindestens alle drei Jahre von einem nationalen und alle fünf Jahre von einem internationalen Kommitee evaluiert. Es werden die Qualität, die Bedeutung und die gesellschaftliche Relevanz der Forschungsprojekte beurteilt. Ein direkter Zusammenhang zwischen dem Evaluationsergebnis und der Vergabe öffentlicher Mittel existiert auch in den Niederlanden nicht (Klostermeier 1994, S. 100).276 1985 beschloss die niederländische Regierung mit „Hoger Onderwijs: Autonomie en Kwaliteit“ Maßnahmen zur Stärkung der Hochschulautonomie und der Leistungs- und Qualitätssicherung bzw. -steigerung. 1986 wurde hierzu ein neues Hochschulgesetz erlassen und die staatliche Evaluationsbehörde Inspectie Hoger Onderwijs (IHO) geschaffen. Die IHO soll „als Instanz der ‚Meta-Evaluation‘ bei der internen und externen Evaluation helfen . . ., indem sie ein System der Qualitätsbeurteilung entwickelt und unterhält“ und kann „Untersuchungskommisionen mit ausländischen Experten und Berufspraktikern einberufen. Diese Kommissionen arbeiten hauptsächlich auf der Grundlage von statistisch erfassbaren Leistungsindikatoren, sie besuchen aber ebenfalls Hochschulen und Fachbereiche. In einem Abschlussbericht leiten Sie Empfehlungen an die Hochschulen und das Wissenschaftsministerium weiter“ (Klostermeier 1994, S. 100).277 Im gleichen Jahr gründeten die niederländischen Universitäten als gemeinsame Tochterorganisation die Vereniging van Samenwerkende Nederlandse Universiteiten (VSNU), die als Interessenvertretung der Hochschulen Evaluationen der Qualität der Lehre, des Lehrangebots und der Fachbereiche durchführt. Das Ministerium für Unterricht und Wissenschaften veröffentlicht seit 1987 seine hochschulpolitischen Vorgaben im Rahmen des Hoger Onderwijs en Onderzoek Plan (HOOP). Im Hoofdlijnenakkorden wurde 1990 zwischen dem Ministerium und den Hochschulen vereinbart Instrumente zur Studienberatung, -begleitung und zur Qualitätssicherung von Forschung und Lehre zu entwickeln. 1992 verpflichtet der HOOP die Hochschulen zur Einführung einer Studienberatung. 276
Siehe auch Kieser (1998) und Richter (1991). „Die IHO-Behörde achtet auf die Effektivität und die Zweckmäßigkeit der von den Hochschulen durchgeführten Evaluationsmaßnahmen und vor allem auf die Umsetzung der aus den Qualitätsbeurteilungen zu ziehenden Konsequenzen“ (Klostermeier 1994, S. 100). 277
III. Historische Entwicklung
145
Ein kritischer Erfahrungsbericht über die Hochschul-Evaluation nach dem so genannten niederländischem Modell, das Modellcharakter für die Weiterentwicklung der Hochschul-Evaluation in Großbritannien hatte und für Deutschland haben könnte,278 ist Kieser (1998). Es werden die mit einer Evaluation verbundenen Probleme und die durch die Evaluation ausgelösten Strukturänderungen in der niederländischen Hochschullandschaft, sowie die Anpassung der Forscher an ein neues Anreizsystem beschrieben.279 Deutschland „Im Unterschied zu den USA konnte sich in Deutschland bisher keine sozialwissenschaftliche Evaluationsdisziplin durchsetzen. Die Evaluationsforschung in Deutschland ist fachlich zersplittert, weist nur eine geringe interdisziplinäre Kommunikation und Zusammenarbeit auf und ist noch immer mit dem Makel anwendungsbezogener Auftragsforschung behaftet, deren Wissenschaftlichkeit teilweise bestritten wird“ (Stockmann 2000d, S. 7). Dementsprechend vielfältig sind die Evaluationsmotive, -gründe, -ansätze und -methoden in der Praxis. Daumenlang, Altstötter und Sourisseaux (1995, S. 703) führen als erste deutsche Beiträge zur Evaluationsforschung die Arbeiten des Leipziger Lehrervereins in den 1930er Jahren an, die sich auf hohem wissenschaftlichen Niveau befanden. Diese Arbeiten wurden durch den Nationalsozialismus beendet. Die Hochschulpolitik der späten 1960er und der 1970er Jahre legte in Deutschland ihre Schwerpunkte auf Chancengleichheit, vielfältige Ausbildungsmöglichkeiten und Strukturreformen. Die politische Diskussion über die Leistungsfähigkeit deutscher Hochschulen wurde von Anfang der 1970er bis Ende der 1980er Jahre geprägt durch die Themen „Messung von Forschungsleistungen“, „Erhöhung des Wettbewerbs bei Forschungsleistungen“ und „Leistungsdifferenzierung/Profilbildung bei Forschungsleistungen“ (Potthoff 1987). Damit wurde in Deutschland Neuland betreten. Die Diskussion wurde sehr kontovers zwi278 „Einige Pilotprojekte – bspw. die Projekte der Hamburger und Kieler Universität, des Wissenschaftsrats und des Landes Hessen – übernahmen vom niederländischen Modell eine Reihe von Indikatoren wie etwa die Zahl der Absolventen, Verhältnis von eingesetzten Sach- und Personalmitteln zum Output an Absolventen, Durchfallerquoten und Studienabbrecher“ Kieser, Frese, Müller-Böling und Thom (1996). An der Delft University of Technology (The Netherlands) werden Forschungsmittel aufgrund der durch Kennzahlen bewerteten Forschungsleistung des vorangegangenen Jahres vergeben (Lootsma und Bots 1998). 279 Informativ sind auch die durch Kieser (1998) ausgelösten Reaktionen aus Wissenschaft und Politik in Blaauboer und Dam (1998), Müller-Böling (1998), von Trotha (1998) und Rüttgers (1998).
146
D. Leistungsmessung im Hochschulbereich
schen Reformbefürwortern wie dem Stifterverband für die Deutsche Wissenschaft, dem Wissenschaftsrat, der Bundesregierung und Reformgegnern wie der Westdeutschen Rektoren Konferenz bzw. der Hochschul Rektoren Konferenz geführt. Die Reformbefürworter führen eine höhere Effizienz und Leistungsfähigkeit US-amerikanischer Hochschulen auf institutionalisierte Leistungsmessungen und -bewertungen zurück, die historische Ineffizienzen und Missstände beseitigten und die Forschungsleistungen verbesserten.280 Die Reformgegner verweisen bei dem Vergleich mit ausländischen Hochschulen auf Unterschiede im Bildungsauftrag, in der Hochschulfinanzierung und auf kulturelle und gesellschaftliche Unterschiede (Fisch 1988, S. 14–15). Sie sehen eine zusätzliche externe Leistungsmessung bzw. einen zusätzlichen externen Leistungsvergleich als nicht erforderlich und im deutschen Hochschulsystem als nicht möglich an. Sie verweisen auf einen funktionierenden internationalen internen Wettbewerb in Form des Erwerbs von akademischer Reputation durch die Veröffentlichung von Fachbeiträgen in internationalen, begutachteten Zeitschriften, durch Fachvorträge auf internationalen Konferenzen, sowie durch Rufe an andere Hochschulen. Als Ursache für eventuelle Missstände beklagen sie eine zu geringe Mittelausstattung und eine Studierendenüberlast. Sie fordern von der Politik erhebliche Investitionen, eine Deregulierung des Hochschulsektors und eine Stärkung der Hochschulautonomie als Voraussetzung für einen zusätzlichen Wettbewerb. 1973 vergab der Stifterverband für die Deutsche Wissenschaft einen Forschungsauftrag zur „Ökonomie der Hochschule“ an die Wirtschaftsberatungsgesellschaft Wibera. Die Ergebnisse der Studie wurden 1976 veröffentlicht (Bolsenkötter 1976, Bolsenkötter 1978). Es waren erste Ansätze einer „Betriebwirtschaftslehre für Hochschulen“ in Form einer Kosten-Leistungsrechnung und Indikatoren für die Leistungsmessung und den Leistungsvergleich erarbeitet worden. 1975 hatte der Wissenschaftsrat in seinen „Empfehlungen zur Organisation, Planung und Förderung der Forschung“ bereits die Entwicklung von Qualitätskriterien und Effizienzmaßen zur Beurteilung von Forschungsleistungen angeregt (Wissenschaftsrat 1975). Mit Spiegel-Rösing, Fauser und Baitsch (1975) erschien in Deutschland das 280 Der schottische Nationalökonom Adam Smith sah bereits 1776 finanzielle Anreize als notwendig an. „An einigen Universitäten ist es dem Dozenten untersagt, irgendein Honorar oder Hörgeld von seinen Studenten anzunehmen, so dass das Gehalt die einzige Einkunft ist, die er aus seinem Amt bezieht. Sein Interesse gerät in diesem Fall in einen so krassen Gegensatz zu seinen Pflichten, wie dies überhaupt nur möglich ist. Denn der Mensch ist bestrebt, sich das Leben so angenehm und bequem zu machen, wie er nur kann, und sind seine Bezüge wirklich dieselben, ob er sich nun besonders anstrengt oder nicht, so liegt es sicherlich in seinem Interesse, . . ., seine Pflichten ganz und gar zu vernachlässigen.“ (Smith 1974, S. 646 f.).
III. Historische Entwicklung
147
erste Hochschul-Ranking von Forschungsleistungen deutscher Wissenschaftler in der Medizin, den Natur- und Ingenieurwissenschaften. Es wurde im Auftrag des Bundesministeriums für Bildung und Wissenschaft im Rahmen des Projektes Messung von Forschungsleistungen im universitären Vergleich erstellt. Die Studie verfolgte das Ziel quantitative Indikatoren zur Messung von Forschungsleistung zu erproben und erstellte ein HochschulRanking auf der Grundlage eines Produktivitätsindexes.281 Der Stifterverband für die deutsche Wissenschaft fördert seit 1976 den „Arbeitskreis Wissenschaftsindikatoren“, der von Professor Hans-Dieter Daniel und Professor Rudolf Fisch an der Universität Konstanz mit dem Ziel gegründet wurde, Bewertungskriterien für die Leistungsmessung an Hochschulen und den Leistungsvergleich zwischen Hochschulen zu entwickeln. Sie erstellten 1976/77 im Rahmen der Forschungsenquete „Zur Lage der Forschung an den Universitäten“ durch eine abweichende Definition des Produktivitätsindexes und einer anderen Datenbasis ein stark von Spiegel-Rösing, Fauser und Baitsch (1975) abweichendes Hochschul-Ranking (Daniel und Fisch).282 Dies war der Beginn der Diskussion in Deutschland über geeignete Indikatoren zur Messung von Forschungsleistungen.283 1978 wurde durch Professor Klausa das erste Hochschul-Ranking juristischer Fakultäten, das auf einer Imageanalyse in Form einer Expertenbefragung basierte, erstellt (Klausa 1978). 1979 gab der Wissenschaftsrat eine „Empfehlung zur Forschung und zum Mitteleinsatz in den Hochschulen“ (Wissenschaftsrat 1979) in der er Anhaltspunkte für die Diskrepanz zwischen Forschungsaufwendungen und Forschungserträgen benannte. Er forderte die Einführung von Leistungsvergleichen auf der Basis von peer-reviews nach US-amerikanischen Vorbild, den Einsatz von Bewertungskriterien für wissenschaftliche Leistungen und eine differenzierte Mittelzuweisung als Maßnahme zur Stärkung der Leistungsfähigkeit der Forschung (Rau und Hummel 1986, S. 215–216). Die Westdeutsche Rektorenkonferenz begann Ende der 1970er Jahre mit der Durchführung von Ausstattungsvergleichen unter deutschen Hochschulen mit dem Ziel, eine auf der „Ebene der einzelnen Lehreinheit bezogene, methodisch einwandfreie Datenbasis zu schaffen, die es gestattet, je nach 281 Dieser wurde aus der Summe aller Publikationen, die nach dem „Corporate Index“ des „Institute for Scientific Information“ einer Hochschule für die Jahre 1967 bis 1971 zuzurechnen sind gebildet, wobei jede Publikation durch die jeweilige Anzahl von Erstautoren geteilt wurde (Rau und Hummel 1986, Frackmann 1988, Klostermeier 1994). 282 Ein Produktivitätsindex wurde aus der Anzahl an wissenschaftlichen Veröffentlichungen, ein Reputationsindex aus der Anzahl der Anfragen aus dem Ausland gebildet. Die Daten erhob das Institut für Demoskopie Allensbach durch eine sekundäranalytisch vergleichende, statistische Analyse der quantitativen und qualitativen Forschungsleistungen an deutschen Hochschulen (Rau und Hummel 1986, S. 216). 283 Siehe auch Hornbostel (1997).
148
D. Leistungsmessung im Hochschulbereich
Aussageintention spezifische Analysen und Kennzahlenbildungen zu ermöglichen“ (Leszczensky, Barna und Schacher 1997, Leszczensky und Thole 1995, Leszczensy, Barna, Kuhnert und Thole 1995, Kazemzadeh, Schacher und Steube 1994). Durch einen internen, zwischenuniversitären Austausch disaggregierter empirischer Daten sollte eine Basis für eine Kostenrechnung und ein zwischenuniversitäres Benchmarking geschaffen werden.284 Die bis Mitte der 1990er Jahre entstandenen Arbeiten weisen jedoch eher den Charakter von Katalogen möglicher Kennzahlenbildungen im Hochschulbereich auf und sind für eine praktische Anwendung zu komplex. 1984 wird durch Professor Rau ein Hochschul-Ranking auf der Basis der Anzahl an Stipendiaten an einer Hochschule veröffentlicht (Rau 1984). Die ablehnende Haltung der Hochschulen, sich einer anderen Form als der internen Leistungsbewertung in Form von akademischer Reputation zu stellen, verhärtete sich. 1984/85 führte das Max-Planck-Institut für Bildungsforschung, Berlin, eine Erhebung unter Hochschullehrern bezüglich ihrer „Einstellung zu verstärkter Leistungsdifferenzierung und Wettbewerbsförderung“ und hinsichtlich „fachspezifischen Reputationsmustern“ durch. Gleichzeitig sollten die „wissenschaftliche Produktivität“ und die ihr zugrunde liegenden Rahmenbedingungen untersucht werden. Der Widerstand und die Kritik der befragten Wissenschaftler waren bei Politologen und Soziologen derart massiv, dass die Befragung nach der ersten Runde abgebrochen werden musste (Giese 1988). 1985 fordert der Wissenschaftsrat die Westdeutsche Rektorenkonferenz auf, die Leistungsmessung und den Leistungsvergleich für die deutschen Hochschulen als Institution zu übernehmen. Sie lehnt dies 1986 auf ihrer 149. Plenarsitzung zum Thema „Zur Beurteilung und Entwicklung der Ansätze zur Leistungsbewertung und -messung von Hochschulen“ ab (Westdeutsche Rektorenkonferenz 1986). „Die Sinnhaftigkeit derartiger Rankings wurde zwar nicht generell ausgeschlossen, jedoch müssten die jeweils angewandten Indikatoren sowie die Erhebungs- und Auswertungsmethoden einer Überprüfung standhalten. Die WRK erklärte sich nur dazu bereit, sich an dieser Überprüfung zu beteiligen“ (Klostermeier 1994, S. 27). „Die ausgiebige aber letztendlich folgenlose methodische Diskussion über die richtigen Indikatoren . . . hat letztend284 Diese Bemühungen dauern bis heute an. Das Niedersächsische Ministerium für Wissenschaft und Kultur beauftragte Anfang der 90er Jahre auf Empfehlung der Kommission zur Reform der Hochschulverwaltung unter Einbeziehung der Landesrektorenkonferenz die Hochschul-Informations-System GmbH mit der Erhebung von Ausstattungs-Kennzahlen für niedersächsische Universitäten zur Entwicklung und Verwendung empirisch begründbarer Entscheidungshilfen zur internen und externen Hochschulsteuerung und Hochschulpolitik. Weitere Ausstattungsvergleiche werden z. B. vom Wissenschaftsrat durchgeführt (Wissenschaftsrat 1997, Wissenschaftsrat 1993).
III. Historische Entwicklung
149
lich nur dazu geführt, dass eine tatsächliche Veröffentlichung eines Leistungsvergleiches nie stattgefunden hat“ (Klostermeier 1995, S. 31–32). Simon (1985) veröffentlicht eine erste Imageanalyse „Die Positionierung wirtschaftswissenschaftlicher Fachbereiche“ und Professor Giese, Dr. Höhl und Dr. Lenger untersuchen 1986 die „Anziehungskraft und Wettbewerbsfähigkeit wissenschaftlicher Hochschulen in der Bundesrepublik Deutschland“ (Giese 1986). In dieser Zeit werden auch die ersten vergleichenden, in den USA seit Beginn des 19. Jahrhunderts üblichen, bibliometrischen Untersuchungen zur Forschungsqualität an deutschen Hochschulen durchgeführt (Hüfner, Hummel und Rau 1984, Pommerehne 1986, Giese 1986, Bonheim 1987). Die Autoren dieser Untersuchungen sahen sich der massiven Kritik ihrer Kollegen ausgesetzt. Die Westdeutsche Rektorenkonferenz sah sich 1988 gezwungen „einer Fehlleitung der öffentlichen Meinung durch unseriöse Ranglisten entgegenzuwirken“ und veranstaltete ein Symposium zur „Leistungsbeurteilung und Leistungsvergleich im Hochschulbereich“, auf dem „Indikatoren für das Leistungsvermögen und die tatsächliche Leistungen von Hochschulen“285 erarbeitet wurden (Westdeutsche Rektorenkonferenz 1989). Am Ende der 1980er Jahre bzw. am Anfang der 1990er Jahre verlagerte sich der Schwerpunkt der Diskussion über die Leistungsmessung von Hochschulen weg von der Forschung hin zur Lehre. Die Evaluationsforschung fand mit der Übersetzung aus dem angelsächsischen von Wittmann (1985) und Rossi, Freeman und Hofmann (1988) im deutschsprachigem Raum erstmals Eingang in die wissenschaftliche Diskussion. 1988 regt die Arbeitsgruppe „Leistungsbeurteilung und Leistungsvergleich in der Lehre“ der Westdeutschen Rektorenkonferenz die Einführung von Lehrevaluationen durch Studierendenbefragungen an (Neidhardt 1991, S. 86), die Kultusministerkonferenz beschließt „23 Empfehlungen und Maßnahmen zur Verkürzung der Studiendauer“ (BLK Bp Ff 1992) und der Wissenschaftsrat veröffentlicht die erste vergleichende Erhebung von Fachstudiendauern an deutschen Universitäten (Wissenschaftsrat 1989b).286 Die Bundesregierung veröffentlichte 1990 ihren Bericht zu ihren neuen „Hochschulpolitischen Zielsetzungen“ (DBT 1990a), und Professor Neidhardt, Dr. Hornbostel und Dr. Block stellten ihre ersten Ergebnisse des 285
Siehe auch Klostermeier (1994, S. 32–36). Die Zahlen sind so aufbereitet, dass sie Rückschlüsse auf die Unterschiede zwischen den einelznen Fächern, Abschlüssen und Hochschulen ermöglichen. Die seit 1972 zunächst im Rahmen einer summarischen Erhebung gesammelten Daten werden seit 1975 vom Statistischen Bundesamt in der Fachserie „Prüfungen an Hochschulen“ veröffentlicht. Auf europäischer und internationaler Ebene gibt es Statistiken der UNESCO und das OECD-Projekt „International Education Indicators“. 286
150
D. Leistungsmessung im Hochschulbereich
vom Bundesbildungsministerium geförderten Forschungsprojektes „Vergleichende Bewertung von Leistungen der Hochschulen“ für den Bereich Lehre vor. Es wurden u. a. Vorschläge erarbeitet, wie die amtliche Hochschulstatistik durch eine geeignete Redefiniton von Kennzahlen und veränderten Erhebungsverfahren zur Entwicklung eines Systems von aussagekräftigen Leistungsindikatoren genutzt werden kann (BMBW 1990).287 1991 wurde der Schlussbericht der Enquete-Kommission der Bundesregierung zu dem Thema „Zukünftige Bildungspolitik – Bildung 2000“ veröffentlicht (DBT 1990b). Unternehmensberatungen wie Mummert & Partner, Kienbaum und die Hayek Engineering AG empfehlen die Einführung eines Hochschul-Controlling und eines professionellen Hochschul-Management. In diesem Zusammenhang werden „Wirtschaftlichkeitsindikatoren“ entwickelt und die Kosten eines Studierenden eines Studienganges berechnet. Der politische und öffentliche Druck auf die Universitäten, sich einer zusätzlichen externen Leistungsbewertung zu stellen, führte 1994 zur Gründung des Verbundes Norddeutscher Universitäten, der aus den Universitäten Bremen, Hamburg, Kiel, Oldenburg und Rostock besteht und die Ziele der Qualitätssicherung und -verbesserung von Forschung und Lehre an den Mitgliedsuniversitäten verfolgt. Jedes Jahr werden zwei bis drei Fachbereiche aller fünf Universitäten einer offiziellen Evaluation nach dem niederländischem Modell288 unterzogen, vorausgesetzt alle Mitgliedsuniversitäten bieten diesen Fachbereich an und das kein Fachbereich seine Mitarbeit verweigert (Fischer-Bluhm, Ruhne und Mittag 1999). Das Bundesland Niedersachsen folgte 1995 durch die Gründung einer Evaluationsagentur nach niederländischem Vorbild, die jedes Institut einer niedersächsischen Universität alle fünf Jahre bewertet (Prochnow 1997). „Auf der 176. Plenarversammlung der Hochschulrektorenkonferenz (HRK) am 3. Juli 1995 in Bonn wurde die Evaluation der Hochschulen als Beitrag zur Qualitätssicherung und zur Verbesserung der Leistungsfähigkeit . . . anerkannt“ (Fürstenberg 1995). Im September 1997 wird die Deutsche Gesellschaft für Evaluation (DGEval) gegründet, die als Ziele die Förderung des Verständnisses, der 287 „Dabei wurde untersucht, was die Daten aussagen, inwieweit sie für Vergleichszwecke ausreichend differenziert sind und wie die Qualität der Daten zu beurteilen bzw. durch veränderte Definitionen und Erhebungsverfahren zu verbessern wären. Die Autoren gelangen zu 14 Kennzahlen für den Input, die Bedingungen der Lehre, den Output der Lehre sowie den Output an wissenschaftlichen Nachwuchs. Sie schlagen zudem die Durchführung von Studenten- und Absolventenbefragungen vor“ (Klostermeier 1994, S. 29). 288 Die Evaluation von Fachbereichen folgten meist dem sogenannten „niederländischen Modell,“ bei dem sich Fachbereiche zunächst selbst evaluieren und eine Peer-Gruppe, auf diesen Berichten aufbauend, eine externe Evaluation erstellt (Kieser, Frese, Müller-Böling und Thom 1996).
III. Historische Entwicklung
151
Akzeptanz und der Nutzbarmachung von Evaluationen, die Entwicklung von Prinzipien und Qualitätsstandards und die Förderung des interdisziplinären, wissenschaftlichen Austausches verfolgt. Lehrstühle, Sonderforschungsbereiche oder wissenschaftliche Institute, die sich mit grundlegenden theoretischen und methodischen Fragen der Evaluationsforschung beschäftigen, eine deutschsprachige Evaluationszeitschrift und einschlägige Sammelwerke zur Evaluationsforschung, die die fachliche Zersplitterung überwinden und das bisher zusammengetragene Wissen bündeln, existieren in Deutschland noch nicht (Stockmann 2000d). 1998 ändert die Bundesregierung das Hochschulrahmengesetz (HRG) und setzt den rechtlichen Rahmen für eine leistungsorientierte Hochschulfinanzierung (§ 5 HRG) und eine systematische Evaluation von Forschung und Lehre (§ 6 HRG) (Bundesministerium für Bildung und Forschung 1998). Die staatliche Mittelzuweisung an die Hochschulen orientiert sich nach dem Hochschulrahmengesetz in der Fassung vom 20. August 1998 künftig an den in Lehre und Forschung sowie bei der Förderung des wissenschaftlichen Nachwuchses erbrachten Leistungen. Die Bewertung der Leistungen ist noch allgemein durch „eine geeignete Form“ der Evaluation vorgesehen.289 Die Hochschulrektorenkonferenz beschloss am 2. November 1998 „Empfehlungen zum Dienst- und Tarif-, Besoldungs- und Vergütungsrecht sowie zur Personalstruktur an Hochschulen,“ die ein Fixgehalt für Professoren, ergänzt um Leistungs-, Belastungs- und Funktionszulagen vorschlagen (DUZ 1998). Das Gesetz über die Hochschulen im Freistaat Sachsen vom 11. Juni 1999 legt in § 99 bereits konkret die Einführung einer leistungs- und ergebnisorientierten Mittelzuweisung für die Hochschulen fest und fordert von den Hochschulen die Vorlage eines Produkt- und Leistungskataloges, die Einführung einer Kosten-Leistungsrechnung, die Entwicklung eines kennzifferngestützten Berichtssystems und den Abschluss von Zielvereinbarungen, sowohl hochschulintern als auch mit dem Sächsischen Staatsministerium für Wissenschaft und Kunst.290 Das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg schlägt die Einrichtung einer zentralen Evaluationsagentur zur Durchführung und Koordination regelmäßiger Evaluationen von Forschung und Lehre nach dem „niederländischem Modell“ vor.291
289 „Damit ist die Tatsache der Evaluation, nicht jedoch die Methode der Evaluation festgeschrieben“ (Rüttgers 1998). 290 Siehe SMWK (1999, S. 66). 291 Siehe MWFK BW (1999).
152
D. Leistungsmessung im Hochschulbereich
2. Evaluation und Ranking von Forschungs- und Lehrleistungen für die Zielgruppen Studierende und Unternehmen Ausgehend von der Annahme, es gäbe keine gravierenden Unterschiede in der Qualität der Lehre zwischen verschiedenen Hochschulen,292 orientierten sich Studierberechtigte bei der Wahl ihres Hochschulortes stärker an der Nähe zum elterlichen Wohnort als z. B. an der Konzeption und dem Aufbau des Fachstudienganges oder der Tradition und dem Ruf der Hochschule.293 Heute beginnt eine „neue Akademikergeneration“, gute Ausbildung international nachzufragen (Spiegel 1998a). Das Wissenschaftliche Zentrum für Berufs- und Hochschulforschung der GHS Kassel und die HIS GmbH stellen 1999 durch Umfragen fest: Bei der Studienortwahl überwiegen erstmals fachliche und berufliche Motive gegenüber persönlichen Gründen (Lewin, Heublein, Schreiber und Sommer 1999, WZ 1999, WZ 2000). In der Folge wird das deutsche Hochschulsystem zunehmend mit sehr wettbewerbsintensiven internationalen Hochschulsystemen und Leistungsstandards konfrontiert, wie z. B. dem US-amerikanischen Markt für MBAAusbildung im Bereich der Wirtschaftswissenschaften (Chen 1996, D’Aveni 1996). Dort ist von 1960 bis 1989 die Zahl der MBA-Schulen auf über 650 angewachsen.294 Die persönliche Informationsbeschaffungs- und -verarbeitungskapazität z. B. eines Studierberechtigten oder eines Personalleiters wird heute durch die zu verarbeitende Informationsmenge wie die unterschiedlichen Qualitäten und Quantitäten von Forschung und Lehre, die verschiedenen Studienbedingungen und Hochschulkulturen, die derzeitigen Arbeitsmarktaussichten für Absolventen und die Details der Studien- und Prüfungsordnungen bei weitem überschritten.295 292 „Wurden in der Bundesrepublik noch Unterschiede in der Qualität der Forschung anerkannt, wird die Ausbildungsqualität generell an allen Hochschulen als gleichwertig angesehen. Dies ist nicht zuletzt darauf zurück zu führen, dass in der Bundesrepublik Deutschland die Gleichwertigkeit der Studienabschlüsse (vgl. § 9 Abs. 2 Hochschulrahmengesetz) und damit notwendigerweise der Ausbildung angestrebt wird“ (Hess 1992, S. 98). 293 Die Arbeitsgruppe Hochschulforschung an der Universität Konstanz führte im WS 1992/93 das Studentensurvey „Studiensituation und studentische Orientierungen“ durch, bei der 57% der Studienanfänger die regionale Nähe zum Heimatort und 50% finanzielle Überlegungen als sehr wichtig nannten. Die Konzeption und der Aufbau des Fachstudienganges, die Tradition und Ruf der Hochschule und gute und bekannte Professoren in meinem Fachgebiet bildeten den Schluss der Motivhierarchie mit 21%, 16% bzw. 9% der Nennungen (Daniel 1997). 294 Siehe Porter und McKibbin (1988, S. 93), Miller (1990), Tracy und Waldfogel (1997, S. 1). 295 „Once the small elite who aspired to university education could – or anyway did – rely on the knowledge of teachers, parents, friends and potential employers for guidance through the limited choices available. But now . . . such informal net-
III. Historische Entwicklung
153
Bei dieser hohen Entscheidungskomplexität entsteht der Wunsch nach Instrumenten, die Leistungen transparent und nach internationalen Standards bewertet darstellen. Dabei werden im Rahmen eines verteilten, multi-kriteriellen Entscheidungsprozesses diejenigen Kriterien, zu deren Erhebung und Bewertung dem Entscheidungsträger die notwendigen Kapazitäten fehlen, an einen Dritten übertragen (Bayer 2001). Entscheidungs- und Bewertungshilfen in Form von Studienführern wie Peterson (2000) und Business School Rankings wie von Business Week (seit 1986) (Jackson 1986) und von US News & World Report (seit 1987) (Solorzano 1987) erlangten trotz erheblicher Widerstände aus den Hochschulen in den USA eine große Popularität.296 Sie besitzen heute einen bedeutenden Einfluss auf Image und Reputation von Hochschulen und die Hochschulleitungen sehen einen guten Rangplatz bereits als einen existenziellen Wettbewerbsvorteil an (Hess 1992, Tracy und Waldfogel 1997). Studienanfängerbefragungen an verschiedenen deutschen Hochschulen zeigen, dass sich die Mehrheit der Studienanfänger erst in den letzten sechs Monaten vor der Immatrikulation für eine Hochschule entscheidet und dabei der Ruf einer Hochschule und eines Studienganges, neben der Nähe zum heimatlichen Wohnort, ausschlaggebend sind.297 Es existieren international keine offiziellen Hochschul-Rankings oder ein Konsens über Kriterien zur Messung von Hochschulleistungen. Dennoch erlangen die zahlreichen, somit inoffiziellen Hochschul-Rankings, trotz unbestrittener methodischer Mängel, international einen zunehmenden politischen Einfluss, werden von den Hochschulen als Instrument des HochschulMarketing298 und von Studierenden, Unternehmen und Politikern als Instrument zur Entscheidungsunterstützung eingesetzt.
works have become inapprobiate and unreliable“ (Hodges 1993). „Für den Bereich der Universitäten überlagern Rankings das früher durchaus vorhandene Wissen um die besten Hochschullehrer eines Faches . . . Vielfach fehlen die notwendigen Informationen für ein sachgerechteres Verhalten, da durch die immer stärkere Ausdifferenzierung der Hochschulen, die Vermehrung von Professorenstellen und die Neugründung von Universitäten der Überblick verloren gegangen ist“ (Klostermeier 1994, S. 4–5). 296 „Auch aus studentischer Sicht setzt eine verantwortungsbewusste Entscheidung für einen Hochschulort die Existenz von leicht zugänglichen Informationen über die bestehenden Wahlmöglichkeiten voraus“ (Klostermeier 1994, S. 17). 297 Siehe u. a. Klein (2000). 298 Siehe .
154
D. Leistungsmessung im Hochschulbereich
USA Die seit Beginn des 20. Jahrhunderts existierenden Ranking-Studien von Forschungsleistungen und Wissenschaftlern wurden 1986 erstmals durch die US-amerikanische Zeitschrift Business Week auf eine Rangfolge der Lehrqualität US-amerikanischer Business Schools übertragen. In 486 Interviews wurden Führungskräfte schriftlich aufgefordert die „akademische Qualitäten“ ausgewählter Business Schools zu beurteilen (Jackson 1986). Es folgte 1987 das erste Ranking von U.S. News & World Report auf der Basis von 131 Interviews (Solorzano 1987). Bereits 1988 erweiterte Business Week den Kreis der Interviewten auf Absolventen der Business Schools (Byrne 1988) und erstellt eine solche Rangfolge seitdem alle zwei Jahre. Das Hochschul-Ranking von U.S. News & World Report basiert seit 1991 auf der Reputation, die einer Business School von Führungskräften und Wissenschaftlern beigemessen wird und quantitativen Kennzahlen wie Zulassungsdaten von Studienanfängern, Betreuungsverhältnis Lehrende zu Studierende und Prozentsatz der Absolventen die im Anschluss an den Studienabschluss eine Beschäftigung fanden, die als Indikatoren für die Qualität der Studienanfänger, für die Studienbedingungen und für die Arbeitsmarktchancen der Absolventen dienen sollen (Gabor, Morse und Wagner 1991). Durch die große Zahl von „Hochschulinstitutionen mit sehr unterschiedlichem ‚Auftrag‘, Aufgabenspektrum (role and mission) und Klientele“ (Frackmann 1988, S. 143–144) mit sehr unterschiedlicher Qualität299 erlangten die Rangfolgen als Entscheidungs- und Bewertungshilfe in der amerikanischen Öffentlichkeit schnell eine große Popularität und wurden auf die Bewertung von „undergraduate programs“, „graduate programs“ und „Ph.d. programs“ übertragen. Die US-amerikanischen Wissenschaftler und die Hochschulen wurden durch die Einführung der Rangfolgen von Business Week und U.S. News & World Report mit einer Wertvorstellung konfrontiert, die teilweise in scharfem Kontrast zu ihrem Selbstverständnis über die „akademische Qualität“ ihrer Hochschule stand. „. . . the absence of a dominant standard for evaluating business schools, along with the wide variety of possibly distinct niches, enabled schools to decide which identity attributes were important and with whom they should be compared. By imposing an ostensibly objec299 „Von den über 3000 Institutionen werden in die bislang umfangreichste Rankingstudie nur 228 Institutionen einbezogen und Bradburn (1987) behauptet, dass davon nur etwa 75 Institutionen ‚als ernstzunehmende Forschungsuniversitäten anzusehen (sind), gemessen an deutschen Universitäten‘“ (Frackmann 1988, S. 143– 144). „Bei einigen Tausend höheren Bildungsinstituten, die nicht nur stark in der Qualität, sondern auch im Angebot variieren, sind Rankings, ‚Bestenlisten‘ und Collegeführer unverzichtbar“ (Klostermeier 1994, S. 72).
III. Historische Entwicklung
155
tive and uniform metric for evaluating all U.S. business schools, the Business Week rankings dramatically disrupted the status quo that these schools had long enjoyed, creating an organizational identity threat for some institutions . . . the Ranking posed a two-pronged threat to many member’s perceptions of their school’s identities by (1) calling into question their perceptions of highly valued, core identity attributes of their schools, and (2) challenging their beliefs about their schools’ standing relative to other schools“ (Elsbach und Kramer 1996, S. 442–444). Die Zeitschriften suchten die Diskussion mit den Betroffenen und modifizierten ihre Ranking-Modelle. Heute besitzen sie einen bedeutenden Einfluss auf Image und Reputation von Hochschulen, der durch demographische Entwicklungen in den USA weiter zunehmen wird300. Innerhalb einer Universität erhalten besser plazierte „departments“ oft eine höhere Mittelzuweisung (Frackmann 1988, S. 144). Großbritannien Inoffizielle Hochschul-Rankings, die auf öffentlich zugänglichen Daten basieren, veröffentlicht in Großbritannien regelmäßig The Times (Good University Guide) und The Financial Times. Die zugrunde liegenden Daten sind den offiziellen Teaching Quality Assessment und Research Assessment Exercise entnommen, die um Indikatoren der Qualität der Studienanfänger und der Studienbedingungen ergänzt werden. Niederlande 1994 wurde in den Niederlanden von einer Gruppe unabhängiger Journalisten zum ersten Mal der vergleichende Studienführer „Universiteiten en hogescholen keuzegids“ herausgegeben. Der Studienführer wird finanziell gefördert durch das Ministerium für Unterricht und Wissenschaften und von einem wissenschaftlichen Beirat unterstützt. Er soll die Transparenz der Qualität der angebotenen Lehre unter den niederländischen Hochschulen erhöhen und zur Profilbildung unter den Universitäten beitragen. Es werden weiterhin Studieneingangsprofile und Studienbedingungen an den Hochschulen beschrieben (Klostermeier 1994, S. 101–102).
300 Demographische Entwicklungen lassen für die USA einen Rückgang der High-School Absolventen um 26%, in einigen Bundesstaaten bis zu 43% erwarten, und die Hochschulleitungen sehen einen guten Ranking-Platz bereits als existenziellen Wettbewerbsvorteil an (Hess 1992, S. 97). Siehe auch Tracy und Waldfogel (1997, S. 1).
156
D. Leistungsmessung im Hochschulbereich
Frankreich „Hochschul-Rankings haben in Frankreich in Form eines selektiven, hierarchisch fein abgestuften System der grandes écoles eine lange Tradition“. 1989 und 1992 veröffentlichte die Zeitschrift Le monde de l’éducation eine Rangfolge der öffentlichen französischen Hochschulen unter der Überschrift „Universités: le palmarès des étudiants“. Die Hochschul-Rankings basieren auf Umfragen unter Studierenden, die von der Zeitschrift in Zusammenarbeit mit der Direction de l’évaluation et de la prospective du ministère de l’éducation national und der Mutuelle nationale des étudiants de France durchgeführt wurden. Für jeden von vier Fragenkomplexe zu den materiellen Studienbedingungen, zu der Hochschulatmosphäre, zu der Qualität und Effizienz der Lehre und zu den Berufsaussichten und Einstellungschancen wird eine separate Rangfolge erstellt (Monde 1992). Das Hochschul-Ranking wird aus einer Gesamtbewertung der Hochschule durch die Studierenden ermittelt. Die Hochschulen wurden aufgrund der Umfragergebnisse landesweit in fünf Gruppen mit unterschiedlichen Hochschulprofilen eingeteilt (Klostermeier 1994, S. 81–84). Deutschland Das erste Hochschul-Ranking für Studierende und Unternehmen in Deutschland wurde 1977 vom damaligen Dekan der Wirtschafts- und Sozialwissenschaftlichen Fakultät an der Universität Kiel, Professor Reinhard Schmidt, zunächst als Arbeitspapier (Schmidt 1977) und 1978 durch das Manager Magazin unter dem Titel „Schlechte Noten für rote Unis“ medienwirksam veröffentlicht (Frackmann 1988, Schmidt 1978b, Schmidt 1978a). Es kann als hochschulpolitisch motiviert angesehen werden. Der Dissens zwischen Hochschulen und Politik über die Struktur und die Finanzierung des deutschen Hochschulsystems führte u. a. zu Hochschulneugründungen in überwiegend sozialdemokratisch regierten Bundesländern. Das erregte den Unmut der traditionellen Hochschulen, die einen Anspruch auf diese Investitionen erhoben. „Die Veröffentlichung stieß auf große Aufmerksamkeit und löste eine erste Kontroverse über die Aussagekraft von universitären Qualitätsbewertungen aus . . . Die neuen Universitäten kritisierten, dass sie wegen ihres geringen Bekanntheitsgrades selbst bei einer hohen Leistungsfähigkeit keine Chance auf vordere Plätze gehabt hätten“ (Klostermeier 1994, S. 44, 59). Das erste Hochschul-Ranking der Lehrqualität an deutschen Hochschulen initierte 1984 der Ring Christlich-Demokratischer Studenten durch die Aktion „Prüf den Prof.“. Es folgte 1985 ein Hochschul-Ranking der Zeitschrift Capital „Die richtige Investition für Ihr Kind“ (Capital 1985), das auf Sta-
III. Historische Entwicklung
157
tistiken der Alexander von Humboldt-Stiftung und des Heisenberg Programms, auf Erhebungen des Berliner Soziologen Professor Klausa und auf einem Reputationsvergleich unter Personalberatern basierte. Der Wissenschaftsrat forderte 1985 die Hochschulen auf, selbst ihre Angebote und Leistungen mit strukturierten Informationen der allgemeinen und der Fachöffentlichkeit darzustellen (Wissenschaftsrat 1985). Das medienwirksame Hochschul-Ranking kam in Mode. Das Manager Magazin berichtete 1985 unter der Überschrift „Neue Universitäten sehen alt aus“ ausführlich über den in der Zeitschrift für Betriebswirtschaft erschienenen Artikel von Professor Hermann Simon über „Die Positionierung von wirtschaftswissenschaftlichen Fachbereichen“ (Manager Magazin 1985, Simon 1985), der eine Befragung von 1000 Professoren, Managern und Wirtschaftsjournalisten zum Image einer Hochschule zugrunde liegt. Die Studie dokumentiert große Unterschiede in der durch die befragten Personenkreise wahrgenommenen Qualitäten und Ausrichtungen der Universitäten. Viele Tageszeitungen beginnen mit der Erstellung eigener Ranglisten nach Kriterien wie der durchschnittlichen Studiendauer und der durchschnittlichen Abschlussnote (Scheuch 1986). 1987 werden drei weitere Hochschul-Rankings durch die Zeitschriften Capital (Capital 1987), Wirtschaftswissenschaftliches Studium (WiSt 1987)301 und durch Professor Müller-Merbach (Müller-Merbach, Leonhardt und Blessing 1987) veröffentlicht.302 Große öffentliche Kontroversen löste 1989 ein bundesweites HochschulRanking der Qualität der Lehre an deutschen Hochschulen aus, das von dem Nachrichtenmagazin Der Spiegel (Spiegel 1989, Spiegel 1990b) veröffentlicht wurde. Durch die bedeutende publizistische Stellung des Nachrichtenmagazins, die wissenschaftliche Reputation des Erstellers Professor Friedhelm Neidhardt (Wissenschaftszentrum für Sozialforschung, Berlin) und die Durchführung der Befragungen durch das Bielefelder Emnid-Institut erhielt das Hochschul-Ranking fast einen offiziellen Charakter. Sie brach weiterhin mit zwei Tabus: „Zum einen die Intimität der Hochschullehre, über die bis dato in der Öffentlichkeit nicht geredet wurde. Hinzu kam zweitens die Aufwertung der Studenten zu Experten, die diese Lehre – und damit die Qualität der Professoren – bewertet hatten“ (Klostermeier 1994, S. 46, 49). Der Widerstand der deutschen Hochschullehrer gegen eine öffentliche Diskussion ihrer Qualitäten in der Lehre war groß,303 und es 301
In WiSt (1987) wurden Abiturienten zu ihrer Präferenz für eine Universität befragt. 302 In Müller-Merbach, Leonhardt und Blessing (1987) werden zunächst die Berufschancen aller angebotenen Studiengänge bewertet, um anschließend eine Rangfolge der untersuchten Hochschulen nach ihren „Portfolios von Studiengängen“, gewichtet mit den Absolventenzahlen in den einzelnen Studiengängen, zu erstellen.
158
D. Leistungsmessung im Hochschulbereich
wurden kontroverse Diskussionen in Zeitungen und soziologischen Fachzeitschriften geführt. Eine Übertragung des in den USA bereits etablierten Hochschul-Ranking auf die deutsche Hochschullandschaft wird mit Hinweisen auf verschiedene sozio-kulturelle Kontexte und Rahmenbedingungen abgelehnt. So behauptet Gellert (1988) für die USA, dass „das Bewusstsein um Unterschiede und daraus resultierendes Konkurrenzverhalten wichtiger für das System ist als die exakte Erfassung der Differenzen“ und Frackmann (1988) sieht Hochschul-Ranking als Folge einer Gesellschaft, in der das „sich verkaufen“ und Superlative einen entscheidenen Stellenwert besitzen. Deutsche Wissenschaftler lehnen die Rangfolge nach Aufdeckung wesentlicher methodischer Mängel304 wie die willkürliche, nicht nachvollziehbare Urteilsbildung bei den Befragten, die Verletzung der Forderung nach Repräsentativität, die Verletzung der Forderung nach Reliabilität, die Mittelwertbildung über intersubjektiv nicht vergleichbare Skalen und die geringe statistische Signifikanz der Rangunterschiede ab. Folgepublikationen und der große, medienwirksame Einfluss von Hochschul-Ranking konnten durch diese Kritik jedoch bis heute nicht verhindert werden.305 Angeregt durch die deutlichen Auflagesteigerungen des Nachrichtenmagazins Der Spiegel durch die Veröffentlichung eines Hochschul-Ranking und das große öffentliche Interesse an vergleichenden Informationen über die Leistungen der Hochschulen wurden bald weitere Hochschul-Ranking von Manager Magazin (1990, ’92, ’94, ’95, ’96, ’97, ’98, ’99), Management Wissen (1991),306 Forbes (1991), Focus (1991, ’97), Der Spiegel (1993, ’98), Der Stern (1993, ’99), Stiftung Warentest in Kooperation mit dem CHE (1998, 2000) und und stern, start und CHE (1999, 2000) veröffentlicht.307 Sie erheben den Anspruch, die Lehrqualität, die Studienbedingungen und die Karriereaussichten für Absolventen deutscher Hochschulen, basierend auf Expertenbefragungen und einigen quantitativen Indikatoren, 303 Siehe Bayer (1999), Hornbostel (1998), Rosigkeit (1997), Bathelt und Giese (1995), Fürstenberg (1995), Klostermeier (1994), Tarnai, Grimm, John und Waterman (1993), Gloger (1992). 304 Siehe Lamnek (1990), Scheuch (1990) und Bayer (2000) und die dort angegebenen Literaturstellen. 305 „Trotz der zum Teil heftigen Kritik bis hin zur völligen Ablehnung aus den Hochschulen war der thematische Durchbruch in der Öffentlichkeit damit geschafft – die Hochschullehre wurde zum Thema. Selbst die methodische Kritik, angeführt von dem Kölner Erwin K. Scheuch, vermochte dies nicht zu verhindern“ (Friedrich und Gramm 1991). 306 Die Veröffentlichung im Sonderheft Management Wissen basierte auf einer Umfrage des Deutschen Komitees von AIESEC unter Studierenden. 307 Eine ausführliche Darstellung der zitierten Hochschul-Ranking ist in Bayer (1999, S. 24–41, 72–95) zu finden. Siehe auch Klostermeier (1994, S. 45–67) und Bathelt und Giese (1995).
IV. Hochschul-Evaluation durch Rating-Agenturen
159
zu bewerten. Siehe Abschnitt E.II. für eine Analyse ihrer Validität und Reliabilität auf der Basis des ganzheitlichen Ranking-Verfahrens (Abbildung 2 in Abschnitt C.III.).
IV. Hochschul-Evaluation durch Rating-Agenturen Die beiden weltweit führenden Rating-Agenturen Moody’s Investors Service und Standard & Poor’s erweiterten ihr Geschäftsgebiet auf Hochschul-Evaluationen. Moody’s Higher Education and Not-for-Profit Ratings Group bewertet seit 1993 die Bonität privater Hochschulen in den Kategorien market position, financial resources, operating performance, debt position und strategy and management (Moody’s Investors Service 2000b). Standard & Poor’s gründete am 3. Februar 2000 den School Evaluation Service (SES). Durch eine Analyse akademischer und finanzieller, quantitativer und qualitativer Indikatoren sollen Trends und Best-Practices im Management von Schulen identifiziert werden „to give state and local leaders the objective information they need to make informed, critical decisions“ (Standard & Poor’s 2000b). Auf die Erstellung einer Rangfolge soll zugunsten eines Benchmarking verzichtet werden. „SES is the next logical step in the standards-based education improvement effort underway across the United States“ (Standard & Poor’s 2000a). Der interaktive Rating-Prozess einer Rating-Agentur gleicht dem interaktiven Verfahren einer Evaluation nach dem niederländischen Modell. Bei einer Evaluation nach dem niederländischen Modell wird auf der Grundlage von Lehrberichten und Interviews mit Studierenden und wissenschaftlichem Personal eine Selbstdarstellung durch eine interne Arbeitsgruppe erstellt (interne Evaluation). Die Lehrberichte dienen der kontinuierlichen Sammlung von Basisdaten und Leistungsindikatoren, die Selbstdarstellung beurteilt die Resultate in Relation zu den selbst gesteckten Zielen, beschreibt Hindernisse und Defizite und schließt mit möglichen Maßnahmen zur Kontrolle und weiteren Verbesserung der Qualität der Lehre. Eine EvaluationsAgentur prüft die Selbstdarstellungen auf formale Korrektheit, fordert eventuell ergänzende Informationen an, leitet die Berichte an eine Gruppe von Sachverständigen weiter (Peers) und bereitet eine Begehung vor. Im Rahmen der Begehung führen die Sachverständigen Gespräche mit der Universitätsleitung, dem Dekan, den Lehrenden und den Studierenden. Abschließend wird durch die Sachverständigen auf der Basis der Selbstdarstellung und der im Rahmen der Begehung gesammelten Informationen und Eindrücke im Rahmen einer externen Evaluation ein vorläufiges Evaluationsgutachten erstellt. Der evaluierte Fachbereich erhält die Möglichkeit, zusätzliche Informationen bereitzustellen, um Irrtümer oder Missverständnisse
160
D. Leistungsmessung im Hochschulbereich
zu korrigieren. Der Abschlussbericht dient als Grundlage für einen Vertrag zwischen der Hochschulleitung und der Fachbereichsleitung über zu ergreifende Maßnahmen zur Verbesserung von Lehre und Studium und zur Erreichung bestimmter Standards innerhalb eines definierten Zeitraums (Zielvereinbarungen). Eine Rating-Agentur erstellt ein vorläufiges Rating auf der Basis einer standardisierten Selbstdarstellung eines Unternehmens. Die Selbstdarstellung umfasst quantitative und qualitative Analysen der Finanzkraft, des operativen Ergebnisses, des Management und des Markt- und Strategieprofils.308 Die Interaktion besteht in der Präsentation und Diskussion des vorläufigen Rating mit dem Management des Unternehmens, dem die Möglichkeit gegeben wird, zusätzliche Daten und qualitative Informationen nachzureichen, um das vorläufige Rating zu verbessern.309 Beide RatingAgenturen betonen die Subjektivität ihrer Evaluationen, deren Validität und Reliabilität durch eine Systematik bzw. durch ein Evaluationsverfahren gewährleistet ist (Objektivierung durch Verfahren).310 Die Ratings basieren auf einer Bewertung der „institution’s fundamental market position“ einer Hochschule in jedem der Bereiche Ausbildung, Weiterbildung, Forschung und Verwaltung. Ein Schwerpunkt der Analyse liegt bei der Bewertung der Qualität des Managements einer Hochschule anhand der Kriterien „coherent long-range strategic plan, clearly articulated debt and investment management policies, budgeting and monitoring practices, past record of successfully dealing with difficult situations, ability to achieve favorable results such as stable enrollment and balanced operations“ (Moody’s Investors Service 2000b).
308 „A. M. Best’s quantitative measures include more than 100 different financial tests that are divided into profitability, liquidity and leverage. . . . The qualitative evaluation includes assessments of an insurer’s operating plans, philosophy and management (A. M. Best 2000). 309 „Rating is a group process at Moody’s, one which draws upon our broad pool of expertise and our global communications technology. Issuers are, as a rule, intimately involved in this process, with ample opportunity for discussion and review“ (Moody’s 1996). 310 „Standard & Poor’s consistent framework and analytical findings are a diagnositic tool that emerges from a common-sense, business approach. SES is not empirical research intended to prove or disprove theories or challenge outcomes. By providing rigorous and systematic analyses and interpretation of existing data, SES complements education accountability systems (Standard & Poor’s 2000a).
E. Anwendung des ganzheitlichen Ranking-Verfahrens auf Hochschul-Rankings In diesem Kapitel wird das ganzheitliche Ranking-Verfahren aus Kapitel C.III. auf Hochschul-Rankings angewendet. In Abschnitt E.I. werden die Bedingungen definiert, für die ein Hochschul-Ranking als Bestandteil verteilter, multi-kriterieller Entscheidungsprozesse für Anspruchsgruppen wie Studierberechtigte, Hochschulverwaltungen oder Unternehmen valide und zuverlässige entscheidungsunterstützende Informationen liefert. Es werden Validitäts- und Reliabilitätsforderungen, jeweils für die Verfahrensschritte Ranking-Ziel, Ranking-Zielgruppe, Ranking-Objektmenge, Wirkungsmodell, Zielsystem, Operationalisierung des Zielsystems durch ein Kennzahlensystem, Kennzahlinterpretation und Datenerhebung, unter der Berücksichtigung der Interdependenzen zwischen den Verfahrensschritten erhoben. In Abschnitt E.II. wird das ganzheitliche Ranking-Verfahren auf eine Beurteilung des entscheidungsunterstützenden Informationsgehaltes deutscher und US-amerikanischer Hochschul-Rankings angewendet. Die Analyse unterscheidet sich methodisch durch ihren ganzheitlichen Ansatz von bisherigen Analysen, die sich überwiegend auf die Verfahrensschritte Operationalisierung eines Zielsystems durch ein Kennzahlensystem und Datenerhebung beschränkten. Bereits heute erfüllbare wissenschaftliche Forderungen haben noch keinen Eingang in die Praxis des Ranking gefunden haben. Einige bisher in der Literatur wenig diskutierten methodischen Schwächen werden angesprochen.
I. Validitäts- und Reliabilitätsforderungen für Hochschul-Rankings Der Anspruch, der mit einem Hochschul-Ranking verfolgt werden muss ist, einer Ranking-Zielgruppe entscheidungsrelevante Informationen zu liefern, die sie in dieser Art und in diesem Umfang nicht oder nur mit erheblich größerem Aufwand hätte beschaffen können. Ein Hochschul-Ranking kann z. B. einen Studienanfänger oder einen Personalleiter bei seiner „rationalen“311 Hochschulwahl unterstützen, in dem es eine zielgruppenspezifische Strukturierung der Entscheidungssituation, die Beschaffung der ent311 Unter Rationalität wird hier eine prozedurale Rationalität im Sinne der präskriptiven Entscheidungstheorie verstanden (Eisenführ und Weber 1994).
162
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
scheidungsnotwendigen Informationen, die zielgruppenspezifische Auswertung und die konsistente Verdichtung der Informationen liefert, zu der der einzelne Studienanfänger oder Personalleiter nicht in der Lage gewesen wäre. Dieser Anspruch mag sehr hoch erscheinen; wird er jedoch nicht erfüllt, besitzt das Hochschul-Ranking keinen entscheidungsunterstützenden Informationsgehalt. 1. Ranking-Ziel Die Aufgaben und Leistungen einer Hochschule und eines Wissenschaftlers sind vielfältiger Natur und reichen von den primären Aufgaben der Forschung, Lehre und Nachwuchsförderung über das Engagement in wissenschaftlichen Organisationen hin zu kulturellen, gesellschaftlichen und politikberatenden Tätigkeiten. Die Vielfältigkeit der Aufgaben und Leistungen erfordert eine mehrdimensionale Leistungsbewertung. Ein Hochschul-Ranking muss genau definieren welcher Auschnitt aus dem Leistungsspektrum einer Hochschule bewertet wird. 2. Ranking-Zielgruppe Ebenso vielfältig wie die Hochschulleistungen sind die Anforderungen an die Hochschulleistungen, die von unterschiedlichen Anspruchsgruppen geltend gemacht werden.312 Eine notwendige Voraussetzung für ein Hochschul-Ranking, das eine Qualität eines Ausschnittes des Leistungsspektrums einer Hochschule bewertet, ist die Definition einer Ranking-Zielgruppe, d. h. einer Anspruchsgruppe mit ähnlichen Wahrnehmungen der Qualität der Hochschulleistung in einem gegebenem Kontext oder einer Menge von Entscheidungsträgern, die bezüglich des Ranking-Ziels homogene Entscheidungsprämissen besitzen. Eine Ranking-Zielgruppe muss „vergleichbare“ Zielsysteme besitzen, die durch ein einheitliches Kennzahlensystem operationalisierbar und durch einheitliche Kennzahlinterpretationen interpretierbar sind. Zusätzlich muss die Ranking-Zielgruppe strukturähnliche oder strukturgleiche Artenpräferenzen auf den Kennzahlinterpretationen besitzen, um sie durch ein gemeinsames Ranking repräsentieren zu können (Kompatibilität eines Ranking). 312 „Von Studienanfängern und Fortgeschrittenen, von gegenwärtig Studierenden und künftigen Absolventen, von Arbeitgebern und fachwissenschaftlicher community werden unterschiedliche, teils sogar gegensätzliche Erfordernisse geltend gemacht“ (Kromrey 2000b). „. . . die existierende Vielzahl an gesellschaftlichen Anspruchsgruppen der Hochschulausbildung“ hat „einen breiten, durchaus nicht durchgängig harmonischen Zielkatalog zur Folge“ (Hansen, Henning-Thurau und Wochnowski 1997, S. 377).
I. Validitäts- und Reliabilitätsforderungen
163
Ein Ziel- oder Kennzahlensystem, das z. B. für jeden Studierenden repräsentativ ist, wird es schwerlich geben können. Wahrscheinlicher sind heterogene Ziel- und Kennzahlensysteme. So wird z. B. ein Studierender, der eine akademische Laufbahn plant, die Qualität von Lehrleistungen nach einem anderen Zielsystem beurteilen als ein Studierender, der nach Abschluss seines Studiums in der Wirtschaft eine Anstellung suchen will. Auch wird eine mittelständische Firma das Renommee und die Qualität der Ausbildung für eine praktische Tätigkeit nach anderen Zielsystemen beurteilen als ein internationaler Großkonzern, und ein Unternehmen der Automobilbranche nach anderen Zielsystemen als ein Handelsunternehmen. Eine „Vermischung“ der unterschiedlichen Zielsysteme hat oft eine Inkompabilität des Ranking mit den Entscheidungsprämissen aller Ranking-Zielgruppen zur Folge. Es besitzt in diesem Fall für keine Ranking-Zielgruppe einen entscheidungsunterstützenden Informationsgehalt. Bathelt und Giese (1995) folgern aus Spiegel (1993): „Die Inhomogenität der Zuhörerschaft verbietet daher, die Beurteilung der Lehrqualität eines Fachbereichs durch additive Zusammenfassung der Einzelurteile von 18 befragten Studierenden mittels einer Durchschnittsbildung durchzuführen.“ Die Frage, inwiefern verschiedene Anspruchsgruppen mit ihren unterschiedlichen Ranking-Zielen, Ranking-Objekten, Wirkungsmodellen, Zielund Kennzahlsystemen, Kennzahlinterpretationen und Rankings eine Differenzierung eines Hochschul-Ranking nach Ranking-Zielgruppen erfordert, wird in der Literatur zu Hochschul-Rankings kontrovers diskutiert. Die Ranking-Ersteller scheuen die höheren Kosten für ein nach Ranking-Zielgruppen differenziertes Hochschul-Ranking und versuchen zu zeigen, dass zwischen verschiedenen Ranking-Zielgruppen durch zielgruppenübergreifende, einheitliche Beurteilungsperspektiven und Bewertungskriterien keine Interessenkonflikte auftreten oder die Interessenkonflikte im Aggregat einer repräsentativen Ranking-Zielgruppe vernachlässigbar sind. Z. B. berechnet Hornbostel (2001) den Bravais-Pearsonschen Korrelationskoeffizienten zwischen den Urteilen der Anspruchsgruppen Professoren und Studierende zur Lehrsituation im Studienführer von stern, start und CHE 1999. Bei den Kriterien, die den Studienbedingungen zuzuordnen sind wie Bibliothek, Räume, Computer, Labor, Studienorganisation und Kontakt Studierende-Professoren berechnet er Korrelationskoeffizienten von rXY 2 ½0:2; 0:86Å. Bei den Kriterien, die jedoch Qualitätsdimensionen der Lehre betreffen wie die Qualität des Lehrangebots sind die Korrelationskoeffizienten systematisch niedriger ÈrXY 2 ½0:08; 0:39Åê. Er verweist weiter auf statistische Untersuchungen wie lineare Regressionsanalysen z. B. zur Validität studentischer Urteile, bei denen kein signifkanter Einfluss von überwiegend demographischen bias-Variablen wie Alter, Geschlecht, Erfahrungsstand und Vorbildung auf die studentische Urteile zur Lehrqualität nachgewiesen
164
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
werden konnte (Hornbostel 2001). Eine mögliche Ursache für diese Ergebnisse sind methodische Fehler bei der Informationsaufbereitung; die Anwendung von dem Analysezweck nicht angemessenen statistischen Verfahren. So kann z. B. Kromrey (2001b) durch eine Sekundäranalyse der Daten des Studienführers von stern, start und CHE (2000), im Gegensatz zu o. a. Arbeiten, einen signifikanten Einfluss dieser Variablen auf die Studierendenurteile zur Lehrqualität nachweisen. Zu gleichen Ergebnissen kommen Moosbrugger und Hartig (2001), Spiel (2001) und Engel und Krekeler (2001). Hornbostel (2000) argumentiert, dass die Berücksichtigung unterschiedlicher Beurteilungsprofile innerhalb einer Anspruchsgruppe wie Studierende unterbleiben kann, wenn die unterschiedlichen Beurteilungsprofile „in allen Fachbereichen mehr oder weniger gleichmäßig auftauchen“. Das erhobene Aggregat an unterschiedlichen Beurteilungsprofilen weise dann keine systematischen Verzerrungen auf. Dieses Aggregat als allgemein akzeptierten Maßstab für die Qualität der untersuchten Hochschulleistung zu verwenden, ist bedenklich. Eine derartige „Vermischung“ der unterschiedlichen Beurteilungsprofile zu einem heterogenen Aggregat ist ein statistisches Artefakt (Kromrey 2001b), das hohe Informationsverluste und -verzerrungen für alle Ranking-Zielgruppen zur Folge haben kann.313 Auffallend ist, dass der Prozess Prüfung bisher nicht bewertet wird. Diese Ausführungen belegen die Notwendigkeit bei Hochschul-Rankings, durch die Hochschulleistungen bewertet werden sollen, Anspruchsgruppen nach Ranking-Zielgruppen zu differenzieren. Diese Forderung wird auch durch statistische Auswertungen von z. B. Studierendenbefragungen zur Qualität der Lehre und Arbeitgeberbefragungen zu ihren Einstellungskriterien bei Hochschulabsolventen gestützt. Die Auswertungen zeigen, dass i. d. R. auch innerhalb einzelner Anspruchsgruppen wie Studierende und Unternehmen ein „Perspektivenpluralismus“ existiert und „systematische Unterschiede im Urteilsverhalten verschiedener Studentengruppen . . . zu erheblichen Verzerrungen der zu erfassenden Studiensituation führen“ können (Daniel und Hornbostel 1993). Durch den Einsatz von Cluster-Analysen werden u. a. in Kromrey (1992), Treinen (1993), Landeck (1994), Bankhofer und Hilbert (1995), Kromrey (2001a) und Kromrey (2001b) inhomogene Beurteilungsperspektiven und Bewertungskriterien von Anspruchsgruppen in potentielle Ranking-Zielgruppen unterteilt. Kromrey (1992) und Treinen (1993) gliedern die sehr inhomogenen studentischen Bewertungen einer Vorlesungsbefragung durch eine Cluster-Analyse in homogene Bewertungsprofile.314 Landeck (1994) unterscheidet durch eine Cluster-Analyse vier 313
Siehe auch Kapitel F.II. „So fand die Bochumer Universitätskommission für Lehre, Studium und Studienreform heraus, dass die studentischen Beurteilungen einer Veranstaltung große Unterschiede aufweisen, was bedeutet, dass dieselbe Form der Lehre, die der eine 314
I. Validitäts- und Reliabilitätsforderungen
165
unterschiedliche Lerntypen und leitet für jeden Lerntyp eine zielgruppengerechte Studienberatung ab. Bankhofer und Hilbert (1995) identifizieren durch eine Cluster-Analyse zehn unterschiedliche Unternehmens-Segmente in Hinblick auf ihre Einstellungskriterien. Eine Aufspaltung der erhobenen Werturteile von Managern in die zwei Gruppen Topmanagement und Berufseinsteiger ergab beim Hochschul-Ranking des Manager Magazins 1994 zwei extrem unterschiedliche Rankings (Fischer, Rieker und Riesch 1994). Leitow (1996) unterscheidet Studierende nach den Studiertypen Minimalisten, Schlenderer, Motivierte, mittlere Studierende, Sprinter, Ambitionierte und Maximalisten. Kromrey (2001a) identifiziert durch eine Cluster-Analyse neun unterschiedliche Motivationsprofile von Studierenden. Kromrey (2001b) „rekonstruiert“ durch eine Sekundäranalyse der Daten des Studienführers von stern, start und CHE (2000) „empirisch voneinander unterscheidbare Bewertungsmuster“ innerhalb der Anspruchsgruppe der Studierenden. Hornbostel (2001) vergleicht die Korrelationen zwischen den mittleren Studierendenurteilen zur Studiensituation aus Spiegel (1999) und aus CHE (1999) im Fachbereich Mathematik. Seine Hypothese für die Ursache der geringen Korrelation (Bravais-Pearsons rXY ã 0:301, Kendalls t ã 0:214) basiert auf unterschiedlichen Beurteilungsprofilen von Lehramts- und Diplomstudierenden. Kromrey (2001a) fordert u. a. dass „Lehrqualität sinnvoll nur relational – als Angemessenheit des Angebots (der Lehrenden) für definierte ‚Kunden‘ (Studierende) – entwickelbar ist“. Kromrey (2000b, S. 252) schlägt vor, nach Lehr-Lernsituationen zu unterscheiden: „Für Einführungsveranstaltungen mit Pflichtcharakter, in denen ein bei Studierenden eher unbeliebter Stoff vermittelt werden soll, wird eine andere Didaktik angemessen sein als in Hauptstudienseminaren zu Spezialthemen mit ausschließlich freiwillig teilnehmenden und interessierten Studierenden . . . Und welche Didaktik in diesen Situationen jeweils als angemessen gelten kann, dürfte von verschiedenen Lehrenden ebenso unterschiedlich eingeschätzt werden wie von Studierenden ohne und mit Vorkenntnissen, ohne oder mit Leistungsmotivation, mit passiv-konsumierenden oder aktiv-entdeckenden Lernstil“. Hansen, Henning-Thurau und Wochnowski (1997) erheben die Struktur des Konstruktes Qualität der Lehre aus dienstleistungstheoretischer Perspektive durch eine empirische Explorationsstudie und unterscheiden als Anspruchsgruppen (stakeholder) die Anbieter der Dienstleistungen (Professoren im Rahmen ihres Erziehungs- und Bildungsauftrages) und die Nachfrager der Dienstleistungen (Studierende). Die gleiche Differenzierung nehmen auch Teil der Teilnehmer als akzeptabel und lernfördernd bewertet, von einem anderen Teil der Teilnehmer als inakzeptabel und lernhemmend empfunden wird. . . . Bei einem Ranking von Lehrveranstaltungen würden die Aussagen unterschiedlicher Studenten-Gruppen unzulässig miteinander vermischt“ (Klostermeier 1994, S. 95).
166
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
Hodges (1993), Bathelt und Giese (1995) und Rosigkeit (1997) vor. Hornbostel (2001) bemerkt, dass die starke Praxisorientierung und Verwertungsperspektive der Studierenden in der Rechtswissenschaft bei der Bewertung der Lehrsituation oft im Widerspruch zu der akademischen Erwartungshaltung der Professoren steht. Bei einer Evaluation wird durch die Aggregation unterschiedlicher Rangfolgen verschiedener Ranking-Zielgruppen ein möglicherweise hoher Informationsverlust in Kauf genommen. Für ein entscheidungsunterstützendes Hochschul-Ranking darf eine solche Aggregation nicht vorgenommen werden. Ranking-Zielgruppen müssen aus Anspruchsgruppen oder -teilgruppen gebildet werden, deren Entscheidungsprämissen innerhalb einer Gruppe einen hohen Homogenitätsgrad und zwischen verschiedenen Gruppen einen geringen Homogenitätsgrad besitzen. Die Kenntnis der möglichen Entscheidungsprämissen würde es den Hochschulleitungen ermöglichen, RankingZielgruppen spezifische Hochschulleistungen anzubieten (Profilbildung). Z. B. könnten für unterschiedliche Gruppen von Studierenden mit unterschiedlichen Entscheidungsprämissen, wie im Marketing gängige Praxis, Kunden- und Marktsegmentierungen definiert und jeweils gesonderte Hochschul-Rankings erstellt werden. Ist dies nicht möglich, können lediglich Daten zur Entscheidungsunterstützung zur Verfügung gestellt werden, und es muss den einzelnen Ranking-Zielgruppen überlassen werden, die für sie geeigneten Daten auszuwählen und zu interpretieren, um auf der Basis eines individuellen Ranking eine Rangordnung zu erstellen. Doch hier gilt: Wenn eine Anspruchsgruppe aus vielen empirisch unterscheidbaren Ranking-Zielgruppen besteht oder das Ranking-Ziel zu weit gefasst ist, besteht die Gefahr, „Datenfriedhöfe“ zu generieren; die Ranking-Zielgruppen können dann mit der Selektion der für sie entscheidungsrelevanten Daten aus dem Katalog der möglichen Daten überfordert sein. 3. Ranking-Objektmenge Für ein Hochschul-Ranking müssen aus der Vielfalt der Hochschulleistungen und der Hochschulen diejenigen bestimmt werden, die anhand der Entscheidungsprämissen einer Ranking-Zielgruppe bei gegebenem RankingZiel ein strukturgleiches oder strukturähnliches Leistungsprofil besitzen. Das Leistungsprofil wird einerseits durch die Hochschulleistungen, wie z. B. selbstorganisiertes Studium (Universität) versus vororganisiertes Studium (Fachhochschule), andererseits durch die Rahmenbedingungen der Leistungserstellung bestimmt.315 Verschiedene Leistungsprofile können ziel315 „Fachliche Heterogenität, Unterschiedlichkeit in bezug auf Ausbildungsziele, fachliche Traditionen und Alter der Fächer lassen eine Zusammenfassung der Daten
I. Validitäts- und Reliabilitätsforderungen
167
und zielgruppenspezifische, konkurrierende „Modelle“ hinsichtlich des Ranking-Ziels darstellen, die nur aus der Perspektive einer Ranking-Zielgruppe durch ein gemeinsames Wirkungsmodell, Ziel- und Kennzahlensystem repräsentiert, durch einheitliche Kennzahlinterpretationen interpretiert und durch ein einheitliches Ranking aggregiert werden können.316 In Abhängigkeit des Ranking-Ziels wie z. B. die Bewertung der Qualität der Lehre oder der Forschung, können sich für eine Ranking-Zielgruppe unterschiedliche Ranking-Objektmengen ergeben. Ranking-Objektmengen können durch Leistungsprofile gebildet werden, die innerhalb einer Objektmenge einen hohen Homogenitätsgrad und zwischen verschiedenen Objektmengen einen geringen Homogenitätsgrad besitzen (Hess 1992, S. 101–102). Sie sind i. d. R. nicht identisch mit der Menge aller nationaler Hochschulen, da sich die Hochschulen durch verschiedene Fächerspektren unterscheiden. Selbst innerhalb eines Faches oder eines Studienganges sind signifikante Strukturunterschiede zu erwarten, die u. a. aus dem Selbstverständnis und der Positionierung der Hochschule stammen. Einen fächerübergreifenden Vergleich ganzer Hochschule lehnte auch die Westdeutsche Rektorenkonferenz 1986 als nicht sinnvoll ab, da die Leistungsfähigkeit einer Hochschule als Ganzheit nicht gleichzusetzen ist mit der Summe der Leistungen einzelner Fächer (Westdeutsche Rektorenkonferenz 1986). „Sinnvoll seien höchstens vergleichende Darstellungen zwischen gleichen Fächern an verschiedenen Hochschulen, dabei müssten jedoch unbedingt die unterschiedlichen Rahmenbedingungen der einzelnen Hochschulen (z. B. Alter, Größe und Ausstattung der Institute, Fächerspektrum, interdisziplinäre Verflechtungen) berücksichtigt werden“ (Klostermeier 1994, S. 28). Die Ranking-Objektmengen müssen dabei nicht identisch mit Fachbereichen/Fakultäten sein. Das Joint Funding Council of the United Kingdom teilt im Rahmen seines Research Assessment Exercise alle wissenschaftlichen Disziplinen in 69 Competitor Groups („Units of Assessment“) ein (Joint Funding Council of the United Kingdom 1996). Dies hat zur Folge, dass Fachbereiche in mehrere Competitor Groups aufgeteilt werden müssen. Jede Fakultät entscheidet selbst, in welcher(n) Competitor Group(s) sie im Hinblick auf Leistungsbeurteilung nicht sinnvoll erscheinen; auch der interdisziplinäre Leistungsvergleich verschiedener Fachbereiche muss dieser Tatsache Rechnung tragen“ (Alewell 1986, S. 47). 316 Turner (1987, S. 46) bemerkt im Zusammenhang mit der Social Group Theory „categorization and comparison depend upon each other and neither can exist without the other: the division of stimuli into classes depends upon perceived similarities and differences (comparative relations), but stimuli can only be compared in so far as they have already been categorized as identical, alike, or equivalent at some higher level of abstraction“.
168
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
evaluiert werden will.317 Anders beim Teaching Quality Assessment. Dort werden die Fachbereiche/Fakultäten in 11 Academic Subject Categories eingeteilt (Higher Education Funding Council for England 1995) und somit mehrere Fachbereiche/Fakultäten zusammengefasst. Diese werden jeweils nach Vollzeit/Teilzeit Studiengängen und nach undergraduate and postgraduate taught/postgraduate research unterschieden, so dass 11 2 2 ã 44 unterschiedliche „funding cells“ (Ranking-Objektmengen) entstehen. „The number of funding cells in which any institution receives funding is determined by the mix of subjects and courses offered, the types of students taking those courses and the different levels of study. Larger universities will be active in most of the funding cells. Smaller, more specialist colleges will be active in only a few“. Tracy und Waldfogel (1997) bilden z. B. Ranking-Objektmengen nach Quartilen der Qualitäten von Studierenden und erhalten vier zielgruppenspezifische Rankings der TOP 20 MBA-Schulen. Elsbach und Kramer (1996, S. 453) untersuchen u. a. die „Dimensions of Business School Identities“ US-amerikanischer MBA-Schulen, die unterschiedliche Zielgruppen von Studierenden adressieren. Internationale Positionierungsanalysen wirtschaftswissenschaftlicher Fakultäten ergaben z. B., „dass Spitzenplätze auf der Leistungsachse sowohl von praxisorientierten . . . als auch von theorieorientierten Hochschulen . . . erreicht werden können und somit eine eindimensionale Betrachtung u. U. nicht angemessen ist“ (Simon 1985). Eine Analyse der Pflichtfächer von 25 Business Schools durch die Co-plot Methode ergab eine Klassifizierung der MBA-Programme in sechs strategische Gruppen. Eine Zuordnung der Rangziffern nach Business Week zu den einzelnen MBA-Schulen ergab, dass die TOP 5 MBA-Schulen verschiedenen strategischen Gruppen angehören und es offensichtlich keine „beste“ Struktur für eine MBA-Ausbildung gibt. Hier wird deutlich, warum die Existenz von verschiedenen Ranking-Objektmengen eine relative Leistungsbewertung zwischen den Hochschulen einer Ranking-Objektmenge erfordert: Sonst ist es theoretisch möglich, dass ein Rangplatz von z. B. 15 den Spitzenplatz in einer Ranking-Objektmenge bezeichnet.
317 „Die UFC hatte die Universitäten darum gebeten, ihr alle Forschung betreibenden Mitglieder zu benennen und deren vier besten Forschungsartikel, Bücher o. ä. einzureichen. 62 Sachverständigenausschüsse bewerteten die von 172 Universitäten, ehemalige polytechnics und colleges of higher education eingereichten 2700 Arbeiten“ (Klostermeier 1994, S. 78). Zusätzlich wurden folgende Informationen berücksichtigt: „information on the total number of articles and books produced by each department over the assessment period“, „the number of postgraduate studentships per department-future departmental research plans“, „the amount of research grant income each department received from outside sources“.
I. Validitäts- und Reliabilitätsforderungen
169
Neben der Anwendung statistischer Verfahren zur Identifikation von Ranking-Objektmengen sind alternative Vorgehensweisen denkbar. Ranking-Objektmengen können bei Hochschulen auch die unterschiedlichen Rahmenbedingungen reflektieren, unter denen die Hochschulen ihre Leistungen erstellen (Westdeutsche Rektorenkonferenz 1986).318 Sie können eine „school’s membership in selective organizational categories“ kennzeichnen (Elsbach und Kramer 1996, S. 442), aus Hochschulen bestehen, die untereinander um Studienanfänger, Wissenschaftler und finanzielle Mittel konkurrieren (competitor group), eine vergleichbare „role and mission“ besitzen (peer group), sich gegenseitig als vergleichbar akkreditieren (aspiration group) oder geographische, juristische oder traditionelle Gemeinsamkeiten besitzen (predetermined group) (Brinkman und Teeter 1987). Eine zu weit gefasste Ranking-Objektmenge führt zu Problemen bei der Bestimmung eines gemeinsamen Wirkungsmodells, eines Ziel- und Kennzahlensystems, einer einheitlichen Kennzahlinterpretation und eines Ranking. Giese (1986, S. 61) führt z. B. als fächerspezifische Besonderheiten an, dass Publikations- und Zitationsmaße nur in den Forschungsbereichen Produktivitätsmaße darstellen, in denen das Schreiben, Publizieren und Zitieren das dominante Kommunikationsmedium darstellen.319 Das gilt für den Bereich der Grundlagenforschung, aber nicht für die angewandte Forschung, speziell nicht für die Ingenieurwissenschaften. Weiter kann die Bedeutung und damit die Gewichtung unterschiedlicher Publikationsorgane wie Aufsatz, Monographie, Konferenzbeitrag für unterschiedliche Forschungsdisziplinen wie Soziologie und Betriebswirtschaft sehr unterschiedlich sein. Die Varianz der Publikations- und Zitationsmaße innerhalb von Fachbereichen ist oft größer als die Varianz zwischen Fachbereichen. Ein Durchschnittswert aus den Publikationen oder Zitationen für Institute besitzt nur einen geringen entscheidungsunterstützenden Informationsgehalt, wenn ein großer Anteil der Publikationen oder Zitate auf ein Institutsmitglied entfällt.320 Ferner erscheint z. B. fragwürdig, die Forschungsarbeit 318 „In den Fakultäten sind die Unterschiede zwischen verschiedenen Instituten im Hinblick auf Art, Struktur und Leistungsfähigkeit in der Regel beachtlich“ (Alewell 1986, S. 47). 319 Für fachspezifisch unterschiedliche Bewertungskriterien siehe auch Hartenstein, Boos und Bertl (1986), Hartmann (1986) und Rieder und Widmaier (1986). 320 „In der Studie von Endler, Rushton und Roedinger (1978) erhielt das Psychologie-Department der Northwestern University im Jahre 1975 insgesamt 1094 Zitate (Rang 17), davon entfielen 47 Prozent auf D. T. Campbell; an der New School for Social Research (Rang 43) entfielen 58 Prozent der 600 Zitate auf L. Festinger, und selbst an der Stanford University (Rang 1) bezogen sich 18 Prozent der 3574 Zitate auf die Arbeiten eines einzigen Wissenschaftlers (A. Bandura). Von den 886 Zitaten, die dem psychologischen Institut der Oxford University im Jahre 1975 zugeschrieben wurden, entfielen 41 Prozent auf J. S. Bruner“ (Daniel 1986b, S. 237–238).
170
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings Anzahl Publikationen
niedrig
niedrig
hoch
Typ I
Typ II
Typ III
Typ IV
Anzahl Zitierungen
hoch
Abbildung 3: Klassifikation von Forschern
eines Jungwissenschaftlers mit der eines Nobelpreisträgers oder die Forschungsarbeit eines theoretischen Wissenschaftlers mit der eines angewandten Forschers vergleichend zu bewerten. Bei den geschilderten Problemen empfiehlt sich, die Ranking-Objektmengen näher einzugrenzen, z. B. durch eine Unterscheidung von Forscher- bzw. Publikationstypen (Abbildung 3).321 Durch eine zunehmende Profilbildung der Hochschulen wird die Definition von Ranking-Objektmengen erleichtert. Ranking-Objektmengen und die Zugehörigkeit einer Hochschule zu einer bestimmten Ranking-Objektmenge sind zeitlich nicht konstant, sondern abhängig von der sich ändernden Nachfrage und von den strategischen Entscheidungen der Hochschulleitungen (Segev, Raveh und Farjoun 1999). Doch hier gilt: die Gruppenzugehörigkeit einer Hochschuleinheit zu einer Ranking-Objektmenge zum Entscheidungszeitpunkt ist maßgeblich für das Ranking. 4. Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell Nach der Definition eines Ranking-Ziels, einer Ranking-Zielgruppe und einer Ranking-Objektmenge, müssen die Ranking-Objekte durch ein Zielund Kennzahlensystem repräsentiert werden. Zur Ableitung eines Zielsys321
Siehe auch Roeder, Baumert, Naumann und Trommer (1986).
I. Validitäts- und Reliabilitätsforderungen
171
tems ist ein Wirkungsmodell erforderlich, das alle wesentlichen Eingangs-, Ausgangsgrößen, Prozesse (Eigenschaften) sowie deren Verflechtungen und Rückkopplungen (Relationen) vereinfacht abbildet und strukturiert, so dass die zur Leistungsmessung geeigneten Eigenschaften identifiziert werden können. Durch ein Wirkungsmodell wird der entscheidungsrelevante Kontext der Ranking-Objekte bzw. ihr sachlicher Bezugsrahmen abgebildet. Beispiele für Wirkungsmodelle von Hochschulen in „Input-Output“ Darstellung sind Arvidsson (1986), Fisch (1988), Syrbe und Bayer (1997) und Sinz (1998).322 Der Vereinfachungs- bzw. Detaillierungsgrad eines Wirkungsmodells ist abhängig von dem Ranking-Ziel, der Ranking-Zielgruppe und den Ranking-Objekten. Das Zielsystem muss später festlegen, welche der Größen für eine Ranking-Zielgruppe bei gegebenem Ranking-Ziel und Ranking-Objektmenge entscheidungsrelevant sind. Die Aufdeckung von Wirkungszusammenhängen und Rückkopplungsschleifen dient der Identifikation von Abhängigkeiten, die sich im Zielsystem niederschlagen können. Rau und Hummel (1986, S. 222) bemerken, dass zur Messung von Lehrqualität eine Vielzahl von Forschungsdesigns, Erhebungsinstrumenten, Skalen und Indizes zur Verfügung stehen, „die für die Ermittlung und Beschreibung der Interdependenzen von studentischen Aspirationen, Bestrebungen des Lehrkörpers, institutionellen Zielen, Orientierungen, Bedürfnissen, Aktivitäten, Störfaktoren und Zufriedenheitsmaß entwickelt und erprobt wurden“. Im Gegensatz dazu bestreitet Kromrey (2000, S. 244) die Möglichkeit einer empirischen Zurechnung der Beiträge einzelner Lehrmaßnahmen zu einer gemessenen Qualifikation. „Zum einen stellen die Maßnahmen lediglich Rahmenbedingungen und Angebote der Lehrenden an die Studierenden dar und die empirische Beschreibung der auf einen Studierenden wirksam gewordenen Maßnahmen ist nur unvollständig rekonstruierbar.323 „Zum anderen hängt der Studienverlauf und der Studienerfolg nach allen vorliegenden empirischen Erkenntnissen aus der Bildungsforschung in hohem Maße von Merkmalen in der Individualsphäre der Studierenden ab: wie Lebenssituation, Interesse und Leistungsmotivation, Studienstil und -intensität. Die 322
„Zur Beurteilung einer Hochschule oder eines Teiles einer Hochschule scheint es zwingend notwendig, das gesamte Leistungsbündel einzubeziehen, da die Produktion der Leistungen durch die gemeinsame Nutzung von Produktionsfaktoren eng miteinander verknüpft ist und auch die Leistungen wechselseitig aufeinander aufbauen (Leistungsverbund)“ (Alewell 1986, S. 42). 323 Lehrveranstaltungen sind von ihren Inhalten häufig so stark variierend, dass zu den statistisch kontrollierbaren Unterschieden der studentischen Veranstaltungswahl (Auswertung der Studienbücher/Prüfungsprotokolle) eine zusätzliche Variation in nicht kontrollierbaren Ausmaß hinzukäme. „Beratung, Betreuung und Prüfungen schließlich ergeben sich in Interaktionen zwischen einzelnen Studierenden und einzelnen Mitgliedern des Lehrpersonals und wären bei Studienabschluss überhaupt nicht mehr rekonstruierbar“.
172
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
von den Trägern des Studiengangs beeinflussbaren Gegebenheiten – Studieninfrastruktur, Lehre und Betreuung – können lediglich (wenn sie von schlechter Qualität sind) das Studium erschweren oder (bei guter Qualität) erleichtern; den individuellen Erfolg bewirken können sie nicht. Um also den relativen (fördernden oder hemmenden) Beitrag der angebotenen Maßnahmen zum Studienerfolg abschätzen zu können, müsste zunächst der individuelle Eigenbeitrag des jeweiligen Studierenden bekannt sein – eine . . . völlig unrealistische Anforderung, deren Nichterfüllbarkeit in diesem Bereich jede Evaluation im Sinne von Zielerreichungskontrolle prinzipiell unmöglich macht“. Auch wenn ein Kausalmodell empirisch nicht ermittelt werden kann, gibt ein logisch abgeleitetes Wirkungsmodell wichtige Hinweise für eine Ableitung eines Ziel- und Kennzahlensystems, einer Kennzahlinterpretation und eines Ranking für eine Ranking-Zielgruppe bei gegebenem Ranking-Ziel und Ranking-Objekten. Im Unterschied zu den Modellansätzen der 70er Jahre, die durch ressourcenorientierte Kennzahlensysteme die Prozesse einer Universität abbilden und bis ins Detail steuern wollten (z. B. die Berechnung des Personalbedarfs und der maximalen Zulassungszahl),324 verfolgt das Wirkungsmodell von Syrbe und Bayer (1997) in Abbildung 4 vorrangig ein Strukturierungsziel. Aus diesem einfachen Strukturmodell ist u. a. ersichtlich, das die Qualitäten der Prozesse Forschung, Lehre und Prüfung nur durch die Qualitäten und Quantitäten der betreffenden Aus- und Eingangsgrößen gemessen werden können und das die gewöhnlich erhobenen Strukturkennzahlen erst in einem zweiten Schritt, ähnlich einem Benchmarking, das Zustandekommen der unterschiedlichen Prozessqualitäten erklären können.325 Das Wirkungsmodell nach Syrbe und Bayer (1997) ist in die Theorie der Evaluationsforschung wie folgt einzuordnen: Das Wirkungsmodell modelliert, dem CIPP-Ansatz (Context, Input, Process, Product) nach Stufflebeam (1983) folgend, die Universität als Produktionsprozess mit den Eingangsgrößen Studienanfänger und Haushalt & Drittmittel und den Ausgangsgrößen Absolventen und Wissen. Der Output wird durch eine geeignete Kombi324
Das sogenannte FIDES-Kapazitätsmodell (Minke und Weichhold 1972) sollte als Zuordnungsverfahren zur Ermittlung einer „optimalen“ Lehrbelastung dienen. Auf einer ersten Stufe wird die Lehrnachfrage, die durch Studienpläne und die Zahl der Studierenden bestimmt wird, gemäß den Präferenzen des Lehrpersonals, einzelnen Lehrkörpern zugewiesen. Anschließend wurde die Raumauslastung, die sich aus den konkreten, personifizierten Lehrveranstaltungen (und der konkreten Lehrnachfrage durch Studenten) ergibt, berechnet. Ähnliche Modelle werden in Dettweiler und Frey (1972) und Huber (1972) diskutiert. 325 Siehe Frackmann (1988, S. 147–148, 150–154, 7–8), Hamlen und Southwick (1989) und Tracy und Waldfogel (1997).
I. Validitäts- und Reliabilitätsforderungen
173
Äußeres Wirkungsmodell Inneres Wirkungsmodell Studienanfänger
Absolventen Prozess der Forschung
Prozess der Lehre
Finanzmittel
Prozess der Prüfung
Wissen
DFG-Mittel, Wirtschafts-Drittmittel
Abbildung 4: Quantifizierbares Wirkungsmodell einer Universität nach Syrbe und Bayer (1997)
nation der drei Produktionsfaktoren Lehre, Prüfung und Forschung erzeugt. Die Prüfungsleistung wird gesondert aufgeführt, da sie einen großen Einfluss auf die Produktion von Lehre und Forschung hat (Syrbe und Bayer 1997). Im Unterschied zu Stufflebeam (1983) wird der Anspruch auf allgemeine Objektivität der Evaluation aufgegeben, da bei den Wertesystemen der Ranking-Zielgruppen eine große Heterogenität zu erwarten ist. Für den Kontext, also die Frage welche Ranking-Zielgruppen müssen mit welchen Bedürfnissen berücksichtigt werden, wird stattdessen wie bei Guba und Lincoln (1989) und Simon (1985) ein konstruktivistischer Ansatz für die Bewertung der Qualität der Eingangs- und Ausgangsgrößen verfolgt.326 Auch im Dienstleistungsmanagement finden sich Parallelen. Hansen, HenningThurau und Langer (2000) unterscheiden beim Qualitätsmanagement von Hochschulen Faculty-Q zwischen der Potentialdimension, der Prozessdimension und der Ergebnisdimension einer Dienstleistung. Die Potentialqualität wird aus der Bewertung der Qualität und Quantität des wissenschaft326 „Jede Gruppe konstruiert aus ihrer Interessenlage und ihrer Sicht der Dinge heraus eine Wirklichkeit. Auch den Evaluatoren gelingt es nicht, eine objektive Rolle einzunehmen. Demzufolge kann ihre Aufgabe nur darin bestehen, die Wirklichkeitskonstrukte der verschiedenen Interessengruppen zutage zu fördern, . . .“ (Kieser, Frese Müller-Böling und Thom 1996).
174
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
lichen Lehrpersonals, der Studierenden und der Infrastruktur, die Prozessqualität u. a. aus der Bewertung der Qualität und Quantität des Lehrangebots, der Studierendenbetreuung und des Prozess-Controlling, die Ergebnisqualität aus der Bewertung der Qualität und Quantität der Abschlüsse, des Außenimages und des Ergebnis-Controlling gebildet. Hochschul-Rankings, die nicht auf einem Wirkungsmodell basieren, laufen Gefahr, Eingangsgrößen, Prozesse und Ausgangsgrößen unvollständig durch Kriterien bzw. Kennzahlen zu repräsentieren; Prozesse, die in Wirkungszusammenhängen stehen, isoliert zu bewerten; interne Prozesse zu bewerten ohne Berücksichtigung der Eingangs- und Ausgangsgrößen der Hochschule; und Abhängigkeiten zwischen den Kriterien bzw. Kennzahlen nicht zu berücksichtigen. Eine häufige Folge sind auch systematische Fehler in den Bewertungsmodellen, wie die Verwechslung von Struktur- und Qualitätskennzahlen bei der Messung der Qualität des Lehrprozesses. 5. Zielsystem Ein Hochschul-Ranking kann einer Ranking-Zielgruppe nur dann entscheidungsunterstützende Informationen liefern, wenn deren Zielsystem bekannt und durch Kennzahlen grundsätzlich operationalisierbar ist. Das Zielsystem einer Ranking-Zielgruppe wird aus ihren Präferenzen und aus einem Wirkungsmodell der Ranking-Objekte bei gegebenem Ranking-Ziel abgeleitet. Es strukturiert das Ranking-Ziel durch die wirkungsmodellgestützte Festlegung der Systemkomponenten, die eine Ranking-Zielgruppe bei gegebenen Ranking-Ziel bei den Ranking-Objekten als entscheidungsrelevant wahrnimmt. Dafür ist zunächst allgemein festzulegen, ob die Voraussetzungen der Leistungserstellung (z. B. Finanzmittel, qualifizierte Studenten), der Prozess bzw. die Bedingungen der Leistungserstellung (z. B. qualifiziertes akademisches Personal), das Ergebnis der Leistungserstellung (z. B. Anzahl Publikationen, Qualität der Publikationen) oder die erzielten Wirkungen bzw. der Nutzen der Ergebnisse (z. B. Reputation) beurteilt werden sollen. Als Qualitätsmaß für die Lehrleistungen wird oft der Qualifizierungserfolg der Studierenden angesehen. „. . . hier die unerschütterliche Annahme weit verbreitet, dass gute Servicequalität bereits eine weitgehende Gewähr für einen solchen Erfolg sei“ (Kromrey 2000b, S. 240). Ein Zielsystem ist die Basis für die Ermittlung des Präferenzmodells einer Ranking-Zielgruppe bzw. für das Maß, in dem die Werte der RankingObjekte gemessen werden müssen. Die Rationalität und die Validität eines Ranking können nur auf der Grundlage des Präferenzmodells der RankingZielgruppe beurteilt werden. Ein Zielsystem muss vollständig, widerspruchsfrei, operationalisierbar, redundanzfrei, gegenseitig präferenzunab-
I. Validitäts- und Reliabilitätsforderungen
175
hängig, minimal sein und zwischen den Ranking-Objekten diskriminieren (siehe Tabelle 2 in Abschnitt C.III.4, S. 88). Ein Ergebnis der Zielsystem-Forschung kann die Erkenntnis sein, dass die Ranking-Zielgruppe redefiniert werden muss. Bankhofer und Hilbert (1995) zeigen in einer empirischen Untersuchung zum Berufseinstieg von Wirtschafts- und Sozialwissenschaftlern, dass die Einstellungskriterien und deren relative Gewichte branchenabhängig sind. Alternativ führen sie eine branchenübergreifende Cluster-Analyse durch.327 Das Resultat sind zehn unterschiedliche Ranking-Zielgruppen der Anspruchsgruppe Wirtschaft. Für jede der zehn Ranking-Zielgruppen muss ein eigenes Hochschul-Ranking erstellt werden. Das Zielsystems z. B. eines Studierenden muss nicht konstant sein und kann sich während des Studiums ändern. Ein zu Studienbeginn pragmatisch orientierter Student (kurze Studienzeit, Berufswunsch Industrie) kann während seines Studiums Gefallen am wissenschaftlichen Arbeiten finden und anschließend eine Karriere in der Wissenschaft anstreben. Entscheidend ist hier jedoch, dass er zum Zeitpunkt seiner Entscheidung einer Ranking-Zielgruppe angehört. Bereits das Erkennen der Zugehörigkeit eines Studierberechtigten zu einer definierten Ranking-Zielgruppe trägt entscheidend zur Strukturierung seines Entscheidungsproblem bei. Ändert sich sein Profil oder Zielsystem während des Studiums, so kann der Studierende eine neue Entscheidung unter Berücksichtigung seiner Zugehörigkeit zu einer neuen Ranking-Zielgruppe treffen. 6. Operationalisierung des Zielsystems durch ein Kennzahlensystem Für ein Hochschul-Ranking gibt es keine allgemein akzeptierten Kennzahlen. Erst in Abhängigkeit eines Ranking-Ziels, einer Ranking-Zielgruppe, einer Ranking-Objektmenge, einem Wirkungsmodell und eines Zielsystems können Kennzahlen zur Bewertung von Hochschulleistungen aus dem Wirkungsmodell abgeleitet werden (Hindmarsh, Kingston und Loynes 1999). Unterschiedliche Kennzahlensysteme charakterisieren „unterschiedliche Vorstellungen über die Qualität von Hochschule und die verschiedene Gewichtung ihrer Aufgaben (Bildung, Ausbildung, Forschung etc.)“ (Klostermeier 1994, S. 32). Eine Kennzahl ist ein Indikator für einen in der Regel nicht direkt messbaren Sachverhalt (Indikandum). Die Güte 327 Jedes Unternehmen wird nach der Maßgabe der „möglichst hohen Homogenität der Unternehmen innerhalb eines Cluster und möglichst großer Heterogenität zwischen zwei beliebigen Cluster“ jeweils einem von zehn Cluster zugeordnet.
176
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
der Indikatoren-Indikandums-Beziehung ist maßgeblich dafür, ob ein Kennzahlensystem eine geeignete Operationalisierung eines Zielsystems darstellt.328 Ein Kennzahlensystem muss vollständig, problemadäquat und operational sein. Die Kennzahlen müssen einen Informationsgehalt besitzen, gegenseitig präferenzunabhängig sein, ein minimales Kennzahlensystem bilden und ihr Erhebungsaufwand muss in einem effizienten Kosten-Nutzen-Verhältnis stehen (siehe Tabelle 3 in Abschnitt C.III.5, S. 93). Die Operationalität der Kennzahlwerte erfordert, dass sie nach einer einheitlichen Methode berechnet und um systematische Verzerrungen bereinigt werden. Z. B. messen Einstiegsgehälter von Hochschulabsolventen kumulativ u. a. regionale, branchen-, berufs- und studierendenspezifische Qualitäten und sind ohne Standardisierung bzw. Bereinigung durch regionale, branchen- und berufsspezifische Indizes und durch die Qualität der Studienanfänger zum Zeitpunkt des Studienbeginns nicht vergleichbar und nicht zur Messung der Qualität einer Hochschulausbildung geeignet (Tracy und Waldfogel 1997, S. 17–18). Welsch und Ehrenheim (1999) bereinigen die Anzahl der Promotionen und der Habilitationen bei einem Produktivitätsvergleich volkswirtschaftlicher Fachbereiche in Deutschland um die Größe und das Alter des Fachbereichs (Anzahl Professuren Betriebsjahre). In der Literatur wurden bisher zahlreiche Kennzahlen zur Messung von Forschungsleistung vorgeschlagen. Dabei handelt es sich um Publikationsmaße,329 Zitationsmaße,330 Preise und Ehrungen, Stipendien und eine Vielzahl weiterer Kennzahlen wie Berufungsbilanzen und Drittmittel (siehe z. B. Giese (1986, S. 63–64)). Bislang wurden gegen jede Kennzahl methodische Mängel geltend gemacht. Die Existenz von „Zitierkartellen“ schränkt z. B. die Aussagefähigkeit von Zitationsmaßen ein sowie außeruniversitäre Faktoren bei Berufungsverhandlungen die Aussagefähigkeit von Berufungs328 In Turner und Wiswede (1986) werden Beispiele für subjektive Kriterien und objektive Kennzahlen zur Bewertung der Forschung, der Lehre und des Praxisbezugs gegeben. Einen Überblick und eine kritische Diskussion über alternative Wissenschaftsindikatoren gibt Hornbostel (1997, S. 180–320). 329 Outputmessung. Siehe z. B. Spiegel-Rösing, Fauser und Baitsch (1975), die in Giese (1986, S. 61) angegebene Literatur und Bommer und Ursprung (1998) 330 Wirkungsmessung bzw. Relevanz und Qualität der Publikationen. Siehe z. B. Spiegel-Rösing, Fauser und Baitsch (1975) und die in Giese (1986, S. 61) angegebene Literatur. Die Reputation eines Forschers kann z. B. durch den Science Impact Index (SII) (Lehrl, Kinzel und Fischer 1986, Klingemann 1986) gemessen werden, für den erste empirische Validitätsstudien z. B. durch Weidenhammer (1986) durchgeführt wurden. Für eine Kritik siehe Welch und Hibbing (1983) und Honolka (1986, S. 192). Siehe auch Giese (1988), Gellert (1988), Stock (1985) und Altenmueller (1985).
I. Validitäts- und Reliabilitätsforderungen
177
bilanzen. Als Reaktion auf diese Kritik wurden umfangreiche Indikatorenkataloge erstellt, die aus einer Vielzahl möglicher Kennzahlen bestanden, statt Kennzahlen aus einem Zielsystem einer Ranking-Zielgruppe bei gegebenen Ranking-Objekten und Wirkungsmodell abzuleiten. Empirische Überprüfungen von Indikatoren-Indikandums-Beziehungen z. B. durch Kausalmodelle der Qualität der Lehre aus Studierendensicht wie bei TEACH-Q (Hansen, Henning-Thurau und Wochnowski 1997) und lineare Strukturgleichungsmodelle wie bei Hornbostel (2001) sind erforderlich; bilden aber die Ausnahme. Oft wird zur Begründung eines Kennzahlensystems auf allgemein akzeptierte Qualitätsmaßstäbe, die sich im Laufe der Zeit oder durch eine Vielzahl von Expertengesprächen „herauskristallisiert“ haben, verwiesen. Die Annahme, dass eine geringe Anzahl von Studierenden je Hochschullehrer studienzeitverkürzend wirkt, konnte z. B. durch Korrelationsanlaysen bisher nicht bestätigt werden (Bathelt und Giese 1995). 7. Kennzahlinterpretation Jede Kennzahl eines Kennzahlensystems muss bezüglich des RankingZiels der Ranking-Zielgruppe bei gegebenem Wirkungsmodell der RankingObjekte aussagekräftig und einheitlich interpretierbar sein. Eine Kennzahlinterpretation ist also abhängig von dem Ranking-Ziel, der Ranking-Zielgruppe, der Ranking-Objektmenge und dem Wirkungsmodell. Diese definieren den entscheidungsrelevanten Kontext, in dem eine Kennzahl interpretiert werden muss. Eine Kennzahlinterpretation muss präferenzbasiert ermittelt werden und zusätzlich zur Ordnung zwischen zwei Kennzahlwerten auch die Stärke der Präferenz bzw. eine Ordnung zwischen den Differenzen zweier Kennzahlwerte repräsentieren. Durch eine Kennzahlinterpretation werden Kennzahlen, die auf verschiedenen Skalen in unterschiedlichen Maßeinheiten und mit verschiedenen Monotonieeigenschaften gemessen werden, durch Zusatzinformationen und Anspruchniveaus bezüglich der Kennzahlwerte, in Verhältnisskalen mit gleichen Monotonieeigenschaften abgebildet. Normierte Verhältnisskalen sind eine notwendige Voraussetzung für die kardinale Vergleichbarkeit von Kennzahlen. Kennzahlinterpretationen müssen von Skalentransformationen unterschieden werden. Bei einer Kennzahlinterpretation werden Kennzahlwerte durch zusätzliche Informationen über deren relative Vorzugswürdigkeit bzw. über die Höhenpräferenzen einer Ranking-Zielgruppe auf eine Zielerreichungsskala abgebildet. Eine Skalentransformation ist unabhängig von dem Kontext der Kennzahl. Sie normiert unterschiedliche Skalen, meist þ nur in Abhängigkeit von dem Intervall der Kennzahlwerte ½x i ; xi Å, auf eine einheitliche Skala.
178
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
8. Repräsentation der Kennzahlenartenpräferenz durch ein Ranking Nach der Interpretation der Kennzahlenwerte liegt für jedes Ranking-Objekt ein Vektor von Einzelinformationen vor, der noch geeignet durch ein Ranking zu einer Rangfolge der Ranking-Objekte verdichtet werden muss. Grundsätzlich gibt es sehr viele Möglichkeiten, dies zu tun, und für den Fall, dass kein Kennzahlenvektor einen anderen strikt dominiert, kann jede beliebige Rangfolge durch eine geeignete Wahl eines Ranking erzeugt werden. Der Ausweg aus der Beliebigkeit ist zugleich die zwingende Forderung, die an ein Hochschul-Ranking zu stellen ist, das einer Ranking-Zielgruppe entscheidungsunterstützende Informationen liefern soll: Das Ranking muss die Kennzahlenartenpräferenz der Ranking-Zielgruppe repräsentieren bzw. kompatibel mit den Kennzahlenartenpräferenz sein. Eine notwendige Voraussetzung für die Existenz eines Ranking ist die gemeinsame Differenzunabhängigkeit der Kennzahlinterpretationen. Aus ihr folgt das multi-lineare Ranking (Definition 21, S. 118) als allgemeinste Darstellungsform. Sie ist gleichzeitig die notwendige Voraussetzung für eine Validität eines Ranking als Gegenstand eines verteilten, multi-kriteriellen Entscheidungsprozesses. Werden zusätzliche Unabhängigkeitsbedingungen wie die multiplikative oder die additive Differenzunabhängigkeit erfüllt, folgen als Spezialfälle des multi-linearen Ranking ein multiplikatives (Definition 23) oder ein additives Ranking (Definition 25, S. 122). Bei der empirischen Ermittlung der Artenpräferenz können die in jüngster Zeit entwickelten software-gestützten Verfahren, wie z. B. von Nitzsch (1994), helfen, Anwendungsbarrieren zu überwinden. 9. Datenerhebung Nach der Bestimmung des Kennzahlensystems, der Kennzahlinterpretationen und der Kennzahlenartenpräferenz einer Ranking-Zielgruppe bei gegebenem Ranking-Ziel, Ranking-Objekten, Wirkungsmodell und Ranking sind noch abschließend geeignete Informationsquellen für die Erhebung der Kennzahlenwerte festzulegen.331 Die Daten der amtlichen Hochschulstatistik gelten bisher als zu ungenau. In BMBW (1990) werden sie daraufhin untersucht, in wie weit sie zur Entwicklung aussagekräftiger Leistungsindikatoren geeignet sind. „Dabei wurde untersucht, was die Daten aussagen, inwieweit sie für Vergleichszwecke ausreichend differenziert sind und wie die Qualität der Daten zu beurteilen bzw. durch veränderte Definitionen 331 „Regardless of how sophisticated a person is at decision-making, his results will be no better than his information“ (Hammond 1965, S. 655).
II. Informationsgehalt deutscher und US-amerikanischer Hochschul-Rankings 179
und Erhebungsverfahren zu verbessern wären. Die Autoren gelangen zu 14 Kennzahlen für den Input, die Bedingungen der Lehre, den Output der Lehre sowie den Output an wissenschaftlichen Nachwuchs“ (Klostermeier 1994, S. 29). Die Verfügbarkeit valider und zuverlässiger Datenquellen kann ein Problem bei der Anwendung des ganzheitlichen Ranking-Verfahrens auf Hochschul-Ranking darstellen. So kann z. B. der Fall eintreten, dass für ein, aus einem Ranking-Ziel einer Ranking-Zielgruppe und einem Wirkungsmodell der Ranking-Objekte, abgeleitetes Ziel- und Kennzahlensystem keine quantitativen Daten erhoben werden können. In diesem Fall werden quantitative Daten oft durch Meinungsumfragen ersetzt. Die hierbei auftretenden Probleme werden in Abschnitt F.II. (S. 193–197) behandelt.
II. Analyse des entscheidungsunterstützenden Informationsgehaltes deutscher und US-amerikanischer Hochschul-Rankings In diesem Abschnitt wird das ganzheitliche Ranking-Verfahren aus Kapitel C.III. auf eine Analyse der Validität und der Reliabilität der HochschulRankings Manager Magazin (1990, ’92, ’94, ’95, ’96, ’97, ’98, ’99), Forbes (1991), Focus (1991, ’97), Der Spiegel (1989, ’93, ’98), Der Stern (1993, ’99), Stiftung Warentest in Kooperation mit dem CHE (1998) und stern, start und CHE (1999, 2000) angewendet, um dadurch den entscheidungsunterstützenden Informationsgehalt der Rangfolgen für die Anspruchsgruppe Studierende zu beurteilen. Die aufgeführten Hochschul-Rankings unterscheiden sich methodisch in den Ranking-Zielen, den Ranking-Zielgruppen, der Anzahl, der Auswahl und der Gewichtung der Kennzahlen, den Skalen, auf denen die Kennzahlen gemessen werden, der Normierung der Kennzahlen, der Anzahl der Aggregationsstufen und den Aggregationsfunktionen. Für eine ausführliche Darstellung siehe Bayer (1999). 1. Ranking-Ziel In den untersuchten deutschen Hochschul-Rankings variieren die Ranking-Ziele mit dem Ranking-Ersteller und dem Erstellungsdatum. Sie umfassen eine Bewertung der Lehrqualität (Spiegel 1989, Spiegel 1993, Spiegel 1998a), der Ausbildungsqualität (Manager Magazin 1990), der Forschungsleistungen (Manager Magazin 1990, Fischer und Schwarzer 1992a), des Images (Fischer und Schwarzer 1992b), der allgemeinen Leistungen (Fischer, Rieker und Riesch 1994, Rieker und Riesch 1995, Rieker 1996, Sommer 1997, Focus 1997a), der Einstellungswahrscheinlichkeit (Gronwald
180
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
und Wöhrle 1998) oder des Renommees und der Qualität der Ausbildung für wissenschaftliche und praktische Tätigkeit (Stern 1993). Während sich die deutschen Hochschul-Rankings vorwiegend auf die isolierte Bewertung bestimmter Teilbereiche der Qualität akademischer Leistungen beschränken, will US News eine umfassende Bewertung der Qualität akademischer Leistungen amerikanischer Colleges und Universitäten vornehmen.332 Die Studienführer von Stiftung Warentest in Kooperation mit dem CHE (1998) und stern, start und CHE (1999, 2000) wollen den Studienberechtigten eine Orientierungshilfe für die Studienplatzwahl geben (Buhr, Giebisch, Hornbostel und Müller-Böling 2000, Barz, Buhr, Giebisch, Hornbostel und Müller-Böling 1999, Stiftung Warentest 1998). 2. Ranking-Zielgruppe Sowohl bei den deutschen Hochschul-Rankings als auch bei den US News Rankings werden als Ranking-Zielgruppe u. a. die Studierenden bzw. die Studierberechtigten angesprochen. Der Kreis der Ranking-Adressaten ist damit zu groß. So ist kritisch anzumerken, dass die untersuchten Hochschul-Rankings nur für die Teilmenge der Anspruchsgruppe der Studierberechtigte entscheidungsunterstützende Informationen liefern könnte, die die jeweils verwendeten Kennzahlen ihrer Entscheidung zugrunde legen würde. Ein Kennzahlensystem, das für jeden Studierenden bzw. jeden Studiertyp repräsentativ ist, wird es schwerlich geben können. 3. Ranking-Objektmenge In allen untersuchten deutschen Hochschul-Rankings stellen die einzelnen Hochschulfachbereiche die Ranking-Objekte dar. In Focus (1997a), Spiegel (1993) und Spiegel (1989) werden die Fachbereichs-Rankings zu einem Hochschul-Ranking aggregiert. US News erstellt Rankings US-amerikanischer Universitäten und Fachbereiche. Business Week erstellt Rankings internationaler Business Schools die eine AACSB Akkreditierung erhalten haben. Die sehr weit gefasste Ranking-Zielgruppe der Studierenden hat hier zur Folge, dass bei den Hochschul-Rankings Fakultäten und Universitäten lediglich geographisch abgegrenzt werden können (predetermined groups) und Hochschulen, die sich im Rahmen einer Profilbildung auf differenzierte Gruppen von Studierenden (peer groups) spezialisiert haben, unzulässigerweise anhand desselben, einheitlichen Fragenkatalogs bzw. Kennzahlensystems bewertet werden. In Spiegel (1998a) wurde lediglich aus Kosten332 Siehe US News (1998a), US News (1998b), US News (1998c), US News (1998d), US News (1998e), US News (1998f).
II. Informationsgehalt deutscher und US-amerikanischer Hochschul-Rankings 181
gründen eine Vorauswahl der Ranking-Objekte durch eine Professorenbefragung vorgenommen. Verschiedene Leistungsprofile sprechen jedoch unterschiedliche Gruppen von Studienanfängern oder Ranking-Zielgruppen an. 4. Systemtheoretische Analyse der Ranking-Objekte und Abbildung in ein Wirkungsmodell In den untersuchten Hochschul-Rankings wurde kein Hinweis auf ein Wirkungsmodell gefunden. Die fehlende Basis für die Ableitung der Fragen und Kennzahlen kann eine Ursache dafür sein, dass in den deutschen Hochschul-Rankings größtenteils zielfremde Sachverhalte gemessen wurden, wie in Abschnitt E.II.6. ausgeführt wird. 5. Zielsystem Weder bei den deutschen Hochschul-Rankings noch bei den US News Rankings sind Hinweise auf die Ableitung eines Zielsystems einer RankingZielgruppe bei gegebener Ranking-Objektmenge und Wirkungsmodell zu finden. Ein Beispiel für ein, allerdings willkürliches, top down Verfahren ist das Indikatorenmodell für die Studienwahl des CHE-Studienführers (Barz, Buhr, Giebisch, Hornbostel und Müller-Böling 1999). 6. Operationalisierung des Zielsystems durch ein Kennzahlensystem In den untersuchten Hochschul-Rankings wurde nicht nach Ranking-Zielgruppen oder Ranking-Objekten differenziert und kein Zielsystem aus einem Wirkungsmodell abgeleitet. Folglich ist kein Kennzahlensystem begründbar. Um dennoch eine vergleichende Analyse der untersuchten Hochschul-Rankings zu ermöglichen, werden aus dem Wirkungsmodell einer Universität nach Syrbe und Bayer (1997) (siehe Abbildung 4, S. 173) sieben Kennzahlenkategorien abgeleitet (siehe Tabelle 5, S. 182). Die in den untersuchten Hochschul-Rankings verwendeten Fragen und Kennzahlen werden diesen Kennzahlkategorien nachträglich zugeordnet. Die Kennzahlkategorien unterscheiden zwischen Eingangsgrößen, Prozessen und Ausgangsgrößen. Die Kennzahlen der Eingangs- und Ausgangsgrößen werden nach Qualität und Quantität unterschieden (Finanzmittel nach Betrag und Struktur) und die Kennzahlen der Prozesse nach Prozessqualität, Prozessmethoden/-strukturen und Prozessbedingungen. Die Kennzahlen der Prozessmethoden/-strukturen beschreiben Prozessprofile und somit die unterschiedlichen Rahmenbedingungen, unter denen Hochschulen ihre Leis-
182
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings Tabelle 5 Kennzahlkategorien für Hochschul-Rankings Studienanfänger
Qualität Quantität
Finanzmittel
Betrag Struktur
Prozess Forschung
Qualität der Forschung Methoden/Strukturen Forschungsbedingungen
Prozess Lehre
Qualität der Lehre Methoden/Strukturen Studienbedingungen
Prozess Prüfung
Qualität der Prüfung Methoden/Strukturen Prüfungsbedingungen
Absolventen
Qualität Quantität
Wissen
Qualität Quantität
tungen erstellen. Sie ermöglichen die Identifikation „strukturgleicher“ bzw. „strukturähnlicher“ Prozesse, deren Kenntnis z. B. eine der Voraussetzungen für die Durchführung von Benchmarking- und Ranking-Studien ist. Diese Kennzahlen können eventuell unterschiedliche Qualitäten der Ausgangsgrößen erklären, jedoch nicht messen (Bathelt und Giese 1995, S. 139–141). Beispiele für in den Rankings untersuchte Kennzahlen zu Methoden/Strukturen des Prüfungsprozesses sind die Teilnahme am European Credit Transfer System (ECTS), Teilprüfungen versus Blockexamina und Doppeldiplome. Beispiele für untersuchte Kennzahlen zu Methoden/Strukturen des Lehrprozesses sind der Umfang des Lehrangebots, der Praxis- oder Theoriebezug der Vorlesungen sowie die Betonung von Vorlesung versus problemorientierter Gruppenarbeit.333 Prozessbedingungen können die Qualität von 333 Tracy und Waldfogel (1997) versuchen durch Prozessgrößen wie „faculty research intensity“, „relative faculty salary“, „percentage of class tought by faculty
II. Informationsgehalt deutscher und US-amerikanischer Hochschul-Rankings 183
Prozessen beeinflussen, jedoch nicht messen. Z. B. haben die Studienbedingungen je nach Studiengang sehr unterschiedlichen Einfluss auf die Qualität des Lehrprozesses.334 Eine Kategorisierung der Fragen und Kennzahlen wurde in den ursprünglichen Veröffentlichungen überwiegend nicht vorgenommen. Die Zuordnung der in den untersuchten Hochschul-Rankings verwendeten Fragen und Kennzahlen zu den Kennzahlkategorien für Hochschul-Rankings (Tabelle 5, S. 182) erfolgt nach der (den) in der Publikation angegebenen RankingZielgruppe(n) und ist nicht immer eindeutig. Die Kennzahl „durchschnittliche Studiendauer“ kann z. B. in Abhängigkeit von der Ranking-Zielgruppe den Kategorien Studienbedingungen (Zielgruppe Studienanfänger), Prüfungsbedingungen (Zielgruppe Fakultät) oder Qualität der Absolventen (Zielgruppe Wirtschaft) zugeordnet werden. Die folgende Analyse beschränkt sich deshalb auf die Ranking-Zielgruppe der Studierberechtigten und berücksichtigt die Erläuterung und Interpretation der Kennzahl in der betreffenden Publikation. Sie ist in dem Sinne robust, dass die Aussagen auch für modifizierte Zuordnungen der Kennzahlen zu den Kennzahlkategorien für Hochschul-Rankings gültig bleiben und so das notwendige Maß an Willkür bei der Zuordnung vertretbar scheint. Die Prozentzahlen in Tabelle 6, S. 184, geben an, mit welchem Gewicht eine Kennzahlenkategorie bei den Hochschul-Rankings von Spiegel 1989, 93, 98 in die Ermittlung einer Rangfolge eingeht. Die verwendeten Fragen und Kennzahlen sind größtenteils nicht dazu geeignet, die Hochschulen bezüglich des vorgegebenen Ranking-Ziels zu bewerten. Das Ranking-Ziel von Spiegel (1989) war z. B., die Lehrqualität an deutschen Universitäten zu vergleichen, aber nur 39% der Fragen lassen sich dieser Kategorie zuordnen. 39% der Fragen messen Studienbedingungen, 11% Methoden/Strukturen des Lehrprozesses, 5,5% die Qualität der Absolventen und 5,5% die Qualität des Wissens. Spiegel (1993) wollte die „bisher umfassendste Analyse zur Lehrqualität an deutschen Hochschulen“ liefern, jedoch lassen sich wieder nur 39% der Fragen dieser Kategorie zuordnen (Bathelt und Giese (1995) kamen zu einem ähnlichen Ergebnis). 33% der Fragen messen Studienbedingungen, 17% Methoden/Strukturen des Lehrprozesses und 5,5% die Qualität der Absolventen. Anstelle der Qualität des Wissens wurde eine Frage der Kategorie Methoden/Strukturen des Prüfungsprozesses (5,5%) with Ph.d.s“, „emphasis on case method in teaching“ und „student access to computers“ Unterschiede in der Qualität der Absolventen zu erklären. 334 Sind keine praktischen Übungen bzw. Labortätigkeiten erforderlich, wie z. B. in Betriebswirtschaftslehre und Volkswirtschaftslehre, und sind gute Vorlesungsskripte vorhanden, so weisen die Studienbedingungen einen weitaus geringeren Einfluss auf die Lehrqualität auf als z. B. in den Studiengängen Medizin, Maschinenbau oder Elektrotechnik.
184
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings Tabelle 6 Zuordnung der Kennzahlen in Spiegel 1989, 93, 98 zu den Kennzahlkategorien für Hochschul-Rankings 1989
1993
1998
Qualität der Studienanfänger
–
–
–
Finanzmittel
–
–
–
Prozess Forschung
–
–
–
Prozess Lehre
89%
89%
88%
– Qualität der Lehre
39%
39%
17,5%
– Methoden/Strukturen
11%
17%
17,5%
– Studienbedingungen
39%
33%
53%
Prozess Prüfung
–
5,5%
6%
– Qualität der Prüfung
–
–
–
– Methoden/Strukturen
–
5,5%
6%
– Prüfungsbedingungen
–
–
–
Qualität der Absolventen
5,5%
5,5%
6%
Qualität des Wissens
5,5%
–
–
aufgenommen. In Spiegel (1998a) sollte die Qualität der akademischen Lehre gemessen werden; hier lassen sich nur noch 18% der Fragen dieser Kategorie zuordnen. 53% der Fragen messen Studienbedingungen, 18% Methoden/Strukturen des Lehrprozesses, 6% Methoden/Strukturen des Prüfungsprozesses und 6% die Qualität der Absolventen. Zu einem ähnlichen Ergebnis kommt eine Zuordnung der Kennzahlen und Fragen der Hochschul-Rankings von Manager Magazin, Stern und Focus zu den Kennzahlkategorien für Hochschul-Rankings (siehe Tabelle 7, S. 185). Auch der Studienführer der Stiftung Warentest, der sich zum Ziel setzt, eine Orientierungshilfe für Studienanfänger zu sein, beschränkt sich überwiegend auf Daten zum Lehr- und Prüfungsprozess und vernachlässigt den Forschungsprozess sowie die Ein- und Ausgangsgrößen. US News unterscheidet, entsprechend dem amerikanischen Hochschulsystem, in „undergraduate“ und „graduate“ Ausbildung. Im Bereich der „graduate“ Ausbildung betreffen 65% bis 100% der Fragen und Kennzahlen tat-
II. Informationsgehalt deutscher und US-amerikanischer Hochschul-Rankings 185 Tabelle 7 Zuordnung der Kennzahlen in Spiegel, Manager Magazin, Stern, Focus, US News zu den Kennzahlkategorien für Hochschul-Rankings Spiegel
MM
Stern
Focus
US News
Studienanfänger
–
–
–
–
10–25%
Finanzmittel
–
–
22%
–
0–30%
Prozess Forschung
–
22–34%
–
–
0–33%
Prozess Lehre
89%
29–43%
44%
40–48%
0–15%
Prozess Prüfung
0–6%
–
–
0–4%
–
6%
23–26%
22%
13–25%
15–50%
0–6%
10%
11%
35–38%
20–32%
Absolventen Wissen
sächlich die Qualität der akademischen Ausbildung (siehe Tabelle 8, S. 186), die ausschließlich durch die Bewertung der Qualität der Ein- und Ausgangsgrößen335 bestimmt wird. Nur bei der „undergraduate“ Ausbildung geht die Qualität des Lehrprozesses mit 9% in die Bewertung ein. In der Disziplin „business“ werden z. B. ausschließlich die Qualität der Studienanfänger, der Absolventen und des Wissens bewertet. In den Disziplinen „engineering“ und „education“ gehen Bewertungen der Methoden/Strukturen des Forschungsprozesses und der Forschungsbedingungen ein (32,5% bei „engineering“, 12% bei „education“). Die Studienbedingungen (Prozess Lehre) haben bei der „graduate“ Ausbildung einen, besonders im Vergleich mit deutschen Hochschul-Rankings, äusserst geringen Stellenwert mit 2,5–15%. Lediglich im Bereich der „undergraduate“ Ausbildung wird den Studienbedingungen mit 40% ein hohes Gewicht beigemessen, das immer noch geringer ist als bei der überwiegenden Zahl deutscher Hochschul-Rankings. Sowohl die deutschen als auch die US-amerikanischen Hochschul-Rankings geben vor, die Qualitäten akademischer Leistungen zu messen. Einer der wesentlichen Unterschiede zwischen den deutschen Hochschul-Rankings und den US News Rankings liegt darin, dass die von US News verwendeten Kennzahlen Qualitäten der Ein- und Ausgangsgrößen erfassen und deutsche Hochschul-Rankings vorrangig Studienbedingungen und Me335 „Generell erscheinen Indikatoren, die den Beschäftigungswert der Hochschulausbildung in Abhängigkeit vom Einkommen des Absolventen, seinem sozialen Status und der Länge seiner Sucharbeitslosigkeit bestimmt, vorziehenswürdig“ (Kieser, Frese, Müller-Böling und Thom, 1996).
186
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings Tabelle 8 Zuordnung der Kennzahlen in US News zu den Kennzahlkategorien für Hochschul-Rankings ugrad.
bus.
eng.
law
edu.
med.
Studienanfänger
15%
25%
10%
25%
20%
20%
Qualität
15%
25%
10%
25%
20%
20%
Finanzmittel
7%
–
15%
–
15%
30%
– Betrag
7%
–
15%
–
15%
30%
–
–
–
–
–
–
4%
–
32,5%
–
12%
–
– Struktur Prozess Forschung – Qualität Forschung
–
–
–
–
–
–
– Methoden/Strukturen
4%
–
11,25%
–
5%
–
– Forschungsbedingung
–
–
21,25%
–
7%
–
Prozess Lehre
49%
–
2,5%
15%
6%
10%
– Qualität Lehre
9%
–
–
–
–
–
– Methoden/Strukturen
–
–
–
–
–
–
– Studienbedingungen
40%
–
2,5%
15%
6%
10%
Prozess Prüfung
–
–
–
–
–
–
Absolventen
–
50%
15%
35%
15%
20%
Qualität
–
50%
15%
35%
15%
20%
Wissen
25%
25%
25%
25%
32%
20%
– Qualität
25%
25%
25%
25%
29%
20%
– Quantität
–
–
–
–
3%
–
thoden/Strukturen des Lehrprozesses, die keine Qualitäts- oder Leistungskriterien darstellen, bewerten (siehe Tabelle 7, S. 185).336 Es ist daher auch wenig verwunderlich, dass sich die Sonderauswertungen der Verfasser deutscher Hochschul-Rankings vorrangig auf die Darstellung der Studiensituation beschränken wie Daniel und Hornbostel (1993) und im Ergebnis neu gegründete Fakultäten und Fakultäten mit einer geringen Studierendenzahl 336 Die Annehmlichkeit und Förderlichkeit der Studienbedingungen sind keine Garantie für eine gute Qualität der Lehrleistungen.
II. Informationsgehalt deutscher und US-amerikanischer Hochschul-Rankings 187 Tabelle 9 Zuordnung der Suchfilter in CHE und Business Week zu den Kennzahlkategorien für Hochschul-Rankings
Studienanfänger Finanzmittel Prozess Forschung Prozess Lehre
CHE 1999
CHE 2000
BW 2000
BW 2000 (ext.)
–
3%
50%
50%
14,3%
3%
–
–
–
6%
–
–
85,7%
79%
50%
39%
Prozess Prüfung
–
–
–
–
Absolventen
–
–
–
11%
Wissen
–
9%
–
–
aufgrund ihrer besseren Studienbedingungen auf Rangplätzen vor den renommierten Traditionshochschulen liegen. Für die Studienführer von stern, start und CHE (CHE 1999, 2000) ergibt eine Zuordnung der Kennzahlen, zu denen „individuelle Hitlisten“ durch Suchfilter erzeugt werden können, zu den Kennzahlkategorien für Hochschul-Rankings, dass sich auch die Suchfilter überwiegend auf den Lehrprozess und nicht auf die Ein- und Ausgangsgrößen beziehen, die die Leistungen der Hochschulen direkt umfassen. Sie betreffen, nach abnehmender Häufigkeit sortiert, die Studienbedingungen, die Methoden/Strukturen des Lehrprozesses, die Qualität des Lehrprozesses. Im Unterschied hierzu liegen die Schwerpunkte bei den Suchfiltern von Business Week (BW 2000), nach abnehmender Häufigkeit sortiert, bei der Qualität der Studienanfänger, den Methoden/Strukturen des Lehrprozesses, den Studienbedingungen, der Qualität der Absolventen. Ein Professorentipp und ein Studierendentipp besitzen bei den Studienführern von stern, start und CHE (CHE 1999, 2000) ohne eine Differenzierung nach Ranking-Zielgruppen nur einen geringen entscheidungsunterstützenden Informationsgehalt, und ohne die Klassifizierung der bewerteten Fachbereiche in vergleichbare Ranking-Objektmengen wird hier z. B. die Qualität theoretischer und anwendungsorientierter Forschung durch dieselben Kennzahlen zu schätzen versucht.
188
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
7. Kennzahlinterpretation In allen untersuchten Hochschul-Rankings wurden Kennzahlen lediglich normiert, nicht jedoch explizit interpretiert. Für die Fragen, die durch Umfragen erhoben wurden, kann eine implizite Kennzahlinterpretation unterstellt werden, wenn man annimmt, dass sich die Urteile aus der Interpretation einer Mehrzahl von Einzelinformationen bilden. Diese „internen Kennzahlensysteme“, aus denen die Einzelinformationen gewonnen werden, können individuell sehr verschieden gewesen sein und sind nicht nachvollziehbar. Eine spezielle Form der Kennzahlennormierung stellt das Ranggruppenverfahren dar. Bei dem Spiegel-Ranking 1993 und bei den Studienführern stern, start und CHE (1999, 2000) werden die Hochschulen, die statistisch signifikant besser bewertet werden als andere Hochschulen, lediglich den Ranggruppen Spitzengruppe und Schlussgruppe zugeordnet. Die restlichen Hochschulen bilden die Mittelgruppe. Das Ranggruppenverfahren findet Anwendung bei Umfragen, wenn die erhobenen Beurteilungen größere Standardabweichungen aufweisen und bei Leistungsvergleichen, wenn die Differenzen zu gering erscheinen für die Erstellung einer Rangfolge. Für Aussagen zur „Genauigkeit“ bzw. zur Güte von Ranggruppen schlägt Jensen (2001) vor, anstelle von Ranggruppen Bootstrap-Rangkonfidenzintervalle zu berechnen. Sowohl das Ranggruppenverfahren, als auch das Bootstrap-Verfahren gehen von der Annahme aus, dass aus einer hinreichend großen Zufallsstichprobe an Studierendenurteilen das wahre Urteil durch Mittelwertbildung geschätzt werden kann. Die Heterogenität in den Studierendenurteilen wird durch die Standardabweichung erfasst und als Zufallsstreuung um das wahre Urteil interpretiert. Die Ursache für die Heterogenität der erhobenen Beurteilungen kann aber auch in den systematisch unterschiedlichen Beurteilungsprofilen verschiedener Anspruchsteilgruppen liegen (vgl. Abschnitt E.I.2., S. 162).
8. Repräsentation der Kennzahlenartenpräferenz durch ein Ranking In den untersuchten deutschen und US-amerikanischen Hochschul-Rankings wurde in den Fällen, in denen die Aggregationsfunktion explizit angegeben war, eine lineare Aggregationsfunktion des Typs f Èx1 ; :::; xn ê ã 1 x1 þ ::: þ n xn verwendet. In den anderen Fällen kann die Anwendung einer linearen Aggregationsfunktion vermutet werden. Teilweise erfolgte die Aggregation mehrstufig. Eine notwendige Voraussetzung dafür, dass eine lineare Aggregationsfunktion die Kennzahlenartenpräferenz einer
II. Informationsgehalt deutscher und US-amerikanischer Hochschul-Rankings 189
Ranking-Zielgruppe repräsentiert und/oder eine Aggregation mehrstufig vorgenommen werden darf, ist die gegenseitige Präferenzunabhängigkeit. Den Nachweis für diese restriktive Annahme bleiben alle Hochschul-Rankings schuldig. 9. Datenerhebung Mit Ausnahme des Kriteriums Internationalität (Focus 1997b) wurden alle in deutschen Hochschul-Rankings bewerteten Kriterien durch Umfragen erhoben. Diese Art der Datenerhebung wurde in der Literatur bereits scharf kritisiert (Bathelt und Giese 1995). Die Kritikpunkte im Einzelnen sind: Willkürliche, nicht nachvollziehbare Urteilsbildung bei den Befragten,337 Verletzung der Forderung nach Repräsentativität der befragten Personen,338 Mittelwertbildung über intersubjektiv nicht vergleichbare Skalen,339 Verletzung der Forderung nach Reliabilität durch fehlende Überprüfung der Reproduzierbarkeit der Ergebnisse,340 geringe statistische Signifikanz der Rangunterschiede.341 337
„Der Bielefelder Sozialwissenschaftler und Bildungsforscher Professor Klaus Hurrelmann etwa verweist auf die ‚klaren methodischen Beschränkungen‘ der Befragungen: Sie gründen sich auf Stereotype und vorurteilsbehaftete Einstellungen. Urteile werden auf der Basis subtiler und teilweise willkürlicher Bewertungen abgegeben“ (Himmelrath 1997). Siehe auch Spiegel (1993) und Bathelt und Giese (1995, S. 141). 338 Ein Reputationsvergleich erfordert die Beurteilung der einzelnen Leistungsdimensionen durch eine repräsentative Stichprobe der Zielgruppe oder durch Experten. Die Repräsentativität muss in den Fällen angezweifelt werden, bei denen NichtExperten zu einer Leistungsdimension bzw. einem Kriterium befragt wurden oder die Anzahl der Befragungen statistisch zu gering war (Bathelt und Giese 1995, S. 141–148). Die durchschnittliche Rücklaufquote bei Fragebogenaktionen liegt meist unter 30% (oft unter 10%); die Repräsentativität ist somit schwer zu gewährleisten (Daniel 1997). 339 Siehe Bathelt und Giese (1995, S. 142). Ein Durchschnittswert aus subjektiven Urteilen besitzt nur dann einen empirischen Gehalt, wenn die erhobenen Urteile eine „zentrale Tendenz“ aufweisen (Kromrey 2001b). Die Bildung eines Durchschnittswertes ist außerdem nur dann zulässig, wenn die Beurteilungsskalen aller Befragten intersubjektiv vergleichbar sind, d. h. denselben Nullpunkt und die gleiche Maßeinheit besitzen. 340 Die Reproduzierbarkeit der Rangfolgen wurde z. B. in Stern (1993) durch Stichprobensplits durchgeführt. 341 Die Antworten in den Stichproben der befragten Personen weisen im Vergleich zum Mittelwert regelmässig hohe Standardabweichungen auf, so dass viele Rangunterschiede „zufällig“ sein können.
190
E. Anwendung des Ranking-Verfahrens auf Hochschul-Rankings
Im Unterschied dazu werden bei den US News Rankings alle Kriterien, außer der akademischen Reputation durch quantitative Kennzahlen, die objektiv erhoben werden können, gemessen. Damit treten die bereits diskutierten Probleme der Datenerhebung durch Umfrageforschung bei den US News Rankings in erheblich geringerem Umfang auf. Die Leistungsvergleiche basieren auf objektiv messbaren Größen wie der Anzahl der Zulassungen im Verhältnis zur Anzahl der Bewerber, der Anzahl an Diplomen, der durchschnittlichen Punktzahl der zugelassenen Studierenden im Zulassungstest oder der Anzahl von Vollzeit-Doktoranden im Verhältnis zur Anzahl des wissenschaftlichen Personals und nicht auf Durchschnittswerten aus den subjektiven Einschätzungen einer Vielzahl von Professoren, Studierenden und Personalleitern mit sehr unterschiedlichen, individuellen Informationsständen und Zielsystemen.342
342 Aus diesen Gründen fordern u. a. Bathelt und Giese (1995) auch deutsche Hochschul-Rankings auf der Basis quantitativer Kennzahlen zu erheben.
F. Zusammenfassung, Wertung aktueller Forschungen über Hochschul-Rankings und Ausblick I. Zusammenfassung Die zunehmende Komplexität vieler Entscheidungssituationen führt zu einer vermehrten Nachfrage nach komprimierten, von Dritten erhobenen und aufbereiteten, entscheidungsunterstützenden Informationen wie z. B. Rangfolgen, die Bestandteile verteilter, multi-kriterieller Entscheidungsprozesse unterschiedlicher Zielgruppen werden. Eine Zielgruppe delegiert dabei diejenigen Teile ihres Entscheidungsprozesses, d. h. diejenigen entscheidungsrelevanten Kriterien, für deren Erhebung sie nicht die Informationsbeschaffungskapazität oder für deren Auswertung sie nicht die Informationsverarbeitungskapazität besitzt, an eine Ranking-Agentur. Die Rangfolgen etablierter Ranking-Agenturen wie z. B. Standard & Poor’s und Moody’s Investors Service beeinflussen maßgeblich wesentliche ökonomische Entscheidungen. Fehlerhafte Rangfolgen bzw. eine fehlerhafte Anwendung von Rangfolgen können zu einem großen wirtschaftlichen Schaden führen. Die Validität und die Reliabilität einer Rangfolge und eines Ranking kann nur durch ein ganzheitliches Ranking-Verfahren beurteilt werden. In dieser Arbeit werden die Begriffe Rangfolge, Ranking, verteilter, multi-kriterieller Entscheidungsprozess und ganzheitliches Ranking-Verfahren in Abschnitt B.II. definiert und ein ganzheitliches Ranking-Verfahren vorgestellt. Dieses wird in die Evaluationsforschung (Abschnitt B.II.1.), in die Entscheidungstheorie (Abschnitt B.II.2.) und in die Systematik betriebswirtschaftlicher Kennzahlensysteme (Abschnitt B.II.3) eingeordnet. Die Schwächen bestehender Evaluations-Verfahren werden aufgezeigt; sie vernachlässigen wesentliche entscheidungstheoretische Implikationen. Das ganzheitliche Ranking-Verfahren beschreibt die Verfahrensschritte bei einer präferenzbasierten Ableitung eines Ranking. Ein Ranking wird als ein Spezialfall von Eichhorn (1978) als Index, d. h. als eine spezielle Funktion auf der Objektmenge einer Zielgruppe definiert, deren Funktionswerte zu einer die Präferenzrelationen der Zielgruppe repräsentierenden Rangfolge führt. Es unterteilt die Validitäts- und Reliabilitätsforderungen in Anlehnung an einen verteilten, multi-kriteriellen Entscheidungsprozess nach den Verfahrensschritten: Bestimmung des Ranking-Ziels, der Ranking-Zielgruppe, der Ranking-Objektmenge, des Wirkungsmodells, des Zielsystems, des Kenn-
192
F. Zusammenfassung und Ausblick
zahlensystems, der Kennzahlinterpretation, des Ranking und der Datenerhebung. Durch eine Definition dieser Verfahrensschritte und durch das Aufzeigen von Interdependenzen wird erstmals eine ganzheitliche Bewertung der Validität und Reliabilität eines Ranking erreicht. Das Ranking-Verfahren fordert eine präferenzbasierte Unterscheidung der Ranking-Empfänger nach Ranking-Zielgruppen und der Handlungsalternativen nach Ranking-Objektmengen. Bei der Formulierung eines wirkungsmodellgestützten Zielsystems und bei der Ableitung eines Kennzahlensystems stellt die gegenseitige Präferenzunabhängigkeit der Ziele und Kennzahlen eine zentrale Forderung dar, da sie eine notwendige Voraussetzung für eine Dekomponierung einer Präferenz in Einzelpräferenzen und in eine Aggregationsvorschrift darstellt. Ein multi-lineares, multiplikatives oder lineares Ranking wird durch eine Überprüfung von Differenzunabhängigkeitsbedingungen aus der Nutzenund Präferenztheorie abgeleitet. Es werden die Möglichkeiten und Grenzen von Ranking-Modellen diskutiert und es wird gezeigt, dass bei der Erstellung von Ranking-Modellen eine Vielzahl subjektiver Faktoren einfließen und einfließen müssen, eine logisch konsistente Vorgehensweise die Menge der subjektiven Wahlmöglichkeiten an einigen Stellen jedoch stark einschränken kann und sich aus relativ einfachen Anforderungen zwingende Kalküle zur Bewertung von Handlungsalternativen ableiten lassen. Die bislang in Fachzeitschriften geübte Kritik an Rangfolgen beschränkt sich überwiegend auf die Verfahrensschritte Operationalisierung eines Zielsystems durch ein Kennzahlensystem und Datenerhebung. Sie vernachlässigt die restlichen Verfahrensschritte und die Abhängigkeiten, die zwischen ihnen bestehen. Diese werden durch das ganzheitliche Ranking-Verfahren ergänzt. Einer Anwendung des vorgestellten ganzheitlichen Ranking-Verfahrens in Kapitel E. geht ein historischer Überblick über die Leistungsmessung im Hochschulbereich in den USA, Großbritannien, Frankreich, den Niederlanden und Deutschland in Kapitel D.III. voraus. Durch den historischen Vergleich wird deutlich, warum Hochschul-Evaluationen und HochschulRankings heute populär sind und warum diese Instrumente zur Leistungsmessung und Entscheidungsunterstützung, die eine über hundertjährige Tradition in den USA haben, insbesondere in Deutschland als unseriös, als nicht auf das deutsche Hochschulsystem übertragbar und als nicht wissenschaftlich gelten. Wir zeigen die Probleme bei der Bewertung der Qualität von Hochschulleistungen auf. Unter zahlreichen Instrumenten zur Leistungsmessung werden die Gemeinsamkeiten und die Unterschiede zwischen einer Hochschul-Evaluation und einem Hochschul-Ranking erörtert. Sowohl die Hochschul-Evaluation als auch das Hochschul-Ranking stellen subjektive Qualitätsmaße dar, die sich jedoch in der Transparenz ihrer Subjektivität unterscheiden. Abschließend wird eine aktuelle Entwicklung in den
II. Wertung aktueller Forschungen über Hochschul-Rankings
193
USA geschildert. Dort erweitern Rating-Agenturen wie Standard & Poor’s und Moody’s Investors Service ihr Geschäftsfeld auf die Bewertung von US-amerikanischen Hochschulen. Die Anwendungen des ganzheitlichen Ranking-Verfahrens auf Hochschul-Rankings betreffen Validitäts- und Reliabilitätsforderungen für die Verfahrensschritte Ranking-Ziel, Ranking-Zielgruppe, Ranking-Objektmenge, Wirkungsmodell, Zielsystem, Operationalisierung des Zielsystems durch ein Kennzahlensystem, Kennzahlinterpretation, Repräsentation der Kennzahlenartenpräferenz durch ein Ranking und Datenerhebung. Eine vergleichende, bewertende Analyse bisheriger deutscher HochschulRankings mit dem US News Ranking US-amerikanischer Hochschulen führt zu dem Schluss, dass weder die deutschen Hochschul-Rankings noch das US News Ranking geeignet waren, einer Anspruchsgruppe wie Studierberechtigte verlässliche entscheidungsunterstützende Informationen bei ihrer Hochschulwahl zu liefern. Die Mängel früherer US News Rankings wie die Beurteilung der Universitätsprozesse statt der Ein- und Ausgangsgrößen und die Datenerhebung durch Umfragen statt durch quantitative Kennzahlen haften den deutschen Hochschul-Rankings noch an. Weder die deutschen Hochschul-Rankings noch das US News Ranking berücksichtigen die heterogenen Zielsysteme von Ranking-Zielgruppen wie Studierberechtigte und nehmen keine Differenzierung der Hochschulen nach Ranking-Objektmengen vor. Eine wirkungsmodellgestützte Ableitung eines Kennzahlensystems kann bei den US-amerikanischen Hochschul-Rankings vermutet werden, ist jedoch bei den deutschen Hochschul-Rankings sehr unwahrscheinlich. Kennzahlinterpretation werden weder bei den deutschen, noch bei den US-amerikanischen Hochschul-Rankings angewendet, die Ableitungen der Rankings sind willkürlich.
II. Wertung aktueller Forschungen über Hochschul-Rankings Die Daten für ein Hochschul-Ranking durch Umfrageforschung zu erheben, hat in Deutschland Tradition.343 Obwohl diese Art der Datenerhebung 343 Z. B. Evaluation der Lehre durch Fragebogenerhebung der Urteile von Vorlesungsteilnehmern über die von ihnen besuchten Veranstaltungen, Evaluation der Hochschulen durch Sammeln der Auffassungen von Professoren zum Image von Hochschulen und Fachbereichen und Evaluation der Qualifikation der Absolventen durch Befragung von Personalverantwortlichen in Verwaltung, Wirtschaft und Verbänden über ihre Vorlieben bei der Einstellung akademisch gebildeter Mitarbeiter. „Wenn Evaluation nach dem Modell der Programmforschung nicht möglich ist, liegt es nahe, das Fällen von Urteilen – also die Tätigkeit des Evaluierens – auf dafür geeignet erscheinende Dritte zu verlagern . . . und die Funktion der Forschung auf
194
F. Zusammenfassung und Ausblick
bereits oft kritisiert wurde (siehe Abschnitt E.II.9.), verteidigen die deutschen Ranking-Ersteller die gegenüber der Erhebung quantitativer Daten kostengünstigere Umfrageforschung und verweisen auf die im Vergleich zu den USA mangelnde Verfügbarkeit aussagefähiger Hochschul-Statistiken. „Ausgehend von dem Axiom, dass der positive Effekt bei den Adressaten einer Dienstleistung (outcome) das relevante Kriterium für die Qualität der Dienstleistung ist, werden die Nutzer der Dienstleistung zu Experten erhoben und deren Wahrnehmungen, Meinungen und Bewertungen im Rahmen einer Akzeptanzforschung in standardisierter Form erhoben, ausgewertet und zu Qualitätsindikatoren verdichtet“ (Kromrey 2000b, S. 247). Bei dieser Argumentation wird übersehen, dass der entscheidungsunterstützende Informationsgehalt zwischen einem quantitativen Indikator und subjektiv erhobenen Urteilen sehr verschieden ist. Ein quantitativer Indikator ermöglicht unterschiedlichen Ranking-Zielgruppen durch Kennzahlinterpretationen zu unterschiedlichen subjektiven Urteilen zu kommen. Werden aber bereits subjektive Urteile, d. h. Zielerreichungsgrade, erhoben, müssen für den Fall heterogener Beurteilungsprofile diese ermittelt werden.344 Handelt es sich bei den Urteilen um Qualitäts- oder Akzeptanzurteile, so sind heterogene Beurteilungsprofile eher die Regel als die Ausnahme (Kromrey 2001b), und die Bedeutung der durch standardisierte Fragebögen erhobenen Antworten ist ohne das Beurteilungsprofil nicht mehr rekonstruierbar (Kromrey 2000b).345 Die Urteilsprofile ergeben sich aus den unterschiedlichen Zielsystemen, den unterschiedlichen Operationalisierungen der Zielsysteme durch Kennzahlen und den unterschiedlichen Kennzahlinterpretationen. Um Umfrageergebnisse als valide Informationen zu nutzen, müssen die „Kriteriensysteme der Evaluierenden rekonstruiert werden“ (Kromrey das systematische Einholen und Auswerten solcher „Fremd-Evaluationen“ zu beschränken (Kromrey 2000b, S. 245). 344 Die Urteile von Studierenden über die Lehrqualität an ihrer Hochschule stellen oft nur Akzeptanzaussagen und keine Aussagen über die tatsächliche Lehrqualität dar. „Lehre soll Anregungen, Orientierung und . . . Anstöße zum aktiven Studieren geben. Ihr Ergebnis kann nicht durch ‚Einschaltquoten‘ oder ZufriedenheitsKennziffern gemessen werden.. . . Eine rein formale Definiton der Qualität der Lehre als Qualität ihrer Darbietung geht prinzipiell am Ziel der Lehre vorbei“ (Kromrey 2000b). 345 Dienstleistungsnehmer sind Alltagevaluatoren, die irgend etwas, irgendwie, unter irgendwelchen Gesichtspunkten bewerten. Z. B. bewerten Studierende das, was sie mit der Frage ad hoc assoziieren, aus ihrer aktuellen Erfahrung, mit Blick auf das Wesentliche, aus den unterschiedlichen Gesichtspunkten wie Nutzen für das Studium, vermuteter Nutzen für den angestrebten Beruf, aktuelles persönliches Interesse (Kromrey 2000a, S. 55). Die Fragen müssen z. B. in dem Sinne eindeutig formuliert werden, dass jeder Befragte unter jeder Frage dasselbe versteht (Fehler bei der Informationssammlung) und die Befragten müssen in der Lage sein, die Frage kompetent zu beantworten (Kromrey 2000b).
II. Wertung aktueller Forschungen über Hochschul-Rankings
195
2001a).346 Weitere Erhebungs- und Deutungsprobleme betreffen z. B. einen positiven Bias durch Selbstselektionseffekte bei den Befragten347 und Polarisierungseffekte in den erfassten Urteilen.348 Ein methodologischer Fehler tritt auf, wenn die befragten Personen die Fragen unterschiedlich interpretieren.349 Kromrey (2000b) weist auf Erhebungs- und Auswertungsartefakte hin. Empirische Untersuchungen der Beurteilung der Lehrqualität durch Studierende zeigen, dass sich die Antworten der Studierenden in ihrer Differenziertheit stark unterscheiden. Ein Teil der Studierenden urteilt auf den erhobenen Einzeldimensionen einheitlich, ist z. B. mit der Lehrqualität in allen Einzeldimensionen zufrieden oder unzufrieden, ein anderer Teil der Studierenden urteilt differenzierter, ist z. B. mit der Lehrqualität einiger Einzeldimensionen zufrieden, mit der in anderen unzufrieden, und bildet aus den sich widersprechenen Einzelurteilen einen subjektiven Mittelwert. Die ausschließliche Erhebung von Globalurteilen liefert Erhebungsartefakte, durch die der unzutreffende Eindruck einer einfachen, in sich widerspruchslosen Urteilsstruktur erweckt wird, und durch die wesentliche Informationen verloren gehen. Die Aggregation der beurteilten Einzeldimensionen zu einem Globalurteil liefert Auswertungsartefakte. Die unterschiedlichen Urteilsprofile der Studierenden werden nicht erfasst und bei einfachen Aggregationen wie der Mittelwertbildung wird der unzutreffende Eindruck der Unabhängigkeit der Einzeldimensionen erweckt.350 Eine Bildung von Durchschnitts346
Fragebögen können allerdings als Instrument der Rückmeldung an die Lehrperson, als interne Diskussionsgrundlage über die Studiensituation, als wahrgenommenes Profil eines Curriculums (Struktur und Inhalt des Lehrangebots, realisierte Wahlmöglichkeiten) und der wahrgenommen Qualität einer Lehrveranstaltung sinnvoll sein (Kromrey 2001a). 347 Sehr unzufriedene Kunden wechseln zu einer Alternative. Ihre Urteile werden bei einer Befragung unter den derzeitigen Kunden nicht erfasst. Das hat z. B. für den Bereich der akademischen Lehre die Folge das Pflichtveranstaltungen ohne Wahlmöglichkeiten zwischen Alternativangeboten bei Vorlesungsbefragungen durch Studierende systematisch schlechter beurteilt werden. 348 Die Kunden die ein sehr positives oder ein sehr negatives Urteil fällen, weisen bei Befragungen ein aktiveres Beteiligungsverhalten auf als „durchschnittlich zufriedene“ Kunden. Letztere werden bei Befragungen systematisch unterrepräsentiert. 349 „Groves (1989) discusses the various sources of error that can enter into a study when surveys are used. For example errors associated with the sample frame, missing data, and measurement errors (e.g., bias in the survey question, order of questions, mode of collecting the data, interviewer or respondent characteristics). Typically, reliability is strengthened by pretesting questions so that it is clear that the questions are being interpreted in the same way. It is also important to ensure the construct validity of the survey questions“ (Caracelli 2000, S. 177–78). 350 „Ein . . . wichtiges Ergebnis der von Kromrey (1992) und Treinen (1993) durchgeführten Studien war die Inhomogenität der studentischen Urteile einer Vor-
196
F. Zusammenfassung und Ausblick
werten wäre nur dann zulässig, wenn die Beurteilungsskalen aller Befragten intersubjektiv vergleichbar wären, d. h. denselben Nullpunkt und die gleiche Maßeinheit besitzen würden. Den Bewertungen der Studierenden liegen keine intersubjektiven Vergleichsstandards zugrunde, und sie unterscheiden sich in ihren Sozialisationserfahrungen, ihren Vorkenntnissen, ihren Interessen, ihren Lernstilen, ihren Präferenzen für die Lehrperson und ihrer Einschätzung der Brauchbarkeit des Studiums. Eine Professorenbefragung, basierend auf dem Ruf einer Universität, ergab in Spiegel (1993) nahezu eine Rangumkehr zur Befragung der Studierenden, basierend auf den Studienbedingungen und in Fischer, Rieker und Riesch (1994) ergab eine Aufspaltung der befragten Manager in die zwei Gruppen Topmanagement und Berufseinsteiger zwei extrem unterschiedliche Rankings. Aktuelle Forschungsarbeiten von z. B. Moosbrugger und Hartig (2001), Spiel (2001) und Engel und Krekeler (2001) erheben unterschiedliche Studierstile und unterschiedliche persönliche Studienbedingungen als bias-Variablen. Die unterschiedlichen Studierstile und unterschiedlichen persönlichen Studienbedingungen werden in diesen Arbeiten nicht zur Unterscheidung von Ranking-Zielgruppen verwendet, sondern zur „statistischen Kontrolle“ (Moosbrugger und Hartig 2001, S. 57), zur Korrektur der Mittelwerte der Antworten unterschiedlicher Ranking-Zielgruppen um Kovariate,351 die als „statistisch adjustierte Qualitätsurteile“ (Engel und Krekeler 2001, S. 125) ein Hochschul-Ranking ermöglichen sollen. Aus der Beobachtung, dass „die Variation in den studentischen Qualitätsurteilen bedeutend mehr Binnenvarianz als die Varianz zwischen den Fächern darstellt“ (Engel und Krekeler 2001, S. 173), wird folgerichtig auf eine geringe statistische Signifikanz der Rangunterschiede eines Hochschul-Ranking auf der Basis von Studierendenbefragungen geschlossen. Die Frage, ob die Signifikanz der Rangunterschiede durch eine Differenzierung der Studierenden nach Ranking-Zielgruppen mit unterschiedlichen Studierstilen und unterschiedlichen persönlichen Studienbedingungen sowie durch eine Differenzierung der Hochschulen nach Ranking-Objekten verbessert werden kann, bleibt offen. Ein Versuch, ein nach unterschiedlichen Studierstilen differenziertes Hochschul-Ranking zu erstellen, wurde von Stern, Start und CHE (2001) unternommen. Dort werden die Studierendentypen „Der Zielstrebige“, „Der lesung. Sie fanden durch Anwendung der Clusteranalyse heraus, dass sich der Zuhörerkreis einer Vorlesung in Teilnehmergruppen gliederte, deren ‚Bewertungsprofile‘ intern sehr homogen ausfielen, sich von denen anderer Gruppen aber unterschieden“ (Bathelt und Giese 1995). Zu einem ähnlichen Ergebnis kamen Tarnai, Grimm, John und Waterman (1993) durch eine latente Klassenanalyse der in Spiegel (1989) verwendeten Rohdaten im Fach Psychologie. 351 Z. B. durch Kovarianzanalysen.
III. Ausblick
197
Forscher“ und „Der Pragmatiker“ unterschieden. Jeder dieser Studierendentypen wird durch ein unterschiedliches Kennzahlensystem repräsentiert. Die Kennzahlen werden quantitativ und durch Meinungsumfragen erhoben. Da aber nicht bereits bei der Meinungsumfrage nach den Studierendentypen unterschieden wird, stellt z. B. das „Gesamturteil Studierende“, das eine von vier Kennzahlen des Kennzahlensystems des „Zielstrebigen“ ist, einen „statistisch korrigierten“ Mittelwert der Meinungen aller Studierendentypen dar, dessen Validität angezweifelt werden muss.
III. Ausblick 1. Induzierte Verhaltensänderungen durch Hochschul-Rankings Ein neues Informationsangebot in Form von Hochschul-Rankings kann zu einem neuen Entscheidungsverhalten von Anspruchsgruppen wie Studierenden, Hochschul-Politikern und Unternehmen führen. Z. B. Klostermeier (1994, S. 18) bemerkt, dass seit der ersten vergleichenden Veröffentlichung der durchschnittlichen Fachstudiendauern an Universitäten (Wissenschaftsrat 1989a) über die Hälfte mehr Studierende als 1989 angeben, die Möglichkeit ihr Studium schnell abschließen zu können sei ein wichtiges Entscheidungskriterium. Auf die Frage „Aus welchen Gründen studieren Sie an Ihrer jetzigen Hochschule?“ antworten 15 Prozent der von HIS an den Universitäten befragten Studienanfänger des Wintersemesters 1998/99, dass der Grund „Hochschule erhielt für mein Studienfach gute Bewertung in einer Hochschulrangliste/Ranking“ wichtig gewesen sei. 28 Prozent gaben als wichtigen Grund für Ihre Hochschulwahl „guter Ruf von Hochschule und Professoren“ an (Lewin, Heublein, Schreiber und Sommer 1999). „Die Ergebnisse einer Wirkungsstudie zur SPIEGEL-Rangliste 1999 zeigen, dass in allen ZVS-Studiengängen ein enger Zusammenhang besteht zwischen der Platzierung einer Universität nach dem Urteil der Studierenden und der Zuund Abnahme der Bewerberzahlen“ (Daniel 2001). Hochschul-Rankings können auch nicht beabsichtigte Verhaltensänderungen bewirken.352 Werden Rangfolgen z. B. mit der Verteilung von Haushaltsmitteln an Hochschulen verknüpft, besteht die Gefahr einer Konzentration auf eine Verbesserung der Kennzahlenwerte statt einer Verbesserung der Hochschulleistungen. Alewell (1986, S. 44) berichtet, dass eine ge352 Beispielsweise wurde in Bayern im Studiengang Jura 1990 eine „FreischussRegelung“ eingeführt, mit dem Ziel einer Verkürzung der Studienzeiten. Das Studienverhalten änderte sich dahingehend, das weniger Studierende die Vorlesungen besuchten und mehr Studierende private Repetorien besuchen, in denen ausschließlich prüfungsrelevanter Lehrstoff effizient vermittelt wird.
198
F. Zusammenfassung und Ausblick
plante Verwendung von Publikationsindizes als Leistungsmaßstäbe zu einer Flut stark redundanter Literatur führte, ohne dass ein echter Leistungsanreiz oder gar ein Maßstab für angemessene Besoldung entwickelt werden konnte. „Indikatorensysteme – das ist aus den Erfahrungen der Sozialindikator-Bewegung bekannt – funktionieren nur so lange, wie sie lediglich zu Deskriptions- und Erklärungszwecken (allenfalls noch als prognostisches Frühwarnsystem) genutzt werden, so lange an die Indikatorenwerte keine Sanktionen für diejenigen geknüpft werden, die die Ausprägungen durch ihr Handeln beeinflussen können“ (Kromrey 2000b, S. 239). Durch einen schärferen Wettbewerb können sich auch die Kommunikations- und Publikationsgewohnheiten von Wissenschaftlern verändern und z. B. institutsübergreifende Kooperationen erschwert werden.353 Die Bedeutung von Hochschul-Rankings als Bestandteile verteilter, multi-kriterieller Entscheidungsprozesse und eines ganzheitlichen RankingVerfahrens zur Beurteilung der Validität und Reliabilität von Rangfolgen kann in Zukunft bedeutend zunehmen. 2. Verbesserungsvorschläge für Hochschul-Rankings Aus den festgestellten methodischen Mängeln deutscher und US-amerikanischer Hochschul-Rankings und der Anwendung des ganzheitlichen Ranking-Verfahrens ergeben sich die folgenden Vorschläge, den entscheidungsunterstützenden Informationsgehalt künftiger Hochschul-Rankings und Studienführer zu erhöhen: Die Ziel- und Zielgruppenabhängigkeit eines Hochschul-Ranking macht zunächst ein besseres Verständnis der Ranking-Zielgruppen wie die der Studierberechtigten und der Personalleiter, insbesondere ihrer unterschiedlichen Präferenzen erforderlich. Hochschulen, die sich durch unterschiedliche Profilbildung auf verschiedene Ranking-Zielgruppen spezialisiert haben, dürfen nur in Abhängigkeit von der relevanten Ranking-Zielgruppe bewertet werden. Strukturgleiche oder -ähnliche Profile sind eine Basis für die Bestimmung von Ranking-Objektmengen. Die Bewertung muss wichtige Systemzusammenhänge, Abhängigkeiten und Rückkopplungsschleifen berücksichtigen und zwischen Eingangs-, Ausgangs- und Prozessgrößen trennen. Ein Kennzahlensystem muss eine geeignete Operationalisierung des Ranking-Ziels darstellen, d. h. es muss alle für die Ranking-Zielgruppe entscheidungsrelevanten Kriterien messen. 353
Siehe auch Kieser (1998) und Backes-Gellner und Sadowski (1986).
III. Ausblick
199
Kennzahlen müssen unter Berücksichtigung von Sollwerten interpretiert werden. Die anschließend erforderliche Informationsverdichtung muss die Kennzahlenartenpräferenz der Ranking-Zielgruppe repräsentieren. Die Umsetzung einiger dieser Vorschläge erfordert umfangreiche statistische Erhebungen und Auswertungen. Durch den Einsatz neuer Publikationsmedien wie des Internet können diese jedoch in einem ersten Schritt „pragmatisch“ realisiert werden. Z. B. ist die Erstellung individueller Hochschul-Rankings mit einem Printmedium nicht möglich. Werden entscheidungsrelevante Daten jedoch auf einer CD-ROM oder im Internet potentiellen Nutzern (individuellen Ranking-Zielgruppen) zur Verfügung gestellt, so können diese individuelle Ranking-Objektmengen bilden, unter den Daten die für sie entscheidungsrelevanten auswählen, interpretieren und nach ihren individuellen Beurteilungsprofilen zu individuellen Hochschul-Rankings aggregieren. Einige Ranking-Ersteller haben dies bereits erkannt und beginnen mit der Umsetzung. Die Studienführer von stern, start und CHE (1999, 2000), das US News 2001 College Ranking und das Ranking von Business Week (2000) ermöglichen individuellen Ranking-Zielgruppen, individuelle Ranking-Objektmengen durch die Festlegung von Suchfiltern zu bilden. Business Week bietet online z. B. die zwei Suchfilter „Search by Statistics“ und „advanced MBA search“. Beim Suchfilter des Studienführers von stern, start und CHE (1999) können sieben Einzelfilter miteinander kombiniert werden; der Studienführer von stern, start und CHE (2000) ermöglicht die kombinierte Suche nach fünf Filtern, die bereits aus einer Menge von ca. 30 Einzelfiltern ausgewählt werden können. Die Suchkriterien und deren geforderte Werte bzw. Wertintervalle können in einem iterativen Prozess so angepasst werden, dass die resultierende Ranking-Objektmenge nur aus einer geringen Anzahl an Hochschulen besteht. In den beiden Extremfällen einer leeren und einer einelementigen Ranking-Objektmenge erübrigt sich ein Ranking. Für den Fall einer mehrelementigen Ranking-Objektmenge können PCgestützte, entscheidungsunterstützende Verfahren angewendet werden für die Festlegung individueller Zielsysteme, Kennzahlensysteme, Kennzahlinterpretationen und von Rankings, die individuelle Kennzahlenartenpräferenzen repräsentieren. Landeck (1994) entwickelte z. B. ein PC-Programm, das durch einfache Benutzerführung eine individuelle Zuordnung eines Studierenden zu einem von vier durch eine Cluster-Analyse bestimmten Lerntypen ermöglicht. Eine entsprechende Übertragung auf Klassen von Ranking-Zielgruppen z. B. innerhalb der Anspruchsgruppe der Studierberechtigten erscheint möglich. Hier kann die zielgruppenspezifische Strukturierung
200
F. Zusammenfassung und Ausblick
der Entscheidungssituation durch die Vorgabe zielgruppenspezifischer Zielsysteme, die Beschaffung aller entscheidungsnotwendigen Informationen durch zielgruppenspezifische Kennzahlensysteme, die zielgruppenspezifische Auswertung der Informationen durch zielgruppenspezifische Kennzahlinterpretationen und die konsistente Verdichtung der Informationen zu einem Gesamturteil durch zielgruppenspezifische Rankings vorgegeben werden oder z. B. durch PC-gestützte Verfahren der multi-attributiven Entscheidungstheorie individuell bestimmt werden (von Nitzsch 1992). Eine moderne elektronische Form einer (privaten) Ranking-Agentur stellen sogenannte Internet-Agenten dar. Eine manuell nicht zu bewältigende Informations- und Alternativenmenge wird durch Vorgabe eines Zielsystems und einer Präferenzstruktur über einem Zielsystem automatisch verarbeitet und eine Rangreihung der Alternativen für eine Zielgruppe vorgenommen.
Literaturverzeichnis Aczel, J. (1966): Functional Equations and their Applications, Band 19 aus der Serie Mathematics in Science and Engineering. Academic Press, New York. Alewell, K. (1986): „Beurteilung der Leistungen von Hochschulen,“ in Daniel und Fisch (1988), 41–58. Allison, P. D. (1980): Processes of stratification in science. Arno Press, New York. Altenmüller, G. H. (1985): „Wie ist Leistung zu messen?,“ Deutsche Universitätszeitung, (5), 15–16. A. M. Best Company (2000a): „About our Ratings,“ A. M. Best Company, Download im Internet, URL: hhttp://www.ambest.com/ratings/ambover.pdfi (Stand September 2000; Abfrage 10.5.2000; MEZ: 22:56 Uhr). – (2000b): „About the Founder of A. M. Best,“ A. M. Best Company, Online im Internet, URL: hhttp://www.ambest.com/about/bio.htmli (Stand 2000; Abfrage 10.5.2000; MEZ: 22:41 Uhr). – (2000c): „Best’s Ratings,“ A. M. Best Company, Online im Internet, URL: hhttp://www.ambest.com/ratings/index.htmli (Stand 2000; Abfrage 10.5.2000; MEZ: 22:51 Uhr). Ambrose, J. M./Carroll, A. M. (1994): „Using Best’s Ratings in Life Insurer Insolvency Prediction,“ Journal of Risk and Insurance, 61(2), 317–327. Ambrose, J. M./Seward, J. A. (1988): „Best’s Ratings, Financial Ratios and Prior Probabilities in Insolvency Prediction,“ The Journal of Risk and Insurance, 55. Ang, J. S./Patel, K. A. (1975): „Bond Rating Methods: Comparison and Validation,“ The Journal of Finance, XXX(2), 631–640. Arvidsson, G. (1986): „Performance Evaluation,“ in Guidance, Control, and Evaluation in the Public Sector, herausgegeben von F.-X. Kaufmann, G. Majone, V. Ostrum und W. Wirth, 625–643. De Gruyter, Berlin. Backes-Gellner, U./Sadowski, D. (1986): „Validität und Verhaltenswirksamkeit aggregierter Maße für Forschungsleistungen,“ in Daniel und Fisch (1988), 259– 290. Backhaus, K./Erichson, B./Plinke, W./Weiber, R. (1994): Multivariate Analysemethoden. Springer-Verlag, Berlin/Heidelberg/New York, siebte, vollständig überarbeitete und erweiterte Auflage. Baetge, J. (1994): „Rating von Unternehmen anhand von Bilanzen,“ Die Wirtschaftsprüfung, 1, 1–10.
202
Literaturverzeichnis
Bamberg, G./Coenenberg, A. G. (1994): Betriebswirtschaftliche Entscheidungstheorie, WiSo-Kurzlehrbücher: Reihe Betriebswirtschaft. Verlag Franz Vahlen, München, achte, überarbeitete Auflage. Bangel, B./Brinkmann, C./Deeke, A. (2000): „Arbeitsmarktpolitik,“ in Stockmann (2000c), 309–341. Bankhofer, U./Hilbert, A. (1995): „Eine empirische Untersuchung zum Berufseinstieg von Wirtschafts- und Sozialwissenschaftlern,“ Zeitschrift für Betriebswirtschaft, 65(12), 1423–1441. Banta, T. W. (1992): „Aktuelle Verfahren der Effektivitätsbewertung im amerikanischen Hochschulwesen,“ in Evaluation des Lehrens und Lernens – Ansätze, Methoden, Instrumente, herausgegeben von R. Holtkamp und K. Schnitzer, Band 92 aus der Serie Hochschulplanung, 65–92, Hannover. Hochschul-InformationsSystem GmbH. Barz, A./Buhr, P./Giebisch, P./S. Hornbostel/Müller-Böling, D. (1999): „Studienführer 1999: Jura, Informatik, Mathematik, Physik – Vorgehensweise und Indikatoren,“ Arbeitspapier 21, Centrum für Hochschulentwicklung (CHE), Gütersloh. Bathelt, H./Giese, E. (1995): „Hochschulranking als Instrument zur Belebung des Wettbewerbs zwischen Universitäten?,“ Münchner Geographische Hefte, (72), 131–161, Beiträge zur regionalen Bildungsforschung, Verlag Michael Laßleben, Kallmünz/Regensburg. Baum, B. (1987): „Rating-Systeme und ihre Methoden,“ Discussion Paper, Institut für das Spar,- Giro- und Kreditwesen an der Universität Bonn. Baumann, M. (1996): „Anleihe-Ratings: Reisepaß für die Märkte,“ Wirtschaftswoche, 28, 111–113, 4. Juli. Baumbusch, R. (1988): Normativ-deskriptive Kennzahlen-Systeme im Management. R. G. Fischer Verlag, Frankfurt. Bayer, C. R. (1995): „Spieltheoretische Analyse von Wettbewerbsstrategien in der westeuropäischen PKW-Reifenindustrie,“ Diplomarbeit, Universität Karlsruhe (TH), Institut für Wirtschaftstheorie und Operations Research, 76128 Karlsruhe. – (1999): Hochschul-Ranking: Übersicht und Methodenkritik, Beiträge zur Hochschulforschung. Bayerisches Staatsinstitut für Hochschulforschung und Hochschulplanung, Sonderheft 1999, . – (2000): „Anspruch und Wirklichkeit von Hochschul-Ranking: Vorschlag einer allgemeinen Methodik,“ Die Betriebswirtschaft, 60(5), 547–569. – (2001): „Welchen Sinn haben Hochschul-Rankings und eindimensionale Signale im deutschen Hochschulsystem?,“ Die Betriebswirtschaft, 61(2), DBW-Dialog. Bayer, C. R./Krtscha, M. (1999): „Bewertung der Bilanzbonität im Rahmen der Jahresabschlußanalyse: Objektive Bewertungsfunktionen,“ Discussion Paper 565, Institut für Wirtschaftstheorie und Operations Research (WIOR), Universität Karlsruhe (TH). Bell, D. E. (1982): „Regret in decision making under uncertainty,“ Operations Research, 30, 961–981.
Literaturverzeichnis
203
– (1985): „Disappointment in decision making under uncertainty,“ Operations Research, 33, 1–27. Bell, D. E./Raiffa, H./Tversky, A. (1988): „Descriptive, Normative and Prescriptive Interactions in Decision Making,“ in Decision Making, herausgegeben von D. E. Bell, H. Raiffa und A. Tversky, 9–30, Cambridge. Cambridge University Press. Ben-David, J. (1968): Fundamental research and the Universities. Some Comments on Institutional Differences. Paris. Beywl, W. (1999): „Standards für Evaluation,“ DeGEval News, (1), 1–4, Deutsche Gesellschaft für Evaluation e.V., 53347 Alfter. Beywl, W./Widmer, T. (1999): Handbuch der Evaluationsstandards. Leske þ Budrich, Opladen. Blaauboer, B. J./Dam, J. M. (1998): „The Dutch System for Assessment of Research Quality,“ Die Betriebswirtschaft, 58(3), 410–412, DBW-Dialog. Blackorby, C. (1987): „Orderings,“ in The New Palgrave: a dictionary of economics, herausgegeben von J. Eatwell, M. Milgate und P. Newman, 754. MacMillan Press, London. BLK Bp Ff (1992): Zweiter Zwischenbericht über den Stand der Umsetzung der Empfehlungen zur Studienzeitverkürzung, Nr. 28, in Materialien zur Bildungsplanung und Forschungsförderung. Bund-Länder-Kommission für Bildungsplanung und Forschungsförderung, Bonn. BMBW (1990): Leistungstransparenz von Hochschulen. Bundesministerium für Bildung und Wissenschaft, Bonn. Bolsenkötter, H. (1978): „Leistungserfassung in Hochschulen,“ Betriebswirtschaftliche Forschung und Praxis, 30(1), 1–24. Bolsenkötter, W.-P. (1976): Ökonomie der Hochschule. Baden-Baden. Bommer, R./Ursprung, H. W. (1998): „Spieglein, Spieglein an der Wand. Eine publikationsanalytische Erfassung der Forschungsleistungen volkswirtschaftlicher Fachbereiche in Deutschland, Österreich und der Schweiz,“ Zeitschrift für Wirtschaft- und Sozialwissenschaften, 118(1), 1–28. Bonheim, H. (1987): „Die heimlichen Hitlisten,“ Die Zeit, (37). Borcherding, K. (1983): „Entscheidungstheorie und Entscheidungshilfeverfahren für komplexe Entscheidungssituationen,“ in Methoden und Anwendungen in der Marktpsychologie, herausgegeben von M. Irle, Band D III 5, 64–173. Borcherding, K./Eppel, T./von Winterfeldt, D. (1991): „Comparison of Weighting Judgement in Multiattribute Utility Measurement,“ Management Science, 37, 1603–1619. Bortz, J. (1984): Lehrbuch der empirischen Forschung: Für Sozialwissenschaftler. Springer, Berlin. Bossert, W./Stehling, F. (1990): Theorie kollektiver Entscheidungen: Eine Einführung. Springer Verlag, Berlin.
204
Literaturverzeichnis
Botta, V. (1993): Kennzahlensysteme als Führungsinstrumente: Planung, Steuerung und Kontrolle der Rentabilität im Unternehmen, Band 49 aus der Serie Grundlagen und Praxis der Betriebswirtschaft. Erich Schmidt Verlag, Berlin, vierte, völlig neubearbeitete und erweiterte Auflage. Zugleich: Göttingen, Habilitationsschrift 1993. Bradburn, N. M. (1987): „Das Ranking-Verfahren in den USA und seine Auswirkungen auf die Leistungsfähigkeit der Hochschulen,“ Vortrag zum 7. Bildungspolitischen Forum des Bundes Freiheit der Wissenschaft e.V., The University of Chicago. Brandstädter, J. (1990): „Evaluationsforschung: Probleme der wissenschaftlichen Bewertung von Interventions- und Reformprojekten,“ Zeitschrift für Pädagogische Psychologie, 4(4), 215–228. Brinck, C. (1992): „Wettkampf, Ruhm und Wohlbehagen. Einmal im Jahr lassen sich in den USA die Universitäten und Colleges zensieren,“ Süddeutsche Zeitung, 21./22.11.1992. Brinkman, P. T./Teeter, D. J. (1987): „Peer Institutional Studies/Institutional Comparisons,“ in A Primer on Institutional Research, herausgegeben von J. A. Muffo und G. E. McLaughlin. Tallahassee. Brown, R. V. (1989): „Toward a Prescriptive Science and Technology of Decision Aiding,“ Annals of Operations Research, 19, 467–483. Buchholz, A. (1996): „Viel Lärm um Moodys,“ Süddeutsche Zeitung, 27, Samstag/ Sonntag, 27./28. Juli. Buhr, P./Giebisch, P./Hornbostel, S./Müller-Böling, D. (2000): „Studienführer 2000: Architektur, Bauingenieurwesen, Elektrotechnik, Maschinenbau, Verfahrenstechnik, Physikalische Technik, Vermessungswesen, Wirtschaftsingenieurwesen – Vorgehensweise und Indikatoren,“ Arbeitspapier 22, Centrum für Hochschulentwicklung (CHE), Gütersloh. Bundesministerium für Bildung und Forschung (1998): HRG – Hochschulrahmengesetz. Bundesministerium für Bildung, Wissenschaft, Forschung und Technologie, Bonn. Bundesregierung (1986): Hochschulpolitische Zielsetzungen der Bundesregierung, Band 12 aus der Serie Grundlage für Bildung und Wissenschaft. Bundesregierung, Bonn. Byrne, J. A. (1988): „The best B-schools,“ Business Week, 76–92, November 28th. Campbell, D. T. (1969): „Reforms as experiments,“ American Psychologist, 24, 409–429. Cantor, R./Packer, F. (1996): „Determinants and Impact of Sovereign Credit Ratings,“ Federal Reserve Bank of New York Economic Policy Review, 2(2), 37–53. Capital (1985): „Wählen Sie die beste Hochschule,“ Capital, (3), 70–71. – (1987): „Wählen Sie die beste Hochschule,“ Capital, (6), 104–105.
Literaturverzeichnis
205
Capital/Morgen, M. (1996a): „Bewertung deutscher Lebensversicherer durch das Wirtschaftsmagazin Capital – Das Produktrating,“ Capital Dokumentationen. – (1996b): „Das Morgen & Morgen – Rating – Detailergebnisse Gesellschaft Hannoversche Leben,“ Capital Dokumentationen. – (1996c): „Unternehmensrating deutscher Lebensversicherer,“ Capital Dokumentationen. Caracelli, V. J. (2000): „Methodology: Building Bridges to Knowledge,“ in Stockmann (2000c), 165–192. Cartter, A. M. (1966): „An Assessment of Quality in Graduate Education,“ Discussion Paper, American Council on Education, Washington, D.C. Chandy, P. R./Duett, E. H. (1990): „Commercial Paper Rating Models,“ Quarterly Journal of Business and Economics, 29(4), 79–101. CHE (1999): „Projekte des Centrums für Hochschulforschung (CHE) im Bereich Strategie/Evaluation,“ Online im Internet, URL: hhttp://www.che.de/projekte. htmi (Stand 99; Abfrage 2.11.99; MEZ: 14.26 Uhr). Chelimsky, E. (1997): „Thoughts for a new evaluation society,“ Evaluation, 1(3), 97–109. Chen, H./Rossi, P. H. (1980): „The multi-goal, theory-driven approach to evaluation: A model linking basic and applied social science,“ Social Forces, 59, 106– 122. – (1983): „Evaluation with sense: The theory-driven approach,“ Evaluation Review, 7, 283–302. Chen, M. (1996): „Competitor analysis and interfirm rivalry: Toward a theoretical integration,“ Academy of Management Review, 21(1), 100–134. Chicken, J. C./Hayns, M. R. (1989): The Risk Ranking Technique in Decision Making. Pergamon Press. Cicourel, A. V. (1974): Methode und Messung in der Soziologie, Band 99 aus der Serie Taschenbuch Wissenschaft. Suhrkamp. Claus, S. (1999): „Ein AAA verwandelt sich selten zum Flop,“ Süddeutsche Zeitung, (66), 31, Samstag/Sonntag, 20./21. März. Cook, T. D./Campbell, D. T. (1979): Quasi-experimentation. Design & analysis issues for field setting. Rand McNally, Chicago. Cook, T. D./Shadish, W. R. J. (1986): „Program evaluation: The wordly science,“ Annual Review of Psychology, 37, 193–232. Crabbe, L./Post, M. A. (1992): „The Effect of a Rating Change on Commercial Paper Outstandings,“ Working Paper 185, Board of Governors of the Federal Reserve System Finance and Economics Discussion Series, Federal Reserve Board, Washington, DC 20551. Cronbach, L. J. (1963): „Evaluation for course improvement,“ Teachers Coll. Bulletin, 64, 672–683.
206
Literaturverzeichnis
– (1982): Designing evaluations of educational and social programs. Jossey-Bass, San Francisco. Cyert, R. M./March, J. G. (1963): A behavioral theory of the firm. Englewood Cliffs. Daniel, H.-D. (1986a): „Forschungsleistungen wissenschaftlicher Hochschulen im Vergleich: Eine Synopsis fächerübergreifender Untersuchungen,“ in Daniel und Fisch (1988), 93–104. – (1986b): „Methodische Probleme institutsvergleichender Analysen der Forschungsproduktivität untersucht am Beispiel des Faches Psychologie,“ in Daniel und Fisch (1988), 215–241. – (1997): „Die Wahl von Studienort und Hochschule,“ in Effizient studieren, herausgegeben von E. Dichtl und M. Lingenfelder, Edition MLP, 3–22. Gabler, Wiesbaden, 3., überarbeitete und erweiterte Auflage. – (2001): „Was bewirken Hochschul-Rankings,“ in Hochschul-Ranking: Aussagefähigkeit, Methoden, Probleme, herausgegeben von D. Müller-Böling, S. Hornbostel und S. Berghoff. Verlag Bertelsmann Stiftung. Daniel, H.-D./Fisch, R. (1987): „Beiträge der empirischen Wissenschaftsforschung zur hochschul- und forschungspolitischen Diskussion,“ in Theorie und Praxis der Wissenschaftsforschung, herausgegeben von C. Burrichter, 49–87. Erlangen. – (Hrg.) (1988): Evaluation von Forschung: Methoden, Ergebnisse, Stellungnahmen, Band 4 aus der Serie Konstanzer Beiträge zur sozialwissenschaftlichen Forschung. Universitätsverlag Konstanz. Daniel, H.-D./Hornbostel, S. (1993): „Die Studiensituation in der Betriebswirtschaftslehre im Urteil der Studenten,“ ZfB-Ergänzungsheft, (3), 161–178. Daumenlang, K./Altstötter, C./Sourisseaux, A. (1995): Evaluation, 702–713, Lehrund Handbücher der Sozialwissenschaften. Erwin Roth, Oldenbourg/München/ Wien. DAV (1997): „Rating von Lebensversicherungsunternehmen,“ DAV-Mitteilungen 7, Deutsche Aktuarvereinigung, Bonn, 27. Mai 1997. D’Aveni, R. A. (1996): „A multiple-constituency, status-based approach to interorganizational mobility of faculty and input-output competition among top business schools,“ Organization Science, 7(2), 166–189. DBT (1990a): Bericht „Hochschulpolitische Zielsetzungen“. Deutscher Bundestag, Bonn, Drucksache 11/8506 vom 29. Januar 1990. – (1990b): Zukünftige Bildungspolitik – Hochschule 2000. Zwischenbericht der Enquete-Kommission des 11. Deutschen Bundestages. Deutscher Bundestag, Bonn. Debreu, G. (1954): „Representation of a preference ordering by a numerical function,“ in Decision processes, herausgegeben von R. M. Thrall, C. H. Coombs und R. L. Davis, 159–165. New York.
Literaturverzeichnis
207
– (1959): „Topological methods in cardinal utility theory,“ in Mathematical Methods in the Social Sciences, herausgegeben von K. J. Arrow, S. Karlin und P. Suppes, Kapitel 2, 16–26. Stanford University Press. Denenberg, H. (1967): „Is ‚A-Plus‘ Really a Passing Grade?,“ The Journal of Risk and Insurance, 34(3), 371–384. Dettweiler, E./Frey, H.-W. (1972): „Simulationsmodelle für die Hochschulplanung,“ HIS Brief 19, Hochschulinformationssystem GmbH, Hannover. Dinkelbach, W. (1982): Entscheidungsmodelle. Springer. Dobrov, G. M. (1969): Wissenschaftswissenschaft. Akademie-Verlag, Berlin. Donabedian, A. (1980): Explorations in quality assessment and monitoring: The definition of quality and approaches to its assessment. Ann Arbour, MI. Dreher, D. (1997): Logistik-Benchmarking in der Automobil-Branche – ein Führungsinstrument zur Steigerung der Wettbewerbsfähigkeit, Band 56 aus der Serie Planung, Organisation, Unternehmensführung. Joseph Eul Verlag, Köln. Zugl.: Augsburg, Dissertation, 1997. Dunkel, M. (1998): „Ein harter Positionskampf – Europas Regionen im Vergleich: Deutschlands westliche Standorte gehören zu den besten, der Osten liegt am Schluß,“ Wirtschaftswoche, 17, 16–19. DUZ (1998): „DUZ extra: Nach Leistung bezahlen,“ Deutsche Universitäts Zeitung, (22), I-VIII. Dyer, J. S./Sarin, R. K. (1979): „Measureable multi-attribute value functions,“ Operations Research, 27, 810–822. – (1982): „Relative risk aversion,“ Mangement Science, 28, 875–886. Ederington, L. H./Yawitz, J. B./Roberts, B. E. (1984): „The Informational Content of Bond Ratings,“ Working Paper 1323, Atlanta, GA 30303 Washington. Eichhorn, W. (1978): „What is an Economic Index? An Attempt of an Answer,“ in Eichhorn et al., 3–42. Eichhorn, W. et al. (Hrg.) (1978): Theory and Applications of Economic Indices, Würzburg. Physika. Eisenführ, F. (1989): „Entscheidungstheoretische Planungshilfen,“ in Handwörterbuch der Planung, herausgegeben von N. Szyperski, 397–406, Stuttgart. Poeschel. Eisenführ, F./Weber, M. (1986): „Zielstrukturierung: Ein kritischer Schritt im Entscheidungsprozeß,“ Zeitschrift für betriebswirtschaftliche Forschung, 38, 907– 929. – (1994): Rationales Entscheiden. Springer-Verlag, zweite Auflage. Elsbach, K. D./R. M. Kramer, (1996): „Member’s Responses to Organizational Threats: Encountering and Countering the Business Week Rankings,“ Administrative Science Quarterly, 41, 442–476.
208
Literaturverzeichnis
Endler, N. S./Rushton, J. P./Roedinger, H. L. I. (1978): „Productivity and Scholarly Impact (Citations) of British, Canadian, and U.S. Departments of Psychology (1975),“ American Psychologist, 33, 1064–1082. Engel, U./Krekeler, G. (2001): „Studienqualität. Über studentische Bewertungen und Rankings von Studienfächern einer Universität,“ in Hochschul-Ranking. Zur Qualitätsbeurteilung von Studium und Lehre, herausgegeben von U. Engel, 121– 176. Campus. Ester, B. (1997): Benchmarks für die Ersatzteillogistik – Benchmarkingformen, Vorgehensweise, Prozesse und Kennzahlen, Band 13 aus der Serie Unternehmensführung und Logistik. Verlag Erich Schmidt, Berlin. Zugl.: Darmstadt, Dissertation, 1996. Everling, O. (1991): Credit Rating durch internationale Agenturen. Gabler Verlag, Wiesbaden. Evertz, D.-W. (1992): Die Länderrisikoanalyse der Banken, Band 13 aus der Serie Schriften zu internationalen Wirtschaftsfragen. Duncker & Humblot, Berlin. Ewell, P. T. (1992): „Lehrevaluation in den U. S. A. – ein Wegweiser durch die Vielfalt neuer Assessment-Ansätze,“ in Evaluation des Lehrens und Lernens – Ansätze, Methoden, Instrumente, herausgegeben von R. Holtkamp und K. Schnitzer, Band 92 aus der Serie Hochschulplanung, 51–64, Hannover. Hochschul-Informations-System GmbH. Farquhar, P. H./Keller, L. R. (1989): „Preference intensity measurement,“ Annals of Operations Research, 19, 205–217. Finanztest (1996): „Kapitallebensversicherungen – Hinter den Kulissen,“ Finanztest, 14–20. Fisch, R. (1988): „Ein Rahmenkonzept zur Evaluation universitärer Leistungen,“ in Daniel und Fisch (1988), 13–32. Fisch, R./Daniel, H.-D. (Hrg.) (1986): Messung und Förderung von Forschungsleistungen, Band 2 aus der Serie Konstanzer Beiträge zur sozialwissenschaftlichen Forschung. Universitätsverlag Konstanz. Fischer, G./Rieker, J./Riesch, S. (1994): „Abschied von gestern,“ Manager Magazin, (2), 138–171. Fischer, G./Schwarzer, U. (1992a): „Alma Marter,“ Manager Magazin, (1), 148– 163. – (1992b): „Zurück in die Zukunft,“ Manager Magazin, (12), 280–311. Fischer-Bluhm, K./Ruhne, R./Mittag, S. (1999): „Project EVALUE: Evaluation at the University of Rostock,“ Online im Internet, URL: hhttp://www.uni-hamburg.de/Evaluation/german4.htmli (Stand 4. Februar 1999; Abfrage 20.6.00; MEZ: 14.14 Uhr). Fishburn, P. C. (1984): „SSB utility theory: An economic perspective,“ Mathematical Social Science, 8, 63–94. Fisher, L. (1959): „Determinants of Risk Premiums on Corporate Bonds,“ Journal of Political Economy, 67, 217–237.
Literaturverzeichnis
209
Focus (1997a): „Der große Uni-Test,“ Focus, (18). – (1997b): „Deutschlands Top-Universitäten,“ Focus, (16). Forbes (1991): „Die besten Unis für die Karriere,“ Forbes, (3), 10–14. Frackmann, E. (1988): „Die Bedeutung von ‚Rankings‘ für den Wettbewerb im Hochschulbereich,“ Betriebswirtschaftliche Forschung und Praxis, (2), 139–162. Fränz, K. (1973): „Forschungseffizienz,“ Neue Zürcher Zeitung, (22), 15–16. Friedrich, H. R./Gramm, C. (1991): „Lehre im Zentrum dauerhaften Diskurses,“ Deutsche Universitätszeitung, (6), 16–17. Fuchs-Seliger, S. (1991): Volkswirtschaftslehre II, Vorlesungsskript, Institut für Wirtschaftstheorie und Operations Research. Universität Karlsruhe (TH). Fürstenberg, F. (1995): „Kritische Würdigung von Hochschul-Rankings,“ Personal, (10), 506–510. Gabor, A./Morse, R. J./Wagner, E. A. (1991): „A slower track for M.B.A.’s,“ U.S. News & World Report, 65–70, April 29th. Gabriel, C. (1997): „Hochschul-Rankings in Großbritannien. Wichtige Hilfe bei schwieriger Wahl,“ DUZ, (9), 12–13. Gaefgen, G. (1968): Theorie der wirtschaftlichen Entscheidung. Tübingen, 2. Auflage. Gellert, C. (1988): „Wettbewerb und institutionelle Differenzierung,“ Beiträge zur Hochschulforschung, (4), 46–75. Giese, E. (1986): „Leistungsmessung wissenschaftlicher Hochschulen in der Bundesrepublik Deutschland,“ Beiträge zur Hochschulforschung, (4), 399–446, Bayerisches Staatsinstitut für Hochschulforschung und Hochschulplanung. – (1988): „Erfassung und Beurteilung universitärer Forschungsleistungen in der Bundesrepublik Deutschland,“ Beiträge zur Hochschulforschung, (4), 419–465, Bayerisches Staatsinstitut für Hochschulforschung und Hochschulplanung. Glänzel, W./Schubert, A. (1985): „Price Distribution. An Exact Formulation of Price’s Square Root Law,“ Scientometrics, 7, 211–219. Gloger, A. (1992): „Rankings: Sensation oder Maßstab?,“ Die Welt, 28. Januar 1992. Gorman, W. M. (1968): „The structure of utility functions,“ Review of Economic Studies, 35, 367–390. Gritzmann, K. (1991): „Kennzahlensysteme als entscheidungsorientierte Informationsinstrumente der Unternehmensführung in Handelsunternehmen,“ Promotion, GHS Göttingen, Göttinger Handelswissenschaftliche Skripten e.V. Gronwald, S./Wöhrle, T. (1998): „Welche Hochschule bietet die besten Chancen für den Job?,“ Manager Magazin, (3), 260–272. Groves, R. M. (1989): Survey Errors and Survey Costs. John Wiley & Sons, New York.
210
Literaturverzeichnis
Guba, E. G. (1978): „Toward a methodology of naturalistic inquiry in educational evaluation,“ CSE Monograph Series in Evaluations, Center for the Study of Evaluation, Los Angeles, California. Guba, E. G./Lincoln, Y. S. (1981): Effective Evaluation: Improving the usefulness of evaluation results through responsive and naturalistic approaches. JosseyBass, San Francisco. – (1989): Fourth Generation Evaluation. Sage, Newbury Park, CA. Gul, F. (1991): „A theory of disappointment aversion,“ Econometrica, 59, 667–686. Gündling, H./Everling, O. (1994): „Rating als Methode der Finanzanalyse,“ Die Bank, 727–731. Hacker, G. (1979): „Theorie der wirtschaftlichen Kennzahl,“ Promotion, Universität Karlsruhe (TH), Fakultät für Wirtschaftswissenschaften. Haltmeier, H. (1997): „Aufruhr an den Unis: Der große Uni-Test,“ Manager Magazin, (25), 146–151. Hamlen, W./Southwick, L. (1989): „Quality in the MBA program: Inputs, outputs or value added?,“ Journal of Economic and Social Measurement, 15(1), 1–26. Hammond, J. (1965): „Bringing Order into the Selection of a College,“ Personnel and Guidance Journal, 654–660. Hansen, U./Henning-Thurau, T./Langer, M. F. (2000): „Qualitätsmanagement von Hochschulen: FACULTY-Q als Erweiterung von TEACH-Q,“ Die Betriebswirtschaft, 60(1), 23–38. Hansen, U./Henning-Thurau, T./Wochnowski, H. (1997): „TEACH-Q: Ein valides und handhabbares Instrument zur Bewertung von Vorlesungen,“ Die Betriebswirtschaft, 57(3), 376–396. Harmelink, P. J. (1974): „Prediction of Best’s General Policyholder Ratings,“ The Journal of Risk and Insurance, 41(4), 624–632. Hartenstein, W./Boos, M./Bertl, W. (1986): „Entwicklung und Erprobung von Kriterien für die Bewertung der Ergebnisse sozialwissenschaftlicher Forschungsprojekte,“ in Daniel und Fisch (1988), 397–432. Hartmann, I. (1986): „Fachspezifische Beurteilungskriterien von Gutachtern in der Forschungsförderung: dargestellt am Beispiel des Normalverfahrens in der Deutschen Forschungsgemeinschaft,“ in Daniel und Fisch (1988), 383–398. Heckhausen, H. (1986): „Wozu ortsvergleichende Produktivitäts-Ranglisten und wie deshalb vorgegangen werden sollte,“ in Daniel und Fisch (1988), 33–40. Heimes, K./Will, R. (1995): „Probleme beim Unternehmensrating von Lebensversicherungsunternehmen,“ Blätter der Deutschen Gesellschaft für Versicherungsmathematik, XXII(2), 309–321. Henry, A. (1996): „Streit um Benotung,“ Wirtschaftswoche, 50, 148–150. Hess, W. (1992): „Wettbewerb und die Bewertung von Hochschulen,“ Beiträge zur Hochschulforschung, 93–103, Bayerisches Staatsinstitut für Hochschulforschung und Hochschulplanung.
Literaturverzeichnis
211
Higher Education Funding Council for England (1995): „HEFCE Funding: Funds for Teaching,“ Online im Internet, URL: hhttp://www.niss.ac.uk/education/hefce/ funding/teachingfunds.htmli (Stand 24.10.95; Abfrage 25.1.99; MEZ: 8.44 Uhr). Himmelrath, A. (1997): „Hochschul-Rankings. Zahlenspiel mit Tücken,“ DUZ, (9), 10–12. Hindmarsh, A./Kingston, B./Loynes, R. (1999): „League tables are getting better,“ Online im Internet, URL: hhttp://www.netnexus.org/ext/soapbox/leaguetables/ ths nexus hindmarsh.htmli (Stand 99; Abfrage 25.10.99; MEZ: 15.55 Uhr). Hodges, L. (1993): „Best for whom? University League Tables,“ The Times Higher Education Supplement, 14. Mai 1993. Holtkamp, R./Schnitzer, K. (Hrg.) (1992): Evaluation des Lehrens und Lernens – Ansätze, Methoden, Instrumente,Band 92 aus der Serie Hochschulplanung, Hannover. Hochschul-Informations-System GmbH, Dokumentation der HIS-Tagung am 20. und 21. Februar 1992 im Wissenschaftszentrum Bonn-Bad Godesberg. Homburg, C./Werner, H./Englisch, M. (1995): „Kennzahlengestütztes Benchmarking im Beschaffungsbereich: Konzeptionelle Aspekte und empirische Befunde,“ Die Betriebswirtschaft, 57(1), 48–64. Honolka, H. (1986): „Politikwissenschaftler nominieren ihre wichtigsten Fachvertreter: Zur Problematik der Reputationsbefragungen in der Bundesrepublik Deutschland,“ in Daniel und Fisch (1988), 189–200. Hornbostel, S. (1997): Wissenschaftsindikatoren: Bewertungen in der Wissenschaft. Westdeutscher Verlag, Opladen. – (1998): „Der Uni-Test Europa des SPIEGEL: Infotainment oder Entscheidungshilfe?,“ in Uni-Test Europa. Wo sich das Studieren im Ausland lohnt, herausgegeben von M. Doerry, 149–162. Campe, Hamburg. – (2001): „Der Studienführer des CHE – ein multidimensionales Ranking,“ in Hochschul-Ranking. Zur Qualitätsbeurteilung von Studium und Lehre, herausgegeben von U. Engel, 83–120. Campus. Horrigan, J. O. (1966): „The Determination of Long-Term Credit Standing with Financial Ratios,“ Journal of Accounting Research, 4, 44–62, Supplement: Empirical Research in Accounting: Selected Studies. House, E. (1993): Professional Evaluation: Social Impact and Political Consequences. Sage, Thousand Oaks, CA. Huber, H. (1972): „Ein Kapazitätsmodell für Hochschulen,“ Saarbrücker Studien zur Hochschulentwicklung 16, Hochschule des Saarlandes, Saarbrücken. Huber, J./Müller, A. (2000): „Zur Evaluation von Umweltschutz-Maßnahmen in Staat und Unternehmen,“ in Stockmann (2000c), 343–373. Huckemann, S./van Suntum, U. (1994): Beschäftigungspolitik im internationalen Vergleich, Länderranking 1980–1993. Verlag Bertelsmann Stiftung, Gütersloh. Hüfner, K./Hummel, T./Rau, E. (1984): „Ansätze zur Messung der Qualität von Hochschulen,“ in Hochschule zwischen Plan und Markt, 77–123. Zentralinstitut für sozialwissenschaftliche Forschung, Freie Universität Berlin.
212
Literaturverzeichnis
Hujer, R./Cremer, R. (1977): Grundlagen und Probleme einer Theorie der sozioökonomischen Messung, Band 2 aus der Serie Materialien zur Betriebs- und Volkswirtschaft, 1–22. Peter Hanstein Verlag GmbH, Köln. Humphreys, P. C./McFadden, W. (1980): „Experiences with MAUD: Aiding decision structuring versus bootstraping the decision maker,“ Acta Psychologica, 45, 51–71. IMD (1997): World Competitive Yearbook 1997. IMD Lausanne. Isermann, H. (1979): „Strukturierung von Entscheidungsprozesses bei mehrfacher Zielsetzung,“ OR Spektrum, 1, 3–26. Jackson, S. (1986): „BW/Harris Poll: How executives rate a business school education,“ Business Week, 64, March 24th. Jensen (2001): „Bootstrap-Rangkonfidenzintervalle für Hochschul-Ranglisten,“ in Hochschul-Ranking: Aussagefähigkeit, Methoden, Probleme, herausgegeben von D. Müller-Böling, S. Hornbostel und S. Berghoff. Verlag Bertelsmann Stiftung. Joint Funding Council of the United Kingdom (1996): „1996 Research Assessment Exercise: The Outcome,“ Online im Internet, URL: hhttp://www.niss.ac.uk/ education/hefc/rae96/c1 96.htmli (ff.; Stand 19.12.96; Abfrage 25.1.99; MEZ: 8.46 Uhr). Jones, L. V./Lindzey, G./Coggeshall, P. E. (1982): „An Assessment of ResearchDoctorate Programs in the United States,“ Discussion Paper, American Council on Education, Washington, D.C., Volume 1–5. Jung, A./et al. (1996): „Lebensversicherung: Schatzkiste oder Mogelpackung?,“ Capital, 128–147. Kahneman, D./Tversky, A. (1979): „Prospect theory: An analysis of decision under risk,“ Econometrica, 47, 236–291. Kaplan, R. S./Urwitz, G. (1979): „Statistical Models of Bond Ratings: A Methodological Inquiry,“ Journal of Business, 52(2), 231–261. Kazemzadeh, F./Schacher, M./Steube, W. (1994): Hochschulstatistische Indikatoren im Ländervergleich: Deutschland, Frankreich, Großbritannien, Niederlande, Band 104 aus der Serie Hochschulplanung. HIS Hochschul-Informations-System GmbH, Hannover. Keeney, R. L. (1992a): Value-Focused Thinking: A Path to Creative Decisionmaking. Harvard University Press, Cambridge, Massachusetts. – (1992b): Value-Focused Thinking: A Path to Creative Decisionmaking. Harvard University Press, Cambridge/Massachusetts. Keeney, R. L./Raiffa, H. (1993): Decisions with Multiple Objectives: Preferences and Value Tradeoffs. John Wiley & Sons, New York. Kieser, A. (1998): „Going Dutch – Was lehren niederländische Erfahrungen mit der Evaluation universitärer Forschung?,“ Die Betriebswirtschaft, 58(2), 208–224.
Literaturverzeichnis
213
Kieser, A./Frese, E./Müller-Böling, D./Thom, N. (1996): „Probleme der externen Evaluation wirtschaftswissenschaftlicher Studiengänge,“ Zeitschrift für Betriebswirtschaft, 69–93, ZfB-Ergänzungsheft 1/96. Kirkwood, C. W./Sarin, R. K. (1985): „Ranking with partial information: A method and application,“ Operations Research, 33, 38–48. Kirsch, W. (1970): Entscheidungsprozesse – Verhaltenswissenschaftliche Ansätze der Entscheidungstheorie, Band 1. Wiesbaden. Klausa, E. (1978): „Die Prestigeordnung juristischer Fakultäten in der Bundesrepublik und in den USA,“ Kölner Zeitschrift für Soziologie und Sozialpsychologie, 30, 321–360. Klein, H. J. (2000): „Befragung neu-immatrikulierter Studierender an der Universität Karlsruhe (TH) zum Wintersemester 2000/01,“ Discussion Paper, Universität Karlsruhe (TH), Institut für Soziologie, 76128 Karlsruhe. Klingemann, H. D. (1986): „Zitierhäufigkeit als Qualitätsindikator: Eine Rangordnung der amerikanischen politikwissenschaftlichen Fachbereiche in den 80er Jahren,“ in Daniel und Fisch (1988), 201–214. Klostermeier, J. (1994): Hochschul-Ranking auf dem Prüfstand. Ziele, Probleme und Möglichkeiten, Band 26 aus der Serie Hochschuldidaktische Arbeitspapiere. Universität Hamburg, Zentrale Versand- und Vervielfältigungsstelle, Allende Platz 1, 20146 Hamburg. Kornhuber, H. H. (1986): „Mehr Forschungseffizienz durch objektivere Beurteilung von Forschungsleistungen,“ in Daniel und Fisch (1988), 361–382. Kreutzmann, G. (2001): „Methodik Hochschul-Ranking – Fortschritt, aber noch offene Fragen,“ Die Betriebswirtschaft, 61(1), 151–152, DBW-Dialog. Kromrey, H. (1992): „Evaluation der Lehre an der Ruhr-Universität Bochum,“ Discussion Paper, Ruhr-Universität Bochum. – (2000a): „Fallstricke bei der Implementations- und Wirkungsforschung sowie methodische Alternativen,“ in Qualität von Humandienstleistungen. Evaluation und Qualitätsmanagement in Sozialer Arbeit und Gesundheitswesen, herausgegeben von H. Müller-Kohlenberg, und K. Münstermann. Leske þ Budrich. – (2000b): „Qualität und Evaluation im System Hochschule,“ in Stockmann (2000c), 233–258. – (2001a): „Studierendenbefragungen als Evaluation der Lehre? Anforderungen an Methodik und Design,“ in Hochschul-Ranking. Zur Qualitätsbeurteilung von Studium und Lehre, herausgegeben von U. Engel, 11–47. Campus. – (2001b): „Zur Validität und zum Informationsgehalt von Studierendenbefragungen als Evaluation – Eine Reanalyse der CHE-Daten,“ in Hochschul-Ranking: Aussagefähigkeit, Methoden, Probleme, herausgegeben von D. Müller-Böling, S. Hornbostel und S. Berghoff. Verlag Bertelsmann Stiftung. Krtscha, M. (1996): „Zur Axiomatik der Ungleichheitsmessung in der Wirtschaftswissenschaft,“ Habilitationschrift, Universität Karlsruhe (TH), Fakultät für Wirtschaftswissenschaften.
214
Literaturverzeichnis
Kuhlmann, S. (2000): „Evaluation in der Forschungs- und Innovationspolitik,“ in Stockmann (2000c), 287–307. Kühne, A. (1995): „Benchmarking,“ Zeitschrift für Betriebswirtschaft, 2, 41–47, Ergänzungsheft. Küting, K. (1983): „Grundsatzfragen von Kennzahlen als Instrumente der Unternehmensführung,“ Wirtschaftswissenschaftliches Studium, 237–241. Lackner, W. (1992): „Städte-Ranking und kommunale Wirtschaftförderung,“ Discussion Paper, Institut für Städtebau und Landesplanung der Universität Karlsruhe (TH). Lamnek, S. (1990): „Zur Professionalität der Studie: ‚Welche Uni ist die beste?‘,“ Soziologie, (2), 91–100. Landeck, K.-J. (1994): Lerntypdiagnose – Ein neues Verfahren für die Studienberatung, Handbuch Hochschullehre, Kapitel E 2.2, 1–17. Dr. Josef Raabe VerlagsGmbH, Stuttgart. Landsheere, V. D. (1990): „Taxonomies of educational objectives,“ in The International Encyclopedia of Educational Evaluation, herausgegeben von H. J. Walberg und G. D. Haertel, 179–188. Oxford/New York. Laux, H. (1998a): Entscheidungstheorie. Springer-Verlag, Berlin/Heidelberg/New York, vierte, neubearbeitete und erweiterte Auflage. – (1998b): Entscheidungstheorie II: Erweiterung und Vertiefung. Springer-Verlag, Berlin/Heidelberg/New York, dritte Auflage. Lee, B. (2000): „Theories of Evaluation,“ in Stockmann (2000c), 127–164. Leeuw, F. L. (2000): „Evaluation in Europe,“ in Stockmann (2000c), 57–76. Lehrl, S./Kinzelm, W./Fischer, B. (1986): „Der Science Impact Index: Untersucht an den Ordinarien der bundesdeutschen Psychatrie und Neurologie,“ in Daniel und Fisch (1988), 13–32. Leitow, B. (1996): „Studentische Haltungen zur Studieneffizienz – ein Beitrag zur Typologie studentischer Orientierungen,“ Hefte zur Bildungs- und Hochschulforschung, 18, Universität Konstanz. Leszczensky, M./Barna, A./Kuhnert, I./Thole, H. (1995): Ausstattungsvergleich an der Universität Hannover, Band 114 aus der Serie Hochschulplanung. HIS Hochschul-Informations-System GmbH, Hannover. Leszczensky, M./Barna, A./Schacher, M. (1997): Ausstattungsvergleich niedersächsischer Universitäten und Fachhochschulen II, Band 125 aus der Serie Hochschulplanung. HIS Hochschul-Informations-System GmbH, Hannover. Leszczensky, M./Thole, H. (1995): Ausstattungsvergleich niedersächsischer Universitäten und Fachhochschulen – Methodenentwicklung und exemplarische Anwendung, Band 108 aus der Serie Hochschulplanung. HIS Hochschul-InformationsSystem GmbH, Hannover.
Literaturverzeichnis
215
Lewin, K./Heublein, U./Schreiber,J./Sommer, D. (1999): Studienanfänger im Wintersemester 1998/99, Band 138 aus der Serie Hochschulplanung. HIS HochschulInformations-System GmbH, Hannover. Loomes, G./Sudgen, R. (1982): „Regret theory: An alternative theory of rational choice under uncertainty,“ Economic Journal, 92, 805–824. – (1986): „Disappointment and dynamic consistency in choice under uncertainty,“ Review of Economic Studies, 53, 271–282. Lootsma, F. A. (2000): „Distributed Multi-Criteria Decision Making and the Role of the Participants in the Process,“ Journal of Multi-Criteria Decision Analysis, (9), 45–55. Lootsma, F. A./Bots, P. W. G. (1998): „The assignment of scores for output-based research funding,“ Report 98–12, TU Delft, Faculty of Technical Mathematics and Informatics, Delft, The Netherlands. Lotka, A. J. (1926): „The frequency distribution of scientific productivity,“ Journal of The Washington Academy of Sciences, 16, 317–323. Lübbe, H. (1979): Die informierte Gesellschaft, Gesellschaft für Kommunikationsforschung, Bonn. MacDonald, B. (1975): „Evaluation and control of education,“ in Evaluation: The state of the art, herausgegeben von D. Tawney. Schools Council, London. Madaus, G. F./Stufflebeam, D. L./Scriven, M. (1983): „Program Evaluation: A historical overview,“ in Evaluation Models: Viewpoints on Educational and Human Services Evaluation, herausgegeben von G. F. Madaus, M. Scriven und D. L. Stufflebeam, 3–22. Kluwer-Nijhoff. Mag, W. (1977): Entscheidung und Information. Verlag Franz Vahlen, München, erste Auflage. Management Wissen (1991): „Heiße Tips im Reisekoffer,“ Management Wissen, (1), 20 ff., Sonderheft. Manager Magazin (1985): „Neue Universitäten sehen alt aus,“ Manager Magazin, (9), 116–123. – (1990): „Oben hui, unten pfui,“ Manager Magazin, (12), 312–324. Manfred Poweleit, V. (1995): „map-report Nr. 32–33/1995 – Rating der Lebensversicherer,“ Große Straße 60, 21380 Artlenburg/Elbe. Menges, G. (1978): „Semantics and „Object Logic“ of Price Indices,“ in Eichhorn et al., 43–54. Mertens, D. M. (1998): Research methods in education and psychology: Integrating diversity with quantitative and qualititative approaches. Sage, Thousand Oaks, CA. – (1999): „Inclusive evaluation: Implications of transformative theory for evaluation,“ American Journal of Evaluation, 20(1), 1–14. – (2000): „Institutionalizing Evaluation in the United States of America,“ in Stockmann (2000c), 41–56.
216
Literaturverzeichnis
Merton, R. K. (1968): „The Mathew Effect in Science. The Reward and Communication Systems of Science are Considered,“ Science, 159, 56–63. Meyer, C. (1994): Betriebswirtschaftliche Kennzahlen und Kennzahlen-Systeme. Schäffer-Poeschel Verlag, Stuttgart, zweite, erweiterte und überarbeitete Auflage. Miller, E. (1990): Barron’s Guide to Graduate Business Schools. Barron’s Educational Series, New York, siebte Auflage. Minke, E./Weichhold, M. (1972): „Kurzbericht zum Test des FIDES-Kapazitätsmodells,“ HIS Brief 22, Hochschulinformationssystem GmbH, Hannover. Monde, L. (1992): „Universités: Le palmares des étudiants,“ Le monde de l’éducation, (7), 26–48. Moody’s Investors Service (2000a): „About Moody’s: History,“ Bonds Online, Online im Internet, URL: hhttp://www.bondsonline.com/mhistor1.htmi (Stand 1996; Abfrage 10.5.2000; MEZ: 22:04 Uhr). – (2000b): „Moody’s Rating Approach for Private Colleges and Universities,“ Moody’s Investors Service, Download im Internet, URL: hhttp:// www.moodys.com/ratproc.nsf/research/13B5BC952C8F6DE58525684F007CF363? OpenDocumenti (Stand September 1999; Abfrage 10.5.2000; MEZ: 22:46 Uhr). Moosbrugger, H./Hartig, J. (2001): „Zur Bedeutung von individuellen und institutionellen Studienbedingungen für die vergleichende Evaluation von Lehre,“ in Hochschul-Ranking. Zur Qualitätsbeurteilung von Studium und Lehre, herausgegeben von U. Engel, 49–60. Campus. Morwind, K. (1995): „Praktische Erfahrungen mit Benchmarking,“ Zeitschrift für Betriebswirtschaft, 2, 25–39, Ergänzungsheft. Moulin, H. (1988): Axioms of Cooperative Decision Making, Band 15 aus der Serie Econometric Society Monographs. Cambridge University Press, Cambridge. Müller-Böling, D. (1998): „In the Dutch Mountains,“ Die Betriebswirtschaft, 58(3), 409–410, DBW-Dialog. Müller-Merbach, H./Leonhardt, B./Blessing, S. (1987): „Akademiker im Wettbewerb oder: Welches sind die besten Universitäten?,“ Technologie & Management, (4), 30–40. MWFK BW (1999): „Überlegungen zur Einrichtung eines Systems der flächendeckenden, hochschulübergreifenden Evaluation von Lehre und Forschung,“ Online im Internet, URL: hhttp://www.uni-heidelberg.de/stud/fsk/referate/hokopo/Eval Gesetz.htmli (Stand 98; Abfrage 20.6.00; MEZ: 14.24 Uhr). Neidhardt, F. (1986): „Kollegialität und Kontrolle – Am Beispiel der Gutachter der Deutschen Forschungsgesellschaft (DFG),“ Kölner Zeitschrift für Soziologie und Sozialpsychologie, 38, 3–12. – (1991): „Kritik und Folgerungen – am Beispiel des „Spiegel“-Ranking universitärer Lehrbedingungen,“ Soziologie, (1), 86–94. Nieschlag, R./Dichtl, E./Hörschgen, H. (1991): Marketing, 605–818. Duncker & Humblot, Berlin, sechzehnte, durchgesehene Auflage.
Literaturverzeichnis
217
Olt, B. (1995): Axiom und Struktur in der statistischen Preisindextheorie, Band 1885 aus der Serie Volks- und Betriebswirtschaft. Peter Lang, Frankfurt am Main. Zugleich: Dissertation, Karlsruhe, 1995. Opitz, O. (1978): „On the Relationship Between Numerical Taxonomy and the Theory of Economic Indices,“ in Eichhorn et al., 55–63. Orth, B. (1974): Einführung in die Theorie des Messens, Kohlhammer Standards Psychologie. Verlag W. Kohlhammer. o.V. (1998): „Ranking category definitions,“ U.S. News, http://www.usnews.com/ usnews/edu/college/rankings/cornkdfs.htm. Patton, M. Q. (1997): Utilization-focused evaluation. Thousand Oaks, CA, London, 3rd Auflage. Peterson (2000): Graduate Schools in the U.S. 2001. Thomson Learning, Princeton (NJ). Pinches, G. E. (1978): „A Multivariate Analysis of Industrial Bond Ratings and the Role of Subordination:Reply,“ The Journal of Finance, XXXIII(1), 336–344. Pinches, G. E./Mingo, K. A. (1973): „A Multivariate Analysis of Industrial Bond Ratings and the Role of Subordination,“ The Journal of Finance, XXVIII(1), 1–18. Pinches, G. E./Trieschmann, J. S. (1974): „The Efficiency of Alternative Models of Solvency Surveillance in the Insurance Industry,“ The Journal of Risk and Insurance, 41(4), 563–77. Pogue, T. F./Soldofsky, R. M. (1969): „What’s in a Bond Rating?,“ Journal of Financial and Quantitative Analysis, 4, 201–228. Pollitt, C. (1998): „Evaluation in Europe: Boom or Bubble?,“ Evaluation, 4(2), 214–224. Pommerehne, W. W. (1986): „Die Reputation wirtschaftswissenschaftlicher Fachzeitschriften: Ergebnisse einer Befragung deutscher Ökonomen,“ Jahrbücher für Nationalökonomie und Statistik, (201), 280–306. Porter, L. W./McKibbin, L. E. (1988): Management Education and Development: Drift or Thrust into the 21st Century? McGraw-Hill, New York. Potthoff, E. (1987): „Leistungsrechnung und Leistungsbeurteilung in wissenschaftlichen Hochschulen,“ in Doppik und Kameralistik, herausgegeben von P. Eichhorn, 83–97. Baden-Baden. Pottier, S. W. (1998): „Life Insurer Financial Distress, Best’s Ratings and Financial Ratios,“ Journal of Risk and Insurance;, 65(2), 275–288. Price, D. (1971): „Some remarks on elitism in information and the invisible college phenomenon in science,“ Journal of the American Society for Information Science, 22, 74–75. Prochnow, E. (1997): „Deutsche Universitäten werden fit,“ Capital, (12), 140–149. Rau, E. (1984): „Mal diese, mal jene an der Spitze,“ Deutsche Universitätszeitung, 19, 15–20.
218
Literaturverzeichnis
Rau, E./Hummel, T. (1986): „Die Besten und Berühmtesten: Forschungsproduktivität wirtschaftswissenschaftlicher Fachbereiche in der Bundesrepublik Deutschland und in den USA,“ in Daniel und Fisch (1988), 243–258. Reichmann, T. (1997): Controlling mit Kennzahlen und Managementberichten: Grundlagen einer systemgestützten Controlling-Konzeption. Vahlen/München, fünfte, überarbeitete und erweiterte Auflage. Rescher, N. (1982): Wissenschaftlicher Fortschritt. Eine Studie über die Ökonomie der Forschung. Walter de Gruyter, Berlin, 102–119. Richter, R. (1991): „Qualitätsevaluation von Lehre und Forschung an den Universitäten der Niederlande. Eine Bilanz der letzten 10 Jahre,“ in Der Ort der Lehre in der Hochschule, herausgegeben von W. Weber und H. Otto, 337–362. Weinheim. Rieder, H./Widmaier, H. (1986): „Über die Schwierigkeit, eine junge Disziplin zu evaluieren: Das Beispiel Sportwissenschaft,“ in Daniel und Fisch (1988), 307– 318. Rieker, J. (1996): „Techno-Tempel,“ Manager Magazin, (3), 236–247. Rieker, J./Riesch, S. (1995): „Novizen aus der Provinz,“ Manager Magazin, (1), 126–146. Riggin, L. J. C. (1990): „Linking Program Theory and Social Science Theory,“ in Advances in Program Theory. New Directions for Program Evaluation, herausgegeben von L. Bickman, Band 47, San Francisco, CA. Jossey-Bass. Rippey, R. M. (Hrg.) (1973): Studies in transactional evaluation. McCutcheon, Berkeley. Roeder, P. M./Baumert, J./Naumann, J./Trommer, L. (1986): „Institutionelle Bedingungen wissenschaftlicher Produktivität,“ in Daniel und Fisch (1988), 457–494. Roose, K. D./Andersen, C. J. (1970): „A Rating of Graduate Programs,“ Discussion Paper, American Council on Education, Washington, D.C. Rosigkeit, A. (1997): „Hochschul-Ranking: Hintergründe und kritische Anmerkungen zu einem modernen Bewertungsverfahren,“ Beiträge zur Hochschulforschung, (1), 23–49, Bayerisches Staatsinstitut für Hochschulforschung und Hochschulplanung. Rossi, P. H./Freeman, H. E./Hofmann, G. (1988): Programm-Evaluation: Einführung in die Methoden angewandter Sozialforschung. Enke-Verlag, Stuttgart. Roth, E. (ed.) (1984): Sozialwissenschaftliche Methoden, Lehr- und Handbücher der Sozialwissenschaften. Oldenbourg/München/Wien. Rudolf, J. (1989): Die Analyse der Bonität und das Rating von SchweizerfrankenAnleihen, Band 117 aus der Serie Bankwirtschaftliche Forschungen. Verlag Paul Haupt, Bern/Stuttgart. Rüttgers, J. (1998): „Evaluation an Hochschulen: Von den Niederlanden lernen,“ Die Betriebswirtschaft, 58(5), 681–683, DBW-Dialog.
Literaturverzeichnis
219
Sabisch, H./Tintelnot, C. (1997): Integriertes Benchmarking für Produkte und Produktentwicklungsprozesse. Springer, Berlin/Heidelberg, Zugleich: Dresden, Dissertation Claus Tintelnot, 1997. Scheuch, E. K. (1986): „Was ist ein Examen wert?,“ GEO, (4), 170–171. – (1990): „Wie gut sind unsere Hochschulen?,“ Soziologie, (2), 73–89. Schmidt, R. (1977): „Die Beurteilung von Berufschancen von Hochschulabsolventen durch Personalberater, Personalchefs und Dekane,“ Heft 53, Universität Kiel. Institut für Betriebswirtschaftslehre. – (1978a): „Schlechte Noten für rote Unis,“ Manager Magazin, (4), 146–152. – (1978b): „Schlechte Zensuren für Berlin und Bremen,“ Der Volks- und Betriebswirt, 48, 22–24. Schneeweiß, C. (1991): Planung 1: Systemanalytische und entscheidungstheoretische Grundlagen. Springer-Verlag, Berlin/Heidelberg. Schneeweiß, H. (1967): Entscheidungskriterien bei Risiko. Berlin. Scriven, M. (1972): „Die Methodologie der Evaluation,“ in Evaluation: Beschreibung und Bewertung von Unterricht, Curricula und Schulversuchen, herausgegeben von C. Wulf. Piper, München. – (1983): „Evaluation Ideologies,“ in Evaluation Models: Viewpoints on Educational and Human Services Evaluation, herausgegeben von G. F. Madaus, M. Scriven und D. L. Stufflebeam. Kluwer-Nijhoff. – (1991): Evaluation Thesaurus. Sage, Newbury Park. Segev, E./Raveh, A./Farjoun, M. (1999): „Conceptual Maps of the Leading MBA Programs in the United States: Core Courses, Concentration Areas, and the Ranking of the School,“ Strategic Management Journal, 20(6), 549–565. Shadish, W. R./Newman, D./Scheirer, M. A./Wye, C. (1995): The American Evaluation Association’s Guiding Principles. Jossey-Bass, San Francisco, CA. Simon, H. (1985): „Positionierung von wirtschaftswissenschaftlichen Fachbereichen: Eine Grundlagenstudie zum strategischen Universitätsmarketing,“ Zeitschrift für Betriebswirtschaft, 55(8), 827–847. Simon, H. A. (1981): Entscheidungsverhalten in Organisationen. Landsberg. Sinz, E. (1998): „Universitätsprozesse,“ in Gestaltungskonzepte für Hochschulen: Effizienz, Effektivität, Evolution, herausgegeben von H.-U. Küpper und E. Sinz, 13–57. Schäffer Poeschel. Smith, A. (1974): Der Wohlstand der Nationen. Eine Untersuchung seiner Natur und seiner Ursachen. München, Neu aus dem Englischen übertragen nach der fünften Auflage. London (1776) 1789. 646 f.. Smith, E./Tyler, R. W. (1942): Appraising and recording student progress. Harper & Row, New York.
220
Literaturverzeichnis
SMWK (1999): Gesetz über die Hochschulen im Freistaat Sachsen. Staatsministerium für Wissenschaft und Kunst im Freistaat Sachsen, Köln, vom 11. Juni 1999. Solorzano, L. (1987): „America’s best professional schools,“ U.S. News & World Report, 70, November 2nd. Sommer, C. (1997): „Juristic-Park,“ Manager Magazin, (2), 138–151. Sönnichsen, C. (1992): Rating-Systeme am Beispiel der Versicherungswirtschaft, Band 47 aus der Serie Schriftenreihe des Instituts für Versicherungswirtschaft an der Universiät zu Köln. Duncker & Humblot. Spiegel (1989): „Die neuen Unis sind die besten,“ Der Spiegel, (50), 70–87. – (1990a): „Die Studenten sind Experten,“ Der Spiegel, (5), 72–80. – (1990b): „Wellness oder Fitness,“ Der Spiegel, (1), 96–102, Spiegel-Spezial: Welche Uni ist die beste? – (1993): „Willkommen im Labyrinth,“ Der Spiegel, (16), 80–102. – (1998a): „Uni-Test Europa,“ Der Spiegel, (19), 94–113, Teil I. – (1998b): „Uni-Test Europa,“ Der Spiegel, (20), 72–91, Teil II. – (1999): „Welche Uni ist die beste? Die Ergebnisse des Spiegel-Rankings,“ Der Spiegel, (15). Spiegel-Rösing, I. S./Fauser, P. M./Baitsch, H. (1975): Beiträge zur Messung von Forschungsleistung-Institutionen – Institutionen, Gruppen und Einzelpersonen, Band 16 aus der Serie Schriftenreihe Hochschule. Der Bundesminister für Bildung und Wissenschaft, Bonn. Spiel, C. (2001): „Der differentielle Einfluss von Biasvariablen auf studentische Veranstaltungsbewertungen,“ in Hochschul-Ranking. Zur Qualitätsbeurteilung von Studium und Lehre, herausgegeben von U. Engel, 61–82. Campus. Stake, R. E. (1967): „The countenance of educational evaluation,“ in Teachers College Record, Band 68, 523–540. – (1978): „The case study method in social inquiry,“ Educational Researcher, (7), 5–8. Stamm, T. (1981): Zwischen Staat und Selbstverwaltung: Die deutsche Forschung im Wiederaufbau 1945–1965. Verlag Wissenschaft und Politik, Köln. Standard & Poor’s (2000a): „S&P’s New School Evaluation Services: An important tool for Educators and Policymakers,“ Online im Internet, URL: hhttp:// www.standardandpoors.com/schools/ses.htmi (Stand 2000; Abfrage 17.5.2000; MEZ: 19:13 Uhr). – (2000b): „Standard & Poor’s School Evaluation Services,“ Online im Internet, URL: hhttp://www.standardandpoors.com/schools/main.htmi (Stand 2000; Abfrage 17.5.2000; MEZ: 19:12 Uhr).
Literaturverzeichnis
221
Stehling, F. (1994): „Messen in der Ökonomie – Vom Sinn und Unsinn wirtschaftlicher Kennzahlen,“ Working Paper, Universität Ulm, Abteilung Wirtschaftswissenschaften. Steiner, M. (1992): „Rating – Risikobeurteilung von Emittenten durch Rating-Agenturen,“ Wirtschaftswissenschaftliches Studium, 509–515. Stern (1993): „93000 Noten von den Profs,“ stern, (16), 172–184. Stern/Start/CHE (2001): Der Studienführer 2001. stern. Stiftung Warentest (1998): „Studienführer Chemie & Wirtschaftswissenschaften,“ Stiftung Warentest, test spezial 9801. Stock, W. G. (1985): „Die Bedeutung der Zitationsanalyse für die Wissenschaftsforschung,“ Zeitschrift für allgemeine Wissenschaftstheorie, XVI(2), 309–314. Stockmann, R. (2000a): „Evaluation in Deutschland,“ in Stockmann (2000c), 11–40. – (2000b): „Evaluation staatlicher Entwicklungspolitik,“ in Stockmann (2000c), 375–407. – (Hrg.) (2000c): Evaluationsforschung. Grundlagen und ausgewählte Forschungsfelder, Band 1 aus der Serie Sozialwissenschaftliche Evaluationsforschung. Leske þ Budrich. – (2000d): „Vorwort,“ in Stockmann (2000c), 7–8. Strebel, H. (1975): Forschungsplanung mit Scoring-Modellen, Band 9 aus der Serie Planen: Studien und Materialien zur wirtschafts- und sozialwissenschaftlichen Beratung. Nomos Verlagsgesellschaft, Baden-Baden. – (1978): „Scoring-Modelle im Lichte neuer Gesichtspunkte zur Konstruktion praxisorientierter Entscheidungsmodelle,“ Der Betrieb, 46, 2181–2186. Stufflebeam, D. L. (1967): Evaluative Research: Principles and Practice in Public Service and Social Action Programs. Russell Sage, New York. – (1983): „The CIPP model for programm evaluation,“ in Evaluation Models. Viewpoints on Educational and Human Services Evaluation, herausgegeben von G. F. Madaus, M. S. Scriven und D. L. Stufflebeam, 117–142. Boston. Stufflebeam, D. L./Foley, W. J./Gephart, W. J./Guba, E. G./Hammond, R. I./ Merriman, H. O./Provus, M. M. (1971): Educational evaluation and decision making. Peacock, Itasca, IL. Stufflebeam, D. L./Shinkfield, A. J. (1985): Systematic Evaluation. Kluwer-Nijhoff, Boston, MA. Suchman, E. (1967): Evaluative Research. Russell Sage, New York. Syrbe, M. (2001): „Verläßliches Hochschul-Ranking: Eine Methodik aus einem Methoden-System für vielfältige Aufgaben,“ Die Betriebswirtschaft, 61(1), 148– 151, DBW-Dialog. Syrbe, M./Bayer, C. R. (1997): „Ein quantitatives Wirkungsmodell von Universitäten,“ Beiträge zur Hochschulforschung, (3), 267–281, Bayerisches Staatsinstitut für Hochschulforschung und Hochschulplanung.
222
Literaturverzeichnis
Tarnai, C./Grimm, H./John, D./Waterman, R. (1993): „Das Universitätsranking im SPIEGEL der latenten Klassenanalyse,“ ZA-Information, 33, 75–93. Thaler, R. (1980): „Toward a positive theory of consumer choice,“ Journal of Economic Behavior and Organization, 1, 39–60. THES (1992): „Third research assessment,“ The Times Higher Education Supplement, vom 18. Dezember 1992. Tracy, J./Waldfogel, J. (1997): „The Best Business Schools: A Market-Based Approach,“ Journal of Business, 70(1), 1–31. Trautvetter, M./Lust, D. (1993): „Modell eines Unternehmensratings für Lebensversicherungsunternehmen,“ Blätter der Deutschen Gesellschaft für Versicherungsmathematik, XXI(4), 525–559. Treinen, H. (1993): „Leistungsbewertung in der universitären Lehre,“ Discussion Paper, Ruhr-Universität Bochum. Turner, G./Wiswede, G. (1986): „Kriterien sind zu finden,“ Deutsche Universitätszeitung, (3), 21. Turner, J. (1987): Rediscovering the Social Group: A Self-categorization Theory. Basil-Blackwell, Oxford. Tversky, A./Kahneman, D. (1991): „Loss aversion and riskless choice: A reference dependent model,“ Quarterly Journal of Economics, 106, 1039–1061. Tyler, R. W. (1949): „Basic Principles of Curriculum and Instruction,“ syllabus for education 360, University of Chicago Press, Chicago. Universität Hamburg (1999a): „Das Verfahren der Evaluation des Verbunds Norddeutscher Universitäten,“ Online im Internet, URL: hhttp://www.uni-hamburg.de/ Evaluation/verfahr.htmli (Stand 99; Abfrage 20.6.00; MEZ: 14.12 Uhr). – (1999b): „Die Ziele und Prinzipien der Evaluation des Verbunds Norddeutscher Universitäten,“ Online im Internet, URL: hhttp://www.uni-hamburg.de/Evaluation/ziele.htmli (Stand 99; Abfrage 20.6.00; MEZ: 14.12 Uhr). – (2000): „Der Fragebogen zur Selbstbeschreibung des Verbunds Norddeutscher Universitäten,“ Online im Internet, URL: hhttp://www.uni-hamburg.de/Evaluation/ fragneu.htmli (Stand 21. Januar 2000; Abfrage 21.6.00; MEZ: 22.31 Uhr). US News (1998a): „Business Methodology,“ Online im Internet, URL: hhttp:// www.usnews.com/usnews/edu/beyond/gradrank/gbbizmet.htmi (Stand 98; Abfrage 25.1.99; MEZ: 9.03 Uhr). – (1998b): „College rankings,“ Online im Internet, URL: hhttp://www.usnews.com/ usnews/edu/college/corank.htmi (ff.; Stand 98; Abfrage 25.1.99; MEZ: 8.58 Uhr). – (1998c): „Education Methodology,“ Online im Internet, URL: hhttp:// www.usnews.com/usnews/edu/beyond/gradrank/gbedmeth.htmi (Stand 98; Abfrage 25.1.99; MEZ: 9.04 Uhr).
Literaturverzeichnis
223
– (1998d): „Engeneering Methodology,“ Online im Internet, URL: hhttp:// www.usnews.com/usnews/edu/beyond/gradrank/gbengmet.htmi (Stand 98; Abfrage 25.1.99; MEZ: 9.00 Uhr). – (1998e): „Law Methodology,“ Online im Internet, URL: hhttp:// www.usnews.com/usnews/edu/beyond/gradrank/gblawmet.htmi (Stand 98; Abfrage 25.1.99; MEZ: 9.02 Uhr). – (1998f): „Medicine Methodology,“ Online im Internet, URL: hhttp:// www.usnews.com/usnews/edu/beyond/gradrank/gbmedmet.htmi (Stand 98; Abfrage 25.1.99; MEZ: 9.08 Uhr). Vedung, E. (1999): Evaluation im öffentlichen Sektor, Kapitel Utilization. Böhlau Verlag, Wien/Köln. – (2000): „Evaluation Research and Fundamental Research,“ in Stockmann (2000c), 103–126. von Nitzsch, R. (1992): Entscheidung bei Zielkonflikten: Ein PC-gestütztes Verfahren, Band 95 aus der Serie neue betriebswirtschaftliche forschung. Gabler, Wiesbaden, Zugleich: Technische Hochschule Aachen, Dissertation, 1991. – (1994): Entscheidung bei Zielkonflikten: Ein PC-gestütztes Verfahren, Band 95 aus der Serie neue betriebswirtschaftliche forschung. Gabler Verlag, Wiesbaden, Zugleich: Aachen, Dissertation 1991. von Trotha, K. (1993): „Leistungsprinzip in Staat und Gesellschaft, hier: Hochschulsystem,“ Landtag von Baden-Württemberg, 11. Wahlperiode, Drucksache 11/ 1555 vom 11. März 1993. – (1998): „Evaluation mit Augenmaß,“ Die Betriebswirtschaft, 58(3), 412–415, DBW-Dialog. von Winterfeldt, D./Edwards, W. (1986): Decision Analysis and Behavioral Research. Cambridge University Press. Wagner, W.-C. (1991): Rating-Systeme am Beispiel der Versicherungswirtschaft, Band 1195 aus der Serie Europäische Hochschulschriften. Verlag Peter Lang GmbH. Weber, M. (1983): Entscheidungen bei Mehrfachzielen: Verfahren zur Unterstützung von Individual- und Gruppenentscheidungen, Band 26 aus der Serie Bochumer Beiträge zur Unternehmensführung und Unternehmensforschung. Gabler Verlag, Wiesbaden. – (1985): „Entscheidungen bei Mehrfachzielen und unvollständiger Information – eine empirische Untersuchung über einen Methodenvergleich,“ Zeitschrift für betriebswirtschaftliche Forschung, 37, 311–331. – (1987): „Decision making with incomplete information,“ European Journal of Operational Research, 28, 44–57. Webster, D. S. (1983): „America’s Highest Ranked Graduate Schools, 1925–1982,“ Change, 15, May/June. WEF (1997): The Global Competitiveness Report 1997. World Economic Forum, Geneva, Switzerland.
224
Literaturverzeichnis
Weidenhammer, W. (1986): „Empirische Zusammenhänge zwischen Zitierrate im Science Citation Index und der von Fachkollegen beurteilten Forschungsproduktivität und -qualität deutschsprachiger Neurologieordinarien,“ geriatrics – pregeriatrics – rehabilitation, 2(1), 26–32. Weiss, C. H. (1977): „Research for policy’s sake: The enlighment function of social research,“ Policy Analysis, 3, 531–545. – (1978): „Improving the linkage between social research and public policy,“ in Knowledge and Policy: The Uncertain Connection, herausgegeben von L. E. Lynn. National Academy of Science, Washington D.C. Welch, S./Hibbing, J. R. (1983): „What do the New Ratings of Political Science Departments Measure?,“ PS, 16, 532–540. Welsch, H./Ehrenheim, V. (1999): „Ausbildung des wissenschaftlichen Nachwuchses: Zur Produktivität volkswirtschaftlicher Fachbereiche in Deutschland, Österreich und der Schweiz,“ Zeitschrift für Wirtschafts- und Sozialwissenschaften, 119(3), 455–473. West, R. W. (1970): „An Alternative Approach to Predicting Corporate Bond Ratings,“ Journal of Accounting Research, 7, 118–127, Spring. Westdeutsche Rektorenkonferenz (1986): Beurteilung und Entwicklung der Ansätze zur Leistungsbewertung und -messung von Hochschulen. Westdeutsche Rektorenkonferenz, Bonn, Stellungnahme des 149. Plenums, 1.7.1986. – (1987): Arbeitsbericht 1986. Westdeutsche Rektorenkonferenz, Bonn, Stellungnahme des 148. Plenums, 3./4. 2. 1986. – (1989): Leistungsbeurteilung und Leistungsvergleich im Hochschulbereich, Band 65 aus der Serie Dokumente zur Hochschulreform. Westdeutsche Rektorenkonferenz, Bonn. Wholey, J. S. (1960): Evaluation and effective public management. Little Brown, Boston MA. Widmer, T. (2000): „Qualität der Evaluation,“ in Stockmann (2000c), 77–102. Widmer, T./Beywl, W. (2000): „Die Übertragbarkeit der Evaluationsstandards auf unterschiedliche Anwendungsfelder,“ in Handbuch der Evaluationsstandards, herausgegeben von Joint Committee on Standards for Educational Evaluation, 243–257. Leske þ Budrich, Opladen. Williams, P. R. (1992a): „Qualitätssicherung und die Academic Audit Unit (AAU) der britischen Universitäten,“ in Evaluation des Lehrens und Lernens – Ansätze, Methoden, Instrumente, herausgegeben von R. Holtkamp und K. Schnitzer, Band 92 aus der Serie Hochschulplanung, 33–50, Hannover. Hochschul-InformationsSystem GmbH. – (1992b): „The UK Academic Audit Unit,“ in Quality Assurance in Higher Education, herausgegeben von A. Craft, 141–159, Hongkong. Hochschul-Informations-System GmbH. Wissenschaftsrat (1975): Empfehlungen des Wissenschaftsrates zur Organisation, Planung und Förderung der Forschung. Tübingen.
Literaturverzeichnis
225
– (1979): Empfehlungen zur Forschung und zum Mitteleinsatz in den Hochschulen. Wissenschaftsrat, Brohler Straße 11, 50968 Köln. – (1985): Empfehlungen zum Wettbewerb im deutschen Hochschulsystem. Wissenschaftsrat, Brohler Straße 11, 50968 Köln. – (1989a): Empfehlungen zum Wettbewerb im deutschen Hochschulsystem. Wissenschaftsrat, Brohler Straße 11, 50968 Köln. – (1989b): Fachstudiendauer an Universitäten im Prüfungsjahr 1989 (WS 1988/89, SS 1989. Wissenschaftsrat, Brohler Straße 11, 50968 Köln, Drucksache 583/92. – (1993): Daten und Kennzahlen zur finanziellen Ausstattung der Hochschulen – Alte Länder 1980, 1985 und 1990. Wissenschaftsrat, Brohler Straße 11, 50968 Köln, Drucksache 1312/93. – (1996): Empfehlungen zur Stärkung der Lehre in den Hochschulen durch Evaluation. Wissenschaftsrat, Brohler Straße 11, 50968 Köln, Empfehlungen und Stellungnahmen, Band I. – (1997): Finanzstatistische Kennzahlen ausgewählter Studiengänge – Eine Modellstudie. Wissenschaftsrat, Brohler Straße 11, 50968 Köln, Drucksache 3083/ 97 wal. WiSt (1987): „München vorn,“ Wirtschaftswissenschaftliches Studium, (1), 46. Wittmann, W. W. (1985): Evaluationsforschung. Springer, Berlin. WZ (1999): „Die GhK in der Wahrnehmung ihrer neuen und ehemaligen Studierenden,“ WZ I update 7, Wissenschaftliches Zentrum für Berufs- und Hochschulforschung, 34109 Kassel, . – (2000): „Abgeschlossen: Studierendenbefragungen an der GhK,“ WZ I update 9, Wissenschaftliches Zentrum für Berufs- und Hochschulforschung, 34109 Kassel, . Zangemeister, C. (1972): „Werturteil und formalisierte Planungsprozesse,“ Discussion paper, Universität Köln, Betriebswirtschaftliches Institut für Organisation und Automatisation. Zimmermann, H.-J./Gutsche, L. (1991): Multi-Criteria Analyse: Einführung in die Theorie der Entscheidungen bei Mehrfachzielsetzungen, Heidelberger Lehrtexte Wirtschaftswissenschaften. Springer-Verlag, Berlin/Heidelberg/New York.
Stichwortverzeichnis Datenerhebung 63, 178–179 – Anforderungen – intersubjektive Vergleichbarkeit 127, 189 – Kompatibilität mit den Präferenzen einer Ranking-Zielgruppe 127, 162, 178, 189, 198 – Kennzahlarten 127, 189–190, 194 – methodische Fehler 127, 128, 163– 164, 189, 190, 194–196, 198 – Validität und Reliabilität 127, 179, 189–190, 193-196, 198 Entscheidungsprozess – Grenzen der Informationsgewinnung und -verarbeitung 53–54, 61, – Grundmodell 51, 54, 70–71, 76, 80 – Klassifikation – intendiert-rational 51, 53–55, 61, 70, 85, 87, 107 – verteilt, multi-kriteriell 9, 10, 15, 17, 18, 20, 22, 30, 50, 54–55, 61, 63, 68, 70, 74, 117, 153, 161, 178, 191, 198 Entscheidungssituation – Quantifizierbarkeit und formales Abbildbarkeit 24 – Voraussetzungen für eine Dekomposition in Teilprobleme 89, 95, 118 – Vorstrukturierung 15, 199–200 Entscheidungstheorie – Anforderungen an einen Aktionenraum 48, 81 – Anforderungen an Präferenzrelationen 49–50
– Empirische Erhebung einer präferenzerhaltenden Abbildung 51, 100–101, 106, 107, 123, 129, 198 – Grundmodell und Erkenntnisziele 48, 51 – Information – Definition 57 – Ziel-, Subjekt-, Objekt- und Zeitbezug 58–59, 70, 76 – Klassifikation – deskriptiv/normativ 51–53, 103, 107 – präskriptiv 19, 29, 51–53, 107, 109, 123, 126, 129 – Rationalitätspostulate – formal 52, 54, 63, 87 – instrumental 53 – objektiv 52 – prozedural 161 – subjektiv 52, 54, 63, 87, 117 – substanziell 52, 87 – Referenzpunkt bzw. Anspruchsniveau 103 – Wertende und faktische Entscheidungsprämissen 29, 51, 54–55, 61, 70, 74, 76, 86, 100, 115, 124 – Zielsystem – Anforderungen 49 – Kompatibilität mit den Zielen des Entscheidungsträgers 50, 55, 59, 70, 87, 116–117, 178 – Multi-attributiv 107 Evaluationsforschung – Bewertungsmodelle – CIPP-Modell (Context, Input, Process, Output) 34, 42, 45–46, 51,
Stichwortverzeichnis
–
–
–
– – – – – –
58, 66, 70, 74, 76, 79, 83, 100, 172 – Kausalmodell 33, 41 – Value frameworks 45, 115, 164, 167 Forschungs- vs. Kontroll- vs. Entwicklungsparadigma 38–39, 46, 132–133 Grundlagenprobleme – Abstimmungsproblem 45 – Grenzen der Evaluation 44, 132, 160, 192 – Perspektiven-, Werte- und Methodenpluralismus 10, 43–46, 132, 161, 164, 167, 196–198 – Verfahrensstandard 10, 63–67 historische Entwicklung 32, 140 – Constructivism-Phase 42, 46, 173 – Description-Phase 33, 41 – heutiges Verständnis 44 – Judgement-Phase 42 – Measurement-Phase 33, 41 Methoden/Bewertungskriterien 32, 35 Öffentliche Institutionen und politische Programme 32–34 Problemstellung 35 Validität und Reliabilität 10, 32, 41–42, 45, 66, 69, 160 Verwendungszwecke 36 Zieldefinition 31, 34, 42
Hochschul-Evaluation 133 – Arten 134, 135 – Datenerhebung 134, 135 – Fehlerquellen 131, 158, 161, 163– 164, 169, 174, 180–190, 194–196, 198 – Forschungsleistungen – Beispiele 80, 81, 137 – Bibliometrische Verfahren 137 – Erfolgsbedingungen 138, 148 – Finanzielle Konsequenzen 137 – Gesetz von Lotka und Price 137
227
– Wissenschaftsindikatoren 140, 142–144, 146–149, 159, 176, 198 – Gemeinsamkeiten und Unterschiede zum Hochschul-Ranking 130, 135, 136, – historische Entwicklung 130, 137 – Deutschland 145–159 – Frankreich 143, 156 – Großbritannien 141–143, 155 – Niederlande 143–145, 155 – USA 138–141, 154, 155 – Institutionalisierung von Leistungsbewertungen 130, 141–144, 146, 150 – länderspezifische Rahmenbedingungen und Wertprämissen 138–139, 141–144, 146, 158 – Lehrleistungen – Beispiele 33, 40 – Indikatoren der Lehrqualität 154, 190 – Pädagogische Programme 139– 141, 143 – Unterschiedliche Struktur von Studiengängen 143, 155, 156, 171– 174, 181–187 – Unterschiedliche Studierendenprofile 143, 154, 155, 195–198 – Wirtschaftlichkeitsindikatoren 150 – Messmethoden 139, 140, 148, 149 – Referenzmodelle – niederländisches Modell 159 – Plaatsen-Geld-Model 144 – Unmöglichkeit einer objektiven Messung 131, 146, 194 – Zielgruppen – Studierende und Unternehmen 152ff. – Wissenschaft und Politik 138ff. – Zielgruppen und Ziele 133, 137, 138, 142–145, 147 Hochschul-Leistungen – Datenerhebung 134, 135, 178–179, 189–190, 194–196
228
Stichwortverzeichnis
– Dienstleistungscharakter 130, 131 – Evaluations-Objekte 134 – Leistungskriterien – Leistungsvielfalt 162 – Messung und Interpretation 134 – Messung – Indikatoren für das Hochschul-Management 159 – Indikatoren für den Lehrerfolg 154, 159, 181–187, 190 – Validität und Relationalität 132, 174, 182 – Wissenschaftsindikatoren 140, 142–144, 146–149, 159, 176, 198 – Paradigmenwechsel zum Auftrag einer Hochschule 137 – Qualität – Dienstleistungscharakter 130, 131 – Intransparenz 134, 138 – Qualitätsentwicklung- und -sicherung 130, 142 – Subjektivität 130–133, 136, 139, 160, 192, 194 – Validität und Reliabilität 132, 133, 160, 174, 198 – Verfahrensstandard 130–133, 148– 151, 153, 160, 161, 179, 191, 198 – Unmöglichkeit einer objektiven Messung 131, 146, 194 – Ziele der Leistungsmessung – Mittelvergabe 130, 131, 133, 138, 140–144, 147, 152, 155, 197, 198 – Stimulierung von Wettbewerb 130, 134, 141, 145, 152 – Zielgruppen – Ministerien und akademische Gremien 134, 161, 197, 198 – Studierende und Unternehmen 130, 132. 156, 161, 179, 180, 197 – Wissenschaft und Politik 130, 132, 156 Hochschul-Ranking – Anforderungen an eine Kennzahlartenpräferenz/Ranking 178, 188, 189
– Anwendung des ganzheitlichen Ranking-Verfahrens 22, 161, 179, 198 – Datenerhebung – amtliche Hochschulstatistik 178– 179 – Kritik an Meinungsumfragen 189–190, 194–196 – Entscheidungsunterstützender Informationsgehalt 161, 178, 187, 191, 194, 198 – Gemeinsamkeiten und Unterschiede zur Hochschul-Evaluation 130, 135, 136 – Herausgeber – Business Week 180, 187, 199 – CHE 179, 180, 181, 187, 199 – Der Spiegel 179, 180, 183, 184 – Der Stern 179, 180, 184, 187, 199 – Focus 179, 180, 184, 189 – Forbes 179 – Manager Magazin 179, 184 – Moodys Investors Service 131, 159 – Standard & Poors 131, 159 – Stiftung Warentest 179, 180, 184 – US News 23, 180, 184, 185, 190, 193, 199 – Historische Entwicklung 130, 137, 140 – Deutschland – Frankreich – Großbritannien – Niederlande – USA – Induzierte Verhaltensänderungen 23, 152, 153, 197, 198 – Kennzahlensystem – Beispiele 135, 176, 177, 181–187 – methodische Fehler 194–196, 198 – Wissenschaftsindikatoren 140, 142–144, 146–149, 159, 176, 198 – Kennzahlinterpretation – methodische Fehler 194–196, 198
Stichwortverzeichnis
– –
– –
– –
– – –
– – – – – –
– Nicht-Nachvollziehbarkeit impliziter Kennzahlinterpretationen 188 Kritik der wissenschaftlichen Gemeinde 130, 131, 157, 158 Methodische Fehler 131, 158, 161, 163–164, 169, 174, 180–190, 194– 196, 198 Paradigmenwechsel zur Studienwahl 152, 153 Ranking-Objekte – Beispiele 135, 180, 181 – Co-Plot Methode 168 – methodische Fehler 169, 170, 198 Ranking-Ziel 135, 162, 179, 180, 183–185 Ranking-Zielgruppen – Beispiele 135, 137, 162, 180, 181 – Cluster-Analyse 164, 165, 196 – Ministerien und akademische Gremien 197, 198 – statistische Artefakte 164, 195 – Studierende 180, 197, 198 Subjektivität 136, 160, 192, 194 Unmöglichkeit einer objektiven Messung 131, 194 Unterschiede deutscher und US-amerikanischer Hochschul-Rankings 23, 180 Validität und Reliabilität 19, 20, 22, 46, 160, 174, 179, 198 Verbesserungsvorschläge 198–200 Verfahrensstandard 20, 46, 161, 179, 198 Wertung aktueller Forschungsarbeiten 23 Wirkungsmodell 171–174, 181, 182 Zielsystem 174, 175
Information – Aggregation zu einem Index 13, 17 – Entscheidungsrelevanz 13, 18, 161 – Entscheidungsunterstützend 10, 17, 59, 117, 135, 161, 178, 179, 187, 191, 198
229
– Standardisierte Sammlung und Aufbereitung 13, 27, 59, 153 Informationsaggregation 10 – methodische Fehler 17, 115, 117, 125, 126, 163, 164, 194–196, 198 Informationsintermediär 9, 191 Kennzahl 92 – Anforderungen – Bereinigung um systematische Verzerrungen 93, 112, 176 – Identischer Formalaufbau 93 – Vergleichbare Maßeinheiten 105, 106 – Vergleichbare Monotonieeigenschaften 106 – Zeitliche, räumliche und sachliche Abgrenzung 93, 112, 115 – Arten 91, 99 – Grundlagenprobleme – Einschränkungen/Grenzen 99, 100, 176, 177 – „Gefahr einer ,self-fulfilling prohecy‘“ 17, 18 – Normierungen 112, 188 – Skalenniveau 92 – Validität 17, 92, 93, 99, 100, 177, 198 – Wertebereich 90, 98, 100, 108–111, 123, 124 Kennzahlensystem – Anforderungen – effizientes Kosten-/Nutzenverhältnis 96, 176 – gegenseitige Präferenzunabhängigkeit 95, 97–99, 107, 126, 176, 192 – Informationsgehalt 94, 176, 194 – Kardinale Vergleichbarkeit 106, 107, 114 – Minimalität 96, 97, 176 – Operationalisierbarkeit 93, 94, 176 – Problemadäquatheit 93, 97, 176
230
Stichwortverzeichnis
– Vollständigkeit 98, 176 – Beispiele – Du-Pont-System of Financial Control 56 – ZVEI 57 – Benchmarking 58, 182 – Definition 92 – Grundlagenprobleme – Gefahren 106, 107 – Inkommensurabilität der Skalenniveaus 106, 107, 115 – Subjektivität 97, 117, 160, 194 – Zweckgebundenheit 91 – Klassifikation – Entscheidungsorientiertes Informationssystem 57, 59, 117 – Ordnungssystem 55, 57, 59, 91 – Validität und Reliabilität 91, 97, 160, 174, 198 – Verfahren zur Bestimmung eines Kennzahlensystems 96–98, 108, 119, 126, 200 Kennzahlinterpretation 58, 70, 94, 96, 177 – Abgrenzung zur Skalentransformation 177 – Artenpräferenz 93, 113, 114, 116, 123, 162, 177 – Beispiele 110 – Berücksichtigung von Kontextfaktoren 100, 101, 103, 171, 177, 196, 197 – Definition 105 – Existenz 105 – Grundlagenprobleme – Bandbreiteneffekt 115, 124 – Begrenzungen menschlichen Differenzierungsvermögens 111, 195 – Interpretations-, Fehler-, und Vergleichsproblematik 101 – Höhenpräferenz 93, 100–102, 114, 177 – Differenzunabhängigkeit 103–105, 108, 118, 120, 121, 123, 126, 178
– Referenzpunkt bzw. Anspruchsniveau 103, 107, 110 – Strenge Monotonie 108–111, 121, 126, 177 – Interaktionen – Abgrenzung empirischer und präferenzbasierter Interaktionen 119 – Elimination von Interaktionen 119, 124, 126 – Interaktionskoeffizient 121, 122 – komplementär und substitutiv 119, 126 – Kardinale Vergleichbarkeit 113, 177 – Normierungen 106, 124, 188 – Praktische Probleme/Fehlerquellen 126, 128, 195, 196 – Validität und Reliabilität 63, 128, 160, 198 – Verfahren zur Bestimmung einer Kennzahleninterpretation 100, 101, 106–110, 115, 116, 196, 197 Komplexität einer Entscheidungssituation 9, 14, 153, 191 Präferenz – Abbildung und Messung 100, 101, 106, 107, 123, 128 – Dekomponierung in Einzelpräferenzen und Aggregationsvorschrift 20, 105, 118, 192 – Differenzunabhängigkeitsbedingungen 20, 104, 108, 118, 120, 121, 123, 126, 178 Qualität – Beispiele – des Gesundheitswesens 84 – von Absolventen 18 – von Dienstleistungen 28, 130–132 – von Emissionen 12, 101 – von Finanzkontrakten 10, 67, 81, 86, 101 – von Forschungsleistungen 18, 28, 137, 176
Stichwortverzeichnis
– – – – – –
– von Hochschulleistungen 9, 16, 28, 61, 81, 84, 99, 130–132, 179, 180 – von Lebensversicherungen 61, 68, 81, 86, 88, 102 – von Lehrleistungen 18, 28, 40, 41, 99, 165, 179–187 – von politischen Programmen 33, 34, 41 einer Handlungsalternative 24, 27 einer Objektmenge 9 multi-kriterielles Qualitätskonzept 27, 90, 95 ordinale Bonitäts-/Qualitätsklassen 9, 10, 12, 102 Qualitätsentwicklung- und -sicherung 41 Unbestimmheit des Begriffs Qualität 32, 46
Rangfolge 113 – Definition 29, 84 – Entscheidungsunterstützender Informationsgehalt 76, 85, 117, 135, 161, 178, 179, 187, 191, 194, 198 – Fehlerquellen 17, 117, 128 – Klassifikation 61, 62, 126 – Objektivität 113, 114 – Subjektivität 114, 117, 160, 192, 194 – Validität und Reliabilität 10, 17, 61–63, 115, 128, 160, 161, 174, 191, 198 Rangplatz 113 Ranking – Abgrenzung zum Rating 31 – Beispiele 10, 11, 117, 124 – Definition 19, 25, 29, 62, 116 – Einfluss auf ökonomische Entscheidungen 14, 16, 18, 116, 191 – entscheidungsunterstützender Informationsgehalt 17, 58, 75, 85, 117,
–
– –
– – –
–
–
– – – – – –
231
135, 161, 178, 179, 187, 191, 194, 198 Existenzbedingungen – Additive Differenzunabhängigkeit 121, 123, 126, 178, 188, 189 – Gemeinsame Differenzunabhängigkeit 118, 123, 126, 178 – Multiplikative Differenzunabhängigkeit 120, 123, 126, 178 Fehler bei der Interpretation und Anwendung 17, 117 Grundlagenprobleme – Bandbreiteneffekt 115 – „Gefahr einer ,self-fulfilling prohecy‘“ 17, 18 historischer Entwicklungsprozess 15 Kennfunktion 116, 117, 121, 198 Klassifikation – additiv 122, 124–126, 178, 192 – deskriptiv 97 – linear 20, 117, 178 – multi-linear 20, 117–119, 121, 125, 126, 178, 192 – multiplikativ 20, 120–122, 125, 126, 178, 192 – normativ 97 – präskriptiv 97, 126 methodische Fehler – Auswertungsartefakt 195 – Bandbreiteneffekt 115 – Splitting-Effekt 128 methodische Fehler 17, 115, 117, 125, 126, 163, 164, 174, 194–196, 198 Nachfrage 15 Objektivität 113, 114 Perspektiven-, Werte- und Methodenpluralismus 46, 164, 167, 196, 197 präferenzbasierte Unterscheidung der Empfänger 20, 191, 196, 198 Rangreihung 10 Rechtsgrundlage der Veröffentlichung 16
232
Stichwortverzeichnis
– Subjektivität 114, 117, 160, 192, 194 – Theoretische Verfahren 9, 17, 18, 20, 26, 30, 31, 46, 47, 54, 59, 115, 123, 198 – iterativer Prozess bzw. rekursive Modellierung 72, 89, 128 – Prävalenztheorie 115 – Validität und Reliabilität 10, 17, 18, 20, 26, 28, 47, 54, 62, 69–71, 74, 86, 115, 117, 127, 128, 160, 161, 174, 178, 191, 198 – Verfahren zur Bestimmung eines Ranking 123–126 – software-gestützt 178, 199, 200 – Verfahrensstandard 18, 28, 30, 47, 63, 69, 70–74, 161, 179, 191, 198 – intersubjektive Vergleichbarkeit 70, 75, 76, 127, 189, 196 – wissenschaftliche Fundierung 15, 16 – Ziel-, Subjekt-, Objekt- und Zeitbezug 59 – Zielerreichungsgrade 114, 116 Ranking-Modell 47, 113, 123, 178, 197–199 – Subjektivität 117, 160, 192, 194 – Validität 63, 116, 174, 188, 189, 197, 198 – Zweckmäßigkeit deterministischer Rankings 30 Ranking-Objektmenge 54, 58, 166– 170 – Beispiele 80, 81 – Definition 80 – Entscheidungsrelevanter Kontext 79, 80, 82, 85, 134, 167, 171, 177 – methodische Fehler 169, 174, 180, 181, 198 – Notwendigkeit einer Differenzierung 17, 20, 28, 47, 80, 81, 166–170, 180, 181, 196, 197
– Repräsentation 91, 113, 117, 197 – Strukturähnlichkeit/Rahmenbedingungen 59, 60, 70, 80, 81, 107, 166–170, 180–182, 198 – Validität 63, 90, 174, 198 – Verfahren zur Bestimmung der Ranking-Objektmenge 82, 90, 167, 168, 169 – Verkleinerung durch Kennzahlen-Anspruchsniveaus 103 Ranking-Ziel 63, 174, 198 – Definition 75, 76, 162 – Offenlegung/explizite Formulierung konkurrierender Zielsysteme 17, 20, 28, 47 – Operationalisierung 63, 85 – Validität 75, 77, 87, 90, 93, 116, 117, 162 Ranking-Zielgruppe 162–166 – Beispiele 22, 174, 198 – Definition 75 – Entscheidungsprämissen/Wertesystem 17, 69, 70, 74, 76, 79, 85, 86, 114, 115, 124, 196, 197 – Notwendigkeit einer Differenzierung 20, 28, 47, 69, 74–79, 114, 161–166, 174, 180, 196, 197 – Präferenzrelationen – Repräsentation durch ein Zielsystem 85, 86, 197, 198 – Repräsentation durch Nutzenfunktionen 62, 114, 123, 188, 189, 197, 198 – Präferenzrelationen 59, 112 – Validität 63, 174, 198 – Verfahren zur Bestimmung von Ranking-Zielgruppen 164, 165, 175, 199 Ranking-Zielsystem – Anforderungen 54, 86, 88 – Diskriminanz 89, 175
Stichwortverzeichnis – gegenseitige Präferenzunabhängigkeit 89, 90, 95, 107, 123, 126, 171, 174, 192 – Kompatibilität mit den Zielen des Entscheidungsträgers 87, 90, 93, 116, 117, 162, 174 – Minimalität 89, 175 – Operationalisierbarkeit 88, 174 – Redundanzfreiheit 88, 174 – Vollständigkeit 87, 174 – Widerspruchsfreiheit 87, 174 – Definition 85, 87 – Operationalisierung durch Kennzahlen 89, 91, 93, 97 – Validität 63, 90, 174, 198 – Verfahren zur Bestimmung des Ranking-Zielsystems 89, 90 – Redefinition 126, 175 – Zielhierarchie 98 – Zeitabhängigkeit 175 – Zielarten 86–91, 97, 98, 100, 119 – Zielkonflikte 98 Rating – Abgrenzung zum Ranking 31 – Beispiele – Lebensversicherungen 27, 68, 112, 117 – Versicherungsunternehmen 11–13, 24, 67 – Bond-Rating 12, 67 – Definition 25 – Einfluss auf ökonomische Entscheidungen 14, 16, 67, 116 – empirische Signifikanz 13, 67 – entscheidungsunterstützender Informationsgehalt 17, 67, 85, 135, 178, 187, 191, 194, 198 – Fehler bei der Interpretation und Anwendung 17, 117 – „Gefahr einer ,self-fulfilling prohecy‘“ 17, 18 – methodische Fehler 17, 115, 117, 125, 126, 174, 194–196, 198
233
– präferenzbasierte Differenzierung nach Zielgruppen 10, 123, 191, 196–198 – Rechtsgrundlage der Veröffentlichung 16 – split-rating 17 – Subjektivität 24, 117, 160, 192, 194 – Validität und Reliabilität 10, 17, 18, 28, 69, 115, 117, 160, 174, 191, 198 – Verfahren 9, 17 – Verfahrensstandard für deutsche Lebensversicherungsunternehmen 10, 63, 67–69 – Verfahrensstandard 13, 28, 191, 198 Rating-Agentur – Beispiele – Duff & Phelps 13 – Fitch Investor Service 13, 16 – Moody’s Investors Service 12, 16, 17, 22, 24, 25, 67, 101, 116, 131, 159, 191, 193 – Standard & Poor’s 12, 13, 16, 17, 22, 25, 67, 101, 116, 131, 159, 191, 193 – Einfluss auf ökonomische Entscheidungen 14, 16, 191 – Fehlbewertungen 14 – Lebensversicherungen – A.M. Best 11, 13, 25, 67 – Capital 68 – map 68 – Morgen & Morgen 68, 112 – Reputation 13 Rationalität – prozedurale 19, 27 – subjektive Formalrationalität 29, 192 Wirkungsmodell 17, 20, 58, 59, 170, 171, 172, 173, 174 – Arten – formale Wirkungsmodelle und Mittel-Ziel-Netzwerke 84, 85 – Kausalmodell 171, 172
234
Stichwortverzeichnis
– Strukturmodell 172, 182 – Definition 82 – Klassifikation in Hochschul-Rankings verwendeter Kennzahlen 23 – Modellgestützte Komplexitätsreduktion 107 – Notwendigkeit 83, 85, 87, 93 – Struktur-, Prozess- und Ergebnisqualität 84, 171–174, 182, 198 – Validität 63, 90, 174, 198 – Wirkungs- und Erfolgskontrolle 83 – Wirkungsmessung bei Dienstleistungen 131, 132 Wirtschaftstheorie – axiomatische Indextheorie 62, 108, 109 – Homogenität-Axiom 62 – Monotonie-Axiom 62 – Symmetrie-Axiom 62 – Nutzen- und Präferenztheorie – gegenseitige Präferenzunabhängigkeit 95, 107, 192
– kardinale Präferenzfunktion 101, 108 – Lexikographische Ordnung 101, 114 – ordinale Präferenzfunktion 100 – Ordnungsrelation 100 – Pareto-Effizienz 113, 114 – partielle Nutzenskala 100, 101 – Präferenzabhängiges Zielsystem 90 – Präferenzrelationen 94, 100 – Präferenzunabhängigkeit 94, 107, 123 – Sozialwahlfunktion 114 – Unabhängigkeitsaxiome 62, 118, 120, 121 Ziel- und Kennzahlensystem 17, 20 – gegenseitige Präferenzunabhängigkeit 20, 95, 107, 123, 126, 192