Politikevaluation: Eine Einführung (German Edition) 3658324899, 9783658324896

Dieses Lehrbuch führt in die Grundlagen der Politikevaluation ein. Es zeigt deren Begrifflichkeiten, Entstehung, Theorie

102 74 3MB

English Pages 287 [282] Year 2021

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Einleitung
Bibliographie
Autor*innendeklaration
Inhaltsverzeichnis
1: Begriffliche Grundlagen
1.1 Was ist Politikevaluation?
1.2 Erkennen und Bewerten
1.3 Evaluation im Policy Cycle
1.4 Grundlagenforschung versus anwendungsorientierte Forschung
1.5 Evaluation in Abgrenzung zu anderen Instrumenten der „Wirkungsprüfung“
Bibliographie
2: Konzeptionelle Grundlagen öffentlicher Politik
2.1 Öffentliche Politik als Gegenstand der Politikevaluation
2.2 Die Idee von Wirkung: Das Wirkungsmodell öffentlicher Politik
2.2.1 Problem und Problemursachenhypothese
2.2.2 Interventionshypothese und Policy-Instrumente
2.3 Öffentliche Politik als Prozess: Konzeptversagen und Umsetzungsversagen
2.4 Learnings aus der Felderfahrung: Was alles schiefgehen kann bei einer öffentlichen Politik
2.5 „Wie vorgehen?“-Kasten: Wie formuliere ich eine Evaluationsfrage?
2.6 Illustratives Anwendungsbeispiel: Das australische Home Insulation Program
Bibliographie
3: Die Entstehung und Etablierung der Wirkungsforschung
3.1 Die Entwicklung der Evaluationsforschung
3.1.1 Die erste Generation – das „Messen“
3.1.2 Die zweite Generation – das „Beschreiben“
3.1.3 Die dritte Generation – die „Bewertung“
3.1.4 Die vierte Generation – das „Verhandeln“
3.1.5 Der Beitrag des Evidence-Based Policy-Making – die „systematische Zweitauswertung“
3.2 Die Institutionalisierung von Evaluation im deutsch- und französischsprachigen Raum
3.2.1 Deutschland
3.2.2 Schweiz
3.2.3 Österreich
3.2.4 Frankreich
3.3 Entstehung einer Disziplin
3.4 Learnings aus der Felderfahrung: Wozu Evaluationen dienen können!
3.4.1 Bilanzierung
3.4.2 Verbesserung
3.4.3 Wissensgenerierung
3.4.4 Taktik
3.5 „Wie vorgehen?“-Kasten: Evaluation und Politikberatung – was es zu bedenken gibt
3.6 Illustratives Anwendungsbeispiel zur Verdeutlichung der Grundpfeiler der Evaluationsforschung
3.6.1 Ausgangslage
3.6.2 Methodik
3.6.3 Fragestellung und Ergebnisse der Evaluation
Bibliographie
4: Überblick über ausgewählte Evaluationsansätze
4.1 Der Methodenast („Methods“)
4.1.1 Experimentelle und quasi-experimentelle Evaluationsansätze
4.1.2 Theoriegeleitete Evaluationsansätze
4.1.3 Kontributionsanalyse
4.1.4 Realistische Evaluation
4.2 Der Nutzenast („Use“)
4.2.1 Nutzenorientierte Evaluation
4.2.2 Critical Friend Approach
4.2.3 Empowerment Evaluation
4.3 Der Wertungsast („Valuing“)
4.3.1 Zielbasierte Evaluationen
4.3.2 Zielfreie Evaluationen
4.3.3 Expertenbasierte Evaluation
4.3.4 Dialoggesteuerte Evaluation
4.4 Stärken und Schwächen der Evaluationsansätze im Vergleich
4.5 Learnings aus der Felderfahrung: Selbst- und Fremdevaluation im Vergleich
4.6 Illustratives Anwendungsbeispiel einer nutzenorientierten Evaluation
4.6.1 Erste Schleife
4.6.2 Zweite Schleife
4.6.3 Dritte Schleife
Bibliographie
5: Evaluationsgegenstände und Kriterien
5.1 Gesellschaftliches Problem als Ursprung und Ziel öffentlicher Politik
5.2 Politikkonzept
5.2.1 Empirische Evidenz
5.2.2 Innere Kohärenz (Intrapolicy Kohärenz)
5.2.3 Äussere Kohärenz (Interpolicy Kohärenz)
5.3 Umsetzungsorganisation
5.3.1 Eignung
5.3.2 Nachhaltigkeit
5.4 Output
5.4.1 Angemessenheit
5.4.2 Effizienz
5.5 Outcome
5.5.1 Wirksamkeit
5.5.2 Effizienz
5.6 Impact
5.7 Learnings aus der Felderfahrung: Was kann wann evaluiert werden?
5.8 „Wie vorgehen?“-Kasten: Wie definiert man Evaluationskriterien?
5.9 Illustratives Anwendungsbeispiel: Tabakpräventionspolitik in der Schweiz
5.9.1 Gesellschaftliches Problem
5.9.2 Politikkonzept
5.9.3 Umsetzungsorganisation
5.9.4 Output
5.9.5 Outcome
5.9.6 Impact
Bibliographie
6: Die Modellierung von Wirkung
6.1 Das lineare Modell
6.2 Der Realistische Evaluationsansatz: die Bedeutung des Kontexts
6.3 Learnings aus der Felderfahrung: die Modellierung von Wirkung in einem Mehrebenensystem
6.4 Learnings aus der Felderfahrung: Wie mache ich eine Ausschreibung?
6.4.1 Hintergrund und Gegenstand der Evaluation
6.4.2 Beschreibung des Evaluationsauftrags
6.4.3 Organisatorische und praktische Informationen
6.4.4 Checkliste zur Erstellung eines Pflichtenhefts
6.5 „Wie vorgehen?“-Kasten: Wie mache ich ein Wirkungsmodell?
6.6 Illustratives Anwendungsbeispiel: Mehrebenenevaluation der Deutschen Asylpolitik
6.6.1 Verteilung der Kompetenzen im Mehrebenensystem
6.6.2 Vollzugsprobleme im Verwaltungsföderalismus
Bibliographie
7: Die Evaluation von institutionellen Politiken
7.1 Substanzielle Politiken gegenüber institutioneller Politiken
7.2 Die Evaluation institutioneller Politiken
7.3 Beispiele der Evaluation institutioneller Reformen
7.3.1 Evaluation von New Public Management
7.3.2 Evaluation von Gemeindefusionen
7.4 Learnings aus der Felderfahrung: Evaluationen in einem Reformkontext: Machtspiele und Interessen
7.5 „Wie vorgehen?“-Kasten: Planung einer Evaluation institutioneller Reformen
7.6 Illustratives Anwendungsbeispiel: Evaluation eines Verwaltungsreformprogramms
Bibliographie
8: Evaluationsdesign
8.1 Was ist ein Evaluationsdesign?
8.2 Die Vergleichsebene als Grundlage des Evaluationsdesigns
8.2.1 Quervergleich
8.2.2 Vorher-Nachher-Vergleich
8.2.3 Soll-Ist-Vergleich
8.2.4 Konzeptionelle Triangulation
8.3 Fallstudie
8.4 Learnings aus der Felderfahrung: Was sind die Hürden bei Vergleichen?
8.5 „Wie vorgehen?“-Kasten: Wie wählt man ein Untersuchungsdesign aus?
8.6 Illustratives Anwendungsbeispiel für verschiedene Typen von Triangulation
8.6.1 Arbeitsschritt 1: Klärung der Evaluationsfragen
8.6.2 Arbeitsschritt 2: Klärung der Ziele der Evaluation
8.6.3 Arbeitsschritt 3: Klärung der Verantwortlichkeiten
8.6.4 Arbeitsschritt 4: Festlegung des Evaluationsdesigns
8.6.5 Arbeitsschritt 5: Datenerhebung und Datenanalyse
8.6.6 Arbeitsschritt 6: Diffusion und Nutzung der Evaluationsergebnisse
Bibliographie
9: Techniken der Datenerhebung und -analyse
9.1 Datenerhebung
9.1.1 Aspekte, die die Wahl der Daten beeinflussen
9.1.2 Qualitative, quantitative, gemischte Ansätze
9.1.3 Instrumente zur Datenerhebung und -analyse
9.1.3.1 Interviews
9.1.3.2 Fokus-Gruppen
9.1.3.3 Dokumentenanalyse
9.1.3.4 Umfragen
9.1.3.5 Beobachtungen
9.1.3.6 Randomisierte kontrollierte Studien
9.1.3.7 Quasi-experimentelle Methoden
9.1.4 Quellen und Typen von Daten
9.1.4.1 Vorhandene Daten und Ad-hoc-Datenerhebung
9.1.4.2 Qualitative und quantitative Daten
9.1.4.3 Datenquellen
9.1.4.4 Typen von Daten
9.1.4.5 Monographische und vergleichende Daten
9.1.5 Vollerhebung oder Stichprobenerhebung
9.2 Analyse der Daten
9.2.1 Interpretation der Ergebnisse
9.2.2 Die Formulierung von Empfehlungen
9.2.3 Transparenz und Reproduzierbarkeit
9.2.3.1 Transparenz
9.2.3.2 Reproduzierbarkeit
9.3 „Wie vorgehen?“-Kasten: Was sind die Vor- und Nachteile unterschiedlicher Methoden und wie wählt man die geeigneten Methoden aus?
9.4 Illustratives Anwendungsbeispiel: Die Datenerhebung und -ana
Bibliographie
10: Nutzung von Evaluationsergebnissen
10.1 Von der Verwendung zum Einfluss
10.1.1 Die klassische Verwendungsforschung
10.1.2 Interaktionistische Verwendungsforschung
10.1.3 Einfluss statt Verwendung von Evaluationen
10.2 Arten des Nutzens der Evaluation
10.2.1 Instrumenteller Nutzen
10.2.2 Konzeptioneller Nutzen
10.2.3 Prozessbezogener Nutzen
10.2.4 Symbolischer Nutzen
10.3 Von der Nutzung von Evaluationen zur evidenzbasierten Politik
10.4 „Wie vorgehen?“-Kasten: Wie kann man den Nutzen von Evaluationen erhöhen?
10.5 Illustratives Anwendungsbeispiel: Institutionalisierung der Evaluationsfunktion und Nutzung von Evaluationsergebnissen
10.5.1 Die Rolle eines Evaluationsdiensts in der Verwaltung
10.5.2 Konkreter Nutzen im Falle der Evaluation des Betäubungsmittelgesetzes (BetmG)
Bibliographie
11: Qualitätssicherung von Evaluationen
11.1 Qualitätssicherung am Beispiel der Evaluations-Standards in Österreich, Deutschland und der Schweiz
11.1.1 Nützlichkeit
11.1.2 Durchführbarkeit
11.1.3 Fairness
11.1.4 Genauigkeit
11.2 Meta-Evaluation, Meta-Analyse und Evaluationssynthese
11.2.1 Meta-Evaluationen
11.2.2 Meta-Analysen und Evaluationssynthesen
11.3 Unabhängigkeit von Evaluationen und Druckausübung auf Evaluierende
11.4 Praxisbezogene präventive Massnahmen zur Stärkung der Unabhängigkeit
11.5 Learnings aus der Felderfahrung: Feedback und Review-Runden mit den Betroffenen
11.6 „Wie vorgehen?“-Kasten: Wie bezieht man Beteiligte und Betroffene ein, ohne die Unabhängigkeit zu verlieren?
Bibliographie
12: Die Bedeutung von Evaluationen in der heutigen Politik
12.1 Die Verbreitung von Evaluationen im deutschsprachigen Raum und darüber hinaus
12.2 Die Bedeutung von Evaluationen in Parlamenten
12.3 Die Bedeutung von Evaluationen im direktdemokratischen Diskurs
12.4 Learnings aus der Felderfahrung: gute und schlechte Kommunikation
12.5 „Wie vorgehen?“-Kasten: Wie kommuniziert man Evaluationsresultate Politiker*innen?
Bibliographie
Recommend Papers

Politikevaluation: Eine Einführung (German Edition)
 3658324899, 9783658324896

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Fritz Sager · Susanne Hadorn Andreas Balthasar · Céline Mavrot

Politikevaluation Eine Einführung

Inklusive SN Flashcards Lern-App

Politikevaluation

Fritz Sager • Susanne Hadorn Andreas Balthasar • Céline Mavrot

Politikevaluation Eine Einführung

Fritz Sager Universität Bern Bern, Schweiz

Susanne Hadorn Universität Bern Bern, Schweiz

Andreas Balthasar Universität Luzern Luzern, Schweiz

Céline Mavrot Universität Bern Bern, Schweiz

ISBN 978-3-658-32489-6    ISBN 978-3-658-32490-2  (eBook) https://doi.org/10.1007/978-3-658-32490-2 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer VS © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Lektorat: Jan Treibel Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany

Einleitung

Das vorliegende Buch ist ein anwendungsorientiertes Lehrmittel zur Politikevaluation. Politikevaluationen, das heisst die empirisch fundierte, transparente und reproduzierbare Bewertung von Interventionen zur Lösung gesellschaftlicher Pro­bleme, haben sich im deutschsprachigen Raum in den letzten rund 30 Jahren mit länderspezifischen Unterschieden als fixer Bestandteil des politischen Instrumentariums etabliert. Dabei dienen sie zur Kontrolle, zur Rechenschaftsablage, aber auch zum problemorientierten politischen Lernen und zur informierten Debatte. Wie wir in Kap.  3 aufzeigen, waren die wesentlichen Treiber der Politikevaluation das Interesse an Leistungsmessungen bei Schüler*innen Ende des 19. Jahrhunderts, die Bemühungen rund um den in den USA von Präsident Kennedy in den 1960er-Jahren lancierten ‚War on Poverty‘, das Aufkommen des New Public Management und seiner Idee der wirkungsorientierten Verwaltungsführung ab den späten 1980er-­Jahren und die ab 1997 von Großbritannien ausgehende Bewegung des ‚evidence-­based policy-making‘. Entstanden in der Zeit der Wirtschaftskrise Ende der 1970er-Jahre, manifestierte sich die Idee des New Public Management (NPM) in diversen verwaltungsinternen Reformen, welche versuchten, eine verstärkt betriebswirtschaftliche Funktionsweise in der öffentlichen Verwaltung zu etablieren (Bogumil et al. 2006, S. 9; Thom und Ritz 2017, S. 12–13; vgl. dazu Abschn.  7.3.1). Derweilen strebt die Bewegung des ‚evidence-based policy-making‘ (EBP) die möglichst effektive Bereitstellung von wissenschaftlichen Erkenntnissen für sowie deren Nutzung durch die Politik an. Dies, damit Evidenz in die Politikgestaltung einfließt, womit das grundlegende Ziel des EBP – der Übergang von ideologiebasierter zu evidenzbasierter Politikgestaltung – erreicht werden soll (Nutley et al. 2007, S. 10; vgl. dazu Abschn. 3.1.5).

V

VI

Einleitung

Im Laufe dieser Entwicklungen hat sich die Politikevaluation von einer Ausnahmeerscheinung zur Regel gemausert. Heute gehört es zur guten Praxis zeitgemäßer Verwaltungsführung, öffentliche Politiken, Programme und Projekte systematisch zu evaluieren und die Informationen zur Wirksamkeit bilden Entscheidungsgrundlagen für Veränderungen, Weiterführungen oder Beendigung von Maßnahmen. Ebenso gewinnt die Evaluation zwecks Förderung der Transparenz und der Stärkung von Lernprozessen auch in nichtstaatlichen Organisationen wie Verbänden und Stiftungen immer mehr an Bedeutung. Während es im englischen Sprachraum eine Vielzahl hervorragender Einführungen in das Feld der Politikevaluation gibt (Alkin und Vo 2017; Fox et al. 2016; Nagel 2002; Vedung 1997; Weiss 1979; Wholey et al. 2010), finden wir im deutschen Sprachraum zwar sehr gute Lehrbücher zur Evaluation generell, jedoch kein vertieftes Lehrmittel zur Politikevaluation, das den aktuellen Stand der Disziplin wiedergibt. Die umfassendste „Einführung in die Politikevaluation“ bietet das so betitelte Buch von Werner Bussmann, Ulrich Klöti und Peter Knoepfel (Bussmann et al. 1997). Dieses Pionierbuch bringt die langjährige Praxiserfahrung der Autoren zusammen und eröffnete das akademische Feld der Evaluationsforschung in der Schweiz. Nach seinem Erscheinen im Jahr 1997 hat das Buch jedoch keine Aktualisierung erfahren. Thomas Widmer und Thomas De Rocchi legten 2012 eine sehr hilfreiche und elegante Kurzeinführung vor, die es schafft, trotz ihres knappen Umfangs alle relevante Elemente der Evaluation anzugehen (Widmer und De Rocchi 2012). Das Buch bietet somit zwar einen informierten Einstieg, ohne aber eine vertiefte und anwendungsorientierte Einführung sein zu wollen. Ohne den Hauptfokus auf die Evaluation zu legen, bietet zudem das Buch Analyse et pilotage des politiques publiques (Knoepfel et al. 2015) ein klares Modell für die Analyse öffentlicher Politik und enthält wertvolle Ausführungen zur Evaluation. Von Reinhard Stockmann, Wolfgang Meyer, als auch Wolfgang Beywl wiederum liegen verschiedene sehr gute und auch didaktisch aufbereitete Grundlagenwerke vor, die sich aber mit Evaluierung generell und nicht spezifisch mit Politikevaluation befassen. Nicht zuletzt werden im Sammelband Regards croisés sur l’évaluation en Suisse aus dem Jahr 2015 von Katia Horber-Papazian unterschiedliche Perspektiven über den Platz der Evaluation im schweizerischen System dargestellt und diese im internationalen Kontext verortet (Horber-Papazian 2015). Dieses Buch bietet somit einen wertvollen Überblick über der Rolle der Evaluation in einer Demokratie, während die anwendungsorientierten Aspekte nicht der Hauptfokus sind. Mit dem vorliegenden Text wollen wir diese Lücke schließen und legen ein Lehrbuch mit didaktischem Anspruch und aktuellen Anwendungsbeispielen mit Fokus Evaluation öffentlicher Politiken im deutschen Sprachraum vor.

Einleitung

VII

Das Buch ist als Lehrmittel verfasst. Es richtet sich vornehmlich an zwei Zielgruppen: Einerseits ist es für Studierende an höheren Aus- und Weiterbildungsinstitutionen verfasst, welche Grundlagen und Praxis der Evaluation studieren möchten. Andererseits soll es aber auch Akteur*innen dienen, welche sich mit der Aufgabe konfrontiert sehen, Evaluationen in einem politischen Kontext in Auftrag zu geben, zu erstellen, zu beurteilen, zu lesen oder zu nutzen. Dies betrifft nicht allein öffentliche Verwaltungen, sondern ebenso Nicht-Regierungsorganisationen, Verbände und weitere Akteur*innen im Bereich der öffentlichen Politik sowie Mitglieder von politischen Behörden der Legislative und der Exekutive, die Policy-­Entscheidungen treffen. Im aktuellen Kontext, in welchem Evaluationen zunehmend erforderlich sind, ist es zentral, dass sich die betroffenen Organisationen auch selber Wissen über Evaluation aneignen. Dies nicht zuletzt, weil Evaluationen ein wichtiges Instrument in Policy-Prozessen sein können, und sich daher alle Beteiligten entsprechend vertieft und kritisch damit auseinandersetzen müssen. Das Buch ist zudem so aufgebaut, dass es auch allen anderen Interessierten den Einstieg in die Evaluationsthematik erleichtert. Leser*innen, die das Buch als Lernmittel nutzen, sollten nach der Verarbeitung der nachfolgenden Inhalte eine Reihe von Fähig- und Fertigkeiten vermittelt erhalten haben. Kasten 1 listet die Lernziele des Buches auf, anhand welcher die Leser*innen das Buch ihrerseits evaluieren können.

Kasten 1: Lernziele

Die Leser*innen • sollten wissen, was eine Politikevaluation ist, was sie kann und was sie nicht kann. • sollten vertraut sein mit den unterschiedlichen Wirkungsebenen einer öffentlichen Politik. • sollten vertraut sein mit den gängigen Evaluationsansätzen, -designs und Forschungsmethoden. • sollten die Grundlagen kennen, um selber eine Evaluation konzipieren, in Auftrag geben oder durchführen zu können. • sollten fähig sein, eine Evaluation zu gestalten, die ihre Fragestellung beantwortet und die nützliche Ergebnisse produziert. • sollten die Schritte der Planung und der Durchführung einer Evaluation anwenden können.

VIII

Einleitung

• sollten die Qualität einer Evaluation beurteilen können. • sollten die typischen Spannungsfelder im Evaluationskontext sowie Massnahmen und Standards der Qualitätssicherung kennen. • sollten die Kommunikationsprozesse der Ergebnisse sowie die Prozesse der Einbindung der Befunde in die weitere Praxis kennen.

Um den Nutzer*innen des Buches das Erreichen dieser Lernziele zu erleichtern, folgt das Buch einer stringenten Struktur. Die Kapitel sind nach einem einheitlichen Raster aufgebaut. Die einzelnen Kapitel beginnen je mit den theoretischen und begrifflichen Grundlagen des jeweiligen Themas, gefolgt von einem zusammenfassenden „Wie vorgehen?“-Kasten mit einer konkreten, stichwortartigen Standardvorgehensweise. Diese Vorgehensweise findet anschließend eine Illustration in Form eines realen Anwendungsbeispiels. Die Kapitel enden mit einer thematischen state-of-the-art Literaturliste. Ergänzend sind zu den einzelnen Kapiteln Übungsaufgaben und Lösungsvorschläge auf der SN Flashcards Onlineplattform greifbar. Das Buch gliedert sich entlang der konstitutiven Eigenschaften von Politikevaluation (Bussmann et al. 1997). In Kap. 1 werden die begrifflichen Grundlagen gelegt. Politikevaluation im engeren Sinne bezeichnet die wissenschaftliche und empirisch gestützte Beurteilung der Konzeption, des Vollzugs und der Wirksamkeit öffentlicher Politik, seien dies Maßnahmen, Programme oder Projekte. In Kap. 2 gehen wir auf die öffentliche Politik als Evaluationsgegenstand ein. Die Eva­ luationsforschung ist nicht auf einen Schlag entstanden, sondern sieht auf eine lange Disziplinenbildung zurück, über die wir in Kap. 3 einen Abriss geben. Evaluationen nehmen unterschiedliche Formen an. In Kap. 4 präsentieren wir die verschiedenen Evaluationstypen und erläutern, welcher Typ sich in welchem Kontext und je nach Fragestellung eignet. Evaluationen bewerten öffentliche Politik nach transparenten Kriterien und stellen Kausalzusammenhänge zwischen Aktivitäten und Wirkungen dar. Wir gehen in Kap. 5 auf die Evaluationsgegenstände und die Kriterien zu ihrer Beurteilung ein. Kap. 6 zeigt auf, wie die einzelnen Evaluationsgegenstände zur Modellierung von Wirkung zusammengefügt werden und diskutiert unterschiedliche Wirkungsmodelle. Diese Modelle fokussieren vorab auf die substanzielle öffentliche Politik (z. B. Migrationspolitik). Im Rahmen von Reformen stellt sich der Evaluationsforschung aber auch die Aufgabe, institutionelle Politik (z.  B.  Verwaltungsreform) auf ihre Wirkungen hin zu beurteilen. Kap.  7 präsentiert diese besondere Art von Evaluationen. Sowohl die Evaluation institu-

Einleitung

IX

tioneller als auch diejenige substanzieller Politik braucht klare Untersuchungsdesigns und M ­ ethoden. Kap.  8 führt in die unterschiedlichen Untersuchungsdesigns der Evaluationsforschung ein. Kap.  9 präsentiert sodann die gängigen Methoden der sozialwissenschaftlichen Datenerhebung und -auswertung. Evaluationen dienen unterschiedlichen Nutzungszwecken wie der Entscheidungsfindung, der Rechenschaftsablage, der Kontrolle oder als Grundlage qualifizierter Diskussionen. Oft haben sie auch taktische Funktionen, womit wir sie wieder als Teil des politischen Prozesses erkennen. Wir diskutieren in Kap. 10 die verschiedenen Nutzungsarten von Politikevaluationen. Weil Politikevaluationen politisch bedeutend sind, müssen sie hohen Qualitätsstandards genügen, die nicht zuletzt die Unabhängigkeit der Bewertung gewährleisten sollen. Kap.  11 präsentiert Evaluationsstandards und diskutiert das Problem der politischen Beeinflussung von Evaluationen. Kap. 12 geht schließlich auf den Einfluss von Evaluationen über die unmittelbare bewusste Nutzung hinaus und zeigt die Bedeutung von Evaluationen im parlamentarischen und öffentlichen politischen Diskurs auf. Dieses Buch hat wesentlich von verschiedenen Menschen und begünstigenden Umständen profitiert. Das Autor*innenteam blickt auf eine erfolgreiche Zusam­ menarbeit im Rahmen des mehrjährigen Forschungsprojekts „Vergleichende Evaluation der kantonalen Tabakpräventionsprogramme“ zurück, das vom Schweizerischen Tabakpräventionsfonds unterstützt wurde. Fritz Sager verfasste die Mehrzahl seiner Beiträge im Rahmen seines Sabbaticals an der Harvard University, Cambridge, MA, wo er hervorragende Arbeitsbedingungen und einen reichen intellektuellen Austausch am Center for European Studies sowie am Ash Center for Democratic Governance and Innovation der Harvard Kennedy School genoss. Céline Mavrot verwendete einen Teil ihres einjährigen Aufenthaltes an der David Geffen School of Medicine, University of California – Los Angeles (UCLA), im Rahmen ihres PostDoc Grants des Schweizerischen Nationalfonds (SNF) für die Arbeit an diesem Buch. Andreas Balthasar konnte auf den reichen Erfahrungsschatz seiner Kolleg*innen bei Interface Politikstudien und auf die Unterstützung seiner Assistentin an der Universität Luzern, Chiara Büchler, zurückgreifen. Fritz Sager, Susanne Hadorn und Céline Mavrot hatten den großen Vorteil, Teil eines hervorragenden und inspirierenden Teams am Kompetenzzentrum für Public Management (KPM) der Universität Bern zu sein. Besonders hervorzuheben sind dabei unsere studentischen Mitarbeitenden Deborah Fritzsche und Leroy Ramseier, die uns wesentlich bei der Fertigstellung unterstützt haben. Dieses Buch baut nicht zuletzt auf unserer praktischen Erfahrung mit Evaluationen öffentlicher Politik auf. Eine große Zahl von Betroffenen und Beteiligten schenkte uns ihr Vertrauen und teilte ihre Erfahrungen mit uns im Rahmen aller im Folgenden genannten schweizeri-

X

Einleitung

schen Evaluationsbeispiele. Weiter hatte dieses Buch auch eine exquisite Kontrolllesegruppe: die Studierenden der Vorlesung ‚Politikevaluation‘ im H ­ erbstsemester 2020 an der Universität Bern haben wertvolle Rückmeldungen zu den einzelnen Kapiteln gegeben, die deren didaktischen Wert wesentlich steigerten. Schließlich hat das Interesse des Springer-Verlags uns sehr motiviert, das Buchprojekt zügig voranzutreiben. All diesen Institutionen, Evaluations-­ Stakeholder*innen, Mitarbeitenden, Kolleg*innen und (kritischen) Freund*innen sprechen wir unseren herzlichen Dank aus.

Bibliographie Alkin, M. C., & Vo, A. T. (2017). Evaluation essentials: From A to Z. New York: Guilford Publications. Bogumil, J., Grohs, S., & Kuhlmann, S. (2006). Ergebnisse und Wirkungen kommunaler Verwaltungsmodernisierung in Deutschland-Eine Evaluation nach zehn Jahren Praxiserfahrung. In J. Bogumil, W. Jann & F. Nullmeier (Hrsg.), Politik und Verwaltung (S. 151–184). Wiesbaden: VS Verlag für Sozialwissenschaften. Bussmann, W., Klöti, U., & Knoepfel, P. (Hrsg.). (1997). Einführung in die Politikevaluation. Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Fox, C., Grimm, R., & Caldeira, R. (2016). An introduction to evaluation (1. Aufl.). SAGE. Horber-Papazian, K. (2015). Regards croisés sur l’évaluation en Suisse. Presses Polytechniques et Universitaires Romandes. Knoepfel, P., Larrue, C., Varone, F., & Savard, J.-F. (2015). Analyse et pilotage des politiques publiques: France, Suisse, Canada. PUQ. Nagel, S. S. (2002). Handbook of public policy evaluation. SAGE. Nutley, S., Walter, I., & Davies, H. T. O. (2007). Using evidence: How research can inform public services. Bristol: The Policy Press. Thom, N., & Ritz, A. (2017). Public Management. Innovative Konzepte zur Führung im öffentlichen Sektor (5., akt. Aufl.). Wiesbaden: Springer Gabler. Vedung, E. (1997). Public policy and program evaluation. New Brunswick: Transaction Publishers. Weiss, C.  H. (1979). The many meanings of research utilization. Public Administration Review, 39(5), 426–431. JSTOR. Wholey, J. S., Hatry, H. P., & Newcomer, K. E. (Hrsg.). (2010). Handbook of practical program evaluation (3. Aufl.). San Francisco: Jossey-Bass.

Einleitung

XI

Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger.

Autor*innendeklaration Tab. 1 fasst zusammen, welche Beiträge durch welche der vier Autor*innen verfasst wurden. Tab. 1  Übersicht über die Autorenschaft

Kapitel Einführung Kap. 1 Kap. 2 Kap. 3 Kap. 4 Kap. 5 Kap. 6 Kap. 7 Kap. 8 Kap. 9 Kap. 10 Kap. 11 Kap. 12

Autor*innen Fritz Sager Fritz Sager & Andreas Balthasar Fritz Sager Andreas Balthasar Andreas Balthasar Susanne Hadorn Fritz Sager, Andreas Balthasar & Susanne Hadorn Fritz Sager & Susanne Hadorn Andreas Balthasar & Susanne Hadorn Céline Mavrot Fritz Sager, Andreas Balthasar & Susanne Hadorn Susanne Hadorn & Fritz Sager Fritz Sager & Susanne Hadorn

Inhaltsverzeichnis

1 Begriffliche Grundlagen �������������������������������������������������������������������������  1 1.1 Was ist Politikevaluation?�����������������������������������������������������������������  1 1.2 Erkennen und Bewerten �������������������������������������������������������������������  3 1.3 Evaluation im Policy Cycle���������������������������������������������������������������  4 1.4 Grundlagenforschung versus anwendungsorientierte Forschung�����  7 1.5 Evaluation in Abgrenzung zu anderen Instrumenten der „Wirkungsprüfung“��������������������������������������������������������������������������� 10 Bibliographie ��������������������������������������������������������������������������������������������� 14 2 Konzeptionelle Grundlagen öffentlicher Politik ����������������������������������� 17 2.1 Öffentliche Politik als Gegenstand der Politikevaluation����������������� 18 2.2 Die Idee von Wirkung: Das Wirkungsmodell öffentlicher Politik ����������������������������������������������������������������������������������������������� 20 2.2.1 Problem und Problemursachenhypothese ��������������������������� 21 2.2.2 Interventionshypothese und Policy-Instrumente ����������������� 24 2.3 Öffentliche Politik als Prozess: Konzeptversagen und Umsetzungsversagen������������������������������������������������������������������������� 27 2.4 Learnings aus der Felderfahrung: Was alles schiefgehen kann bei einer öffentlichen Politik������������������������������������������������������������� 30 2.5 „Wie vorgehen?“-Kasten: Wie formuliere ich eine Evaluationsfrage?����������������������������������������������������������������������������� 33 2.6 Illustratives Anwendungsbeispiel: Das australische Home Insulation Program��������������������������������������������������������������������������� 35 Bibliographie ��������������������������������������������������������������������������������������������� 36

XIII

XIV

Inhaltsverzeichnis

3 Die Entstehung und Etablierung der Wirkungsforschung������������������� 39 3.1 Die Entwicklung der Evaluationsforschung������������������������������������� 39 3.1.1 Die erste Generation – das „Messen“����������������������������������� 40 3.1.2 Die zweite Generation – das „Beschreiben“ ����������������������� 41 3.1.3 Die dritte Generation – die „Bewertung“����������������������������� 41 3.1.4 Die vierte Generation – das „Verhandeln“��������������������������� 42 3.1.5 Der Beitrag des Evidence-Based Policy-Making – die „systematische Zweitauswertung“��������������������������������������� 43 3.2 Die Institutionalisierung von Evaluation im deutsch- und französischsprachigen Raum������������������������������������������������������������� 44 3.2.1 Deutschland ������������������������������������������������������������������������� 44 3.2.2 Schweiz ������������������������������������������������������������������������������� 46 3.2.3 Österreich����������������������������������������������������������������������������� 47 3.2.4 Frankreich����������������������������������������������������������������������������� 48 3.3 Entstehung einer Disziplin ��������������������������������������������������������������� 49 3.4 Learnings aus der Felderfahrung: Wozu Evaluationen dienen können!��������������������������������������������������������������������������������������������� 52 3.4.1 Bilanzierung������������������������������������������������������������������������� 52 3.4.2 Verbesserung ����������������������������������������������������������������������� 53 3.4.3 Wissensgenerierung������������������������������������������������������������� 53 3.4.4 Taktik����������������������������������������������������������������������������������� 53 3.5 „Wie vorgehen?“-Kasten: Evaluation und Politikberatung – was es zu bedenken gibt��������������������������������������������������������������������������� 54 3.6 Illustratives Anwendungsbeispiel zur Verdeutlichung der Grundpfeiler der Evaluationsforschung ������������������������������������������� 58 3.6.1 Ausgangslage����������������������������������������������������������������������� 59 3.6.2 Methodik ����������������������������������������������������������������������������� 59 3.6.3 Fragestellung und Ergebnisse der Evaluation ��������������������� 60 Bibliographie ��������������������������������������������������������������������������������������������� 61 4 Überblick über ausgewählte Evaluationsansätze ��������������������������������� 65 4.1 Der Methodenast („Methods“)��������������������������������������������������������� 66 4.1.1 Experimentelle und quasi-­experimentelle Evaluationsansätze��������������������������������������������������������������� 67 4.1.2 Theoriegeleitete Evaluationsansätze ����������������������������������� 69 4.1.3 Kontributionsanalyse ����������������������������������������������������������� 71 4.1.4 Realistische Evaluation ������������������������������������������������������� 72 4.2 Der Nutzenast („Use“) ��������������������������������������������������������������������� 74 4.2.1 Nutzenorientierte Evaluation����������������������������������������������� 74 4.2.2 Critical Friend Approach ����������������������������������������������������� 76

Inhaltsverzeichnis

XV

4.2.3 Empowerment Evaluation ��������������������������������������������������� 77 4.3 Der Wertungsast („Valuing“) ����������������������������������������������������������� 78 4.3.1 Zielbasierte Evaluationen����������������������������������������������������� 79 4.3.2 Zielfreie Evaluationen ��������������������������������������������������������� 81 4.3.3 Expertenbasierte Evaluation������������������������������������������������� 81 4.3.4 Dialoggesteuerte Evaluation������������������������������������������������� 83 4.4 Stärken und Schwächen der Evaluationsansätze im Vergleich��������� 84 4.5 Learnings aus der Felderfahrung: Selbst- und Fremdevaluation im Vergleich ������������������������������������������������������������������������������������� 84 4.6 Illustratives Anwendungsbeispiel einer nutzenorientierten Evaluation����������������������������������������������������������������������������������������� 91 4.6.1 Erste Schleife����������������������������������������������������������������������� 92 4.6.2 Zweite Schleife��������������������������������������������������������������������� 92 4.6.3 Dritte Schleife���������������������������������������������������������������������� 93 Bibliographie ��������������������������������������������������������������������������������������������� 94 5 Evaluationsgegenstände und Kriterien ������������������������������������������������� 97 5.1 Gesellschaftliches Problem als Ursprung und Ziel öffentlicher Politik �����������������������������������������������������������������������������������������������  99 5.2 Politikkonzept�����������������������������������������������������������������������������������  99 5.2.1 Empirische Evidenz�������������������������������������������������������������100 5.2.2 Innere Kohärenz (Intrapolicy Kohärenz)�����������������������������101 5.2.3 Äussere Kohärenz (Interpolicy Kohärenz)���������������������������101 5.3 Umsetzungsorganisation�������������������������������������������������������������������102 5.3.1 Eignung �������������������������������������������������������������������������������102 5.3.2 Nachhaltigkeit ���������������������������������������������������������������������104 5.4 Output�����������������������������������������������������������������������������������������������104 5.4.1 Angemessenheit�������������������������������������������������������������������105 5.4.2 Effizienz�������������������������������������������������������������������������������106 5.5 Outcome �������������������������������������������������������������������������������������������106 5.5.1 Wirksamkeit�������������������������������������������������������������������������107 5.5.2 Effizienz�������������������������������������������������������������������������������108 5.6 Impact�����������������������������������������������������������������������������������������������109 5.7 Learnings aus der Felderfahrung: Was kann wann evaluiert werden?���������������������������������������������������������������������������������������������109 5.8 „Wie vorgehen?“-Kasten: Wie definiert man Evaluationskriterien?������������������������������������������������������������������������111 5.9 Illustratives Anwendungsbeispiel: Tabakpräventionspolitik in der Schweiz�����������������������������������������������������������������������������������112 5.9.1 Gesellschaftliches Problem �������������������������������������������������112

XVI

Inhaltsverzeichnis

5.9.2 Politikkonzept�����������������������������������������������������������������������113 5.9.3 Umsetzungsorganisation������������������������������������������������������115 5.9.4 Output�����������������������������������������������������������������������������������115 5.9.5 Outcome�������������������������������������������������������������������������������116 5.9.6 Impact�����������������������������������������������������������������������������������116 Bibliographie ���������������������������������������������������������������������������������������������117 6 Die Modellierung von Wirkung���������������������������������������������������������������119 6.1 Das lineare Modell ���������������������������������������������������������������������������120 6.2 Der Realistische Evaluationsansatz: die Bedeutung des Kontexts �������������������������������������������������������������������������������������������124 6.3 Learnings aus der Felderfahrung: die Modellierung von Wirkung in einem Mehrebenensystem���������������������������������������������128 6.4 Learnings aus der Felderfahrung: Wie mache ich eine Ausschreibung?���������������������������������������������������������������������������������������129 6.4.1 Hintergrund und Gegenstand der Evaluation�����������������������130 6.4.2 Beschreibung des Evaluationsauftrags���������������������������������131 6.4.3 Organisatorische und praktische Informationen�������������������131 6.4.4 Checkliste zur Erstellung eines Pflichtenhefts���������������������132 6.5 „Wie vorgehen?“-Kasten: Wie mache ich ein Wirkungsmodell?�����133 6.6 Illustratives Anwendungsbeispiel: Mehrebenenevaluation der Deutschen Asylpolitik�����������������������������������������������������������������������135 6.6.1 Verteilung der Kompetenzen im Mehrebenensystem�����������137 6.6.2 Vollzugsprobleme im Verwaltungsföderalismus �����������������137 Bibliographie ���������������������������������������������������������������������������������������������138 7 Die Evaluation von institutionellen Politiken�����������������������������������������141 7.1 Substanzielle Politiken gegenüber institutioneller Politiken�������������142 7.2 Die Evaluation institutioneller Politiken�������������������������������������������144 7.3 Beispiele der Evaluation institutioneller Reformen �������������������������147 7.3.1 Evaluation von New Public Management ���������������������������147 7.3.2 Evaluation von Gemeindefusionen���������������������������������������148 7.4 Learnings aus der Felderfahrung: Evaluationen in einem Reformkontext: Machtspiele und Interessen�������������������������������������150 7.5 „Wie vorgehen?“-Kasten: Planung einer Evaluation institutioneller Reformen �����������������������������������������������������������������152 7.6 Illustratives Anwendungsbeispiel: Evaluation eines Verwaltungsreformprogramms���������������������������������������������������������153 Bibliographie ���������������������������������������������������������������������������������������������155

Inhaltsverzeichnis

XVII

8 Evaluationsdesign�������������������������������������������������������������������������������������159 8.1 Was ist ein Evaluationsdesign?���������������������������������������������������������159 8.2 Die Vergleichsebene als Grundlage des Evaluationsdesigns �����������161 8.2.1 Quervergleich�����������������������������������������������������������������������161 8.2.2 Vorher-Nachher-Vergleich���������������������������������������������������164 8.2.3 Soll-Ist-Vergleich�����������������������������������������������������������������166 8.2.4 Konzeptionelle Triangulation�����������������������������������������������167 8.3 Fallstudie�������������������������������������������������������������������������������������������170 8.4 Learnings aus der Felderfahrung: Was sind die Hürden bei Vergleichen?�������������������������������������������������������������������������������������172 8.5 „Wie vorgehen?“-Kasten: Wie wählt man ein Untersuchungsdesign aus? ���������������������������������������������������������������174 8.6 Illustratives Anwendungsbeispiel für verschiedene Typen von Triangulation�������������������������������������������������������������������������������������176 8.6.1 Arbeitsschritt 1: Klärung der Evaluationsfragen�����������������176 8.6.2 Arbeitsschritt 2: Klärung der Ziele der Evaluation �������������177 8.6.3 Arbeitsschritt 3: Klärung der Verantwortlichkeiten�������������178 8.6.4 Arbeitsschritt 4: Festlegung des Evaluationsdesigns�����������179 8.6.5 Arbeitsschritt 5: Datenerhebung und Datenanalyse�������������179 8.6.6 Arbeitsschritt 6: Diffusion und Nutzung der Evaluationsergebnisse ���������������������������������������������������������180 Bibliographie ���������������������������������������������������������������������������������������������182 9 Techniken der Datenerhebung und -analyse�����������������������������������������185 9.1 Datenerhebung ���������������������������������������������������������������������������������186 9.1.1 Aspekte, die die Wahl der Daten beeinflussen���������������������186 9.1.2 Qualitative, quantitative, gemischte Ansätze�����������������������187 9.1.3 Instrumente zur Datenerhebung und -analyse ���������������������189 9.1.4 Quellen und Typen von Daten ���������������������������������������������194 9.1.5 Vollerhebung oder Stichprobenerhebung�����������������������������197 9.2 Analyse der Daten�����������������������������������������������������������������������������198 9.2.1 Interpretation der Ergebnisse�����������������������������������������������198 9.2.2 Die Formulierung von Empfehlungen���������������������������������199 9.2.3 Transparenz und Reproduzierbarkeit�����������������������������������201 9.3 „Wie vorgehen?“-Kasten: Was sind die Vor- und Nachteile unterschiedlicher Methoden und wie wählt man die geeigneten Methoden aus? ���������������������������������������������������������������203 9.4 Illustratives Anwendungsbeispiel: Die Datenerhebung und -ana­lyse der Evaluation des Betäubungsmittelgesetzes in der Schweiz ���������������������������������������������������������������������������������204 Bibliographie ���������������������������������������������������������������������������������������������207

XVIII

Inhaltsverzeichnis

10 Nutzung von Evaluationsergebnissen�����������������������������������������������������211 10.1 Von der Verwendung zum Einfluss���������������������������������������������������212 10.1.1 Die klassische Verwendungsforschung �����������������������������213 10.1.2 Interaktionistische Verwendungsforschung�����������������������215 10.1.3 Einfluss statt Verwendung von Evaluationen���������������������216 10.2 Arten des Nutzens der Evaluation�����������������������������������������������������219 10.2.1 Instrumenteller Nutzen�������������������������������������������������������219 10.2.2 Konzeptioneller Nutzen�����������������������������������������������������219 10.2.3 Prozessbezogener Nutzen���������������������������������������������������220 10.2.4 Symbolischer Nutzen���������������������������������������������������������220 10.3 Von der Nutzung von Evaluationen zur evidenzbasierten Politik �����������������������������������������������������������������������������������������������221 10.4 „Wie vorgehen?“-Kasten: Wie kann man den Nutzen von Evaluationen erhöhen? ���������������������������������������������������������������������223 10.5 Illustratives Anwendungsbeispiel: Institutionalisierung der Evaluationsfunktion und Nutzung von Evaluationsergebnissen�������227 10.5.1 Die Rolle eines Evaluationsdiensts in der Verwaltung�������227 10.5.2 Konkreter Nutzen im Falle der Evaluation des Betäubungsmittelgesetzes (BetmG)�����������������������������������228 Bibliographie ���������������������������������������������������������������������������������������������229 11 Qualitätssicherung von Evaluationen�����������������������������������������������������233 11.1 Qualitätssicherung am Beispiel der Evaluations-­Standards in Österreich, Deutschland und der Schweiz�����������������������������������������234 11.1.1 Nützlichkeit �����������������������������������������������������������������������237 11.1.2 Durchführbarkeit ���������������������������������������������������������������238 11.1.3 Fairness�������������������������������������������������������������������������������238 11.1.4 Genauigkeit �����������������������������������������������������������������������239 11.2 Meta-Evaluation, Meta-Analyse und Evaluationssynthese���������������241 11.2.1 Meta-Evaluationen�������������������������������������������������������������242 11.2.2 Meta-Analysen und Evaluationssynthesen�������������������������242 11.3 Unabhängigkeit von Evaluationen und Druckausübung auf Evaluierende�������������������������������������������������������������������������������������244 11.4 Praxisbezogene präventive Massnahmen zur Stärkung der Unabhängigkeit���������������������������������������������������������������������������������246 11.5 Learnings aus der Felderfahrung: Feedback und Review-Runden mit den Betroffenen���������������������������������������������������������������������������249 11.6 „Wie vorgehen?“-Kasten: Wie bezieht man Beteiligte und Betroffene ein, ohne die Unabhängigkeit zu verlieren? �������������������250 Bibliographie ���������������������������������������������������������������������������������������������252

Inhaltsverzeichnis

XIX

12 Die Bedeutung von Evaluationen in der heutigen Politik���������������������255 12.1 Die Verbreitung von Evaluationen im deutschsprachigen Raum und darüber hinaus ���������������������������������������������������������������������������255 12.2 Die Bedeutung von Evaluationen in Parlamenten�����������������������������258 12.3 Die Bedeutung von Evaluationen im direktdemokratischen Diskurs ���������������������������������������������������������������������������������������������260 12.4 Learnings aus der Felderfahrung: gute und schlechte Kommunikation���������������������������������������������������������������������������������263 12.5 „Wie vorgehen?“-Kasten: Wie kommuniziert man Evaluationsresultate Politiker*innen?�����������������������������������������������265 Bibliographie ���������������������������������������������������������������������������������������������267

1

Begriffliche Grundlagen

Schlüsselwörter

Polity · Politics · Policy · Policy Cycle · Wirkungsprüfung

Was ist eine gute Arbeitsmarktpolitik? Wann ist Migrationspolitik erfolgreich? Hat die Klimapolitik ihre Ziele erreicht? Mit Fragen dieser Art beschäftigt sich die Politikevaluation. In diesem Kapitel führen wir zuerst in die wichtigsten Arbeitsdefinitionen ein (Abschn.  1.1) und befassen uns in Abschn.  1.2 mit den für die Politikevaluation zentralen Begriffen Erkennen und Bewerten. In Abschn. 1.3 führen wir den Policy Cylce ein und verorten die Evaluation darin, bevor sich Abschn. 1.4 mit den Unterschieden zwischen der Grundlagenforschung und der Politikevaluation als angewandte Forschung befasst. Schließlich bietet Abschn. 1.5 einen Einblick in unterschiedliche Instrumente der „Wirkungsprüfung“ (Evaluation, Controlling, Moni­ toring und Ex-Ante Analysen) und grenzt diese voneinander ab.

1.1

Was ist Politikevaluation?

Für dieses Lehrbuch verwenden wir die folgende Arbeitsdefinition von Politikevaluation:

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_1

1

2

1  Begriffliche Grundlagen

Kasten 1.1 Arbeitsdefinition von Politikevaluation

Politikevaluation bezeichnet die wissenschaftliche und empirisch gestützte Beurteilung der Konzeption, des Vollzugs und der Wirksamkeit öffentlicher Politik, seien dies Massnahmen, Programme oder Projekte (Klöti 1997, S. 37; Widmer und De Rocchi 2012, S. 11). Der Gegenstand der Politikevaluation ist die öffentliche Politik oder Public Policy, die den Eingriff in die Gesellschaft zur Lösung eines Problems bezeichnet. Wir gehen in Kap. 2 auf die öffentliche Politik als Gegenstand der Politikevaluation ein. An dieser Stelle legen wir vorerst eine Definition der Begriffe ‚Politik‘ und ‚öffentliche Politik‘ vor, als Basis für die nachfolgenden Ausführungen: Kasten 1.2 Arbeitsdefinition von Politik

Politik ist Lösung gesellschaftlicher Probleme, d. h. die Ordnung bzw. Änderung gewisser sozialer Verhältnisse, die als gesellschaftliche Probleme anerkannt werden. Politik beinhaltet eine strukturelle Dimension mit dem zentralen Merkmal der Ordnung (Polity), eine prozedurale Dimension mit dem zentralen Merkmal der Macht (Politics) und eine inhaltliche Dimension mit dem zentralen Merkmal der Gestaltung (Policy) (Knoepfel und Bussmann 1997, S. 59; Sager et al. 2017, S. 11).

Polity bezeichnet das politische System und seine institutionellen Komponenten, während Politics die politischen Prozesse und die damit verbundenen Machtspiele umfassen. Public Policies sind die in diesem Prozess entschiedenen Lösungen von gesellschaftlichen Problemen (Bandelow und Schubert 2009):

Kasten 1.3 Arbeitsdefinition von öffentlicher Politik (Public Policy)

Öffentliche Politik (Public Policy) bezeichnet die inhaltliche Ausgestaltung der Lösung gesellschaftlicher Probleme. Öffentliche Politik umfasst die Konzipierung und Umsetzung aller Massnahmen, mit denen öffentliche oder private Akteur*innen spezifische Gruppen ansprechen, um deren Verhalten in einer Art zu verändern, dass sie nicht weiter dazu beitragen, das zu lösende gesellschaftlichen Problem zu verursachen (z. B. durch Gesetze, Programme, Massnahmen) (Knoepfel und Bussmann 1997, S. 59; Sager et al. 2017, S. 11).

1.2  Erkennen und Bewerten

3

In den weiteren Ausführungen dieses Kapitels erläutern wir unsere Arbeitsdefinition von Politikevaluation, diskutieren den Forschungsstatus von Evaluation als angewandte Wissenschaft, verorten Evaluation im Politikprozess und grenzen sie von anderen Formen der Bewertung öffentlichen oder privaten Handelns ab.

1.2

Erkennen und Bewerten

Politikevaluation ist die empirisch fundierte Erkenntnis und Bewertung von öffentlicher Politik. Die Erkenntnis beinhaltet die wissenschaftliche Identifikation von Kausaleffekten und die Bewertung der Interventionen zur Lösung gesellschaftlicher Probleme im Hinblick auf ausgewählte und explizit deklarierte Kriterien, wie z. B. ihre Angemessenheit, Wirksamkeit oder Wirtschaftlichkeit. Neues Wissen beinhaltet die Möglichkeit, bestehende Verhältnisse zu verändern. Erkenntnis impliziert Verstehen und Verständnis ermöglicht Verbesserung. Verbessern lässt sich das Bestehende aber nur auf der Grundlage, dass wir es als ungenügend erkennen. Hierzu müssen wir die Erkenntnis ergänzen mit einer Bewertung, die Aufschluss darüber gibt, ob eine Verbesserung überhaupt wünschenswert ist oder nicht. Erkennen und Bewerten begleiten uns stets und überall. Jeder Entscheid beinhaltet einen Erkenntnisteil und eine Bewertung: Wenn wir i­rgendwohin wollen, erkennen wir unterschiedliche Wege und Transportmöglichkeiten. Wir wählen diejenigen, die wir als geeignet ansehen. Wenn wir etwas kaufen, erkennen wir mehrere Möglichkeiten. Wir entscheiden dann aufgrund unserer Bewertung dieser Offerten, welches Produkt wir erwerben wollen. Wir bewerten also laufend, was wir erkennen. Evaluation ist Bewertung. Der Begriff leitet sich vom englischen ‚value‘, also zu Deutsch ‚Wert‘ ab.1 Was aber bedeutet ‚Wert‘? Wertvoll können je nach Perspektive ganz unterschiedliche Dinge sein. Aus monetaristischer Sicht ist alles wertvoll, was einen finanziellen Gewinn bringt. Aus individueller Sicht kann etwas wertvoll sein, wenn es eine emotionale Bedeutung hat, wenn es ästhetisch hervorsticht oder wenn es uns einen konkreten Nutzen bringt. Ein Stuhl kann so gesehen wertvoll sein, weil er ein Erbstück ist, und es ist egal, ob er hässlich oder unbequem ist. Ein Stuhl kann aber auch wertvoll sein, weil er handwerklich besonders kunstvoll gearbeitet ist. Wiederum ist es ist egal, ob er ästhetisch zu überzeugen vermag oder bequem ist. Oder ein Stuhl ist wertvoll, weil er ergonomisch herausragende Dienste leistet, auch wenn er furchtbar ausschaut. Die Bewertung basiert auf unseren Präferenzen, die sich unterscheiden können. Bewertung ist somit nicht das Gleiche wie Erkenntnis.  Gemäß dem Online Etymology Dictionary fand das Wort Value im 13. Jahrhundert aus dem Altfranzösischen Eingang in den englischen Sprachgebrauch (https://www.etymonline.com/search?q=value Zugriff 22.01.2020).

1

4

1  Begriffliche Grundlagen

Bewertung braucht Kriterien. Bei individuellen Bewertungen, zum Beispiel bei der Bewertung der ästhetischen Qualität eines Stuhls, verwenden wir meist subjektive Kriterien. Damit Bewertungen von Politik intersubjektiv geteilt werden können, braucht es nachvollziehbare und vor allem transparente Kriterien. Solche sind nicht einfach gegeben, sondern müssen ausgehandelt werden. Der englische Erkenntnisphilosoph David Hume (1711–1776) war der erste, der auf den Unterschied zwischen ‚Ist‘ (Is) und ‚Soll‘ (Ought) hingewiesen hat. Nur weil wir eine Sache erkennen, können wir daraus keine Handlungsnotwendigkeit schließen. Die Erkenntnis ist eine kognitive, die Bewertung ist eine moralische Handlung. Kriterien sind also nicht gegeben, sondern müssen definiert werden. Die Aushandlung von Gütekriterien ist bei gesellschaftlichen Fragen besonders virulent. Sie macht Evaluation zu einem politischen Unterfangen. Um die Frage vom Beginn dieses Kapitels aufzugreifen: Wann ist denn nun Arbeitsmarktpolitik gut? Wenn sie geringe Kosten verursacht? Wenn sie möglichst viele Menschen in den Arbeitsmarkt integriert? Wenn sie die besonders schwierigen Fälle in den Arbeitsmarkt inte­ griert, obschon das viel Geld kostet? Oder aber, wenn sich der Staat zurückhält und den freien Markt spielen lässt? Jeder dieser Antworten liegen unterschiedliche ­Präferenzen zugrunde, die sich an politischen Werthaltungen oder ökonomischen Interessen festmachen lassen. Bewerten ist also politisch. Politikevaluation kann sich nur dann von der politischen Vereinnahmung lösen, wenn sie großen Wert auf die Transparenz ihrer Beurteilungskriterien legt: Ist das Kriterium zur Beurteilung der Arbeitsmarktpolitik deren Kosten oder eine tiefe Arbeitslosigkeit?

1.3

Evaluation im Policy Cycle

Wir können eine öffentliche Intervention zur Lösung eines gesellschaftlichen Problems als simplen Mechanismus verstehen: die Politik greift in die gesellschaftlichen Verhältnisse ein, um einen unerwünschten Zustand zu ändern. Die Gesellschaft ist somit eine Art Maschine, die die Politik im Fall einer Fehlfunktion reparieren kann. Diese mechanistische Sichtweise impliziert die Möglichkeit sehr rationaler Herangehensweisen zur Lösung gesellschaftlicher Probleme. Wenn es so einfach ist, stellt sich aber die Frage, weshalb wir die drängendsten Probleme heutiger Gesellschaften wie beispielsweise das Problem des menschgemachten Klimawandels noch immer nicht gelöst haben. Die Antwort liegt wiederum in David Humes Unterscheidung von ‚Is‘ and ‚Ought‘: auch wenn mittlerweile die meisten Menschen das ‚Is‘, also die menschlichen Ursachen des Klimawandels anerkennen, bedeutet das nicht, dass sie sich über das ‚Ought‘, also die Massnahmen dagegen, auch einig sind. Vielmehr bedeutet der Kampf gegen den Klimawandel, dass viele Menschen ihr Handeln ändern müssen und damit der Verlust von Geld und anderen

1.3  Evaluation im Policy Cycle

5

Annehmlichkeiten einhergeht. Dieser Verlust erfährt die Opposition der Betroffenen. Die Klimapolitik ist also kein technisch-rationales Projekt, mit dem eine gesellschaftlich relevante Fehlfunktion behoben wird, sondern eine höchst umstrittene und damit politische Angelegenheit. Erst nach komplexen Selektions- und Verhandlungsprozessen in unterschiedlichen Arenen werden gewisse gesellschaftliche Themen als öffentliche Probleme (public problems), die einer politischen Intervention bedürfen, anerkannt (Hassenteufel 2010; Neveu 2015). Diese simple Erkenntnis liegt dem analytischen Verständnis von öffentlicher Politik als Prozess zugrunde. Harold D. Lasswell prägte dieses Verständnis bereits in den 1950er-Jahren. Sein Konzept des Policy Cycle sieht die öffentliche Politik als eine Abfolge von Phasen, die sich zwar in der Realität überschneiden, aber analytisch voneinander unterschieden werden können (Lasswell 1956). Die Literatur hat eine Vielzahl unterschiedlicher Policy Cycle-Varianten und ebenso viele Kritiken davon hervorgebracht. Jann und Wegrich (2014) halten solchen Vorbehalten entgegen, dass der Policy Cycle vorab ein pragmatisches Analysemodell bereitstellen will und dieses Ziel hervorragend erfüllt. Wir teilen diese Einschätzung und bauen unser Verständnis von öffentlicher Politik darauf auf. Das Modell von Lasswell wurde später durch andere Autor*innen weiterentwickelt. Heute finden sich in der Forschung primär sechsstufige Phasenmodelle des Politikzyklus. Unterschieden werden „(1) Agenda-Setting, (2) Politikformulierung, (3) Entscheidung, (4) Umsetzung, (5) Evaluation und (6) Weiterführung oder Beendigung“ (Cairney 2012, S. 34). Fritz Sager und Markus Hinterleitner (2014) haben diese sechs Hauptphasen in drei Gruppen gegliedert: Genese, Vollzug und Wirkungsentfaltung: „In der Phase der Genese wird zunächst das Problem definiert und sodann ein Programm konzipiert, welches das Problem adressiert. Für den Vollzug werden Umsetzungsstrukturen konstituiert und Umsetzungsprozesse definiert, damit die Leistung tatsächlich erbracht werden kann. Mit diesen Leistungen soll eine Wirkung, genauer eine Verhaltensänderung bei den Adressat*innen des Programms, hervorgerufen werden“ (Sager et al. 2017, S. 90). Die Adressat*innen sind die anvisierte Zielgruppe einer öffentlichen Politik (Bussmann 1995, S. 47). Abb. 1.1 verdeutlicht das Phasenmodell des Politikzyklus graphisch. Wir werden im nächsten Kap. 2 sehen, dass sich die Politikevaluation nur mit dreien von diesen sechs Phasen beschäftigt, nämlich mit dem Entscheid und dem zugehörigen Policy-Konzept, der Implementation, also der Art und Weise der Umsetzung des Policy-Konzepts, und der Wirkung, also dem Problemlösungsbeitrag der umgesetzten Policy. Was umfasst die Evaluationsphase des Policy Cycles?  Nehmen wir wiederum eine der Fragen vom Beginn dieser Einleitung auf: Was ist eine gute Migrationspolitik? Antwort A meint vielleicht, dass eine gute Migrationspolitik dann gegeben ist, wenn es gelingt, Migrant*innen gut zu integrieren. Antwort B hingegen be-

6

1  Begriffliche Grundlagen Weiterführung oder Beendigung

Agenda Setting

Politikformulierung Evaluation

Wirkungs-

Genese

entfaltung

Vollzug

Implementation

Entscheidung

Abb. 1.1  Der Policy Cycle. (Quelle: Sager et al. (2017, S. 90) in Anlehnung an Cairney (2012, S. 34))

hauptet, dass diese Politik dann gut ist, wenn möglichst wenig Ausländer*innen im Land bleiben können. Die beiden Antworten sind nicht empirisch, sondern ideologisch fundiert. Eine politische Meinung braucht keine empirische Grundlage. Es ist das Recht jeder Bürgerin  und jedes Bürgers einer freiheitlichen Demokratie, eine öffentliche Politik gut oder schlecht zu finden. Die geäußerte persönliche Meinung muss nicht begründet werden, solange sie sich im Rahmen der Verfassung bewegt. Politische Debatten über öffentliche Probleme und ihre Lösungen finden somit zwischen unterschiedlichen Haltungen statt, ohne dass diese Haltungen empirisch fundiert sein müssen. Bürger*innen sowie Politiker*innen können gegen Schulreformen sein, ohne eine Ahnung von Pädagogik zu haben. Sie können auch Gesundheitsförderungsmaßnahmen ablehnen, ohne je von Epidemiologie gehört zu haben. Es ist ihr demokratisches Recht. Politikevaluation im weiteren Sinn b­ einhaltet alle beurteilenden Äußerungen einer öffentlichen Politik ungesehen der Grundlage der Beurteilung. Hiervon unterscheidet sich die Politikevaluation im engeren Sinn, die Gegenstand dieses Buches ist. Politikevaluation im engeren Sinn bezeichnet nur einen Teilaspekt der dargestellten Evaluationsphase, nämlich die wissenschaftliche Wirkungsanalyse

1.4 Grundlagenforschung versus anwendungsorientierte Forschung

7

öffentlicher Politik. Dieser Konzeption entspricht die zu Beginn dieser Einleitung präsentierte Definition in Kasten 1.1. Der zentrale Unterschied zur politischen Bewertung liegt darin, dass die Politikevaluation im engeren Sinne eine wissenschaftliche Herangehensweise wählt. Der Fokus der Evaluationsforschung liegt auf der Beantwortung konkreter anwendungsorientierter Fragen. Sie grenzt sich somit von der akademischen Grundlagenforschung in verschiedener Hinsicht ab.

1.4

Grundlagenforschung versus anwendungsorientierte Forschung

Die wissenschaftliche Evaluationsforschung hat den Zweck, die Praxis zu informieren, um so Verbesserungen zu ermöglichen. In der Politikevaluation betreffen diese Verbesserungen das Konzept einer öffentlichen Politik oder ihre Umsetzung, die beide zu ihrer Wirkung beitragen. Die Fragen der wissenschaftlichen Evaluationsforschung sind somit auf eine konkrete Nutzung hin orientiert und darin liegt auch die Berechtigung von Politikevaluation: Politikevaluation ergibt nur einen Sinn, wenn ihre Befunde konkrete Verwendung finden können. Die Evaluation ist also eine anwendungsorientierte Tätigkeit und damit von der akademischen Grundlagenfor­ schung zu unterscheiden. Adrian Ritz (2003, S. 35) stellt in seiner Studie zur Evaluation von New Public Management-Reformen die Grundlagenforschung der Evaluation als anwendungsorientierte Forschung systematisch gegenüber. Tab. 1.1 listet die Unterschiede und Gemeinsamkeiten auf. Die Evaluation unterscheidet sich von der GrundlagenTab. 1.1  Grundlagenforschung und Evaluation als anwendungsorientierte Forschung

Ziel und Zweck Fragestellung Ergebnisse Bewertung Kausalität Methoden Kontext

Grundlagenforschung Wissensgenerierung Forschungsdebatte, Theorie Generalisierbarkeit, Theorieentwicklung Forschungsdebatte, Theorie

Evaluation als anwendungsorientierte Forschung Nützlichkeit Auftraggebende und Anspruchsgruppen Situationsbezug, Falltreue

normative Kriterien, Auftraggebende und Anspruchsgruppen Kein Unterschied: abhängige, unabhängige und intervenierende Variablen Kein Unterschied: gesamtes Methodenspektrum Prinzip der Unabhängigkeit Politischer Druck, Zeit- und Dienstleistungsdruck

Quelle: Sager und Hinterleitner (2014, S. 438) nach Adrian Ritz (2003, S. 35)

8

1  Begriffliche Grundlagen

forschung zunächst in ihrer Motivation. Die Grundlagenforschung bedarf keines Auftrages von außen, sondern hat ihren Sinn in der Schaffung neuen Wissens als solches. Die so gewonnenen Erkenntnisse müssen keinen unmittelbaren Nutzen ausweisen. Die Wissenschaftsgeschichte zeigt, dass die praktische Verwendbarkeit von Ergebnissen aus der Grundlagenforschung teilweise erst lange nach deren Entdeckung klar wird und teilweise auch ganz ausbleibt. Beides spricht nicht gegen die Grundlagenforschung, sondern ist ihr Wesen: Erkenntnis um der Erkenntnis willen. Anders sieht es bei der Evaluation aus. Die Evaluation beantwortet Fragen, die von außen gestellt werden und deren Beantwortung einen konkreten, vorab definierten Zweck erfüllt. Das Ziel der Evaluation ist die Nutzung ihrer Ergebnisse, von denen erwartet wird, dass sie ihrerseits nützlich sind. Über die Nützlichkeit entscheiden die Nutzer*innen einer Evaluation. Sie legen den Zweck der Evaluation im Voraus fest, wenn sie die Evaluation planen. Evaluationen liegen immer konkrete Fragen zugrunde, die diesen Zweck operationalisieren. Meist werden Evaluationen im Auftrag von öffentlichen Verwaltungen oder privaten Akteur*innen, wie z. B. nichtstaatlichen Organisationen, durchgeführt. Die Fragen der Auftraggebenden eignen sich nicht in jedem Fall als Forschungsfragen. Sie zeigen aber die Bedürfnisse der Auftraggebenden auf und machen so deutlich, worüber die Nützlichkeit der Evaluation definiert wird. Die Grundlagenforschung dagegen kennt in der Regel keine Auftraggeber*innen und ihre Finanzierung ist nicht an bestimmte inhaltliche Ziele gebunden. Forschungsfreiheit ist das oberste Gebot der Grundlagenforschung, die ihre Fragestellungen aus den einschlägigen Wissenschaftsdebatten und Theorien zieht. Die Forschenden formulieren ihre Fragen selber. Die Ergebnisse der Grundlagenforschung haben den Anspruch, den Wissensbestand des jeweiligen Faches zu ergänzen und so einen Theoriebeitrag zu leisten. Ergebnisse sollen somit möglichst verallgemeinerbar sein und den größtmöglichen Geltungskreis haben. Gerade umgekehrt verhält es sich bei Evaluationen. Da sich Evaluationen mit dem Zweck der Nützlichkeit auf konkrete Fragen beziehen, sind auch ihre Ergebnisse stets spezifisch. Die Evaluation fokussiert stets auf ihren Evaluationsgegenstand, bei der Politikevaluation ist das die öffentliche Politik bzw. ein bestimmter Teilaspekt einer bestimmten öffentlichen Politik. Die Befunde der Evaluation müssen sich auf diese Gegenstände beziehen, sonst erfüllen sie den Zweck der Nützlichkeit nicht. Evaluationsergebnisse haben typischerweise den Charakter von ‚Theorien mittlerer Reichweite‘ (Merton 1968). ‚Mittlere Reichweite‘ bedeutet, dass die Forschung Aussagen macht, die für den gesamten Untersuchungsgegenstand gelten sollen, aber nicht für die ganze soziale Welt. Für die Evaluation einer politischen Intervention wie beispielsweise der obligatorischen Schulimpfungen bedeutet das, dass die Befunde für alle obligatorischen Schulimpfungen gelten sollen. Hingegen haben die Ergebnisse nicht den Anspruch, für alle obligatorischen Leistungen der Gesundheitspolitik aussagekräftig zu sein.

1.4  Grundlagenforschung versus anwendungsorientierte Forschung

9

In der Grundlagenforschung entscheidet die wissenschaftliche Gemeinschaft mittels des sogenannten Peer-Review Systems über die Qualität und den Wert der Forschung. Das doppelblinde Peer-Review System zeichnet sich dadurch aus, dass qualifizierte Kolleg*innen Forschungsergebnisse begutachten, ohne dabei zu wissen, von welchen Forschenden die Ergebnisse stammen. In der Evaluation erfolgt die Beurteilung der Qualität nur zum Teil über die Begutachtung von Fachkolleg*innen. Ebenfalls wichtig sind die Nützlichkeitskriterien der Auftraggebenden und Anspruchsgruppen. Die Anspruchsgruppen einer Politikevaluation sind unterschiedlicher Natur: Umsetzungsakteur*innen der Politik, Politikadressat*innen, deren Verhalten geändert werden soll, sowie weitere Gruppen, die von der Politik betroffen sind. Jene Gruppen, die direkt von den Auswirkungen der öffentlichen Politik profitieren werden Politikbegünstigte (oder Endbegünstigte) genannt. Zudem gibt es Drittparteien, die indirekt positiv (Nutznießer*innen) oder negativ (Benachteiligte) von der Politik betroffen sind (Knoepfel et al. 2006, S. 62–67, 2007, S. 56–57). Ob eine Evaluation gut ist, hängt nicht nur von der Einhaltung wissenschaftlicher Standards (Stichwort „Genauigkeit“) und rechtlichen sowie ethischen Vorgaben (Stichwort „Korrektheit“) ab, sondern auch von der Akzeptanz der Betroffenen und der Beteiligten (Stichwort „Durchführbarkeit“) sowie der Einschätzung der Brauchbarkeit durch die Auftraggebenden und die Anspruchsgruppen (Stichwort „Nützlichkeit“) (Beywl 1998; Sanders [Joint Committee on Standards for Educational Evaluation] 1994; Widmer 2011). Zur Beurteilung der Qualität von Evaluationen haben sich in verschiedenen Ländern Evaluationsstandards etabliert, auf die sich sowohl Evaluierende, als auch Auftraggebende berufen können. Wir präsentieren die Qualitätssicherung von Evaluationen in Kap. 11. Während sich die Evaluationsforschung also in vielen Punkten von der Grundlagenforschung unterscheidet, so gibt es doch gewichtige Gemeinsamkeiten. Diese liegen in erster Linie im Kern der sozialwissenschaftlichen empirischen Forschung: bei der Modellierung von Wirkung und bei den empirischen Techniken der Datenanalyse und -auswertung. Für die Modellierung von Kausalität greifen sowohl die Grundlagen- als auch die Evaluationsforschung auf eine grundsätzlich variablenorientierte Hypothesenbildung zurück. Die Evaluationsforschung kennt eine Vielzahl von Evaluationsmodellen, auf die wir in Kap. 4 eingehen. Ihnen liegt fast immer die basale Idee von Wirkung als Kausalzusammenhang zwischen zwei messbaren Variablen zugrunde. Diese positivistische Kausalität findet ihre Entsprechung in der empirisch-analytischen Grundlagenforschung. Das gemeinsame Verständnis von Kausalität bedeutet nicht, dass neben der empirisch-analytischen Denkweise nicht auch konstruktivistische Ansätze wichtig sind (Seiffert 2003; vergleiche dazu auch Abschn. 6.2). Ebenfalls keine Unterschiede zwischen Evaluations- und Grundlagenforschung gibt es bei den Methoden der Datenerhebung und -auswertung. Die Evaluationsforschung bedient sich desselben sozialwissenschaftlichen Methodenspektrums wie die Grundlagenforschung

10

1  Begriffliche Grundlagen

und muss denselben methodischen Qualitätskriterien genügen. Die Ergebnisse von Evaluationen müssen genauso valide und reliabel sein wie diejenigen der Grundlagenforschung. Es gibt keine weniger anspruchsvollen Qualitätsstandards für die anwendungsorientierte Forschung. Allerdings unterscheiden sich die beiden Forschungsarten in den Rahmenbedingungen ihrer Umsetzung. Die Grundlagenforschung orientiert sich aufgrund des Postulats der Forschungsfreiheit idealerweise an den Forschungsbedürfnissen. Beispielsweise werden Ergebnisse erst dann publiziert, wenn die letzten Zweifel ausgeräumt sind. In der Evaluationsforschung ist dies anders: Dort muss auch den Anforderungen der Nützlichkeit Rechnung getragen werden. Das kann bedeuten, dass Ergebnisse dann kommuniziert werden, wenn die zuständigen politischen Gremien über die Fortführung einer Maßnahme entscheiden. Dies gilt auch dann, wenn noch nicht alle Evaluationsarbeiten restlos abgeschlossen sind. Politikevaluationen finden in einem politischen Rahmen statt, d. h. es herrscht häufig Zeitdruck und je nach Thema ist auch der politische Druck auf die Forschung spürbar. Dies führt zur komplexen Verhandlungen zwischen Auftraggebenden und Evaluierenden. Die Vorgaben der Auftraggebenden und der Anspruchsgruppen stellen einen sehr konkreten Rahmen für die Evaluationsforschung dar. Der Umgang damit stellt einen Teil der Herausforderungen an die Qualität von Evaluationen dar, mit dem Evaluierende umgehen können müssen. Die Kernfragen der Qualitätssicherung und der Unabhängigkeit von Evaluationen werden in Kap. 11 diskutiert.

1.5

 valuation in Abgrenzung zu anderen InstrumenE ten der „Wirkungsprüfung“

Im Public Management haben sich neben der Evaluation verschiedene andere In­ strumente der Wirkungsbeurteilung herausgebildet, die alle von großer Bedeutung sind. Auch wenn die Begriffe, die dafür verwendet werden, nicht einheitlich genutzt werden, so hat sich doch eine Terminologie durchgesetzt, welche die vier Instrumente Monitoring, Ex-ante-Analyse, Controlling und Evaluation unterscheidet (Läubli et  al. 2004). Diesen vier Instrumenten der „Wirkungsprüfung“ werden innerhalb des Policy Cycles verschiedene Funktionen zugeordnet. Das Monitoring dient vor allem dem Agenda Setting, die Ex-ante-Analysen der Politikformulierung, das Controlling der Programmimplementation und die (Ex-Post-) Evaluation der Prüfung der Wirkungsentfaltung (Balthasar 2005). Der Begriff „Monitoring“, der aus den Naturwissenschaften stammt, bedeutet „Dauerbeobachtung“ (Balthasar 2005). Gemäss Läubli et al. ist Monitoring „die routinemässige, permanente und systematische Sammlung von Informationen über Umfang und Richtung der Veränderungen im interessierenden Handlungs- und Politikfeld“ (2004, S. 6). Durch Monitoringaktivitäten soll überprüft werden, ob

1.5  Evaluation in Abgrenzung zu anderen Instrumenten der „Wirkungsprüfung“

11

sich das betroffene Politikfeld in der gewünschten Art entwickelt oder nicht, wobei aber im Gegensatz zur Evaluation auf die Überprüfung von Wirkungszusammenhängen verzichtet wird (Balthasar 2005). Professionelle Monitoring-Systeme gibt es beispielsweise in der Umweltpolitik. Bekannt ist insbesondere das Biodiversitätsmonitoring Schweiz. Im Auftrag des Bundes dokumentieren Expert*innen regelmäßig Tiere und Pflanzen auf vordefinierten Flächen. Auf diese Weise werden verlässliche Grundlagen zur Erhaltung der natürlichen Ressourcen in der Schweiz aufgebaut, wodurch das ­politische Handeln auf nationaler, kantonaler und regionaler Ebene gezielter gesteuert werden kann (Hintermann et al. 2002). „Ex-ante-Analysen“ werden zur Abschätzung der voraussichtlichen Wirkungen einer geplanten Maßnahme eingesetzt. Sie dienen als Informationsgrundlage bei der Entscheidung über die Einführung, die Neugestaltung oder die Aufhebung einer Intervention. Ex-ante-Analysen helfen zudem bei der Identifikation relevanter Indikatoren, die durch Controllingsysteme und als Vorbereitung allfälliger späterer Evaluationen erhoben werden (Balthasar 2005). Ex-ante-Analysen werden auch prospektive Evaluationen oder Regulierungsfolgenabschätzungen (RFA) genannt und werden zunehmend genutzt. So ist der schweizerische Bundesrat heute unter anderem verpflichtet, die volkswirtschaftlichen Effekte neuer Regulierungen auf Wirtschaft, Gesellschaft, Umwelt und Staat vorgängig abzuschätzen (Bussmann 2009; Eidgenössisches Departement für Wirtschaft, Bildung und Forschung WBF 2013; Widmer und De Rocchi 2012, S. 20 ff.). Das „Controlling“ dient in erster Linie der Optimierung der zielorientierten Abwicklung einer Aktivität, der frühzeitigen Identifikation von Problemen und Gefahren, der effizienten Nutzung von Mitteln und der Schaffung von Transparenz. Controlling ist zielorientiert und dient der Unterstützung der Steuerung eines Aufgabenbereichs. Sein Produkt ist ein permanentes und umfassendes System der Leistungs- und der Wirkungsbeurteilung (Läubli et al. 2004, S. 4–5). Controlling ist insbesondere im Zusammenhang mit dem Ansatz des New Public Management von großer Bedeutung, wobei insbesondere Outputs – das heißt die Leistungen von Verwaltungsakteur*innen – als Indikatoren herangezogen werden. Auch hier werden wie beim Monitoring keine Wirkungszusammenhänge überprüft (Balthasar 2005). Auf die Definition des Instruments der Politikevaluation sind wir oben bereits ausführlich eingegangen: Evaluationen sind auf transparenten Kriterien beruhende empirische Analysen der Konzeption, des Vollzugs sowie der Wirkung öffentlicher Politik. Diese wissenschaftliche Bewertung zielt auf die Offenlegung von Kausalzusammenhängen zwischen politischen Interventionen und Wirkungen ab, wodurch auch die Ursachen von Erfolg und Misserfolg identifiziert werden können (Balthasar 2005).

Ziel und Zweck

Definition

Spezifische Fragen im Hinblick auf die Wirkungen von Massnahmen beantworten. Zweck kontextabhängig: Rechenschaft, Lernen usw.

Evaluation Politikevaluation bezeichnet die wissenschaftliche Beurteilung der Konzeption, des Vollzugs und der Wirksamkeit öffentlicher Politik.

Durch Informationen zur effektiven und effizienten Steuerung von Prozessen beitragen.

Controlling Controlling beinhaltet ein permanentes System für die Beobachtung und Beurteilung des gesamten Planungsund Steuerungsprozesses in einem bestimmen Aufgabenbereich.

Monitoring Monitoring meint die routinemässige, permanente und systematische Sammlung von Informationen über Umfang und Richtung der Veränderungen im interessierenden Handlungs- und Politikfeld. Veränderungen und/ oder Trends bei der Umsetzung, beim Verhalten der Zielgruppen oder bei den Wirkungen feststellen.

Tab. 1.2  Evaluation, Controlling, Monitoring und Ex-ante Analysen im Vergleich

Erarbeiten von empirisch belegbaren Bewertungen über den Vollzug und die Wirkungszusammenhänge von Programmen und Massnahmen.

Ex-ante Analysen Ex-ante-Analysen sind vorausschauende Untersuchungen der mutmasslichen Wirkungen einer geplanten Massnahme.

12 1  Begriffliche Grundlagen

Vertiefte, wissenschaftlich angelegte Untersuchungen zu ausgewählten Zeitpunkten

Evaluation Ja Wie sind der Vollzug und die Wirkungen einer Massnahme oder eines Programms im Hinblick auf die Zielerreichung und die Effizienz zu beurteilen?

Controlling Ja Werden finanzielle und personelle Ressourcen gemäss Planung eingesetzt? Entwickeln sich die Indikatoren in die vorgesehene Richtung? Gibt es Handlungsbedarf? Laufende Datenermittlung im Rahmen der Umsetzung und der Projektbegleitung Ex-ante Analysen Ja Welches sind die möglichen Auswirkungen eines geplanten Programms oder einer geplanten Massnahme?

Vertiefte Untersuchung im Vorfeld Laufende einer geplanten Massnahme oder Datenermittlung im Rahmen eines eigenen eines geplanten Programms Erhebungssystems

Monitoring Nein Wie verändert sich der Zustand im relevanten Politikfeld über die Zeit? Welche Probleme kommen auf uns zu?

Quelle: Begriffsbestimmung gemäss Läubli et al. (2004); weitere Dimensionen gemäss Balthasar (2005, S. 73)

Frequenz

Bewertung Zentrale Fragen

Tab. 1.2 (Fortsetzung)

1.5  Evaluation in Abgrenzung zu anderen Instrumenten der „Wirkungsprüfung“ 13

14

1  Begriffliche Grundlagen

In der Tab. 1.2 sind die unterschiedlichen Zielsetzungen, Fragestellungen, Stärken und Schwächen von Monitoring, Ex-ante-Analysen, Controlling und Evaluation zusammengestellt. Die vier Instrumente der „Wirkungsprüfung“ unterscheiden sich somit einerseits aufgrund unterschiedlicher Ziele und Fragen, die sie beantworten. Ande­ rerseits ist auch die Frequenz der Durchführung unterschiedlich: Monitoring und Controlling sind laufende Datenermittlungssysteme. Ex-ante-Analysen und ­Evaluationen sind vertiefende Abklärungen, welche punktuell zu ausgewählten Zeitpunkten stattfinden. Monitoring und Controlling stellen interne Prozesse einer Organisation dar. Zudem enthält Controlling ein hierarchisches Element und betrifft interne Prozesse der Rechenschaftsablegung. Politikevaluationen werden dagegen meist bei externen Organisationen in Auftrag gegeben. Die Evaluierenden stehen dann in keinem hierarchischen Verhältnis zu den Evaluierten. In diesem Kontext ist der Rechenschaftsaspekt der Evaluation meistens auf die allgemeine Öffentlichkeit ausgerichtet. Monitoring, Ex-ante-Analysen, Controlling und Evaluation sind somit sich ergänzende Elemente des „Wirkungsprüfungssystems“ öffentlicher Politiken. Werden im Rahmen des Controllings ständig Daten zum Vollzug oder zur Wirksamkeit erhoben, stellen diese eine hervorragende Grundlage für allfällige Evaluationen dar. Evaluationen können dagegen zeigen, welche Indikatoren künftig durch ein Controlling erhoben werden sollten, um Probleme frühzeitig erkennen zu können. Auch Ex-ante-Analysen bilden eine hervorragende Basis für den Aufbau eines Controllingsystems. Damit solche Synergien zwischen den vier Instrumenten der „Wirkungsprüfung“ ausgeschöpft werden können, müssen diese jedoch gut aufeinander abgestimmt sein.

Bibliographie Balthasar, A. (2005). Was ist Evaluation und für wen evaluieren wir? LeGes – Gesetzgebung & Evaluation, 16(3), 65–80. Bandelow, N.  C., & Schubert, K. (2009). Lehrbuch der Politikfeldanalyse 2.0. München: Oldenbourg. Beywl, W. (1998). Standards für die Evaluation von Programmen. Sozialwissenschaften und Berufspraxis, 21(4), 365–369. Bussmann, W. (1995). Evaluationen staatlicher Massnahmen erfolgreich begleiten und nutzen: Ein Leitfaden. Chur/Zürich: Rüegger AG. Bussmann, W. (2009). Die prospektive Evaluation und ihre Verfahren zur Prüfung von Erlassen. LeGes – Gesetzgebung & Evaluation, 20, 175–189. Cairney, P. (2012). Complexity theory in political science and public policy. Political Studies Review, 10(3), 346–358.

Bibliographie

15

Eidgenössisches Departement für Wirtschaft, Bildung und Forschung WBF. (2013). Regulierungsfolgenabschätzung. Handbuch. Bern: WBF. Hassenteufel, P. (2010). Les processus de mise sur agenda: Sélection et construction des problèmes publics. Informations sociales, 157(1), 50–58. Hintermann, U., Weber, D., Zangger, A., & Schmill, J. (2002). Biodiversitäts-Monitoring Schweiz BDM (Zwischenbericht Nr. 342; Schriftenreihe Umwelt). Bundesamt für Umwelt, Wald und Landschaft BUWAL. Jann, W., & Wegrich, K. (2014). Phasenmodelle und Politikprozesse: Der Policy Cycle. In K.  Schubert & N.  C. Bandelow (Hrsg.), Lehrbuch der Politikfeldanalyse (3. Aufl., S. 97–131). Oldenbourg: de Gruyter. Klöti, U. (1997). Charakteristika, Objekte und Nutzungszusammenhänge. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 37–57). Basel/ Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., & Bussmann, W. (1997). Die öffentliche Politik als Evaluationsobjekt. In W.  Bussmann, U.  Klöti & P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 58–77). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., Larrue, C., & Varone, F. (2006). Analyse et pilotage des politiques publiques (2. Aufl.). Chur/Zürich: Rüegger. Knoepfel, P., Larrue, C., Varone, F., & Hill, M. (2007). Public policy analysis. Bristol: Policy Press. Lasswell, H. D. (1956). The decision process: Seven categories of functional analysis. College Park: University of Maryland Press. Läubli, M., Bardin Arigoni, G., & Bussmann, W. (2004). Définitions des termes „évaluation, controlling et monitoring“. Préparé pour le groupe de contact interdeépertemental „évaluation des effets“/Interdepartementale Kontaktgruppe „Wirkungsprüfungen“. IDEKOWI. Merton, R. K. (1968). Social theory and social structure (3. Aufl.). New York: Free Press. Neveu, E. (2015). Sociologie politique des problèmes publics. Armand Colin. Ritz, A. (2003). Evaluation von New Public Management – Grundlagen und empirische Ergebnisse der Bewertung von Verwaltungsreformen in der schweizerischen Bundesverwaltung. Bern: Haupt. Sager, F., & Hinterleitner, M. (2014). Evaluation. In N. C. Bandelow & K. Schubert (Hrsg.), Lehrbuch der Politikfeldanalyse (3., akt. Aufl., S. 437–462). München/Berlin: de Gruyter Oldenbourg. Sager, F., Ingold, K., & Balthasar, A. (2017). Policy-Analyse in der Schweiz-Besonderheiten, Theorien, Beispiele (Bd. 4). Zürich: NZZ Libro. Sanders [Joint Committee on Standards for Educational Evaluation], J. R. (1994). The program evaluation standards: How to assess evaluations of educational programs. Thousand Oaks: Sage. Seiffert, H. (2003). Einführung in die Wissenschaftstheorie (13. Aufl.). München: Beck. Widmer, T. (2011). Zehn Jahre Evaluationsstandards der Schweizerischen Evaluationsgesellschaft (SEVAL-Standards). Schweizerische Zeitschrift für Kriminologie, 10(2), 23–30. Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger.

2

Konzeptionelle Grundlagen öffentlicher Politik

Schlüsselwörter

Substanzielle öffentliche Politik · Institutionelle öffentliche Politik · Problemursachenhypothese · Interventionshypothese · Policy-Instrumente

In diesem Kapitel gehen wir auf die konzeptionellen Grundlagen der öffentlichen Politik ein und befassen uns im ersten Abschn. 2.1 mit der öffentlichen Politik als Gegenstand der Politikevaluation. Abschn. 2.2 stellt das Wirkungsmodell öffentlicher Politik genauer vor. Der Policy Cycle beschreibt öffentliche Politik nicht als Kausalmodell, sondern als Prozess. In diesem Prozess muss das Wirkungsmodell zunächst umgesetzt werden, bevor es wirken kann. In der Umsetzung zeigt sich, ob die Hypothesen des Wirkungsmodells der Realität standhalten. Allerdings kann es in der Umsetzung selber zu Problemen kommen, die die Wirkung beeinträchtigen. Abschn. 2.3 unterscheidet daher zwischen Konzeptversagen und Umsetzungsversagen einer Politik. Ein Konzeptversagen führt Wirkungsdefizite einer Politik da­ rauf zurück, dass die Massnahmen auf einem nicht zutreffenden Kausalmodell beruhen. Ein Umsetzungsversagen ist hingegen dann gegeben, wenn das Kausalmodell angemessen ist, die getroffenen Maßnahmen aber nicht wunschgemäß umgesetzt werden (Linder und Peters 1987). In Abschn. 2.3 werden die Implikationen dieses Unterschiedes für die Politikevaluation beschrieben und diskutiert. Abschn.  2.4 spiegelt die zentralen Lerninhalte dieses Kapitels an einem Beispiel aus der politischen Realität. Darauf aufbauend formuliert Abschn.  2.5 eine Checkliste mit Aspekten, welche bei der Evaluation substanzieller öffentlicher Politiken berück© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_2

17

18

2  Konzeptionelle Grundlagen öffentlicher Politik

sichtigt werden sollen. Abschn. 2.6 illustriert die Inhalte dieses Kapitels am Bei­ spiel des australischen „Home Insulation Program“ (HIP, dt. Hausisolationspro­ gramm), das als Extremfall eines gescheiterten Politikprogramms gelten kann.

2.1

 ffentliche Politik als Gegenstand Ö der Politikevaluation

Wie wir in Kap. 1 gesehen haben, ist der Gegenstand von Politikevaluation die öffentliche Politik. Die öffentliche Politik haben wir definiert als ein Bündel von Maßnahmen, das ergriffen wird, um ein gesellschaftlich und politisch als Problem anerkanntes Phänomen zu bearbeiten (siehe Kasten 1.3). In der Mehrheit der Fälle wird ein Problem als gesellschaftlich relevant definiert und soll deshalb durch eine öffentliche Politik gelöst (oder zumindest angegangen) werden. Dies erfolgt durch demokratische Institutionen wie Regierungen, Parlamente oder den Souverän. Die öffentliche Politik braucht die demokratische Legitimation der Problemfeststellung, da die Bearbeitung in Maßnahmen besteht, die in die individuelle Freiheit der Zielgruppen eingreifen. Solche Eingriffe sind der Staatsgewalt vorbehalten und bedürfen einer demokratischen Legitimierung. Die Maßnahmen einer öffentlichen Politik können entweder darauf abzielen, die konkreten gesellschaftlichen Probleme direkt anzugehen, oder aber sie wollen die Voraussetzungen zu Gunsten einer Problembearbeitung verändern oder schaffen. Beispiele für die erste Form von Maßnahmen sind öffentliche Politiken zur Raumordnung, zur Familienförderung oder zum Schutze des geistigen Eigentums. In allen diesen Fällen geht es um die substanzielle Antwort auf spezifische Herausforderungen der Gesellschaft. Um die als gesellschaftlich relevant beurteilten Pro­ bleme zu bearbeiten, greift die öffentliche Politik in das Verhalten derjenigen Gruppen ein, von denen sie denkt, dass sie einen Beitrag zur Problembearbeitung leisten können (z.  B.  Bauverbote in gewissen Zonen, Ausweitung der Kleinkinderversorgung, Stärkung von Urheberrechten). Mit Bezug auf die drei Dimensionen des Politikbegriffs, die wir in Kasten 1.2 aufgeführt haben, gehört die erste Form von öffentlicher Politik in die inhaltliche Politik-Dimension „Policy“. Wir sprechen von der substanziellen öffentlichen Politik (Knoepfel und Bussmann 1997, S. 59–62). Die zweite Form von öffentlicher Politik zielt nicht auf konkrete gesellschaftliche Probleme, sondern auf die strukturellen Voraussetzungen, die dazu dienen, Probleme zu bearbeiten. Es geht dabei nicht um Inhalte, sondern um Institutionen. Wobei mit Institutionen in der Politikwissenschaft verhaltensregulierende und Erwartungssicherheit erzeugende soziale Regelsysteme, wie Parlamente, Wahlen, Par-

2.1  Öffentliche Politik als Gegenstand der Politikevaluation

19

teien oder der Föderalismus gemeint sind (Nohlen und Schultze 1995, S. 205–213). Beispiele für die zweite Form öffentlicher Politik sind Gebietsreformen wie bspw. Gemeindefusionen oder Bezirksreformen, Verwaltungsrestrukturierungen wie bspw. New Public Management-Reformen oder die Zusammenlegung oder Neuordnung von Verwaltungseinheiten sowie die Vergrößerung oder Verkleinerung von demokratischen Behörden wie Exekutiven und Legislativen. Diese Reformen verändern die Zuständigkeiten von öffentlichen Akteur*innen. Diese Form der öffentlichen Politik gehört in die strukturelle Politik-­Dimension „Polity“ (Böhret et  al. 1988, S. 7). Mit der Veränderung der Strukturen nehmen diese Reformen Einfluss auf den politischen Entscheidungsprozess. Sie zielen auf eine Neuverteilung von Entscheidungskompetenzen und somit auch auf die verteilte Macht der betroffenen Akteur*innen („Politics“). Wir sprechen von der institutionellen öffentlichen Politik (Knoepfel und Bussmann 1997, S. 59–62). Kasten 2.1 fasst die Unterscheidung der beiden Formen von öffentlicher Politik zusammen. Kasten 2.1: Substanzielle und institutionelle öffentliche Politik

• Die substanzielle öffentliche Politik will mit inhaltlichen Interventionen das Verhalten von Zielgruppen ändern, um gesellschaftliche Probleme zu lösen (Policy). • Die institutionelle öffentliche Politik greift in das Institutionengefüge ein (Polity), verändert die Verteilung der politischen Macht (Politics) und trägt so zur Bearbeitung gesellschaftlicher Probleme bei (Policy).

Die Politikevaluation befasst sich mit beiden Formen der öffentlichen Politik. Der Schwerpunkt dieses Buches liegt auf der substanziellen öffentlichen Politik, auf die sich sowohl die Ausführungen in diesem Kapitel als auch die Kap. 5 und 6 spezifisch beziehen. Kap. 7 geht auf die Besonderheiten der institutionellen öffentlichen Politik ein. Die Lösung eines gesellschaftlichen Problems durch eine politische Intervention impliziert einen Kausalzusammenhang zwischen der Intervention und dem Problemzustand. Diese Kausalität bezeichnen wir als Wirkung der öffentlichen Politik, wie wir sie als Etappe im Policy Cycle in Kap. 1 gesehen haben. Wie im nachfolgenden Abschn. 2.2 genauer erläutert wird, liegt der Erreichung dieser Wirkung das sogenannte Wirkungsmodell öffentlicher Politik als konzeptionelle Basis zugrunde, das auf zwei Hypothesen basiert: der Problemursachen- und der Interventionshypothese (Knoepfel et al. 1997).

20

2.2

2  Konzeptionelle Grundlagen öffentlicher Politik

 ie Idee von Wirkung: Das Wirkungsmodell D öffentlicher Politik

Politik ist die Bearbeitung von gesellschaftlichen Problemen und die substanzielle öffentliche Politik bezeichnet den Eingriff in die gesellschaftlichen Verhältnisse, um diese Probleme zu bearbeiten. Was in der Theorie sehr einfach tönt, ist bei genauerem Hinsehen etwas komplexer. Gesellschaftliche Probleme lassen sich in den seltensten Fällen direkt lösen. Nehmen wir das Problem des Klimawandels als Beispiel. Politisch hat sich die empirisch belegte und wissenschaftlich etablierte Sichtweise durchgesetzt, dass sich das globale Klima ändert und dass dieser Wandel schlecht ist für die Menschheit. Politische Einheiten haben sich aus diesem Grund dafür entschieden, den Klimawandel zu bekämpfen. Wie tun sie das? Das naheliegendste Vorgehen wäre ein Verbot des Klimawandels. Verbote sind die verbindlichste Maßnahme öffentlicher Politik. Gleichwohl findet sich in keinem Staat der Welt ein Verbot des Klimawandels. Weshalb verbieten Staaten den Klimawandel nicht? Sie tun es nicht, weil der Klimawandel nicht direkt angesprochen werden kann. Der Klimawandel ist ein Phänomen ohne eigenes Bewusstsein. Entsprechend können wir ihn auch nicht direkt steuern. Internetseiten, die lustige Obskuritäten auflisten, nennen als besondere historische Skurrilität gerne US-amerikanische Gesetze des 19. Jahrhunderts, die Tornados verbieten wollten, bestimmte Gebiete zu durchqueren. Die Nennungen erfolgen jeweils ohne Quellenangaben, weshalb wir nicht wirklich wissen, ob solche Gesetze tatsächlich existierten. Die historische Forschung belegt vielmehr das Verbot von Vorhersagen von Tornados, um so Massenpaniken in der Bevölkerung vorzubeugen. Bradford (1999, S. 489) erwähnt konkret das 1905 erlassene und 1915 sowie 1934 erneuerte betriebsinterne Verbot der privaten Prognosebehörde „Weather Bureau“, den Begriff „Tornado“ auch nur zu verwenden. Dieses reale Verbot eignet sich kaum als lustige historische Anekdote, das nicht belegte Verbot von Tornados hingegen schon. Der Witz nährt sich aus der offensichtlichen Sinnlosigkeit einer solchen Regulierung. Politik ist ein soziales Phänomen und basiert auf der Interaktion von Akteur*innen. Die öffentliche Politik braucht Menschen, die sie ansprechen kann. Um ein gesellschaftlich anerkanntes Problem zu lösen, braucht die Politik Menschen, die auf politische Interventionen mit einer Verhaltensänderung reagieren können. Die Zielgruppen sind der Kern einer öffentlichen Politik. An ihnen entscheidet sich, ob eine öffentliche Politik ein Problem angehen kann oder nicht. Die öffentliche Politik geht von zwei zentralen Hypothesen aus, mit denen sie die Intervention mittels Zielgruppen mit dem Problem verknüpft: Einerseits ist dies die Problemursachenhypothese (auch Kausalhypothese oder „causal hypothesis“), die die Zielgruppen als Verursachende des zu bearbeitenden Problems identifiziert. Und andererseits handelt es sich um die Interventionshypothese (auch  „intervention hypothesis“), die von bestimmten Interventionen bestimmte Verhaltensveränderungen bei der Zielgruppe erwartet, die wiederum dazu führen sollen,

2.2  Die Idee von Wirkung: Das Wirkungsmodell öffentlicher Politik

21

dass die Zielgruppe das Problem nicht mehr länger verursacht (Bussmann 1997, S. 114; Knoepfel et al. 1997; Rossi und Freeman 1993, S. 119–123). Beide Hypothesen zusammen bilden das Wirkungsmodell einer öffentlichen Politik, das wir in Abb.  2.1 darstellen. Am Ursprung der öffentlichen Politik ist das Problem, das sie bearbeiten soll. Wir beginnen die Diskussion des Wirkungsmodells öffentlicher Politik deshalb in Abb. 2.1 von unten und gehen Schritt für Schritt nach oben bis zur Intervention, mit der öffentliche Politik das Problem letztlich bearbeiten will. Kasten 2.2 fasst die Logik des Wirkungsmodells einer öffentlichen Politik zusammen. Kasten 2.2: Das Wirkungsmodell einer öffentlichen Politik

• Das Wirkungsmodell einer öffentlichen Politik besteht aus der Problemursachenhypothese (auch Kausalhypothese) und der Interventionshypothese. Der Angelpunkt der beiden Hypothesen sind die Adressat*innen der öffentlichen Politik. • Die Kausalhypothese identifiziert die Adressat*innen der öffentlichen Politik. Sie stellt die Annahme einer Kausalverbindung zwischen Pro­ blemursachen und Problem auf. Die Verursacher*innen des Problems sind die Adressat*innen der öffentlichen Politik. • Die Interventionshypothese identifiziert die geeigneten Maßnahmen (Policy-­Instrumente), mit denen die Adressat*innen der öffentlichen Po­ litik so angesprochen werden können, dass sie ihr Verhalten so ändern, dass sie das Problem nicht mehr verursachen. • Wenn beide Hypothesen bestätigt werden können, bearbeitet die öffentliche Politik das definierte Problem erfolgreich.

2.2.1 Problem und Problemursachenhypothese Eine öffentliche Politik braucht ein gesellschaftlich anerkanntes Problem, da sie ohne diese Grundlage keine Legitimation hat, in die individuellen Freiheits- und Besitzverhältnisse von Individuen einzugreifen. Und genau das tut eine öffentliche Politik, wenn sie versucht, das Verhalten der Zielgruppe zu beeinflussen. Die Problemdefinition ist somit ebenso eine politische Handlung wie die öffentliche Politik selber. Damit ein Phänomen als Problem wahrgenommen wird, braucht es Akteur*innen, an denen sich die Unerwünschtheit des Phänomens festmachen lässt. Jemand muss von einem Phänomen negativ betroffen sein, bevor die Politik

22

2  Konzeptionelle Grundlagen öffentlicher Politik

Policy-Instrumente (Carrots, Sticks & Sermons) Interventionshypothese Politikadressat*innen = Problemverursachende Problemursachen Kausalhypothese Gesellschaftliches Problem Problembetroffene = Politikbegünstigte

Abb. 2.1  Wirkungsmodell einer öffentlichen Politik. (Quelle: Sager et al. 2017, S. 47)

ein Problem feststellen kann. Ein Problem ist erst dann ein gesellschaftliches Problem, wenn die Problembetroffenen als solche wahrgenommen werden (Knoepfel und Bussmann 1997). Probleme sind damit immer gesellschaftliche Konstrukte. Ein Zustand allein bildet noch keine Notwendigkeit, etwas dagegen zu unternehmen (vgl. dazu: Sager et al. 2017, S. 91). Wie wir in Kap. 1 gesehen haben, ist gemäß David Hume von einer Erkenntnis (das „Is“) keine logisch-rationale Ableitung von Handeln möglich. Vielmehr braucht es für das „Ought“, den moralischen Schritt der Bewertung, dass der Zustand unerwünscht ist. Dieser Schritt ist politisch. Viele Phänomene haben sehr lange Bestand, bevor sie als gesellschaftliche Probleme definiert und angegangen werden. Im Fall des oben erwähnten Klimawandels können wir diesen Schritt sozusagen live verfolgen. Wir treffen heute noch gewichtige politische Exponent*innen an, die entweder verneinen, dass es den Klimawandel überhaupt gibt, oder dann zwar die Existenz des Klimawandels anerkennen, aber keine Handlungsnotwendigkeit daraus ableiten und somit auch kein Problem darin sehen. Alle Probleme, die öffentliche Politik heute angeht, auch die weniger umstrittenen als der Klimawandel, mussten zuerst als gesellschaftliche Probleme anerkannt wer-

2.2  Die Idee von Wirkung: Das Wirkungsmodell öffentlicher Politik

23

den. Als Beispiele seien Sexismus, Rassismus, soziale Ungleichheit, Altersarmut oder die Überfischung der Meere genannt. Die ersten beiden Beispiele zeigen sehr deutlich, dass Problembetroffene sich nur bedingt als potenzielle Problemverursacher*innen eignen. Frauen sind von Sexismus betroffen, aber nicht dessen Ursache. Von Rassismus Betroffene sind für diese Erfahrungen nicht verantwortlich. Die Politik muss bei den Problemverursacher*innen ansetzen. Wenn ein Problem als solches definiert und akzeptiert ist, stellt sich die Frage, wie die öffentliche Politik dagegen vorgehen kann. Hierzu braucht sie ­Adressat*innen und um diese identifizieren zu können, müssen Annahmen über die Problemursachen getroffen werden. Die Problemursachenhypothese (oder Kausalhypothese) benennt die Gründe für das zu bearbeitende Problem. Sie ordnet das Problem konkreten Akteursgruppen zu. Deren Verhalten muss die öffentliche Politik ändern, damit sie das Problem nicht mehr länger verursachen. Die Problemursachen sind nicht identisch mit den Problemverursachenden. Nehmen wir wiederum das Beispiel des Klimawandels. Die Ursache des Klimawandels ist die erhöhte Menge von CO2 in der Atmosphäre. Der Umfang des CO2-Ausstoßes ist auch auf menschliches Verhalten zurückzuführen. Wer aber sind nun die eigentlichen Verursacher*innen? Die Forschung ebenso wie die politische Debatte offerieren eine breite Palette davon: die Nutzung des motorisierten Individualverkehrs und des Flugverkehrs mit Benzin-, Diesel- oder Kerosinmotoren; die Verwendung von Brennstoffen wie Heizöl zur Wärmegewinnung; die Verwendung von Braunkohle zur Energiegewinnung; der Fleisch- und Milchproduktekonsum aufgrund der ineffizienten Nährstoffverwertung und des CO2-Ausstoßes in der modernen Nutztierhaltung; das ungebremste Wachstum der Weltbevölkerung – die Liste lässt sich noch lange weiterführen. Welche dieser Gruppen sind denn nun die Verursacher*innen, die die Politik ansprechen muss? Wie die Auflistung unschwer erkennen lässt, ist das eine nicht ganz einfache Entscheidung. Die Schwierigkeit liegt zuerst darin, die Gruppen konkret zu benennen. Dann muss eine geeignete Massnahme formuliert werden, um das Verhalten dieser Gruppen zu ändern. Und dann gilt es in einem politischen Entscheid zu erreichen, dass diese Maßnahme auch beschlossen und umgesetzt wird. Die potenziellen Politikadressat*innen sind sich ihrer Rolle als Pro­ blemverursachende in der Regel durchaus bewusst und werden politisch gegen Maßnahmen ankämpfen, von denen sie negativ betroffen sein werden. Als Beispiel können wir das schweizerische CO2-Gesetz aus dem Jahr 1997 beiziehen, welches für Brennstoffe eine empfindliche Lenkungsabgabe vorsah, für Treibstoffe hingegen nicht. Die Erklärung für diese Ungleichbehandlung von zwei CO2-Emittenten bzw. eben Problemverursacher*innen lag nicht im Ausmaß ihres jeweiligen Problembeitrags, sondern schlicht im Erfolg ihrer politischen Bemühungen, ihre Interessen zu wahren. Die Autoindustrie war erfolgreicher als der Hauseigentümerverband (Ingold 2008).

24

2  Konzeptionelle Grundlagen öffentlicher Politik

2.2.2 Interventionshypothese und Policy-Instrumente Während die Problemursachenhypothese dazu dient, die Politikadressat*innen festzustellen, geht es bei der Interventionshypothese um die Wahl der geeigneten In­ strumente, welche die Adressat*innen davon abhalten, das Problem zu verursachen. Der öffentlichen Politik steht dabei eine Reihe von so genannten Policy-­Instrumenten zur Verfügung, mit denen Adressat*innen zu einer Änderung ihres Verhaltens gebracht werden sollen. Verschiedene Autoren haben Typologien zur Ordnung von Policy-Instrumenten vorgeschlagen. Instrumente können einerseits substanziell sein, wenn sie sich direkt auf das Verhalten von Adressat*innen beziehen, oder prozedural, wenn sie einen Kontext schaffen, innerhalb dessen Adressat*innen ihr Verhalten verändern sollen (Howlett 2005). Evert Vedung (1998) schlägt für die Kategorisierung von substanziellen Policy-Instrumenten die Unterscheidung von Carrots, Sticks and Sermons vor, wobei die Reihenfolge eigentlich Sermons (Aufruf), Carrots (Anreiz) und Sticks (Verbote und Gebote) lauten muss, damit die Typologie dem Ordnungsprinzip der Verbindlichkeit folgt, wie in Abb. 2.2 dargestellt wird. Vedungs (1998) Ordnungslogik ist die Verbindlichkeit der Policy-Instrumente gegenüber den Politikadressat*innen. Die tiefste Verbindlichkeit haben dabei die so genannten „Sermons“, also die persuasiven Instrumente. Diese Maßnahmen suchen über die Vermittlung von Informationen und Aufforderungen Politik­ adressat*innen dazu zu bringen, ihr Verhalten zu ändern. Beispiel für Informationen sind die Warnhinweise auf Tabakprodukten, dass Rauchen tödlich ist. Auch die Vorenthaltung von Information ist Persuasion, wie sie bei blinden Tabakverkaufsstellen, wo die Marken nicht einsehbar sind, und neutralen Packungen ohne attraktive Gestaltung stattfindet. Information muss nicht aufs Schriftliche beschränkt sein. Auch Bilder wie die Abbildung von Raucherlungen oder Mundkrebs transportieren InforPolicy Instrumente

Sermons: Persuasive Instrumente - Information, Aufklärung, Labels - Freiwillige Vereinbarungen

Verbindlichkeit gegenüber Adressat*innen Tief

Carrots: Infrastrukturmassnahmen -

Positive Infrastrukturanreize (Angebote) Negative Infrastrukturanreize (Behinderungen) Positive ökonomische Anreize Negative ökonomische Anreize

Sticks: Regulative Instrumente

- Gebote (substanzieller wie prozeduraler Natur) - Verbote (substanzieller wie prozeduraler Natur)

Hoch

Abb. 2.2  Substanzielle Policy-Instrumente. (Quelle: eigene Darstellung (nach: Vedung 1998))

2.2  Die Idee von Wirkung: Das Wirkungsmodell öffentlicher Politik

25

mationen. Während Information grundsätzlich neutral ist, rufen ­Appelle zur konkreten Verhaltensänderung auf. Beispiele sind Kampagnen wie die US-amerikanische Organspendekampagne „Donate your organs, donate life“ (Spende deine Organe, spende Leben), die eine spezifische Handlungsaufforderung beinhaltet. Wie Thomann (2018) argumentiert, sind Aufrufe wirksamer, wenn sie spezifisch sind. Während die schweizerische Organspendekampagne dazu aufrief, sich in einem Organspendeausweis für oder gegen die Spende zu entscheiden, führte die spanische Kampagne, die eine explizite Organspendeaufforderung kommunizierte, zu einem viel höheren Anstieg der Spenderquote. Bei aller Drastik und Explizität bleiben Informationen und Appelle aber unverbindlich. Die Adressat*innen werden auf die Unerwünschtheit ihres Verhaltens aufmerksam gemacht, aber das Verhalten selber bleibt ohne Sanktion. An der Schnittstelle zwischen Sermons und Carrots, also zwischen Botschaften und Anreizen, befindet sich das sogenannte „Nudging“, also versteckte Anstöße zu bestimmten Verhalten (John 2018). Das englische Wort „Nudge“ bedeutet wörtlich übersetzt „Stupser“ oder „Schubs“. Das Konzept entstammt der Privatwirtschaft, wo es sich am besten mit der Platzierung von „Quengelware“ auf Kinderaugenhöhe in unmittelbarer Kassennähe illustrieren lässt. Die Kinder werden direkt vor dem Zahlvorgang auf Süßigkeiten aufmerksam gemacht; die Kosten-Nutzen-­ Abwägung der Eltern zwischen „Quengelkrise“ in der Warteschlange einerseits und Erziehungs- und Ernährungsprinzipien andererseits geht typischerweise und gemäß dem betriebswirtschaftlichen Kalkül zugunsten des Kinderwunsches aus. In der Organspendepolitik gilt die sogenannte Widerspruchslösung als „Nudge“: Wenn ich mich nicht explizit dagegen äußere, stehe ich als Organspender*in zur Verfügung. Der „Nudge“ ist nicht als Steuerung ersichtlich, prägt aber dennoch mein Verhalten, wenn ich nicht bewusst dagegen aktiv werde. Aufgrund der versteckten Art der Steuerung sind „Nudges“ politisch umstritten. Anders als reine Aufrufe sind „Carrots“ manifeste Anreize. Sie weisen eine höhere Verbindlichkeit auf, indem sie Verhalten mit einem Preisschild versehen. Der Preis kann materiell oder immateriell sein, ebenso wie er positiv oder negativ sein kann. Es kann zwischen Infrastrukturanreizen und finanziellen Anreizen unterschieden werden. Infrastrukturanreize machen ein bestimmtes Verhalten durch eine Veränderung der Infrastruktur einfacher oder schwieriger. Auf diese Weise verursachen sie immaterielle Kosten oder Nutzen. Ein Beispiel für einen Infrastrukturanreiz sind Quartierverkehrsberuhigungsmaßnahmen wie Fahrbahnschwellen. Eine Quartierdurchfahrt ist weiterhin möglich, aber sie ist beschwerlich und somit unattraktiv. Ein positiver Infrastrukturanreiz dagegen macht ein bestimmtes Verhalten einfacher. Beispiele sind niederschwellige Therapieangebote oder Bildungsgänge in spezifischen Bereichen. Finanzielle Anreize bestehen entweder in der Verteuerung von Verhalten oder aber dessen Verbilligung. Beispiele von finanziellen Negativanreizen sind Schwerverkehrsabgaben für den

26

2  Konzeptionelle Grundlagen öffentlicher Politik

alpenüberquerenden Transitgüterverkehr ebenso wie die massive Verteuerung durch Sonderbesteuerung von alkoholhaltigen Mischgetränken (Alcopops). Beispiele von finanziellen Positivanreizen sind Steuererleichterungen, sei es für bestimmte Großunternehmen oder für Familien mit Kindern. Unerwünschtes Verhalten wird dadurch bestraft bzw. erwünschtes Verhalten belohnt. Materielle wie immaterielle Kosten und Nutzen können empfindlich spürbar sein. Aus diesem Grund weisen anreizbezogene politische Massnahmen eine höhere Verbindlichkeit auf als Aufrufe. Das gesteuerte Verhalten bleibt aber legal. Man darf also weiterhin Tabak rauchen oder die Alpen mit Lastwagen überqueren. Die höchste Verbindlichkeit weisen die „Sticks“ auf, also die Steuerung von Zielgruppen durch Gebote und Verbote. Die Verbindlichkeit ist am stärksten, da unerwünschtes Verhalten einem Gesetzesbruch gleichkommt. Obschon Bussen tiefer sein können als allfällige Lenkungsabgaben, sind Gesetzesverstöße dennoch als gravierender einzustufen als eine fehlende Reaktion auf Anreize. Die Missachtung eines Verbots ist ein Schritt in die Illegalität und somit eine Verletzung gesellschaftlicher Normen. Beispiele für Verbote sind das Kartellrecht in der Wirtschaftspolitik, womit ein freier Handel gewährleistet werden soll, oder das Strafrecht mit dem Ziel eines geordneten zivilen Zusammenlebens. Straßenverkehrsregeln, mit denen die Sicherheit von Verkehrsteilnehmenden hergestellt wird, beinhalten sowohl Verbote (z. B. Fahr-, Halte- und Parkverbote) als auch Gebote (z. B. Einbahnverkehr, Geschwindigkeitsvorgaben). Die allgemeine Schulpflicht ist ein Gebot, das die Grundlage der Bildungspolitik darstellt. Der Vorteil der Typologie von Vedung (1998) liegt darin, dass sie einfach nachvollziehbar und unabhängig vom Politikfeld anwendbar ist. Sie deckt aber den Policy-­Werkzeugkasten nicht vollständig ab, so dass andere Autor*innen wie beispielsweise Howlett (2005); Hood (1983); Braun und Giraud (2003) Differenzierungen und Ergänzungen vorgenommen haben (vgl. Sager et al. 2017, S. 53). Die Forschung zeigt, dass Instrumente vor allem in Kombination zum Tragen kommen. Die Mischung von Instrumenten erlaubt Synergien, indem sich die In­ strumente gegenseitig unterstützen (Howlett 2005; Mavrot et al. 2019; Sager 2009). So zeigt sich gerade bei „Sticks“, dass sie weniger über Bestrafung selber als über Abschreckung wirken. Damit Gesetze aber präventiv wirken können, müssen die Sanktionen kommuniziert werden. Hierzu braucht es Informationen, die über „Sermons“ an die Zielgruppe gelangen. Eine öffentliche Politik wird nur dann die erwünschte Wirkung erzielen, wenn sowohl die Interventionshypothese als auch die Problemursachenhypothese stimmen. Wenn die Interventionshypothese stimmt, führt die korrekte Umsetzung der geplanten Maßnahmen zu den erwarteten Verhaltensänderungen der Zielgruppen der öffentlichen Politik. Wenn die Kausalhypothese stimmt, bedeutet die Verhaltensänderung, dass die Zielgruppe nicht mehr länger das Problem verursacht, wodurch die Politik einen Beitrag zur Lösung des Problems leistet.

2.3  Öffentliche Politik als Prozess: Konzeptversagen und Umsetzungsversagen

27

Es ist wichtig zu betonen, dass es sich bei der Problemursachenhypothese und bei der Interventionshypothese um Hypothesen handelt. Das heißt, das Wirkungsmodell einer öffentlichen Politik beruht auf Annahmen. Diese Annahmen können besser oder schlechter begründet und mehr oder weniger gut theoretisch und auf vorhandene Empirie abgestützt sein. Sie können plausibel oder kontraintuitiv formuliert sein. Der Test der Hypothesen des Wirkungsmodells erfolgt in jedem Fall erst bei der Umsetzung einer öffentlichen Politik, auf die wir im Abschn. 2.3 eingehen.

2.3

 ffentliche Politik als Prozess: Konzeptversagen Ö und Umsetzungsversagen

Wie wir aber in Kap. 1 gesehen haben, ist die öffentliche Politik ein Prozess, der sich in einzelne Phasen unterteilen lässt. Ob die Wirkungsannahmen, auf welchen die Politik beruht, empirisch tragen oder nicht, entscheidet nicht allein über die Wirksamkeit der Politik. Die Problemursachenhypothese und die Interventionshypothese können zutreffen und dennoch kann eine Politik wirkungslos bleiben. Warum? Das Konzept ist nicht die alleinige Determinante der Wirkung einer öffentlichen Politik. Erst im Laufe der Umsetzung entscheidet sich, ob und wie eine öffentliche Politik wirkt. Politik ist ein sozialer Prozess. Wie eine öffentliche Politik aussieht, zeigt sich erst, wenn sie von den zuständigen Akteur*innen in konkrete Tätigkeiten übertragen wird. Umsetzungsakteur*innen können sowohl öffentliche Verwaltungen, wie auch Verbände oder Private sein (Sager et al. 2014). Die Umsetzung von politischen Entscheiden findet nicht in jedem Fall auf der politischen Ebene statt, auf welcher der Entscheid getroffen wurde. Vor allem in föderalistischen Staatsstrukturen wird die Umsetzung häufig an die unteren Staatsebenen delegiert. Die Europäische Union beispielsweise setzt die meisten ihrer Entscheide nicht selber um, sondern gibt sie zur Anwendung an ihre Mitglieder weiter. Die EU-­Mitgliedsstaaten sind souveräne Nationalstaaten, weshalb sie EU-Richtlinien zwar übernehmen, aber in ihre nationale Rechtsetzung integrieren. Diese Integration ist mit einer Neuinterpretation im nationalen Kontext verbunden, welche die Umsetzung und damit auch die Wirkungen der EU-Richtlinien massgeblich beeinflusst (Thomann und Sager 2018). Eine wesentliche Eigenschaft von Umsetzungsakteur*innen, wie Vollzugsbehörden oder mit der Umsetzung öffentlicher Politik beauftragten privaten Or­ ganisationen, ist deren Handlungsspielraum (Thomann et al. 2018). Umsetzungsakteur*innen verfügen über einen ausgeprägten Handlungsspielraum, weil die Politikentscheidung, sei es in Form eines Gesetzes, einer Verordnung oder auch nur eines Politikkonzepts, nie alle Eventualitäten der gesellschaftlichen Realität, auf die eine öffentliche Politik trifft, vorwegnehmen kann. Handlungsspielräume sind also

28

2  Konzeptionelle Grundlagen öffentlicher Politik

unvermeidbar. Handlungsspielräume sind aber auch erwünscht und notwendig für den Erfolg einer Politik. Gerade weil Politikentscheide auf Hypothesen beruhen, die in der Realität bestätigt werden müssen, ist eine erfolgreiche öffentliche Politik darauf angewiesen, dass Umsetzungsakteur*innen sie im Laufe des Vollzugs anpassen und korrigieren können. In vielen Fällen zeigt sich, dass die Anpassung von übergeordneten Entscheiden an die regionalen und lokalen Bedingungen die Wirksamkeit von öffentlicher Politik steigern kann (Sager et al. 2017). Die Handlungsspielräume von Umsetzungsakteur*innen nimmt vor allem Michael Lipskys (1980/2010) berühmtes Konzept der „Street-level bureaucrats“ auf. Lipsky beschreibt, wie Umsetzungsakteur*innen mit Handlungssituationen konfrontiert werden, die die öffentliche Politik nicht vorsieht, und dass sie aus diesem Grund mit jeder Vollzugshandlung die öffentliche Politik erst konkretisieren. Umsetzungsakteur*innen können besonderen Gefahrensituationen ausgesetzt sein, auf die sie reagieren müssen, wie zum Beispiel Polizeiangehörige in eskalierenden Einsätzen, oder sie können sich in besonderer Art und Weise ihren Zielgruppen verpflichtet fühlen wie zum Beispiel Lehrkräfte oder Sozialarbeiter*innen. In beiden Fällen können Umsetzungsakteur*innen zum Schluss kommen, dass die Einhaltung der Vorgaben der öffentlichen Politik das Problem nicht lösen wird, und die Politik deshalb durch eigenmächtiges Verhalten verändern. Diese Handlungen und Entscheidungen sind nicht einfach zu bewerten (Thomann et al. 2018). Sie bewegen sich häufig im Spannungsfeld der Vollzugstreue zum Politikkonzept auf der einen Seite und des realen Problemlösungsbeitrags auf der anderen Seite. Lipsky sprach denn auch schon 1980 von den Dilemmas der individuellen Leistungserbringenden im öffentlichen Sektor. Auch wenn der Begriff „bureaucrats“ heute nicht mehr adäquat ist, da viele öffentliche Politiken von nichtstaatlichen Akteur*innen umgesetzt werden, und deshalb häufiger von „street-level workers“ die Rede ist, so haben Lipskys Befunde doch bis heute Geltung (Hupe 2019). Zusammenfassend lässt sich festhalten, dass sich eine öffentliche Politik im Laufe der Umsetzung wesentlich verändern kann und dass der Umsetzungsprozess aus diesem Grund eine wichtige Erklärungsgröße für die Wirkung einer öffentlichen Politik ist. Die Konsequenz der Handlungsspielräume in der Umsetzung ist, dass Leistungen und Interventionen oft nicht in der Art und Weise erbracht werden, wie sie von den Entscheidungsgremien eigentlich vorgesehen waren. Dies hat Folgen für die Wirkung der öffentlichen Politik: Wenn die Umsetzung von Interventionen nicht wie vorgesehen erfolgt, können wir nicht erwarten, dass die Intervention wie vorgesehen wirkt. Damit stellen wir zwei notwendige Bedingungen für eine wirksame öffentliche Politik fest: Zum einen muss öffentliche Politik auf einem Wirkungsmodell basieren, dessen Problemursachenhypothese und dessen Interventionshypothese in der Realität bestätigt werden. Zum andern müssen die Umsetzungsakteur*innen die Politik so vollziehen, dass das Wirkungsmodell in der Realität greifen kann. Anders

2.3  Öffentliche Politik als Prozess: Konzeptversagen und Umsetzungsversagen

29

gesagt, eine Politik kann scheitern, weil sie entweder auf einem falschen Wirkungsmodell basiert, oder aber, weil sie schlecht umgesetzt wird (Pressman und Wildavsky 1984). Linder und Peters (1987) sprechen im Falle eines falschen Wirkungsmodells beziehungsweise einer schlecht geplanten öffentlichen Politik generell von „Policy failure“. Da wir die öffentliche Politik als Prozess sehen und nicht allein als Entscheid, sprechen wir im Folgenden von Konzeptversagen  (Kaufmann et  al. 2020). Die Gründe für ein Konzeptversagen sind vielfältig. Fehlendes Wissen über ein entstehendes gesellschaftliches Problem kann zu einer falsch konzipierten oder unangemessenen Politik führen. Auch die politischen Kompromisse, die zum Beispiel auf der parlamentarischen Ebene eingegangen werden, können die Kohärenz der Politik vermindern und zu Konzeptversagen führen (Barret und Hill 1984). Im Fall einer schlechten Umsetzung sprechen Linder und Peters (1987) von „Implementation failure“, also Umsetzungsversagen. Umsetzungsversagen können unter anderem durch mangelnde Umsetzungskapazität (Hertting und Vedung 2012) oder fehlende Akzeptanz (Le Galès 2010) zustande kommen. Die Gefahr des Konzeptversagens und des Umsetzungsversagens stellen zwei große Herausforderungen für eine erfolgreiche öffentliche Politik dar. Eine öffentliche Politik kann noch so gut durchdacht und geplant sein, sie erzielt keine Wirkung, wenn sie nicht richtig umgesetzt wird. Analog können die Umsetzungsakteur*innen eine Maßnahme noch so perfekt gemäß dem Konzept umsetzen, sie erzielt keine Wirkung, wenn ihr Wirkungsmodell auf falschen Annahmen basiert (Ledermann und Sager 2009). Kasten 2.3 unterscheidet Konzeptversagen und Umsetzungsversagen.

Kasten 2.3: Konzeptversagen und Umsetzungsversagen

• Eine öffentliche Politik braucht sowohl ein korrektes Konzept als auch eine korrekte Umsetzung, um ihre angestrebte Wirkung zu erzielen. Beides sind notwendige Bedingungen. Eine öffentliche Politik kann somit an Konzeptversagen, an Umsetzungsversagen oder an beiden zugleich scheitern. • Konzeptversagen („Policy Failure“) bedeutet, dass das Wirkungsmodell im Politikkonzept falsch ist und die Politik selbst bei guter Umsetzung die beabsichtigten Wirkungen nicht erzielen kann, weil entweder die ­Problemursachenhypothese oder die Interventionshypothese oder beide zusammen falsch sind. • Umsetzungsversagen („Implementation Failure“) bedeutet, dass die öffentliche Politik nicht entsprechend der Vorgaben vollzogen wird, weil die Strukturen und/oder die Akteur*innen der Umsetzung ungeeignet sind oder weil die Umsetzungsakteur*innen die Leistungen nicht wie vorgesehen oder nicht zielführend erbringen oder beides.

30

2  Konzeptionelle Grundlagen öffentlicher Politik

Die Unterscheidung von Konzeptversagen und Umsetzungsversagen ist für die Politikevaluation relevant. Für den Politikentscheid sind andere Akteur*innen zuständig als für die Umsetzung. Wenn eine öffentliche Politik schlecht konzipiert ist, dann liegt die Verantwortung für die ausbleibende Wirkung bei den Entscheidungsbehörden, also in der Regel bei der Exekutive oder bei der Legislative, die ein ungeeignetes Wirkungsmodell verabschiedet haben. Wenn die öffentliche Politik jedoch schlecht umgesetzt wird, dann liegt die Verantwortung bei den Umsetzungsakteur*innen, die durch mangelhafte Umsetzung die Realisierung des – an sich stimmigen – Wirkungsmodells beeinträchtigt haben.

2.4

 earnings aus der Felderfahrung: Was alles schiefL gehen kann bei einer öffentlichen Politik

Die Ausführungen in diesem Kapitel zeigen eine Reihe von Faktoren, die es bei der Planung und Umsetzung einer öffentlichen Politik zu berücksichtigen gilt. Entsprechend kommen diese Faktoren auch als Erklärung für die Wirkung oder aber deren Ausbleiben in Betracht, wenn die Politik evaluiert wird. In der Praxis kommt es bei der Planung und Umsetzung öffentlicher Politik immer wieder zu Versäumnissen und Fehlentscheiden bei diesen Faktoren, welche die Wirkung der Politik beeinträchtigen können, und die die Evaluation der Politik anschließend vorhält. Diesen Defiziten kann eine sorgfältige und umsichtige Konzipierung einer politischen Intervention entgegentreten. Politikkonzepte beinhalten häufig keine expliziten Wirkungsmodelle, sondern stellen Annahmen über Problemursachen, Zielgruppen und Interventionen eher unsystematisch nebeneinander. Oft lassen sich Problemursachen- und Interventionshypothese aber auch im Nachhinein durch Evaluierende nicht identifizieren, weil Interventionen wenig systematisch konzipiert sind. Allerdings ist auch zuzugeben, dass das vereinfachte Wirkungsmodell, wie wir es in Abb.  2.1 kennen gelernt haben, in der Realität konkreter öffentlicher Politik deutlich komplexer aussehen kann. Ledermann und Sager (2009) zeigen dies am Beispiel des schweizerischen Programms „Migration und Gesundheit“ (BAG 2002), das die Chancengleichheit von Einheimischen und Menschen mit Migrationshintergrund, gesund zu sein, zum Ziel hatte. Abb.  2.3 veranschaulicht, wie komplex allein die Problemursachenmodellierung sein kann (vgl. hierzu Ledermann und Sager 2009). Die systematische Darstellung des Wirkungsmodells kann bei der Konzipierung von politischen Maßnahmen dazu dienen, die Interventionsmöglichkeiten aufzuzeigen. Im Beispiel des Programms „Migration und Gesundheit“ in Abb. 2.3 sind die Probleme ursächlich auf zwei Phänomene zurückgeführt: auf die Migrations-

2.4  Learnings aus der Felderfahrung: Was alles schiefgehen kann bei einer … Migrationserfahrung

Migrationspolitik K1

K15

Suboptimale Rahmenbedingungen für die Integration Unsicherheit des Aufenthaltsstatus

Sozioökonomische Benachteiligung

K2

K3

K4

K16 K10

Sprachliche/interkulturelle Verständigungsprobleme K9

K12

K13

Langfristige Kumulation von erhöhten Gesundheitsrisiken Spezifische Ressourcen von MigrantInnen

K18

K17

K8

K7

K5

K11

K14

Migrationsspezifische Pathologien

Fehlende Sensibilisierung für Migrationsproblematik

K6

Beschränkte Wahrnehmung eigener Interessen

K22

31

K19

Gesundheitliche Defizite in der Migrationsbevölkerung

Zugangs-/Versorgungsprobleme im Gesundheitssystem K21

K20

Kostensteigerung im Gesundheitswesen

Abb. 2.3  Die Problemursachenhypothesen im Wirkungsmodell des Programms „Migration und Gesundheit“. Legende: K=Kausalhypothese; durchgezogene Kasten/Linie=Problem und Problemursachen; gestrichelte Kasten/Linie=problemmindernde Faktoren. (Quelle: Ledermann und Sager 2009)

politik und auf die Migrationserfahrung. Ein politisches Programm kann weder die nationale Migrationspolitik verändern, da diese demokratisch legitimiert und verankert ist, noch kann sie die Migrationserfahrung von Migrant*innen ungeschehen machen. Das Wirkungsmodell weist jedoch darauf hin, an welcher Stelle eine öffentliche Politik Verhaltensveränderungen anstreben kann. Dies veranschaulicht Abb. 2.4. Das Programm „Migration und Gesundheit“ (BAG 2002) war gesamthaft erfolgreich und wirksam. Wir verwenden es hier, um punktuell Hürden öffentlicher Politik zu veranschaulichen. Ledermann und Sager (2009) zeigen, dass es im Politikkonzept mehrere blinde Flecken gab und dieses  von  gewissen unbelegten Kausalannahmen ausging. Ein typisches Defizit war beispielsweise, dass das Problem, das die öffentliche Politik lösen wollte, zu wenig genau beschrieben war. Das Konzept blieb unscharf darin, welche Probleme das Programm genau lösen sollte. Diese Unschärfe ist politisch verständlich, da somit nie klar ist, ob das Programm nun seine Ziele erreicht hat oder nicht. Gleichzeitig macht sie es aber unmöglich, einen klaren Erfolg des Programms auszuweisen. Für die Evaluation bedeutet das Fehlen klarer Zielvorgaben, dass sie diese aus den Ansprüchen des Politikkonzepts heraus selber definieren muss. Die öffentliche Politik gibt damit die Kontrolle da­ rüber aus der Hand, auf welcher Grundlage sie bewertet wird. Ein zweites konzeptionelles Defizit, das Ledermann und Sager (2009) im Programm „Migration und Gesundheit“ identifizierten, war die Formulierung von

32

2  Konzeptionelle Grundlagen öffentlicher Politik Info, Prävention, Gesundheitsförderung

Bildung

Versorgung

Suboptimale Rahmenbedingungen für die Integration

Beschränkte Wahrnehmung eigener Interessen

Traumatherapie

Fehlende Sensibilisierung für Migrationsproblematik

Sprachliche/interkulturelle Verständigungsprobleme

Langfristige Kumulation von erhöhten Gesundheitsrisiken Gesundheitliche Defizite in der Migrationsbevölkerung

Zugangs-/Versorgungsprobleme im Gesundheitssystem

Kostensteigerung im Gesundheitswesen

Abb. 2.4  Interventionshypothesen des Programms „Migration und Gesundheit“. Legende: Gelb=Zielpunkte der Interventionen; gestrichelte Pfeile=Interventionshypothesen; durchgezogene Pfeile= Problemursachenhypothesen. (Quelle: Ledermann und Sager 2009)

zwar intuitiv wahrscheinlichen, aber empirisch nicht belegten Problemursachenund Interventionshypothesen. Ein Beispiel hierfür ist die Aussage, dass Migration zu einem Kostenzuwachs im Gesundheitswesen führte und das Programm „Migration und Gesundheit“ entsprechend zu Einsparungen. Diese Aussage liess sich in der Evaluation nicht belegen. Auch zeigte die Literatur weder migrationsbedingte Gesundheitskostensteigerungen noch Kostensenkungen aufgrund von Anpas­ sungen im Versorgungssystem. Beides waren jedoch Hypothesen des Wirkungsmodells, auf dem das Programm basierte. Die Evaluation stellte denn auch fest, dass das Programm keinen Kosteneinsparungseffekt hatte und somit eine der angepeilten Wirkung verfehlt hatte. Da die Erwartung der Kostenreduktion von einer nicht belegten Annahme ausging, konnte aber eine diesbezügliche Wirkung auch nicht nachgewiesen werden. Es handelt sich um ein klassisches Konzeptversagen. Wie Ledermann und Sager (2009) zeigen, gibt es auch in der Umsetzung Stolpersteine für den Politikerfolg. So zeigte sich in einem Projekt des Programms beispielsweise, dass die mandatierten Umsetzungsakteur*innen zwar sowohl fachlich qualifiziert und voll bester Intentionen waren. Sie wiesen aber nicht die notwendigen organisatorischen Fähigkeiten und Managementkompetenzen auf, die es ihnen ermöglicht hätten, die vereinbarten Leistungen zu erbringen. Das betroffene Projekt scheiterte also an der Umsetzung und nicht am Konzept. Ein zweites Beispiel für ein Umsetzungsversagen findet sich in der Handhabung der Leistungsver-

2.5  „Wie vorgehen?“-Kasten: Wie formuliere ich eine Evaluationsfrage?

33

träge mit Projektpartner*innen. Nachdem in einzelnen Projekten Leistungsdefizite festgestellt wurden und die Programmleitung entsprechend die Finanzierung kürzen wollte, zeigte sich zum allgemeinen Erstaunen, dass die Leistungsverträge keine konkreten Leistungen erwähnten, auf die sich die Programmleitung hätte berufen können. Sie hatte sich zwar zur Finanzierung verpflichtet, konnte die Leistungserbringung aber nicht steuern.

2.5

„ Wie vorgehen?“-Kasten: Wie formuliere ich eine Evaluationsfrage?

Eine öffentliche Politik besteht aus einem Politikkonzept und der Umsetzung dieses Konzepts in konkrete Leistungen öffentlicher oder öffentlich beauftragter Akteur*innen. Politikformulierung, Entscheidung und Implementation führen gemeinsam zu Wirkungen (siehe Kap. 1 Policy Cycle). Die umfassende Bewertung einer öffentlichen Politik muss Konzept, Implementation und Wirkungen einbeziehen: Die Wirkung als eigentlicher Zweck der öffentlichen Politik, die Implementation zur Identifikation eines allfälligen Umsetzungsversagens und das dem Konzept zugrunde liegende Wirkungsmodell zur Identifikation eines allfälligen Konzeptversagens. Für die Formu­lierung von Evaluationsfragen bedeutet dies: • Identifizieren Sie das Konzept, die Umsetzung und die erwartete Wirkung der öffentlichen Politik. • Wenn zu einzelnen Phasen keine Informationen vorliegen, kann die Evaluation beauftragt werden, die entsprechenden Informationen zu erheben. • Klären Sie, auf welcher Phase oder auf welchen Phasen der Schwerpunkt des Interesses der Evaluation liegen soll. • Wenn einzelne Phasen nicht von Interesse sind, können sie von der Fragestellung ausgeschlossen werden. • Spezifizieren Sie Aspekte der einzelnen Phasen, die von besonderem Interesse sind. Eine öffentliche Politik soll ein gesellschaftliches Problem lösen. Evaluationsfragen betreffen sowohl Zustände auf dem Weg vom Konzept zur Wirkung als auch Kausalbeziehungen zwischen diesen Zuständen. Fragen zur Erfassung und Bewertung von Zuständen sind die Folgenden:

34

2  Konzeptionelle Grundlagen öffentlicher Politik

• Gibt es ein Politikkonzept mit einem impliziten oder expliziten Wirkungsmodell der öffentlichen Politik? –– Welches sind die Problemursachen- und Interventionshypothesen des Wirkungsmodells? –– Sind die Problemursachen- und Interventionshypothesen realistisch und plausibel? –– Ist das Konzept geeignet für die Lösung des Problems? –– Ist das Problem ausreichend eingegrenzt? • Welches sind die Umsetzungsstrukturen und -prozesse der öffentlichen Politik? –– Wer sind die Umsetzungsakteur*innen? –– Sind die Umsetzungsakteur*innen geeignet für den Vollzug? –– Werden die Interventionen wie vorgesehen umgesetzt? • Wie verändert sich der Problemzustand, den die Politik lösen will? Die zentralen Fragen der Evaluation einer öffentlichen Politik stehen im Zusammenhang mit den Wirkungen der Politik. Diese Fragen sind kausal, d. h. sie stellen einen Zusammenhang zwischen der öffentlichen Politik und dem Problemzustand her. Evaluationsfragen sollen dieser Kausalität Rechnung tragen, indem sie nicht allein das Konzept und die Leistungen der Politik sowie den Zustand der Problemsituation abdecken, sondern ebenso die Kausalbeziehungen zwischen diesen Einheiten. Beispiele für Fragen zur Kausalität zwischen öffentlicher Politik und ihrer Wirkung auf das zu lösende Problem sind die Folgenden: • Ist der Problemlösungsbeitrag bzw. die Wirkung der öffentlichen Politik auf die Güte der Problemdefinition im Wirkungsmodell zurückzuführen? • Ist der Problemlösungsbeitrag bzw. die Wirkung der öffentlichen Politik auf die Korrektheit der Problemursachenhypothese und damit auf die korrekte Identifikation der Politikadressat*innen im Wirkungsmodell zu­ rückzuführen? • Ist der Problemlösungsbeitrag bzw. die Wirkung der öffentlichen Politik auf die Korrektheit der Interventionshypothesen und damit die richtige Wahl und Kombination von Policy-Instrumenten im Wirkungsmodell zurückzuführen? • Ist der Problemlösungsbeitrag bzw. die Wirkung der öffentlichen Politik auf die korrekte Wahl der Vollzugsbehörden und der Umsetzungsakteur*innen zurückzuführen? • Ist der Problemlösungsbeitrag bzw. die Wirkung der öffentlichen Politik auf die Vollzugstreue bei der Umsetzung der öffentlichen Politik zurückzuführen?

2.6 Illustratives Anwendungsbeispiel: Das australische Home Insulation Program

35

Diese Fragen sind allgemein gehalten und müssen bei der Planung einer Evaluation konkretisiert werden. Kap. 5 spezifiziert Evaluationsgegenstände und Bewertungskriterien. Kap. 6 geht auf die Modellierung von Kausalitäten zur Feststellung von Wirkung öffentlicher Politik ein. Die Evaluation stellt auch Fragen, welche die Vorbereitung einer Politik betreffen. Aus diesem Grund eignen sich diese Fragen nicht nur für die nachträgliche Bewertung einer Politik, sondern auch bereits für deren Planung. Wenn allen genannten Aspekten im Vorfeld des Entscheides über eine öffentliche Politik Rechnung getragen wird, ist die ­Wahrscheinlichkeit der Wirkungserzielung höher, als wenn diese Fragen in der Planung unberücksichtigt bleiben.

2.6

I llustratives Anwendungsbeispiel: Das australische Home Insulation Program

Das australische „Home Insulation Program“ (HIP, dt. Hausisolationsprogramm) von 2009 und 2010 war ein wirtschaftliches Anschubprogramm, das nach der Finanzkrise von 2007 die australische Wirtschaft wieder in die Gänge bringen und gleichzeitig einen Beitrag zur Bekämpfung des Klimawandels leisten sollte. Der Hintergrund des Programms war der Umstand, dass australische Häuser generell nicht isoliert sind und dadurch in den kälteren Monaten Wärme verlieren, was sowohl finanziell ineffizient als auch umweltschädlich ist. Um einen bislang inexistenten Gewerbesektor zu lancieren, schuf die Labour-Regierung Kevin Michael Rudd unter dem zuständigen Minister Peter Garrett eine große Menge Isolationsmaterial in Form von Steinwollmatten an, die den neu zu gründenden Isolationsmontage-Betrieben verbilligt abgegeben wurden. Hauseigentümer*innen, die ihre Häuser isolieren ließen, erhielten in einer ersten Phase die Kosten über das HIP rückerstattet. In einer zweiten Phase wurden die Isolationsmonteur*innen direkt über das HIP abgegolten. Sehr schnell zeigten sich schwerwiegende Sicherheitsprobleme im Rahmen des Programms. Bis zur Beendigung des HIP im Fe­ bruar 2010 standen nicht nur an die 150 Hausbrände im Zusammenhang mit dem Programm, auch verloren vier Isolationsmonteur*innen ihr Leben. Das Kernproblem war, dass Hausisolation üblicherweise durch das Auslegen von Steinwollmatten auf dem Dachboden erfolgt. Steinkohlematten haben einen Kupferfilm. Australische Häuser sind nicht für diese Form der Isolation gebaut, da häufig die Stromverteilung auf dem Dachboden montiert ist. Der Kontakt des Kupfers mit den Stromkabeln führte zu Kurzschlüssen mit Brandfolgen sowie zu tödlichen

36

2  Konzeptionelle Grundlagen öffentlicher Politik

Stromschlägen bei den Monteur*innen. Die Monteur*innen ihrerseits waren ohne jegliche Ausbildung in ihre gefährliche Tätigkeit geschickt worden. Das HIP kann als idealtypisches Fiasko einer Politik bezeichnet werden (Hinterleitner und Sager 2015). Der Bericht der australischen Aufsichtsbehörde (Auditor-­General 2010) zeigt eine unglückliche Liste von Konzept- und Umsetzungsversagen auf. Wir können die Defizite entlang der in diesem Kapitel vorgestellten Elemente öffentlicher Politik auflisten: • Problemdefinition: Das Ziel des HIP war einseitig auf die Wirtschaftsentwicklung ausgerichtet und blendete Sicherheitsrisiken aus. Eine Analyse der zu isolierenden Häuser war nicht erfolgt. • Problemursachenhypothese: Die Ursachen für den fehlenden Isolationsmarkt waren fehlendes Material und fehlende Monteur*innen. Das HIP stellte beides bereit, jedoch in ungeeigneter Form. Das Isolationsmaterial war ungeeignet für australische Häuser, die Monteur*innen waren nicht ausgebildet. • Interventionshypothese: Die Anreizstrukturen zielten alleine auf die Förderung der Gewerbetätigkeit der Monteur*innen, die ihr Material verbilligt beziehen konnten und die in der zweiten Programmphase direkt über das HIP bezahlt wurden. Weder sah das Programm grundlegende Fähigkeitsanforderungen vor noch bot es Ausbildungen an. Das Material wurde keiner Sicherheitsprüfung unterzogen. • Umsetzungsversagen: Das Programm wurde unbeirrt weitergeführt, selbst nach­ dem der zuständige Minister den Ministerpräsidenten auf die großen Sicherheitsrisiken und deren Konsequenzen aufmerksam gemacht hatte.

Bibliographie Auditor-General. (2010). Home insulation report (audit report 12 2010–2011). Canberra: Australian National Audit Office. BAG. (2002). Migration und Gesundheit: Strategische Ausrichtung des Bundes 2002–2006. Bern: Bundesamt für Gesundheit (BAG). Barret, S., & Hill, M. (1984). Policy, bargaining and structure in implementation theory: Towards an integrated perspective. Policy & Politics, 12(3), 219–240. Böhret, C., Jann, W., & Kronenwett, E. (1988). Innenpolitik und politische Theorie. Ein Studienbuch (3. Aufl.). Opladen: Westdeutscher. Bradford, M. (1999). Historical roots of modern tornado forecasts and warnings. Weather and Forecasting, 14, 484–491. Braun, D., & Giraud, O. (2003). Steuerungsinstrumente. In K. Schubert & N. C. Bandelow (Hrsg.), Lehrbuch der Politikfeldanalyse (2. Aufl.). München/Wien: Oldenbourg.

Bibliographie

37

Bussmann, W. (1997). Die Methodik der prospektiven Gesetzesevaluation. LeGes – Gesetzgebung & Evaluation, 3, 109–136. Hertting, N., & Vedung, E. (2012). Purposes and criteria in network governance evaluation: How far does standard evaluation vocabulary takes us? Evaluation, 18(1), 27–46. Hinterleitner, M., & Sager, F. (2015). Avoiding blame – A comprehensive framework and the Australian Home Insulation Program Fiasco. Policy Studies Journal, 43, 139–161. Hood, C. C. (1983). The tools of government. London: Macmillan Education UK. Howlett, M. (2005). What is a policy instrument? Tools, mixes, and implementation styles. In Designing government: From instruments to governance (S. 31–50). Quebec: McGill-­ Queen’s University Press. Hupe, P.  L. (2019). Research handbook on street-level bureaucracy: The ground floor of government in context. Cheltenham: Edward Elgar Publishing. Ingold, K. (2008). Analyse des mécanismes de décision: Le cas de la politique climatique suisse. Chur: Rüegger. John, P. (2018). How far to nudge?: Assessing behavioural public policy. Cheltenham: Edward Elgar Publishing. Kaufmann, D., Kuenzler, J., & Sager, F. (2020). How (not) to design and implement a large-scale, interdisciplinary research infrastructure, Science and Public Policy. https://doi. org/10.1093/scipol/scaa042. Knoepfel, P., & Bussmann, W. (1997). Die öffentliche Politik als Evaluationsobjekt. In W.  Bussmann, U.  Klöti & P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 58–77). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., Varone, F., Bussmann, W., & Mader, L. (1997). Evaluationsgegenstände und Evaluationskriterien. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 78–118). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Le Galès, P. (2010). Policy instruments and governance. In M.  Bevir (Hrsg.), The SAGE handbook of governance (S. 142–159). Thousand Oaks: SAGE. Ledermann, S., & Sager, F. (2009). Problem erkannt, aber nicht gebannt. Der Nutzen einer Verknüpfung von Konzept- und Umsetzungsevaluation am Beispiel der Strategie „Mi­ gration und Gesundheit“. Zeitschrift für Evaluation, 8(1), 7–25. Linder, S. H., & Peters, B. G. (1987). A Design perspective on policy implementation: The fallacies of misplaced prescription. Policy Studies Review, 6(3), 459–475. Lipsky, M. (1980). Street-level bureaucracy: Dilemmas of the individual in public services. New York: Russell Sage Foundation. Mavrot, C., Hadorn, S., & Sager, F. (2019). Mapping the mix: Linking instruments, settings and target groups in the study of policy mixes. Research Policy, 48(10), 1–9. Nohlen, D., & Schultze, R.-O. (1995). Lexikon der Politik. Wiederabdruck in: Lexikon der Politikwissenschaft. Theorien-Methoden-Begriffe. 2 Bände. München: Beck 2002, 2005, 2006 (Bd. 1). München: Beck. Pressman, J. L., & Wildavsky, A. (1984). Implementation: How great expectations in Washington are dashed in Oakland. Berkeley: University of California Press. Rossi, P. H., & Freeman, H. E. (1993). Evaluation: A systematic approach (5. Aufl.). Newbury Park: Sage. Sager, F. (2009). Governance and coercion. Political Studies, 57(3), 537–558. Sager, F., Thomann, E., Zollinger, C., van der Heiden, N., & Mavrot, C. (2014). Street-level bureaucrats and new modes of governance: How conflicting roles affect the implementa-

38

2  Konzeptionelle Grundlagen öffentlicher Politik

tion of the Swiss Ordinance on Veterinary Medicinal Products. Public Management Review, 16(4), 481–502. Sager, F., Ingold, K., & Balthasar, A. (2017). Policy-Analyse in der Schweiz-Besonderheiten, Theorien, Beispiele (Bd. 4). Zürich: NZZ Libro. Thomann, E. (2018). „Donate your organs, donate life!“ Explicitness in policy instruments. Policy Sciences, 51(4), 433–456. Thomann, E., & Sager, F. (Hrsg.). (2018). Innovative approaches to EU multilevel implementation: Moving beyond legal compliance. London: Routledge. Thomann, E., Hupe, P. L., & Sager, F. (2018). Serving many masters: Public accountability in private policy implementation. Governance, 31(2), 299–319. Thomann, E., van Engen, N., & Tummers, L. (2018). The necessity of discretion: A behavioral evaluation of bottom-up implementation theory. Journal of Public Administration Research and Theory, 28(4), 583–601. Vedung, E. (1998). Policy instruments: Typologies and theories. In M. Bemelmans-Videc, R. Rist & E. Vedung (Hrsg.), Carrots, sticks, and sermons: Policy instruments and their evaluation (Bd. 5, S. 21–58). New Brunswick/London: Transaction Publishers.

3

Die Entstehung und Etablierung der Wirkungsforschung

Schlüsselwörter

Institutionalisierung von Evaluation · Bilanzierung · Verbesserung · Wissensgenerierung · Taktik

In diesem Kapitel wenden wir uns zuerst der Geschichte der Evaluationsforschung zu (Abschn. 3.1). Danach skizzieren wir, wie sich die Evaluation in Deutschland, in Österreich, in der Schweiz und in Frankreich in den letzten 50 Jahren institutionalisiert hat (Abschn.  3.2). Im Laufe der Jahre hat sich die Evaluation zu einer Disziplin wissenschaftlicher Forschung entwickelt, deren Kern die Bewertung darstellt. Die wesentlichen Elemente dieser Disziplin werden in Abschn. 3.3 erläutert. Anschließend gehen wir auf die Ziele ein, welche Evaluationen verfolgen können (Abschn. 3.4). In Abschn. 3.5 weisen wir darauf hin, was es zu beachten gilt, wenn Evaluator*innen die wissenschaftlich erarbeiteten Ergebnisse für die Politikberatung nutzen. Schließlich verdeutlichen wir an einem Praxisbeispiel aus Österreich die Grundpfeiler der Evaluationsforschung (Abschn. 3.6).

3.1

Die Entwicklung der Evaluationsforschung

In the beginning, God created the heaven and the earth. And God saw everything that he made. “Behold,” God said, “it is very good.” And the evening and the morning were the sixth day. And on the seventh day God rested from all His work. His arch-

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_3

39

40

3  Die Entstehung und Etablierung der Wirkungsforschung angel came then unto Him asking, “God, how do you know that what you have created is ‘very good’? What are your criteria? On what data do you base your judgement? Just exactly what results were you expecting to attain? And aren’t you a little close to the situation to make a fair and unbiased evaluation?” God thought about these questions all that day and His rest was greatly disturbed. On the eighth day God said, “Lucifer, got to hell.” Thus was evaluation born and a blaze of glory. …

Mit dieser Anekdote aus Halcom’s The Real Story of Paradise Lost beginnt Michael Quinn Patton sein wegweisendes Buch Utilisation-Focused Evaluation (Patton 1997, S. 1). Die Anekdote macht deutlich, dass die Evaluationsforschung im Prinzip auf eine lange Tradition zurückblicken kann. Es erstaunt daher nicht, dass immer wieder versucht wurde, die Geschichte der Evaluation nachzuzeichnen. Zu diesen Versuchen gehört auch das Generationenmodell, das Egon G. Guba und Yvonna S. Lincoln (1989) vorgeschlagen haben (vergleiche dazu: Stockmann und Meyer 2010, S. 102 ff.). Es teilt die Geschichte der Evaluation in vier aufeinanderfolgende Generationen ein und betitelt diese mit leicht verständlichen Kennzeichnungen. Dies ist der Grund, weshalb wir unsere kurze Darstellung der Geschichte der Evaluation an diesem Modell orientieren, obwohl es die Entwicklung stark vereinfacht, in vielen Aspekten nicht trennscharf ist und eine lineare Entwicklung suggeriert, die so nicht stattgefunden hat.

3.1.1 Die erste Generation – das „Messen“ Die erste Generation der Evaluation wird von Guba und Lincoln mit dem Begriff „Messen“ gekennzeichnet (Stockmann und Meyer 2010, S. 103). Zur Illustration wird insbesondere auf die Arbeiten von Joseph Mayer Rice verweisen. Rice wurde durch eine 1885 durchgeführte Studie, bei der die ersten vergleichenden Tests zur Rechtschreibung an Schulen in den USA eingesetzt wurden, zum „Vater der Schulevaluation“ (Rice 1893). An dieser Studie waren mehr als 30.000 Schüler*innen beteiligt. Weder Rice selbst noch seine damaligen Kollegen haben sich als Pioniere der Evaluationsforschung verstanden. Rice ging es in erster Linie um die Offenlegung von Defiziten im amerikanischen Schulsystem und um ein Plädoyer für die Etablierung einer progressiven Pädagogik. Das von Guba und Lincoln als Charakteristikum der ersten Evaluationsgeneration bezeichnete „Messen“ von Schulleistungen erfreut sich noch heute hoher Beliebtheit. Dies macht die international bekannte PISA-Studie deutlich, welche seit dem Jahr 2000 in dreijährigem Turnus in den meisten Mitgliedstaaten der OECD durchgeführt wird. In dieser Studie werden alltags- und berufsrelevante Kenntnisse und Fähigkeiten Fünfzehnjähriger gemessen und international verglichen (Schlaufer 2016).

3.1  Die Entwicklung der Evaluationsforschung

41

3.1.2 Die zweite Generation – das „Beschreiben“ Zur Charakterisierung der zweiten Generation der Evaluation verwenden Guba und Lincoln das Kennwort „Beschreiben“. Die sorgfältige Darstellung der Ziele und der Wirkungen eines Projekts wird damit als ein wichtiges Element der Evaluationsaktivität betont. Zur Illustration dieser „Generation“ von Evaluatoren weisen Guba und Lincoln auf Ralph W. Tyler hin (Stockmann und Meyer 2010, S.  103). Auch dieser Autor hat sich mit schulpädagogischer Forschung befasst (Tyler 1949). In seinen in den 1930er- und 1940er-Jahren durchgeführten Arbeiten stand der Vergleich zwischen Bildungszielen und möglichst exakt messbaren Bildungsergebnissen im Zentrum. Tyler war von 1933 an verantwortlich für eine auf acht Jahre angelegte Studie, die Modellschulen mit traditionellen Schultypen verglich (Giel 2013, S. 57). Aus der Differenz zwischen den gemessenen Ergebnissen und den gesetzten Zielen hat er den Erfolg der durchgeführten Massnahmen beurteilt. Tyler förderte neben der Zieldefinierung und der Zielüberprüfung auch die Entwicklung von Evaluationsinstrumenten, wie Testverfahren, Beobachtung, Interview, Fragebogen sowie Statistiken (Ritz 2003, S.  58). Diese Instrumente mussten hohe Forschungsstandards hinsichtlich Objektivität, Reliabilität und Validität genügen. Der Beitrag von Tyler zur Evaluationsforschung lässt sich daher nicht auf den Begriff „Beschreiben“ reduzieren. Auch kann die zeitliche Einordnung dieser Kompetenz nach derjenigen des „Messens“ in Zweifel gezogen werden. Dennoch weist die Kennzeichnung der zweiten Generation der Evaluationsforschung auf eine zweite Kompetenz hin, welche für die Durchführung von Evaluationen ausschlaggebend ist, nämlich jene des sorgfältigen Beschreibens von Zielen und Wirkungen.

3.1.3 Die dritte Generation – die „Bewertung“ Als Kennzeichen der dritten Generation der Evaluationsforschung heben Guba und Lincoln die „Bewertung“ hervor. Die „Bewertung“ ist eines der wichtigsten Elemente von Evaluationen und sie unterscheidet diese von der wissenschaftlichen Grundlagenforschung (siehe Kap. 1). Hierfür werden die Beurteilungskriterien meist aus dem zu evaluierenden Programm selbst abgeleitet. Die Wirkungen eines Programms werden im Vergleich zu dessen Zielen bewertet. Wird eine wissenschaftliche Evaluation durchgeführt, handelt es sich jedoch nicht um subjektive Werturteile der Forscherin oder des Forschers, „sondern um „analytische Beurteilungen“, die intersubjektiv nachprüfbar sein müssen“ (Stock-

42

3  Die Entstehung und Etablierung der Wirkungsforschung

mann und Meyer 2010, S. 58). Es ist insbesondere Michael Scriven, der in den 1960er-Jahren den Bewertungsaspekt als wichtigen Bestandteil einer Evaluation hervorgehoben hat. Von ihm stammt der berühmte Satz, „Bad is bad and good is good and it is the job of evaluators to decide which is which. And there are many occasions when they should say which is which, whether or not they have explanation or remediation“ (Scriven 1986, S. 19). Zweifellos ist die Einführung des Bewertungsaspekts ein wichtiger Beitrag gewesen, der sich von den anderen, von Guba und Lincoln unterschiedenen „Generationen“ abgrenzt. Die Evaluatorin, bzw. der Evaluator soll die Beurteilungskriterien unabhängig aller Einflüsse auf der Basis des gesellschaftlichen Bedarfs an das Programm be­ ­stimmen.

3.1.4 Die vierte Generation – das „Verhandeln“ Kennzeichen der vierten Evaluationsgeneration ist das „Verhandeln“. Als beispielhaft für diese Evaluationsgeneration weisen Guba und Lincoln auf ihren eigenen Ansatz hin, die „Fourth-generation Evaluation“ (Guba und Lincoln 1989). Hauptanliegen dieses Ansatzes ist die Erreichung einer gleichberechtigten Beteiligung von Beteiligten und Betroffenen am Evaluationsprozess. Die unterschiedlichen Interessen müssen bei der Erarbeitung der Evaluation diskutiert und in das Ergebnis integriert werden. Dem Ansatz von Guba und Lincoln liegt ein konstruktivistischer Zugang zum Evaluationsgegenstand zugrunde (Giel 2013, S.  80). Das bedeutet, dass die Wirklichkeit nicht durch sorgfältige wissenschaftliche Analyse erkannt werden kann, weil diese nicht unabhängig von den Betrachtenden existiert. Vielmehr muss sie durch Übereinkünfte zwischen den Beteiligten konstruiert werden (Ritz 2003, S. 80). Die Realität wird als durch die Beteiligten geschaffen verstanden. Es ist die Aufgabe der Evaluatorin bzw. des Evaluators sicherzustellen, dass die Optik benachteiligter Gruppen (z.  B.  Armuts- und Suchtbetroffene, Konsument*innen) gleichberechtigt in diesen Konstruktionsprozess einbezogen wird. Guba und Lincoln geht es mit ihrem Evaluationsansatz nicht in erster Linie darum, Wirkungen von Programmen darzustellen und zu bewerten. Sie wollen dazu beitragen, dass Lösungen von Problemen gefunden werden: „It is the mind that is to be transformed, not the real world“ argumentieren die Autoren (Guba 1990, S. 27). Auch wenn das von Guba und Lincoln propagierte Generationenmodell der Entwicklung der Evaluation stark vereinfacht, so weist das Modell doch auf vier zentrale Elemente der Evaluationsforschung hin, nämlich auf das Messen, das Beschreiben, das Bewerten und auf das Verhandeln.

3.1  Die Entwicklung der Evaluationsforschung

43

Kasten 3.1: Kompetenzen der Evaluationsforschung

Das Messen, das Beschreiben, das Bewerten und das Verhandeln sind Kernkompetenzen von Evaluierenden, welche sich im Laufe der Zeit herausgebildet haben. Das von Guba und Lincoln propagierte Generationenmodell weist darauf hin. Tatsächlich haben sich diese Kompetenzen jedoch nicht nacheinander, sondern weitgehend parallel zueinander herausgebildet.

3.1.5 D  er Beitrag des Evidence-Based Policy-Making – die „systematische Zweitauswertung“ Die Evaluationsforschung hat sich auch nach den Publikationen von Guba und Lincoln in den 1980er-Jahren weiterentwickelt. Massgebliche Impulse dafür gehen insbesondere auf das Konzept des Evidence-Based Policy-Making zurück (Balthasar und Müller 2016). Dieser Ansatz entstand im Zusammenhang mit dem Anliegen der britischen Labour-Regierung kurz nach der Jahrhundertwende, welche die Bedeutung fundierter wissenschaftlicher Grundlagen für die Politikgestaltung hervorhob: „What matters is what works!“ wurde zum Slogan für den Wunsch nach einem Übergang von einer ideologiebasierten zu einer evidenzbasierten Politikgestaltung (Nutley et al. 2007, S. 10). Evidence-Based Policy-Making will den Stand des Wissens möglichst effektiv für die Politik verfügbar machen. In vielen politischen Entscheidungssituationen ist es nicht möglich zu warten, bis neues Wissen erarbeitet ist. Durch Evaluation produzierte Evidenz kommt oft zu spät, um für die Politikformulierung nützlich zu sein. Daher legt Evidence-Based Policy-Making besonderes Gewicht auf die systematische Auswertung von verfügbarem Wissen (Sager und Hinterleitner 2014). Zu diesem Zweck wurden verschiedene Techniken entwickelt. Dazu gehören quantitative Metaanalysen, welche mittels spezifischer statistischer Vorgehensweisen die Erkenntnisse mehrerer Studien mit derselben Untersuchungsfrage quantitativ zusammenfassen. Die Methode liefert zwar generalisierbares Wissen, wobei das Ergebnis aber den Kontext, in welchem eine Maßnahme wirkt, ungenügend berücksichtigt (vgl. Abschn. 11.2). Demgegenüber sind narrative Reviews kontextsensitiv. Narrative Reviews bieten einen Überblick zu einem bestimmten Gegenstand, indem die dazu verfügbare Literatur beschreibend ausgewertet wird. Aufgrund der meist eher unsystematischen Auswahl der berücksichtigten Artikel ist die Generalisierbarkeit der Erkenntnisse daher beschränkt. Einen dritten Weg der systematischen Auswertung von verfügbarem Wissen stellt die realistische Synthese nach Ray Pawson und Nick Tilley (1997) dar. Dabei liegt der Fokus auf der Frage, wie das Ergebnis einer Intervention durch die Wechsel-

44

3  Die Entstehung und Etablierung der Wirkungsforschung

wirkungen von Interventionsmechanismen und Kontexteinflüssen bestimmt wird. Es wird nicht nach allgemeingültigen Erkenntnissen gesucht, sondern nach Antworten auf die Frage: „Was wirkt für wen in welchem Zusammenhang“?

3.2

 ie Institutionalisierung von Evaluation im D deutsch- und französischsprachigen Raum

Zwar wurden schon vor der Mitte des 20. Jahrhunderts Evaluationen von politischen Maßnahmen durchgeführt. Doch erst mit Beginn der Nachkriegszeit kann von ersten Anzeichen einer Institutionalisierung von Evaluation, das heißt von regelmäßigen, methodisch qualifizierten und rechtlich abgestützten Evaluationsaktivitäten gesprochen werden. Der Ausgangspunkt dafür findet sich in den USA während der 1960er-Jahre. Unter dem Schlagwort des „Krieges gegen die Armut“ wurden die öffentlichen Hilfsprogramme in den Bereichen Bildung, Wohnungsbau und Arbeitskräfteentwicklung massiv erhöht. Parallel dazu entstand in der Öffentlichkeit und bei den Gesetzgebern die Forderung nach Nachweisen für die Wirksamkeit dieser Investitionen (Lemire et al. 2020, S. 49). Es war insbesondere Donald T. Campbell, der mit seiner Publikation „Reforms as experiments“ (1969) die methodischen Grundlagen für die Evaluation der damaligen Investitionen entwickelte (Campbell 1969). Der Ansatz sah vor, Programmvarianten auszuprobieren und dann die wirksamsten breit umzusetzen. Evaluationen sollten also vor allem bestehende und neue Programme wirksamer machen. Die Demokraten, welche damals in den USA regierten, nutzen die Idee der Evaluation und ließen die von ihnen angestossenen Reformvorhaben evaluieren. Auch in Kanada und etwas später in Frankreich waren es Reformparteien, welche den Evaluationsgedanken aufgegriffen haben (Derlien 1997, S. 8). Die Erdölpreiskrise 1973 veränderte die politische und die wirtschaftliche Situation in den meisten westlichen Ländern tiefgreifend. Dies wirkte sich auch auf die Evaluationstätigkeit aus (Sager und Hinterleitner 2014). Allerdings wurde meist nicht generell auf Evaluationen verzichtet. Vielmehr wurde deren Notwendigkeit neu begründet. Evaluationen sollten helfen, mit knappen Ressourcen effizient zu haushalten. Konservative Regierungen sahen in der Evaluation ein Mittel zur Durchsetzung effizienterer politischer Maßnahmen (Derlien 1997, S. 8).

3.2.1 Deutschland Die Entwicklung der Evaluation in Deutschland wurde von den genannten internationalen Strömungen mitgeprägt (Stockmann und Meyer 2010, S.  30). In den

3.2  Die Institutionalisierung von Evaluation im deutsch- und …

45

1960er-Jahren wurde insbesondere unter dem damaligen Kanzler Willy Brandt eine umfassende Staats- und Verwaltungsmodernisierung angestrebt, welche von Evaluationen begleitet wurde. Diese Modernisierung beruhte auf der Idee, dass „der Staat als zentrale Instanz des gesellschaftlichen Managements fungieren, „aktive Politik“ betreiben und die Gesellschaft durch langfristige Planung gestalten sollte“ (Mayntz 1997, S. 68; nach: Stockmann und Meyer 2010, S. 30). Vor allem in den Bereichen Bildung und Erziehung, Stadterneuerung und Infrastruktur wurden umfangreiche Evaluationsstudien durchgeführt. Mit dem Auslaufen der Modernisierungswelle in den 1970er-Jahren ging in Deutschland aber die Bedeutung der Evaluation zurück. Möglicherweise hat dabei auch eine gewisse Ernüchterung über teilweise bescheidene Reformerfolge eine Rolle gespielt. Die Evaluation konnte die in sie gesetzten Erwartungen nicht immer erfüllen (Stockmann und Meyer 2010, S. 31). Der entscheidende Durchbruch setzte erst in der zweiten Hälfte der 1990er-­ Jahre ein. Dies hat insbesondere folgende Gründe: Erstens wurden die Ausgaben der öffentlichen Hand für Bildung, Soziales und Gesundheit heruntergefahren. Dies machte eine stärkere Priorisierung und Selektion von Maßnahmen notwendig. Zweitens setzte eine damit eng verwobene Qualitätsdebatte ein. Die Botschaft lautete: „Öffentliche Gelder müssen gezielter und effizienter eingesetzt werden“ (Giel 2013, S. 19). Dies führte zur Verbreitung von Qualitätsmanagementverfahren und von Konzepten des New Public Management. Beide Entwicklungen stärkten die Leistungs- und Wirkungsorientierung der Verwaltung und die Evaluation zu deren Überprüfung. Drittens haben die mit der Durchführung von Europäischen Programmen verbundenen Evaluationsverpflichtungen auch in Deutschland zur Institutionalisierung von Evaluationen beigetragen (Stockmann und Meyer 2010, S. 38). Die geschilderte Entwicklung hat in Deutschland die Professionalisierung der Evaluation vorangetrieben. Eine wichtige Rolle kommt dabei der 1997 gegründeten Deutschen Gesellschaft für Evaluation DeGEval zu (Mayring et al. 2017, S. 13 ff.).1 Diese vereint heute mehr als 800 Mitglieder, welche sich in rund 20 Arbeitskreisen inhaltlichen und methodischen Fragen widmen. Die DeGEval will die Evaluation in Deutschland professionalisieren, die unterschiedlichen Perspektiven von Evaluierenden verschiedener Fachdisziplinen und Politikbereichen zusammenführen sowie den Informationsaustausch und die Bildung einer Gemeinschaft von Evaluierenden fördern. Mit einer Auflage von rund 600 Exemplaren weist die 2002 gegründete deutschsprachige Zeitschrift für Evaluation einen beachtlichen Verbreitungsgrad auf und sie trägt zur Entstehung einer Gemeinschaft der Evaluierenden in Deutschland bei (Wollmann 2017, S. 33 ff.). Trotz der Erfolge der DeGEval  www.degeval.org.

1

46

3  Die Entstehung und Etablierung der Wirkungsforschung

sind Stockmann und Meyer der Ansicht, dass Deutschland bis heute noch über keine ausgeprägte Evaluationskultur verfügt (Stockmann und Meyer 2010, S. 40). Auch gibt es in Deutschland derzeit keine nationale oder bundesstaatliche Evaluierungspolitik (Stockmann und Meyer 2010, S. 40). Die Autoren führen dies unter anderem auf die disziplinäre Segmentierung der Evaluationsforschung in Deutschland zurück. Es fehle ein die sektoralen Politikfelder übergreifender und die verschiedenen Fachdisziplinen integrierender Fokus.

3.2.2 Schweiz In der Schweiz setzte die Entwicklung der Evaluationsforschung Ende der 1980er-­ Jahre ein (vergleiche zu diesem Abschnitt insbesondere: Widmer 2017, S. 51–61). Wichtige Impulse gingen einerseits von der Arbeitsgruppe Gesetzesevaluation (AGEVAL) aus. Diese Arbeitsgruppe wurde vom Eidgenössischen Justiz- und Polizeidepartement damit beauftragt, „zweckmässige Massnahmen zur Verstärkung der Wirkungsprognose und der Wirkungskontrolle im Bereich der ­Gesetzgebung vorzuschlagen und deren Realisierungsmöglichkeiten zu prüfen“ (Arbeitsgruppe Gesetzesevaluation (AGEVAL) 1991, S. 4). Die Arbeitsgruppe hat 1987 bis 1991 verschiedene Studien zur Abklärung des Ist-Zustands sowie einige Evaluationsstudien zur Prüfung der Tauglichkeit des Ansatzes veranlasst. Daraus entwickelte die Arbeitsgruppe eine Reihe von Vorschlägen zur Stärkung der Evaluation in der Schweiz. Der andere wichtige Impuls zur Entwicklung der Evaluationsforschung in der Schweiz ging vom Nationalen Forschungsprogramm „Wirksamkeit staatlicher Massnahmen“ (NFP 27) aus. In diesem Rahmen wurden zwischen 1990 und 1995 zur Erprobung des Instruments der Evaluation etliche Evaluationen durchgeführt. Es entstanden zahlreichen Publikationen und wesentliche Impulse für die Evaluationspraxis (Bussmann et al. 1997). Das NFP 27 lancierte 1996 die Schweizerische Evaluationsgesellschaft (SEVAL),2 welche die weitere Entwicklung der Evaluation in der Schweiz maßgeblich mitprägt. Entscheidend für die Entwicklung der Evaluationsaktivitäten in der Schweiz war zudem, dass ein Evaluationsartikel in die Totalrevision der Bundesverfassung, die 2000  in Kraft trat, aufgenommen wurde (Widmer 2017, S.  51). Der entsprechende Artikel (Art. 170) verlangt, dass das Parlament dafür besorgt ist, die Massnahmen des Bundes auf ihre Wirksamkeit hin zu überprüfen. Damit verfügt die Schweiz als eines der wenigen Länder über eine verfassungsmäßige Grundlage für die Evaluation staatlicher Maßnahmen. In der Folge wurden zahlreiche Bundes www.seval.ch.

2

3.2  Die Institutionalisierung von Evaluation im deutsch- und …

47

gesetze aber auch kantonale Erlasse mit Evaluationsklauseln, also mit der Verpflichtung zur Durchführung von Evaluationen, versehen (Wirths et al. 2017). Dadurch entstand eine erhebliche Nachfrage nach Evaluationen. Auch angebotsseitig entwickelt sich die Evaluationsaktivität in der Schweiz seit in den 2000er-Jahren intensiv weiter. Es entstand eine beachtliche Anzahl von kleineren und teilweise auch etwas größeren Evaluationsbüros sowie Einheiten an Hochschulen (Widmer 2017, S.  58). Um den Bedarf an Qualifizierung der dort beschäftigen Evaluator*innen zu decken und gleichzeitig auch die Professionalität der Auftragsvergabe zu fördern, nahmen verschiedene Ausbildungsgänge in sozialwissenschaftlichen Disziplinen das Thema Evaluation auf. Diese Angebote wurden ergänzt durch je einen Weiterbildungsstudiengang an der Universität Bern und einen an der Universität Lausanne. Parallel dazu entwickelte sich die SEVAL kontinuierlich weiter. Einen Meilenstein stellten die 2001 verabschiedeten SEVAL-­ Standards dar (Rieder 2009; Widmer 2011). Heute hat die SEVAL rund 450 Mitglieder, welche in sieben Arbeitsgruppen organisiert sind. Eine Spezialität der SEVAL ist deren Dreisprachigkeit sowie die Tatsache, dass Mitglieder aus Forschung, Verwaltung und Beratung gut vertreten sind. Heute ist die Institutionali­ sierung der Evaluation in der Schweiz auf Bundesebene im internationalen Vergleich weit fortgeschritten (Balthasar 2009).

3.2.3 Österreich In Österreich wird seit mindestens 30 Jahren evaluiert. Die Ursprünge finden sich in einzelnen Politikfeldern, wie jenem der Forschung und Technologie, der tertiären Bildung sowie der Regionalentwicklung. In diesen Feldern haben sich Plattformen, die von Auftraggebenden von Evaluationen, von den Evaluierten und von den Evaluierenden getragen wurden und werden, zu eigentlichen Kompetenzzentren entwickelt. Der Bereich Forschung, Technologie und Innovation kann als ein Aushängeschild für Evaluationen in Österreich betrachtet werden. In diesem Politikfeld gibt es viele gesetzliche Regelungen, die Evaluationen vorschreiben. Zudem gibt es spezifische Qualitätsstandards und eine eigens geschaffene Austauschplattform,3 in welcher sich Auftraggeber*innen und Auftragnehmer*innen von Evaluationen austauschen (Streicher 2017). Insgesamt weist die Entwicklung der Evaluationsaktivitäten in Österreich etliche Parallelen mit jener von Deutschland auf: sie ist sektorspezifisch sehr unterschiedlich, ein wesentlicher Einfluss geht von den EU-Institutionen aus, sie ist auf  www.fteval.at.

3

48

3  Die Entstehung und Etablierung der Wirkungsforschung

nationaler Ebene institutionell wenig verankert und es mangelt bis in die neueste Zeit an umfangreichen fachlichen Evaluierungskapazitäten in der Bundesverwaltung (Pichler 2009). Allerdings gibt es im Gegensatz zu Deutschland keine ­Organisation wie die DeGEval, welche die institutionell noch wenig entwickelte nationale Evaluationskultur in den letzten Jahren mittels wirksamer Verbandsaktivitäten vorangebracht und zur Professionalisierung beigetragen hat. Auch ein sektorübergreifender Austausch über Theorie, Praxis, Methoden und Nutzen der Evaluation fehlt in Österreich noch (Mayring 2017, S. 118).

3.2.4 Frankreich Auch in Frankreich sind Evaluationen heute ein gängiges Instrument, das in der öffentlichen Verwaltung etabliert ist. Die unabhängigen Evaluator*innen stammen zum Teil aus der Forschung, sind aber hauptsächlich in privaten Beratungsfirmen tätig. Evaluationen öffentlicher Politik gewannen in Frankreich insbesondere durch ein décret aus dem Jahr 1990 an Bedeutung (Figari und Tourmen 2006, S. 13–14). Im selben Jahr wurde zudem ein interministerieller Evaluationsausschuss eingerichtet, der einem wissenschaftlichen Evaluationsrat (CSE) unterstand. Die Abschaffung dieses Rats im Jahr 2001, dessen Aufgabe die Koordination von Evaluationsprogrammen in Form von Forschungsprojekten war, entsprach jedoch einer Desinvestition in den Forschungsbereich der Evaluation (Delahais und Devaux-­Spatarakis 2018, S.  48). Auch Thomas Delahais und Agathe Devaux-­ Spatarakis (2018, S. 47) weisen darauf hin, dass die Evaluationsforschung in der französischen akademischen Gemeinschaft, welche sich davon mehrheitlich distanzieren möchte, im Gegensatz zu anderen Ländern nach wie vor ziemlich diskreditiert ist. Diese beiden Autor*innen betonen, dass insbesondere die französische Soziologie eine kritische Distanz zwischen Forschung und Behörden wahren muss (Bezes et  al. 2005; Spenlehauer 1999). Die große Bedeutung der verschiedenen Kontrollstellen innerhalb des französischen öffentlichen Dienstes wurde ebenfalls als ein Hindernis für die Institutionalisierung der Evaluation außerhalb der Verwaltung in Frankreich identifiziert (Jacob 2006, S. 81). Schließlich erklärt die Tatsache, dass die unabhängige Evaluation eine Tätigkeit ist, die hauptsächlich von privaten Büros durchgeführt wird, die relativ begrenzte ­wissenschaftliche Literatur zur Evaluation in Frankreich. Die bestehende Literatur zum Thema hat einen angewandten Schwerpunkt, wie beispielsweise der auf Frankreich bezogene Leitfaden des Conseil Scientifique de l’Evaluation (Conseil Scientifique De L’Evaluation (CSE) 1996; Figari und Tourmen 2006, S. 10). Die

3.3  Entstehung einer Disziplin

49

Französische Gesellschaft für Evaluation (SFE) ist die Plattform, die Fachleute durch thematische Arbeitsgruppen, Schulungen sowie praxisorientierte Publikationen zusammenbringt und eine Charta zur Evaluationspraxis herausgibt.4

Kasten 3.2: Institutionalisierung der Evaluation

Erst mit Beginn der Nachkriegszeit hat sich die Evaluationsforschung in den USA und später auch in Europa institutionalisiert. Das bedeutet, dass seither regelmäßig, methodisch qualifizierte und rechtlich abgestützte Evaluationsaktivitäten durchgeführt werden. Die Evaluationsforschung hat ihren Ursprung in den Vereinigten Staaten von Amerika der 1960er-Jahre. Unter dem Schlagwort des „Krieges gegen die Armut“ wurden umfassende öffentliche Hilfsprogramme in den Bereichen Bildung, Wohnungsbau und Arbeitskräfteentwicklung aufgelegt. Es war insbesondere Donald T. Campbell, der mit seiner Publikation „Reforms as experiments“ (1969) die methodischen Grundlagen für die Evaluation dieser Programme bereitstellte. Ab den 1990er-Jahren erfolgte die Institutionalisierung der Evaluation auch in Europa. Diesbezüglich gehört die Schweiz heute zu den Vorreiterinnen. Dies liegt insbesondere daran, dass die schweizerische Bundesverfassung das Parlament verpflichtet, die Massnahmen des Bundes auf ihre Wirksamkeit zu überprüfen.

3.3

Entstehung einer Disziplin

Eines der Charakteristika wissenschaftlicher Forschung ist die Werturteilsfreiheit. Das Postulat wurde schon 1914 von Max Weber formuliert (vgl. Keuth 1989, S. 22). Weber verlangt, dass Wissenschaft auf Bewertungen verzichtet. Die Position der Evaluationsforschung steht diesem Postulat diametral gegenüber: Es ist gerade das Wesen der Evaluationen, dass sie bewerten. Evaluationsforschung muss also genau das machen, was Sozialwissenschaftler*innen oft als unwissenschaftlich bezeichnen. Darauf hat Michael Scriven 1974 als einer der ersten hingewiesen: „Evaluation research must produce as a conclusion exactly the kind of statement that social scientists have for years been taught is illegitimate: a judgement of value, worth, or merit. That is the great scientific and philosophical significance of evaluation research“ (Scriven 1974, S. 4). Mit diesem Statement hat Scriven das  www.sfe-asso.fr/sfe/presentation-sfe.

4

50

3  Die Entstehung und Etablierung der Wirkungsforschung

Fundament für die Evaluation als wissenschaftliche Disziplin der Bewertung gelegt. Die Bewertung, die durch Evaluation erfolgt, muss jedoch durch ein wissenschaftliches Vorgehen gestützt werden (vergleiche Kap. 11). Nach Scriven benötigt unsere Gesellschaft eine wissenschaftliche Disziplin, welche sich mit Bewertungsfragen auseinandersetzt („science of valuing“). Dies ist die Evaluationsforschung. Evaluation ist die Disziplin der Bewertung. Auf dieser Grundlage motiviert Scriven (1986) Evaluator*innen, selbstbewusst zu bewerten. Der Kern der Evaluation ist die Bewertung auf einer wissenschaftlichen Grundlage (Abb. 3.1). Scriven argumentiert, dass Wertaussagen ähnlich sind wie andere wissenschaftlichen Konstrukte. Der Wert eines Programms, das Verdienst von Lehrpersonen, die Qualität von Dienstleistungen sind theoretische Konzepte, die wie alle anderen theoretischen Konzepte, zum Beispiel Leistung, Gefühl oder Akzeptanz, nicht direkt beobachtet werden können. Alle theoretischen Konzepte werden von der Wissenschaft konstruiert und müssen indirekt nachgewiesen oder aus den Ergebnissen von Tests abgeleitet werden. Für Scriven sind Werte ein Spezialfall wissenschaftlicher Konstrukte. Basierend auf der großen Vielfalt von Ansätzen und Methoden der Evaluationsforschung hat Barbara Lee (2000, S. 158 ff.) die Bewertung als Kern der Disziplin der Evaluationsforschung weiterentwickelt. Weil die meisten Evaluator*innen

Alltägliche Bewertung

Evaluation

«Irgendetwas wird

Programme, Projekte, Massnahmen, Organisationen etc. werden

von irgendjemand

durch Personen, die zur Bewertung besonders befähigt sind (z. B. Wissenschaftler*innen, Beratende, Betroffene)

in irgendeiner Weise

in einem objektivierten Verfahren (z. B. qualitative/quantitative Forschungslogik)

nach irgendwelchen Kriterien bewertet.»

nach explizit auf den Sachverhalt bezogenen und begründeten Kriterien bewertet.

Abb. 3.1  Kernelemente wissenschaftlicher Bewertung. (Quelle: In Anlehnung an Kromrey (2001))

3.3  Entstehung einer Disziplin

51

ihren wissenschaftlichen Hintergrund in anderen Fachbereichen haben, ist es besonders wichtig, dass ein gemeinsames Verständnis der Grundpfeiler der Disziplin der Evaluationsforschung besteht: • Evaluationsforschung beinhaltet eine Wertung: Evaluationsforschung macht die Grundlage der Beurteilung explizit. Sie zeigt auf, auf welchen Kriterien die Bewertung basiert, wer die Kriterien festgelegt hat und wie die Bewertung durchgeführt wurde. • Evaluationsforschung ist nutzenorientiert. Evaluationen bewerten Programme, Projekte, Maßnahmen, Organisationen etc., die als Antwort auf die Wahrnehmung sozialer Bedürfnisse entwickelt wurden. Evaluation dient dazu, die Beurteilung des Werts von Programmen, Projekten, Maßnahmen, Organisationen etc., zu erleichtern. • Evaluationsforschung baut auf wissenschaftlich fundierten Informationen über den Gegenstand der Evaluation. Diese Informationen können qualitative, quantitative, deskriptive und experimentelle Daten sein. Für jede Art von Daten werden die Grundlage und die Grenzen ihrer Gültigkeit ausdrücklich klargestellt. • Evaluationsforschung ist ein interaktiver Prozess. Beteiligte und Betroffene, welche ein erhebliches Interesse an der Evaluierung des Gegenstands haben, werden in den Bewertungsprozess einbezogen. • Evaluationsforschung trägt dem Kontext des Gegenstands der Bewertung Rechnung. Die Beurteilung erfolgt nicht unabhängig vom Kontext. Die Evaluationsforschung sucht daher in der Regel weniger nach allgemeingültigen Erkenntnissen, als nach kontextspezifischen Zusammenhängen, welche Erfolg und Misserfolg von Programmen, Projekten, Massnahmen und Organisationen erklären können. • Evaluationsforschung versucht, ihre Ergebnisse mit kleinstmöglichem Einfluss auf den untersuchten Gegenstand zu erreichen. Dies bedeutet, dass die Eva­ luationsforschung während des gesamten Prozesses sensibel für die Art und Weise ist, wie sie das zu evaluierende Programm, den Kontext sowie die Beteiligten und die Betroffenen beeinflusst. • Evaluationsforschung erfolgt ethisch verantwortungsvoll. Das heißt, Evalua­ tionsforschung ist der Unparteilichkeit und der Wahrheit verpflichtet. Die Grenzen dieser Wahrheit und der Unparteilichkeit werden deutlich gemacht. Diese Grundpfeiler der Disziplin der Evaluationsforschung sind in die Evaluationsstandards der verschiedenen Evaluationsgesellschaften eingeflossen. Wir gehen in Kap. 11 darauf ein.

52

3  Die Entstehung und Etablierung der Wirkungsforschung

Kasten 3.3: Grundpfeiler der Disziplin der Evaluationsforschung

• Evaluationsforschung beinhaltet eine Wertung. • Evaluationsforschung ist nutzenorientiert. • Evaluationsforschung baut auf wissenschaftlich fundierten Informationen über den Gegenstand der Evaluation. • Evaluationsforschung ist ein interaktiver Prozess. • Evaluationsforschung trägt dem Kontext des Gegenstands der Bewertung Rechnung. • Evaluationsforschung versucht, den Einfluss auf den untersuchten Gegenstand möglichst gering zu halten. • Evaluationsforschung erfolgt ethisch verantwortungsvoll.

3.4

 earnings aus der Felderfahrung: Wozu EvaluatioL nen dienen können!

Evaluationen können sehr unterschiedliche Ziele verfolgen (Sager et  al. 2017, S. 144 ff.). Diese lassen sich vereinfacht in vier Gruppen unterteilen.

3.4.1 Bilanzierung Die erste mögliche Zielsetzung von Evaluationen ist die Bilanzierung. Michael Scriven hat dafür den Begriff „summative Evaluation“ geprägt (Scriven 1967, S. 74). Durch die Beobachtung eines Projekts oder einer Maßnahme und seiner Wirkungen werden Informationen gewonnen, die erkennen lassen, ob sich das Vorhaben grundsätzlich bewährt hat oder nicht. Diese Informationen sind insbesondere für die übergeordneten Organe, das heißt zum Beispiel für Amtsleitungen, Regierungen und Parlamente von Interesse, welche beispielsweise über die Weiterführung eines Programms oder dessen Übertragung in einen anderen Kontext entscheiden müssen. Evaluationen dienen in diesem Zusammenhang auch der Kontrolle. Sie beantworten beispielsweise die Frage, ob alle Beteiligten ihre Aufgaben erfüllt haben und den eingegangenen Verpflichtungen nachge­ kommen sind.

3.4  Learnings aus der Felderfahrung: Wozu Evaluationen dienen können!

53

3.4.2 Verbesserung In vielen Fällen haben Evaluationen den Zweck, die Abwicklung und die Ausrichtung eines Projekts oder einer Maßnahme zu verbessern. Michael Scriven nennt dies „formative Evaluation“ (Scriven 1967, S. 74). Solche verbesserungsorientierte Evaluationen sammeln entscheidungsrelevante Daten für die direkt involvierten Akteur*innen. Es soll beispielsweise festgestellt werden, ob die Träger des Programms in der Lage sind, dieses effektiv umzusetzen, ob die geplanten Dienstleistungen erbracht werden und ob die Zielgruppen erreicht werden. Die durch Evaluationen gesammelten Informationen werden dann für Entscheidungen der direkt Verantwortlichen zur Verbesserung, Neuausrichtung oder beispielsweise Weiterverbreitung eines Projekts oder einer Maßnahme genutzt.

3.4.3 Wissensgenerierung Evaluationen können auch eher wissenschaftliche Ziele verfolgen. Sie helfen dann, Strategien, Prinzipien und Theorien für eine zukünftige Verwendung bereitzustellen. Was in diesem Fall interessiert, sind generelle Gesetzmässigkeiten und Wirkungsmechanismen sowie Untersuchungsergebnisse, welche auch in anderen Kontexten Gültigkeit haben. Ausgangspunkt ist in diesen Fällen meist kein Auftrag, sondern eine wissenschaftliche Fragestellung der Evaluierenden. Die Beteiligten und die Betroffenen eines konkreten Evaluationsgegenstands spielen für die Ausrichtung dieser Art von Evaluationen keine oder eine untergeordnete Rolle (Balzer und Beywl 2018, S. 67).

3.4.4 Taktik Schließlich verfolgen Evaluationen oft auch taktische Zielsetzungen. Dies ist dann der Fall, wenn die Ergebnisse von Evaluationen in erster Linie dazu verwendet werden sollen, um bestimmte politische Entscheidungen zu legitimieren. Derartige Motive werden den Evaluierenden meist nicht offengelegt. Reinhard Stockmann weist darauf hin, dass es für Politiker*innen in den letzten Jahren „schick“ geworden ist, Evaluationen zu veranlassen (Stockmann 2007, S. 39). Sie verstehen diese „als dekorative Symbole für eine moderne Politik, ohne die Ergebnisse von Evaluationen ernsthaft nutzen zu wollen. Diese Art von „taktischer“ Funktion lässt

54

3  Die Entstehung und Etablierung der Wirkungsforschung

sich jedoch kaum mit dem eigentlichen Zweck von Evaluationen vereinbaren und stellt eher ihre pathologische Seite dar“ (Stockmann 2007, S. 39). Kasten 3.4: Unterschiedliche Zielsetzungen von Evaluationen

Evaluationen verfolgen unterschiedliche Zielsetzungen. Im Allgemeinen wird unterschieden zwischen: • • • •

Bilanzierung Verbesserung Wissensgenerierung Taktik

Die Tab. 3.1 stellt die vier Zielsetzungen nebeneinander.

3.5

„ Wie vorgehen?“-Kasten: Evaluation und Politikberatung – was es zu bedenken gibt

Politikberatung ist kein wissenschaftlich klar definierter Begriff (Falk et  al. 2006, S. 13). Meist geht es darum, dass Expert*innen aus Forschungs- und Beratungsinstituten die Ausgestaltung substanzieller oder institutioneller öffentlicher Politiken mit wissenschaftlicher Expertise unterstützen oder dass sie einen Politikprozess kommunikativ oder strategisch beraten (Falk et al. 2006, S. 15). Politikberatung kann die Form ständiger Beratungsaufträge oder punktueller Mandate haben und wird durch Expert*innen aus Hochschulen oder privaten Forschungseinrichtungen geleistet (Kevenhörster 2000). Evaluationen sind eine Art der Politikberatung. Evaluationen werden in der Regel im Auftrag von öffentlichen oder privaten Institutionen durch Evaluierende in der Funktion von Politikberatenden durchgeführt. Es gibt zwar auch Verwaltungsstellen, die selber Evaluationen erarbeiten. Dazu gehören beispielsweise der Deutsche Rechnungshof oder die Schweizer Finanzkontrolle (Crémieux und Sangra 2015; Stockmann und Meyer 2020). Meist werden Evaluationen aber durch verwaltungsexterne Spezialist*innen durchgeführt. Dies hat verschiedene Gründe: Zum ersten gehört die Evaluierung nicht zu den Kernaufgaben der meisten Verwaltungsstellen. Dies bedeutet, dass diesen Stellen die personellen und qualifikatorischen Kompetenzen fehlen, um systematische, methodisch gesicherte Evaluationsstudien

Grundsätzliche Fragen nach der Wirksamkeit und der Notwendigkeit eines Projekts Eher übergeordnete Organe und Finanzierende

Eher nicht: gefragt sind Unabhängigkeit und Neutralität, was externe Fachleute eher sicherstellen

Wer soll die Evaluationsergebnisse nutzen?

Kann die Untersuchung von den Beteiligten selbst durchgeführt werden?

Eher die direkt beteiligten Programmver­ antwortlichen und Programmbeteiligten Eher ja: gefragt sind gute Kenntnisse der spezifischen Massnahmen und kurze Informationswege

Eher nein: die Beteiligten sind mit den relevanten wissenschaftlichen Debatten in der Regel wenig vertraut

Die Wissenschaft

Wissensgenerierung Welche Gesetzmässigkeiten lassen sich erkennen? Fragen nach Spezifische Fragen verallgemeinerbaren nach Optimierungs-­ möglichkeiten und der Erkenntnissen und Wirkungszusammen­ Feinsteuerung der hängen Aktivitäten

Bilanzierung Verbesserung Tun wir das Richtige? Tun wir es richtig?

Welche Art von Fragen sind besonders geeignet?

Was ist die Hauptfrage?

Tab. 3.1  Was die Unterschiede zwischen den vier Zielsetzungen in der Praxis bedeuten

(Fortsetzung)

Eher ja: diese kennen die Stärken und die Schwächen in der Regel gut und können das kommunizieren, was ihnen nützt

Taktik Wie kann die Aktivität am besten legitimiert werden? Alle Arten von Fragen, deren Antworten für die Auftraggebenden der Evaluation nützlich sind Die Auftraggebenden der Evaluation

3.5  „Wie vorgehen?“-Kasten: Evaluation und Politikberatung – was es zu … 55

Eher hoch für die Politik, eher weniger hoch für die Verwaltung

Wie ist der Nutzen?

Quelle: in Anlehnung an Chelimsky und Shadish (1997)

distanziert

Bilanzierung Eher die ganze Wirkungskette (Blick in die Breite)

Welche Rolle haben die Evaluierenden

Soll die ganze Wirkungskette oder nur ein Teil davon untersucht werden?

Tab. 3.1 (Fortsetzung)

Eher hoch für die Verwaltung, weniger hoch für die Politik

Hoch für die Wissenschaft, weniger hoch für Verwaltung und Politik

Wissensgenerierung Eher ein Teil der Wirkungskette: Wissenschaft fokussiert in der Regel auf ausgewählte Zusammenhänge distanziert oder nahe, je nahe, die Evaluierenden können nach Zielsetzung und Methode „kritischee Freunde“ oder gar Teil des Teams sein, dass für das Programm verantwortlich ist

Verbesserung Eher ein Teil der Wirkungskette (Blick in die Tiefe)

Eher hoch für die Auftraggebenden, tief für alle anderen

Die Evaluierenden sind abhängig von den Auftraggebenden

Taktik Das entscheidet die Taktik

56 3  Die Entstehung und Etablierung der Wirkungsforschung

3.5  „Wie vorgehen?“-Kasten: Evaluation und Politikberatung – was es zu …

durchführen zu können. Zum zweiten liegt die Begründung für die Beauftragung externer Stellen mit der Evaluierung auch im Bedürfnis, die Evaluation durch eine unabhängige Stelle mit einem Blick von außen durchführen zu lassen. Drittens braucht es für die Durchführung von Evaluationen aber auch Evaluationsspezialist*innen und diese finden sich in der Regel eher außerhalb der Verwaltung (Wollmann 2003, S. 344). Die Tatsache, dass Evaluationen meist in einem Auftragsverhältnis durchgeführt werden, ist mit Chancen und mit Gefahren verbunden (vgl. dazu Wollmann 2003, S.  344). Folgende Aspekte sollten bei der Durchführung von Evaluationen im Auftragsverhältnis bedacht werden: Chancen von Evaluation als verwaltungsextern angesiedelte Politikberatung: • In den letzten 30 Jahren ist ein Prozess der Professionalisierung der Evaluation in Gang gekommen. Wenn sich jemand sein Berufsleben lang mit Evaluierung auseinandersetzt, bietet dies Chancen für die Auftraggebenden hinsichtlich Qualität der Evaluation. Es stellt sich die Frage, ob die einzelnen Evaluationen ausreichend Freiraum beinhalten, damit die Auftraggebenden von der Professionalisierung der Evaluierenden profitieren können. • Im Zuge der Professionalisierung sind zahlreiche Evaluationszeitschriften und einschlägige Fachverbände entstanden, welche dem Austausch von Erfahrungen und Kompetenzen dienen. Es stellt sich die Frage, ob die kommerziell orientierten Evaluierenden auch bereit und in der Lage sind, sich in diesen Dialogen zu engagieren und beispielsweise auch wissenschaftlich zu publizieren. • Die mit der Durchführung von Evaluationen beauftragten Organisationen erwerben umfangreiche Evaluationserfahrungen. Das so akkumulierte Know-­how stellt eine immer kompetentere Abwicklung von Evaluationsmandaten sicher. Es stellt sich die Frage, ob die kommerziell orientierten Evaluierenden auch bereit sind, ihre Erfahrungen mit Fachkolleg*innen zu teilen. • In vielen Ländern hat die Professionalisierung der Evaluation bisher keine formalisierten Zugangsbeschränkungen mit sich gebracht. Jeder und jede kann sich heute Evaluatorin oder Evaluator nennen. Es stellt sich die Frage, ob es in Zukunft eine Zertifizierung der Profession der Evaluierenden braucht, um die Qualität der Evaluationspraxis zu sichern.

57

58

3  Die Entstehung und Etablierung der Wirkungsforschung

Gefahren von Evaluation als verwaltungsextern angesiedelte Politikberatung: • Während sich die akademische Grundlagenforschung in der Wahl ihrer einzelnen Untersuchungsfelder, -fragen und -methoden durch wissenschaftsinterne Kriterien leiten lässt, ist die Auftragsforschung maß­geblich durch das Grundverhältnis von Auftraggeber*in und Auftragnehmer*in geprägt. Es stellt sich die Frage, ob vor diesem Hintergrund die zentralen Fragen an den Evaluationsgegenstand auch gestellt werden können. Lässt der*die Auftraggeber*in zu, dass sein/ihr Programm grundsätzlich in Frage gestellt wird? • Evaluationen, die im Auftragsverhältnis durchgeführt werden, stehen unter Zeit- und Kostendruck. Es stellt sich die Frage, ob sich diese Art der ­Projektbearbeitung ausreichend an wissenschaftlichen Standards orientiert oder ob methodisch einfache („quick and dirty“) Verfahren gewählt werden, die zu keinen zuverlässigen Ergebnissen führen. • Evaluator*innen arbeiten meist im Auftragsverhältnis. Es stellt sich die Frage, ob unter diesen Umständen intellektuelle Unabhängigkeit und wissenschaftliche Objektivität möglich sind. Besteht nicht die Gefahr der „Gefälligkeitsforschung“, um sich künftige Akquisitionschancen nicht zu verderben? • Auftraggebende von Evaluationen neigen dazu, Evaluationen mit missliebigen Ergebnissen zu „schubladisieren“. Es stellt sich die Frage, wie Evaluierende für die Veröffentlichung ihrer Erkenntnisse sorgen können, damit auch Dritte davon erfahren.

3.6

I llustratives Anwendungsbeispiel zur Verdeutlichung der Grundpfeiler der Evaluationsforschung

Evaluierung der österreichischen Forschungs- und Technologiepolitik am Beispiel der Förderungsgesellschaften Austria Wirtschaftsservice und Forschungs­ förderungsgesellschaft (Bührer et al. 2017) Mit diesem Anwendungsbeispiel soll aufgezeigt werden, wie den Grundpfeilern der Evaluationsforschung (vgl. Kasten 3.3) im konkreten Fall Rechnung getragen wird.

3.6  Illustratives Anwendungsbeispiel zur Verdeutlichung der Grundpfeiler der …

59

3.6.1 Ausgangslage Die FFG (Österreichische Forschungsförderungsgesellschaft) ist die österreichi­ sche Förderungsorganisation für unternehmensnahe Forschungs- und Entwick­ lungsaktivitäten. Die aws (Austria Wirtschaftsservice Gesellschaft mbH) unterstützt Unternehmen bei der Entwicklung neuer Produkte und der Umsetzung von Ideen, damit diese schließlich im Markt erfolgreich werden (Bührer et al. 2017, S. 45). Das Fraunhofer-Institut für System- und Innovationsforschung ISI und die KMU Forschung Austria wurden im Juni 2016 vom österreichischen Bundesministerium für Verkehr, Innovation und Technologie und jenem für Wissenschaft, Forschung und Wirtschaft mit der Evaluation der Förderungsgesellschaften FFG und aws beauftragt (Bührer et al. 2017, S. 1). ISI und KMU Forschung Austria sind ausseruniversitäre, unabhängige Forschungsinstitute mit grosser Erfahrung im Bereich der Evaluation von Institutionen.

3.6.2 Methodik Die hier beschriebene Evaluation basierte auf einem Mix aus vier verschiedenen, in der Sozialwissenschaft etablierten Datenerhebungsverfahren: Erstens wurden zahlreiche öffentliche und nicht-öffentliche Dokumente und Unterlagen ausgewertet. Allerdings war es aufgrund des österreichischen Statistikgesetzes nur sehr beschränkt möglich, sekundärstatistische Auswer­ tungen vorzunehmen. Zweitens wurden im Rahmen der Evaluation mehrere Online-Umfragen durchgeführt (Bührer et  al. 2017, S.  14): (1) Es wurde jeweils eine Befragung aller Mitarbeitenden der beiden Institutionen realisiert, um Informationen zur Organisationsstruktur und -kultur sowie zur Kooperation zwischen den verschiedenen Institutionen zu erhalten. (2) Ausgewählte Mitarbeitende der verantwortlichen Ministerien wurde zwecks Abbildung ihrer Wahrnehmung von FFG und aws befragt. (3) Pro evaluierte Institution wurde eine Zielgruppenbefragung umgesetzt. Bei der aws wurden ausschließlich Unternehmen, bei der FFG sowohl Unternehmen als auch Forschungseinrichtungen kontaktiert. Die Befragung der Zielgruppen erfolgte, um zu überprüfen, ob die Gründung der FFG und der aws dazu beigetragen haben, die Zielgruppen besser zu erreichen. Als Drittes wurden zahlreiche Expertengespräche realisiert. Es kamen drei verschiedene Formen von Gesprächen zur Anwendung: narrative Interviews, leitfadengestützte Interviews und Gruppeninterviews. Die Interviews zielten darauf ab, mithilfe der Interviewten die Entwicklung von FGG und aws während der letzten Jahre nachzuzeichnen. Weiter

60

3  Die Entstehung und Etablierung der Wirkungsforschung

wurden Gruppengespräche durchgeführt, um den Einblick in die Arbeitszusammenhänge innerhalb der FFG und der aws zu verbessern. Insgesamt wurden 73 Einzelinterviews und zwei Gruppeninterviews realisiert. Viertens ­fanden verschiedene Workshops statt. Diese halfen dabei, die gewonnenen Ergebnisse zu validieren. Schließlich haben die Evaluator*innen die Aktivitäten von FFG und aws denjenigen vergleichbarer Fördergesellschaften in anderen Ländern gegenübergestellt. Das Ziel dieses Vergleichs „war die Herausarbeitung von geeigneten Förderverfahren für FFG und aws sowie ein Vergleich des Umgangs verschiedener Förderinstitutionen mit institutionellen Reformen“ (Bührer et al. 2017, S. 16–17). Der internationale Vergleich basierte auf einer Kombination von Dokumentenanalysen und ein bis zwei Telefoninterviews pro betrachteter Organisation. Die Darstellung der Erhebungs- und Auswertungsmethodik verdeutlicht, dass sich die Evaluierenden stark bemüht haben, wissenschaftlich fundierte Informationen über den Evaluationsgegenstand zu beschaffen und diese Informationen mit den gängigen wissenschaftlichen Auswertungsverfahren zu analysieren. Indem Workshops stattfanden, um die gewonnen Ergebnisse mit den Beteiligten und den Betroffenen zu validieren, werden auch interaktive Elemente ersichtlich, welche Evaluationen charakterisieren. Der Einbezug der genannten Gruppen in den Evaluationsprozess lässt auch darauf schließen, dass diese Evaluation ethisch verantwortungsvoll durchgeführt wurde.

3.6.3 Fragestellung und Ergebnisse der Evaluation Ziel der Evaluation der FFG und der aws war es, über zehn Jahre nach Umsetzung einer vorangegangenen Strukturreform Bilanz zu ziehen. Die Absichten dieser Reform waren die „Reduktion organisatorischer und inhaltlicher Komplexität, Lösung immanenter Koordinationsprobleme durch die Schaffung von ressortübergreifenden Förderungsgesellschaften, Erhöhung der politischen Steuerungsfähigkeit gegenüber den Zielgruppen, Verbesserung der Umsetzungschancen von Regierungszielen, nämlich Effizienz und Intensivierung des Ressourceneinsatzes“ (Bührer et al. 2017, S. 1). Das zentrale Ergebnis der beschriebenen Evaluation wird vom Evaluatorenteam wie folgt zusammengefasst (Bührer et al. 2017, S. 1): „Die Ziele der Strukturreformen wurden teilweise erreicht. Mit der FFG und der aws verfügt Österreich über zwei hochprofessionell agierende Förderungsagenturen. Die Agenturen können jedoch ihre volle Leistungsfähigkeit aufgrund der gesetzten Rahmenbedingungen nicht entfalten.“ Das Evaluationsteam interpretiert

Bibliographie

61

dies jedoch nicht als Folge der Strukturreformen und der Entwicklung der FFG und der aws. Das wichtigste Problem wird vielmehr darin gesehen, dass sich die inhaltliche Komplexität über die Jahre aufgrund des förderpolitischen Umfeldes erhöht hat. Das Evaluatorenteam schlägt daher vor, am Verhältnis ­zwischen Bundesministerien und der FFG, bzw. der aws einige zentrale Anpassungen vorzunehmen. Es legt den Bundesministerien nahe, gemäss dem Leitsatz „Leistungsfähigkeit durch Eigenverantwortung“ (Bührer et al. 2017, S. 5) die Autonomie der FFG und aws zu stärken. Die Evaluation formulierte zudem Empfehlungen zur Gestaltung eines entsprechenden Prozesses, der unter anderem zu optimierten Finanzierungs- und Managementprozessen sowie einer optimaleren Organisation der evaluierten Institutionen führen könnte (Bührer et al. 2017, S. 5). Diese kurze Darstellung der Fragestellung und der Ergebnisse der Evaluation weist insbesondere auf die Berücksichtigung von drei Grundpfeilern der Evaluation im konkreten Fall hin: Erstens orientiert sich diese Evaluation an einer konkreten, praxisorientierten Fragestellung. Sie ist somit nutzenorientiert. Zweitens enthält das Anwendungsbeispiel eine klare Bewertung der Zielerreichung der Strukturreform. Und drittens trägt sie dem Kontext Rechnung. Sie interpretiert nämlich die Tatsache, dass die Ziele der Strukturreform nur teilweise erreicht ­wurden, nicht in erster Linie als Folge einer ungenügenden Reform. Vielmehr wird auf die Problematik eines zunehmend komplexeren förderpolitischen Umfelds hingewiesen.

Bibliographie Arbeitsgruppe Gesetzesevaluation (AGEVAL). (1991). Die Wirkungen staatlichen Handelns besser ermitteln: Probleme, Möglichkeiten, Vorschläge. Schlussbericht an das Eidgenössische Justiz- und Polizeidepartement. Bern: EDMZ. Balthasar, A. (2009). Evaluationen in der Schweiz: Verbreitung und Verwendung. In T. Widmer, W. Beywl & C. Fabian (Hrsg.), Evaluation. Ein systematisches Handbuch (S. 486–497). Wiesbaden: VS Verlag für Sozialwissenschaften. Balthasar, A., & Müller, F. (2016). Gender equality and evidence-based policy making: Experiences from social transfer and tax policy reforms. In B.  Liebig, K.  Gottschall & B.  Sauer (Hrsg.), Gender equality in context: Policies and practices in Switzerland (S. 87–108). Opladen/Berlin/Toronto: Barbara Budrich Publishers. Balzer, L., & Beywl, W. (2018). evaluiert. Erweitertes Planungsbuch für Evaluationen im Bildungsbereich (2., überarb. Aufl.). Bern: hep. Bezes, P., Chauvière, M., Chevallier, J., de Montricher, N., & Ocqueteau, F. (Hrsg.). (2005). L’État à l’épreuve des sciences sociales: La fonction recherche dans les administrations sous la Ve République. Paris: La Découverte.

62

3  Die Entstehung und Etablierung der Wirkungsforschung

Bührer, S., Daimer, S., Koschatzky, K., Sheikh, S., Kaufmann, P., & Ruhland, S. (2017). Evaluierung der Förderungsgesellschaften Austria Wirtschaftsservice GmbH (aws) und Forschungsförderungsgesellschaft mbH (FFG), Abschlussbericht. Wien: Fraunhofer ISI, Karlsruhe/KMU Forschung Austria. Bussmann, W., Klöti, U., & Knoepfel, P. (Hrsg.). (1997). Einführung in die Politikevaluation. Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Campbell, D. T. (1969). Reforms as experiments. American Psychologist, 24(4), 409–429. Chelimsky, E., & Shadish, W. R. (1997). Evaluation for the 21st century: A handbook. London: Sage. Conseil Scientifique De L’Evaluation (CSE). (1996). Petit Guide de l’évaluation des politiques publiques. Paris: La Documentation Française. Crémieux, L., & Sangra, E. (2015). La place de l’évaluation dans le cadre du contrôle fédéral des finances. In K. Horber-Papazian (Hrsg.), Regards croisés sur l’évaluation en Suisse (S. 37–57). Lausanne: Presses Polytechniques et Universitaires Romandes. Delahais, T., & Devaux-Spatarakis, A. (2018). Évaluation des politiques publiques et sociologie: État des lieux d’une relation distanciée. Sociologies pratiques, 36(1), 47–56. Derlien, H.-U. (1997). Die Entwicklung der Evaluationen im internationalen Kontext. In W.  Bussmann, U.  Klöti & P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 4–12). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Falk, S., Römmele, A., Rehfeld, D., & Thunert, M. (Hrsg.). (2006). Handbuch Politikberatung. Wiesbaden: VS Verlag für Sozialwissenschaften. Figari, G., & Tourmen, C. (2006). La référentialisation: Une façon de modéliser l’évaluation de programme, entre théorie et pratique. Vers une comparaison des approches au Québec et en France. Mesure et évaluation en éducation, 29(3), 5–25. Giel, S. (2013). Theoriebasierte Evaluation: Konzepte und methodische Umsetzung. Münster/New York/München/Berlin: Waxmann. Guba, E.  G. (Hrsg.). (1990). The paradigm dialog. In Alternative paradigms conference, March, 1989, Indiana Universtiy School of Education, San Francisco: Sage. Guba, E. G., & Lincoln, Y. S. (1989). Fourth generation evaluation. Newbury Park: Sage. Jacob, S. (2006). Institutionnaliser l’évaluation des politiques publiques: Étude comparée des dispositifs institutionnels en Belgique, en France, en Suisse et aux Pays-Bas (2. Aufl.). Bruxelles: Peter Lang. Keuth, H. (1989). Wissenschaft und Werturteil. Zu Werturteilsdiskussion und Positivismusstreit (Bd. 59). Tübingen: J.C.B. Mohr (Paul Siebeck). Kevenhörster, P. (2000). Politikberatung. In U. Andersen & W. Woyke (Hrsg.), Handwörterbuch des politischen Systems der Bundesrepublik Deutschland (S. 461–465). Wiesbaden: VS Verlag für Sozialwissenschaften. Kromrey, H. (2001). Evaluation-ein vielschichtiges Konzept: Begriff und Methodik von Evaluierung und Evaluationsforschung; Empfehlungen für die Praxis. Sozialwissenschaften und Berufspraxis, 24(2), 105–131. Lee, B. (2000). Theories of evaluation. In R.  Stockmann (Hrsg.), Evaluationsforschung. Grundlagen und ausgewählte Forschungsfelder (S. 127–164). Opladen: Leske + Budrich. Lemire, S., Peck, L. R., & Porowski, A. (2020). The growth of the evaluation tree in the policy analysis forest: Recent developments in evaluation. Policy Studies Journal, 48(S1), 47–70. Mayntz, R. (1997). Soziologie in der öffentlichen Verwaltung. Heidelberg: CF Müller. Mayring, P. (2017). Schlaglichter auf die Entwicklung der Evaluation in Österreich. Zeitschrift für Evaluation, 16(2), 111–120.

Bibliographie

63

Mayring, P., Kerlen, C., Sheikh, S., Hense, J., & Schwab, O. (2017). Zwanzig Jahre DeGEval – Historie, Entwicklungen, Herausforderungen. Zeitschrift für Evaluation, 16(2), 13–32. Nutley, S., Walter, I., & Davies, H. T. O. (2007). Using evidence: How research can inform public services. Bristol: The Policy Press. Patton, M. Q. (1997). Utilization-focused evaluation: The new century text (3. Aufl.). Thousand Oaks/London/New Delhi: Sage. Pawson, R., & Tilley, N. (1997). Realistic evaluation. London: Sage. Pichler, R. (2009). Institutionelle Dimensionen von Evaluierung in Österreich. In T. Widmer, W. Beywl & C. Fabian (Hrsg.), Evaluation: Ein systematisches Handbuch (S. 40–51). Wiesbaden: VS Verlag für Sozialwissenschaften. Rice, J. M. (1893). The public-school system of the United States. New York: Century. Rieder, S. (2009). Anwendung der SEVAL-Standards: Ergebnisse aus vier Fallstudien. LeGes – Gesetzgebung & Evaluation, 20(3), 387–397. Ritz, A. (2003). Evaluation von New Public Management – Grundlagen und empirische Ergebnisse der Bewertung von Verwaltungsreformen in der schweizerischen Bundesverwaltung. Bern: Haupt. Sager, F., & Hinterleitner, M. (2014). Evaluation. In N. C. Bandelow & K. Schubert (Hrsg.), Lehrbuch der Politikfeldanalyse (3., akt. Aufl., S. 437–462). München/Berlin: de Gruyter Oldenbourg. Sager, F., Ingold, K., & Balthasar, A. (2017). Policy-Analyse in der Schweiz-Besonderheiten, Theorien, Beispiele (Bd. 4). Zürich: NZZ Libro. Schlaufer, C. (2016). Global evidence in  local debates: The Programme for International Student Assessment (PISA) in Swiss direct-democratic debates on school policy. Policy & Politics, 44(4), 547–561. Scriven, M.  S. (1967). The methodology of evaluation. In R.  W. Tyler, R.  M. Gagné & M. S. Scriven (Hrsg.), Perspectives of curriculum evaluation (S. 39–83). Chicago: Rand McNally. Scriven, M.  S. (1974). Evaluation perspectives and procedures. In J.  W. Popham (Hrsg.), Evaluation in education: Current application (S. 3–93). Berkeley: ERIC. Scriven, M. S. (1986). New frontiers of evaluation. Evaluation Practice, 7(1), 7–44. Spenlehauer, V. (1999). Intelligence gouvernementale et sciences sociales. Politix. Revue des sciences sociales du politique, 12(48), 95–128. Stockmann, R. (Hrsg.). (2007). Handbuch zur Evaluation. Eine praktische Handlungsanleitung (Bd. 6). Münster/New York/München/Berlin: Waxmann. Stockmann, R., & Meyer, W. (2010). Evaluationen. Eine Einführung. Opladen/Farmington Hills: Barbara Budrich. Stockmann, R., & Meyer, W. (2020). Germany. In R.  Stockmann, W.  Meyer & L.  Taube (Hrsg.), The institutionalisation of evaluation in Europe (S. 167–198). London: Palgrave Macmillan. Streicher, J. (2017). Evaluations, actors and institutions. The case of research, technology and innovation policy in Austria. PhD thesis, WU Vienna University of Economics and Business. Tyler, R. W. (1949). Basic principles of curriculum and instruction. Chicago: University of Chicago Press.

64

3  Die Entstehung und Etablierung der Wirkungsforschung

Widmer, T. (2011). Zehn Jahre Evaluationsstandards der Schweizerischen Evaluationsgesellschaft (SEVAL-Standards). Schweizerische Zeitschrift für Kriminologie, 10(2), 23–30. Widmer, T. (2017). Geschichte der Evaluation im schweizerischen politischen System. In F.  Sager, T.  Widmer & A.  Balthasar (Hrsg.), Evaluation im politischen System der Schweiz  – Entwicklung, Bedeutung und Wechselwirkungen (Bd. 5, S. 51–66). Zürich: NZZ Libro. Wirths, D., Rosser, C., Horber-Papazian, K., & Mader, L. (2017). Über die gesetzliche Verankerung von Evaluation: Die Verteilung von Evaluationsklauseln und deren Auswirkungen auf kantonaler Ebene. In F. Sager, T. Widmer & A. Balthasar (Hrsg.), Evaluation im politischen System der Schweiz: Entwicklung, Bedeutung und Wechselwirkungen (Bd. 5, S. 155–188). Zürich: NZZ Libro. Wollmann, H. (2003). Kontrolle in Politik und Verwaltung: Evaluation, Controlling und Wissensnutzung. In K. Schubert & N. C. Bandelow (Hrsg.), Lehrbuch der Politikfeldanalyse (2. Aufl., S. 335–360). München/Wien: Oldenbourg. Wollmann, H. (2017). Entwicklungslinien von Evaluation und Evaluationsforschung in Deutschland. Zwischen Vorgeschichte, Aufbruch und Konsolidierung. Zeitschrift für Evaluation, 16(2), 33–56.

4

Überblick über ausgewählte Evaluationsansätze

Schlüsselwörter

Baummodell · Experimentelle und quasi-experimentelle Evaluationsansätze · Theoriegeleitete Evaluationsansätze · Realistische Evaluation · Nutzenorientierte Evaluation („Utilization-Focused Evaluation“)

In diesem Kapitel stellen wir ausgewählte Evaluationsansätze näher vor. Auf diese Weise soll Einblick in die unterschiedlichen konzeptionellen Zugänge zur Durchführung von Evaluation gegeben werden. Die dazu verwendete  Kategorisierung stützt sich ab auf das „Baummodell“ von Marvin C. Alkin und Christina A. Christie zur Systematisierung von Evaluationstheorien (Alkin und Christie 2004). Dieses Modell unterscheidet drei Zweige von Evaluationsansätzen, nämlich solche, die sich primär mit Methodenfragen („Methods“), solche, die sich primär mit Fragen der Nutzung der Evaluationsergebnisse („Use“), und solche, die sich vor allem mit dem Wertungsprozess („Valuing“) beschäftigen. Diese drei Hauptäste werden im Folgenden anhand ausgewählter Beispiele in den Abschn. 4.1, 4.2 und 4.3 beschrieben. Im anschließenden Abschn. 4.4 werden die vorgestellten Evaluationsansätze im Hinblick auf ihre Stärken und Schwächen verglichen. Abschn. 4.5 bietet Hinweise zur Wahl zwischen Selbst- und Fremdevaluationen und Abschn. 4.6 illustriert den Ansatz der nutzenorientierten Evaluation an einem Beispiel. Marvin C. Alkin und Christina A. Christie (2004, S. 13) haben das so genannte Baummodell zur Systematisierung der Evaluationstheorien entwickelt, das drei Hauptzweige unterscheidet: Verwendung („Use“), Methoden („Methods“) und

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_4

65

66

4  Überblick über ausgewählte Evaluationsansätze

Wertung („Valuing“). Das Modell suggeriert einen Wachstumsprozess der Evaluationsforschung von „unten“ ausgehend von den Wurzeln der Buchführungstradition, der empirischen Sozialforschung) und der Erkenntnistheorie. „Oben“ findet sich eine zunehmende Verästelung der einzelnen Theoriestränge und damit visuell eine fortschreitende Differenzierung der Ansätze. Die Zuordnung der verschiedenen Theoretiker*innen ist hierbei aber nicht immer eindeutig möglich und es wird vernachlässigt, dass sich die drei Äste auch gegenseitig befruchten (Stockmann und Meyer 2010, S. 124 ff.). Kasten 4.1 Die Zweige der Evaluationsforschung

Es lassen sich drei Zweige von Evaluationsansätzen unterscheiden. Der erste Ast widmet sich vor allem Methodenfragen („Methods“). Im Zentrum steht die Suche nach einem Evaluationsdesign, das es ermöglicht, Effekte zweifelsfrei auf Interventionen zurückzuführen. Der zweite Ast rückt die Nutzung der Ergebnisse in den Fokus („Use“). Diese Evaluationsansätze verfolgen das Ziel, Evaluationen so durchzuführen, dass der Evaluationsprozess und die Evaluationsergebnisse Nutzen stiften. Der dritte Ast beschäftigt sich in erster Linie mit dem Wertungsprozess („Valuing“). Es geht vor allem darum, unterschiedliche Blickwinkel in die Bewertung einfließen zu lassen.

4.1

Der Methodenast („Methods“)

Kritik an der Unwissenschaftlichkeit der gängigen Evaluationspraxis veranlasste Donald T. Campbell in den 1960er-Jahren, mehr wissenschaftliche Stringenz bei der Konzeption von Evaluationen zu verlangen (Balthasar 2011). Zweifellos stellt dessen gemeinsam mit Julian C.  Stanley verfasster Beitrag „Experimental and Quasi-Experimental Designs for Research“ (Campbell und Stanley 1963) eine wichtige Grundlage für die Entwicklung der Evaluationsmethodologie dar. Das Ideal der experimentell angelegten Programmevaluation prägt die Evaluationswissenschaft zum Teil bis heute. Ähnlich wie Campbell haben sich auch Peter Rossi und Huey-Tsyh Chen für die methodische Fundierung von Evaluationsforschung eingesetzt. Chen  und Rossi haben den zentralen Gedanken der theoriegeleiteten Evaluation („theory-driven Evaluation“) entworfen (Chen und Rossi 1980). Dieser Ansatz fokussiert auf die in der Programmtheorie enthaltenen Wirkungszusammenhänge, welche die mit dem Programm verbundene Intervention mit den ­angestrebten Programmzielen verbinden. Die Kontextfaktoren, die den Erfolg oder

4.1  Der Methodenast („Methods“)

67

Misserfolg eines Programms ebenfalls maßgeblich beeinflussen, werden von diesem Ansatz allerdings vernachlässigt. Um diese Schwäche zu beheben, haben Rey Pawson und Nick Tilley (1997) den Ansatz der „Realistischen Evaluation“ ent­wickelt. Methodisch orientierte Evaluationstypen betrachten Evaluierende in erster Linie als unabhängige Spezialisten in methodischen Fragen. Durch ein wissenschaftlich stringentes Design stellen sie gesichertes Wissen bezüglich der Frage bereit, ob bestimmte Wirkungen auf evaluierte Massnahmen zurückgeführt werden können. Evaluierende sollen in dieser Tradition vor allem die Wirkungen von Programmen aufzeigen. Auf eine Bewertung der Ergebnisse verzichten sie jedoch, um die Unabhängigkeit der Evaluation nicht zu gefährden (Balthasar 2011, S. 189; Luo 2010).

4.1.1 E  xperimentelle und quasi-­experimentelle Evaluationsansätze Im Zentrum des Interesses experimenteller wie auch quasi-experimenteller Ansätze steht der zuverlässige Nachweis, dass ein identifizierter Effekt durch die Intervention ausgelöst wurde (Widmer und De Rocchi 2012, S. 57 ff.). Experimentelle Ansätze kommen insbesondere in der Medizin zur Anwendung. Um die Wirkung neuer Medikamente zuverlässig zu testen, werden Proband*innen nach einem Zufallsverfahren einer „Experimental-Gruppe“ (auch Interventionsgruppe) und einer „Kontrollgruppe“ zugeteilt. Der „Experimental-Gruppe“ wird ein neues Medikament verordnet, die „Kontrollgruppe“ erhält ein Placebo verabreicht. Durch die zufällige Zuordnung zur Experimental- oder zur Kontrollgruppe kann sichergestellt werden, dass keine zusätzlichen unbeobachteten Einflussfaktoren die Wirkungen der Intervention verzerren. Nur wenn sich Messungen bei der Experimental-­ Gruppe nach der Intervention signifikant von denjenigen der Kontrollgruppe unterscheiden, kann auf eine Wirkung der Intervention geschlossen werden. Man spricht von einem „Randomized Control Trial“ (Widmer und De Rocchi 2012, S. 57 ff.). Ein Experiment kann also als gezieltes Ausprobieren einer Intervention verstanden werden. Das methodisch kontrollierte Vorgehen soll den Kausalzusammenhang zwischen der Intervention – als Ursache – und der Wirkung zweifelsfrei belegen (Giel 2013, S. 63). Echte Experimente („true experiments“) (Giel 2013, S. 67) kommen in der Praxis allerdings aufgrund der schwierigen Umsetzbarkeit oder aus ethischen oder rechtlichen Gründen nur selten zur Anwendung. Am ehesten finden sich experimentelle Ansätze im Zusammenhang mit Pilotprojekten zum Beispiel in der Arbeitsmarktpolitik (Arni 2012, S. 355 ff.). Solche

68

4  Überblick über ausgewählte Evaluationsansätze

Projekte lassen es oft zu, eine Teilgruppe mit einer neuen Maßnahme zu konfrontieren und eine andere nicht. Im Schweizer Kanton Aargau wurde beispielsweise 2008 eine intensivierte Unterstützungsstrategie für Stellensuchende mit einem experimentellen Ansatz evaluiert. Die Intervention umfasste eine Beratung während zwei Wochen und ein intensives Coaching während rund 20 Arbeitstagen. Die Evaluation fand einen statistisch signifikanten Effekt der Massnahme. Der Anteil der Personen, die eine Stelle fanden, war in der Interventionsgruppe rund zehn Prozentpunkte höher als in der Kontrollgruppe (Arni 2012, S. 356). Wenn echte Experimente nicht möglich sind, kommen quasi-experimentelle Evaluationsansätze in Betracht. Dabei erfolgt die Zuordnung zur Experimental- oder zur Kontrollgruppe nicht nach dem Zufallsprinzip, sondern durch eine „kluge“ Auswahl. Es werden also Situationen genutzt, in denen Interventionen unterschiedliche Gruppen von Betroffenen und weniger respektive nicht Betroffenen schaffen, die aber dennoch vergleichbar sind: Beispielsweise wird die Tatsache genutzt, dass eine Region ein neues Programm einführt und eine andere nicht. Oder es ist möglich, durch die Einführung eines Stichtages (z. B. bei der Einschulung) zwei Gruppen zu bilden. Die eine ist von einer Politik betroffen, die andere nicht. Die Grundannahme quasi-experimenteller Evaluationsansätze ist, dass die Gruppenbildung „administrativer“ Natur und nicht ursächlich für die Wirkung der Intervention ist (Arni 2012, S.  360). Quasi-experimentelle Ansätze kommen in der Evaluationsforschung oft zur Anwendung. Sie sind politisch machbar und nutzen oftmals Differenzen in der Ausgestaltung von politischen Maßnahmen. Manchmal nutzen sie auch die Chancen, welche sich aus dem „föderalistischen Labor“ ergeben, also aus der Tatsache, dass bspw. Bundesländer oder Kantone nationale Politikvorgaben unterschiedlich umsetzen. Als Beispiel für eine quasi-experimentell angelegte Studie kann eine Untersuchung dienen, welche der Frage nachging, ob Evaluationen zur Diskursqualität in direktdemokratischen Debatten beitragen (Schlaufer 8). Als Datengrundlage wurden alle Artikel zu kantonalen schulpolitischen Abstimmungsvorlagen ausgewertet, die zwischen 2000 bis 2012 in ausgewählten Schweizer Zeitungen publiziert wurden. Aus diesen Artikeln wurden jene identifiziert, in denen Evaluationsergebnisse argumentativ verwendet worden sind. Es waren 63 Artikel. Nun wurde in einem zweiten Schritt die Kontrollgruppe gebildet. Dazu wurde zu jedem der 63 Artikel ein in Bezug auf Länge, Aufmachung und weitere Eigenschaften möglichst gleicher Artikel gesucht, der aber keine Evaluationsergebnisse enthalten hat. Dies führte zu einer Kontrollgruppe von weiteren 63 Artikeln. Alle 126 Artikel wurden anschließend einer Inhaltsanalyse unterzogen. Dabei wurde geprüft, ob sich die Diskursqualität in den beiden Gruppen von Artikeln voneinander unterscheidet. Sowohl experimentelle wie auch quasi-experimentellen Ansätze führen zu Ergebnissen, deren Aussagekraft beschränkt ist. Darauf hat schon Donald Campbell

4.1  Der Methodenast („Methods“)

69

hingewiesen (Campbell 1969, S. 3; vergleiche dazu auch: Giel 2013, S. 65 ff.). Ein Beispiel dafür ist der „Hawthorne-Effekt“. Dieser thematisiert das Phänomen, dass sich Untersuchungspersonen speziell verhalten, wenn sie beobachtet werden. Es ist schwierig, den Einfluss einer Massnahme vom Einfluss des „Beobachtens“ abzugrenzen (Roethlisberger und Dickson 1939). Ein wichtiges Problem sowohl experimenteller wie auch quasi-experimenteller Ansätze besteht auch darin, dass diese im Idealfall zwar zu zeigen vermögen, dass ein Effekt auf eine Intervention zurückgeht. Sie können aber häufig nicht erklären, warum das so ist. Dieser Herausforderung stellen sich theoriegeleitete Evaluationen.

4.1.2 Theoriegeleitete Evaluationsansätze Theoriegeleitete Evaluationsansätze stellen die Frage nach dem „Warum“ von Effekten ins Zentrum. Sie beschäftigen sich mit der Rekonstruktion der Wirkungszusammenhänge eines Programms. Ausgangspunkt bildet die Beschreibung der impliziten oder expliziten Programmtheorie. Der Ansatz der theoriegeleiteten Evaluation („theory-driven Evaluation“) geht auf Huey-Tsyh Chen und Peter Rossi zurück. „Every program embodies a conception of the structure, functions, and procedures appropriate to attain its goals. This conception constitutes the „logic“ or plan of the program, which we have called program theory. The program theory explains why the program does what it does and provides the rationale for expecting that doing things that way will achieve the desired results“ (Rossi et al. 1999, S. 156). Die Programmtheorie liefert also eine Erklärung dafür, warum ein Programm in einer gewissen Art und Weise wirken soll. Die Vorgehensweise der theoriegeleiteten Evaluation kann am Beispiel der Evaluation eines Projekts verdeutlicht werden, welches das Lernen mittels einer internetbasierten Lernumgebung erleichtern soll (Giel 2013, S. 146). Im Rahmen dieser Evaluation entwickelte Susanne Giel eine mögliche Programmtheorie, welche die dem Vorhaben unterliegenden Absichten und Intentionen aus Sicht der Programmverantwortlichen offenlegt. Grundlage dafür bildet nicht nur eine ausführliche Auseinandersetzung mit den Programmunterlagen und den Absichten der Verantwortlichen. Beigezogen werden auch Lerntheorien sowie sozialwissenschaftliche Studien, welche Anregungen dafür liefern, welche Aspekte zu überprüfen und zu berücksichtigen sind (Giel 2013, S. 148). Die Abb. 4.1 von Susanne Giel beschreibt die vermuteten Folgen der internetbasierten Lernumgebung für die Studierenden (Giel 2013, S.  151). Eine ergänzende Abbildung ließe sich für die Arbeitsabläufe aus Sicht der Lehre entwickeln. Die in der Abbildung dargestellten Beziehungen lassen sich jeweils gut auf theore-

70

4  Überblick über ausgewählte Evaluationsansätze

Typische Fehler

Studierende orientieren sich an Beispielaufgabe

Informationen zum Download

*Studierende organisieren Lernorte und -zeiten nach eigenen Bedürfnissen

Präsenzangebote werden um internetbasierte ergänzt Beratung per E-Mail

Studierende nutzen individuelle Beratungsangebote

Studierende tauschen sich untereinander und mit den Lehrenden über Fachfragen aus *Studierende sind jeweils als einzelne Lernende und als Arbeitsgruppen gefasst Diskussionsforum

Sie vermeiden typische Fehler Sie nutzen Strukturierungshilfen Sie nutzen mehr Gelegenheiten zum Lernen

Sie arbeiten selbstständig mit individuell abgestimmtem Feedback weiter Sie erhalten Unterstützung durch Peers Intervention

Studierende setzen sich häufig mit Lernstoff auseinander

Studierende sind befähigt, ihren Lernprozess eigenständig zu organisieren Resultat

Abb. 4.1  Wirkungsmodell des Projekts „internetbasierte Lernumgebung“. (Quelle: Giel (2013, S. 151), leicht adaptiert)

tische Konzepte zurückführen. So findet sich beispielsweise das Konzept des selbstgesteuerten Lernens regelmäßig in den Wirkungsannahmen wieder. Das zentrale Anliegen der theoriegeleiteten Evaluation ist es, angenommene Zusammenhänge zwischen Intervention und Wirkung als Grundlage der Evaluation transparent aufzuzeigen. In der Evaluationspraxis wird diesem Anliegen in der Regel durch die Erstellung von Wirkungsmodellen Rechnung getragen. Das „lineare Modell“ der Evaluationsforschung gehört zu den theoriegeleiteten Evaluationsansätzen. Es ist in der Praxis der Evaluationsforschung weit verbreitet. Aus diesem Grund gehen wir in Kap. 5 und 6 vertieft darauf ein. Eine theoriegeleitete Evaluation hat gerade im Hinblick auf die Überprüfung der Grundlagen von Programmevaluationen Vorteile: Sie gibt Antworten auf die Frage, warum Ziele erreicht oder nicht erreicht werden und sie nutzt verfügbare wissenschaftliche Evidenz. Wichtig ist auch die Tatsache, dass die theoriegeleitete Evaluation die Unterscheidung zwischen „Konzeptfehlern“ (auch policy failure oder Theoriefehler genannt) und „Umsetzungversagen“ (auch implementation failure oder Programmfehler genannt) ermöglicht (vgl. dazu Kap. 2). Von Theoriefehlern spricht man dann, wenn die Programmtheorie unzulänglich ist, wenn das ­Programm die intendierten Effekte also gar nicht haben kann. Programmfehler treten dagegen dann auf, wenn die Umsetzung unzulänglich ist (Suchman 1967). Es gibt aber auch berechtigte Kritik am Ansatz, indem der hohe Aufwand einer solchen Evaluation, die Komplexität oder die fehlende wissenschaftliche Fundierung der Programmtheorie bemängelt wird (Widmer und De Rocchi 2012, S. 69).

4.1  Der Methodenast („Methods“)

71

4.1.3 Kontributionsanalyse Die Rekonstruktion des Wirkungsmodells, welches einem Programm zugrunde liegt, bildet auch den Kern der Kontributionsanalyse („contribution analysis“). Der Ansatz will insbesondere aufzeigen, welcher Beitrag (Kontribution) an beobachteten Veränderungen der Intervention zugeschrieben werden kann (Ackermann 2018). Der Ansatz wurde von John Mayne (2001, S. 9) entwickelt und unterscheidet sechs Arbeitsschritte: 1. Entwurf eines Wirkungsmodells: Zuerst wird ein Wirkungsmodell entwickelt, das die Logik der Aktivität über die Zwischen- bis zu den Endergebnissen darlegt. 2. Evidenz zu den Wirkungszusammenhängen zusammenstellen: Im zweiten Schritt geht es darum, wissenschaftliche Grundlagen zu suchen oder Daten zu erheben, um die postulierten Wirkungszusammenhänge zu prüfen. 3. Suche nach alternativen Erklärungen: Die Kontributionsanalyse sucht im dritten Schritt gezielt auch nach Beweisen, um die postulierten Wirkungszusammenhänge abzulehnen. Auch hierzu muss auf bestehende Evidenzen, auf Daten Dritter, auf Experteneinschätzungen und gegebenenfalls auf eigene Erhebungen und Analysen zurückgegriffen werden. 4. Wirkungsmodell weiterentwickeln: Die gefundene Evidenz, welche die postulierten Wirkungszusammenhänge belegt, wird alternativen Erklärungsansätzen gegenübergestellt. 5. Suche nach zusätzlichen Belegen für Wirkungszusammenhänge: Wenn eine alternative Erklärung nicht ausgeschlossen werden kann oder wenn sich das Programm nicht als wahrscheinlicher Verursacher einer gemessenen Veränderung erweist, muss die Programmlogik überprüft und/oder zusätzliche Daten gesammelt und ausgewertet werden. 6. Weitere Verbesserung des Wirkungsmodells: Auf diese Weise wird das Wirkungsmodell weiterentwickelt: Es wird verlässlicher und überzeugender. Die Kontributionsanalyse ist ein prozessorientierter Evaluationsansatz. Er leitet dazu an, „entlang von Wirkungsvermutungen Schritt für Schritt Evidenzen zu beurteilen, neue Erkenntnisse zu generieren und zu einer fundierten Gesamtbeurteilung zu verdichten“ (Ackermann 2018, S. 20). Sie ist als iterativer Entwicklungsprozess mit internen und externen Reflexionsschlaufen angelegt. Ein Anwendungsbeispiel für eine Kontributionsanalyse findet sich in der Evaluation eines schweizerischen Rauchstopp-Programms (Ackermann 2018). Untersucht wurde, welchen Beitrag dieses Programm an die Reduktion der Anzahl

72

4  Überblick über ausgewählte Evaluationsansätze

der Rauchenden in der Schweiz geleistet hat. Es konnte aufgezeigt werden, dass dank des Programms jährlich einige Tausend Rauchende in die Rauchfreiheit geführt wurden.

4.1.4 Realistische Evaluation Die oben vorgestellte theoriegeleitete Evaluation konzentriert sich auf die Kausalketten, welche die Intervention mit den angestrebten Programmzielen verbinden. Wie erwähnt vernachlässigt dieser Ansatz jedoch die Kontextfaktoren, die den Erfolg oder Misserfolg eines Programms massgeblich beeinflussen (Sager und Hinterleitner 2014, S. 443). Die Kontributionsanalyse trägt der Problematik Rechnung, indem sie den Einfluss externer Faktoren systematisch in die Entwicklung des Wirkungsmodells einbezieht. Die „Realistische Evaluation“ geht einen Schritt weiter. Sie geht von der Annahme aus, dass der Kontext das entscheidende Element ist, das die Wirkungen einer Maßnahme auslöst (vgl. Abschn. 6.2). Gemäss Ray Pawson und Nick Tilley (1997), die den Ansatz der „Realistischen Evaluation“ entwickelt haben, sind Programme komplexe Ketten von Aktivitäten in spezifischen Kontexten. Veränderungen, wie sie Programme beabsichtigen, lassen sich nicht auf den Einfluss intervenierender Variablen reduzieren (Pawson und Tilley 1997). Pawson und Tilley grenzen sich klar vom einfachen Kausalitätsverständnis eines Experiments ab und formulieren das Konzept der erzeugenden Kausalität („generative causation“) (Giel 2013, S. 123). Um diese Wechselbeziehungen zwischen Kontext und Programm abzubilden, müssen Evaluierende sogenannte Kontext-Mechanismus-Outcome-Konfigurationen identifizieren. Als Outcomes (O) werden die Veränderungen über die Zeit definiert. Der Begriff „Kontext“ (C) umfasst neben den geographischen und soziostrukturellen Gegebenheiten auch spezifische Normen, Werte, Beziehungen und soziale Regeln. Für die Evaluation entscheidend ist, dass Programme immer in bestehende Kontexte eingefügt werden, die mehr oder weniger offen sind für die mit der Intervention verbundenen Angebote. Der Begriff „Mechanismus“ (M) spricht die Funktions- oder auch Wirkfähigkeit eines Programms an. Gemeint ist das Potenzial eines Programms, die Beteiligten zu motivieren, im Sinne der Programmziele zu handeln (Giel 2013, S. 124). Aufgabe der Evaluation ist es zu untersuchen, welche „CMO-Konfigurationen“ jeweils vorherrschen und wann, für wen und unter welchen Bedingungen ein Programm wirkt (Sager und Andereggen 2012), denn „bestimmte, von einem Programm ausgelöste Mechanismen werden in spezifischen lokalen, historischen, sozio­ kulturellen und institutionellen Umfeldern wirksam und führen zu entsprechenden Outcomes“ (Sager und Hinterleitner 2014, S. 443). Um die relevanten „CMO-Kon-

4.1  Der Methodenast („Methods“)

73

figurationen“ zu finden, schlagen Pawson und Tilley (1997) vor, zuerst Hypothesen über mögliche Wirkungszusammenhänge zu entwickeln und diese dann einem empirischen Test zu unterziehen. Dieser Test erfolgt in einer ersten Phase meist mittels Gesprächen mit Fachleuten. Die Befragten prüfen, ob die von den Evaluierenden formulierten Hypothesen der Realität entsprechen. Es ist die Aufgabe der Evaluierenden, die Fachleute in diesen Gesprächen zu motivieren, allfällige neue, überzeugendere Hypothesen zum Zusammenhang zwischen Intervention, Kontext und Wirkung zu formulieren. Als Beispiel nutzen Pawson und Tilley den Einsatz von Überwachungskameras in Parkhäusern zur Verringerung der Anzahl von Autodiebstählen (Pawson und Tilley 1997, S. 78 f.) Die Maßnahme war Teil des „Safer Cities Programme“, welches das britische Innenministerium in 20 englischen Städten durchführte. Die Installation von Überwachungskameras ist auf den ersten Blick eine einfache Maßnahme, denn die erste Vermutung ist, dass mehr Kameras generell dazu führen, dass die Kriminalität in Parkhäusern sinkt. Pawson und Tilley listen aber eine ganze Reihe von verschiedenen Mechanismen auf, die die Wirkung erklären können, wie beispielsweise folgende: • Ertappungsmechanismus: Überwachungskameras können Autodiebstähle verhindern, indem Diebe in flagranti gefilmt und sofort entdeckt, festgenommen und bestraft werden. • Aufzeichnungsmechanismus: Überwachungskameras können Autodiebstähle verhindern, indem sie potenzielle Diebe abschrecken, die es nicht riskieren wollen, wegen dem Beweismaterial auf Videoband aufgespürt, festgenommen und verurteilt zu werden. • Frequenzmechanismus: Überwachungskameras können Autodiebstähle verhindern, indem ihre Präsenz zu einer erhöhten Auslastung des Parkhauses führt, weil sich die Benutzer*innen sicherer fühlen. Durch die erhöhte Nutzung steigt die natürliche Überwachung, was potenzielle Diebe und Diebinnen abschreckt. Welche dieser Mechanismen tatsächlich in Kraft sind, hängt vom Kontext ab, in dem die Überwachungsanlage installiert wird (Pawson und Tilley 1997, S. 79 f.). Der Vorteil der „Realistischen Evaluation“ ist es, dass der Blick für alternative Erklärungszusammenhänge systematisch geöffnet wird. Das Risiko, dass die Evaluation sich auf die gewünschten Wirkungszusammenhänge beschränkt und dadurch fehlerhafte Ergebnisse zu Tage fördert, wird reduziert. Auf der anderen Seite macht schon das einfache Beispiel der Parkhauskameras deutlich, dass die Durchführung von realistischen Evaluationen sehr aufwändig sein kann. Daher ist deren praktische Anwendung bis heute im deutschsprachigen Kontext selten geblieben.

74

4  Überblick über ausgewählte Evaluationsansätze

Kasten 4.2 Kernelemente des methodischen Astes der Evaluationsforschung

Die Evaluationsansätze, welche dem methodischen Ast der Evaluationsforschung zugeordnet werden, haben das Ziel, Effekte zweifelsfrei auf Interventionen zurückzuführen. Damit dies gelingt, konzentriert sich ein Teil dieser Ansätze darauf, ein Evaluationsdesign zu entwickeln, das externe Einflüsse möglichst zuverlässig ausschließt. Die identifizierten Effekte sollen ausschließlich auf die Intervention zurückgehen. Andere Ansätze betonen dagegen gerade die Relevanz von Kontextfaktoren und beziehen diese systematisch in die Erklärung der Effekte ein. Sie wollen herausfinden, „was wirkt für wen in welchem Zusammenhang“.

4.2

Der Nutzenast („Use“)

Die zweite Gruppe von Evaluationsansätzen orientiert sich primär an den Interessen und Bedürfnissen der beteiligten und betroffenen Akteur*innen. Statt eine Debatte über geeignete Designs und zuverlässige Methoden zu führen, rückt die Nutzung der Ergebnisse in den Fokus (Giel 2013, S. 73). Als erstes werden wir in den Ansatz der nutzenorientierten Evaluation von Michael Patton einführen, der auch als Stammvater der nutzenorientierten Evaluationstheorien bezeichnet wird (Stockmann und Meyer 2010, S.  120). Danach stellen wir den von Andreas Balthasar entwickelten „Critical Friend Approach“ vor, der die Nutzenorientierung mit der Unabhängigkeit der Beurteilung kombiniert (Balthasar 2011, 2012). Schließlich gehen wir auf den von David M. Fetterman propagierten Ansatz der „Empowerment Evaluation“ ein (Fetterman 2001). Dieser legt besonderes Gewicht auf die Befähigung der Betroffenen zur Mitwirkung an einer Evaluation.

4.2.1 Nutzenorientierte Evaluation Michael Patton hat seinen Ansatz als „Utilization-focused Evaluation“ bezeichnet. Der Name ist Programm: „The focus in utilization-focused evaluation is on intended use by intended users“ (Patton 1997, S. 20). Alle strategischen und methodischen Entscheidungen werden von Anfang an darauf ausgerichtet, dass die Evaluation und deren Ergebnisse nützlich sind und genutzt werden. In den Mittelpunkt rückt der beabsichtigte Gebrauch, den vorgesehene Nutzende vom Evaluationspro-

4.2  Der Nutzenast („Use“)

75

zess und seinen Ergebnissen machen (Giel 2013, S. 73 f.). Patton (1997) legt insbesondere Wert darauf, dass Nutzer*innen einer Evaluation von Anfang an in die Entscheidungen des Evaluationsprozesses eingebunden werden. Es gilt daher in der ersten Phase einer Evaluation, Personen und Gruppen zu identifizieren, die ein persönliches und gerechtfertigtes Interesse an der Ausgestaltung und den Ergebnissen der geplanten Evaluation haben. Patton (1997) erachtet es als unwahrscheinlich, dass diese Gruppe am Schluss ein wirkliches Interesse an den Resultaten einer Evaluation zeigt, wenn die Bedürfnisse dieser Gruppe nicht von Anfang an berücksichtigt wurden. In der zweiten Phase arbeiten Evaluierende zusammen mit den potenziellen Nutzenden der Evaluationsergebnisse die Erwartungen an die Studie heraus. In der dritten Phase der nutzenorientierten Evaluation werden die relevanten Daten erhoben. Auch in dieser Phase wird den Anliegen der Nutzenden Rechnung getragen. Da der Nutzen der Evaluation für die intendierten Nutzenden das maßgebliche Ziel der Arbeiten ist, müssen diese an der Auswahl der Methoden beteiligt werden. Auf diese Weise wird die Legitimität des gewählten Vorgehens sichergestellt. Danach folgt die vierte Phase, bei welcher die im vorherigen Schritt gesammelten Daten verarbeitet werden. Den Nutzenden kommt auch dann eine wichtige Rolle zu. Die Evaluierenden helfen ihnen, einen gewissen Abstand zum Untersuchungsgegenstand einzunehmen, um die Vorgänge besser überblicken und beurteilen zu können. Während der Prozess bei der nutzenorientierten Evaluation sehr wichtig ist, hat die abschließende Verbreitung weniger Gewicht. Dies liegt daran, dass die intendierten Nutzenden die Ergebnisse schon kennen und nutzen. Es gibt nicht viel Neues, was ein Abschlussbericht noch hinzufügen könnte. Ein Beispiel für eine nutzenorientierte Evaluation findet sich am Schluss dieses Kapitels (Abschn. 4.5). Die besondere Stärke der nutzenorientierten Evaluation liegt darin, dass die Wahrscheinlichkeit der tatsächlichen Nutzung der Ergebnisse außergewöhnlich hoch ist. Regt sich Widerstand gegen gewisse Vorgehensweisen, so wird diesem bereits im interaktiven Prozess zwischen Evaluierenden und intendierten Nutzenden begegnet. Durch den regelmäßigen Einbezug der Beteiligten werden diese ­außerdem auf die Problemstellungen einer Evaluation sensibilisiert und können die erworbenen Fähigkeiten auch später noch nutzen (Beywl et al. 2004, S. 91). Die Schwäche des Ansatzes liegt in der hohen Abhängigkeit der Vorgehensweise von der Kooperationsbereitschaft der intendierten Nutzenden. Diese ist häufig nicht im für die Umsetzung einer nutzenorientierten Evaluation notwendigen Ausmaß gegeben. Eine weitere Problematik stellen die hohen Anforderungen dar, welche an die Evaluierenden gestellt werden. Diese müssen über ein breites Kompetenzprofil verfügen, das sie nicht nur als hervorragende Kommunikator*innen auszeichnet, sondern darüber hinaus als effiziente und beteiligten-orientierte Koordinator*innen (Beywl et al. 2004, S. 91).

76

4  Überblick über ausgewählte Evaluationsansätze

4.2.2 Critical Friend Approach Auch der Critical Friend Approach verfolgt das Ziel, dass Evaluationen für die Programmverantwortlichen nützlich sind. Der Ansatz ist darauf ausgerichtet, die Verantwortlichen durch die Evaluation gezielt und direkt zu unterstützen (Balthasar 2011, 2012): „Durch die Orientierung des Programms und der Evaluation an einem gemeinsamen Wirkungsmodell, durch die Ausrichtung der Evaluation an zentralen und praxisrelevanten Fragestellungen sowie durch regelmässige Informations- und Reflexionstreffen zwischen Evaluierenden und Evaluierten wird sichergestellt, dass die verschiedenen Teile der Evaluation gut mit dem Programm und seinen Informationsbedürfnissen koordiniert sind“ (Balthasar 2012, S. 175). Die Evaluierenden übernehmen im „Critical Friend Approach“ die Rolle eines „kritischen Freundes“: „A critical friend […] is a trusted person who asks provocative questions, provides data to be examined through another lens, and offers critiques of a person’s work as a friend. A critical friend takes the time to fully understand the con­ text of the work presented and the outcomes that the person or group is working toward. The friend is an advocate for the success of that work“ (Costa und Kallick 1993, S. 50). Im Kontext des „Critical Friend Approach“ bedeutet dies, dass Evaluierende zwar keine direkte Verantwortung für die Umsetzung der evaluierten Maßnahme tragen, jedoch den Programmverantwortlichen als Beratende zur Verfügung stehen. Sie verstehen sich als aktive externe Beobachtende, welche kritische Fragen stellen und wenn nötig auf Handlungsbedarf hinweisen (Balthasar 2012, S. 175). Ausgangspunkt des „Critical Friend Approach“ bildet die Identifikation des Wirkungsmodells einer Maßnahme und darauf aufbauend die Klärung der Evaluationsfragen. Weiter legt der Ansatz großen Wert auf die Klärung der Evaluationsziele. Die Ziele bestimmen maßgeblich, welche Rolle Beteiligte und Betroffene im Evaluationsprozess einnehmen sollen. Weiter muss das Evaluationsdesign definiert werden. Es macht den Maßstab der Bewertungen transparent, welcher den Kern der Evaluation darstellt. Daraufhin müssen die Datenerhebungs- und die Datenanalysetechniken bestimmt und danach angewandt werden. Wichtig ist ein stringentes methodisches Vorgehen, das den Ansprüchen wissenschaftlicher Arbeit entspricht. Schließlich nimmt die Diffusion der Ergebnisse beim „Critical Friend Approach“ während des ganzen Evaluationsprozesses ein großes Gewicht ein, da der Ansatz – wie erwähnt – von der Überzeugung ausgeht, dass Evaluationen für die Programmverantwortlichen nutzbringend sein müssen. Eine besondere Stärke des „Critical Friend Approach“ liegt darin, dass die Evaluierenden besonders gut mit dem Evaluationsgegenstand vertraut sind. Dadurch können sie sich nutzbringend in den Prozess der Konzeption und der Umsetzung eines Programms einbringen. Aufgrund ihrer hohen Sachkompetenz werden die

4.2  Der Nutzenast („Use“)

77

Beurteilungen der Evaluierenden auch dann akzeptiert, wenn sie kritisch ausfallen. Auch haben die Evaluierenden, welche diesen Ansatz verfolgen, einen so guten Einblick in den Programmalltag, dass sie leichter Schwachstellen erkennen und Hinweise auf Möglichkeiten zu deren Behebung geben können. Den geschilderten Stärken des praktizierten „Critical Friend Approach“ stehen auch Schwächen gegenüber. So ist die Rolle der Evaluierenden zwischen mitverantwortlichem Teil des Programms und unabhängiger Außensicht nicht immer klar. Zudem wird die politische Akzeptanz von Ergebnissen, welche auf diesem Evaluationsansatz beruhen, vermutlich beschränkt sein, da die Evaluierenden von außen möglicherweise als Teil des Programms wahrgenommen werden. Ein konkretes Beispiel einer dem Ansatz des „Critical Friend Approach“ entsprechend durchgeführten Evaluation findet sich am Schluss des Kap. 8 in Abschn. 8.6.

4.2.3 Empowerment Evaluation Der Ansatz der „Empowerment Evaluation“ wurde von David M. Fettermann mit dem Ziel entwickelt, Programme in einem partizipativen Prozess zu verbessern. Der Ansatz lässt sich auf folgende Kurzformel bringen: „It is designed to help people help themselves and improve their programs using a form of self-evaluation and reflection“ (Fetterman 2001, S. 3). Eine „Empowerment Evaluation“ hilft also den Programmverantwortlichen, den Mitarbeitenden und den Nutzenden gemeinsam ihre eigene Evaluation durchzuführen. Die externen Evaluierenden wirken als Beratende und Dienstleistende (Beywl et al. 2004, S. 250). Fetterman stellt die fünf Schlüsselbegriffe „Training“, „Facilitation“, „Advocacy“, „Illumination“ und „Liberation“ ins Zentrum (Fetterman et  al. 1996, S.  9  ff.): „Training“ betont, dass die Programmteilnehmenden befähigt werden müssen, die Evaluation durchzuführen. „Facilitation“ spricht die Rolle der Evaluator*innen als Beratende und Dienstleister*innen an. Mit Anleitung und Monitoring erleichtert und ermöglichen sie es den Beteiligten und Betroffenen, die Evaluation durchzuführen. In bestimmten Fällen kann es angezeigt sein, dass der oder die Evaluator*in als „Fürsprecher*in“ („Advocacy“) einer bestimmten Gruppe wirkt. Fetterman denkt dabei an Gruppen, welche keine oder wenig Kon­ trolle über ihr Schicksal haben – beispielsweise Obdachlose, Randständige oder Drogenabhängige. Dank des Kompetenzerwerbs im „Training“ werden die Teilnehmenden befähigt, Problemlösungen zu finden oder adäquate Problemlösungsstrategien zu entwerfen („Illumination“). Am Schluss steht der „Liberation“ der Programmteilnehmenden nichts mehr im Wege. Beteiligte und Betroffene können selber Verantwortung für die Weiterentwicklung des Programms übernehmen.

78

4  Überblick über ausgewählte Evaluationsansätze

Dieser Ansatz hat den Vorteil, dass sich durch die breite Beteiligung der Stakeholder die Erfolgschancen für eine Umsetzung der Resultate verbessern. Auch kann der Diskurs zwischen diesen Gruppen Erkenntnisse bringen, welche die Programmentwicklung voranbringen. Zudem trägt der Ansatz der Tatsache Rechnung, dass unterschiedliche Gruppen von Akteur*innen unterschiedliche Ziele verfolgen. Auch dieser Ansatz ist jedoch mit dem Problem konfrontiert, dass eine Gruppe von Beteiligten und Betroffenen gefunden werden muss, welche bereit und in der Lage ist, sich langfristig im Evaluationsprozess zu engagieren. Zudem birgt die Fokussierung auf Lernprozesse die Gefahr, dass die Funktion der kritischen Bestandsaufnahme und Bilanzierung durch die Evaluation vernachlässigt wird. Die Offenheit des Forschungsprozesses und die Animation des Diskurses können viel Zeit und folglich auch viel Geld kosten.

Kasten 4.3 Kernelemente des nutzenorientierten Astes der Evaluationsforschung

Nutzenorientierte Evaluationsansätze stellen den Nutzen der Evaluationsstudien ins Zentrum der Bemühungen. Dieses Ziel wird hauptsächlich dadurch erreicht, dass die Beteiligten und die Betroffenen von Anfang an in den Evaluationsprozess einbezogen werden. Beim Ansatz der „Empowerment Evaluation“ sind es sogar sie, welche die Evaluation durchführen. Aufgabe der Evaluierenden ist es in diesem Fall, die Beteiligten und die Betroffenen zur Durchführung der Evaluation zu befähigen.

4.3

Der Wertungsast („Valuing“)

Bei der Gruppe der wertungsorientierten Evaluationsansätze steht die Bewertung der Wirkungen einer Intervention im Zentrum. Als wichtiger Vertreter dieser Richtung gilt Michael Scriven, den wir als Begründer der Evaluationsforschung als wissenschaftliche Disziplin der Bewertung bereits kennengelernt haben (Stockmann und Meyer 2010, S. 122; vgl. Abschn. 3.1.3). Deutlich wird dies in Scrivens häufig zitierter Definition von Evaluation: „Evaluation is the process of determining the merit, worth and value of things, and evaluations are the products of that process“ (Scriven 1991, S. 1). Am häufigsten werden die Ziele eines Programms als Ausgangspunkt für die Bewertung gewählt. Daher gehen wir nachfolgend zuerst auf den Ansatz der zielbasierten Evaluation ein. Danach wenden wir uns dem Ansatz der zielfreien Evaluation zu. Dieser distanziert sich ausdrücklich von den

4.3  Der Wertungsast („Valuing“)

79

Zielen des evaluierten Programms. Weiter stellen wir das Konzept der expertenbasierten Evaluation sowie jenes der dialoggesteuerten Evaluation vor. Bei diesen Ansätzen basiert die Bewertung auf den Einschätzungen von Expert*innen, beziehungsweise auf jenen von Betroffenen.

4.3.1 Zielbasierte Evaluationen Zahlreiche Evaluationen gehen in erster Linie der Frage nach, ob ein Programm seine Ziele erreicht hat. Zielbasierte Evaluationen dienen vor allem Kontrollzwecken. Sie überprüfen, ob dem proklamierten „Soll“ ein entsprechendes „Ist“ gegenübersteht (Stockmann und Meyer 2010, S. 126; vgl. auch Widmer und De Rocchi 2012, S. 51 f.). Das klassische Vorgehen einer zielbasierten Evaluation beinhaltet gemäß Ralph W. Tyler (2000) vier Schritte. Zuerst werden die Ziele identifiziert, dann die Ergebnisse empirisch überprüft. Anschließend werden die Ergebnisse mit den Zielen verglichen und schließlich wird festgehalten, wie die Zielerreichung zu bewerten ist (Tyler 2000). Zu den Stärken des Ansatzes zählt seine vermeintliche Einfachheit: „It is easily understood, easy to follow and implement, and produces information that program directors generally agree is relevant to their mission“ (Fitzpatrick et al. 2004, S. 82). Dem Ansatz wird auch zugutegehalten, dass er Programmverantwortliche und -mitwirkende dazu anhält, ihre Programmziele explizit zu spezifizieren. Zudem bietet die Evaluation eines Programms anhand der zuvor festgelegten Ziele auch eine gut nachvollziehbare Basis für die Bewertung (Stockmann und Meyer 2010, S.  128). Allerdings kann darin auch eine Schwäche des Ansatzes liegen. Es ist nämlich häufig gar nicht so einfach, die Programmziele zu ermitteln. Oft sind diese nur verschwommen formuliert oder weisen einen sehr allgemeinen Charakter auf (Stockmann und Meyer 2010, S. 128). Auch geben zielbasierte Evaluationen in der Regel keine ausreichende Antwort auf die Frage nach dem „Warum“, also auf die Frage, welche Gründe für die Zielerreichung oder eben Nicht-Erreichung verantwortlich sind. Und schließlich haben politische Programme ja nicht den Zweck ihre Ziele zu erreichen, sondern einen Beitrag zur Lösung von gesellschaftlichen Problemen zu leisten. Daher kann die Orientierung einer Evaluation an den Programmzielen zu trügerischen Ergebnissen führen. So kann die Evaluation beispielsweise aufzeigen, dass ein Programm zur Förderung der Sonnenenergie seine Ziele erreicht hat: Die Zielgruppen konnten angesprochen, die anvisierte Fläche an Solarpanels installiert werden. Dennoch kann die Verbreitung der Solarenergie weit unter den Erwartungen der Bevölkerung liegen. Um diesem Problem Rechnung zu tragen, wurde der Ansatz der zielfreien Evaluation entwickelt.

80

4  Überblick über ausgewählte Evaluationsansätze

Sogenannte Effizienz-Analysen, die je nach Untersuchungsfokus auch Kosten-­ Nutzen-­Analyse oder Kosten-Wirksamkeits-Analyse genannt werden (Widmer und De Rocchi 2012, S. 77), sind eine spezielle Form der zielbasierten Evaluation. Ziel solcher Analysen ist es, den Ressourceneinsatz entweder den Leistungen oder aber den Wirkungen einer öffentlichen Politik gegenüberzustellen. Anders als bei den klassischen Evaluationen steht also nicht die Wirksamkeit der untersuchten öffentlichen Politik im Vordergrund, sondern deren Wirtschaftlichkeit (Widmer und De Rocchi 2012, S. 75). Effizienz ist ein generisches Kriterium, das unabhängig vom Inhalt einer Politik angewendet werden kann. Politiken haben kaum je das explizite Ziel der Effizienz, sondern sollen gesellschaftliche Probleme lösen. Das bedeutet, dass das Bewertungskriterium nicht aus der evaluierten Politik selber abgeleitet wird (z. B. Zielerreichung als Wirksamkeit), sondern von außen an sie herangetragen wird. Es wird beispielsweise untersucht, „ob zur Erzielung der gleichen Wirkungen weniger Ressourcen eingesetzt werden könnten bzw. ob mit den gleichen Ressourcen ein höherer Zielerreichungsgrad möglich wäre“ (Knoepfel et al. 1997, S.  113–114). Es können vier verschiedene Typen von Effizienz-­Analysen unterschieden werden (Weiss 1998, S.  329; vgl. auch Widmer und De Rocchi 2012, S. 77): Die cost-effectiveness analysis, die cost-benefit analysis, die cost-minimization analysis und die cost-utility analysis. In den ersten beiden Analysearten werden die mit einer öffentlichen Politik verbundenen Kosten den Effekten gegenübergestellt, wobei in der cost-effectiveness analysis die Effekte nicht in monetärer Form dargestellt werden, in der cost-benefit analysis aber schon. Die zwei letztgenannten Ansätze dienen zur Untersuchung von Gruppen von Programmen und nicht von einzelnen Interventionen. Die cost-minimization analysis soll Erkenntnisse dazu generieren, welches der verglichenen Programme „unter B ­ erücksichtigung der zu erreichenden Outcomes“ am kostengünstigsten ist (Widmer und De Rocchi 2012, S. 78). Dagegen stellt die cost-benefit analysis den Nutzen für die von einer öffentlichen Politik Betroffenen und Beteiligten den Kosten gegenüber, um das Programm mit dem höchsten Kosten-Nutzen-Verhältnis identifizieren zu können. Wie bereits aus den Beschreibungen dieser einzelnen Effizienz-­Analysen hervorgeht, können solche Untersuchungen ex-ante – also vor der Einführung einer öffentlichen Politik zur Bestimmung der kosteneffektivsten Maßnahmen – oder ex-post – d. h. zur Untersuchung der in der Umsetzung beobachteten Effizienz zwecks allfälliger Neuausrichtung der Massnahmen – erfolgen (Widmer und De Rocchi 2012, S. 77). In der Praxis wird dem Aspekt der Wirtschaftlichkeit häufig aber auch in klassi­ schen „Wirksamkeits-Evaluationen“ Rechnung getragen, indem ein entsprechendes Evaluationskriterium angewandt wird. Im linearen Modell, das in Kap. 5 und 6 ausführlich beschrieben wird, wenden Evaluator*innen beispielsweise neben dem Kriterium Wirksamkeit (und weiteren Kriterien) auch das Kriterium der Effizienz an, um etwas über das Kosten-­Nutzen-­Verhältnis zu erfahren.

4.3  Der Wertungsast („Valuing“)

81

4.3.2 Zielfreie Evaluationen Die zielfreie Evaluation lässt die Zielsetzung eines Programms so weit wie möglich außer Acht. Evaluationen sollen zeigen, was ein Programm tatsächlich bewirkt, ohne dadurch beeinflusst zu werden, was es bewirken soll. Als Bewertungskriterien dienen die Wirkungen auf die Betroffenen, ohne dass diese Wirkungen durch bestimmte Ziele konkretisiert würden. Die Bedürfnisse der Betroffenen der Politik bilden somit den Maßstab zur Beurteilung der Wirksamkeit des Programms. Der Vorteil des von Michael Scriven entwickelten Ansatzes der zielfreien Evaluation („goal-free evaluation“) liegt in der Mitberücksichtigung von nicht-­intendierten Auswirkungen eines Programms (Scriven 1991, S.  189). Auch stellen allfällige Zielverschiebungen kein Problem dar (Widmer und De Rocchi 2012, S. 55). Neben seinen offenkundigen Vorteilen weist das Modell aber auch einige Schwachstellen auf. So ist die zielfreie Evaluation bei Programmverantwortlichen eher unbeliebt (Widmer und De Rocchi 2012, S.  56). Dies liegt insbesondere daran, dass Programmverantwortliche sich besonders für die Erreichung explizit formulierter politischer Ziele interessieren. Das fehlende Interesse der Programmverantwortlichen an zielfreien Evaluationen beeinflusst auch die Evaluierenden. Denn diese möchten, dass Evaluationen nützlich sind. Wenn also Evaluationen möglicherweise zu Ergebnissen führen, mit welchen der Auftraggeber oder die Auftraggeberin wenig anfangen kann, dann ist das auch nicht in deren Interesse.

4.3.3 Expertenbasierte Evaluation Expertenbasierte Evaluationsansätze sind dadurch gekennzeichnet, dass Fachleute aus einer auf gleichem Gebiet tätigen, aber externen Organisationsein­ heit eine Bewertung eines Evaluationsgegenstands vornehmen (Stockmann und Meyer 2010, S.  133  ff.). Die Grundlagen für dieses Verfahren haben Blaine Worthen und James Sanders in den 1980er-Jahren gelegt (Worthen und Sanders 1987). Die Bewertung erfolgt explizit durch den Experten, beziehungsweise die Expertin auf der Grundlage ihres Wissens und ihrer Erfahrung (Sager und Mavrot 2021). Expertenbasierte Ansätze haben kein Problem damit, dass die Bewertung letztlich durch Subjekte erfolgt. Vielmehr bauen sie ganz offen und direkt auf dieser subjektiven professionellen Expertise auf (Beywl 1988, S.  62). Am konsequentesten formuliert hat dieses Evaluationsverständnis Elliot W. Eisner in seinem Ansatz der „Connoisseurship-­Evaluation“ (Eisner 1987). Dieser Ansatz lehnt ein formelles Vorgehen überhaupt ab. Plädiert wird für eine detaillierte Beschreibung, welche auch subjektive Einschätzungen nicht ausschließt. Sensitive Betrachtungen, wie sie bei Weinkenner*innen üblich sind, sind diesem Ansatz

82

4  Überblick über ausgewählte Evaluationsansätze

wichtiger, als rein wissenschaftliche Kriterien. Expertenbasierte Evaluationen gehören zu den am weitesten verbreiteten Evaluationsansätzen. Sie sind insbesondere im Forschungs- und im Bildungsbereich etabliert. Hier finden wir sie auch unter dem Begriff des „peer review“, wie es insbesondere bei der Begutachtung wissenschaftlicher Arbeiten üblich ist (Widmer und De Rocchi 2012, S. 106). Die expertenbasierte Evaluation des „peer review“ findet sich auch bei der Evaluation von Forschungseinrichtungen in Form von sogenannten Audits, also Vor-Ort-Visiten durch Expert*innen (für Details zu Unterschieden zwischen Evaluationen und Audits vgl. Schenker-Wicki 1999). Ein Beispiel für eine expertenbasierte Evaluation ist jene der Universität von Luxemburg im Jahr 2016 (Rieder et al. 2017). Der Fokus der Evaluation lag auf der Forschungsleistung von verschiedenen Universitätseinheiten. Die Evaluation wurde in vier Schritten durchgeführt. Im ersten Teil wurden die für die Evaluation notwendigen Grundlagen geschaffen: Dazu gehörte ein Leitfaden, der den Ablauf der Evaluation für alle Beteiligten transparent darstellte sowie die Struktur des Selbstevaluationsberichts, den jede Untersuchungseinheit erarbeiten musste. Danach erfolge die Selbstevaluation durch die verschiedenen Universitätseinheiten mittels der standardisierten Berichtsvorlage. Das Kernstück der Evaluation bildete ein Hearing. Dazu wurden Expert*innen aus dem Ausland rekrutiert und mit den notwendigen Vorinformationen ausgestattet. Die Expert*innen besuchten anschließend die evaluierten Einheiten und ließen sich die Arbeiten vorstellen. Als Ergebnis der Besuche erstellten die Expertengruppen pro Einheit einen Hearing-Bericht mit Empfehlungen, die schließlich von einer Beratungsfirma zu einem Gesamtbericht mit Empfehlungen zuhanden der Universität verarbeitet wurden. Der am Beispiel dieser Evaluation verdeutlichte Ansatz der expertenbasierten Evaluation hat den Vorteil, dass sich die Evaluierten in der Regel im Rahmen von Selbstevaluationen intensiv mit den eigenen Strukturen und Prozessen auseinandersetzen müssen. Bereits dadurch werden Stärken und Schwächen aufgedeckt, was Chancen für Verbesserung bietet. Die externe Sichtweise durch Expert*innen aus dem eigenen Fachgebiet ermöglicht zudem eine unabhängige Perspektive, die mit den Ergebnissen aus der Selbsteinschätzung verglichen werden kann. Auch das erschließt Lernpotenzial. Allerdings sind solche Evaluationen mit dem Problem verbunden, dass die Ergebnisse im wissenschaftlichen Sinn kaum nachvollziehbar sind. Es besteht die Gefahr, dass die Expert*innen den Evaluierten zu nahestehen, da sie über einen ähnlichen wissenschaftlichen Hintergrund verfügen. Oder es kann genau das Gegenteil der Fall sein nämlich, dass die Expert*innen nicht genügend kompetent sind, weil sie eben gerade nicht über einen ähnlichen Hintergrund verfügen. Die Evaluationen von Forschungsinstitu-

4.3  Der Wertungsast („Valuing“)

83

tionen umfassen zudem häufig nur ein sehr begrenztes Spektrum von Fragestellungen. Nicht-intendierte Effekte werden in der Regel nahezu vollkommen ausgeblendet (Stockmann und Meyer 2010, S. 137).

4.3.4 Dialoggesteuerte Evaluation Bereits in Abschn. 3.1.4 haben wir den Ansatz der Fourth-generation Evaluation erwähnt, welche Egon G. Guba und Yvonna S. Lincoln entwickelt haben (Guba und Lincoln 1989). Hauptanliegen dieses Ansatzes ist die Erreichung einer erhöhten Beteiligung von Betroffenen an Evaluationen. Auf diese Weise sollen die unterschiedlichen Interessen der Beteiligten und der Betroffenen in den Aushandlungsprozess einer Evaluation einfließen (Sager und Mavrot 2021). Guba und Lincoln gehen davon aus, dass die Wirklichkeit und die Wahrheit über den Evaluationsgegenstand durch Übereinkünfte der Beteiligten und der Betroffenen geschaffen werden muss (Ritz 2003, S. 80). Dazu braucht es einen Aushandlungsprozess unter Leitung von Evaluierenden. Die an der Evaluation be­ teiligten Stakeholder haben unterschiedliche Wertvorstellungen. Dies führt zu Interessenkonflikten, welche von den Evaluierenden thematisiert werden müssen. Die Evaluierenden müssen sicherstellen, dass alle Beteiligten die gleichen Informationen haben. Im Gegensatz zur bisherigen Forschung mit passiver Respektierung der Interessen der Betroffenen, verlangen dialoggesteuerte Evaluationsansätze eine aktive Einbeziehung aller Beteiligten und Betroffenen. Zudem gehen diese Ansätze davon aus, dass die Bewertung des Evaluationsgegenstands nicht objektiv erkannt werden kann, sondern zwischen den Beteiligten und den Betroffenen ausgehandelt werden muss (Giel 2013, S. 78).

Kasten 4.4 Kernelemente des wertungsorientierten Astes der Evaluationsforschung

Die Gruppe der wertungsorientierten Evaluationsansätze stellt die Bewertung der Wirkungen einer Intervention ins Zentrum. Grundlage der Bewertung sind in vielen Fällen die Ziele, welche eine Intervention verfolgt. Die zielbasierte Evaluation nimmt dieses Anliegen auf. Die zielfreie Evaluation nimmt davon Abstand und öffnet den Blick für nicht-intendierte Wirkungen. Expertenbasierte Evaluationsansätze ziehen das Wissen und die Erfahrung von Expert*innen als Maßstab für die Bewertung bei. Dialoggesteuerte Evaluationen nutzen die Anliegen der Beteiligten und der Betroffenen, um die Interventionen zu bewerten.

84

4.4

4  Überblick über ausgewählte Evaluationsansätze

 tärken und Schwächen der Evaluationsansätze S im Vergleich

Die Übersicht in Tab. 4.1 stellt die vorgestellten Evaluationsansätze einander vergleichend gegenüber. Sie hilft dabei zu entscheiden, wann welcher Ansatz gewählt werden soll.

4.5

 earnings aus der Felderfahrung: Selbst- und L Fremdevaluation im Vergleich

In der Beschreibung von Evaluationsprozessen wird oft zwischen Selbst- und Fremdevaluation unterschieden (vgl. Balthasar 2012; Stockmann und Meyer 2010; Wollmann 2000). „Als Selbstevaluationen werden Verfahren bezeichnet, bei denen die praxisgestaltenden Fachleute identisch sind mit den Evaluatoren bzw. Evaluatorinnen. Das heißt, die Akteure überprüfen ihre eigene Tätigkeit. Alle aktiv Mitwirkenden oder zumindest eine Mehrzahl ist gleichzeitig praxisverantwortlich und evaluationsverantwortlich“ (Müller-Kohlenberg und Beywl 2003, S. 65). Bei einer Fremdevaluation liegt die Verantwortung für die Durchführung einer Evaluation dagegen bei Personen, welche nicht in die Umsetzung des zu evaluierenden Projekts eingebunden sind. In diesem Fall verschaffen sich Expert*innen Informationen über den Evaluationsgegenstand und bewerten diesen. Sowohl Selbst- als auch Fremdevaluationen haben Stärken und Schwächen, die gezielt zugunsten einer inhaltsreichen Begutachtung einer öffentlichen Politik genutzt werden können. Folgende Nutzungskriterien für Fremdevaluationen, beziehungsweise für Selbstevaluationen lassen sich festhalten (vgl. Balthasar 2012 insbesondere Landert 1996). Eine Fremdevaluation bietet sich insbesondere dann an, wenn … • Spannungen in der zu evaluierenden Institution bestehen: Wenn interne Konflikte oder Rivalitäten bestehen, welche sich beispielsweise in unterschiedlichen Ansichten über den Erfolg oder den Misserfolg einer Maßnahme ausdrücken, dann kommt praktisch nur eine Fremdevaluation in Frage (Landert 1996, S. 74). • schon verschiedentlich Selbstevaluationen durchgeführt worden sind: In diesen Fällen ist es möglich, dass die offensichtlichen Verbesserungspotenziale bereits ausgeschöpft sind. Eine Fremdevaluation kann dann zu neuen Erkenntnissen führen, weil Evaluierende, die Fremdevaluationen durchführen, oft auf Erfahrungen aus vergleichbaren Kontexten zurückgreifen können.

Experimentelle und quasi-experimentelle Ansätze (Campbell und Stanley 1963)

Stärken Experimente: – Wissenschaftlich zuverlässige Ergebnisse – Verallgemeinerbarkeit der Ergebnisse – Leicht verständlich Quasi-Experimente: – Gut anwendbar (bspw. die Schweiz als „föderalistisches Labor“) – Leicht verständlich Theoriebasierte Evaluation – „Warum“ Ziele (nicht) erreicht (Chen und Rossi 1980) werden, wird deutlich – Nutzung verfügbarer wissenschaftlicher Theorien – Hinweise für Verbesserung bereits aufgrund der Programmtheorie möglich („Theoriefehler“ gegenüber „Programmfehler“) Kontributionsanalyse – Klare Zuordnung der Effekte zu (Mayne 2001) Programmelementen – Sensibilisierung für Frage der Kontribution – Kombination von Ergebnissen aus Literatur und Empirie Sehr breit angewandt, insbesondere in – Gesundheitspolitik – Umweltpolitik – Energiepolitik

Zunehmend angewandt, Beispiele verfügbar aus – Entwicklungszusammenarbeit – Suchtprävention

– Grosser Aufwand und hohe Fachkompetenz notwendig zur Theorieentwicklung – Programmtheorien sind selten wissenschaftlich fundiert – Problem, dass falsche Theorie Evaluation in Irre leitet – Gefahr, Effekte zu identifizieren, wo es keine gibt – Grosser Aufwand zwingt zu Fokussierung – Fehlende Daten zu Alternativhypothesen – Iteration fällt oft aus Zeit- und Ressourcengründen weg

(Fortsetzung)

Anwendungsgebiet Experimente sind selten, wenn dann in – Arbeitsmarktpolitik – Umweltpolitik – Sozialpolitik Quasi-experimentelle Ansätze sind häufiger, z. B. – Bildungspolitik – Energiepolitik

Schwächen Experimente: – Praktische und ethische Bedenken betreffend Anwendbarkeit – Aufwändige Umsetzung (Quasi-)Experimente: – Klare Zielsetzungen als Voraussetzung – „Warum“ Ziele (nicht) erreicht werden, bleibt unklar

Tab. 4.1  Stärken und Schwächen der Evaluationsansätze im Vergleich

4.5  Learnings aus der Felderfahrung: Selbst- und Fremdevaluation im Vergleich 85

Empowerment Evaluation (Fetterman 2001; Fetterman et al. 1996)

Critical friends approach (Balthasar 2011, 2012)

Nutzenorientierte Evaluation (Patton 1997)

Realistische Evaluation (Pawson und Tilley 1997)

Tab. 4.1 (Fortsetzung)

– Hohes Potenzial der Nutzung – Rasche Umsetzung von Ergebnissen – Beteiligte werden zur selbständigen Weiterführung der Evaluation befähigt – Grosse Erfolgschancen betreffend Umsetzung von Ergebnissen – Berücksichtigung unterschiedlicher Werte der Beteiligten – Widerstände werden durch Partizipation abgebaut – Lerneffekte im Prozess der Evaluation

Stärken – Öffnet Augen für alternative Erklärungen – In andere Kontexte übertragbares Wissen wird entwickelt – Hohes Potenzial der Nutzung – Beteiligte lernen Nutzen von Evaluation kennen – Lerneffekte im Prozess der Evaluation

– Kooperationsbereitschaft der Beteiligten oft nicht gegeben – Möglicherweise fehlende kritische Aussensicht – Starke Unterstützung von Benachteiligten durch Evaluierende kann Glaubwürdigkeit schaden – Geringe Akzeptanz der Ergebnisse im politischen Umfeld

Schwächen – Sehr aufwändig – Kaum Hinweise, wie Evaluationen durchgeführt werden sollen – Kooperationsbereitschaft der Beteiligten oft nicht gegeben – Besonders hohe Anforderungen an Evaluierende – Evaluationsprozess anfällig für Einflussnahmen bestimmter Nutzergruppen – Rolle des Evaluierenden nicht immer klar – Beschränkte Akzeptanz der Ergebnisse im politischen Umfeld

Regelmässig angewandt, Beispiele verfügbar aus – Bildungspolitik – Tabakprävention – Entwicklungszusammenarbeit

Regelmässig angewandt, Beispiele verfügbar aus – Familienpolitik – Sozialpolitik

Anwendungsgebiet Selten angewandt, Beispiele verfügbar aus – Verbrechensprävention – Strafvollzug Selten angewandt, Beispiele verfügbar aus – Sportpolitik – Entwicklungszusammenarbeit

86 4  Überblick über ausgewählte Evaluationsansätze

Expertenbasierte Evaluation (Worthen und Sanders 1987)

Zielfreie Evaluation (Scriven 1991)

Zielbasierte Evaluation (Tyler 2000)

Schwächen – Oft sind Ziele nicht klar – „Warum“ Ziele (nicht) erreicht werden, bleibt oft unklar – Programmziele können von gesellschaftlichen Zielen abweichen – Unbeliebt bei – Berücksichtigung nicht Programmmanager*innen, die intendierter Auswirkungen Auskunft über Zielerreichung – Veränderungen der Ziele werden brauchen berücksichtigt – Wirkungen bei Betroffenen stehen – Unbeliebt bei Evaluierenden, weil Ergebnisse sind für im Zentrum Programmmanager*innen wenig nützlich – Hoher Aufwand – Lernprozesse bei Verantwortlichen – Ergebnisse wissenschaftlich wenig nachvollziehbar erhöhen Chancen für – Hohe Abhängigkeit von Verbesserungen Expert*innen – Unabhängige Perspektive der Expert*innen – Kostengünstig – Hohe Akzeptanz bei Evaluierten

Stärken – Einfach umzusetzen – Nachvollziehbare Ergebnisse – Zwingt Programmverantwortliche, Ziele explizit zu machen

(Fortsetzung)

Oft angewandt in – Forschungspolitik – Bildungspolitik

Selten angewandt, Beispiele aus: – Entwicklungspolitik – Bildungspolitik – Suchtprävention

Anwendungsgebiet Oft angewandt, Beispiele verfügbar aus – Verwaltungsreformen – Energie- und Umweltpolitik

4.5  Learnings aus der Felderfahrung: Selbst- und Fremdevaluation im Vergleich 87

Stärken – Aktive Einbindung der Betroffenen – Hohe Akzeptanz der Ergebnisse bei den Beteiligten – Hohe Transparenz von Prozess und Ergebnissen – Evaluation identifiziert keine Verantwortlichen für (Miss-)Erfolg, daher wenig bedrohlich

Schwächen – Geringe Akzeptanz der Ergebnisse im Umfeld – Hohe Anforderung an Bereitschaft zur Mitwirkung für alle Beteiligten – Ob ein Konsens gefunden wird, bleibt offen – Ergebnisse sind kontextabhängig

Quelle: Eigene Überlegungen basierend auf Beywl et al. (2004); Widmer und De Rocchi (2012)

Dialoggesteuerte Evaluation (Guba und Lincoln 1989)

Tab. 4.1 (Fortsetzung) Anwendungsgebiet Selten angewandt, Beispiele aus: – Bildungspolitik – Stadtentwicklung

88 4  Überblick über ausgewählte Evaluationsansätze

4.5  Learnings aus der Felderfahrung: Selbst- und Fremdevaluation im Vergleich

89

• unklare Ergebnisse eigener Bewertungen vorliegen: Wenn die eigene Bewertung nicht zu eindeutigen Ergebnissen kommt, ist oft ein unvoreingenommener Blick von außen gefragt. Adrian Ritz (2003, S.  52) betont, dass externe Evaluator*innen, die keine „Geschichte“ in der betroffenen Organisation haben, weniger Gefahr laufen, die Problemlage einseitig wahrzunehmen („Betriebsblindheit“). • es wichtig ist, dass die Ergebnisse auch von Außenstehenden als zuverlässig wahrgenommen werden: Oft beurteilen übergeordnete Instanzen die Ergebnisse von Selbstevaluationen als voreingenommen und nicht kritisch genug. Einer Fremdevaluation spricht dieser Gruppe von Nutzenden von Evaluationen dagegen eine höhere Legitimation zu. Dies wird damit begründet, dass unerwünschte Evaluationsresultate für jene, die eine Fremdevaluation durchführen, keine direkte Wirkung auf Anstellung und Karriere haben (Ritz 2003, S. 52). Hellmut Wollmann (2003, S.  344) ist diesbezüglich allerdings anderer Meinung. Er weist nämlich darauf hin, dass die intellektuelle Unabhängigkeit und die wissenschaftliche Objektivität insbesondere privatwirtschaftlich tätiger externer Evaluator*innen zum Beispiel dadurch herausgefordert werden, dass sie zur Existenzsicherung auf weitere Mandate angewiesen sind. • heikle Rahmenbedingungen für Erhebungen berücksichtigt werden müssen: Manchmal sind Erhebungen, welche im Zuge von Evaluationen durchgeführt werden, nur zweckmässig durch Dritte durchführbar. So ist beispielsweise nicht zu erwarten, dass Bürger*innen Polizist*innen direkt offen zu deren Kundenorientierung antworten würden. Vielfach ist es aber auch für interne Mitarbeitende leichter, Kritik an Vorgesetzten gegenüber Dritten zu äußern (Landert 1996, S. 75). • Vergleiche mit den Aktivitäten anderer Organisationen wichtig sind: Oft ist es nützlich, die Umsetzung und die Wirkung von Aktivitäten, wie sie an einem Ort durchgeführt wurden, mit ähnlichen Aktivitäten an anderen Orten zu vergleichen (Landert 1996, S. 75). In diesen Fällen können Fremdevaluationen gute Dienste leisten. Fremdevaluator*innen verfügen oft über entsprechende Erfahrungen, welche sie einbringen können, oder sie sind in der Lage, die dazu notwendigen Erhebungen durchzuführen. • hohe methodische oder konzeptionelle Ansprüche an die Evaluierenden gestellt werden: Wer eine Selbstevaluation durchführt, macht dies häufig ergänzend zu seiner hauptsächlichen beruflichen Tätigkeit. Oft ist die Durchführung einer Evaluation aber nur basierend auf spezifischen methodischen oder konzeptionellen Kenntnissen möglich, über welche nur professionelle Evaluierende verfügen. Wenn dem so ist, ist die Durchführung einer Fremdevaluation angezeigt.

90

4  Überblick über ausgewählte Evaluationsansätze

• rasch ein hohes Mass an qualifizierten Arbeitsressourcen bereitgestellt werden muss: Oft müssen Evaluationen in kurzer Frist durchgeführt werden, damit die Ergebnisse rechtzeitig für eine anstehende Entscheidungsfindung zur Verfügung stehen. Institutionen, welche Fremdevaluationen durchführen, verfügen oft über Mitarbeitende mit entsprechenden Qualifikationen, welche in kurzer Zeit aufgeboten werden können. Eine Selbstevaluation bietet sich vor allem dann an, wenn … • eine Aktivität neu ist: Selbstevaluationen sind geeignet, um Lernprozesse bei Verantwortlichen rasch auszulösen. Die Beteiligten können auf großes Insiderwissen zurückgreifen und sie sind in der Lage, Veränderungen rasch zu realisieren. Vor allem wenn eine Aktivität erst vor kurzem gestartet wurde, machen die Beteiligten wichtige Erfahrungen, welche sie in eine Selbstevaluation einfließen lassen können. Solche Erkenntnisse lassen sich in der Regel zeitnah umsetzen. • die finanziellen Ressourcen knapp sind: Reinhard Stockmann und Wolfgang Meyer (2010, S. 80) sprechen den Selbstevaluationen den Vorteil zu, dass sie rasch und mit geringem Aufwand durchgeführt werden können. Dies gilt allerdings oft nur so lange Vollkostenrechnungen in der öffentlichen Verwaltung nicht die Regel sind (Landert 1996, S. 73). • die Gefahr von Angstgefühlen und Abwehrreaktionen bei den Evaluierten besteht: Oft haben Mitarbeitende von öffentlichen Institutionen Angst vor Evaluationen (Stockmann und Meyer 2010, S. 80). Sie befürchten unangemessene Kritik, Budgetkürzungen oder sogar den Verlust ihres Arbeitsplatzes. Diese Vorbehalte erschweren, ja sie verunmöglichen vielleicht sogar eine Fremdevaluation. Auch stehen sie der Umsetzung der Evaluationsergebnisse entgegen. Eine Selbstevaluation ermöglicht es dagegen, diese Probleme durch aktive Beteiligung zu minimieren und die Reflexionskompetenz der Beteiligten zielführend zu nutzen. • die Fähigkeit zur Evaluation in einer Institution nachhaltig verankert werden soll: Den größten Gewinn bringt die Evaluationsfunktion, wenn nicht einmalig eine Untersuchung durchgeführt wird, sondern wenn eine Organisation daran interessiert ist, sich regelmäßig mit ihrer Effektivität und Effizienz auseinanderzusetzen. Wer an einer sorgfältig durchgeführten Selbstevaluation beteiligt ist, kann Kompetenzen erwerben, auf welche sie oder er immer wieder zurückgreifen kann. Letztlich hängt die Tatsache, ob eine Selbst- oder eine Fremdevaluation durchgeführt wird, von den verfügbaren Ressourcen, vom vorhandenen Evaluationswissen und von den Erwartungen der Beteiligten aber auch des Umfelds ab. Möglich ist es auch, die Vorteile der beiden Zugänge zu kombinieren. Diesen Ansatz verfolgt beispielsweise die „Hybrid Evaluation“. Dabei handelt es sich um eine Form extern unterstützter Selbstevaluation (Bitel und Läubli-Loud 2010). Der „Critical Friend

4.6  Illustratives Anwendungsbeispiel einer nutzenorientierten Evaluation

91

Approach“, den wir in Abschn. 4.2 vorgestellt haben, verfolgt eine ähnliche Absicht. Allerdings versteht er sich eher als Fremdevaluation, welche unter anderen auch auf Ergebnisse intern durchgeführter Selbstevaluationen zurückgreift (Balthasar 2011).

4.6

Illustratives Anwendungsbeispiel einer nutzenorientierten Evaluation

Nutzenorientierte Evaluation eines Angebots im Vereins- und Wettkampfsport für Menschen mit und ohne Handicap (Greve und Krieger 2019) Die Handballinitiative „Freiwurf Hamburg“ ist ein Zusammenschluss von acht Handballmannschaften aus fünf Sportvereinen. Besonders an diesen Teams ist, dass Menschen mit und ohne Handicap gemeinsam im Rahmen von Trainings und Meisterschaftsspielen Handball spielen. Die Initiative wurde zwischen 2014 und 2018 wissenschaftlich evaluiert. Die theoretische Grundlage dafür war der Ansatz der nutzenfokussierten Evaluation von Patton (1997). Das Vorgehen der Evaluation orientierte sich an einer Checkliste zur Durchführung nutzungsfokussierter Evaluationen, welche von Wolfgang Beywl (2014) erarbeitet wurde. In der Abb. 4.2 sind die wesentlichen Phasen dieser Evaluation

1. Schleife

Universität

2. Schleife

Forschende

Workshop

Freiwurf

Workshop

Feld

3. Schleife

Evaluierende

Hospitationen/Teilnahmen Monatliche Treffen

Abb. 4.2  Phasen der Evaluation der Handballinitiative Freiwurf Hamburg. (Quelle: Greve und Krieger (2019, S. 243))

92

4  Überblick über ausgewählte Evaluationsansätze

f­estgehalten. Erkennbar sind drei Schleifen des Evaluationsprozesses mit inei­ nander verschlungenen Pfeilen. Dies symbolisiert das zirkuläre Vorgehen der Evaluation. Die Schleifen werden grafisch durch den Evaluationsgegenstand (Freiwurf Hamburg) sowie die Evaluierenden eingerahmt. Diese beiden Stränge sind durch Pfeile miteinander verbunden, die den Austausch zwischen Evaluierenden und Evaluierten verdeutlichen. Während bei monatlichen Treffen (gestrichelte Pfeile) Verantwortliche von Freiwurf Hamburg in die Universität kommen, beobachten die Forscher*innen regelmäßig Trainingseinheiten und Spieltage (gepunktete Pfeile). In der Mitte der Abbildung erkennbar sind zwei Workshops, bei denen sich Evaluierende und Akteur*innen von Freiwurf Hamburg zum Austausch getroffen haben. Der Pfeil auf der rechten Seite deutet an, dass das Evaluationsprojekt noch nicht beendet ist. Der Pfeil auf der linken Seite steht für den Startpunkt der Evaluation. Den Start der Evaluation bildeten Treffen zwischen den Evaluierenden und Vorstandsmitgliedern von Freiwurf Hamburg. Dabei wurde die mögliche Ausgestaltung der Evaluation diskutiert. In dieser Phase wurde entschieden, dass die Evaluation einen direkten Nutzen für die Initiative haben sollte.

4.6.1 Erste Schleife Die erste Schleife des Evaluationsprozesses diente vor allem der Rekonstruktion der Akteursperspektiven. In Gesprächen und Beobachtungen war deutlich geworden, dass verschiedene Komponenten der Praxis bei Freiwurf Hamburg nicht immer mit den Zielen der Initiative in Einklang standen. Um Perspektiven der verschiedenen Akteur*innen beleuchten zu können, entschieden sich die Evaluierenden für weitere Beobachtungen von Trainingseinheiten und Spielen der Liga und für die Durchführung von Interviews (bspw. Akteur*innen mit und ohne Handicap, Trainer*innen, etc.). Als wichtiger Meilenstein im Projekt wurde danach ein Workshop durchgeführt.

4.6.2 Zweite Schleife Nach dem Workshop begannen die Trainer*innen sich intensiv mit den Evaluationsergebnissen auseinanderzusetzen. Die Evaluierenden sammelten in dieser Phase Perspektiven weiterer Akteur*innen, wie Schiedsrichter*innen sowie

4.6  Illustratives Anwendungsbeispiel einer nutzenorientierten Evaluation

93

Mitglieder des Vereinsvorstandes. Zudem wurde von Vereinsverantwortlichen Bedarf angemeldet, die Praxis von Trainings und Spieltagen vertieft zu untersuchen. Es sollten Themenbereiche, wie Leistungsgedanke, Gewinnen und Verlieren, Rolle der Spieler*innen ohne Handicap, Gruppendenken, Haltung zur Inklusion aus der Innensicht der Akteur*innen systematisch im Hinblick auf die Zielsetzungen der Initiative analysiert werden. Dies erforderte eine Erweiterung der methodischen Zugänge, im Wesentlichen durch Videografie und teilnehmende Beobachtung. Am zweiten Workshop wurden die Ergebnisse dieser Untersuchungen vorgestellt. Anschließend fand zwecks Lösung der identifizierten Probleme ein intensiver Austausch zwischen Evaluierenden und Trainer*innen, Vorstandsmitgliedern und Spieler*innen statt.

4.6.3 Dritte Schleife Die dritte Schleife drehte sich vornehmlich um die Frage, wie die Arbeit bei Freiwurf Hamburg konkret verbessert werden kann: Wie lassen sich im Training und im Wettkampf Bedingungen so verändern, dass im Sinne des Ziels eines inklusiven Selbstverständnisses gleichberechtigt und fair zusammengespielt und interagiert wird? Als hilfreich erwiesen sich gemeinsame Fallbesprechungen. Dabei wurden typische Problemsituationen beschrieben oder durch ein Videobeispiel illustriert, über das die Trainer*innen zunächst alleine, dann aber auch gemeinsam mit den Evaluierenden diskutierten. Diese Gespräche dienten sowohl der Bewusstmachung unterschiedlicher Grundüberzeugungen, als auch der Erweiterung der eigenen Perspektiven durch die möglichst offene und breite Auseinandersetzung mit Handlungsalternativen in konkreten Situationen. Die Evaluation konnte aufzeigen, dass die aufgeführten Evaluationsergebnisse direkten Einfluss auf die Praxis von Freiwurf Hamburg hatten. Der Prozess profitierte vom Engagement von Evaluierenden und Mitgliedern des Vereins sowie von der offenen und flexiblen Struktur der Evaluation. Auch zeigte sich, dass sämtliche Prozesse der Datenerhebung und Präsentation sowie die durchgeführten Interventionen auf hohe Akzeptanz bei den Akteur*innen von Freiwurf Hamburg gestossen sind. Allerdings zeigte die Evaluation auch, dass es für ein auf den Nutzen fokussiertes Evalutionsprojekt aufgrund der sich ständig verändernden Bedingungen im Feld und der sich dadurch wandelnden Bedürfnisse der Nutzer*innen nie konkretes Enddatum gibt (Greve und Krieger 2019).

94

4  Überblick über ausgewählte Evaluationsansätze

Bibliographie Ackermann, G. (2018). Evaluation des Nationalen Rauchstopp-Programms über den Zeitraum von Juli 2014–Dezember 2017: Synthese von Projektstatistiken, Evaluationsergebnissen, wissenschaftlichen Studien, internationalen Leitlinien und Expertenmeinungen im Rahmen einer Kontributionsanalyse. Schlussbericht Juli 2018. Im Auftrag der Arbeitsgemeinschaft Tabakprävention. Alkin, M., & Christie, C. A. (2004). An evaluation theory tree. In M. Alkin (Hrsg.), Evaluation roots (Bd. 2, S. 381–392). Thousand Oaks: Sage. Arni, P. (2012). Kausale Evaluation von Pilotprojekten: Die Nutzung von Randomisierung in der Praxis. LeGes – Gesetzgebung & Evaluation, 3, 355–386. Balthasar, A. (2011). Critical friend approach: Policy evaluation between closeness and distance. German Policy Studies, 7(3), 187–231. Balthasar, A. (2012). Fremd-und Selbstevaluation kombinieren: Der „Critical Friend Approach“ als Option. Zeitschrift für Evaluation, 11(2), 173–198. Beywl, W. (1988). Zur Weiterentwicklung der Evaluationsmethodologie: Grundlegung, Konzeption und Anwendung eines Modells der responsiven Evaluation. Frankfurt a. M./Bern/ New York/Paris: Peter Lang. Beywl, W. (2014). Checkliste zur nutzungsfokussierten Evaluation (N-FE). Michael Quinn Patton, Januar 2002, Original übersetzt 2006, Anpassungen 2014. https://www.univation.org/download/01checkliste_nutzungsfokussierteeval.pdf. Zugegriffen am 12.11.2020. Beywl, W., Speer, S., & Kehr, J. (2004). Wirkungsorientierte Evaluation im Rahmen der Armuts- und Reichtumsberichterstattung: Perspektivstudie im Auftrag des Bundesministeriums für Gesundheit und Soziale Sicherung. Köln: Univation – Institut für Evaluation. Bitel, M., & Läubli-Loud, M. (2010). Learning to learn: A „capacity building approach“ integrating evaluative practice & programme intervention. Paper to be presented at the EES conference in Prague. Prag. Campbell, D. T. (1969). Reforms as experiments. American Psychologist, 24(4), 409–429. Campbell, D. T., & Stanley, J. C. (1963). Experimental and quasi-experimental designs for research. Chen, H.-T., & Rossi, P. H. (1980). The multi-goal, theory-driven approach to evaluation: A model for linking basic and applied social science. Social Forces, 59(1), 106–122. Costa, A. L., & Kallick, B. (1993). Through the lens of a critical friend. Educational Leadership, 51(2), 49–51. Eisner, E. W. (1987). Educational connoisseurship and criticism: Their form and functions in educational evaluation. In J. F. Madaus, M. Scriven & D. L. Stufflebeam (Hrsg.), Evaluation models. Beverly Hills: Sage. Fetterman, D. M. (2001). Foundations of empowerment evaluation. Thousand Oaks: Sage. Fetterman, D. M., Kaftarian, S. J., & Wandersman, A. (Hrsg.). (1996). Empowerment evaluation. Knowledge and tools for self-assessment and accountability. Thousand Oaks: Sage. Fitzpatrick, J. L., Sanders, J. R., & Worthen, B. R. (2004). Program evaluation. Alternative approaches and practical guidelines (3. Aufl.). New York: Pearson Education Inc. Giel, S. (2013). Theoriebasierte Evaluation: Konzepte und methodische Umsetzung. Münster/New York/München/Berlin: Waxmann.

Bibliographie

95

Greve, S., & Krieger, C. (2019). Nutzenfokussierte Evaluation eines inklusiven Angebots im Vereins-und Wettkampfsport: Forschungsmethodische Reflexionen. Zeitschrift für Evaluation, 18(2), 239–259. Guba, E. G., & Lincoln, Y. S. (1989). Fourth generation evaluation. Newbury Park: Sage. Knoepfel, P., Varone, F., Bussmann, W., & Mader, L. (1997). Evaluationsgegenstände und Evaluationskriterien. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 78–118). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Landert, C. (1996). Externe und interne Evaluation  – Schnittstellen und Übergänge. In M.  Heiner (Hrsg.), Qualitätsentwicklung durch Evaluation (S. 68–84). Freiburg im Breisgau: Lambertus. Luo, H. (2010). The role for an evaluator: A fundamental issue for evaluation of education and social programs. International Education Studies, 3(2), 42–50. Mayne, J. (2001). Addressing attribution through contribution analysis: Using performance measures sensibly. The Canadian Journal of Program Evaluation, 16(1), 1–24. Müller-Kohlenberg, H., & Beywl, W. (2003). Standards der Selbstevaluation – Begründung und aktueller Diskussionsstand. Zeitschrift für Evaluation, 1, 65–75. Patton, M. Q. (1997). Utilization-focused evaluation: The new century text (3. Aufl.). Thousand Oaks/London/New Delhi: Sage publications. Pawson, R., & Tilley, N. (1997). Realistic evaluation. London: Sage Publications. Rieder, S., Balthasar, A., Haefeli, U., Schlapbach, L., Dolder, O., Iselin, M., Roose, Z., & Thorshaug, K. (2017). Evaluation of the University of Luxembourg, interface policy studies, research, consulting. Luzern: Interface Politikstudien. Ritz, A. (2003). Evaluation von New Public Management – Grundlagen und empirische Ergebnisse der Bewertung von Verwaltungsreformen in der schweizerischen Bundesverwaltung. Bern: Haupt. Roethlisberger, F.  J., & Dickson, W.  J. (1939). Management and the worker. Cambridge: Harvard University Press. Rossi, P. H., Lipsey, M. W., & Freeman, H. E. (1999). Evaluation: A systematic approach. Thousand Oaks: Sage. Sager, F., & Andereggen, C. (2012). Dealing with complex causality in realist synthesis: The promise of qualitative comparative analysis (QCA). American Journal of Evaluation, 33(1), 60–78. Sager, F., & Hinterleitner, M. (2014). Evaluation. In N. C. Bandelow & K. Schubert (Hrsg.), Lehrbuch der Politikfeldanalyse (3., akt. Aufl., S. 437–462). München/Berlin: de Gruyter Oldenbourg. Sager, F., & Mavrot, C. (2021). Participatory vs expert evaluation styles. In M. Howlett & J. Tosun (Hrsg.), Routledge handbook of policy styles. London: Routledge. Schenker-Wicki, A. (1999). Moderne Prüfverfahren für komplexe Probleme: Evaluation und Performance Audits im Vergleich. Springer: Deutscher Universitätsverlag. Schlaufer, C. (2018). The contribution of evaluations to the discourse quality of newspaper content. Evaluation and program planning, 69, 157–165. Scriven, M. S. (1991). Evaluation thesaurus (4. Aufl.). Newbury Park: Sage Publications. Stockmann, R., & Meyer, W. (2010). Evaluationen. Eine Einführung. Opladen/Farmington Hills: Barbara Budrich. Suchman, E. (1967). Evaluative research: Principles and practice in public service and social action programs. New York: Russell Sage Foundation.

96

4  Überblick über ausgewählte Evaluationsansätze

Tyler, R. W. (2000). A rationale for program evaluation. In D. L. Stufflebeam, G. F. Madaus & T. Kellaghan (Hrsg.), Evaluation models. Viewpoints on educational and human service evaluations. Boston: Kluwer Academic Publishers. Weiss, C. H. (1998). Evaluation: Methods for studying programs and policies. Englewood Cliffs: Prentice Hall/Pearson College Division. Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger. Wollmann, H. (2000). Evaluierung und Evaluationsforschung von Verwaltungspolitik und -modernisierung – Zwischen Analysepotential und -defizit. In R. Stockmann (Hrsg.), Evaluationsforschung: Grundlagen und ausgewählte Forschungsfelder (S. 195–230). Opladen: Leske & Budrich. Wollmann, H. (2003). Kontrolle in Politik und Verwaltung: Evaluation, Controlling und Wissensnutzung. In K. Schubert & N. C. Bandelow (Hrsg.), Lehrbuch der Politikfeldanalyse (2. Aufl., S. 335–360). München/Wien: Oldenbourg. Worthen, B. R., & Sanders, J. R. (1987). Educational evaluation: Alternative approaches and practical guidelines. New York: Longman Press.

5

Evaluationsgegenstände und Kriterien

Schlüsselwörter

Evaluationsgegenstände · Evaluationskriterien · Politikkonzept · Umsetzungsorganisation · Outputs · Outcomes

Das vorliegende Kapitel stellt das lineare Modell vor, das der Gruppe der theoriegeleiteten Evaluationen zuzuordnen ist (Abschn. 4.1). Nachdem wir zuerst erneut kurz auf den Daseinsgrund einer öffentlichen Politik – also ein gesellschaftliches Problem (Klöti 1997, S. 40) – eingehen (Abschn. 5.1), führen wir in diesem Ka­ pitel schwerpunktmäßig schrittweise durch die Evaluationsgegenstände und Evaluationskriterien des linearen Modells. Wie in Abb. 5.1 abgebildet, umfassen die Evaluationsgegenstände das Politikkonzept, die Umsetzungsorganisation, die Leistungen, die Outcomes und schließlich den Impact einer öffentlichen Politik. Je nach Evaluationsgegenstand werden wie nachfolgend dargestellt unterschiedliche Evaluationskriterien festgelegt, deren Anwendung im vorliegenden Kapitel vertieft erläutert wird. In Abschn. 5.2 gehen wir somit auf den ersten Evaluationsgegenstand, das Politikkonzept, ein und stellen die drei im linearen Modell definierten Evaluationskriterien empirische Evidenz, Intrapolicy Kohärenz und Interpolicy Kohärenz vor. Abschn. 5.3 befasst sich mit der Umsetzungsorganisation und den dazugehörigen Bewertungskriterien Eignung und Nachhaltigkeit. Der dritte Evaluationsgegenstand, die Leistungen respektive Outputs, werden mit den Kriterien Angemessenheit und Effizienz bewertet, was in Abschn. 5.4 genauer a­ usgeführt wird. Darauf folgt in Abschn.  5.5 die Beschreibung des E ­ valuationsgegenstands © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_5

97

98

5  Evaluationsgegenstände und Kriterien

Gesellschaftliches Problem Empirische Evidenz Intrapolicy-Kohärenz Interpolicy-Kohärenz

Politikkonzept/Input

Eignung für die Umsetzung Nachhaltigkeit

Umsetzungsorganisation

Angemessenheit Leistungsbezogene Effizienz

Leistungen/Output

Wirksamkeit Wirkungsbezogene Effizienz

Outcome (Wirkungen 1: Adressaten)

Wirksamkeit Wirkungsbezogene Effizienz

Impact (Wirkungen 2: Begünstigte)

Abb. 5.1  Lineares Wirkungsmodell der Politikevaluation. (Quelle: Sager und Hinterleitner (2014, S. 444), nach Knoepfel und Bussmann (1997, S. 70) und Sager und Ledermann (2004))

Outcome (also den Wirkungen auf die Adressat*innen) mit den entsprechenden Kriterien Wirksamkeit und Effizienz. Dieselben Kriterien werden auch in Abschn. 5.6 zu den Impacts, also den gesamtgesellschaftlichen Wirkungen einer öffentlichen Politik, wieder aufgenommen. Abschn.  5.7 bietet den Leser*innen eine Anleitung, wie die Wahl der Evaluationsgegenstände erfolgen kann und Abschn.  5.8 erläutert, welche Überlegungen bei der Definition der Evaluationskriterien gemacht werden müssen. Am Schluss des Kapitels in Abschn. 5.9 wird die Anwendung des Evaluationsmodells am Beispiel der Tabakpräventionspolitik in der Schweiz illustriert. Zentral ist bei der Anwendung des linearen Modells der jeweilige Implementierungskontext, der bei der Bewertung der einzelnen Evaluationsgegenstände immer auch Berücksichtigung finden muss. Mit dem Konzept der CMO-Konfigurationen (Context-Mechanism-Outcome) erfassen Pawson und Tilley (1997) das Phänomen, dass

5.2 Politikkonzept

99

dieselbe Maßnahme nicht in jedem Kontext denselben Mechanismus auslöst und folglich nicht immer zur selben Wirkung führt (vgl. Abschn. 4.1.4 und 6.2). Wirkungen auf die Adressat*innen entfalten sich also je nach Kontext unterschiedlich, weshalb eine Evaluation immer auch die Einflussfaktoren außerhalb der betroffenen politischen Maßnahme berücksichtigen muss, um Wirkungsunterschiede erklären zu können. Im Folgenden wird also bei der Einführung in die verschiedenen Evaluationsgegenstände auch immer dem Kontext implizit Rechnung getragen.

5.1

 esellschaftliches Problem als Ursprung und Ziel G öffentlicher Politik

Wie in Abschn.  2.2 dargelegt, entsteht eine öffentliche Politik dort, wo ein gesellschaftliches Problem als solches anerkannt wurde und politische Entscheidungsträger*innen entschlossen haben, dass dieses gelöst werden muss. Das heißt, dass ein gesellschaftliches Problem nicht einfach existiert, sondern dass dessen Anerkennung das Resultat politischer und gesellschaftlicher Debatten ist. Eine oder mehrere Bevölkerungsgruppen müssen also negative Folgen eines gewissen Phänomens spüren und diese negativen Auswirkungen in der Gesellschaft thematisieren. Dies soll dazu führen, dass sie als Problembetroffene wahrgenommen werden und das Problem als lösenswert betrachtet wird (Knoepfel und Bussmann 1997). Erst nachdem sich politische Entscheidungsträger*innen auf das zu lösende Pro­ blem geeinigt haben folgt die öffentliche Politik.

5.2

Politikkonzept

Sobald beschlossen wurde, dass für ein bestimmtes gesellschaftliches Problem eine Lösung gefunden werden muss, beginnt die Ausgestaltung der öffentlichen Politik in Form eines Politikkonzepts (Knoepfel und Bussmann 1997, S. 71). Letzteres hält fest, welche Akteur*innen mit welchen Maßnahmen welche Adressat*innen erreichen sollen, um das Verhalten der letztgenannten so zu verändern, dass das gesellschaftliche Problem gelöst wird und sich die Situation der Endbegünstigten in die gewünschte Richtung verändert (Knoepfel et al. 2006, S. 243–249). Es stellt also, wie in Abschn. 2.2 erwähnt, Hypothesen über die Kausalität zwischen 1) dem Verhalten gewisser Gruppen und dem Entstehen eines gesellschaftlichen Problems (die Kausalhypothese) und 2) der politischen Massnahme und dem vorgenannten Verhalten gewisser Gruppen (die Interventionshypothese) auf (Knoepfel et al. 1997, S. 79–80).

100

5  Evaluationsgegenstände und Kriterien

Eine der zentralen Aufgaben von Evaluationen umfasst die Bewertung dieses Politikkonzepts. Ist die konzeptionelle Grundlage der öffentlichen Politik so ausgestaltet, dass diese bei planmäßiger Umsetzung das gesellschaftliche Problem zu lösen vermag? Um eine transparente und systematische Bewertung der Güte eines Politikkonzepts vornehmen zu können, erfolgt die Analyse im linearen Modell entlang der drei Kriterien 1) empirische Evidenz, 2) Intrapolicy Kohärenz und 3) Interpolicy Kohärenz (Sager und Hinterleitner 2014; vgl. auch Knoepfel et al. 1997, S. 81–83, 91–93).

5.2.1 Empirische Evidenz Wie in Kap. 3 erläutert, hat die Nutzung empirischer Evidenz in der Gestaltung von öffentlicher Politik in den letzten Jahrzehnten stark an Bedeutung gewonnen. Sowohl in der Forschung als auch in der Praxis hat sich das Konzept der „evidence-­ based policy“, also der evidenzbasierten Politikgestaltung, zu einem der zentralen Grundsätze von staatlichen Maßnahmen entwickelt. Dieser Ansatz gewann mit dem um die Jahrtausendwende immer wichtiger werdenden Streben nach effektiver aber auch effizienter öffentlicher Politik an Gewicht (Sanderson 2002) (vgl. Abschn.  3.1.5). Einfach gesagt ist das zugrundeliegende Prinzip der evidenzbasierten Politik, dass Entscheide „auf der Grundlage einer rationalen Bewertung und einer gut informierten Debatte über die Optionen“ getroffen werden sollen, um öffentliche Politik wirksamer zu machen (Head 2008, S.  1). Das heißt, dass die angenommenen Wirkungszusammenhänge – also die Interventionshypothese und die Kausalhypothese – mit Evidenz abgestützt werden, um dadurch die angestrebte Wirksamkeit der Maßnahmen bereits vor deren Implementierung wissenschaftlich fundieren zu können. Diese Evidenz kann einerseits wissenschaftliche Studien (vgl. Abschn. 3.1.5 zu Metaanalysen, narrativen Reviews und realistischen Synthesen) umfassen. Andererseits können auch Praxiserfahrungen aus früheren Umsetzungsphasen herbeigezogen werden. Diese letztgenannten Erkenntnisse sind häufig auch mit Informationen aus Evaluationen angereichert. Insgesamt befasst sich die Bewertung der empirischen Evidenz also mit der Frage, ob ein Politikkonzept auf bereits bestehenden Erkenntnissen beruht und ob diese das erarbeitete Wirkungsmodell einer öffentlichen Politik empirisch belegen können. Die gezielte Nutzung von Evidenz stellt gerade für neue Maßnahmen häufig eine Herausforderung dar, da innovative Interventionshypothesen formuliert werden, die noch nicht empirisch validiert werden konnten. Das heißt, dass das geplante Konzept Maßnahmen zur Herbeiführung einer Verhaltensänderung in der Zielgruppe umfasst, die noch nicht getestet worden sind. In dieser Hinsicht ist ein Transfer von Erkenntnissen aus verschiedenen Politikbereichen zentral, da gewisse Mechanismen zumindest

5.2 Politikkonzept

101

im Grundsatz unabhängig vom spezifischen Politikfeld sein können. Der Grundsatz der evidenzbasierten Politik bedingt und begünstigt in solchen Fällen den Transfer von Ideen aus unterschiedlichen Bereichen öffentlicher Politik. In Kap. 11 zum Thema Unabhängigkeit von Evaluationen werden wir noch vertieft auf die Wechselwirkung zwischen Evaluationen und dem Konzept der evidenzbasierten Politik eingehen. Da Evaluationen häufig als Evidenzgrundlage für öffentliche Politik dienen, ist unabdingbar, dass Evaluationen objektive Evidenz bereitstellen, was im häufig politischen Kontext von Evaluationen nicht selten eine Herausforderung darstellt (Pleger und Hadorn 2018).

5.2.2 Innere Kohärenz (Intrapolicy Kohärenz) Um optimal wirken zu können, müssen die verschiedenen Bestandteile einer öffentlichen Politik kohärent sein. Die Analyse der inneren Kohärenz respektive der Intrapolicy Kohärenz befasst sich daher mit der Frage, ob die verschiedenen Teile eines Politikkonzepts sinnvoll aufeinander abgestimmt und keine Widersprüche vorhanden sind (Howlett und Rayner 2007). Die innere Kohärenz umfasst sowohl die Qualität der Wirkungszusammenhänge innerhalb einer einzelnen Maßnahme, wie auch das Zusammenspiel von verschiedenen Maßnahmen innerhalb desselben Maßnahmenpakets. Die Bewertung der Intrapolicy Kohärenz soll folglich unter anderem die Fragen beantworten, ob innerhalb der einzelnen Maßnahmen geplante Outputs (vgl. Abschn. 5.4) und erwartete Outcomes (vgl. Abschn. 5.5) zusammenpassen, und ob sie auf das Erreichen des übergeordneten Ziels der öffentlichen Politik hinarbeiten. Die Analyse der Qualität der Zielsetzungen – d. h. sind die Ziele genügend ambitioniert, um die übergeordneten Ziele erreichen zu können und sind sie spezifisch sowie messbar – ist ein weiterer wichtiger Schritt bei der Bewertung der Intrapolicy Kohärenz. Zudem erfolgt die Sicherstellung der inneren Kohärenz in policy-mixes, also in Maßnahmenpaketen, durch die Planung von Synergien an gegebenen Schnittstellen zwischen unterschiedlichen Maßnahmen wie auch die Vermeidung von Doppelspurigkeiten. Somit ist in Maßnahmenpaketen auch die Planung angemessener Steuerungsmechanismen Kriterium für eine hohe Intrapolicy Kohärenz. Nicht zuletzt wird bei der Intrapolicy Kohärenz analysiert, ob auch der geplante Ressourceneinsatz im Hinblick auf die angestrebten Leistungen angemessen ist.

5.2.3 Äussere Kohärenz (Interpolicy Kohärenz) Das dritte Kriterium, das im linearen Modell bei der Bewertung eines Politikkonzepts angewandt wird, ist die äußere Kohärenz, auch Interpolicy Kohärenz ge-

102

5  Evaluationsgegenstände und Kriterien

nannt. Mit diesem Kriterium wird die Güte des geplanten Zusammenspiels der evaluierten Politik mit Massnahmen anderer Politikbereiche bewertet. Die Bewertung der äußeren Kohärenz umfasst also eine Analyse des Kontexts, in welchem eine öffentliche Politik umgesetzt werden soll, und analysiert, ob es kritische Schnittstellen oder Widersprüche mit anderen öffentlichen Policies gibt (May et al. 2006). Wie überall in unserem gesellschaftlichen Leben besteht auch im Hinblick auf das Geflecht verschiedenster öffentlicher Politiken eine immer größer werdende Komplexität. Werden neue Regulierungen in einem Bereich des gesellschaftlichen Lebens erlassen, gibt es fast zwangsläufig Schnittstellen mit bereits bestehenden politischen Maßnahmen. Im Rahmen einer Evaluation sind mögliche Friktionen zwischen unterschiedlichen Politikbereichen eine wichtige Messgrösse bei der Bewertung der Güte eines Politikkonzepts. Zusammengefasst wird im Rahmen einer Evaluation nach dem linearen Modell das Konzept auf Basis der drei Kriterien empirische Evidenz, innere Kohärenz (Intrapolicy Kohärenz) und äußere Kohärenz (Interpolicy Kohärenz) bewertet. Ein solides Politikkonzept ist der Grundstein einer wirkungsvollen öffentlichen Politik, kann bei konzeptionellen Schwächen somit aber auch die Basis für Wirkungsdefizite legen. Ist Letzteres der Fall, also ist ein mangelhaftes Konzept der Grund für eine fehlende Wirksamkeit, wird von einem Konzeptversagen oder  policy failure gesprochen (Ledermann und Sager 2009; Linder und Peters 1987). Eine sorgfältige Analyse des Konzepts ist somit wesentlicher Bestandteil einer umfassenden Evaluation.

5.3

Umsetzungsorganisation

Bei der Bewertung der Umsetzungsorganisation befassen sich Evaluator*innen mit der Güte der effektiven Implementierungsstrukturen und -prozesse einer öffentlichen Politik (Knoepfel und Bussmann 1997, S. 72). Während also die Planung von beispielsweise angemessenen Ressourcen eines der Elemente des kohärenten Politikkonzepts darstellt (und im Rahmen der Konzeptanalyse begutachtet wird), wird der effektive Einsatz dieser Ressourcen bei der Analyse der Umsetzungsorganisation bewertet. Die Bewertungskriterien im Hinblick auf die Organisationsstruktur sind die Eignung für die Umsetzung und die Nachhaltigkeit (Sager und Hinterleitner 2014).

5.3.1 Eignung Durch die Anwendung des Kriteriums Eignung für die Umsetzung beleuchtet eine Evaluation die Frage, inwiefern die zuständigen Umsetzungsakteur*innen mit den

5.3 Umsetzungsorganisation

103

vorhandenen Ressourcen, Kompetenzen und der vereinbarten Aufgabenverteilung fähig waren, die geplanten Maßnahmen umzusetzen (Knoepfel et al. 1997, S. 95–98). Folgende Fragen stellen sich beispielsweise: • Sind die vorgesehenen Akteur*innen an der Umsetzung beteiligt? • Stehen für die Umsetzung die vorgesehenen Ressourcen zur Verfügung? • Haben die verantwortlichen Akteur*innen die notwendigen fachlichen und hierarchischen Kompetenzen? • Sind die Verantwortlichen in geeigneter Art und Weise in die betreffende öffentliche Politik eingebettet, um mit ihren Aktivitäten die gewünschten Effekte auszulösen? Die Umsetzungsorganisation einer öffentlichen Politik kann durch verschiedene Elemente an Komplexität gewinnen: Durch die Mehrebenenstruktur in föderalen Systemen (Sager et  al. 2015) sowie durch die in den letzten Jahrzehnten gewachsene Diversität an Vollzugsakteur*innen aus den verschiedenen Politikbereichen und Sektoren. Waren früher vor allem staatliche Akteur*innen die Träger von politischen Maßnahmen, sind heute eine Vielzahl von semi- und nichtstaatlichen Organisationen für die Bereitstellung von öffentlichen Gütern und Dienstleistungen verantwortlich (Isett et  al. 2011). Das bedeutet, dass sich Behörden immer stärker mit nichtstaatlichen Akteur*innen koordinieren müssen, um die Ziele öffentlicher Politik erreichen zu können. Gleichzeitig sind die verschiedenen Policy-Bereiche stark miteinander verlinkt, was eine Zusammenarbeit verschiedener Ämter und Organisationen mit unterschiedlichen Prioritäten bedingt. Die Koordinationsfähigkeit der unterschiedlichen Akteur*innen ist somit ein zen­ traler Gegenstand der Bewertung einer Umsetzungsorganisation. Von großer Wichtigkeit bei der Ausgestaltung der Umsetzungsorganisation ist, dass die Vollzugs-Verantwortlichkeiten und die Vollzugs-Kompetenzen im Gleichgewicht sind und dass alle notwendigen Partner einbezogen werden, damit die Aufgaben überhaupt planmäßig erledigt werden können. Departementsübergreifende und häufig auch sektorübergreifende Kooperationen sind in der Umsetzung vieler politischer Maßnahmen notwendig. Entsprechend bringt eine integrative Umsetzungsorganisation (bspw. mit Arbeitsgruppen und Steuergremien) in vielen Maßnahmen einen großen Mehrwert, da durch die Involvierung verschiedenartiger Interessen eine breitere Abstützung der Maßnahmen gewährleistet, dadurch die Akzeptanz für diese gesteigert und letztlich die Vollzugstreue erhöht wird. Bei der Bewertung der Eignung einer Umsetzungsorganisation wird daher der Ausgestaltung solcher Koordinationsgefäße besondere Bedeutung beigemessen.

104

5  Evaluationsgegenstände und Kriterien

5.3.2 Nachhaltigkeit Bei der Bewertung der Nachhaltigkeit wird evaluiert, ob die vorhandene Umsetzungsorganisation langfristig abgesichert ist. Ist dies nicht der Fall, kann die Umsetzung der öffentlichen Politik durch Kontinuitätsprobleme gefährdet werden. Einerseits wird die Nachhaltigkeit der Strukturen und Partnerschaften analysiert. Berücksichtigt wird dabei beispielsweise, ob Kooperationen institutionalisiert wurden oder ob Partnerschaften auf der Präsenz von Einzelpersonen basieren. Eine Institutionalisierung bedeutet mehr Sicherheit und Stabilität, während der Fokus auf Einzelpersonen die Gefahr birgt, dass mit deren Weggang die Kooperationen als Ganzes wegbrechen. Die Qualität und die Art einer Zusammenarbeit wird also im Hinblick auf deren nachhaltige Verankerung hin überprüft. Andererseits geht es bei der Evaluation der Nachhaltigkeit um die Finanzierung: Sind Finanzierungsquellen befristet und ist somit eine Mittelknappheit absehbar oder sind die finanziellen Ressourcen mittel- oder langfristig gesichert? Diese finanzielle Nachhal­ tigkeit ist stark von der Natur der öffentlichen Politik abhängig: Während Vollzugsaufgaben, die zum Kern der Verwaltungsleistungen gehören, ein längerfristig gesichertes Budget zur Verfügung haben, ist die Höhe der öffentlichen Ausgaben bei Programmstrukturen (bspw. in der Präventionspolitik) volatiler, da die dazugehörigen Budgets in regelmäßigen Intervallen von den politischen Entscheidungsträger*innen abgesegnet werden müssen (vgl. bspw. Ritz et al. 2019). Bei der Evaluation der Umsetzungsorganisation kommen also zwei Kriterien zur Anwendung: Die Eignung für die Umsetzung sowie die Nachhaltigkeit der Strukturen. Während die Eignung vereinfacht gesagt Aufschluss darüber gibt, ob mit der bestehenden Organisationsstruktur die öffentliche Politik planmäßig umgesetzt werden kann, wird mit dem Kriterium der Nachhaltigkeit analysiert, ob dies auch längerfristig der Fall sein wird.

5.4

Output

In einem nächsten Schritt werden in einer Evaluation die im Rahmen der Umsetzung erbrachten Outputs, d. h. die Leistungen, bewertet. Die Leistungen sind jene Produkte oder Dienstleistungen, die die Umsetzungsakteur*innen im Rahmen der Implementierung der öffentlichen Politik produzieren, um schließlich die Verhaltensänderung bei den Zielgruppen (d. h. die Outcomes) herbeizuführen (Knoepfel und Bussmann 1997, S.  72–73; Sager et  al. 2015). Je nach Politikfeld und Maßnahme sind die Outputs von sehr unterschiedlicher Natur. Zudem lassen sich

5.4 Output

105

inhaltliche Leistungen, die die Zielgruppen direkt erreichen, von organisatorischen Leistungen abgrenzen. Diese Differenzierung ist in der Bewertung insofern wichtig, als dass durch die alleinige Umsetzung der organisatorischen Leistungen die Zielgruppen noch nicht erreicht werden können, organisatorische Outputs aber zur effektiven Umsetzung der inhaltlichen Leistungen häufig notwendig sind. Leistungen sind im Gegensatz zu den Outcomes (vgl. Abschn. 5.5) häufig einfacher messbar und entsprechend besser bewertbar. Auch aus diesem Grund wird bei Controlling-Prozessen innerhalb der Verwaltung die Güte des eigenen Handelns häufig auf Basis der Outputs und nicht der Outcomes bewertet. Dies macht insofern Sinn, als dass die Leistung jene Messgröße ist, die direkt durch die Verwaltung gesteuert werden kann. Das heißt, dass Behörden direkt beeinflussen können, wie gut ihre Leistungen sind, während die Effekte auf die Zielgruppen – also die Outcomes – maßgeblich von der Qualität des Politikkonzepts beeinflusst werden. Da Letzteres zu großen Teilen von den politischen Entscheidungsträger*innen beschlossen wird, beeinflusst die Verwaltung die Wirkung zwar durch gute oder weniger gute Leistungen, kann aber Defizite in der Wirkungslogik nur bedingt ausmerzen. Das bedeutet wiederum, dass die Nutzung des Indikators „Leistungen“ im Hinblick auf die Beurteilung des Verwaltungshandelns zwar insofern sinnvoll ist, als dass diese Messgröße wirklich durch die Verwaltung beeinflusst werden kann. Gleichzeitig erlaubt aber eine reine Outputanalyse noch keine Aussagen über die Wirksamkeit der öffentlichen Politik, da Maßnahmen manchmal auch ungewollte Nebeneffekte erzeugen können (van Thiel und Leeuw 2002). Die zwei Kriterien, die nach dem linearen Modell im Rahmen der Evaluation der Outputs bewertet werden, sind die Angemessenheit und die Effizienz (Knoepfel und Bussmann 1997, S. 70; Sager und Hinterleitner 2014).

5.4.1 Angemessenheit Die Bewertung der Angemessenheit der Outputs verfolgt das Ziel, die Qualität der Leistungen zu evaluieren und erfolgt durch die Gegenüberstellung des Geleisteten und des Geplanten. Wurden also die im Politikkonzept festgelegten Maßnahmen wirklich so umgesetzt wie geplant, oder blieb das Geleistete unter den Erwartungen? Ein zentraler Aspekt bei dieser Gegenüberstellung ist, dass die Qualität der Ziele in diese Bewertung einfließt. Konkret heißt das, dass, wie zuvor im Abschn. 5.2 zum Politikkonzept erläutert, Ziele nicht immer optimal definiert werden und mitunter zu wenig ambitioniert oder aber zu ambitioniert sind. Diese Bewertung der Ziele erfolgt in der Konzeptionsanalyse. Sie ist aber für die Evaluation der Outputs von großer Wichtigkeit. Ist ein Ziel zu wenig ambitioniert, können

106

5  Evaluationsgegenstände und Kriterien

Leistungen trotz der Erreichung dieses Ziels als gering bewertet werden, während eine Nichterreichung eines sehr ambitionierten Ziels dennoch zu einer guten Leistung führen kann (Hadorn 2019). Eine rein quantitative Gegenüberstellung von Zielen und geleisteten Outputs genügt daher den Ansprüchen einer aussagekräftigen Evaluation nicht. Diese Erkenntnis zeigt zudem, dass die verschiedenen Evaluationsgegenstände stark zusammenhängen und eine reine Betrachtung eines einzelnen Gegenstands häufig schwierig ist, respektive nicht ohne Weiteres ohne Miteinbezug der anderen Elemente erfolgen kann.

5.4.2 Effizienz Das Kriterium Effizienz der Outputs verknüpft die Leistungen mit den in die Erbringung der öffentlichen Politik investierten finanziellen Ressourcen (vgl. Abschn. 4.3.1). Um die Effizienz der Outputs bewerten zu können, muss zuerst die Angemessenheit der Leistungen analysiert worden sein. Dies, da sich die Effizienz aus der Güte der Leistungen (also der Angemessenheit) und den dafür eingesetzten Mitteln ergibt. Aussagekräftige Erkenntnisse kann die Bewertung der Effizienz nur dann leisten, wenn Effizienzgrade verschiedener Maßnahmen einander gegenübergestellt werden oder wenn Umsetzungsakteur*innen eine Einschätzung dazu geben, ob dieselbe Leistung mit weniger Ressourcen hätte erbracht werden können. Wichtig ist bei der Betrachtung dieses Kriteriums, dass es nicht primär etwas über die Leistungsfähigkeit der Umsetzungsakteur*innen aussagt. Die Effizienz kann beispielsweise gering sein, obwohl die Angemessenheit der Outputs als hoch gewertet wurde. Dies ist der Fall, wenn für die Erbringung dieser als gut bewerteten Leistungen (im Vergleich mit anderen Maßnahmen) viele finanzielle Mittel benötigt wurden. Bei der Interpretation des Kriteriums outputbezogene Effizienz muss diese Limitation berücksichtigt werden. Der Evaluationsgegenstand Outputs wird also im linearen Modell anhand der beiden Kriterien Angemessenheit und Effizienz beurteilt. Die Angemessenheit befasst sich mit der Güte der Leistungen, während die Bewertung der Effizienz Erkenntnisse zum Kosten-Nutzen-Verhältnis der betroffenen Maßnahme bereitstellt.

5.5

Outcome

Eines der Kernelemente einer Evaluation ist die Analyse der Verhaltensänderungen bei den Zielgruppen, die aufgrund der jeweiligen Maßnahmen angestossen wurden (Knoepfel et  al. 1997, S.  73). Im linearen Modell der Politikevaluation werden

5.5 Outcome

107

diese Verhaltensänderungen, d.h. die Wirkungen einer öffentlichen Politik, Out­ comes genannt. Outcomes werden also direkt durch die öffentliche Politik verursacht, wobei die Leistungen der Umsetzungsakteur*innen die dafür notwendigen Impulse liefern. Wie im Kap.  2 dargelegt, kann das Nichteintreten von Outcomes zwei Gründe haben: Entweder wurden die Leistungen nicht wie geplant erbracht, weshalb sich die geplanten kausalen Zusammenhänge nicht wie gewünscht entfalteten. Diese Art des Versagens einer öffentlichen Politik wird auch „Implementation failure“ (Umsetzungsversagen) genannt, da der Grund für das Ausbleiben der Wirkung in der nicht planmäßigen Implementierung liegt (Ledermann und Sager 2009; Linder und Peters 1987). Der zweite mögliche Grund für eine wirkungslose Politik liegt nicht in der gescheiterten Umsetzung, sondern in einem schlechten Politikkonzept. In diesem Fall werden die Leistungen wie im Konzept definiert erbracht, basieren aber auf einem mangelhaften Wirkungsmodell, so dass sich trotz der Erbringung der Outputs keine Verhaltensänderung bei den Zielgruppen einstellt. Die geplanten und umgesetzten Leistungen verursachen also nicht die gewünschte Reaktion bei der Zielgruppe, weshalb die angestrebte Veränderung des Verhaltens ausbleibt. Diese Ursache einer wirkungslosen Politik wird auch „Policy failure“ (auch Theoriefehler oder Konzeptversagen) genannt (Kaufmann et al. 2020; Ledermann und Sager 2009; Linder und Peters 1987). Bei der Evaluation der Outcomes besteht das Ziel somit nicht zuletzt auch darin, dass bei einer Nichterreichung der Wirkungsziele der Grund erörtert wird. Lag es an der Umsetzung, oder bestand das Problem in konzeptionellen Schwächen? Eine für die Evaluationspraxis zentrale Erkenntnis aus der Differenzierung von Implementation failure und Policy failure ist demzufolge, dass eine Wirkungsevaluation die verschiedenen Gründe für ein allfälliges Versagen der betroffenen Politik lokalisieren kann, wenn sowohl das Konzept als auch die Umsetzung analysiert werden. Nach dem linearen Modell werden im Rahmen der Evaluation der Outcomes die beiden Kriterien Wirksamkeit und Effizienz bewertet (Knoepfel und Bussmann 1997, S. 70; Sager und Hinterleitner 2014).

5.5.1 Wirksamkeit Die Bewertung der Wirksamkeit der Outcomes erfolgt durch eine Gegenüberstellung der angestrebten Verhaltensänderung mit der effektiv erreichten Verhaltensänderung bei den Adressat*innen. Dabei muss analog zur Evaluation der Outputs die Güte der Zielsetzung wiederum kritisch in diese Bewertung einfließen, da alleine die quantitative Bewertung der Zielerreichung nur eine geringe Aussagekraft hat. Die Bewertung der Outcomes ist zudem zuweilen nicht ganz einfach, da die Wirkungen einer bestimmten Intervention teilweise schwierig oder nur mit

108

5  Evaluationsgegenstände und Kriterien

enormem Aufwand messbar sind. So sind beispielsweise die Effekte von Öffentlichkeitskampagnen auf die Zielgruppen nur durch breit angelegte Umfragen zuverlässig messbar, was aber häufig den Budgetrahmen von Evaluationen übersteigt. Zugleich wird in solchen Fällen das Verhältnis zwischen den Kosten der eigentlichen Intervention und der späteren Wirkungsüberprüfung schnell unverhältnismäßig. Auch aus diesem Grund werden die Outcomedaten von Maßnahmen häufig einmalig und in einem begrenzten Umfang erhoben (bspw. in zufällig ausgewählten Stichproben), während dann in anderen Umsetzungsgebieten respektive in späteren Umsetzungsphasen von denselben Outcomewerten ausgegangen wird. Beispielsweise werden die Effekte von Schulprojekten auf die Jugendlichen in einem bestimmten Schuldistrikt (bspw. mit einem quasi-experimentellen Evaluationsdesign) evaluiert, und diese Wirkungsdaten dann auch für andere Regionen genutzt. Diese Vorgehensweise ist insofern pragmatisch, als dass eine Erhebung der Wirkung pro Projekt wie zuvor angesprochen teilweise das Budget übersteigen würde. Berücksichtigen wir aber das zuvor genannte Konzept der CMO-­ Konfigurationen von Pawson und Tilley (1997), ergibt sich folgendes Problem: Durch diese Art der Beurteilung wird die Möglichkeit unterschiedlicher Wirkungsgrade nicht berücksichtigt, die aufgrund der voneinander abweichenden Umsetzungskontexte resultieren können. Eine Übertragung der Outcomewerte von einem Umsetzungskontext auf einen anderen ist daher mit einer gewissen Unsicherheit verbunden, gleichzeitig aber häufig aus Ressourcengründen nicht vermeidbar.

5.5.2 Effizienz Bei der Effizienz der Outcomes wird das Kosten-Nutzen-Verhältnis genauer beleuchtet. Die Wirkung auf die Adressat*innen wird dem monetären Input, der zur Erreichung der entsprechenden Verhaltensänderung in der Zielgruppe notwendig war, gegenübergestellt. Eine Maßnahme kann dabei auf der einen Seite wirksam sein, aber auf der anderen Seite eine schlechte outcomebezogene Effizienz aufweisen. Mit der Effizienz des Outcomes begutachten Evaluator*innen somit nicht primär die Problemlösungskapazität einer öffentlichen Politik, sondern bewerten die Ressourcenverwendung (vgl. Abschn. 4.3.1). Wie bereits bei den Outputs bietet das Kriterium der Effizienz nur dann aussagekräftige Erkenntnisse, wenn die out­ comebezogene Effizienz verschiedener Maßnahmen einander gegenübergestellt wird. Insgesamt befasst sich eine Evaluation der Outcomes also mit der Bewertung der Wirksamkeit und der Effizienz. Die Evaluation der Outcomes ist deshalb von zentraler Bedeutung, weil durch diesen Evaluationsgegenstand die erreichte Wir-

5.7  Learnings aus der Felderfahrung: Was kann wann evaluiert werden?

109

kung auf die Zielgruppen gemessen werden kann. Während das Politikkonzept, die Umsetzungsorganisation und die Outputs die Grundsteine für eine erfolgreiche öffentliche Politik legen, kann auf der Outcomeebene der Erfolg in Form von individuellen Verhaltensänderungen tatsächlich gemessen werden.

5.6

Impact

Das letzte Element des linearen Wirkungsmodells umfasst die gesamtheitliche Veränderung, die eine Maßnahme in der Gesellschaft verursacht hat (Knoepfel et al. 1997, S. 73), also den Impact (Sager und Hinterleitner 2014). Hierbei geht es um die Frage, ob die Situation der Endbegünstigten effektiv wie im Politikkonzept geplant verändert werden konnte. Analog zur Bewertung der Outcomes wird der Impact auf Basis der beiden Kriterien Wirksamkeit und Effizienz bewertet. In der Praxis wird aber häufig von der Bewertung der Impacts abgesehen. Ein Grund dafür ist, dass der Einfluss von einzelnen Maßnahmen auf eine gesamtgesellschaftliche Veränderung kaum nachweisbar ist. Gesellschaftliche Trends sind auf eine große Diversität von verschiedenen Einflussfaktoren zurückzuführen, deren ­individuelle Effekte auch im Rahmen von wissenschaftlichen Analysen kaum zuverlässig voneinander zu trennen sind. Eine weitere Problematik bei der Beurteilung des Impacts besteht darin, dass das Nachweisen von Wirkungen auf der Impactebene eines langen Beobachtungszeitraums der betroffenen Maßnahme bedürfen, was in der Praxis aufgrund von ressourcenbedingten Limitationen kaum umsetzbar ist. Die häufig priorisierte Wirkungsebene, die im Rahmen von Evaluationen gewählt und gemessen wird, ist daher die Outcomeebene. Dieser Evaluationsgegenstand ist zuverlässiger messbar und Veränderungen im Verhalten der Politik­ adressat*innen können zudem direkt auf die jeweilige politische Maßnahme zurückgeführt werden.

5.7

 earnings aus der Felderfahrung: Was kann wann L evaluiert werden?

Eine Evaluation nach dem linearen Modell bewertet eine öffentliche Politik nach den zuvor dargelegten fünf Evaluationsgegenständen: Politikkonzept, Organisation, Output, Outcome und Impact. Es können dabei je nach Situation entweder alle fünf oder eine bestimmte Auswahl dieser Elemente evaluiert werden. Die Wahl der zu bewertenden Evaluationsgegenstände wird von verschiedenen Aspekten beeinflusst.

110

5  Evaluationsgegenstände und Kriterien

Erstens hängt die Wahl der Evaluationsgegenstände und -kriterien stark von der Fragestellung und dem entsprechenden Verwendungszweck der erwarteten Erkenntnisse ab (zu Evaluationskriterien, siehe auch Abschn.  9.2.1). Die Fragestellung wiederum ist unter anderem abhängig davon, in welchem Stadium sich die betroffene Policy befindet: Steht die Umsetzung der Maßnahmen noch bevor, kann im Rahmen einer Evaluation die Güte des Politikkonzepts, zum Beispiel entlang der drei Kriterien Empirische Evidenz, Intrapolicy Kohärenz und Interpolicy Kohärenz, bewertet werden. Die Analyse des Konzepts vor dessen Implementierung geht mit dem Vorteil einher, dass konzeptionelle Probleme noch vor der Umsetzungsphase erkannt und möglicherweise eliminiert werden können. Dadurch kann das Risiko eines Policy failures – also eines Versagens der öffentlichen Politik aufgrund von falsch definierten Wirkungszusammenhängen (Linder und Peters 1987) – minimiert werden. Läuft die Umsetzung seit Kurzem, kann beispielsweise die Eignung der Umsetzungsorganisation bewertet werden, damit frühzeitig mögliche organisatorische Probleme behoben werden können, um schließlich die Wirkung zu optimieren. Wurde eine öffentliche Politik hingegen bereits seit Längerem umgesetzt, bietet sich eine Evaluation des Outcomes (alleine oder in Kombination mit anderen Evaluationsgegenständen) an, um die Wirksamkeit der Maßnahme beurteilen zu können. Zweitens hängt die Wahl der zu bewertenden Evaluationsgegenstände mit der Verfügbarkeit der notwendigen Daten zusammen (zur Auswahl der Daten, siehe auch Abschn. 9.1.4). Eine Evaluation der Impacts ist wie zuvor beschrieben häufig nicht realisierbar, da der Zusammenhang zwischen der einzelnen staatlichen Maßnahme und gesamtgesellschaftlichen Entwicklungen kaum nachweisbar ist. Die Evaluation des Impacts wird daher häufig ausgeklammert. Ob aber die Wirksamkeit auf der Outcomeebene beurteilt werden kann, ist stark abhängig von der ­jeweiligen öffentlichen Politik und muss zu Beginn des Evaluationsprozesses beurteilt werden, um eine angemessene Abgrenzung der Fragestellung zu ermöglichen. Drittens haben auch das für die Evaluation zur Verfügung stehende Budget sowie der Zeithorizont einen nicht unwesentlichen Einfluss auf die Wahl der Evaluationsgegenstände. Eine umfassende Evaluation entlang des linearen Modells unter Einbezug aller Evaluationsgegenstände und -kriterien ist ein ressourcenintensives Unterfangen und ist nicht in allen Situationen möglich. Fehlt es beispielsweise am notwendigen Budget oder sind Erkenntnisse schnell erforderlich, muss die Fragestellung entsprechend eingegrenzt werden. Beispielsweise kann die Frage, ob eine öffentliche Politik gewirkt hat oder nicht, auch ohne eine weit-

5.8  „Wie vorgehen?“-Kasten: Wie definiert man Evaluationskriterien?

111

reichende Konzept- und Organisationsanalyse erfolgen. Limitiert wird der Erkenntnisgewinn aber durch den Ausschluss dieser beiden Evaluationsgegenstände dadurch, dass bei Wirkungsdefiziten nicht beurteilt werden kann, ob diese aufgrund eines mangelhaften Konzepts oder mangels einer geeigneten Umsetzungsorganisation entstanden sind. Eine Abwägung der vorhandenen finanziellen und zeitlichen Ressourcen mit dem Erkenntnisinteresse ist zentral für die Auswahl der zu bewertenden Evaluationsgegenstände.

5.8

„ Wie vorgehen?“-Kasten: Wie definiert man Evaluationskriterien?

Folgende Überlegungen müssen der Definition von Evaluationskriterien vorangestellt werden: Sie müssen zuerst den Evaluationsgegenstand eingrenzen. Sollen alle fünf Evaluationsgegenstände (Politikkonzept, Organisation, Output, Outcome und Impact) oder nur einzelne untersucht werden? • In welcher Phase befindet sich die betroffene Policy? Wurde die Maßnahme zwar konzipiert, aber noch nicht umgesetzt, kann eine Evaluation des Konzepts erfolgen. Wurde die Maßnahme bereits umgesetzt, bietet sich eine Wirkungsanalyse inkl. aller Evaluationskriterien an, um bei allfälligen Wirkungsdefiziten zwischen  Konzeptversagen (Policy failure) und  Umsetzungsversagen (Implementation failure) differenzieren zu können. • Überprüfen Sie die Datenlage: welche Evaluationsgegenstände können mit den vorhandenen Daten respektive mit jenen Daten, die im Rahmen der Untersuchung erhoben werden können, angemessen evaluiert werden? Definieren Sie, aufgrund welcher Kriterien die einzelnen Evaluationsgegenstände bewertet werden sollen. • Politikkonzept: Die Analyse eines Politikkonzepts ist insbesondere dann aussagekräftig, wenn alle drei Kriterien des linearen Wirkungsmodells (Empirische Evidenz, Intrapolicy Kohärenz und Interpolicy Kohärenz) berücksichtigt werden. Stellen Sie also sicher, dass diese Kriterien, wenn zeitlich und finanziell möglich, Teil des Untersuchungsdesigns sind.

112

5  Evaluationsgegenstände und Kriterien

• Umsetzungsorganisation: Stellen Sie sich die Frage, ob die Umsetzung beendet ist oder die Maßnahme längerfristig von den Umsetzungsakteur*innen umgesetzt werden soll. Bei einer langfristig angesetzten Umsetzung muss neben der Angemessenheit der Umsetzungsorganisation auch die Nachhaltigkeit bewertet werden. • Output und Outcome: Soll die Bewertung der Outputs und Outcomes Aufschluss über die Problemlösungskapazität der betroffenen Policy und/oder über die Qualität der Ressourcenverwendung geben? Das Kriterium Angemessenheit gibt Ihnen Aufschluss über die Problemlösungskapazität der Maßnahme, während das Kriterium Effizienz eine Bewertung der Ressourcenverwendung ­ermöglicht. Stellen Sie sicher, dass Sie möglichst viele Informationen über den Kontext der betroffenen Politik haben. Nur so können Sie wirkungsrelevante Einflussfaktoren identifizieren und eine ganzheitliche Bewertung erarbeiten.

5.9

Illustratives Anwendungsbeispiel: Tabakpräventionspolitik in der Schweiz

Die Evaluation der Tabakprävention in der Schweiz und insbesondere der dazugehörigen Programme auf der kantonalen Ebene ist ein gutes Beispiel für die Anwendung des linearen Modells (Sager et al. 2020). Im nachfolgenden gehen wir die einzelnen Evaluationsgegenstände unter Anwendung des Beispiels durch. Grundlage für die nachfolgende Erläuterung sind die Evaluationen von 14 kantonalen Tabakpräventionsprogrammen und einem interkantonalen Vergleich, die in den Jahren 2012 bis 2020 im Auftrag des Tabakpräventionsfonds (TPF) vom Kompetenzzentrum für Public Management der Universität Bern in Zusammenarbeit mit dem Politikberatungsbüro Interface Politikstudien Forschung Beratung umgesetzt wurden (vgl. bspw. Sager et al. 2020).

5.9.1 Gesellschaftliches Problem Der Tabakkonsum ist beispielhaft dafür, dass ein gesellschaftliches Problem nicht einfach existiert, sondern dass die Anerkennung eines Problems das Resultat langjähriger gesellschaftlicher und politischer Debatten sein kann. So herrschte in der

5.9  Illustratives Anwendungsbeispiel: Tabakpräventionspolitik in der Schweiz

113

Gesellschaft lange der weit verbreitete Glaube, dass der Konsum von Tabak und insbesondere das Rauchen von Zigaretten zu keinen oder vernachlässigbaren gesundheitlichen Schäden führen. Maßgeblich dafür verantwortlich war nicht zuletzt die große Meinungsbildungs-Maschinerie der Tabakindustrie, die dem Tabakkonsum das Image von Freiheit und Selbstbestimmtheit verschaffte (Palazzo und Richter 2005). Auch auf der wissenschaftlichen Ebene gelang es der Tabakindustrie bis rund um die Jahrtausendwende, die Evidenz diffus zu halten. So ist heute klar, dass beispielsweise Wissenschaftler*innen zu den Zwecken der Industrie eingesetzt wurden und folglich manipulierte Studien publiziert haben. In diesen Studien wurde das Gesundheitsrisiko des Rauchens drastisch unterschätzt respektive sogar gänzlich dementiert, was sich schließlich auf die Meinung in der Gesellschaft und auch in der Politik auswirkte. Obwohl seriöse Studien bereits seit dem Jahr 1939 auf die Schädlichkeit von Tabak aufmerksam gemacht hatten (Palazzo und Richter 2005), wurde der Tabakkonsum somit erst viel später als gesellschaftliches Problem definiert und entsprechende Lösungen gesucht. Auch heute gehen die Meinungen in der Politik noch weit auseinander: Der Verweis auf Selbstverantwortung (= wenig Regulierung) trifft auf den Ruf nach staatlichem Schutz des Einzelnen (= stärkere Regulierung) und wirtschaftliche Interessen zugunsten der Industrie (= wenig Regulierung) konkurrieren mit der Notwendigkeit von Maßnahmen zur Förderung der Gesundheit in der Bevölkerung (= stärkere Regulierung) (Wenger et  al. 2014). Daraus resultiert zum Beispiel in der föderalistisch aufgebauten Schweiz eine Diversität von unterschiedlichen Maßnahmen auf der kantonalen Ebene (wo die Gesetzgebungskompetenz für viele tabakrelevante Aspekte liegt) abhängig von den jeweiligen politischen Konfigurationen. Die Tabakpolitik ist zusammengefasst ein Musterbeispiel dafür, dass die Anerkennung und Definition eines gesellschaftlichen Problems abhängig von Meinungsbildungsprozessen in der Gesellschaft und politischen Machtverhältnissen ist.

5.9.2 Politikkonzept Der Ausgangspunkt bei der Gestaltung eines Politikkonzepts ist die zuvor angesprochene Definition des zu lösenden Problems. Dabei spielt die Eingrenzung des betroffenen Problems eine zentrale Rolle. Ist zum Beispiel die Gefährdung durch Passivrauch im öffentlichen Raum das Problem, das gelöst werden soll? Oder wird primär der Tabakkonsum bei Jugendlichen als lösenswertes Problem definiert? Umfasst in diesem Falle die Gruppe „Jugendliche“ Personen bis 16 Jahre oder alle bis zur Volljährigkeit? Diese spezifische Problemdefinition ist deshalb

114

5  Evaluationsgegenstände und Kriterien

zentral, weil sich folglich die konkrete Ausgestaltung des Konzepts daran orientiert. Je nach Abgrenzung und Definition des Problems werden im Politikkonzept andere strategische und operative Ziele gesetzt, die mit unterschiedlichen Maßnahmen erreicht werden sollen. Die Passivrauchbelastung kann beispielsweise durch Rauchverbote in Restaurants vermindert werden, während der Jugendschutz durch die Einführung eines Mindestalters für den Erwerb von Tabakwaren gestärkt werden kann. Bei der Evaluation des Politikkonzepts geht es also nicht zuletzt darum zu prüfen, ob die geplanten Leistungen kohärent auf die strategischen Ziele abgestimmt sind, das heißt, ob eine gute Intrapolicy Kohärenz (Innere Kohärenz) besteht. Da die Tabakpräventionspolitik aber in einem Geflecht von verschiedensten anderen politischen Massnahmen agiert, begutachtete eine entsprechende Evaluation auch das Zusammenspiel mit anderen Politikbereichen, d.h. die Interpolicy Kohärenz (äußere Kohärenz). In der Schweiz besteht hier ein klassisches Beispiel einer Inkohärenz: Durch Steuern auf Tabakprodukten, Rauchverboten im öffentlichen Raum und vielen weiteren Präventionsmaßnahmen zielt die Tabakpräventionspolitik insgesamt auf die Verminderung des Tabakkonsums in der Schweizer Bevölkerung ab. Dieses Maßnahmenpaket hat somit zwangsläufig auch zum Ziel, den Absatz von Tabakproduzenten zu reduzieren, da dies eine logische Konsequenz eines geringeren Konsums darstellt. Gleichzeitig subventioniert der Schweizer Staat im Rahmen der Wirtschaftsförderung den Anbau von Tabak. Produzenten können also einfach gesagt mit staatlicher Hilfe den Markt mit Tabak beliefern, was wiederum einen Einfluss auf die Preise und schließlich den Konsum in der Bevölkerung hat. Die Ziele der Tabakprävention und der Wirtschaftsförderung sind in diesem Bereich also widersprüchlich und vermindern gegenseitig die Effektivität der jeweils anderen Maßnahme. Diese Inkohärenz wird politisch in Kauf genommen, um die Bedürfnisse verschiedener politischer Klientele befriedigen zu können, macht aber aus Sicht einer effizienten, kohärenten und wirksamen öffentlichen Politik wenig Sinn. Schließlich wird das Politikkonzept im Rahmen einer Evaluation nach dem linearen Modell auf die Güte der empirischen Evidenz hin geprüft. Unter anderem existiert eine große Diversität an wissenschaftlichen Studien, die die Wirkung von Rauchverboten im öffentlichen Raum untersucht haben. Der Staat kann also beispielsweise bei der Wahl und Ausgestaltung von Regulierungen nationale wie auch internationale Erkenntnisse als Grundlage für seine Entscheidungen nehmen. Eine Evaluation prüft dementsprechend, ob die vorhandene empirische Evidenz als Grundlage für die Ausgestaltung der öffentlichen Politik und insbesondere der geplanten Wirkungsmodelle genutzt wurde.

5.9  Illustratives Anwendungsbeispiel: Tabakpräventionspolitik in der Schweiz

115

5.9.3 Umsetzungsorganisation Als nächster Evaluationsgegenstand folgt die Umsetzungsorganisation, welche auf Basis der Kriterien Eignung und Nachhaltigkeit geprüft wird. Nehmen wir wiederum die Umsetzung des Passivrauchschutzes in der Gastronomie als Beispiel. Naturgemäß sind in der Schweiz aufgrund der gesundheitspolitischen Dimension dieser Gesetzgebung die Gesundheitsämter in vielen Kantonen verantwortlich für die Gewährleistung der gesetzeskonformen Einhaltung dieser Regulierung. Gleichzeitig obliegt aber die Kompetenz für die Kontrollen vor Ort in Restaurants oder Bars den jeweiligen kantonalen Lebensmittelinspektoraten, die häufig nicht derselben Direktion zugeordnet sind wie das Gesundheitsamt. Um die notwendigen Betriebskontrollen gewährleisten und die Überprüfung der Einhaltung der Passivrauchschutznormen erbringen zu können, bedarf also das für die Umsetzung verantwortliche Gesundheitsamt der Kooperation des mit den entsprechenden Kompetenzen ausgestatteten Lebensmittelinspektorats. Sind Letztere nicht gewillt zu kooperieren, kann die für den Vollzug verantwortliche Behörde – das Gesundheitsamt – ihren Auftrag nicht erfüllen. Bei der Evaluation der Eignung der Organisationsstruktur ist somit in diesem Beispiel die Frage zentral, ob und wie die interdepar­ tementale Zusammenarbeit funktioniert. Die Bewertung der Nachhaltigkeit beleuchtet im Falle des Vollzugs des Passivrauchschutzes, ob die gegebenen finanziellen und personellen Ressourcen sowie die Kooperationen längerfristig abgesichert sind oder nicht.

5.9.4 Output Bei der darauffolgenden Bewertung der Outputs wird die Angemessenheit und Effizienz des Geleisteten beleuchtet. Am Beispiel der Tabakpräventionspolitik lassen sich bereits eine Vielzahl von unterschiedlichen Outputs aufzeigen: Kontrollen von Restaurants oder Bars hinsichtlich der Einhaltung des Passivrauchschutzes, Testkäufe bei Verkaufsstellen von Tabakwaren zur Kontrolle der Einhaltung des Mindestabgabealters, Informationsevents an Schulen oder im Setting Sport, Rauchstoppkurse oder Einzelberatungen oder Öffentlichkeitskampagnen zur Sensibilisierung hinsichtlich der Schädlichkeit von Tabakwaren. Auch Koordina­v­ tionssitzungen zur Abgleichung der Aufgabenbereiche verschiedene Umsetzungsakteur*innen sowie regelmässige Arbeitsgruppentreffen zwecks strategischer Ausrichtung bestimmter Massnahmen gehören zu den Outputs. Einerseits wird mit dem Kriterium Angemessenheit also evaluiert, ob das Geleistete dem Geplanten

116

5  Evaluationsgegenstände und Kriterien

entspricht (d. h., wurden bspw. die geplanten Passivrauchschutzkontrollen in Restaurants umgesetzt? Haben die vorgesehenen Koordinationssitzungen stattgefunden?). Andererseits dient das Kriterium Effizienz dazu, die Güte des Verhältnisses zwischen Ressourceneinsatz und erbrachten Leistungen zu bewerten (d. h., sind bspw. die durchschnittlichen Kosten pro durchgeführter Passivrauchschutzkontrolle angemessen? Wie ist das Kostenverhältnis im Vergleich mit dem Kostenverhältnis von Testkäufen?).

5.9.5 Outcome Nach der Bewertung des Outputs folgt die Evaluation der durch das Geleistete erzielten Wirkungen auf die Politikadressat*innen, also der Outcomes. Beispiele von solchen Verhaltensänderungen sind im Bereich der Tabakprävention die Reduktion oder die gänzliche Einstellung des Rauchens oder die Verschiebung des Rauchens von geschlossenen Räumen ins Freie (bspw. zur Reduktion der Passivrauchexposition von Mitarbeitenden oder Gästen in Restaurants). Verschiedene Fragen müssen bei der Bewertung der Wirksamkeit gestellt werden: Hat sich die gewünschte Verhaltensänderung eingestellt, also haben beispielsweise Raucher*innen das Verbot respektiert und nicht mehr in Gastronomiebetrieben geraucht? Gab es Wirksamkeitsunterschiede in verschiedenen Regionen, die beispielsweise durch einen unterschiedlichen Kontext entstanden sind? Sind die Outcomes nachhaltig, also wird das Passivrauchschutzgesetz auch einige Jahre nach dessen Inkrafttreten noch respektiert? Die Beurteilung der Outcomes anhand des zweiten Kriteriums, der Effizienz, führt zu Erkenntnissen hinsichtlich des Verhältnisses zwischen Ressourceneinsatz und erzielten Wirkungen. Aussagekräftig ist dieses Kriterium vor allem im Vergleich: Wie gut ist die outcomebezogene Effizienz des Passivrauchschutzgesetzes im Vergleich mit dem Jugendschutz (Mindestabgabealter)? Mit welcher Maßnahme kann mit weniger Mitteleinsatz mehr Wirkung erzielt werden? Während also die Bewertung der Wirksamkeit der Outcomes eine Einschätzung der Problemlösungskapazität einer Maßnahme bietet, dient das Kriterium der Effizienz wie zuvor erläutert der Beurteilung der benötigten Ressourcen.

5.9.6 Impact Als letzter Evaluationsgegenstand wird gemäß dem linearen Modell der Impact bewertet, wobei hier, wie zuvor diskutiert, die Problematik der Zurückführbarkeit einer gesellschaftlichen Wirkung auf einzelne Maßnahmen besteht. Um wieder

Bibliographie

117

zum Beispiel der Tabakprävention zurückzukommen, bedeutet dies, dass bei einer Evaluation des Impacts beispielsweise der Einfluss der Tabakpräventionsmaßnahmen auf die Prävalenz des Rauchens in der Gesellschaft oder die tabakbedingte Sterblichkeit beurteilt werden müsste. In der Praxis stellt sich hier aber eine kaum überwindbare Problematik: Die Veränderung der Prävalenzwerte hängt nicht nur von Tabakpräventionsmaßnahmen ab, sondern ist auf ein komplexes Gefüge von unterschiedlichen Faktoren zurückzuführen. Liegt Rauchen zum Beispiel bei Jugendlichen weniger oder verstärkt im Trend? Gibt es neue Produkte, die zu einer Verschiebung des Konsums und zu einer Reduktion oder Erhöhung des Konsums klassischer Zigarette führen? Die kaum umsetzbare Messbarkeit der Impacts stellt Behörden und Politiker*innen vor die Schwierigkeit, dass der gesamtgesellschaftliche Nutzen einer öffentlichen Politik häufig schwer beziffert werden kann. Am Beispiel der (Tabak-)Prävention lässt sich das wiederum eingängig illustrieren: Geht beispielsweise die durch kardiovaskuläre Erkrankungen verursachte Sterblichkeit in der Bevölkerung zurück, kann dies einerseits durch Verhaltensänderungen in der Bevölkerung geschehen. Eine Reduktion des Rauchens, des Alkoholkonsums, vermehrte Bewegung oder gesündere Ernährung, welche durch Präventions- und Gesundheitsförderungsmassnahmen verursacht werden, haben einen Einfluss auf die Sterblichkeit. Andererseits trägt unbestreitbar der medizinische Fortschritt durch bessere Therapien zur reduzierten Sterblichkeit bei. Wie hoch ist also der Anteil der Präventions- und Gesundheitsförderungsmaßnahmen an diesem Impact? Hat sich der Einsatz der Gelder in die Public Health Maßnahmen gelohnt? Diese Herausforderung zeigt, dass im Rahmen einer Evaluation die gezielte Messung der Outcomes – also der direkt durch die Massnahmen verursachten Wirkungen – zentral ist, um Argumente zur objektiven Bewertung des Nutzens der betroffenen öffentlichen Politik zu generieren.

Bibliographie Hadorn, S. (2019). How collaborative networks perform in policy delivery: Interlinking network managers’ organizational context and network management. Bern: Universität Bern. Head, B.  W. (2008). Three lenses of evidence-based policy. Australian Journal of Public Administration, 67(1), 1–11. Howlett, M., & Rayner, J. (2007). Design principles for policy mixes: Cohesion and coherence in „new governance arrangements“. Policy and Society, 26(4), 1–18. Isett, K. R., Mergel, I. A., LeRoux, K., Mischen, P. A., & Rethemeyer, R. K. (2011). Networks in public administration scholarship: Understanding where we are and where we need to go. Journal of Public Administration Research and Theory, 21(suppl_1), i157–i173.

118

5  Evaluationsgegenstände und Kriterien

Kaufmann, D., Kuenzler, J., & Sager, F. (2020). How (not) to design and implement a large-scale, interdisciplinary research infrastructure. Science and Public Policy 47(6), 818–828. Klöti, U. (1997). Inhaltliche und Methodische Anforderungen an wissenschaftliche Politikevaluationen. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 39–57). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., & Bussmann, W. (1997). Die öffentliche Politik als Evaluationsobjekt. In W.  Bussmann, U.  Klöti & P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 58–77). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., Varone, F., Bussmann, W., & Mader, L. (1997). Evaluationsgegenstände und Evaluationskriterien. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 78–118). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., Larrue, C., & Varone, F. (2006). Analyse et pilotage des politiques publiques (2ème. Aufl.). Chur/Zürich: Rüegger. Ledermann, S., & Sager, F. (2009). Problem erkannt, aber nicht gebannt. Der Nutzen einer Verknüpfung von Konzept- und Umsetzungsevaluation am Beispiel der Strategie „Mi­ gration und Gesundheit“. Zeitschrift für Evaluation, 8(1), 7–25. Linder, S. H., & Peters, B. G. (1987). A design perspective on policy implementation: The fallacies of misplaced prescription. Policy Studies Review, 6(3), 459–475. May, P.  J., Sapotichne, J., & Workman, S. (2006). Policy coherence and policy domains. Policy Studies Journal, 34(3), 381–403. Palazzo, G., & Richter, U. (2005). CSR business as usual? The case of the tobacco industry. Journal of Business Ethics, 61(4), 387–401. Pawson, R., & Tilley, N. (1997). Realistic evaluation. London: Sage Publications. Pleger, L., & Hadorn, S. (2018). The big bad wolf’s view: The evaluation clients’ perspectives on independence of evaluations. Evaluation, 24(4), 456–474. Ritz, M., Neumann, O., & Sager, F. (2019). Senkt New Public Management die Verwaltungsausgaben in den Schweizer Kantonen? Eine empirische Analyse über zwei Dekaden. Swiss Political Science Review, 25(3), 226–252. Sager, F., & Ledermann, S. (2004). Evaluation der Strategie „Migration und Gesundheit 2002–2006“. Detailkonzept. Bern. Sager, F., & Hinterleitner, M. (2014). Evaluation. In N. C. Bandelow & K. Schubert (Hrsg.), Lehrbuch der Politikfeldanalyse (3., akt. Aufl., S. 437–462). München/Berlin: de Gruyter Oldenbourg. Sager, F., Mavrot, C., & Hadorn, S. (2015). Addressing multilevel program complexity by evaluation design. European Policy Analysis, 1(2), 90–110. Sager, F., Mavrot, C., Hadorn, S., & Hildbrand, L.  V. (2020). Kantonsübergreifender Evaluationsbericht kantonaler Tabakpräventionsprogramme-Definitiv. Bericht im Auftrag des Tabakpräventionsfonds, Bundesamt für Gesundheit (BAG). Sanderson, I. (2002). Evaluation, policy learning and evidence-based policy making. Public Administration, 80(1), 1–22. van Thiel, S., & Leeuw, F. L. (2002). The performance paradox in the public sector. Public Performance & Management Review, 25(3), 267–281. Wenger, J., Surber, M., Lanzi, N., Gantenbein, F., Kübler, D., & Widmer, T. (2014). Politikfeldanalyse Sucht: Advocacy-Koalitionen in der Schweizer Alkohol-, Tabak- und Drogenpolitik. Zürcher Politik- & Evaluationsstudien, 12, 1–124.

6

Die Modellierung von Wirkung

Schlüsselwörter

Lineares (Stufen-)Modell · Wirkungszusammenhänge · Positivismus · Konstruktivismus · Multi-Level-Kontext

Kausale Fragestellungen sind der Kern von Politikevaluation. Öffentliche Politik zielt auf die Veränderung von gesellschaftlichen Zuständen ab. Wie in Kap. 5 dargelegt, unterscheiden wir zwei Wirkungsstufen bei diesen Veränderungen, nämlich Outcome und Impact. Beides sind Wirkungen von öffentlicher Politik, das heißt, sie werden nicht unmittelbar im Rahmen der Umsetzung der öffentlichen Politik produziert, sondern sind die Folge der Leistungen der öffentlichen Politik. Der Begriff Wirkung impliziert einen Kausalzusammenhang zwischen zwei Variablen. Während Kap. 5 die beiden Evaluationsgegenstände erläutert und die Kriterien zu ihrer Bewertung bereitgestellt hat, geht es deshalb im Folgenden darum, die beiden Größen als Wirkungen zu konzipieren und sie in einen kausalen Zusammenhang zu ihren Ursachen zu bringen. Als Ursache von Outcome und Impact vermuten wir im Einklang mit dem Kausalmodell öffentlicher Politik zunächst einmal die Leistungen der öffentlichen Politik (vgl. Kap. 2). Der Fokus auf die öffentliche Politik ist nicht notwendigerweise empirisch korrekt, sondern ergibt sich aus der Aufgabe der Politikevaluation, die öffentliche Politik zu bewerten. Da die öffentliche Politik Wirkungen erzielen will, ist die kausale Analyse der beste Weg, um eine öffentliche Politik korrekt zu bewerten.

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_6

119

120

6  Die Modellierung von Wirkung

Kausalität lässt sich nicht direkt empirisch beobachten. Für die Feststellung von Wirkungen benötigt die Evaluation Wirkungsmodelle, die als analytisches Raster für die empirische Arbeit dienen. Abschn.  6.1 stellt das dominante Modell der Politikevaluation vor, das sogenannte lineare Modell, das die einzelnen Evaluationsgegenstände in eine chronologische Abfolge reiht und sich stark am Policy Cycle orientiert (Knoepfel und Bussmann 1997, S. 69–70) (vgl. Kap. 1 und 2 und insbesondere Kap. 5). Abschn. 6.2 präsentiert eine alternative Herangehensweise, indem Wirkung nicht eine Konsequenz einer Vorstufe wie zum Beispiel Output ist, sondern vielmehr eine Eigenschaft des Zusammenwirkens mehrerer gleichzeitig auftretender Faktoren. Diese kontextsensitive Modellierung von Wirkung findet sich vor allem im Ansatz der Realistic Evaluation von Ray Pawson und Nick Tilley (1997). Die Realität hält sich selbstverständlich nicht an Modelle und entsprechend stellen uns realpolitische Wirkungsmodelle vor besondere Herausforderungen, die wir in Abschn.  6.3 am Beispiel der Modellierung von Wirkungsketten über mehrere föderale Ebenen hinweg illustrieren. Abschn.  6.4 wendet die Erkenntnisse über Wirkungsmodelle für die Formulierung von Evaluationsaufträgen an. Abschn. 6.5 fasst die Kernelemente der Entwicklung eines Wirkungsmodells stichwortartig zusammen und Abschn.  6.6 illustriert sie am Beispiel der Deutschen Asylpolitik.

6.1

Das lineare Modell

Das klassische Wirkungsmodell der Politikevaluation ist das sogenannte lineare Modell, das auf verschiedene Autor*innen zurückgeführt werden kann. Es fand vor allem mit dem Lehrbuch von Carol Weiss (1974) große Verbreitung. Die stilisierte Abfolge der einzelnen Evaluationsgegenstände aus Kap.  5 entlang dem Policy Cycle ist intuitiv nachvollziehbar und entspricht unserer Alltagsheuristik von wirksamer öffentlicher Politik. Abb. 6.1 ergänzt Abb. 5.1 aus Kap. 5 und stellt das lineare Modell mit möglichen Wirkungszusammenhängen in vereinfachter Form dar. Die Pfeile in Abb.  6.1 stehen für mögliche Kausalzusammenhänge zwischen den einzelnen Evaluationsgegenständen. Die daraus abgeleiteten Arbeitshypothesen beziehen sich dabei vordringlich auf die naheliegenden Kausalzusammenhänge der chronologisch aufeinander folgenden Evaluationsgegenstände. Die ­lineare Evaluation hypothetisiert also zunächst einmal, dass das Politikkonzept die Umsetzungsorganisation prägt; dass die Umsetzungsorganisation die Leistungen der öffentlichen Politik bzw. die Outputperformanz determiniert; dass die erbrachten Leistungen die angestrebten Verhaltensveränderungen der Politika­ dressat*innen, also das Outcome, bewirken; und dass die Verhaltensveränderungen

6.1  Das lineare Modell Abb. 6.1  Das lineare Modell der Politikevaluation. (Quelle: Ledermann et al. (2006), nach Knoepfel und Bussmann (1997, S. 70))

121 Gesellschaftliches Problem

Politikkonzept/Input

Umsetzungsorganisation

Leistungen/Output

Outcome (Wirkungen 1: Adressaten)

Impact (Wirkungen 2: Begünstigte)

der Politikadressat*innen den angestrebten Problemlösungsbeitrag der öffentlichen Politik, also den Impact, zur Folge haben (vgl. Knoepfel et  al. 1997). Die chronologische Darstellung des linearen Modells ist eine vereinfachte Ty­ pologisierung. In der Realität gibt es viele Interaktionen zwischen den ­unterschiedlichen Phasen, die die Analyse der Wirkungszusammenhänge komplex machen. Für eine vertiefte Diskussion der Kritiken am chronologischen Modell des Policy Cycles, siehe Werner Jann und Kai Wegrich (2007, S. 43–45). Zusätzlich sind im vorgestellten Modell in Abb. 6.1 drei Punkte hervorzuheben: (1) Das gesellschaftliche Problem, das die öffentliche Politik lösen will, ist zwar kein Evaluationsgegenstand, wie in Kap. 5 ausgeführt wurde. Die Evaluation nimmt keine Bewertung des gesellschaftlichen Problems vor. Das gesellschaftliche Problem ist hingegen ein wichtiger Erklärungsfaktor des gewählten Konzepts der öffentlichen Politik, die dieses Problem lösen will. Während die Bewertung der einzelnen Evaluationsgegenstände damit ohne das der öffentlichen

122

6  Die Modellierung von Wirkung

Politik zugrunde liegende gesellschaftliche Problem auskommt, ist die Kausalanalyse auf die Erfassung des gesellschaftlichen Problems als Erklärungsfaktor für den Evaluationsgegenstand „Politikkonzept“ angewiesen. Insbe­ sondere die politische Problemdefinition spielt eine zentrale Rolle für das gewählte Programmkonzept der Intervention. (2) Neben den Kausalzusammenhängen zwischen den unmittelbar aufeinander folgenden Evaluationsgegenständen lässt das lineare Modell aber auch Hypothesen zu sinnvollen Wirkungszusammenhängen über mehrere Stufen der öffentlichen Politik hinweg zu. Sinnvoll sind insbesondere Hypothesen zur Bedeutung des Politikkonzepts für die Erklärung der Wirksamkeit der öffentlichen Politik. Wie in Kap. 2, Abschn. 2.3, ausgeführt, sind diese Hypothesen wichtig bei der Unterscheidung von Konzeptversagen („Policy failure“) und Umsetzungsversagen („Implementation failure“) und damit auch der Rechenschaftszuweisung für Erfolg und Misserfolg der öffentlichen Politik. Weitere sinnvolle Hypothesen sind Annahmen über die Bedeutung der Umsetzungsorganisation für die erzielten Outcomes und den Impact. Die Organisation bestimmt die Kapazitäten der Umsetzungsakteur*innen, was wiederum deren Möglichkeiten beeinflusst, direkten Kontakt mit Politikadressat*innen und/ oder Politikbegünstigten zu suchen. Dieser direkte Kontakt kann die Akzeptanz von Maßnahmen beeinflussen, unabhängig von der Outputperformanz bei der Leistungserbringung (Knoepfel et al. 1997, S. 107–108). Die Akzeptanz von Policy-Massnahmen bei den Adressat*innen beeinflusst jedoch deren Wille zu Verhaltensänderungen. Entsprechende Hypothesen können deshalb sinnvoll sein für die Wirkungsanalyse. (3) Das lineare Modell impliziert zunächst einmal Wirkungszusammenhänge von oben nach unten entlang der Zeitachse. Diese naheliegende Logik gilt aber nicht für die Rückkoppelung der Wirkung einer öffentlichen Politik auf das gesellschaftliche Problem, das sie lösen will. Der Impact der öffentlichen ­Politik ist der Problemlösungsbeitrag, den die gewählten Maßnahmen leisten. Je größer der Impact einer öffentlichen Politik, umso kleiner wird das gesellschaftliche Problem, das sie lösen will. Der Impact hat also Folgen für das gesellschaftliche Problem, das am Ursprung der öffentlichen Politik liegt. Während eine öffentliche Politik ein gesellschaftliches Problem realistischerweise nie vollständig aus der Welt schaffen wird, so kann sie es doch in erheblichem Maße vermindern. Wenn diese Minderung ein gewisses Maß erreicht, können weitere Maßnahmen obsolet werden und eine Fortführung der öffentlichen Politik entfallen. Der Impact kann aber ein gesellschaftliches Problem auch verändern. Ein prominentes Beispiel ist die Aids-Prävention der frühen 1990er-Jahre, die sich neben Drogenabhängigen, die mit Spritzen konsumier-

6.1  Das lineare Modell

123

ten, stark auf die Risikogruppen der männlichen Homosexuellen fokussierte. Der Impact dieser Politik war groß und die Ansteckungen bei den nun für Safer Sex sensibilisierten männlichen Homosexuellen gingen zurück. Im Gegenzug nahmen aber die Ansteckungen bei Heterosexuellen zu, was auf die Vernachlässigung von Bisexuellen und Freiern in der Frühphase der Aidspolitik zurückzuführen war. Die Aidspolitik hatte zwar einen bemerkenswerten Impact, das gesellschaftliche Problem war aber nicht gelöst, sondern es stellte sich neu. In einer zweiten Phase zielte die Aidspräventionskampagne denn auch nicht auf die isolierte Zielgruppe der Homosexuellen, sondern sprach die gesamte und insbesondere auch die heterosexuelle Bevölkerung an, die sich bislang als nicht oder wenig gefährdet wahrgenommen hatte (Dubois-Arber et al. 2003; Imseng 2020). Das lineare Modell hypothetisiert monokausale Wirkungszusammenhänge. Es interessiert sich also für die Beziehung zwischen einzelnen Evaluationsgegenständen und isoliert diese Zusammenhänge entsprechend. Diese Konzipierung von Wirkung entspricht dem variablen-zentrierten Ansatz der Sozialwissenschaft, der davon ausgeht, dass die Realität in einzelne Phänomene aufgeteilt werden kann. Diese Phänomene sind objektiv fassbar und somit können auch Zusammenhänge zwischen den Ausprägungen dieser Phänomene, also zwischen den Variablen, festgestellt werden. Der monokausale Fokus auf den Zusammenhang zweier Variablen hat Konsequenzen für den analytischen Umgang mit allen anderen möglichen Erklärungsfaktoren. Alternative Erklärungen sind im variablen-zentrierten Ansatz sehr wichtig, um die relative Erklärungskraft der interessierenden Variable identifizieren zu können. Zu diesem Zweck behandelt die schließende Statistik alternative Erklärungen als intervenierende Variablen, die es konstant zu halten gilt, um so die Bedeutung der interessierenden Variable für die abhängige Variable einschätzen zu können. Diese Logik des Ceteris Paribus (lateinisch für „alles andere gleich“) ist sehr nützlich, um die Wirkung einzelner Faktoren auf ein bestimmtes Phänomen festzumachen. In der angewandten Evaluationsforschung ist allerdings zu berücksichtigen, dass die politische Realität kein Ceteris Paribus kennt. Bei der Umsetzung und Wirkung öffentlicher Politiken sind die Kontextfaktoren schlicht nie konstant, sondern üben vielmehr erheblichen Einfluss auf die Funktionsweise der verschiedenen Maßnahmen einer öffentlichen Politik aus. Die statistische Logik hinter dem linearen Modell muss aus diesem Grund mit Bedacht eingesetzt werden, wenn es um die Wirksamkeitsanalyse öffentlicher Politik geht. Das lineare Modell lässt eine solche Relativierung jedoch zu. Während die modellierten Wirkungszusammenhänge im Modell monokausal sind, muss das nicht für den empirischen Test der Hypothesen gelten. Der Fokus auf einzelne

124

6  Die Modellierung von Wirkung

Evaluationsgegenstände und ihre Wirkungszusammenhänge, wie ihn das lineare Modell vorschlägt, ist durchaus sinnvoll, da es im Evaluationskontext darum geht, die erfolgreichen Maßnahmen von den erfolglosen Elementen der evaluierten öffentlichen Politik abzugrenzen. Da die Evaluationsforschung anwendungsorientiert ist und sich an konkrete Abnehmer*innen richtet, die mit den Ergebnissen der Evaluation praktisch arbeiten müssen, sind realitätsnahe empirische Herangehensweisen jedoch wichtig, um die Nützlichkeit von Evaluationen zu gewährleisten. Eine realitätsnahe Herangehensweise verlangt in der Regel den Einbezug mehrere Evaluationsgegenstände und komplexer Wirkungszusammenhänge. Der Ansatz der Realistic Evaluation, dem der nächste Abschn. 6.2 gewidmet ist, nimmt diese Notwendigkeit auf und überträgt sie in eine eigene Wirkungskonzeption. Kasten 6.1 fasst die wesentlichen Eigenschaften des linearen Wirkungsmodells zusammen. Kasten 6.1: Das lineare Wirkungsmodell

Das lineare Wirkungsmodell • stellt die einzelnen Evaluationsgegenstände in ihre chronologische Rei­ henfolge; • vermutet vorab Kausalität zwischen den direkt aufeinander folgenden Evaluationsgegenständen; • berücksichtigt das gesellschaftliche Problem als Erklärungsfaktor; • lässt Hypothesen über mehrere Stufen der öffentlichen Politik hinweg zu; • fokussiert auf monokausale Zusammenhänge zwischen einzelnen Eva­ luationsgegenständen; • folgt grundsätzlich einer Ceteris Paribus-Logik, determiniert jedoch nicht die empirische Messung dieser Zusammenhänge. Aufgrund seiner intuitiven Verständlichkeit ist das lineare Wirkungsmodell das dominante Modell in der Politikevaluation.

6.2

Der Realistische Evaluationsansatz: die Bedeutung des Kontexts

Der Ansatz der Realistic Evaluation von Ray Pawson und Nick Tilley (Pawson 2013; Pawson und Tilley 1997) setzt der variablen-zentrierten Sichtweise des linearen Modells eine kontextsensitive Alternative entgegen (vgl. Abschn.  4.1.4).

6.2 Der Realistische Evaluationsansatz: die Bedeutung des Kontexts

125

Pawson und Tilley sehen den Kontext als grundsätzlich wirkungsrelevant und bauen ihn als integralen Bestandteil in ihre Konzeption von Wirkung ein. Der Kern der Realistic Evaluation ist die CMO-Formel, die wie in Kap. 4 und 5 bereits erwähnt für die Gleichung „Kontext (C) + Mechanismus (M) = Outcome (O)“ steht. Die CMO-Formel wird dem Umstand gerecht, dass eine öffentliche Politik unterschiedlich wirkt, je nachdem, unter welchen Kontextbedingungen sie stattfindet. Pawson und Tilley (1997) sind dem Realismus als Wissenschaftstheorie verpflichtet und verorten diesen zwischen dem Positivismus und dem Konstruktivismus. Sie teilen den positivistischen Optimismus, dass sich die Realität objektiv erkennen lässt. Gleichzeitig stimmen sie dem konstruktivistischen Argument zu, dass es keine generalisierbare Wahrheit gibt, sondern dass jegliche Erkenntnis fallspezifisch ist, da das Zusammenspiel aller relevanten Einflüsse in jedem Fall einzigartig ist (Befani et al. 2007). Für Evaluator*innen führt diese erkenntnisphilosophische Debatte in ein Dilemma: Auf der einen Seite nützen generalisierbare Ceteris Paribus-Befunde wenig, da sie das Ergebnis einer statistischen Modellierung sind, aber in der Realität nicht vorkommen. Eine generelle Aussage über die Wirksamkeit einer Maßnahme oder eines Programmes ist nicht hilfreich, da sich die Wirksamkeit je nach Kontext verändert. Auftraggeber*innen haben deshalb nichts davon, wenn sie zwar über die isolierte Wirksamkeit einer öffentlichen Politik informiert sind, aber nicht über die Bedingungen, unter denen die Politik in der Realität tatsächlich wirkt, wo die Ceteris Paribus-Voraussetzung nicht gegeben ist. Auf der anderen Seite haben Auftraggeber*innen aber auch nichts von Evaluationen, die dem konstruktivistischen Paradigma folgen und das synchrone Zusammenwirken aller Einflussfaktoren berücksichtigen. Die fallgerechte Wirkungsanalyse nützt nicht viel für die Praxis, wenn sie sich jeglicher Generalisierbarkeit entzieht und sich infolgedessen für andere Fälle nichts daraus lernen lässt. Beide Vorgehensweisen haben somit große Vorteile, aber auch gewichtige Limitationen. Pawson und Tilley (1997) wollen mit ihrem Ansatz die Vorteile der beiden Denkweisen bewahren, ohne aber den gewichtigen Nachteil der jeweiligen Grenzen der Nützlichkeit aufweisen zu müssen. Vom Positivismus übernehmen sie die variablenzentrierte Sichtweise, vom Konstruktivismus die Kontextabhängigkeit von Wirkung. Das Ergebnis ist der Fokus auf Konfigurationen von Ausprägungen statt auf einzelne Variablen beziehungsweise ganze Fälle für das Verständnis von Wirkung. Von beiden Denkschulen grenzen sie sich ab mit dem Anspruch einer Generalisierbarkeit mittlerer Reichweite (Merton 1968). Befunde von Realistischen Evaluationen sind nicht universell und ahistorisch allgemeingültig, aber auch nicht auf den Einzelfall beschränkt, sondern können auf Fälle übertragen werden, in denen ähnliche Kontextbedingungen auftreten wie in den Testfällen. Diese Kontextbedingungen werden mit der CMO-Formel mit möglichst großer Genauigkeit beschrieben. Der Generalisierungsanspruch ist beschränkt, aber existent.

126

6  Die Modellierung von Wirkung

Das CMO-Schema verschließt sich der Ableitung monokausaler Hypothesen. Die Reduktion der CMO-Formel auf die drei Größen Kontext, Mechanismus und Outcome darf nicht darüber hinwegtäuschen, dass darin sehr vielseitige Faktorkombinationen Eingang finden können und insbesondere auch die in Kap.  5 vorgestellten Evaluationsgegenstände Teile der Konfiguration sein können. Das Konzept des „Mechanismus“ bildet den Kern von Pawson und Tilley’s (1997) Evaluationsansatz. Der Mechanismus „besagt, wie Eingriffe in die gesellschaftliche Umwelt wirken. Dabei folgt der Realismus einer generativen Erklärungslogik: Der Prozess, der von einer Intervention zum Ergebnis führt, wird aufgeschlüsselt, die Überlegungen der Akteure, ihre Beweggründe und Entscheidungen werden erfasst. Es wird somit gefragt, was bei einem Programm die sozialen Akteure dazu bringt, ihr Verhalten zu ändern“ (Sager und Ledermann 2006, S. 252). Welcher Mechanismus in welchem Fall zu Wirkungen führt, hängt sodann vom Kontext ab. Die Autoren bleiben relativ offen darin, was als Kontext zu gelten hat. Kontext bezieht sich auf die Kontingenz von Mechanismen, umfasst also alles, was die Wirkung von Interventionen verändert. Damit sind sowohl exogene Faktoren wie das sozioökonomische Umfeld, die parteipolitischen Verhältnisse, der Problemdruck oder die materiellen und immateriellen Ressourcen der Adressat*innen inkludiert, als auch endogene Faktoren der öffentlichen Politik selber wie ihr Design, ihre Organisation oder ihre Ressourcenausstattung – alles Evaluationsgegenstände, die in Kap. 5 präsentiert worden sind. Pawson und Tilley (1997) bezeichnen die Wirkung einer Intervention, die sich aus dem Zusammenspiel von Kontext und Mechanismus ergibt, generisch als Outcome. Der Begriff ist somit hier weiter gefasst als er in diesem Buch verwendet wird (vgl. Abschn. 5.5). Outcome umfasst bei Pawson und Tilley (1997) nicht nur die intendierten und nicht intendierten Verhaltensänderungen der Adressat*innen einer öffentlichen Politik, sondern steht für sämtliche Effekte einer Intervention. Zentral ist, dass die Ergebnisse einer öffentlichen Politik nicht einheitlich sind, sondern je nach Kontext und initiierten Mechanismen variieren. Zusammengefasst ist das „Ziel der realistischen Evaluation […], über die Untersuchung von CMO-Konfigurationen zu Aussagen zu gelangen, wie und wann ein Programm wirkt“ (Sager und Ledermann 2006, S. 2049). Kasten 6.2 fasst die konstitutiven Elemente der Realistic Evaluation zusammen. Kasten 6.2: Der Realistische Evaluationsansatz

• Politische Programme und Instrumente zeitigen unterschiedliche Wirkungen je nach Kontext. • Diesem Umstand trägt die Realistic Evaluation mit dem Schema „Kontext + Mechanism = Outcome“ (CMO-Konfigurationen) Rechnung.

6.2 Der Realistische Evaluationsansatz: die Bedeutung des Kontexts

127

• Der Mechanismus ist der Kern der realistischen Theorie. Er besagt, wie Eingriffe in die gesellschaftliche Umwelt wirken. • Die Evaluationsforschung soll Wirkungen nicht isolieren, sondern in einen Kontext einbetten, um zu realistischen Aussagen zu gelangen. Pawson (2002) illustriert den realistischen Evaluationsansatz mit dem Beispiel des Naming and Shaming als soziale Sanktionsmassnahme für Gesetzesübertritte (Pawson 2002). Naming and Shaming (N&S) ist ein Instrument der Verbrechensprävention. Es soll potenzielle Rechtsbrecher*innen abschrecken, da ihnen im Fall von Fehlverhalten die Bekanntmachung ihrer Namen und ihrer Vergehen droht. Gleichzeitig dienen N&S-Maßnahmen auch der Sensibilisierung von potenziellen Opfern von Verbrechen. Pawson (2002) vergleicht sechs unterschiedliche N&S-­ Verfahren und zeigt die komplett unterschiedlichen Mechanismen auf, die sie auslösen, sowie die unterschiedlichen Effekte der Maßnahmen. Zwei Beispiele: Das erste Beispiel ist N&S in der britischen Autodiebstahlprävention (Car Theft Index). Die Angaben von bekannten Autodieb*innen wurden auf einer passwortgeschützten Internetseite Gebrauchtwagenhändler*innen zugänglich gemacht, was zu einer signifikanten Zunahme von Meldungen bei der Polizei führte, wodurch wiederum die Aufklärungsrate bei Autodiebstählen massiv erhöht werden konnte. N&S war ein Erfolg. Das zweite Beispiel ist die 20 Jahre lange Speicherung der Daten verurteilter Sexualstraftäter*innen in den USA, um auch nach absolvierter Gefängnisstrafe potenzielle Opfer schützen zu können (Sex Offender Registration – Megan’s Law). Der Effekt der N&S-Massnahme war auf Seiten der Prävention gering, da die Registrierungsperiode sehr lange war und in der Zuständigkeit der Staaten. Rückfallverbrechen fanden jedoch zumeist außerhalb des Staates statt, in dem das ursprüngliche Verbrechen begangen worden war. Auf der anderen Seite hatte die Veröffentlichung der Persönlichkeitsdaten für die Verurteilten nach der Haftentlassung teilweise gravierende soziale Folgen, auch wenn sie keine Vergehen mehr begingen. N&S war ein Misserfolg. Pawson (2002) führt die Unterschiede in den Ergebnissen von N&S auf die vollkommen unterschiedlichen Kontexte der ­Maßnahmenanwendung zurück. Im britischen Beispiel handelte es sich um ein minderes Vergehen und die N&S-Information war nur einem gezielt gewählten Nutzer*innenkreis zugänglich. Die ausgelösten Mechanismen waren absehbar und konnten kontrolliert werden, da die Adressat*innen bekannt waren. Im amerikanischen Beispiel handelte es sich um ein moralisch hoch aufgeladenes, schweres Verbrechen und die Zugänglichkeit zu den N&S-Informationen unterlag keinerlei Restriktionen, die Daten dagegen waren nicht aktuell und teilweise nicht korrekt. Die ausgelösten Mechanismen konnten weder abgeschätzt noch kontrolliert wer-

128

6  Die Modellierung von Wirkung

den. Die beiden Fälle machen klar, dass eine einheitliche Aussage über die Wirksamkeit von Naming and Shaming sinnlos ist und vielmehr der Kontext der Massnahmenanwendung die relevante Wirkungsinformation beinhaltet.

6.3

 earnings aus der Felderfahrung: die Modellierung L von Wirkung in einem Mehrebenensystem

Mehrebenensysteme wie Deutschland oder die Schweiz mit ihrem ausgeprägten Föderalismus stellen die Modellierung von Wirkung vor besondere Herausforderungen. Die Delegation von Vollzugsverantwortung von der übergeordneten an die untergeordneten föderalen Ebenen nimmt in verschiedenen föderalistischen Systemen unterschiedliche Ausmaße an. Hans Keman (2000) unterscheidet die beiden Dimensionen „Recht zu handeln“ und „Recht zu entscheiden“. Das „Recht zu handeln“ bezieht sich auf die Kompetenz der untergeordneten föderalen Ebene, über die Art und Weise des Vollzugs einer Politik zu entscheiden. Dies ist der Fall in Deutschland. Hier haben die Länder bei der Umsetzung von Bundespolitik Vollzugskompetenz im dem Sinne, dass die Strukturen und Organisation der Umsetzung der entsprechenden Bundesentscheide auf Länderebene entschieden wird. Die Unterschiede beziehen sich also auf den Evaluationsgegenstand „Umsetzungstruktur“. Das „Recht zu entscheiden“ geht weiter. Die untergeordneten föderalen Ebenen entscheiden nicht nur über Form, sondern auch über Inhalt der umzusetzenden Politik. Sie können also Bundesgesetze an die lokalen Bedingungen anpassen und zu einem gewissen Grad inhaltlich verändern. Das prominenteste Beispiel für das „Recht zu entscheiden“ sind die EU-Mitgliedstaaten, die EU-Richtlinien nicht einfach eins zu eins übernehmen, sondern mit der sogenannten Transposition in die nationale Gesetzgebung überführen (Thomann und Sager 2017). Die EU Compliance, also die Transposition von EU-Richtlinien in die nationale Gesetzgebung, stellt einen wichtigen und eigenständigen Zweig der EU-Forschung dar. Analog den EU-Mitgliedstaaten und der US-Staaten haben die Schweizer Kantone weitreichende Kompetenzen beim Vollzug von Bundespolitik. Die EU, die USA und auch die Schweiz sind sehr ausgeprägte föderalistische Systeme. Für die Evaluation bedeutet diese Kompetenzordnung eine Verdoppelung einzelner Evaluationsgegenstände. Das Politikkonzept wird auf Bundesebene definiert, aber anschließend auf kantonaler Ebene angepasst und je nachdem abgeändert. Die Schweizer Kantone ebenso wie die deutschen Länder verfügen über sehr unterschiedliche Ressourcen. Die Umsetzungsstrukturen variieren also zwischen den Kantonen bzw. Ländern. Entsprechend variiert die Outputperformanz im föderalen Vollzug, und als Resultat davon auch die Wirkung einer öffentlichen

6.4  Learnings aus der Felderfahrung: Wie mache ich eine Ausschreibung?

129

Politik. In der Schweiz verstärkt das „Recht zu entscheiden“ diese ressourcen- und organisationsbedingte Varianz noch einmal zusätzlich, da nicht in allen Kantonen dieselbe Politik umgesetzt wird, sondern in jedem Kanton die jeweils angepasste Version der Bundespolitik (Sager und Rüefli 2005). Die Evaluationsforschung schlägt unterschiedliche Lösungen für die Modellierung von Wirkung in Mehrebenensystemen vor. Sager und Rüefli (2005) postulieren in ihrer Adaption des linearen Stufenmodells die Verdoppelung der Wirkungsketten für Bund und Kantone, um so den jeweiligen Perspektiven gerecht zu werden. Aufgrund der Verdoppelung der Begrifflichkeit ist diese Lösung aber nur bedingt praktikabel und kann zu Unklarheiten führen. Bättig et al. (2001) bringen als pragmatischere Lösung die Verwendung der Kategorie von Zwischen-Outputs ein, womit sich das lineare Stufenmodell in der Umsetzung beliebig verlängern lässt. Diese Vorgehensweise ist sehr praktikabel und auch gut kommunizierbar. Sie wird aber der politischen Dimension des föderalen Vollzugs nur bedingt gerecht, da alle zusätzlichen Stufen als Vollzugsleistungen konzipiert sind, jedoch nicht als politische Entscheidungsprozesse. Die Anpassung von Bundespolitik an die vlokalen Bedingungen weist auf die Bedeutung des Kontexts bei der Evaluation von föderal vollzogenen Politiken hin. Sager et  al. (2015) bevorzugen aus diesem Grund eine Mischform der verschiedenen Vorschläge mit der Idee der Kontextbedingtheit, die dem realistischen Evaluationsansatz entstammt. Sie illustrieren dies am Beispiel der Aufnahme und Umsetzung kantonaler Tabakpräventionsprogramme, die von einer öffentlichen Stiftung auf Bundesebene bewilligt, finanziert und geprüft werden. Die Autor*innen verdoppeln den Evaluationsgegenstand „Outcome“, um sowohl die Handlung der kantonalen Programmleitungen als auch der darin versammelten Projekte erfassen zu können. Dabei wird dem Kontext (bspw. gesundheitlichen, gesellschaftlichen und politischen Faktoren) bei der Bewertung der Outcomes besondere Bedeutung beigemessen, um kantonalen Unterschieden in der Wirkungsentfaltung gerecht zu werden (s. Abb. 6.2).

6.4

 earnings aus der Felderfahrung: Wie mache ich L eine Ausschreibung?

Die Durchführung einer Evaluation wird oft ausgeschrieben. Dies bedeutet, dass die Öffentlichkeit oder eine beschränkte Anzahl von ausgewählten potenziellen Anbietenden darüber informiert wird, dass eine Institution eine Evaluation plant. Oft müssen sich öffentliche Stellen bei der Ausschreibung von Evaluationsaufträgen an rechtliche Vorgaben halten. Während Mandate mit einem kleinen Budget direkt vergeben werden können, wird bei größeren Budgets die Einladung von verschiedenen Anbieter*innen

130

6  Die Modellierung von Wirkung Gesellschaftliches Problem

Empirische Evidenz Intrapolicy-Kohärenz Interpolicy-Kohärenz

Politikkonzept

Eignung für die Umsetzung Nachhaltigkeit

Organisation

Angemessenheit Leistungsbezogene Effizienz

Leistungen

Wirksamkeit Wirkungsbezogene Effizienz

Impact (Wirkungen 2: Begünstigte)

Outcome Projektebene (Wirkungen 1: Adressaten)

Kontextfaktoren:

Outcome Programmebene (Wirkungen 1: Adressaten)

- Gesundheitliche Faktoren - Gesellschaftliche Faktoren - Politische Faktoren

Wirksamkeit Wirkungsbezogene Effizienz

Abb. 6.2  Angepasstes lineares Wirkungsmodell einer Mehrebenenpolitik. (Quelle: basierend auf Sager et al. (2015, S. 97))

oder gar eine öffentliche Ausschreibung verlangt (vgl. dazu für die Schweiz die Weisungen bzgl. Vergabeverfahren;1 für Deutschland Silvestrini 2007, S. 119). Die Grundlage für die Ausschreibung bildet in der Regel ein Pflichtenheft. Dieses beschreibt den Hintergrund und den Gegenstand der geplanten Evaluation (Widmer und De Rocchi 2012, S. 111 f.). Die Ausschreibung dient interessierten Evaluator*innen dazu, ein Angebot für die Durchführung der geplanten Evaluation zu unterbreiten. Eine Ausschreibung muss gut vorbereitet sein. Je sorgfältiger eine Ausschreibung formuliert ist, desto bessere Angebote zur Durchführung der Evaluation können erwartet werden. Der Inhalt einer Ausschreibung lässt sich in drei Teile gliedern (vgl. dazu Widmer 2005, S. 7 ff.).

6.4.1 Hintergrund und Gegenstand der Evaluation Einleitend muss der Kontext der Evaluation genau beschrieben und die Problemstellung erläutert werden. Wichtig ist in diesem Zusammenhang auch, dass die   Siehe Vergabeverfahren für öffentliche Aufträge: https://www.kmu.admin.ch/kmu/de/ home/praktisches-wissen/kmu-betreiben/oeffentliche-auftraege/vergabeverfahren.html (Seite aufgerufen am 23.10.2020).

1

6.4  Learnings aus der Felderfahrung: Wie mache ich eine Ausschreibung?

131

Motive für die Evaluation festgehalten werden. Muss beispielsweise einer gesetzlichen expliziten Verpflichtung nachgekommen werden oder gibt es drängende Probleme in der Umsetzung eines Programms, die angegangen werden sollten? Möglicherweise ist es zweckmäßig, auf rechtliche Grundlagen und andere wichtige Dokumente hinzuweisen oder diese allenfalls sogar beizulegen (vgl. dazu Widmer 2005, S. 7–8).

6.4.2 Beschreibung des Evaluationsauftrags Den Kern einer Ausschreibung stellt die klare Benennung der Ziele und der Fragestellungen der Evaluation dar. Im Hinblick auf die Ziele und – damit verbunden – den Verwendungszweck der Evaluation muss insbesondere deutlich werden, ob die Evaluation eher eine formative oder eine summative Ausrichtung haben soll. Die Fragen sollten – wenn möglich – entlang des Wirkungsmodells gut strukturiert und klar formuliert sein (nützliche Hinweise zur Formulierung von Evaluationsfragestellungen finden sich in (Balzer und Beywl 2018, S.  72  ff.)). Eine häufig beobachtete Schwäche von Ausschreibungen ist die zu große Zahl der zu bearbeitenden Fragen. Mit jeder zusätzlichen Frage werden die verfügbaren Mittel jedoch mehr aufgeteilt und der Fokus der Evaluation nimmt ab. Möglicherweise kann es nützlich sein, die Fragen zu priorisieren, um die potenziellen Evaluierenden auf die Schwerpunkte der Evaluation hinzuweisen. Schließlich gehört es auch zum Evaluationsauftrag, die Adressat*innen der Studie zu benennen, damit die Evaluierenden ihr Angebot auf diese ausrichten können (vgl. dazu Widmer 2005, S. 7–8).

6.4.3 Organisatorische und praktische Informationen Die Ausschreibung muss weiter die zeitlichen und auch die finanziellen Vorgaben der Evaluation festhalten. Für die zeitliche Planung sind neben der Laufzeit der Evaluation auch die Termine für Zwischen- und Schlussprodukte wichtig. Die Festlegung der Termine muss sich an den Entscheidungsprozessen der Verantwortlichen orientieren. Evaluationsprodukte sollten dann zur Verfügung stehen, wenn „Gelegenheitsfenster“ genutzt und Entscheidungen beeinflusst werden können. Gleichzeitig muss die Terminsetzung auch realistisch sein. Nur wenn den ­Evaluierenden genug Zeit gegeben wird, können auch qualitativ gute Resultate erwartet werden. Zweckmäßig ist es zudem, wenn die Ausschreibung Meilensteine der Evaluation klar vorgibt. Immer wieder wird auch die Frage diskutiert, ob die Ausschreibung die finanziellen Vorgaben, zum Beispiel in Form eines Kostendachs, transparent ma-

132

6  Die Modellierung von Wirkung

chen soll. Vieles spricht dafür. Die gleichen Evaluationsfragen lassen sich nämlich – mit unterschiedlicher Genauigkeit selbstverständlich – aufwändiger oder weniger aufwändig bearbeiten. Der Vergleich von Angeboten, welche vom gleichen Kostenrahmen ausgehen, fällt leichter. Schließlich sind Offerierende von Evaluationen auf einige weitere praktische Angaben, wie Kontaktperson oder Sprache der Evaluation angewiesen. Die nachfolgende Checkliste, welche bei der Vorbereitung einer Ausschreibung nützlich sein kann, basiert auf dem Leitfaden zur Durchführung von Wirksamkeitsprüfungen beim Bund (vgl. dazu Widmer 2005).

6.4.4 Checkliste zur Erstellung eines Pflichtenhefts Kriterium Bewertung Hintergrund und Gegenstand der Evaluation. Die der Evaluation zugrunde liegende Problemstellung wird angemessen erläutert. Die zu untersuchende Massnahme wird in ihrem Kontext ausreichend genau beschrieben. Wichtige Dokumente sind beigelegt oder mit Fundort aufgeführt. Die Motive für die Durchführung der Evaluation sind transparent dargelegt. Evaluationsauftrag. Die Ziele der Evaluation sind verständlich formuliert. Die Evaluation fokussiert auf ausgewählte, klar formulierte Fragestellungen. Auf bestehende, laufende und geplante Studien mit Bezug zum Evaluationsgegenstand wird hingewiesen. Die durch die Evaluation zu erbringenden Leistungen und Produkte sind dargelegt. Der Verwendungszweck der Evaluationsergebnisse wird angemessen erläutert. Die Adressat*innen der Evaluationsergebnisse werden differenziert aufgeführt. Organisatorische Vorgaben. Die relevanten Termine der Evaluation sind genannt und realistisch. Vorgaben für die Zwischen- und die Schlussberichterstattung sind benannt. Der Kostenrahmen für die Evaluation ist genannt und angemessen. Die Form der Begleitung der Evaluation durch den*die Auftraggeber*in wird dargelegt. Die Kontaktpersonen sind aufgeführt. Die Kriterien zur Beurteilung der Angebote sind dargelegt. Der erwartete Umfang der Offerte ist angegeben. Die Frist zur Einreichung der Offerte ist klar und angemessen. Quelle: angepasst nach Widmer (2005); BAG Bundesamt für Gesundheit (2016)

6.5 „Wie vorgehen?“-Kasten: Wie mache ich ein Wirkungsmodell?

6.5

133

„ Wie vorgehen?“-Kasten: Wie mache ich ein Wirkungsmodell?

Wie wir ausgeführt haben, bildet das Wirkungsmodell den Ausgangspunkt fast jeder Evaluation (vgl. Kap. 5). Allgemein kann ein Wirkungsmodell als „eine logische, graphisch aufbereitete Darstellung dessen, wie ein Programm oder eine Intervention, unter gewissen Rahmenbedingungen theoretisch und/oder empirisch funktioniert“, bezeichnet werden (Haunberger 2018, S.  3; nach Rauscher et  al. 2015, S.  43; siehe auch Balthasar und Fässler 2017). Wie aber erstellt man ein Wirkungsmodell? Diese Frage lässt sich am einfachsten mit einem Beispiel beantworten. Betrachten wir dazu die Einrichtung eines Jugendtreffs als Teil der offenen Jugendarbeit (vgl. dazu Balthasar und Biebricher 2008). Ein Jugendtreff hat möglicherweise die langfristige Zielsetzung, dass junge Menschen dort Selbstwertgefühl aufbauen, Handlungs- und Sozialkompetenz erlernen und so frühzeitig gesellschaftlich integriert werden. Abb. 6.3 stellt ein vereinfachtes Wirkungsmodell für eine solche Einrichtung dar.

Über welchen Mit welchen Weg? Mitteln? Züri rauchfrei - Wirkungsmodell Input

Benötigte Ressourcen / Organisation

Mit welchen Leistungen?

Aktivitäten

Output

Einrichtung eines Jugendtreffpunkts der Gemeinde oder im Quartier

Offenes Angebot/Café Feste Gruppenangebote (z. B. für Mädchen) Projektbezogen e Angebote Möglichkeit zur Partizipation in der Einrichtung Förderung der Partizipation im Gemeinwesen

Welche Wirkungen bei wem?

Outcome Jugendliche Jugendliche haben einen raum und ein strukturiertes Freizeitangebot

Outcome Alle Bewohner*innen

z. B. Rückgang generationenübergreifender Konflikte in der Gemeinde oder im Quartier

Mit welchem gesellschaftlich en Beitrag? Impact

Ziele der Politik: Aufbau von Selbstwertgefühl bei jungen Menschen Handlungs- und Sozialkompetenz bei jungen Menschen Gesellschaftliche Integration junger Menschen

Abb. 6.3  Beispielhaftes Wirkungsmodell für eine Einrichtung der offenen Jugendarbeit. (Quelle: eigene Darstellung in Anlehnung an Balthasar und Biebricher (2008) und Fässler und Oetterli (2015, S. 11))

134

6  Die Modellierung von Wirkung

Die Erarbeitung eines Wirkungsmodells erfolgt von rechts nach links (Fässler und Oetterli 2015, S. 12). Das heißt, die Erarbeitung beginnt mit den Impacts. Danach werden Outcome, Output, Aktivitäten und Input bestimmt. In einem bestehenden Projekt besteht möglicherweise bereits implizit oder explizit ein Wirkungsmodell und Informationen dazu sind in den Projektunterlagen festgehalten (Brunold 2017; Fässler und Oetterli 2015, S.  12). Diese Unterlagen können bei der Erarbeitung des Wirkungsmodells genutzt werden. Die nachfolgenden beschriebenen Arbeitsschritte sind in Balthasar und Oetterli (2014) ausgeführt. 6.5.1 Erster Schritt: Impacts festhalten Die Impacts beschreiben die erwünschte Veränderung im relevanten übergeordneten gesellschaftlichen Kontext zur Lösung des anvisierten gesellschaftlichen Problems (Balthasar und Oetterli 2014, S. 18). Impactziele lassen sich manchmal direkt aus den gesetzlichen Grundlagen ableiten. Oft beruhen sie aber auch auf Visionen und sind mit diesen sogar identisch. Impactziele sind zeitlich beständig und geben die Grundausrichtung der untersuchten öffentlichen Politik wieder. Impacts können mittels der implementierten Aktivitäten in der Regel nur indirekt über die einzelnen Zielgruppen beeinflusst werden. Ob sie erreicht werden oder nicht hängt nicht nur von der Eignung und der Qualität der durchgeführten Aktivitäten, sondern auch von externen Faktoren ab. Damit die Erreichung von Impactzielen evaluiert werden kann, sollten Letztere so formuliert sein, dass die Zielerreichung zu einem gegebenen Zeitpunkt überprüfbar ist. In vielen Fällen ist die Erreichung der Impacts aber mit einer Evaluation nicht überprüfbar, weil zu viele externe Faktoren auf die gesamtgesellschaftlichen Entwicklungen einwirken (vgl. Abschn. 5.6). 6.5.2 Zweiter Schritt: Outcomes definieren Veränderungen, welche die implementierten Aktivitäten kurz- oder mittelfristig bei den einzelnen Zielgruppen bewirken, nennt man Outcomes (Balthasar und Oetterli 2014, S. 19; für Details vgl. auch Abschn. 5.5). Zielgruppen können spezifische Gruppen in der Bevölkerung (bspw. Jugendliche), Behörden oder nichtstaatliche Organisationen sein, die entweder direkt durch die Umsetzungsakteur*innen oder durch Multiplikator*innen angesprochen werden. Ziel dieser Aktivitäten ist es, das Verhalten in der Zielgruppe zu verändern. Es ist wichtig, dass Outcomeziele realistisch formuliert sind und dass klar ist, welcher Zustand wann erreicht werden soll.

6.6 Illustratives Anwendungsbeispiel: Mehrebenenevaluation der …

135

6.5.3 Dritter Schritt: Formulierung von Outputs Outputs sind Produkte und Leistungen, welche erbracht werden, um das Verhalten der Zielgruppen zu beeinflussen (für Details vgl. auch Abschn. 5.4). Outputs umfassen beispielsweise Koordinationsaktivitäten, Informationsmaßnahmen oder die Prüfung von Gesuchen. Outputziele umfassen somit die Definition der Qualität und Quantität jener Produkte und Leistungen, die schließlich zu der angestrebten Verhaltensänderung in der Zielgruppe führen sollen (Balthasar und Oetterli 2014, S. 21). 6.5.4 Vierter Schritt: Festlegung der Aktivitäten Der Begriff „Aktivitäten“ umfasst alle Massnahmen, welche umgesetzt werden, um die angestrebten Outcomeziele zu erreichen. Aktivitäten werden oft als Bestandteile der Outputs behandelt und nicht separat aufgeführt. Idealerweise „erfolgt die Festlegung der Aktivitäten evidenzbasiert und unter Berücksichtigung der geltenden politischen, rechtlichen, institutionellen und finanziellen Rahmenbedingungen“ (Balthasar und Oetterli 2014, S. 23). Die Aktivitäten führen zu Outputs. So muss beispielsweise eine Informationskampagne geplant werden, die Zielgruppen und die Botschaften müssen definiert und eine Kommunikationsagentur mit der Umsetzung beauftragt werden. Die Aktivitäten müssen mindestens im Hinblick auf die entsprechenden Projekte und Outputziele, die verantwortlichen Umsetzungsakteur*innen, den Zeitplan sowie die notwendigen Ressourcen beschrieben werden (Balthasar und Oetterli 2014, S. 23). 6.5.5 Fünfter Schritt: Inputs festhalten Die Inputs umfassen die für die Zielerreichung notwendigen personellen, finanziellen und organisatorischen Ressourcen (Balthasar und Oetterli 2014, S. 24). So muss klar festgelegt werden, wer wofür zuständig ist und es muss sichergestellt sein, dass die beteiligten Mitarbeiter*innen über ausreichende und fachlich angemessene Ressourcen verfügen. Weiter sind Zuständigkeiten festzulegen und Entscheidungsprozesse zu definieren. Definiert werden muss zudem, welche Ressourcen für die geplanten Massnahmen notwendig sind.

6.6

I llustratives Anwendungsbeispiel: Mehrebenenevaluation der Deutschen Asylpolitik

Am nachfolgenden Beispiel der Deutschen Asylpolitik wird illustriert, wie komplex Wirkungsmodelle in Mehrebenensystemen aufgrund der verschiedenen involvierten

136

6  Die Modellierung von Wirkung

Dauer durchschnittlich: 5.2 Monate (2015). 7.1 Monate (2014)

föderalen Ebenen sein können und zu welchen Problemen dies in der Umsetzung führen kann. Die deutsche Asylpolitik basiert auf einer Reihe von miteinander zusammenhängenden Rechtsgrundlagen (bspw. Asylgesetz, Aufenthaltsgesetz; vgl. Bogumil et al. 2017, S. 15), die die Grundlage für das Vollzugssystem legen. Letzteres zeichnet sich wie in Abb.  6.4 abgebildet dadurch aus, dass die Vollzugskompetenzen über die drei föderalen Ebenen Bund, Länder und Kommunen verteilt sind. Das Vollzugssystem arbeitet wie im grauen Kasten unten rechts abgebildet darauf hin, den dafür Berechtigten einen subsidiären Schutz zu gewähren, indem sie befristete Aufenthaltsbewilligungen erhalten. Die nicht Schutzberechtigten werden nach Prüfung der Anträge wie ebenfalls dargestellt abgeschoben respektive es folgt eine freiwillige Ausreise (Bogumil et al. 2017, S. 21).2

Äußerung des Asylgesuchs innerhalb des Bundesgebiets z. B. bei den Grenzbehorden, Auslanderbehorden, Sicherheitsbehorden, Aufnahmeeinrichtungen

Weitere Prüfung des Antrags im nationalen Asylverfahren bei Zustandigkeit Deutschlands

Ablehnung

Abschiebungsverbot Nachstgelegene Aufnahmeeinrichtung: Erfassung in EASY ( „Erstverteilung der Asylbegehrenden“)

Meldung in der nach EASY zustandigen Aufnahmeeinrichtung u. Ausstellung Ankunftsnachwels

Anhörung des Asylantragstellers

Bescheld

Ausstellung Aufenthaltserlaubnis

i.d.R. Aufenthaltserlaubnis für mindestens 1 Jahr

Abschiebung

Bleiberecht

Rechtsmittel

Persönliche Asylantragstellung bei der zustandigen Außenstelle des Bundesamtes

Flüchtlingseigenschaft ggf. zusätzlich Asylberechtigung Prufüng Dublinverfahren

Lander

Bund

Aufenthaltserlaubnis für 3 Jahre

Subsidiärer Schutz Aufenthaltserlaubnis für 1 jahr (bei Verlangerung für zwei weitere Jahre)

Kommunen

Abb. 6.4  Das Deutsche Asylverfahren im Verwaltungsföderalismus. (Abbildung aus Bogumil et al. (2017, S. 16), nach Bogumil et al. (2016))

2  Die Komplexität des gesamten Verfahrens und der Entscheidungsmöglichkeiten kann hier nicht vollständig abgebildet werden. Für mehr Details zu den Prozessen vgl. bspw. Bogumil et al. (2017).

6.6 Illustratives Anwendungsbeispiel: Mehrebenenevaluation der …

137

6.6.1 Verteilung der Kompetenzen im Mehrebenensystem Grob zusammengefasst ist der Bund dabei für die Festlegung des Asylrechts und für die Bestimmung der zentralen Rechtssetzungen im Bereich Immigration zuständig. Zudem übernehmen Bundesstellen verschiedene Vollzugsaufgaben: So ist beispielsweise das Bundesamt für Migration und Flüchtlinge (BAMF) zuständig für die Prüfung von Asylanträgen und die Bundesagentur für Arbeit ist verantwortlich für die Arbeitsmarktintegration der betroffenen Flüchtlinge (Bogumil et  al. 2017, S. 8). Die Länder haben derweilen die Vollzugsverantwortung für das Erstaufnahmesystem, was unter anderem die erste Registrierung der Asylsuchenden, die Durchführung von medizinischen Untersuchungen und die Organisation der Kontaktaufnahme zwischen Asylsuchenden und den zuständigen Aussenstellen des BAMF beinhaltet (Bogumil et  al. 2017, S.  8). Auf der kommunalen Ebene werden weitere zentrale Vollzugsaufgaben erfüllt, die sich insbesondere auf die Integration der Flüchtlinge beziehen. Darunter fallen beispielsweise die Förderung von Sprachkompetenzen, die Ermöglichung von Bildung, die Vermittlung von Arbeit, die Schaffung eines Zugangs zu Sozialleistungen und zum Gesundheitssystem (Bogumil et al. 2017, S. 8). Diese Aufteilung der Vollzugsaufgaben führt unweigerlich zu einer großen Verschachtelung der Prozesse und zu einem substanziellen Koordinationsbedarf zwischen den Akteur*innen der drei Ebenen.

6.6.2 Vollzugsprobleme im Verwaltungsföderalismus Die Kernprobleme, die im Zusammenhang mit dem Vollzug der Flüchtlingspolitik entstehen, werden von den Studienautor*innen wie folgt zusammengefasst: „Durch unterschiedliche Kompetenzzuordnungen im Bundesstaat (Bund zuständig für Aufenthalts- und Niederlassungsrecht, Flüchtlings- und Vertriebenenangelegenheiten, Fürsorge und Sozialversicherung; Länder für Bildung, Wohnen, Kultur, Sicherheit und Ordnung) und durch das Prinzip des Verwaltungsföderalismus (Länder und Kommunen führen in der Regel Gesetzeskompetenzen des Bundes aus) ergeben sich zwangsläufig Schnittstellenprobleme“ (Bogumil et  al. 2017, S.  12). Unzureichende Kommunikation und Koordination zwischen den verschiedenen Vollzugsakteur*innen sind in diesem komplexen Vollzugsapparat Kernprobleme (Bogumil et al. 2016). Erhöht wurde die Komplexität des Vollzugs durch die sich verändernden Rechtsgrundlagen, die zu einer Instabilität der Ausgangslage der betroffenen Akteur*innen und der Beziehungen zwischen den föderalen Ebenen führten (Bogumil et al. 2017).

138

6  Die Modellierung von Wirkung

Unter diesen Umständen sind Behörden in den Jahren 2015 und 2016 der Flüchtlingskrise, in welcher über 1,1 Millionen neue Flüchtlinge nach Deutschland gekommen sind, vor erhebliche Herausforderungen gestellt worden. Trotz der systeminhärenten Defizite und der aus Sicht der Studienautor*innen suboptimalen Vorbereitung auf diese Krise wird den Behörden ein gutes Zeugnis ausgestellt: „Angesichts der enormen Fallzahlen und des überaus komplexen und ebenenübergreifenden Vollzugssystems ist es wirklich beachtlich, mit welcher Flexibilität und welcher Improvisationskunst die Verwaltungen, insbesondere die auf kommunaler Ebene, agieren und viele Probleme gelöst haben“ (Bogumil et  al. 2017, S.  76). Dennoch bestanden gemäß der Evaluation angesichts der vorhandenen Defizite im Vollzugssystem Optimierungsmöglichkeiten, wie beispielsweise Neuzuordnungen respektive Bündelungen von Zuständigkeiten, eine bessere Koordination zwischen verschiedenen Akteur*innen und Dienstleistungen sowie die Stabilisierung der Rechtsgrundlage (Bogumil et al. 2017, S. 78–80).

Bibliographie BAG Bundesamt für Gesundheit. (2016). Merkblatt für Evaluationsmanager(innen). Pflichtenheft einer Evaluation (Evaluationsauftrag). https://www.bag.admin.ch/bag/de/ home/das-­bag/ressortforschung-­evaluation/evaluation-­im-­bag/arbeitshilfen-­fuer-­das-­ evaluationsmanagement/checklisten-­und-­vorlagen-­zum-­evaluationsmanagement.html. Zugegriffen am 05.05.2020. Balthasar, A., & Biebricher, M. (2008). Damit sie wissen was sie tun … Warum und wie offene Jugendarbeit bewerten? InfoAnimation, Dachverband offene Jugendarbeit DOJ 8(15), 17–23. Balthasar, A., & Fässler, S. (2017). Wirkungsmodelle in der Evaluation: Ursprung, Erarbeitungsprozess, Chancen und Risiken. LeGes – Gesetzgebung & Evaluation, 28(2), 301–325. Balthasar, A., & Oetterli, M. (2014). Erarbeitung von Umsetzungsstrategien in sechs Schritten. Ein Leitfaden von Interface Politikstudien Forschung Beratung im Auftrag und in Zusammenarbeit mit der Fachstelle Evaluation und Forschung des Bundesamtes für Gesundheit. Luzern. https://www.bag.admin.ch/bag/de/home/das-­bag/ressortforschung-­ evaluation/evaluation-­im-­bag/arbeitshilfen-­fuer-­das-­evaluationsmanagement/leitfaeden-­ und-­glossare-­zum-­evaluationsmanagement.html. Zugegriffen am 05.07.2020. Balzer, L., & Beywl, W. (2018). evaluiert. Erweitertes Planungsbuch für Evaluationen im Bildungsbereich (2., überarb. Aufl.). Bern: hep. Bättig, C., Knoepfel, P., Peter, K., & Teuscher, F. (2001). Konzept für ein integriertes Politikund Umweltbeobachtungssystem. Zeitschrift für Umweltpolitik und Umweltrecht, 24(1), 21–60. Befani, B., Ledermann, S., & Sager, F. (2007). Realistic evaluation and QCA: Conceptual parallels and an empirical application. Evaluation, 13(2), 171–192.

Bibliographie

139

Bogumil, J., Hafner, J., & Kuhlmann, S. (2016). Verwaltungshandeln in der Flüchtlingskrise. Vollzugsdefizite und Koordinationschaos bei der Erstaufnahme und der Asylantragsbearbeitung. Die Verwaltung: Zeitschrift für Verwaltungsrecht und Verwaltungswissenschaften, 49(2), 289–300. Bogumil, J., Hafner, J., & Kastilan, A. (2017). Städte und Gemeinden in der Flüchtlingspolitik. Welche Probleme gibt es – Und wie kann man sie lösen? Eine Studie im Auftrag der Stiftung Mercator. Stiftung Mercator/Ruhr Universität Bochum. Brunold, H. (2017). Die Erarbeitung von „Wirkungsmodellen“ und Indikatoren. Wesentliches in Kürze. Erarbeitet in Zusammenarbeit mit Sarah Fässler und Manuela Oetterli. Bern: Bundesamt für Gesundheit. Dubois-Arber, F., Jeannin, A., Meystre-Agustoni, G., Spencer, B., Moreau-Gruet, F., Balthasar, H., Benninghoff, F., Klaue, K., & Paccaud, F. (2003). Evaluation der HIV/Aids-­ Präventionsstrategie in der Schweiz: Siebter Synthesebericht 1999–2003. Lausanne: Institut universitaire de médecine sociale et préventive. Fässler, S., & Oetterli, M. (2015). Evaluation des effets des interventions: Guide pour le domaine du poids corporel sain. Bern: Promotion Santé Suisse. Haunberger, S. (2018). Nichts ist praktischer als ein gutes Wirkungsmodell. LeGes – Gesetzgebung & Evaluation, 29(2), 1–21. Imseng, N. (2020). STOP AIDS: Die Aids-Präventionskampagne des Schweizerischen Bundesamtes für Gesundheit, 1987–2004 [Masterarbeit]. Universität Bern: Historisches Institut. Jann, W., & Wegrich, K. (2007). Theories of the policy cycle. Handbook of public policy analysis: Theory, politics, and methods, 125, 43–62. Keman, H. (2000). Federalism and policy performance. A conceptual and empirical inquiry. In U. Wachendorfer-Schmidt (Hrsg.), Federalism and political performance (S. 196–227). London: Routledge. Knoepfel, P., & Bussmann, W. (1997). Die öffentliche Politik als Evaluationsobjekt. In W.  Bussmann, U.  Klöti & P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 58–77). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Knoepfel, P., Varone, F., Bussmann, W., & Mader, L. (1997). Evaluationsgegenstände und Evaluationskriterien. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 78–118). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Ledermann, S., Hammer, S., Sager, F., Dubas, D., Rüefli, C., Schmidt, N., Trageser, J., Vettori, A., & Zeyen Bernasconi, P. (2006). Evaluation der Strategie „Migration und Gesundheit 2002–2006“. Bern: BAG. Merton, R. K. (1968). Social theory and social structure (3. Aufl.). New York: Free Press. Pawson, R. (2002). Evidence and policy and naming and shaming. Policy Studies, 23(3), 211–230. Pawson, R. (2013). The science of evaluation: A realist manifesto. London: Sage. Pawson, R., & Tilley, N. (1997). Realistic evaluation. London: Sage Publications. Rauscher, O., Mildenberger, G., & Krlev, G. (2015). Wie werden Wirkungen identifiziert? Das Wirkungsmodell. In C. Schober & V. Then (Hrsg.), Praxishandbuch Social Return on Investment. Wirkungen sozialer Investitionen messen (S. 41–58). Stuttgart: Schaeffer-­ Poeschel.

140

6  Die Modellierung von Wirkung

Sager, F., & Ledermann, S. (2006). Qualitative Comparative Analysis (QCA) und realistische Evaluation. In U. Flick (Hrsg.), Qualitative Evaluationsforschung: Konzepte, Methoden, Umsetzung (S. 250–264). Reinbeck: Rowohlt. Sager, F., & Rüefli, C. (2005). Die Evaluation öffentlicher Politiken mit föderalistischen Vollzugsarrangements. Eine konzeptionelle Erweiterung des Stufenmodells und eine praktische Anwendung. Swiss Political Science Review, 11(2), 101–129. Sager, F., Mavrot, C., & Hadorn, S. (2015). Addressing multilevel program complexity by evaluation design. European Policy Analysis, 1(2), 90–110. Silvestrini, S. (2007). Organisatorischer Ablauf von Evaluationen. In R. Stockmann (Hrsg.), Handbuch zur Evaluation: Eine Praktische Handlungsanleitung (Bd. 6). Münster: Waxmann. Thomann, E., & Sager, F. (2017). Toward a better understanding of implementation performance in the EU multilevel system. Journal of European Public Policy, 24(9), 1385–1407. Weiss, C.  H. (1974). Evaluierungsforschung: Methoden zur Einschätzung von sozialen Reformprogrammen. Opladen: Westdeutscher. Widmer, T. (2005). Leitfaden für Wirksamkeitsüberprüfungen beim Bund. Instrument zur Qualitätssicherung gestützt auf die Evaluationsstandards der Schweizerischen Eva­ luationsgesellschaft (SEVAL-Standards). Bern: Erarbeitet im Auftrag des Bundesamtes für Justiz. Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger.

7

Die Evaluation von institutionellen Politiken

Schlüsselwörter

Substanzielle öffentliche Politiken · Institutionelle Politiken · Verwaltungsreformen · New Public Management · Politische Institutionen · Institutionenpolitik

Dieses Kapitel beschäftigt sich mit den Herausforderungen der Evaluation von institutioneller Politik. Einleitend wird in Abschn.  7.1 auf den Unterschied zwischen substanzieller und institutioneller öffentlicher Politik eingegangen und es werden verschiedene Typen institutioneller Politiken unterschieden. Danach wenden wir uns der Evaluation von institutioneller Politik zu (Abschn. 7.2).1 Dabei weisen wir auf die damit verbundenen besonderen Herausforderungen hin. Abschn. 7.3 stellt Beispiele von Evaluationen institutioneller Politik vor und macht auf diese Weise den Gegenstand dieses Kapitels fassbarer. Anschließend (Abschn. 7.4) wird auf die Thematik von Machtspielen und Interessenpolitik eingegangen, welche im Zusammenhang mit der Evaluation von institutioneller Politik besonders augenscheinlich ist. Diese Ausführungen leiten über zu konkreten Handlungsanleitungen, welche bei der Planung einer Evaluation institutioneller Reformen helfen können (Abschn. 7.5). Schließlich wird das Kapitel mit einem Anwendungsbeispiel in Abschn. 7.6 angeschlossen. 1  Die Ausführungen in Abschn. 7.1 und 7.2 stützen sich auf die Masterarbeit von Deborah Fritzsche (2020, Universität Bern) mit dem Titel „Welche Wirkungen entfalten institutionelle Reformen in Kirchgemeinden? Eine Evaluation der Wirkungen von Kirchgemeindefusionen und übergemeindlicher Zusammenarbeit im Kanton Schaffhausen“.

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_7

141

142

7.1

7  Die Evaluation von institutionellen Politiken

 ubstanzielle Politiken gegenüber S institutioneller Politiken

Wie in Abschn. 2.1 bereits erwähnt, gibt es neben substanziellen öffentlichen Politiken auch institutionelle öffentliche Politiken. Substanzielle öffentliche Politiken wollen gesellschaftliche Probleme lösen, indem sie das Verhalten von Zielgruppen direkt durch inhaltliche Interventionen beeinflussen. Institutionelle öffentliche Politiken hingegen nehmen einen „Umweg“: Anstatt das Verhalten der Zielgruppen direkt zu beeinflussen, verändern sie das Institutionengefüge (Polity), in denen sich die Zielgruppen bewegen, und versuchen so bestimmte Ziele zu verwirklichen (Knoepfel und Bussmann 1997, S.  59–62; vgl. auch Abschn.  2.1). Sie werden daher auch als polity-policy bezeichnet (Kuhlmann und Wollmann 2013, S. 44). Grundsätzlich lassen sich zwei Arten von institutionellen öffentlichen Politiken unterscheiden: politische Institutionen und Institutionenpolitik. Politische Institutionen sind Regelsysteme auf der politischen Meta-Ebene, die Erwartungssicherheit und Stabilität schaffen (Sager 2009, S. 361; vgl. March und Olsen 1989). Dazu gehören beispielsweise das Wahl- und Regierungssystem, aber auch die direkte Demokratie und der Föderalismus (Sager 2009, S.  361). Institutionenpolitik bezieht sich hingegen auf die politische Meso-Ebene und betrifft primär Verwaltungsstrukturen und Organisationsmerkmale (Sager 2009, S. 361).

Kasten 7.1: Politische Institutionen und Institutionenpolitik

Es können zwei Arten von institutionellen öffentlichen Politiken unterschieden werden. • Politische Institutionen sind Regelsysteme auf der politischen MetaEbene, die den Handlungsrahmen für die Zielgruppen bestimmen. Ein Beispiel für eine politische Institution ist die direkte Demokratie, die den Bürger*innen bestimmte Rechte und Pflichten gibt und so einen Handlungsrahmen schafft. • Institutionenpolitik sind Regelungen von Verwaltungsstrukturen und Organisationsmerkmalen auf der politischen Meso-Ebene, die das Verhalten der Zielgruppen in gewissen Bahnen zu lenken versuchen. Ein Beispiel für eine Institutionenpolitik sind Dezentralisierungsreformen, bei denen beispielsweise Gemeinden mehr Kompetenzen kriegen, was ihr Verhalten verändert.

7.1  Substanzielle Politiken gegenüber institutioneller Politiken

143

Zu den Institutionenpolitiken zählen diverse Arten von Verwaltungsreformen. Diese lassen sich gemäß Kuhlmann und Wollmann (2013, S.  45–46), wie in Abb. 7.1 dargestellt, typologisieren. Als erstes lassen sich externe (außenorientierte) Verwaltungsreformen von internen (binnenorientierten) Verwaltungsreformen unterscheiden (Kuhlmann und Wollmann 2013, S.  45–46). Bei internen Verwaltungsreformen geht es um eine (Re-)Organisation der Verwaltungsstrukturen, -prozesse und des -personals. New Public Management (NPM) Reformen, bei denen betriebswirtschaftliche Elemente in der Verwaltung eingeführt werden, zählen hierzu. Bei externen Verwaltungsreformen hingegen geht es um die Neuordnung von Kompetenzen nicht innerhalb der Verwaltung selbst, sondern zwischen territorialen oder funktionalen Einheiten. Geschehen diese Kompetenzverschiebungen zwischen Gebietseinheiten, spricht man von intergouvernementalen Verwaltungsreformen (Kuhlmann und Wollmann 2013, S. 45–46). Findet diese Kompetenzverteilung zwischen zwei Gebietseinheiten der gleichen hierarchischen Stufe statt, spricht man von horizontalen intergouvernementalen Verwaltungsreformen. Dazu zählen klassischerweise die interkommunale Zusammenarbeit, in deren Rahmen beispielsweise zwei Gemeinden im Entsorgungsbereich kooperieren. Auch Gemeindefusionen gehören hierzu. Finden die Kompetenzverschiebungen jedoch zwischen Verwaltungseinheiten unterschiedlicher hierarchischer Stufen statt, spricht man von vertikalen intergouvernementalen Verwaltungsreformen. Dazu zählen beispielsweise Re- und Dezentralisierungen, bei denen beispielsweise Kompetenzen im Gesundheitsbereich von der Gemeindeebene auf

Verwaltungsreformen

Externe Verwaltungsreformen

Intergouvernemental

Vertikal (Re-/ Dezentralisierung, Regionalisierung etc.)

Horizontal (Gebietsfusion, interkommunale Zusammenarbeit etc.)

Interne Verwaltungsreformen

Intersektoral

NPM-Reformen etc.

Privatisierung, Auslagerung etc.

Abb. 7.1  Typologie von Verwaltungsreformen nach Kuhlmann und Wollmann (2013, S. 46). (Quelle: Eigene Abbildung nach Kuhlmann und Wollmann (2013, S. 46))

144

7  Die Evaluation von institutionellen Politiken

die nächst höhere Staatsebene übertragen werden respektive umgekehrt. Anders als bei intergouvernementalen Verwaltungsreformen werden bei intersektoralen Verwaltungsreformen Kompetenzen vom öffentlichen Sektor in den privaten Sektor ausgelagert oder diesem wieder entzogen. Typische Beispiele dieser Art von Verwaltungsreformen sind Privatisierungen von öffentlichen Betrieben sowie Public-Private-Partnerships (PPPs).

7.2

Die Evaluation institutioneller Politiken

Insbesondere die Institutionenpolitik stellt Evaluator*innen immer wieder vor Herausforderungen (Sager und Hinterleitner 2014, S. 449). Zum einen hat das mit der „indirekten Wirkungslogik“ von Institutionenpolitik zu tun (Sager 2009, S. 367). Diese führt dazu, dass die Wirkungsketten tendenziell komplexer sind als bei substanziellen Politiken und die Wirkungen daher schwerer erfassbar sind (Sager und Hinterleitner 2014, S. 449). Dazu kommt eine Vermischung von Subjekt und Objekt der Reform, da die Verwaltung die Reform sowohl ausführt als auch durch sie verändert wird (Bogumil 2007, S. 111; zitiert in: Färber et al. 2014, S. 1). Zum anderen kommt erschwerend hinzu, dass die Wirkungen von Institutionenpolitik oft komplett innerhalb der sich verändernden Verwaltungs- und Organisationsstrukturen selbst auftreten (Sager 2009, S.  367). Analytisch betrachtet verlaufen also die Wirkungsketten primär innerhalb des Evaluationsgegenstands „Umsetzungsorganisation“ (vgl. Abschn. 5.3) und enden im „Output“ (vgl. Abschn.  5.4). Die tatsächliche Wirkung von Policy, ihre Outcomes und Impacts sind in der Evaluation institutioneller Politik von nachgeordneter Bedeutung (Sager 2009, S. 367). Das in Kap. 5 und 6 vorgestellte lineare Wirkungsmodell eignet sich aus den dargelegten Gründen nur bedingt zur Evaluation von institutionellen öffentlichen Politiken. Kuhlmann und Wollmann (2011, 2013) haben deshalb ein alternatives Wirkungsmodell entwickelt, das den Eigenheiten von Institutionenpolitik eher gerecht wird. Darin modellieren die Autor*innen die Wirkungszusammenhänge von Institutionenpolitiken in der Form von drei aufeinanderfolgenden Schritten beziehungsweise „Schlaufen“ (Kuhlmann und Wollmann 2011, S.  480, siehe Abb.  7.2). Diese drei Schritte sind analytisch als sequenzielle Abfolge zu verstehen, die ineinander verflochten sind und jeweils in einer Ziel-Mittel-Beziehung zueinanderstehen. Gleichzeitig können die einzelnen Schritte als „Evaluationsgegenstände“ verstanden werden (Kuhlmann und Wollmann 2011, S.  481). Die dem Modell zugrunde liegende dreiteilige Hypothese ist, dass Institutionenpolitik bestimmte Veränderungen im institutionellen Gefüge bewirken will. Diese institu-

7.2  Die Evaluation institutioneller Politiken

145

2.Analyseschritt: Performanzevaluation

Unabhängige Variable

Abhängige Variable

Verwaltungsreformprogramm

Institutionelle Veränderung

PerformanzVeränderung

OutcomeVeränderung

Unabhängige Variable

Abhängige Variable

Unabhängige Variable

Abhängige Variable

1. Analyseschritt: Institutionenevaluation

3. Analyseschritt: Outcomeevaluation

Abb. 7.2  Drei-Schritte-Verfahren zur Evaluation von Institutionenpolitik. (Quelle: Kuhlmann und Wollmann (2011, S. 482, 2013, S. 48))

tionellen Veränderungen sollen sich dann positiv auf die Performanz auswirken. Schließlich sollen die Performanzverbesserungen (d. h. die Verbesserung der Outputs) dann zu den gewünschten Outcomes führen. Im Folgenden werden die einzelnen Schritte genauer beschrieben: (1) Im ersten Schritt geht es um die durch die Institutionenpolitik (bspw. eine Gemeindefusion) bewirkten institutionellen Veränderungen (Kuhlmann und Wollmann 2011, S.  480). Durch gezielte politische Maßnahmen sollen Veränderungen in Strukturen und Prozessen erwirkt werden. In Bezug auf die Evaluation dieser Veränderungen stellt sich in der ersten Schlaufe somit folgende Frage: „(Inwiefern) konnten die gewünschten institutionellen Veränderungen (nicht) erreicht werden?“ (Kuhlmann und Wollmann 2011, S. 481). Methodologisch gesprochen werden die institutionellen ­Veränderungen als abhängige Variable aufgefasst, während die Faktoren, welche die Zielerreichung beeinflussen, als unabhängige Variablen gesehen werden (Kuhlmann und Wollmann 2011, S.  481). Als Evaluationskriterien für die institutionellen Veränderungen bieten sich die vom linearen Modell für die Bewertung der Umsetzungsorganisation verwendeten Kriterien der Eignung und der strukturellen sowie finanziellen Nachhaltigkeit an (Sager und Hinterleitner 2014, S. 446). (2) Im zweiten Schritt geht es um Veränderungen in der Performanz, die sich ursächlich auf die erreichten institutionellen Veränderungen zurückführen lassen (Kuhlmann und Wollmann 2011, S. 480). Konkret sollen also Veränderungen in den Strukturen und Prozessen Veränderungen in den Leistungen bewirken (Kuhlmann und Wollmann 2011, S. 480). Die evaluationsleitende Frage lautet

146

7  Die Evaluation von institutionellen Politiken

in der zweiten Schlaufe: „(Inwiefern) hat das veränderte institutionelle Gefüge die Performanz verbessert?“ (Kuhlmann und Wollmann 2011, S.  481). Methodologisch gesprochen werden die institutionellen Veränderungen zur unabhängigen Variable, während die Performanz zur abhängigen Variable wird (Kuhlmann und Wollmann 2011, S.  481). Als Evaluationskriterien für die zweite Schlaufe können wiederum Evaluationskriterien des linearen Modells hinzugezogen werden, namentlich die Angemessenheit und die (leistungsbezogene) Effizienz (Sager und Hinterleitner 2014, S. 447). (3) Im dritten Schritt geht es schließlich um Veränderungen im gesellschaftlichen Umfeld, die sich aus der veränderten Performanz ergeben (Kuhlmann und Wollmann 2011, S. 481). In anderen Worten sind die Performanz-­Veränderungen letztlich nicht bloss Selbstzweck, sondern sollen im gesellschaftlichen Umfeld gewisse Wirkungen entfalten. Die evaluationsleitende Frage lautet in der letzten Schlaufe daher: „(Inwiefern) haben Veränderungen in der Performanz zu den gewünschten Outcomes geführt?“ (Kuhlmann und Wollmann 2011, S.  481). Die Veränderungen in der Performanz werden in methodologischer Hinsicht zur unabhängigen Variable, während die Outcomes zur abhängigen Variable werden (Kuhlmann und Wollmann 2011, S. 481). Als geeignetes Evaluationskriterium für die Outcome-Evaluation lässt sich das Wirksamkeitskriterium des linearen Wirkungsmodells adaptieren (Sager und Hinterleitner 2014, S. 447). Diese drei Schritte gilt es grundsätzlich bei der Evaluation von Institutionenpolitik analytisch auseinander zu halten. Doch ist eine trennscharfe Abgrenzung der drei Schritte in der Praxis oftmals nicht ohne weiteres möglich (Färber et al. 2014, S. 68). Kasten 7.2: Das Drei-Schritte-Verfahren zur Evaluation von Institutionenpolitik

Die Evaluation von Institutionenpolitik beinhaltet drei evaluative Schritte: • Mit der Institutionen-Evaluation werden als erstes die institutionellen Veränderungen bewertet, das heißt, es wird untersucht, inwiefern sich Strukturen und Prozesse in gewünschter Weise verändert haben. • In der Performanz-Evaluation geht es darum festzustellen, inwiefern die tatsächlich erfolgten institutionellen Veränderungen zu einer Verbesserung der Verwaltungsleistung, d. h. deren Performanz, geführt haben. • Mittels einer Outcome-Evaluation soll schließlich bewertet werden, inwiefern die Performanzveränderungen zu (den gewünschten) Wirkungen im gesellschaftlichen Umfeld geführt haben.

7.3 Beispiele der Evaluation institutioneller Reformen

7.3

147

Beispiele der Evaluation institutioneller Reformen

Generell sind empirische Wirkungsuntersuchungen von institutionellen öffentlichen Politiken seltener als diejenigen von substanziellen öffentlichen Politiken (Kuhlmann und Wollmann 2013, S. 48). Das liegt nicht zuletzt daran, dass deren Wirkungsketten sehr komplex und daher analytisch schwieriger zu erfassen sind. Dennoch sind solche Evaluationen von institutionellen Reformen nicht minder wichtig. In den letzten Jahrzehnten kam es in den öffentlichen Verwaltungen zahlreicher Länder vermehrt zu tiefgreifenden Umstrukturierungsprozessen (Kuhlmann und Wollmann 2013, S.  479–480). Nennenswert sind hier beispielsweise Verwaltungsreformen in Sinne des New  Public  Managements sowie die zunehmende Zahl an Gemeindefusionen. Da derartige Reformen häufig politisch nicht unumstritten sind, bedürfen gerade ihre Wirkungen einer eingehenden wissenschaftlichen Beurteilung (Kuhlmann et al. 2018, S. 5). Im Folgenden werden exemplarisch zwei Bereiche vorgestellt, in denen Evaluationen von Institutionenpolitik gemacht werden.

7.3.1 Evaluation von New Public Management Ein wichtiger Teil der Evaluationen von Institutionenpolitik beschäftigt sich mit den Wirkungen von sogenannten New  Public  Management Reformen (NPM-­ Reformen), die in den 1980er und 1990er aufkamen (Sager 2009, S. 365). Im Zuge der Wirtschaftskrise Ende 1970er wurden Stimmen laut, die eine effizientere öffentliche Verwaltung verlangten (Thom und Ritz 2017, S. 12–13). Dies führte zu einer Reihe von verwaltungsinternen Reformen, die zum Ziel hatten, betriebswirtschaftliche Konzepte für die öffentliche Verwaltung zu adaptieren (Bogumil et  al. 2006, S.  9). Unter dem Stichwort Neues Steuerungsmodell (NSM) beziehungsweise wirkungsorientierte Verwaltungsführung (WoV) wurden seit den 1990er auch in Deutschland und der Schweiz zahlreiche NPM-Reformen auf verschiedenen staatlichen Ebenen durchgeführt (Bogumil et al. 2006; Ladner 2005). Gemeinhin versprach man sich von NPM-Reformen eine Steigerung der Effizienz und Effektivität des Verwaltungshandelns sowie eine gesteigerte Kundenorientierung (Bogumil et al. 2006, S. 2; Lienhard et al. 2005, S. 7). Eine erste konzeptionelle Grundlage für die Evaluation von NPM lieferte Ritz (2003), der sich vorab auf die verwaltungsinterne Umsetzung der Reformen konzentrierte (Ritz 2003). Zahlreiche NPM-Reformen waren seither Gegenstand von Evaluationen, beispielsweise in den Studien von Bogumil et al. (2006) oder Ladner (2005).

148

7  Die Evaluation von institutionellen Politiken

Bogumil et  al. (2006) befragten eine große Zahl deutscher Kommunen, inwiefern sie in der letzten Dekade Verwaltungsreformen im Sinne des Neuen Steuerungsmodells (NSM) durchgeführt hätten und was diese bewirkt haben. Rund 80 % aller Kommunen, die ihre Verwaltung in diesem Zeitraum modernisierten, gaben an, sich an NSM-Ideen orientiert zu haben (Bogumil et al. 2006, S. 7). Die Autor*innen stellten fest, dass in westdeutschen Kommunen und Städten NPM-­ Ideen breiteren Anklang fanden als in ostdeutschen und kleineren Kommunen (Bogumil et al. 2006, S. 7). Bei der tatsächlichen Umsetzung von NSM-Instrumenten ergab sich aber ein relativ ambivalentes Bild: nur 2,5 % der Kommunen haben die wesentlichen Kernelemente des NPM flächendeckend in ihrer Verwaltung eingeführt (Bogumil et al. 2006, S. 8). Viele Kommunen haben hingegen nur in Teilbereichen NSM-Instrumente eingeführt (Bogumil et al. 2006, S. 8). In Bezug auf die Wirkungen finden die Autor*innen, dass die NSM-Reformen auf der Input-­ Seite tendenziell zu Einsparungen und einer Verbesserung der Effizienz geführt haben und auf der Output-Seite die Dienstleistungsorientierung und Wettbewerbsfähigkeit der einzelnen Kommunen häufig gesteigert haben (Bogumil et al. 2006, S. 25). Hingegen haben sich NSM-Reformen eher negativ auf die Mitarbeitendenzufriedenheit und das Verhältnis zwischen Politik und Verwaltung ausgewirkt (Bogumil et al. 2006, S. 8). Die Autor*innen kommen zum Schluss, dass der Erfolg von NSM-Reformen in Deutschland in den frühen 2000er-Jahren relativ durchzogen ist (Bogumil et al. 2006, S. 27–29). Auch Ladner (2005) zieht nach einer Dekade NPM-Reformen in der Schweiz eine Bilanz und kommt zu ähnlichen Schlüssen wie seine deutschen Kolleg*innen (Bogumil et al. 2006). Auch im Kanton Bern waren es Anfang der 2000er-Jahre eher die größeren politischen Gemeinden, die NPM-Reformen erwogen (Ladner 2005, S.  87). Zudem führten nur 15  % der Gemeinden, die NPM-Reformen ­vornahmen, NPM-Instrumente vollumfänglich und flächendeckend ein (Ladner 2005, S. 87). Wie erhofft kam es dank der NPM-Reformen häufig zu einer Verbesserung der Dienstleistungsqualität bei gleichbleibendem Dienstleistungsumfang (Ladner 2005, S. 89). Entgegen den Erwartungen führten die Reformen jedoch häufig nicht zu Kosteneinsparungen oder einer Verbesserung der Bürgernähe (Ladner 2005, S. 89).

7.3.2 Evaluation von Gemeindefusionen Seit den 1990er-Jahren haben Gemeindefusionen in ganz Europa stetig zugenommen (Kuhlmann und Wollmann 2011; Steiner und Kaiser 2017). Allein zwischen 2010 (11.442 Gemeinden) und 2020 (10.797 Gemeinden) sind in Deutsch-

7.3  Beispiele der Evaluation institutioneller Reformen

149

land 645 politische Gemeinden verschwunden, was 5,6  % aller Gemeinden entspricht (Destatis, Statistisches Bundesamt 2010, 2020). In der Schweiz nahm die Zahl politischer Gemeinden in der gleichen Zeitspanne um 382 ab (2010: 2584 Gemeinden; 2020: 2202 Gemeinden), was gar einem Rückgang von 14,8 % gleichkommt (Bundesamt für Statistik (BfS) 2020a, b). Grund für diesen stetigen Rückgang ist, dass viele politische Gemeinden aufgrund von wirtschaftlichen und demographischen Veränderungen je länger je mehr an ihre Leistungsgrenzen stoßen (Kuhlmann et al. 2018, S. 13). So haben viele Gemeinden beispielsweise zunehmend Mühe, Leistungen im Sozialhilfebereich zu erbringen (Steiner et  al. 2014, S. 86). Für viele Schweizer Gemeinden kommt noch hinzu, dass diese oftmals Schwierigkeiten haben, genügend Freiwillige zu finden, um ihre Milizbehörden zu besetzen (Ketterer et al. 2015, S. 222). Lange Zeit begnügte sich die Forschung zu diesen Fusionsprozessen mit der Analyse der Gründe für eine Fusion oder der Umsetzung der Reform, ohne den konkreten Wirkungen einer Gemeindefusion große Beachtung zu schenken (Kuhlmann und Wollmann 2011, S. 480). Erst in den letzten Jahren kamen vermehrt wissenschaftliche Studien auf, die sich – im Sinne einer Evaluation – mit den Wirkungen von Gemeindefusionen auseinandersetzten. In diversen Studien wurde seither untersucht, wie sich Gemeindefusionen auf die Leistungen der Verwaltung, deren Finanzen sowie auf die lokale Demokratie auswirken. Da die einzelnen Gemeindefusionen stark vom Kontext abhängen, in dem sie jeweils stattfinden, ist es relativ schwer, allgemeingültige Aussagen über die generellen Wirkungen von Gemeindefusionen zu treffen. Aufgrund der Erkenntnisse einer umfangreichen internationalen Meta-Studie über die Wirkungen von Gebietsreformen von Kuhlmann et al. (2018) können jedoch trotzdem einige allgemeine Aussagen dazu gemacht werden. Überwiegend positive Effekte von Gemeindefusionen lassen sich beispielsweise bei der Leistungsfähigkeit der Verwaltung ausmachen: so führen Gebietsfusionen häufig zu einer Verbesserung der Dienstleistungen in qualitativer sowie quantitativer Hinsicht und bringen oftmals einen erhöhten Professionalisierungsgrad mit sich (Kuhlmann et  al. 2018, S. 45–47). Eher ambivalent fallen die empirischen Studien in Bezug auf die finanziellen Wirkungen von Gemeindefusionen aus; nach wie vor ist sich die Forschung beispielsweise uneins, inwiefern Gemeindefusionen tatsächlich zu Kosteneinsparungen und einer Steigerung der Wirtschaftlichkeit führen (Kuhlmann et  al. 2018, S. 60). Eher negativ sind die Wirkungen von Gebietsfusionen auf die lokale Demokratie (Kuhlmann et al. 2018, S. 73). So sinkt die Wahlbeteiligung nach Gemeindefusionen häufig und auch das parteipolitische Engagement nimmt ab (Kuhlmann et al. 2018, S. 73). Die generellen Befunde zur Partizipation und zur Integration der fusionierten Gemeinden sind allerdings nicht abschließend aussagekräftig, da die Effekte sehr stark fall- und kontextabhängig sind (Ebinger et al. 2019).

150

7  Die Evaluation von institutionellen Politiken

Inwiefern Gemeindefusionen tatsächlich die gewünschten Wirkungen entfalten, hängt letztlich stark vom Kontext ab (Kuhlmann et al. 2018, S. 28). Nicht zuletzt scheint die Freiwilligkeit der Gemeindefusion deren Reformerfolg zu beeinflussen: Finden Fusionen auf freiwilliger Basis statt, sind beispielsweise die damit verbundenen Kosteneinsparungen häufig höher als bei Gemeinden, die zu einer Fusion gezwungen werden und auch die Einbindung der betroffenen lokalen Entscheidungsträger*innen wirkt sich tendenziell positiv auf die Kosten aus (Mughan 2019).

7.4

 earnings aus der Felderfahrung: Evaluationen L in einem Reformkontext: Machtspiele und Interessen

Die Evaluation von institutionellen Reformen stellt Evaluator*innen wie bereits erwähnt vor große Herausforderungen. Kuhlmann und Wollmann (2011, S. 484 ff.) sehen grundsätzlich zwei Probleme im Zusammenhang mit der Evaluation von institutionellen Reformen: ein Konzeptualisierungsproblem und ein Kausalitätsproblem. Das Konzeptualisierungsproblem liegt darin begründet, dass Verwal­ tungsreformen häufig eine Vielzahl, oftmals miteinander in Konflikt stehende, Ziele verfolgen. Es ist daher in der Regel schwierig, die einzelnen Reformziele zu identifizieren. Zudem lassen sich häufig nur schwer operationalisierbare und messbare Indikatoren für die Zielerreichung finden. Schließlich lassen sich auch nur schwer robuste empirische Daten zu den einzelnen Indikatoren finden. Das Kausalitätsproblem hingegen liegt darin begründet, dass sich gerade bei institutionellen Reformen Kausalzusammenhänge nur schwer feststellen lassen. Der Grund für dieses „Kausalitätsproblem“ liegt in der schieren Komplexität des Untersuchungsgegenstandes und dem damit verbundenen altbekannten Problem „zu viele Variablen bei zu wenig Fällen“ (Kuhlmann und Wollmann 2011, S.  484). Meist gibt es eine Vielzahl intervenierender Variablen, sodass es kaum möglich ist, die durch die Reform verursachten Wirkungen einwandfrei zu identifizieren (Bogumil et al. 2006, S. 4). Das Kausalitätsproblem führt in der Regel dazu, dass vor allem (Einzel-)Fallstudien bei der Evaluation von Institutionenpolitik eingesetzt werden. Dieses Vorgehen zieht gewisse methodologische Probleme nach sich, wie beispielsweise die beschränkte Generalisierbarkeit von Ergebnissen (Kuhlmann und Wollmann 2011, S. 484). Ein wiederkehrendes Problem bei NPM-Reformen ist der Anspruch der wirkungsorientierten Verwaltungsführung, da dieser Anspruch bedeutet, dass die verwendeten Steuerungsindikatoren sich tatsächlich auf die Wirkung der Verwaltungstätigkeit beziehen. Wie Kap. 6 jedoch gezeigt hat, sind Wirkungen nicht

7.4  Learnings aus der Felderfahrung: Evaluationen in einem Reformkontext …

151

einfach zu messen und zuzuordnen. Für die Steuerung von Verwaltungen müssen Informationen über deren Performanz zeitnah vorliegen. Dies ist bei Wirkungen häufig nicht gegeben, stellen sich die Effekte staatlicher Maßnahmen mithin doch erst mit erheblicher zeitlicher Verzögerung ein. Indikatorensysteme von NPM-­ Reformen greifen denn auch häufig auf Leistungen zurück. Die Vermischung von Leistungsperformanz mit Wirkungsperformanz ist aufgrund der Unterscheidung von Konzeptversagen und Umsetzungsversagen (Policy failure versus Implementation failure) problematisch, die wir Kap.  2, Abschn.  2.3 (Kasten 2.3) kennengelernt haben. Sind Leistungen nicht klar von Wirkungen getrennt, kann Performanz nicht korrekt zugeschrieben werden. Für die Leistungen sind die Umsetzungsakteur*innen verantwortlich, für die Wirksamkeit einer öffentlichen Politik hingegen die Entscheidbehörden, die die Policy verabschiedet haben. Da Steuerungsindikatoren in der wirkungsorientierten Verwaltungsführung von den Entscheidbehörden zur Steuerung der Umsetzungsbehörden verwendet werden, fällt die korrekte Zuschreibung ins Gewicht. In der Evaluation der NPM-Reform der Berner Stadtverwaltung (Ladner et al. 2007) finden die Autor*innen eine Fehlzuschreibung von Steuerungsindikatoren im Umfang von 86  %. Das heißt, dass 86  % der verwendeten Indikatoren nicht die Ziele maßen, deren Erreichung sie messen sollten. Die Fehlzuschreibung war am geringsten bei den Outputs, wo sie nur 4 % betraf. Jedoch wurden Outcome-Ziele zu 79 % und Impact-Ziele gar zu 91  % mit falschen Indikatoren gemessen (Sager et  al. 2010). Die Autor*innen schlugen angesichts dieser Zahlen die Anwendung klassischer Evaluationsmodelle substanzieller Politik vor, um die Fehlzuschreibung bei der Verwaltungsführung zu vermeiden. Dieselbe Evaluation zeigte auch eine Überforderung der kommunalen Parlamentsmitglieder mit den erhobenen Indikatoren, die deren Steuerungspotenzial weiter beeinträchtigte (Ritz und Sager 2010). Der Druck zur Messung, der mit NPM-Reformen verbunden ist, kann auch zu weiteren negativen Auswirkungen (sogenannten „performance paradoxes“) wie beispielsweise einer „tunnel vision“ führen (d. h. ein alleiniger Fokus auf die quantifizierten Aspekte und die Vernachlässigung der anderen Aspekte des öffentlichen Handelns) (van Thiel und Leeuw 2002). Nicht zuletzt sind Evaluationen von institutionellen Politiken politisch manchmal nicht erwünscht (Kuhlmann und Wollmann 2013, S.  48), da sie unter Umständen politisch brisante Ergebnisse zu Tage fördern und so politische Entscheide in Frage stellen können. All dieser Herausforderungen zum Trotz sollte vor derartigen Evaluationsvorhaben nicht a priori zurückgeschreckt werden. Die konzeptionellen Herausforderungen gewahr, bieten Evaluationen von Institutionenpolitik auch Chancen. So haben sauber durchgeführte Evaluationen das Potenzial, den oftmals konfliktgeladenen Diskurs rund um Gebietsreformen durch eine nüchterne

152

7  Die Evaluation von institutionellen Politiken

wissenschaftliche Perspektive zu versachlichen (Kuhlmann et al. 2018, S. 5). Zu beachten ist dabei, dass dem Kontext, in dem eine Reform stattgefunden hat, genügend Beachtung geschenkt wird und nicht vorschnell auf „Best Practice“-Modelle verwiesen wird, ohne die jeweiligen Gegebenheiten der betroffenen Gebiete genau zu berücksichtigen (Sager 2009, S. 370).

7.5

„ Wie vorgehen?“-Kasten: Planung einer Evaluation institutioneller Reformen

Die Evaluation von Institutionenpolitik umfasst drei unterschiedliche Stufen, wie sie in Abschn. 7.2 dargelegt wurden. Ein erster Schritt bei der Evaluation institutioneller Reformen ist somit zunächst die Festlegung der zu evaluierenden Stufen. Eine Bewertung mehrerer oder aller Stufen ist möglicherweise durchaus im Inte­ resse der Auftraggebenden. In diesem Fall ist es an den Evaluierenden einzuschätzen, inwiefern die drei Stufen tatsächlich erhoben werden können. Nach der Klärung der zu evaluierenden Stufen sind die einzelnen Evaluationsteile zu konzipieren und die Fragen nach der Schwerpunktsetzung innerhalb der Stufen sowie ihrer Verknüpfung zu klären. Bevor also eine Evaluation empirisch starten kann, müssen folgende konzeptionellen Grundlagen vorliegen. • Grenzen Sie den Untersuchungsgegenstand ein: Geht es um eine komplette Reform oder geht es um einzelne Aspekte einer Reform? Je besser Sie den Gegenstand der Evaluation eingrenzen können, umso leichter werden Ihnen die Identifikation und korrekte Zuordnung von Wirkungen fallen. • Erfassen Sie den politischen und sozioökonomischen Kontext der Reform. Je mehr Sie über die Bedingungen der Reform wissen, umso besser können Sie ein aussagekräftiges Wirkungsmodell für die Evaluation mit der Berücksichtigung der relevanten Einflussfaktoren entwickeln. • Klären Sie die Frage, welche Stufe oder Stufen der Evaluation von Institutionenpolitik Gegenstand der Evaluation ist oder sind. –– Geht es um die Bewertung der institutionellen Veränderungen, also um die Zielerreichung bei der Etablierung von neuen Strukturen und Prozessen? (Institutionen-Evaluation) –– Geht es um die Performanzveränderung durch die institutionellen Veränderungen, also ob es zu einer Verbesserung der Verwaltungsleistung gekommen ist? (Performanz-Evaluation) –– Geht es um die Wirkungen der Verwaltungsleistungen, also um den gesellschaftlichen Problemlösungsbeitrag der reformierten Verwaltungsleistung? (Outcome-Evaluation)

7.6 Illustratives Anwendungsbeispiel: Evaluation eines …

153

• Im Falle einer Institutionen-Evaluation (Stufe 1): –– Erfassen Sie, welche institutionellen Veränderungen die zu evaluierende Reform anstrebt. –– Formulieren Sie ein Wirkungsmodell mit den angestrebten institutionellen Veränderungen als abhängige Variable (vgl. Kap. 6). • Im Falle einer Performanz-Evaluation (Stufe 2): –– Erfassen Sie, welche Veränderungen der Verwaltungsleistungen die zu evaluierende Reform anstrebt. –– Formulieren Sie ein Wirkungsmodell mit den angestrebten Leistungsveränderungen als abhängige Variable. • Im Falle einer Outcome-Evaluation (Stufe 3): –– Erfassen Sie, welche gesellschaftlichen Wirkungen die zu evaluierende Reform anstrebt. –– Formulieren Sie ein Wirkungsmodell mit den angestrebten gesellschaftlichen Wirkungen der Reform als abhängige Variable. –– Wenn die Reform keine Outcome-Ziele formuliert, formulieren Sie das Wirkungsmodell ergebnisoffen, ohne auf spezifische gesellschaftliche Wirkungen zu fokussieren. • Wenn mehrere Stufen berücksichtigt werden, klären Sie die Frage, inwiefern die Stufen aufeinander aufbauen. –– Identifizieren Sie konkrete von der Reform angestrebte institutionelle Veränderungen als Erklärungsgrössen für bestimmte angestrebte Leistungsveränderungen. –– Identifizieren Sie konkrete von der Reform angestrebte Leistungsveränderungen als Erklärungsgrössen für bestimmte angestrebte oder nicht explizite gesellschaftliche Wirkungen.

7.6

I llustratives Anwendungsbeispiel: Evaluation eines Verwaltungsreformprogramms

Evaluation des Verwaltungsmodernisierungsprozesses CHANGE2 der Stadt Mannheim Im Jahr 2008 leitete die Stadt Mannheim unter dem Namen „CHANGE2“ einen umfassenden Verwaltungsmodernisierungsprozess ein. Im Sinne der wirkungsorientierten Verwaltungsführung war das Ziel von CHANGE2, die Verwaltung der Stadt Mannheim bis 2013 „zu einer der modernsten Deutschlands zu machen“ (Stadt Mannheim 2020). Im Jahr 2013 beauftragte die Stadt Mannheim das Forschungsinstitut für Öffentliche Verwaltung Speyer (FÖV), eine Evaluation des Verwaltungs-

154

7  Die Evaluation von institutionellen Politiken

modernisierungsprozesses durchzuführen (Färber et al. 2014). Die sowohl formativ als auch summativ angelegte Evaluation (vgl. Abschn.  3.4) sollte ermitteln, inwiefern die gesetzten Modernisierungsziele bereits erreicht werden konnten. Weiter sollte sie Handlungsempfehlungen für die Fortführung des Reformprozesses über das Jahr 2013 hinaus machen. Im Zentrum des Evaluationsinteresses standen konkret drei Modernitätsparameter sowie weitere allgemeine Ziele von Verwaltungsmodernisierungsprozessen, wie Bürger- und Kundenorientierung und eine Qualitäts- und Effektivitätssteigerung des Verwaltungshandelns. Bei Reformen, die eine Verwaltungsmodernisierung bezwecken, handelt es sich typischerweise um eine institutionelle öffentliche Politik, genauer gesagt um Institutionenpolitik. Analytisch ist das FÖV daher nach dem oben vorgestellte Drei-­ Schritte-­Verfahren für die Evaluation von Institutionenpolitik von Kuhlmann und Wollmann (2011) vorgegangen (Färber et al. 2014, S. 3; siehe Abschn. 7.1): 1. Institutionen-Evaluation: Als erstes evaluierte das FÖV, welche Veränderungen der Verwaltungsmodernisierungsprozess in organisatorischer, personeller und instrumenteller Hinsicht bewirkt hat. Um diese Veränderung abschätzen zu können, führte der FÖV Experteninterviews mit zentralen Akteur*innen der Stadtverwaltung durch. Diese Akteur*innen wurden beispielsweise dazu befragt, inwiefern sich der Personalbestand in der eigenen Abteilung aufgrund des Verwaltungsmodernisierungsprozesses verändert hat und wie sie diese Veränderungen bewerten. 2. Performanz-Evaluation: Als zweites schaute sich das FÖV an, welche Auswirkungen diese institutionellen Veränderungen auf die kommunale Leistungserbringung hatte. Als Datenquelle für die Feststellung der Veränderung der Performanz dienten wiederum die Experteninterviews. Darin mussten die Befragten u.  a. beurteilen, inwiefern die Verwaltungsmodernisierungsprozesse zu Veränderungen in Kosten, Koordinationsaufwand innerhalb der Verwaltung u. v. m. geführt hat. 3. Outcome-Evaluation: Als drittes untersuchte das FÖV, inwiefern die veränderte kommunale Leistungserbringung weiterführende Wirkungen aufwies. Dies konnte sie jedoch nur ansatzweise tun, da der Reformprozess bei der Evaluation noch nicht abgeschlossen war, weshalb es für eine eigentliche Outcome-­ Wirkungsmessung noch zu früh war. Zur Beantwortung der Evaluationsfragen führte das FÖV also einen Vorher-/ Nachher-­Vergleich (Längsschnittvergleich) für alle drei Evaluationsschritte durch. Der Längsschnittvergleich diente dazu zu ermitteln, inwiefern durch den Verwaltungsmodernisierungsprozess tatsächlich Veränderungen im institutionellen Gefüge, der Performanz (also den Leistungen) und den Outcomes erzielt werden

Bibliographie

155

konnten. Drei Modernitätskriterien (Organisationsstringenz, Organisationsentwicklung und Organisationsveränderung) sowie eine Reihe weiterer Kriterien dienten zur evaluativen Bewertung der festgestellten Veränderungen. Ergänzend zur Längsschnittanalyse machte das FÖV auch einen Querschnittsvergleich. Dabei verglich es das Modernisierungsprogramm der Stadt Mannheim mit gleichartigen Programmen dreier anderer deutscher Städte. Dieser Querschnittsvergleich diente dazu, den tatsächlichen Modernisierungsstand der Stadt Mannheim abzuschätzen. Die Studienleitenden zogen insgesamt eine positive Bilanz. Die selbstgesetzten Ziele wurden „überwiegend erreicht“ (Färber et al. 2014: VII–VIII). Zudem konnten viele grundsätzliche Probleme, die während den klassischen NPM-Reformen der 1990er-Jahren noch häufig bestanden, in Mannheim weitgehend vermieden werden (Färber et al. 2014, S. 65). Dies zeigte sich auch im Querschnittsvergleich, wo Mannheim im Gegensatz zu den anderen untersuchten Städten etwas besser abschnitt (Färber et al. 2014, S. 68). Die Institutionenevaluation zeigte, dass die meisten geplanten strukturellen Veränderungen tatsächlich auch umgesetzt werden konnten. So wurden neue Steuerungsgremien und -instrumente wie geplant implementiert. Die meisten strukturellen Veränderungen stießen auch auf Zustimmung und Akzeptanz, wurden jedoch teilweise für ihre fehlende Abstimmung und Schwerfälligkeit kritisiert. Die Performanzevaluation brachte weiter zu Tage, dass die diversen strukturellen Veränderungen zwar zu einer Verbesserung der Kommunikation und der Zusammenarbeit geführt haben (Färber et  al. 2014, S.  74). ­Trotzdem stellten Färber et al. (2014, S. 74, 77) gerade in Bezug auf diese beiden Bereiche auch noch großes Verbesserungspotenzial fest. Die Autor*innen sahen weiter davon ab, die Outcomes zu bewerten, da es dafür noch zu früh war. Die Studienleitenden bilanzierten, dass CHANGE2 in der Implementation soweit erfolgreich war, sich die modernisierte Stadtverwaltung nun aber noch in der Praxis beweisen müsse (Färber et al. 2014: VII–VIII).

Bibliographie Bogumil, J. (2007). Verwaltungspolitik im Bundesländervergleich  – Große Entwürfe statt inkrementalistische Reformen? In N. C. Bandelow & W. Bleek (Hrsg.), Einzelinteressen und kollektives Handeln in modernen Demokratien. Festschrift für Ulrich Widmaier (S. 111–123). Wiesbaden: VS Verlag für Sozialwissenschaften. Bogumil, J., Grohs, S., & Kuhlmann, S. (2006). Ergebnisse und Wirkungen kommunaler Verwaltungsmodernisierung in Deutschland – Eine Evaluation nach zehn Jahren Praxiserfahrung. In J.  Bogumil, W.  Jann & F.  Nullmeier (Hrsg.), Politik und Verwaltung (S. 151–184). Wiesbaden: VS. Bundesamt für Statistik (BfS). (2020a). Die 2202 Gemeinden in der Schweiz am 01.01.2020. https://www.atlas.bfs.admin.ch/maps/13/de/5282_229_228_227/23829.html. Zugegriffen am 03.04.2020.

156

7  Die Evaluation von institutionellen Politiken

Bundesamt für Statistik (BfS). (2020b). Die 2584 Gemeinden in der Schweiz am 31.12.2010. https://www.atlas.bfs.admin.ch/maps/13/de/5282_229_228_227/8701.html. Zugegriffen am 03.04.2020. Destatis, Statistisches Bundesamt. (2010). Daten aus dem Gemeindeverzeichnis. Verwaltungsgliederung in Deutschland am 31.12.2010. https://www.destatis.de/DE/Themen/Laender-Regionen/Regionales/Gemeindeverzeichnis/Administrativ/Archiv/Verwaltungsgliederung/31122010_Jahr.html Zugegriffen am 03.04.2020. Destatis, Statistisches Bundesamt. (2020). Daten aus dem Gemeindeverzeichnis. Verwaltungsgliederung in Deutschland am 31.03.2020. https://www.destatis.de/DE/Themen/Laender-Regionen/Regionales/Gemeindeverzeichnis/Administrativ/Archiv/Verwaltungsgliederung/Verwalt1QAktuell.html. Zugegriffen am 03.04.2020. Ebinger, F., Kuhlmann, S., & Bogumil, J. (2019). Territorial reforms in Europe: Effects on administrative performance and democratic participation. Local Government Studies, 45(1), 1–23. Färber, G., Salm, M., & Schwab, C. (2014). Evaluation des Verwaltungsmodernisierungsprozesses „CHANGE2“ der Stadt Mannheim (Nr. 276; Speyerer Forschungsberichte). Speyer: Deutsches Forschungsinstitut für Öffentliche Verwaltung Speyer. Ketterer, H., Güntert, S.  T., Oostlander, J., & Wehner, T. (2015). Das „Schweizer Milizsystem “: Engagement von Bürgern in Schule, Kirche und politischer Gemeinde. In T. Wehner & S. T. Güntert (Hrsg.), Psychologie der Freiwilligenarbeit. Motivation, Gestaltung und Organisation (S. 222–246). Berlin: Springer. Knoepfel, P., & Bussmann, W. (1997). Die öffentliche Politik als Evaluationsobjekt. In W.  Bussmann, U.  Klöti & P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 58–77). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Kuhlmann, S., & Wollmann, H. (2011). The evaluation of institutional reforms at sub-­ national government levels: A still neglected research agenda. Local Government Studies, 37(5), 479–494. Kuhlmann, S., & Wollmann, H. (2013). Verwaltung und Verwaltungsreformen in Europa: Einführung in die vergleichende Verwaltungswissenschaft. In Grundwissen Politik (Bd. 51). Wiesbaden: Springer VS. Kuhlmann, S., Seyfried, M., & Siegel, J. (2018). Wirkungen kommunaler Gebietsreformen: Stand der Forschung und Empfehlungen für Politik und Verwaltung. In Modernisierung des öffentlichen Sektors („Gelbe Reihe“) (1. Aufl., Bd. 42). Baden-Baden: Nomos Verlagsgesellschaft. Ladner, A. (2005). NPM und die Gemeinden. In A. Lienhard, A. Ritz, R. Steiner & A. Ladner (Hrsg.), 10 Jahre New Public Management in der Schweiz. Bilanz, Irrtümer und Erfolgsfaktoren (S. 81–92). Bern: Haupt. Ladner, A., Cemerin, M., Ritz, A., & Sager, F. (2007). Evaluation der Parlaments-und Verwaltungsreform „Neue Stadtverwaltung Bern (NSB)“: Schlussbericht zu Händen des Stadtrats und des Gemeinderats. Nr. 18. Bern: KPM-Schriftenreihe. Lienhard, A., Ritz, A., Steiner, R., & Ladner, A. (2005). 10 Jahre New Public Management in der Schweiz: Bilanz-Irrtümer-Erfolgsfaktoren. Bern: Haupt. March, J. G., & Olsen, J. P. (1989). Rediscovering institutions. The organizational basis of politics. New York/London: Basingstoke. Mughan, S. (2019). When do municipal consolidations reduce government expenditures? Evidence on the role of local involvement. Public Administration Review, 79(2), 180–192.

Bibliographie

157

Ritz, A. (2003). Evaluation von New Public Management – Grundlagen und empirische Ergebnisse der Bewertung von Verwaltungsreformen in der schweizerischen Bundesverwaltung. Bern: Haupt. Ritz, A., & Sager, F. (2010). Outcome-based public management and the balance of powers in the context of direct democracy. Public Administration, 88(1), 120–135. Sager, F. (2009). Die Evaluation institutioneller Politik in der Schweiz. In T. Widmer (Hrsg.), Evaluation. Ein systematisches Handbuch (1. Aufl., S. 361–370). Wiesbaden: VS Verlag für Sozialwissenschaften/GMV Fachverlage GmbH Wiesbaden. Sager, F., & Hinterleitner, M. (2014). Evaluation. In N. C. Bandelow & K. Schubert (Hrsg.), Lehrbuch der Politikfeldanalyse (3. ak. Aufl., S. 437–462). München/Berlin: de Gruyter Oldenbourg. Sager, F., Ritz, A., & Bussmann, K. (2010). Utilization-focused performance reporting. A three-step model for the development of matching goals and indicators. Public Money & Management, 30(1), 55–62. Stadt Mannheim. (2020). CHANGE2 I (2008–2013). https://www.mannheim.de/de/stadt-gestalten/verwaltungsmodernisierung/change2-i-2008-2013. Zugegriffen am 03.04.2020. Steiner, R., & Kaiser, C. (2017). Effects of amalgamations: Evidence from Swiss municipalities. Public Management Review, 19(2), 232–252. Steiner, R., Ladner, A., & Reist, P. (2014). Reformen auf kommunaler Ebene. In R. Steiner, A.  Ladner & P.  Reist (Hrsg.), Reformen in Kantonen und Gemeinden (S. 81–160). Bern: Haupt. van Thiel, S., & Leeuw, F. L. (2002). The performance paradox in the public sector. Public Performance & Management Review, 25(3), 267–281. Thom, N., & Ritz, A. (2017). Public Management. Innovative Konzepte zur Führung im öffentlichen Sektor (5. ak. Aufl.). Wiesbaden: Springer Gabler.

8

Evaluationsdesign

Schlüsselwörter

Evaluationsdesign · Quervergleich · Vorher-Nachher-Vergleich · Soll-Ist-­ Vergleich · Triangulation

In diesem Kapitel wenden wir uns der Auseinandersetzung mit dem Evaluationsdesign zu. Dazu erklären wir zuerst, was wir darunter verstehen (Abschn. 8.1) und stellen danach grundlegende Evaluationsdesigns vor (Abschn. 8.2). In Abschn. 8.3 widmen wir uns der Fallstudie. Es handelt sich dabei nicht um ein eigenständiges Evaluationsdesign, aber ein häufig anzutreffender Typ von Evaluation. Danach weisen wir auf die Hürden hin, die es bei der Festlegung von Vergleichsebenen zu beachten gilt (Abschn.  8.4) und geben Hinweise zur Auswahl eines geeigneten Evaluationsdesigns (Abschn. 8.5). Schließlich verdeutlichen wir an einem Praxisbeispiel das Konzept der Triangulation, das bei Evaluationsdesigns häufig anzutreffen ist (Abschn. 8.6)

8.1

Was ist ein Evaluationsdesign?

Das Evaluationsdesign „ist das konzeptionelle Herz einer Evaluation“ (Klöti und Widmer 1997, S. 182). Dieser Aussage würden die meisten Evaluator*innen zustimmen, wobei hinsichtlich des genauen Inhalts eines Evaluationsdesigns weniger

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_8

159

160

8 Evaluationsdesign

Einigkeit besteht. Allgemein kann das Evaluationsdesign als „die empirische Umsetzung einer evaluativen Fragestellung“ definiert werden (Klöti und Widmer 1997, S. 185). Für manche fängt aber die Bestimmung des Untersuchungsdesigns bereits bei der Definition der Problemstellung an und endet mit der Diskussion des Schlussberichts mit den Auftraggebenden der Evaluation (Stufflebeam und Shinkfield 2007, S. 493 ff.). Andere sehen das Besondere des Evaluationsdesigns gegenüber dem Design eines Forschungsprojekts in der Beteiligung von Auftraggebenden und Evaluierten im Prozess der Entwicklung dieses Designs. Für sie ist es die „Fremdbestimmtheit des Forschungsprozesses“, welche eine Evaluation von einem Grundlagenforschungsprojekt unterscheidet. Diese Fremdbestimmtheit liegt darin begründet, dass Evaluationen in der Regel in einem Auftragsverhältnis durchgeführt werden (Meyer 2007, S. 154). Wie wir in Abschn. 3.3 betont haben, verstehen wir die Evaluationsforschung als wissenschaftliche Disziplin der Bewertung. Damit die Bewertung wissenschaftlich fundiert ist, muss sie auf einer transparenten Bewertungsgrundlage aufbauen. Die beobachtete Situation wird mit der Bewertungsgrundlage verglichen. Wir sehen die Aufgabe eines Evaluationsdesigns daher darin, die Bewertungsgrundlage und damit die Basis des Vergleichs transparent zu machen: Evaluationsstudien bewerten politische Maßnahmen durch Vergleiche. Die Festlegung der Vergleichsebene ist ausschlagend dafür, wie die Evaluation angepackt wird. Unter einem Evaluationsdesign verstehen wir daher die Vergleichsebene, auf deren Grundlage die Bewertung der Maßnahme erfolgt. Das Evaluationsdesign macht deutlich, auf welche Referenzgröße sich die Bewertung der evaluierten Maßnahmen bezieht. Dort wird die Art des Vergleichs festgelegt. Die Transparenz und die Nachvollziehbarkeit der Bewertungsgrundlage unterscheidet die wissenschaftliche Evaluation von der Alltagsbeurteilung aus dem „Bauch“ heraus.

Kasten 8.1 Evaluationsdesign

Das Evaluationsdesign macht die Bewertungsgrundlage der Evaluation deutlich. Evaluationen bewerten politische Maßnahmen auf der Grundlage nachvollziehbarer Vergleiche. Die Festlegung der Vergleichsebene ist ausschlagend dafür, wie die Evaluation angepackt wird. Unter einem Evaluationsdesign verstehen wir daher eine Vergleichsebene, auf deren Grundlage die Bewertung der Maßnahme erfolgt.

8.2  Die Vergleichsebene als Grundlage des Evaluationsdesigns

8.2

161

 ie Vergleichsebene als Grundlage D des Evaluationsdesigns

Die Vergleichsebene ist die Grundlage eines Evaluationsdesigns. Es lassen sich drei Vergleichsebenen unterscheiden (Balthasar 2011, S.  209–210): Die erste ist der Quervergleich von zwei oder mehreren Untersuchungseinheiten, auch Querschnittsanalyse genannt (Klöti und Widmer 1997, S. 189). So kann etwa die Entwicklung der Betreuungsplätze für Vorschulkinder in zwei Städten verglichen werden. Eine davon zahlt kräftig Subventionen, bei der anderen ist dies nicht der Fall. Im Vergleich der zwei Städte können wir prüfen, welche Wirkung die Subvention hat. Die zweite Vergleichsmöglichkeit bietet der Vorher-Nachher-Vergleich, der auch Längsschnittanalyse genannt wird (Klöti und Widmer 1997, S.  190). Dort wird die Situation vor der Einführung einer Maßnahme mit derjenigen danach verglichen. Um beim skizzierten Beispiel zu bleiben, kann also untersucht werden, wie sich die Zahl der Betreuungsplätze in der einen Stadt im Vergleich zwischen vor und nach der Einführung der Subventionierung entwickelt hat. Als dritten Vergleichstyp bietet sich der Soll-Ist-Vergleich an. Bei dieser Art von Vergleich bilden die Zielvorstellungen der Gesetzgebenden, der Beteiligten oder der Betroffenen den Maßstab für die Bewertung der Maßnahme. Es wäre also möglich zu evaluieren, ob die Stadt mit der Einführung der Subvention ihr Ziel, zum Beispiel die Vermeidung von Wartelisten für Betreuungsplätze, erreicht hat. Alle Vergleichsmöglichkeiten haben Vor- und Nachteile sowie spezifische Aspekte, die es zu ­beachten gilt. Nachfolgend gehen wir auf den „Quervergleich“, den „Vorher-­ Nachher-­Vergleich“ und den „Soll-Ist-Vergleich“ als die klassischen Designs von Evaluationen ein. Zudem stellen wir die „konzeptionelle Triangulation“ als die Kombination von Vergleichsebenen vor. Ergänzend gehen wir auf die „Fallstudie“ als weiteres gängiges Untersuchungsdesign von Evaluationen ein. Wir legen dar, dass auch dieses Evaluationsdesign in der Regel auf einem Vergleich aufbaut.

8.2.1 Quervergleich Bei einem Quervergleich werden verschiedene Situationen zum gleichen Zeitpunkt miteinander verglichen. Es handelt sich also um eine statische Betrachtung (Stiftung Zewo 2013). Den Vergleich der Kinderbetreuung in zwei Städten haben wir als Beispiel bereits erwähnt. Die Abb. 8.1 illustriert diese Art des Vergleichs. In der Schweiz werden Evaluationen auf der Basis von Quervergleichen oft in Form von Kantonsvergleichen realisiert. Als Beispiel dafür kann das Rating der

162

8 Evaluationsdesign

Indikator

Zielgruppe Vergleichsgruppe

Start

Mitte

Ende

Zeit

Abb. 8.1  Quervergleich. (Quelle: Stiftung Zewo (2013))

kantonalen Gebäude-Klimapolitik dienen, welches im Auftrag des WWF Schweiz 2019 durchgeführt wurde (WWF Schweiz 2019). An der Klimakonferenz in Paris Ende 2015 wurde ein Übereinkommen verabschiedet, welches erstmals alle Staaten zur Reduktion der Treibhausgasemissionen verpflichtet. Das oben genannte Rating „soll aufzeigen, inwiefern die Kantone ihrer klimapolitischen Verantwortung gemäss diesem Übereinkommen gerecht werden“ (WWF Schweiz 2019, S. 4). Es soll sichtbar werden, wo die einzelnen Kantone stehen, in welchen Bereichen die Umsetzung vergleichsweise gut vorangekommen ist und wo der größte ­Handlungsbedarf besteht. Die Evaluation des WWF beschränkte sich auf die Beobachtung der Umsetzung der Klimapolitik bei Gebäuden. Es wurden sechs Indikatoren ausgewählt, um die gebäudebezogene Klimapolitik der Kantone zu beurteilen. Die ausgewählten Indikatoren mussten relevant, verfügbar, durch den Kanton beeinflussbar sowie verständlich sein. Einer davon war beispielsweise der Umfang der finanziellen Förderung des Kantons. Kantone, welche dem vorgenannten Ziel gerecht werden und ihre klimapolitische Verantwortung wahrnehmen, setzen gemäß Evaluation starke finanzielle Anreize, dass die Energieeffizienz der Gebäude und der Einsatz erneuerbarer Energien gesteigert werden (WWF Schweiz 2019). Die Gesamteinschätzung erfolgte auf der Basis der Aggregation der ausgewählten Indikatoren. Das Beispiel weist bereits auf die Stärken und die Schwächen von Quervergleichen hin. Eine wesentliche Stärke liegt darin, dass Quervergleiche eine hohe Plausibilität haben (vgl. Stiftung Zewo 2013). Es ist im beschriebenen Beispiel gut nachvollziehbar, dass und wie die Kantone verglichen wurden. Eine gute Nachvollziehbarkeit erleichtert die Kommunikation der Ergebnisse und damit die

8.2  Die Vergleichsebene als Grundlage des Evaluationsdesigns

163

Chance, dass die Evaluationsresultate selbst Wirkung zeigen. Auch lassen sich Quervergleiche im Prinzip einfach realisieren (Klöti und Widmer 1997, S. 190). Sie können nämlich oft verfügbare Daten nutzen. Ein besonderer Vorteil des Quervergleichs liegt darin, dass auf eine Messung der Situation vor der Einführung einer Maßnahme verzichtet werden kann. Bei der Evaluation der Gebäude-­ Klimapolitik war es also nicht notwendig, die Situation in den Kantonen vor der Unterzeichnung des Klimaabkommens 2015 zu erheben. Solche Erhebungen müssten nämlich oft im Nachhinein gemacht werden, was sich in der Praxis als schwierig erweist. Im Gegensatz dazu haben Quervergleiche „den bedeutenden Vorteil, dass Aussagen aufgrund einer Einmal-Erhebung möglich sind“ (Klöti und Widmer 1997, S. 190). Quervergleiche haben aber auch verschiedene Schwächen (vgl. Stiftung Zewo 2013). So ist es mit einer einmaligen Erhebung nicht möglich, etwas zur Nachhaltigkeit der Wirkung zu erfahren. Auch bleibt unbekannt, ob und wie sich die Situation in den verglichenen Gruppen im Vergleich zur Situation vor der Intervention verändert hat. Im geschilderten Fall ist es durchaus möglich, dass die Kantone, welche als vorbildlich aus der Evaluation hervorgehen, schon vor 2015 Vorbilder in der Energiepolitik waren und seither keine weiteren Anstrengungen unternommen haben. Weiter lässt sich durch einen Quervergleich der Zusammenhang zwischen der Intervention und der Wirkung nicht zuverlässig belegen. Zudem sind Quervergleiche stark von der Vergleichbarkeit der Untersuchungsobjekte abhängig, was in der Praxis eine Herausforderung darstellt (Klöti und Widmer 1997, S.  190). Auf das Beispiel bezogen bedeutet das, dass sich die Situation in den Kantonen nicht einfach vergleichen lässt. Eher städtische und eher ländliche Kantone, Kantone mit einer gesunden finanziellen Situation und solche, die von Budgetsorgen geplagt werden, haben ganz unterschiedliche Voraussetzungen für die Klimapolitik. Auch gibt es Kantone, deren durchschnittlicher Energieverbrauch pro Kopf deutlich tiefer ist als in anderen Kantonen. Dort stellt sich der Handlungsbedarf anders dar als in den übrigen Kantonen. In vielen Fällen fehlt es folglich an geeigneten Gruppen, welche als Basis für einen Quervergleich in einer Evaluation genutzt werden können. Manchmal kann dieses Problem durch geeignete Auswahlverfahren gelöst werden. So gibt es Beispiele für die Evaluation von Interventionsprogrammen im Bereich der Gesundheitsförderung, wo Schulklassen gezielt ausgewählt und in ein Pilotprojekt integriert wurden. Gleichzeitig wurde eine Kontrollgruppe mit ähnlichen Charakteristiken ausgewählt und untersucht. Auf diese Weise wurde die Grundlage für einen aussagekräftigen Quervergleich geschaffen (Meyer et al. 2014).

164

8 Evaluationsdesign

8.2.2 Vorher-Nachher-Vergleich Das Prinzip des Vorher-Nachher-Vergleichs respektive der Längsschnittanalyse besteht darin, den Zustand vor der Einführung einer Maßnahme demjenigen danach gegenüberzustellen und daraus auf die Wirkungen zu schließen. Im einfachsten Fall wird die Entwicklung eines Programms beschrieben und vor und nach der Intervention gemessen (Klöti und Widmer 1997, S. 191). Zusätzliche Messungen geben Auskunft über den Verlauf des Projekts während der Intervention. Dies macht die Abb. 8.2 deutlich. Als Beispiel für eine Evaluation, welche auf einem Vorher-Nachher-Vergleich aufbaut, kann die Evaluation der Reorganisation einer kantonalen Polizei dienen (Rieder et al. 2012). Im Jahr 2007 wurde im Schweizer Kanton Aargau im Zuge des Projekts „Horizont“ eine neue Polizeiorganisation aufgebaut, welche zusätzlich zur Kantonspolizei 18 regionale Polizeieinheiten schuf (Rieder et  al. 2012, S. 4). Mit der Evaluation sollte unter anderem geprüft werden, wie die Bevölkerung die Leistungen der Polizei vor und nach der Reorganisation beurteilt. Der Vergleich ergab eine Zunahme des Sicherheitsempfindens nach der Reorganisation. Zusätzlich stellten 43 Prozent der Bevölkerung eine Zunahme und zehn Prozent eine Abnahme der Polizeipräsenz fest. Der Rest hat keine Veränderung wahrgenommen oder keine Angabe gemacht (Rieder et al. 2012, S. 102). Eine der Stärken des Vorher-Nachher-Vergleichs besteht darin, dass mit dieser Art von Vergleichen leicht erkannt werden kann, ob eine Veränderung stattgefunden hat oder nicht (vgl. Stiftung Zewo 2013). Ein weiterer Vorteil ist, dass nicht auf andere Untersuchungseinheiten Bezug genommen werden muss. In der Praxis ist es nämlich immer schwierig, passende Daten einer Vergleichsgruppe zu finden, Indikator

Zielgruppe

Start

Mitte

Ende

Abb. 8.2  Vorher-Nachher-Vergleich. (Quelle: Stiftung Zewo (2013))

Zeit

8.2  Die Vergleichsebene als Grundlage des Evaluationsdesigns

165

insbesondere dann wenn diese Daten speziell erhoben werden müssen. Zudem lässt sich ein einfacher Vorher-Nachher-Vergleich in der Regel auch leicht realisieren. Allerdings ist es oftmals notwendig, einen „Trick“ anzuwenden. Häufig fehlt nämlich eine Vorher-Messung und diese lässt sich im Nachhinein nicht mehr realisieren. Daher werden die Zielgruppen oft befragt, wie sie die Entwicklung im Vergleich zu früher einschätzen. Wie wir bereits gesehen haben, wurde im oben erwähnten Beispiel der Reorganisation der Aargauer Polizei die Bevölkerung gefragt, ob sie im Vergleich zu vor drei Jahren eine Veränderung der Polizeipräsenz festgestellt habe (Rieder et  al. 2012, S.  102). Man kann in diesem Fall von einem „subjektiven“ Vorher-Nachher-Vergleich sprechen, weil die Beurteilung der Veränderung durch die Intervention auf einer subjektiven Einschätzung beruht. Problematisch bei einem einfachen Vorher-Nachher-Vergleich ist, dass unklar bleibt, ob und wie sich die Situation ohne die Intervention verändert hätte. Rahmenbedingungen und andere Einflussfaktoren können sich ändern und die Aussagekraft des Vorher-Nachher-Vergleichs beeinträchtigen (vgl. Stiftung Zewo 2013). So ist es denkbar, dass im Kanton Aargau gerade im Beobachtungszeitraum kriminelle Banden besonders intensiv wirken, so dass sich die Bevölkerung verunsichert fühlt. Das kann die Ergebnisse des Indikators „Sicherheitsempfinden“ beeinflussen. Wie beim Quervergleich ist es auch auf der Grundlage eines Vorher-­ Nachher-­Vergleichs nicht möglich, eine festgestellte Veränderung eindeutig einer Intervention zuzuordnen (Klöti und Widmer 1997, S. 205). Vieles kann die Veränderung des Sicherheitsempfindens im Kanton Aargau beeinflusst haben, die Aktivität von Banden kann ebenso wichtig sein wie die Reorganisation der Polizei. Zudem bleibt offen, wie sich die Situation weiterentwickelt. War die festgestellte positive Entwicklung des Sicherheitsempfindens zufällig und auf eine Messung beschränkt oder wird der Effekt nachhaltig sein? Wird der Effekt einer Intervention nur basierend auf einer Vorher-Nachher-Messung beurteilt, so kann das Ergebnis von den – oft zufällig zustande gekommenen – Messzeitpunkten abhängen (Klöti und Widmer 1997). Methoden der statistisch gestützten Zeitreihenanalyse können dabei helfen, solche trendbedingten sowie zufälligen Entwicklungen in den Griff zu bekommen (vgl. bspw. Widmer 1991). Solche Zeitreihenanalysen stellen aber hohe Anforderungen an die Datenreihen. So werden in den meisten Fällen mindestens 20 bis 50 aufeinander folgende Datenpunkte vor und nach der Intervention verlangt (Klöti und Widmer 1997, S. 207). Finden mehrere relevante Interventionen in kurzen Abständen statt, so sind zusätzliche Datenpunkte notwendig. Die letztgenannte Anforderung schränkt den Anwendungsbereich von Zeitreihenanalysen in der Evaluationsforschung ein. In der Praxis erfolgen politische Eingriffe nämlich selten als einfache Interventionen (Klöti und Widmer 1997, S. 207). Viel häufiger sind es Prozesse kleiner Schritte

166

8 Evaluationsdesign

mit Vorankündigung, differenzierter Fristsetzung, flankierenden Maßnahmen und häufigen Programmkorrekturen. Oft bleibt daher nur der pragmatische Weg, chronologische Entwicklungsverläufe einzelner Variablen in graphischen Darstellungen abzubilden und diese basierend auf Einschätzungen von Expert*innen und Evaluierenden zu interpretieren (Klöti und Widmer 1997, S. 208). Wenn sich beispielsweise eine Trendlinie vor und nach der Implementation einer Maßnahme völlig linear verhält, dann kann angenommen werden, dass die Intervention keinen Einfluss auf die abhängige Variable hat. Dieses pragmatische Vorgehen ist in der Evaluationsforschung weit verbreitet.

8.2.3 Soll-Ist-Vergleich Soll-Ist-Vergleiche gehen davon aus, dass politische Institutionen Ziele zu erreichen suchen. Mit einem solchen Evaluationsdesign wird evaluiert, ob die angestrebten Ziele erreicht wurden: „Es handelt sich um eine statische Betrachtung, bei der zu einem bestimmten Zeitpunkt die tatsächliche Situation der Zielgruppe mit der zu diesem Zeitpunkt geplanten Situation verglichen wird“ (Stiftung Zewo 2013). Bedingung für Soll-Ist-Vergleiche ist das Vorhandensein klarer Ziele (Abb. 8.3). Günstige Voraussetzungen für die Realisierung von Soll-Ist-Vergleichen finden sich bei der Evaluation von Verwaltungsreformprojekten (Rieder 2014; Ritz et al. 2016). Es gehört nämlich zum Wesen dieser Art von Reformprojekten, dass der Verwaltung Ziele gesetzt werden und dass geprüft wird, ob und in welchem Umfang diese Ziele erreicht wurden. Beispiele für solche Ziele sind etwa die Indikator

Soll Zielgruppe

Start

Mitte

Ende

Abb. 8.3  Soll-Ist-Vergleich. (Quelle: Stiftung Zewo (2013))

Zeit

8.2  Die Vergleichsebene als Grundlage des Evaluationsdesigns

167

Zufriedenheit der Kund*innen einer Behörde, die Anzahl der behandelten Gesuche pro Zeiteinheit oder die Reduktion der Mitarbeitendenfluktuation. Diese Form des Vergleiches ist einfach, der Aufwand für die Datenerhebung ist gering und das Ergebnis ist in der Regel klar (Stiftung Zewo 2013). Entweder die Ziele wurden erreicht oder das ist nicht der Fall. Eine häufig anzutreffende Schwierigkeit ist allerdings, dass entweder keine messbaren Ziele vorliegen oder dass es einen ganzen Zielkatalog ohne Priorisierung gibt. Beides erschwert eine Evaluation auf der Basis von Soll-Ist-Vergleichen oder verunmöglicht diese sogar. Problematisch ist zudem, dass der Bezug zur Ausgangslage meist fehlt: nur wenn der Ausgangswert bekannt ist, ist auch klar, ob und wie sich die Situation seit dem Beginn der Intervention verändert hat. Und auch dann bleibt unklar, ob die Zielerreichung durch die Intervention veranlasst wurde oder ob sie ohnehin erfolgt wäre. Ebenso unklar bleibt, ob das Ziel nachhaltig erreicht wurde oder ob die Zielerreichung zum Messzeitpunkt „zufällig“ gelungen ist (Stiftung Zewo 2013).

8.2.4 Konzeptionelle Triangulation Die Ausführungen zum „Quervergleich“, zum „Vorher-Nachher-Vergleich“ und zum „Soll-Ist-Vergleich“ haben deutlich gemacht, dass alle diese Evaluationsdesigns nicht in der Lage sind, die Wirkungen von Maßnahmen zuverlässig zu beurteilen. Eine Möglichkeit, die Unzulänglichkeiten der einzelnen Vergleichsebenen etwas zu vermindern, bietet die Kombination von Vergleichsebenen an. Andreas Balthasar und Carlo Knöpfel (1994) haben dafür den Begriff der „konzeptionellen Triangulation“ geprägt (Balthasar und Knöpfel 1994). Konzeptionelle Triangulation bedeutet in der Evaluationsforschung, dass die Wirkungen einer einzigen Maßnahme mit einer Kombination unterschiedlicher Vergleichsebenen analysiert werden. Der Begriff „Triangulation“ stammt aus der militärischen Navigation. Er bezeichnet eine Strategie, um ein Objekt ausgehend von verschiedenen Referenzpunkten exakt verorten zu können. Donald T.  Campbell und Donald W.  Fiske (1959) haben das Konzept in die Sozialwissenschaften übertragen (Klöti und Widmer 1997, S. 210). In den siebziger Jahren wurde die Idee der Triangulation von Norman K.  Denzin (1970) weiterentwickelt. Er unterscheidet vier Triangulationstypen: „Daten-Triangulation“ bezeichnet den Einbezug verschiedener Datenquellen in eine Untersuchung; „Investigator-Triangulation“ meint den Einbezug unterschiedlicher Forschender, um Verzerrungen bedingt durch den Beobachtenden zu vermeiden; „methodologische Triangulation“ besteht in der Kombination unterschiedlicher Erhebungstechniken; bei der „Theorien-Triangulation“

168

8 Evaluationsdesign

werden die Daten mit verschiedenen Theorien konfrontiert und so die Erklärungskraft der einzelnen Ansätze geprüft (Klöti und Widmer 1997, S.  211, vgl. Flick 2011). Diese Typologie wurde um eine fünfte Ausprägung ergänzt, die „konzeptionelle Triangulation“ (Balthasar und Knöpfel 1994), die sich auf die Kombination von Vergleichsebenen fokussiert. Vor allem zwei Aspekte lassen die konzeptionelle Triangulation als erfolgversprechendes Vorgehen bei Evaluationen erscheinen. Einerseits fließen auf diese Weise Informationen aus verschiedenen Teiluntersuchungen in die Gesamtbewertung ein. Andererseits lassen sich auf diese Weise Zusammenhänge oftmals besser erklären und verstehen. Beim ersten Aspekt profitiert die Evaluation davon, dass durch unterschiedliche Vergleichsebenen in Teiluntersuchungen ein umfassenderes Gesamtbild entsteht. Der zweite Aspekt betont, dass durch unterschiedliche Vergleichsebenen die Abhängigkeit der Ergebnisse von einzelnen Blickwinkel relativiert wird (Klöti und Widmer 1997, S. 211). Durch die Kombination von Vergleichen entsteht allerdings keine „Hauptwirklichkeit“ (Lamnek 1989). Vielmehr werden komplementäre Bilder der Realität erkennbar, die wie der Übergang von einem zweidimensionalen zu einem dreidimensionalen Bild zu verstehen sind. In dieser Hinsicht betonen Klöti und Widmer: „Durch unterschiedliche Zugangsweisen wird die Abhängigkeit der Ergebnisse von einzelnen Vergleichsebenen relativiert“ (1997, S. 211). Übereinstimmende Triangulationsergebnisse geben somit nicht ein genaueres, sondern eher ein differenzierteres Bild der Realität. Eine klassische Anwendung einer Triangulation stellen experimentelle und quasi-­experimentelle Evaluationsdesigns dar, wie wir sie in Kap. 4 kennengelernt haben. Bei diesen Designs werden Vorher-Nachher-Vergleiche und Quervergleiche kombiniert. Es findet eine Messung vor der Intervention und eine nach der Intervention statt. Zusätzlich gibt es eine Kontrollgruppe, welche ohne Intervention auskommt. Durch den Vergleich der Ergebnisse der zwei Gruppen zu zwei Zeitpunkten wird der Effekt der Intervention isoliert. Die Kombination von Vergleichsebenen beschränkt sich nicht auf experimentelle oder quasi-experimentelle Untersuchungsanlagen. Dies kann an einem Beispiel einer Evaluation der Waldpolitik verdeutlicht werden. Dabei wurden die Auswirkungen einer neuen Art von Beratung von Waldeigentümer*innen evaluiert (Walker et  al. 2016). Ziel der Intervention war es, die Beratung von Waldeigentümer*innen so zu gestalten, dass diese den Wald nachhaltiger nutzen, das heißt insbesondere die Biodiversität fördern, die Schutzfunktion des Waldes stabilisieren und die Ressource Holz besser nutzen. Die Methodik, mit welcher die Evaluation durchgeführt wurde, stützte sich auf mehrere Vergleichsebenen (Walker et al. 2016, S. 6). Zentral dabei waren Vergleiche zwischen drei Regionen, welche in das Reorganisationsprojekt ein-

8.2  Die Vergleichsebene als Grundlage des Evaluationsdesigns

169

bezogen waren, und drei Regionen, die als Vergleichsgruppe dienten. Für die Vergleichsgruppe wurden Regionen ausgewählt, welche in Bezug auf die Organisation und die biogeographischen Verhältnisse den Regionen, die am Projekt beteiligt waren, ähnlich sind (Walker et  al. 2016, S.  19). Weiter wurde die Evaluation als Längsschnittvergleich über die dreijährige Laufzeit des Projekts konzipiert: Mit über die Laufzeit verteilten Erhebungen sollte erstens ­gewährleistet werden, dass auch Reaktionen der Akteur*innen erfasst werden, welche sich erst mit der Zeit einstellen. Zweitens sollte auf diese Weise sichergestellt werden, dass externe Einflüsse (z. B. außerordentliche Schadensereignisse, massive Veränderungen auf dem Holzmarkt) besser kontrolliert werden können (Walker et al. 2016, S. 20). Es fanden Erhebungen zu vier Zeitpunkten statt: Eine Nullmessung wurde in der zweiten Hälfte 2013 angesetzt. Dann fanden zwei Zwischenmessungen statt, die eine Ende 2014, die andere in der zweiten Hälfte 2015. Die Schlussmessung wurde Anfang 2016 durchgeführt (Walker et al. 2016, S. 20). Die Abb.  8.4 verdeutlicht das Evaluationsdesign des Projekts „Beratung von Waldeigentümern“. Die Regionen in der oberen Hälfte sind im Gegensatz zu jenen in der unteren Hälfte in den Genuss einer neu konzipierten Beratung gekommen. Erkennbar sind weiter die vier Messzeitpunkte. Als Wirkung wurde die nachhaltige Nutzung des Waldes bewertet. Der Vorteil einer Triangulation liegt in der bereits erwähnten Tatsache, dass unterschiedliche Zugangsweisen die Abhängigkeit der Ergebnisse von einzelnen

2013

2014

2015

2016

Vergleichsregionen

+ Grundberatung

+ Grundberatung

Nachhaltige Nutzung

Quervergleich

Quervergleich

Nachhaltige Nutzung

Nullmessung

+ Grundberatung Nachhaltige Nutzung

Quervergleich

Quervergleich

Regionen mit neu konzipierter Beratung

Vorher-Nachher-Vergleich

Nachhaltige Nutzung

Zwischenmessung

Zwischenmessung

Abschlussmessung

Abb. 8.4  Evaluationsdesign des Projekts „Beratung von Waldeigentümern“. (Quelle: Eigene Abbildung auf Basis von Walker et al. (2016))

170

8 Evaluationsdesign

Vergleichsebenen reduzieren. Zudem wird das Bild der Zusammenhänge mit diesem Evaluationsdesign umfassender. Auch ist die Wahrscheinlichkeit größer, dass identifizierte Effekte tatsächlich Resultat der beobachteten Intervention sind. Allerdings sind Evaluationen, welche verschiedene Vergleichsebenen einbeziehen, aufwändiger und methodisch anspruchsvoller.

Kasten 8.2 Triangulation

Die Triangulation ist ein Kernelement der Evaluationspraxis, wobei die nachfolgenden fünf Typen der Triangulation unterschieden werden können (Klöti und Widmer 1997, S. 211): • Bei der „Daten-Triangulation“ werden unterschiedliche Datenquellen genutzt, um die Gültigkeit der einer Evaluation zugrunde liegenden Evidenz zu stärken. • Die „Investigator-Triangulation“ umfasst die Analyse des Untersuchungsgegenstands durch verschiedene Evaluator*innen, um subjektive Einschätzungen zu vermeiden. • Wird eine „methodologische Triangulation“ angestrebt, werden unterschiedliche Methoden zur Analyse des Untersuchungsgegenstands eingesetzt. • Die „Theorien-Triangulation“ umfasst die Konfrontation der Evidenz mit unterschiedlichen Theorien. • Bei der „konzeptionellen Triangulation“ werden verschiedene Vergleichsebenen kombiniert. Übereinstimmende Triangulationsergebnisse geben nicht ein genaueres, sondern ein differenzierteres Bild der Realität.

8.3

Fallstudie

Eine Fallstudie ist kein eigenständiges Evaluationsdesign, denn sie baut auf den Vergleichsebenen auf, welche wir im vorangegangen Abschnitt kennengelernt haben. Da aber Evaluationen sehr oft einzelne oder mehrere Fallstudien beinhalten, gehen wir an dieser Stelle darauf ein. Fallstudien verfolgen das Ziel, die Wirkungen und die Wirkungsweise einer Intervention ausgehend von einer detaillierten

8.3 Fallstudie

171

Beschreibung der Situation zu erkennen und zu verstehen. Im Kern geht es um das Nachzeichnen und Interpretieren von Wirkungszusammenhängen: „Tatsächlich geht es […] besonders darum, ein ganzheitliches und nur damit realistisches Bild der sozialen Welt zu zeichnen. Mithin sind möglichst alle für das Untersuchungsobjekt relevanten Dimensionen in die Analyse einzubeziehen“ (Lamnek 1989, S. 5, zitiert in Klöti und Widmer 1997, S. 199). Die Folgen einer Intervention werden im Detail beschrieben und untersucht. Die Bewertung erfolgt meist vor dem Hintergrund der Ziele, welche die Intervention erreichen wollte. Einzelfallstudien basieren in der Evaluationsforschung daher vielfach auf einem (impliziten) Soll-Ist-­ Vergleich. Regelmäßig finden sich aber auch vergleichende Fallstudien (vergleiche Klöti und Widmer 1997, S. 202 ff.). Dabei werden mehrere Einzelfälle gegenübergestellt und die Bewertung erfolgt im Quervergleich. Die Fälle können sich zum Beispiel im Hinblick auf die Maßnahmen selbst oder die Umsetzung der Maßnahmen unterscheiden. Die Fallstudie kann aber auch die Entwicklung eines Phänomens über die Zeit hinweg analysieren, indem sie eine Längsschnittperspektive einnimmt. Ob eine Evaluation, die auf einer oder mehreren Fallstudien basiert, geeignet ist, die offenen Evaluationsfragen zu beantworten, hängt in erster Linie von der Auswahl der Fälle ab. Ausgehend von unterschiedlichen Auswahlkriterien unterscheidet das amerikanische General Accounting Office (GAO) (1990) verschiedene Arten von Fallstudien (vergleiche auch: Klöti und Widmer 1997, S. 200–201): Erstens können Extreme ausgewählt werden mit dem Ziel, Hinweise auf die Ursachen für die großen Varianzen zu bekommen. Zweitens können Musterbeispiele untersucht werden, um Ursachen für den Erfolg zu identifizieren. Die Analyse kritischer Fälle kann drittens dazu dienen, Probleme zu erkennen. Durch die Beschreibung von Fällen, welche ein spezielles Cluster vertreten, lassen sich viertens verschiedene Programmtypen vergleichen. Fünftens können typische Fälle ausgewählt und dadurch untersucht werden, welches typische Wirkungszusammenhänge sind. Weiter ist es möglich, sich auf besonders illustrative Fälle zu konzentrieren, in der Absicht Probleme oder Chancen von Programmen besonders eindrücklich darzulegen. Als letzten Typ unterscheidet das GAO (1990) Spezialfälle. Dabei wird ein herausragendes Ereignis untersucht. Es kann sich beispielsweise um einen Fall handeln, der besonders viel Aufsehen erregt hat. Fallstudien bieten den Vorteil, dass die Untersuchung nicht auf isolierte Variablenzusammenhänge beschränkt wird. Vielmehr ist es möglich, eine Vielfalt von Einflussfaktoren im Auge zu behalten. Fallstudien können sehr flexibel eingesetzt werden und sie erlauben es, zahlreichen unterschiedlichen Wirkungsketten gleichzeitig nachzugehen. Fallstudien sind darum dann besonders angebracht,

172

8 Evaluationsdesign

wenn die Wirkungszusammenhänge noch wenig bekannt sind und großer Wert auf Flexibilität gelegt werden soll (Klöti und Widmer 1997, S. 201). Allerdings haben Fallstudien auch wichtige Schwächen. Mit Fallstudien lassen sich zwar gewisse Wirkungszusammenhänge als wenig wahrscheinlich bezeichnen, weil sie in den untersuchten Fällen nicht beobachtet werden. Dennoch bleibt aber ein breiter Raum von Erklärungsmöglichkeiten. Die Verlässlichkeit der aufgezeigten Zusammenhänge ist vielfach ungesichert. Zudem bleibt die Übertragbarkeit der aus Fallstudien gewonnenen Aussagen auf andere Fälle limitiert. Dennoch sind Fallstudien ein sehr wertvolles Design der Evaluationsforschung, denn sie helfen auf der Suche nach der Gesetzmässigkeit des Typischen (Bude 2003, S. 61).

Kasten 8.3 Fallstudien

Eine Fallstudie im Kontext einer Evaluation dient dazu, ausgehend von einer detaillierten Beschreibung eines Falles in seinem Umfeld, die Wirkung und die Wirkungsweise einer Intervention zu verstehen und zu beurteilen. Im Kern geht es bei Fallstudien um die Aufschlüsselung von Wirkungszusammenhängen. Einzelfallstudien sind oft als Soll-Ist-Vergleiche ange­ legt. Regelmäßig finden sich aber auch vergleichende Fallstudien. Dabei werden mehrere Einzelfälle gegenübergestellt und die Bewertung erfolgt im Quervergleich.

8.4

 earnings aus der Felderfahrung: Was sind die L Hürden bei Vergleichen?

Verschiedene Faktoren führen in der Praxis dazu, dass die Erstellung einer vergleichenden Evaluation mitunter eine schwierige Aufgabe darstellt. Die drei nachfolgenden Hürden sind dabei besonders relevant: 1) eine erschwerte Vergleichbarkeit aufgrund unterschiedlicher Kontexte, 2) Vorbehalte der Evaluierten gegenüber Vergleichen und 3) eine ungenügende Datengrundlage. Erstens ist eine vergleichende Evaluation immer auch mit der Herausforderung verbunden, die untersuchten Einheiten  – seien es beispielsweise unterschiedliche Organisationen oder politische Maßnahmen – trotz unterschiedlicher Umsetzungskontexte überhaupt vergleichbar zu machen. Anders als in einem experimentellen Design, wo alle äußeren Einflüsse auf die Evaluationsgegenstände kontrolliert

8.4 Learnings aus der Felderfahrung: Was sind die Hürden bei Vergleichen?

173

­ erden könnten, müssen in Politikevaluationen, die nicht in Form von Experiw menten aufgebaut sind, genau diese externen Einflussfaktoren in die Bewertung miteinbezogen werden. So ist beispielsweise die Akzeptanz von Alkoholpräventionsmaßnahmen in Gebieten mit einer starken Alkoholindustrie voraussichtlich niedriger als in Gebieten ohne solche wirtschaftlichen Interessengruppen. Das wirkt sich wiederum nicht selten auf die Vollzugsaktivitäten der betroffenen Behörden aus, da der politische Wille, die Präventionspolitik auch wirklich umzusetzen, unterschiedlich hoch ist. Bei einem Quervergleich verschiedener Vollzugssysteme in unterschiedlichen Regionen muss daher solchen kontextuellen Einflussfaktoren Beachtung geschenkt werden, um gültige Bewertungen vornehmen zu können. Zur Gruppe der kontextbedingten Hürden gehören auch strukturelle Unterschiede bezüglich der Verteilung von Kompetenzen in Mehrebenensystemen. Gerade in föderalen Systemen sind Kompetenzen teilweise unterschiedlich verteilt: So kann in der Schweiz in praktisch jedem Politikbereich eine unterschiedliche Kompetenzteilung zwischen der kantonalen und den kommunalen Behörden existieren. Dasselbe gilt beispielsweise für Deutschland, wo im selben Politikbereich je nach Bundesland den Kommunen eine andere Rolle zukommen kann. Vergleichen wir in solch unterschiedlichen Kontexten den Vollzug einer Politik, wird ein Vergleich zwangsläufig durch die strukturellen Unterschiede erschwert. Zweitens können Vorbehalte der Evaluierten gegenüber Vergleichen zu einem Hindernis werden. Dies ist insbesondere bei Quervergleichen der Fall, wo verschiedene Untersuchungseinheiten einander gegenübergestellt werden und es somit auch unterschiedliche Gruppen von Evaluierten gibt. Fällt die Bewertung einer Gruppe von Evaluierte (bspw. in Region A) im Vergleich mit der Gruppe von Evaluierten in Region B negativ aus, kann dies politische Folgen für die Finanzierung und somit die Umsetzung der betroffenen Politik in Region A haben. Evaluierte können aus diesem Grund bei Quervergleichen ihre Mitarbeit zumindest teilweise verweigern oder versuchen, mit geschönten Daten die Gültigkeit der Bewertung zu vermindern. Dieser Gefahr gilt es mittels gezielter Kommunikation zu den Zielen der Evaluation sowie durch eine diplomatische Formulierung allfälliger Kritikpunkte vorzubeugen. Drittens kann auch die Zugänglichkeit oder die mangelhafte Qualität von Daten insgesamt eine Erschwernis für die Vergleichbarkeit sein. Die Problematik der Datenverfügbarkeit ist wie zuvor beschrieben bei verschiedenen Vergleichstypen unterschiedlich ausgeprägt: Bei Querschnittsvergleichen ist dies häufig ein weniger großes Problem als bei Längsschnittvergleichen. Bei letzterer Vergleichsart besteht die besondere Herausforderung darin, dass verwendbare Daten aus einer Vor-

174

8 Evaluationsdesign

her-Messung vorhanden sind, da die notwendigen Informationen häufig nicht im Nachhinein erfasst werden können.

Kasten 8.4 Hürden bei Vergleichen

Die Vergleichbarkeit in der Evaluationspraxis kann aufgrund von kontextbedingten Unterschieden, aufgrund von Vorbehalten bei Evaluierten oder aufgrund einer ungenügenden Datenlage erschwert werden. Unterschiede in Kontexten können beispielsweise unterschiedlich starke politische Interessensgruppen oder unterschiedliche Kompetenzverteilungen zwischen den verschiedenen Verwaltungsebenen in Mehrebenensystemen umfassen, die letztlich zu schwer vergleichbaren Bedingungen führen. Vorbehalte bei Evaluierten können von der Angst herrühren, gerankt zu werden, was bei den als schlechter Beurteilten politischen Folgen haben kann. Schließlich kann eine schlechte Datenlage als Folge einer kaum umsetzbaren Datenerhebung (bspw. bei einer fehlenden Vorher-­Messung bei Längsschnittvergleichen) zu einem Problem für vergleichende Evaluationen werden.

8.5

„ Wie vorgehen?“-Kasten: Wie wählt man ein Untersuchungsdesign aus?

Die Wahl des geeigneten Untersuchungsdesigns ist eine anspruchsvolle Aufgabe. Ausschlaggebend für die Auswahl sind in erster Linie die Zielsetzung der Evaluation sowie die verfügbaren Datengrundlagen. In der Abb.  8.5 sind die Voraussetzungen sowie Stärken und Schwächen unterschiedlicher Evaluationsdesigns zusammengestellt.

8.5  „Wie vorgehen?“-Kasten: Wie wählt man ein Untersuchungsdesign aus? Evaluationsdesign Anforderungen und Ziele Quervergleich

Stärken

Schwächen

Beurteilung der Wirkungen durch den Vergleich von Untersuchungseinhei ten mit und ohne Intervention oder durch Vergleich von Untersuchungseinheiten mit unterschiedlichen Interventionen oder von Untersuchungseinheiten mit derselben Intervention

− hohe Plausibilität und leichte Nachvollziehbarkeit der Ergebnisse − überschaubarer Aufwand − Einmal-Erhebung genügt

− Keine Aussage zur Nachhaltigkeit der Wirkungen möglich

− Vergleichbarkeit der Gruppen muss gegeben sein − Daten von Einheiten ohne Intervention oder mit anderen oder derselben Interventionen sind notwendig − Quervergleich wird dann angewandt, wenn Daten zur Ausgangslage fehlen oder nur mit grossem Aufwand beschafft werden können

175

− Keine Aussage zum Wirkungszusammenhang − Es gibt keinen Bezug zur Ausgangslage − Echte Vergleichsgruppen fehlen oft − Vergleichsgruppen können auch konstruiert werden, das ist aber methodisch anspruchsvoll − Es gibt keinen Bezug zu den gesetzten Zielen

− Die Wahl einer zuverlässigen Vergleichsgruppe ist nicht leicht

Vorher-Nachher-Vergleich Beurteilung der − Kommt dann zum Einsatz, Wirkungen durch den wenn Daten zur Vergleich einer Ausgangslage vorhanden Situation vor der sind oder mit vertretbarem Einführung einer Aufwand beschafft werden Intervention und können danach bei ein und derselben Untersuchungseinheit.

− Es muss nicht auf andere Gruppen Bezug genommen werden − Es wird deutlich, ob eine Intervention einen Beitrag zur angestrebtenWirkung geleistet hat oder nicht − Aufwand für die Datenerhebung ist vertretbar − Notwendiges methodisches Know-how ist überschaubar

− Massnahmen und Rahmenbedingungen können sich im Zeitablauf ändern − Vorher-Messung muss verfügbar sein − Unklar, wie sich die Situation verändert hätte ohne die Intervention − Keine Aussage zum Wirkungszusammenhang − Es gibt keinen Bezug zur Zielsetzung − Keine Aussage zur Nachhaltigkeit der Wirkungen möglich

Soll-Ist-Vergleich Beurteilung der Wirkungen durch den Vergleich von Ist-und Sollzustand

− Kommt dann zum Einsatz, wenn Daten zur Ausgangslage und Vergleichsgruppen fehlen oder sind nur mit grossem Aufwand zu beschaffen

− Sehr flexibel anwendbar − Eine einfache Art, die Zielerreichung festzuhalten − Der Aufwand für die Datenerhebung ist gering

− Oft fehlen konkrete Ziele − Oft gibt es Zielkataloge – welches Ziel ist relevant? − Unklar, wie sich Situation seit dem Beginn der Intervention veränderthat − Unklar, wie sich Situation ohne Intervention verändert hätte

− Zur Wirkungsmessung ist ein Soll-Ist-Vergleich nicht geeignet

− Es ist keine Aussage zur Wirkung möglich − Keine Aussage zur Nachhaltigkeit der Wirkungen möglich

Triangulation Beurteilung der Wirkungen durch die Kombination von Vergleichen

− Wird dann angewandt, wenn die Wirkung klarer nachgewiesen werden soll − Geeignete Vergleichsgruppen müssen bestimmt oder konstruiert werden können

− Der Intervention kann eine bestimmte Wirkung zuoder abgesprochen werden − Der Ansatz ist methodisch fundiert

− Die Datenerhebung ist aufwändig und erfordert mehrere Messungen − Das Vorgehen ist methodisch anspruchsvoll − Die Zielerreichung wird nicht gemessen

Quellen: Eigene Überlegungen u.a. basierend auf: Stiftung Zewo (2013)und Klöti und Widmer (1997)

Abb. 8.5  Evaluationsdesigns im Vergleich. (Quellen: Eigene Zusammenstellung u. a. basierend auf: Stiftung Zewo (2013) und Klöti und Widmer (1997))

176

8.6

8 Evaluationsdesign

I llustratives Anwendungsbeispiel für verschiedene Typen von Triangulation

Evaluation der Betreuungsgutscheine in der Stadt Luzern mit dem „Critical Friend Approach“ (Müller und Bürgi 2010) Wir haben aufgezeigt, dass sich verschiedene Formen von Triangulation unterscheiden lassen (z.  B.  Daten-Triangulation, Investigator-Triangulation oder konzeptionelle Triangulation). In einem Evaluationsdesign lassen sich diese Formen auch kombinieren. Dies wird am Beispiel der Evaluation der Betreuungsgutscheine in der Stadt Luzern deutlich. Betreuungsgutscheine sind eine Form der finanziellen Unterstützung von Eltern, welche familienergänzende Kinderbetreuung beanspruchen. Statt Institutionen zu unterstützen, welche Betreuungsplätze anbieten, werden die Subventionen direkt an die Eltern ausbezahlt. Man erhofft sich davon mehr und nachfragegerechtere Betreuungsangebote. Die beschriebene Evaluation wurde im Herbst 2008 gestartet und dauerte bis 2012. Sie hat kurz vor der Einführung des Pilotversuchs in der Stadt Luzern begonnen und wurde zeitlich nach dem Abschluss des Versuchs abgeschlossen (Balthasar 2012). Die Evaluation nutzt den „Critical Friend Approach“ (vgl. Abschn.  4.2). Dieser Ansatz gliedert eine Evaluation in sechs Arbeitsschritte.

8.6.1 Arbeitsschritt 1: Klärung der Evaluationsfragen Den Ausgangspunkt der Evaluation stellt ein Wirkungsmodell dar (vergleiche Kap. 6). Das Wirkungsmodell wurde im Zusammenhang mit der Evaluation entwickelt und anschließend im Dialog mit den Programmverantwortlichen bereinigt (s. Abb. 8.6). Aus dem Wirkungsmodell lässt sich erkennen, dass die finanziellen und die personellen Ressourcen der Behörde sowie die konzeptionellen Grundlagen des Pilotversuchs als Ausgangspunkt der Intervention „Betreuungsgutscheine“ ­betrachtet werden. Die vier Aktivitätsbereiche „Umsetzung Subventionierungsmodell“, „Finanzbedarf/Steuerung“, „Qualitätskontrolle“ und „Kommunikation/ Information“ mit den jeweiligen Outputs sind nicht nur Teil des Wirkungsmodells (Balthasar 2011). Sie bilden auch das administrative Ordnungsprinzip der zuständigen Abteilung der Stadt Luzern. Das Wirkungsmodell veranschaulicht, dass das Subventionierungsmodell die „Nachfrage und das Angebot im Bereich der familienexternen Kinderbetreuung“ beeinflussen will (Outcome) (Müller et  al. 2011, S. 9). Weiter wird deutlich, dass das Programm auf gesamtgesellschaftlicher

8.6  Illustratives Anwendungsbeispiel für verschiedene Typen von Triangulation

Input

Alle Erziehungsberechtigten mit Wohnsitz in der Stadt Luzern sollen in Abhängigkeit von Einkommen und Berufstätigkeit im gleichen Umfang von der Unterstützung der öffentlichen Hand bei der familienergänzenden Kinderbetreuung profitieren 4 Mio. Franken für vier Jahre

Prozess/Output

Outcome

(Leistungen der Verwaltung)

(Reaktion der Zielgruppen)

Umsetzung Subventionierungsmodell Finanzbedarf/ Steuerung Durchführung Qualitätskontrolle Kommunikation/ Information

Nachfrageentwicklung: Eltern nehmen Gutscheine in Anspruch. Ihre Nachfragemacht wird gestärkt

Angebotsentwicklung: Qualität und Quantität der Betreuungsangebote nimmt zu

177

Impact (Gesamtgesellschaftliche Wirkungen)

Existenzsicherung wird gestärkt

Vereinbarkeit von Familie und Beruf wird gestärkt

Volkswirtschaftlicher Nutzen steigt Freiwillige direkte Unterstützung seitens Arbeitgeber bleibt bestehen

Kontext Leitsätze der städtischen Gesamtplanung Zusammensetzung der Regierung Subvention durch Bund

Politische Akzeptanz nimmt zu

Rechtsungleichheit wird aufgehoben

Abb. 8.6  Das Wirkungsmodell des Pilotprojekts „Betreuungsgutscheine in der Stadt Luzern“. (Quelle: Balthasar 2011, S. 198 (übersetzt und leicht angepasst))

Ebene Wirkungen (Impact) erreichen will, wie beispielsweise eine Verbesserung der „Vereinbarkeit von Familie und Beruf“ (Müller et al. 2011, S. 9).

8.6.2 Arbeitsschritt 2: Klärung der Ziele der Evaluation Als erstes Ziel der Evaluation wird die fortlaufende Verbesserung des Pilotversuchs angestrebt. Die Evaluation soll die Verwaltung und die Exekutive über die Fortschritte des Pilotversuchs informieren und bei Bedarf zu einer fortlaufenden Neuorientierung des Projekts führen (Balthasar et  al. 2008). Zweitens dient die Evaluation der Sicherung und Entwicklung der Qualität des Betreuungsangebots. Sie soll regelmäßig Hinweise auf allfällige negative Veränderungen in der Qualität der Betreuung erkennen helfen, damit sofort Gegenmaßnahmen eingeleitet werden können. Drittens soll die Evaluation der Stadt Luzern und der nationalen Politik Erkenntnisse liefern, die für die künftige Ausrichtung der Subventionierung ex-

178

8 Evaluationsdesign

terner Kinderbetreuung im Vorschulbereich dienen (Müller et  al. 2011, S.  10). Schließlich will die Evaluation prüfen, ob die Erwartungen und Zielsetzungen des Pilotversuchs erfüllt werden konnten, was insbesondere die Rechenschaftsablage gegenüber dem Parlament beinhaltet (Müller et al. 2011, S. 10). Aus dieser Auflistung der Ziele wird deutlich, dass diese sowohl formative als auch summative Absichten verfolgte. Um dem formativen Aspekt Rechnung zu tragen, wurden relevante Akteur*innen systematisch in den Evaluationsprozess einbezogen. Es fanden Veranstaltungen mit Verantwortlichen und Personal von Kindertagesstätten statt. Die Eltern wurden zu Gruppengesprächen eingeladen. Die zuständige parlamentarische Kommission sowie der Stadtrat wurden regelmäßig über die Ergebnisse der Evaluation orientiert. Das Evaluationsteam moderierte verschiedene dieser Austauschgefäße und brachte als externer Partner (im Sinne eines „kritischen Freundes“) eine zusätzliche Perspektive ein (Müller und Bürgi 2010, S.  11). Mit dem Einbezug verschiedener Betrachtungsweisen in die Evaluation wurde das Anliegen der „Investigator-­Triangulation“ umgesetzt. Es wurde vermieden, dass Verzerrungen dadurch entstanden, dass die Entwicklung nur aus einer Betrachtungsperspektive verfolgt wurde. Während der Evaluation wurden systematisch und unabhängig Fakten erhoben, zum Beispiel die Zahl der neu geschaffenen Betreuungsplätze oder die Zufriedenheit der Eltern. Es fand also eine „Daten-Triangulation“ statt. Zudem wurde Wert auf eine saubere Dokumentation der Datengrundlagen gelegt, um die Durchführung einer allfälligen nachgelagerten stärker unabhängig angelegten summativen Evaluation zu erleichtern.

8.6.3 Arbeitsschritt 3: Klärung der Verantwortlichkeiten Die Tatsache, dass die Evaluation des Pilotversuchs mit Betreuungsgutscheinen in der Stadt Luzern sowohl Elemente einer Fremd- wie auch einer Selbstevaluation aufweist, hat verschiedene Gründe: So haben die Evaluierenden die Stadt Luzern schon in der Vorbereitung des Pilotversuchs unterstützt, indem sie Subventionierungsmodelle entwickelt und Finanzierungsvarianten berechnet haben (Müller et al. 2011, S. 7). Die politisch Verantwortlichen der Stadt Luzern wollten dieses Wissen nutzen. Zudem wollten sie den Pilotversuch Betreuungsgutscheine von Anfang an als lernendes Programm verstanden wissen. Es war also der Wunsch der Programmverantwortlichen, intensive Feedbackschlaufen zwischen Evaluation und Programm einzurichten.

8.6  Illustratives Anwendungsbeispiel für verschiedene Typen von Triangulation

179

Die Nähe der Evaluator*innen zu den Programmverantwortlichen stellte die Unabhängigkeit der Ergebnisse in Frage. Um diesem Problem Rechnung zu tragen, basierte die Evaluation auf einer „methodologischen Triangulation“. Es wurden unterschiedliche Erhebungstechniken kombiniert, wie weiter unten ausgeführt wird. Viele dieser Daten wurden im Sinne einer klassischen Fremdevaluation unabhängig von den Programmverantwortlichen gesammelt (Müller et  al. 2011, S. 7–8).

8.6.4 Arbeitsschritt 4: Festlegung des Evaluationsdesigns Die Evaluation der Betreuungsgutscheine setzte Soll-Ist-Vergleiche, Vorher-­ Nachher-­Vergleiche und Quervergleiche ein. Sie nutzte also das Potenzial einer „konzeptionellen Triangulation“. Soll-Ist-Vergleiche erfolgten insbesondere in Bezug auf die Angebotsentwicklung und den Finanzbedarf. Die Soll-Werte waren dabei die von der Regierung dem Parlament versprochenen Angaben zur Angebotsentwicklung und den damit zusammenhängenden Kosten des Pilotprojektes. Vorher-­Nachher-Vergleiche kamen zur Anwendung, wenn es zum Beispiel darum ging zu prüfen, ob sich die Angebotssituation im Bereich der familienergänzenden Kinderbetreuung für die Eltern mit der Einführung der Betreuungsgutscheine verbessert hat. Quervergleiche wurden dort angestellt, wo verschiedenen Typen von Betreuungsinstitutionen verglichen wurden (z. B. Kindertagesstätten, welche früher von der Gemeinde subventionierte Betreuungsplätze zur Verfügung stellen gegenüber anderen Kindertagesstätten; Kindertagesstätten gegenüber Tageseltern). In den verschiedenen Reflexionen, welche im Rahmen der Evaluation durchgeführt wurden, wurden die Ergebnisse der Vergleiche im Sinne der konzeptionellen Triangulation gegenübergestellt.

8.6.5 Arbeitsschritt 5: Datenerhebung und Datenanalyse Die Evaluation der Betreuungsgutscheine kombinierte quantitative und qualitative Erhebungsinstrumente. Sie basierte insgesamt auf drei Informationsgrundlagen (Daten- und Methodentriangulation). Erstens wurden in einem laufenden Monitoring die Informationen, welche bei der Stadt im Rahmen des Vollzugsprozesses anfallen, systematisch elektronisch erfasst und ausgewertet (z.  B.  Anzahl Kinder, welche Betreuungsgutscheine erhalten, Anzahl und Zusammensetzung der Haushalte mit subventionierten Kindern). Die zweite Informationsgrundlage umfasste quantitativ standardisierte Er-

180

8 Evaluationsdesign

hebungen, welche eine systematische Beurteilung der Entwicklung der Be­ treuungslandschaft erlaubten. Dazu gehörte eine schriftliche Befragung von Eltern, welche ihre Kinder in externen Einrichtungen betreuen lassen. Es wurden aber auch die Betreuungseinrichtungen schriftlich befragt. Dritte Informationsquelle waren die Projektleitung bei der Stadt Luzern sowie verschiedene relevante Akteursgruppen (insbesondere Betreuungseinrichtungen, Eltern, Arbeitgebende, Verwaltungsvertreter*innen). Bei der Projektleitung erfolgte diese Datensammlung über einen systematischen, durch das Evaluationsteam unterstützten Prozess einer Selbstevaluation. Es gab aber auch Gruppendiskussionen mit am Pilotprojekt beteiligten Akteursgruppen. Um die Einschätzungen weitere relevanter Akteur*innen zu berücksichtigen, wurden Gespräche mit Expert*innen geführt (Müller et  al. 2011, S. 10–12; Müller und Bürgi 2010, S. 13–14).

8.6.6 A  rbeitsschritt 6: Diffusion und Nutzung der Evaluationsergebnisse Abb.  8.7 weist unter dem Stichwort „Synthese“ Sitzungen und Berichte zur Kommunikation der Ergebnisse aus. Neben halbjährlichen Sitzungen mit verschiedensten Akteur*innen wurde ein umfangreicher Synthesebericht kurz nach Halbzeit der Evaluation erstellt (Müller und Bürgi 2010). Dieser Bericht war entscheidend, denn er diente den Gremien der Stadt Luzern dazu, darüber zu entscheiden, ob das System der Betreuungsgutscheine vom Status eines Pilotversuchs ins ordentliche Recht überführt werden sollte. Am Ende der Pilotphase folgt eine kurze, zusammenfassende Synthese. Diese hat vor allem legitimatorischen Charakter, da sie die Ergebnisse des Pilotversuchs in Luzern über dessen gesamte Laufzeit dokumentiert. Über die beschriebenen Sitzungen und Berichte hinaus flossen regelmäßig Erkenntnisse aus der Evaluation zu den Projektverantwortlichen. Auf diese Weise fand eine stetige Verwertung des Wissens statt, welches sich im Zuge der Evaluation akkumulierte.

2010

Unterstützung Bund

Start April 2009

Jan

April

Jan

Befragung Kitas/TAV

Bericht:

)

März

Juni

Mai Okt

Mai April

März

März

April

Okt

April

April

Mai

Mai

April

Mai

April

laufend

Jan

2011

Juni

Juli

Okt Jan

2012

April

Juli

Abb. 8.7  Empirische Grundlagen und Chronologie der Evaluation. (Quelle: Müller und Bürgi (2010)), leicht adaptiert)

(Sitzungen:

Synthese

Expertengespräche

Dokumentation Diskussion Projektveranstaltungen

Gruppendiskussion mit Akteursgruppen

Selbstevaluation Projektleitung

Informationsgrundlage III: Reflexionen

Jan

Befragung Eltern

Juli

Umsetzungsphase

Informationsgrundlage II: Standardisierte Befragungen zur Entwicklung der Betreuungslandschaft:

Monitoring Systemdaten

Evaluation Pilotprojekt Informationsgrundlage I: Monitoring der Systemdaten

Konzipierungsphase

2009

Okt

Okt

Dez

Nov

Okt

Jan

2013

8.6  Illustratives Anwendungsbeispiel für verschiedene Typen von Triangulation 181

182

8 Evaluationsdesign

Bibliographie Balthasar, A. (2011). Critical friend approach: Policy evaluation between closeness and distance. German Policy Studies, 7(3), 187–231. Balthasar, A. (2012). Fremd- und Selbstevaluation kombinieren: Der „Critical Friend Approach“ als Option. Zeitschrift für Evaluation, 11(2), 173–198. Balthasar, A., & Knöpfel, C. (1994). Umweltpolitik und technische Entwicklung: Eine politikwissenschaftliche Evaluation am Beispiel der Heizungen (Bd. 8). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Balthasar, A., Länzlinger, R. F., & Müller, F. (2008). Betreuungsgutscheine in der Stadt Luzern. Konzeptionelle Grundlagen. Bericht zuhanden des Luzerner Stadtrates. Interface. Bude, H. (2003). Fallrekonstruktion. In R. Bohnsack, W. Marotzki & M. Meuser (Hrsg.), Hauptbegriffe Qualitativer Sozialforschung (S. 60–61). Opladen: Leske + Budrich. Campbell, D.  T., & Fiske, D.  W. (1959). Convergent and discriminant validation by the multitrait-­multimethod matrix. Psychological Bulletin, 56, 81–105. Denzin, N. K. (1970). Strategies of multiple triangulation. In N. K. Denzin (Hrsg.), The research act. A theoretical introduction to sociological methods. New York: McGraw-Hill. Flick, U. (2011). Triangulation. Eine Einführung (Bd. 12). Wiesbaden: VS Verlag für Sozialwissenschaften. General Accounting Office. (Hrsg.). (November 1990). Case study evaluations. Transfer paper 10.1.9. Washington, DC Klöti, U., & Widmer, T. (1997). Untersuchungsdesigns. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 185–213). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Lamnek, S. (1989). Methoden und Techniken. In Qualitative Sozialforschung (Bd. 2). München/Weinheim: Psychologie Verlags Union. Meyer, W. (2007). Evaluationsdesigns. In R. Stockmann (Hrsg.), Handbuch zur Evaluation (S. 143–163). Münster/New York/München/Berlin: Waxmann. Meyer, U., Schindler, C., Zahner, L., Ernst, D., Hebestreit, H., van Mechelen, W., Brunner-­La Rocca, H.-P., Probst-Hensch, N., Puder, J. J., & Kriemler, S. (2014). Long-term effect of a school-based physical activity program (KISS) on fitness and adiposity in children: A cluster-randomized controlled trial. PloS one, 9(2), 1–10. Müller, F., & Bürgi, M. (2010). Evaluation des Pilotprojekts Betreuungsgutscheine für die familienergänzende Kinderbetreuung in der Stadt Luzern. Zwischenbericht. Interface. Müller, F., Dolder, O., & Bürgi, M. (2011). Evaluation des Pilotprojekts Betreuungsgutscheine für die familienergänzende Kinderbetreuung in der Stadt Luzern. Evaluationsbericht. Interface. Rieder, S. (2014). Evaluation und (New) Public Management – Parallelen und Synergien. LeGes – Gesetzgebung & Evaluation, 1, 11–25. Rieder, S., Schwenkel, C., Iselin, M., & Graf, S. (2012). Evaluation der dualen Polizeiorganisation des Kantons Aargau. Schlussbericht. Luzern. Ritz, A., Sinelli, P., & Neumann, O. (2016). New Public Management in der Schweiz: Reform-­ Evaluationen und Stand der Entwicklungen. In A.  Bergmann, D.  Giauque, D. Kettiger, A. Lienhard, E. Nagel, A. Ritz & R. Steiner (Hrsg.), Praxishandbuch Public Management (S. 80–106). Zürich: WEKA.

Bibliographie

183

Stiftung Zewo. (2013). Leitfaden zur Wirkungsmessung für NPO im Gesundheits-, Sozialund Umweltbereich mit Dienstleistungen und Projekten im Inland. Zürich: Stiftung Zewo. Stufflebeam, D. L., & Shinkfield, A. J. (2007). Evaluation theory, models, and applications. San Francisco: Wiley. Walker, D., Strotz, C., Studer, S., Roose, Z., & Haefeli, U. (2016). Evaluation Projekt „Grundberatung sämtlicher Waldeigentümer innerhalb RO-Perimeter durch RO-­Forstfachperson“ („Flächenprojekt“). Bericht zuhanden der Dienststelle Landwirtschaft und Wald (lawa) und der Kerngruppe des Flächenprojekts. Luzern: Interface Politikstudien. Widmer, T. (1991). Evaluation von Massnahmen zur Luftreinhaltepolitik in der Schweiz. Zürich: Rüegger. WWF Schweiz. (2019). Rating der kantonalen Gebäude-Klimapolitik. Zürich: WWF Schweiz.

9

Techniken der Datenerhebung und -analyse

Schlüsselwörter

Datenerhebung · Datenanalyse · Vergleichbarkeit der Daten · Evaluationskriterien · Empfehlungen

In diesem Kapitel werden die konkreten Schritte der Datenerhebung und -analyse erläutert, die letztlich die Grundlage für die Schlussfolgerungen und Empfehlungen einer Evaluation bilden. Die Datenerhebung und -analyse bilden den Punkt, an dem mehrere zentrale Entscheidungen über die Form der Evaluation und den Umfang der Untersuchung getroffen werden. In den folgenden Abschnitten wird ein Überblick gegeben, wobei zu berücksichtigen ist, dass sich eine ganze Reihe von Publikationen ausschließlich mit Evaluationsmethoden beschäftigen (siehe z.  B.  Patton 1987; Wholey et  al. 2015 [2010]). Entscheidungen bezüglich der Datenerhebung und -analyse sind das Ergebnis einer Kombination aus wissenschaftlichen und praktischen Faktoren. Einerseits sind sie untrennbar mit den Evaluationsfragen (siehe Kap. 5) und dem Evaluationsdesign (siehe Kap. 8) verbunden und müssen kohärent mit diesen beiden Dimensionen abgestimmt werden. Andererseits ist die Wahl der Techniken zur Sammlung und Analyse der Daten auch mit praktischen Aspekten verbunden, die im Folgenden näher erläutert werden. Schließlich gilt es zu beachten, dass jede methodische Wahl den Fokus der Untersuchung beeinflusst, wodurch bestimmte Aspekte der Realität beleuchtet werden und andere im Dunkeln bleiben (Bourdieu et al. 1983 [1968], S. 51–80, 193–264). © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_9

185

186

9  Techniken der Datenerhebung und -analyse

In Abschn. 9.1 wenden wir uns der Datenerhebung zu und stellen insbesondere verschiedene Ansätze und Methoden, sowie unterschiedliche Datenquellen vor. Abschn. 9.2 befasst sich mit der Analyse und Synthese von Daten und gibt Hinweise zur Formulierung von Empfehlungen. In Abschn. 9.3 zeigen wir die Vor- und Nachteile der verschiedenen Methoden auf und erklären, wie im Rahmen einer Evaluation das geeignete methodische Vorgehen gewählt werden kann. Schließlich illustrieren wir in Abschn. 9.4 den Prozess der Datenerhebung und -auswertung auf Basis des Beispiels der Evaluation des Betäubungsmittelgesetzes (BetmG) (Mavrot et al. 2018).

9.1

Datenerhebung

Der erste Teil dieses Kapitels befasst sich mit der Datenerhebung. Er gibt einen Überblick über die Ansprüche dieser Forschungsphase, die verschiedenen verfügbaren Ansätze und Methoden, die vorhandenen Datenquellen und die Frage der Stichprobenziehung.

9.1.1 Aspekte, die die Wahl der Daten beeinflussen Realistisch betrachtet ist die Wahl der Daten im Rahmen einer Evaluation das Ergebnis eines Kompromisses zwischen den konzeptionellen Dimensionen einerseits und den Rahmenbedingungen des Mandats andererseits. Es ist ein gewisser Pragmatismus erforderlich, da zahlreiche praktische Aspekte die Art der Daten beeinflussen, die für eine Evaluation zur Verfügung stehen: Budget, Zeitplan, Verfügbarkeit von Informationen und die methodischen Präferenzen von Auftraggeber*innen und Auftragnehmer*innen. So kann bei der Evaluation die Verwendung bereits vorhandener Daten in Betracht gezogen werden, deren Erhebung keinen zusätzlichen Aufwand erfordert (z.  B.  Monitoring-Daten). Die Wahl der Daten sollte auch alle rechtlichen oder anderweitigen Zugangsbeschränkungen berücksichtigen. Aus wissenschaftlicher Sicht ist es von größter Bedeutung, dass die gewählten Daten mit dem gewählten theoretischen Ansatz übereinstimmen und dass sie die Beantwortung der Evaluationsfragen ermöglichen (Rüefli 2010a). Evaluationsstandards (z. B. SEVAL-Standards) sind Hilfsmittel zur Orientierung bei diesen verschiedenen praktischen und wissenschaftlichen Überlegungen (Rüefli 2010b; Widmer und Beywl 2000). Wie bei allen Phasen der Evaluation gibt es keinen vordefinierten Weg, und es können verschiedene Optionen zur Erfüllung eines Evaluationsauftrags legitim sein und folglich gewählt werden. Jedoch muss

9.1 Datenerhebung

187

jede Evaluation die getroffenen Entscheidungen (Ansatz, Daten, Methoden) ­transparent erklären, damit die Evaluation als verlässliche und glaubwürdige Diskussionsgrundlage für die Beteiligten dienen kann. Kasten 9.1: Praktische und theoretische Aspekte, die in einer Evaluation die Entscheidungen für die Erhebung von Daten bestimmen

Praktische Aspekte: • Vorhandene Daten (bspw. Monitoring, Statistiken, Tätigkeitsberichte) • Angemessen zugängliche Daten (bspw. zu befragende Personen, zu erhebende Zahlen) • Glaubwürdige und robuste Daten (bspw. Art der Quelle, Vollständigkeit, Grad an Systematisierung) • Gewährleistung der Anonymität sensibler Daten (rechtlicher und ethischer Rahmen) • Innerhalb des Evaluationsteams vorhandene methodische Fähigkeiten • Evaluationsbudget • Zeitplan der Evaluation Theoretische Aspekte: • Daten, die eine exakte Beantwortung der Evaluationsfragen ermöglichen • Daten, die mit der erkenntnistheoretischen Ausrichtung der Evaluation übereinstimmen (qualitativ, quantitativ, gemischt) • Daten, die dem Studiendesign entsprechen (bspw. Fall, Untersuchungszeitraum) • Daten, die die Formulierung von glaubwürdigen und konkreten Empfehlungen ermöglichen

9.1.2 Qualitative, quantitative, gemischte Ansätze1 In der wissenschaftlichen Tätigkeit lassen sich die zwei analytischen Ausrichtungen der qualitativen und der quantitativen Ansätze unterscheiden, während es auch gemischte Ansätze gibt. Es handelt sich hierbei um eine Typologie, die es ermöglicht, die jeweiligen Charakteristika jedes Ansatzes hervorzuheben. Tatsächlich handelt  Abschnitt basiert auf: Sager und Mavrot (2015).

1

188

9  Techniken der Datenerhebung und -analyse

es sich aber um ein Kontinuum, in welchem es viele verschiedene Nuancen gibt (Sager und Mavrot 2015). Wie Thomas Widmer und Hans-Martin Binder (1997) hervorheben, wird ein qualitativer, auf einer interpretativen Perspektive basierender Ansatz bevorzugt, wenn es darum geht, ein tiefes Verständnis der Mechanismen eines bestimmten Phänomens, der Funktionsweise dieser Prozesse und der Bedeutung, die sie annehmen, zu gewinnen. Die Studie konzentriert sich bei dieser Vorgehensweise auf eine begrenzte Anzahl von Fällen, die in einen Kontext gestellt werden. Der Wert der Ergebnisse ergibt sich dann aus ihrer internen Validität, die auf der Dichte und Vollständigkeit der Analyse beruht. Denselben Autoren zufolge verfolgt ein quantitativer Ansatz in erster Linie einen erklärenden Zweck. Dabei wird versucht, durch die wiederholte Beobachtung derselben koexistierenden Phänomene Korrelationen und Kausalitäten zu identifizieren. Dieser Ansatz begünstigt die Messung bestimmter Variablen, die aus der Realität extrahiert wurden und aus erklärenden oder zu erklärenden Faktoren bestehen (unabhängige Variablen und abhängige Variablen). Sie konzentriert sich auf die Untersuchung einer großen Zahl von Fällen. Ihre Ergebnisse genießen dann externe Validität und die beobachteten Regel­ mässigkeiten lassen Verallgemeinerungen zu (Widmer und Binder 1997, S.  214–215).  Eine umfassende Einführung in quantitative Analysen, die bei der Bewertung öffentlicher Politik angewandt werden, bietet Laura Langbein (2012). Die Nachteile, die mit einer qualitativen Analyse auf der Grundlage einer kleinen Anzahl von Fällen verbunden sind, sind die Gefahr einer Überinterpretation, die Unmöglichkeit, die Ergebnisse über die untersuchten Fälle hinaus zu ­verallgemeinern, und die Gefahr einer deskriptiven Darstellung zu Lasten der erklärenden Faktoren. Die mit quantitativen Analysen einhergehenden Gefahren sind die mit der Isolierung bestimmter Variablen verbundene Standardisierung, die zu starke Reduktion der Komplexität des Realen und die Vernachlässigung von Prozessen, die Korrelationen begünstigen (Klöti und Widmer 1997; Widmer und Binder 1997). Diese Defizite sind potenziell mit den beiden Arten von Ansätzen verbunden, was aber nicht bedeutet, dass alle Analysen, die sich dieser Ansätze bedienen, auch zwingend darunter leiden. Beide Arten von Ansätzen, also quantitative und qualitative Vorgehensweisen, sind gewissermaßen mit der Nutzung bestimmter Methoden verbunden. So ist beispielsweise klar, dass eine randomisierte kontrollierte Studie ein quantitativer Ansatz ist, während sich die Arbeit mit qualitativen Ansätzen auf Dokumentanalysen oder den Einsatz von Interviews konzentrieren kann. Zentral ist jedoch, dass es die erkenntnistheoretischen Neigungen der Forscher*innen und nicht die Methoden selbst sind, die die qualitative oder quantitative Ausrichtung eines Forschungsprojekts bestimmen (Berthelot 2000; Hollard und Vion 2006, S. 112). Schließlich ermöglichen gemischte Forschungsdesigns, die qualitative und quantitative Ansätze

9.1 Datenerhebung

189

miteinander verbinden, die Nutzung der jeweiligen Vorteile und sind im Bereich der Evaluation oft eine kluge Wahl (ein angewandtes Beispiel wird am Ende dieses Kapitels gegeben, siehe Abschn.  9.3). Der parallele Einsatz von qualitativen und quantitativen Ansätzen ermöglicht es, sowohl den Zwecken der Erklärung (Kausalität) als auch des Verständnisses (Bedeutung) der untersuchten Phänomene gerecht zu werden (Pinard et al. 2004, S. 76). Die Unterscheidungsmerkmale der qualitativen und quantitativen Ansätze sind in der folgenden Tabelle zusammengefasst.

Kasten 9.2: Merkmale und Risiken qualitativer und quantitativer Ansätze Qualitative Ansätze Merkmale Interpretation Verstehen Mechanismen Kontextsensitivität Beschränktes N Interne Validität Fallzentrierte Analyse Risiken Einschränkungen bei der Generalisierbarkeit Beschreibender Charakter Überinterpretation

Quantitative Ansätze Positivismus Messen Korrelationen Reproduzierbarkeit Großes N Externe Validität Variablenzentrierte Analyse Standardisierung Oberflächliche Analyse Vernachlässigung der Prozesse

Quelle: Klöti und Widmer (1997); Widmer und Binder (1997)

9.1.3 Instrumente zur Datenerhebung und -analyse Die folgenden Ausführungen geben einen kurzen Überblick über die gebräuchlichsten Datenerhebungs- und Analyseinstrumente, die bei der Evaluierung der öffentlichen Politik eingesetzt werden. Es wird ein Überblick über die Vorteile und Nachteile jeder Art von Instrument gegeben, wobei die Details zu jeder dieser Techniken in zahlreichen wissenschaftlichen Beiträgen erläutert werden. Die entsprechenden Quellenangaben sind in den nachfolgenden Abschnitten aufgeführt. Wichtig ist zudem vorab zu berücksichtigen, dass es bei einer Evaluation oft sinnvoll ist, verschiedene Methoden zu triangulieren, um die Robustheit der Analyse zu erhöhen (Klöti und Widmer 1997, S.  210–213; Widmer und De Rocchi 2012, S. 98–101).

190

9  Techniken der Datenerhebung und -analyse

9.1.3.1 Interviews Interviews sind eine sehr verbreitete Datenerhebungstechnik in der Evaluation. Interviews bieten Zugang zu vielen wichtigen Informationen, die sonst unzugänglich sind. Sie liefern eine Reihe informeller Informationen zur Umsetzung, die nicht in der offiziellen Dokumentation enthalten sind  und bieten zudem die Möglichkeit, von den Einschätzungen verschiedener Schlüsselinformant*innen über die betroffene öffentliche Politik zu profitieren. Schließlich stellen Interviews die aktuellsten Informationen zur Verfügung, die erhältlich sind. Die Einschränkungen dieser Datenerhebungstechnik bestehen darin, dass sie zeit- und ressourcenintensiv sein kann. Um eine voreingenommene Sicht auf den Untersuchungsgegenstand zu vermeiden, muss in der Regel eine große Anzahl von Personen befragt werden (z.  B. die verschiedenen an der Umsetzung beteiligten Akteur*innen, die Auftraggeber*innen, die Adressat*innen der Politik). Die am häufigsten verwendete Technik ist das halbstrukturierte Interview, das es ermöglicht, sowohl einem vordefinierten Fragenkatalog zu folgen als auch den Befragten Raum zu lassen, sich im Gespräch jenen Aspekten zu widmen, die sie für die wichtigsten halten. Für eine ausführlichere Darstellung der Interviewmethoden im Kontext der Evaluation verweisen wir auf Kap. 7 von Michael Patton (1990).

9.1.3.2 Fokus-Gruppen Historisch im Bereich der Analyse von Massenkommunikation und Propaganda entwickelt (Kitzinger et al. 2004, S. 237), stellen Fokusgruppen ein alternatives In­ strument zu Einzelinterviews dar. Sie zielen darauf ab, Daten durch die geführte und strukturierte Begleitung einer Diskussion mit mehreren Gesprächspartner*innen zu erheben, wobei der Schwerpunkt auf den Meinungen der Teilnehmer*innen liegt. Im Gegensatz zu Einzelinterviews, die eine vollständige Anonymität des in der Befragungssituation Gesagten ermöglichen, sind Fokusgruppen auf die Gruppendynamik angewiesen, um Informationen zu erhalten. Es geht darum, durch Interaktion Ideen und Daten hervorzubringen, um einerseits ein reicheres Ergebnis zu erzielen und andererseits die Meinungsbildungsprozesse verstehen zu können. Diese Datenerhebungstechnik ermöglicht daher die gleichzeitige Befragung mehrerer Personen zu einem Untersuchungsgegenstand, was eine Zeitersparnis bedeuten kann. Die Gefahren liegen in einer möglichen Zensur der Diskussion, die bei einem Ungleichgewicht der vertretenen Teilnehmer*innen auftreten kann, da einige Personen im Laufe der Diskussion die Oberhand gewinnen könnten. Um von dieser Technik Gebrauch zu machen, müssen daher die Zusammensetzung der Gruppe und der Kontext des Gesprächs vorher sorgfältig durchdacht werden. Eine vollständige Darstellung dieser Methode finden Sie im Buch von David L. Morgan (2001), das den verschiedenen Interviewmethoden gewidmet ist.

9.1 Datenerhebung

191

9.1.3.3 Dokumentenanalyse Auch die Dokumentenanalyse ist ein klassisches Instrument in Evaluationen. Eine Evaluation wird in der Regel auf der Grundlage einer ganzen Reihe schriftlicher Unterlagen durchgeführt: Rechtsgrundlagen, Politik- und Programmkonzepte, Projektdokumentationen, Leistungsvereinbarungen usw. Diese Dokumente stellen eine schriftliche Aufzeichnung der ursprünglichen Überlegungen und Ziele einer Intervention dar. Darüber hinaus werden im Laufe der Umsetzung weitere Arten von wichtigen Dokumenten erstellt, die es ermöglichen, die Entwicklung der Umsetzung zu verfolgen: Zwischenberichte, Sitzungsprotokolle, Begleitdokumente usw. Diese im Verlauf der Umsetzung erstellten und aufgezeichneten Informationen stellen die Erinnerung an eine Politik dar, die auf andere Weise (z. B. durch nachträglich durchgeführte Interviews) nur schwer genau rekonstruiert werden kann. Probleme, die dennoch bei der Verwendung offizieller Dokumentation im Rahmen einer Evaluation auftreten können, betreffen mögliche Datenschutzfragen (z. B. klassifizierte Dokumente). Darüber hinaus können in den offiziellen Dokumentationen bestimmte Aspekte der untersuchten Politik betont werden, während auch jene Aspekte Berücksichtigung finden müssen, die in den entsprechenden Unterlagen möglicherweise nicht oder zu wenig dokumentiert werden (z. B. Umsetzungsfehler, Ansichten der Adressat*innen, Perspektiven von Minderheiten). Die Handhabung sowie die Vorund Nachteile dieser qualitativen Analysetechnik werden in dem Artikel von Glenn A. Bowen (2009) zusammengefasst und auf eine zugängliche Weise dargestellt.

9.1.3.4 Umfragen Im Gegensatz zu Interviews, die darauf abzielen, die Meinung einer begrenzten Anzahl von Personen durch vertiefte Gespräche einzuholen, ermöglichen Umfragen die Befragung einer großen Anzahl von Personen in einem weniger detaillierten Ausmaß. Umfragen werden mit Hilfe spezieller Computersoftware, per Post oder Telefon organisiert und ermöglichen beispielsweise die Teilnahme der gesamten Bevölkerung einer bestimmten Region. Im Kontext von Evaluationen hat dieses Instrument den Vorteil, dass ohne Diskriminierung bestimmter Akteur*innen eine ganze Gruppe dazu eingeladen werden kann, ihre Sicht auf einen Untersuchungsgegenstand darzulegen (z. B. die Empfänger*innen einer Dienstleistung oder die für ihre Durchführung verantwortlichen Akteur*innen). Der Umfang der erhobenen Daten ist somit größer als bei Interviews. Der Nachteil dieses großen Umfangs ist der eher geschlossene Charakter des Umfrageprotokolls, wobei Umfragen in Form von Multiple-Choice-Fragen (Kontrollkasten) oder halboffenen Fragen (kurze, freie Antworten der Befragten) durchgeführt werden und wenig Interaktion mit den Teilnehmer*innen zulassen. Dennoch sind Umfragen nach wie vor sehr nütz-

192

9  Techniken der Datenerhebung und -analyse

liche Instrumente der Datenerhebung und lassen sich besonders gut mit anderen Techniken wie vertieften Interviews verknüpfen. Insbesondere ermöglichen sie die Überprüfung von Hypothesen in großem Ausmaß. Für eine vollständige Darstellung dieses Instruments und seiner verschiedenen Einsatzmöglichkeiten siehe die Publikation von Lior Gideon und seinen Kolleg*innen (2012).

9.1.3.5 Beobachtungen Als eine der zentralen qualitativen Datenerhebungsmethoden sind Beobachtungen oft ein nützliches Instrument für Evaluator*innen. Diese in der Anthropologie sehr weit verbreitete Methode beruht auf dem Eintauchen der Forscher*innen in das tägliche Leben der untersuchten Umwelt vor Ort, um Informationen über die in Gang befindlichen Prozesse zu gewinnen. Dieser hochinduktive Ansatz zielt auf eine möglichst praxisnahe Beobachtung der Realität ab und ermöglicht es den Evaluator*innen, Daten aus erster Hand zu sammeln. Die Risiken, die mit diesem ­Instrument verbunden sind, liegen in der Subjektivität, die jeder Beobachtung ­zugrunde liegt, sowie in der Wechselwirkung, die die Beobachtungssituation mit den Beobachteten erzeugen kann. Im Rahmen einer Evaluation kann sich die ­Beobachtung beispielsweise mit der Art und Weise befassen, wie eine Politik ­umgesetzt wird, zu welchen Umsetzungskonflikten sie führt, wie Vollzugsentscheidungen getroffen werden oder wie eine Dienstleistung von ihren Emp­ fänger*innen aufgenommen wird. Eine Beobachtung kann ein einfaches Treffen umfassen oder weitreichender sein, indem beispielsweise Vollzugsaktivitäten über einen bestimmten Zeitraum beobachtet werden. Der Umfang der Beobachtung sollte dabei immer in Übereinstimmung mit den Zielen der Evaluation beschlossen werden. Beobachtungen sind besonders in formativen als auch in nutzungsfokussierten Evaluationen anzutreffen (vgl. Abschn.  4.2). Der Einsatz von Beobachtungsmethoden in sozialwissenschaftlichen Untersuchungen ist in den Arbeiten von Uwe Flick (2005) und Andreas Diekmann (2007) gut dokumentiert.

9.1.3.6 Randomisierte kontrollierte Studien Randomisierte kontrollierte Studien sind ein besonders verbreitetes Instrument der Evaluation im Bereich der Medizin. Ihr Ziel ist es, die Wirksamkeit einer Intervention zu bestimmen, indem sie diese unter möglichst realitätsnahen Bedingungen testen. Diese Technik gehört zu den quantitativen Ansätzen der Datenerhebungsund Analysemethoden. Randomisierte kontrollierte Studien vergleichen eine Gruppe, die eine bestimmte Intervention (z. B. ein Medikament) erhält, mit einer Gruppe, die diese nicht oder stattdessen ein Placebo erhält. Die Zuteilung zur Interventions- oder Kontrollgruppe erfolgt nach dem Zufallsprinzip. Die bei den Teil-

9.1 Datenerhebung

193

nehmer*innen beider Gruppen erzielten Effekte werden dann gemessen, um die Wirksamkeit der getesteten Intervention zu bestimmen (z.  B. die Wirksamkeit einer Intervention zur Raucherentwöhnung, Mavrot et al. 2017). Diese Methode erfordert also aufgrund ihrer komplexen Ausgestaltung (hohe Teilnehmendenzahl, Umsetzung des Protokolls, langfristiges Follow-up, Genehmigung durch die Ethikkommissionen usw.) erhebliche Ressourcen, erlaubt es aber, robuste und quantifizierbare Ergebnisse zu erzielen. Die Methode wurde u. a. wegen der Schwierigkeit kritisiert, die Effekte der getesteten Intervention aus der komplexen Menge anderer Faktoren, die den Zustand der Teilnehmer*innen beeinflussen, zu isolieren. Kritisiert wird zudem die Schwierigkeit, Stichproben von Teilnehmer*innen zu erhalten, die wirklich repräsentativ für die breite Bevölkerung sind. In der Evaluation werden randomisierte Studien vor allem zur Impactmessung eingesetzt, insbesondere in den Bereichen Medizin, Bildung und internationale Zusammenarbeit (siehe z. B. White 2010).

9.1.3.7 Quasi-experimentelle Methoden Quasi-experimentelle Methoden werden als Alternativen zu randomisierten kon­ trollierten Studien eingesetzt, wenn letztere übermäßig kostspielig sind, nicht durchgeführt werden können oder ethische Probleme aufwerfen, weil die Hälfte der Teilnehmer*innen nicht von der untersuchten Intervention profitiert. Quasi-­ experimentelle Methoden eignen sich gut für die Bewertung öffentlicher Politiken oder Programme. Im Gegensatz zu randomisierten kontrollierten Studien werden Gruppen und Einzelpersonen in quasi-experimentellen Untersuchungssituationen nicht einer Laborsituation ausgesetzt, sondern können die Auswirkungen einer bestehenden Politik ex post betrachtet werden. Die Auswirkungen einer bestehenden Maßnahme auf eine bestimmte Bevölkerungsgruppe werden durch den Vergleich mit einer Bevölkerungsgruppe, die keine solche Intervention erfährt, analysiert. Die untersuchten Bevölkerungsgruppen werden also nicht zufällig in Gruppen eingeteilt, sondern existieren bereits in der Realität, daher der Begriff Quasi-­ Experiment. Mit anderen Worten wirken diese Studien nicht auf unabhängige Variablen ein, sondern messen die Auswirkungen der Intervention (resp. deren Abwesenheit) in zwei vergleichbaren Gruppen, wobei alle anderen Dinge gleich sind (Chabé-Ferret et al. 2017). In der Evaluation wurde diese Methode unter anderem im Bereich der Sozialpolitik angewandt. Kritikpunkte an der Methode sind die Schwierigkeit, vergleichbare Bevölkerungsgruppen oder Situationen in der Realität zu finden, sowie die teilweise stark ökonomische Ausrichtung der Methode (Fokus auf die Effizienz der Interventionen). Zu randomisierten Studien und (quasi-)experimentellen Methoden siehe auch Abschn. 4.1.

194

9  Techniken der Datenerhebung und -analyse

9.1.4 Quellen und Typen von Daten Die verschiedenen Datenquellen und Datentypen sind für die Evaluationspraxis von großer Bedeutung, da sie sowohl die Qualität als auch die Glaubwürdigkeit der Ergebnisse beeinflussen. Die Überlegungen, die bei der Auswahl der Daten zu berücksichtigen sind, werden in den folgenden Ausführungen näher erläutert.

9.1.4.1 Vorhandene Daten und Ad-hoc-Datenerhebung Die erste Frage, die sich stellt, ist die nach den verfügbaren Daten. Die Evaluation kann sich die oft große Menge an Daten zunutze machen, die in den zu evaluierenden Organisationen bereits vorhanden sind und die zu Beginn des Mandats überprüft werden sollten. Dieser Aspekt sollte nicht vernachlässigt werden, da viele nützliche Daten intern schnell verfügbar gemacht werden können: Monitoring-­ Daten, Statistiken, Tätigkeitsberichte, graue Literatur usw. Das Evaluationsteam sollte über das Vorhandensein aller potenziell für die Studie relevanten Daten auf dem Laufenden gehalten werden. Es ist im Hinblick auf die Bereitstellung von Daten wichtig, von Beginn des Mandats an eine transparente Kommunikation zwischen Auftraggeber*innen und Auftragnehmer*innen zu gewährleisten. Es kommt nicht selten vor, dass die Existenz wichtiger Daten, die den Organisationen zur Verfügung stehen, erst im Laufe des Mandats entdeckt wird. Zudem sollte in Betracht gezogen werden, Daten zu berücksichtigen, die bereits außerhalb der zu evaluierenden Organisation vorhanden sind: öffentliche Statistiken, Berichte anderer Organisationen usw. Des Weiteren ist das Evaluationsteam dafür zuständig, dass alle zusätzlichen Daten erhoben werden, die zur Gewährleistung der Umsetzung des Mandats erforderlich sind. Während vorhandene Daten häufig wichtige Basisinformationen über den allgemeinen Kontext liefern, sollten ad hoc erhobene Daten insbesondere eine direkte Beantwortung der Evaluationsfragen ermöglichen.

9.1.4.2 Qualitative und quantitative Daten Wie in den Abschn. 9.1.2 und 9.1.3 erörtert, entsprechen qualitative und quantitative Ansätze unterschiedlichen Herangehensweisen an einen Untersuchungsgegenstand, die jeweils die Nutzung gewisser Methoden begünstigen. Abhängig von den Entscheidungen, die auf theoretischer und methodischer Ebene getroffen wurden, kann die Evaluation daher die Verwendung qualitativer oder quantitativer Daten oder eine Mischung aus beidem bevorzugen (siehe Anwendungsbeispiel, Abschn. 9.4). In Evaluationen können quantitative Daten verwendet werden, um zu bestimmen, inwieweit die Ziele einer Politik oder eines Programms erreicht wurden: Anzahl der erreichten Begünstigten, Wirkungen bei den Zielgruppen, Zufriedenheitsumfragen, Kosten-Nutzen-Verhältnis. Quantitative Daten können

9.1 Datenerhebung

195

auch zur Abbildung der zeitlichen Entwicklung eines Phänomens (z. B. jährlicher Anstieg der Krankenkassenprämien) oder der räumlichen Unterschiede eines Phänomens (z. B. interkantonale Unterschiede der Krankenkassenprämien) verwendet werden. Qualitative Daten werden verwendet, um die Mechanismen der Politikumsetzung zu untersuchen. Insbesondere ermöglichen sie es, die bei der Umsetzung aufgetretenen Hindernisse und die Art und Weise, wie die Politik von ihren Adressat*innen aufgenommen wurde, zu identifizieren. In dieser Hinsicht ermöglichen qualitative Daten ein detailliertes Verständnis der untersuchten Politik und liefern die Elemente, um präzise Empfehlungen zu formulieren.

9.1.4.3 Datenquellen Die Wahl der Datenquellen beeinflusst die Herkunft der einer Evaluation zugrunde liegenden Evidenz und muss deshalb sorgfältig erfolgen. Einerseits geht es darum, die Qualität der verwendeten Daten zu sichern: Zuverlässigkeit der Quellen, Robustheit und Genauigkeit der Daten. Andererseits geht es aber auch darum, ein gewisses Gleichgewicht zwischen den verschiedenen Datenquellen anzustreben und verschiedene Perspektiven zu berücksichtigen. Aus diesem Grund ist wichtig zu wissen, woher die Daten stammen und welche Sichtweise sie widerspiegeln (z.  B.  Verwendung von Arbeitgebendendaten, Gewerkschaftsdaten, Daten von Berufsverbänden, Daten  von Nutzer*innen). Im Rahmen einer Evaluation ist es wichtig, die verschiedenen Ansichten zum Untersuchungsgegenstand durch die Triangulation unterschiedlicher Datenquellen zu überprüfen respektive einander gegenüberzustellen. Dabei kann es sich z.  B. um Daten der für die Umsetzung einer Politik zuständigen Organisation handeln, aber auch um Daten ihrer Umsetzungspartner*innen, ihrer Zielgruppen, ihrer politischen Geldgeber*innen oder externer Beobachter*innen (Medien, Verbände usw.). Aufgrund ihrer Position, ihrer beruflichen Tätigkeit und ihres Engagements in der Politik bieten diese verschiedenen Akteur*innen diverse Standpunkte zum Untersuchungsgegenstand und verfügen über unterschiedliche Arten von Wissen und Informationen.

9.1.4.4 Typen von Daten Auch die Art der gesammelten Daten muss sorgfältig geprüft werden. Alle Typen von Daten haben bestimmte Vor- und Nachteile. Die durch eine (Online-)Umfrage generierten Daten ermöglichen es zwar, die Meinungen einer großen Anzahl von Personen zu erheben, die sich aufgrund der Anonymität dieses Umfrageformats frei äußern können. Jedoch kann es bei Umfragen beispielsweise zu Missverständnissen bei der Interpretation der Fragen kommen. Darüber hinaus verunmöglicht dieses Format jegliche Interaktion zwischen Interviewer*innen und Befragten, wodurch im Falle von mehrdeutigen Antworten keine Klärung möglich ist. Im Gegen-

196

9  Techniken der Datenerhebung und -analyse

satz dazu können in Interviews zwar solche Missverständnisse aufgelöst werden, jedoch spielen in dieser persönlichen und nicht anonymen Interaktion Machtverhältnisse eine Rolle, die die gegebenen Antworten beeinflussen können (siehe z. B. Chamboredon et al. 1994; Karnieli-Miller et al. 2009). In einem Evaluationskontext können Interviews, die mit verschiedenen Mitgliedern einer Organisation geführt werden, von den Befragten im Zusammenhang mit Konflikten strategisch genutzt werden. In beiden Datenerhebungsarten besteht zudem die Gefahr der Verzerrung der Informationen durch die sogenannte soziale Erwünschtheit, ein Phänomen, bei dem die Reaktion der Befragten durch soziale Normen beeinflusst wird (z. B. die Tendenz, den Cannabiskonsum unter Jugendlichen geringer darzustellen als er ist). Diese Verzerrungen wirken sich je nach Erhebungsinstrument, dem Kontext der Erhebung, den Eigenschaften der Interviewer*innen und Befragten, den behandelten Themen und der Formulierung der Fragen unterschiedlich aus (siehe z.  B.  Krumpal 2013). Zudem muss im Rahmen von Dokumentenanalysen die Natur der betroffenen Dokumente berücksichtigt werden. Eine interne Strategie zur vertraulichen Verwendung enthält nicht die gleichen Elemente und verwendet nicht die gleiche Sprache wie eine Pressemitteilung oder ein öffentlicher Bericht. Die Interpretation dieser Dokumente und die Informationen, die sich daraus ableiten lassen, sind daher unterschiedlich.

9.1.4.5 Monographische und vergleichende Daten Schließlich können die Daten monographisch sein – bezogen auf eine einzelne Fallstudie – oder vergleichend – indem verschiedene Vorkommen eines ähnlichen Phänomens einander gegenübergestellt werden. Die Wahl der Art der zu erhebenden Daten wird wiederum auf der Grundlage der Untersuchungsfragen und des Evaluationsdesigns entschieden. Wenn sich die Auswertung auf eine einzelne Fallstudie konzentriert, sollten die Daten ein vertieftes Verständnis des untersuchten Gegenstandes ermöglichen. Dies kann z. B. bei der Evaluation von Pilotprogrammen der Fall sein. Pilotprogramme ermöglichen es, die Umsetzung innovativer Ansätze zu testen, und sollten eingehend untersucht werden, um feststellen zu können, ob eine weitergehende Verbreitung der betroffenen Programme sinnvoll ist. Die gesammelten Daten beziehen sich dann auf den Kontext, die Mechanismen und Wirkungen dieser Programme. Wenn das Evaluationsdesign hingegen einen vergleichenden Ansatz verfolgt, muss entsprechend auch die Vergleichbarkeit der Daten gewährleistet werden. Wenn der Vergleich über die Zeit erfolgt (Längsschnittvergleich, z. B. eine Studie über die Entwicklung der Wirkungen eines ­Programms), müssen die Indikatoren und die Methode der Datenerhebung konstant bleiben. Wenn es sich um einen Querschnittsvergleich handelt, sollten die Daten von ähnlicher Art sein, damit die gleichen Aspekte des Phänomens einander gegenübergestellt werden können. Ein Quer-

9.1 Datenerhebung

197

schnittsvergleich kann z. B. die Umsetzung desselben Programms in verschiedenen Verwaltungsregionen betreffen, wie z.  B. die Tabakpräventionsprogramme verschiedener Kantone in der Schweiz (Sager et al. 2020). Sie kann auch die Umsetzung derselben Politik in verschiedenen Ländern vergleichen, um daraus Lehren zu ziehen, wie dies bei der Untersuchung der Lebensmittelsicherheitspolitik in vier europäischen Ländern im Rahmen der Reform der schweizerischen Tierarzneimittelverordnung der Fall war (Sager et al. 2011). Die folgende Tabelle fasst die verschiedenen Datentypen zusammen, die in einer Auswertung verwendet werden können. Wie bei den Methoden (siehe oben) gehört die Triangulation von Daten zu einer angemessenen wissenschaftlichen Praxis (Klöti und Widmer 1997, S.  211; Olivier de Sardan 1995, S.  14–15). Dabei werden verschiedene Arten und Quellen von Daten kombiniert, um die Validität und Vollständigkeit der Analyse zu erhöhen.

Kasten 9.3: Zusammenfassung: Datentypen

• Vorhandene Daten vs. ad-hoc-Datenerhebung • Quantitative und qualitative Daten • Datenquelle: Auftraggeber*innen, untersuchte Organisation, Partnerorganisationen, Zielgruppen, externe Beobachter*innen (Medien) • Art der Daten: Interviewaussagen, Antworten von Umfragen, Ergebnisse von Dokumentenanalysen usw. • Monographische Daten (fallbezogen) vs. vergleichende Daten (Längsschnittvergleich und Querschnittsvergleich) • Gute Praxis: Triangulation von Datenquellen (Verschiedene Ansichten über den Untersuchungsgegenstand, Verifizierung)

9.1.5 Vollerhebung oder Stichprobenerhebung Eine der zentralsten Entscheidungen über die Ausrichtung der Evaluation ist die Frage, ob eine Vollerhebung erfolgt oder ob Stichproben gezogen werden sollen. Mit dieser Wahl bestimmen Evaluator*innen und Auftraggeber*innen die Art der Repräsentativität der Analyse, auf deren Grundlage später die Erkenntnisse aus der Datenerhebung generalisiert und daraus Empfehlungen abgeleitet werden. ­Vollerhebungen bedeuten, dass die gesamte Bevölkerung befragt wird oder dass alle Vorkommnisse eines Phänomens innerhalb eines bestimmten Untersuchungsgebietes analysiert werden. Diese Art der Datenerhebung ermöglicht die vollständige Untersuchung eines Phänomens, wobei

198

9  Techniken der Datenerhebung und -analyse

die Repräsentativität durch Vollständigkeit gewährleistet wird. Gleichzeitig generiert eine Vollerhebung aber einen hohen Arbeitsaufwand. Die Alternative ist die Untersuchung einer Gruppe der Bevölkerung oder eines Teils des betrachteten Phänomens. Im Idealfall erfolgt die Stichprobenziehung so, dass die Ergebnisse repräsentativ sind. Ist dies der Fall, können die Ergebnisse auf die gesamte untersuchte Bevölkerung hochgerechnet werden, ohne dass die Repräsentativität darunter leidet. Eine wirkliche Repräsentativität im statistischen Sinne ist jedoch im Rahmen einer Evaluation der öffentlichen Politik nicht immer möglich. Eine Teilpopulation kann auf der Grundlage bestimmter Auswahlkriterien oder auf der Grundlage ihrer Zugänglichkeit befragt werden. In diesem Fall handelt es sich nicht um eine Zufallsstichprobe, sondern um eine Gelegenheitsstichprobe (für weitere Einzelheiten siehe z. B. Fink 2003; Pfeffermann und Rao 2009). Es ist unerlässlich, das Verfahren, nach dem die Stichprobe ausgewählt wurde, transparent zu dokumentieren und etwaige Einschränkungen in der Repräsentativität der Stichproben zu erklären. Auf diese Weise wird die Leserschaft auf die Limitationen aufmerksam gemacht, die bei der Interpretation der Ergebnisse berücksichtigt werden müssen. Wichtig ist zudem, dass die Kriterien, nach denen die Stichprobe gezogen wird, nicht starr festgelegt sind, sondern von den Forschungsfragen abhängen. Eine Evaluation kann zum Beispiel alle Ärzt*innen im Kanton Genf, im Bundesland Bayern oder im Bundesland Tirol zu einer bestimmten Sache befragen. Ist eine solche Vollerhebung nicht möglich, kann eine Stichprobe z.  B. auf der Grundlage von Geschlecht, Alter, Spezialisierung und Bezirk der Arztpraxis gezogen und die Umfrage nur an diese Stichprobe von Ärzt*innen geschickt werden. Ebenso kann anstelle der Analyse der Umsetzung einer Politik in beispielsweise allen 26 Schweizer Kantonen eine gezielte Auswahl mehrerer Kantone analysiert werden. Dabei sollte die Selektion auf Basis von für die Forschungsfrage relevanten Elementen (z. B. Stadt/Land, Sprachregion, politische Mehrheit) erfolgen.

9.2

Analyse der Daten

Der zweite Teil dieses Kapitels befasst sich mit der Analyse und Synthese der Daten sowie mit der Formulierung von Empfehlungen.

9.2.1 Interpretation der Ergebnisse Das Kernelement dieser Phase der Forschung ist die Systematik in der Datenanalyse. Nachdem die geeigneten Quellen identifiziert und die entsprechenden Daten gesammelt worden sind, erfolgt die systematische Anwendung eines Analyse-

9.2  Analyse der Daten

199

rasters. Beispielsweise wird jedes Dokument oder Interview nach demselben Verfahren zwecks Informationsextraktion analysiert. Dabei werden Erkenntnisse, die von den anderen Informationen abweichen, nicht verworfen, sondern in der Analyse berücksichtigt. Da die Evaluation komplexe Realitäten untersucht (öffentliche Politik, soziale Probleme usw.), gibt es nicht ‚den einen richtigen‘ Standpunkt zu den untersuchten Themen. Jede Information muss daher systematisch abgeglichen werden, um zu einer gemessenen Synthese der verfügbaren Informationen zu gelangen (Rüefli 2010b, S. 55–56). Es geht also nicht um die Schaffung einer objektiven Wahrheit über den Forschungsgegenstand, sondern um die Rekonstruktion der Vielfalt der Standpunkte, die ihn ausmachen (Olivier de Sardan 1995, S. 14) (z. B. die unterschiedlichen Ansichten von den verschiedenen an der Umsetzung beteiligten Akteur*innen). Bei der Analyse der Ergebnisse sind die Grundprinzipien der Transparenz und Reproduzierbarkeit zu beachten (vgl. Abschn. 9.2.3 unten). Eine transparente und reproduzierbare Analyse erfordert u. a. die Verwendung von explizit festgelegten Bewertungskriterien und -skalen. Evaluationskriterien sind die Aspekte, anhand derer der Gegenstand der Studie beurteilt wird, z.  B.  Effektivität, Effizienz oder Nachhaltigkeit (vgl. Kap.  5). Je nachdem, welche öffentliche Politik untersucht wird, variieren die am besten geeigneten Bewertungskriterien. Beispielsweise können zu den oben genannten traditionellen Kriterien noch spezifischere Kriterien hinzugefügt werden: Chancengleichheit, Kohärenz, Partizipation, Reichweite usw. Die Frage der Bewertungs­ skalen betrifft die Schwellenwerte, bei denen ein Produkt einer öffentlichen Politik (z. B. eine Dienstleistung, eine Intervention, ein Projekt usw.) als gut oder schlecht, ausreichend oder unzureichend usw. bewertet wird. Wenn es der Untersuchungsgegenstand erlaubt, sollte diese Kategorisierung auf der Grundlage einer transparent begründeten Skala erfolgen, z.  B. durch die Festlegung von Schwellenwerten, seien sie quantitativ oder qualitativ (Grad der Zielerreichung, Zufriedenheit der Begünstigten). Schließlich zielt die Analyse darauf ab, Trends und wiederkehrende Themen zu identifizieren sowie kausale Erklärungsansätze für den Erfolg oder Misserfolg der untersuchten Interventionen zu entwickeln (vgl. Patton 1990, Kap. 8).

9.2.2 Die Formulierung von Empfehlungen Die Empfehlungen sind ein wesentliches Element der Evaluation, dem besondere Aufmerksamkeit geschenkt werden muss, damit die in der Evaluation geäußerten Kritiken von den Beteiligten verstanden und Vorschläge umgesetzt werden können. Die Empfehlungen müssen zwei Gruppen von Qualitätskriterien erfüllen: inhalt-

200

9  Techniken der Datenerhebung und -analyse

liche Kriterien (Wissenschaftlichkeit) und ethische Kriterien (Respekt gegenüber den Betroffenen). Im Hinblick auf die Wissenschaftlichkeit muss sich jede Empfehlung zunächst auf fundierte empirische Belege stützen (SEVAL-Standards 2016, B8). Der einer Empfehlung zugrunde liegende empirische Beweis sollte zwingend im Rest des Berichts enthalten sein. Um die Einhaltung des wissenschaftlichen Vorgehens zu gewährleisten, sollten die Empfehlungen keine neuen Elemente enthalten, sondern sich auf diejenigen beziehen, die in der Analyse gebührend berücksichtigt wurden. Basierend darauf müssen die Empfehlungen zudem in transparenter Weise und solid begründet formuliert werden (SEVAL-Standards 2016, C2). Zweitens muss sich die Unparteilichkeit der Evaluation in den Empfehlungen widerspiegeln, die auf einer Synthese aller bestehenden Informationen beruhen (SEVAL-Standards 2016, A3 und C1). Drittens werden die Empfehlungen auf der Grundlage von ausschließlich wissenschaftlichen Kriterien formuliert, d. h. auf der Grundlage einer objektiven Bewertung der Ergebnisse nach den festgelegten Kriterien, ohne dabei die politische Agenda von spezifischen Personen oder Institutionen zu bevorzugen. Diesem letzten Punkt muss während der ganzen Evaluation besondere Beachtung geschenkt werden, da Evaluator*innen während ihres Mandats verschiedenen potenziellen Beeinflussungsquellen ausgesetzt sind (Pleger und Sager 2016, vgl. Kap.  13). Bestimmte präventive Maßnahmen können im Vorfeld der Evaluation zwischen den Auftraggeber*innen und den Auftragnehmer*innen beschlossen werden, um die Evaluation vor einer möglichen Beeinflussung zu schützen. Dazu gehören ein klarer Vertrag mit Evaluationsfragen, die sich im Laufe des Mandats nicht ändern, eine Vereinbarung über die Veröffentlichung der Ergebnisse, die Gewährleistung des Zugangs zu verschiedenen Datenquellen und der methodischen Freiheit sowie die laufende Kommunikation über den Evaluationsfortschritt gegenüber allen an der Evaluation Beteiligten (Mavrot 2016; Mavrot und Horber-­ Papazian 2015). Auch für die Formulierung von Empfehlungen gelten ethische Kriterien (SEVAL-­Standards 2016, A10). In einer Evaluation muss ein ethisch verant­ wortungsvoller Umgang mit allen Beteiligten sichergestellt werden, seien es die Auftraggeber*innen der Evaluation, die an der Durchführung einer Evaluation ­Beteiligten oder die Zielgruppen einer Politik. Diese Akteur*innen werden häufig in die Evaluation einbezogen (z.  B. durch Teilnahme an Interviews oder Bereitstellung von Daten). Jede Evaluation fällt jedoch ein kritisches Urteil über einen gewissen Untersuchungsgegenstand, was die Evaluation nicht selten zu einer heiklen Tätigkeit macht. Die erste der Regeln betrifft die Wahrung der Anonymität und die Gewährleistung des Datenschutzes (SEVAL-Standards 2016, A9). Die Befragten sollen in einer Analyse nicht namentlich erwähnt werden und es müssen die

9.2  Analyse der Daten

201

notwendigen Vorkehrungen getroffen werden, um sicherzustellen, dass einzelne Personen, auch wenn ihre Aussagen anonymisiert wurden, nicht erkennbar sind. Zweitens haben an der Evaluation Beteiligte ein Recht auf Information, welches respektiert werden muss. Die diesbezüglich eingesetzten best practices umfassen beispielsweise die Durchführung einer Zwischen- und Abschlusspräsentation der Ergebnisse, bei der die Betroffenen ihre Perspektive einbringen können, oder die Einrichtung einer Begleitgruppe für die Evaluation den Einbezug von Vertreter*innen verschiedener Akteursgruppen ermöglicht (GREVAL 2016). Eine Liste mit praktischen Tipps, wie Empfehlungen formuliert werden können, finden Sie in Abschn. 12.4.

9.2.3 Transparenz und Reproduzierbarkeit Wie bei jeder wissenschaftlichen Forschung sind die Transparenz der Analyse und die Reproduzierbarkeit der Ergebnisse auch bei jeder Evaluation zentrale Qualitätsstandards. Die Einhaltung dieser beiden Elemente muss sichergestellt werden, um sowohl die Zuverlässigkeit als auch die Glaubwürdigkeit der Bewertung zu gewährleisten. Eine hohe Glaubwürdigkeit der Ergebnisse steigert wiederum die Chancen, dass Erkenntnisse aus der Evaluation auch wirklich durch die Betroffenen genutzt und die Empfehlungen umgesetzt werden (Patton 2008 [1978]). Diese Aspekte werden in den nachfolgenden Abschnitten erläutert. Dabei muss berücksichtigt werden, dass weitere nachfolgend nicht im Detail erläuterte Standards (bspw. die Einhaltung wissenschaftlicher Standards in der Datenerhebung und -analyse) unabdingbar sind, um eine hohe Qualität einer Evaluation zu ­gewährleisten (für einen vollständigen Überblick über die Evaluationsstandards siehe Kap. 11).

9.2.3.1 Transparenz Das Bedürfnis nach Transparenz besteht in den verschiedenen Phasen der Evaluation. Erstens muss eine Evaluation transparent aufzeigen, wie Daten ausgewählt und erhoben wurden. Die Angabe des Umfangs und der Herkunft der Daten, auf die sich die Evaluation stützt, sowie des Kontextes, in dem sie erhoben wurden, ermöglicht es der Leserschaft, die Art und Qualität der Informationen zu beurteilen, aus denen Schlussfolgerungen gezogen werden. Zweitens spielt Transparenz auch bei der Verwendung der Daten eine wichtige Rolle: Die Evaluator*innen müssen die Kriterien, auf Basis welcher eine Beurteilung des Untersuchungsgegenstands erfolgt, explizit machen (vgl. oben Abschn. 9.2.1). Das ist deshalb wichtig, weil eine untersuchte Maßnahme beispielsweise auf der einen Seite wirksam sein kann (d.  h. sie kann die gewünschten Wirkungen auf die Zielgruppen haben), aber

202

9  Techniken der Datenerhebung und -analyse

gleichzeitig auf der anderen Seite als ineffizient bewertet werden kann (d. h. sie ist mit hohen Kosten verbunden). Die Bewertung kann daher bei einem Kriterium positiv und gleichzeitig bei einem anderen negativ ausfallen und muss deshalb transparent sein, um bei der Leserschaft keine Verwirrung zu verursachen. Drittens betrifft der Bedarf an Transparenz den Zusammenhang zwischen Daten und Ergebnissen: Aus der Analyse muss transparent hervorgehen, wie auf Basis der Rohdaten die Schlussfolgerungen und schließlich die Empfehlungen entstanden sind. Transparenz ist insbesondere auch deshalb wichtig, weil der Zweck einer Evaluation öffentlicher Politik darin besteht, Verbesserung des öffentlichen Handelns anzustoßen. Das Publikum einer Evaluation begrenzt sich daher nicht auf eine beschränkte Zahl von Insidern im betroffenen Politikbereich. Evaluationen müssen auch der breiten Öffentlichkeit ermöglichen, die Vor- und Nachteile gesellschaftlicher Entscheidungen zu verstehen, und müssen die gewählten Entscheidungsträger*innen dabei unterstützen, fundierte Entscheidungen über die Zukunft politischer Programme zu treffen. Ob in der Praxis Evaluationsergebnisse genutzt werden oder nicht, entscheidet sich häufig durch intensive Machtkämpfe und hängt von strategischen Überlegungen in der Politik und der Verwaltung ab (Ledermann 2012). Gleichwohl gibt es Forschungsergebnisse, die darauf hindeuten, dass wissenschaftliche Evidenz aus Evaluationen unter bestimmten Bedingungen dazu beitragen kann, sowohl die demokratische Debatte (Schlaufer et al. 2018) als auch die Formulierung öffentlicher Politik (Frey 2010) zu beeinflussen (siehe Kap. 12).

9.2.3.2 Reproduzierbarkeit Historisch gesehen ist die Reproduzierbarkeit ein zentraler Standard der wissenschaftlichen Tätigkeit und ist insbesondere mit der wachsenden Bedeutung von Experimenten wichtiger geworden. Diese Entwicklungen sind verbunden mit der Verallgemeinerung eines Verständnisses von Wissenschaft als „System von Aussagen, die durch Konfrontation mit der Erfahrung falsifiziert werden können (oder müssen)“ (Pestre 1995, S. 494). Die Reproduzierbarkeit soll somit die Objekti­ vität wissenschaftlicher Arbeit gewährleisten, indem bei gleichbleibender Untersuchungsmethode und gleichbleibender Empirie jedes wissenschaftliche Team zu denselben Ergebnissen kommt. Die Interpretation bleibt jedoch inhärenter Bestandteil der wissenschaftlichen Tätigkeit, und sei es nur weil bestimmte Aspekte unterschiedlich priorisiert oder Ergebnisse unterschiedlich rapportiert werden. In Evaluationen ist die Frage der Reproduzierbarkeit eng mit den Erfordernissen der Transparenz verbunden. Die Evaluator*innen müssen über alle Phasen der Erstellung des Endergebnisses berichten, von der Konzeptualisierung des Evaluationsobjekts bis zur Sammlung und Analyse von Daten. Zudem ist die Gewährleistung der Reproduzierbarkeit für vergleichende Evaluationen – seien es Längsschnittver-

9.3  „Wie vorgehen?“-Kasten: Was sind die Vor- und Nachteile unterschiedlicher … 203

gleiche oder Querschnittsvergleiche  – notwendig. Sie ermöglicht es beispielsweise, die Umsetzung einer Politik in zwei geographischen Einheiten nach denselben Kriterien und Verfahren zu vergleichen oder die Entwicklung eines Evaluationsobjekts über die Zeit hinweg zu analysieren (siehe Kap. 8).

9.3

„ Wie vorgehen?“-Kasten: Was sind die Vor- und Nachteile unterschiedlicher Methoden und wie wählt man die geeigneten Methoden aus?

Durch die Zusammenfassung der Stärken und Schwächen der verschiedenen Methoden hilft der folgende Kasten  9.4, immer unter Berücksichtigung der Evaluationsziele, bei der Auswahl der geeigneten Instrumente. Kasten 9.4: Vor- und Nachteile der verschiedenen Datenerhebungs- und Analyseinstrumente

• Interviews bieten Zugang zu wertvollen informellen Informationen, die direkt aus der Praxis stammen. • Um eine voreingenommene Sichtweise zu vermeiden, sollten die verschiedenen Standpunkte durch Interviews abgefragt werden, was es zu einer zeitaufwändigen und ressourcenintensiven Technik macht. • Fokusgruppen ermöglichen es, mehrere Gesprächspartner*innen zusammenzubringen und durch die entstehende Gruppendynamik Informationen zu sammeln. • Fokusgruppen lassen keine Anonymität zu und die Zusammensetzung der Gesprächsgruppe kann zur Zensur unter den Teilnehmer*innen führen. • Die Dokumentenanalyse ermöglicht eine Analyse des öffentlichen Handelns in allen Phasen. • Dokumentationen, die hinsichtlich einer bestimmten öffentlichen Politik erstellt wurden, priorisieren gewisse Aspekte und vernachlässigen andere. Zudem sind gewisse sensible Dokumente häufig nur schwer zugänglich. • Umfragen bieten die Möglichkeit, die Ansichten einer großen Zahl von Befragten zu sammeln, um sich ein Gesamtbild zu verschaffen. • In Umfragen werden häufig geschlossene oder halboffene Fragen gestellt, wodurch die Tiefe der Antworten limitiert wird.

204

9  Techniken der Datenerhebung und -analyse

• Randomisierte kontrollierte Studien (Randomized Controlled Trials, RCTs) testen die Wirksamkeit einer groß angelegten Intervention auf der Grundlage eines strengen Studienprotokolls (Vergleich zwischen einer Interventionsgruppe und einer Kontrollgruppe). • Randomisierte kontrollierte Studien erfordern ein komplexes Design und beträchtliche Ressourcen; die Messung der Effekte ist auf die individuelle Ebene beschränkt. • Quasi-experimentelle Designs ermöglichen es, die Auswirkungen von Programmen auf der Grundlage der bestehenden Realität zu untersuchen. • Tatsächlich vergleichbare Situationen in der Realität zu finden, um die Auswirkungen der Existenz oder Absenz einer Intervention auf eine Bevölkerung zu untersuchen, stellt eine große Herausforderung von quasi-experimentellen Designs dar.

9.4

I llustratives Anwendungsbeispiel: Die Datenerhebung und -ana­lyse der Evaluation des Betäubungsmittelgesetzes in der Schweiz

Die Datenerhebung und -analyse wird hier anhand der Evaluation des Betäubungsmittelgesetzes (BetmG) illustriert (Mavrot et al. 2018).2 Diese Evaluation besteht aus fünf qualitativen und quantitativen Modulen, die auf verschiedenen ­Datensätzen basieren, und veranschaulicht, wie die Triangulation von Daten und Methoden umgesetzt werden kann. Die Evaluation des Vollzugs des BetmG wurde vom Bundesamt für Gesundheit (BAG) in Auftrag gegeben und von der Universität Bern umgesetzt, um die Angemessenheit und Rechtsmäßigkeit der Tätigkeiten  des BAG und seiner Umsetzungspartner*innen in folgenden Bereichen zu beurteilen: i) Die Bewilligungspraxis im Hinblick auf Ausnahmebewilligungen für die medizinische Anwendung von Cannabis zu therapeutischen Zwecken (z. B. die Verwendung von Cannabis zur Behandlung von Schmerzen und Spastik im Zusammenhang mit Multipler Sklerose); ii) Die Behandlung mit ärztlich verschriebenem Heroin für stark abhängige Konsument*innen illegaler Drogen im Rahmen der Vier-Säulen-Politik 2  Evaluation der Praxis der Erteilung von Ausnahmegenehmigungen für den Konsum von verbotenen Betäubungsmitteln und Evaluation der Umsetzungsaufgaben im Zusammenhang mit der Verschreibung von Heroin (Diacetylmorphin).

9.4  Illustratives Anwendungsbeispiel: Die Datenerhebung und -analyse der …

205

der Schweiz. Die Evaluation wurde über einen Zeitraum von 18 Monaten von einem Team aus drei Politikwissenschaftler*innen, einer Rechtsexpertin und einem wissenschaftlichen Mitarbeiter durchgeführt. Sie fand in einem Kontext statt, in dem das Betäubungsmittelgesetz in der Politik und innerhalb der Verwaltung debattiert wurde, insbesondere im Hinblick auf die Zahl der vom BAG erteilten Ausnahmebewilligungen für die medizinische Anwendung von Cannabis (Punkt i). Seit 2012 sieht das evaluierte Gesetz vor, dass das BAG den behandelnden Ärzt*innen in bestimmten Fällen Ausnahmegenehmigungen erteilen kann, wenn sie diese für ihre Patient*innen beantragen (System des doppelten Gatekeeper). Allerdings ist die Zahl der erteilten Ausnahmebewilligungen seit dem Inkrafttreten des Gesetzes stark gestiegen, was die im Evaluationsmandat enthaltenen Fragen ausge­ löst hat. Zur Beantwortung der Evaluationsfragen wurde ein gemischtes Studiendesign gewählt, das qualitative und quantitative Datensätze kombiniert und Ansätze aus unterschiedlichen Disziplinen – wie Rechts- und Politikwissenschaft – kombiniert. Im Folgenden wird eine Auswahl der verschiedenen Komponenten der Studie vorgestellt. 1. Kontextanalyse: Der erste Teil der Studie bestand aus einer Analyse des Kontexts, in welchem die Politik umgesetzt wurde, um die Erwartungen an und den Druck auf den Vollzug dieser Politik nachzuvollziehen. Die Kontextanalyse umfasste eine qualitative Dokumentenanalyse der nationalen Gesetzgebungsdebatten (National- und Ständerat) zu medizinischem Cannabis zwischen 2004 (grosse Gesetzesreform) und 2017 (Beginn der Evaluation) sowie zu heroingestützten Behandlungen zwischen 1998 (Schaffung der gesetzlichen Grundlagen nach wissenschaftlichen Versuchen) und 2017. Die Kontextanalyse enthielt auch eine Untersuchung der Medienberichterstattung über diese Themen, was zur Abbildung der öffentlichen Meinung über die Gesetzgebung diente. Die Recherche wurde anhand von Stichwortsuchen in deutscher und französischer Sprache auf der Datenbank „Factiva“  – welche die wichtigsten Schweizer Tages- und Wochenzeitungen umfasst – zwischen den Jahren 2000 (Debatten vor der Reform der Gesetzgebung über medizinischen Cannabis) und 2017 durchgeführt. 2. Quantitative Analyse der Gesuche um Ausnahmebewilligungen: Im zweiten Teil der Evaluation wurde anhand von Vollzugsdaten des Bundesamtes für Ge­ sundheit eine quantitative Analyse der geprüften Gesuche für Ausnahmebewilligungen zur Anwendung von medizinischem Cannabis durchgeführt. Die 8400 (anonymisierten) Gesuche, die das BAG zwischen 2012 (Beginn der Bewilligungspraxis) und 2017 geprüft hat, wurden nach der ICD-10-­Klassifikation

206

9  Techniken der Datenerhebung und -analyse

(Internationale Klassifikation der Krankheiten, Weltgesundheitsorganisation) kodiert. Zweck dieser Kodierung war es, (i) die Merkmale der Patient*innen, (ii) die medizinischen Diagnosen, (iii) die Symptome, für die die Ausnahmebewilligungen erteilt wurden, und (iv) die Kantone, aus denen die Gesuche stammten, nachzuvollziehen. Diese Komponente hat es ermöglicht, inhaltliche Anpassungen der Vollzugspraxis der Politik im Laufe der Zeit anhand von Zahlen zu objektivieren. 3. Online-Umfrage bei behandelnden Ärzt*innen: Der dritte Teil bestand aus zwei Online-Fragebogenumfragen unter Ärzt*innen, die für ihre Patient*innen in der Schweiz Gesuche für die Ausnahmebewilligung einer medizinischen Cannabisbehandlung gestellt haben (1406 Ärzt*innen), sowie unter Ärzt*innen, die in Institutionen arbeiten, welche Patient*innen mit einer heroingestützten Behandlung betreuen (22 Institutionen). Diese Umfragen gaben einen Einblick in die Meinung der Fachleute, die an vorderster Front von der Gesetzgebung hinsichtlich dieser medizinisch verwendeten Betäubungsmittel betroffen sind, sowie einen Überblick über ihre Praktiken (z. B. Wirksamkeit der Gesetzgebung in Bezug auf die Ziele der öffentlichen Gesundheit, Interaktionen mit dem BAG, Vorsichtsmassnahmen während der Behandlung). 4 . Analyse der Organisation und der Implementierungsprozesse: Die vierte Komponente beinhaltete eine umfassende Analyse der Organisation und der Prozesse im Vollzugssystem der öffentlichen Politik. Sie stützte sich auf eine Analyse der internen Dokumente der zuständigen Verwaltungseinheiten sowie auf 21 umfassende halbstrukturierte Interviews mit allen an der Umsetzung beteiligten Akteur*innen: BAG (Personen, die seit 2012 in der Umsetzung tätig waren und Vorgesetzte), Produktionskette der von der Gesetzgebung betroffenen Produkte (Apotheken, Hersteller*innen), medizinische Expert*innen sowie die Kantonsärzteschaft. Ziel dieser Komponente war es, die Angemessenheit und Wirksamkeit des Vollzugssystems bei der Erreichung der Ziele der Politik zu beurteilen und Verbesserungspotenzial zu identifizieren. 5 . Rechtsgutachten: Der fünfte Teil bestand aus einem Rechtsgutachten. Dieses Gutachten beantwortete die im Pflichtenheft der Evaluation enthaltenen Fragen aus rechtlicher Sicht. Sie beurteilte die Rechtmäßigkeit der Entwicklung der Bewilligungspraxis des BAG im Hinblick auf die bestehenden Rechtsgrundlagen: Heilmittelrecht, Betäubungsmittelgesetz und Verwaltungsverfahrensrecht. Sie stützte sich einerseits auf die im Rahmen der Evaluation durchgeführten Interviews (Vollzugspraxis) und andererseits auf schriftliche Unterlagen (rechtlicher Rahmen): Gesetzestexte, Rechtskommentare, Verwaltungsdokumente, Botschaften des Bundesrates, Gesetzgebungsarbeiten der Kommission für soziale Sicherheit und Gesundheit des Nationalrates und des

Bibliographie

207

Ständerates und parlamentarische Geschäfte. Das Rechtsgutachten bot der Bundesverwaltung eine Außenperspektive auf ihre Umsetzungspraxis. Die Evaluation machte deutlich, dass der starke Anstieg der Anträge auf soziale und medizinische Entwicklungen und nicht auf eine veränderte Vollzugspraxis des BAG zurückzuführen war, und gab Empfehlungen für verschiedene Anpassungen des Systems ab. Die Triangulation von Methoden und Daten ermöglichte es, sich ein vollständiges Bild von der Umsetzung der Politik zu machen.

Bibliographie Berthelot, J.-M. (2000). Sociologie: Épistémologie d’une discipline. Bruxelles: Editions De Boeck Université. Bourdieu, P., Chamboredon, J.-C., & Passeron, J.-C. (1983). Le métier de sociologue. Préalables épistémologiques (4. Aufl.). Berlin/New York/Paris: de Gruyter Mouton. Bowen, G. A. (2009). Document analysis as a qualitative research method. Qualitative Research Journal, 9(2), 27–40. Chabé-Ferret, S., Dupont-Courtade, L., & Treich, N. (2017). Évaluation des Politiques Publiques: Expérimentation randomisée et méthodes quasi-expérimentales. Economie & Prévision, 2, 1–34. Chamboredon, H., Pavis, F., Surdez, M., & Willemez, L. (1994). S’imposer aux imposants: A propos de quelques obstacles rencontrés par des sociologues débutants dans la pratique et l’usage de l’entretien. Genèses, 16, 114–132. Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen (13. Aufl.). Hamburg: Rowohlt Taschenbuch. Fink, A. (2003). How to sample in surveys (2. Aufl.). Thousand Oaks/London/New Delhi: Sage. Flick, U. (2005). Qualitative Sozialforschung. Eine Einführung (3. Aufl.). Reinbek bei Hamburg: Rowohlt Taschenbuch. Frey, K. (2010). Revising road safety policy: The role of systematic evidence in Switzerland. Governance, 23(4), 667–690. Gideon, L. (Hrsg.). (2012). Handbook of survey methodology for the social sciences. New York: Springer. GREVAL. (2016). Guide pour la mise en place d’un groupe d’accompagnement dans le cadre d’une évaluation. GREVAL (Groupe Romand d’Evaluation, Plateforme Evaluation en pratique). https://greval.ch/un-guide-pour-la-mise-en-place-dun-groupedaccompagnement-dans-le-cadre-d-une-evaluation/. Zugegriffen am 26.08.2020. Hollard, G., & Vion, A. (2006). Une typologie des démarches d’évaluation. In P. Lascoumes & F. Varone (Hrsg.), L’évaluation des politiques publiques entre enjeu politique et enjeu de méthode (S. 89–123). Paris: CEVIPOF. Karnieli-Miller, O., Strier, R., & Pessach, L. (2009). Power relations in qualitative research. Qualitative Health Research, 19(2), 279–289. Kitzinger, J., Markova, I., & Kalampalikis, N. (2004). Qu’est-ce que les focus groups? Bulletin de psychologie, Groupe d’étude de psychologie, 57(3), 237–243.

208

9  Techniken der Datenerhebung und -analyse

Klöti, U., & Widmer, T. (1997). Untersuchungsdesigns. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 185–213). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Krumpal, I. (2013). Determinants of social desirability bias in sensitive surveys: A literature review. Quality & Quantity, 47(4), 2025–2047. Langbein, L. (2012). Public program evaluation: A statistical guide (2. Aufl.). Armonk: ME Sharpe. Ledermann, S. (2012). Exploring the necessary conditions for evaluation use in program change. American Journal of Evaluation, 33(2), 159–178. Mavrot, C. (2016). Évaluation: L’indépendance à l’épreuve de la relation entre mandants et mandataires. LeGes-Gesetzgebung & Evaluation, 27(1), 83–89. Mavrot, C., & Horber-Papazian, K. (2015). „Workshop sur les liens entre mandant-e-s d’évaluation et mandataires“. Focus, The knowledge platform in the public sector  – Swiss Society of Administrative Sciences. http://www.sgvw.ch/fr/2015/11/09/seval/. Zugegriffen am 27.08.2020. Mavrot, C., Stucki, I., Sager, F., & Etter, J.-F. (2017). Efficacy of an Internet-based, individually tailored smoking cessation program: A randomized-controlled trial. Journal of Telemedicine and Telecare, 23(5), 521–528. https://doi.org/10.1177/1357633X16655476. Mavrot, C., Hadorn, S., Sprecher, F., & Sager, F. (2018). Evaluation spezifischer Vollzugsaufgaben des BAG im Rahmen des Betäubungsmittelgesetzes (BetmG). Bericht im Auftrag des Bundesamtes für Gesundheit (BAG). Bern: Kompetenzzentrum für Public Management und Institut für öffentliches Recht. Morgan, D. L. (2001). Focus group interviewing. In J. F. Gubrium & J. A. Holstein (Hrsg.), Handbook of interview research: Context and method. Thousand Oaks: Sage. Olivier de Sardan, J.-P. (1995). La politique du terrain. Sur la production des données en anthropologie. Enquête. Archives de la revue Enquête, 1, 71–109. Patton, M. Q. (1987). How to use qualitative methods in evaluation. Newbury Park/London/ New Delhi: Sage. Patton, M.  Q. (1990). Qualitative evaluation and research methods (2. Aufl.). Newbury Park: Sage. Patton, M. Q. (2008). Utilization-focused evaluation (4. Aufl.). Los Angeles/London/New Delhi/Singapore: Sage. Pestre, D. (1995). Pour une histoire sociale et culturelle des sciences. Nouvelles définitions, nouveaux objets, nouvelles pratiques. Annales. Histoire, Sciences Sociales, 50(3), 487–522. Pfeffermann, D., & Rao, C. R. (Hrsg.). (2009). Sample surveys: Design, methods and applications. Amsterdam: Elsevier. Pinard, R., Potvin, P., & Rousseau, R. (2004). Le choix d’une approche méthodologique mixte de recherche en éducation. Recherches Qualitatives, 24(1), 58–80. Pleger, L., & Sager, F. (2016). Die Beeinflussung in der Evaluationstätigkeit in der Schweiz und was die SEVAL dagegen tun kann. LeGes-Gesetzgebung & Evaluation, 27(1), 33–49. Rüefli, C. (2010a). Evaluationsmethoden im Spannungsfeld von Ansprüchen, Ressourcen und Kompetenzen – Einführung. LeGes – Gesetzgebung & Evaluation, 21(1), 9–22. Rüefli, C. (2010b). Evaluationsmethoden zwischen Pragmatismus und Qualität  – Ansätze zum Umgang mit dem Spannungsfeld. LeGes – Gesetzgebung & Evaluation, 21(1), 55–72.

Bibliographie

209

Sager, F., & Mavrot, C. (2015). Les spécificités méthodologiques de l’évaluation en Suisse. In K. Horber-Papazian (Hrsg.), Regards croisés sur l’évaluation en Suisse (S. 175–195). Lausanne: Presses Polytechniques et Universitaires Romandes. Sager, F., Thomann, E., Zollinger, C., & Mavrot, C. (2011). Tierarzneimittelregulierung in Europa. Ressortforschungsmandat des Bundesamtes für Gesundheit BAG. Kompetenzzentrum für Public Management. Bern: Universität Bernvs. Sager, F., Mavrot, C., Hadorn, S., & Hildbrand, L.  V. (2020). Kantonsübergreifender Evaluationsbericht kantonaler Tabakpräventionsprogramme-Definitiv. Bericht im Auftrag des Tabakpräventionsfonds, Bundesamt für Gesundheit (BAG). Kompetenzzentrum für Public Management. Bern: Universität Bern. Schlaufer, C., Stucki, I., & Sager, F. (2018). The political use of evidence and its contribution to democratic discourse. Public Administration Review, 78(4), 645–649. SEVAL. (2016). Evaluationsstandards der Schweizerischen Evaluationsgesellschaft. https:// www.seval.ch/app/uploads/2018/01/SEVAL-­Standards-­2016_d.pdf. Zugegriffen am 26.08.2020. White, H. (2010). A contribution to current debates in impact evaluation. Evaluation, 16(2), 153–164. Wholey, J. S., Hatry, H. P., & Newcomer, K. E. (Hrsg.). (2015). Handbook of practical program evaluation (3. Aufl.). Hoboken: Wiley. Widmer, T., & Beywl, W. (2000). Die Übertragbarkeit der Evaluationsstandards auf unterschiedliche Anwendungsfelder. In W.  Beywl & T.  Widmer (Hrsg.), Handbuch der Evaluationsstandards: Die Standards des „Joint Committee on Standards for Educational Evaluation“ (S. 243–257). Opladen: Leske + Budrich. Widmer, T., & Binder, H.-M. (1997). Forschungsmethoden. In W.  Bussmann, U.  Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 214–255). Basel: Helbing & Lichtenhahn. Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger.

Nutzung von Evaluationsergebnissen

10

Schlüsselwörter

Nutzung · Nutzen · Nützlichkeit · Verwendungsforschung · Institutionalisierung der Evaluationsfunktion

Evaluation ist eine Dienstleistung: sie liefert primär Handlungswissen, nicht Grundlagenwissen. Die Evaluationsforschung orientiert sich somit in der Regel nicht an theoretischen Debatten der Grundlagenforschung, sondern an praktischen Fragen ihrer Auftraggeber*innen (vgl. Kap.  1). Der vordringliche Zweck von Evaluationsergebnissen ist aus diesem Grund ihre Anwendbarkeit in der Praxis beziehungsweise ihre tatsächliche Nutzung. Dieser Zweck allerdings erfüllt sich nicht von alleine. Welche Faktoren fördern, welche hemmen die Nutzung von Evaluationen? Wie werden Evaluationen genutzt? Welche Vorkehrungen können getroffen werden, damit Evaluationen Nutzen stiften? Schon früh etablierte sich in der Evaluationsforschung die sogenannte Verwendungsforschung als wichtiger Forschungszweig, um diesen und ähnlichen Fragen nachzugehen. Der erste Abschnitt des vorliegenden Kapitels (Abschn.  10.1) präsentiert die Entwicklung der Verwendungsforschung von ihren Anfängen bis in die Gegenwart. Zuerst lag dieser Forschung die Annahme einer direkten Umsetzung von Ergebnissen zugrunde. Studien zeigten aber, dass Evaluationen selten direkt, sondern eher indirekt über Interaktionen zwischen Evaluierten und Evaluierenden Einfluss haben. Später wuchs die Erkenntnis, dass Evaluationen auch weitere Wirkungen haben konnten, indem sie beispielsweise eine politische Debatte auslösen. Dies führte zur © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_10

211

212

10  Nutzung von Evaluationsergebnissen

Entwicklung von Modellen, welche vom breiteren Begriff des „Einflusses“ von Evaluationen ausgingen. Abschn. 10.2 knüpft an die Erkenntnisse an, welche die Verwendungsforschung hervorgebracht hat, und beschäftigt sich mit den unterschiedlichen Arten der Nutzung von Evaluation. Gegenstand von Abschn. 10.3 ist die Einordnung der Diskussion um die Verwendung von Evaluationen in die Debatte um die Förderung von evidenzbasierter Politik, welche Ende der 1990er-Jahren an Bedeutung gewann. In Abschn. 10.4 beantworten wir die Frage, was Auftraggebende von Evaluationen aber auch Evaluierende tun können, damit Evaluationen genutzt werden und Abschn.  10.5 illustriert am Beispiel einer Evaluationserfahrung den konkreten Nutzen einer Evaluation. Was aber ist unter „Nutzen“ genau zu verstehen? Um diese Frage zu beantworten, ist es zweckmäßig, die drei Dimensionen „Nutzung“, „Nutzen“ und „Nützlichkeit“ zu unterscheiden (siehe Abb. 10.1). Während bei der Nutzung erfasst wird, welche Veränderungen durch die Evaluation tatsächlich ausgelöst werden, steht die Nutzendimension für die subjektive Wahrnehmung des Werts der Evaluation durch ihre Adressat*innen. Die Dimension der Nützlichkeit drückt dagegen aus, inwiefern die Prozesse und Ergebnisse der Evaluation so ausgestaltet wurden, dass eine Nutzung zu erwarten ist. In der Regel wird die Nützlichkeit anhand von Standards oder Leitlinien für die Politikevaluation festgestellt (vgl. Kap. 11). Im Zentrum der Verwendungsforschung steht die Nutzung selber (Sager und Ledermann 2008, S. 315).

10.1 Von der Verwendung zum Einfluss Evaluationen erfüllen ihren Zweck in der Regel erst dann, wenn sie für die Auftraggebenden Informationen liefern, die diese auch tatsächlich umsetzen können. „Nützlichkeit“ ist also eine wichtige Qualität von Evaluation. Diese Erkenntnis Dimension Nutzung (Verwendung, Verwertung)

Erläuterung Wertfreier Begriff, der den objektiv beobachtbaren Gebrauch von Politikevaluation und ihrer Produkte beschreibt

Nutzen

Wertmässige, subjektive Beurteilung der Qualität und Nützlichkeitvon Politikevaluation und ihrer Produkte Wertmässige Beurteilung von Merkmalen, die das Nutzungspotenzial wissenschaftlicher Politikevaluation und ihrer Produkte beschreiben

Nützlichkeit (Verwendbarkeit, Verwertbarkeit)

Abb. 10.1  Drei Dimensionen der Valorisierung von Politikevaluation. (Quelle: nach Sager und Ledermann 2008, S. 310; Sager und Hinterleitner 2014, S. 451)

10.1 Von der Verwendung zum Einfluss

213

war nicht immer da. Die großen gesellschaftspolitischen Reformen in den USA der Nachkriegszeit basierten stark auf sozialwissenschaftlichen Erkenntnissen. Der politische Bedarf nach Verbesserungswissen führte zur impliziten Erwartung, dass gute Forschung quasi automatisch auch genutzt werden würde. Dass dies nicht der Fall war, zeigte sich mit der zunehmenden Produktion von Wirksamkeitsstudien in den 1960er-Jahren (vgl. Kap. 3). Die Forschung wies nach, dass Evaluationsergebnisse häufig gar nicht umgesetzt wurden. Diese Erkenntnis steht am Anfang der Verwendungsforschung (Kissling-Näf et al. 1997, S. 258). Die Verwendungsforschung lässt sich in drei Phasen einteilen (Balthasar 2007). Die erste ist geprägt durch ein positivistisches Wissenschaftsverständnis und beginnt Ende der 1960er-Jahre mit der Wahrnehmung der Problematik. In der Folge wurden zahlreiche empirische Untersuchungen durchgeführt, unterschiedliche Verwendungsarten definiert und Einflussfaktoren ermittelt. Die zweite Phase stand im Zeichen der interaktionistischen Evaluationskonzepte. Dabei wurde die Verwendung von Evaluationsergebnissen als Ergebnis von Diskussionen zwischen den Beteiligten und den Betroffenen einer Maßnahme gedeutet. In diese Auseinandersetzungen fließen wissenschaftlich gestützte Evaluationsresultate ebenso ein wie professionelle oder alltagsweltliche Erfahrungen. In der dritten Phase öffnet sich die Verwendungsforschung zur breiter angelegten Forschung über den Einfluss von Evaluationen auf die öffentliche Politik.

10.1.1 Die klassische Verwendungsforschung Ursprünglich hatte die Idee vorgeherrscht, dass Evaluationen Impulse liefern, die direkt in die Politikformulierungsprozesse eingebaut werden. Das Modell der direkten Verwendung sozialwissenschaftlichen Wissens durch die Politik wurde aber von Carol H. Weiss (1977a, b) in Frage gestellt. Diese Pionierin der Verwendungsforschung hielt zum einen fest, dass die unmittelbare Verwendung oft ausbleibt. Dennoch haben Evaluationen aber Wirkung. Ihre empirischen Analysen machten nämlich deutlich, dass die Verwendung wissenschaftlichen Wissens wesentlich komplexer verläuft, als ursprünglich angenommen worden war. Weiss schlug darum vor, bei der Verwendung wissenschaftlichen Wissens zwischen der instrumentellen und der konzeptionellen Verwendung zu unterscheiden (Weiss 1977a). Die instrumentelle Verwendung hebt die direkte praktische Nutzung wissenschaftlicher Erkenntnisse hervor. Die konzeptionelle Verwendung verweist auf die indirekten Wirkungen durch „gradual sedimentation of insights, theories, concepts and ways of looking at the world“ (Weiss 1977b, S. 535; nach: Balthasar 2007, S.  24). Diese Wirkung bezeichnete Weiss als „Enlightenment“. Weiss hielt aber

214

10  Nutzung von Evaluationsergebnissen

auch fest, dass Evaluator*innen die Verwendung ihrer Ergebnisse kaum beeinflussen können. Diese wird nämlich maßgeblich von Kontextfaktoren bestimmt. Gleich einer Schriftstellerin respektive eines Schriftstellers, die die Kontrolle über die Wahrnehmung ihrer Bücher verlieren, sobald sie diese veröffentlicht haben, so erachtete sie es auch nicht die Aufgabe von Evaluator*innen, dafür zu sorgen, dass ihre Befunde korrekt umgesetzt werden. In den 1970er- und 1980er-Jahren boomte die Verwendungsforschung (Sager und Ledermann 2008), indem viele, insbesondere quantitative empirische Studien publiziert wurden. Dabei wurden unter anderem viele unterschiedliche Einflussfaktoren auf die Verwendung von Evaluationen herausgearbeitet. Marvin Alkin (1985) beschrieb rund 50 Faktoren, welche relevant für die Nutzung von Evaluationen sind und in vier Gruppen eingeteilt werden können (Sager und Ledermann 2008, S. 316): „(a) Merkmale des Evaluators bzw. der Evaluatorin, (b) Merkmale der Nutzer*innen, (c) Merkmale des (organisatorischen, politischen usw.) Kontexts, (d) Merkmale der Evaluation“. Darauf aufbauend interpretierte Carol Weiss politische Entscheidungen als Resultat des Kräfteverhältnisses von Ideologie, Interessen, Institutionen und Information (Weiss 1983). Weiss hebt hervor, dass es in einer Situation mit klaren ideologischen Positionen und gefestigten Interessen vermutlich nur dann möglich ist, Evaluationsergebnisse umzusetzen, wenn diese vorherrschende Meinungen bestätigen. Wenn dagegen wichtige politische Akteur*innen unterschiedliche ideologische Positionen vertreten oder wenn bei einer wichtigen Akteursgruppe Ideologie und Interessen nicht zu den gleichen Schlussfolgerungen führen, dann treffen Evaluationsergebnisse auf bessere Verwendungsbedingungen. Bevor jedoch Entscheidungen getroffen werden, unterziehen die Verantwortlichen die Ergebnisse einer Evaluation einem Wahrheits- („truth-test“) und einem Nützlichkeitstest („utility-test“), wie dies Weiss und Bucuvalas (1980) in ihrem Artikel „Truth Tests and Utility Tests: Decision Maker’s Frames of Reference for Social Science Research“, „der mittlerweile zu einem Klassiker der Verwendungsforschung aufgestiegen ist, postulierten“ (Sager und Ledermann ­ 2008, S. 317). Während die Wahrheit durch die wissenschaftliche Qualität der Evaluation sowie die Übereinstimmung der Ergebnisse mit dem bestehenden Wissen beurteilt wird, orientiert sich der Nützlichkeitstest an der Handlungsorientierung einer Evaluation: Entsprechen die Evaluationsergebnisse nicht den Vorstellungen der Beteiligten, wird die wissenschaftliche Qualität wichtiger und umgekehrt (Sager und Ledermann 2008, S. 318). Die klassische Verwendungsforschung macht deutlich, dass es verschiedene Arten von Verwendung gibt. Im Allgemeinen zeigt sich, dass die Verwendung von Evaluationsergebnissen dann recht häufig nachgewiesen werden kann, wenn unterschiedliche Verwendungsformen einbezogen und eine lange Betrachtungsperiode

10.1 Von der Verwendung zum Einfluss

215

gewählt werden. In dieser Phase wird eine erste „shopping list“ (Shulha und Cousins 1997) von Faktoren mit Einfluss auf die Verwendung identifiziert. Zudem diskutieren insbesondere Carol Weiss und Michael Quinn Patton über die Frage, ob die Evaluierenden für die Verwendung der Ergebnisse verantwortlich sind: Patton (1997) spricht sich in seinem wegweisenden Buch Utilization-focused Evaluation dafür aus, haben Evaluationen doch vor allem den Zweck nützlich zu sein. Weiss verneinte mit dem Argument, dass politische Entscheidungen selten alleine auf der Grundlage rationaler Argumente getroffen würden. Patton (1997) widerspricht dieser Sichtweise. Da der Hauptzweck der Evaluation in ihrer Nutzung liegt, ist es zentrale Aufgabe der Evaluierenden, ihre Studien so auszugestalten, dass die Anspruchsgruppen diese nutzen. Wie Sager und Ledermann (2008, S. 316) festhalten, rückt der „Fokus auf die Ausgestaltung der Interaktion zwischen dem Evaluator und dem Programm […] eine weitere Form der Nutzung ins Blickfeld: die Prozessnutzung, die relativ unabhängig von den Ergebnissen einer Evaluation auftreten kann.“ Patton (1997, S.  91) unterscheidet vier mögliche Veränderungen, die während des Evaluationsprozesses ausgelöst werden können. Sie sind in Kasten 10.1 zusammengefasst. Kasten 10.1: Vier mögliche Veränderungen aufgrund des Evaluationsprozesses nach Patton (1997)

• Förderung eines gemeinsamen Verständnisses des Programms und seiner Ziele, • Verbesserung der Umsetzung eines Programms über partizipative Methoden der Datenerhebung, • Stärkung des Engagements der Beteiligten und ihrer „Ownership“ des Programms, indem die Evaluation ihnen Gelegenheit zur Reflexion der eigenen Rolle bietet, • Verbesserung der Leistungsfähigkeit des Programms bzw. der Organisation als Ganzes.

10.1.2 Interaktionistische Verwendungsforschung In den 1990er-Jahren haben in der Evaluationsforschung Ansätze starkes Gewicht erhalten, welche dem Dialog von Evaluierenden und Evaluierten große Bedeutung beimessen. Dadurch werden die Voraussetzungen geschaffen, um Lernprozesse auszulösen und zu begünstigen (Balthasar 2007, S.  30  ff.). Bei diesen Ansätzen wird dem Evaluationsprozess ebenso große Bedeutung beigemessen wie den Pro-

216

10  Nutzung von Evaluationsergebnissen

dukten der Evaluation. Um Lernprozesse im Verlauf von Evaluationen auszulösen, wurde eine Vielzahl von unterschiedlichen Evaluationskonzepten entwickelt (vergleiche Abschn.  4.2). Diese Ansätze haben in der Regel drei Gemeinsamkeiten (Balthasar 2007, S. 31; nach Kissling-Näf et al. 1997, S. 264): • Erstens betonen sie, dass die Erarbeitung der wichtigsten Forschungsfragen und die Steuerung des Forschungsprozesses gemeinsam durch das Evaluationsteam und die von der Evaluation betroffenen Akteur*innen erfolgt. • Zweitens werden bei der Beurteilung der öffentlichen Politik die verschiedenen Wertvorstellungen der Akteur*innen berücksichtigt. • Drittens wollen solche Evaluationen nicht in erster Linie die Wahrheit ermitteln und eine unabhängige Bewertung einer öffentlichen Politik erreichen, sondern einen Konsens über die verschiedenen Gesichtspunkte im Hinblick auf deren Beurteilung erzielen. Diese Optik hatte auch Auswirkungen auf die evaluationswissenschaftliche Verwendungsforschung. Die Verwendung von Evaluationsergebnissen wird von der interaktionistischen Verwendungsforschung weniger von der wissenschaftlichen Qualität der Studien als von prozeduralen Faktoren abhängig betrachtet. Interaktionistische Ansätze betrachten Evaluationen als Chance für Lernprozesse in Organisationen. Dabei wird Lernen als inkrementeller und iterativer Prozess betrachtet, der auf partizipative Verfahren angewiesen ist und erheblich Zeit beansprucht. Mit dieser Art von Evaluationsansätzen verändert sich auch die Rolle der Evaluierenden. Von externen Beobachter*innen werden sie – je nach Konzept – zu prozessbeteiligten Akteur*innen, zu Mediator*innen oder Methodenspezialist*innen (Luo 2010).

10.1.3 Einfluss statt Verwendung von Evaluationen Bis in  die 1990er-Jahre fokussierte die Verwendungsforschung auf den Akt der Nutzung. Dabei vernachlässigt sie die Handlungen und Prozesse, die der Entscheidung zur Nutzung vorangehen. Die teils unklaren oder sogar widersprüchlichen Erkenntnisse der Verwendungsforschung können als Konsequenz dieser Vernachlässigung gesehen werden. Diese Beobachtung veranlasste R. Burke Johnson (1993, 1998) dazu, ein Prozessmodell zu erarbeiten, in welchem er unterschiedliche Einflussvariablen und ihre Beziehungen zueinander integrierte. Johnson führte drei Arten von prozeduraler Verwendung von Evaluationen ein (Kasten 10.2): Als erstes nennt er die kognitive Verwendung („cognitive use“), die

10.1 Von der Verwendung zum Einfluss

217

in etwa der konzeptuellen Nutzung von Evaluationsprozessen und -ergebnissen entspricht. Diese geht in der Regel einer verhaltensbezogenen Verwendung („behavioral use“) voraus. Diese zweite Nutzungsvariable hat gewisse Parallelitäten zur instrumentellen Nutzung von Evaluationsprozess und -ergebnissen. Als dritte und neue Art der Verwendung führte Johnson das Organisationslernen („organisational learning“) in sein Modell ein (Sager und Ledermann 2008, S. 319). Kasten 10.2: Drei Arten prozeduraler Verwendung nach Johnson (1993)

• Kognitive Verwendung („cognitive use“) = konzeptuelle Nutzung von Evaluationsprozess und -ergebnissen. • Verhaltensbezogene Verwendung („behavioral use“) = instrumentelle Nutzung als auch symbolische Nutzung von Evaluationsprozess und -ergebnissen • Organisationslernen („organisational learning“) = Verwendung auf interpersoneller Ebene

Johnson lenkte den Blick der Verwendungsforschung auf den Nutzungsprozess. In der Folge stellte Karen E. Kirkhart (2000) den Begriff der „Verwendung“ grundsätzlich in Frage, weil Evaluationen die Politik oft in diffuser, wenig zielgerichteter und zeitlich nicht klar abgrenzbaren Weise beeinflussen. Als Alternative schlägt sie den breiteren Begriff „Einfluss“ („influence“) vor, der solch diffuse Wirkungen besser miteinschließt (Sager und Ledermann 2008, S. 320). Kirkhart unterscheidet drei Dimensionen des Einflusses von Evaluationen: die Quelle, die Absicht und die Zeit (siehe Kasten 10.3). Kasten 10.3: Drei Dimensionen zur Beschreibung des Einflusses von Evaluationen nach Kirkhart (2000)

• Quelle: Evaluationsprozess oder Evaluationsergebnisse. • Absicht: beabsichtigt oder unbeabsichtigt. • Zeit: sofort, nach Abschluss der Evaluation oder längerfristig. Quelle: Sager und Ledermann (2008, S. 320)

Auf dieser Basis formulierten Melvin M. Mark und Gary T. Henry (2004) eine generelle „Theory of Influence“, die stark auf „Mechanismen“ fokussiert, über

218

10  Nutzung von Evaluationsergebnissen

welche Evaluationen einen Einfluss haben. Gemäß Mark und Henry lösen Evaluationen allgemeine, kognitive/affektive oder motivationale Mechanismen und Verhaltensprozesse aus. Diese Prozesse können auf drei Ebenen stattfinden, die sich gegenseitig beeinflussen: die individuelle, die interpersonelle und die kollektive Ebene, also die Organisationsebene. Auf jeder Ebene bestehen förderliche oder hinderliche Kontextbedingungen, die ebenfalls auf die verschiedenen Mechanismen einwirken (Sager und Ledermann 2008, S. 320). Die „Theory of Influence“ von Henry und Mark setzt sich in drei Punkten von der herkömmlichen Verwendungsforschung ab (Widmer und De Rocchi 2012, S. 144): • Erstens kritisiert sie die Wertung, die mit dem Begriff Nutzung impliziert wird. Sie bevorzugt das aus ihrer Sicht neutralere Konzept des Einflusses. • Zweitens kritisiert sie die enge Perspektive des Nutzungskonzepts, das sich sehr stark an den Nutzenden ausrichtet. Für sie sind in erster Linie die Inhalte relevant, die durch die Evaluation beeinflusst werden, nicht die Akteur*innen. • Drittens kritisiert sie den Umstand, dass die Nutzungsdebatte der theoretischen Durchdringung der Zusammenhänge bis dahin ein viel zu geringes Gewicht beigemessen hat. Sie fordert eine stärker theoretisch ausgerichtete Analyse zur Erklärung des Einflusses von Evaluationen. Der „Theory of Influence“ kommt das wichtige Verdienst zu, den Blick dafür zu öffnen, was „Verwendung von Evaluation“ eigentlich ist: nämlich sehr viel mehr, als es der etwas engstirnige Fokus auf den konkreten Nutzungsentscheid nahelegt. Die Idee von „Einfluss“ führt die Verwendungsforschung zur ursprünglichen Idee von Carol Weiss zurück, dass die Funktion von Evaluationen das „Enlightenment“ ist. Das „Enlightenment“ ist aber nicht auf die unmittelbaren Nutzenden beschränkt, sondern kann das Denken viel breiterer relevanter Kreise mitprägen. Gleichzeitig spricht die „Theory of Influence“ auch Patton (1997) das Wort, indem sie auf die Kontextabhängigkeit von „Einfluss“ und auf die Bedeutung des Evaluationsprozesses hinweist. Patton sieht genau hier die Aufgabe der Evaluierenden, nämlich den Kontext so in die Durchführung der Evaluation zu integrieren, dass sich die Anspruchsgruppen von der Evaluation auch tatsächlich angesprochen fühlen und die Ergebnisse nutzen. Und schließlich verweist die „Theory of Influence“ auch auf die institutionellen Aspekte, welche die Verwendung beeinflussen. Die Ausgestaltung von Organisationen zur Verbesserung der Verwendung von ­Evaluationen steht bei vielen jüngeren Arbeiten unter dem Stichwort „Evaluation Capacity Building“ im Zentrum des Interesses (z.  B.  Preskill und Torres 1999; Stockmann et al. 2020).

10.2 Arten des Nutzens der Evaluation

219

10.2 Arten des Nutzens der Evaluation Die Ausführungen zur Geschichte der Verwendungsforschung haben deutlich gemacht, dass verschiedene Arten des Nutzens von Evaluationen unterschieden werden müssen. Instrumenteller, konzeptioneller, prozeduraler und strategischer Nutzen sind die vier am häufigsten unterschiedenen Arten (Johnson 1998, S. 93; siehe Kasten  10.4). Nachfolgend gehen wir vertieft darauf ein (vgl. Sager und Ledermann 2008, S. 316–317; Balthasar 2007, S. 45 ff.).

10.2.1 Instrumenteller Nutzen Das ursprüngliche Interesse galt der direkten Verwendung von Evaluationen, der sogenannten instrumentellen Nutzung, die „den gezielten und unmittelbaren Gebrauch der Evaluationsbefunde durch Entscheidungstragende und weitere Akteure“ meint (Balthasar 2007, S. 45). Robert Rich nennt diese Art der Verwendung „cases where respondents cited and could document […] the specific way in which research was being used for decision-making or problem-solving purposes“ (Rich 1991, S. 528). Von instrumenteller Verwendung wird also dann gesprochen, „wenn Evaluationen Impulse liefern, die bewusst und nachweisbar in die Politikformulierungsprozesse eingebaut werden“ (Stamm 2003, S. 175; nach: Balthasar 2007, S. 45). Instrumentelle Verwendung ist beispielsweise dann gegeben, wenn die Entscheidungstragenden dem Vorschlag einer Evaluation folgen und ein Pilotprogramm nach dessen Abschluss in die ordentliche Gesetzgebung übernehmen. Vielfach wird das Ausmaß instrumenteller Verwendung von Evaluationen danach beurteilt, ob und in welchem Umfang allfällige Empfehlungen von Evaluationen umgesetzt werden. Dabei gilt es aber zu berücksichtigen, dass in der Regel nicht alle Empfehlungen gleich weitreichend sind. Im Hinblick auf die Beurteilung des Ausmaßes der instrumentellen Verwendung macht es selbstverständlich einen Unterschied, ob vor allem die zentralen oder die sekundären Empfehlungen umgesetzt werden (Balthasar 2007, S. 46)

10.2.2 Konzeptioneller Nutzen Die zweite Art der Verwendung ist die konzeptionelle Verwendung von Ergebnissen. Diese Art wurde von Carol H.  Weiss als Aufklärung („Enlightenment“) bezeichnet. Davon wird dann gesprochen, wenn Evaluationsergebnisse nicht

220

10  Nutzung von Evaluationsergebnissen

geradlinig umgesetzt, sondern im Verwendungskontext verarbeitet werden: „Social science research does not so much solve problems as provide an intellectual setting of concepts, propositions, orientations, and empirical generalizations. No one study has much effect, but, over time, concepts become accepted“ (Weiss 1978, S.  77; nach: Balthasar 2007, S.  46). Die konzeptionelle Verwendung beschreibt also die Nutzung von Evaluationsresultaten, die dann stattfindet wenn „Entscheidungstragende ihre Ansichten, ihre Einstellungen oder ihre Begrifflichkeiten gegenüber bestimmten Aspekten des evaluierten Programms verändern“ (Stockbauer 2000, S. 25).

10.2.3 Prozessbezogener Nutzen Patton aber auch andere weisen auf den wichtigen Effekt der prozessbezogenen Verwendung von Evaluation hin (Balthasar 2007, S. 48). Dieser tritt ein, „wenn sich unter den am Evaluationsprozess Beteiligten ein gemeinsames Verständnis bezüglich relevanter Probleme im Bereich der untersuchten Massnahme entwickelt“ (Balthasar 2007, S. 48), wenn das Engagement der Beteiligten durch Partizipation gestärkt wird, wenn durch Kooperation mit den Beteiligten bessere Daten erhoben werden können oder wenn mittels neuer Kontakte in einem Sachbereich ein Netzwerk von Beziehungen und Diskussionen entsteht, das die Evaluation selbst überdauert (vergleiche Kasten 10.1). Nutzung „erfolgt in diesen Fällen dadurch, dass Akteure allein durch die Teilnahme am Evaluationsprozess  – und nicht aufgrund der Ergebnisse – Einblicke in das Programm gewinnen, die ihr Verhalten beeinflussen“ (Balthasar 2007, S. 46; vgl. auch: Vedung 1999, S. 242)

10.2.4 Symbolischer Nutzen Vierte Form ist der symbolische Nutzen von Evaluationsergebnissen. Symbolischer Nutzen tritt ein, „wenn Entscheidungstragende Evaluationen nutzen, um ihre Optik zu bestätigen und sich Legitimation zu beschaffen“ (Balthasar 2007, S. 47; vgl. auch: Henry und Rog 1998, S. 90). Die symbolische Nutzung wird auch legitimatorische, persuasive oder taktische Verwendung genannt. Sie bezeichnet keine wirkliche Veränderung als Folge einer Evaluation. Wenn eine Evaluation belegt, dass der eingeschlagene Weg der richtige ist, dann ist daran nichts Anrüchiges. Anders ist es, wenn die Verantwortlichen Evaluationen gezielt benutzen, um gefällte Entscheidungen im Nachhinein zu rechtfertigen (vgl. Abschn. 3.4).

10.3 Von der Nutzung von Evaluationen zur evidenzbasierten Politik

221

In Kasten  10.4 werden die vier Arten des Nutzens von Evaluationen zusammengefasst. Kasten 10.4: Arten des Nutzens von Evaluationen

Aus der bisherigen Verwendungsforschung lassen sich zusammenfassend vier Arten der Nutzung von Evaluationen herleiten: • Instrumentelle Nutzung: Konkrete Veränderung (Handlung) aufgrund der Empfehlungen oder Ergebnisse einer Evaluation. • Konzeptuelle Nutzung: Kognitive Veränderung (Denken, Wahrnehmung) aufgrund der Ergebnisse einer Evaluation. • Prozedurale Nutzung: Konkrete Handlung oder kognitive Veränderung aufgrund der Teilnahme am Evaluationsprozess. • Symbolische Nutzung: Gebrauch von Ergebnissen einer Evaluation zur Begründung einer bereits vor der Evaluation eingenommenen Haltung. Die symbolische Nutzung wird auch legitimatorische, persuasive oder taktische Verwendung genannt. Sie bezeichnet keine wirkliche Veränderung. Quelle: Sager und Ledermann (2008, S. 316–317)

10.3 V  on der Nutzung von Evaluationen zur evidenzbasierten Politik In Kap.  3 haben wir darauf hingewiesen, dass der Ansatz des Evidence-Based Policy-­Making kurz nach der Jahrhundertwende die Bedeutung fundierter wissenschaftlicher Grundlagen für die Politikgestaltung hervorhob. Im Zuge dieser Entwicklung wurde die Diskussion zur Nutzung von Evaluationen in den breiteren Kontext der Debatte um das Verhältnis von Wissenschaft und Politik gestellt. Der amerikanische Politologe Harold Lasswell (1956) hat bereits um die 1950er-Jahre angestrebt, eine politikwissenschaftliche Disziplin aufzubauen, welche „relevantes Wissen für und über politische Entscheidungsprozesse zur Verfügung stellt“ (Jann und Wegrich 2003, S. 75; vgl. Balthasar und Müller 2014). David Collingridge und Colin Reeve argumentieren aber in ihrem Werk „Science Speaks to Power: The Role of Experts in Policy Making“, dass die Wissenschaft dem Ruf nach der Bereitstellung von für die Politikgestaltung relevanten Daten nicht nachkommen könne

222

10  Nutzung von Evaluationsergebnissen

(Collingridge und Reeve 1986). Dies, weil Wissenschaft den Fokus nicht auf die Vermittlung von gesicherter Information legt, sondern „organisierte Skepsis, Zweifel und Falsifizierung sei“ (Collingridge und Reeve 1986; vgl. Balthasar und Müller 2014, S. 72). Das Ideal nützlicher Evaluationen bleibt unter Berücksichtigung dieser Vorbehalte somit nicht unbestritten, wobei insbesondere drei zentrale Kritiken bestehen bleiben (Balthasar und Müller 2016). Erstens wird kritisiert, dass die Vorstellung von evidenzbasierter Politik auf dem Konzept „instrumenteller Rationalität“ fusst (Balthasar und Müller 2016, S.  90). Dies sei deshalb problematisch, weil die Norm- und Interessensbasierung gerade das Wesen der Politik sei. Zweitens wird dem Ideal vorgeworfen, dass die Vorstellung, dass politische Entscheide durch die Bereitstellung von Evidenz verbessert werden können, zu optimistisch sei (Frey und Ledermann 2010; vgl. Balthasar und Müller 2016) Und drittens wird dem Ideal der nützlichen Evaluation vorgeworfen, dass es der Tatsache zu wenig Rechnung trägt, dass Wissen oftmals als strategische Ressource zur Machterhaltung und Machterweiterung eingesetzt wird (Parsons 2002; vgl. Balthasar und Müller 2016, S. 91). Die Befürworter*innen des Ansatzes des Evidence-Based Policy-Making und damit der Orientierung von Evaluationen am Anspruch der Nützlichkeit tragen diesen Überlegungen Rechnung. Sie sprechen heute in der Regel nicht mehr von „evidence-­based“ sondern eher von „evidence-informed“ oder „evidence-inspired“ Policy-Making und schwächen so die Rolle von Evidenz für die Politikformulierung ab (z. B. Nutley et al. 2003; vgl. Balthasar und Müller 2016). Auch leugnen sie nicht die Wichtigkeit von Machtverhältnissen und Ideologien in der politischen Entscheidfindung. Befürworter*innen evidenzbasierter Politik argumentieren aber, dass die Bereitstellung von Evidenz den Spielraum für ausschließlich ideologische Entscheide reduziert (Howlett 2009; Nutley et al. 2007; Solesbury 2001; vgl. Balthasar und Müller 2014, S.  73). Die Forschung zum Evidence-Based Policy-­ Making zeigt, dass sich eine effektive und nachhaltige politische Intervention auf Nachweise und Fachwissen über die potenziellen Auswirkungen der beabsichtigten Intervention stützen muss. Trotz der skizzierten Debatte ist die Bedeutung von Evaluationen in Zusammenhang mit der Entwicklung des Evidence-Based Policy-Making gestiegen. Die Nachfrage der Politik nach Evidenz hat zugenommen. Die Politikevaluation hat sich von einer Ausnahmeerscheinung zur Regel etabliert (Sager und Hinterleitner 2014). Heute gehört es zur guten Praxis zeitgemäßer Verwaltungsführung, öffentliche Politiken, Programme und Projekte systematisch zu evaluieren. Spezialisierte

10.4 „Wie vorgehen?“-Kasten: Wie kann man den Nutzen von Evaluationen …

223

Akteursnetzwerke innerhalb der Verwaltung fördern die Evidenzbasierung in der Politikformulierung und reduzieren so die Präsenz von ungesteuerten „learning by doing“-Politikformulierungsprozessen (Mavrot und Sager 2018, S. 398). Informationen zur Wirksamkeit bilden Entscheidungsgrundlagen für Veränderungen, Weiterführungen oder Beendigung von politischen Maßnahmen. Doch lohnt sich der Aufwand für eine Evidenzbasierung überhaupt? Diese Frage haben sich Kathrin Frey und Simone Ledermann (2017) gestellt. Sie kommen zum Schluss, dass sich die Forschung bisher sehr selten damit befasst hat. „So bleibt meist offen, wie umfangreich, relevant, nachhaltig oder wirksam Politikentscheidungen sind, die ganz oder teilweise auf die Nutzung von Evaluationen zurückzuführen sind“ (Frey und Ledermann 2017, S. 236).

10.4 „ Wie vorgehen?“-Kasten: Wie kann man den Nutzen von Evaluationen erhöhen? Obwohl sich zahlreiche Studien mit dem Nutzen von Evaluationen auseinandergesetzt haben, lässt sich dennoch nicht abschließend sagen, welche Faktoren ausschlaggebend dafür sind, dass Prozess und Ergebnisse von Evaluationen genutzt werden. Einige generelle Aussagen sind jedoch möglich (die ersten beiden Punkte basieren auf Sager und Ledermann 2008, S. 317). Erstens kann festgestellt werden, dass Evaluationen im Falle von Konflikten zwischen verschiedenen Stakeholdern nur selten Verbesserungen bewirken können (Sager und Ledermann 2008). Eine Studie von Simone Ledermann (2004) zeigte, dass die symbolische Nutzung dominiert, wenn Konflikte bestehen. Konkret werden also nur jene Informationen genutzt, die die bereits bestehenden Ansichten bestätigen. Es fehlt in konfliktbehafteten Situationen die Lernbereitschaft der Beteiligten, um „eine prozedurale, konzeptionelle oder instrumentelle Verwendung“ zu initiieren (Sager und Ledermann 2008, S.  317). Diese letztgenannten Verwendungsformen kommen nur in wenigen Fällen und insbesondere dann zustande, wenn der Druck für Veränderung hoch war. Evaluationen dienen in Konfliktsituationen primär der Legitimierung (Valovirta 2002). In Fällen hohen politischen Rechtfertigungsdrucks kann eine Evaluation somit einen rein symbolischen Zweck haben, so dass die Nutzer*innen gar kein Interesse an unabhängigen Ergebnissen haben. Aus einer Perspektive der Nutzung ist bei Konflikten, die darauf hindeuten, dass kein Interesse an unabhängigen Ergebnissen besteht, deshalb eher auf eine Evaluation zu verzichten.

224

10  Nutzung von Evaluationsergebnissen

Die zweite generelle Aussage, die gemacht werden kann, ist, dass der Einbezug der potenziellen Nutzer*innen die Nutzung von Evaluationsergebnissen fördert (siehe z.  B.  Patton 1997; Weiss 1998). Dadurch wird einerseits die prozedurale Nutzung gestärkt, andererseits können die Nutzer*innen die Erkenntnisse aus der Evaluation besser nachvollziehen, wodurch die Akzeptanz der Ergebnisse und dadurch schließlich deren Nutzung erhöht wird (Sager und Ledermann 2008, S. 317). Ist die Transparenz des Evaluationsprozesses und somit die daraus gewonnenen Erkenntnisse gering, verringert dies die Nutzung. Verwendet werden schlecht nachvollziehbare Resultate nur dann, wenn diese den Erwartungen der Betroffenen entsprechen und kein Konflikt besteht (Ledermann 2004). Drittens ist es wichtig, dass die Evaluationen fachlich gut gemacht sind. Wie wir in Abschn.  11.1 noch ausführlich darlegen werden, bedeutet dies in erster Linie, dass sie methodisch sorgfältig, ethisch korrekt und kostenbewusst durchgeführt werden. Zudem sollen sie sich am Informationsbedarf der vorgesehenen Nutzer*innen orientieren. Diese Anliegen sind Inhalt der Qualitätsstandards, denen Evaluationen entsprechen sollten. Viertens ist es für die Verwendung von Evaluationen wichtig, dass diese Studien in einem diesbezüglich förderlichen institutionellen Kontext durchgeführt werden. Notwendig ist ein gewisses Maß an Institutionalisierung der Evaluationsfunktion (Balthasar und Strotz 2017). Dies stellt zum einen sicher, dass der Prozess der Evaluation professionell durchgeführt und dass die Produkte qualitativ gut gemacht sind. Institutionalisierung trägt aber auch dazu bei, dass die Beteiligten und die Betroffenen wissen, warum Evaluationen durchgeführt werden und welches deren Möglichkeiten und Grenzen sind. Ausdruck der Institutionalisierung der Evaluationsfunktion können das Vorhandensein einer Evaluationsstelle, Evaluationsklauseln in Gesetzen, formalisierte Evaluationsprozesse und Grundlagendokumente betreffend Evaluation (z.  B.  Konzepte oder Checklisten) darstellen (siehe z. B. Läubli Loud 2014; Preskill und Torres 1999; Stufflebeam 2002). Klar ist, dass sich der Nutzen von Evaluationen nicht einfach ergibt, sondern dass die Auftraggebenden und die Evaluierenden etwas dazu beitragen können: „Use of evaluation results and processes does not come automatically. It must be planned and cultivated throughout the evaluation process“ (Horton et  al. 2003, S. 119). Vor diesem Hintergrund hat die Schweizerische Direktion für Entwicklung und Zusammenarbeit zehn Leitsätze formuliert, welche Personen, die eine Evaluation in Auftrag geben oder begleiten, sowie Evaluierende beachten sollten, damit Evaluationsresultate erfolgreich umgesetzt werden (vgl. Kasten 10.5). Diese Leitsätze haben auch in anderen Politikbereichen Gültigkeit.

10.4 „Wie vorgehen?“-Kasten: Wie kann man den Nutzen von Evaluationen …

225

Kasten 10.5: Wie kann man den Nutzen von Evaluationen erhöhen?

1. Den Boden vorbereiten: Eine vorausschauende, transparente Eva­ luationsplanung und breit angelegte Konsultationen mit den Beteiligten über das Vorhaben helfen Widerstände abzubauen, erhöhen die „ownership“ und fördern die Umsetzungsbereitschaft. Der Zweck und der Nutzen der Evaluation muss bereits bei der Planung allen Beteiligten klar sein. 2. Darauf hinwirken, dass Veränderung möglich ist und der Wille zu Verbesserungen da ist: Ohne Handlungsspielraum ist keine Veränderung möglich. „Hidden Agendas“, fehlende Flexibilität, ungünstige politische Konstellationen, latente Konflikte und verfahrene Situationen können die Umsetzung von Vornherein verunmöglichen. Deshalb kann es sinnvoll sein, vor der Evaluation in eigener Verantwortung eine Situationsanalyse durchzuführen, um den Handlungsspielraum, die Veränderungsbereitschaft sowie die Interessenkonstellation der Beteiligten zu klären. Damit können auch die Risiken unerwarteter negativer Auswirkungen besser abgeschätzt werden. 3. Erwartungen der Entscheidungsträger*innen klären und aufnehmen: Für die Entscheidungsträger*innen relevante Evaluationsresultate, die rechtzeitig zur Verfügung stehen, haben gute Chancen, aufgenommen zu werden. Deshalb sollen die Ziele der Evaluation den Erwartungen der Entscheidungsträger*innen entsprechen und der Zeitplan der Evaluation mit anstehenden Entscheidungsprozessen übereinstimmen (Gebot der „timeliness“). 4. Das Vorhaben stufengerecht auf Managementebene und bei politischen Entscheidungsträger*innen verankern: Steht das Management nicht hinter den Evaluationszielen, den Ergebnissen und den zur Umsetzung bestimmten Empfehlungen, werden die Umsetzungsbestrebungen der Stakeholder nicht fruchten. Stellungnahmen der Vorgesetzten erhöhen die Verbindlichkeit. Das Management muss eine wichtige Rolle bei der Sensibilisierung von betroffenen Entscheidungstragenden und Politiker*innen übernehmen. Der Nutzen einer Evaluation wird erhöht, wenn ein Bezug zu einer übergeordneten Politik hergestellt werden kann oder eine strategische Weichenstellung bevorsteht. 5. Die Stakeholder „abholen“: Eine defensive Haltung der Stakeholder führt zu einer Ablehnung der Resultate. Bei der Gestaltung der Evaluationsfragestellung soll ein Gleichgewicht zwischen kritischen und valorisierenden Fragen angestrebt werden.

226

10  Nutzung von Evaluationsergebnissen

6. Kompetenzen und Glaubwürdigkeit der Evaluierenden bei den Beteiligten transparent einführen: Der Auswahl der Evaluierenden kommt eine zentrale Bedeutung zu. Die Beachtung der Evaluationsresultate steigt, wenn die Beteiligten die Evaluierenden als glaubwürdig, fachlich kompetent und unabhängig wahrnehmen. Es ist sinnvoll, die Beteiligten bei der Selektion der Evaluierenden einzubeziehen, zum Beispiel bei der Diskussion der Auswahlkriterien. 7. Evaluationsergebnisse in einer für die Beteiligten verständlichen und angemessenen Sprache verfassen: „C’est le ton qui fait la musique“ – Evaluationsergebnisse sollen so kommuniziert werden, dass sie für die Adressat*innen verständlich und kulturell angepasst sind. 8. Auseinandersetzung der Beteiligten mit den Empfehlungen sicherstellen: Eine etappenweise Auseinandersetzung der Beteiligten mit den Evaluationsresultaten erhöht die Umsetzungsbereitschaft. Dieser Prozess löst Lerneffekte aus und dafür muss genügend Zeit eingeplant werden. Der Entwurf des Evaluationsberichtes soll mit den Beteiligten besprochen werden, um ihnen die Gelegenheit zu geben, Missverständnisse und Lücken zu klären und sie auf die Schlussresultate einzustimmen. Der Evaluationsprozess soll mit einer schriftlichen Stellungnahme der Beteiligten zu den Evaluationsempfehlungen abgeschlossen werden. Darin sollte nicht nur festgehalten werden, wer was wann wo verändern wird, sondern auch was nicht umgesetzt wird und weshalb. Eine stufengerechte Stellungnahme des Managements erhöht die Verbindlichkeit. 9. Über Nachvollziehbarkeit Glaubwürdigkeit schaffen: Die Schlussfolgerungen müssen begründet sein, damit die Beteiligten diese nachvollziehen und einschätzen können. Der Evaluationsbericht soll so gestaltet werden, dass die Ergebnisse, Folgerungen und Empfehlungen zwar klar voneinander abgegrenzt sind, aber aufeinander aufbauen. 10. Die Empfehlungen klar und realistisch gestalten: Die Empfehlungen sollen spezifisch sein und Beteiligte stufen- und kompetenzgerecht klar ansprechen. Weniger ist mehr. Quelle: Direktion für Entwicklung und Zusammenarbeit DEZA (2004, leicht adaptiert)

10.5 Illustratives Anwendungsbeispiel: Institutionalisierung der …

227

10.5 I llustratives Anwendungsbeispiel: Institutionalisierung der Evaluationsfunktion und Nutzung von Evaluationsergebnissen Nachfolgend illustrieren wir, welche Rolle die Institutionalisierung des Evaluationsdienstes innerhalb einer Verwaltungsstelle im Hinblick auf die Nutzung von Evaluationsergebnissen spielen kann. Das Bundesamt für Gesundheit der Schweiz und die darin aufgebaute Evaluationsstelle dienen als Anwendungsbeispiel. Dabei verweisen wir zudem auf die Nutzung der Erkenntnisse aus einer spezifischen Evaluation, der Evaluation des Betäubungsmittelgesetzes (siehe auch Abschn.  9.4; Mavrot et al. 2018), um den erzeugten Nutzen konkreter illustrieren zu können.

10.5.1 Die Rolle eines Evaluationsdiensts in der Verwaltung Aufgrund der wachsenden Wichtigkeit von Evaluationen in der Verbesserung der Politikformulierung und -umsetzung hat das schweizerische Bundesamt für Gesundheit (BAG) im Jahr 1992 eine interne Evaluationsstelle eingerichtet (BAG 1997), welche seither für die Ausschreibung, Begleitung und Qualitätssicherung von durch das BAG in Auftrag gegebenen Evaluationen zuständig ist. Zentrale Ziele dieser Evaluationsstelle betreffen die Förderung der Nützlichkeit und Nutzung der Erkenntnisse. Das Evaluationsmanagement soll sicherstellen, dass die Bedürfnisse der Nutzer*innen bei einer Evaluation im Zentrum stehen und dass die Erkenntnisse zeitgerecht vorliegen sowie gültig und verwendbar sind (BAG 2020a). Diesen Zielen wird in verschiedenen Etappen des Evaluationsmanagements Rechnung getragen, die in Abb.  10.2 abgebildet sind. Bei der Vorbereitung und Umsetzung der Evaluation (Phasen 1–5) wird darauf geachtet, dass die Prioritäten und das Erkenntnisinteresse der Betroffenen stark berücksichtigt werden. In den Phasen 6 und 7 steht dann die effektive Nutzung der Ergebnisse im Zentrum. Konkret werden in Phase 6 die Erkenntnisse der Evaluation BAG-intern sowie mit externen Partnern diskutiert, um Entscheide bezüglich deren Nutzung zu fällen. Phase  7 baut auf diesen Nutzungsentscheiden auf und hält fest, dass die von einer Evaluation betroffenen Personen respektive Verwaltungseinheiten einige Zeit nach Abschluss der Evaluation über den Stand der Umsetzung der Evaluationsempfehlungen rapportieren müssen. Die entsprechenden Fortschritte werden BAG-intern im „Mehrjahresbericht Evaluation“ festgehalten (BAG 2020b). Dieses Vorgehen fördert die Umsetzung von Evaluationsempfehlungen durch die Schaffung von Trans-

228

10  Nutzung von Evaluationsergebnissen

Abb. 10.2  Phasen des Evaluationsmanagements im BAG. (Quelle: BAG 2020b, S. 9)

parenz gegenüber der Hierarchie und zwingt die von einer Evaluation Betroffenen dazu, sich kritisch mit den Evaluationsergebnissen auseinanderzusetzen.

10.5.2 Konkreter Nutzen im Falle der Evaluation des Betäubungsmittelgesetzes (BetmG) Im Folgenden gehen wir auf den Nutzen der Evaluation des Betäubungsmittelgesetzes (für Details siehe Abschn. 9.4) ein, die vom BAG in Auftrag gegeben und im Jahr 2018 abgeschlossen wurde (Mavrot et al. 2018). Die Evaluation hatte zum Ziel, den Vollzug des BetmG zu analysieren und Empfehlungen zu erarbeiten, um die im Vollzugssystem vorhandenen Spannungsfelder aufzulösen. Die Ausgangslage der Evaluation war relativ konfliktbehaftet, weshalb auch der Entscheid über den Einbezug externer Expertise in Form eines Evaluationsteams nicht unumstritten war. Dennoch konnte die Evaluation dank der Mitarbeit aller Beteiligten planmäßig umgesetzt und die benötigten Handlungsempfehlungen verfasst werden. Eineinhalb Jahre nach Ende der Evaluation hat eine Mitarbeiterin des Evaluationsdiensts des BAG zusätzlich zum oben abgebildeten Prozess eine amtsinterne Erhebung gemacht, um die Umsetzung der Empfehlungen der vorgenannten Evaluation vertieft zu analysieren (Bonassi 2020). Dazu wurden die an der Evaluation beteiligten Mitarbeiter*innen zu der Umsetzung der Empfehlungen und zu ihrer Einschätzung der Evaluation als Ganzes befragt (insgesamt sieben Rückmeldungen) sowie interne Dokumente ausgewertet. Auf dieser Basis kommt die

Bibliographie

229

Evaluationsmanagerin zu einem positiven Schluss: „Eineinhalb Jahre nach Abschluss der Evaluation wird der Grossteil der Empfehlungen umgesetzt und die interdisziplinäre Zusammenarbeit im BetmG-Vollzug gelingt“ (Bonassi 2020, S.  3). Zudem zeigen die Rückmeldungen der Evaluierten, dass der Evaluationsprozess als Ganzes trotz anfänglicher Skepsis auf Akzeptanz gestossen war. Eine befragte Person kommt zum Schluss, dass eine Evaluation „tatsächlich wesentliche Entwicklungen anstoßen kann (Verbesserung der internen Zusammenarbeit, der Prozesse und teilweise auch Anstoßen eines Rechtsetzungsprozesses), obwohl bei den involvierten Kreisen diesbezüglich teilweise grössere Widerstände/Ablehnung bestand[en]“ (Bonassi 2020, S. 26). Das Beispiel verdeutlicht, dass Evaluationen trotz einer schwierigen Ausgangslage einen Nutzen für die Betroffenen stiften können, wenn durch die Institutionalisierung der Evaluationspraxis nutzungsorientierte Prozesse gefördert werden.

Bibliographie Alkin, M. C. (1985). A guide for evaluation decision makers. Beverly Hills: Sage. BAG. (1997). Leitfaden für die Planung von Projekt- und Programmevaluation. Bern: Bundesamt für Gesundheit (BAG). https://www.bag.admin.ch/bag/de/home/das-bag/ ressortforschung-evaluation/evaluation-im-bag/arbeitshilfen-fuer-das-evaluationsmanagement/leitfaeden-und-glossare-zum-evaluationsmanagement.html#836819226. Zugegriffen am 17.11.2020. BAG. (2020a). Evaluationsmanagement im BAG. Bern: Bundesamt für Gesundheit (BAG). https://www.bag.admin.ch/bag/de/home/das-bag/ressortforschung-evaluation/evaluation-im-bag/evaluationsmanagement-im-bag.html. Zugegriffen am 17.11.2020. BAG. (2020b). Rahmenkonzept „Evaluation im BAG“. Bern: Bundesamt für Gesundheit (BAG). Balthasar, A. (2007). Institutionelle Verankerung und Verwendung von Evaluationen: Praxis und Verwendung von Evaluationen in der schweizerischen Bundesverwaltung. Zürich: Rüegger. Balthasar, A., & Müller, F. (2014). Die Verbreitung evidenzbasierter und gleichstellungssensitiver Informationen in den Entscheidungsprozessen kantonaler Steuer- und Sozialtransferpolitik: Eine quantitative Analyse. Swiss Political Science Review, 20(1), 70–95. Balthasar, A., & Müller, F. (2016). Gender equality and evidence-based policy making: Experiences from social transfer and tax policy reforms. In B.  Liebig, K.  Gottschall & B.  Sauer (Hrsg.), Gender equality in context: Policies and practices in Switzerland (S. 87–108). Opladen/Berlin/Toronto: Barbara Budrich Publishers. Balthasar, A., & Strotz, C. (2017). Verbreitung und Verankerung von Evaluation in der Bundesverwaltung. In F. Sager, T. Widmer & A. Balthasar (Hrsg.), Evaluation im politischen System der Schweiz  – Entwicklung, Bedeutung und Wechselwirkungen (Bd. 5, S. 89–117). Zürich: NZZ Libro.

230

10  Nutzung von Evaluationsergebnissen

Bonassi, T. (2020). Medizinalcannabis: Nutzung einer Evaluation im Bundesamt für Gesundheit in einem interdisziplinären und politischen Umfeld [Zertifikatsarbeit]. Universität Bern: CAS Forschungsmanagement 2019/2020. Collingridge, D., & Reeve, C. (1986). Science speaks to power: The role of experts in policy making. London: F. Printer. Direktion für Entwicklung und Zusammenarbeit (DEZA). (2004). Evaluationen erfolgreich nutzen. 10 Leitsätze. Bern: Direktion für Entwicklung und Zusammenarbeit. Frey, K., & Ledermann, S. (2010). Evidence-based policy: A concept in geographical and substantive expansion. German Policy Studies, 6(2), 1–15. Frey, K., & Ledermann, S. (2017). Nutzung von Evaluationen in Regierung und Verwaltung. In F.  Sager, T.  Widmer, & A.  Balthasar (Hrsg.), Evaluation im politischen System der Schweiz – Entwicklung, Bedeutung und Wechselwirkungen (Bd. 5, S. 211–241). Zürich: NZZ Libro. Henry, G. T., & Rog, D. J. (1998). A realist theory and analysis of utilization. In New directions for evaluation (Bd. 78, S. 89–102). San Francisco: Jossey-Bass. Horton, D., Alexaki, A., Bennett-Lartey, S., Carden, F., Vernooy, R., Brice, K. N., Campilan, D., de Souza Silva, J., Duong, L. T., Khadar, I., Maestry Boza, A., Muniruzzaman, I. K., Perez, J., Chang, M. S., & Watts, J. (Hrsg.). (2003). Evaluating capacity development: Experiences from research and development organizations around the world. IDRC. Howlett, M. (2009). Policy analytical capacity and evidence-based policy-making: Lessons from Canada. Canadian Public Administration, 52(2), 153–175. Jann, W., & Wegrich, K. (2003). Phasenmodelle und Politikprozesse: Der policy cycle. In K. Schubert & N. C. Bandelow (Hrsg.), Lehrbuch der Politikfeldanalyse (2. Aufl., Bd. 2, S. 75–113). Oldenbourg: de Gruyter. Johnson, R. B. (1993). Models of evaluation utilization: A meta-modeling synthesis of the literature. Annual meeting of the American Educational Research Association, Atlanta. Johnson, R. B. (1998). Toward a theoretical model of evaluation utilization. Evaluation and Program Planning, 21(1), 93–110. Kirkhart, K. E. (2000). Reconceptualizing evaluation use: An integrated theory of influence. In V. J. Caracelli & H. Preskill (Hrsg.), The expanding scope of evaluation use (S. 5–24). San Francisco: Jossey-Bass. Kissling-Näf, I., Knoepfel, P., & Bussmann, W. (1997). Umsetzung von Lernen durch Evaluationen. In P.  Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 257–280). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Lasswell, H. D. (1956). The decision process: Seven categories of functional analysis. College Park: University of Maryland. Läubli Loud, M. (2014). Institutionalization and evaluation culture – Interplay between the one and the other: Lessons from the Swiss Federal Office of Public Health (FOPH). In M. Läubli Loud & J. Mayne (Hrsg.), Enhancing evaluation use: Insights from internal evaluation units (S. 55–82). Los Angeles: Sage. Ledermann, S. (2004). Wozu denn wissenschaftlich? Untersuchung zur Verwendung von Evaluationen in der schweizerischen Entwicklungszusammenarbeit. [Lizentiatsarbeit]. Bern: Institut für Politikwissenschaft der Universität Bern. Luo, H. (2010). The role for an evaluator: A fundamental issue for evaluation of education and social programs. International Education Studies, 3(2), 42–50.

Bibliographie

231

Mark, M. M., & Henry, G. T. (2004). The mechanisms and outcomes of evaluation influence. Evaluation, 10(1), 35–57. Mavrot, C., & Sager, F. (2018). Vertical epistemic communities in multilevel governance. Policy & Politics, 46(3), 391–407. Mavrot, C., Hadorn, S., Sprecher, F., & Sager, F. (2018). Evaluation spezifischer Vollzugsaufgaben des BAG im Rahmen des Betäubungsmittelgesetzes (BetmG). Bericht im Auftrag des Bundesamtes für Gesundheit (BAG). Bern: Kompetenzzentrum für Public Management und Institut für öffentliches Recht. Nutley, S., Davies, H.  T. O., & Walter, I. (2003). Evidence-based policy and practice: Cross-sector lessons from the United Kingdom (ESRC working paper nr.  9). London: Research Unit for Research Utilisation, Department of Management, University of St. Andrews. Nutley, S., Walter, I., & Davies, H. T. O. (2007). Using evidence: How research can inform public services. Bristol: The Policy Press. Parsons, W. (2002). From muddling through to muddling up-evidence based policy making and the modernisation of British government. Public Policy and Administration, 17(3), 43–60. Patton, M. Q. (1997). Utilization-focused evaluation: The new century text (3. Aufl.). Thousand Oaks/London/New Delhi: Sage. Preskill, H. S., & Torres, R. T. (1999). Building capacity for organizational learning through evaluative inquiry. Evaluation, 5(1), 42–60. Rich, R. F. (1991). Knowledge creation, diffusion, and utilization: Perspectives of the founding editor of knowledge. Knowledge: Creation, Diffusion, Utilization, 12(3), 319–337. Sager, F., & Hinterleitner, M. (2014). Evaluation. In N. C. Bandelow & K. Schubert (Hrsg.), Lehrbuch der Politikfeldanalyse (3., akt. Aufl., S. 437–462). München/Berlin: de Gruyter Oldenbourg. Sager, F., & Ledermann, S. (2008). Valorisierung von Politikberatung. In S.  Bröchler & R. Schützeichel (Hrsg.), Politikberatung (S. 310–325). Stuttgart: Lucius & Lucius/UTB. Shulha, L. M., & Cousins, J. B. (1997). Evaluation use: Theory, research, and practice since 1986. Evaluation Practice, 18(3), 195–208. Solesbury, W. (2001). Evidence based policy: Whence it came and where it’s going (ESRC working paper nr. 1). London: ESRC UK Centre for Evidence Based Policy and Practice, Queen Mary University. Stamm, M. (2003). Evaluation und ihre Folgen für die Bildung – Eine unterschätzte pädagogische Herausforderung. Münster: Waxmann. Stockbauer, U. (2000). Was macht Evaluationen nützlich? Grundlagen und emipirische Untersuchungen zum Thema Verwertung und Verwertbarkeit von Evaluationen. Dissertation. Salzburg: Geisteswissenschaftliche Fakultät der Universität. Stockmann, R., Meyer, W., & Taube, L. (2020). The institutionalisation of evaluation in Europe. Cham: Palgrave Macmillan. Stufflebeam, D. L. (2002). Institutionalizing evaluation checklist. https://wmich.edu/evaluation/checklists. Zugegriffen am 19.06.2020. Valovirta, V. (2002). Evaluation utilization as argumentation. Evaluation, 8(1), 60–80. Vedung, E. (1999). Evaluation im öffentlichen Sektor. Wien: Böhlau. Weiss, C. H. (1977a). Research for policy’s sake: The enlightenment function of social research. Policy Analysis, 3, 531–545.

232

10  Nutzung von Evaluationsergebnissen

Weiss, C. H. (Hrsg.). (1977b). Using social research in public policy making. Lexington: Lexington Books. Weiss, C. H. (1978). Improving the linkage between social research and public policy. In L. E. Lynn (Hrsg.), Knowledge and policy: The uncertain connection (S. 23–81). Washington, DC: National Academy of Sciences. Weiss, C. H. (1983). Ideology, interests, and information: The basis of policy decision. In D.  Callahan & B.  Jennings (Hrsg.), Ethics, the social sciences, and policy analysis (S. 213–245). New York/London: Plenum Press. Weiss, C. H. (1998). Have we learned anything new about the use of evaluation? American Journal of Evaluation, 19(1), 21–33. Weiss, C.  H., & Bucuvalas, M.  J. (1980). Truth tests and utility tests: Decision-makers’ frames of reference for social science research. American Sociological Review, 45(2), 302–313. Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger.

Qualitätssicherung von Evaluationen

11

Schlüsselwörter

Evaluationsstandards · Unabhängigkeit von Evaluationen · Beeinflussungsforschung · Feedback- und Review-Runden · Qualitätskriterien · Meta-Evaluationen · Meta-Analysen · Evaluationssynthesen

Die ersten Bestrebungen, Qualitätskriterien für Evaluationen festzulegen, wurden in den 1970er-Jahren in den USA unternommen (Sager und Ledermann 2008). Nachdem parallel verschiedene Gruppen ihre eigenen Standards entwickelt hatten, haben sich schließlich die „Joint Committee on Standards for Educational Evaluation“ (Sanders [Joint Committee on Standards for Educational Evaluation] 1994) durchgesetzt. Der Bedarf für ähnliche Evaluationsstandards wurde in Europa erst wesentlich später erkannt (Widmer 1996). Folglich wurden in der Schweiz und in Deutschland anfangs des Jahrtausends von den jeweiligen nationalen Evaluationsgesellschaften Standards verabschiedet. Österreich verfügt aktuell über keine Politikbereich-übergreifenden Evaluationsstandards. Hingegen hat 2012 die Österreichische Plattform für Forschungs- und Technologiepolitikevaluation (fteval) Evaluationsstandards verabschiedet (Kohlweg 2019). Die in Deutschland, Österreich und der Schweiz erlassenen Evaluationsstandards unterscheiden vier Qualitätsdimensionen, welche es bei der Planung und der Durchführung von Evalua­ tionen zu berücksichtigen gilt: Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit. In Frankreich hat die Société Française de l’Évaluation eine wenig detaillierte Charte de l’évaluation verabschiedet, die einen kurzen Überblick über sieben Grundprinzipien bietet: Pluralität, Unabhängigkeit, Kompetenz, Respekt, © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_11

233

234

11  Qualitätssicherung von Evaluationen

Transparenz, Gelegenheit und Verantwortlichkeit (SFE (Societé francaise de l’évaluation) 2006 [2003]). Abschn. 11.1 bietet eine Übersicht über die entsprechenden Standards in Deutschland, Österreich und der Schweiz. Abschn. 11.2 geht auf die Techniken der Meta-Evaluation, also der Evaluation von Evaluationen, und der Evaluationssynthese, also der Zusammenfassung von Evaluationsresultaten, ein. Abschn. 11.3 befasst sich mit einem Kernproblem der Qualität von Evaluationen, nämlich deren Unabhängigkeit, und Abschn. 11.4 macht Vorschläge, um die Unabhängigkeit von Evaluationen zu verbessern.

11.1 Q  ualitätssicherung am Beispiel der Evaluations-­Standards in Österreich, Deutschland und der Schweiz Sowohl in Deutschland, Österreich wie auch in der Schweiz haben die jeweiligen Evaluationsgesellschaften ein Regelwerk erlassen, das die wichtigsten Prinzipien für Evaluationsprozesse abbildet. Die Standards in Deutschland wurden von der Deutschen Evaluationsgesellschaft (DeGEval) nach den vorgenannten vier Merkmalen Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit kategorisiert. Derweilen haben die Evaluationsgesellschaften in Österreich (fteval)1 und der Schweiz (SEVAL) erstens allgemeine Prinzipien, zweitens Prinzipien zur Planung und Durchführung und drittens Prinzipien zur Nutzung der Ergebnisse respektive zur Ergebnisvermittlung und Bewertung erlassen. Zwecks Vergleichbarkeit der drei Standard-Sets ordnet Tab. 11.1 die Österreicher und Schweizer Standards in der nachfolgenden Tabelle ebenfalls den vier Merkmalen Nützlichkeit, ­Durchführbarkeit, Fairness und Genauigkeit zu. Die direkte Gegenüberstellung zeigt auf, wie ähnlich sich die verschiedenen national definierten Standards inhaltlich sind. Im Nachfolgenden gehen wir detaillierter auf die Standards der fteval, also der ‚Österreichischen Plattform für Forschungs- und Technologiepolitikevaluierung‘, ein. Dazu nutzen wir wiederum die Einteilung nach den vier Merkmalen Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit und diskutieren auffällige Unterschiede im Hinblick auf die Deutschen und Schweizer Standards.

 Die fteval (Österreichische Plattform für Forschungs- und Technologiepolitikevaluierung) ist im Gegensatz zur SEVAL und zur DeGEval Politikbereich-spezifisch angelegt. 1

11.1  Qualitätssicherung am Beispiel der Evaluations-Standards in Österreich, …

235

Tab. 11.1  Evaluationsstandards in Deutschland, Österreich und der Schweiz (Quelle: eigene Darstellung basierend auf SEVAL 2016; fteval 2019; DeGEval 2016) Deutschland – DeGEval Nützlichkeit – Identifizierung der Beteiligten und Betroffenen – Klärung der Evaluationszwecke – Kompetenz und Glaubwürdigkeit des Evaluators/der Evaluatorin – Auswahl und Umfang der Informationen

– Transparenz von Werthaltungen – Vollständigkeit und Klarheit der Berichterstattung – Rechtzeitigkeit der Evaluation – Nutzung und Nutzen der Evaluation Durchführbarkeit – Angemessene Verfahren – Diplomatisches Vorgehen** – Effizienz von Evaluation Fairness – Formale Vereinbarungen – Schutz individueller Rechte

Österreich – fteval

Schweiz – SEVAL

– Partizipation

– Berücksichtigung der Beteiligten und Betroffenen

– Gemeinsames Verständnis

– Evaluationsvereinbarung*

– Kompetenz/Professionalität

– Sicherstellung der erforderlichen Kompetenzen

– Methodenmix* (Thematik der Informationsbeschaffung und -nutzung wird z. T. in diesem Standard behandelt)

– Transparenz

– Qualität und Aussagekraft von Informationen* – Gültigkeit und Zuverlässigkeit von Datenerhebung – Massvolle Datenerhebung – Transparenz

– Zwischen- und Endergebnisse

– Angemessene Berichterstattung

– Rechtzeitigkeit – Nutzung/Nutzen (Rechtzeitigkeit ist Teil dieses Standards) – Nutzungsorientierung – Vermittlung der Ergebnisse – Nützliche Empfehlungen – Beantwortung und Verfolgung (Management Response) – Durchführbarkeit – Verbindlichkeit

– Zweckmässiges Evaluationskonzept*

In Standards nicht explizit erwähnt

– Angemessenes Verhältnis von Aufwand und Nutzen

– Terms of Reference/ Leistungsbeschreibung* – Ethik – Genderdimension**

– Evaluationsvereinbarung* – Schutz der Persönlichkeit und Vertraulichkeit – Ethik (Fortsetzung)

236

11  Qualitätssicherung von Evaluationen

Tab. 11.1 (Fortsetzung) Deutschland – DeGEval – Umfassende und faire Prüfung – Unparteiische Durchführung und Berichterstattung – Offenlegung von Ergebnissen und Berichten

Österreich – fteval – Unabhängigkeit – Unparteilichkeit

– Offenlegung

Schweiz – SEVAL – Ergebnisoffenheit und Unvoreingenommenheit – Respekt – Redlichkeit – Zugang zu den Evaluationsergebnissen

– Vergabe- bzw. Ausschreibungsverfahren** Beachtung des Rechts** Genauigkeit – Terms of Reference/ – Beschreibung des Evaluationsgegenstandes Leistungsbeschreibung* – Kontextanalyse – Beschreibung von Zwecken und Vorgehen – Angabe von Informationsquellen – Valide und reliable Informationen – Systematische Fehlerprüfung – Angemessene Analyse qualitativer und quantitativer Informationen – Begründete Bewertungen und Schlussfolgerungen

– Evaluationsvereinbarung*

in Standards nicht explizit erwähnt – Terms of Reference/ Leistungsbeschreibung*

– Berücksichtigung des Kontexts – Zweckmässiges Evaluationskonzept*

in Standards nicht explizit erwähnt – Qualitätssicherung

– Dokumentation der Evaluation – Qualität und Aussagekraft von Informationen* – Qualitätssicherung

– Methodenmix

– Wissenschaftlichkeit bei Datenerhebungen und -auswertungen

– Glaubwürdigkeit

– Vollständige und faire Bewertung – Nachvollziehbare Bewertung und begründete Folgerungen

– Notwendigkeit einer/eines EvaluierungsmanagerIn oder einer Begleitgruppe** – Meta-Evaluation** Legende: Pro Zeile werden jeweils die inhaltlich zusammengehörigen Standards aufgelistet. Die mit einem * gekennzeichneten Standards wurden in der Tabelle mehrfach genannt, da sie inhaltlich verschiedenen Bereichen zuzuordnen sind. Die mit zwei ** gekennzeichneten Standards gibt es nur in der betroffenen nationalen Evaluationsgesellschaft, nicht aber in den anderen Ländern

11.1  Qualitätssicherung am Beispiel der Evaluations-Standards in Österreich, …

237

11.1.1 Nützlichkeit Die Nützlichkeitsstandards dienen dazu, die Evaluation an den Informationsbedürfnissen der vorgesehenen Nutzer*innen auszurichten. Dazu müssen Evaluationen insbesondere informativ, wirkungsorientiert und zeitgerecht angelegt sein (SEVAL 2016, S. 2). Die in Tab. 11.1 abgebildeten acht Standards zur Stärkung der Nützlichkeit der fteval decken sich weitgehend mit jenen der beiden anderen na­ tionalen Evaluationsgesellschaften. Durch die Standards Partizipation und Gemeinsames Verständnis soll sichergestellt werden, dass Beteiligte in angemessener Weise und früh genug in den Evaluationsprozess einbezogen werden, damit schließlich ein einheitliches Verständnis über die Zielsetzungen sowie den Umfang der betroffenen Evaluation besteht. Zudem wird durch den Standard Kompetenz/ Professionalität festgehalten, dass sowohl Evaluator*innen wie auch die Auftraggebenden über die nötigen Kompetenzen verfügen müssen, um die Evaluation auf eine professionelle Weise durchführen zu können. Dies beinhaltet unter anderem „Themenkompetenz, die Methodenkompetenz, die Genderkompetenz, die Managementkompetenz, soziale Kompetenzen“ (fteval 2019, S. 16). Der Standard Transparenz spricht in diesem Zusammenhang die Nachvollziehbarkeit der Ergebnisse sowie die Deklarierung von unterschiedlichen Bedürfnissen und Interessen an. Stark damit verbunden ist die Frage des transparenten Umgangs mit den genutzten Informationen. In den Österreichischen Standards findet sich diesbezüglich im Gegensatz zum Schweizer und Deutschen Regelwerk kein separater Standard, wobei die Frage aber u. a. im Standard Methodenmix zumindest im Ansatz thematisiert wird. Die drei Standards Zwischen- und Endergebnisse, Vermittlung der Ergebnisse und Nutzung/Nutzen zielen auf eine Präsentation der Evaluationsergebnisse ab, die mit einem möglichst hohen Nutzen einhergeht. Konkret heißt das, dass die Erkenntnisse die gemeinsam definierten Evaluationsfragen beantworten müssen, d.  h., dass sie sich am Bedarf der Nutzer*innen orientieren. Zudem müssen die Resultate rechtzeitig und in verständlicher Form vorliegen und wenn möglich durch diverse Kanäle (bspw. Hauptbericht, Kurzzusammenfassungen für verschiedene Stakeholder, Präsentationen oder Workshops) kommuniziert werden. In den Österreichischen Standards wird zudem im Gegensatz zum Schweizer und Deutschen Regelwerk durch den Standard Beantwortung und Verfolgung (Management Response) in einem separaten Standard auf die Reaktion der verschiedenen Stakeholder auf die Evaluation verwiesen. Der Standard sieht vor, dass sich verschiedene Stakeholdergruppen zu den Ergebnissen äußern und mitteilen, welche Empfehlungen in welcher Form umgesetzt werden.

238

11  Qualitätssicherung von Evaluationen

11.1.2 Durchführbarkeit Mit „durchführbar“ ist gemeint, dass die Evaluation gut auf den vorgegebenen Kontext abgestimmt sein muss, so dass sie und ihre Resultate gute Chancen haben, von den Beteiligten und den Betroffenen akzeptiert zu werden (SEVAL 2016, S. 2). Diese Kategorie wird in den Österreichischen Standards von zwei Prinzipien abgedeckt. Das erste Prinzip, das wie die Kategorie selbst mit Durchführbarkeit betitelt ist, befasst sich vor allem mit der Frage des angemessenen Zeitmanagements für die Planung, Durchführung und Validierung der Evaluation. Im zweiten Standard in dieser Gruppe, dem Prinzip der Verbindlichkeit, verweist die fteval auf die Wichtigkeit der institutionellen Unterstützung der betroffenen Stakeholder: „Als Ausdruck dieses Commitments ist eine Evaluierung dem Umfang entsprechend, ausreichend budgetiert und die notwendigen zeitlichen Ressourcen sind zur Verfügung gestellt“ (fteval 2019, S. 15). In den Deutschen Standards enthält diese Kategorie noch zwei weitere Standards (Diplomatisches Vorgehen und Effizienz von Evaluationen) und in den Schweizer Standards einen zusätzlichen (Angemessenes Verhältnis von Aufwand und Nutzen). Die Gewährleistung eines effizienten und angemessenen Ressourceneinsatzes ist somit sowohl in Deutschland als auch in der Schweiz ein wichtiger Grundsatz hinsichtlich der Durchführbarkeit einer Evaluation, der aber im Österreichischen Regelwerk keine Erwähnung findet.

11.1.3 Fairness Eine wichtige Gruppe von Qualitätsstandards weist darauf hin, dass Evaluationen „ethisch korrekt, respektvoll und unvoreingenommen durchgeführt werden“ sollen (SEVAL 2016, S.  3). In den schweizerischen Evaluationsstandards werden diese Aspekte unter dem Titel „Korrektheit“, in den Deutschen unter „Fairness“ b­ ehandelt. In den fteval-Standards finden sich zur Gewährleistung eines fairen Evaluationsprozesses sieben Prinzipien, die sich inhaltlich weitestgehend mit jenen der SEVAL und der DeGEval decken. Der Standard Terms of Reference/Leistungsbeschreibung beinhaltet die partizipative Erstellung einer schriftlichen Vereinbarung über die Inhalte sowie die Abgrenzung des Evaluationsauftrags. Dabei ist zentral, dass die Leistungsvereinbarung klar formuliert ist, damit der Auftrag der Evaluation für alle Betroffenen nachvollziehbar und verständlich ist. Die zwei Standards Ethik und Genderdimension sollen ähnlich wie in den Schweizer und Deutschen Standards die persönlichen Rechte (inkl. Datenschutz) aller Betroffenen schützen. Das beinhaltet sowohl Fairness hinsichtlich des Genders als auch im Hinblick auf die kulturelle

11.1  Qualitätssicherung am Beispiel der Evaluations-Standards in Österreich, …

239

sowie soziale Vielfalt der Betroffenen. Durch das Prinzip Unabhängigkeit wird des Weiteren sichergestellt, dass eine Evaluation in keiner Weise durch „Politik, AuftraggeberInnen, dem Programmmanagement, den Betroffenen oder auch von einem möglichen Bias der EvaluatorInnen selbst, inhaltlich beeinflusst bzw. manipuliert“ wird (fteval 2019, S. 16; siehe hierzu auch die Abschn. 11.3 und 11.4). Dies bedingt wie im Standard Unparteilichkeit festgelegt, dass eine Evaluation ergebnisoffen ist und Erkenntnisse durch unvoreingenommene Prozesse zustande kommen. Für den letzten Standard der fteval (Vergabe- bzw. Ausschreibungsverfahren) gibt es weder im Deutschen noch im Schweizer Regelwerk einen analogen Grundsatz. Die fteval befasst sich in diesem Standard mit dem der Evaluation vorgelagerten Ausschreibung und hält fest, dass das Vergabeverfahren transparent sowie professionell gestaltet werden und auf objektiven Selektionskriterien basieren muss. Auch in den Schweizer Standards findet sich ein Prinzip, das in den anderen Ländern keine explizite Erwähnung findet: Die Beachtung des Rechts. Die SEVAL hält in diesem Standard fest, dass alle für die jeweilige Evaluation relevanten rechtlichen Grundlagen erkannt und respektiert werden müssen.

11.1.4 Genauigkeit2 Gemäß der DeGEval sollen die Genauigkeitsstandards sicherstellen, „dass eine Evaluation gültige und nachvollziehbare Informationen und Ergebnisse zu dem jeweiligen Evaluationsgegenstand und den Evaluationsfragestellungen hervorbringt und vermittelt. In diesem Zusammenhang kommt wissenschaftlichen Gütekriterien eine besondere Bedeutung zu“ (DeGEval 2016, S. 44). Fünf der von der fteval erlassenen Prinzipien können der Kategorie der genauigkeitsfördernden Standards zugeteilt werden und decken wiederum weitgehend dieselben Aspekte ab wie die Standards der SEVAL und der DeGEval. Der erste fteval-Standard Terms of Reference/Leistungsbeschreibung befasst sich wie zuvor erläutert mit der Ausarbeitung einer klaren und genau formulierten Leistungsvereinbarung, um den Evaluationsgegenstand für alle Beteiligten verständlich zu machen. Das Prinzip der Qualitätssicherung verlangt, dass eine laufende Qualitätskontrolle des Evaluationsprozesses stattfindet und insbesondere, dass die genutzten Daten systematisch auf ihre Richtigkeit hin überprüft werden. Zudem legt der Standard Methodenmix fest, dass die Methodenwahl die Ziele und den Umfang einer Evaluation reflektieren soll. Bei der Erhebung, Analyse und Interpretation der Daten  Aufgrund der Mehrfachnennungen in Tab. 11.1 werden in dieser Kategorie teilweise Standards genannt, die bereits in den vorherigen Kategorien erwähnt wurden. 2

240

11  Qualitätssicherung von Evaluationen

sind außerdem wissenschaftliche Standards zu berücksichtigen. Zudem kann beispielsweise durch eine Triangulation verschiedener Methoden dem nächsten Prinzip, der Glaubwürdigkeit einer Evaluation, Rechnung getragen werden. Zu diesem Standard gehört auch die Nachvollziehbarkeit und Verständlichkeit von Evaluationsresultaten und insbesondere von Empfehlungen. Mit dem letzten Standard EvaluierungsmanagerIn/Begleitgruppe hat die fteval ein weiteres prozedurales Prinzip formuliert, wozu sich in den Schweizer und Deutschen Standards kein Gegenstück findet. Dieser fteval-Standard verlangt, dass zwecks Qualitätskontrolle jede Evaluation „je nach Umfang von zumindest einer Person gemanagt (in der Regel der/die AuftraggeberIn) und/oder von mehreren Personen (Begleitgruppe) begleitet“ wird (fteval 2019, S. 20). In der Schweiz gibt es jedoch hinsichtlich der Einrichtung einer Begleitgruppe einen separaten Leitfaden (GREVAL 2016). Die Genauigkeits-Standards der DeGEval und der SEVAL umfassen zudem weitere Prinzipien, die in den fteval-Standards nicht explizit erwähnt werden. Es ist bei der DeGEval erstens das Prinzip der Angabe von Informationsquellen (bei der SEVAL wird der analoge Standard Dokumentation der Evaluation genannt), in welchem die genaue Dokumentation der Informationsquellen zwecks Nachprüfbarkeit der Ergebnisse festgelegt wird. Die fteval legt in den Standards derweilen den Fokus stärker auf den Datenschutz als auf die transparente Dokumentation der genutzten Informationen. Zweitens wird im Standard Kontextanalyse (DeGEval-­ Standards) respektive Berücksichtigung des Kontexts (SEVAL-Standards) darauf verwiesen, dass für den Evaluationsgegenstand relevante Kontexteinflüsse identifiziert und bei der Analyse berücksichtigt werden müssen. Drittens findet sich in den Standards der DeGEval ein weiteres Prinzip, das weder bei der fteval noch bei der SEVAL direkt in die Standards eingeflossen ist. Der Standard der Meta-­ Evaluation hält fest, dass „Evaluationen in geeigneter Form dokumentiert, archiviert und soweit wie möglich zugänglich gemacht werden“ (DeGEval 2016, S. 11), um deren Analyse im Rahmen von Meta-Evaluationen zu ermöglichen. Kasten 11.1 fasst die Merkmale der vier Kategorien von Evaluationsstandards zusammen. Kasten 11.1 Kategorien von Evaluations-Standards und Vergleichbarkeit im deutschsprachigen Raum

Evaluations-Standards lassen sich nach den vier Merkmalen Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit kategorisieren. Die von der Deutschen Evaluationsgesellschaft (DeGEval), der Österreichischen Plattform für Forschungs- und Technologiepolitikevaluierung (fteval) und der Schweizer Evaluationsgesellschaft (SEVAL) formulierten Standards befassen sich inhaltlich weitestgehend mit denselben Aspekten und schaffen daher im deutschsprachigen Raum kohärente Evaluationsprinzipien.

11.2 Meta-Evaluation, Meta-Analyse und Evaluationssynthese

241

Eine Einhaltung dieser Standards bedingt dabei die Mitarbeit verschiedener Akteursgruppen und nicht nur deren Respektierung durch die Evaluator*innen. So schreibt beispielsweise die Schweizerische Evaluationsgesellschaft SEVAL, dass sich die Standards „an alle Personen, die an Evaluationen beteiligt sind oder diese beeinflussen“ richten (SEVAL 2016, S. 1). Diese Personen umfassen insbesondere auch die Auftraggeber*innen sowie die Evaluierten. Beispielsweise kann die Korrektheit von Evaluationsergebnissen nur dann gewährleistet werden, wenn auf der einen Seite die Auftraggeber*innen und Evaluierten transparent und wahr­ heitsgetreu Informationen zur Verfügung stellen, und auf der anderen Seite das Evaluationsteam diese Informationen objektiv und auf Basis wissenschaftlicher Kriterien analysiert. Wie in Abschn.  11.3 zur Unabhängigkeit von Evaluationen genauer erläutert wird, bestehen gerade in dieser Hinsicht häufig Spannungen zwischen den Standards und der Praxis. Die Standards sind „im Sinne von grundlegenden Prinzipien formuliert“ (SEVAL 2016, S. 1). Dies bedeutet, dass im Evaluationsalltag nicht alle Prinzipien gleichzeitig erfüllbar sind, da die verschiedenen Standards teilweise widersprüchliche Ansprüche an eine Evaluation stellen (Widmer 1996, S. 39–40). Empirische Untersuchungen haben zudem gezeigt, dass die Standards in der Evaluationspra­ xis nur teilweise zum Tragen kommen (Balzer 2013; Rieder 2009; Sager und ­Ledermann 2008). Verschiedene Praktiken können aber zu einer höheren Anwendung der Standards in der Evaluationspraxis beitragen: Die Nutzung der Standards als Vergabekriterien bei der Ausschreibung von Evaluationsmandaten; die Verbreitung der Standards in der Ausbildung und in Weiterbildungsangeboten von Auftragnehmenden und Evaluator*innen sowie schließlich die Nutzung der Standards als Qualitätskriterien bei der Beurteilung von Evaluationen (Rüefli 2013). Letzteres wird im Rahmen von Meta-Evaluationen – also im Rahmen von Evaluationen von Evaluationen  – häufig umgesetzt. Dieses Thema wird im nächsten Abschn. 11.2 genauer beleuchtet.

11.2 Meta-Evaluation, Meta-Analyse und Evaluationssynthese Einzelne Evaluationen können im Rahmen von drei unterschiedlichen Arten von übergeordneten Analysen weiterverarbeitet werden: Meta-Evaluationen, Meta-Ana­ lysen und Evaluationssynthesen (siehe auch Knoepfel et  al. 1997, S.  115  ff.). Diese übergeordneten Auswertungen haben unterschiedliche Erkenntnisinteressen: Während sich die Meta-Evaluation mit der Güte der Evaluationen an sich befasst, zielen Meta-Analysen und Evaluationssynthesen auf die Generierung von Wissen

242

11  Qualitätssicherung von Evaluationen

hinsichtlich der betroffenen öffentlichen Politik ab. Widmer und De Rocchi (2012, S. 161) fassen diese drei übergeordneten Analyseinstrumente wie in Tab. 11.2 dargestellt zusammen:

11.2.1 Meta-Evaluationen Das Ziel von Meta-Evaluationen ist es, die Evaluationsprozesse und -ergebnisse nicht nur besser zu verstehen, sondern auch zu verbessern. Bei Meta-Evaluatio­ nen handelt es sich also um „Bewertungen von Evaluationen“, in welchen ­unterschiedliche Aspekte wie „die wissenschaftliche Qualität, die Praxisrelevanz, die Nutzung, die Wirkungen usw. einer oder mehrerer Evaluationen“ beleuchtet werden können (Widmer 1996, S.  4). Sie stellen also einen wichtigen Teil der Qualitätssicherung in der Evaluationspraxis dar und dienen dem Fortschritt in dieser Disziplin. Meta-Evaluationen können dabei entweder als begleitende Maßnahme während des Evaluationsprozesses oder aber nach Beendigung einer Evaluation erfolgen, und können durch interne oder externe Expert*innen durchgeführt werden. Voraussetzung für die Durchführbarkeit einer Meta-Evaluation ist die Zugänglichkeit der Daten, weshalb eine adäquate Dokumentation und Publikation der Evaluationsberichte zentral ist (DeGEval 2016). Auch zu Meta-Evaluationen haben Evaluationsforschende Kriteriensets entwickelt, die bei der Bewertung von Evaluationen angewandt werden können. Aufgrund der Diversität von Disziplinen und Paradigmen, aus denen Evaluationen hervorgehen, ist die Definition einheitlicher Standards aber ein schwieriges Unterfangen (Widmer 1996).

11.2.2 Meta-Analysen und Evaluationssynthesen Die Meta-Analyse und die Evaluationssynthese befassen sich im Gegensatz zur Meta-Evaluation nicht mit der Qualität der einzelnen Evaluationen, sondern inteTab. 11.2  Übersicht über übergeordnete Analyseinstrumente Instrument Umschreibung Evaluationssynthese Inhaltliche Synthese verschiedener Evaluationsstudien, zumeist qualitativ (Globalevaluation/Querschnittsanalyse) Meta-Analyse Quantitative Integration der Ergebnisse verschiedener Evaluationsstudien („Research Synthesis“, „Systematic Review“) Meta-Evaluation Evaluation von Evaluation(en): Systematische und transparente Bewertung von Qualität einer oder mehrerer Evaluationsstudien Quelle: Widmer und De Rocchi (2012, S. 161)

11.2  Meta-Evaluation, Meta-Analyse und Evaluationssynthese

243

ressieren sich für die Befunde der Evaluationen, die sie einer kumulierten Analyse unterziehen. Die beiden Methoden gehen dabei unterschiedlich vor. Die Meta-­ Analyse bezeichnet die quantitative Integration der ausgewerteten Evaluationen, wobei vorzugsweise die Rohdaten zusammengeführt und einer Gesamtauswertung unterzogen werden (Widmer und De Rocchi 2012, S. 161). Die Integration mehrerer Datensätze soll Messfehler einzelner Erhebungen kompensieren und aufgrund höherer Fallzahlen zu statistisch robusteren Ergebnissen führen, die über die ursprünglichen Studien hinausweisen und deren Defizite korrigieren können (Sager 2006). Evaluationssynthesen dagegen sind qualitative Zusammenführungen von Evaluationsresultaten und nutzen vergleichbare Studien, um beispielsweise Fragen zur Effizienz von Programmen, zu Erfolgsfaktoren oder zu Barrieren politischer Programme zu beantworten. Befunde aus den einzelnen Evaluationen werden also aggregiert und analysiert, um übergeordnete Erkenntnisse zum betroffenen Politikfeld zu gewinnen. Die Erstellung von Evaluationssynthesen bedingt somit die kontinuierliche Evaluation der betroffenen öffentlichen Politik. Nur so kann sichergestellt werden, dass einzelne Evaluationen „zu einem ganzheitlichen Bild verbunden werden und auf diese Weise einen Beitrag zur Steigerung der Problemlösungsfähigkeit des Staates leisten können“ (Balthasar 2000, S. 24). Kasten 11.2 fasst die Unterschiede zwischen den drei Verfahren zusammen.

Kasten 11.2 Unterscheidung Meta-Evaluation, Meta-Analyse und Evaluationssynthese

• Eine Meta-Evaluation befasst sich mit der Qualität von Evaluationen, ist also eine „Evaluation von Evaluationen“ (Widmer 1996, S.  4). Durch Meta-­ Evaluationen sollen Evaluationsprozesse und -ergebnisse verbessert werden. • Die Meta-Analyse ist die quantitative Zweitauswertung der Daten einer Anzahl bestehender Evaluationen zu einem Gegenstand, mit dem Ziel über die ausgewerteten Studien hinausreichende Erkenntnisse zu ge­winnen. • Die Evaluationssynthese ist die primär qualitative Zusammenführung der Befunde mehrerer Evaluationen. Sie hat zum Ziel, auf Basis verschiedener Evaluationen aus demselben Bereich Erkenntnisse zu einer bestimmten öffentlichen Politik zu gewinnen. Es handelt sich dabei also um die Synthese der in Evaluationen behandelten Substanz, und nicht um eine Analyse der Evaluationspraxis an sich.

244

11  Qualitätssicherung von Evaluationen

11.3 U  nabhängigkeit von Evaluationen und Druckausübung auf Evaluierende Eine wichtige Voraussetzung für die Einhaltung von Evaluationsstandards ist die Unabhängigkeit von Evaluierenden von ihren Auftraggeber*innen. Die unvoreingenommene Beurteilung von Evaluationsgegenständen bedingt die Unabhängigkeit der Evaluierenden in ihrem Urteil (vgl. Kap. 9). Die Evaluierenden müssen sich gegenüber ihren eigenen Werten und Präferenzen abgrenzen können. Vor allem aber müssen die Auftraggebenden zulassen, dass die Evaluation auf Basis der erhobenen Daten und der verwendeten Kriterien urteilt und nicht nach ihren Vorgaben. Das Paradox, dass Evaluierende dafür bezahlt werden, dass sie je nach empirischem Befund die Zahlenden direkt kritisieren, bedeutet die genaue Umkehrung des geflügelten Wortes „Wes Brot ich ess’, des Lied ich sing“ (Wollmann 2017). Die Unabhängigkeit von Evaluationen ist zentral, da sie ein wesentlicher Pfeiler der Glaubwürdigkeit von Evaluationsresultaten ist. Gerade in der Politikevaluation sind Evaluationen mit mannigfaltigen und weitreichenden Interessen konfrontiert. Die öffentliche Politik greift in Eigentumsrechte ein, indem sie bestimmte Handlungsweisen verteuert oder verbilligt, um so gesellschaftliche Probleme zu lösen. Damit sind die politischen Interessen an der neutralen Beurteilung von öffentlicher Politik sehr groß. Die Evaluation kann Argumente für einen Politikwandel liefern oder sie kann die evaluierte Politik bestätigen. An beiden Resultaten haben unterschiedliche politische Akteursgruppen teilweise sehr großes Interesse. Auch kann die Evaluation einer Verwaltungseinheit oder einer Umsetzungsbehörde ernsthafte Konsequenzen haben, wenn sie zum Schluss kommt, dass die Stellen nicht gut gearbeitet haben. Schließlich gibt es auch individuelle Folgen von Evaluationen, wenn Letztere politisch folgenreiches Fehlverhalten von Einzelnen an den Tag bringen. All diese potenziellen Konse­ quenzen von Evaluationsergebnissen erhöhen die Wahrscheinlichkeit, dass Betroffene Druck auf Evaluierende ausüben, um so einen Einfluss auf die Evaluationsergebnisse zu erreichen. Die Beeinflussung Evaluierender hat sich in der Literatur als eigenständiges Forschungsthema entwickelt, nachdem der Fokus mit der Etablierung der Evaluationsforschung als eigenständige Disziplin bis in die 1980er-Jahre auf der Qualitätssicherung durch Evaluationsstandards gelegen hatte (Abschn. 11.1). Die Beeinflussung der Evaluierenden rückte erst im Nachgang zu den Evaluationsstandards ins Zentrum des Forschungsinteresses, als sich zeigte, dass die Standards nur unter der Bedingung der Unabhängigkeit funktionierten. Die Beeinflussung des Evaluationsprozesses und der Evaluationsergebnisse durch Dritte gefährdet die

11.3  Unabhängigkeit von Evaluationen und Druckausübung auf Evaluierende

245

Unabhängigkeit der Evaluation und ist daher negativ konnotiert. Kasten 11.3 präsentiert die Definition der negativ konnotierten Beeinflussung. Kasten 11.3 Definition von negativ konnotierter Beeinflussung nach Stockmann et al. (2011)

Beeinflussung ist ein „einseitiges Drängen eines einzelnen Akteurs (…) der somit versucht, den anderen Akteur unter Druck zu setzen und, in welcher Intensität auch immer, dessen Handeln zu steuern“ (Stockmann et  al. 2011, S. 49). Beeinflussung ist somit eine durch die Auftraggeber*innen oder andere Stakeholder bei den Evaluierenden verursachte „direkte Einflussnahme auf die Ergebnisse, welche (…) als Verletzung bestimmter Forschungsprinzipien verstanden werden“ kann (Stockmann et al. 2011, S. 48).

Die Beeinflussungsforschung fokussiert auf notwendige Charakteristika von Evaluationen, „die über die Definition und Diskussion von guten oder weniger guten Evaluationsstandards“ hinausgehen (Pleger und Sager 2016b, S. 26). Sie basiert auf der Erkenntnis, dass unabhängige Evaluierenden und eine unbeeinflusste Präsentation von Evaluationsergebnissen fundamentale Bestandteile der Durchführung von Evaluationen darstellen (Pleger und Sager 2016b). Das Aufkommen der Beeinflussungsforschung bedeutet also eine Abwendung vom Fokus auf die Evaluation und die Evaluierenden und die Zuwendung zur Thematik der Beeinflussung durch Auftraggeber*innen (Pleger und Sager 2016b). Pleger et al. (2017) untersuchen die Häufigkeiten, mit welcher Evaluierende in den USA, in Deutschland, Großbritannien und in der Schweiz Druck rapportieren im Vergleich. In allen vier Ländern sind die beobachteten Anteile von Einflussnahme auf die Evaluationsarbeit beunruhigend groß. Die Situation in keinem der Länder vermag dem Ideal der Unabhängigkeit zu genügen. In allen vier Umfragen zeigten sich ähnliche Inhalte der Druckversuche. Am häufigsten ging es darum, dass Ergebnisse positiver oder negativer dargestellt werden sollten. Dies kann ­Details betreffen oder eigentliche Verzerrungen. Am zweithäufigsten waren Druckversuche, negative Ergebnisse herunterzuspielen oder ganz wegzulassen. Drittens sollten die Evaluierenden dazu bewegt werden, andere Schlussfolgerungen als die präsentierten zu ziehen. Dies sind alles Druckversuche hinsichtlich der Präsentation oder Interpretation der Befunde. Tiefgreifender sind Beeinflussungen, die darauf hinzielen, fehlerhafte, unzulässige oder manipulierte Daten zu verwenden, oder die direkt die Ergebnisse der Evaluation diktieren. Diese heftigsten Beeinflussungsversuche wurden am seltensten rapportiert.

246

11  Qualitätssicherung von Evaluationen

Die Befragten gaben in allen vier Ländern mehrheitlich  an, Ergebnisse nicht verfälscht zu haben. Da es sich um Selbstauskünfte der Evaluierenden handelt, sind diese Antworten unter dem Vorbehalt der sozialen Erwünschtheit zu lesen. Ein vergleichsweise großer Anteil der Befragten gab an, Kompromisse gefunden zu haben, die für beide Seiten vertretbar waren. Diese Befragten sind also den Anliegen der Beeinflussenden entgegengekommen, ohne die Evaluationsergebnisse inhaltlich zu verzerren. Diese Aussagen weisen darauf hin, dass die Evaluierenden durchaus auf Druckversuche reagieren, auch wenn dies nicht in jedem Fall die Ergebnisse verfälscht. Die Druckversuche gehen in allen vier Ländern zum überragenden Teil von den Auftraggebenden aus. Versuche der Einflussnahme durch andere Akteur*innen waren deutlich seltener. Neben den Auftraggebenden wurden die Vorgesetzten der Evaluierenden am häufigsten genannt. Dieses Ergebnis ist plausibel, hat aber den Mangel, dass es nur auf der Sicht der Evaluierenden basiert und die Auftraggeber*innen nicht berücksichtigt. Diesem Umstand traten Lyn Pleger und Susanne Hadorn (2018) entgegen. Mittels einer Erhebung bei Auftraggebenden in der Schweiz zeigten sie eine große Diskrepanz zwischen wahrgenommener Beeinflussung bei den Evaluierenden einerseits und dem Bewusstsein dafür bei den Auftraggebenden andererseits auf. So berichten 50 % der Schweizer Evaluierenden, schon einmal unter Druck gesetzt worden zu sein. Aber nur 3  % der Auftraggebenden geben an, je mit einem solchen Vorwurf konfrontiert worden zu sein, während 5 % sich dessen nicht sicher waren. Die Studie von Pleger und Hadorn (2018) basiert allerdings auf einem sehr kleinen N von 39 Auftraggebenden, gleichwohl weist sie auf die unterschiedlichen Wahrnehmungen von Evaluierenden und ihren Auftraggebenden hin, was unter Druckversuchen zu verstehen ist. Die vorgestellten Studien zeigen, dass Evaluierende im Spannungsfeld zwischen der Erfüllung von Wünschen von Auftraggeber*innen und der Einhaltung der Evaluations-Standards stehen, was die Evaluationspraxis stark beeinflusst. Aus diesem Grund diskutieren wir im nachfolgenden Abschn. 11.4 mögliche Präventionsmassnahmen, um Druckversuchen seitens der Auftraggebenden vorzubeugen.

11.4 P  raxisbezogene präventive Massnahmen zur Stärkung der Unabhängigkeit Die Diskrepanz zwischen Auftragnehmenden und Auftraggebenden bei der Wahrnehmung, was Druckversuch und Unabhängigkeit sind (Pleger und Hadorn 2018), weisen auf die Notwendigkeit einer Begriffsklärung hin. Eine solche ist umso notwendiger, als der Begriff der Beeinflussung selber unterschiedliche Deutungen zu-

11.4 Praxisbezogene präventive Massnahmen zur Stärkung der Unabhängigkeit

247

lässt, da er „von seiner Semantik her nicht nur eine negative, sondern auch eine positive Bedeutung haben“ kann (Stockmann et al. 2011, S. 49). Pleger und Sager (2016a, 2018) entwickelten ein heuristisches Modell, um die Abgrenzung positiver Beeinflussung im Sinne der Unterstützung von negativer Beeinflussung im Sinne der Verzerrung zu erleichtern. Das sogenannte BUSD-Modell (Betterment-­ Undermining-­Support-Distortion) unterscheidet zwei Dimensionen, um Beeinflussung einordnen zu können: den ‚Entfaltungsgrad von Beeinflussung‘ (Explicitness of influence) und die ‚Beeinflussungsintention‘ (Direction of influence). „Der Entfaltungsgrad von Beeinflussung unterscheidet zwischen einer expliziten und einer impliziten Form von Beeinflussung, wobei die beiden Formen sich nach der Intensität der Beeinflussung voneinander abgrenzen. Ein impliziter Beeinflussungsgrad meint hierbei eine subtile Beeinflussung, wohingegen ein expliziter Grad eine offensichtliche Beeinflussung beschreibt. Die Beeinflussungsintention kann entweder positiv (konstruktiv) oder negativ (destruktiv) sein“ (Pleger und Sager 2016a, S. 39). Mit diesen zwei Dimensionen bilden Pleger und Sager (2018) eine Vierfeldertabelle, die die vier Felder Betterment (Verbesserung)-Undermining (Untergraben)-Support (Unterstützen)-Distortion (Verzerrung) ergibt (vgl. Tab. 11.3). Zur expliziten und destruktiven Verzerrung (Distortion) gehören etwa die Aufforderung zur falschen Dateninterpretation oder zur Anpassung der Bewertung der Ergebnisse. Zur impliziten destruktiven Unterminierung (Undermining) gehören schlecht spezifizierte Pflichtenhefte, die es den Auftraggebenden erlauben, im Laufe der Evaluation Änderungen zu verlangen, langwierige Überarbeitungsrunden bei den Erhebungsinstrumenten zu initiieren, suggestive Fragen zu stellen oder die Veröffentlichung der fertigen Studie zu verweigern. Die Erhebung von Pleger und Sager (2016b) weist diese Art der negativen Beeinflussung als die häufigste Form von destruktiver Druckausübung aus. Konstruktive implizite Unterstützung (Support) beinhaltet dagegen die deliberative und argumentenbasierte Tab. 11.3  Die BUSD-Heuristik nach Pleger und Sager (2018) Entfaltungsgrad der Beeinflussung Explizit Implizit Untergraben (Undermining) Beeinflussungs- Destruktiv Verzerrung (Distortion) Negative Beeinflussung Negative Beeinflussung absicht Unterstützung (Support) Konstruktiv Verbesserung Positive Beeinflussung (Betterment) Positive Beeinflussung Quelle: nach Pleger und Sager (2018, S. 169)

248

11  Qualitätssicherung von Evaluationen

Diskussion der Ergebnisse durch die Auftraggebenden mit den Evaluierenden oder die Darlegung der eigenen Sichtweise im Rahmen einer offenen Besprechung. Die explizite und konstruktive Verbesserung (Betterment) schließlich umfasst konkrete Hinweise auf faktische Fehler oder Fehlinterpretationen sowie die Erhöhung der Adressatengerechtigkeit der Evaluation durch Darstellungen und Umformulie­ rungen, ohne dass dadurch die Inhalte manipuliert werden. Zur Abgrenzung der destruktiven von der konstruktiven Beeinflussung schlagen Pleger und Sager (2018) die drei aufeinander aufbauenden Unterscheidungsmerkmale Bewusstsein (awareness), Absicht (intention) und Übereinstimmung (accordance) vor. Kasten 11.4 fasst die zu diesen Unterscheidungsmerkmalen zugehörigen Fragen zusammen. Kasten 11.4 Drei Fragen zur Abgrenzung von konstruktiver und negativer Beeinflussung nach Pleger und Sager (2018, S. 170)

Bewusstsein (awareness): Ist sich der oder die beeinflussende Akteur*in bewusst, was er oder sie tut? Absicht (intention): Ist die Beeinflussung darauf angelegt, die Aussage der Evaluation zu ändern? Übereinstimmung (accordance): Verletzt die Beeinflussung wissenschaftliche Standards? Wenn alle drei Fragen bejaht werden müssen, handelt es sich um eine destruktive Beeinflussung, gegen die sich Evaluierende verwahren sollen. Bewusstsein allein ist ein schwaches Indiz für Beeinflussung. Absicht dagegen sollte zu erhöhter Vorsicht der Evaluierenden führen.

Für die umsichtige Nutzung der drei Unterscheidungsmerkmale des BUSD-­ Modells empfehlen sich verschiedene Maßnahmen, die präventiv zum Einsatz kommen sollen. Die Befragung von Pleger und Sager (2016b) zeigt, dass die Evaluierenden vorab auf die frühzeitige Schaffung einer Vertrauens- und Wissensbasis setzen. Auftraggebende und Evaluierende müssen vor Beginn der Evaluation ein gemeinsames Verständnis der Funktion, der Zielsetzung und der Zweckbestimmung der Evaluation erarbeiten. Hierzu gehört die explizite Erwähnung, dass die Evaluation auch zu negativen Befunden für die Auftraggebenden führen kann. Evaluierende sollen betonen, dass sich die Evaluation auf jeden Fall an die erhobenen Daten halten muss. Die Auftraggebenden sollen dabei auf die Möglichkeit aufmerksam gemacht werden, dem Bericht eine Stellungnahme voranzustellen. Während diese Maßnahmen primär kommunikativ sind, besteht aus Sicht der Eva-

11.5 Learnings aus der Felderfahrung: Feedback und Review-Runden mit den … 249

luierenden jedoch auch ein Bedarf nach mehr Evaluationskompetenzen bei den Auftraggebenden, um eine Evaluation adäquat begleiten zu können. Diese Maßnahme lässt sich über Ausbildung umsetzen. Zusätzlich ist der Einsatz von Evaluationsmanager*innen wichtig, welche in der Verwaltung arbeiten und über Evaluationskompetenz verfügen. Sie können einschätzen, welche Einflussnahmen der Evaluierten auf die Evaluation sachlich legitim sind. Sie können die Evaluierenden aber auch vor negativer Beeinflussung schützen. Aus diesem Grund sehen die Evaluationsstandards der Österreichischen Plattform für Forschungs- und Technologiepolitikevaluierung Evaluationsmanager*innen vor (fteval 2019, S. 20). Nicht zuletzt haben in der Schweizerischen Evaluationsgemeinschaft  (SEVAL) Vorschläge bezüglich einer möglichen Schaffung einer „Beratungs- oder Vermittlungsstelle“ große Diskussionen ausgelöst (Balzer 2019).

11.5 L  earnings aus der Felderfahrung: Feedback und Review-Runden mit den Betroffenen Die Evaluationspraxis gibt mannigfaltige Gelegenheiten, sich mit unterschiedlichen Arten der Beeinflussung und Druckausübung zu beschäftigen. Wie in Abschn.  11.4 beschrieben, reichen diese Einflussnahmen von harmlosen Überarbeitungswünschen bei der Gestaltung von Erhebungsinstrumenten über Begleitgruppensitzungen, in denen ein Mitglied den Evaluierenden mitteilt, dass sie dieses oder jenes Ergebnis dann aber nicht so in den Schlussbericht aufnehmen dürfen, bis hin zu direkten Interventionen bei den Auftraggebenden, in denen nach Verabschiedung des Schlussberichts die Streichung ganzer Kapitel verlangt wird. Schließlich haben die Autor*innen dieses Buches auch die Erfahrung gemacht, dass ganz zum Schluss einer Evaluation die Publikation des Schlussberichts auf höchster Ebene durch eine gezielte Intervention der evaluierten Behörde verhindert wurde. Solche Extremfälle sind jedoch Ausnahmen. In der Regel lassen sich Unstimmigkeiten im Gespräch mit den Auftraggebenden und den Betroffenen der Evaluation lösen. Hierzu sollte die Atmosphäre rund um die Evaluation bereits zu Beginn gezielt konstruktiv gestaltet werden. Am Anfang einer Evaluation muss daher sichergestellt werden, dass die Evaluierten die Evaluation nicht als Gefahr, sondern als Chance wahrnehmen. Dies kann durch einen möglichst breiten Einbezug der Betroffenen bei der Ausrichtung der Evaluation und der Definition der Kriterien erfolgen. Durch die Berücksichtigung des Erkenntnisbedarfs der Betroffenen reduziert sich aus deren Sicht nicht zuletzt auch die wahrgenommene Notwendigkeit einer destruktiven Einflussnahme. Klarheit über den Evaluationsgegenstand bietet den

250

11  Qualitätssicherung von Evaluationen

Evaluierten zudem Sicherheit, indem sie sich auf die voranstehende Datenerhebung und Bewertung einstellen können. Während des Evaluationsprozesses eignen sich dann zur Auflösung von Spannungen Feedback- und Review-Runden mit den an der Evaluation Beteiligten. Dadurch wird die Unabhängigkeit der Analyse sichergestellt, gleichzeitig aber den Betroffenen auch die Gelegenheit geboten, sich zu den Evaluationsergebnissen zu äußern. Feedback- und Review-Runden umfassen die Diskussion von Zwischenresultaten während des Evaluationsprozesses, um bereits zu einem frühen Zeitpunkt faktische Fehler ausmerzen zu können. Auch die gemeinsame Besprechung des Entwurfs des Schlussberichts und eine schriftliche Feedback-Runde zu den Resultaten gehören zu einer professionell umgesetzten Evaluation. Häufig dienen solche Sitzungen nicht zuletzt auch dazu, der teilweise noch vorhandenen Unzufriedenheit aufgrund unerwünschter Evaluationsresultate Raum zu lassen. Die Erfahrung zeigt, dass dies auch ohne spätere Änderungen am Evaluationsbericht zu einer R ­ eduktion der Spannung führt. Schließlich können Betroffene durch Stellungnahmen zum Bericht nach dessen Verabschiedung ihre Meinung äußern, ohne dass es zu einer Einflussnahme kommt. In allen Etappen dieser Kommunikation ist zentral, dass die Evaluator*innen den Evaluierten glaubwürdig versichern, dass die Evaluation einen Mehrwert erzeugt und Hinweise für künftige Optimierungen der analysierten Prozesse liefern kann. Nicht zuletzt ist zudem auch das Persönliche im Evaluationskontext nicht zu unterschätzen. Evaluator*innen, die eine bescheidene Haltung einnehmen, indem sie die Expertise der Betroffenen würdigen, stoßen auf mehr Akzeptanz als unnahbar und überheblich wirkende Evaluationsteams. Zudem ist auch eine explizit ausgedrückte Wertschätzung des Engagements der Evaluierten, die durch ihre Beteiligung an Interviews und die Bereitstellung von Daten ihre Ressourcen in die Evaluation investieren, nicht selten die Grundlage für eine funktionierende Zusammenarbeit, in der es zu keiner negativen Beeinflussung kommt.

11.6 „ Wie vorgehen?“-Kasten: Wie bezieht man Beteiligte und Betroffene ein, ohne die Unabhängigkeit zu verlieren? Die Gewährleistung der Unabhängigkeit ist einer der zentralen Herausforderungen der Evaluationspraxis. Die in diesem Kapitel diskutierten Evaluationsstandards halten die damit verbundenen Prinzipien fest, während die an einer Evaluation Beteiligten sicherstellen müssen, dass diese Grundsätze in der Praxis auch wirklich umgesetzt werden. Verschiedene k­ ommunikative

11.6 „Wie vorgehen?“-Kasten: Wie bezieht man Beteiligte und Betroffene ein, …

251

Elemente können durch die Evaluierenden in den Evaluationsprozess eingebaut werden, um dem Anspruch der Unabhängigkeit gerecht zu werden: Beginn einer Evaluation: • Lassen Sie die verschiedenen Stakeholder an der Eingrenzung des Evaluationsgegenstands und bei der Definition der Kriterien teilhaben. Formieren Sie dazu eine Begleitgruppe, in welcher Vertreter*innen der verschiedenen Interessensgruppen zusammenkommen. • Geben Sie allen Beteiligten die Möglichkeit, Ihnen Informationen zur Verfügung zu stellen. Dadurch können Sie sich einen soliden Einblick in den Evaluationsgegenstand verschaffen und versichern den Beteiligten, dass Sie sich die notwendigen Kenntnisse zum Untersuchungsgegenstand aneignen und entsprechend kundige Analysen erstellen können. • Definieren Sie Anonymitätsregeln, um sicherzustellen, dass sich Betroffene im Rahmen von Interviews sicher fühlen und auch vertrauliche Informationen mit Ihnen teilen. Die betroffenen Personen werden sich dadurch besser durch die Evaluation vertreten fühlen. • Klären Sie die Frage der Publikation des Berichts zu Beginn des Evaluationsprozesses. Evaluationsberichte sollten immer publiziert werden, um demokratische Transparenz zu gewährleisten (außer es ist aus Datenschutzgründen im betroffenen Fall nicht möglich). • Einigen Sie sich im Voraus auf die Einhaltung der Evaluationsstandards Ihrer Gesellschaft. Während der Evaluation: • Basieren Sie Ihre Analyse auf einer Diversität verschiedener Daten. Beziehen Sie die Perspektive möglichst vieler verschiedener Stakeholder in Ihre Datenerhebung (bspw. Interviews, Umfragen) ein. So zeigen Sie den Betroffenen, dass Sie sich ein vollständiges und unabhängiges Bild des Evaluationsgegenstands machen. • Stellen Sie glaubhaft dar, dass Sie von allen Betroffenen unabhängig sind. Führen Sie beispielsweise gewisse Sitzungen mit Evaluierten ohne den Auftraggeber oder die Auftraggeberin durch. So sehen die Evaluierten, dass das Evaluationsteam unabhängig von den Auftraggeber*innen agiert. Potenzielle Konflikte zwischen verschiedenen Stakeholdern werden sich dadurch weniger auf das Evaluationsteam übertragen.

252

11  Qualitätssicherung von Evaluationen

• Präsentieren Sie Zwischenergebnisse bereits während des Evaluationsprozesses, damit Sie sicherstellen können, dass Ihre Analyse nicht auf faktischen Fehlern oder einer lückenhaften Informationsbasis beruht. Abschluss einer Evaluation: • Geben Sie den Betroffenen die Möglichkeit, sich mündlich und/oder schriftlich zum Entwurf des Schlussberichts zu äußern, damit faktische Fehler bereinigt werden können. • Gestalten Sie den Überarbeitungsprozess des Entwurfs des Schlussberichts transparent. Änderungen, die am Bericht vorgenommen werden, sollten in einem separaten Überarbeitungsbericht dokumentiert werden. So können die verschiedenen Stakeholder nachprüfen, dass die Eva­ luationsresultate nicht von anderen Akteur*innen manipuliert wurden. • Akzeptieren Sie die Korrektur von faktischen Fehlern, aber gehen Sie nicht auf Änderungswünsche ein, die Ihre fundierte Analyse und evidenzbasierten Schlüsse unberechtigt verändern. • Beugen Sie allfälliger Kritik und Änderungswünschen an den Empfehlungen vor, indem Sie sicherstellen, dass Ihre Vorschläge umsetzbar, praxisrelevant und konkret sind. • Für den Fall, dass die Betroffenen mit den Ergebnissen nicht einverstanden sind, können Sie eine Stellungnahme vorsehen, die dann zusammen mit dem Bericht publiziert wird. Darin können Evaluierte oder Auftraggebende ihre Sicht auf den Bericht darlegen, ohne dass der Bericht selber beeinflusst wird. Diese Praxis ist bei vielen Auftraggebenden Standard.

Bibliographie Balthasar, A. (2000). Evaluationssynthesen. LeGes – Gesetzgebung & Evaluation, 1, 13–25. Balzer, L. (2013). Bekanntheitsgrad und Nutzung der Evaluations-Standards der Schweizerischen Evaluationsgesellschaft (SEVAL) sowie erste Modifikationshinweise: Ergebnisse der Mitgliederbefragung. LeGes – Gesetzgebung & Evaluation, 24(2), 439–458. Balzer, L. (2019). Die Evaluationspraxis im Licht der neuen SEVAL-Standards sowie empirisch bestimmter Bedingungen erfolgreicher Evaluationsprojekte. LeGes – Gesetzgebung & Evaluation, 30(3), 1–18.

Bibliographie

253

DeGEval. (2016). Standards für Evaluation: Erste Revision auf Basis der Fassung 2002. https://www.degeval.org/fileadmin/Publikationen/DeGEval_Standards_fuer_Evaluation_-­_Erste_Revision__2016_.pdf. Zugegriffen am 17.05.2021. fteval. (2019). Standards der Evaluierung in der Forschungs-, Technologie- und Innovationspolitik. Wien: Österreichische Plattform für Forschungs- und Technologiepolitikevaluierung (fteval). GREVAL. (2016). Guide pour la mise en place d’un groupe d’accompagnement dans le cadre d’une évaluation. GREVAL (Groupe Romand d’Evaluation, Plateforme Evaluation en pratique). https://greval.ch/un-­guide-­pour-­la-­mise-­en-­place-­dun-­groupe-­dac­ compagnement-­dans-­le-­cadre-­d-­une-­evaluation/. Zugegriffen am 26.08.2020. Knoepfel, P., Varone, F., Bussmann, W., & Mader, L. (1997). Evaluationsgegenstände und Evaluationskriterien. In W. Bussmann, U. Klöti & P. Knoepfel (Hrsg.), Einführung in die Politikevaluation (S. 78–118). Basel/Frankfurt a. M.: Helbing und Lichtenhahn. Kohlweg, K. (2019). Standards der Evaluierung in der Forschungs-, Technologie-, und Innovationspolitik. Wien: Österreichische Plattform für Forschungs- und Technologiepolitikevaluierung (fteval). Pleger, L., & Hadorn, S. (2018). The big bad wolf’s view: The evaluation clients’ perspectives on independence of evaluations. Evaluation, 24(4), 456–474. Pleger, L., & Sager, F. (2016a). Die Beeinflussung in der Evaluationstätigkeit in der Schweiz und was die SEVAL dagegen tun kann. LeGes-Gesetzgebung & Evaluation, 27(1), 33–49. Pleger, L., & Sager, F. (2016b). ‚Don’t tell me cause it hurts‘-Beeinflussung von Evaluierenden in der Schweiz 1/‚Don’t tell me cause it hurts‘-Pressure on Evaluators in Switzerland. Zeitschrift für Evaluation, 15(1), 23–59. Pleger, L., & Sager, F. (2018). Betterment, undermining, support and distortion: A heuristic model for the analysis of pressure on evaluators. Evaluation and Program Planning, 69, 166–172. Pleger, L., Sager, F., Morris, M., Meyer, W., & Stockmann, R. (2017). Are some countries more prone to pressure evaluators than others? Comparing findings from the United States, United Kingdom, Germany, and Switzerland. American Journal of Evaluation, 38(3), 315–328. Rieder, S. (2009). Anwendung der SEVAL-Standards: Ergebnisse aus vier Fallstudien. LeGes – Gesetzgebung & Evaluation, 20(3), 387–397. Rüefli, C. (2013). Die Revision der SEVAL-Standards  – Kontext, Vorgehen und weiterführende Überlegungen. LeGes – Gesetzgebung & Evaluation, 24(2), 459–469. Sager, F. (2006). Policy coordination in the European metropolis: A meta-analysis. West European Politics, 29(3), 433–460. Sager, F., & Ledermann, S. (2008). Valorisierung von Politikberatung. In S.  Bröchler & R. Schützeichel (Hrsg.), Politikberatung (S. 310–325). Stuttgart: Lucius & Lucius/UTB. Sanders [Joint Committee on Standards for Educational Evaluation], J. R. (1994). The program evaluation standards: How to assess evaluations of educational programs. Thousand Oaks: Sage. SEVAL. (2016). Evaluationsstandards der Schweizerischen Evaluationsgesellschaft. https://www.seval.ch/app/uploads/2018/01/SEVAL-­Standards-­2016_d.pdf. Zugegriffen am 26.08.2020. SFE (Societé francaise de l’évaluation). (2006). Charte de l’evaluation. Actualisée le 21 juin 2006. Paris: Societé francaise de l’évaluation.

254

11  Qualitätssicherung von Evaluationen

Stockmann, R., Meyer, W., & Schenke, H. (2011). Unabhängigkeit von Evaluationen. Zeitschrift für Evaluation, 10(1), 39–67. Widmer, T. (1996). Meta-Evaluation: Kriterien zur Bewertung von Evaluationen. Bern/ Stuttgart/Wien: Paul Haupt. Widmer, T., & De Rocchi, T. (2012). Evaluation: Grundlagen, Ansätze und Anwendungen. Zürich/Chur: Rüegger. Wollmann, H. (2017). Entwicklungslinien von Evaluation und Evaluationsforschung in Deutschland. Zwischen Vorgeschichte, Aufbruch und Konsolidierung. Zeitschrift für Evaluation, 16(2), 33–56.

Die Bedeutung von Evaluationen in der heutigen Politik

12

Schlüsselwörter

Institutionalisierung von Politikevaluation · Direkte Demokratie · Nutzung von Evaluation · Die Bedeutung von Evaluationen in Parlamenten · Die Bedeutung von Evaluationen im direktdemokratischen Diskurs · Kommunikation von Evaluationsresultaten

Die Evaluationsforschung hat sich in den westlichen Demokratien als wichtige Informationsquelle für die politische Entscheidungsfindung etabliert. Damit geht eine große Verantwortung einher, die über die wissenschaftliche Qualität von Evaluationen hinausreicht und im Wesentlichen politisch ist. Nachfolgend stellen wir in Abschn. 12.1 die politische Rolle im Rahmen der Institutionalisierung von Politikevaluation in Europa mit Schwerpunkt auf den deutschsprachigen Raum dar. Die beiden folgenden Abschnitte zeigen die politische Rolle anhand des Parlaments und der direkten Demokratie spezifischer auf. Abschn. 12.2 legt den s­ pezifischen Fokus auf die legislative Nutzung von Evaluationen und Abschn. 12.3 geht auf die Nutzung von Evaluationen im direktdemokratischen Willensbildungs- und Entscheidungsprozess ein.

12.1 D  ie Verbreitung von Evaluationen im deutschsprachigen Raum und darüber hinaus Evaluation hat sich in vielen, vor allem westlichen Demokratien als Grundlage politischer Entscheidungsfindung etabliert (Furubo et al. 2002; Jacob et al. 2015; Stockmann et  al. 2020). Sebastian Lemire, Laura R.  Peck und Allan Porowski © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 F. Sager et al., Politikevaluation, https://doi.org/10.1007/978-3-658-32490-2_12

255

256

12  Die Bedeutung von Evaluationen in der heutigen Politik

(2020) zeigen, wie sich die Evaluationstätigkeit und auch das Berufsbild der Evaluierenden in der kurzen Geschichte der Evaluationsforschung als Disziplin verbreitet und konsolidiert hat. Reinhard Stockmann, Wolfgang Meyer und Lena Taube (2020) legen in ihrem Sammelband eine Übersicht über die Institutionalisierung von Evaluation in Europa1 vor, deren Länderstudien vertieft auf einzelne Aspekte der Institutionalisierung eingehen. Stockmann et al. (2020) sehen eine zunehmende Verankerung der Evaluation in den politischen Systemen Europas. Zwar existieren nur in der Schweiz und in Frankreich Verfassungsartikel, die eine systematische Evaluation von Staatstätigkeit verlangen. In einer Vielzahl von europäischen Ländern gibt es aber eine zunehmende Zahl von Gesetzen mit Evaluationsklauseln, so in den Niederlanden, in Deutschland, in Großbritannien, in Lettland und in Finnland. Auch bestehen in fast allen europäischen Ländern Evaluationseinheiten, die allerdings unterschiedlich ausgestattet und organisatorisch eingebettet sind. Allerdings zeigt die Synthese von Stockmann et al. (2020), dass auch Länder, in denen die institutionelle Einbettung der Evaluation am weitesten entwickelt ist, über keine umfassende Evaluationspraxis verfügen. Auch in der Schweiz, die im europäischen Vergleich den höchsten Grad an rechtlicher Verankerung erreicht hat, evaluieren nicht alle Bundesämter und Departemente (Balthasar und Strotz 2017). Bei einer vertieften Analyse der Evaluationspraxis der europäischen Länder wird deutlich, dass Evaluationen in den allermeisten Fällen von der Exekutive, aber nur in wenigen Ländern (z.  B.  Schweiz, Niederlande und Deutschland) von der Legislative eingesetzt werden. Der Zweck von Evaluationen, welche Exekutiven veranlassen, ist primär die Rechenschaftsablage oder die Kontrolle. In denjenigen Ländern, in denen die Evaluationskultur weiter fortgeschritten ist, dienen Evaluationen dagegen vermehrt dem Lernen aus umgesetzten öffentlichen Politiken und deren Verbesserung. Wiederum figurieren unter diesen Ländern die Schweiz, Niederlande und Deutschland, aber ebenso Finnland und Dänemark. Während die Evaluation in den politischen Systemen einen festen Platz hat, ist ihre Verankerung in der Zivilgesellschaft weit weniger entwickelt. Stockmann et al. (2020) halten fest, dass zivilgesellschaftliche Organisationen und NGOs Evaluie­ rungsergebnisse kaum in den politischen Entscheidungsprozess einbeziehen und dass diese Organisationen auch nicht in systematischer, formalisierter Weise an der Planung und Durchführung von Evaluierungen, welche von öffentlichen Verwaltungen veranlasst werden, beteiligt sind. Dies bedeutet aber nicht, dass zivilgesellschaftliche Organisationen und NGOs sich nicht mit der Evaluationsthematik auseinandersetzen oder gar selber keine Evaluationen durchführen oder veranlassen  Österreich fehlt leider in der Sammlung, da sich kein*e Autor*in für die Länderstudie fand.

1

12.1  Die Verbreitung von Evaluationen im deutschsprachigen Raum und …

257

würden. Zivilgesellschaftliche Organisationen und NGOs sind einem zunehmenden Rechtfertigungsdruck ihrer Finanzierenden oder Spendenden gegenüber ausgesetzt (Stiftung Zewo 2016). Evaluationen im Kontext von zivilgesellschaftlichen Organisationen und NGOs finden daher vorwiegend auf organisationsinterner Ebene statt, wo sie als Managementinstrument eingesetzt werden, um die Effizienz und Wirksamkeit von Projekten und Programmen sicherzustellen. Diese Entwicklung ist aber auf einige wenige Sektoren wie die Entwicklungszusammenarbeit beschränkt. Der Umstand, dass die Evaluation von NGOs und zivilgesellschaftlichen Organisationen zunehmend auch zu ­Rechenschafts- und Legitimationszwecken eingesetzt wird, ist oft nicht auf die eigenen Forderungen der Organisationen zurückzuführen, sondern auf staatliche Vorgaben. In der öffentlichen Wahrnehmung schließlich treten Evaluationen in den europäischen Ländern kaum in Erscheinung. Obschon Evaluationen überall öffentlich zugänglich sind, spielen sie nur in Dänemark und in der Schweiz eine Rolle im öffentlichen Diskurs, und diese Rolle ist klein. Kasten 12.1 fasst wesentliche Erkenntnisse aus dem europäischen Vergleich von Stockmann et al. (2020) zusammen.

Kasten 12.1: Die Bedeutung der Evaluation in Europa (Stockmann et al. 2020)

• In fast allen Ländern Europas findet sich eine Verankerung der Eva­ luationspraxis. Allerdings kennen nur die Schweiz und Frankreich einen entsprechenden Verfassungsartikel. • Evaluationen werden in den allermeisten Fällen von der Exekutive in Auftrag gegeben. Nur in wenigen Ländern (z. B. Schweiz, Niederlande und Deutschland) gibt es Organe der Legislative, welche Evaluationen einsetzen. • Während die Evaluation in den politischen Systemen einen festen Platz hat, ist ihre Verankerung in der Zivilgesellschaft weit weniger entwickelt. • In der öffentlichen Wahrnehmung spielen Evaluationen kaum eine Rolle in den europäischen Ländern.

Der Vergleich der Institutionalisierung von Evaluation in Europa zeigt, dass Evaluationen zwar verbreitet, aber nur zu einem gewissen Grad auch fest etabliert sind. Gleichwohl ist die Evaluationstätigkeit eine wichtige Ressource für staatliches Handeln, sei es die demokratische Kontrolle, die Rechenschaftsablage oder

258

12  Die Bedeutung von Evaluationen in der heutigen Politik

die Politikformulierung. Damit haben Evaluationen eine Bedeutung für das Funktionieren moderner Demokratien. In den nächsten beiden Abschnitten gehen wir auf zwei demokratische Institutionen ein, für die der hier zitierte Vergleich von Stockmann et al. (2020) eine geringe Rolle von Evaluationen ausgemacht hat: das Parlament und die öffentlichen, hier konkret die direktdemokratischen Debatten.

12.2 Die Bedeutung von Evaluationen in Parlamenten Evaluationen sind für Parlamente einerseits bei der Wahrnehmung ihrer Oberaufsichtspflicht von Verwaltung und Regierung von zentraler Bedeutung (Janett 2004; Ledermann 2016). Sie bieten Parlamentarier*innen Informationen zur Güte des staatlichen Handelns und decken Verbesserungspotenzial auf, wodurch nicht zuletzt auch Rechenschaft gegenüber dem Stimmvolk abgelegt wird (Ledermann und Strebel 2019). Andererseits sind Evaluationen in Parlamenten im Rahmen der Gesetzgebung respektive -revision von großer Wichtigkeit. Das Parlament kann dabei entweder als Stimulator oder als Produzent von Evaluationen fungieren (Eberli und Bundi 2017): Stimulator ist das Parlament dann, wenn Parlamentsmitglieder einen parlamentarischen Vorstoss einreichen, wodurch die Exekutive dazu aufgefordert wird, eine Evaluation zu beauftragen. Ebenfalls zur Rolle des Stimulators von Evaluationen gehört, wenn das Parlament die Einbettung einer Evaluationsklausel in neue Gesetzgebung beschließt. Als Produzent von Evaluationen agiert ein Parlament dann, wenn es direkt der Auftraggeber ist und Evaluationsaufträge vergibt. Wie in Abschn.  10.2 bereits ausgeführt, unterscheidet Johnson (1998, S.  93) dabei zwischen vier verschiedenen Nutzungsarten von Evaluationen: Der instrumentellen, konzeptuellen, prozeduralen und symbolischen Nutzung. Die Nutzung der aus Evaluationen gewonnenen Erkenntnisse bei der Entscheidungsfindung in Parlamenten – also anders gesagt die instrumentelle Nutzung – wird derweilen durch verschiedene Spannungsfelder gehemmt (basierend auf: Eberli und Bundi 2017): • Entscheide basieren in Parlamenten nicht primär auf Evidenz, sondern auf Ideologien und verschiedenen Interessen (Weiss 1999). • Parlamente bearbeiten breitgefasste Themen und müssen übergeordnete Fragen beantworten, während sich Evaluationen häufig detailliert mit dem Evaluations-

12.2  Die Bedeutung von Evaluationen in Parlamenten

259

gegenstand auseinandersetzen. Es sind daher unterschiedliche Flughöhen, was die Integration der Evaluationserkenntnisse in politische Entscheide erschwert. • Aufgrund der großen Themenvielfalt, die durch Parlamentarier*innen behandelt werden muss, sind die in schriftlicher Form vorliegenden Evaluationen häufig nicht die richtige Art der Kommunikation. Eine mündliche Vermittlung von Informationen ist daher in Parlamenten zentral (Weiss 1989). • Mangelnde Ressourcen für eine breite Konsultation von Erkenntnissen aus Evaluationen sind insbesondere in Milizparlamenten ein Problem. Fehlen in solchen Systemen (wie beispielsweise in vielen Schweizer Kantonen) zudem wissenschaftliche Dienste, die die empirische Evidenz für die Parlamentsmitglieder aufarbeiten, spitzt sich dieses Problem zu (Vatter 2014). • Die Abstimmung des Zeitplans politischer Entscheide und der Bereitstellung von Evaluationsresultaten stellt eine weitere Herausforderung dar. Dass Evaluationserkenntnisse bereits vorhanden sind, wenn politische Entscheide gefällt werden, bedingt eine längerfristige Planung, die in der Praxis nicht immer gewährleistet ist (Balthasar 2009). Zudem gibt es eine unterschiedlich starke Nutzung von Evaluationen im Gesetzgebungsprozess je nach Kontext und nach Verständnis des Staats durch die Parlamentsmitglieder: In der Schweiz zeigte beispielsweise eine Befragung von 1570 Parlamentarier*innen (Bundi et  al. 2014), dass die ländlicheren Kantone in der Deutschschweiz Evaluationen im Gesetzgebungsprozess weniger stark nutzen als Kantone in der französischsprachigen Schweiz und dass auch die italienischsprachige Schweiz Evaluationen als wichtigere Informationsquelle beurteilt als der Durchschnitt der Parlamentarier*innen in der Deutschschweiz (Eberli et al. 2014). Dieselbe Umfrage zeigte zudem auf, dass es in der Nutzung von Evaluationen durch verschiedene Parteien deutliche Unterschiede gibt. So standen in der Schweiz Parlamentarier*innen von Parteien des linken Spektrums der Nutzung von Evaluationen positiver gegenüber als bürgerliche Parteizugehörige. Auch hier liegt eine mögliche Erklärung für diesen Unterschied im unterschiedlichen Staatsverständnis (Eberli und Bundi 2017). Eine weitere mögliche Erklärung liegt in der Tendenz, dass Politiker*innen linker Parteien eher einen sozialwissenschaftlichen Hintergrund haben als bürgerliche Parlamentsmitglieder, weshalb erstere Evaluationen offener gegenüberstehen (Bundi et al. 2018). In Kasten 12.2 werden die zuvor beschriebenen wesentlichen Elemente der Nutzung von Evaluationen durch Parlamente zusammengefasst.

260

12  Die Bedeutung von Evaluationen in der heutigen Politik

Kasten 12.2: Der Zusammenhang zwischen Evaluationen und Parlamenten: Nutzung und Spannungsfelder

• Für Parlamente sind Evaluationserkenntnisse insbesondere bei der Oberaufsicht über die Verwaltung und  die Exekutive eine wichtige Infor­ mations­quelle. • Es werden unterschiedliche Arten von Evaluationsnutzung beobachtet: Die instrumentelle, konzeptionelle, symbolische und prozedurale Nutzung. • Die Nutzung von Daten aus Evaluationen durch Parlamente wird in der Praxis jedoch aus verschiedenen Gründen gehemmt: Durch die Priorisierung von Ideologien anstelle der Nutzung von Evidenz, durch die mangelhafte Passung des Erkenntnisbedarfs der Parlamente und den Evaluationsergebnissen, durch mangelnde Ressourcen zur effektiven Verarbeitung der Evidenz und durch schlecht abgestimmte Zeitpläne (zu späte Evaluationsergebnisse). • Auch im Rahmen von Gesetzgebungsprojekten ist die Bereitstellung von Daten zu bspw. der Wirksamkeit oder Effizienz von staatlichen Massnahmen durch Evaluationen von wichtiger Bedeutung für Parlamente.

12.3 D  ie Bedeutung von Evaluationen im direktdemokratischen Diskurs Die Demokratieforschung ist sich uneins über die Fähigkeit von Wähler*innen, relevante Informationen für ihren Wahlentscheid zu verarbeiten. Die Nutzung von Evaluationsergebnissen im demokratischen Diskurs ist deshalb nicht nur ein inte­ ressanter Untersuchungsgegenstand für die Evaluationsforschung, sondern ebenso für die Demokratieforschung. Iris Stucki und Caroline Schlaufer (2017) untersuchten die Verwendung von Evaluationsergebnissen in direktdemokratischen Kampagnen der Schweiz. Die Schweiz eignet sich aufgrund ihrer Referendumsdemokratie, in welcher über konkrete Politikinhalte abgestimmt wird, zu denen immer wieder auch Evaluationsergebnisse vorliegen, besonders für die Untersuchung der Nutzung von Evaluation im direktdemokratischen Diskurs (siehe auch Sager et al. 2017; Widmer 2020). Die politische Verwendung von Evidenz aus Evaluationen trägt auf zwei Arten zum demokratischen Diskurs bei. Erstens führt die politische Verwendung von

12.3 Die Bedeutung von Evaluationen im direktdemokratischen Diskurs

261

Evidenz zu einer höheren Diskursqualität. Ein Vergleich von Zeitungsartikeln mit Evaluationsergebnissen mit vergleichbaren Zeitungsartikeln ohne Verweis auf Studienergebnisse zeigt, wie das Zitieren von Evaluationsbefunden in den Medien die Qualität des Diskurses fördert, indem in ersteren politische Positionen empirisch gestützt werden, was die Gegenseite zwingt, Argumente einzubringen. Schlaufer (2018) zeigt, dass Debatten mit empirischer Evidenz sich durch den Austausch von Informationen und Begründungen auszeichnen, während es für Meinungsäußerungen ohne empirische Grundlage viel einfacher ist, einfach eine Behauptung aufzustellen. Meinungen sind jedoch nicht anfechtbar durch Argumente. Entsprechend zeichnen sich Debatten ohne empirische Evidenz durch weniger Austausch und gegenseitige Wahrnehmung aus. Damit verbunden ist der zweite Beitrag der Nutzung von Evaluationsevidenz zur Diskursqualität. Der Bezug von empirisch unterfütterten Argumenten lenkt den Fokus auf die Inhalte von öffentlicher Politik und weg von den Akteur*innen. So zeigt die Studie von Schlaufer (2018), dass sich Debatten bei der Verwendung von Evidenz viel weniger durch persönliche Angriffe und Beschimpfungen auszeichnen als Debatten, die reine Meinungsäußerungen sind. Interessanterweise gelten diese Befunde auch, wenn die Evidenz falsch zitiert oder sinnverzerrt verwendet wird. Dies bedeutet, dass auch die rein strategisch bzw. politisch motivierte Nutzung von Evaluationen die Diskursqualität wesentlich steigert. Für welche Art von Argumenten werden Evaluationen überhaupt beigezogen? Ein Vergleich der Argumente, die auf empirische Evidenz bauen, mit Argumenten ohne Evidenz zeigt, dass die Mehrheit der Argumente im direktdemokratischen Debatten einen ethischen Argumentationsmodus verwenden (Stucki und Sager 2018). Der Großteil der Argumente bezieht sich also auf die moralische Richtigkeit oder Unrichtigkeit der vorgeschlagenen öffentlichen Politik (Stucki 2018). Dagegen wird wissenschaftliche Evidenz zur Unterstützung von kausalen Argumenten beigezogen, die sich auf die potenziellen Ergebnisse der vorgeschlagenen Politik beziehen. Die Nutzung von Evidenz in Abstimmungsdebatten führt zu mehr kausalen Argumenten, die sich auf die Politik konzentrieren, im Gegensatz zu ethischen Argumenten, die auf normativen Überlegungen fußen. Evaluationen spielen dabei eine vergleichsweise wichtige Rolle. Verschiedene Arten von Evidenz tragen zur Unterstützung von Argumenten bei. Neben Politikevaluationen können dies Grundlagenforschungsergebnisse, Meinungsumfragen oder Statistiken sein. Welche Art von Evidenz trägt jedoch am meisten zum demokratischen Diskurs bei? Stucki (2016) zeigt, dass kausale Argumente überwiegend durch Erkenntnisse aus Politikevaluationen und aus der Grund-

262

12  Die Bedeutung von Evaluationen in der heutigen Politik

lagenforschung untermauert werden. Politikevaluationen und Grundlagenforschung ermöglichen die Einschätzung von potenziellen Auswirkungen einer Politik. Andere Arten wissenschaftlicher Erkenntnisse leisten das nicht. Stucki (2018) zeigt, dass Meinungsumfragen meist zur Untermauerung von Motivationsargumenten verwendet werden. Diese Argumente beziehen sich nicht auf die Inhalte der Politik, sondern auf die motivierende Kraft der Unterstützung der Mehrheit für eine Politik. Rankings und statistische Daten können keine politikrelevanten Informationen zur Verfügung stellen, da sie keine kausale Zuschreibung zwischen Politik und Wirkung erlauben (Schlaufer 2018). Solche Studien werden vor allem verwendet, um politische Probleme aufzuzeigen und weniger um Lösungen zu unterstützen. Evaluationen können also eine wichtige Rolle spielen in Diskursen über öffentliche Politik. Dieses Potenzial wird aber kaum genutzt. Von den 11.128 Texten, die Stucki und Schlaufer (2017) auswerteten, bezogen sich nur gerade 217 oder 2 % auf eine Evaluation. Das Problem der Wahrnehmung von Evaluationen in öffentlichen Debatten kann auf die Akteur*innen, die Evaluationsergebnisse in den Diskurs einbringen, zurückgeführt werden (Stucki 2017). Referenzen zu Evaluati­ onsergebnissen stammen entweder von Evaluierenden selber oder dann von Verwaltungsakteur*innen. Beide treten kaum in Erscheinung in öffentlichen Debatten. Die Evaluierenden halten sich aus der politischen Diskussion um ihre Ergebnisse heraus, um ihre Unabhängigkeit zu wahren. Die Beamt*innen sehen sich nicht in der Pflicht, in den politischen Diskurs einzugreifen, den sie nicht als Teil ihres Aufgabengebietes verstehen. Die Akteur*innen dagegen, die am stärksten präsent sind im politischen Diskurs, sind gleichzeitig diejenigen, die sich am wenigsten auf Evaluationen beziehen, nämlich Bürger*innen und Politiker*innen (Schlaufer et al. 2018). Stucki und Schlaufer (2017) sehen denn auch eine Notwendigkeit, dass sich Evaluierende vermehrt an die Öffentlichkeit wagen und ihre politikrelevanten Befunde präsentieren. Dies muss nicht einhergehen mit einer politischen Meinungsäußerung. Jedoch kann die aktive Kommunikation von Evaluationsergebnissen in der öffentlichen Debatte helfen, die oben beschriebenen positiven Effekte auszulösen, und so zur Qualität der Demokratie beitragen, zumal Bürger*innen sich bei Abstimmungen durchaus aktiv um empirische Informationen bemühen, wenn sie sich für die öffentliche Politik, über die entschieden wird, interessieren und davon betroffen sind (Stucki et al. 2018). Kasten 12.3 fasst die Befunde der Studie von Stucki und Schlaufer (2017) zusammen.

12.4 Learnings aus der Felderfahrung: gute und schlechte Kommunikation

263

Kasten 12.3: Die Rolle von Politikevaluation im direktdemokratischen Diskurs

Die Forschungsergebnisse über die Verwendung von Evidenz in Abstimmungskampagnen in der Schweiz zeigen, dass • Evidenz die Diskursqualität fördert und den Schwerpunkt von den Akteur*innen auf die Inhalte der Politik verlagert; • Evaluationen und Grundlagenforschung positiv auf den Diskurs wirken, dies gilt jedoch nicht für Meinungsumfragen und Statistiken; • die Beteiligung von Expert*innen und Verwaltungsakteur*innen am Diskurs entscheidend ist, um Evidenz der Öffentlichkeit zugänglich zu machen.

12.4 L  earnings aus der Felderfahrung: gute und schlechte Kommunikation Evaluationen können nur dann einen Mehrwert für staatliches Handeln erzeugen, wenn die gewonnenen Erkenntnisse von den verschiedenen Akteursgruppen wahrgenommen und in ihre Entscheide und Handlungen einfließen. Die angemessene Kommunikation der Erkenntnisse ist somit eine der zentralen Aufgaben im Rahmen eines Evaluationsprojekts. Die Praxis zeigt, dass je nach Adressatengruppe einer Evaluation – welche insbesondere politische Akteur*innen, Verwaltungskader und Umsetzungsakteur*innen beinhalten – unterschiedliche Kommunikationsstrategien genutzt werden sollten, um eine Nutzung der Evidenz zu fördern. Dabei muss die Ergebnispräsentation einerseits den passenden Detailgrad aufweisen sowie andererseits auf den jeweiligen Nutzungszweck abgestimmt werden. Beim schriftlichen Bericht kann diese adressatengerechte Ergebniskommunikation durch die Aufgliederung des Textes in verschiedene Berichtselemente erfolgen. Konkret können für die verschiedenen Gruppen von Leser*innen die nachfolgenden unterschiedliche Berichtsteile verfasst werden: • Executive Summaries für Politiker*innen: In dieser Kurzzusammenfassung sollen die Kernergebnisse im Hinblick auf strategische Entscheide im betroffenen Politikbereich abgebildet werden. Damit wird verhindert, dass die Evaluationsergebnisse aufgrund der knappen zeitlichen Ressourcen von politischen Entscheidungsträger*innen nicht auf dieser Ebene ankommen. Politisch sensible

264

12  Die Bedeutung von Evaluationen in der heutigen Politik

Erkenntnisse sollten in Executive Summaries unter Berücksichtigung des Kontextes in einer diplomatischen Weise formuliert werden. In diesem Teil sollten zudem auch jene Empfehlungen hervorgehoben werden, die sich auf die strategischen Stoßrichtungen beziehen (im Gegensatz zu Empfehlungen bezüglich operativen Elementen der betroffenen öffentlichen Politik). • Management Summaries für Verwaltungskader: Die Kommunikation gegenüber Kadermitgliedern der Verwaltung kann in einem Evaluationsbericht durch die Erarbeitung eines Management Summaries erfolgen, welche eine ­ausführliche Zusammenfassung der Kernelemente betreffend die operative als auch die strategische Ebene beinhalten. • Kernbericht für Umsetzungsakteur*innen: Diese Form der Berichterstattung sollte nicht zu wissenschaftlich sein: Die Botschaft muss in der professionellen Sprache der Evaluierten resp. des betroffenen Politikfelds formuliert werden. Die Kritiken an den Umsetzungsaktivitäten müssen auf eine konstruktive Weise formuliert werden. Jede Kritik muss mit konkreten Verbesserungsvorschlägen ergänzt werden. • Kapitel zur Diskussion von Hypothesen für wissenschaftliche Begleitgruppen: Je nach Evaluationsauftrag kann eine wissenschaftliche Begleitgruppe zusammengestellt werden, die eine Formulierung und Überprüfung von Hypothesen verlangt. In solchen Fällen braucht es neben den sonst möglichst praxisnahen Evaluationsresultaten einen separaten Berichtsteil, der eine Diskussion der Hypothesen nach wissenschaftlichen Standards umfasst. Besondere Aufmerksamkeit sollte bei der Kommunikation der Evaluationsergebnisse zudem den Empfehlungen beigemessen werden. Empfehlungen sind ein Kernelement jeder Evaluation und sind für die Leserschaft von besonderer Bedeutung, da sie – falls sie umgesetzt werden – einen direkten Einfluss auf die Tätigkeit der Leserschaft haben können. Die Empfehlungen einer Evaluation müssen: i) politisch realistisch (politische Machbarkeit prüfen), und ii) praktisch implementierbar sein (praktische Machbarkeit prüfen) (Sager et al. 2020). Die Erfahrung aus der Evaluationspraxis zeigt, dass Empfehlungen zudem verschiedene Eigenschaften aufweisen müssen, um von den Evaluierten akzeptiert und folglich umgesetzt zu werden (vgl. Abschn. 9.2.2): Nachvollziehbare Problemdefinition: Die Empfehlungen müssen als eigenständiger Teil eines Berichts aussagekräftig sein, indem sie die zu lösende Problematik klar und nachvollziehbar aufzeigen. Nur mit klaren ­Referenzen zum in der Empfehlung thematisierten Problembereich kann eine hohe Akzeptanz der Empfehlung erreicht werden.

12.5  „Wie vorgehen?“-Kasten: Wie kommuniziert man …

265

Präzise Handlungsanleitungen: Um in der Praxis auch wirklich umgesetzt zu werden, müssen Empfehlungen präzise Handlungsanleitungen enthalten. Idealerweise werden in der Empfehlung zwei verschiedene Szenarien zur Lösung der betroffenen Problematik aufgezeigt, damit bei Nichtgelingen eines Ansatzes ein alternativer Lösungsvorschlag bereitsteht. Umsetzbare Ideen: Als ungenügend erweisen sich in der Praxis jene Empfehlungen, die zwar theoretisch einen Mehrwert erzeugen würden, aber mangels Ressourcen oder aufgrund eines hinderlichen politischen Kontexts keine realistische Chance haben, umgesetzt zu werden. Empfehlungen müssen daher unter Berücksichtigung des Kontexts praktikable Lösungswege aufzeigen, um nicht eine Abwehrhaltung bei den Evaluierten zu erzeugen. Neue Herangehensweisen: Ein zentrales Kriterium für eine sinnvolle Empfehlung ist die Neuheit des vorgeschlagenen Ansatzes. Empfehlungen sollten nicht nur rekapitulieren, was die Evaluierten selber bereits erkannt haben, sondern sollten neue Perspektiven einbringen. Eine Ausnahme kann dabei sein, wenn ein Vorhaben (das aus Evaluator*innen-Sicht sinnvoll ist) zwar von den Umsetzungsakteur*innen bereits angedacht, politisch aber bislang blockiert wurde. Die Aufnahme einer entsprechenden Empfehlung kann dem Vorhaben die notwendige Legitimation verschaffen, um doch noch den erforderlichen politischen Rückhalt zu generieren. Zielgruppen klar ansprechen: Bei der Formulierung von Empfehlungen ist es sehr wichtig, die Akteur*innen, welche die Empfehlungen umsetzen sollen, explizit zu benennen. Das Rahmenkonzept des schweizerischen Bundesamts für Gesundheit beispielsweise, verlangt explizit, dass Empfehlungen von Evaluationen die politische, die strategische oder die operative Ebene ansprechen (BAG 2020, S. 6).

12.5 „ Wie vorgehen?“-Kasten: Wie kommuniziert man Evaluationsresultate Politiker*innen? Politiker*innen sind zentrale Adressat*innen von Evaluationsergebnissen. Häufig bereiten Erkenntnisse aus Evaluationen politische Entscheide vor respektive stellen die Evidenz bereit, die als Grundlage für die Entscheide genutzt werden können. Wie Eberli und Bundi (2017) zusammenfassen, gibt es aber verschiedene Hürden (bspw. Dominanz von ideologischen Überzeugungen an-

266

12  Die Bedeutung von Evaluationen in der heutigen Politik

stelle von evidenzbasierter Entscheidungsfindung; fehlende Ressourcen für die Verarbeitung der Evidenz), die zu einer Nichtberücksichtigung von Evaluationsergebnissen in der politischen Entscheidungsfindung führen können (siehe Abschn. 12.2). Die Beachtung der nachfolgenden Grundsätze kann dabei helfen, die Nutzung von Evaluationen in politischen Entscheiden zu stärken: • Antizipieren Sie den Bedarf für Evaluationsergebnisse bereits früh im politischen Prozess, damit die Ergebnisse zum richtigen Zeitpunkt zur Verfügung stehen. Die zeitliche Abstimmung der Evaluationsergebnisse mit dem Informationsbedarf politischer Entscheidungsträger*innen ist Grundvoraussetzung für die Integration der Evidenz in politische Entscheide. • Stellen Sie sicher, dass die Erkenntnisse einer Evaluation in schnell zugänglicher Form präsentiert werden (bspw. durch ein Executive Summary). Politiker*innen haben häufig knappe Ressourcen und dürfen für die Informationsbeschaffung nicht zu viel Zeit verlieren. • Je besser die Verwaltung über die Erkenntnisse informiert ist, desto besser können diese Akteur*innen die Politiker*innen über die vorhandene Evidenz ins Bild setzen. Durch regelmäßige Sitzungen während der Evaluation und durch eine informative Schlusssitzung kann ein guter Transfer der Erkenntnisse in die Verwaltung und dadurch schließlich auch in die Politik gefördert werden. • Wählen Sie den Abstraktionsgrad der Erkenntnisse, über die sie Politiker*innen informieren, passend zu der anstehenden Entscheidung. Häufig sind Ergebnisse zur strategischen Stossrichtungen relevant für die politischen Entscheide, während Detailerkenntnisse primär die Umsetzungsakteur*innen betreffen. Basierend auf seinem wegweisenden Buch Essentials of Utilization-Focused Evaluation (2012) schlägt Michael Quinn Patton zudem eine nützliche Checkliste (Patton 2013) vor, die die unterschiedlichen Etappen einer Evaluation unter der Perspektive der Nutzung der Ergebnisse durch die primary intended users einordnet. Dies beinhaltet konkrete Hinweise zu Planungsund Kommunikationsprozessen, für eine Optimierung der Nützlichkeit der Evaluation.

Bibliographie

267

Bibliographie BAG. (2020). Rahmenkonzept „Evaluation im BAG“. Bern: Bundesamt für Gesundheit (BAG). Balthasar, A. (2009). Evaluationen in der Schweiz: Verbreitung und Verwendung. In T. Widmer, W. Beywl & C. Fabian (Hrsg.), Evaluation. Ein systematisches Handbuch (S. 486–497). Wiesbaden: VS Verlag für Sozialwissenschaften. Balthasar, A., & Strotz, C. (2017). Verbreitung und Verankerung von Evaluation in der Bundesverwaltung. In F. Sager, T. Widmer & A. Balthasar (Hrsg.), Evaluation im politischen System der Schweiz  – Entwicklung, Bedeutung und Wechselwirkungen (Bd. 5, S. 89–117). Zürich: NZZ Libro. Bundi, P., Eberli, D., Frey, K., & Widmer, T. (2014). Befragung Parlamente und Evaluationen: Methodenbericht. Zürich: Institut für Politikwissenschaft, Universität Zürich. Bundi, P., Varone, F., Gava, R., & Widmer, T. (2018). Self-selection and misreporting in legislative surveys. Political Science Research and Methods, 6(4), 771–789. https://doi. org/10.1017/psrm.2016.35. Eberli, D., & Bundi, P. (2017). Parlament und Evaluation: Guts Meets Brain. Evaluation im politischen System der Schweiz-Entwicklung, Bedeutung und Wechselwirkungen 5, 243–278. Eberli, D., Bundi, P., Frey, K., & Widmer, T. (2014). Befragung Parlamente und Evaluationen: Ergebnisbericht. Zürich: Institut für Politikwissenschaft, Universität Zürich. Furubo, J.-E., Rist, R. C., & Sandahl, R. (Hrsg.). (2002). International atlas of evaluation. New Brunswick/London: Transaction Publishers. Jacob, S., Speer, S., & Furubo, J.-E. (2015). The institutionalization of evaluation matters: Updating the international atlas of evaluation 10 years later. Evaluation, 21(1), 6–31. Janett, D. (2004). Die Evaluationsfunktion des Bundesparlaments – Eine Zwischenbilanz. LeGes – Gesetzgebung & Evaluation, 15(2), 137–150. Johnson, R. B. (1998). Toward a theoretical model of evaluation utilization. Evaluation and Program Planning, 21(1), 93–110. Ledermann, S. (2016). Die Ausgestaltung der Unabhängigkeit von Evaluationsdiensten: Die Parlamentarische Verwaltungskontrolle im Kontext der Aufsichtsorgane des Bundes. LeGes – Gesetzgebung & Evaluation, 1, 63–82. Ledermann, S., & Strebel, F. (2019). Evaluation als Kontrollinstrument des Parlaments. Die Volkswirtschaft, 10, 14–17. Lemire, S., Peck, L. R., & Porowski, A. (2020). The growth of the evaluation tree in the policy analysis forest: Recent developments in evaluation. Policy Studies Journal, 48(S1), 47–70. Patton, M. Q. (2012). Essentials of utilization-focused evaluation. Los Angeles/London/New Delhi/Singapore/Washington, DC: Sage. Patton, M. Q. (2013). Utilization-focused evaluation (U-FE) checklist. Kalamazoo: Western Michigan University. Sager, F., Widmer, T., & Balthasar, A. (Hrsg.). (2017). Politikevaluation im politischen System der Schweiz. Zürich: NZZ Libro. Sager, F., Mavrot, C., Hinterleitner, M., Kaufmann, D., Grosjean, M., & Stocker, T. F. (2020). A six-point checklist for utilization-focused scientific policy advice. Climate Policy, 20, 1336.

268

12  Die Bedeutung von Evaluationen in der heutigen Politik

Schlaufer, C. (2018). The contribution of evaluations to the discourse quality of newspaper content. Evaluation and Program Planning, 69, 157–165. Schlaufer, C., Stucki, I., & Sager, F. (2018). The political use of evidence and its contribution to democratic discourse. Public Administration Review, 78(4), 645–649. Stiftung Zewo. (2016). Die 21 Zewo-Standards. Stiftung Zewo, Zürich. https://zewo.ch/wp-­ content/uploads/2019/08/21-­Zewo-­Standards.pdf. Zugegriffen am 16.11.2020. Stockmann, R., Meyer, W., & Taube, L. (2020). The institutionalisation of evaluation in Europe. Cham: Palgrave Macmillan. Stucki, I. (2016). The use of evidence in public debates in the media: The case of Swiss direct-­ democratic campaigns in the health policy sector. Evidence & Policy, 12(4), 487–504. Stucki, I. (2017). Arguing about smoking bans: The role of evidence in the social construction of conflicting policy ideas. Critical Policy Studies, 11(4), 411–432. Stucki, I. (2018). Evidence-based arguments in direct democracy: The case of smoking bans in Switzerland. Evaluation and Program Planning, 69, 148–156. Stucki, I., & Sager, F. (2018). Aristotelian framing: Logos, ethos, pathos and the use of evidence in policy frames. Policy Sciences, 51(3), 373–385. Stucki, I., & Schlaufer, C.  L. (2017). Die Bedeutung von Evaluationen im direktdemokratischen Diskurs. In F. Sager, T. Widmer & A. Balthasar (Hrsg.), Politikevaluation im politischen System der Schweiz (S. 279–310). Zürich: NZZ Libro. Stucki, I., Pleger, L. E., & Sager, F. (2018). The making of the informed voter: A split-ballot survey on the use of scientific evidence in direct-democratic campaigns. Swiss Political Science Review, 24(2), 115–139. Vatter, A. (2014). Das politische System der Schweiz. Baden-Baden: Nomos. Weiss, C. H. (1989). Congressional committees as users of analysis. Journal of Policy Analysis and Management, 8(3), 411–431. Weiss, C. H. (1999). The interface between evaluation and public policy. Evaluation, 5(4), 468–486. Widmer, T. (2020). Wechselwirkungen von Politik und Evaluation: Befunde aus der Schweiz. der moderne staat – Zeitschrift für Public Policy, Recht und Management, 13(1), 44–60.