Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich [1. Aufl.] 9783658264376, 9783658264383

Die Forderung nach evidenzbasiertem Wissen über die Wirksamkeit von Sprachförderkonzepten im Elementarbereich wird immer

280 67 7MB

German Pages XVI, 181 [191] Year 2020

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Front Matter ....Pages I-XVI
Front Matter ....Pages 1-1
Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung: Was man darunter versteht und bisher darüber weiß (Franziska Egert, Katharina Galuschka, Katarina Groth, Marcus Hasselhorn, Steffi Sachse)....Pages 3-27
Front Matter ....Pages 29-29
Zum Nutzen der Meta-Analyse in der Evaluation von Sprachförderkonzepten am Beispiel der phonologischen Bewusstheit (Maximilian Pfost, Matthias Borgstede)....Pages 31-49
Dokumentenrecherche und -aufbereitung als Qualitätskriterium von Systematic Reviews: Sprachförderung in Kindertageseinrichtungen als Beispiel (Karin Zimmer, Jolika Schulte, Minja Dubowy, Jan-Henning Ehm, Susanne Kuger, Jan Lonnemann et al.)....Pages 51-76
Propensity Score Matching als ein Verfahren zur Stichprobenauswahl. Darstellung der Eignung für die Auswahl von drei Gruppen (Lilly-Marlen Bihler, Alexandru Agache, Jessica A. Willard, Katharina Kohl, Birgit Leyendecker)....Pages 77-100
Sicherung der Qualität von Beobachtungen der ErzieherIn-Kind-Interaktion mit dem Classroom Assessment Scoring System (Anja Leber, Gisela Kammermeyer, Susanna Roux)....Pages 101-125
Front Matter ....Pages 127-127
Direkte und indirekte Bedeutsamkeit der Zusammenarbeit mit Familien für die kindliche Sprachentwicklung (Simone Lehrl, Manja Flöter, Nadine Wieduwilt, Yvonne Anders)....Pages 129-152
Sprachbildung im Elementarbereich in Nordrhein-Westfalen: Ein Vergleich von Kitas mit unterschiedlicher finanzieller Förderung (Kristine Blatter, Katarina Groth, Veronika Eichmann, Margarita Stolarova)....Pages 153-181
Recommend Papers

Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich [1. Aufl.]
 9783658264376, 9783658264383

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Edition ZfE

Kristine Blatter · Katarina Groth Marcus Hasselhorn Hrsg.

Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich

Edition ZfE Band 6 Reihe herausgegeben von Ingrid Gogolin, Hamburg, Deutschland

Die Reihe ‚Edition ZfE‘ wird von den Herausgeber(inne)n der Zeitschrift für Erziehungswissenschaft verantwortet. In der Reihe werden Originalbeiträge publiziert, die den strengen Qualitätsmaßstäben für die Publikation von Manu­ skripten in der Zeitschrift standhalten. Veröffentlicht werden von Expert(inn)en begutachtete erstklassige Beiträge zu aktuellen Befunden und Entwicklungen der Erziehungswissenschaft und Bildungsforschung. Die Zahl solcher Beiträge übersteigt die Möglichkeiten der Publikation in der Zeitschrift für Erziehungs­ wissenschaft. Mit der ‚Edition ZfE‘ wird hier Spielraum eröffnet. Durch die Auswahl von Herausgeber(inne)n und die Themenwahl stehen die Beiträge zur Buchreihe ebenso wie die ZfE selbst für den interdisziplinären Charakter einer umfassenden Erziehungswissenschaft, deren Gegenstand der gesamte Lebens­ lauf des Menschen ist. Die gezielte Aufnahme internationaler Beiträge gewähr­ leistet den Anschluss an erziehungswissenschaftliche Entwicklungen außerhalb Deutschlands. Die Leser(innen) der ‚ZfE-Edition‘ verfügen somit über eine zusätzliche Informationsquelle, die ihnen die für Erziehung und Bildung wichti­ gen internationalen und interdisziplinären Entwicklungen in weiten Bereichen der Erziehungswissenschaft zuverlässig, nüchtern und nachvollziehbar präsentiert.

Weitere Bände in der Reihe http://www.springer.com/series/13862

Kristine Blatter · Katarina Groth · Marcus Hasselhorn (Hrsg.)

Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich

Hrsg. Kristine Blatter Abteilung Kinder und Kinderbetreuung Deutsches Jugendinstitut e.V. München, Deutschland

Katarina Groth Abteilung Kinder und Kinderbetreuung Deutsches Jugendinstitut e.V. München, Deutschland

Marcus Hasselhorn DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation Frankfurt am Main, Deutschland Der vorliegende Band wird für die Herausgebergruppe der Zeitschrift für Erziehungs­ wissenschaft herausgegeben von Prof. Dr. Ingrid Gogolin, Universität Hamburg Prof. Dr. Bettina Hannover, Freie Universität Berlin Prof. Dr. Annette Scheunpflug, Universität Bamberg Prof. Dr. Hans-Günther Roßbach, Universität Bamberg

ISSN 2512-0786  (electronic) ISSN 2512-0778 Edition ZfE ISBN 978-3-658-26437-6 ISBN 978-3-658-26438-3  (eBook) https://doi.org/10.1007/978­3­658­26438­3 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National­ bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d­nb.de abrufbar. © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informa­tionen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany

Editorial Editorial

Editorial

„Sprachkompetenz ist eine Schlüsselqualifikation und sie ist eine wesentliche Voraussetzung für schulischen und beruflichen Erfolg, für eine volle Teilhabe am gesellschaftlich-kulturellen Leben“ (Bayerisches Staatsministerium für Arbeit und Sozialordnung, Familien und Frauen und Bayerisches Staatsinstitut für Frühpädagogik 2012, S. 195). Kinder, die die dominante bzw. Bildungssprache des Landes, in dem sie aufwachsen, unzureichend beherrschen, sind von Beginn an mit Hürden bei ihrer Bildungsbeteiligung konfrontiert, was Disparitäten in den Bildungschancen nach sich zieht (Autorengruppe Bildungsberichterstattung 2016). Gute Sprachkenntnisse in der Bildungssprache sind somit unbestritten eine zentrale Voraussetzung für den Schulerfolg von Kindern. Im Sinne der Chancengleichheit bedeutet dies, dass alle Kinder bis zum Eintritt in die Schule gute sprachliche Basiskompetenzen in der Bildungssprache erworben haben sollten. Studien der letzten Jahre weisen jedoch darauf hin, dass in Deutschland ein substanzieller Anteil an Kindern vor Schulbeginn nicht über entsprechende Sprachleistungen im Deutschen verfügt und somit von Beginn an benachteiligt ist. Hierbei handelt es sich mehrheitlich um Kinder aus sozial- und bildungsbenachteiligten Familien sowie um Kinder mit nichtdeutscher Herkunftssprache (Gogolin und Krüger-Potratz 2006; Dubowy et al. 2008; Schöppe et al. 2013). Laut Angaben im nationalen Bildungsbericht wird etwa jedes vierte Kind im Alter von drei bis fünf Jahren als sprachförderbedürftig eingeschätzt (Autorengruppe Bildungsberichterstattung 2016). Dies betrifft ebenfalls häufiger Kinder nichtdeutscher Herkunftssprache sowie Kinder aus sozial- und bildungsbenachteiligten Familien. Zudem ist das Armutsrisiko – und damit verbunden das Risiko einer sozialen Benachteiligung – bei Kindern mit Migrationshintergrund deutlich erhöht (Bundesministerium für Arbeit und Soziales 2017; Giesecke et al. 2017). Für diese Kinder ist die Förderung der Bildungssprache Deutsch von besonders großer Bedeutung. Den Institutionen der frühen Bildung, Betreuung und Erziehung wird hierbei eine zentrale Rolle zugeschrieben (Schneider et al. 2012). V

VI

Editorial

Dieser Bildungsauftrag ist von Bund- und Länderseite erkannt worden: Seit einigen Jahren werden vielfältige Bemühungen unternommen, um Kinder bereits vor der Einschulung stärker in ihrem Spracherwerb und ihrer Sprachentwicklung im Deutschen zu unterstützen und dadurch Chancengleichheit im Bildungssystem herzustellen (Schneider et al. 2012). Auf Bundesebene ist hier beispielsweise das Programm „Sprach-Kitas“ bzw. dessen Vorläufer „Schwerpunkt-Kitas Sprache & Integration“ zu nennen, auf Länderebene die Tatsache, dass in den Bildungsplänen aller Bundesländer die Bedeutsamkeit der sprachlichen Bildung und Sprachförderung im Elementarbereich herausgestellt wird. In der Expertise der Bund-Länder-Initiative zur Sprachförderung, Sprachdiagnostik und Leseförderung „Bildung durch Sprache und Schrift“ (BiSS) wurde jedoch konstatiert, dass bisher nur wenige aussagekräftige Evaluationen zu Sprachfördermaßnahmen vorliegen und diese eher enttäuschende Ergebnisse erbracht haben (Schneider et al. 2012). Zudem verweisen die Autorinnen und Autoren darauf, dass systematische Wirkungsevaluationen im Hinblick auf Nachhaltigkeit von Sprachfördermaßnahmen bislang bestenfalls in Ansätzen vorhanden sind. Auch Schneider (2018) liefert einen Überblick über die Effektivität verschiedener Ansätze vorschulischer Sprachförderung (eingeteilt in „allgemeine kompensatorische additive Sprachförderprogramme“ vs. „spezifische additive Förderprogramme im Bereich Literacy“ vs. „alltagsintegrierte Sprachförderung in Kindertagesstätten“). Neben den ernüchternden Ergebnissen bisheriger Evaluationsstudien – bis auf die positiven Effekte im Bereich emergent literacy, genauer gesagt phonologische Bewusstheit – bemängelt Schneider nicht nur die geringe Anzahl guter Evaluationsstudien, sondern auch die fast völlig fehlende Überprüfung von Langzeiteffekten. D. h., trotz eines großen finanziellen und personellen Einsatzes ist nach wie vor nicht sichergestellt, welche der ergriffenen Maßnahmen zur sprachlichen Förderung im Elementarbereich auch die angestrebte Wirkung erzielen und wie lange diese Wirkung gegebenenfalls anhält. Unklar bleibt sowohl, welche kontextuellen Faktoren den Erfolg und Misserfolg frühkindlicher Sprachförderung vorhersagbar machen, als auch, welche Förderziele als erreichbar oder erfolgsversprechend einzustufen sind. In diesem Zusammenhang können zusammenfassende Analysen und Berichte, wie beispielsweise systematische Reviews oder Metaanalysen, helfen, einen Überblick über den Erkenntnisstand in dem jeweiligen Forschungsfeld zu gewinnen. Diese Übersichtsarbeiten haben den Anspruch, alle Untersuchungen zu einer bestimmten Fragestellung (z. B. „Wie ist die Wirkung von Sprachfördermaßnahmen in Kindertageseinrichtungen?“) zusammenzuführen und deren Ergebnisse entweder anhand bestimmter Kriterien zu bündeln und zu beschreiben (systematisches Review) oder deren Effektivität – d. h. deren Effektstärke – statistisch zu überprüfen (Metaanalyse). Ein für den deutschsprachigen Raum erstes systematisches Review

Editorial

VII

von Egert und Hopf (2016) fasst die Wirksamkeit von Sprachförderung für ein- und mehrsprachige Kinder in Kindertageseinrichtungen in Deutschland zusammen. Insgesamt konnten hier 23 Studien identifiziert werden, die sowohl positive wie auch negative Ergebnisse berichten. Neben den heterogenen Ergebnissen fallen auch große Unterschiede in den Designs der Studien auf: Lediglich 8 der 23 Studien entsprechen den von den Autorinnen zugrunde gelegten Evidenzstandards. Neben unterschiedlich großen Stichprobenzahlen und unterschiedlichen Vergleichsgruppen (Gruppe ohne Förderung oder Gruppe mit alternativer Förderung) finden sich qualitative Unterschiede in der Randomisierung der Zuordnung der Studienteilnehmerinnen und -teilnehmer, der Überprüfung der Äquivalenz der Gruppen sowie der Umsetzung der Fördermaßnahmen (sowohl in qualitativer als auch in quantitativer Hinsicht) und der Reliabilität der eingesetzten Erhebungsinstrumente. Weiter wurden nur 9 der 23 Evaluationsstudien von unabhängigen, externen Wissenschaftlerinnen und Wissenschaftlern durchgeführt. Insgesamt erfüllt keine der gefundenen Evaluationsstudien vollständig die internationalen Standards der Evidenzbasierung im Bereich der Bildungsevaluation (What Works Clearinghouse 2017). Somit mangelt es im deutschsprachigen Raum nicht nur allgemein an Studien zur Effektivitätsüberprüfung von Sprachfördermaßnahmen, sondern es mangelt an kontrolliert durchgeführten Studien, die den internationalen Evidenzstandards entsprechen (Egert und Hopf 2016). Durch die Rahmenbedingungen des Bildungswesens ist die Übernahme der strengen Standards aus dem Bereich der Medizin jedoch kaum möglich; zudem ist fraglich, ob dies gegenstandsangemessen ist (Pant 2014). Dennoch braucht Evidenzbasierung im Bereich der (frühkindlichen) Bildung eine hochwertige empirische Bildungsforschung. Diese gilt es in der deutschen Forschungscommunity zu etablieren, sich also über den Status Quo der Forschung auszutauschen, um im Anschluss gemeinsame Standards für eine gute Wirksamkeitsforschung zu definieren (Bromme et al. 2014). Systematische Reviews und Metaanalysen sind ideal, um Aussagen darüber machen zu können, was unter welchen Bedingungen wie und für welche Zielgruppe wirkt (Egert 2016). Diese Reviews und Metaanalysen sind allerdings nur so gut, wie die ihnen zugrundeliegenden Primärstudien. Daher sollten bei der Durchführung von Evaluationsstudien gewisse methodische Mindeststandards berücksichtigt werden. Die Forderung nach evidenzbasiertem Nachweis der Wirksamkeit von Bildungs- und Förderansätzen wird somit immer größer (Bromme et al. 2014; Bundesministerium für Bildung und Forschung 2018). Die oben geschilderten Mängel und Schwierigkeiten im Bereich der Effektivitätsüberprüfung hat die Forschung erkannt. Aktuell werden im deutschen Sprachraum diverse Projekte durchgeführt, die mit vielfältigen Zugängen versuchen, diesen methodischen und inhaltlichen VII

VIII

Editorial

Schwierigkeiten zu begegnen. An dieser Stelle setzte die Expertentagung zum Thema „Evidenzbasierte Überprüfung von Sprachförderkonzepten bei ein- und mehrsprachigen Kindern im Vorschulalter – Expertentagung zu methodischem Vorgehen und Erkenntnissen“ an, die Ende Mai 2017 am Deutschen Jugendinstitut in München stattfand (für nähere Informationen siehe: https://www.dji.de/medien-undkommunikation/news/news/article/sprache-in-der-kita-expertentagung-im-dji. html). Ziel der Tagung war es, verschiedene Forschergruppen aus unterschiedlichen Disziplinen zusammenzubringen, die sich mit dem Thema der Effektivitätsüberprüfung von Sprachfördermaßnahmen in der frühkindlichen Bildung in Deutschland in unterschiedlicher Weise auseinandersetzen. Den Tagungsteilnehmerinnen und -teilnehmern wurde somit ermöglicht, sich über den aktuellen Forschungsstand, methodische Ansätze und Vorgehensweisen auf diesem Gebiet auszutauschen. Ferner wurde darüber diskutiert, was gute wissenschaftliche Arbeit im Bereich der Evidenzbasierung ausmacht und wie Ergebnisse effizient in die Politik und Praxis übertragen werden können. Die Beiträge dieser Expertentagung bildeten die Grundlage für den vorliegenden Band. Dabei sind die Beiträge in drei thematische Blöcke aufgeteilt worden: i) Überblick über den Forschungsstand, ii) Methodische Grundlagen, iii) Untersuchungsbeispiele von Sprachförderansätzen in der Kindertageseinrichtung. Im ersten Teil geben Egert, Galuschka, Groth, Hasselhorn und Sachse einen Überblick über den Forschungsstand zur Evidenzbasierung von Sprachförderkonzepten im Elementarbereich. Zum einen wird erörtert, was unter Evidenzbasierung im Bereich vorschulischer sprachlicher Bildung und Förderung verstanden wird, was man bisher darüber weiß und was es dabei zu beachten gilt. Auch der Transfer evidenzbasierten Wissens in die Praxis wird hierbei thematisiert. Zum anderen wird anhand ausgewählter Beispiele und unter Beachtung des Aspekts der Evidenzbasierung ein Überblick über den aktuellen Forschungsstand zur Effektivität von Sprachfördermaßnahmen in Kindertageseinrichtungen in Deutschland gegeben. Die Sprachfördermaßnahmen werden hier entsprechend ihrer Umsetzungsbedingungen klassifiziert (kontrollierte Umsetzungsbedingungen vs. Realbedingungen mit guter Umsetzungsqualität vs. Realbedingungen mit heterogener oder unspezifischer Umsetzung) und diskutiert. Die Autorinnen und der Autor kommen zu dem Schluss, dass noch zahlreiche weitere kontrolliert durchgeführte Studien notwendig sind, um belastbare und praxisrelevante Aussagen über die Wirksamkeit von Sprachförderkonzepten für bestimmte Zielgruppen treffen zu können, und dass vermehrt evidenzbasierte Ergebnisse in die Entscheidungen und Handlungen der pädagogischen Praxis Einzug finden sollten. Der Beitrag von Egert et al. liefert somit einen Einstieg in das übergreifende Thema des vorliegenden Bandes und bildet den Status Quo des Forschungsstandes auf diesem Gebiet ab.

Editorial

IX

Im zweiten Teil liegt der Fokus der einzelnen Kapitel auf dem methodischen Vorgehen von Evaluationsstudien, Metaanalysen und Systematic Reviews. Hierbei werden einzelne Aspekte (z. B. der Literaturrecherche-Prozess bei Systematic Reviews, die Stichprobenziehung bei quasi-experimentellen Interventionsstudien, die Reliabilitätsüberprüfung von Beobachtungsinstrumenten), die für eine qualitativ hochwertige Durchführung von Studien notwendig sind, näher beleuchtet. Die ersten beiden Kapitel dieses Themenblocks beschäftigen sich mit zwei ähnlichen Ansätzen, die beide der Verdichtung von Forschungsergebnissen dienen: Zum einen ist hier das Systematic Review zu nennen, zum anderen die Metaanalyse. Im Beitrag von Pfost und Borgstede erläutern die Autoren am Beispiel der Förderung der phonologischen Bewusstheit, welchen Nutzen Metaanalysen in der Evaluation von Sprachförderkonzepten bieten. Dabei zeigen sie sowohl Möglichkeiten als auch Herausforderungen auf, die mit der Durchführung von Metaanalysen einhergehen. Zudem werden das Vorgehen und die Ergebnisse dreier unterschiedlicher Metaanalysen zur Förderung der phonologischen Bewusstheit näher beleuchtet. Pfost und Borgstede betonen in ihrem Beitrag den wichtigen Stellenwert von Metaanalysen in der Evidenzbasierung. Sie schlussfolgern aber auch, dass Metaanalysen zwar ein wichtiges Instrument in der empirischen Bildungsforschung darstellen, dass gleichzeitig jedoch – in ähnlicher Weise wie bei Primärstudien – eine kritische Auseinandersetzung mit deren Befunden erfolgen sollte. Im darauffolgenden Kapitel schildern Zimmer, Schulte, Dubowy, Ehm, Kuger, Lonnemann, Martini, Rauch und Hasselhorn beispielhaft das Vorgehen bei der Dokumentenrecherche und Aufbereitung relevanter Literatur im Rahmen eines Systematic Reviews zur Sprachförderung in Kindertageseinrichtungen in Deutschland. Der Fokus liegt hierbei nicht auf den Ergebnissen des Systematic Reviews, sondern insbesondere auf der Quellensuche, d. h., die methodischen Aspekte von Informationssuche, -beschaffung, -aufbereitung und -dokumentation werden im Beitrag ausführlich dargestellt. Denn die Berücksichtigung möglichst aller für eine Fragestellung relevanter Quellen stellt ein wesentliches Qualitätskriterium von Systematic Reviews wie auch Metaanalysen dar. Zudem heben die Autorinnen und Autoren in ihrem Beitrag die für eine effektive Literaturrecherche notwendige interdisziplinäre Zusammenarbeit der beteiligten Fachdisziplinen und den Informationswissenschaften hervor. Abschließend werden die Vorzüge der gewählten Suchstrategie gegenüber den gängigen Vorgehensweisen bei wissenschaftlichen Übersichtsarbeiten näher beleuchtet. Daran anschließend erläutern Bihler, Agache, Willard, Kohl und Leyendecker in ihrem Beitrag eine anspruchsvolle Vorgehensweise bei der Stichprobenziehung für eine Evaluationsstudie. Die Studie hatte die Wirksamkeitsüberprüfung dreier unterschiedlicher Interventionen auf Ebene von Kindertageseinrichtungen zum Ziel. IX

X

Editorial

Hierbei wurden die Kindertageseinrichtungen den untersuchten Gruppen jedoch nicht randomisiert zugeordnet und zudem unterschieden sich die Kontroll- und Treatmentgruppen in den Ausgangswerten auf wichtigen Variablen. Um diesem Problem zu begegnen und eine balancierte Stichprobe zu gewährleisten, wandten Bihler et al. ein sogenanntes Propensity Score Matching Verfahren an. Die Autorinnen und der Autor erläutern in ihrem Beitrag, wie dieses Verfahren angewendet wird, welche Voraussetzungen dafür nötig sind, inwiefern durch dieses Verfahren eine Vergleichbarkeit zwischen den Gruppen erreicht wurde und welche Herausforderungen mit diesem Verfahren verbunden sind. Gerade für quasi-experimentelle Evaluationsstudien in der Feldforschung – wo die Vergleichbarkeit von Untersuchungsgruppen aufgrund der Untersuchung unter Realbedingungen oftmals nicht vollständig gegeben ist – bietet das dargestellte Propensity Score Matching Verfahren eine gute Lösung. Der zweite Teil des vorliegenden Bandes endet mit einem ebenfalls methodisch ausgerichteten Beitrag von Leber, Kammermeyer und Roux. Die Autorinnen befassen sich mit der Reliabilität von Erhebungsinstrumenten, die zur Gewährleistung aussagekräftiger Ergebnisse unbedingt gegeben sein muss. In ihrem Beitrag stellen sie zur Diskussion, wie die Qualität von Beobachtungen der Fachkraft-Kind-Interaktion mit dem Classroom Assessment Scoring System (CLASS) gesichert werden kann. Ausgangspunkt für diesen Beitrag war die Feststellung, dass die Zertifizierung, die für die Anwendung von CLASS vorausgesetzt wird, kein Garant für eine ausreichende Datenqualität ist. Um diesem Problem zu begegnen und die Beurteilerübereinstimmung (die Interrater-Reliabilität) bei der Anwendung von CLASS zu erhöhen, entwickelten die Autorinnen einen Kalibrierungsprozess. Dieser Kalibrierungsprozess, der zu einer deutlichen Verbesserung der Reliabilität und damit der Datenqualität führte, wird im Beitrag genauer erläutert. Während der Fokus der Beiträge des zweiten Teils auf den methodischen Grundlagen liegt, stehen in den Beiträgen des dritten Teils die Ergebnisse zweier beispielhafter Untersuchungen von Sprachförderansätzen in der Kindertageseinrichtung im Vordergrund. Zum einen werden mögliche Einflussfaktoren auf die Sprachentwicklung der Kinder vorgestellt, zum anderen wird die Umsetzung der Sprachbildung in Kindertageseinrichtungen betrachtet. Im Beitrag von Lehrl, Flöter, Wieduwilt und Anders wird der Frage nach der direkten und indirekten Bedeutsamkeit der Zusammenarbeit von Kindertageseinrichtungen mit Familien für die kindliche Sprachentwicklung nachgegangen. Die Daten stammen aus dem Bundesprogramm „Schwerpunkt-Kitas Sprache & Integration“. Mittels Pfadmodellen ermittelten Lehrl et al., ob zwei unterschiedliche Dimensionen der Zusammenarbeit mit Familien (1) Fortbildungsgrad eines Teams bezüglich der Zusammenarbeit mit Familien, 2) Geben von Tipps und Hinweisen zur Anreicherung der häuslichen Lernumwelt) mit der Sprachentwicklung von Kindern

Editorial

XI

zusammenhängen, und inwiefern die Qualität der häuslichen Lernumwelt hierbei als vermittelnde Variable fungiert. Diese direkten und indirekten – über die Qualität der häuslichen Lernumwelt vermittelten – Zusammenhänge wurden teilweise bestätigt. Die Ergebnisse verdeutlichen, dass die Verbindung der beiden Lernumwelten Familie und Kindertageseinrichtung wichtig für die sprachliche Entwicklung von Kindern ist. Abschließend erläutern Blatter, Groth, Eichmann und Stolarova in ihrem Beitrag, wie Sprachbildung im Elementarbereich in Nordrhein-Westfalen vor dem Hintergrund bestimmter Maßnahmen, die das Land Nordrhein-Westfalen im Jahr 2014 ergriffen hat, umgesetzt wird. Dabei werden Daten aus unterschiedlichen Erhebungen miteinander verknüpft: Einerseits werden quantitative Daten aus einer Online-Befragung von Leitungen von Kindertageseinrichtungen analysiert, andererseits qualitative Daten aus Interviews, die ebenfalls mit Leitungen von Kindertageseinrichtungen geführt wurden. Hierbei erfolgt ein Vergleich von Kindertageseinrichtungen mit unterschiedlicher zusätzlicher finanzieller Förderung. Die bereitgestellten Fördersummen des Landes sind für pädagogisches Personal einzusetzen, was wiederum zu einer Verbesserung der alltagsintegrierten Sprachbildung in den Kindertageseinrichtungen führen soll. Die Analysen der Autorinnen zeigen, dass sowohl bei der Umsetzung von Sprachbildung als auch bei der Qualifikation der pädagogischen Fachkräfte in diesem Bereich Unterschiede zwischen unterschiedlich geförderten Kindertageseinrichtungen vorliegen. Wir hoffen, dass wir mit diesen Erläuterungen Ihr Interesse am vorliegenden Band geweckt haben. Abschließend möchten wir uns bei allen beteiligten Personen und Akteuren bedanken, die das Zustandekommen dieses Bandes ermöglicht haben. Zunächst sind dies die Autorinnen und Autoren, von denen die meisten ebenfalls als Referentinnen und Referenten die erwähnte Expertentagung zum Erfolg haben werden lassen. Gleichzeitig gilt unser Dank den Gutachterinnen und Gutachtern, die maßgeblich zur Verbesserung der einzelnen Beiträge beigetragen haben. Zudem bedanken wir uns bei den Reihenherausgeberinnen und -herausgebern der „Edition ZfE“ für die Aufnahme unseres Bandes. Gedankt sei ferner Frau Christin Güldemund für die umfassende Unterstützung bei der redaktionellen Arbeit und Frau Stefanie Laux für die Betreuung seitens des Verlages. Zum Schluss möchten wir der Fritz Thyssen Stiftung für ihre finanzielle Unterstützung danken, die die Durchführung der Expertentagung zur Evidenzbasierten Überprüfung von Sprachförderkonzepten im Vorschulalter sowie diese anschließende Publikation der Beiträge der Tagung ermöglicht hat. München und Frankfurt am Main, im Mai 2019 Kristine Blatter, Katarina Groth und Marcus Hasselhorn XI

XII

Editorial

Literatur Autorengruppe Bildungsberichterstattung (2016). Bildung in Deutschland 2016. Ein indikatorengestützter Bericht mit einer Analyse zu Bildung und Migration. Bielefeld: Bertelsmann. Bayerisches Staatsministerium für Arbeit und Sozialordnung, Familien und Frauen, & Bayerisches Staatsinstitut für Frühpädagogik (Hrsg.) (2012). Der Bayerische Bildungs- und Erziehungsplan für Kinder in Tageseinrichtungen bis zur Einschulung. Berlin: Cornelsen. Bromme, R., Prenzel, M., & Jäger, M. (2014). Empirische Bildungsforschung und evidenzbasierte Bildungspolitik. Eine Analyse von Anforderungen an die Darstellung, Interpretation und Rezeption empirischer Befunde. In I. Gogolin & D. Lenzen (Hrsg.), Qualität im Bildungs- und Wissenschaftssystem (Zeitschrift für Erziehungswissenschaft: Sonderheft 17, S. 3−54). Wiesbaden: Springer VS. Bundesministerium für Arbeit und Soziales (Hrsg.) (2017). Lebenslagen in Deutschland. Der Fünfte Armuts- und Reichtumsbericht der Bundesregierung. https://www.armuts-und-reichtumsbericht.de/SharedDocs/Downloads/Berichte/5-arb-langfassung.pdf?__blob=publicationFile&v=6. Zugegriffen: 28. Mai 2019. Bundesministerium für Bildung und Forschung (Hrsg.) (2018). Rahmenprogramm empirische Bildungsforschung. https://www.empirische-bildungsforschung-bmbf.de/media/ content/Rahmenprogramm%20empirische%20Bildungsforschung_barrierefrei.pdf. Zugegriffen: 28. Mai 2019. Dubowy, M., Ebert, S., von Maurice, J., & Weinert, S. (2008). Sprachlich-kognitive Kompetenzen beim Eintritt in den Kindergarten. Ein Vergleich von Kindern mit und ohne Migrationshintergrund. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 40(3), 124−134. Egert, F. (2016). Potenziale von Systematischen Reviews und Metaanalysen zur Verbesserung von Wirkungsforschung, bildungspolitischen Entscheidungen sowie der frühkindlichen Bildungspraxis. Frühe Bildung, 5(4), 215−221. Egert, F., & Hopf, M. (2016). Zur Wirksamkeit von Sprachförderung in Kindertageseinrichtungen. Kindheit & Entwicklung, 25(3), 153−163. Giesecke, J., Kroh, M., Tucci, I., Baumann, A.-L., & El-Kayed, N. (2017). Armutsgefährdung bei Personen mit Migrationshintergrund – Vertiefende Analysen auf Basis von SOEP und Mikrozensus (SOEPpapers on Multidisciplinary Panel Data Research, 907). Berlin: DIW Berlin. Gogolin, I., & Krüger-Potratz, M. (2006). Einführung in die interkulturelle Pädagogik. Opladen: Budrich. Pant, H. A. (2014). Aufbereitung von Evidenz für bildungspolitische und pädagogische Entscheidungen: Metaanalysen in der Bildungsforschung. In I. Gogolin & D. Lenzen (Hrsg.), Qualität im Bildungs- und Wissenschaftssystem (Zeitschrift für Erziehungswissenschaft: Sonderheft 17, S. 79−99). Wiesbaden: Springer VS. Schneider, W. (2018). Nützen Sprachförderprogramme im Kindergarten, und wenn ja, unter welchen Bedingungen? Zeitschrift für Pädagogische Psychologie, 32(1-2), 53−74. Schneider, W., Baumert, J., Becker-Mrotzek, M., Hasselhorn, M., Kammermeyer, G., & Rauschenbach, T. (2012). Expertise „Bildung durch Sprache und Schrift (BISS)“. Bund-Länder-Initiative zur Sprachförderung, Sprachdiagnostik und Leseförderung. https://biss-sprachbildung.de/pdf/biss-website-biss-expertise.pdf. Zugegriffen: 28. Mai 2019.

Editorial

XIII

Schöppe, D., Blatter, K., Faust, V., Jäger, D., Stanat, P., Artelt, C. et al. (2013). Effekte eines Trainings der phonologischen Bewusstheit bei Vorschulkindern mit unterschiedlichem Sprachhintergrund. Zeitschrift für Pädagogische Psychologie, 27(4), 241−254. What Works Clearinghouse (2017). Standards Handbook. Version 4.0. https://ies.ed.gov/ ncee/wwc/Docs/referenceresources/wwc_standards_handbook_v4.pdf. Zugegriffen: 28. Mai 2019.

XIII

Inhalt Inhalt Inhalt

Teil I Überblick über den Forschungsstand 1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung: Was man darunter versteht und bisher darüber weiß . . . . . . . . . 3 Franziska Egert, Katharina Galuschka, Katarina Groth, Marcus Hasselhorn und Steffi Sachse Teil II Methodische Grundlagen 2 Zum Nutzen der Meta-Analyse in der Evaluation von Sprachförderkonzepten am Beispiel der phonologischen Bewusstheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Maximilian Pfost und Matthias Borgstede 3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium von Systematic Reviews: Sprachförderung in Kindertageseinrichtungen als Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Karin Zimmer, Jolika Schulte, Minja Dubowy, Jan-Henning Ehm, Susanne Kuger, Jan Lonnemann, Renate Martini, Dominique Rauch und Marcus Hasselhorn 4 Propensity score matching as a procedure for sample selection. Illustrating the utility for selecting three groups . . . . . . . . . . . . . . . . . . . . . . . 77 Lilly-Marlen Bihler, Alexandru Agache, Jessica A. Willard, Katharina Kohl und Birgit Leyendecker

XV

XVI

Inhalt

5 Sicherung der Qualität von Beobachtungen der ErzieherIn-KindInteraktion mit dem Classroom Assessment Scoring System . . . . . . . . . . . 101 Anja Leber, Gisela Kammermeyer und Susanna Roux Teil III Untersuchungsbeispiele von Sprachförderansätzen in der Kindertageseinrichtung 6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit mit Familien für die kindliche Sprachentwicklung . . . . . . . . . . . . . . . . . . . 129 Simone Lehrl, Manja Flöter, Nadine Wieduwilt und Yvonne Anders 7 Sprachbildung im Elementarbereich in Nordrhein-Westfalen: Ein Vergleich von Kitas mit unterschiedlicher finanzieller Förderung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Kristine Blatter, Katarina Groth, Veronika Eichmann und Margarita Stolarova

Teil I Überblick über den Forschungsstand

1

Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung: Was man darunter versteht und bisher darüber weiß

1

Franziska Egert, Katharina Galuschka,1 Katarina Groth, Marcus Hasselhorn und Steffi Sachse 1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

Franziska Egert et al. Zusammenfassung

Sprachliche Kompetenzen gelten als Schlüssel für den individuellen Bildungserfolg. Deshalb wurde die sprachliche Bildung und Förderung in allen Bundesländern zum Ziel erklärt. Gleichzeitig wurde der Anspruch erhoben, die Entscheidung über die Einführung von Förderkonzepten „evidenzbasiert“ vorzunehmen. Anhand ausgewählter Beispiele werden Möglichkeiten und Grenzen der Evidenzbasierung in der frühkindlichen Bildung sowie der Umgang von Entscheidungsträgern mit diesem Begriff näher beleuchtet. In diesem Zusammenhang werden auch die Potenziale und Schwierigkeiten von Evidenzbasierung bei der Durchführung von systematischen Reviews und Metaanalysen näher thematisiert. Auch der aktuelle Forschungsstand zur Wirkung von Sprachförderung in Kindertageseinrichtungen für ein- und mehrsprachige Kinder in Deutschland wird zusammengefasst. Es zeigt sich, dass bereits viel Wissen generiert wurde, aber für praxisrelevante und belastbare Aussagen über die spezifischen Wirkmechanismen für bestimmte Zielgruppen noch weitere Studien benötigt werden. Aus der Forschungssynthese lassen sich weitere Forschungsfragen generieren und Implikationen für die frühpädagogische Praxis ableiten.

Schlüsselbegriffe

Evidenzbasierung, Frühkindliche Bildung, Metaanalyse, Sprachförderung 1 Die Autorinnen Franziska Egert und Katharina Galuschka teilen sich die Erstautorenschaft. © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 K. Blatter et al. (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich, Edition ZfE 6, https://doi.org/10.1007/978-3-658-26438-3_1

3

4

Franziska Egert et al.

Evidence-based language education and intervention in Early Childhood Education and Care. What does it mean and what do we know? Abstract

Linguistic competencies are considered as key to individual educational success. Therefore linguistic education and promotion has been declared as a goal in all federal states in Germany. At the same time a claim has been asserted to reach evidence-based decisions on the introduction of promotion concepts. The possibilities and limits of evidence based practice in early childhood education as well as the handling of this term by policy-makers are illuminated by selected examples. Potentials and difficulties of the implementation are addressed since a cumulative evidence base can only be reached through systematic reviews or meta-analysis. The current state of research concerning the effect of language promotion in early education and care for mono- and bilingual children in Germany is summarized. It becomes apparent that much knowledge has already been generated, but more studies are needed for reliable and practicable statements about specific effect mechanisms for different target groups. From the research synthesis other research questions can be generated and implications for early education practice can be derived. Keywords

Evidence-based practice, early childhood education and care, meta-analysis, language intervention and development

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

1.1

5

Aktuelle Entwicklungen zur Evidenzbasierung in der frühen Bildung

1.1 Aktuelle Entwicklungen zur Evidenzbasierung in der frühen Bildung

In Deutschland wurde die Unterstützung sprachlichen Lernens durch den Beschluss der Jugend- und Kultusministerkonferenz von 2004 im „Gemeinsamen Rahmen der Länder für die frühe Bildung in Kindertageseinrichtungen“ als zentrale Aufgabe von Kindertageseinrichtungen verankert (Jugendministerkonferenz und Kultusministerkonferenz 2004). Die Bildungs- und Erziehungspläne der einzelnen Länder präzisieren und konkretisieren zwar den Bildungsauftrag zur sprachlichen Bildung und Förderung, bieten jedoch auch träger- und einrichtungsspezifische Ausdifferenzierungs- und Umsetzungsmöglichkeiten (Hovestadt und Keßler 2004). Im Vordergrund der universellen Bildungsaufgabe für alle Kinder steht die soziale Funktion von Sprache und somit die Sicherung von Chancengerechtigkeit (Kammermeyer und Roux 2013). Erste Ergebnisse aus Deutschland deuten auf eine mittelmäßige bis niedrige Qualität bisheriger sprachlicher Unterstützung im Kindergartenalltag hin (Kammermeyer et al. 2013; von Suchodoletz et al. 2014). Auch Befunde zur Quantität sprachunterstützender Aktivitäten sind eher ernüchternd. So finden beispielsweise nur wenige dialogische Bilderbuchsituationen oder sprachlich begleitete Spielsituationen im Alltag von Kindertageseinrichtungen statt (Egert et al. 2018). Dies verwundert angesichts der vielen Bestrebungen zur Steigerung der allgemeinen und sprachbezogenen Qualität in Kindertageseinrichtungen in den letzten Jahren (Eckhardt et al. 2013). Zu ihnen zählen u. a. die Nationale Qualitätsoffensive, die Einführung von curricularen Rahmenplänen, die Etablierung von Sprachfördermaßnahmen und mehrere Bund-Länder-Initiativen (z. B. Bundesprogramm „Sprach-Kitas: Weil Sprache der Schlüssel zur Welt ist“, „Bildung durch Sprache und Schrift – BiSS“). Insgesamt ist das Engagement der Bundesländer zur vorschulischen Sprachförderung beachtlich und die Auswahl an Sprachförderideen vielfältig (Lisker 2013; Autorengruppe Bildungsberichterstattung 2018; Schneider 2018). In nahezu allen Bundesländern wird der Sprachstand von Kindern eingeschätzt und falls notwendig werden entsprechende Sprachfördermaßnahmen bereitgestellt (Autorengruppe Bildungsberichterstattung 2018). Die Maßnahmen in Kindertageseinrichtungen beziehen sich in der Regel auf die Förderung der deutschen Sprache (Lisker 2013; Petermann 2015). Die Durchführung ist meist Aufgabe der pädagogischen Fachkräfte, wird aber auch von externen Fachkräften übernommen (Lisker 2013). Die Angebote erfolgen alltagsintegriert oder additiv und unterscheiden sich in Zielgruppe, Beginn, Förderdauer und Intensität sowie didaktischer Aufbereitung (Kammermeyer und Roux 2013; Autorengruppe Bildungsberichterstattung 2018). Obwohl zahlreiche Sprachförderbestrebungen gesetzlich verankert sind und in der Praxis 5

6

Franziska Egert et al.

umgesetzt werden, ist die Anzahl an systematischen Wirksamkeitsüberprüfungen in Deutschland immer noch überschaubar (Egert und Hopf 2016; Schneider 2018). Am Beispiel der Diskussion zur Wirkung von Sprachförderung in Kindertageseinrichtungen wird das bildungspolitisch formulierte Ziel einer empirisch abgesicherten frühpädagogischen Praxis deutlich (Egert 2016). Evidenzbasierte Entscheidungen und Handlungen über pädagogische Praxis sind datenbasiert und empirisch fundiert und gehen der Frage nach, was wirkt (Pant 2014). Dabei werden Befunde von summativen Evaluationsstudien als Indikator der Wirkung von Bildungsansätzen oder Fördermaßnahmen verwendet (What Works Clearinghouse 2017). Aktuelle Debatten zur vorschulischen Sprachförderung werden von einer Art Glaubenskrieg geprägt, der in der Gegenüberstellung von additiven und alltagsintegrierten Förderansätzen zum Ausdruck kommt. Forschungsbefunde spielen dabei nur eine untergeordnete Rolle. Bisweilen werden oftmals nur einzelne Forschungsergebnisse, meist großer renommierter Studien berücksichtigt, um daraus resultierende politische Empfehlungen abzuleiten (vgl. Redder et al. 2011; Schneider et al. 2013). Dies führte u. a. dazu, dass in einigen Bundesländern die Empfehlungen zu bestimmten Sprachförderansätzen revidiert wurden (siehe dazu Lisker 2013; Autorengruppe Bildungsberichterstattung 2018). Bedauerlicherweise wurde in den entsprechenden Diskussionen zumeist kaum reflektiert, wie belastbar die Befunde einzelner Untersuchungen sind und unter welchen methodischen Voraussetzungen und Umsetzungsbedingungen der Sprachförderung diese entstanden. Ebenso vermisst man in den politischen Debatten eine Systematisierung der Evidenzen anhand von standardisierten Kriterien und auf der Basis einer umfänglichen Literatur­ suche. Evidenzbasierte Entscheidungen über effektive Praxis sollten basierend auf einer strengen und transparenten methodischen Vorgehensweise getroffen werden (Higgins und Green 2011). Ein Vorschlag wie man dies umsetzen kann sowie die Grundidee der Evidenzbasierung werden folgend näher erläutert.

1.2

Methodisches Vorgehen der Evidenzbasierung

1.2

Methodisches Vorgehen der Evidenzbasierung

Die Idee der Evidenzbasierung stammt aus der Medizin und bezeichnet die Nutzung der besten wissenschaftlichen Nachweise (Evidenzen) zur Entscheidungsfindung in der Patientenversorgung (Sackett et al. 1996). Diese Idee hat sich mittlerweile weit verbreitet und wird in vielen Disziplinen angewendet und adaptiert (z. B. evidenzbasierte Pädagogik, evidenzbasierte Bildungsforschung; vgl. Bellmann und Müller 2011). Ziel der Evidenzbasierung ist die Bereitstellung von Orientierungs- und Aufklärungswissen für die Praxis. Für die Erziehungswissenschaft, Bildung und

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

7

Sozialfürsorge setzt die Campbell Collaboration hohe Standards zur Aufbereitung evidenzbasierter Entscheidungen. Danach lässt sich evidenzbasiertes Vorgehen durch folgende Schritte abbilden (Sackett et al. 1996): 1. Formulierung einer konkreten Fragestellung zur Lösung eines praktischen Problems 2. Effiziente Suche nach der besten (verfügbaren) wissenschaftlichen Evidenz 3. Kritische Bewertung der identifizierten Literatur 4. Zusammenführende Analyse der Literatur 5. Transfer der Ergebnisse in die Praxis

1.2.1 Formulierung einer präzisen Fragestellung und Literaturrecherche Je genauer ein Problem beschrieben wird, desto höher ist die Wahrscheinlichkeit es angemessen zu lösen. Bei genauer Formulierung bietet die Fragestellung bereits eine erste Orientierung zur Festlegung von Ein- und Ausschlusskriterien für die Literaturrecherche. Als Formulierungshilfe wird für den Bereich Sprech- und Sprachstörungen das PESICO-Modell empfohlen (Schlosser und O’Neil-Pirozzi 2006). Mit diesem Modell ist es möglich, eine Fragestellung in Schlüsselelemente zu gliedern (siehe Tab. 1). Tab. 1

Das P(ES)ICO Modell

P (E) (S)

Patient, Proband, Population Environment Stakeholders

I

Intervention, Exposition

C O

Comparison Outcome

Zielgruppe (Alter, Geschlecht, Problem etc.) Umfeld, Kontext Einstellung, Perspektive des Betroffenen und seiner Kommunikationspartner Förderprogramm, Beschulung, Therapie, Ursache eines Problems Vergleich, Kontrolle, Studiendesign Leistungsverbesserung, Überlebensrate etc.

Die Literaturrecherche sollte mit hoher Sensitivität betrieben werden, um möglichst die gesamte relevante Literatur eines Themengebiets zu erfassen (s. dazu auch Zimmer et al. in diesem Band). Dabei hilft eine vielfältige Auswahl an Suchbegriffen, die geeignet ist, alle Aspekte der formulierten Fragestellung abzubilden. Eine 7

8

Franziska Egert et al.

systematische Recherche sollte die themenspezifisch relevanten Datenbanken, die Literaturlisten bereits bekannter Arbeiten sowie Bemühungen zur Identifikation sogenannter „grauer Literatur“ (nicht veröffentlichte Arbeiten) einschließen. Bei einer elektronischen Suche werden die Suchbegriffe durch Boolesche Operatoren (AND, OR, NOT) verbunden (Higgins und Green 2011). Eine ausführliche Darstellung der praktischen Umsetzung der Literatursuche findet sich auch bei Zimmer et al. in diesem Band. Die genaue Suchstrategie muss nachvollziehbar dokumentiert, klare Ein- und Ausschlusskriterien formuliert und angewendet werden (Methods Group of the Campbell Collaboration 2017) sowie die Studienauswahl von mindestens zwei Personen unabhängig voneinander durchgeführt werden. Für die Dokumentation der systematischen Literatursuche wird das PRISMA-Schema (Prefered Reporting Items for Systematic Reviews and Meta-Analyses) empfohlen, in dem u. a. die Identifikation der Literatur, das Screening, die Studiengüte und die relevanten Studien beschrieben und in einem Flussdiagramm graphisch aufbereitet werden (Moher et al. 2009).

1.2.2 Die beste verfügbare Evidenz Für die Bereitstellung evidenzbasierten Wissens ist die Qualität der Informationsquellen von besonderer Bedeutung. Systematische Reviews, die nach den Vorgaben der Campbell und Cochrane Collaboration erstellt wurden (Higgins und Green 2011; Campbell Collaboration 2014), gelten als Arbeiten mit der höchsten methodischen Qualität (Bromme et al. 2014), da diese unter besonders kontrollierten Bedingungen der Supervision und Begutachtung erstellt werden. Dadurch soll gewährleistet werden, dass möglichst vollständige und methodisch exakte Arbeiten entstehen. Andere systematische Reviews und Metaanalysen geben ebenfalls zuverlässigere Effektschätzungen ab als Einzelstudien, durchlaufen jedoch nicht den strukturierten Cochrane bzw. Campbell Publikationsprozess. Im Bereich der Primärforschung zu Bildungsmaßnahmen und Interventionen gelten randomisiert-kontrollierte Studien (RCT) als Goldstandard. Randomisierung bedeutet, dass die Teilnehmenden der Studie zufällig der Interventions- und Kontrollgruppe zugeordnet werden, um alle potenziell den Effekt beeinflussenden Variablen gleichmäßig über die Gruppen zu verteilen. Zur Vermeidung von Fehlschlüssen durch den Placebo-Effekt (Auftreten von Effekten durch Suggestion oder Änderungen der sozialen Situation) kann theoretisch eine Placebo-Kontrollgruppe eingesetzt werden, die „verblindet“ wird. Dabei werden die Teilnehmenden nicht darüber informiert, dass sie lediglich einer Pseudo-Maßnahme unterzogen werden (Higgins et al. 2011). Eine Verblindung

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

9

des Studienpersonals ist eine geeignete Methode, um zu vermeiden, dass die Effektabschätzung z. B. durch Erwartungseffekte verzerrt wird (Wood et al. 2008). Bei Studien zur Erfassung von Sprachfördereffekten sind RCTs zwar optimal, aber schwer durchzuführen, da sie verlangen, Kinder fern von organisatorischen Gesichtspunkten auf Kontroll- und Experimentalgruppe zu verteilen. Die Auswahl von passenden Placebo-Programmen als Kontrollbedingung ist kaum möglich, da diese einerseits keinen Einfluss auf die sprachlichen Leistungen haben, andererseits aber nicht sofort als Pseudo-Maßnahmen identifiziert werden sollen. Unbehandelte oder Placebo-Kontrollgruppen werfen zudem ethische Fragen auf, da dadurch förderbedürftigen Kindern eine wirksame Intervention verweigert wird. Damit Interventions- von Entwicklungseffekten abgegrenzt werden können, kann eine Wartekontrollgruppe eingesetzt werden (z. B. Fricke et al. 2013). Eine weitere Möglichkeit ist ein neues Sprachförderkonzept im Vergleich zu einem bereits evidenzbasierten Interventionsprogramm zu evaluieren. Bei diesem Studiendesign sind ethische Bedenken hinfällig, gesetzliche Vorgaben zur Sprachförderung erfüllt, und es werden zudem Kenntnisse darüber gewonnen, ob ein neues Sprachförderkonzept eine Bereicherung gegenüber bereits vorhandenen Konzepten darstellt. Eine Verblindung der Interventionsleiter ist im Bereich der Evaluation von Sprachförderkonzepten sehr schwierig umzusetzen, da geschulte Fachkräfte, die die Interventionen durchführen, häufig Interventions- von Kontrollprogrammen unterscheiden können. Eine verblindete Erhebung der geförderten Bereiche (abhängige Variablen) ist jedoch dringend zu empfehlen, da sonst deutliche Effekt­ überschätzungen entstehen können (Balk et al. 2002). Für eine möglichst objektive Bewertung können zudem unabhängige Einschätzungen von verblindeten Testleitern angefertigt werden (zur Durchführung siehe u. a. Groth et al. 2017). Zusätzlich sollten die abhängigen Variablen anhand eines zuverlässigen und gültigen Verfahrens erfasst werden. Bei nicht standardisierten Verfahren besteht die Gefahr der Überschätzung von Interventionseffekten (Swanson 1999), v. a. wenn diese in Kenntnis des verwendeten Fördermaterials konstruiert werden. Im Bereich der Evaluation von Bildungsmaßnahmen und Sprachförderkonzepten ist demnach die beste verfügbare Methode ein RCT, dessen abhängige Variablen anhand reliabler und valider Sprachstandserhebungsverfahren von Testleitern erfasst werden, die nicht über die Gruppenzuordnung der Kinder informiert sind. Die Umsetzung dieses hohen methodischen Standards ist in der Forschungspraxis aus organisatorischen und finanziellen Gründen schwierig, so dass es national unseres Wissens wenig Studien gibt, denen dies gelingt (siehe Volkmer et al. 2019 als Beispiel aus der Leseforschung in Grundschulen). Studien aus dem internationalen Raum zeigen jedoch auch bei der Evaluation der Sprachförderung im öffentlichen Raum, dass eine Umsetzung dieser qualitativ hochwertigen Vorgehensweisen möglich ist (Fricke et al. 9

10

Franziska Egert et al.

2017). Bei anderen Studiendesgins besteht eine höhere Wahrscheinlichkeit, Effekte falsch zu beurteilen und somit Kindern mit Förderbedarf wirksame Maßnahmen vorzuenthalten oder sie mit unwirksamen Maßnahmen zu konfrontieren.

1.2.3 Qualitative Bewertung Das Vorgehen bei der Eruierung der vorhandenen Evidenz folgt nicht nur definierten Standards von Studiendesigns und deren Durchführung, sondern auch klaren Kriterien zur Kontrolle der Umsetzung dieser Standards. Die qualitative Bewertung dient der Einschätzung des Risikos, mit dem methodische Schwächen der Studienkonzeption und -durchführung das Studienergebnis verzerren könnten. Um das zu beurteilen, wird nach systematischen Fehlern (Biases) in der Studienkonzeption und in der Auswertung gesucht. Selection-Bias entsteht, wenn die Aufteilung in die Studien- bzw. Kontrollgruppen nicht zufällig erfolgt, sondern durch bekannte oder unbekannte studienrelevante Eigenschaften der Probanden beeinflusst wird. Performance-Bias tritt auf, wenn sich die verabreichten Interventionen nicht nur inhaltlich unterscheiden, sondern die Interventionen weitere Unterschiede in den Rahmenbedingungen aufweisen (z. B. wenn die Gruppen unterschiedlich intensiv betreut oder behandelt werden). Die Verzerrung des Studieneffekts, die entsteht, wenn die Gruppenzugehörigkeit die Messung der Outcome-Maße beeinflusst, wird als Detection-Bias bezeichnet. Scheiden vermehrt bestimmte Probanden (mit studienrelevanten Merkmalen) aus einer Studie aus oder wird das Studienprotokoll nicht eingehalten, spricht man vom Attrition-Bias. Werden die gewonnenen Daten selektiv berichtet, ergeben sich dadurch Verzerrungen der Schlussfolgerungen und es wird vom Reporting-Bias gesprochen (Higgins et al. 2011). Für die Bewertung stehen Tools und Checklisten zu Verfügung (z. B. der Coch­ rane Collaboration) die bei der qualitativen Einschätzung einer Studie unterstützen können. So kann eingeschätzt werden, wie stark die allgemeine Evidenzlage ist und wie verzerrt darauf aufbauende Forschungssynthesen sind.

1.2.4 Zusammenführende Analyse der Literatur durch systematische Reviews und Metaanalysen Systematische Reviews verfolgen das Ziel, die gesamte empirische Evidenz zu einer bestimmten Thematik zusammenzutragen, um eine spezifische Frage zur Wirksamkeit bestimmter Maßnahmen zu beantworten. Die Hauptmerkmale eines

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

11

systematischen Reviews sind (1) eine klare Forschungsfrage, (2) eine transparente Methodik, (3) eine systematische Literaturrecherche, (4) Überprüfung der Validität von Studien einschließlich der Verzerrungskontrolle sowie (5) eine systematische Präsentation und Synthese der Resultate (Dixon-Woods et al. 2005). Neben den oben aufgeführten Hauptmerkmalen ist bei Metaanalysen die statistische Integration der Forschungsergebnisse über Effektstärkenmaße (Beelmann 2014) zu ergänzen. Sie ermöglichen die statistische Prüfung von Verzerrungen sowie von interventions- und kontextbedingten Effektmoderatoren.

1.2.5 Transfer evidenzbasierten Wissens in die Praxis Der methodische Aufwand der Evidenzklärung zur Wirksamkeit und den Wirkungen explizierter Maßnahmen zielt darauf ab, die Praxis – in unserem Fall der sprachlichen Bildung und Förderung – zu verbessern. Inwieweit dieses Ziel bereits erreicht wird, ist kritisch zu hinterfragen. So wird der Forschung häufig vorgeworfen, praxisferne Resultate zu erzielen und umgekehrt der Praxis vorgeworfen, lieber Altbewährtes beizubehalten als sinnvolle Neuerungen anzunehmen. Für die Strukturierung und Transparenz der Entscheidungsfindung wurde der EtD-Ansatz (Evidence to Decision) entwickelt (Nussbaumer-Streit et al. 2018). Dabei werden unterschiedliche Aspekte (u. a. Priorität des Problems, Ressourcenverbrauch, Gerechtigkeit, Akzeptanz, Machbarkeit) näher beleuchtet, welche für verschiedene Entscheidungsarten (u. a. individuelle Perspektive, Bevölkerungsperspektive, Kostenübernahme, Empfehlung für Bildungssysteme, Diagnostik/Screening) verwendet werden können. Positive Umsetzungsbeispiele dafür finden sich bereits vor allem im Gesundheitswesen (vgl. Nussbaumer-Streit et al. 2018).

1.3

Die Wirkung von vorschulischer Sprachförderung in Deutschland

1.3

Die Wirkung von vorschulischer Sprachförderung in Deutschland

Die praxisrelevante Frage, unter welchen Bedingungen Sprachförderbemühungen in Kindertageseinrichtungen für Kinder im Vorschulalter wirkungsvoll sind, wird im Folgenden beleuchtet. Dazu wurden (1) nur (quasi-)experimentelle Studien mit Kontrollgruppe, (2) die zwischen 2000 und 2016 durchgeführt wurden, betrachtet. Eine systematische Suche ab 2000 scheint vor den Hintergründen der Reform der Ausbildung für Erzieher und Erzieherinnen und der Angleichung pädagogischer Ansätze in Ost- und Westdeutschland (Janssen 2010), des Pisa-Schocks und der 11

12

Franziska Egert et al.

bildungsökonomischen Analysen des Nobelpreisträgers James Heckman sinnvoll, die maßgeblich zur Steigerung der Wertschätzung von früher Bildung und den daraus resultierenden gesteigerten Förderbemühungen im frühkindlichen Bereich beitrugen. Eingeschlossen wurden (3) selektive vorschulische Sprachfördermaßnahmen, die sich in Anlehnung an die gesetzlichen Grundlagen der Bundesländer explizit an sprachförderbedürftige und/oder mehrsprachige Kinder richteten und in Kindertageseinrichtungen in Deutschland durchgeführt wurden; (4) aufgenommen wurden nur Studien mit mindestens zehn Kindern pro Untersuchungsbedingung, die (5) eine Kindertageseinrichtung besuchten. Die Vergleichsgruppe erhielt entweder keine explizierte Förderung (business as usual) oder eine alternative (unsystematische) Sprachförderung. (6) Es wurden nur Untersuchungen mit vergleichbaren Interventions- und Vergleichsgruppen bestehend aus sprachförderbedürftigen Kindern mit ähnlichen Merkmalen (z. B. Alter, Geschlecht, Migrationshintergrund etc.) und Sprachmaßen einbezogen. Ausgeschlossen wurden Studien, die per Definition unterschiedliche Probandengruppen (z. B. Kinder mit Sprachförderbedarf in der Interventionsgruppe und ohne Sprachförderbedarf in der Kontrollgruppe) miteinander verglichen oder bei denen unterschiedliche Gruppenzusammensetzungen vorherrschten (z. B. Anteil mehrsprachiger Kinder). (7) In Abgrenzung zu bisherigen Übersichtsarbeiten zur Förderung von Basisqualifikationen für den Schriftspracherwerb, wie z. B. der phonologischen Bewusstheit (hierzu siehe Fischer und Pfost 2015; Wolf et al. 2016; Pfost und Borgstede in diesem Band), liegt der Fokus dieses systematischen Reviews auf Ansätzen zur Förderung von nicht-literalen sprachlichen Leistungen. Diese lassen sich unter pragmatischen, semantischen und morpho-syntaktischen Aspekten von erfolgreichem, sprachlich-kommunikativem Handeln subsumieren (Redder et al. 2011). Entsprechende Verfahren mussten den Sprachstand der Kinder vor und nach der Intervention erfassen. (8) Da der Fokus auf präventiven Sprachfördermaßnahmen lag, wurden Studien zur Wirkung von Sprachtherapie in Kindertageseinrichtungen und mit Kindern mit diagnostizierter Sprachentwicklungsstörung ausgeschlossen. Die systematische Literatursuche erfolgte in den elektronischen Datenbanken FIS Bildung, PsynDEX und WISO. Sie ergab für die Begriffe „Effekt“ oder „Effekt*“ in Verbindung mit „Sprachförderung“, „Kindertageseinrichtung“, „Kindergarten“ sowie „Krippe“ und „Deutschland“ nach der Eliminierung von Duplikaten 199 Treffer. Ergänzend wurden mehr als 5000 Artikel aus psychologischen, erziehungs- und sprachwissenschaftlichen Zeitschriften manuell durchsucht2 sowie eine freie Suche in den Literaturverzeichnissen relevanter Arbeiten durchgeführt. Zunächst wurden die Titel und Abstracts anhand der genannten Selektionskriterien 2 Eine Auflistung der Zeitschriften befindet sich in Egert und Hopf (2016).

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

13

gescreent und im Anschluss die Volltexte relevanter Studien inhaltlich analysiert. Der Suchprozess und die Kodierung erfolgte durch Doppelkodierungen von zwei unabhängigen Gutachtern3. Nicht-Übereinstimmungen wurden durch gemeinsames Lesen diskutiert und finale Codes festgelegt. Eine Vielzahl an Studien musste ausgeschlossen werden, da sie nicht explizit mit Stichproben sprachförderbedürftiger oder mehrsprachiger Kinder arbeiteten (u. a. Beller und Beller 2009), keine Information zur Äquivalenz der Gruppen vorlag (Gagarina et al. 2014), oder die Probandengruppen (z. B. Anteil mehrsprachiger Kinder, Alter, Schulkinder) in der Interventions- und Kontrollgruppe nicht vergleichbar waren (u. a. Gasteiger-Klicpera et al. 2010; Wolf et al. 2011). Es verblieben 13 (quasi-)experimentelle Studien, die in Tab. 2 nach Umsetzungsbedingungen systematischdargestellt werden. Tab. 2

Überblick zu Interventionsstudien vorschulischer Sprachförderung

Studie/Autor

IG (n)

KG (n)

Kontrollierte Umsetzung Ennemoser et al. 2013 23 22 Hartung 2015 59 57 Ennemoser et al. 2015 245 129 Sachse 2001 27 16 Schröder 2011 48 58 Realbedingungen mit guter Umsetzung Buschmann et al. 2010 19 14 Simon und Sachse 2013 77 69 Schuler et al. 2015 70 65 Berufsbildungswerk Leipzig 2011 63 53 Heterogene/ unspezifische Umsetzung Sachse et al. 2012 79 46 Groth et al. 2017 36 36 Schöler und Roos 2010 230 95 Euler und Neumann 2011

33

31

Fördermaßnahme(n)

ZG

Alter

Dialogisches Lesen Dialogisches Lesen Dialogisches Lesen Handlung & Sprache Deutsch Plus

M S S S M

5-6 5-6 4-6 3-6 5-6

HIT HIT HIT Sprache fördern

S S M S

2-3 3-5 2-4 2-4

Deutsch für den Schulstart KIKUS (1) Penner (2) Tracy (3) Kaltenbacher & Klages Leuchtturmprojekt

M M S

5-6 3-5 5-6

S

3-4

Anmerkung: IG = Interventionsgruppe; KG = Kontrollgruppe; ZG = Zielgruppe; M = mehrsprachige Kinder, S = Kinder mit Sprachförderbedarf; k. A. = Keine Angaben im Text. 3 Wir bedanken uns bei Prof. Dr. Michaela Hopf, Nicole Gölz, Fiona Flynn und Verena Dederer für die Unterstützung beim Kodierprozess. 13

14

Franziska Egert et al.

Die Ergebnisse der Metaanalyse von Egert (2017) sprechen dafür, dass die Wirkung von Sprachförderung für mehrsprachige Kinder von der Umsetzungsqualität abhängt. Im Folgenden soll herausgearbeitet werden, welche Effekte Sprachförderung unter unterschiedlichen Umsetzungsbedingungen erzielt.

1.3.1 Sprachförderwirkung unter kontrollierten Umsetzungsbedingungen Um das Potenzial eines Sprachförderansatzes auszuloten, ist es durchaus legitim, ihn zunächst unter kontrollierten Umsetzungsbedingungen zu evaluieren. Wenn die Umsetzung der Förderung (u. a. durch Forschende oder externe Fachkräfte) in Kindertageseinrichtungen erfolgt, ist zwar davon auszugehen, dass die Qualität der Umsetzung sichergestellt wird, jedoch stimmt die Fördersituation nur teilweise mit der Lebenswelt der Probanden überein. Die Wirkung des Dialogischen Lesens in Kindertageseinrichtungen wurde in drei verschiedenen Studien evaluiert. In der Untersuchung von Ennemoser et al. (2013) erhielten im „Vorkurs Deutsch“ mehrsprachige Kinder acht 30-minütige Einheiten zum Dialogischen Lesen in der Kleingruppe von sechs gut geschulten Lehramtsstudierenden. Die Kinder in der Interventionsgruppe verbesserten signifikant ihre sprachproduktiven Leistungen im Vergleich zu Kindern in regulären Vorkursen. In der zweiten Studie zum Dialogischen Lesen von Hartung (2015) wurde ein standardisiertes Fördermaterial (Janosch-Geschichten, Bildkarten mit vorformulierten Fragen) erstellt und von studentischen Hilfskräften verwendet. Die sprachauffälligen Kinder der dialogischen Lesegruppe zeigten im Vergleich zur konventionell geförderten Kontrollgruppe stärkere Verbesserungen in den Bereichen allgemeine Sprachkompetenz, Sprachverständnis, Grammatik, Morphologie, Artikelbildung und Syntax. In den meisten Sprachebenen konnte ein bedeutsamer Einfluss der Durchführungsqualität, gemessen durch mehrere Videos, auf die Wirksamkeit nachgewiesen werden. In der Nachfolgestudie von Ennemoser et al. (2015) wurden 40 Einheiten Dialogisches Lesen (30 Minuten) von studentischen Hilfskräften und gut geschulten pädagogischen Fachkräften angeboten. Durch ein Screening wurden die sprachförderbedürftigen Kinder ausgewählt. Es fanden sich signifikante Fördereffekte in den Bereich Wortschatz, Sprachverständnis, Morphologie und Sprachproduktion. Innerhalb der dialogischen Lesegruppe wurden zwei Unterstützungsformate (Videocoaching vs. Supervision) mit ähnlichem Umfang überprüft, welche zu vergleichbaren Ergebnissen führten.

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

15

In der Pilotstudie zum Programm „Handlung und Sprache“ von Sachse (2001) wurden sprachförderbedürftige Kinder über einen mehrstufigen Auswahlprozess (u. a. subjektive Einschätzung, Fragebogen, Sprachstandsverfahren) identifiziert. Das Förderprogramm wurde von zwei externen Sprachförderkräften durchgeführt und einheitlich umgesetzt. Eine positive Wirkung auf mehreren sprachstrukturellen Ebenen und auf sprachlich-kommunikative Fähigkeiten wurde nachgewiesen. In der Pilotstudie zum Programm „Deutsch Plus“ (Schröder 2011) wurde eine Kleingruppenförderung zweimal wöchentlich für 30 Minuten von einer DaZ-Lehrkraft durchgeführt. Es fanden sich sowohl kurzfristige Fördereffekte zu Ende des Kindergartenjahres als auch Follow-up-Effekte nach dem Training auf die sprachproduktiven Leistungen. Bei den aufgezeigten Pilotstudien mit kontrollierten Bedingungen wurde die Förderung überwiegend von einer einzelnen Person oder einem kleinen Pool an qualifizierten, externen Sprachförderkräften durchgeführt. Dies trägt zur Sicherstellung von ähnlichen Förderbedingungen bei. Allerdings kann somit nicht abschließend geklärt werden, ob das Programm auch unter den Alltagsbedingungen in der Praxis effektiv ist oder lediglich die besondere Sprachförderkompetenz einzelner Fachkräfte nachgewiesen wurde.

1.3.2 Wirkung der Sprachförderung unter Realbedingungen mit guter Umsetzungsqualität Das Heidelberger Interaktionstraining [HIT] wurde in drei Studien mit unterschiedlichen Zielgruppen evaluiert. Das Training ist als eine intensive Schulung für pädagogische Fachkräfte zur Anwendung von interaktions- und sprachförderlichen Strategien im Kita-Alltag mit sprachförderbedürftigen Kindern konzipiert. Die Fachkräfte lernen zunächst interaktions- und sprachförderliche Strategien in dialogischen Bilderbuchbetrachtungen durchzuführen, um die Anwendung dann auf weitere Alltagssituationen zu transferieren. In der Evaluation mit sprachförderbedürftigen Krippenkindern fanden sich Effekte des HIT auf die Sprachproduktion von Wörtern und Sätzen (Buschmann et al. 2010). Bei der Durchführung des HIT mit sprachförderbedürftigen Kindergartenkindern gab es Kurzzeiteffekte im Hinblick auf produktive Sprachleistungen im Bereich Wortschatz/Semantik sowie einen verzögerten Effekt auf die verbalen Kommunikationsanteile und sprachlichen Äußerungslängen (Simon und Sachse 2013). In der MAUS-Studie (Schuler et al. 2015) fanden sich ebenfalls Fördereffekte des HIT bei mehrsprachigen Kindern im Alter von zwei bis vier Jahren bezüglich sprachproduktiver Leistungen (u. a. Wortschatz, Bildbeschreibung, Äußerungslänge und Redeanteil). In allen Studien 15

16

Franziska Egert et al.

wurde die Anwendung der interaktions- und sprachfördernden Strategien überprüft und eine häufige Verwendung sichergestellt (Buschmann et al. 2010; Simon und Sachse 2013; Schuler et al. 2015). Bei der Studie des Berufsbildungswerks Leipzig (2011), in der die Fachkräfte ebenfalls eine intensive Schulung zur Verbesserung der sprachlichen Umwelt erhielten und Sprachförderung durch Bilderbuchsituationen angeboten wurde, zeigte sich bei den Zweijährigen ein Effekt der alltagsintegriert umgesetzten Sprachförderung auf die Sprachproduktion und das Satzverständnis. Bei den Drei- und Vierjährigen blieb die Wirkung jedoch aus. Es lässt sich feststellen, dass wirkungsvolle Sprachförderung auch unter Realbedingungen gelingen kann, wenn die durchführenden pädagogischen Fachkräfte eine ausreichende Qualifizierung und weiterführende Unterstützung erhalten.

1.3.3 Sprachförderwirkung unter Realbedingungen mit heterogener oder unspezifischer Umsetzung Der Vorkurs „Deutsch für den Schulstart“ wurde im Vergleich zu den unspezifischen Förderangeboten für mehrsprachige Kinder in Hessen untersucht (Sachse et al. 2012). Es fand sich keine statistische Überlegenheit des Programms „Deutsch für den Schulstart“ im Vergleich zum unspezifischen Vorkurs. Allerdings wurde das Programm von den Lehrkräften trotz Manual und Schulung sehr heterogen in Bezug auf die Gruppengröße (vier bis zwölf Kinder), Regelmäßigkeit (drei- bis fünfmal pro Woche für 45 bis 120 min) und Förderdosis (66 bis 128 Einheiten) umgesetzt. Die Kleingruppenförderung von mehrsprachigen Kindern nach der KIKUS-Methode (Kinder in Kulturen und Sprachen) wurde von zertifizierten KIKUS-Kursleiterinnen durchgeführt (Groth et al. 2017). Die Kinder erhielten durchschnittlich 27,2 Stunden Förderung, allerdings fehlten oftmals die Kurselemente, die zum freien Sprechen anregen. Es konnten keine Sprachfördereffekte nachgewiesen werden. Jedoch fanden sich innerhalb der KIKUS-Gruppe höhere Zuwächse der rezeptiven Wortschatzleistungen bei höherer Förderdosis. Im Rahmen des „Sag‘ mal was“-Programms wurden drei spezifische Sprachfördertrainings, nach (1) Penner, (2) Tracy und (3) Kaltenbacher und Klages evaluiert (Schöler und Roos 2007; Hofmann et al. 2008). Die sprachförderbedürftigen Kinder wurden auf der Basis unterschiedlicher Verfahren (u. a. standardisierte Screenings, Einschätzung der Fachkraft) identifiziert und erhielten spezifische Förderung in Gruppen. In allen Testwerten waren die Leistungszuwächse der Kinder mit spezifischem Programm und denen mit unspezifischer Förderung vergleichbar hoch. Für das Ausbleiben der Fördereffekte wurden von Hofmann et al. (2008) zu große

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

17

Kleingruppen, unzureichende Qualifizierung, fehlende Altersdifferenzierung und zu später Förderbeginn thematisiert. Im Leuchtturmprojekt der Stadt Kassel (Euler und Neumann 2011) wurden sprachförderbedürftige Kinder nach subjektivem Urteil der Fachkräfte ausgewählt und auf „naturalistische Weise“ in der Kleingruppe von pädagogischen Fachkräften und Sprachförderkräften ohne inhaltliche Vorgaben gefördert. Nach der Kleingruppenförderung ließ sich eine positive Wirkung statistisch auf den aktiven Wortschatz abbilden. Dieser lässt sich zumindest teilweise auf die deutlich niedrigeren Ausgangswerte der Interventionsgruppe zurückführen. Bei anderen Sprachmaßen blieb der Effekt aus. Euler und Neumann (2011) sehen vor allem noch einen Optimierungsbedarf in Bezug auf eine systematische Einstufung der Förderbedürftigkeit. Die Studien machen deutlich, dass bei heterogener Umsetzung, geringer Förderdosis oder fehlender Qualität Fördereffekte eher ausbleiben. Da bislang keine spracherwerbstheoretische Prüfung vorgenommen wurde, kann allerdings nicht final geklärt werden, ob ein Förderansatz generell wirkungslos ist oder eine Machbarkeitsproblematik (feasibility) vorliegt, bei der unter den vorherrschenden Bedingungen in Kindertageseinrichtungen die jeweilige Maßnahme generell nicht umsetzbar ist.

1.4 Diskussion 1.4 Diskussion

1.4.1 Stand zur evidenzbasierten Sprachförderung In den letzten Jahren wurden immer mehr Anstrengungen unternommen, die Wirksamkeit von Sprachfördermaßnahmen in den Blick zu nehmen. Die Ergebnisse entsprechender Studien, deren Durchführung vor ca. zehn bis 15 Jahren begann, waren eher entmutigend und führten vielfach zu neuen Empfehlungen, allerdings auch zu kontroversen Diskussionen. Zum aktuellen Stand gibt es nach wie vor zu wenige Studien, aus denen sich klare Aussagen darüber ableiten lassen, welche Maßnahmen bei welchen Kindern zu welchem Erfolg führen. Der aktuelle Review ergänzt bestehende Literaturüberblicke (vgl. Redder et al. 2011; Schneider et al. 2013; Schneider 2018) um neuere Befunde und weitere Sprachförderkonzepte. Bis auf die Ansätze zum Dialogischen Lesen, dem Heidelberger Interaktionstraining und Deutsch für den Schulstart, besteht dieser jedoch überwiegend aus Einzelbefunden kleinerer Pilotstudien. Diese Wirkungsprüfung einzelner Maßnahmen hat keinen Anspruch auf Repräsentativität für die Sprachförderpraxis in Deutschland. Es lassen sich neben den allgemeinen methodischen Herausforderungen der Wir17

18

Franziska Egert et al.

kungsevaluation und den allgegenwärtigen Wechselbedingungen im Bildungswesen (Pant 2014) lediglich verschiedene Erklärungsansätze für das Ausbleiben der Fördereffekte thematisieren.

Kontrolle der Umsetzungsbedingungen Unter kontrollierten Bedingungen sind in den bisher durchgeführten Studien Effekte von sprachlichen Förderbemühungen eher nachweisbar. Prinzipiell sollte im Sinne der Evidenzbasierung der erste Schritt des Wirksamkeitsnachweises einer speziellen Sprachfördermethode auch unter streng kontrollierten Bedingungen erfolgen, um den Einfluss diverser Störvariablen zunächst klein zu halten und im Ergebnis der Studien den „reinen“ Effekt der Fördermaßnahme zu bestimmen. Evaluationen zum Übertrag in die Alltagspraxis von Kindertageseinrichtungen müssten diesen folgen. Je „natürlicher“ die Bedingungen der Sprachfördermaßnahmen gestaltet sind, desto weniger Effekte sind nachweisbar. In Bezug auf die Umsetzungsqualität rücken Fragen nach der Notwendigkeit intensiver Fortbildung, Begleitung und Coaching der beteiligten Fachkräfte in den Vordergrund, um Methoden und zentrale Strategien auch wirklich in der Kindertageseinrichtung umzusetzen. Von der Praxis werden dabei häufig aktuelle Herausforderungen im Bereich der frühen Bildung (z. B. Personalfluktuation und -mangel, Belastung) als erschwerende Bedingungen aufgeführt. Langfristig wäre es wünschenswert, Konzepte und Modelle der Förderung und Unterstützung zu entwickeln, die die Qualität der Sprachfördermaßnahmen gewährleisten und die für die Umsetzung benötigten Ressourcen den Kindertageseinrichtungen zur Verfügung zu stellen (Hofmann et al. 2008). Die Frage nach der erforderlichen „Dosis“ der sprachlichen Förderungen stellt sich im Rahmen der Studien immer wieder. Viele Studien haben in der Vergangenheit mit Förderangeboten gearbeitet, die am Ende nur wenige Stunden zusätzliche Sprachförderzeit pro Jahr für die Kinder beinhalteten (z. B. 1 % der Kitapräsenszeit; Groth et al. 2017). Andere Studien weisen auf eine hohe Kinderzahl bei Kleingruppenangeboten hin, wodurch die individuelle Lernzeit innerhalb der Förderung minimiert wird (Hofmann et al. 2008; Sachse et al. 2012). Unter solchen Bedingungen sind kaum Effekte der Methode auf die sprachlichen Leistungen von Kindern zu erwarten. Dies ist vor allem dann zu befürchten, wenn sprachliche Angebote unregelmäßig stattfinden und/oder diese einmal pro Woche an eine Gruppe von bis zu zehn Kindern gerichtet sind.

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

19

Gegenüberstellung additiver Sprachförderung oder alltagsintegrierter sprachlicher Bildung und Förderung wenig sinnvoll Motiviert durch die ausbleibenden Effekte additiver Sprachfördermaßnahmen (z. B. Hofmann et al. 2008, Sachse et al. 2012) und die Erkenntnisse aus Studien, die das sprachliche Interaktionsverhalten im Alltag von Kindertageseinrichtungen in den Fokus stellten (z. B. Sachse und Simon 2013), kam es in den letzten Jahren vermehrt zu einer Verschiebung der Empfehlungen in Richtung sog. alltagsintegrierter sprachlicher Bildung und Förderung. Kindertageseinrichtungen sind dabei aufgefordert, sprachförderliche Herangehensweisen und Strategien für alle Kinder anzuwenden und den Alltag entsprechend interaktionsfördernd zu gestalten. Viele Überlegungen zu diesen Empfehlungen sind nachvollziehbar, gleichwohl führen sie auch schnell dazu, sich nicht sehr spezifisch mit sprachlicher Bildung und Förderung auseinanderzusetzen, weil davon ausgegangen wird, diese bereits zu realisieren. Empirische Befunde zur Qualität der sprachlichen Unterstützung im Kita-Alltag widerlegen diese subjektiven Eindrücke und weisen auf eine geringe Lernunterstützung, insbesondere von sprachförderbedürftigen Kindern, hin (Albers et al. 2013; Kammermeyer et al. 2013; von Suchodoletz et al. 2014). Die Ergebnisse von Ennemoser et al. (2013, 2015) deuten an, dass die Grenzziehung zwischen additiver und alltagsintegrierter Förderung längst nicht so eindeutig und scharf ist, wie in den bildungspolitischen Debatten oftmals suggeriert wird. Die in den Studien umgesetzte Methode des Dialogischen Lesens und die darin verankerten sprachförderlichen Interaktionen zwischen Fachkraft und Kind gelten meist als ein prototypisches Beispiel für alltagsintegrierte sprachliche Bildung und Förderung. In den Studien allerdings wurden sie im Rahmen eines additiven Angebots in Kleingruppen realisiert und führten unter diesen Bedingungen zu messbaren sprachlichen Verbesserungen der beteiligten Kinder. Es scheint, dass sprachliche Förderung umso besser ihre Wirkung entfalten kann, je mehr sie in den Alltag der Kinder integriert ist. Die Verbindung von Elementen der additiven Förderung mit sprachförderlichen Interaktionen und Situationsgestaltungen im Alltag der Kindertageseinrichtung stellt sich als ein sehr naheliegender und sinnvoller Zugang dar. Ansätze, die dies realisieren, existieren derzeit wenig, bzw. ist über deren Wirksamkeit noch nichts bekannt. Die Umsetzung und das Aufgreifen der Förderinhalte von additiven Maßnahmen im Alltagsgeschehen der Kita wird von manchen Programmen gefordert, aber meist wenig realisiert (z. B. Groth et al. 2017).

19

20

Franziska Egert et al.

Fokus auf Kinder mit Sprachförderbedarf Häufig bleibt in den Studien unklar, welche Kinder mit welchen sprachlichen Ausgangsleistungen an der Förderung teilnahmen und wie verlässlich der Sprachförderbedarf identifiziert wurde. Gerade über die sprachlichen Ausgangsleistungen benötigt es fundiertes Wissen, wenn es um die Bereitstellung individueller Unterstützungsangebote oder auch alltagsintegrierte Sprachförderung geht. Erschwerend kommt hier zum Tragen, dass pädagogische Fachkräfte im Prinzip im Alltag durchaus sprachförderlich agieren, dies aber häufig nur bei sprachlich relativ starken bzw. aktiven Kindern realisieren (Egert et al. 2018), während bei sprachauffälligen Kindern sprachförderliches Verhalten in der direkten Fachkraft-Kind-Interaktion deutlich seltener stattfindet (z. B. Albers et al. 2013). In der Folge wäre es notwendig, Unterstützungsangebote für den Transfer von Sprachstandserhebungen in die pädagogische Praxis anzubieten. Insgesamt sollten Wirksamkeitsstudien bzw. darauf aufbauende Reviews und Metaanalysen deutlicher herausarbeiten, für welche Kinder welche Zugänge, Methoden und Strategien wirksam sind. Sprachfördermaßnahmen verfolgen meist übergreifend das Ziel, mehrsprachige Kinder mit nicht-deutscher Herkunftssprache sowie Kinder aus sprachlich-anregungsarmen Umwelten zu unterstützen, um ihnen so den Start in die Schule zu erleichtern und ihre Chancen auf Bildungspartizipation zu erhöhen. Um dieses Ziel zu überprüfen, sind Studien zur kurzfristigen Wirksamkeit nicht ausreichend, sondern Untersuchungen über einen deutlich längeren Zeitraum notwendig. In den meisten bisherigen Studien wird direkt nach Ende der Intervention bzw. einige Wochen oder Monate danach evaluiert, sodass über schulische Bildungschancen der Kinder gar keine Aussagen getroffen werden können. Dafür wären Längsschnittstudien über unterschiedliche Bildungsorte und mehrere Jahre hinweg notwendig.

1.4.2 Herausforderungen und Potenziale von systematischen Reviews und Metaanalysen Wie jede Forschungsmethodik werden auch systematische Reviews und Metaanalysen kritisiert. Eine der größten Herausforderungen ist dabei sicherlich, an den gesamten Forschungsstand zu einer Thematik, inklusive der nicht regulär veröffentlichten Ergebnisse, zu gelangen (siehe dazu Zimmer et al. in diesem Band). Die Quantität der systematischen Suche ist abhängig von der Qualität und Reichweite der themenspezifischen Literaturdatenbanken. Neben Datenbanken zur Forschungsförderung oder zu Qualifizierungsarbeiten können Tagungsbände hilfreich sein, relevante Untersuchungen mit unveröffentlichten Ergebnissen zu identifizieren.

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

21

Systematische Reviews und Metaanalysen sind immer abhängig von der Qualität der Primärstudien. Wie aus dem oben beschriebenen systematischen Review zur vorschulischen Sprachförderwirkung ersichtlich, können grundlegende Voraussetzungen für Interventionsstudien, wie z. B. die Vergleichbarkeit der Gruppen, eine randomisierte Stichprobenziehung oder eine Placebo-Bedingung, große Herausforderungen in der Praxis sein. Weitere Kritikpunkte bei systematischen Reviews und Metaanalysen richten sich vor allem auf die Integration von heterogenen Primärstudien und auf die Integration von verzerrten Forschungsergebnissen. Oftmals werden Studien zur Beantwortung einer Fragestellung herangezogen, die eine hohe Diversität hinsichtlich ihrer methodischen Qualität, ihres Studiendesigns oder ihrer Zielgruppe aufzeigen. Im Bereich der Bildungsforschung befinden wir uns zumeist nicht in einer Laborsituation, sondern direkt im Feld, weshalb Fördermaßnahmen während der Studiendurchführung zahlreichen sehr unterschiedlichen und z. T. schwer kontrollierbaren Einflüssen ausgesetzt sind. Dies kann eine aussagekräftige Analyse erschweren. Die Qualität und Aussagekraft von systematischen Reviews und Metaanalysen hängt unmittelbar von den integrierten Studien ab. Somit finden sich alle Probleme der Wissenschaft kumuliert in diesen Arbeiten. Es ist mittlerweile weithin bekannt, dass insbesondere Metaanalysen durch eine selektive Publikationspraxis stark verzerrt sein können (Publikationsbias). So werden positive und signifikante Ergebnisse häufiger publiziert als Studien mit negativen und nicht signifikanten Resultaten (Easterbrook et al. 1991). Ohne entsprechende Korrekturverfahren sind Metaanalysen kaum interpretierbar, da das Ausmaß der Verzerrung nicht abgeschätzt werden kann. Aus diesem Grunde wurde in den vergangenen Jahren damit begonnen, statistische Ansätze zu entwickeln, die eine Überprüfung des Vorliegens und eine Erfassung des Ausmaßes des Publikationsbias ermöglichen sollen. Jede dieser Korrekturmethoden weist unterschiedliche Vor- und Nachteile auf (siehe Carter et al. 2017; sowie McShaneet al. 2016). Der Publikationsbias steht in enger Verbindung zu den, seit der Replikationskrise (Open Science Collaboration 2015) vielfach diskutierten, „Questionable Research Practices“. Es beschreibt das wissenschaftliche Fehlverhalten, das darauf ausgerichtet ist, aus Primärstudien signifikante Resultate zu erzielen, damit diese schneller und karrieredienlicher publiziert werden können (p-hacking). Durch Methoden wie das Testen zahlreicher abhängiger Variablen, selektives Berichten einzelner abhängiger Variablen, die signifikante Unterschiede anzeigen, Reduktion von Subtests einer Testbatterie, Ausreißerentfernung und vieles mehr (Schönbrodt 2016) wurden ganze Forschungsstränge verfälscht. Wie bereits beschrieben, können Interventionsstudien ohne randomisierte Gruppenzuordnung oder die Anwendung 21

22

Franziska Egert et al.

nicht standardisierter Outcome-Maße Effekte überschätzen. Aber auch Studien mit geringer Probandenanzahl (geringer Teststärke) tragen wesentlich zur Verzerrung von Effektgrößen bei. Eine geringe Teststärke reduziert die Wahrscheinlichkeit, dass ein wahrer Effekt beobachtet wird (Button et al. 2013). In Metaanalysen kann es zur Kumulation solcher Fehler kommen. Eine Antwort auf die Replikationskrise und andere fragwürdige Forschungspraktiken bietet die Open Science Initiative (für weitere Informationen siehe https:// cos.io/). Durch das frei zugänglich machen von Primär- und Sekundärdaten (Open Data) und der Auswertungsmethoden sowie eine transparente Vorabregistrierung geplanter Studien, bei der die Hypothesen und Auswertungsmethodik bereits vor der Datenerhebung festlegt werden, soll die Replizierbarkeit und allgemeine Qualität von Forschung verbessert werden. Die Kritikpunkte wiegen schwer, aber dennoch kann es möglich sein, aussagekräftige Metaanalysen durchzuführen (siehe Pfost und Borgstede in diesem Band). Klare Ein- und Ausschlusskriterien, eine möglichst „feine“ Kodierung von Studien- und Probandencharakteristika, eine Fokussierung auf Faktoren, die Effekte beeinflussen, die ausschließliche Berücksichtigung von Studien mit einer gewissen Mindestqualität, ein starker Fokus auf die methodischen Details, die Überprüfung des Publikationsbias sowie ein kritischer Umgang mit den eigenen Resultaten sind dafür essentiell. Metaanalysen bringen durch ihre statistische Methodik viele Vorteile mit sich: sie können genaue und objektive Schätzungen zur Wirksamkeit einer Maßnahme oder zur Stärke eines Zusammenhangs abgeben. Zudem können Faktoren, Studienmerkmale oder Probandencharakteristika identifiziert werden, die die Stärke eines Effekts beeinflussen. Metaanalysen können richtungsweisend sein. Sie ermöglichen durch die Zusammenfassung mehrerer Studien eine Verortung des derzeitigen Forschungsstandes sowie die Identifikation von Forschungslücken, methodischen Schwächen und neuen Anknüpfungspunkten zukünftiger Forschung. Systematische Reviews und Metaanalysen kombinieren alle relevanten Studien zu einer Thematik. Dies erleichtert immens die Nutzung von wissenschaftlichen Ergebnissen und ermöglicht fundierte evidenzbasierte Entscheidungen in Bildungspolitik und Praxis. Grundbedingung sind jedoch Studien mit hoher methodischer Qualität, deren Durchführung verstärkt in der Evaluationsforschung von Sprachfördermaßnahmen Einzug finden muss, damit wir in Zukunft gewährleisten können, förderbedürftige Kinder mit wirksamen Maßnahmen zu versorgen.

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

23

Literatur Literatur

Albers, T., Bendler, S., Lindmeier, B., & Schröder, C. (2013). Sprachliche Entwicklungsverläufe in Krippe und Tagespflege. Frühförderung Interdisziplinär, 4, 222−231. Autorengruppe Bildungsberichterstattung (2018). Bildung in Deutschland 2018. Ein indikatorengestützter Bericht mit einer Analyse zu Wirkung und Erträgen von Bildung. Bielefeld: Bertelsmann. Balk, E. M., Bonis, P. A., Moskowitz, H., Schmid, C. H., Ioannidis, J. P., Wang, C., & Lau, J. (2002). Correlation of quality measures with estimates of treatment effect in meta-analyses of randomized controlled trials. JAMA, 287(22), 2973−2982. Beelmann, A. (2014). Möglichkeiten und Grenzen systematischer Evidenzkumulation durch Forschungssynthesen in der Bildungsforschung. In K. Maaz, M. Neumann & J. Baumert (Hrsg.), Herkunft und Bildungserfolg von der frühen Kindheit bis ins Erwachsenenalter (Zeitschrift für Erziehungswissenschaften: Sonderheft 17, S. 55−78). Wiesbaden: Springer VS. Bellmann, J., & Müller, T. (2011). Evidenzbasierte Pädagogik – ein Déjà-vu? Wissen, was wirkt (S. 9−32). Wiesbaden: Springer VS. Beller, S., & Beller, E. K. (2009). Abschlussbericht des Projekts. Systematische sprachliche Anregung im Kindergartenalltag zur Erhöhung der Bildungschancen 4- und 5-jähriger Kinder aus sozial schwachen und Migrantenfamilien – ein Modell der pädagogischen Intervention. Berlin: Freie Universität Berlin. Berufsbildungswerk Leipzig (2011). Abschlussbericht. Landesmodellprojekt. „Sprache fördern“. Erprobung und Multiplikation von Methoden der Sprachförderung in Kindertagesstätten. https://www.bbw-leipzig.de/fileadmin/user_upload/1_Gruppe/Downloads/Abschlussbericht_Sprache_foerdern.pdf. Zugegriffen: 4. Nov. 2018. Bromme, R., Prenzel, M., & Jäger, M. (2014). Empirische Bildungsforschung und evidenzbasierte Bildungspolitik. Zeitschrift für Erziehungswissenschaft, 17(4), 3−54. Buschmann, A., Simon, S., Jooss, B., & Sachse, S. (2010). Ein sprachbasiertes Interaktionstraining für Erzieherinnen („Heidelberger Trainingsprogramm“) zur alltagsintegrierten Sprachförderung in Krippe und Kindergarten – Konzept und Evaluation. In K. Fröhlich-Gildhoff, I. Nentwig-Gesemann & P. Strehmel (Hrsg.), Forschung in der Frühpädagogik III Schwerpunkt: Sprachentwicklung & Sprachförderung. Materialien zur Frühpädagogik (S. 107−133). Freiburg: Verlag FEL. Button, K. S., Ioannidis, J. P., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S., & Munafò, M. R. (2013). Power failure: why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14(5), 365−376. Carter, E., Schönbrodt, F., Gervais, W. M., & Hilgard, J. (2017). Correcting for bias in psychology: A comparison of meta-analytic methods (preprint). http://datacolada.org/wp-content/ uploads/2017/06/5710-Carter-Schonbrodt-Gervais-Hilgard-WP-2017-Correcting-for-bias-in-psychology-a-cmparison-of-meta-analytic-methods.pdf. Zugegriffen: 4. Nov. 2018. Campbell Collaboration (2014). Campbell systematic reviews: Policies and guidelines. Campbell Systematic reviews (Supplement 1), Oslo. https://campbellcollaboration.org/media/k2/ attachments/Campbell_Policies_and_Guidelines.pdf. Zugegriffen: 4. Nov. 2018 Dixon-Woods, M., Agarwal, S., Jones, D., Young, B., & Sutton, A. (2005). Synthesising qualitative and quantitative evidence: a review of possible methods. Journal of Health Services Research & Policy, 10(1), 45−53B.

23

24

Franziska Egert et al.

Easterbrook, P. J., Berlin, J. A., Gopalan, R., & Matthews, D. R. (1991). Publication bias in clinical research. Lancet, 337(8746), 867−872. Eckhardt, A., Tietze, W., Bensel, J., Haug-Schnabel, G., Keller, H., Leyendecker, B., Kalicki, B., & Becker-Stoll, F. (2013). Zusammenfassung: Anlage und Ergebnisse der Untersuchung, Empfehlungen für Politik und Praxis, wissenschaftlicher Ausblick. In W. Tietze, F, Becker-Stoll, J. Bensel, A. G., Eckhardt, G. Haug-Schnabel, B. Kalicki, H. Keller & B. Leyendecker (Hrsg.), Nationale Untersuchung zur Bildung, Betreuung und Erziehung in der frühen Kindheit NUBBEK (S. 139−157). Weimar: Verlag das Netz Egert, F., & Hopf, M. (2016). Zur Wirksamkeit von Sprachförderung in Kindertageseinrichtungen in Deutschland. Ein narratives Review. Kindheit und Entwicklung, 25, 153–163. Egert, F. (2016). Potenziale von Systematischen Reviews und Metaanalysen zur Verbesserung von Wirkungsforschung, bildungspolitischen Entscheidungen sowie der frühkindlichen Bildungspraxis. Frühe Bildung, 3(4), 215−218. doi:10.1026/2191–9186/a000286. Egert, F. (2017). Die Wirkung von Sprachförderung im Deutschen für mehrsprachige Kinder in Kindertageseinrichtungen. Zeitschrift für Grundschulforschung, 10(2), 23−34. Egert, F., Quehenberger, J., Dederer, V., & Wirts, C. (2018). Kindliche Initiative als Qualitätsindikator bei sprachlichen Bildungsaktivitäten: Ergebnisse einer empirischen Untersuchung. Diskurs Kindheits- und Jugendforschung, 13(4), 489−494. Ennemoser, M., Kuhl, J., & Pepouna, S. (2013). Evaluation des Dialogischen Lesens zur Sprachförderung bei Kindern mit Migrationshintergrund. Zeitschrift für Pädagogische Psychologie, 27(4), 229−239. Ennemoser, M., Lehnigk, M., Hohmann, E., & Pepouna, S. (2015). Wirksamkeit eines Coachings für pädagogische Fachkräfte zur Optimierung der Förderpotenziale des Dialogischen Lesens. In A. Redder, J. Naumann, & R. Tracy (Hrsg.), Forschungsinitiative Sprachdiagnostik und Sprachförderung – Ergebnisse (S. 137−153). Münster: Waxmann. Euler, H., & Neumann, K. (2011). Schlüssel zur Verständigung: Wirkung und Nutzen von Sprachförderung im Vorschulalter in Kassel. Ergebnisse einer Studie im Rahmen des Zukunftsprozesses der Stadt Kassel 2009–2011, Kassel. http://prof-harald-euler.de/litDB/ uploads/1361036980.pdf. Zugegriffen: 4. Nov. 2018. Fischer, M. Y., & Pfost, M. (2015). Wie effektiv sind Maßnahmen zur Förderung der phonologischen Bewusstheit? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 35–51. Fricke, S., Bowyer‐Crane, C., Haley, A. J., Hulme, C., & Snowling, M. J. (2013). Efficacy of language intervention in the early years. Journal of Child Psychology and Psychiatry, 54(3), 280−290. Fricke, S., Burgoyne, K., Bowyer‐Crane, C., Kyriacou, M., Zosimidou, A., Maxwell, L., & Hulme, C. (2017). The efficacy of early language intervention in mainstream school settings: a randomized controlled trial. Journal of Child Psychology and Psychiatry, 58(10), 1141−1151. Gagarina, N., Posse, D., Düsterhöft, S., Topaj, N., & Acikgöz, D. (2014). Sprachförderung bei Mehrsprachigkeit. Erste Ergebnisse der BIVEM-Studie zur Wirksamkeit von Sprachförderung bei jüngeren mehrsprachigen Kindern. Eine Studie der Berliner Interdisziplinären Verbundes für Mehrsprachigkeit (BIVEM). Spektrum Psycholinguistik, 7, 139−148. Gasteiger-Klicpera, B., Knapp, W., & Kucharz, D. (2010). Abschlussbericht der Wissenschaftlichen Begleitung des Programms „Sag mal was“ – Sprachförderung für Vorschulkinder. Weingarten: Pädagogische Hochschule Weingarten. https://www.sagmalwas-bw.de/

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

25

fileadmin/Mediendatenbank_DE/Sag_Mal_Was/Dokumente/Abschlussbericht_PH_ Weingarten.pdf. Zugegriffen: 4. Nov. 2018 Groth, K., Egert, F., & Sachse, S. (2017). Wirksamkeit eines additiven Sprachförderkonzepts für mehrsprachige Kinder. Frühe Bildung, 6(2), 74−82. Hartung, N. (2015). Evaluation des Dialogischen Lesens unter Berücksichtigung der Durchführungsqualität (Dissertation). Gießen: Justus-Liebig-Universität Gießen. Higgins, J., & Green, S. (2011). Cochrane handbook for systematic reviews of interventions. Version 5.1.0 [updated March 2011]. https://handbook-5-1.cochrane.org/. Zugegriffen: 4. Nov. 2018. Higgins, J., Altman, D., Gøtzsche, P., Jüni, P., Moher, D., Oxman, A., & Sterne, J. (2011). The Cochrane Collaboration’s tool for assessing risk of bias in randomised trials. BMJ: British Medical Journal, 343. Hofmann, N., Polotzek, S., Roos, J., & Schöler, H. (2008). Sprachförderung im Vorschulalter – Evaluation dreier Sprachförderkonzepte. Diskurs Kindheits- und Jugendforschung, 3(3), 291–300. Hovestadt, G., & Keßler, N. (2004). Weichenstellung nach PISA. Fortschreibung der Recherchen in den deutschen Bundesländern. Eine Studie im Auftrag des GEW Hauptvorstandes, Rheine: EDU-CON GmbH. http://www.gew.de/index.php?eID=dumpFile&t=f&f=23914&token=82c547f212840876480a77eae90f72b06b4efb1a&sdownload=. Zugegriffen: 4. Nov. 2018. Janssen, R. (2010). Die Ausbildung frühpädagogischer Fachkräfte an Berufsfachschulen und Fachschulen. Eine Analyse im Ländervergleich. Expertise für das Projekt Weiterbildungsinitiative Frühpädagogische Fachkräfte (WiFF). München: DJI. Jugendministerkonferenz & Kultusministerkonferenz (2004). Gemeinsamer Rahmen der Länder für die Frühe Bildung in Kindertageseinrichtungen. https://www.kmk.org/ fileadmin/Dateien/veroeffentlichungen_beschluesse/2004/2004_06_03-Fruehe-Bildung-Kindertageseinrichtungen.pdf. Zugegriffen: 4. Nov. 2018 Kammermeyer, G., & Roux, S. (2013). Sprachbildung und Sprachförderung. In M. Stamm & D. Edelmann (Hrsg.), Handbuch frühkindliche Bildungsforschung (S. 515−528). Wiesbaden: Springer VS. Kammermeyer, G., Roux, S., & Stuck, A. (2013). „Was wirkt wie?“ Evaluation von Sprachfördermaßnahmen in Rheinland-Pfalz. Abschlussbericht (März 2013). Landau: Universität. Lisker, A. (2013). Sprachstandfeststellung und Sprachförderung vor der Einschulung – Eine Bestandsaufnahme in den Ländern. Expertise im Auftrag des Deutschen Jugendinstituts. München: Deutsches Jugendinstitut. McShane, B. B., Böckenholt, U., & Hansen, K. T. (2016). Adjusting for publication bias in meta-analysis: An evaluation of selection methods and some cautionary notes. Perspectives on Psychological Science, 11(5), 730−749. Methods Group of the Campbell Collaboration. (2017). Methodological expectations of Campbell Collaboration intervention reviews: Conduct standards. Oslo, Norway: Methods Group of the Campbell Collaboration. Moher, D., Liberati, A., Tetzlaff, J., Altman, D. G., & the PRISMA Group (2009). Preferred Reporting Items for Systematic Reviews and Meta-Analyses: The PRISMA Statement. PLoS Med 6(7): e1000097. doi:10.1371/journal.pmed1000097 Nussbaumer-Streit, B., Grillich, L., Glechner, A., Affengruber, L., Gartlehner, G., Morche, J., & Meerpohl, J. J. (2018). GRADE: Von der Evidenz zur Entwicklung oder Entscheidung – ein systematischer und transparenter Ansatz, um gut informierte Entscheidungen 25

26

Franziska Egert et al.

im Gesundheitswesen zu treffen. 1. Einleitung. Zeitschrift für Evidenz, Fortbildung und Qualität im Gesundheitswesen, 134, 57−66. Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. Pant, H. A. (2014). Aufbereitung von Evidenz für bildungspolitische und pädagogische Entscheidungen: Metaanalysen in der Bildungsforschung. In K. Maaz, M. Neumann & J. Baumert (Hrsg.), Herkunft und Bildungserfolg von der frühen Kindheit bis ins Erwachsenenalter (Zeitschrift für Erziehungswissenschaft: Sonderheft 17, S. 79–99). Wiesbaden: Springer VS. Petermann, F. (2015). Alltagsintegrierte Förderung oder Förderprogramme im Vorschulalter? Frühe Bildung, 4, 161–164. Pfost, M., & Borgstede, M. (2019). Zum Nutzen der Meta-Analyse in der Evaluation von Sprachförderkonzepten am Beispiel der phonologischen Bewusstheit. In K. Blatter, K. Groth, & M. Hasselhorn (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten bei ein- und mehrsprachigen Kindern im Vorschulalter. Wiesbaden: Springer VS. Redder, A., Schwippert, K., Hasselhorn, M., Forschner, S., Fickermann, D., & Ehlich, K. (2011). Bilanz und Konzeptualisierung von strukturierter Forschung zu Sprachdiagnostik und Sprachförderung. Hamburg: Zentrum zur Unterstützung der wissenschaftlichen Begleitung und Erforschung schulischer Entwicklungsprozesse (ZUSE). http://www. dabil.de/zuse/501publikation/zuse_berichte_02.pdf. Zugegriffen: 4. Nov. 2018 Sachse, S. (2001). Evaluation und entwicklungspsychologische Fundierung eines Sprachförderprogramms für Vorschulkinder (Unveröffentlichte Diplomarbeit). Berlin: Humboldt-Universität zu Berlin. Sachse, S., Budde, N., Rinker, T., & Groth, K. (2012). Evaluation einer Sprachfördermaßnahme für Vorschulkinder. Frühe Bildung, 1(4), 194–201. Sackett, D. L., Rosenberg, W. M., Gray, J., Haynes, R. B., & Richardson, W. S. (1996). Evidence based medicine: what it is and what it isn’t. BMJ: British Medical Journal, 312(7023), 71. Schlosser, R. W., & O’Neil-Pirozzi, T. (2006). Problem formulation in evidence-based practice and systematic reviews. Contemporary Issues in Communication Sciences and Disorders, 33, 5–10. Schneider, H., Becker-Mortzek, M. Sturm, A., Jambor-Fahlen, S., Neugebauer, U., Efing, C., & Kernen, N. (2013). Wirksamkeit von Sprachförderung. Köln: Mercartor Institut. Schneider, W. (2018). Nützen Sprachförderprogramme im Kindergarten, und wenn ja, unter welchen Bedingungen? Zeitschrift für pädagogische Psychologie, 32(1-2), 53–74. Schönbrodt, F. (Producer). (2016, 29.07.2018). Workshop: How Open Science Can Solve (Parts of) the Replication Crisis. [Workshop]. https://osf.io/5zbgc/. Zugegriffen: 4. Nov. 2018 Schröder, M. B. (2011). Effekte professioneller Sprachförderung in Kindertagesstätten. Eine experimentell kontrollierte Intervention zur Förderung von Deutsch als Zweitsprache bei Kindern mit Migrationshintergrund (Unveröffentlichte Dissertation). Potsdam: Universität Potsdam. Schöler, H., & Roos, J. (2010). Ergebnisse einer Evaluation von Sprachfördermaßnahmen in Mannheimer und Heidelberger Kitas. In K. Fröhlich-Gildhoff, I. Nentwig-Gesemann & P. Strehmel (Hrsg.), Forschung in der Frühpädagogik III (S. 35–74). Freiburg: Zentrum für Kinder- und Jugendforschung. Schuler, S., Budde-Spengler, N., & Sachse, S. (2015). Ergebnisbericht – Analysen der Auswirkung des sprachlichen Interaktionstrainings im Projekt MAUS. Ulm: ZNL TransferZentrum für Neurowissenschaften und Lernen, Universität Ulm.

1 Evidenzbasierung vorschulischer sprachlicher Bildung und Förderung

27

Simon, S., & Sachse, S. (2013). Anregung der Sprachentwicklung durch ein Interaktionstraining für Erzieherinnen. Diskurs Kindheits- und Jugendforschung, 8(4), 379–397. Swanson, H. L. (1999). Reading research for students with LD: a meta-analysis of intervention outcomes. Journal of Learning Disabilities, 32(6), 504–532. Volkmer, S., Galuschka, K., & Schulte-Körne, G. (2019). Early identification and intervention for children with initial signs of reading deficits-A blinded randomized controlled trial. Learning and Instruction, 59, 1–12. von Suchodoletz, A, Fäsche, A., Gunzenhauser, C., & Hamre, B. K. (2014). A typical morning in preschool: Observations of teacher-child interactions in German preschools. Early Childhood Research Quarterly, 29(4), 509–519. What Works Clearinghouse (2017). Standards Handbook. Version 4.0. https://ies.ed.gov/ ncee/wwc/Docs/referenceresources/wwc_standards_handbook_v4.pdf. Zugegriffen: 4. Nov. 2018. Wolf, K. M., Felbrich, A., Stanat, P., & Wendt, W. (2011). Evaluation der kompensatorischen Sprachförderung in Brandenburger Kindertagesstätten. Empirische Pädagogik, 25(4), 423–438. Wolf, K. M., Schroeders, U., & Kriegbaum, K. (2016). Metaanalyse zur Wirksamkeit einer Förderung der phonologischen Bewusstheit in der deutschen Sprache. Zeitschrift für Pädagogische Psychologie, 30, 9–33. Wood, L., Egger, M., Gluud, L. L., Schulz, K. F., Jüni, P., Altman, D. G., & Sterne, J. A. (2008). Empirical evidence of bias in treatment effect estimates in controlled trials with different interventions and outcomes: Meta-epidemiological study. BMJ: British Medical Journal, 336(7644), 601. Zimmer, K., Schulte, J., Dubowy, M., Ehm, J.-H., Kuger, S., Lonnemann, J., Martini, R., Rauch, D., & Hasselhorn, M. (2019). Dokumentenrecherche und -aufbereitung als Qualitätskriterium von Systematic Reviews: Sprachförderung in Kindertageseinrichtungen als Beispiel. In K. Blatter, K. Groth, & M. Hasselhorn (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten bei ein- und mehrsprachigen Kindern im Vorschulalter. Wiesbaden: Springer VS.

27

Teil II Methodische Grundlagen

29

Zum Nutzen der Meta-Analyse in der Evaluation von Sprachförderkonzepten am Beispiel der phonologischen Bewusstheit

2

Maximilian Pfost und Matthias Borgstede 2 Zum Nutzen der Meta-Analyse in der Evaluation …

Maximilian Pfost und Matthias Borgstede

Zusammenfassung

Meta-Analysen beschreiben eine Gruppe von Verfahren, mit deren Hilfe die Ergebnisse mehrerer Studien quantitativ zusammengefasst und im Hinblick auf Unterschiede in ihrer Effektgröße betrachtet werden können. Da Meta-Analysen in der Regel das Ziel verfolgen, ein Gesamtbild der Forschung zu einer bestimmten Fragestellung abzubilden, kommt ihnen eine zentrale Rolle im wissenschaftlichen Analysekanon zu. Allerdings sind auch für die Meta-Analyse spezifische Problemfelder und Herausforderungen wie beispielsweise das Problem konzeptioneller Heterogenität der zu integrierenden Primärstudien zu identifizieren. Darüber hinaus wird im vorliegenden Beitrag auf die Möglichkeiten der Meta-Analyse im Hinblick auf die Replizierbarkeitsproblematik von Forschungsbefunden eingegangen. Abschließend werden aus der Literatur drei Meta-Analysen zur Rolle der Förderung phonologischer Bewusstheit für den Schriftspracherwerb dargestellt und erläutert. Deren Ergebnisse zeigen auf, dass Maßnahmen zur Förderung der phonologischen Bewusstheit schriftsprachliche Kompetenzen positiv zu beeinflussen vermögen, dass die berichteten Effektstärken jedoch deutlich und vermeintlich systematisch zwischen Orthographien variieren. Schlüsselbegriffe

Meta-Analyse; Evaluation; Sprachförderung; Phonologische Bewusstheit

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 K. Blatter et al. (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich, Edition ZfE 6, https://doi.org/10.1007/978-3-658-26438-3_2

31

32

Maximilian Pfost und Matthias Borgstede

What can we learn from meta-analyses in the evaluation of intervention concepts in language development? The example of teaching phonological awareness skills Abstract

Meta-analyses refer to a series of methods that aim to summarize empirical research findings in a quantitative manner and to analyze differences in effect-sizes between the integrated studies. As meta-analyses aim to provide a comprehensive overview of studies within a specific research area, they are often attributed to be of high importance. However, meta-analyses face specific challenges such as the apples-and-oranges problem of heterogeneity in primary studies that should not be neglected. In addition, we will ask whether meta-analyses may provide some solutions for the currently widely debated question on the reproducibility of research findings in psychology and education. Finally, the paper presents three meta-analyses on training studies of phonological awareness and its effects for learning to read. This discussion illustrates that fostering phonological awareness may improve children’s reading and spelling skills. However, effect sizes seem to depend on the consistency of phoneme-grapheme correspondence. Keywords

Meta-analysis; Evaluation; Emergent literacy skills; Phonological awareness

2 Zum Nutzen der Meta-Analyse in der Evaluation …

33

2.1 Einleitung 2.1 Einleitung

Nicht zuletzt seit dem relativ schwachen Abschneiden deutscher Schülerinnen und Schüler in der ersten PISA-Studie im Jahr 2000 wurden eine Reihe von Maßnahmen zur Verbesserung der schulischen Kompetenzen und insbesondere der Lesekompetenz ergriffen. Neben schulischen Veränderungen sind in diesem Zeitraum dabei vor allem Konzepte im Bereich der frühen, vorschulischen Förderung der sprachlichen und lesebezogenen Kompetenzen weiter entwickelt und implementiert worden. So ist davon auszugehen, dass ein nicht unerheblicher Anteil der positiven Entwicklung der mittleren Lesekompetenz deutscher Schülerinnen und Schüler auf eine verbesserte frühe sprachliche Förderung der Kinder zurückzuführen ist (Weis et al. 2016). Aus Perspektive der empirischen Bildungsforschung erscheint dabei nicht nur die Feststellung, dass Veränderungen stattgefunden haben von Bedeutung, sondern auch die Frage, welche Sprachförderkonzepte sich als besonders wirksam im Sinne der Erreichung ihrer Interventionsziele erweisen. Zur Beantwortung dieser Frage werden vielfach Meta-Analysen herangezogen, welche systematisch die Ergebnisse empirischer Arbeiten in quantitativer Art und Weise zusammentragen. Inwiefern die Meta-Analyse in der Evaluation von Sprachförderkonzepten diesem Anspruch tatsächlich gerecht zu werden vermag beziehungsweise wann sich besonders der Einsatz meta-analytischer Verfahren lohnt, soll im Folgenden betrachtet werden. So wird in den nachfolgenden Abschnitten dieses Beitrags kurz das prinzipielle Vorgehen der Meta-Analyse und der damit verknüpften Einschränkungen dargestellt. Dabei wird besonders auf die Frage nach dem besonderen Nutzen der Meta-Analyse in der aktuellen Diskussion um die Replikation von psychologisch-pädagogischen Befunden eingegangen. Im Anschluss werden drei Meta-Analysen zu Fördermaßnahmen der phonologischen Bewusstheit exemplarisch ausgeführt und vor dem Hintergrund der Frage nach Evidenzbasierung diskutiert.

2.2

Die Meta-Analyse – Kennzeichen, Ziele und Vorgehen

2.2

Die Meta-Analyse – Kennzeichen, Ziele und Vorgehen

Die Meta-Analyse ist, im Gegensatz zur Primär- und Sekundäranalyse, dem Feld der integrativen Forschung zuzuordnen. D. h., ihre Aussage speist sich nicht aus der Analyse einer spezifischen Stichprobe sondern versucht, die wissenschaftliche Evidenz mehrerer, beziehungsweise von mindestens zwei Studien zusammenzufassen und gemeinsam zu bewerten. Ein weiteres spezifisches Kennzeichen der Meta-Analyse, in Abgrenzung zum sogenannten narrativen Review, ist die quantitative Integration und Aufbereitung der Befunde aus den einzelnen Primärstudien. Dies bedeutet, 33

34

Maximilian Pfost und Matthias Borgstede

dass die individuellen Ergebnisse der einzelnen Studien in Form einer Effektstärke ausgedrückt und anschließend numerisch integriert werden. Je nach Art der Fragestellung und des Datentyps kommen hierfür korrelative Maße (z. B. Pearson’s r), Chancenverhältnisse (z. B. Odds Ratios), oder standardisierte Mittelwertdifferenzen (z. B. Cohen’s d oder Hedge’s g) in Frage. Effektstärken bezeichnen Indikatoren zur Beschreibung der Größe eines Effektes. Folglich ermöglicht die Transformation der Studienergebnisse in Effektstärken einen Vergleich über Studien hinweg. Zumeist erfolgt dabei eine Gewichtung der individuellen Ergebnisse der Primärstudien; d. h., der Beitrag der Einzelstudie zum Gesamtergebnis erfolgt unter Berücksichtigung des Standardfehlers der Schätzung beziehungsweise der Stichprobengröße. In der anschließenden statistischen Auswertung wird zwischen einem Modell fester Effekte (fixed-effects models) und einem Modell zufälliger Effekte (random-effects models) differenziert. Im Modell fester Effekte wird eine mittlere Populationseffektstärke angenommen sowie eine Abweichung der Effektstärke einzelner Studien aufgrund von Stichprobenfluktuation. Das Modell zufälliger Effekte betrachtet dagegen die zu schätzende Effektstärke als Zufallsvariable, deren Variation sich in systematischen Unterschieden zwischen den Studien – zusätzlich zu den erwähnten Stichprobenfluktuationen – niederschlägt. Neben diesem analytischen Unterschied ergeben sich dabei auch interpretative Unterschiede: Im Modell fester Effekte sollte sich eine Befundinterpretation lediglich an den meta-analytisch integrierten Studien orientieren. Im Modell zufälliger Effekte ist dagegen eine über die konkret integrierten Studien hinausgehende Generalisierung gerechtfertigt (Hedges und Vevea 1998; Card 2012). Jenseits der Frage nach dem konkreten statistischen Modell weist das Vorgehen einer quantitativen Befundintegration folgende Vorteile auf: Erstens wird empirische Evidenz über verschiedene Stichproben hinweg kumuliert; und zweitens garantiert dieses Vorgehen einen Fokus auf die Größe von Effekten, im Gegensatz zur bloßen Frage nach der Existenz beziehungsweise statistischen Bedeutsamkeit von Effekten. Dies ist vor allem dann wichtig, wenn es um die Beurteilung der praktischen Bedeutsamkeit empirischer Befunde geht, da auch sehr kleine Effekte bei ausreichend großer Stichprobe hoch signifikant ausfallen können. Der Erfolg meta-analytischer Studien, u. a. ersichtlich an deren hohen Publikationszahlen (bereits in seiner 2012 aktualisierten Studie trägt Hattie empirische Befunde von über 900 Meta-Analysen mit Fokus Lernen zusammen), bedeutet allerdings nicht, dass nicht auch narrative Reviews einen wichtigen Beitrag in der Aufbereitung und Zusammenfassung von Forschungsergebnissen leisten. Die besondere Stärke des narrativen Reviews kommt jedoch eher dann zum Tragen, wenn der Analysefokus stärker auf einem Vergleich verschiedener theoretischer Perspektiven oder auf der Etablierung eines theoretischen Modells liegt (vgl. Goswami und Bryant

2 Zum Nutzen der Meta-Analyse in der Evaluation …

35

1990, für ein entsprechendes Beispiel zur Rolle der phonologischen Bewusstheit im Schriftspracherwerb). Doch wann lohnt sich konkret der Einsatz meta-analytischer Verfahren und welche spezifischen Ziele lassen sich damit verfolgen? Unter der Perspektive der Beschreibung von Vorteilen der Meta-Analyse gegenüber empirischen Primärstudien differenziert Beelmann (2014) sechs Funktionen: Erstens, eine Integrationsfunktion; das bedeutet die Zusammenfassung und Bilanzierung bestehender Evidenz. Zweitens, eine historische Funktion, welche die Beschreibung der Entwicklung eines Forschungsfeldes im Zeitverlauf umfasst. Drittens, eine Allokationsfunktion, d. h. die Möglichkeit der Identifikation von Forschungslücken und der Ressourcensteuerung zur Schließung dieser Lücken. Viertens, eine Strukturierungsfunktion des Forschungsfeldes. Fünftens, eine Kontrollfunktion zum Beispiel im Sinne der Identifikation systematischer Verzerrungen im Forschungsfeld. Und sechstens, eine Transferfunktion, d. h. eine Verbesserung der Möglichkeit der Befundrezeption durch Praktiker und politische Entscheidungsträger. Zentrales Anliegen für die Initiierung und Durchführung einer Meta-Analyse ist dabei in den meisten Fällen die Integrationsfunktion. Diese lässt sich, wie Card (2012) formuliert, wiederum in die beiden Ziele der Summation der einzelnen Studien zu einem Ergebnis („combining studies“) sowie in das Ziel des Vergleichs der Ergebnisse und ihrer Effektstärken zwischen einzelnen Studien („comparing studies“) untergliedern. Werden dabei Charakteristika der Primärstudien in Relation zu ihren berichteten Effektstärken betrachtet, wird dies als Moderationsanalyse bezeichnet. Die Identifikation von Ursachen einer Heterogenität in den Effektstärken ist für ein Verständnis des Gesamtbilds in der Regel von zentraler Bedeutung (Gurevitch et al. 2018). Anders formuliert: In Ergänzung der Frage nach der durchschnittlichen Effektstärke wird die Frage nach Wirksamkeitsfaktoren gestellt, d. h. nach den Variablen, die den Erfolg einer Intervention beeinflussen und maximieren (beispielsweise Art und Inhalt, Dauer oder Implementationsqualität einer Intervention). Besonders interessant im Kontext der Meta-Analyse ist die Analyse von Wirksamkeitsfaktoren, die in Primärstudien inhärent nur sehr eingeschränkt zugänglich sind. Exemplarisch zu nennen sind hier Moderatoren wie das Durchführungsjahr der Studie, die Größe der Stichprobe oder ob die Intervention vom Entwickler der Interventionsmaßnahme selbst oder von einem unabhängigen Forscherteam evaluiert wurde. Allgemein ist das Aufzeigen robuster Moderationseffekte an die Existenz einer substanziellen Anzahl an Primärstudien, die gleichzeitig die verschiedenen Stufen des Moderators adäquat abbilden, gebunden (Card 2012). Gerade in der Forschungspraxis stellt dies eine große Herausforderung dar. Im Hinblick auf das Vorgehen und auf die konkrete Durchführung einer Meta-Analyse sei auf die ausführlichen und praxisnahen Bücher von Card (2012), 35

36

Maximilian Pfost und Matthias Borgstede

Cooper (2010) sowie Lipsey und Wilson (2001) verwiesen. Das Vorgehen lässt sich dabei grob formuliert in folgende Schritte untergliedern: (1) Formulierung der Fragestellung und systematische Literatursuche; (2) Informationssuche und Kodierung der einzelnen Studien; (3) statistische Analyse und Befundintegration; sowie (4) Interpretation der Befunde und Schriftlegung. Dabei sind, ähnlich wie bei der Durchführung von Primärstudien unter dem Gesichtspunkt der Qualitätssicherung auch hier die entsprechenden Gütekriterien von Objektivität, Reliabilität und Validität anzulegen. Ein hohes Maß an Strukturierung im Vorgehen soll dabei nicht nur ein möglichst objektives Ergebnis im Sinne der Unabhängigkeit vom Durchführenden sicherstellen, sondern ebenso die Reliabilität im Sinne der Wiederholbarkeit des Vorgehens fördern, z. B. durch die Möglichkeit einer standardisierten Literaturrecherche. Eine transparente Kommunikation des Vorgehens, einschließlich der Dokumentation von Schwächen im Vorgehen, wie sie in der Praxis oftmals unvermeidbar sind, trägt schließlich zur korrekten Einordnung der Befunde bei. Dieses ist im Sinne der Replizierbarkeit von Forschung ebenso ein notwendiges wie wichtiges Kriterium (Lakens et al. 2016).

2.3

Grenzen und Probleme meta-analytischer Forschung

2.3

Grenzen und Probleme meta-analytischer Forschung

Aufgrund ihres Überblickcharakters sowie ihrer integrativen Funktionen genießen Meta-Analysen einen hohen Stellenwert in der empirischen Forschung, der sich u. a. in stark zunehmendem Publikationszahlen ausdrückt (Gurevitch et al. 2018). Allerdings sind auch Meta-Analysen kein wissenschaftliches Allheilmittel, sondern sind, ähnlich wie Primärstudien, mit bestimmten Einschränkungen und Problemen behaftet (Beelmann und Bliesener 1994; Hunter und Schmidt 2004; Card 2012). Die wohl am häufigsten geäußerte Kritik ist mit dem Begriff der Äpfel-und-Birnen-Problematik, teilweise auch als Uniformitätsproblem bezeichnet, in die Literatur eingegangen. Zentraler Punkt dieser Kritik betrifft die vielfach anzutreffende hohe Heterogenität der Primärstudien, die die entsprechende Datenbasis für die Meta-Analyse bilden. Die Unterschiede der Studien reichen von inhaltlichen Aspekten wie dem konkreten Inhalt einer Fördermaßnahme, der Operationalisierung der betrachteten Konstrukte und der Qualität der eingesetzten Instrumente bis hin zu methodischen Aspekten wie Implementationsgüte und Durchführende der Intervention oder die Art der Stichprobenziehung. Zur Veranschaulichung dieser Kritik ist in diesem Kontext exemplarisch die einschlägig bekannte Hattie-Studie (2009) „Visible Learning“ zu den Einflussfaktoren schulischer Leistung zu nennen. In dieser Studie hat Hattie die Ergebnisse von über 800 Meta-Analysen basierend auf

2 Zum Nutzen der Meta-Analyse in der Evaluation …

37

über 52.000 Primärstudien zu verschiedenen Einflussfaktoren schulischen Lernens zusammenstellt. Dabei werden unterrichtsferne Faktoren wie das Geburtsgewicht der Kinder oder der familiäre Sozialstatus ebenso wie eher unterrichtsnahe Faktoren wie der Einsatz von Taschenrechnern oder Methoden kooperativen Lernens berücksichtigt und die Befunde zur Wirksamkeit dieser Einflussfaktoren mit der durchschnittlichen Effektstärke von d = 0.40 verglichen. Bei einer solchen Bandbreite von Einflussfaktoren kann daher kritisiert werden, dass in einer solchen Zusammenschau Ergebnisse integriert und miteinander verglichen werden, die sicherlich nur schwer unter einen Hut zu bringen sind, wie bereits die Auswahl oben genannter Variablen verdeutlicht (für weitere Kritikpunkte an der Hattie-Studie sei auf den Beitrag von Wecker et al. (2017) verwiesen). Auf der anderen Seite ist es unter der Perspektive der Ausgangsfragestellung von Hattie nach der Bedeutsamkeit von Einflussfaktoren auf die schulische Leistung jedoch sicherlich ein Positives, dass im Rahmen der in dieser Studie vorgenommenen Vereinheitlichung der Ergebnisse ein Vergleich der Wirksamkeit verschiedener Ansätze überhaupt möglich gemacht wird. D. h., durch die geschickte Auswahl von Moderatoren und entsprechender Kategorisierung der einzelnen Primärstudien in ausreichend homogene Subgruppen lässt sich zumindest graduell das Äpfel-und-Birnen-Problem in den Griff bekommen. Eine weitere besonders häufig geäußerte Kritik betrifft die Berücksichtigung von Primärstudien unterschiedlicher methodischer Qualität, die in die Literatur unter dem Begriff der „Garbage in-Garbage out“-Problematik Eingang gefunden und von verschiedenen Autoren teilweise unterschiedliche Lösung erfahren hat (vgl. den Ansatz der best-evidence synthesis; Slavin 1986). Inhaltlicher Aspekt dieser Kritik ist der Punkt, dass auch durch die Kumulierung von Befunden methodisch beziehungsweise qualitativ schlechter Studien keine Aufwertung der Befunde im Hinblick auf die Qualität ihrer Aussagen erreicht werden kann. Evidenz basierend auf Studien methodisch schlechter Qualität bleibt am Ende auch in der Summation Evidenz basierend auf Studien methodisch schlechter Qualität. Zu Ende gedacht würde dieser Einwand daher den Ausschluss aller Evidenzen basierend auf Studien nicht hinreichender Qualität bedeuten (vgl. den oben genannten Ansatz von Robert Slavin). Implizit wird damit allerdings unterstellt, dass ein solches Qualitätskriterium eindeutig bestimmt werden kann. Dabei sei gleichsam an das, besonders in der Evaluation von Fördermaßnahmen im Bildungssektor, oftmals schwierig aufzulösende Spannungsfeld von ökologischer und interner Validität gedacht. Auf der einen Seite interessieren wir uns, zum Beispiel bei der Evaluation von Sprachförderkonzepten wie dem dialogischen Lesen, für die kausale Wirksamkeit einer Maßnahme unter standardisierten Bedingungen. Auf der anderen Seite erscheint die Frage nach Wirkung dieser Maßnahme unter tatsächlichen Realbedingungen, also unter Berücksichtigung der ökologischen Validität des Vorgehens für die Praxis 37

38

Maximilian Pfost und Matthias Borgstede

jedoch ebenso bedeutsam (vgl. Pant 2014). Die Meta-Analyse hat jedoch auch hier durch die Möglichkeit der Kodierung der methodischen Qualität von Studien, u. a. mittels Ratings zu unterschiedlichen Qualitätsdimensionen (vgl. Farrington 2003) ein gutes Werkzeug zur Hand. Der Vergleich von Studien unterschiedlicher Qualität im Rahmen von Moderationsanalysen – insofern die Anzahl verfügbarer Primärstudien dies zulässt – ermöglicht es dieser Herausforderung gut gerecht werden. So kann es an manchen Stellen sinnvoller sein, die Ergebnisse von Studien aus experimentellen Settings mit den Ergebnissen von Studien mit quasi-experimentellen Versuchsdesign zu vergleichen, als letztere von Anfang an auszuschließen.

2.4

Zur Rolle der Meta-Analyse in der Diskussion um die Reproduzierbarkeit von Forschungsbefunden

2.4

Zur Rolle der Meta-Analyse in der Diskussion …

Die Idee der Möglichkeit der Reproduzierbarkeit von Forschungsbefunden, d. h., dass unabhängig von der Person des Durchführenden bei gleichen Durchführungsbedingungen ein vergleichbarer empirischer Befund wiederholt gefunden werden kann, gehört zu den Grundfesten der empirisch-wissenschaftlichen Methode (Bortz und Döring 2006). Trotz der hohen Bedeutsamkeit dieses Kriteriums mehren sich in der aktuellen Diskussion Hinweise, dass in den in der psychologischen ebenso wie erziehungswissenschaftlichen Forschung publizierten Befunden substanzielle Defizite in der (potenziellen) Reproduzierbarkeit bestehen. So können im Sinne einer exakten Befundreplikation berichtete Ergebnisse oftmals – d. h. häufiger als dies durch die in Kauf genommene Irrtumswahrscheinlichkeit zu erwarten wäre – von anderen Forschergruppen bei erneuter Versuchsdurchführung nicht gefunden werden (Open Science Collaboration 2015). Darüber hinaus zeigt sich gerade auch für die Bildungsforschung, dass tatsächlich nur selten der Versuch einer exakten Befundreplikation unternommen wird beziehungsweise die Ergebnisse entsprechender Studien kaum publiziert werden (Makel und Plucker 2014). Ursächlich dafür scheinen Faktoren wie erhöhte Ablehnungsraten von Replikationsstudien in renommierten Zeitschriften, Probleme in der Finanzierung von Replikationsstudien oder der Aspekt fehlenden wissenschaftlichen Renommees für die Autoren zu sein. Gleichzeitig werden Studien mit positiven Ergebnissen vermehrt veröffentlicht, vor allem dann, wenn es sich um originelle Arbeiten mit überraschenden beziehungsweise interessanten Implikationen handelt. Zusammengenommen ergeben diese Faktoren ein strukturelles Umfeld, welches systematisch zur Veröffentlichung von falsch-positiv Ergebnissen beitragen kann, welche folglich jedoch nicht replizierbar sind (Publication Bias). Das resultierende Anreizsystem

2 Zum Nutzen der Meta-Analyse in der Evaluation …

39

verführt darüber hinaus dazu, die bestehenden forscherischen Freiheitsgrade zu nutzen, um aus einmal erhobenen Daten publizierbare Ergebnisse zu generieren. Dies kann zu fragwürdigen Forschungspraktiken verleiten, wie explorative Studien als hypothesentestende Studien zu präsentieren, oder gar die systematische Suche nach signifikanten Effekten, welche dann post hoc theoretisch gerahmt werden (p-Hacking; Franco et al. 2014; Head et al. 2015). Gerade vor dem eben dargestellten Hintergrund der Diskussion um die Replizierbarkeit von Forschungsbefunden scheint es daher sinnvoll, zu fragen, inwiefern meta-analytische Arbeiten hier einen Beitrag leisten können. Definiert man die Meta-Analyse als ein Verfahren zur quantitativen Integration von Forschungsbefunden zu einer spezifischen Fragestellung, so könnte man – im Gegensatz zu Ansätzen einer exakten Befundreplikation, d. h. bei möglichst identischer Versuchsdurchführung (vgl. das Vorgehen der Open Science Collaboration 2015) – die einzelnen Studien einer Meta-Analyse auch als voneinander unabhängige Wiederholungen einer Versuchsdurchführung mit teilweise variierenden Untersuchungsbedingungen betrachten. Der meta-analytisch integrierte Befund beschreibt die über die wiederholte Versuchsdurchführung ermittelte mittlere Effektgröße und kann daher vor dem Hintergrund nach der Frage von Replizierbarkeit von Befunden, einschließlich deren Interpretationsproblematik, eine sinnvolle Ergänzung darstellen (Maxwell et al. 2015; vgl. das Konzept der kontinuierlich kumulativen Meta-Analyse nach Braver et al. 2014). Dabei ist der Mehrwert des meta-analytischen Verfahrens, neben einer zunehmend akkurateren Schätzung der tatsächlichen Effektstärke, besonders auch in der Möglichkeit einer Quantifizierung der Heterogenität zwischen den Ergebnissen der einzelnen Primärstudien zu sehen. Ferner bietet die Meta-Analyse, z. B. durch die Analyse sogenannter Funnel-Plots – Abbildungen, die die gefundene Effektstärke in Relation zur Schätzgenauigkeit der Primärstudien setzen – die Möglichkeit, systematische Verzerrungen aufgrund von Publikationsverzerrungen zu erkennen und deren Einfluss zu quantifizieren (vgl. Hunter und Schmidt 2004). Unter der Voraussetzung zufälliger Schätzfehler müssten die Effektstärken der Primärstudien sich symmetrisch um die tatsächliche Effektstärke verteilen. Die Effektstärken der Primärstudien sollten dabei umso näher an der tatsächlichen Effektstärke liegen, je höher die Schätzgenauigkeit (beziehungsweise je kleiner der Standardfehler) der Primärstudie ausfällt (vgl. Abb. 1A). Werden über viele Arbeiten hinweg in einem Forschungsfeld nicht signifikante Befunde zurückgehalten (vgl. Rosenthals File Drawer Problem; 1979), entstehen systematische Lücken in Bezug auf die geschätzten Effekte, die in Funnel-Plots sichtbar werden (vgl. Abb. 1B). Die Abweichung von einer zufälligen Verteilung der Effektschätzungen lässt sich darüber hinaus auf statistische Signifikanz prüfen (Begg und Mazumdar 1994; Egger et al. 1997). Ein entsprechender Egger-Test ergibt für die Daten in Abb. 1A einen nicht 39

40

Maximilian Pfost und Matthias Borgstede

signifikanten Wert (z = 0.45, p = .65), während die Asymmetrie des Funnel-Plots in Abb. 1B zu einem hoch signifikanten Ergebnis führt (z = 3.04, p = .002). Auch wenn bestimmte Verfahren eine Abschätzung von Publikationsverzerrungen einschließlich einer Quantifizierung dieser Verzerrung erlauben, ist einschränkend dabei natürlich dennoch anzumerken, dass jede (nachträgliche) Korrektur nur ein Versuch der Korrektur bleibt. Publikationsverzerrungen, wie die der geringeren Wahrscheinlichkeit der Publikation nicht signifikanter Ergebnisse, sollten daher gerade auch im Hinblick auf eine genaue Effektstärkenquantifizierung weiterhin vermieden werden. Auf Ebene der Primärstudien können systematische Replikationsstudien und prä-registrierte Studien hierzu einen Beitrag leisten. Auf Ebene der Metaanalyse bietet sich ferner die Möglichkeit an, unveröffentlichte Arbeiten, z. B. durch die Nutzung von Verteilergruppen oder die Konsultation von Experten, mit einzuschließen. Jedoch kann ein entsprechendes Vorgehen auch mit Problemen behaftet sein, insbesondere wenn ergänzende Suchen weder strukturiert noch transparent erscheinen (Delaney und Tamás 2018).

Abb. 1 Funnel-Plots für jeweils 75 simulierte Studien mit einer wahren Effektstärke von d = 0.2 und einem N zwischen 20 und 300 Personen pro Studie. Für den Plot auf der linken Seite (A) wurden alle gefundenen Effekte verwendet (gemittelte Effektstärke d = 0.19). Der Egger-Test auf Asymmetrie gibt keinen statistischen Hinweis auf einen Publication-Bias (z = 0.45, p = .65). Für den Plot auf der rechten Seite (B) wurden nicht signifikante Effekte nur mit einer Wahrscheinlichkeit von 0.1 in die Analyse mit aufgenommen (Publication Bias). Die Effektstärkenschätzung fällt mit Publication Bias höher aus (gemittelte Effektstärke d = 0.25) und geht mit einer deutlich erkennbaren Asymmetrie des Plots einher. Das Ergebnis des Egger-Tests auf Asymmetrie bestätigt diesen Eindruck (z = 3.04, p = .002). Die Plots wurden erstellt mit Hilfe des metafor-Pakets (Viechtbauer 2010).

2 Zum Nutzen der Meta-Analyse in der Evaluation …

2.5

Meta-Analysen von Sprachförderkonzepten: Die Befunde dreier verschiedener Meta-Analysen zur Förderung der phonologischen Bewusstheit

2.5

Meta-Analysen von Sprachförderkonzepten

41

Mit dem Begriff der phonologischen Bewusstheit werden die Fähigkeiten eines bewussten Zugangs – d. h. der Wahrnehmung, Analyse und Manipulation – zur Lautstruktur der gesprochenen Sprache beschrieben, wobei die Bedeutung des Gesagten in den Hintergrund tritt (Schnitzler 2008). Da die deutsche Orthographie den Alphabetschriften zuzuordnen ist, müssen Kinder im Verlauf des Schriftspracherwerbs lernen, die in unserer Schrift zentralen grafischen Symbole, sogenannte Grapheme (Buchstaben und Buchstabenkombinationen), visuell zu differenzieren und den zugehörigen Einheiten der Lautsprache, dem Phonem, zuzuordnen, welche im Prozess des Wortlesens im Anschluss noch weit zu synthetisieren und mit Bedeutung zu belegen sind. Ausgehend von dem Befund substanzieller Korrelationen zwischen oben genannten Vorläuferfähigkeiten des Schriftspracherwerbs und den Leseleistungen der Kinder (Melby-Lervåg et al. 2012; Pfost 2015) wurden verschiedenste Interventionsprogramme zusammengestellt, mit dem Ziel einzelne oder mehrere dieser Komponenten zu fördern. Besonders vielversprechend war und ist dabei die Förderung der phonologischen Bewusstheit. Die Auswahl der nachfolgend diskutierten Meta-Analysen erfolgte nach inhaltlichen Gesichtspunkten: So legten Bus und van Ijzendoorn (1999) die erste im größeren Umfang angelegte Meta-Analyse zu den Fördereffekten phonologischer Bewusstheit vor; die Analysen des National Early Literacy Panel (2008) fokussierten stark auf einen Vergleich verschiedener Fördermaßnahmen; und die Meta-Analyse von Fischer und Pfost (2015) fokussierte als erste Meta-Analyse exklusiv auf die Fördereffekte phonologischer Bewusstheit im deutschen Sprachraum. Aus Platzgründen nicht ausführlich hier diskutiert werden u. a. die weiteren qualitativ hochwertigen Meta-Analysen von Ehri et al. (2001), Suggate (2016) oder Wolf et al. (2016), welche nicht nur die bestehenden Befunde erweitern sondern ferner weitere inhaltliche Schwerpunkte setzen.

2.5.1 Die Meta-Analyse von Bus und van Ijzendoorn (1999) Zielstellung der Meta-Analyse war die Bestimmung der Effektgröße von Fördermaßnahmen der phonologischen Bewusstheit in experimentellen Arbeiten für die Ergebnismaße phonologischer Bewusstheit sowie Lesen. Die Literatursuche beschränkte sich auf zwei elektronische Datenbanken sowie auf die weitere Durchsicht der in diesen Arbeiten zitierten Literatur. Die Autoren identifizierten 32 Veröffentlichungen, die Ergebnisse von 36 beziehungsweise 34 Interventions-Kontrollgruppen-Verglei41

42

Maximilian Pfost und Matthias Borgstede

chen berichteten (Gesamt N = 3,092 bzw. 2,751). Im Hinblick auf die berichteten gemittelten Effektstärken fanden die Autoren starke Interventionseffekte für die phonologische Bewusstheit (d = 1.04) sowie mittelhohe Effektstärken für das Lesen (d = 0.44). Darüber hinaus wurden langfristige Effekte analysiert. Die Autoren fanden für das Lesen von Wörtern und Pseudowörtern etwa eineinhalb Jahre nach der Intervention kaum mehr Effekte. Statistisch bedeutsame, wenn auch absolut gesehen kleine Effekte, werden jedoch für das Leseverstehen (d = 0.26) sowie für die Rechtschreibung (d = 0.25) berichtet. Einschränkend ist anzumerken, dass diese beiden Befunde aufgrund geringer Anzahl von Primärstudien und Fallzahlen (N = 311 bzw. 1,175) nur explorativ betrachtet wurden. Aufgrund hoher Heterogenität in den berichteten Effektstärken wurden weitere Moderationsanalysen durchgeführt. Hervorzuheben sind hierbei zwei Ergebnisse: Erstens: Studien aus Europa waren im Mittel deutlich weniger effektiv als US-amerikanische Studien. Die wirksameren US-Studien waren ferner vergleichsweise homogen hinsichtlich ihrer Effektstärken. Und zweitens, Fördermaßnahmen der phonologischen Bewusstheit, die gleichzeitig Buchstabenwissen vermittelt haben, erwiesen sich, insbesondere für das Lesen, den Fördermaßnahmen ohne diese Komponente als deutlich überlegen. Die Befunde dieser Meta-Analyse lassen sich damit folgendermaßen zusammenfassen: Erstens: Eine substanzielle Anzahl von Evaluationsstudien bestätigt zunächst die an die entsprechenden Förderprogramme gestellte positive Erwartungshaltung: Durch eine Förderung der phonologischen Bewusstheit lässt sich die Lesefähigkeit der Kinder steigern. Zweitens: Es zeigt sich eine bedeutsame Heterogenität in den Effektstärken, wobei ein Großteil dieser Heterogenität auf Unterschiede zwischen Studien aus Europa und den USA zurückzuführen ist (vgl. Ehri et al. 2001, die für das Lesen sowie die Rechtschreibung ebenso teilweise deutlich höhere Effektstärken für Studien aus dem englischen Sprachraum fanden).

2.5.2 Die Meta-Analyse(n) des National Early Literacy Panel (2008) In Ergänzung zur Frage nach der Wirksamkeit einer Förderung der phonologischen Bewusstheit für die Leseentwicklung drängt sich ergänzend die Frage nach der relativen Effektivität dieser Fördermaßnahme(n) im Vergleich zur Wirksamkeit anderer Fördermaßnahmen auf. Im Prinzip ist auch für die Beantwortung dieser Fragestellung die Meta-Analyse ein besonders geeignetes Verfahren. So erlaubt die Meta-Analyse durch die Standardisierung der Ergebnisse in Form von Effektstärken auf Ebene der Primärstudien eine Vergleichbarkeit nicht nur potenziell inhaltlich

2 Zum Nutzen der Meta-Analyse in der Evaluation …

43

gleicher Fördermaßnahmen, sondern ermöglicht ebenso den Vergleich inhaltlich unterschiedlicher Programme im Hinblick auf ihre Wirksamkeit. Die einfache Wirksamkeitsfrage wird demnach erweitert um die Frage nach dem „Was wirkt am besten?“, was besonders vor dem Hintergrund begrenzter monetärer Ressourcen der Träger beziehungsweise zeitlicher Ressourcen der Kinder und Erzieher hohe Relevanz besitzt. Die Meta-Analysen wurden getragen vom National Institute for Literacy und durchgeführt im Zeitraum zwischen 2002 und 2006. Die Literatursuche beschränkte sich auf die beiden großen elektronischen Datenbanken ERIC und PsychINFO, wobei insgesamt über siebentausend Einträge gesichtet wurden. Zum Zwecke der Qualitätssicherung wurden acht relevante Fachzeitschriften manuell gesichtet. Dabei wurden folgende Fördermaßnahmen verglichen: Training phonologischer Bewusstheit, Vorlesen beziehungsweise gemeinsames Buchlesen, Förderung elterlicher Erziehungskompetenzen, (allgemeine) Förderung von Kindertageseinrichtungen sowie Programme zur Förderung allgemein sprachlicher Kompetenzen wie Wortschatz und Syntax. Für die evaluierten Maßnahmen zur Förderung der phonologischen Bewusstheit ließ sich eine mittelhohe Effektstärke für das Lesen (d = 0.44) sowie für die Rechtschreibung (d = 0.61) finden. Interessanterweise ließ sich ebenso ein kleiner bis mittelhoher Fördereffekt für die allgemein sprachlichen Kompetenzen (d = 0.32) belegen. Im Vergleich zu den anderen Fördermaßnahmen zeigte sich folgendes: Programme zur Förderung des Vorlesens beziehungsweise des gemeinsamen Lesens von Büchern waren sehr erfolgreich im Hinblick auf die Förderung sprachlicher Kompetenzen (d = 0.73). Für das Lesen und die Rechtschreibung wurden keine Ergebnisse berichtet. Programme zur Förderung elterlicher Erziehungskompetenzen zeigten kleine bis mittelhohe Effektstärken für die sprachlichen Fähigkeiten (d = 0.37) und wurden ebenso im Hinblick auf das Lesen und Rechtschreiben praktisch kaum evaluiert. Allgemeine Programme zur Förderung von Kindertageseinrichtungen, also Maßnahmen, die Aspekte wie Förderung früher Bildung mit Aspekten der Gesundheitsförderung, Sozialfürsorge usw. integrieren, berichteten im Mittel hohe Effektstärken für das Lesen (d = 0.75); allerdings waren diese aufgrund geringer Fallzahlen nicht signifikant von Null verschieden. Ferner fand sich ein deutlicher Effekt für die Rechtschreibung (d = 0.34). Kaum Effekte zeigten sich dagegen für die sprachlichen Kompetenzen der Kinder. Programme zur Förderung allgemein sprachlicher Kompetenzen erwiesen sich als hoch wirksam im Hinblick auf die sprachlichen Fähigkeiten der Kinder (d = 0.63). Für das Lesen berichteten zwei Studien zumindest positive Effektstärken. Diese waren allerdings aufgrund geringer Fallzahlen nicht signifikant. Wie lassen sich die Ergebnisse der Meta-Analyse des National Early Literacy Panel (2008) nun bewerten? Die Ergebnisse zeigen zunächst, dass Programme 43

44

Maximilian Pfost und Matthias Borgstede

zur Förderung der phonologischen Bewusstheit im Vergleich zu anderen frühen (sprachlichen) Förderkonzepten relativ gut evaluiert sind. Dies zeigt sich besonders deutlich im Hinblick auf die schriftsprachlichen Kompetenzen, welche im Rahmen der Evaluation anderer Fördermaßnahmen kaum systematisch untersucht wurden (vgl. die Allokationsfunktion meta-analytischer Arbeiten, die ferner Forschungslücken aufzeigt). Darüber hinaus verweisen die Ergebnisse auf eine vergleichsweise gute Wirksamkeit der Förderprogramme der phonologischen Bewusstheit, die für das Lesen und Rechtschreiben kaum von den anderen Förderprogrammen übertroffen wird.

2.5.3 Die Meta-Analyse von Fischer und Pfost (2015) Wie bereits angesprochen, werden in Alphabetschriften den Phonemen, d. h. den kleinsten bedeutungsunterscheidenden Lauteinheiten, Grapheme, d. h. Buchstaben und Buchstabenkombinationen, systematisch zugeordnet. Diese Zuordnung ist allerdings in beiden Richtungen nicht eindeutig beziehungsweise bijektiv, sondern weicht aufgrund der Berücksichtigung der morphologischen Struktur (z. B. Gleichschreibung des Wortstamms bei bedeutungsähnlichen Begriffen), ästhetisch-historischer Prinzipien usw. mehr oder weniger stark von dieser Einfachstruktur ab (Becker 2012). Ein Vergleich verschiedener Orthographien hat darüber hinaus gezeigt, dass Inkonsistenzen in der Phonem-Graphem-, beziehungsweise Graphem-Phonem-Korrespondenz dabei besonders im Englischen anzutreffen sind, wohingegen andere Orthographien wie beispielsweise das Finnische sehr viel konsistenter ausfallen (Seymor et al. 2003). Das Deutsche kann in diesem Vergleich in die Gruppe der Orthographien mit konsistenter Graphem-Phonem-Korrespondenz (Leserichtung) gezählt werden. Die für die Rechtschreibung relevante Phonem-Graphem-Korrespondenz weist dagegen ebenso gewisse Inkonsistenzen auf (Landerl und Thaler 2006). Vor dem Hintergrund dieser systematischen Orthographieunterschiede zwischen dem Deutschen und dem Englischen sowie vermehrter Hinweise einer höheren Relevanz der phonologischen Bewusstheit für das Lesen in stärker inkonsistenten Orthographien (z. B. Mann und Wimmer 2002; Ziegler et al. 2010) wurde daher in der Arbeit von Fischer und Pfost (2015) die folgende Frage aufgegriffen: Lassen sich die mehrheitlich positiven Evaluationsergebnisse für Fördermaßnahmen der phonologischen Bewusstheit, wie sie u. a. anderem in den bereits diskutierten Meta-Analysen von Bus und van Ijzendoorn (1999) beziehungsweise des National Early Literacy Panel (2008) berichtet wurden, auch für den deutschen Sprachraum zeigen?

2 Zum Nutzen der Meta-Analyse in der Evaluation …

45

Im Rahmen der Literaturrecherche, welche neben einer Suche in elektronischen Datenbanken und der Sichtung von Querverweisen auch eine manuelle Sichtung einschlägiger Fachzeitschriften umfasste, wurden schließlich 19 den Kriterien entsprechende Primärstudien, die Ergebnisse von 22 Interventions-Kontrollgruppen-Vergleichen berichteten, meta-analytisch integriert. Mit Blick auf die schriftsprachlichen Kompetenzen Wortlesen/Dekodierfähigkeit, Leseverstehen und Rechtschreibung zeigten die Analysen vergleichsweise ernüchternde Effektstärken. Kurzfristig, d. h. mit einem Abstand von weniger als einem Jahr zur Intervention, lagen die gemittelten Effektstärken zwischen d = 0.18 und d = 0.26. Langfristig, d. h. mit mehr als einem Jahr Abstand zur Intervention, kam es ferner zu einer weiteren Abnahme der Größe der Effekte, welche sich besonders für das Lesen nicht mehr signifikant von Null unterschieden (Dekodierfähigkeit d = 0.03; Leseverstehen d = 0.16). Lediglich für die Rechtschreibung konnte längerfristig ein kleiner, positiv signifikanter Fördereffekt gefunden werden (d = 0.19). Die Befunde zur Wirksamkeit von Fördermaßnahmen der phonologischen Bewusstheit von Fischer und Pfost (2015) konvergieren somit insgesamt gesehen dahingehend, dass sich die in den internationalen Meta-Analysen teilweise sehr positiven Effekte für das Lesen und Rechtschreiben so im Deutschen nur eingeschränkt finden lassen. In Übereinstimmung mit theoretischen Annahmen und empirischen Befunden (Mann und Wimmer 2002; Ziegler et al. 2010) bieten sich die oben dargestellten Unterschiede in der Orthographie als Erklärung für diesen Unterschied an (vgl. Wolf et al. 2016; sowie Schneider 2018, für eine Diskussion weiterer Erklärungsansätze).

2.6

Zusammenfassung und Diskussion

2.6

Zusammenfassung und Diskussion

Meta-Analysen eignen sich besonders, einen Überblick einschließlich einer quantitativen Integration über ein Forschungsfeld zu geben sowie neben der Bestimmung einer gemittelten Effektstärke systematische Unterschiede zwischen Studien und deren Befunden herauszuarbeiten. Dies verdeutlichen die drei exemplarisch vorgestellten Meta-Analysen gut. So konnten die angesprochenen Arbeiten zeigen, dass eine Förderung der phonologischen Bewusstheit mit besseren schriftsprachlichen Kompetenzen einhergeht und dass mit Blick auf das Lesen und Schreiben andere Interventionsansätze – insoweit überhaupt evaluiert – praktisch kaum größere Effektstärken berichten. Dennoch ist auch in der integrativen Forschung stets die Frage nach der Generalisierbarkeit der Befunde über verschiedene Kontexte oder wie im vorliegenden Fall über verschiedene Sprachen hinweg zu stellen. Dass es 45

46

Maximilian Pfost und Matthias Borgstede

hier zu systematischen Unterschieden kommen kann, hat sich bereits in der Meta-Analyse von Bus und van Ijzendoorn (1999), aufgrund des starken mittleren Effektunterschieds zwischen US-amerikanischen Arbeiten und Studien aus Europa, angedeutet. Gleiches verdeutlichen auch die geringen Effektstärken von Fördermaßnahmen der phonologischen Bewusstheit für das Lesen und Rechtschreiben im Deutschen, wie sie Fischer und Pfost (2015) berichten. Durch die Möglichkeit der Kumulierung von Forschungsbefunden ist der Meta-Analyse eine hohe Bedeutung in der empirisch orientierten psychologischen und erziehungswissenschaftlichen Forschung zuzuschreiben. Wie die oben ausgeführten Beispiele zeigen, entlassen jedoch auch forschungsintegrative Vorgehen die Autorinnen beziehungsweise Autoren nicht aus ihrer Verantwortung, die gefundenen gemittelten Effektstärken vorsichtig und mit Hinblick auf potenzielle Verzerrungen und unberücksichtigte Einflussfaktoren hinweg einzuordnen und zu interpretieren. Reflektiert eingesetzt, bieten meta-analytische Verfahren aufgrund ihrer Evidenzorientierung allerdings ein gutes Fundament für die weitere wissenschaftliche Theoriebildung ebenso wie bildungspolitische Entscheidungsfindung. Damit leisten sie einen wichtigen Beitrag in der Evaluation und Weiterentwicklung von Sprachfördermaßnahmen. Grundlage qualitativ hochwertiger Meta-Analysen sind und bleiben qualitativ hochwertige Primärstudien, die auch in der Berichtlegung den gängigen Standards entsprechen sollten. Dies kann u. a. durch die Ausarbeitung entsprechender Standards (vgl. APA 2010; Appelbaum et al. 2018) sowie der Möglichkeit durch elektronische Supplements weiterführende Informationen zu den entsprechenden Studien zu veröffentlichen, gefördert werden. Darüber hinaus ist weiterhin über Anreiz und Belohnungsstrukturen, beispielsweise im Hinblick auf die oben geschilderten Verzerrungen im Publikationsprozess, aber auch im Verhältnis von Primärstudie und Meta-Analyse (Gurevitch et al. 2018), zu reflektieren.

Literatur Literatur

APA. (2010). Publication manual of the American Psychological Association (6). Washington, DC: American Psychological Association. Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M. (2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73, 3−25. Becker, T. (2012). Einführung in die Phonetik und Phonologie des Deutschen. Darmstadt: WBG Wissenschaftliche Buchgesellschaft.

2 Zum Nutzen der Meta-Analyse in der Evaluation …

47

Beelmann, A. (2014). Möglichkeiten und Grenzen systematischer Evidenzkumulation durch Forschungssynthesen in der Bildungsforschung. In K. Maaz, M. Neumann & J. Baumert (Hrsg.), Herkunft un Bildungserfolg von der frühen Kindheit bis ins Erwachsenenalter (Zeitschrift für Erziehungswissenschaft: Sonderheft 17, S. 55−78). Wiesbaden: Springer. Beelmann, A., & Bliesener, T. (1994). Aktuelle Probleme und Strategien der Metaanalyse. Psychologische Rundschau, 45, 211−233. Begg, C. B., & Mazumdar, M. (1994). Operating characteristics of a rank correlation test for publication bias. Biometrics, 50, 1088−1101. Bortz, J., & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. Heidelberg: Springer. Braver, S. L., Thoemmes, F. J., & Rosenthal, R. (2014). Continuously cumulating meta-analysis and replicability. Perspectives on Psychological Science, 9, 333−342. Bus, A. G., & van Ijzendoorn, M. H. (1999). Phonological awareness and early reading: A meta-analysis of experimental training studies. Journal of Educational Psychology, 91, 403−414. Card, N. A. (2012). Applied meta-analysis for social science research. New York, NY: Guilford Press. Cooper, H. M. (2010). Research synthesis and meta-analysis. Los Angeles: Sage. Delaney, A., & Tamás, P. A. (2018). Searching for evidence or approval? A commentary on database search in systematic reviews and alternative information retrieval methodologies. Research Synthesis Methods, 9, 124−131. Egger, M., Smith, G. D., Schneider, M., & Minder, C. (1997). Bias in meta-analysis detected by a simple, graphical test. BMJ, 315, 629−634. Ehri, L. C., Nunes, S. R., Willows, D. M., Schuster, B. V., Yaghoub-Zadeh, Z., & Shanahan, T. (2001). Phonemic awareness instruction helps children learn to read: Evidence from the National Reading Panel’s meta-analysis. Reading Research Quarterly, 36, 250−287. Farrington, D. P. (2003). Methodological quality standards for evaluation research. The ANNALS of the American Academy of Political and Social Science, 587, 49−68. Fischer, M. Y., & Pfost, M. (2015). Wie effektiv sind Maßnahmen zur Förderung der phonologischen Bewusstheit? Eine meta-analytische Untersuchung der Auswirkungen deutschsprachiger Trainingsprogramme auf den Schriftspracherwerb. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 35−51. Franco, A., Malhotra, N., & Simonovits, G. (2014). Publication bias in the social sciences: Unlocking the file drawer. Science, 345, 1502−1505. Goswami, U., & Bryant, P. E. (1990). Phonological skills and learning to read. Hove, UK: Psychology Press. Gurevitch, J., Koricheva, J., Nakagawa, S., & Stewart, G. (2018). Meta-analysis and the science of research synthesis. Nature, 555, 175−182. Hattie, J. (2009). Visible learning. A synthesis of over 800 meta-analyses relating to achievement. London: Routledge. Hattie, J. (2012). Visible learning for teachers. Maximizing impact on learning. London: Routledge. Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The extent and consequences of p-hacking in science. PLOS Biology, 13, e1002106. Hedges, L. V., & Vevea, J. L. (1998). Fixed- and random-effects models in meta-analysis. Psychological Methods, 3, 486−504. 47

48

Maximilian Pfost und Matthias Borgstede

Hunter, J. E., & Schmidt, F. L. (2004). Methods of meta-analysis. Correcting error and bias in research findings. Thousand Oaks, CA: Sage Publications. Lakens, D., Hilgard, J., & Staaks, J. (2016). On the reproducibility of meta-analyses: six practical recommendations. BMC Psychology, 4, 24. Landerl, K., & Thaler, V. (2006). Reading and spelling acquisition and dyslexia in German. In R. M. Joshi & P. G. Aaron (Hrsg.), Handbook of orthography and literacy (S. 121−134). Mahwah, NJ: Erlbaum. Lipsey, M. W., & Wilson, D. B. (2001). Practical meta-analysis. Thousand Oaks, CA: Sage. Makel, M. C., & Plucker, J. A. (2014). Facts are more important than novelty: Replication in the education sciences. Educational Researcher, 43, 304−316. Mann, V., & Wimmer, H. (2002). Phoneme awareness and pathways into literacy: A comparison of German and American children. Reading and Writing, 15, 653−682. Maxwell, S. E., Lau, M. Y., & Howard, G. S. (2015). Is psychology suffering from a replication crisis? What does “failure to replicate” really mean? American Psychologist, 70, 487−498. Melby-Lervåg, M., Lyster, S.-A. H., & Hulme, C. (2012). Phonological skills and their role in learning to read: A meta-analytic review. Psychological Bulletin, 138, 322−352. National Early Literacy Panel. (2008). Developing early literacy: Report of the National Early Literacy Panel. Washington, DC: National Institute for Literacy. Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716. Pant, H. A. (2014). Aufbereitung von Evidenz für bildungspolitische und pädagogische Entscheidungen: Metaanalysen in der Bildungsforschung. In K. Maaz, M. Neumann & J. Baumert (Hrsg.), Herkunft und Bildungserfolg von der frühen Kindheit bis ins Erwachsenenalter (Zeitschrift für Erziehungswissenschaft: Sonderheft 17, S. 79−99). Wiesbaden: Springer VS. Pfost, M. (2015). Children’s phonological awareness as a predictor of reading and spelling: A systematic review of longitudinal research in German-speaking countries. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 47, 123−138. Rosenthal, R. (1979). The ‚File Drawer Problem‘ and tolerance for null results. Psychological Bulletin, 86, 638−641. Schneider, W. (2018). Nützen Sprachförderprogramme im Kindergarten, und wenn ja, unter welcher Bedingung? Zeitschrift für Pädagogische Psychologie, 32, 53−74. Schnitzler, C. D. (2008). Phonologische Bewusstheit und Schriftspracherwerb. Stuttgart: Thieme. Seymor, P. H. H., Aro, M., & Erskine, J. M. (2003). Foundation literacy acquisition in European orthographies. British Journal of Psychology, 94, 143−174. Slavin, R. E. (1986). Best evidence synthesis: An alternative to meta-analytic and traditional reviews. Educational Researcher, 15, 5−11. Suggate, S. (2016). A meta-analysis of the long-term effects of phonemic awareness, phonics, fluency, and reading comprehension interventions. Journal of Learning Disabilities, 49, 77−96. Viechtbauer, W. (2010). Conducting meta-analyses in R with the metafor package. Journal of Statistical Software, 36, 1−48. Wecker, C., Vogel, F., & Hetmanek, A. (2017). Visionär und imposant – aber auch belastbar? Zeitschrift für Erziehungswissenschaft, 20(1), 21−40. Weis, M., Zehner, F., Sälzer, C., Strohmeier, A., Artelt, C., & Pfost, M. (2016). Lesekompetenz in PISA 2015: Ergebnisse, Veränderungen und Perspektiven. In K. Reiss, C. Sälzer, A.

2 Zum Nutzen der Meta-Analyse in der Evaluation …

49

Schiepe-Tiska, E. Klieme, & O. Köller (Hrsg.), PISA 2015. Eine Studie zwischen Kontinuität und Innovation (S. 249−283). Münster: Waxmann. Wolf, K. M., Schroeders, U., & Kriegbaum, K. (2016). Metaanalyse zur Wirksamkeit einer Förderung der phonologischen Bewusstheit in der deutschen Sprache. Zeitschrift für Pädagogische Psychologie, 30, 9−33. Ziegler, J. C., Bertrand, D., Tóth, D., Csépe, V., Reis, A., & Faísca, L. (2010). Orthographic depth and its impact on universal predictors of reading: A cross-language investigation. Psychological Science, 21, 551−559.

49

3

Dokumentenrecherche und -aufbereitung als Qualitätskriterium von Systematic Reviews: Sprachförderung in Kindertageseinrichtungen als Beispiel Karin Zimmer, Jolika Schulte, Minja Dubowy, Jan-Henning Ehm, Susanne Kuger, Jan Lonnemann, Renate Martini, Dominique Rauch und Marcus Hasselhorn 3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

Karin Zimmer et al. Zusammenfassung

Zwei Aspekte bestimmen maßgeblich die Qualität eines Systematic Review: (1) die Gewährleistung, dass möglichst alle für eine Fragestellung relevanten Ergebnisse und Dokumentationen nachgewiesen und in die Analyse einbezogen werden und (2) die Einhaltung wissenschaftlich akzeptierter Gütekriterien bei der Analyse bzw. Aufarbeitung der Einzelergebnisse. Der vorliegende Beitrag fokussiert den ersten dieser Aspekte und zeigt, dass die Erstellung eines Systematic Reviews vielfältige Kompetenzen nicht nur in den Untersuchungs- und Analysemethoden, sondern auch in den Bereichen der Informationssuche, -beschaffung, -aufbereitung und -dokumentation erfordert. Am Beispiel eines aktuellen Forschungsprojekts am DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, das das Instrumentarium Systematic Review nutzt, um den derzeitigen Wissensstand zur Sprachförderung in Kindertageseinrichtungen für über dreijährige Kinder in Deutschland aufzubereiten, wird besonders auf die Herausforderungen bei der Quellensuche und die dafür notwendige interdisziplinäre Zusammenarbeit der an der Forschung zu Sprachförderung beteiligten Fachdisziplinen und den Informationswissenschaften eingegangen. Es wird gezeigt, auf welche Weise verschiedene informationswissenschaftliche Recherchemethoden und Techniken eingesetzt werden können, um eine umfassende Dokumentenbasis zu schaffen. Die Vorteile der gewählten Vorgehensweise gegenüber den für andere Typen von wissenschaftlichen Übersichtsarbeiten üblichen Suchstrategien werden so veranschaulicht.

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 K. Blatter et al. (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich, Edition ZfE 6, https://doi.org/10.1007/978-3-658-26438-3_3

51

52

Karin Zimmer et al.

Schlüsselbegriffe

Sprachförderung Ü3, Suchstrategie, Systematic Review, Systematischer Überblick

What do we mean by systematic? Document search and processing for a systematic review on language interventions in ECEC institutional settings in Germany Abstract

The quality of a systematic review relies on (1) assuring that almost all relevant materials have been retrieved for further analysis, and (2) integrating individual results according to the accepted scientific quality criteria. The present paper focuses on the first aspect mentioned above. To accomplish this goal, a diverse range of expertise is needed, including research design and analysis, information retrieval and preparation, as well as information management and documentation. The construction and implementation of a search strategy for the systematic review is illustrated with regard to interventions for improving children’s language in early-childhood-education-and-care (ECEC) institutional settings in Germany, since such a systematic review is currently being conducted at DIPF | Leibniz Institute for Research and Information in Education. The paper highlights the interdisciplinary co-operation between the academic content disciplines on the one hand, and information science, on the other, showing how informational research methods and techniques contribute to the creation of a more comprehensive document base than can be achieved with conventional searching in scientific databases. Keywords

ECEC Germany, Language support / training, Search strategy, Systematic review

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

53

Im Zuge des sog. Neuen Steuerungsmodells im Bildungswesen besteht der Anspruch, Entscheidungen in Bildungspolitik, -administration und -praxis auf der Grundlage von empirischen Forschungsergebnissen, d. h. evidenzinformiert zu fällen. Die Selbstverpflichtung zur Rationalisierung von Entscheidungen und Handlungen, die auf wissenschaftlichen Erkenntnissen beruhen sollen, hat zu einem massiven Ausbau der Forschungsaktivitäten in der empirischen Bildungsforschung geführt. So wurden vielfältige Initiativen und großangelegte Forschungsvorhaben aufgesetzt, Expertengremien gegründet und eine Vielzahl von Förderkonzepten entwickelt und erprobt. Trotz dieser Bemühungen wird weiterhin ein stockender Wissenstransfer zwischen Forschung und Entscheidungsträgern beklagt. Schrader (2014) spricht in diesem Zusammenhang von der „großen Diskrepanz zwischen dem vorhandenen und dem tatsächlich genutzten Wissen“ (S. 211) und von „Schwierigkeiten der Verknüpfung von Wissen und Steuerung“ (S. 195). Daher stellt sich zunehmend die Frage, wie die immer reichhaltiger und diversifizierter vorliegenden wissenschaftlichen Erkenntnisse so an die Entscheidungsträger in Politik, Administration und Praxis vermittelt werden können, dass sie zur Entscheidungsfindung genutzt werden und damit tatsächlich handlungsleitend wirken können.

3.1

Systematic Reviews als Transfer-Werkzeuge wissenschaftlicher Erkenntnis

3.1

Systematic Reviews als Transfer-Werkzeuge

Diese Aufgabe kann sich nicht in der Aufbereitung von wissenschaftlichen Einzel­ ergebnissen erschöpfen, die notwendigerweise fachdisziplinär verortet sind und als publikationsrelevant vor allem den neuen Erkenntnisgewinn zu Konzepten des wissenschaftlichen Diskurses oder das Finden signifikanter Effekte bzw. Unterschiede ansehen. Wie auch in anderen Disziplinen (z. B. in der Gesundheitspolitik, vgl. Antes und Lang 2014) ist es notwendig, das gesamte aktuell vorgehaltene und verfügbare Forschungswissen zu steuerungsrelevanten Fragen systematisiert und im Überblick darzustellen, um Entscheidungen auf eine evidenzbasierte Grundlage zu stellen. Auch kann eine solche Aufgabe nur begrenzt von einzelnen Forschenden oder im Rahmen von Gutachtertätigkeiten geleistet werden; verlässlich und solide wird die Interpretation von wissenschaftlichen Ergebnissen erst durch die Akkumulation von Einzelbefunden (Shavelson und Towne 2002, nach Thiel 2014, S. 122). Wie im angloamerikanischen Raum bereits in verschiedenen Bereichen – auch in der Bildungsforschung – etabliert, ist daher eine Infrastruktur nötig, um die praktische Verwertbarkeit von wissenschaftlichen Erkenntnissen zu steigern und es 53

54

Karin Zimmer et al.

den Entscheidungsträgern in Politik, Administration und Praxis zu ermöglichen, wissenschaftliche Evidenz stärker als bisher zu nutzen. Systematische Übersichtsarbeiten (systematic reviews) eignen sich dabei besonders gut als „Instrument der Wissensverdichtung: Zum einen wird durch sie die bereits existierende Studienlandschaft aufgearbeitet und es werden Bereiche aufgezeigt, die über- oder unterbeforscht sind. Zum anderen können damit verlässlichere – weil auf der gesamten verfügbaren Evidenz basierende – Aussagen zur Wirksamkeit bzw. zum Nutzen und Schaden von Interventionen gemacht werden“ (Antes und Lang 2014, S. 134; vgl. auch Gough et al. 2017). Zwei Aspekte bestimmen die Qualität von systematischen Übersichtsarbeiten entscheidend: Dies ist zum einen der Zugang zu allen relevanten Ergebnissen und zum anderen die wissenschaftlich fundierte Aufarbeitung der Einzelergebnisse. Der vorliegende Beitrag konzentriert sich auf den ersten Punkt, die systematische Quellensuche, und erläutert das Vorgehen am Beispiel eines Systematic Reviews zur Sprachförderung für über dreijährige Kinder in Kindertageseinrichtungen in Deutschland. Um die Suchentscheidungen des dargestellten Beispiels besser nachvollziehen zu können, wird zunächst kurz die konkrete Untersuchungsfrage eingeführt. In den folgenden Abschnitten wird dann das Vorgehen bei der Literaturrecherche ausführlich dargestellt. Ausdrücklich werden dabei neben den in der Wissenschaft üblichen elektronischen Zeitschriftendatenbanken auch Projektdatenbanken und weitere, nicht primär wissenschaftlich ausgerichtete Quellen herangezogen sowie verschiedene Akteursgruppen direkt um Informationen angefragt. Auf Grundlage der nach einem zweistufigen Sichtungsverfahren durch das Autorenteam (sog. „Screening on Title and Abstract“ und „Screening on Fulltext“) als einschlägig identifizierten Dokumente kann abschließend der Beitrag der verschiedenen Quellentypen zur Beantwortung der Untersuchungsfrage beurteilt werden.

Exkurs: Kurze Darstellung der inhaltlichen Forschungsfrage Sprachliche Kompetenzen gehören zu den Schlüsselvoraussetzungen für individuellen Bildungserfolg. Kinder mit Sprachentwicklungsbeeinträchtigungen oder solche, bei denen aufgrund von Zuwanderung die Muttersprache nicht identisch mit der Sprache der Bildungsvermittlung (auch Bildungssprache genannt) ist, haben ein deutlich erhöhtes Risiko, dass ihr akademischer und beruflicher Werdegang schlechter verläuft als aufgrund ihrer allgemeinen kognitiven Fähigkeiten zu erwarten. In der Folge kann es dadurch auch zu einer Gefährdung der uneingeschränkten Teilhabe an der Gesellschaft aufgrund von Beeinträchtigungen der

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

55

kognitiven, emotionalen und sozialen Entwicklung der betroffenen Kinder kommen (Autorengruppe Bildungsberichterstattung 2014). Die gesamtgesellschaftliche Notwendigkeit und Aufgabe, die bildungsrelevanten sprachlichen Kompetenzen bei Kindern möglichst frühzeitig zu fördern, wird sowohl auf Seiten der sozialpolitisch als auch der bildungspolitisch Verantwortlichen anerkannt. Darüber, wie Sprachförderung angemessen in Kindertageseinrichtungen zum Einsatz kommen sollte, ist allerdings bislang keine Einigkeit erzielt. Während ein Teil der Fachleute überzeugt ist, dass Kinder in erster Linie von einem alltagsintegrierten Vorgehen profitieren, glauben andere, dass bestimmte Gruppen benachteiligter Kinder darüber hinaus zusätzlich einer additiven kompensatorischen Förderung in Kleingruppen bedürfen. Kerngedanke der alltagsintegrierten sprachlichen Bildung ist es, dass in den Kindertagesstätten die pädagogischen Fachkräfte geeignete sprachliche Anregungen in allen Alltagssituationen geben, um eine sprachförderliche Umgebung zu schaffen, in der Kinder beiläufig und spielerisch die erforderlichen Kompetenzen erwerben. Grundgedanke des Ansatzes einer zusätzlichen kompensatorischen Sprachförderung im vorschulischen Alter ist dagegen die durch die Ergebnisse von Sprachstandsfeststellungen vor Schulbeginn gestützte Überzeugung, dass selbst bei gut aufgestellten Sprachlernanregungen in Kindertageseinrichtungen ein nicht unbeträchtlicher Teil eines jeden Jahrganges nicht in ausreichendem Maße bildungsrelevante Sprachkompetenzen erwirbt. Entsprechend unterscheiden sich die sprachförderlichen Angebote im Alltag der Kindertageseinrichtungen. Sie können als universelle Angebote an alle Kinder insgesamt und/oder zielgruppenspezifisch an benachteiligte Kinder gerichtet werden. Sie können eine allgemeine, globale Unterstützung der kindlichen Entwicklung in den Blick nehmen und/oder sich auf die Förderung spezifischer (Teil-)Domänen kindlicher Sprachentwicklung konzentrieren. Auch gibt es große Unterschiede, in welcher Breite diese Angebote in den Alltag der frühkindlichen Bildung, Erziehung und Betreuung eingebettet werden. Die Spanne reicht von der Implementation allgemeiner Curricula, die ganzjährig im Tagesablauf einer Einrichtung einbezogen werden, bis hin zu punktuell eingebrachten Einzelmaßnahmen bzw. Förderprogrammen, die additiv das Alltagsgeschehen ergänzen. Im letzten Jahrzehnt wurde eine Reihe von additiven Sprachförderangeboten in verschiedenen Bundesländern realisiert und evaluiert. In den Fällen, in denen die Auswirkung der Förderbemühungen auf die Sprachentwicklung der betroffenen Kinder evaluiert wurde, fielen die Befunde meist ernüchternd aus. Dies hat dazu geführt, dass die Stärkung der alltagsintegrierten sprachlichen Bildung in Sozialministerien und Trägerverbänden derzeit konzeptionell favorisiert wird. Von einer evidenzbasierten Entscheidungsgrundlage kann hierbei jedoch keineswegs gesprochen werden, da die ernüchternden Ergebnisse einzelner Un55

56

Karin Zimmer et al.

tersuchungen zur Wirkung spezifischer additiver Sprachförderangebote vielfältige Gründe haben können und die Überzeugung, dass alltagsintegrierte sprachliche Förderkonzepte wirksam sind, gar nicht erst auf den Prüfstand gestellt wird. Das Wissen über erprobte und evaluierte Ansätze ist zudem über verschiedene wissenschaftliche Fachdisziplinen verstreut. Dazu kommt eine Fülle von in der Praxis eingesetzten Maßnahmen, die oftmals wenig aufbereitet und dokumentiert sind. International existieren bereits einige Metaanalysen und Überblicke zu verwandten Themen, die weitgehend die wissenschaftlich publizierte Literatur aufarbeiten bzw. sich auf Untersuchungen beschränken, die den in der Wissenschaft üblichen Qualitätsansprüchen an Interventionsstudien genügen. Diese Arbeiten fokussieren die Sprachförderung bei älteren oder jüngeren Kindern (Andrews et al. 2004a, 2004b; Cirrin und Gillam 2008; Law und Plunkett 2009; Geddes et al. 2010) oder bei Teilgruppen von Kindern, z. B. klinischen Stichproben (Cirrin und Gillam 2008; Spreckley und Boyd 2009; Tachibana et al. 2012), mehrsprachigen Kindern bzw. Kindern mit Migrationshintergrund (Bertschi-Kaufmann et al. 2006; Egert und Hopf 2018) sowie Kindern aus sozioökonomisch benachteiligten Familien (Darrow 2009). Zudem wurden nicht-institutionelle Lernumgebungen thematisiert, z. B. die Wirkungen des elterlichen Vorlesens (Bus et al. 1995; Greene 1998; Mol et al. 2008; Mol et al. 2009; Reese et al. 2010; Mol und Bus 2011) oder es wurden die Auswirkungen von Sprachfördermaßnahmen auf Wissen, Überzeugungen und Handlungen von Erzieherinnen und Erziehern (Hall und Harding 2003) und auf ihre Fortbildungsaktivitäten untersucht (Egert 2015). Ein erstes narratives Review von Egert und Hopf (2016) zur Sprachförderung in Kindertageseinrichtungen in Deutschland beschränkt sich auf (quasi-) experimentelle Interventionsstudien im Zeitraum von 2000 bis 2013 und bezieht die in Deutschland bedeutende Gruppe von Maßnahmen zur Förderung der phonologischen Bewusstheit explizit nicht mit ein. Ein systematischer Überblick über die in Kindertageseinrichtungen in Deutschland eingesetzten Fördermaßnahmen und ihre Wirkung auf die Sprachfertigkeiten von Kindern zwischen 3 Jahren und Schuleintritt steht somit noch aus. In dem am DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation derzeit umgesetzten Systematic Review soll geklärt werden, welche Maßnahmen, Interventionen oder Programme der Sprachförderung für über dreijährige Kinder in Kindertageseinrichtungen für Deutschland überhaupt dokumentiert sind und welche Hinweise auf die Wirksamkeit der eingesetzten Maßnahmen, Interventionen oder Programme sich finden lassen. Weiterhin soll geprüft werden, inwieweit Aussagen darüber getroffen werden können, unter welchen Bedingungen und für Kinder mit welchen Voraussetzungen sie wirksam sind. Durch diese Aspekte der inhaltlichen Fragestellung wird die Ausgestaltung der Suchstrategie bestimmt, die in diesem Beitrag erläutert wird.

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

57

Der Interdisziplinarität der Fragestellung Rechnung tragend stand dem Autorenteam in allen Schritten der Erstellung des Systematic Reviews ein wissenschaftlicher Beirat zur Seite, dem Expertinnen und Experten aus den Bereichen Elementar- und Grundschulpädagogik, Entwicklungspsychologie, Germanistik, Inklusionspädagogik, Bildungsökonomie, Psycholinguistik und Sprachdidaktik angehörten. Weiterhin begleitete eine ausgewiesene Methodenexpertin des Evidence for Policy and Practice Information and Co-ordinating Centre (EPPI-Centre London) die Erstellung des Systematic Reviews.

3.2

Konzeption der Suchstrategie

3.2

Konzeption der Suchstrategie

Wie einführend dargestellt, bestimmt das Vorgehen bei der Quellensuche zentral die Güte eines Systematic Reviews. Bei einer systematischen Quellensuche sind aus informationswissenschaftlicher Sicht stets drei generelle Fragen zu beantworten: • Wie umfassend soll gesucht werden, um die einschlägigen Informationen zu erhalten? • An welchen Orten soll gesucht werden, um Informationen, die zur Beantwortung der Fragestellung beitragen können, zu gewinnen? • Wie sollen die Suchabfragen gestaltet werden, um die entsprechenden Informationen zu erbringen? Diese Fragen sind nur in engem Austausch von informations- und fachwissenschaftlichen Expertinnen und Experten zu beantworten, da die entsprechenden Entscheidungen auf die konkrete Fragestellung sowie auf die Besonderheiten der Informationsquellen zugeschnitten sein müssen.

3.2.1 Wie umfassend wird gesucht? Im ersten Schritt zur Ausgestaltung der Suchanfragen wurden die angestrebte Präzision (precision) und Vollständigkeit der Suche (recall) vereinbart. Grundsätzlich ist bei der Erstellung eines Systematic Reviews eine deutlich breiter angelegte Suche zu planen als bei anderen Formen von Überblicksarbeiten wie etwa Metaanalysen oder Literaturüberblicken. So genügt es bei einer Überblicksarbeit durchaus einen Teil der relevanten Literatur zu finden. An einen Systematic Review wird hingegen der Anspruch gestellt, jegliche relevante Literatur in einer bestimmten Quelle zu 57

58

Karin Zimmer et al.

finden. Was dabei als relevant erachtet wird, ist durch die inhaltliche Fragestellung des Systematic Review festgelegt. Die Präzision (precision) ist ein informationswissenschaftliches Qualitätsmaß, das angibt, welcher Anteil der gefundenen Dokumente für eine Fragestellung relevant ist (Stock 2008, S. 63 ff.). Sie beschreibt somit die Genauigkeit der Suche; sind alle gefundenen Dokumente einer Suche relevant, nimmt sie den Idealwert 1 an (d. h., 100 % aller gefundenen Dokumente sind relevant). Die Vollständigkeit der Suche (recall) bezeichnet nach Stock (2008) den Anteil der gefundenen relevanten Dokumente an der Gesamtmenge der in der Quelle vorhandenen relevanten Dokumente. Eine perfekte Suche würde einen Wert von 1 sowohl für Vollständigkeit als auch für Präzision erbringen. Dies würde heißen, dass alle relevanten Dokumente zur Fragestellung gefunden werden, die in einer Informationsquelle enthalten sind, und dass gleichzeitig nicht ein einziges irrelevantes Dokument gefunden wird. Dies ist allerdings nur in der Theorie oder bei kleinen, sehr gut dokumentierten und erschlossenen Datenbeständen möglich. Generell gilt: Um die Präzision zu erhöhen, muss die Suchanfrage spezifiziert werden, was aber automatisch mit einer Verschlechterung der Vollständigkeit verbunden ist. Umgekehrt kann über eine allgemeinere Suchanfrage die Vollständigkeit erhöht werden, was aber mit einer sinkenden Präzision einhergeht. Entsprechend der Fragestellung ist also zu entscheiden, inwieweit • eine Suchanfrage auf das Auffinden möglichst aller relevanten Dokumente ausgelegt ist (und man damit zusätzlich das Finden einer gewissen Anzahl an faktisch irrelevanten Dokumenten in Kauf nimmt, die in den folgenden Sichtungsschritten eliminiert werden müssen), und bis zu welchem Punkt • es aus Ressourcen- oder anderen Gründen ausreichend ist, nur einen Teil der tatsächlich relevanten Dokumente zu finden (dafür aber auch nur wenige oder gar keine für die Fragestellung irrelevanten Dokumente). Ein zentrales Ziel des aktuellen Systematic Review ist es, einen möglichst umfassenden Überblick über die Sprachförderung für über dreijährige Kinder in Kindertageseinrichtungen für Deutschland zu erhalten. Damit wurde bei der Quellensuche ein hohes Maß an Vollständigkeit beim Auffinden von Maßnahmen, Interventionen und Programmen angestrebt. Die Suche sollte möglichst umfassend sein, d. h., an vielen Orten (siehe Abschnitt 2.2) erfolgen und es wurden bewusst Abstriche bei der Genauigkeit der Suchabfrage gemacht (siehe Abschnitt 2.3).

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

59

3.2.2 An welchen Orten wird gesucht? Die Auswahl der fachwissenschaftlichen Datenbanken für die Quellensuche orientierte sich an der inhaltlichen Fragestellung und wurde in Absprache von Autorenteam und interdisziplinär besetztem wissenschaftlichen Beirat vorgenommen. Um eine möglichst vollständige und systematische Suche gewährleisten zu können, war aus informationswissenschaftlicher Sicht darüber hinaus wichtig, dass die ausgewählten Datenbanken alle enthaltenen Dokumente in einheitlicher Weise inhaltlich erschließen (i. e. systematische und einheitliche Vergabe von Schlagworten), und dass es die Möglichkeit gibt, strukturierte und datenbankspezifische Suchanfragen an jede der ausgewählten Datenbanken zu stellen (i. e. Möglichkeit der Nutzung eines datenbankspezifischen, sog. kontrollierten Vokabulars). Die folgenden fachwissenschaftlichen Datenbanken wurden von Autorenteam und wissenschaftlichem Beirat als für die Fragestellung des Systematic Review besonders relevant identifiziert: • Education Research Complete umfänglichste Volltextdatenbank für alle Bereiche der Pädagogik im englischsprachigen Bereich. Sie enthält mehr als 2.100 Zeitschriften, von denen mehr als 1.300 Zeitschriften im Volltext vorliegen. Zudem enthält sie Volltextversionen von über 550 Büchern sowie zahlreiche Tagungsberichte. • ERIC (Education Resources Information Center) Als bibliographische Datenbank mit über 1,6 Millionen überwiegend englischsprachigen Datensätzen wie zum Beispiel Zeitschriftenartikeln, Büchern, Konferenzbeiträgen und technischen Berichten aus allen Bereichen der Bildungsforschung. Über 1.000 Zeitschriften sind in ERIC indexiert. Zusätzlich weist ERIC über 350.000 Volltexte nach, von denen viele zur grauen Literatur gezählt werden können. • Literaturdatenbank des Fachinformationssystems FIS Bildung mit fast 900.000 Publikationsnachweisen die umfangreichste bildungsbezogene Literaturdatenbank im deutschsprachigen Raum. In ihr werden neben Büchern auch Sammelwerksbeiträge und Zeitschriftenaufsätze dokumentiert. Sie hat gegenüber Bibliothekskatalogen, auch dem der Deutschen Nationalbibliothek, eine zumeist tiefere inhaltliche Erschließung. • PsycArticles Volltextdatenbank der American Psychological Association (APA), in der ca. 200.000 Artikel aus mehr als 135 englischsprachigen Zeitschriften verzeichnet sind. Es sind Artikel aus allen Gebieten der Psychologie einschließlich der Grundlagenforschung nachgewiesen. 59

60

Karin Zimmer et al.

• PsycINFO bibliographische Datenbank der American Psychological Association (APA) mit über 4 Millionen Nachweisen von überwiegend englischsprachigen Zeitschriftenaufsätzen, Büchern, Buchkapiteln, Dissertationen, Buchbesprechungen, Forschungsberichten, Fallstudien usw., soweit diese für die Psychologie von Interesse sind. Es sind ca. 2.500 Zeitschriften verzeichnet. • PSYNDEX vom Leibniz-Zentrum für Psychologische Information und Dokumentation (ZPID) betriebene Fachdatenbank, welche die gesamte psychologische Literatur aus den deutschsprachigen Ländern seit Anfang der 1980er Jahre nachweist. Dokumentiert werden über 250.000 Zeitschriftenaufsätze, Bücher (Monographien und Herausgeberwerke), Einzelbeiträge aus Herausgeberwerken, Dissertationen und Institutsveröffentlichungen aus den Bereichen der Psychologie und aus relevanten Nachbarbereichen. Um die Breite der in der Praxis zur Anwendung kommenden Maßnahmen, Interventionen und Programme dokumentieren zu können und dem Ziel einer möglichst vollständigen Suche Rechnung zu tragen, wurden die Recherchen allerdings nicht auf wissenschaftliche Fachdatenbanken beschränkt, die häufig auf Publikationen mit Gutachtersystem basieren. Es wurden zusätzlich auch Suchen im Katalog der Deutschen Nationalbibliothek, Projektdatenbanken, sowie postalische und E-Mail-Anfragen und auch Internetsuchen durchgeführt. Bezogen auf den deutschsprachigen Raum bietet der Katalog der Deutschen Nationalbibliothek einen guten Überblick, da in ihm alle deutschen und deutschsprachigen Publikationen seit 1913 nachgewiesen werden. Aufgrund der Nachweis­ pflicht der Deutschen Nationalbibliothek konnte auf eine weiterführende Suche in den Bibliotheksverbünden verzichtet werden (für weitere Informationen zur Pflichtabgabe aller deutschen und deutschsprachigen Publikationen an die Deutsche Nationalbibliothek und ihre gesetzlichen Grundlagen, siehe https://www.dnb.de/ DE/Erwerbung/Pflichtablieferung/pflichtablieferung_node.html). Weiterhin wurden zentrale Verzeichnisse von Forschungsprojekten in die Recherche miteinbezogen. Dies waren die Förderdatenbank der Deutschen Forschungsgemeinschaft GEPRIS (Geförderte Projekte Informationssystem), die über DFG-geförderte laufende und abgeschlossene Projekte informiert, sowie die von GESIS – Leibniz Institut für Sozialwissenschaften betriebene zentrale Projektdatenbank SOFIS (Sozialwissenschaftliches Forschungsinformationssystem) zu sozialwissenschaftlichen Forschungsaktivitäten in den deutschsprachigen Ländern, welche Informationen zu insgesamt 56.411 Projekten vorhält.

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

61

Um weitere wichtige Akteure in die Suche einzubeziehen und Zugang auch zu nicht veröffentlichten Berichten und Beschreibungen zu erhalten, wurde zusätzlich zu den Datenbank- und Katalogrecherchen eine Brief- und E-Mail-Anfrage durchgeführt. Angeschrieben wurden Ministerien (um z. B. nicht katalogisierte Förderprogramme und Publikationen erfassen zu können), Fachgesellschaften, Verbände und Stiftungen, die im Bereich der frühkindlichen Bildung aktiv sind, sowie die für die Kindertageseinrichtungen zuständigen Stellen aller deutschen Großstädte (über 100.000 Einwohner, insgesamt 79 Städte in Deutschland); für die komplette Adressatenliste siehe Zimmer et al. (2020). Auf Grundlage der Rückmeldungen wurden zum Teil Nachrecherchen durchgeführt, um weitere Förderprogramme und Publikationen zu identifizieren. Schließlich wurde eine Internetsuche vorgenommen. Dazu wurden die Suchmaschinen Google und Google Scholar, eine Suchmaschine für die Suche nach wissenschaftlichen Dokumenten, genutzt. Dank der großen Datenbasis von Google und der enormen Größe des Indexes fiel die Auswahl auf eben diese beiden Suchmaschinen. Zudem bietet Google Scholar Zugang zu einem Teil des sogenannten Invisible Webs, weil man auch Inhalte finden kann, die andere Suchmaschinen nicht indexieren können, da diese Inhalte beispielsweise in Datenbanken von Verlagen oder bei anderen Anbietern liegen. Weitere Datenbanken, die vorrangig für Zitationsanalysen konzipiert sind (z. B. Web of Science und Scopus), wurden für die Recherche nicht in Betracht gezogen, da die dort verzeichneten Dokumente nicht ausreichend inhaltlich erschlossen sind.

3.2.3 Wie wird gesucht? Für alle Suchorte legte das Autorenteam im ersten Schritt gemeinsam mit dem wissenschaftlichen Beirat relevante Schlüsselbegriffe für die Fragestellung in deutscher und englischer Sprache fest. Dabei wurden zunächst in einem offenen Brainstorming Begriffe aus den verschiedenen wissenschaftlichen Disziplinen und öffentlichen Diskussionen, in denen die Mitglieder von Autorenteam und Beirat eingebunden sind, zusammengetragen, die sich auf die unterschiedlichen Komponenten der Fragestellung beziehen, d. h. auf den zu untersuchenden Zeitraum, die institutionelle Anbindung der Fördermaßnahme, die Altersspanne der geförderten Kinder sowie den Berichtsgegenstand der Sprachförderung mit dem Ziel der Förderung der deutschen Sprache. Die einzelnen Begriffe wurden im nächsten Schritt nochmals gesichtet, innerhalb der einzelnen Komponenten thematisch gruppiert und gegebenenfalls ergänzt. Die Begriffsmatrix in deutscher 61

62

Karin Zimmer et al.

Sprache ist in Tab. 1 dargestellt, die Begriffsmatrix in englischer Sprache findet sich in Zimmer et al. (2020). In enger Abstimmung mit den fachwissenschaftlichen Mitgliedern des Autorenteams wurden diese Schlüsselbegriffe im Anschluss in das individuelle kontrollierte Vokabular der verschiedenen Suchorte übertragen. Das Vorgehen wird in den folgenden Unterabschnitten detailliert dargestellt. Dabei werden zunächst einige informationswissenschaftliche Fachbegriffe eingeführt, bevor geschildert wird, wie die Suchabfragen für die aktuelle, inhaltliche Fragestellung konstruiert und die Datenbankrecherchen durchgeführt wurden. Tab. 1

Matrix der Schlüsselbegriffe in deutscher Sprache als Grundlage für die Entwicklung der Datenbankabfragen

Berichtsinhalt *Training* *Bildung* *Förder* *Intervention*

Kindliches Outcome Einschränkungen Altersspanne *Sprach* *Kind* *Fon*/*phono* *Früh* *Grammati* *morph* *semant* *Synta* *literal* *lexi* *Wortschatz* *Wortbildung* *Satz*

Einschränkungen Institution *Elementar* *Vorschul* *Kinderga* *Kita* *Kindertages*

Anmerkung. * bezeichnet eine Trunkierung. Die Suche erfolgt für die angegebene Buchstabenfolge, an der trunkierten Stelle können dabei beliebig viele Buchstaben stehen.

3.2.3.1 Datenbankspezifische Suchabfragen Um Suchanfragen in elektronischen Datenbanken strukturieren zu können, werden Suchoperatoren (sog. Boolesche Operatoren) verwendet. Mit diesen Operatoren (z. B. AND, OR, XOR, NOT) ist es möglich, Bedingungen zu formulieren, um das gemeinsame Auftreten von Begriffen, das Auftreten mindestens eines oder genau eines Begriffs oder das Nicht-Auftreten von Begriffen zu prüfen. Die durch Such­ operatoren strukturierten Suchanfragen können in den einzelnen Datenbanken nach unterschiedlichen Reihungsregeln abgearbeitet werden. So wird in einigen Datenbanken der Boolsche Suchoperator AND stärker gewichtet als der Operator

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium Tab. 2 Suche S1 =

S2 =

S3 =

S4 = S5 = S6 =

63

Beispielhafte Suchabfrage in der Datenbank PsycINFO Abfrage mithilfe von Deskriptoren des PsycINFO-Thesaurus (((DE „Early Childhood Development“) OR (DE „Infant Development“)) OR (DE „Child Day Care“) OR ((DE „Childhood Development“) OR (DE „Zone of Proximal Development“)) OR ((DE „Education“) OR (DE „Academic Settings“ OR DE „Bilingual Education“ OR DE „Curriculum“ OR DE „Distance Education“ OR DE „Elementary Education“ OR DE „Family Life Education“ OR DE „Multicultural Education“ OR DE „Nontraditional Education“ OR DE „Preschool Education“ OR DE „Private School Education“ OR DE „Public School Education“ OR DE „Remedial Education“ OR DE „Special Education“)) OR (DE „Elementary Schools“) OR (DE „Preschool Students“) OR (DE „Kindergartens“) OR (DE „Kindergarten Students“) OR (DE „Day Care Centers“)) ((DE „Native Language“) OR ((DE „Language Disorders“) OR (DE „Specific Language Impairment“)) OR ((DE „Language Development“) OR (DE „Language Delay“)) OR ((DE „Speech Development“) OR (DE „Delayed Speech“)) OR ((DE „Verbal Learning“) OR (DE „Nonsense Syllable Learning“ OR DE „Paired Associate Learning“) ) OR (DE „Cognitive Linguistics“) OR ((DE „Phonology“) OR (DE „Phonemes“ OR DE „Phonetics“ OR DE „Prosody“ OR DE „Syllables“ OR DE „Vowels“)) OR (DE „Phonological Awareness“) OR ((DE „Grammar“) OR (DE „Morphology (Language)“ OR DE „Transformational Generative Grammar“)) OR ((DE „Semantics“) OR (DE „Antonyms“ OR DE „Homonyms“ OR DE „Synonyms“)) OR ((DE „Syntax“) OR (DE „Form Classes (Language)“) OR (DE „Morphemes“) OR ((DE „Vocabulary“) OR (DE „Anagrams“ OR DE „Homographs“ OR DE „Mental Lexicon“ OR DE „Neologisms“ OR DE „Sight Vocabulary“ OR DE „Slang“)) OR ((DE „Words (Phonetic Units)“) OR (DE „Word Problem“)) OR (DE „Word Recognition“) OR ((DE „Verbal Meaning“) OR (DE „Word Meaning“)) OR (DE „Literacy“) OR (DE „Sentences“) OR (DE „Sentence Structure“) OR (DE „Sentence Comprehension“) OR (DE „Bilingualism“)) (((DE “Training”) OR (DE „Assertiveness Training“ OR DE „Biofeedback Training“ OR DE „Communication Skills Training“ OR DE „Computer Training“ OR DE „Memory Training“ OR DE „Motivation Training“ OR DE „Parent Training“ OR DE „SelfInstructional Training“ OR DE „Sensitivity Training“ OR DE „Social Skills Training“)) OR ((DE „Language Arts Education“) OR (DE „Phonics“ OR DE „Reading Education“ OR DE „Spelling“)) OR ((DE „Intervention“) OR (DE „Early Intervention“ OR DE „Family Intervention“ OR DE „Group Intervention“ OR DE „School Based Intervention“)) OR ((DE „Learning“) OR (DE „Collaborative Learning“ OR DE „Conditioning“ OR DE „Cooperative Learning“ OR DE „Discrimination Learning“ OR DE „Foreign Language Learning“ OR DE „Generalization (Learning)“ OR DE „Implicit Learning“ OR DE „Incidental Learning“ OR DE „Intentional Learning“ OR DE „Interference (Learning)“ OR DE „Mnemonic Learning“ OR DE „Observational Learning“ OR DE „Perceptual Learning“ OR DE „School Learning“ OR DE „Self-Regulated Learning“ OR DE „Sequential Learning“ OR DE „Serial Learning“ OR DE „Skill Learning“ OR DE „Social Learning“ OR DE „Transfer (Learning)“ OR DE „Trial and Error Learning“ OR DE „Verbal Learning“)) OR ((DE „Longitudinal Studies“) OR (DE „Prospective Studies“))) S1 AND S2 AND S3 *German* S4 AND S5

63

64

Karin Zimmer et al.

OR (ähnlich der Punkt- vor Strichrechnung in der Mathematik). Durch das Setzen von Klammern kann die gewünschte Reihenfolge bzw. Gewichtung der Bearbeitung der Suchanfrage eindeutig angegeben werden. Bei großen und komplexen Suchen bietet es sich zudem an, schrittweise vorzugehen und die Suchanfrage in mehrere Komponenten aufzuspalten, die in einem abschließenden Suchschritt zusammengeführt werden. Für die aktuelle inhaltliche Fragestellung ist dies beispielhaft in Tab. 2 erläutert: Für jede Komponente der Fragestellung wurde zunächst eine eigene Suchanfrage gebildet (S1 bis S3). Innerhalb jeder Komponente wurden OR-Verknüpfungen genutzt, die einzelnen Komponenten wurden dann im Anschluss mit einer AND-Verknüpfung kombiniert (S4). Weiterhin sollte bei einer Suchabfrage generell das kontrollierte Vokabular oder – soweit vorhanden – der Thesaurus der jeweiligen Datenbank berücksichtigt werden. Wie im Folgenden begründet, ist von einem Einsatz sog. Metasuchmaschinen bei der Erstellung eines Systematic Reviews dringend abzuraten.

Kontrolliertes Vokabular Viele Datenbanken erschließen Dokumente inhaltlich mit festgelegten kontrollierten Begriffen. Diese Begriffe sind spezifisch für jede Datenbank und werden für alle Dokumente in dieser Datenbank genutzt. Damit ermöglichen sie innerhalb der Datenbank eine einheitliche Beschreibung von mehreren Dokumenten zum selben Thema, die sicherstellt, dass bei Benutzung der jeweiligen Schlagwörter auch synonyme Begriffe und andere Schreibweisen in der Suche erfasst sind. So können beispielsweise Verben im Infinitiv angesetzt werden, Substantive werden auf die Singularform reduziert oder Komposita werden in die ursprünglichen Begriffe zerlegt. Homonyme, d. h. Wörter, die für verschiedene Sachverhalte stehen, aber den gleichen Wortkörper haben (z. B. „Tau“ im Sinne von „Seil“, „morgendlicher Niederschlag“ und als Buchstabe des griechischen Alphabets) werden meist mit einem Zusatz in Klammern versehen, um ihre Bedeutung zu klären. So beschreibt „Einstellung “ den psychologischen Fachbegriff der Einstellung einer Person und nicht die Einstellung einer Person auf einen Arbeitsplatz. Fast alle Datenbanken, die mit einem kontrollierten Vokabular arbeiten, bieten ein Register oder einen Index an, der darüber informiert, welche Begriffe zur inhaltlichen Erschließung der Dokumente genutzt werden.

Thesaurus Im Vergleich zu einem kontrollierten Vokabular bildet ein Thesaurus zusätzlich hierarchische Relationen und Synonymrelationen ab (vgl. im Folgenden Burkart 2004). Es gibt Oberbegriffe (OB; Broader Term, BT) und Unterbegriffe (UB; Narrower Term, NT). Auch wird von Begriffen, die nicht genutzt werden sollen, den

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

65

sogenannten Nicht-Deskriptoren (Nicht-Vorzugsbenennung) auf den Deskriptor (Vorzugsbenennung) verwiesen (BS – Benutze Synonym bzw. USE/SYN – Use synonym). Bei den Deskriptoren sieht man ebenfalls sofort, für welche anderen Begriffe sie die Vorzugsbenennung sind (BF – benutzt für Synonym; UF – Used for). Häufig werden für die Deskriptoren eines Thesaurus Verwendungshinweise und Erläuterungen formuliert, sogenannte „Scope Notes“. Diese definieren eindeutig den kontextbezogenen Einsatz eines Deskriptors, verweisen zum Teil aber auch auf andere Deskriptoren („Werke zum Thema YZ werden unter „Deskriptor A“ aufgenommen.“). Sucht man beispielsweise in der Datenbank „Education Research Complete“, in der nahezu ausschließlich englischsprachige Literatur verzeichnet ist, nach Arbeiten zur Sprachentwicklung, sollten dafür ausschließlich englische Schlagworte (Deskriptoren) genutzt werden. Im Thesaurus ist unter „Language“ und „Development“ neben anderen Begriffen auch „Language Development“ zu finden, allerdings mit dem Verweis „USE Language Acquisition“. Die sog. Scope Note gibt darüber hinaus zusätzlich die Information: „Here are entered works which discuss from the linguistic or psycholinguistic viewpoint the process of the acquisition of the native language in children.” Die Scope Note mit Ober-, Unter- und verwandten Begriffen hilft dabei, den Geltungsbereich und die Bedeutung des Deskriptors zu verstehen und abzugrenzen. So kann man hier z. B. auf einen Unterbegriff stoßen, der den gesuchten Sachverhalt präziser und genauer beschreibt als der zunächst verwendete. Im eben genannten Beispiel wird darauf hingewiesen, dass Dokumente, die sich mit der kindlichen Sprache im Allgemeinen oder in einem pädagogischen Rahmen befassen, unter dem Deskriptor „Children´s Language“ verschlagwortet wurden (alle Zugriffe auf Education Research Complete zuletzt am 04.02.2019 über die Plattform EBSCOhost).

Metasuche Metasuchmaschinen ermöglichen es, mehrere Datenbanken gleichzeitig zu durchsuchen. Metasuchmaschinen gibt es sowohl für Bibliothekskataloge (z. B. den Karls­ ruher Virtuellen Katalog, kvk) als auch für Literatur- und Volltextdatenbanken (z. B. EBSCOhost und ProQuest). Wird eine bestimmte Quelle gesucht und sind Angaben wie Autor und Titel bekannt, kann eine Metasuchmaschine das Auffinden des Dokuments deutlich erleichtern. Anders sieht es bei einer thematischen Suche aus. Es sollten nur Datenbanken gemeinsam mit einer Metasuchmaschine abgefragt werden, bei denen die inhaltliche Erschließung auf demselben kontrollierten Vokabular beruht. Auch sollten datenbankspezifische Unterschiede im Hinblick auf den Einsatz von Suchoperatoren berücksichtigt werden. Andernfalls besteht die Gefahr, dass die verwendeten 65

66

Karin Zimmer et al.

Schlagwörter nicht in allen durchsuchten Datenbanken Teil des kontrollierten Vokabulars sind. In diesem Fall kann die Suche mit dem Begriff X zwar in der einen Datenbank erfolgreich durchgeführt werden, in einer anderen werden aber möglicherweise die einschlägigen Treffer nicht gefunden. Dies ist dann der Fall, wenn dieser Begriff in der anderen Datenbank ein Nicht-Deskriptor ist und für diesen Sachverhalt ein anderer Begriff genutzt wird. Gerade bei der Suche in englischsprachigen Datenbanken ist zu berücksichtigen, dass die Indexierung in den einzelnen Datenbanken recht heterogen erfolgen kann. In dem oben genannten Beispiel nutzt etwa Education Research Complete den Deskriptor „Language acquisition“ auf der Grundlage des Education Thesau­ rus. In der Datenbank PsycINFO wird derselbe Sachverhalt auf der Grundlage des PsycINFO-Thesaurus über den Deskriptor „language development“ abgebildet (Zugriffe auf Education Research Complete und PsycINFO zuletzt am 04.02.2019 über EBSCOhost). Die Suche mit einem der beiden Deskriptoren würde daher nicht in beiden Datenbanken zu relevanten Suchergebnissen führen. Bei thematischen Suchen in Datenbanken sollte daher auf Metasuchmaschinen verzichtet und die Recherche individuell auf das jeweilig genutzte Vokabular der einzelnen Datenbanken angepasst werden.

Aktuelle Fragestellung: Konstruktion der Suchabfragen und Durchführung der Suche Die von Autorenteam und wissenschaftlichem Beirat gemeinsam ermittelten Schlüsselbegriffe wurden entsprechend der eben skizzierten Maßgaben an die datenbankspezifischen Vokabulare angepasst. Dazu durchsuchten die Rechercheexpertinnen des Autorenteams die Schlagwortindizes und Thesauri der Datenbanken PsycINFO, PsycArticles (PsycINFO Thesaurus oder Thesaurus of Psychological Index Terms), Education Research Complete (Education Thesaurus), PSYNDEX (PSYNDEX Terms), ERIC (ERIC Thesaurus), FIS Bildung (Schlagwortregister) systematisch nach möglichen relevanten Schlagwörtern (Deskriptoren). Auf Grundlage der Scope Notes (soweit vorhanden) wurden die mit diesen Schlagwörtern verbundenen Ober-, Unter- und verwandten Begriffe von den Inhaltsexpert*innen des Autorenteams analysiert und ihre Relevanz für die inhaltliche Fragestellung des Systematic Reviews bewertet. Die als einschlägig bewerteten Begriffe wurden dann zum Aufbau der datenbankspezifischen Suchabfrage genutzt. Tabelle 3 illustriert dieses Vorgehen am Beispiel eines Schlagwortes für die Suche in englischsprachigen Datenbanken. Der Begriff *word* aus dem Thesaurus der Datenbank PsycINFO findet sich in vier Deskriptoren, die thematisch zur Fragestellung gehören (nämlich Vocabulary, Words (Phonetic Units), Word Recognition und Verbal Meaning, vgl. Tab. 3). Ein weiteres Schlagwort des Thesaurus ist „Word

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium Tab. 3

67

Beispiel aus dem Thesaurus von PsycINFO zur Identifikation relevanter Deskriptoren: Übertragung des Schlüsselbegriffes „*word*“ in datenbankspezifische Deskriptoren

Stichwort Deskriptor *word* Vocabulary

Scope Note -

*word*

Words (Phonetic Units)

Spoken or written symbolic representation of an idea, frequently viewed as the smallest grammatically independent unit.

*word*

Word Recognition

*word*

Verbal Meaning

Narrower Terms Anagrams, Antonyms, Homographs, Homonyms, Mental Lexicon, Neologismus, Sight Vocabulary, Slang, Synonyms Word Problem

-

Connotative Word Meaning or denotative meaning associated with any verbally informative unit (e. g., morpheme, word, sentence, or phrase).

Related Terms Semantics, Verbal Communication

Antonyms, Consonants, Etymology, Grammar, Homographs, Homonyms, Lexical Access, Lexical Decision, Morphology (Language), Neologismus, Rhyme, Semantics, Synonyms, Vowels, Word Recognition Associative Processes, Human Information Storage, Mental Lexicon, Phonological Awareness, Reading Skills, Recognition (Learning), Sight Vocabulary, Speech Perception, Words (Phonetics Units) Figurative Language, Semantics

67

68

Karin Zimmer et al.

Problem“, welches in der Scope Note wie folgt definiert wird: „A mathematics exercise expressed as a hypothetical situation explained in words that requires an equation to be solved.“ (Zugriff auf PsycINFO zuletzt am 04.02.2019 über EBSCOhost). Dokumente, die mit diesem für die aktuelle inhaltliche Fragestellung irrelevanten Deskriptor verschlagwortet sind, werden durch die Nutzung der anderen vier Deskriptoren aus der Treffermenge ausgeschlossen. Wäre hingegen statt mithilfe der Deskriptoren mit dem Schlüsselbegriff *word* selbst gesucht worden, würden auch die mit dem Deskriptor „Word Problem“ verschlagworteten Dokumente zur Treffermenge gehören. Eine vollständige Dokumentation des Vorgehens bei allen für die inhaltliche Fragestellung verwendeten Datenbanken gibt Zimmer et al. (2020, Appendix). In einem abschließenden Schritt wurden die datenbankspezifischen Suchstrategien für jede der Fachdatenbanken überprüft: Die Inhaltsexpert*innen des Autorenteams benannten sieben Publikationen zum Thema aus verschiedenen Fachdisziplinen, die durch die Quellensuche auf jeden Fall gefunden werden sollten. Eine Rechercheexpertin überprüfte, ob diese zentralen Publikationen in den Treffermengen enthalten waren oder ob eine iterative Anpassung der Suchabfragen notwendig war, weil augenscheinlich relevante Dokumente nicht gefunden wurden. Letzteres war nicht der Fall. Im genannten Beispiel wird deutlich, wie fachwissenschaftliche und informationswissenschaftliche Expertise zusammenspielen, um einerseits den fachlichen Bedeutungsumfang von Begriffen zu ermessen und andererseits adäquat mit kontrolliertem Vokabular, wie sie z. B. in den Thesauri verzeichnet sind, umzugehen. Wie in Tab. 2 beispielhaft dargestellt, wurden in allen Datenbanken die Suchanfragen strukturiert durchgeführt: S1 spezifiziert dabei die Suche in der Alterspanne der Kinder von 3 Jahren bis zum Schuleintritt, S2 die Suche nach der Art der Intervention und S3 den Berichtsinhalt der Sprachförderung. S4 kombiniert die für die Fragestellung relevanten Deskriptoren. Im letzten Suchschritt wurde zur Fokussierung des Ergebnisses auf die deutsche Sprache bzw. den deutschen Sprachraum die Ergebnismenge mit einer Suche nach German* im Freitext kombiniert. Der komplette Suchterm für die Datenbank PsycINFO ist in Tab. 2 verzeichnet. Die Suchterme für die anderen im Systematic Review durchsuchten Datenbanken finden sich im Appendix von Zimmer et al. (2020).

3.2.3.2 Abfragen an anderen Suchorten Die Suche im Katalog der Deutschen Nationalbibliothek, in dem alle deutschen und deutschsprachigen Publikationen seit 1913 nachgewiesen werden, ist nicht in der komplexen Form wie in den anderen Datenbanken möglich; es lassen sich nur einzelne Begriffe innerhalb der Suchfelder kombinieren. Die Regeln für die Sachund Inhaltserschließung von Publikationen sind in der Gemeinsamen Normdatei

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

69

(Normdatei für Sachschlagworte GND) fixiert (http://www.dnb.de/DE/Standardisierung/GND/gnd_node.html; Stand 20.02.2019). Im Bereich der Sachschlagwörter wurden alle in Verbindung mit Sprache verwendeten Sachbegriffe auf Relevanz untersucht. Dabei stellte sich heraus, dass das Schlagwort „Sprachförderung“ nur im Zusammenhang mit sonderpädagogischer Förderung sprachgestörter u. sprachauffälliger Kinder verwendet wird. Für die pädagogischen Bemühungen zur Sprachbildung bei nicht auffälligen Kindern ist der Gemeinsamen Normdatei nach der Begriff „Spracherziehung“ zu benutzen. Eine mit diesem Begriff durchgeführte Suche erbrachte 1.092 Ergebnisse. Da bei der Deutschen Nationalbibliothek kaum Abstracts dokumentiert werden, wurden die Inklusionskriterien (siehe nächster Abschnitt) in der Folge anhand des Buchtitels und unter Berücksichtigung des Inhaltsverzeichnisses geprüft. Aufgrund der eingeschränkten Zugänglichkeit dieser Informationen wurde die Prüfung im Gegensatz zur Sichtung der Suchergebnisse aus den anderen Datenquellen nicht von den Inhaltsexpert*innen des Autorenteams, sondern von einer der Rechercheexpertinnen durchgeführt. Weder in der Förderdatenbank der Deutschen Forschungsgemeinschaft GEPRIS noch in der zentralen Datenbank zu sozialwissenschaftlichen Forschungsaktivitäten in den deutschsprachigen Ländern SOFIS sind komplexe Abfragen möglich. Die Datenbank GEPRIS wurde mit dem Suchbegriff „Sprachförderung“ durchsucht. Für die Datenbank SOFIS wurde die Suchabfrage „(Sprachförderung oder Spracherziehung) UND (Kindertagesstätte oder Kindergarten)“ verwendet. Zu den gefundenen Projekten wurden gezielte Recherchen zu vorhandenen Publikationen und Dokumenten im Internet vorgenommen, deren Ergebnisse in den Pool gefundener Dokumente aufgenommen wurden. Dubletten, die innerhalb dieser Nachrecherche gefunden wurden, wurden dabei nicht als gefundene Treffer gezählt. Aus der Internetsuche mit den Suchmaschinen Google und Google Scholar wurden jeweils maximal die ersten 100 Treffer berücksichtigt. Für die postalische bzw. E-Mail-Anfrage von Akteuren in der frühkindlichen Bildung wurden 79 deutsche Großstädte, 14 Stiftungen, 45 Verbände, 13 Kultus- oder Sozialministerien der Flächenländer und 29 wissenschaftliche Einrichtungen angeschrieben (Details in Zimmer et al. 2020).

3.3

Sichtung der Suchergebnisse

3.3

Sichtung der Suchergebnisse

In der ersten Spalte von Tab. 4 sind die Suchergebnisse nach Quelle (Datenbank, Katalog, Internetsuche, Post- bzw. Mailumfrage) verzeichnet. Alle gefundenen Dokumente wurden zur weiteren Aufbereitung in das Literaturverwaltungspro69

70

Karin Zimmer et al.

gramm Citavi (Versionen 5 und 6) eingepflegt. Insgesamt 100 Suchergebnisse wurden mehrfach gefunden; diese Dubletten konnten in Citavi leicht identifiziert und der Gesamtdatensatz bereinigt werden. Nach der Bereinigung der Dubletten wurde der Datensatz in das Systematic Review-Tool EPPI-Reviewer 4 (EPPI Centre London) importiert. Wie in den vorangegangenen Abschnitten erläutert, wurde zur Bearbeitung der aktuellen Fragestellung besonderer Wert auf eine möglichst umfassende Quellensuche an verschiedenen Suchorten gelegt. Die angestrebte Vollständigkeit in der Suche ging naturgemäß zu Lasten ihrer Präzision, so dass in der folgenden Sichtung der gefundenen und potenziell relevanten Dokumente, d. h. dem Screening, die für die aktuelle Fragestellung einschlägigen Dokumente identifiziert werden mussten.

3.3.1 Screening on Title and Abstract Die Inhaltsexpert*innen des Autorenteams sichteten alle gefundenen Dokumente und entschieden anhand von Titel und Zusammenfassung (Abstract; falls vorhanden), ob dieses Dokument für die Fragestellung des Reviews einschlägig ist. Bei der Sichtung nach Titel and Abstract wurden nur solche Dokumente ausgeschlossen, die eindeutig nicht im Bereich der Fragestellung lagen. In Zweifelsfällen wurden die Dokumente dem nächsten Schritt „Screening on Fulltext“ zugeführt, um dann auf Grundlage des Gesamttextes eine abgesicherte Entscheidung treffen zu können. Die Ausschlusskriterien bezogen sich auf die verschiedenen Komponenten der inhaltlichen Fragestellung, die auch für die initiale Quellensuche herangezogen worden waren, nämlich das Publikationsjahr, das Ziel der Intervention, das Setting und die Zielgruppe. Konkret wurden alle Dokumente in den nächsten Schritt, das Screening on Fulltext, einbezogen, die den folgenden Kriterien genügten: • Das Ziel der Maßnahme ist die Förderung der deutschen Sprache; • institutionelles Setting: Kindergarten bzw. andere Kindertageseinrichtung; • Dokumentation ab 1949 in Ost- oder Westdeutschland, ab 1990 in der Bundesrepublik Deutschland; • Alter der Kinder zwischen 3 Jahren und Schuleintritt; • keine rein klinische Stichprobe. 90 Prozent der gefundenen Dokumente wurden im Single-Screening-Modus des EPPI-Reviewers von jeweils einem von vier Mitgliedern des Autorenteams bearbeitet, 10 % der gefundenen Dokumente wurden im Doppel-Blind-Verfahren von jeweils zwei Mitgliedern des Autorenteams gesichtet, um die Übereinstimmungs-

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

71

rate zwischen den einzelnen Personen zu prüfen. Da über 5 % der Dokumente im Doppel-Blind-Screening unterschiedlich beurteilt wurden, wurden abschließend alle Dokumente, die im vorherigen Schritt als nicht einschlägig beurteilt worden waren, von einem weiteren Mitglied des Autorenteams gesichtet, das in den vorherigen Beurteilungsschritt nicht eingebunden gewesen war. De facto erfolgte damit eine doppelte Sichtung aller gefundenen Dokumente, bei Nichtübereinstimmung der Einschätzung von zwei Mitgliedern aus dem Autorenteam sogar eine dreifache Sichtung der Dokumente. Auf diese Weise wurden 1169 Dokumente als für die Fragestellung nicht einschlägig identifiziert. Im Datensatz verblieben 1397 Dokumente, welche dem nächsten Screeningschritt zugeführt wurden.

3.3.2 Screening on Fulltext Die Volltexte der Dokumente wurden für diesen Screeningschritt über die Bestände der Frankfurter Forschungsbibliothek, der Universitätsbibliothek Johann Christian Senckenberg der Goethe Universität Frankfurt, der Deutschen Nationalbibliothek sowie über Fernleihen und den Fachinformationsdienst Erziehungswissenschaft beschafft. Von den insgesamt 1397 Dokumenten, deren Volltext benötigt wurde, konnten 1312 Dokumente als Volltexte in den nächsten Sichtungsschritt eingehen. Die Volltexte von 85 Dokumenten konnten nicht zur Verfügung gestellt werden, da die Recherche nur rudimentäre bibliographische Angaben erbrachte, auf deren Grundlage keine effektive Nachrecherche möglich war. Zum Teil wurden auch Angaben zu sogenannter grauer Literatur gefunden, also Publikationen, die nicht über den Buchhandel vertrieben werden. Beispielsweise wurden Angaben zu einem Beobachtungsbogen mit Sprachstandsermittlung für ausländische Lernanfänger von der Regionalen Arbeitsstelle zur Förderung Ausländischer Kinder und Jugendlicher (RAA) aus dem Jahr 1985 gefunden. Diese Arbeitsstelle existiert nicht mehr. Die Nachfolgeinstitution wurde per E-Mail kontaktiert und konnte weder eine Publikation noch einschlägiges Begleitmaterial zur Verfügung stellen. Weiterhin waren einige Publikationen nicht per Fernleihe ausleihbar oder konnten aufgrund mehrfacher Vormerkungen nicht in einem vertretbaren Zeitraum zugänglich gemacht werden. Der Schritt Screening on Fulltext beinhaltet auch Internetquellen, bei denen zum Teil kein Titel und/oder Abstract vorhanden war und die somit nicht effektiv im Schritt Screening on Title and Abstract betrachtet werden konnten. So wurden beispielsweise die gefundenen Internetseiten als PDF in Citavi abgespeichert und wären im ersten Screening-Schritt nicht sinnvoll zu sichten gewesen. 71

72

Karin Zimmer et al.

Als Entscheidungskriterien für das Screening on Fulltext wurden dieselben Kriterien wie im Screening on Title and Abstract genutzt. Alle Volltexte wurden im Doppel-Blind-Verfahren gesichtet. Waren sich die beiden Beurteilenden über die Einschlägigkeit eines Dokuments uneinig, sichtete eine dritte beurteilende Person aus dem Autorenteam diese Dokumente und fällte eine endgültige Entscheidung. Nachdem die Volltexte zur Bewertung der Relevanz der Quellen hinzugezogen wurden, wurden schließlich 333 Dokumente identifiziert, die für die aktuelle inhaltliche Fragestellung einschlägig sind (für eine detaillierte Beschreibung des Screenings und seiner Ergebnisse siehe Zimmer et al. 2020). Tab. 4

Suchergebnisse nach Informationsquellen

Quelle

Education Research Complete ERIC FIS Bildung PsycArticles PsycINFO PSYNDEX SOFIS + Nachrecherche GEPRIS + Nachrecherche Google Google Scholar Deutsche Nationalbibliothek (nach Vorsichtung) Post/Mail + Nachrecherche Gesamt

Trefferanzahl* (Januar / Februar 2017)

davon gehen in die Kodierung ein*

davon nur in dieser Quelle

427

5

47 1596 1 188 36 47 32 100 26 10

0 180 1 18 24 1 5 16 6 6

0 150 0 4 13 1 1 15 1 1

0 9,4 0 2,1 36,1 2,1 3,1 15,0 3,8 10,0

156

126

114

73,1

2666

388

300+

Anzahl Anteil [%] 0 0

Anmerkungen. Hier sind noch Dubletten enthalten, d. h. Dokumente, die in mehr als einer Quelle gefunden wurden. *

Hinzu kommen 33 Dokumente, die in mehr als einer Quelle gefunden wurden und ebenfalls in die Kodierung eingehen. +

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

73

Wie nützlich waren die einzelnen Quellen für die aktuelle Fragestellung? Tabelle 4 verzeichnet für jede Quelle die Anzahl der dort gefundenen Dokumente, die beide Sichtungsschritte (also zunächst Screening on Title and Abstract und anschließend Screening on Fulltext) durchliefen und dort als einschlägig für den Systematic Review identifiziert wurden (mittlere Spalte). Besonders auffallend ist, dass 90 Prozent der Dokumente, die nach dem Screening on Fulltext einer Kodierung zugeführt wurden, unikal sind, d. h. ausschließlich in dieser Quelle gefunden wurden (letzte Spalte in Tab. 4). Dies kann als bestätigender Hinweis darauf gewertet werden, dass die sehr aufwändige und breite Suche in einer Vielzahl verschiedener Datenquellen für die Bearbeitung der aktuellen inhaltlichen Fragestellung tatsächlich sinnvoll und notwendig war. Festzuhalten ist auch, dass gerade die in den verschiedenen wissenschaftlichen Fachdisziplinen eher unüblichen Datenquellen einen überproproportional hohen Beitrag erbrachten. Der höchste Anteil – 73,1 % – ist dabei für die Rückmeldungen zur postalischen bzw. E-Mail-Anfrage und den damit verbundenen Nachrecherchen zu verzeichnen. Den relativ gesehen zweithöchsten unikalen Beitrag erbringt die Datenbank PSYNDEX (36,1 %), was auf die sprachliche Gebundenheit der wissenschaftlichen Arbeiten zu diesem Thema hinweist. Es folgen die Suche in der Internetsuchmaschine Google (15 %) und im Katalog der Deutschen Nationalbibliothek (10 %) sowie in der FIS Bildung Literaturdatenbank (9,4 %).

3.4

Fazit und Ausblick

3.4

Fazit und Ausblick

Systematic Reviews haben den Anspruch, einen Überblick über das gesamte Wissen zu geben, das zu einer praxisrelevanten Fragestellung vorliegt. Diesem Anspruch kann man nur gerecht werden, wenn eine passgenau zur inhaltlichen Fragestellung entwickelte systematische Suchstrategie zugrunde gelegt wird. Der vorliegende Beitrag beschreibt das Zusammenspiel von informations- und fachwissenschaftlicher Expertise, das dazu nötig ist. Die informationswissenschaftliche Kompetenz kommt besonders bei der Konzeptualisierung der Suchstrategie, der Formulierung der Suchabfragen unter Berücksichtigung der für die Fragestellung benötigten Präzision und Vollständigkeit, der Durchführung der Recherchen wie auch bei den Nachrecherchen, der Verwaltung der Suchergebnisse und dem Beschaffen und Verwalten der Volltext-Dokumente zum Tragen. Sie ist dabei stets im Austausch mit der fachwissenschaftlichen Seite: Diese definiert die Kriterien nach denen gesucht werden soll, identifiziert potenziell relevante weitere Hinweise und Dokumente für Nachrecherchen und sichtet die gefundenen Dokumente auf ihre Einschlägigkeit für die Fragestellung. Gleichzeitig wird aus der Abweichung des 73

74

Karin Zimmer et al.

Ergebnisses dieser Suche von dem anderer Überblicksarbeiten deutlich, dass eine interdisziplinäre, von fach- und informationswissenschaftlicher Seite befruchtete Suche eine weit umfassendere Basis für Analysen zur Verfügung stellt als eine rein fachwissenschaftlich vorangetriebene. Das interdisziplinäre Zusammenspiel der verschiedenen fachlichen Kompetenzen erweist sich damit als zentrale Gelingensbedingung für die Methode des Systematic Review. Der Beitrag verdeutlicht, dass die inhaltliche Fragestellung maßgeblich die Ausgestaltung der Suchstrategie bestimmt. Gerade um praxisrelevante oder aus der Praxis hervorgegangene Fragen zu bearbeiten, sollte die Suche daher möglichst breit angelegt werden und dabei die Spezifika der verschiedenen Quellen, etwa über die Verwendung von Scope Notes und kontrollierten Vokabularen, berücksichtigen. Die Vielzahl und Unterschiedlichkeit der gefundenen Quellen zum Thema Sprachförderung kann als deutlicher Hinweis auf die Angemessenheit der Methode des Systematic Review für dieses Thema und damit als erster Erfolg des beschriebenen Projekts interpretiert werden. In den nächsten Arbeitsschritten zur Bearbeitung der eingangs im Exkurs vorgestellten Forschungsfrage wird das gefundene und als einschlägig beurteilte Material nun anhand eines Kodierschemas inhaltlich ausgewertet und anschließend interpretiert. Diese Arbeitsschritte betreffen nicht mehr das Thema des vorliegenden Beitrags, es kommt dabei vielmehr maßgeblich auf die wissenschaftlich fundierte Aufarbeitung der Einzelergebnisse unter Berücksichtigung der Beweiskraft der einzelnen empirischen Untersuchungen („weight of evidence“, siehe z. B. Gough et al. 2017) an. Zur Beurteilung der Beweiskraft wird dabei die Relevanz der Untersuchung für die Forschungsfrage, die Angemessenheit des Untersuchungsplans für ihre Beantwortung und die Durchführung der Untersuchung herangezogen (für eine detaillierte Schilderung der aus den Einzeluntersuchungen extrahierten Informationen und der Beurteilung ihrer Beweiskraft siehe Zimmer et al. 2020).

Literatur Literatur

Andrews, R., Torgerson, C., Beverton, S., Freeman, A., Locke, T., Low, G., Robinson, A., & Zhu, D. (2004a). The effect of grammar teaching (sentence combining) in English on 5 to 16 year olds’ accuracy and quality in written composition. London: EPPI-Centre, Social Science Research Unit, Institute of Education, University of London. http://eppi.ioe. ac.uk/eppiwebcontent/reel/review_groups/english/eng_rv6/eng_rv6.pdf. Accessed: 18. April 2016.

3 Dokumentenrecherche und -aufbereitung als Qualitätskriterium

75

Andrews, R., Torgerson, C., Beverton, S., Locke, T., Low, G., Robinson, A., & Zhu, D. (2004b). The effect of grammar teaching (syntax) in English on 5 to 16 year olds’ accuracy and quality in written composition. London: EPPI-Centre, Social Science Research Unit, Institute of Education, University of London. http://eppi.ioe.ac.uk/eppiwebcontent/reel/ review_groups/english/eng_rv6/eng_rv6.pdf. Accessed: 18. April 2016. Antes, G., & Lang, B. (2014). Evidenzbasierte Steuerung: Voraussetzungen und Vorgehen am Beispiel der Medizin. In Bundesministerium für Bildung und Forschung (Hrsg.), Bildungsforschung 2020 – Herausforderungen und Perspektiven (S. 128–146). Bonn: BMBF. Autorengruppe Bildungsberichterstattung (2014). Bildung in Deutschland – Ein indikatorengestützter Bericht mit einer Analyse zur Bildung von Menschen mit Behinderungen. Bielefeld: WBV. Bertschi-Kaufmann, A., Gyger, M., Käser, U., Schneider, H., & Weiss, J. (2006). Sprachförderung von Migrationskindern im Kindergarten (Literaturstudie erstellt im Auftrag des Departements Bildung, Kultur und Sport des Kantons Aargau, Schweiz). Burkart, M. (2004). Thesaurus. In R. Kuhlen, T. Seeger & D. Strauch (Hrsg.), Grundlagen der praktischen Information und Dokumentation (S. 147–154). München: Sauer. Bus, A. G., van Ijzendoorn, M. H., & Pellegrini, A. D. (1995). Joint book reading makes for success in learning to read: A meta-analysis on intergenerational transmission of literacy. Review of Educational Research, 65(1), 1–21. doi: 10.3102/00346543065001001. Cirrin, F. M., & Gillam, R. B. (2008). Language intervention practices for school-age children with spoken language disorders: A systematic review. Language, Speech, and Hearing Services in Schools, 39(1), 110–137. doi:10.1044/0161–1461(2008/012). Darrow, C. L. (2009). Language and literacy effects of curriculum interventions for preschools serving economically disadvantaged children: A meta-analysis (Paper presented at the annual meeting of the Society for Research on Educational Effectiveness, Alexandria, Virginia). Egert, F. (2015). Meta-analysis on the impact of in-service professional development programs for preschool teachers on quality ratings and child outcomes (Doctoral dissertation). Bamberg: Otto-Friedrich-Universität Bamberg. Egert, F., & Hopf, M. (2016). Zur Wirksamkeit von Sprachförderung in Kindertageseinrichtungen in Deutschland. Ein narratives Review. Kindheit und Entwicklung, 25(3), 153–163. Egert, F., & Hopf, M. (2018). Wirksame Sprachförderung für mehrsprachige Kinder in Kindertageseinrichtungen. TPS – Theorie und Praxis der Sozialpädagogik, 3, 30–34. Geddes, R., Haw, S. & Frank, J. (2010). Interventions for promoting early childhood development for health: An environmental scan with special reference to Scotland. http://www. scphrp.ac.uk/wp-content/uploads/2014/03/1454-scp_earlyyearsreportfinalweb.pdf. Accessed: 18. April 2016. Gough, D., Oliver, S., & Thomas, J. (2017). An introduction to systematic reviews (2nd edition). London: Thousand Oaks. Greene, J. (1998). A meta-analysis of the effectiveness of bilingual education. http://www. uark.edu/ua/der/People/Greene/Meta_Analysis_Bilingual_Education.pdf. Accessed: 18. April 2016. Hall, K., & Harding, A. (2003). A systematic review of effective literacy teaching in the 4 to 14 age range of mainstream schooling. London: EPPI-Centre, Social Science Research Unit, Institute of Education, University of London. http://eppi.ioe.ac.uk/EPPIWebContent/ reel/review_groups/TTA/English/English_2003review.pdf. Accessed: 18. April 2016. Law J., & Plunkett, C. (2009). The interaction between behaviour and speech and language difficulties: does intervention for one affect outcomes in the other? Tech75

76

Karin Zimmer et al.

nical report. London: EPPI-Centre, Social Science Research Unit, Institute of Education, University of London. http://www.eppi.ioe.ac.uk/cms/LinkClick.aspx?fileticket=Svk0eTlzqkU%3D&tabid=2461&mid=4603. Accessed: 18. April 2016. Mol, S. E., & Bus, A. G. (2011). To read or not to read: A meta-analysis of print exposure from infancy to early adulthood. Psychological Bulletin, 137(2), 267–296. doi: 10.1037/a0021890. Mol, S. E., Bus, A. G., de Jong, M. T., & Smeets, D. J. H. (2008). Added value of dialogic parent–child book readings: A meta-analysis. Early Education & Development, 19(1), 7–26. doi: 10.1080/10409280701838603. Mol, S. E., Bus, A. G., & De Jong, M. T. (2009). Interactive book reading in early education: A tool to stimulate print knowledge as well as oral language. Review of Educational Research, 79(2), 979–1007. Reese, E., Sparks, A., & Leyva, D. (2010). A review of parent interventions for preschool children’s language and emergent literacy. Journal of Early Childhood Literacy, 10(1), 97–117. doi: 10.1177/1468798409356987. Schrader, J. (2014). Analyse und Förderung effektiver Lehr-Lernprozesse unter dem Anspruch evidenzbasierter Bildungsreform. In K. Maaz, M. Neumann, & J. Baumert (Hrsg.), Herkunft und Bildungserfolg von der frühen Kindheit bis ins Erwachsenenalter (Zeitschrift für Erziehungswissenschaft: Sonderheft 17, 193–223). Wiesbaden: Springer VS. Shavelson, R. J., & Towne, L. (2002). Scientific Inquiry in Education. Washington: National Academy Press. Spreckley, M., & Boyd, R. (2009). Efficacy of applied behavioral intervention in preschool children with autism for improving cognitive, language, and adaptive behavior: a systematic review and meta-analysis. Database of Abstracts of Reviews of Effects (DARE): Quality-assessed Reviews http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH0027852/. Accessed: 18. April 2016. Stock, W. G. (2007). Information Retrieval. Informationen suchen und finden. München: Oldenbourg Wissenschaftsverlag. Tachibana, Y., Green, J., Hwang, Y., & Emsley, R. (2012). A systematic review with meta-analysis of comprehensive interventions for preschool children with autism spectrum disorder (ASD): study protocol. BMJ Open. http://bmjopen.bmj.com/content/2/2/e000679.full. Accessed: 18. April 2016. Thiel, F. (2014). Evidenzbasierte Bildungspolitik – Generierung und Nutzung wissenschaftlichen Wissens. In Bundesministerium für Bildung und Forschung (Hrsg.), Bildungsforschung 2020 – Herausforderungen und Perspektiven (S. 116–127). Bonn: BMBF. Zimmer, K., Ehm, J.-H., Kuger, S., Lonnemann, J., Rauch, D., Schulte, J., & Hasselhorn, M. (2020). Interventions for Improving Children’s Language in Early-ChildhoodEducation-and-Care Institutional Settings in Germany: A Systematic Review. London: EPPI-Centre. In preparation.

4

Propensity score matching as a procedure for sample selection. Illustrating the utility for selecting three groups Lilly-Marlen Bihler, Alexandru Agache, Jessica A. Willard, Katharina Kohl and Birgit Leyendecker 4 Propensity score matching as a procedure for sample selection

Lilly-Marlen Bihler et al.

Abstract

A fundamental research question concerns how to evaluate the effectiveness of non-binary interventions when the treatments have been assigned non-randomly, and when control and treatment groups differ on important baseline covariates. This paper illustrates how to deal with this issue by applying propensity score matching to select a balanced sample of early childhood education and care (ECEC) center triplets that received three different types of financial funding. The procedure was applied on population based data of 8906 German centers. Three logistic models were estimated. In each model, two funding conditions were compared by each center’s probability to receive one of the two conditions (the propensity scores). Centers belonging to different conditions, but with similar propensity scores, formed a triplet. For our study, we obtained a sample of 32 ECEC center triplets that did not differ on 44 of the 45 covariates. We illustrate how well balance was established between the three funding conditions. We discuss to what extent causal inferences can be drawn and consider practical challenges. Keywords

balanced sample, evaluation study, quasi-experimental, TriMatch

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 K. Blatter et al. (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich, Edition ZfE 6, https://doi.org/10.1007/978-3-658-26438-3_4

77

78

Lilly-Marlen Bihler et al.

Propensity Score Matching als ein Verfahren zur Stichprobenauswahl. Darstellung der Eignung für die Auswahl von drei Gruppen Zusammenfassung

Wie kann die Wirksamkeit von nicht binären Interventionen evaluiert werden, wenn Treatments nicht randomisiert zugewiesen wurden und sich die Kontrollund Treatmentgruppen auf wichtigen Ausgangs-Kovariaten unterscheiden? Wir stellen den Umgang mit dieser Problematik anhand eines Propensity Score Matchings zur Auswahl einer balancierten Stichprobe von Kita-Drillingen dar, welche drei unterschiedliche Förderungen erhielten. Das Verfahren wurde auf populationsbasierte Daten von 8906 deutschen Kitas angewandt. Es wurden drei logistische Modell geschätzt und dabei jeweils zwei Förderungen anhand der jeweils geschätzten Wahrscheinlichkeiten für eine der beiden miteinander verglichen (Propensity Scores). Einrichtungen mit unterschiedlicher Förderung, aber ähnlichen Propensity Scores, wurden zu einem Drilling zusammengefasst. Für unsere Studie wurde eine Stichprobe von 32 Kita-Drillingen realisiert, die sich auf 44 der 45 Kovariaten gleichen. Wir stellen dar, inwieweit ein Gleichgewicht zwischen den drei Gruppen erreicht wurde. Wir diskutieren, inwieweit kausale Inferenzen möglich sind und betrachten praktische Herausforderungen.

Schlüsselwörter

ausgeglichene Stichprobe, Evaluationsstudie, quasi-experimentell, TriMatch

4 Propensity score matching as a procedure for sample selection

4.1

79

Introduction

4.1 Introduction

Every year, governments all over the world appropriate significant funds to foster quality early childhood education and care (ECEC). Despite the importance of assessing the effectiveness of such financial interventions, they are rarely subject to critical evaluation. One reason is that there is a need to implement complex research designs to reduce the effects of confounding baseline variables whenever funds were allocated non-randomly. For this purpose, methods such as adjusting for covariates in ordinary least square regression, matching, and/or stratification are often applied. However, all of these methods allow including only a restricted number of covariates, and in particular ordinary least square regression often requires unrealistic, strong assumptions to be met. If these assumptions are violated, biased results and incorrect conclusions may occur. One approach that allows researchers to control for a large number of covariates and does not require such strong assumptions to be met is propensity score matching (PSM). Provided that adequate balance between groups was established (a testable assumption), outcomes of treated and untreated subjects are directly comparable in the matched sample. Most previous studies applied PSM to match binary treatments (one treatment and one control condition). In the present study, we demonstrate how to match a non-binary treatment (two treatment conditions and a control condition) using a large number of potential pre-treatment confounding variables from diverse data sources. We illustrate this technique based on a practical example, an evaluation study of the effectiveness of financial funding provided for German ECEC centers. Further, we demonstrate how PSM can be applied to sample selection and not to readily available data as in most prior studies. The advantage of this procedure is that no valuable collected data will be lost due to non-matching.

4.1.1

Propensity score matching

PSM techniques are efficient in reducing effects of confounding variables compared to other PS analysis methods, such as stratification on the PS, inverse probability of treatment weighting using the PS, and covariate adjustment using the PS (Austin et al. 2007). PSM for evaluating a binary treatment starts with estimating a PS for each subject. A PS is the probability of receiving a treatment given a number of observed baseline covariates (Rosenbaum and Rubin 1983). Subjects with similar PSs have comparable distributions of observed baseline covariates. Thus, comparing groups of treated and untreated subjects with similar PSs allows obtaining an estimate of 79

80

Lilly-Marlen Bihler et al.

the average treatment effect (ATE) in quasi-experimental studies. A sample acquired by PSM is comparable to a sample obtained in a randomized controlled trial. In order to receive trustworthy results, PSM requires the assumption of strongly ignorable treatment assignment to be met (Rosenbaum and Rubin 1983). This assumption requires that all variables that influence treatment assignment and outcomes of interest have to be included in the PSs estimation model and each subject must have had a chance for both outcomes of each treatment assignment (yes, no). Propensity scores are usually estimated by specifying a logistic regression model in which treatment assignment is regressed on all observed baseline covariates that are assumed to influence treatment assignment, and/or an outcome of interest (Brookhart et al. 2006; Austin et al. 2007). It is recommended that the covariates are selected based on theoretical assumptions and previous empirical evidence of the respective research subject. For example, if you investigate the effect of a new drug you may include subjects’ baseline weight and height. However, if you investigate the effect of an intervention that aims on improving children’s language skills, you may instead include a baseline measure of these skills. This measure has to be collected before the start of the intervention. Otherwise, the intervention may already have had an effect on this measure. Both in educational and psychological sciences, PSM is increasingly applied to balance data between groups (e. g., Kretschmann et al. 2014; Guill et al. 2017). However, most studies evaluated a binary treatment. Pertinent literature and software packages on PS analysis methods also deal mostly with binary treatments. Rubin (1997) was one of the first to describe PSM with more than two conditions. Recently, PS analysis methods for non-binary treatments were implemented in several R packages (Bryer 2013; McCaffrey et al. 2013; Burgette et al. 2017). A further limitation of previous applications is that PSM techniques were usually applied after data collection, excluding non-matched cases. As a result, collected data were lost due to non-matching. This strategy is somewhat ineffective considering that data collection is time-consuming for participants and cost-intensive for researchers. PSM cannot always be applied before data collection because researchers must have access to information that is related to treatment assignment and outcomes of interest. However, opportunities to obtain such information are often overlooked. There are diverse data sources available, such as data provided by the Federal Statistical Office, data provided in previous reports, socio-spatial data from private institutions, and small-scale data collected by public institutions. Even if not all relevant data are available, we argue that applying PSM would be beneficial for most evaluation designs to ensure better comparability of groups before data collection. The preceding application of PSM would reduce the number of covariates that have to be controlled for in further analyses and would improve the accuracy of estimating treatment effects.

4 Propensity score matching as a procedure for sample selection

81

4.1.2 Evaluating the effect of ECEC funds aimed at increasing educational equity One objective of many funding initiatives is to increase educational equity, which is composed of the dimensions inclusion and fairness (Field et al. 2007). Inclusion demands that all people have access to a minimal standard of education (e. g., basic reading and writing skills) to participate in society. Fairness requires that educational resources are distributed depending on individual needs to ensure that at-risk children are able to catch up. The objective is that educational success is not attributable to individual and social features, such as income, gender or ethnicity. The idea of educational equity is to treat equal children equally and unequal children unequally, whereas the concept of educational equality is to treat all children equally regardless of their individual needs (Lazenby 2016). Numerous studies demonstrated that children do not experience educational equity in most OECD countries (Sirin 2005; Duncan et al. 2010; Hußmann et al. 2017). Evidence suggests that educational equity can be increased by providing high quality early childcare (Peisner-Feinberg et al. 2001; Belsky et al. 2007; Burchinal et al. 2011). Therefore, the government of the federal state of North-Rhine Westphalia (NRW), Germany, invested about 350 million € over a period of five ECEC center years (2014/15 to 2018/19) to improve ECEC quality and thereby foster children’s early German language skills. In Germany, ECEC funds were often allocated equally without taking individual circumstances into account. This so-called scattergun approach involves minimal administrative burden. In order to provide support where it is actually needed, NRW decided on a more differentiated approach by providing targeted funds. One line of funding was provided to ECEC centers attended by a high percentage of documented children in need of language promotion (language promotion centers). A second was provided to ECEC centers located in more socially segregated areas (plus centers). The term ECEC center is used to summarize German ’Kindergärten’, which are accessible for children aged 3–6 and German ’Kindertagesstätten’, which are accessible for children aged 1–6. German ECEC centers commonly provide mixed-age services for children aged up to 6 years. The state allocated the funds to all 186 North-Rhine Westphalian youth welfare offices (YWOs) based on criteria defined in a special law reform on children’s education (Gesetz zur frühen Bildung und Förderung von Kindern 2014). The state provided the YWOs with proposals for small-scale, socio-spatial, and institutional criteria that could be used to redistribute the funds to ECEC centers under their authority. However, the YWOs were free to create their own sets of criteria. The criteria applied included measures of children’s families’ economic and family situation, 81

82

Lilly-Marlen Bihler et al.

immigration rate, and number of children needing language promotion (Jehles 2018). The offices were obliged to allocate annual packages of 5,000 € (language promotion centers) and 25,000 € (plus centers) per selected ECEC center for a five-year funding period. Language promotion centers had to invest the funding in both additional personnel hours for teachers who are specially trained in language promotion and in the further professional development of these teachers. The intention was for these measures to result in higher levels of language promotion in funded centers and in better teacher-child ratios, which are a feature of overall ECEC quality. The funding for plus centers had to be invested in increasing educational opportunities, cooperatively working with parents, developing concepts of language promotion, strengthening team resources, and providing more individualized support for all children. The main purpose was to support the development of children with individual needs, particularly needs related to language promotion. Both types of funding had to be returned if the money was not properly spent.

4.1.3 The present study The state of NRW financed an evaluation of whether the funds contributed to educational equity, as indexed by an increase in ECEC quality and children’s language skills. This required comparing ECEC centers that received (1) simple additional funding as a language promotion center (treat1), (2) double additional funding as a language promotion and as a plus center (treat2), and (3) no additional funding (control). It was not possible to obtain the average effect of each funding for treated ECEC centers by simply comparing both groups of treated and the group of untreated centers, because the funds were allocated non-randomly. For example, the percentage of immigrant children was one criteria often applied by the YWOs to redistribute the funds as these children were likely to have a lower level of German language skills and to grow up in low SES families. The present study examines whether and how the methodological approach of PSM can be applied to enable the comparison of the three funding conditions (treat1, treat2, control) before data collection. We address four research questions: 1) Can PSM be applied to balance potential pre-treatment confounders across the three funding conditions? 2) Are outcome measures balanced across the three funding conditions at the start of the study? We examined this issue because outcome baseline measures were not available to be included in the models to estimate the PSs. In addition, data collection started 1.5 years after ECEC centers had first received funding meaning measures could already have been influenced by the treatments. 3) What challenges are associated with PSM, both in general and, in particular, if PSM is applied for sample selection?

4 Propensity score matching as a procedure for sample selection

83

4) What are possible solutions to these challenges? It is not a part of this paper to evaluate the actual effectiveness of both treatments.

4.2 Method 4.2 Method

There are more than 9600 state-subsidized ECEC centers in NRW. Around 25 % of these centers received treat1 (at least 5.000 € per academic year), and another 14 % of these centers received treat2 (at least 5.000 € + 25.000 € per academic year). Our aim was to select a balanced sample of ECEC center triplets that received treat1, treat2, and no additional funding. In order to specify adequate logistic regression models to estimate the PSs for each ECEC center, we gained access to sociodemographic and organizational data from four data sources. Based on both theoretical assumptions and previous empirical evidence, we selected 45 sociodemographic and organizational variables which we expected to have influenced treatment assignment, outcome variables, or both. Balance was checked on the following measures of outcome: process quality (an aspect of overall ECEC quality), and children’s language skills. Among others, we included covariates measuring structural ECEC characteristics, such as the child-teacher ratio, because of its association with process quality and children’s language skills (Roux and Tietze 2007; Burchinal 2018). Further, we included covariates measuring children’s language background and the socio-economic status of their families because these features are strongly related to children’s early skills in the societal language (e. g., Hammer et al. 2014). The fact that we had access to comprehensive data on different levels (center, district and YWOs specific) is a special feature of this study. Most previous studies included a much smaller number of covariates (e. g., Kretschmann et al. 2014; Arsenijevic and Groot 2018).

4.2.1 Data sources KiBiz.Web. In NRW, state-subsidized ECEC centers are obliged to provide aggregated administrative data in the web-based application KiBiz.Web. The data comprises, for example, information about structural characteristics of the ECEC center, such as the number of classrooms and the percentage of children from families in which German is not the primary family language (hereafter referred to as immigrant children). We received a dataset containing relevant variables for the academic year 2014/2015. Information was provided by N = 9.617 directors. We excluded a total of 83

84

Lilly-Marlen Bihler et al.

711 centers because they did not meet our criteria (e. g., missing information about funding, specialized programs). A final population based sample of 8.906 centers was used: 26 % received treat1, 15 % received treat2, and 59 % received no additional funding. Descriptive information on the covariates from this dataset are in Tab. 1. Microm. The second data source was socio-spatial data obtained from the consumer marketing company Mikromarketing and Consult GmbH (microm) for 2014 (microm GmbH 2015). We received selected information about the districts in which the ECEC centers of our PSM sample were located. This comprised, for example, data about the districts’ average households’ yearly purchasing power, percentages of immigrant and single parent households (see Tab. 2 for descriptives). Some centers were located within the same district, which is why our microm sample (n = 8837) is smaller than the KiBiz.Web sample. We log transformed four covariates because they were not evenly distributed. Allocation criteria of the YWOs. Our third data source was a coding of the YWOs’ criteria to allocate the funds (see Tab. 3). The criteria included measures of children’s families’ economic and family situation, immigration rate, and number of children needing language promotion. Participation in a federal program to promote ‘Language ECEC centers’. Our fourth data source provided by a federal commission was information whether an ECEC center applied for and was likely to receive additional funding in the federal program ‘Language ECEC centers’ from 2016 to 2019. Participation in this program goes along with additional funding to support children’s language skills, one of our outcomes of interest. Around 8 % of the 8.906 centers in our sample were likely to receive this funding.

4.2.2 Preparing data used in the PSM A preceding step of each analysis was exploring and preparing data. We found that six of the covariates provided in the KiBiz.Web dataset had implausible values which had to be dealt with. For example, for some ECEC centers, we had a value of zero classrooms per center. One explanation for this value might be that those centers have closed recently or will open soon. As we could not definitely ascertain that these values were incorrect, we did not exclude them. Overall we had few outliers for a large quantity of data. Several covariates had missing values (percentages are included in Tab. 1, 2, and 3). All missing information was imputed by single imputation using the maximum likelihood EM-algorithm in SPSS IBM v20 that performs well with large sample sizes

4 Propensity score matching as a procedure for sample selection

85

(Enders 2010). There were no differences between the imputed and non-imputed covariance matrices. Covariates from all four data sources were merged into one dataset. Tab. 1

Organizational ECEC center covariates (KiBiz.Web data, N = 8906)

Covariate Childcare provider municipal church parent cooperative other ECEC center received additional funding as a oneclassroom center ECEC center received additional funding as a center in a socially disadvantaged area Number of ECEC center classrooms % of classrooms in legal ownership of the childcare provider % of children attending classrooms for children aged 3–6 % of children attending an mixed-age classroom % of children attending a center for 45 hours/week % of children under the age of 3 % of girls among all children under the age of 3 % of girls among all children aged 3–6 % of children with disabilities among all children under the age of 3 % of children with disabilities among all children aged 3–6 % of immigrant children among all children under the age of 3 % of immigrant children among all children aged 3–6 Child-teacher ratio for children under the age of 3 Child-teacher ratio for children aged 3–6

n M / RF 8906 25 % 40 % 12 % 23 %

SD

Missings 0 %

8905

6 %

< 1 %

8905

6 %

< 1 %

8904

3.06

1.30

< 1 %

8893

71.35

44.70

< 1 %

8904

46.66

29.75

< 1 %

8902 8902 8838 7892 8685

44.15 49.05 20.51 49.02 48.58

31.58 27.34 12.87 21.02 8.10

< 1 % < 1 % < 1 % 11 % 2 %

7892

0.90

5.21

11 %

8685

3.62

6.86

2 %

7892

16.69

22.43

11 %

8673 8686 8578

21.74 1.98 9.13

21.43 0.99 4.08

3 % 3 % 3 %

85

86 Tab. 2

Lilly-Marlen Bihler et al. Sociodemographic covariates relating to the ECEC centers’ districts (Microm, N = 8837, ~1 % Missings)

Covariate ‘Traditional working-class milieu’ (%)a ‘Traditional milieu’ (%)a ‘Uprooted milieu’ (%)a ‘Family with one or more children’ (%)a ‘Young family with one or more children’ (%)a ‘Precarious milieu’ (%)a ‘Religiously-rooted milieu’ (%)a % of children under the age of 3 among all inhabitants (%) % of children aged 3–6 among all inhabitants (%) % of single parent households among all households (%) % of immigrant households among all households (%) % of households in a socially disadvantaged area (%) Unemployment rate Average households’ yearly purchasing power (€)

M SD Min 16.24 6.54 0.00 16.49 3.09 6.50 9.46 3.27 0.00 26.64 7.04 4.66 3.18 1.04 0.66 8.27 1.55 2.92 7.38 2.80 0.00 2.53 0.35 0.00 2.61 0.32 0.00 6.66 2.25 0.00 22.72 15.40 0.00 4.11 6.33 0.00 8.44 5.74 0.00 41964 8031 19021

Max 56.40 28.04 36.70 57.20 11.87 17.20 28.50 4.00 4.10 15.29 95.62 80.04 37.52 73295

Note: a Expressed as 0–100 probabilities to belong to the Sinus-milieu® (microm 2015).

Tab. 3

Criteria used from the YWOs to allocate additional funding for ECEC centers (N = 186)

Covariate Criteria used to allocate funding to language promotion centers % or number of families that received assistance in upbringing % or number of low socio-economic status households % or number of single parent households % or number of immigrant households Average performance in the language test Delfin4 Other criteria Criteria used to allocate funding to plus centers % or number of families that received assistance in upbringing % or number of low socio-economic status households % or number of single parent households % or number of immigrant households Average performance in the language test Delfin4 Other criteria

n

no

153 95 %

yes Missings 5 %

18 %

53 % 3 % 75 % 75 % 11 %

17 % 19 % 17 % 18 % 18 %

157 87 % 13 %

16 %

158 158 157 157 158

15 % 15 % 16 % 16 % 15 %

154 150 154 153 153

47 % 97 % 25 % 24 % 89 %

3 % 92 % 54 % 68 % 85 %

97 % 8 % 46 % 32 % 15 %

4 Propensity score matching as a procedure for sample selection

87

4.2.3 Propensity score matching We applied PSM using the TriMatch-package in R (Bryer 2013). Our goal was to establish balance between two treatment conditions (treat1 and treat2) and one control condition. Hence, not one, but three logistic regression models had to be specified to estimate two PSs for each ECEC center. (1) PS1 = Pr(z = 1|Xtreat1treat2) (2) PS2 = Pr(z = 1|Xtreat2control) (3) PS3 = Pr(z = 1|Xcontroltreat1) PS1 in equation 1 is the estimated probability of receiving treat1 versus treat2 given a vector X of covariates. PS2 and PS3 can be interpreted accordingly. For example, PS1 and PS3 will be estimated for subjects that received treat1. We estimated PSs by the three models (equation 1 to 3). Then, we applied nearest neighbor matching within a stringent caliper of 0.1 to match triplets. The specified caliper is the upper limit for permitted standardized distances between PSs of two ECEC centers. The advantage of this method is that only subjects in areas with substantial overlap of the PSs across the three models will be matched. Thus, centers in matched triplets have very similar distributions on the 45 covariates. We specified that each center should be included in a maximum of one matched triplet. The number of matched triplets depends on all specifications made. For example, more triplets are identified if the caliper is set to a higher value.

4.2.4 Examining effect sizes estimates of covariates used to estimate PSs

We graphically assessed whether balance of covariates was established between the three conditions in the sample of matched triplets. Using the multibalance. plot-function, we plotted Loess-based effect size estimates for each of the 45 covariates across all three logistic regression models, before and after PS adjustment (Bryer 2013). Balance was considered as reasonable if the effect size estimates of most covariates were smaller after than before PS adjustment and if, overall, the estimated effect sizes were small across all three models after PS adjustment.

87

88

Lilly-Marlen Bihler et al.

4.2.5 Checking balance of the triplets participating in our study In order to preclude a clustered data structure within triplets, we excluded triplets containing ECEC centers from the same YWO district. In ascending order of a triplet’s total PSs distance, we asked the directors of the centers to participate in our study. In order to prevent important structural covariates, such as the district of the center, the childcare provider, the geographical distribution, and the regional concentration from having a highly skewed distribution, we repeatedly checked whether their distributions were similar to that of the population of ECEC centers in NRW. For instance, in the ongoing acquisition process, we decided to exclude triplets with more than one church parish childcare provider because we had already acquired a disproportionally high number of these centers. We graphically assessed the degree of common support of the triplets participating in our study in comparison to all matched triplets. Common support implies that there is substantial overlap of the PSs estimated between funding conditions across all three models (Schafer and Kang 2008). Thus, for example, in model 1, there should be no area in which the PS of a treat1 center has no PS counterpart of a treat2 center. In addition, we estimated one-way ANOVAs for each continuous covariate and a Pearson chi-square test for every categorical covariate used in the logistic regression models to estimate the PSs. The power for a one-way independent ANOVA to detect an effect of η2 = .10 was around .81 at a significant α-level of .05.

4.2.6 Checking balance of outcome measures for the first wave of data collection We examined whether a measure of each of our outcomes, ECEC process quality and children’s language skills, was balanced across the three funding conditions at the onset of the study. Data collected in the first of three waves of the study (February to October 2016) was used. The balance of both measures across groups was checked using Welch’s ANOVAs on data aggregated at the ECEC center level. Measure of process quality. We assessed process quality in N = 177 classrooms (M = 1.86 classrooms per ECEC center) using the Classroom Assessment Scoring System for pre-kindergarten children (CLASS Pre-K; Pianta et al. 2015). CLASS assesses teacher-child interactions by three domains: emotional support (ES), classroom organization (CO), and instructional support (IS). Observations were conducted by eleven certified observers who participated in a two-day training and passed a reliability test. The observers rated four cycles of 20 min each in every classroom.

4 Propensity score matching as a procedure for sample selection

89

Mean scores of the four cycles and of each domain were calculated. Cronbach’s alphas were α = .77 (ES), α = .80 (CO), and α = .79 (IS). Observers classified most centers (84 %) as having a closed concept (children spend most of their time in a classroom with the same teachers and children). The remaining centers were classified as having an open concept in which children are grouped in a homeroom, but can also choose from a variety of activities offered in other rooms. In centers with an open concept, it was reasonable to conduct only one CLASS Pre-K observation. This single observation per center was counted as one classroom observation. Thus, classroom refers to the unit of CLASS Pre-K observation. Measure of receptive vocabulary. In each of the classrooms, several randomly chosen children were tested on their receptive German vocabulary (N = 2232 randomly chosen children; M = 23.49 children per ECEC center). Children’s mean age was 54 month, ranging from 30 to 80 months. We used a computer-based German version of the fourth edition of the Peabody Picture Vocabulary Test (PPVT-IV; Dunn und Dunn 2007; Lenhard et al. 2015). Children were administered a varying number of item sets depending on their individual German vocabulary level. We used population-normed t-scores in the analyses.

4.3 Results 4.3 Results

In order to select a balanced sample of treat1, treat2, and control ECEC centers, we applied PSM on a sample of 8.906 centers using 45 covariates. For each of the three logistic regression models that were used to estimate PSs, the strengths of associations between the respective outcome and the baseline covariates was assessed using a measure analogous to the coefficient of determination, namely the Nagelkerke Pseudo R²N. Associations between the respective outcomes and the baseline covariates were moderate to strong (R²Ntreat1treat2 = 0.50, R²Ntreat2control = 0.79, R²Ncontroltreat1 = 0.45). In a second step, we identified a total number of 292 matched triplets (876 centers). Thus, around 10 % of the centers were kept in the matched sample.

89

90

Lilly-Marlen Bihler et al.

4.3.1 Examining effect size estimates of covariates used to estimate PSs The standardized Loess-based estimates of effect size for each of the 45 covariates across all models were calculated before and after PS adjustment and plotted in a multiple covariate balance plot in Fig. 1 (Bryer 2013). Standardized differences in covariates before PS adjustment ranged from near zero (e. g., district of the YWO) to very large (e. g., percentage of immigrant children among all children aged three to six in model 2). After PS adjustment these differences reduced significantly. The mean effect sizes in model 1 reduced from 0.27 to 0.04, in model 2 from 0.44 to 0.12, and in model 3 from 0.20 to 0.03. This indicates that, overall, reasonable balance between treat1, treat2, and control centers was established.

Fig. 1

Multiple covariate balance plot displaying standardized effect size estimates of each covariate on treatment status across all three logistic regression models before and after PS adjustment.

4 Propensity score matching as a procedure for sample selection

91

4.3.2 Acquiring a sample of triplets for participation in our study We asked the directors of the 150 ECEC centers in the 50 triplets that had the smallest total PSs distance to participate in our study. Initially, we acquired a sample of 27 triplets. Of the remaining 23 triplets (69 centers), 27 center directors agreed to participate, 27 directors declined to participate and 15 directors were not asked to participate because a director of a center in the corresponding triplet had already declined participation. Our decision to exclude a triplet from our study if one director of a center in the triplet declined participation (while two directors might already have agreed to participate) caused frustration in some cases. Several directors were very interested and had already invested time in learning about the study. They perceived the study as a chance to receive information about the language skills of children attending their center. We strove to find a mutually satisfying solution. We investigated whether new triplets with similar distributions on the covariates could be matched out of the 27 centers that were willing to participate but were part of a triplet where directors of other centers had declined. Matching triplets in this way ‘by hand’ was possible for 15 centers (five triplets). Therefore, we achieved a total sample of 32 triplets (96 centers). One center left the study just before the scheduled date for data collection. Thus, 95 ECEC centers remained in the sample.

4.3.3 Checking balance of triplets participating in our study We graphically assessed common support of the estimated PSs within each model for the triplets participating in our study in comparison to all 292 matched triplets. First consider the graphs on the left side of Fig. 2. Here, the density distributions of the PSs of all matched centers are plotted. The graphs illustrate complete overlap of the PSs estimated between funding conditions across all three models. This was to be expected because of the application of nearest neighbor matching within a very stringent caliper. Even though the densities of the PSs are not equally distributed (e. g., in model 1 most matched centers had a high estimated PS; thus, a high probability to receive treat2), the entire range of PSs (0 to 1) was covered across all three models. The graphs on the right side of Fig. 2 illustrate the density distributions of the centers participating in our study. Overall, they show adequate overlap of the PSs between funding conditions across all three models. However, some PSs had no PS counterpart. Those are the rare cases of triplets matched ‘by hand.’ The right graphs of Fig. 2 also illustrate that mainly centers with high estimated PSs 91

92

Lilly-Marlen Bihler et al.

in models 1 and 2 were acquired to participate in our study (most centers had a high probability to receive treat2), while the estimated PSs in model 3 were almost normally distributed.

Fig. 2

Density plots of the PSs’ distributions across all three models in all 292 matched triplets (left), and in the 32 matched triplets participating in our study (right).

In a next step, we empirically assessed whether balance between the three funding conditions was achieved for the participating triplets by conducting one-way independent ANOVAs for each continuous and Pearson chi-square tests for each categorical covariate. Our results show that only one covariate, the percentage of legal ownership that a childcare provider had of the ECEC center building, still had a significant effect of η² = .09 on treatment assignment, F(2,51.94) = 5.33, p < .01. In contrast, none of the other 44 covariates had a significant effect on treatment assignment (an overview table can be provided upon request). In Fig. 3, we plotted two bar charts respectively showing the means of one exemplary covariate for all three funding conditions of all ECEC centers in the initial samples and of the 95 centers participating in our study. Each chart illustrates one of the variables that had one of the largest effect sizes in the initial sample. In the left chart, we plotted the covariate percentage of immigrant children among all children aged three to six of the KiBiz.Web dataset (ECEC center level) and in the right chart, we plotted the covariate average households’ yearly purchasing power (€; district level). Both charts reveal a remarkable reduction of mean differences between the three funding conditions in the matched sample.

4 Propensity score matching as a procedure for sample selection

Fig. 3

93

Means of the covariate immigrant children among all children aged three to six (%; left) and of the covariate average households’ yearly purchasing power (€; right) of all ECEC centers in the initial samples and of the 95 centers participating in our study. Error bars represent 95 % confidence intervals.

4.3.4 Checking balance of outcome measures for the first wave of data collection We examined whether two measures of our outcomes, ECEC process quality and children’s German receptive vocabulary, were balanced across the three funding conditions at the start of data collection. Our results show that all three domains of process quality assessed by the CLASS Pre-K were balanced across the three funding conditions on the ECEC center level, F(2,61.16) = 1.45, p = .24, η² = 0.03 (ES), F(2,60.84) = 1.98, p = .15, η² = 0.04 (CO), F(2,61.12) = 0.82, p = .45, η² = 0.02 (IS). Children’s vocabulary was also balanced across funding conditions at the center level, F(2,61.10) = 1.38, p = .26, η² = 0.03.

4.4 Discussion 4.4 Discussion

Quasi-experimental evaluation studies of ECEC interventions face the challenge of establishing balance between two or more groups. We explored the sophisticated approach of PSM. The advantage of this approach is that it allows researchers to control for a large number of potential confounders for estimating causal treatment effects. Even though PSM is increasingly applied in educational and psychological sciences, most previous applications were limited in two ways. The opportunity to establish balance at an early stage, before data collection to select a sample, was often neglected and applications were usually restricted to two-group comparisons. We demonstrated that PSM offers further opportunities by applying the method 93

94

Lilly-Marlen Bihler et al.

for sample selection of ECEC center triplets that received three different types of funding. We had an ideal basis to apply PSM, comprehensive baseline data on all state-subsidized centers in NRW. We found that adequate balance could be established between treat1, treat2 and control centers. This was the case for the complete sample of matched triplets, as well as for the final sample of matched triplets that participated in our study.

4.4.1 How strong were the associations between the covariates used in the logistic regression models and the estimated PSs? For each of the three logistic regression models, associations between the predicted probabilities for treatment assignment (the estimated propensity scores) and the baseline covariates were moderate to strong (R²N = 45–79 %). The strongest associations appeared for the ECEC center’s percentages of immigrant children and data related to socio-economic spatial characteristics of the center’s district. This was to be expected because the state applied both criteria to allocate the funds to the YWOs and recommended that the YWOs also apply these criteria, among others, to distribute the funds. The objective of the funding lines was to increase educational equity as indexed by an increase of ECEC process quality and children’s early language skills. Therefore, using these criteria is justified by findings of previous studies showing that center composition and regional indicators of socio-economic deprivation are correlated with process and structural quality in German ECEC centers (Stahl et al. 2018) and children’s language skills (Weiland and Yoshikawa 2014).

4.4.2 Are pre-treatment outcome measures balanced across the three funding conditions? We had no information about baseline measures of our outcomes of interest, ECEC process quality, and children’s early societal language skills. Fortunately, the rich data allowed including several covariates in the logistic regression models that were likely to be closely related to the outcomes of interest. Another issue was that data collection started 1.5 years after ECEC centers had first started to receive funding. As a consequence, we did not know whether the treatments had already had an effect on the outcomes before the study started. However, our results showed that two measures of our outcomes of interest – process quality, and children’s receptive

4 Propensity score matching as a procedure for sample selection

95

vocabulary – were balanced between the three funding conditions when the study began. Therefore, results on the effectiveness of the funding lines from the ongoing three-year longitudinal part of this study should not be too biased by the exclusion of pre-treatment outcome data.

4.4.3 What causal treatment effects can be estimated in the matched sample? In the sample participating in our study, balance for 44 of the 45 potential pre-treatment confounders could be established between the three conditions. The one variable that was not balanced can be included in further analyses as a covariate. However, can results obtained in the matched sample be generalized? Most ECEC centers in our sample were likely to receive at least one type of funding. As a consequence, treatment effects will be estimated more reliably for centers that had a high probability of receiving a funding than for centers that did not. This is not problematic for our study because the focus is on whether the funding lines are effective for centers that are likely to receive funding since the funding lines were provided by a targeted approach. However, for other studies, a normal distribution of participants’ probabilities to receive treatment may be important to reliably estimate treatment effects. This may be the case for studies evaluating the effectiveness of a funding allocated by a scattergun-approach.

4.4.4 Challenges of PSM and recommendations The more groups one wishes to compare, the higher the probability that at least one subject of a match declines participation. Due to issues resulting from at least one ECEC center in the triplet declined to participate, we strove to find a compromise between strong methodology and practical feasibility by re-matching a small number of triplets by hand. Despite this practice, 44 of the 45 covariates used in the PSM had no significant mean differences between the three funding conditions in our final sample. This indicates that our approach of re-matching some triplets by hand had no negative impact on the covariate balance between funding conditions. Another approach to dealing with the problem of non-participation would have been to adjust the matching algorithm by specifying that each center may be included in several matches, also known as one-to-n matching or matching with replacement. Using such a technique, non-participation does not automatically lead to the loss of subjects that are willing to participate if they are part of a match 95

96

Lilly-Marlen Bihler et al.

where other subjects declined. In our study, the participation rate of complete initial triplets was comparably high (54 %) considering that all three centers of a triplet had to participate. Once one has obtained a sufficient sample, attrition can create new challenges in longitudinal studies. When data collection is completed, we will have to investigate whether our sample is still balanced or whether triplets in which one or more centers had withdrawn from the study have to be excluded from further analyses. Attrition rates reported in previous studies in the research field can be examined to obtain a good estimate of data loss to be expected and the required sample size to be obtained. One practical solution to these problems is to calculate sample weights based on estimated propensity scores for non-response or attrition. Currently, the R package twang can be used for this purpose (Ridgeway et al. 2017). One should be aware that PSM does not ensure that a representative sample is obtained. For example, there are few triplets containing centers that are attended by very high percentages of immigrant children in our sample because the percentage of immigrant children was one criterion of the YWOs for allocating the funding for language promotion centers. As a consequence, centers that were attended by very high percentages of immigrant children had a very high probability of receiving funding as a treat1 or as a treat2 center, and it was difficult to find adequate control centers that were attended by a comparable percentage of immigrant children to form a triplet. This limitation of the generalizability of results has to be addressed in future publications that analyze observational data. A recent paper written by Austin et al. (2018) investigates whether there is a preferable method of estimating propensity score models when using data from sample surveys that intend to provide nationally representative estimates.

4.4.5 Limitations The major limitation of PS analysis techniques in general is that balance could only be established on observed and not on unobserved confounders (Austin et al. 2007; Dugoff et al. 2014). However, on the basis of several strengths of this study (data were available on the population level of ECEC centers, a large set of observed pre-treatment covariates was used to obtain most accurate PS estimates, and nearest neighbor matching with a very conservative caliper was applied), it appears unlikely that the PSM was strongly biased by omitting unmeasured covariates. Another limitation concerns the covariates’ clustering on different levels (centers were clustered in districts, and districts were clustered in YWOs). Due to the lack of controlling for clustering in the models predicting the PSs, the standard errors

4 Propensity score matching as a procedure for sample selection

97

of the parameter estimates might be biased. Unfortunately, available statistical software did not allow us to control for this. It remains to be examined whether and to what degree PSs are biased due to neglecting clustering. A third limitation concerns the lack of complex design calculations for choosing the optimal sample size for our study (Gelman and Carlin 2014). The power in complex multilevel/longitudinal scenarios will vary depending on many factors (e. g., sample sizes of child, classroom and center level data; patterns of missing data, etc.). However, the achieved sample size of 95 ECEC centers is realistic for studies collecting data on the child, classroom and center level and comparable to other previous studies (e. g., the German longitudinal project BiKSplus[3-13]; Ebert et al. 2013).

4.4.6 Conclusion The purpose of this study was to investigate whether balance between two treatment conditions and one control condition of financial interventions in ECEC can be established by the application of PSM for sample selection. Therefore, a large number of potential observed confounders was used. Our results indicated good performance of the technique. The established balance between groups allows us to evaluate the effectiveness of the funding lines for treated centers and to make a statement about whether the funding lines contributed to increased educational equity in future studies analyzing our observational data. Policy makers should be encouraged to finance such advantageous evaluation. They could learn whether the intervention is effective, why it is or is not effective, and how it can be improved. Further, they could demonstrate accountability for the use of public resources. In our study, conditions for the application of PSM were good. However, we expect that including a smaller number of covariates to estimate the PSs is not problematic if the covariates are highly predictive for treatment assignment and outcomes measures of interest. We encourage researchers to explore possibilities of the application of PSM that go beyond the scope of previous studies. At the same time, we recommend being aware of several issues, such as the generalizability of results obtained in the matched sample and consequences for sample acquisition and attrition.

97

98

Lilly-Marlen Bihler et al.

Funding The research project SEIKA-NRW was funded by the Ministry for Children, Families, Refugees and Integration (MKFFI) of North-Rhine Westphalia.

Acknowledgments We thank all participating students, parents, and preschools who made this study possible. We also thank our colleagues and research partners at the Ruhr-University of Bochum, at the German Youth Institute (DJI), and at the research network DJI/ TU Dortmund, in particular Alexander Sommer and Nora Jehles, for their support while carrying out the study SEIKA-NRW.

References References

Arsenijevic, J., & Groot, W. (2018). Lifestyle differences between older migrants and non-migrants in 14 European countries using propensity score matching method. International Journal of Public Health, 63(3), 337–347. Austin, P. C., Grootendorst, P., & Anderson, G. M. (2007). A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: A Monte Carlo study. Statistics in Medicine, 26(4), 734–753. Austin, P. C., Jembere, N., & Chiu, M. (2018). Propensity score matching and complex surveys. Statistical Methods in Medical Research, 27(4), 1240–1257. Belsky, J., Vandell, D. L., Burchinal, M., Clark-Stewart, K. A., McCartney, K., & Owen, M. T. (2007). Are there long-term effects of early child care? Early Childhood Research Quarterly, 78(2), 681–701. Brookhart, M. A., Schneeweiss, S., Rothman, K. J., Glynn, R. J., Avorn, J., & Stürmer, T. (2006). Variable selection for propensity score models. American Journal of Epidemiology, 163(12), 1149–1156. Bryer, J. (2013). TriMatch: An R package for propensity score matching of non-binary treatments. https://pdfs.semanticscholar.org/716d/cc948d6481c362c0c7b9c2d9cd16fb31be52. pdf. Accessed: 15. June 2019. Burchinal, M. (2018). Measuring Early Care and Education Quality. Child Development Perspectives, 12(1), 3–9. Burchinal, M., Kainz, K.-, & Cai, Y. (2011). How well do our measures of quality predict child outcomes? A meta-analysis and coordinated analysis of data from large-scale studies of early childhood settings. In M. Zaslow, I. Martinez-Beck, K. Tout, & T. Halle (Eds.), Quality measurement in early childhood settings (pp. 11–31). Baltimore: Paul H Brookes Publishing. Burgette, L. F., Griffin, B. A., & McCaffrey, D. F. (2017). Propensity scores for multiple treatments: A tutorial for the mnps function in the twang package. https://cran.r-project.org/ web/packages/twang/vignettes/mnps.pdf. Accessed: 15. June 2019.

4 Propensity score matching as a procedure for sample selection

99

Dugoff, E. H., Schuler, M., & Stuart, E. A. (2014). Generalizing observational study results: Applying propensity score methods to complex surveys. Health Services Research, 49(1), 284–303. Duncan, G., Kalil, A., Ziol-Guest, K., Duncan, G. J., Ziol-Guest, K. M., & Kalil, A. (2010). Early-childhood poverty and adult attainment, behavior, and health. Child Development, 81(1), 306–325. Dunn, L. M., & Dunn, D. M. (2007). PPVT-4: Peabody Picture Vocabulary Test (4th ed.). Minneapolis, MN: NCS Pearson. Ebert, S., Lockl, K., Weinert, S., Anders, Y., Kluczniok, K., & Rossbach, H. G. (2013). Internal and external influences on vocabulary development in preschool children. School Effectiveness and School Improvement, 24(2), 138–154. Enders, C. K. (2010). Applied missing data analysis. New York: The Guilford Press. Field, S., Kuczera, M., & Pont, B. (2007). No more failures. Ten steps to equity in education. Paris: OECDpublishing. Gelman, A., & Carlin, J. (2014). Beyond power calculations: Assessing Type S (sign) and Type M (magnitude) errors. Perspectives on Psychological Science, 9(6), 641–651. Gesetz zur frühen Bildung und Förderung von Kindern. (2014). https://recht.nrw.de/lmi/owa/ br_text_anzeigen?v_id=10000000000000000386. Accessed: 15. June 2019. Guill, K., Lüdtke, O., & Köller, O. (2017). Academic tracking is related to gains in students’ intelligence over four years: Evidence from a propensity score matching study. Learning and Instruction, 47, 43–52. Hammer, C. S., Hoft, E., Uchikoshi, Y., Gillanders, C., Castro, D. C., & Sandilos, L. E. (2014). The language and literacy development of young dual language learners: A critical review. Early Childhood Research Quarterly, 29(4), 715–733. Hußmann, A., Stubbe, T. C., & Kasper, D. (2017). Soziale Herkunft und Lesekompetenzen von Schülerinnen und Schülern. In A. Hußmann, H. Wendt, W. Bos, A. Bremerich-Vos, D. Kasper, E.-M. Lankes & R. Valtin (Eds.), IGLU 2016. Lesekompetenzen von Grundschulkindern in Deutschland im internationalen Vergleich (pp. 195–217). Münster: Waxmann. Jehles, N. (2018). Lupe statt Gießkanne? Analyse der Verteilung der Landeszuschüsse für plusKITA-Einrichtungen und zusätzlichen Sprachförderbedarf durch die Jugendämter in Nordrhein-Westfalen. Dortmund: Eigenverlag Forschungsverbund DJI/TU Dortmund. Kretschmann, J., Vock, M., & Lüdtke, O. (2014). Acceleration in elementary school: Using propensity score matching to estimate the effects on academic achievement. Journal of Educational Psychology, 106(4), 1080–1095. Lazenby, H. (2016). What is equality of opportunity in education? Theory and Research in Education, 14(1), 65–76. Lenhard, A., Lenhard, W., Segerer, R., & Suggate, S. (2015). Peabody Picture Vocabulary Test (4. edition). Frankfurt. McCaffrey, D. F., Beth Ann Griffin, B. A., Almirall, D., Slaughter, M. E., Ramchand, R., & Burgette, L. F. (2013). A tutorial on propensity score estimation for multiple treatments using generalized boosted models. Statistics in Medicine, 32(19), 3388–3414. microm GmbH. (2015). microm Datenhandbuch 2015. Neuss. https://www.microm.de/ fileadmin/media/document/Handbuch_Daten_2015_DE.pdf. Accessed: 15. June 2019. Peisner-Feinberg, E. S., Burchinal, M. R., Clifford, R. M., Culkin, M. L., Howes, C., Kagan, S. L., & Yazejian, N. (2001). The relation of preschool child-care quality to children’s cognitive and social developmental trajectories through second grade. Child Development, 72(5), 1534–1553. 99

100

Lilly-Marlen Bihler et al.

Pianta, R. C., La Paro, K. M., & Hamre, B. K. (2015). Classroom Assessment Scoring System manual, pre-K. Baltimore: Paul H. Brookes Publishing Co. Ridgeway, G., Mccaffrey, D., Morral, A., Burgette, L., & Griffin, B. A. (2017). Toolkit for weighting and analysis of nonequivalent groups: A tutorial for the twang package. Rand, 1–30. Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55. Roux, S., & Tietze, W. (2007). Effekte und Sicherung von (Bildungs-)Qualität in Kindertageseinrichtungen. Zeitschrift für Soziologie der Erziehung und Sozialisation, 27(4), 367–384. Rubin, D. B. (1997). Estimating causal effects from large data sets using propensity scores. Annals of Internal Medicine, 127, 757–763. Schafer, J. L., & Kang, J. (2008). Average causal effects from nonrandomized studies: A practical guide and simulated example. Psychological Methods, 13(4), 279–313. Sirin, S. R. (2005). Socioeconomic status and academic achievement: A meta-analytic review of research. Review of Educational Research, 75(3), 417–453. Stahl, J. F., Schober, P. S., & Spiess, C. K. (2018). Parental socio-economic status and childcare quality: Early inequalities in educational opportunity? Early Childhood Research Quarterly, 44(3), 304–317. Weiland, C., & Yoshikawa, H. (2014). Does higher peer socio-economic status predict children’s language and executive function skills gains in prekindergarten? Journal of Applied Developmental Psychology, 35(5), 422–432.

Sicherung der Qualität von Beobachtungen der ErzieherIn-Kind-Interaktion mit dem Classroom Assessment Scoring System

5

Anja Leber, Gisela Kammermeyer und Susanna Roux 5 Sicherung der Qualität von Beobachtungen …

Anja Leber, Gisela Kammermeyer und Susanna Roux

Zusammenfassung

Die Qualität der Interaktion zwischen Erwachsenen und Kindern ist der Motor für die kindliche Entwicklung (vgl. Bronfenbrenner und Morris 2006, S. 798), weshalb der Beobachtung von Interaktionsprozessen in Kita und Schule derzeit in der Forschung eine hohe Bedeutung zukommt. Die Sicherung der Qualität solcher Beobachtungsdaten ist entscheidend für deren Aussagekraft. Aus diesem Grund müssen die Rater bei dem in der internationalen Forschung weit verbreiteten Verfahren Classroom Assessment Scoring System (CLASS; Pianta et al. 2008) eine aufwändige Schulung durchlaufen, bevor sie dieses anwenden dürfen. Es finden sich jedoch Hinweise dafür, dass diese Zertifizierung nicht immer ausreichend ist, um die Datenqualität zu sichern. Die vorliegende Studie geht der Frage nach, wie diese durch Kalibrierung verbessert werden kann. Hierzu wurden Videosequenzen von Interaktionen in deutschen Kitas durch zertifizierte Rater mit CLASS Pre-K eingeschätzt. Ausgehend von den zunächst unzureichenden Beurteilerübereinstimmungen wurde ein Kalibrierungsprozess eingeleitet. Es zeigte sich, dass sich das Verfahren bewährt hat und die Interrater-Reliabilität deutlich verbessert werden konnte. Schlüsselbegriffe

Kalibrierung, CLASS, Anregungsqualität, Interrater-Reliabilität, Interaktionsqualität

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 K. Blatter et al. (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich, Edition ZfE 6, https://doi.org/10.1007/978-3-658-26438-3_5

101

102

Anja Leber, Gisela Kammermeyer und Susanna Roux

Ensuring the observation quality of interactions between preschool teachers and children with the Classroom Assessment Scoring System Abstract

The quality of interaction between adults and children is the engine for child development (see Bronfenbrenner and Morris 2006, p. 798), which is why the observation of interaction processes in kindergarten and school is currently of great importance in scientific research. Ensuring the quality of such observation data is crucial for their interpretational strength. For this reason, raters must undergo extensive training before being allowed to use the internationally wide spread Classroom Assessment Scoring System (CLASS; Pianta et al. 2008). However, there are indications that this certification process is not always sufficient to ensure data quality. The present study explores how this can be improved by applying a calibration procedure. For this purpose, video sequences of interactions in German kindergartens were assessed by certified raters using CLASS Pre-K. On the basis of the initially insufficient rater agreement, a calibration process was initiated. It showed that the procedure proved to be successful and the interrater reliability could be considerably improved. Keywords

Calibration, CLASS, Instructional Support, Interrater Reliability, Quality of Interaction

5 Sicherung der Qualität von Beobachtungen …

103

5.1 Einführung 5.1 Einführung

Die Bedeutung der ErzieherIn-Kind-Interaktion für die Entwicklung des Kindes ist mittlerweile unumstritten. Dies spiegelt sich auch in der wachsenden Anzahl von empirischen Studien wider, die Interaktionsqualität in Kitas erfassen. Die Beobachtung von Interaktionsprozessen zählt zu den wichtigsten Methoden in der Lehr-Lernforschung und gilt dort als Königsweg zur Erfassung von Daten (vgl. Helmke 2009, S. 288). Die Qualität von Beobachtungsdaten hängt jedoch essentiell von der Zuverlässigkeit der Einschätzungen ab. Je komplexer ein Beobachtungsgegenstand ist, desto anfälliger ist dieser für Beurteilungsfehler. Insbesondere bei hoch-inferenten Verfahren ist die Sicherung der Datenqualität eine Herausforderung. Hoch-inferente Instrumente, wie das CLASS (Pianta et al. 2008), erfordern Schlussfolgerungen von den Beobachtern, die Gefahr von Rater-Bias ist gegeben. Kalibrierung ist eine Maßnahme, um Messfehler durch Rater-Verzerrungen möglichst gering zu halten und damit die Qualität von Beobachtungsdaten zu verbessern. Die differenzierte Beschreibung und Erprobung von Kalibrierungsverfahren ist in der (früh-)pädagogischen Forschung in Deutschland allerdings nicht etabliert. Der vorliegende Beitrag geht der Frage nach, wie durch die Anwendung eines systematischen Kalibrierungsverfahrens die Qualität von hoch-inferenten Beobachtungsdaten mit CLASS Pre-K gesichert werden kann. Dieses Kalibrierungsverfahren kombiniert eine engmaschige Überprüfung der Beobachterübereinstimmung mit Übungsphasen, um die Orientierung der Rater an den Standards des Messinstruments zu sichern.

5.2

Theoretischer Hintergrund

5.2

Theoretischer Hintergrund

5.2.1 Interaktionsqualität zwischen ErzieherIn und Kind Qualitativ hochwertige Interaktionen zwischen pädagogischen Fachkräften und Kindern haben positive Auswirkungen auf die sozial-emotionale und sprachlich-kognitive Entwicklung und damit auf die Bildungschancen von Kindern (zusammenfassend Roßbach et al. 2009; Anders und Roßbach 2014; Hasselhorn und Kuger 2014; Kluczniok 2018). Erkenntnisse aus der Interaktionsforschung können daher grundlegend für Maßnahmen zur Qualitätsentwicklung in Kindertagesstätten sein. Ein Modell zur Interaktionsqualität Teaching through Interactions (TTI) wurde von der Arbeitsgruppe um Pianta (vgl. Hamre et al. 2007, S. 31) vorgelegt. Es beinhaltet die drei Dimensionen Emotionale Unterstützung (Emotional Support), 103

104

Anja Leber, Gisela Kammermeyer und Susanna Roux

Organisation der Lernsituation (Classroom Organization) und Anregungsqualität (Instructional Support). Diese Drei-Faktoren-Struktur erwies sich in der Studie von Hamre et al. (2013, S. 477) in den USA mit den Daten aus über 4 000 Kindergärten und Grundschulen konfirmatorisch als die beste. Auch außerhalb der USA wurde diese Struktur mithilfe von Beobachtungsdaten aus Kindertagesstätten bestätigt, beispielsweise in China (vgl. Hu et al. 2016, S. 725) oder in den Niederlanden (vgl. Slot 2014, S. 37). Die Studie von Stuck et al. (2016, S. 884 f.) zeigt, dass sich die Aufteilung der Interaktionsqualität in drei Domänen ebenfalls in Deutschland bewährt. Die Ergebnisse der Forschergruppe um von Suchodoletz (2014, S. 513), deren Untersuchung auch auf einer deutschen Stichprobe basiert, bestärken diese Annahme. Ebenfalls aus einer Drei-Faktoren-Struktur besteht das aus dem schulischen Kontext stammende Modell von Unterrichtsqualität (vgl. Klieme et al. 2006, S. 131; Klieme und Rakoczy 2008, S. 228), das sich in der Lehr-Lernforschung etabliert hat. Die drei Basisdimensionen der Unterrichtsqualität Unterstützendes Unterrichtsklima, Klassenführung und Kognitive Aktivierung weisen Analogien zu den drei Domänen des Modells der Pianta-Gruppe auf (vgl. Einsiedler 2017, S. 277). Dem TTI-Rahmenmodell zugehörig ist das Beobachtungsinstrument CLASS, es wurde mittlerweile in einer großen Anzahl an internationalen Untersuchungen eingesetzt (vgl. Pianta 2017, S. 23). Betrachtet man die Befunde zur Interaktionsqualität mit CLASS Pre-K in deutschen Kindertagesstätten im Hinblick auf einzelne Domänen, fallen diese sehr unterschiedlich aus. Die emotionale Unterstützung und die Organisation der Lernsituation sind sowohl in der additiven als auch in der alltagsintegrierten Sprachförderung hoch, die Anregungsqualität hingegen ist nur unzureichend (vgl. Kammermeyer et al. 2011, S. 453; von Suchodoletz et al. 2014, S. 513; Wildgruber et al. 2014, S. 188 ff.). Die Wirkung der Interaktionsqualität auf die Entwicklungsprozesse von Kindern kann als komplexes Zusammenspiel der drei Domänen betrachtet werden (vgl. Howes et al. 2008; Curby et al. 2009; Downer et al. 2010; Hamre et al. 2014). Für die Unterstützung von Lernprozessen heben Mashburn et al. (2008, S. 741 ff.) den besonderen Stellenwert der Domäne Anregungsqualität hervor, diese ist prädiktiv für die kognitive und sprachliche Entwicklung, es finden sich etwa Zusammenhänge mit dem rezeptiven und produktiven Wortschatz sowie mit Vorläuferfähigkeiten zum Schriftspracherwerb. Die Domäne Anregungsqualität beinhaltet verbale Strategien, um Kinder zum Sprechen und Denken anzuregen. CLASS Pre-K (Pianta et al. 2008, S. 2) unterteilt Anregungsqualität in die Dimensionen Konzeptentwicklung (Concept Development), Feedback (Quality of Feedback) und Sprachbildung (Language Modeling). Die Konzeptentwicklung zielt auf die Anregung höherer Denkprozesse, beispielsweise über Fragen, die zum Analysieren und Begründen herausfordern. Feedback knüpft an der Performanz des Kindes

5 Sicherung der Qualität von Beobachtungen …

105

an, um für das Lernen und Verstehen weiterführende Denkanstöße zu geben und somit den Lernprozess zu vertiefen bzw. aufrechtzuerhalten, beispielsweise über Scaffolding-Strategien oder Feedbackschleifen. Sprachbildung fokussiert sprachmodellierende Strategien, etwa die Wiederholung und Erweiterung der kindlichen Äußerung, aber auch zum Sprechen anregende Strategien, beispielsweise offene Fragen (Pianta et al. 2008, S. 61 ff.). Kognitiv und sprachlich anregende Strategien wurden auch außerhalb der Arbeitsgruppe um Pianta untersucht, in der frühpädagogischen Forschung etwa unter der Bezeichnung Sustained Shared Thinking. In der europäischen Längsschnittstudie EPPE (Effective Provision of Preschool Education von Sylva et al. 2004) zeigte sich, dass diese gemeinsamen Denkprozesse zwischen pädagogischen Fachkräften und Kindern besonders häufig in Einrichtungen beobachtet werden konnten, deren Kinder die höchsten Entwicklungsfortschritte erzielten. Die in Kindertageseinrichtungen in nationalen und internationalen Untersuchungen geringe Ausprägung der Anregungsqualität, verweist auf einen besonderen Forschungsbedarf zur langfristigen Qualitätssicherung.

5.2.2 Erfassung von Interaktionsqualität zwischen ErzieherIn und Kind Interaktionsqualität lässt sich über verschiedene quantitative und qualitative Zugänge bzw. über niedrig- bis hoch-inferente Instrumente erfassen (für einen Überblick siehe Mackowiak 2017, S. 201 ff.; Kluczniok 2018, S. 410 ff.). Ein niedrig-inferentes und damit kodierendes Verfahren erfasst lediglich Einzelindikatoren, die der Komplexität von Interaktionsprozessen oftmals nicht gerecht werden (vgl. Pauli 2014, S. 56). Zudem werden niedrig-inferente Verfahren häufig nur im Rahmen einzelner Forschungsprojekte entwickelt und eingesetzt, sowie deren Messgüte nicht immer umfassend geprüft. Da es sich bei Interaktionen um komplexe Prozesse handelt, gilt der Einsatz hoch-inferenter und empirisch überprüfter Beobachtungsinstrumente wie CLASS (Pianta et al. 2008) als besonders geeignet für die Erfassung von Interaktionsqualität in Lehr-Lernkontexten. Einschätzverfahren ermöglichen das komplexe Zusammenspiel von Merkmalen in Interaktionsprozessen abzubilden. In Deutschland entwickelte hoch-inferente Verfahren sind u. a. DO-RESI (Fried und Briedigkeit 2008) und GInA (Weltzien et al. 2017), diese Instrumente sind jedoch international bisher nicht etabliert. Ein Vorteil etablierter Instrumente ist die studienübergreifende internationale Vergleichbarkeit von Ergebnissen. Mayer und Beckh (2018, S. 67) verweisen auf die drei bekanntesten und am häufigsten in Deutschland eingesetzten Instrumente zur Erfassung der Interaktionsqualität. Hierzu 105

106

Anja Leber, Gisela Kammermeyer und Susanna Roux

zählen die Kindergarten-Skala KES-R (Tietze et al. 2007), die Caregiver Interaction Scale CIS (Arnett 1989) und CLASS (Pianta et al. 2008). Die KES-R und die CIS wurden aus dem englischsprachigen Raum adaptiert. König (2006, S. 54 f.) weist darauf hin, dass traditionelle Instrumente wie die KES-R die Prozessqualität relativ breit erfassen und eine differenzierte Analyse der hinter der ErzieherIn-Kind-Interaktion stehenden Tiefenstruktur damit nicht möglich ist bzw. Instrumente wie die CIS nur einen Teilbereich der Interaktionsqualität abbilden. Die CIS fokussiert die Interaktionsqualität im sozial-emotionalen Bereich. In den letzten Jahren wird in Deutschland verstärkt auf Instrumente aus der CLASS-Gruppe zurückgegriffen (vgl. Kammermeyer et al. 2011; von Suchodoletz et al. 2014; Wildgruber et al. 2014; Perren et al. 2016). Hierbei handelt es sich um ein Beobachtungsverfahren zur Erfassung der Interaktionsqualität, das mittlerweile für alle Bildungsstufen vorliegt, für die unter Dreijährigen (CLASS Infant bzw. CLASS Toddler), für die Kita (CLASS Pre-K), für die Grundschule (CLASS K-3) und für die weiterführenden Schulen (CLASS Upper Elementary und CLASS Secondary). Die testtheoretische Überprüfung von CLASS erfolgte in großangelegten Studien in den USA (vgl. Hamre et al. 2007, S. 16 ff.; Hamre et al. 2013, S. 476 ff.). Mittlerweile finden sich in weiteren internationalen Studien Hinweise dafür, dass CLASS ausreichende psychometrische Eigenschaften aufweist und daher auch außerhalb der USA zur Erhebung von Interaktionsqualität eingesetzt werden kann (vgl. Pakarinen et al. 2010, S. 95 ff.; Slot 2014, S. 19 ff.; Hu et al. 2016, S. 714 ff.; Perren et al. 2016, S.3 ff.). Die Ergebnisse deutscher Studien deuten darauf hin, dass sich CLASS auch in Deutschland als reliables und valides Instrument erweist (vgl. von Suchodoletz et al. 2014, S. 513 ff.; Stuck et al. 2016, S. 882 ff.).

5.2.3 Beobachterübereinstimmung und Interrater-Reliabilität bei CLASS In nahezu allen Beobachtungsstudien wird die Reliabilität über die Berechnung der Beobachterübereinstimmung bzw. über die Bestimmung der Interrater-Reliabilität ermittelt. Ratings erfordern Interpretationen und Schlussfolgerungen, die fehlerbehaftet sein können. Wirtz und Caspar (2002, S. 31) berichten von Rater-Bias, das dadurch zustande kommen kann, dass Rater sich darin unterscheiden, welche Unteraspekte wie gewichtet und zu welchem Gesamturteil diese Aspekte zusammengefügt werden. Eine weitere Ursache von mangelnder Reliabilität liegt in der Verwendung von unterschiedlichen Schwellen für die Vergabe von Merkmalsausprägungen. Um Raterfehler möglichst gering zu halten, ist es beim CLASS verpflichtend, dass Rater ein standardisiertes, zweitägiges Training durchlaufen. Bei dieser Schulung

5 Sicherung der Qualität von Beobachtungen …

107

steht das Rating von Videoausschnitten und der Vergleich mit einem Mastercode im Mittelpunkt. Im Anschluss an das Training muss online eine Reliabilitätsprüfung absolviert werden. Die Prüfung umfasst fünf englischsprachige Videosequenzen von ErzieherIn-Kind-Interaktionen und ist bestanden, wenn die Rater auf einer siebenstufigen Skala mindestens 80 % der Einschätzungen dimensionsübergreifend und auch auf Dimensionsebene in Übereinstimmung mit dem Mastercode erzielen. Die Abweichung von einem Skalenwert wird dabei als Toleranzbereich und damit als akzeptable Genauigkeit gewertet (vgl. Pianta et al. 2008, S. 96). Die Prüfung darf bei Nichtbestehen maximal zweimal wiederholt werden. Durch eine jährliche Online-Rezertifizierung soll die Reliabilität auch über einen längeren Zeitraum gesichert werden (vgl. Pianta et al. 2008, S. 95). Auskunft über die Raterübereinstimmung und die Interrater-Reliabilität bei nationalen und internationalen Studien, die CLASS Pre-K als Erhebungsinstrument einsetzten, gibt Tab. 1. In die Tabelle aufgenommen wurden sowohl Studien, die sich auf Übereinstimmungswerte der Onlinezertifizierung (Video-Training) als auch auf Übereinstimmungen im Feld (Live/Video) beziehen. Es werden die exakten prozentualen Übereinstimmungen und die prozentualen Übereinstimmungen unter Berücksichtigung des Toleranzbereiches von einem Skalenwert berichtet. Darüber hinaus werden die Intraklassenkoeffizienten (ICC) angegeben, da die prozentuale Übereinstimmung die Interrater-Reliabilität überschätzen könnte (vgl. Wirtz und Caspar 2002, S. 50). Die dargestellten Studien beruhen auf Daten einer sehr unterschiedlichen Anzahl von Ratern, teilweise wird in den Studien nicht eindeutig angegeben, wie viele Rater zur Bestimmung der Übereinstimmungswerte eingesetzt wurden. Besonders belastbar ist in dieser Hinsicht die Studie von Cash et al. (2012), da diese Untersuchung über 2 000 Rater umfasst. In den meisten Studien wird von guten bis sehr guten Übereinstimmungen berichtet. Diskrepante Angaben finden sich allerdings bei Cash et al. (2012, S. 535 ff.), die in ihrer Untersuchung zeigen, dass eine besondere Schwierigkeit in der Einschätzung der Domäne Anregungsqualität besteht. Lediglich die Dimension Feedback mit einer Übereinstimmung von 80.4 % übertrifft den Mindeststandard von 80 %, die Dimensionen Konzeptentwicklung und Sprachbildung unterschreiten mit 66.5 % bzw. 72.5 % Übereinstimmung diesen Standard. Die Übereinstimmung bei den Domänen Emotionale Unterstützung und Organisation der Lernsituation variiert je nach Dimension zwischen 82.5 % und 93.3 %. Es wird außerdem angegeben, dass die Dimensionen der Anregungsqualität im Vergleich zum Mastercode eher zu hoch geratet wurden. Die Autoren sehen die Ursache darin, dass bei diesen Dimensionen ein stärkerer conceptual change, also eine Veränderung der bisherigen Vorstellungen der Rater erforderlich ist. 107

Live

VideoTraining

Pakarinen et al. (2010)

Pianta et al. (2008)

-/-

17/2

16/8 Paare

Video

2/2

Video

Hu et al. (2016)

-/-

Stuck et al. (2016)

Live

Hamre et al. (2014)

2093/2093

10/19 Paare

VideoTraining

Cash et al. (2012)

Anzahl Rater gesamt/für die Berechnung der Übereinstimmung

Sandilos und DiPerna Live (2011)

Methode

-

EU: 41.0b OL: 33.5b AQ: 29.5b

-

-

-

-

30.0 – 54.0a Gesamt: 41.0

Exakt

86.7 – 97.9a Gesamt: 92.6

EU: 87.0b OL:74.5b AQ: 73.5b

78.8 – 96.9a Gesamt: 87.1

-

-

-

66.5 – 93.3a Gesamt: 82.9

Toleranz +/-1

Prozentuale Übereinstimmung

Raterübereinstimmung und Interrater-Reliabilität (CLASS-PreK)

Autoren

Tab. 1

-

.61 – .90a Gesamt: .73

-

-

.75 – .93ab

EU: .87 OL: .91 AQ: .89

EU: .87 OL: .76 AQ: .84

ICC-Wert

two-way mixed, unjustierte Schätzung

-

-

two-way-mixed, single measure, raters random, unjustierte Schätzung

two-way mixed, unjustierte Schätzung

-

-

ICC-Modell

ICC

108 Anja Leber, Gisela Kammermeyer und Susanna Roux

-/2 -/2

Live

Wildgruber et al. (2016)

Williford et al. (2013) Live

-

-

-

-

-

Gesamt: 86.0

.78 – .88c Gesamt: .83

.65 – .78c Gesamt: .70

EU: .82 OL: .67 AQ: .73

-

two-way mixed, single measure, raters fixed

-

c In der Studie wird ausschließlich der Range auf Einzeldimensionsebene angegeben.

b In der Studie liegen Werte für zwei Beobachtungszeitpunkte vor, diese werden zu einem Wert gemittelt.

a In der Studie liegen ausschließlich Werte für Einzeldimensionen vor, es wird der Range angegeben.

-: nicht angegeben, AQ: Anregungsqualität, EU: Emotionale Unterstützung, OL: Organisation der Lernsituation.

Anmerkungen.

4/2

von Suchodoletz et al. Live (2014)

5 Sicherung der Qualität von Beobachtungen … 109

109

110

Anja Leber, Gisela Kammermeyer und Susanna Roux

5.2.4 Sicherung der Qualität hoch-inferenter CLASSBeobachtungsdaten durch Kalibrierung Die Sicherung von Reliabilität über die Bestimmung der Interrater-Reliabilität ist grundlegend für ein valides Rating. Eine hinreichende interne Validität ist allerdings nur gegeben, wenn gewährleistet wird, dass die Ratings auch konzeptgetreu durchgeführt werden (vgl. Pauli 2014, S. 58). Ist dies der Fall, kann davon ausgegangen werden, dass sich die Rater den „wahren Werten“ ausreichend angenähert haben. Da für die Sicherung der Reliabilität von CLASS-Beobachtungsdaten keine deutschen Videos mit Mastercodes existieren, ist die genaue Orientierung an den im Manual festgelegten Beurteilungskriterien für die Qualität der Ratings entscheidend. Es könnte schließlich sein, dass trotz hoher Übereinstimmung bei der Reliabilitätsprüfung mit englischsprachigen Videos, bei der Einschätzung von ErzieherIn-Kind-Interaktionen in deutscher Sprache verschiedene Rater zwar übereinstimmende Einschätzungen treffen, aber von den wahren Werten (deutlich) abweichen. Dies wäre beispielsweise der Fall, wenn alle an einer Studie beteiligten Rater die Dimensionen der Anregungsqualität aufgrund von gemeinsam geteilten subjektiven Theorien systematisch zu hoch raten und damit das Qualitätsniveau überschätzen. Auf diese Gefahr weisen auch Cash et al. (2012, S. 535) hin. Diese Schwierigkeit könnte sich potenzieren, wenn Rater mit deutscher Muttersprache nach der Prüfung mit englischsprachigen Videos Interaktionen aus deutschen Kita-Settings einschätzen. Bei englischsprachigen Interaktionen wäre es möglich, dass von den Ratern aufgrund von Sprachbarrieren bestimmte Indikatoren nicht wahrgenommen werden, was jedoch dazu führen könnte, dass die Interaktionsqualität insgesamt nicht überbewertet wird. Werden bei Einschätzungen von Interaktionen in der Muttersprache jedoch alle maßgeblichen Indikatoren erfasst, aber überproportional in das Gesamturteil einbezogen, führt dies zu einer Überschätzung der Interaktionsqualität. Nicht nur sprachliche Hindernisse, sondern auch kulturelle Besonderheiten können Einfluss auf den Ratingprozess nehmen. In amerikanischen Videos finden sich beispielsweise oftmals räumliche Settings, die für einen im deutschen Kindergartensystem sozialisierten Rater, einen eher schulischen Charakter aufweisen (z. B. frontale Sitzordnung der Kinder vor einer Tafel mit Buchstaben). Sind bei den Zertifizierungsvideos diese strukturellen Merkmale mit einer hohen Anregungsqualität verbunden, könnte dies beim Übergang zu deutschen Videos dazu führen, dass das eher spielerisch ausgerichtete räumliche Setting per se mit einer niedrigeren kognitiven Aktivierung assoziiert wird. Finden sich dann wider Erwarten einzelne Indikatoren hoher Anregungsqualität, könnte dies ebenfalls zu einer überproportionalen Einbeziehung und damit zu einer Überbewertung der Anregungsqualität führen.

5 Sicherung der Qualität von Beobachtungen …

111

Abweichungen vom Mastercode sind darüber hinaus auch über die Zeit möglich. Rater können einem so genannten observer drift unterliegen, d. h., dass die durch das Beobachtertraining verinnerlichten Standards nach und nach unbemerkt verändert werden (vgl. Wirtz und Caspar 2002, S. 242). Casabianca et al. (2015, S. 331) untersuchten potentielle Rater-Drifts bei Videoeinschätzungen und Live-Beobachtungen mit dem CLASS-Secondary über einen Zeitraum von zwei Jahren. Es zeigte sich die Tendenz, dass zunächst höhere Werte eingeschätzt werden, dass diese jedoch im Laufe der Zeit fallen. Wenn das Abdriften von den Beurteilungskriterien bei den an einer Studie beteiligten Ratern ähnlich verläuft, würde die Interrater-Reliabilität konstant hoch bleiben. Es werden deshalb Qualitätssicherungsmaßnahmen benötigt, die sowohl die Übereinstimmung zwischen den Ratern als auch die Orientierung an den Vorgaben im Manual nachhaltig aufrechterhalten. Allgemeine Hinweise zur Sicherung der Qualität von Ratings stammen von Wirtz und Caspar (2002, S. 241 ff.) sowie Wirtz (2004, S. 388). Eine mathematische und verbreitete Lösung zur Verbesserung der Reliabilität ist die Verwendung von Mittelwerten über mehrere Rater hinweg. Einschränkend ist anzumerken, dass dieses Vorgehen eine bestimmte Anzahl an Ratern voraussetzt, deren Einschätzungen qualitativ hochwertig und nicht zu heterogen sind (vgl. Wirtz und Caspar 2002, S. 247). Darüber hinaus zielt die alleinige Mittelwertsbildung nicht auf die langfristige Sicherung der Raterleistung, ein observer drift könnte beispielsweise unentdeckt bleiben. Wirtz (2004, S. 388) beschreibt die wechselseitige Rückmeldung zwischen den Ratern als wichtigste Maßnahme zur Verbesserung von Beurteilungsqualität, um die impliziten Operationalisierungen der Rater sichtbar werden zu lassen. Eine Möglichkeit wechselseitiger Rückmeldung besteht in der Bildung konsensueller Werte, also einer nachträglichen Besprechung der Einschätzungen durch die Beurteiler mit dem Ziel einer Konsensbildung der Ratingwerte (vgl. Wirtz und Caspar 2002, S. 244 ff.). Weck (2014, S. 60) diskutiert dieses Verfahren kritisch, da es mit dieser Konsensbildung auch zu einem kollektiven Irrtum kommen könnte. Personen, die durchsetzungsstärker agieren könnten die Konsensbildung stärker beeinflussen, was nicht unbedingt zu einer Erhöhung der Datenqualität beiträgt. Um die Gefahr von derartigen Verzerrungen der Ratings zu mindern, ist entscheidend, dass sich Rückmeldungen explizit auf die Standards des Beobachtungsinstrumentes richten. Zur Sicherung der Qualität von CLASS-Beobachtungsdaten finden sich in den letzten Jahren verstärkt Hinweise auf Kalibrierungsmaßnahmen. Der Begriff Kalibrierung stammt aus der Messtechnik und bezieht sich auf das Feststellen und Dokumentieren der Abweichung eines Messwertes vom exakten Messwert. In der Messtechnik wird die Justierung als Maßnahme zur Reduktion dieser Abweichungen definiert (vgl. Pfeifer und Schmitt 2010, S. 28). Im Zusammenhang mit der Quali111

112

Anja Leber, Gisela Kammermeyer und Susanna Roux

tätssicherung von Beobachtungsdaten wird in der US-amerikanischen Forschung oftmals unter dem Begriff calibration sowohl die Kalibrierung als auch die Justierung subsumiert (vgl. Williford et al. 2013, S. 302). Im vorliegenden Artikel wird analog hierzu unter dem Begriff Kalibrierung die systematische, regelmäßige Überprüfung der Beobachterübereinstimmung verstanden mit dem Ziel, Abweichungen vom „wahren“ Wert bzw. von den im Rating-Manual festgelegten Beurteilungskriterien aufzudecken und zu reduzieren. Hinweise dafür, dass Kalibrierungsmaßnahmen zusätzlich zur formalen jährlichen Zertifizierung eingesetzt werden, finden sich bei Williford et al. (2013, S. 302). In dieser Studie wurden zur Sicherung der Qualität der Ratings wöchentliche Kalibrierungssitzungen durchgeführt, in denen CLASS-Videoszenen gesichtet, diskutiert und mit einem Mastercode verglichen wurden. Auch die Studie von Jamil et al. (2015, S. 415) enthält Informationen darüber, dass wöchentliche Ratertrainings durchgeführt wurden, bei denen alle CLASS-Rater zufällig ausgewählte Videos aus den Projektdaten einschätzten, es werden jedoch keine Übereinstimmungswerte angegeben. Hu et al. (2016, S. 720) berichten, dass die Raterpaare ihrer Studie fünf Videozyklen unabhängig voneinander einschätzten und eine akzeptable Übereinstimmung der Rater eine Voraussetzung für weitere Ratings war. Es wird allerdings nicht beschrieben, welche Maßnahmen erfolgten, wenn diese nicht gegeben war. Die Bedeutung von Kalibrierungssitzungen zeigt sich auch daran, dass die Firma Teachstone, die für den Vertrieb von CLASS zuständig ist, zusätzlich und unabhängig von den jährlichen Rezertifizierungen Online-Kalibrierungssitzungen anbietet. Diese beinhalten Videoratings mit englischsprachigen Videos und einer automatisierten, computerbasierten Rückmeldung über die Richtung der Abweichung vom Mastercode. Anschließend erhalten die Rater Zugang zu einem vorab aufgezeichneten, nicht personalisierten Webinar, das die Mastercodes enthält und die Schlüsselinteraktionen erläutert. Teachstone bietet darüber hinaus auch personalisierte Gruppenkalibrierungssitzungen als Webinare in englischer Sprache an mit Informationen über den Mastercode. Laut Teachstone (2018) bestehen zum einen nach Kalibrierungsmaßnahmen statt 51 % der Rater 82 % die Rezertifizierung beim ersten Versuch und zum anderen weisen die Rater, die einen Kalibrierungsprozess durchlaufen haben, insgesamt bei der Rezertifzierung eine höhere Übereinstimmung mit dem Mastercode auf als diejenigen, die nicht an einem solchen Training teilgenommen haben. Aus diesem aktuellen Angebot kann gefolgert werden, dass eine rein computerbasierte Kalibrierung nicht immer ausreichend zu sein scheint. Cash et al. (2012, S. 529) merken an, dass es zwar eine größere Anzahl an Studien gibt, die sich mit der Reliabilität und Validität des Beobachtungsinstrumentes CLASS auseinandersetzen, es jedoch sehr wenig Forschung zur Frage gibt, wie Rater so

5 Sicherung der Qualität von Beobachtungen …

113

trainiert werden können, dass sie solche Beobachtungsinstrumente konsequent und über einen längeren Zeitraum hinweg zuverlässig einsetzen. Bei den meisten der in Tab. 1 dargestellten Studien wird nicht berichtet, ob zur Sicherung der Datenqualität Kalibrierungssitzungen stattgefunden haben. Betrachtet man die deutschen Studien, die CLASS im Feld einsetzten (vgl. von Suchodoletz et al. 2014; Stuck et al. 2016.; Wildgruber et al. 2016) fällt auf, dass die Autoren zwar Interrater-Reliabilitäten angeben, allerdings nicht näher ausführen, wie es zu den sehr hohen Übereinstimmungen zwischen den Ratern gekommen ist. Lediglich von Suchodoletz et al. (2014, S. 512) berichten von einer Kalibrierung, an der die Rater während der Datenerhebung teilgenommen haben. Der leitende Rater dieser Studie nahm an einer Kalibrierungssitzung teil, die von der Universität Virginia angeboten wurde. Diese Kalibrierungsprozesse werden allerdings nicht genauer beschrieben. Das Spektrum an Kalibrierungsmöglichkeiten ist so groß, dass es zu erheblichen Datenschwankungen kommen könnte, je nachdem, ob ein Kalibrierungsverfahren überhaupt Verwendung findet und welche Art der Kalibrierung eingesetzt wird. Ist diese Transparenz nicht gewährleistet, kann die Vergleichbarkeit und Replizierbarkeit der Studien, die CLASS als Beobachtungsinstrument einsetzen, zumindest angezweifelt werden. In der vorliegenden Studie wurde zur Sicherung der Qualität ein systematisches Kalibrierungsverfahren entwickelt, eingesetzt und überprüft.

5.3 Methode 5.3 Methode

Im vorliegenden Beitrag wird der Frage nachgegangen, wie die Qualität von Beobachtungsdaten zur ErzieherIn-Kind-Interaktion durch ein systematisches Kalibrierungsverfahren verbessert werden kann. Die Daten stammen aus dem DFG-Projekt Sprachförderung in Kitas. Evaluation eines Qualifizierungskonzepts und wurden im Kindergartenjahr 2014/2015 (Prä- und Posttest) bzw. 2015/2016 (Follow-up-Test) erhoben. Die Kalibrierung war kein originäres Ziel der zugrundeliegenden Studie, die Notwendigkeit der Auseinandersetzung mit dieser Fragestellung ergab sich erst durch Reliabilitätsprobleme mit CLASS Pre-K in der ersten Auswertungsphase. Obwohl die Rater die formale Vorgabe der CLASS-Zertifizierung erfüllten, war die Datenqualität durch die mangelnde Reliabilität so eingeschränkt, dass eine aussagekräftige Ergebnisinterpretation ohne Kalibrierung nicht möglich gewesen wäre.

113

114

Anja Leber, Gisela Kammermeyer und Susanna Roux

5.3.1 Stichprobe und Design Im Rahmen eines experimentellen Prä-Post-Follow-up-Designs wurden insgesamt 142 Videos von Sprachfördermaßnahmen von 50 Erzieherinnen zu jeweils drei Erhebungszeitpunkten aufgenommen, wobei die pädagogischen Fachkräfte randomisiert der Experimental- und der Vergleichsgruppe zugewiesen wurden. Die Einschätzungen bezogen sich bei jedem Video auf die ersten 20 Minuten der Sprachfördereinheit nach Beendigung des Begrüßungsrituals. Die Ratings des Videomaterials erfolgte verblindet, die Rater konnten weder Rückschlüsse auf die Gruppenzugehörigkeit der einzelnen Erzieherinnen noch auf die Erhebungszeitpunkte ziehen. Alle vier Rater waren über eine Online-Reliabilitätsprüfung der Firma Teachstone zertifiziert. In der im Rahmen des Projekts geplanten ersten Ratingphase ohne Kalibrierung wurden drei zertifizierte Rater eingesetzt (Rater A, B, C). Für die aufgrund der unerwarteten Reliabilitätsprobleme nicht geplante zweite Phase mit Kalibrierung standen zwei Rater (A und C) nicht mehr zur Verfügung. Es konnte jedoch ein weiterer zertifizierter Rater nachrekrutiert werden (Rater D), der mit den Ratern A und C im Hinblick auf Erfahrungen mit CLASS-Ratings vergleichbar war.

5.3.2 Erhebungsinstrument Um die Qualität der Erzieherin-Kind-Interaktion zu erfassen, wurde das CLASS Pre-K (Pianta et al. 2008) eingesetzt, das für die Beobachtung der Interaktionsqualität zwischen pädagogischen Fachkräften und drei- bis fünfjährigen Kindern entwickelt wurde. Es besteht aus drei Domänen (Domains), die in zehn Dimensionen (Dimensions) unterteilt sind. Die Domäne Emotionale Unterstützung (Emotional Support) beinhaltet die Dimensionen Positives Klima (Positive Climate), Negatives Klima (Negative Climate), Sensibilität (Teacher Sensitivity) und Orientierung am Kind (Regard for Student Perspectives). Die Organisation der Lernsituation (Classroom Organization) wird unterteilt in die Dimensionen Verhaltensmanagement (Behavior Management), Produktivität (Productivity) und Lernarrangement (Instructional Learning Formats). Anregungsqualität (Instructional Support) umfasst die Dimensionen Konzeptentwicklung (Concept Development), Feedbackqualität (Quality of Feedback) und Sprachbildung (Language Modeling). Die Qualität jeder dieser Dimensionen wird mit einer siebenstufigen Ratingskala erfasst. Ausschlaggebend für diese Einschätzungen sind Indikatoren (Indicators), die jeder Dimension zugeordnet sind. Der Gesamtscore für jede Dimension ergibt sich im Ratingprozess

5 Sicherung der Qualität von Beobachtungen …

115

durch die Beobachtung und zusammenfassende Einschätzung der Häufigkeit, Tiefe und Wirkung der Indikatoren.

5.3.3 Durchführung – Anwendung des Kalibrierungsverfahrens Zunächst wurden 20 % der Videos aus den insgesamt 100 Projektvideos aus Prä-und Posttest zufällig gezogen und von drei zertifizierten Ratern (Rater A, B, C) unabhängig voneinander eingeschätzt. Es zeigte sich, dass die erforderliche Reliabilität nicht gewährleistet war. Um die Qualität der Beobachtungsdaten im Projekt zu sichern, wurde daraufhin ein Kalibrierungsverfahren entwickelt und eingesetzt. Zu diesem Zeitpunkt konnten nun auch die Videos der Follow-up-Erhebung einbezogen werden. Es wurden aus den insgesamt 142 Projektvideos erneut 20 % zufällig ausgewählt (28 Videos) und von zwei Ratern (Rater B und D) unter Verwendung des Kalibrierungsverfahrens doppelt eingeschätzt. Anschließend wurden die restlichen 80 % der Projektvideos auf die beiden Rater aufgeteilt. Die im Rahmen des Kalibrierungsverfahrens eingesetzten zusätzlichen Übungsvideos stammten aus einem Vorgängerprojekt (Kammermeyer et al. 2011) mit vergleichbaren Rahmenbedingungen der videografierten Situation (additive Sprachfördersituationen in Kleingruppen mit sprachförderbedürftigen Kindern). Das Kalibrierungsverfahren gliedert sich in mehrere Schritte (Abb. 1), in denen abwechselnd fünf Übungs- und fünf Projektvideos eingeschätzt werden, wobei nach jedem Ratingblock die Übereinstimmung zwischen den Ratern ermittelt wird. Die Kalibrierung wird eingeleitet, indem fünf Übungsvideos aus deutschen Kita-Settings von allen Ratern unabhängig voneinander eingeschätzt werden. Die Scorings für jede Dimension werden anschließend zwischen den Ratern verglichen und inhaltlich wechselseitig auf der Grundlage des Manuals begründet. Durch diesen ersten Schritt sollen etwaige Kultur- und Sprachspezifika zwischen den Ratings von amerikanischen Zertifizierungsvideos und den Videos in deutscher Sprache aufgedeckt und die Abweichungen von den CLASS-Beurteilungskriterien minimiert werden. Werden die Vorgaben der Mindestübereinstimmung von 80 % (Toleranzbereich +/- 1 Skalenwert) erfüllt, werden die ersten fünf zufällig ausgewählten Projektvideos geratet. Liegt die Übereinstimmung bei den Übungsvideos unter 80 %, werden erneut fünf Übungsvideos eingeschätzt. Nach jedem Ratingblock von fünf Übungs- oder Projektvideos findet ein Austausch zwischen den Ratern statt, wenn die prozentuale Übereinstimmung bei unter 80 % liegt. Die Fälle von Nichtübereinstimmungen werden inhaltlich diskutiert. Hierzu werden Informationen aus 115

116

Anja Leber, Gisela Kammermeyer und Susanna Roux

dem CLASS-Manual genutzt und einzelne Szenen aus dem Videomaterial zitiert, um die Begründungen für die Ratings transparent zu machen. Darüber hinaus wird von den Ratern entschieden, welcher Ratingwert am ehesten dem Mastercode entspricht. Die Inhalte der Diskussion werden schriftlich festgehalten, die ursprünglich eingeschätzten Ratingwerte werden für die Auswertungen allerdings nicht verändert. Der Austausch zwischen den Ratern dient dazu, systematische Fehler in den Ratings zu entdecken. Durch die wiederholte regelmäßige Überprüfung der Übereinstimmung in Portionen von fünf Videos soll ein observer drift im Sinne impliziter Veränderungen der Definitionen der Beobachtungskriterien über die Zeit (vgl. Smith 1986, S. 127) verhindert werden.

5 Übungsvideos < 80 %  80 %

5 Übungsvideos

5 Projektvideos

5 Übungsvideos

5 Projektvideos

5 Übungsvideos

Abb. 1 Überblick über den Ablauf des Kalibrierungsverfahrens

5.3.4 Auswertungsmethode Berechnet wurden die prozentualen Übereinstimmungen, die Intraklassenkoeffizienten (ICCs) und die Distanzwerte. Die Domänenwerte wurden in Anlehnung an von Suchodoletz et al. (2014, S. 512) durch die Bildung von Mittelwerten der zugehörigen Dimensionen berechnet. Für die Bestimmung der ICCs wurde auf das zweifaktorielle Modell zurückgegriffen, bei dem die Rater als Random-Faktor in die Berechnungen eingingen, Einzelwerte der Rater zugrunde gelegt (single measure) und auch die Mittelwertsunterschiede als Fehlerquelle einbezogen wurden (unjustierte Schätzung). Darüber hinaus wurden in Anlehnung an Cash et al. (2012, S. 533 ff.)

5 Sicherung der Qualität von Beobachtungen …

117

Distanzwerte ermittelt. Da im Gegensatz zu amerikanischen Videos für deutsche Videos keine Mastercodes vorliegen, können die Einschätzungen der Rater nicht mit einem Mastercode abgeglichen werden. Die Einschätzungen wurden deshalb zwischen den beteiligten Ratern verglichen. Bei welchem Rater Einschätzungen im Mittel niedriger oder höher ausfallen kann mit den valence distance scores gezeigt werden. Diese werden berechnet, indem je Dimension der Mittelwert der Ratings von einem Rater von dem Mittelwert eines anderen Raters subtrahiert wird. Bei den absolute distance scores geht es nicht um die Richtung der Abweichung, sondern um das absolute Ausmaß der Distanz zwischen den Einschätzungen der Rater. Diese Distanzwerte werden berechnet, indem der Mittelwert der Abstände zwischen den einzelnen Ratingwerten der Rater für jede Dimension bestimmt wird.

5.4 Ergebnisse 5.4 Ergebnisse

Im Folgenden wird dargestellt, wie sich die prozentualen Beobachterübereinstimmungen, die ICCs und die Distanzwerte ohne den Einsatz und mit Verwendung des Kalibrierungsverfahrens unterscheiden. In Tab. 2 werden zunächst die Ergebnisse der drei Rater im Vergleich aufgezeigt, die sich ohne das Kalibrierungsverfahren ergeben haben. Darüber hinaus werden die Ausgangswerte des Raterpaares B – D abgebildet, die aus der Einschätzung von fünf Übungsvideos hervorgehen. Tab. 3 zeigt die Ergebnisse, die von diesem Raterpaar mit dem Kalibrierungsverfahren erzielt wurden. In Tab. 2 wird bei den Ergebnissen der prozentualen Übereinstimmungen der Raterpaare ohne Kalibrierung erkennbar, dass vor allem die Domäne Anregungsqualität unterschiedlich eingeschätzt wurde. Je nach Raterpaar liegt die exakte Übereinstimmung zwischen 15 % und 28.3 %. Auch unter Einbeziehung der nach CLASS-Vorgaben tolerierbaren Abweichungen (+/- 1 Skalenwert pro Rating-Wert), finden sich bei der Anregungsqualität lediglich Übereinstimmungen zwischen 48.3 % und 63.3 %. Bei den Domänen Organisation der Lernsituation und Emotionale Unterstützung sind die Übereinstimmungen höher, sie liegen zwischen 75 % und 87.5 %. Allerdings gibt es auch bei diesen Domänen Einzeldimensionen, bei denen sich die durchschnittliche Übereinstimmung unterhalb der von CLASS geforderten Mindestübereinstimmung von 80 % befindet (Orientierung am Kind, Lernarrangement, Sensibilität, Positives Klima). Die Intraklassenkoeffizienten (ICCs) spiegeln ebenfalls die bestehenden Differenzen bei der Einschätzung der Anregungsqualität wider. Bei dem Raterpaar A – B liegt der ICC bei dieser Domäne im Mittel bei .10. Die ICCs der Dimensionen Produktivität, Lernarrangement, Sensibilität, Orientierung 117

118

Anja Leber, Gisela Kammermeyer und Susanna Roux

am Kind und Positives Klima sind bei einzelnen Raterpaaren ebenfalls niedrig. Die Überprüfung der valence distance scores gibt einen genaueren Einblick, in welche Richtung die Abweichungen verlaufen. Bei dem Raterpaar A – B schätzt Rater B die Anregungsqualität durchschnittlich 0.8 Skalenwerte niedriger ein als Rater A. Bei Betrachtung der Einzeldimensionen ist zu erkennen, dass diese Einschätzung durch die wesentlich niedriger ausfallenden Ratings bei den Dimensionen Feedback und Sprachbildung zustande kommt. Die Konzeptentwicklung wird von Rater B durchschnittlich deutlich höher eingeschätzt als von Rater A. Die Raterpaare A – B und B – C weichen bei den Dimensionen der Anregungsqualität stark voneinander ab. Bei dem Raterpaar A – C findet sich bei der Dimension Konzeptentwicklung eine besonders große Abweichung (1.7 Skalenwerte). Betrachtet man die absoluten Abweichungen wird abermals deutlich, dass bei der Domäne Anregungsqualität im Vergleich zu den anderen beiden Domänen die größten Abstände zwischen den Raterpaaren zu finden sind. Die Ausgangsergebnisse des Raterpaares B – D zeigen ebenfalls auf, dass die Übereinstimmungswerte bei den Dimensionen der Anregungsqualität niedrig ausfallen. Der Vergleich von Tab. 2 mit Tab. 3 zeigt, dass die Abweichungen zwischen den Ratern B und D mit Kalibrierung sowohl im Vergleich zu deren Ausgangswerten als auch zu den Übereinstimmungswerten der Raterpaare ohne Kalibrierung wesentlich geringer ausfallen. Die exakten prozentualen Übereinstimmungen sind bei dem Raterpaar, das die Kalibrierung durchlaufen hat, deutlich höher als bei den Raterpaaren ohne Kalibrierung. Bei der prozentualen Übereinstimmung, die den Toleranzbereich von +/- 1 Skalenwerten mit einschließt, findet sich je nach Dimension ein Übereinstimmungsbereich zwischen 92.9 % und 100 %. Die ICCs fallen entsprechend aus und liegen bei den Domänen Anregungsqualität, Emotionale Unterstützung und Organisation der Lernsituation zwischen .84 und .89. Die niedrigen Distanzwerte zeigen, dass die Übereinstimmungen zwischen den Ratern unter Einbezug des Kalibrierungsverfahrens wesentlich höher ausfallen.

5 Sicherung der Qualität von Beobachtungen … Tab. 2

Raterübereinstimmung und Interrater-Reliabilität ohne Kalibrierung M (SD)

Rater A-B

Rater B-C

Rater A-C

Rater B-D*

119

EU PK NKd SE OK

Rater 1 6.19 (1.15) 6.20 (0.95) 6.95 (0.22) 5.90 (1.25) 5.70 (1.42)

Rater 2 5.85 (1.34) 5.95 (1.05) 6.90 (0.45) 5.65 (1.35) 4.90 (1.48)

Prozentuale Übereinstimmung Exakt Toleranz +/-1 55.0 87.5 65.0 100.0 95.0 100.0 35.0 90.0 25.0 60.0

ICC

Distanzwerte

OL VM PR LA

5.88 (1.17) 6.15 (1.14) 6.45 (0.69) 5.05 (1.15)

5.92 (1.21) 6.10 (1.21) 6.55 (0.51) 5.10 (1.29)

56.7 65.0 50.0 55.0

83.3 85.0 100.0 65.0

.63 .61 .30 .40

0.00 -0.05 0.10 -0.05

0.30 0.25 0.50 0.15

AQ KE FB SB EU PK NKd SE OK

3.72 (1.73) 1.90 (1.02) 4.15 (1.18) 5.10 (1.07) 5.85 (1.34) 5.95 (1.05) 6.90 (0.45) 5.65 (1.35) 4.90 (1.48)

3.05 (1.56) 2.95 (1.50) 2.65 (1.57) 3.55 (1.54) 5.55 (1.07) 5.20 (0.77) 6.85 (0.49) 5.10 (0.79) 5.05 (0.95)

15.0 25.0 15.0 5.0 37.5 25.0 95.0 10.0 20.0

48.3 70.0 40.0 35.0 80.0 80.0 100.0 75.0 65.0

.10 .02 .13 .07 .75 .39 .89 .38 .22

-0.80 1.05 -1.70 -1.75 -0.28 -0.75 0.05 -0.55 0.15

1.63 1.25 1.90 1.75 0.63 0.95 0.05 0.95 0.55

OL VM PR LA

5.92 (1.21) 6.10 (1.21) 6.55 (0.51) 5.10 (1.29)

5.62 (1.35) 6.05 (0.89) 6.60 (0.68) 4.20 (1.06)

40.0 35.0 65.0 20.0

86.7 100.0 90.0 70.0

.53 .71 .06 .02

-0.30 -0.05 0.05 -0.90

0.77 0.65 0.45 1.20

AQ KE FB SB EU PK NKd SE OK

3.05 (1.56) 2.95 (1.50) 2.65 (1.57) 3.55 (1.54) 6.19 (1.15) 6.20 (0.95) 6.95 (0.22) 5.90 (1.25) 5.70 (1.42)

4.07 (1.44) 3.60 (1.31) 4.00 (1.54) 4.60 (1.54) 5.55 (1.07) 5.20 (0.77) 6.85 (0.49) 5.10 (0.79) 5.05 (0.95)

15.0 20.0 15.0 10.0 42.5 25.0 90.0 30.0 25.0

60.0 70.0 50.0 60.0 75.0 65.0 100.0 70.0 65.0

.48 .43 .35 .59 .47 .27 .66 .42 .37

1.02 0.65 1.35 1.05 -0.59 -1.00 0.10 -0.80 -0.65

1.22 0.95 1.35 1.35 0.84 1.10 0.10 1.00 1.15

OL VM PR LA

5.88 (1.17) 6.15 (1.14) 6.45 (0.69) 5.05 (1.15)

5.62 (1.35) 6.05 (0.89) 6.60 (0.68) 4.20 (1.06)

41.7 30.0 65.0 30.0

86.7 90.0 100.0 70.0

.54 .51 .63 .23

-0.27 -0.10 0.15 -0.85

0.77 0.80 0.35 1.15

AQ KE FB SB

3.72 (1.73) 1.90 (1.02) 4.15 (1.18) 5.10 (1.07)

4.07 (1.44) 3.60 (1.31) 4.00 (1.54) 4.60 (1.54)

28.3 15.0 40.0 30.0

63.3 40.0 85.0 65.0

.60 .29 .67 .45

0.35 1.70 -0.15 -0.50

1.12 1.70 0.75 0.90

EU PK NKd SE OK

5.70 (1.59) 5.80 (1.10) 7.00 (0.00) 5.00 (1.87) 5.00 (2.00)

5.65 (1.39) 6.00 (0.71) 6.60 (0.55) 4.80 (1.30) 5.20 (2.05)

30.0 60.0 60.0 00.0 00.0

85.0 80.0 100.0 60.0 100.0

.74 .33 .00 .53 .88

0.05 -0.20 0.40 0.20 -0.20

0.85 0.60 0.40 1.40 1.00

OL VM PR LA

5.80 (1.01) 6.00 (0.71) 6.20 (0.45) 5.20 (1.48)

5.60 (0.83) 5.80 (1.10) 5.80 (0.45) 5.20 (0.84)

46.7 40.0 60.0 40.0

93.3 100.0 100.0 80.0

.57 .63 .20 .54

0.20 0.20 0.40 0.00

0.60 0.60 0.40 0.80

AQ KE FB SB

4.27 (1.44) 4.40 (1.67) 4.00 (1.58) 4.40 (1.34)

3.27 (1.49) 3.20 (1.64) 3.40 (1.82) 3.20 (1.30)

13.3 20.0 00.0 20.0

53.3 60.0 20.0 60.0

.50 .71 .28 .58

1.00 1.20 0.60 1.20

1.40 1.20 1.80 1.20

.72 .83 .80 .72 .41

valence -0.31 -0.25 0.05 -0.25 -0.80

absolute 0.49 0.35 0.05 0.55 1.00

Anmerkungen. Die Ergebnisse der Raterpaare A-B, B-C und A-C basieren auf den Einschätzungen von jeweils 20 Videozyklen aus Prä- und Posttest, *die Ausgangswerte des Raterpaares B-D basieren auf den Einschätzungen von jeweils 5 Übungsvideos. EU: Emotionale Unterstützung, OL: Organisation der Lernsituation, AQ: Anregungsqualität, PK: Positives Klima, NK: Negatives Klima, SE: Sensibilität, OK: Orientierung am Kind, VM: Verhaltensmanagement, PR: Produktivität, LA: Lernarrangement, KE: Konzeptentwicklung, FB: Feedback, SB: Sprachbildung. d Rekodiert.

119

120 Tab. 3

Anja Leber, Gisela Kammermeyer und Susanna Roux Raterübereinstimmung und Interrater-Reliabilität mit Kalibrierung M (SD)

Rater B-D

EU PK NKd SE OK

Rater 1 5.69 (1.36) 5.68 (1.25) 6.89 (0.42) 5.21 (1.29) 4.96 (1.40)

Rater 2 5.72 (1.30) 5.86 (0.97) 6.68 (0.98) 5.25 (1.21) 5.11 (1.40)

Prozentuale Übereinstimmung Exakt Toleranz +/-1 58.0 94.7 60.7 92.9 85.7 96.4 53.6 92.9 32.1 96.4

ICC

Distanzwerte

.85 .76 .63 .80 .80

valence absolute 0.14 0.44 0.18 0.46 0.21 0.21 0.04 0.39 0.14 0.71

OL VM PR LA

5.74 (1.04) 5.89 (1.20) 5.96 (0.69) 5.36 (1.10)

5.62 (1.01) 5.75 (1.32) 5.68 (0.82) 5.43 (1.00)

59.5 64.3 71.4 42.9

96.4 100.0 92.9 96.4

.84 .89 .65 .64

-0.01 -0.14 -0.14 0.25

0.37 0.36 0.21 0.54

AQ KE FB SB

3.07 (1.32) 2.86 (1.15) 2.79 (1.32) 3.57 (1.40)

2.92 (1.22) 2.57 (1.14) 2.89 (1.34) 3.29 (1.12)

56.0 64.3 60.7 42.9

95.3 100.0 92.9 92.9

.89 .87 .83 .74

-0.06 -0.21 0.18 -0.14

0.44 0.36 0.32 0.64

Anmerkungen. Die Ergebnisse basieren auf den Einschätzungen von zwei Ratern (jeweils 28 Videozyklen aus Prä-, Post- und Follow-up-Test). EU: Emotionale Unterstützung, OL: Organisation der Lernsituation, AQ: Anregungsqualität, PK: Positives Klima, NK: Negatives Klima, SE: Sensibilität, OK: Orientierung am Kind, VM: Verhaltensmanagement, PR: Produktivität, LA: Lernarrangement, KE: Konzeptentwicklung, FB: Feedback, SB: Sprachbildung. d Rekodiert.

5.5 Diskussion 5.5 Diskussion

Im Beitrag wurde aufgezeigt, wie die Qualität von Beobachtungsdaten, die mit dem CLASS Pre-K (Pianta et al. 2008) erhoben werden, verbessert werden kann. CLASS weist mit einer jährlich verpflichtenden Reliabilitätsprüfung ein anspruchsvolles System zur Qualitätssicherung auf. In der vorliegenden Untersuchung wurde im ersten Schritt die notwendige Beobachterübereinstimmung nicht erreicht. Aus diesem Grund wurde ein standardisiertes Kalibrierungsverfahren entwickelt und geprüft. Zentraler Bestandteil dieses Verfahrens ist der enge, gemeinsame Austausch der Rater zwischen den Ratingphasen mit dem Ziel, die Orientierung an den Beurteilungskriterien des CLASS zu sichern und einem Raterdrift entgegenzuwirken, um langfristig Datenqualität zu erhöhen. Das Ergebnis der Studie ist relevant für die Planung von Untersuchungen in Deutschland, in denen CLASS eingesetzt wird. Es kann nämlich nicht davon ausgegangen werden, dass mit der Erfüllung der von Teachstone geforderten, regulären Anforderungen an die Rater die Datenqualität gesichert ist. Bei der jährlichen Rezertifizierung handelt es sich um eine Online-Prüfung mit englischsprachigen

5 Sicherung der Qualität von Beobachtungen …

121

Videos, die dort erreichte Übereinstimmung mit dem Mastercode kann vermutlich nicht ohne Weiteres auch auf deutsche Videos übertragen werden. Darüber hinaus besteht die Gefahr eines Raterdrifts über die Zeit. Das vorgestellte Kalibrierungsverfahren erscheint zunächst kosten- und zeitaufwändig, da zusätzlich Übungsvideos eingeschätzt werden müssen. Da jedoch mit Reliabilitätsproblemen zu rechnen ist, kann die präventive Einbeziehung des Kalibrierungsverfahrens langfristig sogar Ressourcen sparen. Wird die Sicherung der Reliabilität über die Einschätzung von Interaktionen englischsprachiger Videos durch eine Phase der gemeinsamen Auseinandersetzung mit deutschsprachigen Videos ergänzt, steigt zudem die ökologische Validität der Messung. Die dazu notwendigen Übungsvideos könnten beispielsweise aus Datenbanken bezogen werden. Die vorgelegten Befunde liefern erste Hinweise darauf, dass sich das Kalibrierungsverfahren bewährt. Im Anwendungsfall der Studie haben sich die Übereinstimmungsmaße deutlich verbessert, obwohl die Einschätzungen der Rater durchgängig unabhängig voneinander erfolgten. Diese Ergebnisse sind allerdings mit methodischen Einschränkungen behaftet. Da die Stichprobe für die Ratingzeitpunkte ohne und mit Kalibrierung aufgrund des Ausfalls von zwei Ratern nicht gleichgehalten werden konnte, können Personeneffekte nicht ausgeschlossen werden. Das Raterpaar B – D könnte etwa bereits vor der Kalibrierung aufgrund gemeinsam geteilter subjektiver Theorien eine höhere Interrater-Reliabilität aufgewiesen haben als die Raterpaare, die das Kalibrierungsverfahren nicht durchlaufen haben. Um dies prüfen zu können, hätte Raterpaar B – D schon vor dem Einsatz des Kalibrierungsverfahrens die gleichen Videos wie die Raterpaare ohne Kalibrierung unabhängig voneinander einschätzen müssen. Zudem hätten auch die Raterpaare ohne Kalibrierung in der zweiten Auswertungsphase den Kalibrierungsprozess durchlaufen sollen. Da sich die Notwendigkeit der Kalibrierung jedoch erst im Laufe des Auswertungsprozesses herausstellte und zu diesem Zeitpunkt zwei der ursprünglich eingeplanten Rater (A und C) nicht mehr verfügbar waren sowie der vierte Rater erst nachträglich gewonnen werden konnte, war dies nicht mehr möglich. Ein Anhaltspunkt für ähnliche Ausgangswerte aller Raterpaare findet sich über den Vergleich der Ergebnisse der ersten Phase des Kalibrierungsverfahrens beim Raterpaar B – D mit den Übereinstimmungswerten der Raterpaare ohne Kalibrierung (Tab. 2). Die Ergebnisse der vorliegenden Untersuchung müssen allerdings auch deshalb vorsichtig interpretiert werden, da diese nur auf einer kleinen Stichprobe an Ratern basieren. Eine geringe Anzahl von Ratern ist jedoch in Deutschland – im Gegensatz zu den USA, in denen CLASS bereits in großangelegten Längsschnittstudien eingesetzt wird (vgl. U.S. Department of Health and Human Services 2018, S. 1) – unseres Erachtens eher die Regel. Es gibt nur wenige deutschsprachige Trainer 121

122

Anja Leber, Gisela Kammermeyer und Susanna Roux

für CLASS und CLASS-Trainings dürfen nur unter restriktiven Bedingungen in Deutschland stattfinden. Die meisten potentiellen CLASS-Rater müssen für die Zertifizierung ein Training in den USA absolvieren, was mit erheblichen Kosten verbunden ist. Hinzu kommt, dass nicht damit gerechnet werden kann, dass alle Rater die Reliabilitätsprüfung bestehen. Die Aussagekraft der vorliegenden Ergebnisse ist durch das methodische Vorgehen zwar eingeschränkt, das Kalibrierungsverfahren zielt allerdings nicht ausschließlich auf die Verbesserung von Übereinstimmungsmaßen. Das Verfahren bezieht sich bei jedem Kalibrierungsschritt auf die konsequente Ausrichtung an den Vorgaben des Manuals. Der Ratingprozess wird durch die wechselseitige Rückmeldung der Rater transparent gemacht, um Rater-Verzerrungen vorzubeugen und damit eine echte Verbesserung der Datenqualität zu erreichen. Außerdem berücksichtigt das Verfahren die Anforderungen, die mit dem Übergang des Ratings von US-amerikanischen Videosequenzen zu Videos in deutschen Kita-Kontexten verbunden sind. Dieser Transfer wird im ersten Kalibrierungsschritt erleichtert, indem den Ratingprozess beeinflussende implizite Vorstellungen zu kulturellen Besonderheiten aufgedeckt und mit den CLASS-Kriterien abgeglichen werden können. Wie die vorliegende Studie zeigt, ist bei CLASS die Online-(Re-)Zertifizierung zwar eine notwendige, aber nicht immer eine hinreichende Voraussetzung für reliable Daten. Wirtz und Caspar (2002, S. 246) sowie Praetorius (2014, S. 285) weisen darauf hin, dass sich in der Literatur nur wenige Anhaltspunkte dafür finden, wie Ratertrainings optimiert werden können. Das im vorliegenden Beitrag thematisierte standardisierte Kalibrierungsverfahren liefert erste Hinweise darauf, wie die Qualität von CLASS-Ratings systematisch verbessert werden kann. Wenn sich das Kalibrierungsverfahren auch bei weiteren Studien bewährt, könnte die Etablierung eines solchen zusätzlichen Verfahrens in Deutschland sinnvoll sein.

Literatur Literatur

Anders, Y., & Roßbach, H. G. (2014). Empirische Bildungsforschung zu Auswirkungen frühkindlicher, institutioneller Bildung: Internationale und nationale Ergebnisse. In R. Braches-Chyrek, C. Röhner, H. Sünker & M. Hopf (Hrsg.), Handbuch Frühe Kindheit (S. 335−350). Opladen: Barbara Budrich. Arnett, J. (1989). Caregiver interaction scale. Princeton, NJ: Educational Testing Service. Bronfenbrenner, U., & Morris, A. P. (2006). The bioecological model of human development. In W. Damon & R. M. Lerner (Hrsg.), Handbook of child psychology (6. Aufl., S. 793−828). New York: Wiley.

5 Sicherung der Qualität von Beobachtungen …

123

Casabianca, J. M., Lockwood, J. R., & McCaffrey, D. F. (2015). Trends in classroom observation scores. Educational and Psychological Measurement, 75(2), 311−337. Cash, A. H., Hamre, B. K., Pianta, R. C., & Myers, S. S. (2012). Rater calibration when observational assessment occurs at large scale: Degree of calibration and characteristics of raters associated with calibration. Early Childhood Research Quarterly, 27(3), 529−542. Curby, T. W., LoCasale-Crouch, J., Konold, T. R., Pianta, R. C., Howes, C., Burchinal, M., Bryant, D., Clifford, R., Early, D., & Barbarin, O. (2009). The relations of observed pre-K classroom quality profiles to children’s achievement and social competence. Early Education and Development, 20(2), 346−372. Downer, J., Sabol, T. J., & Hamre, B. (2010). Teacher-child interactions in the classroom: Toward a theory of within-and cross-domain links to children’s developmental outcomes. Early Education and Development, 21(5), 699−723. Einsiedler, W. (2017). Von Erziehungs- und Unterrichtsstilen zur Unterrichtsqualität. In M. K. W. Schweer (Hrsg.), Lehrer-Schüler-Interaktion: Inhaltsfelder, Forschungsperspektiven und methodische Zugänge (S. 267−287). Wiesbaden: Springer. Fried, L., & Briedigkeit, E. (2008). Sprachförderkompetenz: Selbst- und Teamqualifizierung für Erzieherinnen, Fachberatungen und Ausbilder. Berlin: Cornelsen Scriptor. Hamre, B., Hatfield, B., Pianta, R., & Jamil, F. (2014). Evidence for general and domain‐ specific elements of teacher-child interactions: Associations with preschool children’s development. Child development, 85(3), 1257−1274. Hamre, B., Pianta, R. C., Downer, J., DeCoster, J., Mashburn, A., Jones, S., Brown, J., Cappella, E., Atkins, M., Rivers, S., Brackett, M., & Hamagami, A. (2013). Teaching through Interactions. Testing a Developmental Framework of Teacher Effectiveness in over 4,000 Classrooms. The Elementary School Journal, 113(4), 461−487. Hamre, B. K., Pianta, R. C., Mashburn, A. J., & Downer, J. T. (2007). Building a science of classrooms: Application of the CLASS framework in over 4,000 US early childhood and elementary classrooms. https://www.researchgate.net/profile/Jason_Downer/publication/237728991_Building_a_Science_of_Classrooms_Application_of_the_CLASS_ Framework_in_over_4000_US_Early_Childhood_and_Elementary_Classrooms/ links/0046352cc1bf3e4168000000/Building-a-Science-of-Classrooms-Application-ofthe-CLASS-Framework-in-over-4-000-US-Early-Childhood-and-Elementary-Classrooms. pdf. Zugegriffen: 25. Juni 2018. Hasselhorn, M., & Kuger, S. (2014). Wirksamkeit schulrelevanter Förderung in Kindertagesstätten. In K. Maaz, M. Neumann & J. Baumert (Hrsg.), Herkunft und Bildungserfolg von der frühen Kindheit bis ins Erwachsenenalter (S. 299−314). Wiesbaden: Springer VS. Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze: Klett/Kallmeyer. Howes, C., Burchinal, M., Pianta, R. C., Bryant, D., Early, D., & Clifford, R. R. (2008). Ready to learn? Children’s pre-academic achievement in pre-kindergarten programs. Early Childhood Research Quarterly, 23(1), 27−50. Hu, B. Y., Dieker, L., Yang, Y., & Yang, N. (2016). The quality of classroom experiences in Chinese kindergarten classrooms across settings and learning activities: Implications for teacher preparation. Teaching and Teacher Education, 57, 39−50. Jamil, F. M., Sabol, T. J., Hamre, B. K., & Pianta, R. C. (2015). Assessing teachers’ skills in detecting and identifying effective interactions in the classroom: Theory and measurement. Elementary School Journal, 115(3), 407−432. 123

124

Anja Leber, Gisela Kammermeyer und Susanna Roux

Kammermeyer, G., Roux, S., & Stuck, A. (2011). Additive Sprachförderung in Kindertagesstätten – Welche Sprachfördergruppen sind erfolgreich? Empirische Pädagogik, 25(4), 439−461. Klieme, E., Lipowsky, F., Rakoczy, K., & Ratzka, N. (2006). Qualitätsdimensionen und Wirksamkeit von Mathematikunterricht. Theoretische Grundlagen und ausgewählte Ergebnisse des Projektes ‚Pythagoras‘. In M. Prenzel & L. Allolio-Näcke (Hrsg.), Untersuchungen zur Bildungsqualität von Schule (S. 127−146). Münster: Waxmann. Klieme, E., & Rakoczy, K. (2008). Empirische Unterrichtsforschung und Fachdidaktik. Outcome-orientierte Messung und Prozessqualität des Unterrichts. Zeitschrift für Pädagogik, 54(2), 222−237. Kluczniok, K. (2018). Pädagogische Qualität im Kindergarten. In T. Schmidt & W. Smidt (Hrsg.), Handbuch empirische Forschung in der Pädagogik der frühen Kindheit (S. 407−426). Münster: Waxmann. König, A. (2006). Dialogisch-entwickelnde Interaktionsprozesse zwischen ErzieherIn und Kind(-ern). Eine Videostudie aus dem Alltag des Kindergartens. Inauguraldissertation, Universität Dortmund. https://d-nb.info/99778640x/34. Zugegriffen: 12. Mai 2018. Mackowiak, K., Wadepohl, H., Fröhlich-Gildhoff, K., & Weltzien, D. (2017). Interaktionsgestaltung im Kontext Familie und Kita: Diskussion der Beiträge. In H. Wadepohl, K. Mackowiak, K. Fröhlich-Gildhoff, & D. Weltzien (Hrsg.), Interaktionsgestaltung in Familie und Kindertagesbetreuung (S. 199−218). Wiesbaden: Springer. Mashburn, A. J., Pianta, R. C., Hamre, B. K., Downer, J. T., Barbarin, O. A., Bryant, D., Burchinal, M., & Early, D. M. (2008). Measures of classroom quality in prekindergarten and children’s development of academic, language, and social skills. Child Development, 79(3), 732−749. Mayer, D., & Beckh, K. (2018). Erfassung pädagogischer Qualität in Kindertageseinrichtungen. Frühe Bildung, 7(2), 67−76. Pakarinen, E., Lerkkanen, M. K., Poikkeus, A. M., Kiuru, N., Siekkinen, M., Rasku-Puttonen, H., & Nurmi, J. E. (2010). A validation of the classroom assessment scoring system in Finnish kindergartens. Early Education and Development, 21(1), 95−124. Pauli, C. (2014). Ratingverfahren. Journal für LehrerInnenbildung, 14(1), 56−59. Perren, S., Frei, D., & Herrmann, S. (2016). Pädagogische Qualität in frühkindlichen Bildungs- und Betreuungseinrichtungen in der Schweiz: Erste Erfahrungen und Befunde mit dem CLASS Toddler Beobachtungsverfahren. Frühe Bildung, 5(1), 3−12. Pfeifer, T., & Schmitt, R. (2010). Fertigungsmesstechnik. München: Oldenbourg. Pianta, R. C. (2017). Beobachtung und Weiterentwicklung der Fachkraft-Kind-Interaktionen in der Frühpädagogik. In M. Wertfein, A. Wildgruber, C. Wirts, & F. Becker-Stoll (Hrsg.), Interaktionen in Kindertageseinrichtungen (S. 22−34). Göttingen: Vandenhoeck & Ruprecht. Pianta, R. C., La Paro, K. M., & Hamre, B. K. (2008). Classroom Assessment Scoring System. Manual Pre-K. Baltimore: Brookes. Praetorius, A. K. (2014). Messung von Unterrichtsqualität durch Ratings. Münster: Waxmann. Roßbach, H. G., Kluczniok, K., & Kuger, S. (2009). Auswirkungen eines Kindergartenbesuchs auf den kognitiv-leistungsbezogenen Entwicklungsstand von Kindern. In H. G. Roßbach & H. P. Blossfeld (Hrsg.), Frühpädagogische Förderung in Institutionen (S. 139−158). Wiesbaden: VS Verlag für Sozialwissenschaften. Slot, P. L. (2014). Early childhood education and care in the Netherlands. Quality, curriculum, and relations with child development. Dissertation, Universität Utrecht. https://dspace. library.uu.nl/handle/1874/301535. Zugegriffen: 25. Mai 2018.

5 Sicherung der Qualität von Beobachtungen …

125

Smith, G. A. (1986). Observer drift: A drifting definition. The Behavior Analyst, 9(1), 127. Stuck, A., Kammermeyer, G., & Roux, S. (2016). The reliability and structure of the Classroom Assessment Scoring System in German pre-schools. European Early Childhood Education Research Journal, 24(6), 873−894. Sylva, K., Melhuish, E., Sammons, P., Siraj-Blatchford, I., Taggart, B., & Elliot, K. (2004). The Effective Provision of Pre-School Education Project – Zu den Auswirkungen vorschulischer Einrichtungen in England. In G. Faust, M. Götz, H. Hacker, & H. G. Roßbach (Hrsg.), Anschlussfähige Bildungsprozesse im Elementar- und Primarbereich (S. 154−167). Bad Heilbrunn: Klinkhardt. Teachstone (2018). Sharpen your observation and coding skills between annual CLASS recertification. http://info.teachstone.com/hs-fs/hub/336169/file-961568408-pdf/PDF_or_Documents/Class-Calibration.pdf. Zugegriffen: 25. August 2018. Tietze, W., Schuster, K. M., Grenner, K., &. Roßbach H. G. (2007). Kindergarten-Skala (KES-R) Deutsche Fassung der Early Childhood Environment Rating Scale – Revised Edition von Thelma Harms, Richard M. Clifford, Deborah Reid Cryer: Feststellung und Unterstützung pädagogischer Qualität in Kindergärten. Berlin: Cornelsen. U.S. Department of Health and Human Services (2018). A National Overview of Grantee CLASS® Scores in 2017. https://eclkc.ohs.acf.hhs.gov/sites/default/files/pdf/national-class-2017-data.pdf. Zugegriffen: 17. August 2018. von Suchodoletz, A., Fäsche, A., Gunzenhauser, C., & Hamre, B. K. (2014). A typical morning in preschool: Observations of teacher-child interactions in German preschools. Early Childhood Research Quarterly, 29(4), 509−519. Weck, F. (2014). Psychotherapeutische Kompetenzen: Theorien, Erfassung, Förderung. Wiesbaden: Springer. Weltzien, D., Fröhlich-Gildhoff, K., Strohmer, J., Rönnau-Böse, M., Wünsche, M., Bücklein, C., Hoffer, R., & Tinnius, C. (2017). Gestaltung von Interaktion: Ein videogestütztes Evaluationsinstrument: Manual. Weinheim: Juventa. Wildgruber, A., Wertfein, M., Wirts, C., Kammermeier, M., & Danay, E. (2016). Situative Unterschiede der Interaktionsqualität im Verlauf des Kindergartenalltags. Frühe Bildung, 5(4), 206−213. Wildgruber, A., Wirts, C., & Wertfein, M. (2014). Interaktionsqualität in Kindertageseinrichtungen in Deutschland – Forschung mit dem „Classroom Assessment Scoring System“. In A. Prengel & U. Winklhofer (Hrsg.), Kinderrechte in pädagogischen Beziehungen. Bd. 2: Forschungszugänge (S. 183−193). Berlin: Barbara Budrich. Williford, A. P., Maier, M. F., Downer, J. T., Pianta, R. C., & Howes, C. (2013). Understanding how children’s engagement and teachers’ interactions combine to predict school readiness. Journal of Applied Developmental Psychology, 34(6), 299−309. Wirtz, M. (2004). Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen. Die Rehabilitation, 43(6), 384−389. Wirtz, M. A., & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität: Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen: Hogrefe.

125

Teil III Untersuchungsbeispiele von Sprachförderansätzen in der Kindertageseinrichtung

127

Direkte und indirekte Bedeutsamkeit der Zusammenarbeit mit Familien für die kindliche Sprachentwicklung

6

Simone Lehrl, Manja Flöter, Nadine Wieduwilt und Yvonne Anders 6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

Simone Lehrl et al.

Zusammenfassung

In der vorliegenden Studie wird untersucht, ob unterschiedliche Dimensionen der Zusammenarbeit mit Familien mit der Sprachentwicklung von Kindern zusammenhängen und ob ein möglicher Zusammenhang durch die Qualität der häuslichen Lernumwelt mediiert wird. Die Datengrundlage stammt aus der Evaluation zum Bundesprogramm „Schwerpunkt-Kitas Sprache & Integration“, welche die Entwicklung sprachlicher Kompetenzen von Kindern (Grammatik und Wortschatz) im Alter zwischen 2 und 5 Jahren (N = 1.331 Kinder), Aspekte der Zusammenarbeit mit Familien und die Qualität der häuslichen und institutionellen Lernumwelt beinhaltet. Die Befunde der Pfadmodelle verweisen auf positive Effekte beider Indikatoren der Zusammenarbeit mit Familien für das Satzverstehen, nicht jedoch für die Wortschatzentwicklung. Während der allgemeine Fortbildungsgrad eines Teams bezüglich der Zusammenarbeit mit Familien direkt mit der Satzverstehensentwicklung in Beziehung steht, ist das Geben von Tipps und Hinweisen zur Anreicherung der häuslichen Lernumwelt indirekt über die häusliche Lernumwelt mit dem Satzverstehen assoziiert. Die Effekte sind unabhängig von der Qualität des Kindergartens. Die Zusammenarbeit mit Familien kann somit als wichtiges Bindeglied zwischen den Lernumwelten Familie und Kita angesehen werden. Schlüsselbegriffe

Zusammenarbeit mit Familien, häusliche Lernumwelt, sprachliche Entwicklung © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 K. Blatter et al. (Hrsg.), Evidenzbasierte Überprüfung von Sprachförderkonzepten im Elementarbereich, Edition ZfE 6, https://doi.org/10.1007/978-3-658-26438-3_6

129

130

Simone Lehrl et al.

Direct and indirect importance of family preschool collaboration for children’s language development Abstract

The present study investigates the association between two dimensions of collaborating with parents and children’s language development and how the home learning environment might mediate this association. The present study is based on longitudinal data from the German governmental initiative „Schwerpunkt-Kitas Sprache & Integration“ assessing children’s grammatical and vocabulary development between 2 and 5 years (N = 1,331), aspects of collaboration with families, the quality of the home learning environment and the quality of the preschool setting. Results of the pathway models showed that both aspects of family preschool collaboration are associated with grammatical development, but not with receptive vocabulary. While the overall degree of professional development regarding collaboration with families was directly associated with grammatical development, collaboration with families through giving advices to enhance the home learning environment was indirectly associated with grammatical development via the home learning environment. Effects are independent of the quality of the preschool. Collaboration with families can be seen as an important connector between the learning environments family and preschool. Keywords

Collaboration with parents, home learning environment, language development

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

131

6.1 Einleitung 6.1 Einleitung

Bereits im Alter von ca. drei Jahren bestehen erhebliche Unterschiede in den sprachlichen Kompetenzen von Kindern, die sich bis zur Einschulung als relativ stabil erweisen (Farkas und Beron 2004; Weinert et al. 2010). Kurz vor der Einschulung gelten knapp 23 Prozent der Kinder als sprachförderbedürftig (Autorengruppe Bildungsberichterstattung 2016). Dieser Befund ist insofern alarmierend, als sprachliche Kompetenzen nicht nur eine wichtige Voraussetzung zum erfolgreichen Durchlaufen des Schulsystems sind (Überblick Weinert 2008), sondern auch kulturelle und gesellschaftliche Teilhabe ermöglichen (OECD 2003). Unbestritten ist, dass die sprachliche Entwicklung durch die in den jeweiligen Lernumwelten angebotenen Anregungen beeinflusst wird (z. B. Vasilyeva et al. 2008; Vasilyeva und Waterfall 2011). Beispielsweise zeigten Hart und Risley (1995), dass Kinder im Alter zwischen neun Monaten und zweieinhalb Jahren je nach familiärem Hintergrund zwischen 215.000 Wörtern und lediglich 62.000 Wörtern pro Woche hörten. Entsprechend verfügten die Kinder über einen ganz unterschiedlichen Wortschatz. Bezüglich der grammatikalischen Entwicklung der Kinder legen empirische Befunde außerdem nahe, dass der Anregungsreichtum – gemessen über die Komplexität des Sprachangebots – sowohl in der Familie als auch in Betreuungs- und Bildungseinrichtungen prädiktiv für die grammatikalische Entwicklung der Kinder ist (Huttenlocher et al. 2002, 2010). Nicht zuletzt aufgrund dieser empirischen Evidenzen und der alarmierenden Ergebnisse aus den Sprachstandserhebungen von Kindern kurz vor der Einschulung wurden in den letzten Jahren verstärkt Bemühungen unternommen, sprachförderliche Konzepte im institutionellen Bereich frühkindlicher Bildung, Betreuung und Erziehung (FBBE) zu erproben und zu evaluieren (Überblick Egert und Hopf 2016). Die meisten Programme sind dabei nur mäßig erfolgreich (Egert und Hopf 2016). Die institutionelle Förderung allein vermag die relativ stabilen Kompetenzunterschiede in der Sprache, die maßgeblich auch durch die Anregung in den Familien entstehen, nicht aufzubrechen. Ein weiterer Ansatz stellt daher die Zusammenarbeit von Kita und Familien dar, die im besten Falle beide Lernumwelten verbindet und so die sprachliche Entwicklung des Kindes optimal unterstützen kann (z. B. Fröhlich-Gildhoff et al. 2006; Fröhlich-Gildhoff 2013). Die empirische Basis zur Frage nach der Wirksamkeit von Aspekten der Zusammenarbeit mit Familien ist jedoch, insbesondere in Deutschland, noch sehr schmal. Im vorliegenden Beitrag wird daher der Frage nachgegangen, welche Bedeutung verschiedene Dimensionen der Zusammenarbeit mit Familien für die kindliche Sprachentwicklung aufweisen und über welche Mechanismen diese Bedeutsamkeit erklärt werden kann. Dabei wird an die Befunde der Evaluation zum Bundespro131

132

Simone Lehrl et al.

gramm „Schwerpunkt-Kitas Sprache & Integration“ angeknüpft, die bereits zeigen konnten, dass einzelne Aspekte der Zusammenarbeit mit Familien mit der sprachlichen Entwicklung der Kinder zu bestimmten Zeitpunkten in Beziehung stehen (Anders et al. 2014). Darüber hinausgehend wird im aktuellen Beitrag auf mögliche zugrundeliegende Mechanismen fokussiert, indem das Beziehungsgefüge zwischen der Entwicklung sprachlicher Kompetenzen im Altersbereich von zweieinhalb bis vier Jahren, der Zusammenarbeit mit Familien und der häuslichen Lernumwelt im gleichen Zeitraum nachgezeichnet wird.

6.2

Zusammenarbeit mit Familien als Dimension im Qualitätsmodell frühkindlicher Bildung, Betreuung und Erziehung (FBBE)

6.2

Zusammenarbeit mit Familien als Dimension im Qualitätsmodell …

Entsprechend des Struktur-Prozess-Orientierungsmodells kann Qualität von FBBE als mehrdimensionales Konstrukt beschrieben werden (Tietze et al. 1998). Neben den relativ stabilen Strukturmerkmalen (z. B. Gruppengröße, Altersstruktur der Gruppe), Orientierungsmerkmalen der pädagogischen Fachkräfte (z. B. Bild vom Kind, Erziehungsziele) und den Prozessmerkmalen (z. B. Fachkraft-Kind-Interaktionen, Aktivitäten) wird die Zusammenarbeit mit Familien darüber hinaus als eigene Dimension im Qualitätsmodell diskutiert (Kluczniok und Roßbach 2014). Es wird angenommen, dass die Merkmale der Prozesse und der Zusammenarbeit mit Familien direkt mit Entwicklungen des Kindes oder der Familie in Beziehung stehen (Kluczniok und Roßbach 2014). Zahlreiche Untersuchungen belegen die Bedeutsamkeit von qualitativ hochwertigen Prozessmerkmalen für die kindliche Entwicklung (Überblick Anders 2013; Ulferts und Anders 2016). Dabei konnte auch gezeigt werden, dass insbesondere diejenigen Interventionsprogramme effektiv sind, die auch die Eltern stark mit einbinden (Ramey und Ramey 1998). Dies könnte u. a. daran liegen, dass eine Einbindung der Eltern in Interventionsprogramme auch den Anregungsgehalt der häuslichen Lernumwelt positiv beeinflusst.

6.2.1 Die häusliche Lernumwelt und ihre Bedeutung für die sprachliche Entwicklung Die häusliche Lernumwelt im Vorschulalter kann als mehrdimensionales Konstrukt gesehen werden, welches sich analog zum Qualitätsmodell von FBBE in Prozesse, Strukturen und Orientierungen differenzieren lässt (Kluczniok et al. 2013). Dabei

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

133

wird davon ausgegangen, dass die Prozesse, die sich weiter in globale und bereichsspezifische Prozesse differenzieren lassen, die zentrale Komponente bei der Vorhersage von Kompetenzunterschieden bei Kindern darstellen (Kluczniok et al. 2013). Zu den Prozessmerkmalen in der häuslichen Lernumwelt, die sich insbesondere auf die Förderung sprachlicher Kompetenzen beziehen, zählen das gemeinsame Lesen/ Betrachten von Büchern, allgemein der Zugang zu Büchern oder auch die Qualität der Interaktion zwischen Kind und Elternteil (z. B. Lehrl et al. 2012; Kluczniok et al. 2013). Zahlreiche Befunde belegen die Bedeutsamkeit dieser sprachbezogenen häuslichen Lernumwelt (auch „Home Literacy Environment“) für die sprachliche Entwicklung von Kindern (z. B. Bus et al. 1995; Melhuish et al. 2008; Lehrl et al. 2012; Niklas und Schneider 2013; Sénéchal und LeFevre 2014; Niklas 2015; für einen Überblick siehe Lehrl 2018). Im Rahmen der Studie „schulreifes Kind“ wurde z. B. an einer Stichprobe von rund 900 Kindern ab einem Alter von durchschnittlich vier Jahren gezeigt, dass die „Home Literacy Environment“ (HLE), unter Kontrolle von Hintergrundmerkmalen des Kindes, wie sozioökonomischer Status, Migrationshintergrund und kognitive Grundfähigkeiten, rund 3 % in den zeitgleich gemessenen schriftsprachlichen und rund 7 % in den sprachlichen Fertigkeiten aufklärte (Niklas und Schneider 2010). Die HLE wurde mit einem Fragebogen zur Häufigkeit des Vorlesens, zum Buchbesitz und zum Leseverhalten der Eltern erfasst. In anschließenden Studien zeigten sich nur indirekte, über die Kompetenzen im jeweiligen Bereich im Alter von vier Jahren vermittelte Effekte der HLE auf sprachliche Kompetenzen im Alter von fünf Jahren und kurz vor der Einschulung (Niklas und Schneider 2013) sowie bis in die vierte Klasse (Niklas und Schneider 2017). Im Rahmen der Studie „Bildungsprozesse, Kompetenzentwicklung und Selektionsentscheidungen (BiKS)“ wurden ebenfalls die sprachlichen und schriftsprachlichen Kompetenzen in Abhängigkeit der HLE von rund 547 Kindern im Alter zwischen drei und vier Jahren untersucht (Lehrl et al. 2012). Dabei erwies sich die Häufigkeit der Erfahrungen mit Büchern (Angaben zur Häufigkeit des Vorlesens und zum Buchbesitz) als positiv assoziiert mit den zeitgleich gemessenen Kompetenzen in den Bereichen Wortschatz, Grammatik, inhaltliches Vorwissen und Buchstabenkenntnis im Alter von drei Jahren sowie mit Grammatik im Alter von vier Jahren unter Kontrolle des vorangegangenen Kompetenzstandes. Anhand derselben Stichprobe wiesen Weinert und Ebert (2013) mit einem breiteren HLE-Maß (Angaben zu Vorlesehäufigkeit, Buchbesitz, Qualität der Interaktion und Einüben schriftsprachlicher Inhalte) ebenfalls positive Assoziationen der HLE mit den grammatischen Fähigkeiten im Alter von drei Jahren, nicht jedoch mit dem Zuwachs bis ins Alter von fünf Jahren nach. Das Gleiche gilt für die Wortschatzentwicklung (Ebert et al. 2013). Insgesamt kann die häusliche Lernumwelt im Vorschulalter als bedeutende Komponente in der kindlichen Sprachentwicklung identifiziert werden, 133

134

Simone Lehrl et al.

die möglicherweise durch den Austausch von Eltern mit pädagogischem Fachpersonal bzw. über eine Einbindung von Eltern in den pädagogischen Alltag der Kinder in den Institutionen über unterschiedliche Wege beeinflusst werden kann. Dieser Austausch bzw. diese Einbindung kann über verschiedene Formen erfolgen (Schwanenberg 2015).

6.2.2 Dimensionen von Zusammenarbeit mit Familien und deren Bedeutung für die kindliche Entwicklung Epstein et al. (2002) diskutieren fünf Dimensionen des im englischsprachigen Raum so bezeichneten Parental Involvement (PI): „Parenting“ (Unterstützung von Familien, eine anregende Lernumgebung zu schaffen), „Communicating“ (Kommunikation zwischen Eltern und Einrichtung), „Volunteering“ (Mitarbeit der Eltern bei einrichtungsbezogenen Aktivitäten), „Learning at Home“ (konkrete Hinweise an Eltern durch Fachkräfte zur Lernunterstützung der Kinder), „Decision Making“ (Einbindung von Eltern in Entscheidungsprozesse, z. B. Elternbeirat) und „Collaborating with community“ (Öffnung zur und Zusammenarbeit mit der Gemeinde). Bei Metaanalysen zum Zusammenhang zwischen PI und kindlichen Kompetenzen erweisen sich immer wieder diejenigen Merkmale als zentrale Indikatoren zur Vorhersage sozialer und schulischer Outcomes, die das häusliche Lernumfeld betreffen (z. B. Eltern sprechen zu Hause mit ihren Kindern über schulische Belange, Vorlesen) (Fan und Chen 2001; van Voorhis et al. 2013; Boonk et al. 2018). Hindmann und Morrison (2011) untersuchten z. B. den Wortschatzzuwachs von Kindern im Head Start Programm in Abhängigkeit verschiedener PI-Dimensionen. Sie zeigten, dass Kinder am Ende der Vorschulzeit einen höheren Wortschatz aufwiesen, wenn ihnen zu Hause häufiger vorgelesen wurde und die Eltern häufiger freiwillig im Gruppendienst mitarbeiteten. Während sich der erste Befund gut in die Literatur zur häuslichen Lernumwelt einordnen lässt, die zeigt, dass häufige Erfahrungen mit Büchern in Form von Lesen, Vorlesen und Buchbesitz mit der Wortschatzentwicklung in Beziehung stehen (siehe Lehrl 2018 für einen Überblick), stellt sich beim zweiten Befund die Frage, über welchen Mechanismus das Mitarbeiten in der Gruppe die kindlichen Sprachfertigkeiten beeinflusst. Die Autoren spekulieren, dass Eltern womöglich im Gruppendienst förderliche Praktiken erlernen, um ihr Kind zu Hause besser zu unterstützen (z. B. das Stellen offener Fragen in Interaktionssituationen) (Hindmann und Morrison 2011). Die Zusammenarbeit mit Familien könnte also ein zentrales Bindeglied zwischen den Lernumwelten Kita und Familie darstellen, indem sie es schafft, eine Anreicherung der häuslichen Lernumwelt zu ermöglichen. Befunde aus der Studie von Viernickel et al. (2013)

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

135

verweisen darauf, dass nahezu alle Fachkräfte (rund 98 %) über individuelle Türund Angel-, Entwicklungs- oder Elterngespräche in Kontakt zu den Eltern treten. Speziell in Bezug auf die sprachliche Förderung von Kindern kann diese Form der Zusammenarbeit, nämlich individuelle Gespräche zum Thema Sprache und Sprachförderung, eine mögliche Ressource für die Förderung der sprachlichen Entwicklung darstellen, indem den Eltern konkrete Hinweise für eine anregungsreichere Lernumwelt zu Hause gegeben werden. Dafür ist es jedoch notwendig, dass die pädagogischen Fachkräfte um die allgemeine Bedeutung der Zusammenarbeit mit Familien wissen und sie im Sinne einer professionellen Weiterentwicklung als grundlegendes pädagogisches Konzept in ihren Alltag implementieren. Studien, die sich mit der professionellen Weiterentwicklung pädagogischer Fachkräfte in FBBE befassen, machen deutlich, dass eine kontinuierliche fachliche Unterstützung der Fachkräfte positiv mit der professionellen Weiterentwicklung, die sich zum Beispiel in einer Steigerung der Prozessqualität in der Gruppe niederschlägt, in Beziehung steht (Egert er al. 2018; Resa et al. 2018). Dabei ist es zentral, dass das Wissen an alle Teammitglieder weitergegeben wird und nicht nur an einzelne Personen (Resa et al. 2018). Für eine professionelle Gestaltung der Zusammenarbeit mit Familien bedeutet dies, dass ein hohes Fortbildungsbestreben eines gesamten Teams positive Auswirkungen auf die Intensität und Qualität der Zusammenarbeit mit Familien aufweisen könnte. Ob allgemein der Grad der Professionalisierung im Bereich der Zusammenarbeit mit Familien oder ganz konkret die Gespräche mit Eltern zur Förderung der sprachlichen Entwicklung mit der sprachlichen Entwicklung der Kinder in Beziehung stehen, wurde bislang nur wenig erforscht. Befunde aus der Evaluation zum Bundesprogramm „Schwerpunkt-Kitas Sprache & Integration“ deuten in die Richtung, dass der Fortbildungsgrad des Teams – der als Indikator für die Implementationstiefe des Themas „Zusammenarbeit mit Familien“ im Team einer Einrichtung herangezogen werden kann – positiv mit dem Satzverstehen und der Wortschatzentwicklung der Kinder während eines Kitajahres in Beziehung steht (Anders et al. 2016). Das Geben von Tipps und Hinweisen an Eltern durch die pädagogischen Fachkräfte zur sprachlichen Förderung zu Hause – als Indikator für die konkrete sprachbezogene Zusammenarbeit mit Familien – war hingegen lediglich mit dem Zuwachs im Satzverstehen assoziiert (Anders et al. 2016). Spezifischere Analysen zum Wortschatz- und Satzverstehenszuwachs über die gesamte Kitazeit getrennt für Kinder mit und ohne deutsche Familiensprache machen darüber hinaus deutlich, dass insbesondere Kinder mit nicht-deutscher Familiensprache im Wortschatzzuwachs von Tipps und Hinweisen durch die Fachkraft profitieren können. Der Fortbildungsgrad des Teams war ebenfalls in dieser Gruppe von Kindern positiv mit dem Wortschatz- und Satzverstehenszuwachs über die gesamte Kitazeit assoziiert (Anders et al. 2016). Beide Aspekte scheinen demzufolge 135

136

Simone Lehrl et al.

wichtige Aspekte bei der Vorhersage der sprachlichen Entwicklung darzustellen, wenngleich die Effekte nur gering ausfallen und sich zum Teil lediglich auf den Kompetenzzuwachs innerhalb eines Jahres beziehen oder nur für eine bestimmte Subgruppe von Kindern vorhanden sind. Unklar bleibt bei diesen Analysen, wie genau sich die Verläufe der sprachlichen Entwicklung über die gesamte Kitazeit darstellen und welche Mechanismen diesen Beziehungen zu Grunde liegen. Der vorliegende Beitrag geht daher der Frage nach, welche Bedeutung der allgemeinen und konkreten Zusammenarbeit zwischen Kindertageseinrichtung und Familie für die sprachliche Entwicklung der Kinder zukommt. Dabei wird insbesondere die Frage nach möglichen Mechanismen untersucht. Konkret wird angenommen, dass sich direkte Effekte der Zusammenarbeit mit Familien für die sprachliche Entwicklung der Kinder zeigen, die zumindest teilweise über die häusliche Lernumwelt vermittelt werden. Es wird angenommen, dass sich eine verstärkte Zusammenarbeit mit Familien in Form vom Geben von Tipps und Hinweisen positiv auf das häusliche Lernumfeld auswirkt, welches dann wiederum positiv mit der sprachlichen Entwicklung – dem Wortschatzerwerb und dem Satzverständnis – zusammenhängt.

6.3 Methode 6.3 Methode

6.3.1 Untersuchungsanlage und Stichprobe Die Untersuchung basiert auf Daten aus der Evaluation des Bundesprogramms „Schwerpunkt-Kitas Sprache & Integration“, welches vom Bundesministerium für Familie, Senioren, Frauen und Jugend zwischen 2011 und 2015 gefördert wurde. Das Bundesprogramm hatte zum Ziel, in bundesweit rund 4.000 Kitas die alltagsintegrierte sprachliche Bildung für Kinder unter drei Jahren zu verbessern. Es richtete sich insbesondere an Einrichtungen mit einem hohen Anteil an Kindern aus bildungsbenachteiligten Familien oder aus Familien mit Migrationshintergrund. Neben dem Schwerpunkt der Umsetzung alltagsintegrierter sprachlicher Bildung für Kinder unter drei Jahren wurde im Programm auch die Zusammenarbeit zwischen Kindertageseinrichtungen und Familien als Arbeitsschwerpunkt betont, um Transfereffekte in die Familien zu erreichen. Die Evaluation wurde in einem längsschnittlichen Kontrollgruppendesign durchgeführt. Die Stichprobe bestand aus insgesamt 335 Kindertageseinrichtungen. Von ihnen wurden 258 im Bundesprogramm gefördert. 77 Kitas nahmen dagegen nicht am Bundesprogramm teil, lagen jedoch in regionaler Nähe zu den Schwer-

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

137

punkt-Kitas. Für die vorliegenden Analysen wurden sowohl die Einrichtungen der Programm- als auch die Einrichtungen der Kontrollgruppe berücksichtigt. In den Einrichtungen wurde jeweils eine Gruppe für die Erhebungen ausgewählt. Kriterium für die Auswahl war, entsprechend der Ziele des Bundesprogramms, vor allem ein möglichst hoher Anteil an Kindern unter drei Jahren. In jeder Erhebungsgruppe wurden die Eltern, deren Kinder zum Zeitpunkt der ersten Erhebung älter als eineinhalb und unter drei Jahren sein würden, um Teilnahme an der Studie gebeten. Die Fachkräfte in den Einrichtungen haben dabei eine wichtige Vermittlerrolle gespielt, um möglichst viele Familien zur Teilnahme bewegen zu können. Auf diesem Weg wurden im Mittel vier Kinder und ihre Familien pro Kindertageseinrichtung für die Teilnahme gewonnen. Insgesamt beteiligten sich zum ersten MZP (t1; Herbst 2013) 1.331 Kinder (49.5 % weiblich) und ihre Familien (69.6 % mit ausschließlich Deutsch als Familiensprache; 49.8 % der teilnehmenden Mütter geben als höchsten Schulabschluss „Abitur“ an). Von ihnen konnten zum zweiten MZP (t2; Herbst 2014) 85 % und zum dritten MZP (t3; Herbst 2015) ca. 70 % wiedererhoben werden. Auch auf Einrichtungsebene war die Wiedererhebungsquote sehr zufriedenstellend (MZP 2: 97.9 %; MZP 3: 94.6 %). Für die Analysen der vorliegenden Studie wurden diejenigen Kinder ausgeschlossen, die Beeinträchtigungen im kognitiven Bereich aufwiesen (laut Angabe der Eltern; N = 308). Die Datenerhebungen wurden ausgehend von drei regionalen Erhebungszentren durchgeführt (Berlin, Bamberg, Duisburg), sodass fast das ganze Bundesgebiet in die Erhebungen einbezogen werden konnte. In den Familien wurden drei Messungen in ca. jährlichem Abstand (Ende 2012 bis Mitte 2015) realisiert, die jeweils einen drei- bis vierstündigen Besuch umfassten. Hierbei wurde ein standardisiertes Familieninterview durch geschulte Erheberinnen und Erheber durchgeführt, in dem Angaben zur Demografie (Alter, Bildungsabschlüsse, Haushaltszusammensetzung, Betreuungsgeschichte des Kindes usw.), zu verschiedenen Aspekten des familiären Umfelds, zu Einstellungen der Eltern bezüglich der Bildung ihres Kindes, zur häuslichen Lernumwelt, zur Zusammenarbeit mit den Einrichtungen und zur Zufriedenheit mit der Kita erfasst wurden. Das Interview wurde entsprechend der Wünsche der Eltern in Deutsch, Englisch, Russisch oder Türkisch durchgeführt. Im Rahmen des Familienbesuchs wurden außerdem die kindlichen Kompetenzen erfasst. Das Alter der Kinder betrug zum ersten MZP im Mittel zwei Jahre und zehn Monate (2;10), zu MZP 2 4;0 Jahre und zu MZP 3 5;2 Jahre. Die Erhebungen in den Einrichtungen umfassten Beobachtungen zur sprachbezogenen Prozessqualität in 335 Gruppen im Rahmen zweier ca. vierstündiger Einrichtungsbesuche parallel zu den ersten beiden Messzeitpunkten der Familienbesuche. Darüber hinaus wurden schriftliche Befragungen (Online und Paper/Pencil) mit den Einrichtungsleitungen und den Gruppenleitungen leicht zeitversetzt durchgeführt. 137

138

Simone Lehrl et al.

Für ihre Teilnahme erhielten alle Kinder, Familien und pädagogischen Fachkräfte zu jedem MZP eine Aufwandsentschädigung.

6.3.2 Messinstrumente Sprachliche Entwicklung Die sprachlichen Kompetenzen der Kinder im Deutschen wurden während der Familienbesuche mittels standardisierter Verfahren getestet. Hierbei wurde für die Erfassung des rezeptiven Wortschatzes eine deutsche Forschungsversion des Peabody Picture Vocabulary Test (PPVT IV; Dunn und Dunn 2007) eingesetzt. Diese Version des PPVT beinhaltet 40 Items zum ersten und 60 Items zum zweiten und dritten MZP. Zudem wurde das Satzverstehen der Kinder über die Untertests „Verstehen von Sätzen“ aus dem Sprachentwicklungstest für zweijährige/drei- bis fünfjährige Kinder (SETK-2/SETK 3–5; 22 Items; Grimm et al. 2000, 2001) sowie über den Untertest „Verbargumente“ aus dem Test zum Satzverstehen von Kindern (TSVK; 12 Items; Siegmüller et al. 2011) erfasst. Die Korrelationen zwischen SETK und TSVK betragen zu MZP 1 .59, zu MZP 2 .51 und zu MZP 3 .55. Beide Testverfahren weisen somit einen breiten Überlappungsbereich auf, messen aber auch jeweils eigene Aspekte der rezeptiven Grammatik. Die Werte der beiden Tests SETK und TSVK wurden auf Grundlage dieser Analysen summiert, um einen breiten Indikator „Satzverstehen“ für die weiteren statistischen Analysen vorliegen zu haben.

Zusammenarbeit zwischen Kita und Familie Für die Erfassung der Zusammenarbeit mit Familien wurden zwei Indikatoren herangezogen. Der erste Indikator beinhaltet Informationen dazu, wie intensiv der Austausch zwischen pädagogischen Fachkräften und Eltern hinsichtlich der sprachlichen Förderung des Kindes ausfällt und umfasst damit die konkrete Zusammenarbeit mit Familien hinsichtlich sprachlicher Bildung. Die Eltern wurden zum zweiten MZP gefragt, ob sie in den vergangenen 12 Monaten durch die pädagogischen Fachkräfte der Kindertageseinrichtung Hinweise zur Förderung der sprachlichen Entwicklung der Kinder erhalten haben (sechs Items, z. B. „Tipps zur Nutzung von Alltagssituationen (z. B. Anziehen, Einkaufen usw.)“; Skalierung überhaupt keine Anregungen, einige Anregungen, viele Anregungen, sehr viele Anregungen). Die Items wurden zu einem Mittelwert zusammengefasst (Cronbachs Alpha .90). Der zweite Indikator umfasst die allgemeine Implementation des Konzepts Zusammenarbeit mit Familien im gesamten Kitateam, gemessen über den Fortbildungsgrad des Teams zur entsprechenden Thematik. Dazu wurden die Einrich-

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

139

tungsleitungen danach gefragt, wie viele Personen an Fortbildungen zur Zusammenarbeit mit Familien in den letzten 12 Monaten teilgenommen haben. Aus den Angaben wurde eine ordinale Variable gebildet, in der berücksichtigt wurde, ob keine Personen (Wert 0), nur einzelne Personen (Wert 1), größere Teile des Teams (Wert 1.5) oder das gesamte Team (Wert 2) fortgebildet worden sind/ist.

Sprachbezogene Prozessqualität der Familie und Kita Als Indikator für die häusliche Lernumwelt wurde von den Eltern die Häufigkeit von sprachanregenden Aktivitäten (u. a. Bücher betrachten bzw. Vorlesen, Reime und Fingerspiele, Rollenspiele usw.) auf einer siebenstufigen Skala (Skalierung: 1 = nie bis 7 = täglich; 11 Items zu MZP 1; jeweils 15 Items zu MZP 2 und 3; Cronbachs Alpha zu MZP 1: .70; MZP 2: .74; MZP 3: .75) erfragt. In den Einrichtungen wurde die sprachbezogene pädagogische Qualität über standardisierte Ratingverfahren im Rahmen einer zwei- bis vierstündigen Beobachtung erhoben. Für die vorliegenden Analysen wurde die Subskala KES-E-Lesen der Gesamtskala Kindergarten-Skala-Erweiterung (KES-E; Roßbach et al. 2018) als Indikator für die spezifische sprachbezogene Qualität verwendet. Die Skala beinhaltet vier Items zur Gestaltung der Bücherecke und zum gemeinsamen Vorlesen in der Kita.

6.3.3 Kontrollvariablen Familiärer Hintergrund Familiäre Hintergrundmerkmale wurden in Übereinstimmung mit anderen großen Längsschnittstudien zur Kontrolle in den statistischen Analysen ausgewählt (z. B. Anders et al. 2012). Die strukturellen Merkmale der Familie (Familiensprache, Schulabschluss der Mutter, Haushaltseinkommen) wurden während des Familieninterviews erfragt. Der Status der Familiensprache wurde über die Frage bestimmt, in welcher Sprache der oder die Befragte sowie der Partner oder die Partnerin mit dem Kind zu Hause sprechen (0 = kein Elternteil spricht mit dem Kind zu Hause Deutsch/ein Elternteil spricht mit dem Kind zu Hause Deutsch; 1 = beide Elternteile sprechen mit dem Kind zu Hause Deutsch). Alleinerziehende Elternteile ohne miterziehenden Partner im Haushalt wurden dabei entweder in die Kategorie 0 oder 1 eingeordnet. Die mütterliche Bildung wurde über den höchsten Schulabschluss erfasst (0 = kein Schulabschluss/Hauptschulabschluss/ Realschulabschluss, 1 = (Fach-)Abitur). Das Nettohaushaltseinkommen wurde an den im Haushalt lebenden Personen entsprechend der aktuellen Definitionen der OECD zu einem Nettoäquivalenzeinkommen relativiert. 139

140 Tab. 1

Simone Lehrl et al. Bivariate Korrelationen und deskriptive Statistiken der Sprachentwicklungs-, Kind-, Familien- und Einrichtungsmaße 1

(1) PPVT (t1) (2) PPVT (t2) (3) PPVT (t3) (4) SV (t1) (5) SV (t2) (6) SV (t3) (7) ZmF: Fortbildungsgrad (8) ZmF: Tipps und Hinweise (9) HLE (t1) (10) HLE (t2) (11) HLE (t3) (12) KES-E-Lesen (13) Alter des Kindes (t1) (14) Geschlecht des Kindes (15) mütterliche Bildung Abitur (16) Familiensprache deutsch (17) NÄQ (18) Anteil Kinder mit MH (19) Mittleres Alter der Kinder (20) Gruppengröße M SD Min Max

2

3

4

5

6

7

8

.71 .66 .77 .79 .61 .57 .64 .77 .67 .59 .59 .65 .70 .55 .68 .01 .06 .01 .00 .08 .02 -.12 -.05 -.05 -.12 -.10 -.06 .27 .22 .23 .24 .31 .23 .19 .16 .17 .16 .20 .17 .08 .09 .10 .09 .18 .11 .05 .07 .08 .05 .09 .08 .33 .28 .22 .38 .23 .19 -.05 .00 .02 -.08 -.09 -.01 .13 .18 .14 .16 .21 .19 .41 .40 .37 .32 .31 .31 .30 .30 .28 .26 .31 .25 -.25 -.26 -.23 -.19 -.18 -.17 .08 .11 .07 .13 .12 .08 -.03 -.03 -.02 .00 -.03 .00 27.63 42.56 33.14 16.68 26.36 37.85 6.56 8.33 5.60 8.10 5.08 5.18 8 15 10 0 7 17 40 60 45 34 34 49

.06 .04 .02 .06 -.07 .05 -.03 -.04 -.03 -.03 .03 .01 .00 0.79 0.78 0 2

.00 .07 .09 .08 .01 .03 -.08 -.04 -.12 .00 .02 -.08 1.61 0.70 1 4

Anmerkungen: Korrelationen ≥ .07 signifikant mit p < .05; PPVT = rezeptiver Wortschatz; SV = Satzverstehen; ZmF = Zusammenarbeit mit Familien; HLE = Häusliche Lernumwelt; NÄQ = Nettoäquivalenzeinkommen, MH = Migrationshintergrund, Geschlecht des Kindes (0 = weiblich, 1 = männlich), bei dichotomen Variablen statt M (Mittelwert) Angabe der relativen Häufigkeit in Prozent

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

9

10

11

.59 .55 .04 .02 -.12 .17 .16 .22 -.05 .01 -.03 5.82 0.72 1.64 7

.62 .03 .01 -.08 .14 .07 .17 -.06 .02 -.03 5.04 0.66 1 6.40

.03 .03 -.11 .14 -.03 .13 .03 .06 -.01 5.06 0.62 2.57 6.35

12

13

.07 .00 -.02 .05 -.07 -.01 .00 .04 -.10 .06 .07 .22 .43 .13 .18 3.23 34.38 0.94 4.11 1.33 24.38 6.17 51.32

14

15

16

-.01 .41 .03 -.03 -.07 .00 50.9

.05 .37 -.03 -.02 -.03 49.8

.22 -.39 -.03 -.06 69.6

17

141

18

-.14 -.09 .22 -.05 .12 1423 28.62 622 27.07 187 0 3846 100

19

20

.46 2.59 17.96 0.89 8.86 1.11 6 4.56 83

141

142

Simone Lehrl et al.

Strukturelle Merkmale der Einrichtung Alle eingehenden strukturellen Merkmale der Einrichtung bzw. Gruppe (Anteil der Kinder mit nicht-deutschem familiären Hintergrund in der Gruppe, Durchschnittsalter der Kinder in der Gruppe, Gruppengröße) wurden im Rahmen der schriftlichen Befragungen der Gruppenleitungen erfasst.

Analysevorgehen Zur Beantwortung der Fragestellungen wurden zwei separate Pfadmodelle spezifiziert, welche Abb. 1 und 2 zu entnehmen sind. Im ersten Modell wird die Entwicklung des rezeptiven Wortschatzes und im zweiten Modell die Entwicklung des Satzverständnisses in Abhängigkeit der Zusammenarbeit mit Familien geprüft. Dabei wird getestet, inwiefern die häusliche Lernumwelt als vermittelnde Variable fungiert. Zentrale Hintergrundmerkmale wie Migrationsstatus, mütterliche Bildung und Struktur- und Prozessmerkmale der Kindergartengruppe wurden dabei kontrolliert. Die Analysen erfolgten mit Mplus 6.0 (Muthén und Muthén 1998–2012). Um eine durch das längsschnittliche Design bedingte Reduktion der Stichprobengröße und damit eventuell einhergehende verzerrte Schätzungen zu vermeiden, wurde für die vorliegenden Analysen die Full Information Maximum-Likelihood (FIML) gewählt, welche in Mplus implementiert ist. Diese ermöglicht die Modellschätzung unter Berücksichtigung aller Fälle auch bei einzelnen fehlenden Werten (Arbuckle 1996). Um der geschachtelten Stichprobe (Kinder in Kindergartengruppen) gerecht zu werden, wurde in beiden Modellen die Zugehörigkeit zur Kindergartengruppe berücksichtigt, indem adjustierte Standardfehler geschätzt wurden (mit MPlus: Type = Complex; Cluster = Kindergartengruppe). Die Intraklassenkorrelationen für Satzverstehen und rezeptiven Wortschatz (in Klammern) betragen .24 (.26) zu MZP 1, .25 (.23) zu MZP 2 und .18 (.19) zu MZP 3. Bivariate Korrelationen und deskriptive Statistiken sind Tabelle 1 (s. o.) zu entnehmen.

6.4 Ergebnisse 6.4 Ergebnisse

Den Abbildungen 1 und 2 sind die Ergebnisse der Pfadmodelle zur Vorhersage sprachlicher Entwicklungsunterschiede durch die häusliche Lernumwelt und Maße der Zusammenarbeit mit Familien zu entnehmen. Dargestellt sind die standardisierten Pfadkoeffizienten. Abbildung 1 zeigt das Modell zur Vorhersage des rezeptiven Wortschatzes (PPVT). Zunächst ist zu erkennen, dass sowohl der Wortschatz als auch die HLE über die Zeit sehr stabil sind. Darüber hinaus wird ersichtlich, dass das Geben von Tipps und

6 Direkte und indirekte Bedeutsamkeit der Zusammenarbeit …

143

Hinweisen negativ mit dem rezeptiven Wortschatz zum ersten MZP in Beziehung steht (ß = -.16; p < .05). Bezüglich der angenommenen Effekte der Zusammenarbeit mit Familien vermittelt über die HLE zeigt sich, dass die häusliche Lernumwelt zum zweiten MZP zwar positiv durch das Geben von Tipps und Hinweisen vorhergesagt wird (ß = .09; p < .05), aber nicht mit dem Zuwachs im rezeptiven Wortschatz in Beziehung steht. Keine Effekte, weder auf die häusliche Lernumwelt, noch auf den rezeptiven Wortschatzzuwachs, weist der Fortbildungsgrad des Teams zum Thema Zusammenarbeit mit Familien auf. Abbildung 2 zeigt das Modell zur Vorhersage des Satzverstehens. Auch das Satzverstehen erweist sich über die Zeit als relativ stabil. Das Geben von Tipps und Hinweisen ist ebenfalls negativ mit dem Satzverstehen zum ersten MZP assoziiert (ß = -.13; p < .05). Darüber hinaus zeigt sich ein positiver direkter Effekt des Fortbildungsgrades des Teams auf das Satzverstehen zum zweiten MZP (ß = .08; p < .05), ohne über die HLE vermittelt zu werden. Die häusliche Lernumwelt ist ebenfalls positiv mit dem Satzverstehen zum zweiten MZP assoziiert (ß = .09; p < .05). Daraus ergibt sich ein indirekter Effekt der Variable „Geben von Tipps und Hinweisen“ von .01 (p < .05) für die Vorhersage des Satzverstehens zum zweiten MZP. t3

t2

t1

.24*

PPVT

.61*

PPVT

.57*

.18*

PPVT

.32*

HLE

.57*

-.16*

.41*

HLE

HLE

.09*

Hinweise an Eltern

Fortbildungsgrad

Abb. 1 Pfadmodell zur Vorhersage der rezeptiven Wortschatzentwicklung Abbildung 1. Pfadmodell zur Vorhersage der rezeptiven Wortschatzentwicklung

Anmerkungen: N=1.023, CFI= .98, RMSEA=.03, SRMR=.03; * p< ,05; gestrichelte Pfade spezifiziert, aber nicht signifikant;

kontrolliert Geschlecht und Alter des Kindes, Nettoäquivalenzeinkommen, Anmerkungen: N =für1.023, CFI = .98, RMSEA = .03, SRMR Bildungsstand = .03; * pder