Pädagogisches Wissen von Studierenden der Berufs- und Technikpädagogik: Kompetenzmodellierungen auf der Basis von Prüfungsaufgaben 3515134638, 9783515134637

Trotz zahlreicher Überlegungen zu kompetenzorientierten Prüfungen im Hochschulkontext ist offen, inwiefern schriftliche

130 96 5MB

German Pages 255 [257] Year 2023

Table of contents :
Inhalt
Zusammenfassung
I Problemaufriss und theoretische Grundlegung
1 Ausgangslage
1.1 Kompetenzorientierung in der Hochschuldidaktik
1.2 Das Projekt QuaLIKiSS – Innovatives Prüfen
1.3 Fragestellung und Zielsetzung dieser Arbeit
1.4 Aufbau der Arbeit
2 Das Kompetenzkonstrukt im Hochschulbereich
2.1 Perspektiven auf das Kompetenzkonstrukt
2.1.1 Empirische Bildungsforschung
2.1.2 Berufsbildungsforschung
2.1.3 Spezifizierung möglicher Kompetenzkonstrukte
2.2 Verwendung des Kompetenzbegriffs im Hochschulbereich
2.2.1 Ursprünge des Kompetenzverständnisses im Hochschulbereich
2.2.2 Employability
2.3 Kompetenzorientierung im Hochschulkontext
2.3.1 Mangel an Einheitlichkeit
2.3.2 Ausgewähltes Kompetenzverständnis
3 Fachkompetenzmodellierungen in nichtakademischen Feldern
4 Modellierungen von Kompetenzen akademischer Bildungsgänge
4.1 Modellierungsansätze in verschiedenen Studiengängen
4.1.1 Ingenieurwissenschaften
4.1.2 Wirtschaftswissenschaften
4.2 Professionelle Handlungskompetenz von Lehrkräften
4.2.1 Fachwissen und fachdidaktisches Wissen
4.2.2 Pädagogisches Wissen
5 Dimensionierung des berufspädagogischen Wissens
6 Kompetenzniveaumodelle
6.1 Verfahren nach Beaton und Allen ( 1992 )
6.2 Verfahren nach Hartig ( 2007 )
6.3 Befundlage zur Niveaumodellierung
7 Kompetenzorientiertes Prüfen
7.1 Constructive Alignment
7.1.1 Lernziele
7.1.2 Prüfungen
7.1.3 Lehr-Lernsituationen
7.1.4 Erweiterungen und Verknüpfungen der Elemente
7.2 Kompetenzerfassung über Prüfungen
7.2.1 Kompetenzorientierte Prüfungen im Hochschulkontext
7.2.2 Betrachtung ausgewählter Prüfungsformen
7.2.3 Umsetzung kompetenzorientierten Prüfens in der Praxis
7.3 Betrachtung der schriftlichen Prüfungen als Testinstrument
7.3.1 Testplanung
7.3.2 Aufgabentypen und Antwortformate
7.3.3 Itemformulierung
7.4 Fazit zu kompetenzorientiertem Prüfen im Hochschulkontext
8 Curriculare Referenzsysteme
8.1 Basiscurriculum Berufs- und Wirtschaftspädagogik
8.2 Inhaltliche Dimensionen des Basiscurriculums
8.3 Weiterentwicklung des Basiscurriculums
8.4 Inhaltlicher Vergleich des berufspädagogischen Wissens
II Methodik der empirischen Untersuchung
1 Ableitung der Forschungsfragen
2 Methodisches Vorgehen
2.1 Erhebungsanlage
2.2 Instrumente
2.3 Stichprobe
2.4 Dateneingabe, Umgang mit fehlenden Werten und eingesetzte Software
2.5 Methodisches Vorgehen
2.5.1 Gütekriterien und deren Überprüfung
2.5.2 Methodik der Voranalysen
2.5.3 Partial-Credit-Model
2.5.4 Methodische Grundlagen der Skalierung
2.5.5 Differential Item Functioning
2.5.6 Modellvergleich
2.5.7 Methodik der Prüfungsvergleiche
2.5.8 Methodik der Niveaumodellierung
2.5.9 Umgang mit Grenzwerten
III Empirische Befunde
1 Inhaltsvalidität berufspädagogischer Prüfungsaufgaben
1.1 Curriculare Einordnung der Grundlagenmodule der BWP
1.1.1 Curriculare Übereinstimmung der Lernziele des Moduls.Einführung in die Berufspädagogik mit dem Basiscurriculum
1.1.2 Curriculare Übereinstimmung der Lernziele des Moduls Organisation beruflicher Bildung mit dem Basiscurriculum
1.1.3 Curriculare Übereinstimmung der Lernziele des Moduls Didaktik beruflicher Bildung mit dem Basiscurriculum
1.1.4 Modulübergreifende Lehrinhalte
1.1.5 Fazit zur Modulbetrachtung
1.2 Curriculare Einordnung der Prüfungen der BWP
1.2.1 Curriculare Übereinstimmung der Prüfung BWP I mit dem Basiscurriculum
1.2.2 Curriculare Übereinstimmung der Prüfung BWP II mit dem Basiscurriculum
1.2.3 Curriculare Übereinstimmung der Prüfung BWP III mit dem Basiscurriculum
1.2.4 Curriculare Übereinstimmung der Prüfung BWP IV mit dem Basiscurriculum
1.2.5 Fazit zur inhaltlichen Validität der Prüfungen
1.3 Vergleich der Inhalte der Module und der Prüfungen
1.3.1 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP I
1.3.2 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP II
1.3.3 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP III
1.3.4 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP IV
1.3.5 Abschließende Betrachtung der Lernziel-Prüfungs-Übereinstimmung
2 Skalierung berufspädagogischer Prüfungen
2.1 Voranalysen
2.2 Skalierung der Prüfung BWP I
2.3 Skalierung der Prüfung BWP II
2.4 Skalierung der Prüfung BWP III
2.5 Skalierung der Prüfung BWP IV
2.6 Betrachtung der Ergebnisse der ersten Forschungsfrage
3 Differential Item Functioning und Itemfairness
3.1 Die Items messen bezüglich des Geschlechts fair
3.2 Die Items messen bezüglich des Studiengangs fair
3.3 Die Items messen bezüglich des Semesters fair
3.3.1 DIF-Analysen bezüglich des Semesters für die Prüfung BWP I
3.3.2 DIF-Analysen bezüglich des Semesters für die Prüfung BWP II
3.3.3 DIF-Analysen bezüglich des Semesters für die Prüfung BWP III
3.3.4 DIF-Analysen bezüglich des Semesters für die Prüfung BWP IV
3.3.5 DIF-Analysen ausgewählter Semester der Prüfungen BWP III und IV
3.3.6 Ergänzende Skalierung der Prüfung BWP III
3.4 Betrachtung der Forschungsfrage bezüglich der DIF-Effekte
4 Dimensionen berufspädagogischen Wissens
4.1 Dimensionierung des Moduls Didaktik beruflicher Bildung
4.2 Dimensionierung des berufspädagogischen Wissens
4.3 Liegt ein Generalfaktormodell vor?
4.4 Einordnung der Ergebnisse der Dimensionalisierung
5 Vergleichbarkeit von Skalierung und realer Prüfung
5.1 Es besteht ein Zusammenhang für die Prüfung BWP I
5.2 Es besteht ein Zusammenhang für die Prüfung BWP II
5.3 Es besteht ein Zusammenhang für die Prüfungen BWP III und BWP IV
5.4 Betrachtung der Zusammenhänge
6 Niveaumodelle des berufspädagogischen Wissens
6.1 Niveaumodell für die Prüfung BWP I
6.2 Niveaumodell für die Prüfung BWP II
6.3 Niveaumodell für die Prüfung BWP III
6.4 Niveaumodell für die Prüfung BWP IV
6.5 Fazit bezüglich der Niveaumodellierungen
IV Diskussion und Ausblick
1 Zusammenfassung und Ergebnisreflexion
1.1 Zusammenfassung
1.2 Implikationen für die Domäne und den Standort Stuttgart
1.3 Diskussion und kritische Reflexion der Befunde
1.3.1 Reflexion der theoretischen Prämissen
1.3.2 Reflexion der Methodik
1.3.3 Reflexion der Befunde
2 Ausblick
Abkürzungsverzeichnis
Verzeichnis der Tabellen
Verzeichnis der Abbildungen
Literatur

Recommend Papers

Deonomastika: Adjektivbildungen auf der Basis von Eigennamen in der älteren Überlieferung des Deutschen 9783666203466, 3525203462, 9783525203460

117 40 16MB Read more

Kontrollabbau in Kreditinstituten: Eine Analyse der Chancen und Risiken von Kontroll- und Kompetenzveränderungen im Marktbereich von Kreditinstituten auf Basis der Gemeinkosten-Wertanalyse [1 ed.] 9783428485031, 9783428085033

109 68 25MB Read more

Bildung und Zugehörigkeit in der Migrationsgesellschaft: Biographien von Studierenden des Lehramts und der Pädagogik [1. Aufl.] 9783839431948

How are students' educational pathways formed in the context of a migrant society? A reconstructive biographical st

132 29 2MB Read more

Beratung als Förderung von Selbstorganisationsprozessen: Empirische Studien zur Beratung von Personen und Organisationen auf der Basis der Synergetik 9783666403538, 9783525403532, 9783647403533

112 98 4MB Read more

Die normative Restriktion des Heimtückebegriffes auf Basis der Teilverwirklichung von Rechtfertigungsgründen [1 ed.] 9783428532377, 9783428132379

Die Tatausführungsbezogenheit der hergebrachten Heimtückedefinition bewirkt oftmals, dass nicht-höchststrafwürdiges Unre

98 61 834KB Read more

Figurenwissen: Funktionen von Wissen bei der narrativen Figurendarstellung 9783110229141, 9783110229134

The anthology makes an important contribution to the research topic ‘Literature and Knowledge’ and picks up on the curre

166 78 3MB Read more

Unser Wissen von der Außenwelt: Herausgegeben:Otte, Michael 378731685X, 9783787316854

"Unser Wissen von der Außenwelt", zuerst erschienen 1914, enthält zusammen mit der Einführung in die mathemati

108 92 744KB Read more

Studium und Beruf: Studienstrategien - Praxiskonzepte - Professionsverständnis: Perspektiven von Studierenden und Lehrenden nach der Bologna-Reform [1. Aufl.] 9783839421567

Der Bologna-Prozess hat die Bedeutung von Berufs- und Praxisorientierung im Studium gestärkt und damit die Erwartungen a

129 71 2MB Read more

Erfolgskritische Faktoren der koordinativen Ausgestaltung und Steuerung von Akteursbeziehungen: Analyse auf Basis einer integrativen Modellierung zentraler Perspektiven der Theorie der Unternehmung [1 ed.] 9783428540785, 9783428140787

Wie kann man in China erfolgreich sein, bzw. wie sollten Unternehmen ihre Wertschöpfung überhaupt erfolgreich organisier

122 20 4MB Read more

Ein Bild von Skulptur: Der Einfluss der Fotografie auf die Wahrnehmung von Bildhauerei 9783839445440

Between instrumentalization and interpretation - photography of sculptures in German history.

168 87 23MB Read more

Pädagogisches Wissen von Studierenden der Berufs- und Technikpädagogik: Kompetenzmodellierungen auf der Basis von Prüfungsaufgaben
3515134638, 9783515134637

Author / Uploaded
Andreas Just

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Andreas Just

Pädagogisches Wissen von Studierenden der Berufs- und Technikpädagogik Kompetenzmodellierungen auf der Basis von Prüfungsaufgaben

Pädagogik

Empirische Berufsbildungsforschung 6

Franz Steiner Verlag

6

Andreas Just Pädagogisches Wissen von Studierenden der Berufs- und Technikpädagogik Kompetenzmodellierungen auf der Basis von Prüfungsaufgaben

Empirische Berufsbildungsforschung Herausgegeben von Kristina Kögler, Susan Seeber, Niclas Schaper, Stephan Abele und Stefan C. Wolter Band 6

andreas just Pädagogisches Wissen von Studierenden der Berufs- und Technikpädagogik Kompetenzmodellierungen auf der Basis von Prüfungsaufgaben

Franz Steiner Verlag

Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über dnb.d-nb.de abrufbar. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist unzulässig und strafbar. © Franz Steiner Verlag, Stuttgart 2023 www.steiner-verlag.de Dissertation Universität, Stuttgart D 93 Layout und Herstellung durch den Verlag Satz: satz&sonders, Dülmen Druck: Beltz Grafische Betriebe, Bad Langensalza Gedruckt auf säurefreiem, alterungsbeständigem Papier. Printed in Germany. ISBN 978-3-515-13463-7 (Print) ISBN 978-3-515-13466-8 (E-Book)

Inhalt

Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

. . . . . . . . . . . . . . . . . . . . . . . . . 13

I

Problemaufriss und theoretische Grundlegung

1

Ausgangslage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Kompetenzorientierung in der Hochschuldidaktik . . . . . . . . . . . . . . . . 1.2 Das Projekt QuaLIKiSS – Innovatives Prüfen . . . . . . . . . . . . . . . . . . . . . 1.3 Fragestellung und Zielsetzung dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . 1.4 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15 15 17 18 20

2

Das Kompetenzkonstrukt im Hochschulbereich . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Perspektiven auf das Kompetenzkonstrukt . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Empirische Bildungsforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Berufsbildungsforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Spezifizierung möglicher Kompetenzkonstrukte . . . . . . . . . . . . . . . . . . . . . . 2.2 Verwendung des Kompetenzbegriffs im Hochschulbereich . . . . . . . . 2.2.1 Ursprünge des Kompetenzverständnisses im Hochschulbereich . . . . . . . . 2.2.2 Employability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Kompetenzorientierung im Hochschulkontext . . . . . . . . . . . . . . . . . . . . 2.3.1 Mangel an Einheitlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Ausgewähltes Kompetenzverständnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21 21 22 22 23 25 25 27 28 28 30

3

Fachkompetenzmodellierungen in nichtakademischen Feldern . . . . . . . . . . 32

4

Modellierungen von Kompetenzen akademischer Bildungsgänge . . . . . . . . . 4.1 Modellierungsansätze in verschiedenen Studiengängen . . . . . . . . . . . 4.1.1 Ingenieurwissenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Wirtschaftswissenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37 38 38 39

6

Inhalt

4.2 Professionelle Handlungskompetenz von Lehrkräften . . . . . . . . . . . . . 40 4.2.1 Fachwissen und fachdidaktisches Wissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.2.2 Pädagogisches Wissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5

Dimensionierung des berufspädagogischen Wissens . . . . . . . . . . . . . . . . . . . . . 52

6

Kompetenzniveaumodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Verfahren nach Beaton und Allen (1992) . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Verfahren nach Hartig (2007) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Befundlage zur Niveaumodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55 55 57 58

7

Kompetenzorientiertes Prüfen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Constructive Alignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Lernziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.3 Lehr-Lernsituationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.4 Erweiterungen und Verknüpfungen der Elemente . . . . . . . . . . . . . . . . . . . . 7.2 Kompetenzerfassung über Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Kompetenzorientierte Prüfungen im Hochschulkontext . . . . . . . . . . . . . . . 7.2.2 Betrachtung ausgewählter Prüfungsformen . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Umsetzung kompetenzorientierten Prüfens in der Praxis . . . . . . . . . . . . . 7.3 Betrachtung der schriftlichen Prüfungen als Testinstrument . . . . . . . 7.3.1 Testplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Aufgabentypen und Antwortformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3 Itemformulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Fazit zu kompetenzorientiertem Prüfen im Hochschulkontext . . . . .

61 62 62 63 63 63 65 66 68 69 73 73 75 76 77

8

Curriculare Referenzsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Basiscurriculum Berufs- und Wirtschaftspädagogik . . . . . . . . . . . . . . . . 8.2 Inhaltliche Dimensionen des Basiscurriculums . . . . . . . . . . . . . . . . . . . . 8.3 Weiterentwicklung des Basiscurriculums . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Inhaltlicher Vergleich des berufspädagogischen Wissens . . . . . . . . . .

78 82 84 86 89

II

Methodik der empirischen Untersuchung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

91

1

Ableitung der Forschungsfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

2

Methodisches Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 2.1 Erhebungsanlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 2.2 Instrumente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

Inhalt

2.3 2.4 2.5 2.5.1 2.5.2 2.5.3 2.5.4 2.5.5 2.5.6 2.5.7 2.5.8 2.5.9

Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dateneingabe, Umgang mit fehlenden Werten und eingesetzte Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodisches Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gütekriterien und deren Überprüfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodik der Voranalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Partial-Credit-Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodische Grundlagen der Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . Differential Item Functioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modellvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodik der Prüfungsvergleiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Methodik der Niveaumodellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Umgang mit Grenzwerten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

III Empirische Befunde

1

102 104 106 106 108 109 110 113 115 117 118 119

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben . . . . . . . . . . . . . . . . . . 1.1 Curriculare Einordnung der Grundlagenmodule der BWP . . . . . . . . . 1.1.1 Curriculare Übereinstimmung der Lernziele des Moduls Einführung in die Berufspädagogik mit dem Basiscurriculum . . . . . . . . . 1.1.2 Curriculare Übereinstimmung der Lernziele des Moduls Organisation beruflicher Bildung mit dem Basiscurriculum . . . . . . . . . . 1.1.3 Curriculare Übereinstimmung der Lernziele des Moduls Didaktik beruflicher Bildung mit dem Basiscurriculum . . . . . . . . . . . . . . 1.1.4 Modulübergreifende Lehrinhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.5 Fazit zur Modulbetrachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Curriculare Einordnung der Prüfungen der BWP . . . . . . . . . . . . . . . . . . 1.2.1 Curriculare Übereinstimmung der Prüfung BWP I mit dem Basiscurriculum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Curriculare Übereinstimmung der Prüfung BWP II mit dem Basiscurriculum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Curriculare Übereinstimmung der Prüfung BWP III mit dem Basiscurriculum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4 Curriculare Übereinstimmung der Prüfung BWP IV mit dem Basiscurriculum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5 Fazit zur inhaltlichen Validität der Prüfungen . . . . . . . . . . . . . . . . . . . . . . . 1.3 Vergleich der Inhalte der Module und der Prüfungen . . . . . . . . . . . . . . 1.3.1 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP I . . . . 1.3.2 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP II . . . 1.3.3 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP III . .

123 124 124 127 128 131 131 132 132 134 136 137 139 139 139 140 141

7

8

Inhalt

1.3.4 Inhaltliche Überschneidungen des Moduls und der Prüfung BWP IV . . 142 1.3.5 Abschließende Betrachtung der Lernziel-Prüfungs-Übereinstimmung . . 143 2

Skalierung berufspädagogischer Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Voranalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Skalierung der Prüfung BWP I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Skalierung der Prüfung BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Skalierung der Prüfung BWP III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Skalierung der Prüfung BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Betrachtung der Ergebnisse der ersten Forschungsfrage . . . . . . . . . . .

144 144 145 148 153 155 158

3

Differential Item Functioning und Itemfairness . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Die Items messen bezüglich des Geschlechts fair . . . . . . . . . . . . . . . . . . 3.2 Die Items messen bezüglich des Studiengangs fair . . . . . . . . . . . . . . . . . 3.3 Die Items messen bezüglich des Semesters fair . . . . . . . . . . . . . . . . . . . . 3.3.1 DIF-Analysen bezüglich des Semesters für die Prüfung BWP I . . . . . . . . . 3.3.2 DIF-Analysen bezüglich des Semesters für die Prüfung BWP II . . . . . . . . 3.3.3 DIF-Analysen bezüglich des Semesters für die Prüfung BWP III . . . . . . . 3.3.4 DIF-Analysen bezüglich des Semesters für die Prüfung BWP IV . . . . . . . 3.3.5 DIF-Analysen ausgewählter Semester der Prüfungen BWP III und IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6 Ergänzende Skalierung der Prüfung BWP III . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Betrachtung der Forschungsfrage bezüglich der DIF-Effekte . . . . . . .

160 160 163 166 167 168 170 171

4

Dimensionen berufspädagogischen Wissens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Dimensionierung des Moduls Didaktik beruflicher Bildung . . . . . . . 4.2 Dimensionierung des berufspädagogischen Wissens . . . . . . . . . . . . . . . 4.3 Liegt ein Generalfaktormodell vor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Einordnung der Ergebnisse der Dimensionalisierung . . . . . . . . . . . . . .

182 182 184 186 187

5

Vergleichbarkeit von Skalierung und realer Prüfung . . . . . . . . . . . . . . . . . . . . . . 5.1 Es besteht ein Zusammenhang für die Prüfung BWP I . . . . . . . . . . . . . 5.2 Es besteht ein Zusammenhang für die Prüfung BWP II . . . . . . . . . . . . 5.3 Es besteht ein Zusammenhang für die Prüfungen BWP III und BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Betrachtung der Zusammenhänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

189 189 191

Niveaumodelle des berufspädagogischen Wissens . . . . . . . . . . . . . . . . . . . . . . . 6.1 Niveaumodell für die Prüfung BWP I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Niveaumodell für die Prüfung BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Niveaumodell für die Prüfung BWP III . . . . . . . . . . . . . . . . . . . . . . . . . . .

199 199 202 205

6

173 178 179

193 197

Inhalt

6.4 6.5

Niveaumodell für die Prüfung BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 Fazit bezüglich der Niveaumodellierungen . . . . . . . . . . . . . . . . . . . . . . . . 210

IV Diskussion und Ausblick

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

1

Zusammenfassung und Ergebnisreflexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Implikationen für die Domäne und den Standort Stuttgart . . . . . . . . . 1.3 Diskussion und kritische Reflexion der Befunde . . . . . . . . . . . . . . . . . . . 1.3.1 Reflexion der theoretischen Prämissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Reflexion der Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Reflexion der Befunde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

215 215 218 222 222 224 226

2

Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 Abkürzungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Verzeichnis der Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 Verzeichnis der Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

9

Zusammenfassung

Abstract (deutsch)

Diese Arbeit befasst sich mit kompetenzorientierten Prüfungen im Hochschulkon‐ text und inwiefern Prüfungen zur Erfassung der Kompetenz geeignet sind. Die theoretische Auseinandersetzung mit Kompetenzen und deren Erfassung im be‐ rufsbildenden und akademischen Bereich zeigt dabei die Forschungslücken zu kom‐ petenzorientiertem Prüfen, speziell bei Studierenden der Berufspädagogik, sowie bezüglich der Kompetenzstruktur und den Kompetenzniveaus. Zentral ist dabei auch die Frage, welche Inhalte für das berufspädagogische Wissen in den ersten Semestern bedeutsam sind. Im Rahmen der empirischen Analysen wird auf Grundlage von schriftlichen Prüfungen der Berufspädagogik mit Methoden der Item-Response-Theorie eine Interpretation der skalierten Prüfungen, Strukturanalysen und Niveaumodellierun‐ gen vorgenommen. Dazu wurden die schriftlichen Prüfungen der Vorlesungen BWP I-IV im Zeitraum von Wintersemester 2014/2015 bis Wintersemester 2017/2018 neu codiert und analysiert. Insgesamt beträgt die Stichprobe über die vier miteinbe‐ zogenen Prüfungen hinweg N = 387 Studierende der Berufs- und Technikpädagogik an der Universität Stuttgart. Es zeigt sich, dass sich die untersuchten schriftlichen Prüfungen eignen, das berufs‐ pädagogische Wissen als Teil der Kompetenz zu erfassen. Die statistische Prüfung misst hierbei bezüglich des Geschlechts und des Studiengangs fair, bezüglich des Semesterdurchgangs zeigen sich Unregelmäßigkeiten. Eine mögliche Ursache liegt dabei in studentischen Musterprüfungen, die, je nach Beantwortung, die Schwierig‐ keit eines Semesterdurchgangs merklich verändert. Die Bewertungen der Prüfungen, wie sie im Kontext der Vorlesung vorgenommen wurden, sowie jene auf Basis der hier vorgenommenen Analysen kommen zu vergleichbaren Ergebnissen. Das be‐ rufspädagogische Wissen in den ersten Semestern des Studiums weist dabei eine vierdimensionale Modellstruktur, ausdifferenziert nach den Kernvorlesungen, auf. Es lassen sich für die untersuchten Dimensionen Niveaumodelle generieren, die eine Beschreibung der Noten für die Subdimensionen erlaubt. Es wird aber auch ersicht‐

12

Zusammenfassung

lich, dass durch die Arbeit weiterer Handlungsbedarf aufgezeigt wird. So lässt sich beispielsweise ableiten, dass ein Modul mit zwei Lehrveranstaltungen zukünftig ge‐ trennt werden sollte, da die Prüfungsteile empirisch als eigenständige Dimensionen erfasst werden. Zudem zeigt sich der Bedarf einer Adaption und Weiterentwicklung der eingesetzten Prüfungsaufgaben unter Berücksichtigung der Befunde dieser Ar‐ beit, um eine bessere Differenzierung zwischen den Noten zu ermöglichen.

Abstract (english)

This thesis deals with proficiency-based testing in the context of higher education and to what extent exams are suitable for measuring competency. The theoretical examination of competencies and their testing in the vocational and academic field shows the gaps in research on competency-oriented testing, especially for students of vocational education, as well as regarding the structure of competencies and the levels of competencies. Central to this is also the question of the significance of the content for vocational pedagogical knowledge in the first semesters. For the empirical analyses, an interpretation of the scaled exams, structural ana‐ lyses and scale anchoring is carried out on the basis of written exams of vocational pedagogy with methods of the item response theory. For this purpose, the written exams of the lectures BWP I-IV in the period from winter semester 2014/2015 to winter semester 2017/2018 were recoded and analyzed. In total, the sample across the four included exams is N = 387 students of vocational and technical education at the University of Stuttgart. Results show that the written exams studied are suitable to measure vocational pedagogical knowledge as part of the competence. The statistical exam measures fair with respect to gender and course of study, with respect to the semester irregularities appear. A possible cause lies in student sample exams, which, depending on the answer, noticeably change the difficulty of a semester. The evaluations of the exams as they were taken in the context of the lecture as well as those based on the analyses carried out here come to comparable results. The vocational pedagogical knowledge in the first semesters of the study shows a four-dimensional model structure, differen‐ tiated according to the core lectures. Level models can be generated for the examined dimensions, which allow a description of the scores for the sub-dimensions. However, it is also evident that the work reveals a need for further action. For example, it can be deduced that a module with two courses should be separated in the future, since the exam parts are empirically recorded as independent dimensions. In addition, the need for an adaptation and further development of the exam tasks used, taking into account the findings from this work, becomes apparent in order to enable a better differentiation between the grades.

I

Problemaufriss und theoretische Grundlegung

1

Ausgangslage

1.1

Kompetenzorientierung in der Hochschuldidaktik

Spätestens seit der medial intensiven Auseinandersetzung mit größeren Vergleichs‐ studien im Schulkontext, beispielsweise Trends in International Mathematics and Science Study (TIMSS) (vgl. Baumert et al., 2000) oder Programme for International Student Assessment (PISA) (vgl. Baumert et al., 2001), ist eine Veränderung in der Betrachtung von Outcomes von Bildungsprozessen festzustellen. Fragen nach der Leistungsfähigkeit des Bildungssystems und seinen Potenzialen, aber auch Schwä‐ chen rückten in den Mittelpunkt von Forschungsbemühungen (vgl. Avenarius et al., 2003). In diesem Kontext wurden Kompetenzen und damit nicht zuletzt auch Model‐ lierungs- und Messfragen in den Fokus gestellt, die seitdem im allgemeinbildenden (vgl. Klieme und Leutner, 2006; vgl. Klieme, Maag-Merki et al., 2007; vgl. Weinert, 2002; vgl. Zlatkin-Troitschanskaia und Seidel, 2011) und berufsbildenden Bereich (vgl. Dietzen et al., 2016; vgl. Kultusministerkonferenz, 2017; vgl. Nickolaus, 2018d; vgl. Oser et al., 2013; vgl. Straka und Macke, 2003) für die Gestaltung einer quali‐ tativ hochwertigen Ausbildung zentral sind. Insbesondere die technologiegestütze Kompetenzmessung, beispielsweise durch Computersimulationen, erwies sich als praktikabel und ertragreich (vgl. Abele und Gschwendtner, 2010; vgl. Behrendt et al., 2017; vgl. Bundesministerium für Bildung und Forschung, 2007; vgl. Sass, 2010; vgl. Seeber, 2016; vgl. Sembill et al., 2015). Desiderate zeigten sich insbesondere beim Transfer in die Lehr- und Prüfungspraxis, was zu weiteren Forschungsbedarfen in diesem Bereich führte (vgl. Rüschoff & Velten, 2021). Der Kompetenzdiskurs war jedoch nicht nur auf das Schulsystem beschränkt, sondern zeigt sich spätestens im Rahmen des Bologna-Prozesses (vgl. European Higher Education Area, 2009) und im Zusammenhang mit der Frage der Employability (vgl. Schaper, Schlömer et al., 2012) im hochschulischen 1 Kontext als zentraler Ansatz der Lehr-Lern-Gestaltung.

1 Die vorliegende Arbeit befasst sich mit dem universitären Bereich. Die Universität wird als Teil der

Hochschulen verstanden und deshalb unter dieser Bezeichnung gefasst. Die Bezeichnung Hochschule

16

Ausgangslage

Während im schulischen Kontext große Fortschritte bezüglich der empirischen Kompetenzforschung und explizit der Erfassung, Struktur und Beschreibung von Kompetenzen einhergingen, ist die Auseinandersetzung mit Kompetenzen im Be‐ reich der Hochschulforschung über theoretische Überlegungen bisher kaum hin‐ ausgegangen (vgl. Zlatkin-Troitschanskaia & Kuhn, 2010). Umso bedeutsamer sind „für nachhaltige Entwicklungs- und Optimierungsmaßnahmen [. . .] evidenzbasierte Aussagen auf der Basis von Wirksamkeitsprüfungen zum Output bzw. Outcome einer heterogenen Hochschullandschaft erforderlich, die Hinweise auf struktureller, hoch‐ schuldidaktischer und individueller Ebene liefern können“ (Zlatkin-Troitschanskaia & Blömeke, 2012, S. 107). Die Veränderungsprozesse der deutschen Hochschul‐ lehre, die sich durch die verschiedenen Umstrukturierungsansätze, angetrieben durch die Bologna-Reform (vgl. European Higher Education Area, 2009), ergeben, sollten dabei zu einer Fokussierung auf die Kompetenz führen. Die Analyse, ob und wie erfolgreich diese Fokussierung in der Hochschullehre letztlich aber um‐ gesetzt wird, bleibt dabei jedoch weitestgehend aus, empirische Überprüfungen zur Wirksamkeit liegen kaum vor. Um diese Forschungslücke zu schließen sollten deshalb verschiedene Projekte wie KoKoHs 2 versuchen, die Erfassung und Ausprä‐ gung der Kompetenz von Studierenden in verschiedenen Domänen in den Blick zu nehmen (vgl. Zlatkin-Troitschanskaia et al., 2013). Dazu wurden beispielsweise in den Wirtschaftswissenschaften, Ingenieurwissenschschaften und dem Lehramt Kompetenzmodelle generiert, die eine reflektierte und fundierte Auseinanderset‐ zung mit den Kompetenzen im Hochschulkontext ermöglichen sollten, wobei die entstandenen Modelle nur Teilbereiche der Fachkompetenz näher beleuchteten (vgl. Zlatkin-Troitschanskaia et al., 2017). Dabei zeigte sich die Messung dieser Kompetenzdimensionen aufgrund vergleichsweise geringer Beteiligung an freiwil‐ ligen Erhebungen als nur eingeschränkt möglich (vgl. Baumert et al., 2014), obwohl das Prüfungswesen in der Hochschule per se kompetenzorientiert angelegt ist (vgl. Zlatkin-Troitschanskaia et al., 2017). Die Erkenntnisse aus den Modellierungen und Messungen sind aber für die Gestaltung der Hochschullehre von großer Bedeu‐ tung, um, dem Employability-Ansatz entsprechend (vgl. Schaper, Schlömer et al., 2012), Studierende zu qualifizieren und damit auf die komplexe und dynamische Arbeitsumwelt entsprechend vorbereiten zu können (vgl. Amann et al., 2018). Eine weitere Herausforderung, die sich über die Teilprojekte hinweg zeigte und als klares Forschungsdesiderat ausgewiesen wurde, ist dabei neben der Kompetenzmessung der Transfer und die Integration der Ergebnisse in den Lehralltag an Hochschulen und eine Automatisierung, die den Mehraufwand für Lehrende im Rahmen hält, um und das Verständnis dazugehöriger Einrichtungen orientiert sich in der nachfolgenden Arbeit am Hoch‐ schulrahmengesetz (2017). 2 Kompetenzmodelle und Instrumente der Kompetenzerfassung im Hochschulsektor – Validierungen und methodische Innovationen.

Das Projekt QuaLIKiSS – Innovatives Prüfen

die Akzeptanz zu steigern (vgl. Zlatkin-Troitschanskaia et al., 2017). Daraus lässt sich der Bedarf ableiten, die Kompetenzmessung deutlich näher an der Lehr- und Prüfungspraxis zu gestalten. Damit können Hürden in der Bereitschaft und dem Transfer sowohl bei den Lehrenden als auch den Lernenden reduziert werden und umfassendere Betrachtungen auch über einzelne Module hinweg ermöglicht werden. Dies kann dadurch geschehen, dass die Prüfungen, die durch die Lehrenden erstellt werden, für die Kompetenzerfassung herangezogen werden. Ob dieser Ansatz gelingt kann mit Skalierungen von Prüfungen untersucht werden. Aufbauend auf diesen Forschungslücken und Desideraten befasst sich diese Arbeit deshalb mit einem Ansatz, die Erfassung der Kompetenzen durch schriftliche Hochschulprüfungen vorzunehmen und zu analysieren, inwiefern diese Prüfungen, die im Rahmen von Modulen die Leistung der Studierenden mit einem hochschulischen Fokus erfasst, für eine Kompetenzmessung geeignet sind. Hierbei ist von besonderem Interesse, wie die Potenziale psychometrischer Analysen (vgl. Hartig & Frey, 2013) genutzt werden können, um bestehende Prüfungsformen und deren Implikationen, aber auch die eingesetzten Aufgaben empirisch fundiert kritisch zu beleuchten.

1.2

Das Projekt QuaLIKiSS – Innovatives Prüfen

Basierend auf dem Ziel, die Kompetenzorientierung im Hochschulkontext und Qua‐ lität der Hochschullehre fundiert zu fokussieren und in bestehende Lehrangebote zu integrieren, wurde im Rahmen des Projekts QuaLIKiSS im Zeitraum von 1. Oktober 2016 bis 30. September 2020 die Hochschullehre an der Universität Stuttgart über verschiedene Blickwinkel näher betrachtet. Das Projekt ist unterteilt in sechs Teilpro‐ jekte: 1) Didaktik und Betreuung, 2) MINT-Grundstudium, 3) Fachübergreifende Lehre, 4) Lehramt, 5) Förderung der Heterogenität, 6) Innovative Prüfungsformen. Während die ersten fünf Teilprojekte Maßnahmen der direkten Optimierung der Hochschullehre durch praktische Aspekte, beispielsweise neue Lehrveranstaltun‐ gen und Erweiterungen von bestehenden Lehrformaten und dessen Umsetzung beinhalten, befasst sich Teilprojekt 6 explizit mit den oben genannten Desideraten und einer empirischen Auseinandersetzung mit kompetenzorientiertem Prüfen im Hochschulkontext. Speziell die fachadäquate Messung der Kompetenzen und deren Erwerb sowie eine kritische Bewertung bestehender Prüfungsformen soll hierbei in den Fokus gerückt werden. Basierend auf Erkenntnissen aus dem Projekt Ko‐ KoHs (vgl. Zlatkin-Troitschanskaia & Blömeke, 2012) und ersten Skalierungen berufspädagogischer Prüfungen (vgl. Just, 2016) sollen für die Domänen Ingenieur-, Wirtschafts- und Sozialwissenschaften erste Aussagen zur Kompetenz von Studieren‐ den, explizit der Kompetenzstruktur und der Kompetenzniveaus, getroffen werden. Darüber hinaus sollen die Erkenntnisse im Rahmen des Projektes herausgearbeitet und mit den Lehrenden diskutiert werden, um die Lehre dementsprechend wei‐

17

18

Ausgangslage

terzuentwickeln. Lehrende sollen dazu angehalten werden, bei der Gestaltung von Prüfungen mitzuwirken, die eine hohe Messgenauigkeit und Aussagekraft aufweisen. Die vorliegende Arbeit fand ihren Ursprung dabei im Teilprojekt Innovatives Prü‐ fen. Der Fokus wird auf die Domäne der Berufspädagogik 3 gelegt, insbesondere die Kompetenzstruktur und das Kompetenzniveau der berufspädagogischen Kompe‐ tenz.

1.3

Fragestellung und Zielsetzung dieser Arbeit

Aufgrund der bisher übersichtlichen Forschungslage ergibt sich der Bedarf an Analysen bezüglich der Kompetenzstruktur und den Kompetenzniveaus für die Berufspädagogik unter Berücksichtigung vorliegender theoretischer Befunde aus vergleichbaren Domänen. Der bisherige Forschungsstand zeigt, dass speziell im Hochschulbereich Aussagen bezüglich des kompetenzorientierten Prüfens evidenz‐ basiert kaum vorzufinden sind (vgl. Schaper & Hilkenmeier, 2013). Besonders die Erfassung der Kompetenz geschieht bisher weitestgehend über speziell dafür entwi‐ ckelte Instrumente (vgl. Dammann, 2016). Es ist zudem unklar, ob eine Erfassung der berufspädagogischen Kompetenz mit Modulabschlussprüfungen möglich ist und welche Strtuktur der Kompetenz letztendlich zugrunde liegt. Eine Erfassung der Kompetenz mithilfe von bestehenden Modulabschlussprüfungen ist zwar nahelie‐ gend, der Ansatz wurde aber bisher nicht weiter verfolgt. Aufbauend auf den Ansätzen des Projekts zeigten die vielen Optimierungsfelder des Prüfungswesens im Hochschulkontext und die klare Fokussierung der Forschung auf eine theoretische bzw. praxisorientierte Auseinandersetzung mit kompetenzori‐ entiertem Prüfen Desiderate, die in dieser Arbeit näher betrachtet werden. Besonders die Besonderheiten und Potenziale der Anwendung komplexer Skalierungsverfahren wie die Item-Response-Theorie (IRT) auf bestehende Prüfungen werden hierbei ver‐ stärkt in den Fokus gestellt. Zudem liegt die Vermutung nahe, dass die Potenziale von Analysen schriftlicher Prüfungen für Prüfungsgestaltung und Ergebnisrückmeldung bisher deutlich unterschätzt werden. Besonders das Erkennen auffälliger Aufgaben und eine Betrachtung der Prüfungsfairness ist für die Aufgabengestaltung ein klarer Vorteil, wenn eine Skalierung der schriftlichen Prüfungen gelingt. Es können Inter‐ aktionsprozesse zwischen verschiedenen Prüfungen erkannt werden und somit die Prüfungsqualität empirisch begründet verbessert werden.

3 Nachfolgend wird aus Gründen der Klarheit von Berufspädagogik gesprochen. Hierbei werden im

Studienkontext die Studiengänge Berufs- und Technikpädagogik und Technikpädagogik, die an der Universität Stuttgart in diesem Bereich gelehrt werden, verstanden werden. Ausnahmen bilden dabei Untersuchungen, bei denen die Differenzierungen zwischen den Studiengängen nötig ist.

Fragestellung und Zielsetzung dieser Arbeit

Darüber hinaus bieten die Verfahren, die im allgemeinbildenden Bereich beispiels‐ weise auch in der PISA-Studie (vgl. Reiss et al., 2019) oder im Hochschulbereich im Rahmen der KoKoHs-Initiative an verschiedenen Standorten Einsatz fand (vgl. bei‐ spielsweise Pant et al., 2016), für Lehrende und Studierende einen großen Vorteil in der Möglichkeit, ein inhaltsbezogenes Feedback zu generieren. Dies ist besonders vor dem Hintergrund der Gestaltung der Lehre und der Prüfungen mit Blick auf eine Kompetenzorientierung (vgl. Baumert & May, 2013) eine nötige Folge der Prüfun‐ gen. Die Test- und Iteminformationen erlauben das Erkennen und Anpassen auffälli‐ ger Aufgaben und somit die Möglichkeit, die Prüfung fundiert und inhaltsorientiert zu gestalten. Dabei besteht die Möglichkeit, ergebnisorientiert das Bewusstsein über die bestehenden Prüfungsformen im Sinne einer Kompetenzmessung in den Fokus der Lehrenden und Lernenden zu rücken, um eine Weiterentwicklung der Lehre an der Universität Stuttgart und über den Standort hinaus zu ermöglichen. Aufgrund der großen Bedeutung von Grundlagenvorlesungen wird der Schwer‐ punkt der Arbeit auf die Facette des Wissens als Teil der Fachkompetenz gelegt. Das geht auch damit einher, dass eine Erfassung anderer Kompetenzdimensionen teil‐ weise nur erschwert möglich ist (vgl. Nickolaus, 2014a), was auch im Hochschulkon‐ text erkennbar ist (vgl. Schaper & Hilkenmeier, 2013). In Anlehnung an bestehende Befunde aus der allgemeinen Pädagogik (vgl. Baumert & Kunter, 2006) und der Berufspädagogik (vgl. Nickolaus & Walker, 2016) scheint eine mehrdimensionale Struktur naheliegend. Zur curricularen Betrachtung der Kompetenzdimensionen wird auf Modulhandbücher (vgl. Universität Stuttgart, 2019a), Basiscurricula (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014) und Expert*innenrückmeldungen zurückgegriffen, die auch zur Beschreibung der Kompetenzniveaus herangezogen werden. Da mit Studierenden der Berufspädagogik und der Technikpädagogik zwei Studierendengruppen die Prüfungen ablegen bleibt zu untersuchen, ob die Prüfun‐ gen für verschiedene Gruppen fair messen. Wenn die Skalierungen und die Modell‐ struktur eine Kompetenzerfassung mithilfe von Grundlagenprüfungen erlaubt, ist aber noch zu beantworten, ob eine Übereinstimmung zwischen den Realprüfungen und den statistishen Analysen vorliegt. Wenn dies gegeben ist, ist zu klären, ob Niveaus für die jeweiligen Dimensionen des berufspädagogischen Wissens generiert werden können, die eine nähere Beschreibung der Kompetenz erlauben. Daraus abgeleitet behandelt die vorliegende Arbeit die folgenden Fragestellungen: 1. Lässt sich die Skalierung einer schriftlichen Prüfung sinnvoll interpretieren? 2. Misst der Test für verschiedene Gruppen fair? 3. Welche Struktur liegt dem pädagogischen Wissen der Berufspädagogik zu‐ grunde? 4. Sind die geschätzten Fähigkeiten vergleichbar mit den Leistungsmaßen, die klassisch aus Prüfungen ermittelt wurden? 5. Lassen sich für die verschiedenen Dimensionen berufspädagogischen Wis‐ sens Niveaumodelle generieren?

19

20

Ausgangslage

1.4

Aufbau der Arbeit

Zur Beantwortung der Fragestellungen wird ein Aufbau der Arbeit in sechs Schritten verfolgt. Im nachfolgenden Kapitel (Kapitel 2) wird auf den Kompetenzbegriff im Hoch‐ schulkontext näher eingegangen. Speziell die Problematik des Kompetenzverständ‐ nisses im Hochschulkontext wird dabei in den Fokus gerückt. Aufbauend auf dem Kompetenzverständnis, das für diese Arbeit gewählt wird, werden verschiedene Kompetenzmodellierungen im allgemeinbildenden und be‐ rufsbildenden schulischen Bereich betrachtet (Kapitel 3). Darauf aufbauend wird auf die Modellierung von Kompetenzen im Hochschulbereich eingegangen, die teilweise deutliche Parallelen zum schulischen Bereich aufweist (Kapitel 4). Durch den Blick auf hochschulische Kompetenzmodelle von Fachdomänen und dem Lehr‐ amtsbereich soll dabei auf die Unterschiede der Ansätze näher eingegangen werden. Diese ergeben sich auch aus der Betrachtung des pädagogischen Wissens bzw. des Fachwissens. Aus dieser Betrachtung sollen für die betrachteten Studiengänge der Berufspädagogik jeweils theoretische Überlegungen bezüglich des Kompetenzmo‐ dells abgeleitet werden (Kapitel 5). Dem folgend wird in Kapitel 7 das kompetenzorientierte Prüfen vertieft in den Blick genommen. Dies geschieht vor allem durch Überlegungen, wie Kompetenzen mithilfe von Prüfungen erfasst werden können und wie Lernziele und Lehr-Lernme‐ thoden in Verbindung mit Prüfungen die Gestaltung der Lehre aus kompetenzorien‐ tierter Sicht ermöglichen. Unter Berücksichtigung dieser Aspekte wird die Erfassung von Kompetenzen über Prüfungen näher betrachtet. Basierend auf den theoretischen Überlegungen werden anschließend die For‐ schungsfragen abgeleitet (Kapitel 1). Nach einer Beschreibung der Erhebungsanlage und den eingesetzten Methoden (Kapitel 2) werden in den folgenden Kapiteln die Forschungsfragen beantwortet. Kapitel 1 befasst sich mit den inhaltlichen Aspek‐ ten der Prüfungen und der Module, die die Lernziele der Prüfungen beinhalten. Dazu wird auf Referenzsysteme wie das Basiscurriculum eingegangen, um die in‐ haltliche Validität der Module und Prüfungen zu analysieren. Anschließend werden erste Kompetenzstruktur- und Kompetenzniveaumodelle von Subdimensionen des berufspädagogischen Wissens generiert (Kapitel 2 bis 6). Eine Zusammenfassung und Reflexion der Ergebnisse ermöglicht eine kritische Auseinandersetzung mit dem Vorgehen in der vorliegenden Arbeit. Der Ausblick zeigt weitere relevante Fragestellungen auf, die sich über die Arbeit hinaus ergeben und für die weitere Auseinandersetzung mit der Kompetenzorientierung in der Hochschule relevant scheinen (Kapitel 1).

2

Das Kompetenzkonstrukt im Hochschulbereich

Das folgende Kapitel befasst sich mit Kompetenz im Hochschulkontext und der Schwierigkeit, dass kein einheitliches Kompetenzverständnis existiert. Einleitend wird aus diesem Grund auf verschiedene gängige Kompetenzverständnisse näher eingegangen, bevor eine Spezifizierung auf den Hochschulbereich vorgenommen wird. Hierbei ist die Entwicklung der Kompetenzorientierung im Hochschulbe‐ reich bedeutsam, um die aktuellen Verständnisse im Kontext zu betrachten. Darauf aufbauend wird der Überlegung nach einer Ableitung für die vorliegende Arbeit nachgegangen und Konsequenzen für die weiteren Betrachtungen gezogen.

2.1

Perspektiven auf das Kompetenzkonstrukt

Nach Klieme (2008) umfasst Kompetenz jene psychischen Dispositionen in Form von Fähigkeiten, die motivational und volitional bedingte Nutzung dieser Fähigkei‐ ten in Kontexten und Situationen sowie die Bereitschaft und damit die Überlegung, „wer warum welche Dispositionen erwerben und nutzen soll bzw. darf“ (Klieme, 2008, S. 13). Durch die Breite dieser Definition resultiert daraus, dass verschiedene Verständnisse des Kompetenzbegriffes im Allgemeinen existieren. Die verschiede‐ nen Verständnisse führen dazu, dass eine direkte Übertragung der Definition des Kompetenzbegriffs auf den Hochschulbereich nicht trivial ist. Dies zeigt sich auch in der historischen Entwicklung des Begriffes, der sich über die Zeit deutlich veränderte und verschiedene Verständnisse und Vorstellungen aufweist. 1 Wenngleich eine Fülle an verschiedenen Verständnissen des Kompetenzbegriffes existieren, wird in dieser Arbeit das Kompetenzverständnis aus der empirischen Bildungsforschung sowie das Verständnis der Berufsbildungsforschung für eine Abgrenzung fokussiert. Neben einer theoretischen Auseinandersetzung mit der Begrifflichkeit des Kompetenzver‐ ständnisses liegen für diesen Bereich zudem empirisch geprüfte Ansätze vor. 1 Für einen Überblick siehe beispielsweise Schaper (2008) sowie die Ausführungen von Abele (2014), der

auch explizit auf die berufliche Handlungskompetenz und die zugrunde liegenden Vorstellungen eingeht.

22

Das Kompetenzkonstrukt im Hochschulbereich

2.1.1

Empirische Bildungsforschung

In der empirischen Bildungsforschung ist beispielsweise das Kompetenzverständnis nach Weinert (2002) zentral. Dieser schreibt: Kompetenzen sind die bei Individuen verfügbaren oder erlernbaren kognitiven Fähig‐ keiten und Fertigkeiten, bestimmte Probleme zu lösen, sowie die damit verbundenen motivationalen, volitionalen und sozialen Bereitschaften und Fähigkeiten, die Problem‐ lösungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu können (Weinert, 2002, S. 27f).

Der inhaltlichen Trennung zwischen kognitiven und nicht-kognitiven Facetten folgend, ist besonders in einschlägigen Forschungsbereichen der Fokus auf kom‐ petenzbezogene Denk- und Leistungsvoraussetzungen und damit einhergehend der Kompetenzerwerb zentral. Dies zeigt sich beispielsweise in der PISA-Studie (vgl. Prenzel, 2004). Zudem beinhaltet der Ansatz die Annahme, dass Lernen zu einem Kompetenzerwerb führen kann. Dem folgend kann über diesen Ansatz eine Beschrei‐ bung der Ergebnisse, also der Learning-Outcomes, domänenspezifisch ermöglicht werden (vgl. Klieme, Avenarius et al., 2007). Der Fokus lag lange Zeit primär auf der kognitiven Facette. Andere Bereiche der Kompetenz werden eher außen vor gelassen. Aus diesem Grund befasst sich die empirische Bildungsforschung mittlerweile intensiver mit den Zusammenhängen der kognitiven und nicht-kognitiven Facetten (vgl. Klieme, 2008).

2.1.2

Berufsbildungsforschung

In der Berufsbildungsforschung wird dem gegenüber auf die Theorie der Handlungs‐ regulation nach Hacker (2014) Bezug genommen. Daraus lässt sich das Konzept der beruflichen Handlungskompetenz ableiten. Darunter versteht man „die Bereit‐ schaft und Befähigung des Einzelnen, sich in beruflichen, gesellschaftlichen und privaten Situationen sachgerecht durchdacht sowie individuell und sozial verant‐ wortlich zu verhalten“ (Kultusministerkonferenz, 2017, S. 30). Diese Bereitschaft und Befähigung fällt domänenbezogen zwar unterschiedlich aus, die berufliche Handlungskompetenz hat dennoch den Anspruch, durch vergleichbare Facetten eine breitere Betrachtung, als dies beispielsweise bei der Definition der empirischen Bildungsforschung der Fall ist, zu gewährleisten. Handlungskompetenz wird, je nach Autor*in, mit drei bzw. vier zentralen Subdimensionen beschrieben, (1) Fachkompe‐ tenz, (2) Selbstkompetenz, (3) Sozialkompetenz, (4) Methodenkompetenz. Unter Fachkompetenz versteht man die „Bereitschaft und Fähigkeit, auf der Grundlage fachlichen Wissens und Könnens Aufgaben und Probleme zielorientiert, sachge‐ recht, methodengeleitet und selbstständig zu lösen und das Ergebnis zu beurteilen“

Perspektiven auf das Kompetenzkonstrukt

(Kultusministerkonferenz, 2017, S. 14). Selbstkompetenz, teilweise auch Human‐ kompetenz genannt, wird durch die KMK folgendermaßen definiert: Bereitschaft und Fähigkeit, als individuelle Persönlichkeit die Entwicklungschancen, An‐ forderungen und Einschränkungen in Familie, Beruf und öffentlichem Leben zu klären, zu durchdenken und zu beurteilen, eigene Begabungen zu entfalten sowie Lebenspläne zu fassen und fortzuentwickeln. Sie umfasst Eigenschaften wie Selbstständigkeit, Kritik‐ fähigkeit, Selbstvertrauen, Zuverlässigkeit, Verantwortungs- und Pflichtbewusstsein. Zu ihr gehören insbesondere auch die Entwicklung durchdachter Wertvorstellungen und die selbstbestimmte Bindung an Werte (Kultusministerkonferenz, 2017, S. 15).

Die dritte Dimension ist die Sozialkompetenz, die sich durch die „Bereitschaft und Fähigkeit, soziale Beziehungen zu leben und zu gestalten, Zuwendungen und Spannungen zu erfassen und zu verstehen sowie sich mit anderen rational und verant‐ wortungsbewusst auseinanderzusetzen und zu verständigen“ (Kultusministerkon‐ ferenz, 2017, S. 14), auszeichnet. Unter Methodenkompetenz wird die „Bereitschaft und Befähigung zu zielgerichtetem, planmäßigem Vorgehen bei der Bearbeitung von Aufgaben und Problemen (zum Beispiel bei der Planung der Arbeitsschritte)“ (Kultusministerkonferenz, 2017, S. 11) verstanden. Auf einen Überblick, auch zu der empirischen Befundlage, geht beispielsweise Nickolaus (2014a) näher ein, wo‐ bei deutlich wird, dass bisher kaum Möglichkeiten der umfänglichen empirischen Erfassung der beruflichen Handlungskompetenz bestehen. Lediglich für die Fach‐ kompetenz liegen mittlerweile domänenspezifisch ausführlichere Analysen vor. Eine Betrachtung zu empirischen Befunden hierzu ist in Kapitel 3 zu finden.

2.1.3

Spezifizierung möglicher Kompetenzkonstrukte

Eine direkte Übertragung der genannten Definitionen des Kompetenzbegriffs ist für den Forschungsgegenstand dieser Arbeit durch die Vielzahl verschiedener Ansätze nicht möglich. Eine theoretische Arbeitsdefinition, die für diesen Forschungsbe‐ reich der vorliegenden Arbeit tragfähig ist, sollte sowohl unter theoretischen als auch empirischen Gesichtspunkten angenommen werden. Aus diesem Grund sollen Kompetenzen nachfolgend in Anlehnung an Klieme und Beck (2007) als erwerbbare Dispositionen verstanden werden, die für spezifische Anforderungen relevant sind und dazu befähigen, diese zu bewältigen (vgl. Klieme und Beck, 2007; vgl. Nick‐ olaus et al., 2013). Dabei sollen im Gegensatz zu beispielsweise Weinert (2001) motivationale und metakognitive Potenziale nicht in das Kompetenzverständnis miteinbezogen werden. Stattdessen wird lediglich auf die kognitiven Dispositionen näher eingegangen (vgl. beispielsweise Abele, 2014; Klieme und Leutner, 2006). Ein weiteres Problem, das sich aus den vielfältigen Kompetenzbegriffen ergibt ist die Frage, wie Kompetenzen und deren Entwicklung objektiv, reliabel und valide er‐

23

24

Das Kompetenzkonstrukt im Hochschulbereich

fasst werden können. Um standardisierte Tests zu entwickeln bedarf es theoretischer Modelle, auf denen diese Testentwicklung aufbauen kann. Hartig und Klieme (2006) unterscheiden dabei zwischen Kompetenzstrukturmodellen und Kompetenzniveau‐ modellen, um Kompetenzdimensionen zu erfassen und die Beschreibung der Kom‐ petenzausprägung bei Teilnehmenden zu bestimmen (vgl. Hartig und Klieme, 2006; vgl. Klieme, Avenarius et al., 2007). Bei der Betrachtung der Kompetenzstruktur wird eine Dimensionalitätsanalyse herangezogen, die beispielsweise auch zur Bestimmung von Persönlichkeitsstruktu‐ ren oder der Intelligenzstruktur herangezogen wird. Dazu werden psychometrische Modelle und Verfahren angewendet, um Operationalisierung und das theoretische Modell fundiert zu verknüpfen (vgl. Klieme & Leutner, 2006). Statistisch geschieht dies mithilfe faktoranalytischer Verfahren, um durch Korrelationen zwischen den verschiedenen Items auf eine zusammenhängende Struktur zu schließen, wodurch die Messung desselben Merkmals postuliert wird (vgl. Hartig & Klieme, 2006). Dimensionen, die sich aus dieser Analyse ergeben werden als unabhängig von der Erhebung erfasste psychische Größen verstanden, die sich aus der Beobachtung der Prozesse in Individuen ergeben und eine theoretische Struktur abbilden sollen, wobei diese nicht immer der vermuteten latenten Variable, also einer Variablen, die lediglich indirekt erfasst werden kann, entspricht (vgl. Borsboom et al., 2003). Bei bereits bestehenden Annahmen zur Kompetenzstruktur bestehender latenter Varia‐ blen können Vermutungen zu möglichen Zusammenhängen der Struktur, aber auch Überprüfungen der bisher vermuteten Struktur vorgenommen werden, beispiels‐ weise durch eine mögliche Auswahl von Erhebungsinstrumenten, um diese latente Variable direkt erfassen zu können. Durch die Modellierung wird dementsprechend eine nähere Betrachtung, wie Kompetenzen ausdifferenziert werden können und als Subdimensionen erfasst werden können, möglich. Zudem ermöglicht eine Ausdif‐ ferenzierung eine Optimierung von statistischen Tests aufgrund möglicher hoher Zusammenhänge und unter Rückgriff auf ökonomische und theoretische Aspekte (vgl. Klieme & Leutner, 2006). Der Sinn solcher Strukturmodelle liegt, neben einer näheren Beschreibung und der Möglichkeit der Messung von Kompetenzen darin, dass in der Bildungspraxis auf Grundlage dieser Modelle beispielsweise Konsequenzen für Lehrplanung und Förderansätze bei bestimmten Themen fundiert, empirisch überprüfbar und somit auch bezüglich möglicher Entwicklungen kontrollierbar gezogen werden können (vgl. Klieme, Avenarius et al., 2007). Um eine Beschreibung der in der Strukturanalyse bestimmten Skala zu gewährleis‐ ten, wird über verschiedene mögliche Verfahren eine Einordnung der bestehenden Skala in definierbare Schritte vorgenommen, die in Anlehnung an Hartig und Klieme (2006) als Kompetenzniveaumodelle verstanden werden. „Es geht hierbei z. B. um die Frage, welche spezifischen Anforderungen eine Person mit einer hohen Kompetenz bewältigen kann und welche Anforderungen eine Person mit einer

Verwendung des Kompetenzbegriffs im Hochschulbereich

niedrigen Kompetenz gerade noch bewältigt und welche nicht“ (Hartig & Klieme, 2006, S. 133). Dies folgt dem Ansatz, dass gerade in der Schulleistungsforschung eine normorientierte Interpretation als nicht ausreichend erachtet wird und deshalb eine kriteriumsorientierte Beschreibung als zielführender erachtet wird (vgl. Hartig & Klieme, 2006). Die Autoren betonen dabei, dass von Kompetenzniveaus statt von Kompetenzstufen gesprochen werden sollte, da eine begriffliche Verknüpfung zu den qualitativen Stufen der Psychologie hergestellt werden könnte. Bei Kom‐ petenzniveaus handelt es sich aber im Vergleich dazu um willkürlicher festgelegte Kategorien, die das Verständnis über die zugrunde liegende Kompetenz erhöhen sollen (vgl. Hartig & Klieme, 2006). Eine ausführlichere Auseinandersetzung mit Kompetenzniveaumodellen ist in Kapitel 6 zu finden. Eine große Herausforderung besteht bisher jedoch darin, „kontextspezifische, erlernbare und vermittelbare Leistungsdispositionen zu erfassen, die für die Bewäl‐ tigung von Anforderungen in konkreten Domänen erforderlich sind“ (Klieme & Leutner, 2006, S. 880). Dies ist aus rein psychometrischer Sicht nicht ohne weiteres möglich, wodurch eine domänenspezifische Umsetzung nur unter Miteinbezug von Fachexpert*innen der jeweiligen Domänen gelingt und nur Aussagen zu einzelnen Domänen erzielt werden können, die nicht ohne weiteres generalisierbar sind (vgl. Klieme & Leutner, 2006).

2.2

Verwendung des Kompetenzbegriffs im Hochschulbereich

Die Kompetenzverständnisse der empirischen Bildungsforschung und der Berufs‐ bildungsforschung scheinen für den Hochschulbereich grundsätzlich übertragbar. Auch die Ausdifferenzierung nach Kompetenzstruktur und Kompetenzniveau ist im Hochschulbereich denkbar. Hierbei ist es jedoch auch wichtig, die Ursprünge der Kompetenzorientierung im Hochschulbereich in die Betrachtung miteinzubeziehen, da mögliche Besonderheiten eine Übertragung der Erkenntnisse erschweren. Hierbei spielt im Speziellen Employability eine wichtige Rolle bezüglich der Verortung.

2.2.1

Ursprünge des Kompetenzverständnisses im Hochschulbereich

Aus politischer Sicht ist der Ursprung des Kompetenzbegriffs im Bereich der Hoch‐ schullehre auf den Bologna-Prozess zurückzuführen, genauer gesagt auf ein Treffen in Paris im Jahre 1998. An diesem Treffen nahmen Bildungsminister aus Deutsch‐ land, Frankreich, Großbritannien und Italien teil und legten, wider der bisherigen Fokussierung auf nationale Bildungsziele und -Entwicklungen, durch einen gemein‐ samen Austausch der verschiedenen Beteiligten das Fundament für die Konferenz in Bologna. Ziel war, die „Harmonisierung der Architektur der europäischen Hoch‐

25

26

Das Kompetenzkonstrukt im Hochschulbereich

schulbildung“ (Der Europäische Hochschulraum, 1998, S. 1) zu ermöglichen. Erzielt werden sollte ein gemeinsamer Rahmen, der die „Anerkennung akademischer Ab‐ schlüsse im Ausland, die Mobilität der Studenten sowie auch ihre Vermittelbarkeit am Arbeitsmarkt“ (Der Europäische Hochschulraum, 1998, S. 2) ermöglichen sollte. Im Beschluss selbst werden bereits einige der später gesetzten Ziele klar erkennbar. Dies sollte über ein gestuftes Studiensystem für alle Mitgliedsstaaten, auch vor dem Hintergrund einer machbaren Umsetzung in weiteren Staaten, etabliert werden. Durch eine Modularisierung sollte das gestufte System weiter unterteilt und da‐ mit vergleichbarer werden. Diese Etablierung geschah vor dem Hintergrund der angestrebten Attraktivitätssteigerung, Mobilität, aber auch mit dem Ziel einer gestei‐ gerten Berufsperspektive für Studierende in Form der sogenannten Employability (vgl. Alesi und Kehm, 2012; vgl. Zinger, 2012). Infolge dieser Erklärung wurde 1999 in Bologna der angestrebte europäische Hochschulraum durch eine gemeinsame Erklärung von insgesamt 29 Teilnehmer‐ staaten, darunter alle Unterzeichner der Sorbonne-Erklärung, schriftlich geregelt. Die Maßnahmen, denen die Teilnehmerstaaten, neben der bereits erwähnten „Kom‐ patibilität und Vergleichbarkeit der Hochschulsysteme“ (Der Europäische Hoch‐ schulraum, 1998, S. 3) durch die Unterzeichnung zugestimmt haben waren: – Einführung eines Systems leicht verständlicher und vergleichbarer Abschlüsse (auch durch die Einführung eines Diploma Supplements); – Einführung eines zweistufigen Studiensystems (undergraduate und graduate); – Einführung eines Leistungspunktesystems (beispielsweise das ECTS); – Förderung der Mobilität durch Überwindung von Hindernissen; – Förderung der europäischen Zusammenarbeit bei der Qualitätssicherung durch Er‐ arbeitung vergleichbarer Kriterien und Methoden; – Förderung der europäischen Dimension im Hochschulbereich (Alesi & Kehm, 2012, S. 24).

Die Umsetzung ist dabei, so die Unterzeichner, durch den institutionellen universi‐ tären und politischen Rahmen, sowie in Rückgriff auf die „Vielfalt der Kulturen, der Sprachen, der nationalen Bildungssysteme und der Autonomie der Universitäten“ (Der Europäische Hochschulraum, 1998) zu verwirklichen. Daran anschließend wurde in den folgenden Jahren in regelmäßigen Abständen eine Erweiterung und Anpassung der Ziele, aber auch eine Kontrolle über eine Erfüllung der gesetzten Ziele vorgenommen. Zudem erhöhte sich die Zahl der teilnehmenden Länder deutlich. 2 Deutlich wird dies auch zum Zeitpunkt des Wechsels zur zweiten Laufzeit, die ein Europa des Wissens vertieft in den Fokus setzt, die bisherigen Ziele festigt und um relevante, neue Bereiche, wie beispielsweise Inklusion und den Fokus auf soziale 2 Für eine ausführliche Betrachtung siehe Alesi und Kehm (2012) sowie die jeweiligen Beschlüsse.

Verwendung des Kompetenzbegriffs im Hochschulbereich

Komponenten, ergänzt (vgl. Alesi und Kehm, 2012; vgl. European Higher Education Area, 2009; vgl. European Higher Education Area, 2012).

2.2.2

Employability

Doch woraus ergibt sich explizit die kompetenzorientierte Ausrichtung der Hoch‐ schule und die Forderung, diese in den jeweiligen Prüfungssituationen auch umzuset‐ zen? Dieser Aspekt wird speziell in den Zielen der Bologna-Reform deutlich. Neben der erhöhten Mobilität und der internationalen Wettbewerbsfähigkeit 3 ist als drittes und für diese Arbeit zentrales Ziel die Employability bzw. Beschäftigungsfähigkeit zu nennen. Die Konkretisierung dieses Ansatzes, besonders in den letzten Jahren, geht vor allem auf den Beschluss von 2012 in Bukarest zurück, in welchem explizit an den bereits früh angeführten Gedanken der Mobilität angeknüpft wurde und konkrete Maßnahmen entwickelt wurden, Employability umzusetzen (vgl. Bundesministerium für Bildung und Forschung, 2015). Unter Employability wird im hochschulischen Kontext verstanden, dass Absolvent*innen „auf Basis wissenschaftlicher Bildung (fachliche und überfachliche Kompe‐ tenzen sowie berufsfeldbezogene Qualifikationen) eine qualifizierte Beschäftigung aufnehmen können“ (Amann et al., 2018, S. 24). Es handelt sich somit um eine Outcomeorientierung; das Studium soll sich thematisch und methodisch an den Anforderungen späterer Beschäftigungssituationen [aus]richten. Curricular schlägt sich dies in entsprechenden Kompetenzbeschreibungen in den Lehr‐ plänen (genau genommen: in den Modulbeschreibungen) der Studiengänge nieder (Gerholz & Sloane, 2008, S. 2f).

Allerdings liegt für Employability keine eindeutige Definitionen vor, schon gar nicht bezüglich des übersetzten Begriffs (vgl. Schubarth et al., 2014). Der oben genann‐ ten Beschreibung folgend wird vorliegend bei der Betrachtung der Employability besonders die „Fähigkeit einer Person, auf der Grundlage ihrer fachlichen und Handlungskompetenzen, Wertschöpfungs- und Leistungsfähigkeit ihre Arbeitskraft anbieten zu können und damit in das Erwerbsleben einzutreten, ihre Arbeitsstelle zu halten oder, wenn nötig, sich eine neue Erwerbsbeschäftigung zu suchen“ (Blancke et al., 2000, S. 9) in den Blick genommen. Verständlicher wird dies, wenn man sich mit diesem Begriff und den dahinterstehenden Gedanken befasst. So soll dabei, neben einer stärkeren Fokussierung der Inhalte auf eine Anwendungsorientierung, 3 Auf die erhöhte Mobilität und die internationale Wettbewerbsfähigkeit wird an dieser Stelle nicht näher

eingegangen. Für eine ausführlichere Betrachtung dieser Ziele und deren Einlösung siehe beispielsweise Bundesministerium für Bildung und Forschung (2015) sowie Bundesministerium für Bildung und For‐ schung (2018).

27

28

Das Kompetenzkonstrukt im Hochschulbereich

auch dem Studium und der Lehre ein größerer Stellenwert als bisher zukommen. Dass dabei verschiedene Interessen kollidieren, war absehbar. Dies zeigte sich auch in der eher zurückhaltenden Auseinandersetzung mit Employability in den Ergeb‐ nisberichten, die lediglich auf eine erhöhte Erwerbstätigkeit von Studierenden im Anschluss an das Bachelor-Studium eingehen. Auf Hochschulebene, die direkt von diesem Ziel betroffen ist, sowie auf Ebene der Verwaltung, der Lehrenden und der Studierenden ist eine Auseinandersetzung mit dem Begriff jedoch in höherem Maße, auch auf Grund des Bedarfs, jedoch eher gegeben (vgl. Hochschulrektorenkonferenz, 2014). Ein besonders in Deutschland zentral diskutierter Punkt ist der Bezug auf die Kompetenzen, die sich aus der Forderung nach Employability ableiten. So soll die Hochschulbildung zu der Ausbildung fachlicher und überfachlicher Kompetenzen führen, die letztlich dazu befähigen sollen, im Berufsalltag besser agieren zu können. In Verbindung mit der Modularisierung und der Einführung des European Credit Transfer and Accumulation System (ECTS) ist die regelmäßige Lernzielkontrolle wichtiger geworden, welche in Form von Kompetenzen formuliert werden soll (vgl. Schaper, Reis et al., 2012). Auf die Kompetenzorientierung wird im folgenden Kapitel ausführlicher eingegangen.

2.3

Kompetenzorientierung im Hochschulkontext

Wie aus den oben beschriebenen Vorgaben und Zielen des Bologna-Prozesses für die Hochschulen ableitbar ist, spielen Kompetenzen für die Hochschullehre mittlerweile eine zentrale und als hoch eingeschätzte Rolle. Speziell aus theoretischer Sicht hat sich der Begriff mittlerweile als Folge der Employability deutlich im Hochschulbe‐ reich verankert. Fraglich bleibt dabei auf den ersten Blick jedoch, welches Kompe‐ tenzverständnis für diesen Bereich herangezogen wird und wie sich die historische Einführung und das damit verbundene Umdenken in der heutigen Hochschullehre zeigt. Dazu wird nachfolgend auf den Kompetenzbegriff in der Hochschullehre näher eingegangen.

2.3.1

Mangel an Einheitlichkeit

Die Hochschullehre dient der Schaffung der notwendigen Grundlagen für Employa‐ bility, auch deshalb, weil der weitere Beschäftigungsfähigkeitsbegriff losgelöst von einzelnen Berufen oder Bereichen betrachtet werden soll. Besonders die Handlungs‐ kompetenzen sind die Stellschrauben, die eine Hochschullehre nutzen soll und die mit der Forderung nach einem kompetenzorientierten Studium bzw. einer kom‐ petenzorientierten Hochschullehre einhergehen. Als Lehrziele für die Hochschule ergeben sich dabei beispielsweise die Ziele, wissenschaftliches Denken und Arbeiten

Kompetenzorientierung im Hochschulkontext

zu lernen, die Persönlichkeitsbildung zu unterstützen und zu einer Teilhabe am gesellschaftlichen Leben zu befähigen. Diese durchaus allgemein formulierten Ziele sollen für alle Formen der Hochschulbildung Anwendung finden (vgl. Schaper, Reis et al., 2012). Fraglich bleibt damit aber dennoch, was genau unter Kompetenzorien‐ tierung im Hochschulkontext zu verstehen ist. Dies wird auch deutlich, wenn man sich beispielsweise eine Interviewstudie an der Universität Berlin näher ansieht. Hier‐ bei wurden 29 Personen auf verschiedenen Hochschulstufen im Zeitraum von 2011 bis 2012 zur Kompetenzorientierung befragt. Während Vizepräsident*innen und Abteilungsleiter*innen im Bereich Studium und Lehre auf universitärer Makroebene in der Kompetenzorientierung einen Paradigmenwechsel und einen Aspekt curricu‐ larer Reform sehen, ist auf der Ebene des Staatssekretariats für Bildung, Jugend und Sport, der Referenz zur Lehrerbildung sowie die Referatsleitung Lehrerbildung eher eine divergente Verortung und Bewertung zu erkennen. Lehrstuhlinhaber*innen der Fachdidaktik setzen sich im vorliegenden Fall kritisch damit auseinander, beson‐ ders bezüglich einer Operationalisierung der Begrifflichkeit, wobei die Konnotation positiv ausfällt. Speziell im vorliegenden Fall liegt die Betrachtung aber lediglich auf dem schulischen Bereich, was sich aus dem Themengebiet der Fachdidaktik ergibt, auf das Lehrhandeln im universitären Kontext wird kaum Bezug genommen. Dabei nimmt Kompetenz für die eigene Lehre einen geringeren Stellenwert ein, als die Vermittlung des Kompetenzverständnisses an angehende Lehrkräfte. Ein ähnliches Bild ist auf Ebene der Dozierenden zu erkennen. Auch hier wird eine positive Perspektive eingenommen und ein Bezug zur schulischen Kompetenzorien‐ tierung hergestellt, der universitäre Bereich aber kaum miteinbezogen. Speziell das eigene Lehrhandeln wird dabei kaum verändert. Auch Studierende sehen eher den Bezug zur schulischen Lehrtätigkeit als einen Bezug zum Studium (vgl. Kuhlee, 2017). Aus den vorliegenden Interviews wird ersichtlich, dass für viele Beteiligte der Kompetenzbegriff, zumindest im Bereich der schulischen Bildung, bekannt ist, eine Übertragung auf den Hochschulbereich aber weitestgehend ausbleibt. Dies hängt sicherlich auch mit der fehlenden Einheitlichkeit des Begriffs zusammen, da im Hochschulkontext bisher keine einheitliche Definition vorherrscht, sondern vielmehr zu verschiedenen Konzepten Bezüge hergestellt werden können, um ein hochschulspezifisches Verständnis zu erzielen (vgl. Schaper, Reis et al., 2012). Folgt man dem Kompetenzverständnis von Schaper, Reis et al. (2012), so setzt sich ein hochschulbezogenes Kompetenzverständnis aus den Verständnissen aus der empiri‐ schen Bildungsforschung, der Berufspädagogik bzw. der Berufsbildungsforschung und dem Gedanken der Schlüsselkompetenz zusammen (vgl. Schaper, Reis et al., 2012). Für das Kompetenzverständnis der empirischen Bildungsforschung wird dabei im Hochschulbereich ebenfalls die Fokussierung auf kognitive Facetten deutlich. Speziell für die Hochschule ist dies beispielsweise in dem Ansatz der professionellen Handlungskompetenz von Lehrkräften erkennbar (vgl. Baumert & Kunter, 2006),

29

30

Das Kompetenzkonstrukt im Hochschulbereich

der in Kapitel 4.2 ausführlicher betrachtet wird. Zudem wurde dieser Kompetenzan‐ satz in abgewandelter und erweiterter Form als Grundlage beispielsweise für die Lehrerbildung an der TU München gewählt (vgl. Fleischmann et al., 2014). Für eine Betrachtung eines hochschulbezogenen Kompetenzbegriffes weist Der Europäische Hochschulraum (1998) die Kompetenzauffassung der Berufsbildungs‐ forschung unter Miteinbezug der beruflichen Handlungskompetenz und deren Subdimensionen im Kontrast zum Ansatz der empirischen Bildungsforschung als zielführend aus, weil in dieser Definition didaktische Aspekte im Mittelpunkt stehen, die für die Umsetzung der Kompetenzorientierung im Hochschulkontext relevant werden. Dies kann für die Gestaltung der Lehr- und Lernsituationen vorteilhaft sein, besonders durch eine mögliche Verknüpfung mit dem Anspruch des situierten Lernens oder dem Ansatz der Problemorientierung. Demgegenüber steht jedoch der bisher sehr geringe Forschungsstand zur Operationalisierung und Messung dieser Ausdifferenzierung der Handlungskompetenz (vgl. Nickolaus, 2014a). Auf theoretischer Ebene liegen zumindest Kompetenzausdifferenzierungen im Hoch‐ schulkontext vor, besonders mit Blick auf praxisnahe Studiengänge. Es liegt jedoch die Vermutung nahe, dass die Anforderungsniveaus höher liegen, als in der Berufs‐ bildung. Dieses Verständnis könnte gerade in Bezug zur Bologna-Forderung nach Employability bedeutsam sein (vgl. Der Europäische Hochschulraum, 1998). Dieser Ansatz aus der Berufsbildung wird von verschiedenen Hochschulen herangezogen, um die Lernziele, die am Ende eines Moduls erreicht werden sollen, besser ausfor‐ mulieren zu können. Dieses Kompetenzverständnis findet man beispielsweise an der Hochschule Biberach (vgl. Zentrum für wissenschaftliche Weiterbildung Biberach, 2016), der naturwissenschaftlichen Fakultät der Friedrich-Alexander-Universität Er‐ langen-Nürnberg (vgl. Cursio & Jahn, 2015), oder auch an der Universität Stuttgart (vgl. Rapp, 2014).

2.3.2

Ausgewähltes Kompetenzverständnis

Die vorliegende Arbeit orientiert sich am grundlegenden Kompetenzverständnis von Klieme (2008) und sieht kognitive Dispositionen als zentral für die Kompetenz im Hochschulbereich an. Zudem werden die Kompetenzverständnisse der empirischen Bildungsforschung und der Berufsbildungsforschung in die weiteren Überlegungen miteinbezogen. Beide Ansätze wirken grundsätzlich für den Hochschulbereich an‐ wendbar, wie der Einsatz in der Praxis zeigt. Für die Universität Stuttgart wird dabei explizit auf das Verständnis der Berufsbildung verwiesen, weshalb hierauf der Fokus liegt. Je nach Subgruppe und Domäne scheinen ebenfalls alternative Verständnisse zielführend. Wichtig ist neben dem Verständnis aber auch die Struktur. Deshalb ist es bedeutsam, verschiedene Domänen in den Blick zu nehmen, um eine Spezifizierung der Kompetenz für die vorliegende Arbeit vorzunehmen.

Kompetenzorientierung im Hochschulkontext

Dieser Problematik des Domänenbezugs folgend wird nachfolgend ein Überblick über mögliche Modellierungsansätze aus verschiedenen Domänen aufgezeigt, um eine Verortung einer möglichen Struktur des berufspädagogischen Wissens vor dem Hintergrund bereits bestehender Modellierungen mit vergleichbarem Inhaltsbezug zu ermöglichen. Dazu wird ein Blick auf Kompetenzmodellierungen in nichtakade‐ mischen Feldern vorgenommen, um einen ersten Überblick über Erkenntnisse zu Kompetenzstrukturen anhand mittlerweile ausführlicher untersuchter Bereiche zu erlangen. Anschließend wird der Fokus auf die bestehenden Kompetenzmodellie‐ rungen im akademischen Bereich gelegt. Für die Kompetenzmodellierung in dieser Arbeit sind diese zwei Betrachtungs‐ ansätze nicht grundlos bedeutsam. Zum einen können Erkenntnisse aus nichtaka‐ demischen Bereichen eine erste Möglichkeit zur Modellierung der Kompetenz des Studiengangs Berufspädagogik bieten, da hier bereits zahlreich für verschiedene Domänen Kompetenzmodelle generiert und diese bereits auch empirisch geprüft wurden. Für eine erste theoretische Kompetenzmodellierung folgen beispielsweise Nickolaus und Seeber (2013) für den ingenieurwissenschaftlichen Bereich auf akade‐ mischer Ebene (vgl. Nickolaus & Seeber, 2013) diesem Ansatz. Dies ist in Kapitel 3 und Kapitel 4 zu finden. Zusätzlich gibt es zum anderen bereits erste Versuche, im akademischen Bereich Kompetenzen bei allgemeinbildenden Lehrkräften zu erfassen (vgl. Baumert & Kunter, 2006). Aufgrund der möglichen Nähe zwischen dem Studiengang Technikpädagogik und der allgemeinbildenden Lehrkräftebildung ist es deshalb zielführend zu betrachten, ob Bezüge zu Forschungsansätzen der allge‐ meinbildenden Lehrkräftebildung hergestellt werden können. Ausführlich wird die Analyse der akademischen Ebene in Kapitel 4 vorgenommen.

31

3

Fachkompetenzmodellierungen in nichtakademischen Feldern

Dieses Kapitel betrachtet die Fachkompetenz in der beruflichen Bildung und darauf aufbauend Überlegungen zu Dimensionalisierungen, die sich fachspezifisch ergeben. Aufgrund der Breite des betrachteten Feldes der Fachkompetenz wird lediglich ein thematischer Ausschnitt näher betrachtet. Basierend auf einem Teil der Zielgruppe dieser Arbeit im Bereich der beruflichen (Weiter-)Bildung, damit einhergehend der Bezug zu dieser Kompetenzwahrnehmung und der vergleichsweise fortgeschrit‐ tenen empirischen Auseinandersetzung mit diesem Kompetenzverständnis in der Forschung wird der Fokus in einem ersten Schritt auf Modellierungen des gewerb‐ lich-technischen Bereichs gesetzt. Dem Ansatz der beruflichen Handlungskompetenz, folgend, wird diese im Bereich der dualen Berufsausbildung in Fach-, Sozial- und Personalkompetenz ausdifferen‐ ziert (vgl. Kultusministerkonferenz, 2017). Zudem wird der Fokus auf vollständige berufliche Handlungen, Entwicklungs- und Entfaltungsansprüche, beispielsweise in Form der beruflichen Mündigkeit, aber auch auf berufliches Können als Gegensatz zu trägem Wissen, gelegt (vgl. Abele, 2014). Demgegenüber steht die Frage, wie diese Kompetenzen erfasst und gemessen werden können, was beispielsweise durch eine empirische Untersuchung ermöglicht werden soll. Besonders die vollumfängliche Ope‐ rationalisierung und Messung beruflicher Handlungskompetenz stellt die Beteiligten jedoch vor große Unklarheiten und Schwierigkeiten (vgl. Seeber & Nickolaus, 2010). Es ist zu betonen, dass die berufliche Handlungskompetenz in akzeptabler Güte nicht ganzheitlich zu erfassen ist. Dies ist jedoch auch vorteilhaft, da dies ermöglicht, näher zu untersuchen, welche Facetten in welchen Situationen ausgeprägt und relevant sind. Zudem ist es fast unmöglich, Aufgaben zu entwickeln, die alle Facetten in dem nöti‐ gen Umfang in der jeweiligen Situation ganzheitlich erfassen. Alleine schon deshalb, weil Aufgaben an Situationen gebunden sind und die verschiedenen Subdimensionen beispielsweise in technischen Arbeitsaufträgen eine andere Rolle spielen als in sozia‐ len Interaktionen zwischen Angestellten. Eine Aufgabenstellung, die jedoch soziale Interaktion bei der Bearbeitung einer technischen Fragestellung voraussetzt, ist für die Erfassung der Fachkompetenz nicht sinnvoll, was sich auch in der Unterscheidung

Fachkompetenzmodellierungen in nichtakademischen Feldern

der verschiedenen Dimensionen und der empirischen Trennbarkeit zeigt, die bei‐ spielsweise bei Asendorpf und Neyer (2012) in Form einer Differenzierung zwischen sozialer Kompetenz und intellektuellen Fähigkeiten abgebildet wird (vgl. Asendorpf & Neyer, 2012). Auch aus der Situation heraus, dass offen definierte und konstruierte Konstrukte mehr Ungenauigkeit beinhalten, ist es zielführend, Teilkompetenzen ge‐ trennt zu operationalisieren und zu erfassen (vgl. Abele, 2014). Demnach bietet es sich an, die einzelnen Dimensionen getrennt zu untersuchen, wobei der Fokus durch die Fragestellung der Arbeit auf der Fachkompetenz liegt, da hier die Bezüge, durch die Fokussierung auf inhaltliche Aspekte, zur Gesamtthematik am deutlichsten sind. Weitereführende Befunde zur Sozialkompetenz sind beispiels‐ weise bei Kanning (2009) oder Enders (2014) zu finden. Für die Personalkompetenz fällt die Befundlage vergleichsweise gering aus. Eine erste Betrachtung möglicher Er‐ fassung mit bereits bestehenden Konstrukten bietet beispielsweise Treutlein (2013). Im Gegensatz zur Befundlage der Personal- und Sozialkompetenz, bei der deutliche Defizite zu Möglichkeiten der Erfassung, ein Mangel an Inventaren, Dimensionen und Theorien bestehen, ist die Befundlage bezüglich der Fachkompetenz deutlich klarer und, für einige Berufsfelder, bereits Dimensionalisierungen vorhanden. Be‐ sonders im Bereich der gewerblich-technischen Ausbildung liegen einige Befunde vor. Fachkompetenz wird auch als berufsfachliche Kompetenz oder Sachkompe‐ tenz bezeichnet (vgl. Abele, 2014). Eine Ausdifferenzierung erfolgt mit Blick auf die Fachkompetenz beispielsweise in berufsfachliches Wissen und berufsfachliche Fertigkeit. Interessant dabei ist, dass sich über die Ausbildungszeiträume bei den Auszubildenden Unterschiede der Zusammenhänge und Ausprägungen der Dimen‐ sionen zeigen. Während zu Beginn der Ausbildung primär berufsfachliches Wissen zentral ist und eine Differenzierung zwischen den Subdimensionen kaum möglich ist, wird im Laufe der Ausbildung eine Differenzierung zwischen Fachwissen und einer Anwendung des Fachwissens sichtbar, was sich auch in geringeren Korrelationen zwischen diesen Dimensionen zeigt (vgl. Abele, 2014). Diese Ausdifferenzierung lässt sich an einigen Berufsgruppen empirisch bestätigen, wobei teilweise von Fach‐ wissen und fachspezifischer Problemlösefähigkeit statt Anwendung des Fachwissens gesprochen wird. Die Zweidimensionalität bleibt in diesen Ansätzen jedoch erhalten. Zur Erfassung werden überwiegend schriftliche Wissenstests und praktische oder simulierte Arbeitsproben herangezogen (vgl. Abele, 2014). So zeigt sich beispiels‐ weise im Bereich der KfZ-Mechatronik, dass bei Auszubildenden die Dimensionen Fachwissen in Form eines anwendungsnahen Fachwissenstests und Anwendung des Fachwissens als Fehlerdiagnosefähigkeit 1 differenziert werden können, diese aber mit r ∼ .8 korrelieren (vgl. Abele & Gschwendtner, 2010). 1 Die Fehlerdiagnosefähigkeit wurde mithilfe einer Computersimulation in Abgrenzung zu realen Aufga‐

ben erfasst. Dabei zeigte sich, dass ein Rückgriff auf Simulationen möglich ist (vgl. Abele & Gschwendtner, 2010).

33

34

Fachkompetenzmodellierungen in nichtakademischen Feldern

Ähnlich fällt das Ergebnis bei Auszubildenden der Mechatronik bzw. Fachinfor‐ matik aus. Vergleichbar mit der Erfassung bei Auszubildenden der KfZ-Mechatronik werden dort Paper-Pencil-Tests zur Erfassung des Fachwissens und computerge‐ stützte Simulationen für die Erfassung fachbezogener Problemlösefähigkeit heran‐ gezogen. Auch hier zeigt sich eine zweidimensionale Kompetenzstruktur der berufs‐ fachlichen Kompetenz (vgl. Dietzen et al., 2010). Ähnliches gilt auch für weitere einschlägige Studien in verschiedenen Domänen des gewerblich-technischen sowie des kaufmännischen Bereichs, z. B. bei Winther und Achtenhagen (2009) mit einer Korrelation von r = .59 zwischen dem Fachwissen und der Anwendung des Wissens. Bei Untersuchungen, die sowohl deklaratives Wissen als auch prozedurales Wissen als Fertigkeit bzw. Anwendung des Wissens mithilfe eines Paper-Pencil-Tests erhe‐ ben, ist eine Unterscheidung der Dimensionen meist jedoch nicht gegeben, was die Erfassung auf Grundlage von Simulationen nötig erscheinen lässt (vgl. beispielsweise Gschwendtner, 2008). Die Subdimensionen berufsfachlicher Kompetenz lassen sich für viele der Domänen weiter ausdifferenzieren. Für das Fachwissen geschieht diese Ausdifferenzierung dabei primär auf Basis inhaltlicher Gesichtspunkte, jedoch kaum auf Basis von Wissensformen. Dies zeigt sich beispielsweise bei Auszubildenden im Bereich der Elektronik für Automatisierungstechnik, bei denen zwischen konstrukti‐ ver und analytischer Problemlösekompetenz unterschieden werden kann. Auffällig ist dabei, dass, wenn Fachwissen und Intelligenz kontrolliert wird, lediglich eine latente Korrelation von r = .42 zwischen den Problemlösedimensionen besteht (vgl. Walker et al., 2015). Eine Ausdifferenzierung der Anwendung des Wissens zeigt sich auch bei Winther und Achtenhagen (2009), die für die handlungsbasierte Kompe‐ tenz zwischen Wertschöpfungsprozessen und betrieblichen Steuerungsprozessen bei Industriekaufleuten differenzieren (Winther & Achtenhagen, 2009). Einen ausführ‐ lichen Überblick für den gewerblich-technischen Bereich geben Walker et al. (2015). Relevant ist zudem eine Betrachtung der erreichten Kompetenzniveaus, auf denen die Lernenden eingeordnet werden können. Eine genauere Erläuterung wird darum in Kapitel 6 vorgenommen. Bedeutsam ist an dieser Stelle auch die Frage, welche Erklärungsmodelle für berufsfachliche Kompetenzen herangezogen werden können. Für den deutschspra‐ chigen Raum weisen Helmke und Weinert (1996) unter anderem die kognitiven Eingangsvoraussetzungen als eine der zentralen Einflussfaktoren des Lernerfolgs aus (vgl. Helmke & Weinert, 1996). Diese Ergebnisse zeigen sich auch im Rahmen anderer Analysen (vgl. beispielsweise Schrader & Helmke, 2007). Als zentraler für die Schulleistung wird jedoch das Vorwissen erachtet, das sich im allgemeinbildenden Bereich ebenfalls als ein zentraler Prädiktor zeigt (vgl. Schrader & Helmke, 2007). Diese Ergebnisse aus dem allgemeinbildenden Kontext lassen sich teilweise auch auf die berufliche Bildung, speziell im Rahmen der dualen Berufsausbildung, übertragen. So zeigt sich beispielsweise bei van Waveren und Nickolaus (2015), dass die kognitive Grundfähigkeit, gemessen mithilfe eines IQ-Tests, auf das Fachwissen

Fachkompetenzmodellierungen in nichtakademischen Feldern

bei Auszubildenden der Elektronik für Automatisierungstechnik zum Ende der Aus‐ bildung in allen erfassten Subdimensionen eine relativ hohe Erklärungskraft mit Werten zwischen .4 < r < .6 aufweist (vgl. van Waveren & Nickolaus, 2015). Ähn‐ liche Befunde, wenn auch teilweise mit schwächeren Korrelationen, zeigen sich für KfZ-Mechatroniker*innen und Elektroniker*innen (vgl. Abele et al., 2012). Für den Einfluss des IQ auf die Fachleistung im Beruf Kaufmann/Kauffrau im Einzelhandel ergibt sich beispielsweise β = .13, was einem deutlich geringeren Einfluss als in den anderen Domänen entspricht (vgl. Seeber, 2007). Es liegen für einige weitere Berufe ähnliche Befunde vor. 2 Berufsbezogenes Vorwissen wird im Vergleich zur kognitiven Grundfähigkeit deutlich seltener erhoben, spielt aber, wenn auch teils als Moderationsvariable für die kognitiven Grundfähigkeiten, dennoch eine zentrale Rolle als Determinante des Fachwissens zur Mitte bzw. zum Ende verschiedener Maßnahmen. Diese hat häufig, deutlich stärker als beispielsweise die Überforderung, Ausbildungsform oder Methodenwahl, eine zentrale prädiktive Kraft für das Fachwissen (vgl. Nickolaus et al., 2015). Die Relevanz des Vorwissens bleibt dabei auch bestehen, wenn ma‐ thematische und sprachliche Basiskompetenzen berücksichtigt werden. Dies ist beispielsweise bei Auszubildenden der Elektronik für Energie- und Gebäudetechnik erkennbar, bei denen mathematische Kenntnisse und Lesefähigkeit durch die allge‐ meine Intelligenz erklärt werden kann, mathematische Kenntnisse und Lesefähigkeit erklären wiederum das Vorwissen, welches für das Fachwissen bedeutsam wird. Des Weiteren hat das Fachwissen zur Mitte der Ausbildung einen zentralen Einfluss auf das Fachwissen zum Ende der Ausbildung, welches zudem durch die allgemeine Intelligenz erklärt werden kann (vgl. Nickolaus, 2012). Ein ähnliches Bild zeigt sich auch bei Auszubildenden der Mechatronik (vgl. Dietzen et al., 2014). Teilweise ist die kognitive Grundfähigkeit zusammen mit dem beruflichen Vorwis‐ sen für das Fachwissen erklärungsrelevant. Dies zeigt sich explizit beispielsweise bei Auszubildenden der KfZ-Mechatronik (vgl. Nickolaus, 2012). Diese Erklärungskraft lässt sich auch in anderen Ausbildungsgängen finden, weshalb davon ausgegangen werden kann, dass das Vorwissen als ein zentraler Prädiktor, auch unter Miteinbezug anderer Bedingungsfaktoren, gesehen werden kann (vgl. Nickolaus, 2012). Ähnliche Erkenntnisse zeigen sich auch bei Fortbildungen für Techniker*innen für Elektrotechnik. Das dreidimensionale berufliche Vorwissen in Form des Fachwissens zu Beginn einer zweijährigen Fortbildung weist Pfadkoeffizienten zwischen r = .39 und r = .45 in Richtung des beruflichen Fachwissens auf. Dazu muss aber gesagt werden, dass der IQ hierbei signifikante Effekte auf das Vorwissen aufweist. Es ist also ein Einfluss des IQ auf das Vorwissen, welcher wiederum einen Einfluss auf das Fachwissen zum Ende der Fortbildung aufweist, erkennbar (vgl. Velten et al., 2018). 2 Für einen Überblick über weitere Befunde siehe beispielsweise Nickolaus und Walker (2016) oder Abele

(2011).

35

36

Fachkompetenzmodellierungen in nichtakademischen Feldern

Neben der kognitiven Grundfähigkeit und dem berufsrelevanten Vorwissen wer‐ den häufig indirekt sowohl Motivation, als auch verschiedene subjektiv erfasste Qualitätsmerkmale und andere Faktoren für die Erklärung des Fachwissens und der Anwendung des Fachwissens über alle Erhebungszeitpunkte hinweg bedeutsam (vgl. Nickolaus et al., 2015), diese werden aber aus Gründen des Bezugs zur vorliegenden Arbeit nicht näher miteinbezogen. Grundsätzlich zeigt sich bei allen betrachteten Domänen, dass das Fachwissen von hoher Bedeutung für die Fachkompetenz ist. Speziell die Ergebnisse zu den Zusammenhängen des Fachwissens zu Beginn der Ausbildung bzw. Fortbildung auf das Fachwissen zu späteren Zeitpunkten sowie zur Anwendung des Wissens am Ende der Ausbildung bzw. Fortbildung über alle Domänen hinweg legen nahe, dass eine besondere Betrachtung des Wissens zu Beginn des insgesamt betrachteten Zeitrau‐ mes eine wichtige Bedeutung haben kann. Zudem zeigt sich, dass das Fachwissen in weitere Subdimensionen ausdifferenziert werden kann. Dieser Aspekt ist für eine zielgerichtete Beschreibung und Erfassung des Fachwissens relevant. Insgesamt stellt sich die Frage nach der Übertragbarkeit der Erkenntnisse auf den Bereich der Hochschulforschung. Der Forschungsfrage der vorliegenden Arbeit fol‐ gend ist zu erwarten, dass eine Strukturierung auf Basis der Fachkompetenz aus dem berufsbildenden Bereich auch auf den Hochschulsektor übertragen werden kann. Um dies näher zu untersuchen soll nachfolgend auf Modellierungen im akademi‐ schen Bereich eingegangen werden. Durch die Betrachtung von zwei Studiengängen ist darüber hinaus auch der Ansatz aus der allgemeinbildenden Lehrkräftebildung denkbar. Dieser soll nachführend ebenfalls näher betrachtet werden.

4

Modellierungen von Kompetenzen akademischer Bildungsgänge

Wie oben bereits deutlich wurde, ist ein einheitliches Verständnis über den Kom‐ petenzbegriff im Hochschulbereich deutlich weniger klar gegeben, als dies bei‐ spielsweise im berufsbildenden Bereich der Fall ist, was auch durch ein erhöhtes Forschungsinteresse bezüglich der beruflichen Ausbildung und dem bisher gerin‐ geren Forschungsinteresse im Hochschulsektor begründet ist. Erst in den letzten Jahren änderte sich dies. Für den Hochschulbereich zeigt sich zudem deutlich eine mangelnde Klarheit in einer Ausdifferenzierung und Erfassung der Kompetenzstruk‐ turen auf theoretischer und empirischer Grundlage. Möglichkeiten, um Befunde zur Ausdifferenzierung und Erfassung der Kompetenz zu erlangen, die im berufsbilden‐ den Bereich durch die Forschungsarbeiten im Bereich der Personalkompetenz und Sozialkompetenz, vergleichsweise ausführlich aber im Fall der Fachkompetenz vor‐ liegen (siehe Kapitel 3), sind im Bereich der Hochschulforschung durch eine Vielzahl an Unklarheiten und mangelnder Einheitlichkeit deutlich schwerer umzusetzen. Aus‐ differenzierungsversuche in Anlehnung an die Ergebnisse aus dem berufsbildenden Bereich, wie in der Betrachtung von Nickolaus und Walker (2016) beispielsweise für die Fachkompetenz in die Dimensionen Fachwissen und Anwendung des Fachwis‐ sens, sind zwar denkbar, können im Hochschulbereich jedoch nicht ohne weitere Un‐ tersuchungen angenommen werden. Gleichwohl kann allgemein vermutet werden, dass, ähnlich wie von Abele (2014) für den berufsbildenden Bereich verdeutlicht, davon ausgegangen werden kann, dass eine Ausdifferenzierung möglicher latenter Variablen möglich und nötig ist, um die Kompetenzen im Hochschulbereich zu erfassen. Einen Ansatzpunkt bieten dabei erste Versuche der Modellierung, wobei die Forschungslage in diesem Bereich noch sichtlich am Anfang steht. So liegt der Fokus bisher primär auf den Ingenieurwissenschaften (vgl. beispielsweise Behrendt et al., 2015), Wirtschaftswissenschaften (z. B. Zlatkin-Troitschanskaia et al., 2015) und in größerem Maße im Bereich der Lehrerbildung (vgl. Baumert & Kunter, 2006). Nachfolgend wird auf bestehende Modellierungsansätze aus dem Hochschulkontext näher eingegangen.

38

Modellierungen von Kompetenzen akademischer Bildungsgänge

4.1

Modellierungsansätze in verschiedenen Studiengängen

Der Blick auf die Fachkompetenz, der in der beruflichen Bildung beispielsweise vertieft in der empirischen Forschung zu finden ist, zeigt sich auch in verschiedenen Studien, die bereits im Hochschulsektor durchgeführt wurden. Dabei ist erkennbar, dass verschiedene Domänen in verstärktem Maße in den bisherigen Fokus gerückt sind. Nachfolgend werden verschiedene Kompetenzverständnisse und erste Befunde aus den Domänen Ingenieurwissenschaften und Wirtschaftswissenschaften in den Blick genommen.

4.1.1

Ingenieurwissenschaften

Für die Ingenieurwissenschaften wird beispielhaft das Projekt KOM@ING herange‐ zogen (Nickolaus & Seeber, 2013). In diesem Projekt wurde die Kompetenzstruktur der Technischen Mechanik als Teil der Ingenieurwissenschaften näher untersucht. Hierbei wird ein ähnliches Kompetenzverständnis wie von Weinert (2002) sowie Klieme und Leutner (2006) herangezogen. Damit wird auch an dieser Stelle der Fokus auf kognitive Dispositionen der Leistungsfähigkeit gelegt. Die inhaltliche Ausgestaltung der durch das Forschungsteam entwickelten Items basiert dabei auf Grundlage des Curriculums, hergeleitet aus den Lehrveranstaltungen und den dazu‐ gehörigen Prüfungen, Lehrbüchern, aber auch den jeweiligen Modulbeschreibungen über mehrere Hochschulstandorte hinweg. Theoretisch wird eine Kompetenzstruk‐ tur bestehend aus Statik und Elastostatik als zusammenhängende inhaltliche Di‐ mension sowie Dynamik angenommen (vgl. Dammann et al., 2016). Dazu wurden Daten an insgesamt 11 Hochschulen in den Studiengängen Bauingenieurwesen und Maschinenbau erhoben, was letztlich eine Stichprobe je nach Test zwischen N = 298 zum Test zur Dynamik und bis zu N = 2345 zum Zeitpunkt des Eingangstests ergab. So lässt sich die Technische Mechanik zum einen zweidimensional aus Statik und Elastostatik abbilden, wobei die Dimensionen mit r = .66 korrelieren. Zudem zeigt sich eine eindimensionale Modellstruktur der Dynamik. Die Dimensionen sollte man jedoch, aufgrund der vergleichsweise geringen Güte, kritisch sehen (vgl. Dammann, 2016) Zudem wird eine Verzerrung aufgrund der Itemauswahl nicht ausgeschlossen, weshalb auf weiteren Untersuchungsbedarf verwiesen wird (vgl. Dammann et al., 2016). Die Befundlage fällt darüber hinaus jedoch weitestgehend gering aus. Erste Analysen für die Konstruktionslehre an der Universität Stuttgart laufen im Rahmen des Projektes QuaLIKiSS.

Modellierungsansätze in verschiedenen Studiengängen

4.1.2

Wirtschaftswissenschaften

Im Bereich der Wirtschaftswissenschaften sind vor allem die Arbeiten im Rahmen des Projektes WiWiKom und deren Folgeprojekte (Zlatkin-Troitschanskaia et al., 2015) zu nennen. Auch im Rahmen dieser Projekte wird der oben beschriebene Ansatz verfolgt, dass der Fokus der Kompetenzmodellierung auf den Bereich der Fachkompetenz gelegt wird, wobei speziell dem fachwissenschaftlichen Wissen eine besondere Relevanz zugerechnet wird. Dabei wird auch auf das Kompetenzver‐ ständnis von Klieme und Leutner (2006) Bezug genommen und nicht-kognitive Kompetenzaspekte aus der weiteren Betrachtung ausgegrenzt. Auch hier wird eine weitere Ausdifferenzierung, wie dies bereits im Rahmen der gewerblich-technischen Ausbildung und der Erfassung des Fachwissens verdeutlicht wurde, anhand inhaltli‐ cher Teilbereiche zugrunde gelegt. Die Subdimensionen des Fachwissens erschließen sich dabei aus einer curricularen und lehrinhaltsbezogenen Inhaltsbetrachtung. So sind die Subdimensionen für die Volkswirtschaftslehre beispielsweise Mikro- und Makroökonomie, im Bereich der Betriebswirtschaftslehre kann zwischen „Personal, Finanzierung, Rechnungswesen, Marketing sowie Organisation und Unternehmens‐ führung“ (Zlatkin-Troitschanskaia et al., 2013, S. 122) unterschieden werden (vgl. Zlatkin-Troitschanskaia et al., 2013). Diese Subdimensionen können einzeln erfasst werden, um die zugrunde liegenden latenten Variablen zu erfassen. Als Beispiel sei hierfür das finanzwissenschaftliche Fachwissen als eindimensionales Konstrukt ge‐ nannt, das als Teil der Fachkompetenz im Bereich der Wirtschaftswissenschaften gesehen werden kann (vgl. Schmidt et al., 2015). Deutlicher wird dies auch bei Zlatkin-Troitschanskaia et al. (2015), die zeigen, dass für die Wirtschaftswissen‐ schaften eine zweidimensionale Modellstruktur vorliegt, die zwischen Mikro- und Makroökonomie differenziert. Dennoch ist auffällig, dass eine hohe Korrelation von r = .79 zwischen den zwei Dimensionen vorliegt (vgl. Zlatkin-Troitschanskaia et al., 2015). Es kann also speziell für die Ingenieurwissenschaften und Wirtschaftswissenschaf‐ ten bezüglich der Kompetenzerfassung gezeigt werden, dass Kompetenzmodelle entwickelt werden können, die empirisch fundierbar sind und gleichsam, durch den Bezug zum Curriculum, auch theoretisch fundiert sind. Eine Fokussierung auf die Fachkompetenz bzw. das Fachwissen und eine Ausdifferenzierung der Subdi‐ mensionen auf Grundlage des zugrunde liegenden Curriculums liegt damit wohl auch im Hochschulbereich nahe. Die Grundgedanken bauen dabei in beiden Fällen auf den Kompetenzverständnissen von Weinert (2002) bzw. Klieme und Leut‐ ner (2006) auf und orientieren sich an der Ausdifferenzierung der Beruflichen Handlungskompetenz mit klarer Fokussierung auf die Fachkompetenz bzw. das Fachwissen. Damit werden, speziell im Fall der Ingenieurwissenschaften, Bezüge zum Kompetenzverständnis der empirischen Bildungsforschung und der Berufsbil‐ dungsforschung hergestellt. Dem Verständnis der Fachkompetenz, für das in der

39

40

Modellierungen von Kompetenzen akademischer Bildungsgänge

Berufsbildungsforschung bereits Befunde vorliegen, scheint damit auch in der aka‐ demischen Forschung gefolgt werden zu können, wie diese ersten Befunde zeigen. Bedeutsam ist dabei auch, dass die Kompetenzmessung in der Hochschulforschung kontextspezifische Kompetenzen verstärkt in den Blick nimmt (vgl. Zlatkin-Troit‐ schanskaia et al., 2017). Dennoch ist die Forschungslage weiterhin vergleichsweise gering, was den Miteinbezug weiterer Studiengänge nahelegt. Aufgrund der vorliegenden Studierendengruppe ist jedoch fraglich, ob lediglich auf eine einzelne domänenspezifische Bezugnahme zurückgegriffen werden kann. Dies geht darauf zurück, dass ein Teil der Studierenden zwar das Studium der Berufs‐ pädagogik besucht, das sich fachlich an der Struktur der Ingenieurwissenschaften und Wirtschaftswissenschaften orientiert. Dies zeigt sich darin, dass lediglich ein Fach im Fokus des Studiums steht. Ein anderer Teil der Studierenden, die im Rah‐ men dieser Arbeit näher betrachtet werden, strebt nach dem Abschluss jedoch eine Lehrtätigkeit an beruflichen Schulen an, was eine andere Kompetenzstruktur unter Miteinbezug der zu unterrichtenden Fächer nahelegt. Auch inhaltlich ist, wenn auch mit Abstrichen, eine Überschneidung zwischen der vorhandenen Untersuchung und Untersuchungen in Bezug auf Kompetenzen in der Lehrerbildung nicht auszuschlie‐ ßen. Aus diesem Grund werden nachfolgend Modellierungsansätze aus dem Bereich der allgemeinpädagogischen Kompetenzforschung angehender Lehrkräfte in den Blick genommen.

4.2

Professionelle Handlungskompetenz von Lehrkräften

Im Gegensatz zu den Erkenntnissen aus Studiengängen mit nur einer fokussierten Domäne ist bei angehenden Lehrkräften eine Verbindung verschiedener Domä‐ nen mit möglichen Überschneidungen vorzufinden. Dies geht auf die Verbindung aus der pädagogischen Spezialisierung und dem jeweiligen Fachgebiet, das nach dem Studium und dem Referendariat unterrichtet wird, zurück. Um diesen Aspekt näher in den Blick zu nehmen, wird nachfolgend auf die vergleichsweise größere Forschungslage der professionellen Kompetenz von Lehrkräften, beispielsweise nach Baumert und Kunter (2006) und deren Erkenntnisse bezüglich der berufsfachlichen Kompetenzen näher eingegangen. Ähnlich wie bereits am Beispiel anderer Studien oben beschrieben, geht das Kompetenzverständnis, das beispielsweise der COACTIV-Studie zugrunde liegt, ebenfalls auf Weinert (2002) zurück. Im Gegensatz zu dem spezifischen Kom‐ petenzbegriff nach Klieme und Leutner (2006) mit Fokussierung auf kognitive Leistungsdispositionen, der in den Ingenieur- und Wirtschaftswissenschaften her‐ angezogen wird, spielen hier auch explizit die motivationalen, metakognitiven und selbstregulativen Fähigkeiten eine zentralere Rolle, als dies in den bisher betrach‐ teten Kompetenzmodellen der Fall war (vgl. Baumert & Kunter, 2011). Für das

Professionelle Handlungskompetenz von Lehrkräften

Kompetenzmodell bei COACTIV ergibt sich daraus die professionelle Handlungs‐ kompetenz, bestehend aus – „spezifischem, erfahrungsgesättigte[m] deklarative[m] und prozedurale[m] Wis‐ sen (Kompetenzen im engeren Sinne: Wissen und Können); – Professionellen Werten, Überzeugungen, subjektiven Theorien, normativen Prä‐ ferenzen und Zielen; – Motivationalen Orientierungen sowie – Fähigkeiten der professionellen Selbstregulation“ (Baumert & Kunter, 2011, S. 33). 1 Im Gegensatz zum Professionswissen ist die Forschungslage zu Überzeugungen bzw. Werthaltungen, Motivationalen Orientierungen und Selbstregulation vergleichs‐ weise gering. 2 Dies betrifft umso mehr die Verknüpfung der Dimensionen unter‐ einander. Basierend auf dem Zuschnitt der Arbeit bietet sich ein Fokus auf das Professionswissen an, da dieser Bereich des Modells deutlich relevanter wirkt. Baumert und Kunter (2006), die, ähnlich wie Weinert (2002) bzw. Klieme und Leutner (2006) Wissen und Können als „Kern der Professionalität“ (Baumert & Kunter, 2006, S. 481) sehen, orientieren sich ebenfalls an der gängigen Ausdifferen‐ zierung in deklaratives, prozedurales und strategisches Wissen. In Anlehnung an die bestehende Expertiseforschung und empirische Befunde zum professionellen Lehrerwissen fassen Baumert und Kunter (2006) den Erkenntnis‐ stand folgendermaßen zusammen: – „Professionelles Wissen ist domänenspezifisch und ausbildungs- und trainingsab‐ hängig. – Expertenwissen ist sehr gut vernetzt und hierarchisch organisiert. – In professionellen Domänen ist Expertenwissen um Schlüsselkonzepte und eine begrenzte Zahl von Ereignisschemata arrangiert, an die Einzelfälle, episodische Einheiten oder Sequenzen von Episoden (Skripts) angedockt sind. – Professionelles Expertenwissen integriert Kontexte und erlaubt variantenreicheres ‚opportunistisches Verhalten‚ – Basisprozeduren sind automatisiert, aber gleichwohl flexibel an die spezifischen Bedingungen des Einzelfalles und des Kontextes adaptierbar“ (Baumert & Kunter, 2006).

1 Diese Ausdifferenzierung lässt sich auch im Rahmen anderer Studien zu einer professionellen Hand‐

lungskompetenz bei Lehrkräften national als auch international finden. Einen Einblick in weitere Projekte findet man beispielsweise bei Kufner (2012). 2 Für einen Überblick über die Erkenntnisse siehe Kunter et al. (2011). Kufner (2012) gibt zudem beispielsweise einen theoretischen und empirischen Überblick über die Ergebnisse der COACTIV-Studie hinaus.

41

42

Modellierungen von Kompetenzen akademischer Bildungsgänge

Diese Befunde decken sich mit den Erkenntnissen aus anderen Bereichen, speziell auch in der Ausbildungsforschung und den Erkenntnissen aus der Hochschulfor‐ schung (vgl. Kapitel 3 und Kapitel 4.1). Neben dieser Strukturierung und den Kompetenzverständnissen spielt, mit Be‐ zugnahme auf die Besonderheiten des Lehrberufs, jedoch zusätzlich die Ausdifferen‐ zierung des professionellen Wissens nach Shulman (1987) eine bedeutende Rolle. Dieser unterscheidet als Teile des professionellen Wissens von Lehrkräften zwi‐ schen content knowledge, also Wissen mit Bezug zum jeweiligen Unterrichtsfach, curriculum knowledge, das Wissen über Unterrichtsmedien und den Unterrichtsstoff, zu finden im Lehrplan, 3 pedagogical knowledge, also fachunspezifisches, Pädagogi‐ sches Wissen sowie pedagogical content knowledge, also Wissen zur didaktischen Aufbereitung der fachlichen Unterrichtsthemen (vgl. Shulman, 1986; Shulman, 1987). 4 Das Fachwissen beschreibt dabei über verschiedene Taxonomiestufen (beispiels‐ weise nach Bloom, 1969) die Wissensstruktur des jeweiligen Unterrichtsfaches. Dies umfasst dabei nicht nur die reinen Fakten, sondern zudem die Aufgabe der Lehrkräfte, die Fakten verständlich zu erläutern, weshalb es relevant ist, diese für das jeweilige Fach zu wissen und die Verbindung der Inhalte mit anderen Inhalten des selben Fachs zu kennen (vgl. Shulman, 1987). Fachdidaktisches Wissen umfasst nach Shulman (1986) ein Wissen, welches das reine Themenwissen übersteigt. Stattdessen wird darunter ein Wissen über das Lehren des Fachwissens gefasst. Dies kann beispielsweise ein Wissen über passende Versuchsaufbauten, Karikaturen, Lehrtexte oder auch Bilder sein, um das Fachwissen pädagogisch durchdacht zu vermitteln. Das fachdidaktische Wissen beruht dabei auf Erkenntnissen der Lehr-Lernforschung der verschiedenen Domänen. Letztlich ist fachdidaktisches Wissen also eine Mischung aus content knowledge und pedagogical knowledge (vgl. Shulman, 1986 sowie Shulman, 1987). Pädagogisches Wissen ist nach Shulman (1986) „the knowledge of generic prin‐ ciples of classroom organization and management“ (Shulman, 1986, S. 14). Dies um‐ fasst allgemeine Lerntheorien, ein Verständnis über Kompetenzen, Wissen, Lehren und Lernen, Lehransätze, aber auch Lehr-Lernmethoden und Diagnostik (vgl. Gross‐ man und Richert, 1988; vgl. Shulman, 1986; vgl. Shulman, 1987). Shulman (1986) legt bei diesen drei Formen des Professionswissens den Fokus auf pedagogical content knowledge und bezieht sich bezüglich des pädagogischen Wissen auf die Tatsache, dass dieses zu der Zeit im Fokus der aktuellen Bildungsfor‐ schung stand (vgl. Shulman, 1986). Diese Ausdifferenzierung und Fokussierung ist 3 Diese Form des professionellen Wissens wird nachfolgend nicht weiter betrachtet. 4 Shulman (1987) erweitert die Aufzählung zudem um knowledge of learners and their characteristics,

knowledge of educational contexts sowie knowledge of educational ends, purposes and values (Shulman, 1987, S. 8). Auf diese Kategorien wird jedoch nachfolgend nicht näher eingegangen.

Professionelle Handlungskompetenz von Lehrkräften

Grundlage einiger Übersichtsbeiträge, die das Lehrerwissen in den Blick nehmen, beispielsweise in Helmke (2007), aber auch in neueren Werken wie bei Stürmer und Gröschner (2019). Deutlich wird die Komplexität der Elemente über die Ausführungen von Baumert und Kunter (2006) zu den drei Facetten des Professionswissens auch in den nach‐ folgenden Betrachtungen dieser Elemente. 5

4.2.1

Fachwissen und fachdidaktisches Wissen

Die Autor*innen des Modells weisen dabei sowohl das Fachwissen als auch das fachdidaktische Wissen für Lehrkräfte im Rahmen des zu vermittelnden Unterrichts‐ themas als zentrale Wissensfacetten aus. Sie heben, wie auch andere Autor*innen 6 zudem hervor, dass der Fokus bisher wenig auf dem Fachwissen liegt und die Lehr‐ Lernforschung die pädagogischen und fachdidaktischen Wissensfacetten präferiert (vgl. Baumert & Kunter, 2006). Diese Aussage ist jedoch nicht ohne weiteres auf den Berufsbildungsbereich zu übertragen, wenn auch auf die Situation während der Lehramtsausbildung, wie der oben beschriebene Forschungsstand zur Fachkompe‐ tenzforschung im Hochschulbereich zeigt. Für das allgemeinbildende professionelle Wissen von Lehrkräften bedeutet dies jedoch, dass die bestehende Forschungslage Aussagen, auch zu Verknüpfungen zwischen den Wissensfacetten, in diesem Fall erschwert. Dies hängt auch damit zusammen, dass häufig sowohl im deutschsprachigen als auch internationalen Raum auf Abschlüsse, besuchte Fachkurse oder Zertifikate als Variablen zurückgegriffen wird, weniger auf die Inhalte. Zudem scheint die Differenzierung zwischen Fach‐ wissen und fachdidaktischem Wissen nicht immer eindeutig. Ergebnisse zu deren Bezügen sind vor allem im Bereich der Naturwissenschaften und Mathematik zu finden, andere Domänen werden kaum untersucht (vgl. Baumert & Kunter, 2006). Diese schwierige Forschungslage zeigt sich auch in verschiedenen Studien. So zeigen beispielsweise Untersuchungen von Hill et al. (2005), dass in den ersten Schuljahren im Fach Mathematik die Differenzierung zwischen dem Fachwissen und dem fachdidaktischen Wissen durch den gemeinsamen mathematischen Bezug nur schwer möglich ist. Beides sagt die mathematischen Leistungen der Lernenden

5 Die Autor*innen verweisen darauf, dass es zwar zudem Organisationswissen und Beratungswissen als

weitere Dimensionen des Professionswissens gibt, diese aber an institutionelle und soziale Gefüge geknüpft sind, weshalb eine Betrachtung und Erfassung auf individueller Bezugsebene schwer fällt (Baumert & Kunter, 2006). 6 Beispielhaft sei an dieser Stelle Neuweg (2006) angeführt, der hervorhebt, dass Lehrkräfte die fachlichen Inhalte in hohem Maße kennen müssen, um sich beispielsweise fachdidaktisch damit auseinandersetzen zu können.

43

44

Modellierungen von Kompetenzen akademischer Bildungsgänge

voraus. Dennoch wird das Fachwissen hierfür mit am bedeutendsten eingeschätzt. Zudem spielt das Fachwissen auch für die Vermittlung von Grundlagenwissen im Bereich Mathematik eine zentrale Rolle (vgl. Hill et al., 2005). Dies steht aber im Gegensatz zu Erkenntnissen, die beispielsweise im Rahmen der COACTIV-Stu‐ die gefunden wurden. Instrumente, die für die Erfassung des Fachwissens und des fachdidaktischen Wissens entwickelt wurden zeigen zwar auch einen Zusammen‐ hang zwischen Fachwissen und fachdidaktischem Wissen, dieser geht jedoch auf die mathematische Expertise zurück. Dabei muss besonders betont werden, dass eine Trennung zwischen den Dimensionen nur im nichtgymnasialen Lehramt er‐ kennbar ist, bei angehenden Mathematiklehrkräften im gymnasialen Bereich ist eine dimensionale Unterscheidung zwischen Fachwissen und fachdidaktischem Wissen im vorliegenden Fall nicht gelungen. Die Ergebnisse werden auch als ein Hinweis auf den Einfluss des Fachwissens auf das fachdidaktische Wissen im mathematischen Kontext gesehen. Dennoch verfügen die hier miteinbezogenen gymnasialen Lehr‐ kräfte trotz eines erhöhten Fokus auf Fachwissen über ein höheres fachdidaktisches Wissen, als dies bei angehenden nichtgymnasialen Lehrkräften der Fall ist (vgl. Krauss et al., 2008). Ähnliche Erkenntnisse sind auch bei Blömeke et al. (2008) für angehende Mathematiklehrkräfte im Sekundarbereich zu finden. Dabei wird ähnlich wie bei COACTIV beobachtet, dass gymnasiale Lehrkräfte ein höheres professionelles Wissen aufweisen als angehende Lehrkräfte für andere Schularten (vgl. Blömeke et al., 2008; vgl. Blömeke et al., 2010a; vgl. Blömeke et al., 2010b). Für andere Domänen fällt die Befundlage bisher deutlich geringer aus, wenn auch ergebnistechnisch ähnlich gelagert. Im Bereich der Physik zeigt beispielsweise Kirschner (2013), dass sich Fachwissen, fachdidaktisches Wissen und pädagogisches Wissen als eigenständige Dimensio‐ nen zeigen. In dieser Untersuchung bei Lehramtsstudierenden, Physiklehrkräften im Vorbereitungsdienst und Physiklehrkräften wird dabei erkennbar, dass Fach‐ wissen ein Großteil des fachdidaktischen Physikwissens erklärt. Dies wird auch ausbildungsbezogen interpretiert, indem die inhaltliche Verknüpfung der beiden Wissensfacetten hervorgehoben wird. Wie auch im Bereich der Mathematik kann das höhere Professionswissen bei Gymnasiallehrkräften gegenüber Lehrkräften der Sekundarstufe I auch hier nachgewiesen werden (vgl. Kirschner, 2013). Auch für den Bereich der Biologie sind Tests zur Erfassung des Fachwissens und fachdidak‐ tischen Wissens entwickelt worden, die zu ähnlichen Ergebnissen kommen (vgl. Jüttner & Neuhaus, 2013). Für die Chemie-Domäne wurden ebenfalls Instrumente entwickelt, die jedoch zu geringeren Zusammenhängen zwischen Fachwissen und fachdidaktischem Wissen führen, als dies in den zuvor genannten Bereichen der Fall ist. Dennoch zeigt sich, „dass hohes fachdidaktisches Wissen ein gewisses Maß an Fachwissen voraussetzt, während ein hohes Maß an Fachwissen nicht notwendiger‐ weise hohes fachdidaktisches Wissen impliziert“ (Dollny & Tepner, 2012, S. 214). Eine Vergleichbarkeit der drei Domänen Physik, Mathematik und Chemie, die im

Professionelle Handlungskompetenz von Lehrkräften

Rahmen des Projektes ProwiN 7 Instrumente zum Professionswissen der Lehrkräfte entwickelt haben, ist jedoch aufgrund verschiedener Testkonzeption nicht ohne weiteres möglich. Dies hängt mit verschiedenen Niveaus, Differenzierung zwischen Schulstufen und verschiedenen Bezugsgruppen zusammen (vgl. Jüttner & Neuhaus, 2013). Im Vergleich zu den davor genannten Fächern ist die Erfassung des Fach- und fachdidaktischen Wissens in den Geisteswissenschaften durch eine geringere curri‐ culare Strukturierung deutlich erschwert. Dennoch zeigt sich beispielsweise für die Fächer Deutsch und Geschichte, dass, wie bei den naturwissenschaftlichen Fächern, sowohl Fachwissen als auch fachdidaktisches Wissen in weitere Wissensdimensionen ausdifferenziert werden kann. Diese Ausdifferenzierung, speziell für das Fachwissen, ist beispielsweise in Schulwissen, akademisches Wissen, und erweitertes Fachwis‐ sen für den schulischen Kontext möglich. Fachdidaktisches Wissen ist für Deutsch beispielsweise „ Wissen über das Potential fachspezifischer Lernmaterialien, Wissen über Schülerkognitionen und Wissen über fachspezifische Vermittlungsstrategien“ (Lüke et al., 2018, S. 92). Auch wenn erste Untersuchungen eine hohe Güte der Instrumente aufweisen, steht für die Geisteswissenschaften eine Betrachtung der Zusammenhänge zwischen Fachwissen und fachdidaktischem Wissen, im Gegensatz zu den Naturwissenschaften, noch weitestgehend aus (vgl. Lüke et al., 2018). Etwas spezifischer wird dabei lediglich das Projekt FALKO 8, das erste Zusammenhänge zwischen Fachwissen und fachdidaktischem Wissen in verschiedenen Domänen aufzeigt, auch wenn diese Zusammenhänge, beispielsweise in Physik, teils geringer als im Rahmen von COACTIV ausfallen (vgl. Schödl & Göhring, 2015). So zeigt sich für Englisch beispielsweise ein Zusammenhang von r = .43 zwischen dem Fachwissen und dem fachdidaktischen Wissen (vgl. Kirchhoff, 2017). Für Deutsch fallen die Interkorrelationen mit r = .51 im Vergleich dazu etwas höher aus (vgl. Pissarek & Schilcher, 2017). Die Zusammenhänge fallen in Musik (vgl. Puffer & Hofmann, 2017), Latein (Lindl & Kloiber, 2017) und Religion (vgl. Fricke, 2017) vergleichbar hoch wie in Englisch und Deutsch aus. Für die Relevanz der Wissensfacetten Fachwissen und fachdidaktisches Wissen für den Lehr-Lernprozess spricht beispielsweise der Einfluss des fachdidaktischen Wissens der Lehrenden auf den Leistungszuwachs der Lernenden von β = .62 bei Mathematik-Schülern der Klasse 10 (vgl. Kunter et al., 2013) oder der Einfluss des fachdidaktischen Wissens auf die kognitiven Aktivierung und Lernunterstützung (vgl. Kunter et al., 2013). Fachwissen zeigt hierbei keine direkten Zusammenhänge oder Einflüsse auf den Leistungszuwachs, ist jedoch als Prädiktor für das fachdi‐ daktische Wissen zu verstehen. Dies ist auch bedingt durch beispielhaft angeführte Korrelationen von bis zu r = .79 zwischen Fachwissen und fachdidaktischem Wissen 7 Professionswissen in den Naturwissenschaften. 8 Fachspezifische Lehrerkompetenzen.

45

46

Modellierungen von Kompetenzen akademischer Bildungsgänge

im Rahmen der COACTIV-Studie (vgl. Kunter et al., 2011) und Korrelationen von r = .61 zwischen Fachwissen und fachdidaktischem Wissen im Bereich der Physik als Teil der FALKO-Studie (vgl. Schödl & Göhring, 2015). Somit ist das Fachwissen für die Entwicklung des fachdidaktischen Wissens von Bedeutung (vgl. Krauss et al., 2008).

4.2.2

Pädagogisches Wissen

Für die vorliegende Arbeit bietet sich speziell für die Studierenden der Technikpäd‐ agogik ein besonderer Fokus auf das pädagogische Wissen an, weshalb diese Wis‐ sensfacette nachfolgend besonders in den Fokus rückt. Dies ist durch eine losgelöste Betrachtung des vermittelten berufspädagogischen Wissens bei der vorliegenden Zielgruppe aus angehenden Lehrkräften an beruflichen Schulen in verschiedenen Domänen sowie allgemein die Studierenden der Berufspädagogik ohne späteren konkreten Bezug zur schulischen Lehre begründet. Erste Expert*innenbefragungen zeigten, dass „Klassenführung und Orchestrie‐ rung des Lernprozesses, Wissen über Entwicklung und Lernen, Diagnostik und Leistungsbeurteilung sowie professionelles Verhalten im Kontext von Schule und schulischer Umwelt“ (Baumert & Kunter, 2006, S. 484) im Lehr-Lernprozess aus pädagogischer Sicht zentrale Wissenselemente sind. Die Beschreibung des päd‐ agogischen Wissens nach Shulman (1986) deckt sich damit weitestgehend, wobei Shulman das Spektrum um foundations of education erweitert, worunter „erziehungs‐ philosophisches, bildungstheoretisches, schultheoretisches, bildungssoziologisches und bildungshistorisches Wissen“ (Baumert & Kunter, 2006, S. 484) gefasst wird. Baumert und Kunter (2006) weisen jedoch explizit auf die verschiedene Distanz der Wissensfacetten zur praktischen Berufs- und Unterrichtstätigkeit hin, was die Erfassung dieser Facetten erschweren kann, besonders bezüglich deren Einfluss auf die Lehr-Lernprozesse. Als Beispiel werden bildungswissenschaftliche Grundlagen angeführt (vgl. Baumert & Kunter, 2006). Das liegt auch an der Vielzahl der zugrunde gelegten Begrifflichkeiten und Defini‐ tionen für ähnliche Verständnisse des pädagogischen Wissens. Gemeinsam ist diesen Definitionen, dass Bezug zu einem generischen Wissen hergestellt wird, das nicht direkt mit fachlichen Domänen verknüpft ist. Zudem wird häufig Klassenführung, Wissen über Lernprozesse der Lernenden und Lehrenden, Interaktionen zwischen Lehrenden und Lernenden, sowie die Planung und Reflexion des Unterrichts als generisch unterstellt. Unterschiede liegen dagegen zwischen der Verknüpfung zwi‐ schen pädagogischem Wissen und Überzeugungen vor. Zudem wird nicht eindeutig klar, ob pädagogisches Wissen als Kompetenz oder Performanz gefasst werden sollte (vgl. Voss et al., 2015). Voss et al. (2015) geben eine Übersicht über die unterschied‐ lichen Definitionen.

Professionelle Handlungskompetenz von Lehrkräften

Trotz der verschiedenen Definitionen liegt es nahe, das Verständnis pädagogi‐ schen Wissens als (Teil-)Kompetenz beizubehalten, die in die Facetten deklaratives, prozedurales und konzeptuelles Wissen z. B. in Anlehnung an Anderson (1996) ausdifferenziert werden kann (vgl. Voss et al., 2015). Dem folgend lässt sich in Anleh‐ nung an die COACTIV-Studie (vgl. Voss & Kunter, 2011) nachstehende inhaltliche Ausdifferenzierung zentraler Aspekte heranziehen: „Lernen und Lernende: – Lernprozesse (lern-, motivations- und emotionspsychologisches Wissen) – Unterschiede in den Voraussetzungen der Lernenden (Heterogenität) – Altersstufen und Lernbiographien (entwicklungspsychologisches Wissen) Umgang mit der Klasse als komplexem sozialen Gefüge: – Klassenführung/Strukturierung der Klassenprozesse – Interaktion/Kommunikation und soziale Konflikte Methodisches Repertoire: – Lehr-Lern-Methoden und -konzepte und deren lernzieladäquate Orchestrierung – Generelle Prinzipien der Individual- und Lernprozessdiagnostik und Evaluation Gestaltung von Lernumgebungen (räumliche, materiale und mediale Gestaltung)“ (Voss et al., 2015, S. 195). 9 Während die Forschungslage zu Beginn der Auseinandersetzung mit pädagogi‐ schem Wissen vor allem durch die „Zusammenhänge zwischen der Zertifizierung von Lehrkräften, ihrer Unterrichtsführung und dem Leistungsfortschritt derer von ihnen unterrichteten Schülerinnen und Schüler“ (Baumert & Kunter, 2006, S. 485) limitiert war und pädagogisches Wissen als solches kaum explizit mehrdimensional erfasst wurde (vgl. Baumert & Kunter, 2006) sind vor allem jüngere Arbeiten explizit auf die Operationalisierung, Dimensionalisierung und Validierung des pädagogischen Wissens vertieft eingegangen (vgl. Voss et al., 2015). Grundsätzlich müssen bei den momentan gängigen Instrumenten zur Erfassung pädagogischen Wissens nach Voss et al. (2015) jedoch Unterscheidungen nach der Bezugsgruppe vorgenommen werden. Diese Zeitpunkte der Lehramtslaufbahn wirken sich direkt auf das pädagogische Wissen aus. So können für die Erfassung das pädagogischen Wissens „a) Instrumente für Lehramtsstudierende zur Untersuchung der Wirksamkeit der Lehrerausbildung und b) Instrumente zur Erfassung handlungs‐ naher pädagogischer Wissensanteile von Lehrkräften im Schuldienst“ (Voss et al., 2015, S. 9) identifiziert werden. 9 Es existieren vielfältige weitere Ausdifferenzierungen, die sich mit dem pädagogischen Wissen ausein‐

andersetzen. Diese sind in weiten Teilen auch empirisch geprüft. Eine Übersicht ist dazu bei Voss et al. (2015) zu finden.

47

48

Modellierungen von Kompetenzen akademischer Bildungsgänge

Für die vorliegende Arbeit ist es zielführend zu betrachten, welche Erkenntnisse bezüglich der Instrumente zur Erfassung des pädagogischen Wissens von Lehramts‐ studierenden vorliegen. Dabei zeigt sich bezüglich der Dimensionalisierung, dass es sich bei pädagogischem Wissen nach bisherigem Erkenntnisstand um ein mehrdi‐ mensionales Konstrukt handelt. Ein Beispiel dafür ist die Dimensionalisierung des pädagogischen Wissens im Rahmen der TEDS-M-Studie. Dort ergibt sich ein fünf‐ dimensionales Modell, bestehend aus Strukturierung von Unterricht, Motivierung, Umgang mit Heterogenität, Klassenführung und Leistungsbeurteilung (vgl. König und Blömeke, 2009; vgl. König, 2015). Die EAP-Reliabilitäten der Dimensionen liegen dabei zwischen .65 und .85 und somit in wünschenswerten Bereichen. Die verschiedenen Dimensionen korrelieren mit Werten zwischen r = .37 und r = .70 miteinander. Zur Erfassung dieser Dimensionen wurden in einer Pilotierungsstu‐ die über 800 Lehramtsstudierende befragt (vgl. König & Blömeke, 2009). Weitere Untersuchungen auf Grundlage der Tests, die im Rahmen der TEDS-M-Studie erstellt wurden (vgl. Tatto & Schmidt, 2012) bestätigen die Struktur und zeigen, dass pädagogisches Wissen von fachdidaktischem Wissen im Bereich Englisch und Mathematik differenziert werden kann, aber mit r = .64 im Bereich der Mathematik und .55 < r < .65 im Bereich der Sprachen hohe Zusammenhänge aufweist (vgl. König et al., 2017). Im Rahmen der BilWiss-Studie wurde ebenfalls eine Dimensionierung des päd‐ agogischen Wissens vorgenommen, die auf Basis einer Delphi-Expert*innenbefra‐ gung generiert wurde und in einer Studie mit rund 1000 Studierenden pilotiert wurde. Hierbei wurden sechs Dimensionen generiert, die inhaltlich teilweise mit den oben beschriebenen Dimensionen übereinstimmen, teilweise das Spektrum aber auch um Aspekte wie die Bildungstheorie erweitern (vgl. Kunter et al., 2015). 10 Die Reliabilitäten liegen dort mit Werten zwischen .65 bis .76 im zufriedenstellen‐ den Bereich. Diese Struktur wurde in einer Hauptstudie mit N = 3118 Studierenden bestätigt und die längsschnittliche Betrachtung unter Miteinbezug von Referendar*innen legt nahe, dass die Inhalte auch für den Berufseinstieg von Bedeutung sein können (vgl. Kunter et al., 2015). Dennoch wird dabei auch deutlich, dass die Unterschiede innerhalb der Universitäten dazu führen können, dass Studierende durch die jeweiligen Schwerpunktsetzungen teilweise in einzelnen Gebieten keine inhaltliche Auseinandersetzung mit den Themen erleben. Dadurch wird auch ein Vergleich über Standorte hinweg deutlich erschwert. So schränkt diese Diversität die Sicherung inhaltlicher Standards in den Bildungswissenschaften nach Meinung der Autor*innen in hohem Maße ein (vgl. Kunter et al., 2015) – was als Gedanke auch für die vorliegende Arbeit und die Übertragbarkeit der Aussage nicht zu vernachlässigen ist. 10 Die Dimensionen sind Unterrichtsgestaltung, Schulorganisation, Bildungstheorie, Lernen und Ent‐

wicklung, Diagnostik und Evaluation sowie Lehrberuf als Profession (vgl. Kunter et al., 2015).

Professionelle Handlungskompetenz von Lehrkräften

Vergleichsweise gering ist der Forschungsstand bisher bezüglich der Frage, wie und in welchem Umfang eine Entwicklung des pädagogischen Wissens über die Zeit der verschiedenen Stufen der Lehramtsausbildung beobachtet werden. Einen Überblick dazu gibt S¸ tef˘anic˘a (2018). Konsens besteht darüber, dass das pädago‐ gische Wissen über die Zeit veränderbar und erlernbar ist und dies auch geschieht. Querschnittsuntersuchungen zwischen Absolvent*innen eines Lehramtsstudiums und Quereinsteiger*innen ohne besuchte Veranstaltungen im Bereich der Bildungs‐ wissenschaften zeigen beispielsweise, dass Personen mit Lehramtsabschluss über bessere Leistungen verfügen, was als indirekten Beleg für einen systematischen Wissensaufbau über die Zeit des Studiums im Vergleich zu Personen ohne den Besuch des Lehramtsstudiums gesehen wird (vgl. Kunina-Habenicht et al., 2013). Längsschnittstudien, die auch den Einfluss verschiedener Faktoren auf den Aufbau pädagogischen Wissens abbilden, sind vergleichsweise selten. Die Studie Längs‐ schnittliche Erhebung pädagogischer Kompetenzen von Lehramtsstudierenden (LEK), die längsschnittliche Analysen vornimmt, gibt weitere Anhaltspunkte, dass die besuchten Lehrveranstaltungen teilweise einen Einfluss auf die Entwicklung des pädagogischen Wissens haben können. Ähnliches gilt für die behandelten Inhalte. Die Qualität der Lehrmethoden hat im Vergleich dazu jedoch keine Wirkung (vgl. König & Seifert, 2012). Aufgrund der geringen Stichprobe und damit einhergehen‐ den Beschränkungen auf einzelne Standorte müssen die Ergebnisse jedoch kritisch betrachtet werden. Ergänzende, größer angelegte Studien wären für generalisierende Aussagen förderlich (vgl. Voss et al., 2015). Instrumente, die das pädagogische Wissen bei Lehrkräften messen, kommen bei‐ spielsweise im Rahmen der COACTIV-Studien (vgl. Voss & Kunter, 2011) zum Er‐ gebnis, dass Referendar*innen mit Lehrerfahrung ein höheres pädagogisches Wissen aufweisen als beispielsweise Referendar*innen ohne Lehrerfahrung. Zudem werden Zusammenhänge zu kognitiven Fähigkeiten, wie bereits oben für das Fachwissen und fachdidaktische Wissen ermittelt, sowie zu Überzeugungen erkennbar (vgl. Voss & Kunter, 2011). Einige andere Studien greifen, anders als die gängige Erfassung über Paper-Pencil-Tests, für die Erfassung auf Unterrichtsvideos zurück, beispielsweise bei Beck et al. (2008), Seidel und Stürmer (2014) oder Oser et al. (2013). Soweit veröffentlicht, weisen die eingesetzten Instrumente eine hohe interne Konsistenz von α = .80 für die gesamte Skala bzw. Werte zwischen α = .54 bis α = .79 für die Subdimensionen ‚Diagnostische Kompetenz‘, ‚Didaktische Kompetenz‘ und ‚Klas‐ senführungskompetenz‘ (vgl. Beck et al., 2008) bzw. EAP-Reliabilitäten zwischen 0.85 und 0.9 auf (vgl. Seidel & Stürmer, 2014). Auch für andere Untersuchungen bei Referendar*innen fallen die Ergebnisse ähnlich aus. 11 11 Aufgrund der Zielgruppe der Arbeit in Form der beruflichen Lehramtsausbildung im hochschulischen

Bereich wird die Erfassung des pädagogischen Wissens bei Referendar*innen an dieser Stelle nicht weiter‐ verfolgt. Für weitere Einblicke siehe beispielsweise Voss et al. (2015).

49

50

Modellierungen von Kompetenzen akademischer Bildungsgänge

Für die Frage nach der Dimensionalisierung in Verbindung mit dem fachdidakti‐ schen Wissen zeigen König et al. (2017) in ihrer Studie, dass fachdidaktisches Wissen und pädagogisches Wissen getrennte Dimensionen sind, auch wenn, wie oben bereits theoretisch erörtert, Zusammenhänge erkennbar sind. Die Korrelation zwischen fachdidaktischem Wissen und pädagogischem Wissen bei Mathematik-Lehrkräften liegt bei r = .64. Die Korrelationen zwischen dem fachdidaktischen Wissen und dem pädagogischen Wissen fallen in den Domänen Deutsch und Englisch dabei ähnlich hoch aus. Für die Untersuchung wurden 889 Lehramtsstudierende aus Hamburg und Köln über alle Schultypen hinweg getestet (vgl. König et al., 2017). Zu ähnlichen Be‐ funden, wenn auch deutlich geringeren Korrelationen, kamen Lenske et al. (2015) im Rahmen der ProwiN-Studie. Bei 452 Lehrkräften aus Nordrhein-Westfalen und Bay‐ ern zeigt sich ebenfalls eine Ausdifferenzierung zwischen fachdidaktischem Wissen und pädagogischem Wissen, welches über das konditional-prozedurale und deklara‐ tive Wissen weiter ausdifferenziert wurde. Die Zusammenhänge der Dimensionen liegen dabei für Physik, Chemie und Mathematik, speziell zwischen dem konditio‐ nal-prozeduralem Wissen und dem fachdidaktischen Wissen zwischen ca. r = .20 und r = .50, wobei die Zusammenhänge für die Domäne Biologie am höchsten ausfallen. Zusammenhänge zwischen dem deklarativen Wissen und dem fachdidaktischen Wissen werden demgegenüber nur für Biologie und Physik signifikant, fallen mit Korrelationen zwischen r = .20 und r = .50 deutlich geringer aus als zwischen konditional-prozeduralem Wissen und fachdidaktischem Wissen. Zwischen dem fachlichen Wissen und den Dimensionen des pädagogischen Wissens sind kaum signifikante Zusammenhänge erkennbar, in Chemie besteht ein geringer Zusammen‐ hang zwischen dem fachlichen Wissen und dem konditional-prozeduralen Wissen, in Physik liegt ein geringer Zusammenhang zwischen dem fachlichen Wissen und dem deklarativen pädagogischen Wissen vor. Es liegen demnach höhere Korrelationen zwischen dem fachdidaktischen Wissen und dem pädagogischen Wissen als zwischen dem Fachwissen und dem pädagogischen Wissen vor (vgl. Lenske et al., 2015) Bei Refrendar*innen liegen Befunde für den Bereich der Mathematik vor. Ähnlich wie in der Studie von Lenske et al. (2015) kommen Voss et al. (2011) zu der Erkenntnis, dass zwischen pädagogischem Wissen und fachdidaktischen Wissen mit r = .42 ein größerer Zusammenhang besteht, als dies zwischen pädagogischem Wissen und Fachwissen (r = .24) der Fall ist (vgl. Voss et al., 2011). Andere Studien kommen bei Referendar*innen im Fach Englisch sogar auf Korrelationen von r = .77 zwischen pädagogischem Wissen und fachdidaktischem Wissen, der Zusammenhang zwischen pädagogischen Wissen und Fachwissen fällt mit r = .40 geringer aus, ist aber, wie die vorangegangen beschriebenen Studien zeigen, erwartungskonform. Dennoch fallen die Zusammenhänge deutlich höher aus als in anderen Domänen oder ver‐ gleichbaren Studien. Die Autoren erklären dies über die Besonderheit, Englisch als Fremdsprache zu unterrichten, die sich beispielsweise von Mathematik durch den geringeren Fachbezug unterscheidet (vgl. König et al., 2017).

Professionelle Handlungskompetenz von Lehrkräften

Grundsätzlich zeigt sich, dass die Forschung zu pädagogischem Wissen von Lehr‐ kräften als Teil der professionellen Handlungskompetenz von Lehrkräften mittler‐ weile immer mehr in den Fokus der Forschung rückt, aber dennoch bezüglich der Ausdifferenzierungen deutliche Unterschiede existieren, die durchaus nachvollzieh‐ bare Elemente enthalten. Aus Sicht der Forschung lässt sich subsummieren, dass die Entwicklung von Testinstrumenten, die der psychometrischen Güte gerecht werden, einen hohen Stellenwert einnimmt, weiterführende Untersuchungen sind überwie‐ gend nur in den Verbindungen der Facetten des Professionswissens zu finden. Aus diesem Grund besteht an dieser Stelle noch ein erhöhter Forschungsbedarf, auch um die theoretischen Überlegungen genauer zu betrachten (vgl. Voss et al., 2015).

51

5

Dimensionierung des berufspädagogischen Wissens

Basierend auf den Ausdifferenzierungen der Kompetenzdimensionen der beruflichen Handlungskompetenz und der professionellen Handlungskompetenz von Lehrkräften kommt die Forschungslücke auf, welche Dimensionierung für die vor‐ liegende Zielgruppe und Untersuchung zugrunde liegt. Dazu muss jedoch gesagt werden, dass eine Fixierung auf eine Dimensionierung nicht ohne weiteres zweck‐ dienlich ist. Beide Ansätze weisen Vor- und Nachteile für die folgende Untersuchung auf. So ist der Bezug auf die berufliche Handlungskompetenz sinnvoll, wenn es sich um eine fachliche Domäne handelt, wie in Form der Berufspädagogik als Fach. Dies wird, wie oben ausführlich in Kapitel 3 erörtert, vor allem bei der Fachkompetenz und der näheren Ausdifferenzierung dieser deutlich. Diese Kompetenzdimensionierung zeigt sich im ursprünglichen Ansatz als zentrales Element des Bildungsauftrags der Berufsschule (vgl. Straka & Macke, 2003) und der Vorgabe in Handreichungen zur Erarbeitung der Rahmenlehrpläne, die durch die Kultusministerkonferenz heraus‐ gegeben wird und in regelmäßigen Abständen Aktualisierungen erhält (vgl. Kultus‐ ministerkonferenz, 2017; vgl. Kultusministerkonferenz, 2018). Für die Zielgruppe der Studierenden der Berufspädagogik, die später einer päd‐ agogischen (Lehr-)Tätigkeit ohne Tätigkeit im Schuldienst nachkommt, kann es deshalb naheliegend sein, von Fachkompetenz, im vorliegenden Fall explizit von der Subdimension des Fachwissens, zu sprechen. Eine klare Limitation weist dieser Ansatz jedoch insofern auf, dass lediglich ein Fachbereich fokussiert wird. Eine Ver‐ knüpfung verschiedener Domänen, wie es bei angehenden Lehrkräften zum Alltag gehört, ist damit jedoch nur sehr eingeschränkt zu erfüllen. Dafür bietet sich eine andere Dimensionierung an. Der Ansatz der professionellen Handlungskompetenz von Lehrkräften ist als zugrundeliegendes Kompetenzmodell deshalb besonders bedeutsam, da bei den Studierenden der Technikpädagogik von Lernenden ausgegangen werden kann, die, neben der pädagogischen Komponente, auch ein Unterrichtsfach lernen. Daraus leitet sich für diese Studierenden das Fachwissen und das fachdidaktische Wissen als Teil des Professionswissens ab. Diese allgemein als zweckdienlich erachtete Ausdif‐

Dimensionierung des berufspädagogischen Wissens

ferenzierung wird ergänzt durch den Miteinbezug allgemeiner pädagogischer Inhalte in Form des pädagogischen Wissens (vgl. Baumert & Kunter, 2006). Dementsprechend muss in der folgenden Untersuchung von berufspädagogi‐ schem Wissen als Fachwissen als Facette der Fachkompetenz, bzw. von berufspäd‐ agogischem Wissen als Teil des Professionswissens von angehenden Lehrkräften an beruflichen Schulen gesprochen werden. Die Erörterungen in Kapitel 3 und Kapitel 4 legen aber nahe, dass teilweise deutliche Gemeinsamkeiten vorliegen, die für die nachfolgende Untersuchung einen Vorteil bieten können. Die zentralste Gemeinsamkeit liegt in der Mehrdimensionalität. Diese findet sich sowohl für das pädagogische Wissen (vgl. Voss et al., 2015) als auch für das Fachwis‐ sen (vgl. Nickolaus & Walker, 2016). Dies ermöglicht eine gemeinsame Betrachtung der Inhalte auf spezifischerer Ebene. Neben der Ausdifferenzierung erweist sich die Erfassung des Wissens aus testtheoretischer Sicht als vergleichbar, sowohl in technischen und wirtschaftswissenschaftlichen Domänen als auch bei angehenden Lehrkräften wird für die Erfassung des Fachwissens bzw. des pädagogischen Wissens in den meisten Fällen auf einen Paper-Pencil-Test zurückgegriffen (vgl. Nickolaus und Walker, 2016; Voss et al., 2015). Weniger eindeutig ist die inhaltliche Ausgestaltung. Während das pädagogische Wissen als Teil des Professionswissens bereits klar inhaltliche Ausdifferenzierungen für pädagogische Studiengänge unterstellt (vgl. König, 2015; vgl. Voss et al., 2015), wurde lange Zeit angenommen, dass pädagogische Kompetenz in Anlehnung an die berufliche Handlungskompetenz in Fach-, Sozial-, Methoden- und Personalkom‐ petenz ausdifferenziert werden kann (vgl. Frey, 2006). Die Ausdifferenzierungen, die in diesem Rahmen für die Fachkompetenzen herangezogen werden, weisen da‐ bei auch klare Übereinstimmungen zu den verschiedenen Ausprägungen bei Voss et al. (2015) auf, beispielsweise die Mehrdimensionalität und Zusammenhänge zu anwendungsbezogenen Subdimensionen, aber auch Inhalte wie Unterrichtsplanung, Unterrichtsgestaltung und Unterrichtsevaluation. In dieser Arbeit erfolgt lediglich die Betrachtung des berufspädagogischen Wissens als Teilfacette der Fachkompetenz Berufspädagogik-Studierender bzw. als Teilfacette des Professionswissens Technikpädagogik-Studierender. Dies geschieht aufgrund der Neuartigkeit des Vorgehens und der Komplexität, die Kompetenz, die im Stu‐ dium erworben wird, als Ganzes zu erfassen. Das Vorgehen orientiert sich dabei an der Leistungsmessung, die von Klieme und Leutner (2006) angeführt wird. Da‐ bei wird, wie in Kapitel 3 näher betrachtet, der Fokus auf die Wissensdimension gelegt. Wie in diesem Kapitel und in Kapitel 4 beschrieben, spielt die Betrachtung des Grundlagenwissens für die Kompetenz und somit die Kompetenzorientierung eine wichtige Rolle. Die Fokussierung auf das Grundlagenwissen geht auch auf die Komplexität der Studiengänge zurück, weshalb eine vollumfängliche Kompe‐ tenzerfassung nicht ohne Weiteres im Rahmen dieser Arbeit möglich wäre. Das Grundlagenwissen wird beispielsweise in Lehrveranstaltungen im späteren Studien‐

53

54

Dimensionierung des berufspädagogischen Wissens

verlauf angewendet und transferiert. Durch verschiedene Studienverläufe benötigt eine längsschnittliche Betrachtung jedoch einen deutlich größeren Betrachtungs‐ rahmen und eine deutlichere Fokussierung auf einen der beiden Studiengänge. Dies verdeutlicht aber auch, wie wichtig es ist, das Grundlagenwissen in Form des berufs‐ pädagogischen Wissens als einen ersten Betrachtungsschritt heranzuziehen, auch weil die zugrundeliegenden Module von allen Studierenden zu Beginn des Studi‐ ums absolviert werden müssen. Dies eröffnet die Forschungslücke, inwiefern das berufspädagogische Wissen für die betrachteten Studiengänge fair in einer Prüfung gemessen werden kann. Nach ersten Vermutungen zur Kompetenzstrukturierung in Anlehnung an das Fachwissen bzw. das pädagogische Wissen folgt die Frage, wie bei einer entstandenen Struktur eine Aussage über die Ausprägungen der Fähigkeiten möglich ist. Hierzu bieten sich Niveaumodellierungen an, die im nachfolgenden Kapitel ausführlich betrachtet werden.

6

Kompetenzniveaumodelle

Im Anschluss an die Bestimmung der Kompetenzstruktur und der Erfassung der Kompetenz über geeignete Items bleibt die Frage offen, auf welchem Niveau die Kompetenzen ausgeprägt sind. Die Bestimmung der Niveaus geschieht überwiegend auf zwei Weisen, zum einen über „(1) die Items selbst, genauer gesagt ihre fachbe‐ zogenen Anforderungen und (2) die im Rahmen der IRT-Skalierung ermittelten Itemschwierigkeiten“ (Rauch & Hartig, 2012, S. 259). Die Methoden unterscheiden sich dadurch, wie die Schwellenwerte ermittelt werden. Denkbar ist eine Festlegung anhand willkürlicher Punkte. Diese können gleiche Abstände oder Mittelwerte er‐ wartbarer Bezugsgruppen, beispielsweise auf Grundlage anderer bestimmter Niveaus sein (vgl. Rauch & Hartig, 2012). Denkbar ist aber auch, anhand der Notenstu‐ fen Grenzen festzulegen, oder bei bestimmten auffälligen Stellen Schwellenpunkte festzusetzen. Anhand aussagekräftiger Items um den Schwellenpunkt erlaubt sich eine Festlegung der Skalenniveaus bezüglich des Inhalts. Diese post-hoc-Analyse orientiert sich an den Arbeiten von Beaton und Allen (1992). Alternativ können a priori Annahmen über die Items getroffen werden. Dieser Schritt geschieht dabei bereits im Prozess der Itemgenerierung und beinhaltet Überlegungen, was ein Item schwer werden lässt. Durch diese festgelegten Merkmale können jeweils die Niveaus beschrieben werden (vgl. Rauch & Hartig, 2012).

6.1

Verfahren nach Beaton und Allen (1992)

Das wahrscheinlich gängigste Verfahren basiert auf dem Gedanken anhand von Items die sich um einen Schwellenpunkt bewegen, eine inhaltliche Beschreibung der Schwellen vorzunehmen und damit die Hürde zu ermitteln, welche Fähigkeiten nötig sind, um die nächst höhere Schwelle zu erreichen. Die Schwellen, die im Ge‐ gensatz zu kategorialen Skalen einen anderen Informationsgrad aufweisen, erweitern somit die Aussagekraft der Daten. Der Gedanke, dass Items um die Schwelle zur Beschreibung des jeweiligen Niveaus herangezogen werden, ist die Grundidee des sogenannten scale anchoring. Die Ankerpunkte müssen dabei nach Beaton und Allen

56

Kompetenzniveaumodelle

(1992) bewusst bestimmt werden, um die höchste Aussagekraft zu generieren. Dabei ist wichtig, dass bessere Lernende höhere Niveaus erreichen und Items der unteren Schwellenpunkte mit einer höheren Wahrscheinlichkeit beantworten können. Die‐ sem Gedanken folgend sollen Niveaus die jeweiligen zusätzlichen Hürden benennen. Dabei müssen mindestens ordinale Skalen vorliegen, alternativ können aber auch plausible values herangezogen werden (vgl. Beaton & Allen, 1992). Die Autoren heben hervor, dass dieses Verfahren nicht zwingend zum Erfolg füh‐ ren muss. Beispielsweise können Mehrdimensionalitäten, ungeeignete oder geringe Itemauswahl oder auch Fehler in der theoretisch erwarteten Wissensstruktur dazu führen, dass keine Niveaus bestimmt werden können (vgl. Beaton & Allen, 1992). Die Bestimmung der Ankerpunkte wird vergleichsweise willkürlich festgelegt. In der zugrundeliegenden Studie wurden in 50-Punkte-Schritten auf einer 500-Punk‐ te-Skala Niveaus festgesetzt, wobei im oberen und unteren Bereich Ankerpunkte ausgelassen wurden. Alternativ wären Mittelwerte ausgewählter Gruppen oder Per‐ zentile möglich, solange die Bestimmung der Ankerpunkte kritisch durchdacht und hinterfragt wird (vgl. Beaton & Allen, 1992). Es wird zwischen einer direkten scale anchoring Methode und einer glättenden scale anchoring Methode zur Bestimmung der Niveaus unterschieden. Aufgrund der Zielsetzung der Arbeit wird der Fokus auf das direkte scale anchoring gelegt. Im Fall der direkten scale anchoring Methode werden die Items bestimmt, indem bedacht wird, welche Items von einer Mehrheit der Probanden auf dem jeweiligen Niveau gelöst werden können, die von den meisten Probanden auf einem unteren Niveau jedoch nicht beantwortet werden können. Für das unterste Niveau wird dabei angesetzt, dass lediglich die Mehrheit, also eine imaginäre Person dieser Stelle mit einer Lösungswahrscheinlichkeit von 50 %, in der Lage ist, eine korrekte Antwort zu geben. Im Rahmen der NAEP-Studie wurde der Wert der überwiegenden Mehrheit dabei auf 80 % der Lernenden festgesetzt (vgl. Beaton & Allen, 1992), da diese Schwelle jedoch als sehr streng erachtet wird, werden alternativ auch Grenzen von 65 % herangezogen. Dabei muss für die Items die jeweilige Schwierigkeit vorliegen und es wird empfohlen, dass die Items dichotom sind (vgl. Beaton & Allen, 1992). Zur Festlegung der Schwellen werden die Werte der Lernenden um die Anker‐ punkte näher betrachtet und daraus die Bereiche bestimmt. Anschließend werden die prozentualen Verteilungen der Studierenden der jeweiligen Niveaus ermittelt und betrachtet. Daran anschließend werden für jeden Ankerpunkt die Items ermittelt, die in die Betrachtung anhand der Fähigkeitsschätzungen der Probanden an den jewei‐ ligen Schwellenwerten als geeignet für die Betrachtung sind, beispielsweise mit der 65 %-Lösungsgrenze. Danach werden die Items ermittelt, in denen die Probanden des Niveaus zwar eine hohe Lösungswahrscheinlichkeit aufweisen, die Probanden auf darunterliegenden Stufen jedoch eine zu geringe Lösungswahrscheinlichkeit haben. Der Grenzwert wird hier mit 50 % angegeben. Dennoch muss zudem betrachtet werden, welche Items real für die Beschreibung geeignet sind. Anschließend wird auf

Verfahren nach Hartig (2007)

Grundlage dieser Items eine Generalisierung der Aussagen der jeweiligen Niveaus vorgenommen. Diese inhaltliche Interpretation sollte dabei durch Fachexpert*in‐ nen geschehen, die im Anschluss das entstandene Niveau kritisch evaluieren und abgleichen, ob es zu den Items passt (vgl. Beaton & Allen, 1992). Eine Unterscheidung wird dabei in den Ergebnissen zwischen der Abstraktion der inhaltlichen Anforderung und der zugrunde gelegten Hypothesen und im Vorfeld überlegter Formulierungen vorgenommen (vgl. Hartig, 2007). Besonders häufig wird das Verfahren herangezogen, wenn der bestehende Forschungsstand ein hypo‐ thesengeleitetes Vorgehen nur sehr schwer möglich macht (vgl. Artelt et al., 2001).

6.2

Verfahren nach Hartig (2007)

Ein alternatives Verfahren zeigt Hartig (2007) auf. Dazu werden a priori aus den Kompetenzmodellen systematisch Elemente abgeleitet, die eine Aufgabe schwer machen. Diese schwierigkeitsbestimmenden Aufgabenmerkmale sind dabei un‐ terschiedlich differenziert für verschiedene Aufgaben vorzufinden. Das zugrun‐ deliegende Ziel, eine Kompetenz in verschiedenen Ausprägungen bzw. Niveaus beschreibbar zu machen, soll über im Vorfeld getroffene Hypothesen erfüllt wer‐ den. Dazu können neben inhaltlichen Aspekten auch aufgabenspezifische Merkmale herangezogen werden (vgl. Hartig, 2007). Es sind beispielhaft folgende Merkmale denkbar: – „Zum Lösen der Aufgabe auszuführende kognitive Operationen (z. B. Suche von Informationen beim Lesen eines Textes); – Die Schwierigkeit hinsichtlich spezifischer inhaltlicher Kriterien (z. B. Wortschatz eines Lesetextes); – Spezifische Phänomene im jeweiligen Leistungsbereich (z. B. bilden von Konjunk‐ tiv-Form in einem Grammatiktest); – Aufgabenformate (z. B. geschlossene vs. offene Antworten)“ (Hartig, 2007, S. 88) Der Test wird anhand der fundiert ausgewählten Merkmale anschließend von Ex‐ pert*innen bewertet und je nach möglicher Ausprägung kodiert und ausgewertet. Die dadurch a priori gewonnen Informationen werden mittels einer linearen Regres‐ sionsanalyse auf die realen Testaufgaben übertragen und ausgewertet. Im Rahmen der zugrundeliegenden Studie wurde eine Itemschwierigkeits-Schwelle von 65 % angesetzt. Über das in diesem Verfahren berechnete R2 kann der Anteil der Auf‐ gabenmerkmale an der Unterschiedlichkeit der Aufgabenschwierigkeit ermittelt werden, wobei ein möglichst hohes R2 erreicht werden sollte. Die Schwellen werden anschließend über die Punkte bestimmt, an denen die Berücksichtigung verschiede‐ ner theoretisch und empirisch festgelegter schwierigkeitsbestimmender Merkmale zu einer möglichen Niveaubestimmung führen kann (vgl. Hartig, 2007).

57

58

Kompetenzniveaumodelle

Die Beschreibung der Kompetenzniveaus geschieht anhand der Merkmale, die die höchste Erklärungs- und Vorhersagekraft der Unterschiede für die jeweilige Schwelle aufweisen. Darüber hinaus werden weitere Merkmale herangezogen, die im vorherigen Prozess, beispielsweise durch hohe Korrelation mit anderen schwie‐ rigkeitsbestimmenden Merkmalen, bisher ausgeblendet wurden. Daraus lassen sich beschreibende Niveaus bestimmen (vgl. Hartig, 2007). Grenzen weist das Verfahren in der Umsetzbarkeit, der Bestimmung der schwie‐ rigkeitsbestimmenden Merkmale und einer Limitation bezüglich der Vorhersage durch den Miteinbezug und Wechselwirkung der schwierigkeitsbestimmenden Merkmale auf. Zudem ist die Generalisierung der Einflüsse nicht gewährleistet und muss für jeden Test separiert untersucht werden (vgl. Hartig, 2007). Als Vorteil zeigt sich jedoch, dass die schwierigkeitsbestimmenden Merkmale zur Prüfung der Validität herangezogen werden können. Das hängt damit zusammen, dass durch Hypothesen Annahmen zu den benötigten Anforderungen getroffen werden (vgl. Rauch & Hartig, 2012). Weitere Vorteile liegen in der erhofften theoriegeleiteten Itemkonstruktion und einer vermuteten sinnvolleren Interpretation der Niveaus (vgl. Schumann & Eberle, 2011).

6.3

Befundlage zur Niveaumodellierung

Beide Verfahren finden in verschiedenen Bereichen zahlreiche Anwendungen. Die Post-Hoc-Analyse in Anlehnung an Beaton und Allen (1992) findet im allgemein‐ bildenden Bereich neben der NAEP-Studie (vgl. Forsyth, 1991), anhand derer das Verfahren beschrieben wurde, beispielsweise im Rahmen der TIMSS-Studie (vgl. Wendt et al., 2016) Anwendung. Die Schwellen wurden im Rahmen von Inter‐ views mit Expert*innen festgelegt (vgl. Baumert et al., 2000). In neueren Arbeiten, vor allem im Rahmen internationaler Vergleichsstudien, wird mittlerweile auf das Verfahren nach Hartig (2007) zurückgegriffen. Neben der DESI-Studie, die die Grundlage für das Vorgehen ausarbeitet (vgl. Beck & Klieme, 2007), kann hierbei auf die früheren Erhebungen der PISA-Studie verwiesen werden (vgl. Deutsches PISAKonsortium, 2001). Auch im Bereich der Sprachniveaus werden diese Verfahren angewendet (vgl. beispielsweise Trim et al., 2009). Im berufsbildenden Bereich sind ebenfalls beide Verfahren eingesetzt. Beispiel‐ haft für das Verfahren nach Beaton und Allen (1992) sei hier das ASCOT-Projekt genannt. Für das Fachwissen bei Elektroniker*innen für Automatisierungstechnik wurden dort ebenfalls die Lösungswahrscheinlichkeiten von 65 % sowie 50 % für die zu beschreibende sowie die darunterliegenden Niveaus herangezogen. Die Ni‐ veaubeschreibung geschieht anschließend im Rückgriff auf den Rahmenlehrplan des Ausbildungsberufs unter Miteinbezug verschiedener Taxonomiestufen (vgl. van Waveren & Nickolaus, 2015). Im Projekt OEKOMA, das sich mit ökonomischen

Befundlage zur Niveaumodellierung

Kompetenzen befasst, wurde im Gegensatz dazu das Verfahren nach Hartig (2007) herangezogen. Schwierigkeitsbestimmend ist dabei der Grad der Modellierungsleis‐ tung, der kognitive Verarbeitungsprozess in Form einer dreistufigen Taxonomie, die Offenheit der Lösungen sowie das Abrufen von Definitionen oder Gesetzmäßigkei‐ ten (vgl. Schumann & Eberle, 2011). Bei Kfz-Mechatroniker*innen wird im Vergleich dazu für die Dimension Mechanik das Aufgabenformat als schwierigkeitsbestim‐ mendes Merkmal mit dem größten Effekt ermittelt. Zudem spielt die Komplexität als zentraler Prädiktor eine bedeutende Rolle. Insgesamt können damit 25 % der Aufgabenschwierigkeit erklärt werden, wobei hier konträr zum intendierten Ansatz die Merkmale post-hoc generiert wurden (vgl. Behrendt et al., 2017). Dadurch wird die Unterschiedlichkeit der Merkmale deutlich. Für beide Vorgehen lassen sich dar‐ über hinaus für verschiedene Domänen mit unterschiedlichen Dimensionen weitere Niveaumodellierungen finden, beispielsweise bei Bankkaufleuten (vgl. Rosendahl & Straka, 2011) oder Bürokaufleuten (vgl. Seeber, 2008). Im Hochschulbereich fällt die Befundlage deutlich geringer aus. Speziell im Be‐ reich des Lehramtsstudiums lagen lange Zeit keine Befunde vor (vgl. Schaper, 2009), mittlerweile gibt es erste Ansätze zu Niveaumodellen im Hochschulbereich. Im Be‐ reich der Ingenieurwissenschaften sei hierzu beispielsweise das Projekt KOM@ING genannt, das für den Bereich der Technischen Mechanik auf Basis schwierigkeits‐ bestimmender Merkmale Kompetenzniveaus für die Domänen Statik und Dynamik bestimmt (vgl. Dammann, 2016). Für das fachdidaktische Wissen im Bereich des Lehramt-Physik-Studiums beschreiben beispielsweise Schiering et al. (2019) mit‐ hilfe einer qualitativen Inhaltsbetrachtung der Items geeignete Niveaus. Auch für den Bereich der Physik liegen bereits erste Modelle für Studierende der Fach‐ wissenschaften (vgl. Woitkowski, 2019) sowie dem Fachwissen bei angehenden Physik-Lehrkräften vor (vgl. Woitkowski et al., 2011). Bezüglich des Pädagogischen Wissens liegen m.W. bisher keine Befunde bezüglich Niveaumodellen und möglicher schwierigkeitsbestimmender Merkmale vor, Untersuchungen auf Basis der Kompe‐ tenzstrukturen (vgl. beispielsweise Voss et al., 2015) stehen bisher aus. Speziell das Verfahren, das Hartig (2007) empfiehlt, ist im Hochschulbereich jedoch an einigen Stellen nur limitiert einzusetzen (vgl. Just et al., 2021). Ana‐ lysen zur Berufspädagogik an der Universität Stuttgart zeigen für die Dimension der Didaktik beruflicher Bildung eine vergleichsweise geringe Varianzaufklärung und die Problematik, dass gängige schwierigkeitsbestimmende Merkmale für die Beschreibung eines großen Bereichs der Fähigkeitsskala nicht geeignet sind, gerade im unteren Bereich der Skala sind die gängigen Merkmale hierbei nicht angebracht. Es liegt die Vermutung nahe, dass subjektive Merkmale gerade im unteren Leistungs‐ bereich zur Erklärung beitragen könnten. Dies zeigt sich auch bei beispielhaften Betrachtungen der anderen hier analysierten Skalen (vgl. Just et al., 2021). Auch für den Bereich der Konstruktionslehre und der Volkswirtschaftslehre zeigt sich, dass der Ansatz schwierigkeitsbestimmender Merkmale im Hochschulbereich deut‐

59

60

Kompetenzniveaumodelle

liche Limitationen aufweist. Es scheint denkbar, dass dies mit der Komplexität und Spezifität der schriftlichen Prüfungen im Hochschulbereich einhergeht. Für eine umfängliche Beschreibung der vorliegenden Niveaus bietet sich dieses Verfahren damit nur in geringem Maße an (vgl. Just et al., 2021). Für die vorliegende Arbeit wird deshalb das Verfahren in Anlehnung an Beaton und Allen (1992) als Grundlage der Niveaubeschreibung herangezogen. Dies wirft für die vorliegende Arbeit die Forschungslücke auf, ob für Studierende der Berufspädagogik an der Universität Stuttgart Niveaus zur Beschreibung des berufspädagogischen Wissens ermittelt und beschrieben werden können. Nach Überlegungen zur vorliegenden Kompetenzstruktur und zu Möglichkeiten der Niveaumodellierung, um die Kompetenzen inhaltlich zu beschreiben, rückt die Erfassung der Kompetenz in den Fokus der Arbeit. Nachfolgend wird aus diesem Grund ein Ansatz betrachtet, die Messung des berufspädagogischen Wissens über bestehende Modulabschlussprüfungen vorzunehmen. Dazu wird die Überlegung verfolgt, mit Prüfungen grundsätzlich bereits Messinstrumente zur Erfassung der Fachkompetenz im Einsatz zu haben. Ob dieser Gedanke zutreffend ist, wird im nächsten Kapitel näher betrachtet.

7

Kompetenzorientiertes Prüfen

Wie bereits oben angeführt wurde, ist die Kompetenzorientierung ein zentrales Element, das die Hochschulen im Rahmen des Bologna-Prozesses in ihre Gestal‐ tungsprozesse miteinbeziehen sollen. Auch wenn in Anlehnung an die oberen Kapitel bereits ein Kompetenzverständnis für die vorliegende Arbeit begründet ausgewählt werden konnte, ist noch offen, wie diese Forderung im realen Lehr- und Prüfungs‐ kontext an den Hochschulen umgesetzt werden kann. Es wird versucht, die Kompetenz im hochschulischen Kontext durch verschie‐ dene Ausprägungen der Lernziele zu ermitteln. Dies ist beispielsweise Bestandteil der Handreichung an der Universität Stuttgart, um Kompetenzorientierung durch die Lernziele zu gewährleisten (vgl. Universität Stuttgart, 2018). Dieses Konzept ist auch an anderen Hochschulen zu finden, beispielsweise an der Friedrich-A‐ lexander-Universität Erlangen-Nürnberg, die auch deutlich macht, dass Lernziele als eine Operationalisierung für die Kompetenzen zu verstehen sind (vgl. Fried‐ rich-Alexander-Universität Nürnberg-Erlangen, 2015) Ähnlich ist dies auch an der Universität Würzburg (vgl. Julius-Maximilians-Universität Würzburg, 2013). Eine Ausdifferenzierung der Kompetenz anhand einer Kompetenzstruktur in Form einer inhaltlichen Analyse und einem zu erreichenden Kompetenzniveau entspricht dabei den Gedanken des Kompetenzverständnisses nach Hartig und Klieme (2006). Dieser Ansatz spielt auch für die Hochschulbildung eine zentrale Rolle und begründet die Formulierung der Lernziele (vgl. Schaper & Hilkenmeier, 2013). Doch wie werden die Lernziele letztlich in Inhalte transformiert? Um eine Um‐ setzung der kompetenzorientierten Lernziele zu ermöglichen wird nachfolgend der Ansatz des Constructive Alignment und die sich daraus ergebenden Zusammenhänge zwischen den einzelnen Elementen näher betrachtet.

62

Kompetenzorientiertes Prüfen

7.1

Constructive Alignment

Der Ansatz des Constructive Alignment (CA), der auf die Arbeiten von Biggs und Tang (2011) zurückgeht, erhebt den Anspruch, die kompetenzorientierten Lear‐ ning Outcomes des Bologna-Rahmens in die Lehr- und Veranstaltungsgestaltung zu übertragen und die Gewährleistung der gesetzten Aufträge der Hochschule zu ermöglichen (vgl. Biggs & Tang, 2011). Der theoretisch generierte Ansatz des CA hat in der Praxis, sowohl national als auch international, breiten Zuspruch als Umset‐ zungshilfe der Kompetenzorientierung erfahren und ist heutzutage im Rahmen des kompetenzorientierten Lehrens und Prüfens im Hochschulkontext bereichsweise fest verankert (vgl. Reinmann, 2016). Mit dem Ansatz von Biggs und Tang (2011) wird versucht, eine inhaltliche Ver‐ bindung zwischen zentralen Elementen der Hochschullehre herzustellen. So ist zum einen das Lehr-Lernziel, die Lehr-Lernaktivität in Form der Lehrveranstaltung und die Prüfung als abschließendes Element zentral. Die Elemente stehen in jeweiliger Interaktion miteinander. Wichtig ist dabei, dass die verschiedenen Elemente nur in einem zentralen Abstimmungsprozess zu einer guten Hochschullehre führen können (vgl. Baumert & May, 2013). Letztlich geht es darum, dass die Lehrkraft eine Lernsituation bzw. Lernaktivität veranlasst, die die genannten Lernziele erreichbar macht. Diese Ziele sollen anschlie‐ ßend messbar gemacht werden. Dies geschieht in den Prüfungen, die den Anspruch erheben, individuell festzustellen, ob die Studierenden durch die Lehr-Lernsituation die Lernziele erreichen konnten (vgl. Biggs, 2003). Die Messbarmachung wird dabei als die Erfassung der erlangten Kompetenzen verstanden.

7.1.1

Lernziele

Durch die Lernziele, auch learning-outcomes genannt, wird festgesetzt, was die Studie‐ renden am Ende einer klar gefassten Lerneinheit erreicht haben sollen. In Anlehnung an gängige Kompetenzverständnisse umfassen diese Lernziele hier Wissen, Fähigkei‐ ten, Fertigkeiten und Einstellungen (vgl. Bachmann, 2014). Wie oben angesprochen, ist es für die kompetenzorientierte Hochschullehre nach dem Ansatz des CA wichtig, im Vorfeld Lernziele zu beschreiben, sowohl auf inhaltlicher Ebene als auch auf Ebene von Niveaustufen, beispielsweise in Anlehnung an Bloom (1969). Wichtig ist die Empfehlung, sich auf wenige Lernziele zu fokussieren, diese aber präziser zu formulieren. Die Autoren des Ansatzes empfehlen dabei fünf bis sechs Lern‐ ziele. Diese klar fokussierten Lernziele sollen eine Hilfestellung bieten, um sowohl die Lehr-Lernmethoden als auch die Prüfung daraus abzuleiten (vgl. Biggs, 2003; vgl. Biggs und Tang, 2011).

Constructive Alignment

7.1.2

Prüfungen

Auf der Ebene der Prüfungen geht es darum, geeignete Prüfungen zu finden, die Aussagen darüber zulassen, ob die Studierenden das angesetzte Lernziel erreicht haben. Dazu müssen zu Beginn die Prüfungsformen festgelegt werden, die zu den jeweiligen Lernzielen passen und, falls für die Lernziele keine passende Prüfungsform gefunden werden kann, gegebenenfalls die Lernziele angepasst werden. Wenn die Studierenden über die Lernziele informiert sind, was zu Beginn der Lehreinheit geschehen sollte, sind sowohl für die Lehrenden als auch die Lernenden die Ziele der Prüfung in der jeweiligen Form bekannt (vgl. Biggs & Tang, 2011). Die gewählte Prüfungsform spielt hierbei keine Rolle, solange es das Wissen, die Fähigkeiten, Fertigkeiten und Einstellungen erfasst, die die Lernziele festlegen (vgl. Baumert & May, 2013). Wichtiger ist vielmehr, dass die Leistungsbeurteilung nicht nur eine reine Vergabe von Noten in den Fokus nimmt, sondern die Leistung wertschätzend erfasst, um daraus auch weitere Lernprozesse in späteren Lerneinheiten zu ermög‐ lichen (vgl. Biggs, 2003). Inwiefern dies durch Prüfungen und Noten gewährleistet werden kann, bleibt an dieser Stelle durch die Autor*innen offen.

7.1.3

Lehr-Lernsituationen

Für die Wahl und Gestaltung der Lehr-Lernsituationen werden die festgelegten Lernziele herangezogen. Je nach Ziel ist eine andere Methodenwahl nötig. So sind beispielsweise für Anwendungswissen Gruppenarbeiten oder problemorientierte Methoden empfehlenswert. Die Lehr-Lernsituation ist dabei jedoch auch durch äußere Faktoren wie die Gruppengröße bestimmt (vgl. Baumert und May, 2013; vgl. Biggs, 2003; vgl. Biggs und Tang, 2011). Präferiert wird dabei durch Biggs und Tang (2011) immer ein konstruktivistischer Ansatz, was sich auch in den durch die Autor*innen genannten Beispielmethoden zeigt (vgl. Biggs & Tang, 2011).

7.1.4

Erweiterungen und Verknüpfungen der Elemente

CA als solches hat in der Praxis durchaus Bekanntheit erlangt, dennoch ist speziell ein Element regelmäßig als Optimierungsempfehlung genannt, das in der originalen Version nicht in den Fokus rückt. Dies ist der Aspekt des Feedbacks. Feedback durch die Lernenden wird vor allem für die Lehr-Lernsituationen als relevant angesehen, aber auch für die Lernzielgestaltung und die Prüfungen kann Feedback bedeutsam werden. Durch die Verknüpfung der Elemente werden sowohl die Lernziele, Prüfun‐ gen und der Lehr-Lernprozesse im Prozess gleichermaßen relevant, um zu prüfen, ob der Ansatz korrekt umgesetzt wird und an welcher Stelle Optimierungsprozesse

63

64

Kompetenzorientiertes Prüfen

nötig sind (vgl. Gallagher, 2017). Wie die Lernziele, die Lehr-Lernsituationen und die Prüfungen zusammenhängen, ist nicht einheitlich geklärt und unterscheidet sich je nach Anwendungskontext und Autor. Besonders im Rahmen eines Gestaltungs‐ prozesses wird ein sequenzieller Aufbau empfohlen. Ein weiterer Ansatz beinhaltet, die Lernziele als Basis zu formulieren und das weitere Vorgehen daran aufzubauen. Durch die Lernziele werden anschließend die Kriterien der Prüfungen herausgearbeitet. Im Anschluss an eine dafür als geeig‐ net empfundene Prüfung werden Lernaktivitäten ausgewählt, die nötig sind, damit die Lernenden dazu befähigt werden, die Prüfungskriterien zu erfüllen. Durch die Erfüllung der Prüfungskriterien sind durch die Verknüpfung zwischen Prüfungen und Lernzielen auch die Lernziele durch die Studierenden als eingelöst anzusehen. Das Vorgehen unterstützt nach Biggs und Tang (2011) die Nachvollziehbarkeit. Dieser Aspekt wäre besonders dann kritisch, wenn Lernziele und Prüfungen nicht zusammenpassen. Die Prüfungen sollten aus diesem Grund auch das höchste zu erreichende Niveau der Lernziele erfassen (vgl. Biggs und Tang, 2011; vgl. Higgins et al., 2017). Aus einer analytischen Perspektive der Optmierbarkeit des angewendeten CA-An‐ satzes ist die oben angesprochene dreieckige Ausarbeitung nach Meinung von Wildt und Wildt (2011) sinnvoller. Dabei werden die Elemente kohärent aufeinander bezogen. Auch hier liegt der Fokus darauf, dass eine Umsetzbarkeit der Elemente gewährleistet sein muss. „Zusammenhänge ergeben sich, wenn die in diesen drei Bezügen enthaltenen Situationen mit ihren Strukturmerkmalen und/oder Aufga‐ benstellungen in Beziehung gesetzt werden“ (Wildt & Wildt, 2011, S. 10). Eine Ähnlichkeit zum Berufsalltag soll durch diese Verknüpfung ermöglicht werden (vgl. Wildt & Wildt, 2011). Speziell für die kritische Auseinandersetzung mit einer der Situationen ermöglicht sich dadurch eine umfängliche Möglichkeit der Betrachtung, da in Anlehnung an dieses Modell eine komplette Eigenständigkeit einzelner Aspekte nicht gegeben ist und die weiteren Elemente als überprüfendes Element der Ergeb‐ nisse herangezogen werden können. Da es sich bei der vorliegenden Untersuchung um eine Untersuchung bestehender Veranstaltungen mit vorhandenen Modullernzielen und Prüfungen handelt, ist die analytische Betrachtung des CA zielführender als der gestaltungsorientierte Zugang. Besonders die Verknüpfung zwischen den Lernzielen und den Prüfungen ist m.E. von zentraler Bedeutung. Offen bleibt, trotz des Verweises auf kompetenzorientierte Lernziele sowie kompetenzorientierte Prüfungen, wie diese real gestaltet werden können. Dies steht im Mittelpunkt der folgenden Überlegungen.

Kompetenzerfassung über Prüfungen

7.2

Kompetenzerfassung über Prüfungen

Die Kompetenzerfassung im Rahmen schriftlicher sowie mündlicher Prüfungen stellt ein bisher kaum wahrgenommenes Arbeitsfeld dar. Zwar werden beispielsweise in der beruflichen Bildung Abschlussprüfungen als Qualitätssicherungsinstrument wahrgenommen, die die berufliche Handlungskompetenz am Ende der Ausbildung erfassen sollen. Kritisiert wird dabei die bisherige Unklarheit bezüglich der Gestal‐ tung von kompetenzorientierten Prüfungen und die Frage, was real gemessen wird (vgl. Severing, 2011; vgl. Weiß, 2011). Die Note, die den Grad der Kompetenz abbilden soll, wird somit zum Maß der Kompetenz. Prüfungen und der sich daraus ergebende Leistungsnachweis im berufsbildenden Bereich sollen: – „Umfang und Güte beruflicher Handlungsfähigkeit dokumentieren, – Kompetenzen für die Bewältigung bekannter wie auch neuartiger Anforderungen offenlegen, – eine prognostische Validität haben und ein Indikator für den Berufserfolg sein, – auf der Basis standardisierter Anforderungen zu bundesweit vergleichbaren Ergeb‐ nissen führen, – pragmatisch und ohne unnötigen Aufwand handhabbar sein“ (Weiß, 2011, S. 37) Der Autor sieht diese Anforderungen divergent und sehr hoch angesetzt. Losgelöst von der politischen Facette bleibt die Frage, ob Prüfungen Kompetenzen erfassen können und welche Kompetenzen wie erfasst werden können. Vor allem der Mit‐ einbezug praktischer Elemente kann dabei durchaus komplex sein. Ein Ansatz lässt sich auf die bereits dargestellte Erfassung des Fachwissens zurückführen, indem zum Beispiel Simulationsaufgaben herangezogen werden (vgl. Abele und Gschwendtner, 2010; vgl. Abele, 2014; vgl. Seeber und Nickolaus, 2010). Auch die Bestimmung der Leistungsniveaus durch Prüfungen ist bisher aus forschungstechnischer Sicht kaum näher untersucht. Weiß (2011) empfiehlt dabei den Rückgriff auf Sachverständige o.Ä. als Expert*innen zur Generierung der Niveaus. Als Hauptgrund für die defizitäre Forschungslage bezüglich des Prüfungswesens in der beruflichen Bildung wird der schwierige Zugang genannt. Die bisherige Kom‐ petenzforschung orientiert sich weitestgehend an klassischen Kompetenztests, um Kompetenzstrukturen und -modelle zu ermitteln (vgl. Seeber & Nickolaus, 2010) wie dies beispielsweise bereits in verschiedenen technischen Domänen ausführlich durchgeführt wurde (vgl. beispielsweise Behrendt et al., 2017; vgl. van Waveren und Nickolaus, 2015; vgl. Walker et al., 2015). Untersuchungen der Prüfungen in der beruflichen Bildung, speziell bezüglich der Fragestellungen zu (1) den tatsächlich geprüften Kompetenzen, (2) Interpretation und Optimierung der Prüfungsergeb‐ nisse, (3) Qualität der Prüfungen und Prüfungsformen, (4) einer Vereinheitlichung der Prüfungen und (5) einer objektiven Bewertung sind bisher kaum untersucht

65

66

Kompetenzorientiertes Prüfen

(vgl. Seeber & Nickolaus, 2010). Einzelne Projekte befassen sich zwar grundsätzlich mit dem Thema, die bisherigen Untersuchungen sind aber noch weitestgehend am Anfang (vgl. Lorig et al., 2014). Somit bleibt bisher unbeantwortet, ob es sich bei Prüfungen überhaupt um ein Instrument der Kompetenzerfassung handeln kann und ob klassische Prüfungsformen überhaupt geeignet sind, einzelne Facetten der Kompetenz, wie das Fachwissen, zu messen (vgl. Euler, 2011). Sowohl im allgemein- als auch berufsbildenden Bereich ist durch einheitliche Bil‐ dungsstandards eine Grundlage geschaffen, einen Vergleich der Abschlussprüfungen durchzuführen. Die zugrunde gelegte Kompetenzorientierung ist im allgemeinbil‐ denden Bereich vergleichbar mit dem berufsbildenden Bereich. Es treten jedoch auch die oben genannten bisherigen Anforderungen, Bedenken und Probleme auf. Zwar ist mit dem Institut zur Qualitätsentwicklung im Bildungswesen (IQB) ein Institut mit der Überprüfung und Normierung der Bildungsstandards beauftragt und darüber eine Zusammenarbeit mit dem PISA-Konsortium im Bereich der Mathema‐ tik veranlasst, dennoch fehlt auch hier die Erfassung der angesetzten Kompetenzen auf Ebene der Abschlussprüfungen (vgl. Kultusministerkonferenz, 2004). Fundierte Vergleiche, speziell bei Abiturprüfungen, liegen m.W. nicht vor. Leistungsvergleiche finden sich, im Rückgriff auf Bildungsstandards und Ländervergleiche, speziell im Rahmen der Untersuchungen TIMSS (vgl. Wendt et al., 2016) und PISA (vgl. Reiss et al., 2019). Gestaltungs- und Umsetzungshilfen von Leistungstests finden sich bei Pellegrino et al. (2001). Die hier erwähnten Untersuchungen erheben die Daten jedoch losgelöst von den Abschlussprüfungen (vgl. Reiss et al., 2019; vgl. Wendt et al., 2016), wodurch dieses Vorgehen für die vorliegende Untersuchung nicht näher betrachtet wird. Doch wie sieht die Situation im Hochschulbereich aus? Welche Erkenntnisse zur Kompetenzorientierung der Prüfungen und zum empirischen Nutzen der Prüfung zur Kompetenzmessung liegen vor?

7.2.1

Kompetenzorientierte Prüfungen im Hochschulkontext

Die Gestaltung kompetenzorientierter Prüfungen und zugrundeliegender Gedanken sowie zentrale, zu berücksichtigende Rahmenbedingungen ist für eine kompetenz‐ orientierte Hochschulbildung bedeutend. Diese Situation deckt sich teilweise mit den Gestaltungsüberlegungen, die für den berufsbildenden und allgemeinbildenden Bereich der schulischen Bildung gelten, bisher aber eher unbeachtet blieben. Die Prüfungsgestaltung orientiert sich im Hochschulbereich zumindest program‐ matisch stark an den bereits oben genannten Aspekten der Employability bzw. Kompetenzorientierung, die durch den Bologna-Prozess an den Hochschulen Ein‐ zug gehalten hat und dem Ansatz des CA, der für die Gestaltung der Lehre einen wichtigen Ansatz darstellen kann.

Kompetenzerfassung über Prüfungen

Damit einhergehend wird im Hochschulkontext an Prüfungen eine Vielzahl kom‐ plexer Anforderungen gestellt. Zum einen geht es nicht nur um eine reine Wissens‐ reproduktion, sondern auch um Handlungszusammenhänge und Reflexion sowie Bewertung von Problemstellungen, die im späteren Berufsalltag bedeutsam sind. Zum anderen lässt sich aus dem CA-Ansatz ein enger Bezug zu den Lernzielen herstellen, die die zu erwerbenden Kompetenzen definieren (vgl. HRK-Nexus, 2015; vgl. Schaper und Hilkenmeier, 2013). Da im Gegensatz zur schulischen Bildung im Bereich der Hochschulbildung eine erhöhte Selbststeuerung vorausgesetzt wird, ist Transparenz bezüglich der Lernziele und den zu erwartenden Ergebnissen laut der Hochschulrektorenkonferenz von großer Bedeutung. In diesem Rahmen sprechen die Autor*innen auch von einem erhöhten Aufwand im Vergleich zu klassischen Prüfungen, was auch als Kritikpunkt gesehen werden kann (vgl. HRK-Nexus, 2015; vgl. Schaper und Hilkenmeier, 2013). Dem CA-Ansatz und dem sich daraus ergebenden erhöhten Aufwand folgend verändern sich auch die Funktionen der Prüfungen, wenn diese kompetenzorientiert gestaltet werden. Die Eigenverantwortlichkeit, die kompetenzorientiertes Lernen unterstützen soll, benötigt auch neue Veranstaltungs- und Prüfungsformen. Nicht nur die summative Punktzahl, auch Leistungsrückmeldungen sind für die Kompe‐ tenzentwicklung wichtig, um im Lernprozess positive Lerneffekte zu erzielen (vgl. HRK-Nexus, 2015). Dazu kommt jedoch, dass es im Kontrast zu Lehrkräften für Dozierende an Hochschulen weniger Angebote für die zielgerichtete Gestaltung von Leistungsrückmeldungen über die Noten hinaus gibt. Nach dem Kompetenz‐ verständnis der vorliegenden Arbeit ist es nötig, sich für die Erfassung des berufs‐ pädagogischen Wissens die Frage zu stellen, welche Prüfungsformen angebracht sind und welche kompetenzorientierten Aufgaben und Formate zielführend umzu‐ setzen sind. Gerade bezüglich situations- und prozessorientierten Prüfungsformen ist die Umsetzbarkeit kritisch zu sehen (vgl. Schaper, Reis et al., 2012). Zentral für kompetenzorientierte Prüfungen sind in jedem Fall die psychologischen Gütekrite‐ rien Objektivität, Reliabilität und Validität. Für die Gestaltung von Prüfungen mit dementsprechender Güte wird auf Ansätze der Kompetenzmessung verwiesen (vgl. Schaper, Reis et al., 2012). Dabei wird betont, dass neben den Aspekten der Güte auch Fragen nach der Angemessenheit und der Praktikabilität zu berücksichtigen sind (vgl. Schaper, Reis et al., 2012). Bewertungs- und Beurteilungskriterien als wichtiges Element rücken neben der Gestaltung und Durchführung der Prüfungsformen im kompetenzorientierten Prü‐ fen als wichtige Punkte in den Fokus. Bedeutsam ist dabei, bereits im Vorfeld Kriterien zu entwickeln, um diese zur Bewertung der Leistungen heranzuziehen. Eine Schwierigkeit liegt in der Festlegung der Kriterien, vor allem für personale und soziale Kompetenzen, die, im Gegensatz zu Fachwissen, deutlich schwerer zu erfassen sind und eine größere Differenzierung aufweisen. Auch die Abgrenzung der Subdimensionen erweist sich bei diesen Kompetenzen als komplex. Eine Möglichkeit

67

68

Kompetenzorientiertes Prüfen

ist dabei, das beobachtete Verhalten schriftlich festzuhalten, bevor dieses bewertet wird. Untersuchungen, inwiefern die jeweiligen Prüfungsformen in der realen Umset‐ zung eine geeignete Güte aufweisen, sind m.W. bisher kaum vorhanden. Allgemein wird der Fokus der Forschung bisher, speziell in der beruflichen Bildung, auf die Fachkompetenz gelegt. Untersuchungen zur Sozial- und Personalkompetenz sind, aufgrund der Komplexität der Dimensionen, eher selten (vgl. Nickolaus, 2014a).

7.2.2

Betrachtung ausgewählter Prüfungsformen

Schaper und Hilkenmeier (2013) geben einen Überblick über mögliche Prüfungsfor‐ men, die für die Erfassung der verschiedenen Kompetenzfacetten in der Ausdifferen‐ zierung in Anlehnung an die Erkenntnisse der Bildungsforschung und der beruflichen Bildung (vgl. Sekretariat der Kultusministerkonferenz, 2018) zielführend sind. Be‐ tont wird dabei explizit, dass die Fragestellung von Prüfungsaufgaben als solches eine weitere zentrale Rolle dabei spielt, welche Kompetenzen damit erfasst werden können und nicht das Prüfungsformat allein die Erfassung festlegt (vgl. Schaper & Hilkenmeier, 2013). Die Autoren Schaper und Hilkenmeier (2013) zeigen, dass es eine Vielzahl von Prüfungsformen mit unterschiedlichen Zielen und verschiedenen Graden der Kom‐ plexität und des Aufwandes gibt. Dadurch, dass in den untersuchten Studiengängen im Schwerpunkt Berufspädagogik an der Universität Stuttgart nur eine Auswahl der Prüfungsformen regelmäßiger eingesetzt wird, wird der Blick auf die eingesetzten Formen (schriftliche Prüfungen, mündliche Prüfungen, Referate und mündliche Präsentationen, schriftliche Hausarbeiten und Qualifikationsarbeiten) gelegt und die Vor- und Nachteile sowie der geeignete Einsatz dieser Formate nachfolgend näher beleuchtet. Die eingesetzten Prüfungsformen des Studiengangs kommen auch deshalb zum Einsatz, um über den gesamten Zeitraum des Studiums hinweg eine Überprüfung der umfänglichen Kompetenz bestmöglich anzustreben. Schriftliche Prüfungen erfassen in erster Linie Fach- und Methodenkompetenz. Deutlich spezifischer erfassen schriftliche Prüfungen das Wissen über Fachinhalte. Dabei sind verschiedene Aufgabenformate regelmäßig im Einsatz. Gerade Multi‐ ple-Choice-Aufgaben werden vielfach für die Erfassung des Fachwissens herange‐ zogen. Kurzfragen und offene Fragen orientieren sich in der Regel ebenfalls an der Erfassung des Fachwissens. Je nach Fragestellung kann auch die Anwendung des Fachwissens mit schriftlichen Prüfungen gemessen werden. Wichtig für die Erfassung von Lernzielen auf komplexeren Taxonomiestufen in Anlehnung an Bloom (1969) ist dabei ein Anwendungs- und Realitätsbezug in den Aufgaben, wie es in Essays oder Analysen der Fall ist. Die Gestaltung der Aufgaben sollte sich an den Lernzielen orientieren und möglichst pilotiert werden (vgl. Schaper & Hilkenmeier, 2013). Ob in der Praxis jedoch Pilotierungen zum Einsatz kommen ist anzuzweifeln.

Kompetenzerfassung über Prüfungen

Mündliche Prüfungen legen den Fokus nach Schaper und Hilkenmeier (2013) ebenfalls auf Fach- und Methodenkompetenzen, weisen aber eine höhere Flexibilität auf, die mit einer möglichen Reduktion der Güte einhergehen kann. Der Vorteil liegt im Vergleich zu schriftlichen Prüfungen jedoch in einer besseren Erfassung der Durchdringungstiefe. Die Forderung der Vergleichbarkeit ist in flexiblen mündlichen Prüfungen kaum gegeben, weshalb eine gute Vorbereitung unvermeidbar ist. Der Prüfling ist dabei in einer Situation mit erhöhtem Stress und benötigt deshalb ausge‐ prägte Fähigkeiten im Bereich der Kommunikation. Die Lernenden haben dennoch Möglichkeiten, die Prüfungssituation mitzugestalten (vgl. Schaper & Hilkenmeier, 2013). Referate bieten einen großen Mitbestimmungsspielraum für die Lernenden, die sich selbstständig mit verschiedenen Themen auseinandersetzen. In Gruppenprä‐ sentationen spielt zudem die soziale Kompetenz eine Rolle. Offen bleibt häufig die Operationalisierung der Beurteilung und eine Transparenz bezüglich der Arbeitspro‐ zesse und Interaktion der Gruppenteilnehmenden (vgl. Schaper & Hilkenmeier, 2013). Hausarbeiten und Qualifikationsarbeiten prüfen Fach-, Methoden- und in ho‐ hem Maße Selbstkompetenzen der Lernenden. Diese Prüfungsform bietet zudem die Möglichkeit, die Anwendung des Fachwissens zu prüfen. Inwiefern objektiv, reliabel und valide geprüft wird, bleibt häufig offen, weshalb klare Bewertungskriterien bei Hausarbeiten teilweise bedeutsamer werden als es bei den anderen Prüfungsformen bereits der Fall ist (vgl. Schaper & Hilkenmeier, 2013). Die Untersuchung von Prüfungen im Hochschulkontext sind bisher vor allem theoretischer Natur und an einem Ideal der Veranstaltungs-, Lernziel- und Prü‐ fungsgestaltung in Anlehnung an den CA-Ansatz entwickelt. Offen bleibt bisher die Frage, ob kompetenzorientierte Prüfungsformen in der Praxis bereits häufiger zum Einsatz kommen und ob die Ideen und Vorschläge, die im Rahmen der Hochschul‐ rektorenkonferenz vorgegeben werden (vgl. Hochschulrektorenkonferenz, 2016; vgl. Schaper, Reis et al., 2012; vgl. Schaper, 2018), wirklich eine Umsetzung in der Praxis der Hochschullehre erleben. Für die vorliegende Arbeit spielt besonders die schriftliche Prüfung eine wichtige Rolle. Diese ist geeignet, Wissen zu prüfen (vgl. Schaper & Hilkenmeier, 2013).

7.2.3

Umsetzung kompetenzorientierten Prüfens in der Praxis

Obwohl die oben beschriebene Übersicht gut darlegt, dass auch komplexere Prü‐ fungsformen deutliche Vorteile für die Erfassung der Kompetenz im Sinne eines um‐ fänglichen Sinngehalts haben, was dem Employability-Anspruch der Hochschulen gerecht werden würde, ist fraglich, ob es wirklich zu einer Umsetzung komplexe‐ rer kompetenzorientierter Prüfungsformen mit Blick auf die Kompetenzerfassung

69

70

Kompetenzorientiertes Prüfen

kommt. Dies ist möglicherweise auch durch die Rahmenbedingungen im hochschu‐ lischen Kontext bedingt, wie eine Untersuchung von Prenzel et al. (2012) vermuten lässt. So zeigt sich bei einer Erhebung bei N = 4615 Studierenden an der Technischen Universität München, dass besonders im Bachelor noch immer schriftliche Prüfungs‐ formen als zentrales Element der Modulabschlussprüfungen herangezogen werden, was auch auf die große Menge an zu prüfenden Leistungen zurückzuführen ist. Im Master lässt der Anteil jedoch nach, dennoch entspricht diese Verteilung dem Stand, der vor dem Bologna-Prozess und der Einführung des zweistufigen Studiensystems üblich war (vgl. Prenzel et al., 2012). 1 Deutlich wird bei dieser Erhebung auch die hohe Prüfungsdichte von über 6 Prüfungen pro Semester, wobei die Menge an Prüfungen zwischen vier und acht Prüfungen pro Semester schwankt. Diese Verteilung wird unter Berücksichtigung des Studiengrades noch deutlicher. Während die meisten Prüfungen im Bachelor geschrieben werden (m = 6.9), werden in Diplom-Studiengängen (m = 4.5) und Masterstudiengängen (m = 5.3) im betrachteten Semester vergleichsweise weniger Prüfungen abgelegt. Für die Analyse, ob mittlerweile eine Veränderung der klassi‐ schen Prüfungsformate eintritt, ist es bedeutsam, die eingesetzten Prüfungsformen näher zu untersuchen. So zeigt sich, dass mit 90 % noch immer die schriftliche Prüfung die meisteingesetzte Prüfungsform darstellt, 10 % der Prüfungen werden mündlich durchgeführt. Je nach Studiengang sind auch hier deutliche Unterschiede im Antwortformat erkennbar. Während im Mittel 68 % der Antworten offen sind und nur 11 % der Prüfungen Multiple Choice Formate verwenden (21 % der Prü‐ fungen kombinieren beide Formen), sind in medizinischen Studiengängen fast alle Prüfungen im MC-Format. Somit sind in der Vielzahl der klassischen Prüfungen, die schriftlich stattfinden, offene Antwortformate das meistgenutzte Format (vgl. Prenzel et al., 2012). Knapp 75 % der Prüfungen sind zwischen 90 und 120 Minuten lang, knapp 15 % sind mit 60 Minuten angesetzt, längere und kürzere Prüfungen stellen in der schriftlichen Form eher die Ausnahme dar. Mündliche Prüfungen sind durchschnittlich 30 Minuten lang (vgl. Prenzel et al., 2012; vgl. Schindler, 2016). Hausarbeiten, Berichte und andere, alternative Prüfungsformen, stellen noch im‐ mer den kleinsten Teil der Prüfungsformen dar, wobei ein Drittel der Befragten bisher nur klassische, schriftliche Prüfungen besucht hat. Im Schnitt werden knapp 2 dieser alternativen Prüfungsformen pro Semester von den Studierenden abgelegt. Am häufigsten sind dabei, nachvollziehbar an der TU München, beispielsweise La‐ borberichte. Häufig sind auch Referate und Präsentationen mit fast drei Prüfungen dieser Form pro Semester an der Fakultät Architektur und mehr als einem Referat pro 1 Der überwiegende Teil der Befragten sind männlich und im Bachelor, was der Verteilung an der TU

München entspricht. In den verschiedenen Fakultäten unterscheiden sich die Rückmeldequoten enorm (vgl. Prenzel et al., 2012).

Kompetenzerfassung über Prüfungen

Semester an der School of Education. Andere Formen der Leistungsbeurteilungen sind eher selten und nur in einzelnen Fällen im Einsatz (vgl. Prenzel et al., 2012). Auch wenn die Studierenden die Prüfungssituationen, speziell bei schriftlichen Prüfungen, als belastend wahrnehmen, beginnen die Studierenden überwiegend erst zwei bis vier Wochen vor der Prüfung mit den Vorbereitungen, 30 % bereiteten sich jedoch erst weniger als eine Woche vorher auf die Prüfung vor. Der Zeitauf‐ wand für Prüfungsleistungen, sowohl klassisch als auch alternativ, verteilt sich auf die Kategorien 0 - 30 Stunden, 31 - 60 Stunden und mehr als 61 Stunden in ihrer Häufigkeit ähnlich häufig. Der Zeitaufwand hängt auch mit der Komplexität und den zu erzielenden Credit Points zusammen. Zur Prüfungsvorbereitung werden, im Hinblick auf schriftliche Prüfungen als zentrales Format nachvollziehbar, zu fast 50 % Skripte, beispielsweise Folien, das Vorlesungsskript und Mitschriften als zentrales Vorbereitungsmaterial verwendet. Altprüfungen dienen 30 % der Studierenden als unterstützendes Medium, (zusätzliche) Literatur wird nur von 9 % der Studierenden herangezogen (vgl. Prenzel et al., 2012; vgl. Schindler, 2016). Lehrende gestalten und prüfen im Schnitt drei Prüfungen pro Semester, auch hier ist die Prüfung fast ausschließlich schriftlich. Insgesamt sind 71 % der Prüfungen mit 60 oder mehr Studierenden, was eine deutliche Belastung darstellt und deshalb von Lehrkräften die Bitte der Unterstützung bei der Prüfungserstellung laut wird. Das hängt auch damit zusammen, dass Möglichkeiten und Grenzen alternativer Prüfungsformen teilweise nicht bekannt sind. Lehrkräfte orientieren sich bei der Prüfungsgestaltung stark an der Vorlesung, den behandelten Foliensätzen und den eingesetzten Skripten (vgl. Prenzel et al., 2012; vgl. Schindler, 2016). Die Erstellung selbst erfolgt kurz vor dem Prüfungstermin (vgl. Prenzel et al., 2012; vgl. Schindler, 2016). Dies ist in Kontrast zum Ansatz des Constructive Ali‐ gnment zu sehen, der eine frühzeitige Gestaltung und Planung aller zentralen Ge‐ staltungselemente, namentlich Lernziele, Veranstaltungen und Prüfungen, vorsieht, um eine Verbindung dieser Elemente zu gewährleisten (vgl. Wildt & Wildt, 2011). In der Regel werden für die Prüfungserstellung Aufgaben aus den zur Verfügung stehenden Materialien abgeleitet. Vernachlässigt werden bei diesem Vorgehen die Fokussierung auf Kompetenzorientierung und „Maßnahmen zur Einhaltung der Gütekriterien der pädagogischen Diagnostik“ (Schindler, 2016, F. 18) sind nur bei einem geringen Teil der Lehrenden in der Prüfungsgestaltung berücksichtigt. Fallbetrachtungen zeigen, dass die Lernziele überwiegend konzeptionale Ziele im Anschluss an die jeweiligen Module beinhalten, in einem der dargestellten Module zu 75 %, während die Prüfungen lediglich überwiegend deklaratives Wissen abprüfen. Ein anderes Beispielmodul weist zu 50 % konzeptionelle Lernziele auf, zu je 25 % entsprechen die Lernziele deklarativen oder prozeduralen Zielen. Die Prüfung prüft jedoch nur zu ca. 42 % konzeptionelle Ziele, während zu 54 % deklaratives Wis‐ sen geprüft wird und kaum prozedurales Wissen erfasst wird (vgl. Schindler, 2015; vgl. Schindler, 2016). Insgesamt zeigt sich, dass die meisten Modulbeschreibungen

71

72

Kompetenzorientiertes Prüfen

konzeptionelle Fähigkeiten und Fertigkeiten als Lernziele benennen, was sich nicht mit den jeweils geprüften Fähigkeiten und Fertigkeiten deckt. Dies verdeutlicht auch den Bedarf, die Qualität der Lernziele näher zu betrachten und die Passung zwischen Lernzielen und den eingesetzten Prüfungen kritisch zu analysieren (vgl. Schindler, 2015). Eine unterstützte Betreuung in der Gestaltung von Lehr-Lernzie‐ len und Prüfungen führt dabei zu einer veränderten Prüfungspraxis, was teilweise erlaubt, diese beiden Elemente besser aufeinander auszurichten (vgl. Schindler, 2015; vgl. Schindler, 2016). Inwiefern solche Programme in der Praxis existieren und wie diese zu einer Veränderung der Lehre führen, muss jedoch erst noch näher untersucht werden. Vorerst bleibt eine große Diskrepanz zwischen Lernzielen und Prüfungen zu erkennen, was für die Anwendung des CA-Ansatzes eine deutliche Hürde darstellt. Die Problematik dahinter zeigt sich auch bei der Fragestellung, inwiefern Modul‐ beschreibungen, die die Lernziele beinhalten, und Prüfungen zueinander in Verbin‐ dung stehen. Eine Untersuchung von S, tef˘anic˘a (2013) macht dabei deutlich, dass für den Bereich der höheren Mathematik auch über mehrere Hochschulstandorte hin‐ weg deutliche Diskrepanzen zwischen Lernzielen und Prüfungsaufgaben bestehen. So zeigt sich zwar, dass die Inhalte der Lernziele in den verschiedenen Prüfungen wiedergefunden werden können, jedoch sind die Anforderungsniveaus, die laut den Lernzielen angesetzt sind, nicht immer mit den Prüfungen übereinstimmend. So werden die Ansprüche in den Lernzielen der Modulbeschreibungen deutlich höher angesetzt, als die Aufgaben der Prüfungen diese erfassen. Dennoch decken sich die Inhalte und Ansprüche in den Prüfungen über die Standorte hinweg. Die Lernziele scheinen dabei eher der Motivation der Studierenden zu dienen sowie als Legitima‐ tionsfunktion in den zugeordneten Studiengängen zu fungieren und sollten weniger als eine reale Abbildung der Erwartungen und umsetzbaren Leistungsniveaus im Abschluss der jeweiligen Module gesehen werden (vgl. S, tef˘anic˘a, 2013). Abschließend lässt sich sagen, dass die Befundlage zu Prüfungen im Hochschul‐ kontext noch vergleichsweise gering untersucht ist. Erste Analysen zeigen dabei eine Diskrepanz zwischen Lernzielen und den Anforderungen, die in den Prüfungen gestellt werden. Grundsätzlich gilt, dass schriftliche Prüfungen weiterhin das zentrale Element bleiben und auch im Rahmen des Employability-Ansatzes und veränderten Ansprüchen an Prüfungen, beispielsweise bezüglich des kompetenzorientierten Prü‐ fens (vgl. Hochschulrektorenkonferenz, 2016; vgl. HRK-Nexus, 2015; vgl. Schaper und Hilkenmeier, 2013) gerade für die Erfassung des Fachwissens und die Basis‐ kompetenzen ein funktionales und nachvollziehbares Prüfungsformat bleiben (vgl. Schaper & Hilkenmeier, 2013). In hohem Maße wird die Güte und die Überprüfung der Gütekriterien als zentral für kompetenzorientierte Prüfungsformen erachtet, losgelöst, ob es sich um klassische oder alternative Formen handelt (vgl. HRK-Nexus, 2015; vgl. Schaper und Hilkenmeier, 2013; vgl. Schindler, 2015; vgl. Schindler, 2016). Unklar ist, inwiefern die eingesetzten Hochschulprüfungen die Gütekriterien erfüllen

Betrachtung der schriftlichen Prüfungen als Testinstrument

und somit objektiv, reliabel und valide ausfallen. Dies wäre für die weiterführende Untersuchung aber von großer Bedeutung.

7.3

Betrachtung der schriftlichen Prüfungen als Testinstrument

Für die Erfassung des berufspädagogischen Wissens wird im Rahmen der Arbeit kein eigener Test entwickelt, der auf Basis des theoretischen Modells generiert wird und in Rückgriff auf gängige Ansätze der Testkonstruktion, beispielsweise nach Moosbrug‐ ger und Kelava (2020) oder Lienert und Raatz (1998) zurückgreift. Stattdessen soll untersucht werden, ob bestehende Prüfungen in Form von schriftlichen Prüfungen für die Erfassung des berufspädagogischen Wissens geeignet sind. Dafür kann theo‐ retisch betrachtet werden, ob die zentralen Aspekte der Test- und Itementwicklung in Anlehnung an die Autoren erfüllt werden. Beide Werke gehen auf die zentralen Elemente ein, zudem ist diese Ausdifferenzierung möglicher Bedingungen guter wis‐ senschaftlicher Tests bei weiteren Autor*innen zu finden, beispielsweise bei Bühner (2011) oder speziell auf Fragebögen beispielsweise bei Raab-Steiner und Benesch (2018). Aufgrund der zielgerichteten Betrachtung wird sich nachfolgend an Jonkisz et al. (2012) orientiert. Die Autoren nennen die „Testplanung [,] Aufgabentypen und Antwortformate für die Itemkonstruktion [,] Fehlerquellen bei der Itembeantwor‐ tung [,] Gesichtspunkte der Itemformulierung [sowie] Erstellen einer vorläufigen Testversion“ (Jonkisz et al., 2012, S. 27) als zentrale Elemente der Planung und Entwicklung von Tests. Durch die Prüfungssituation werden nicht alle Punkte erfüllt, dennoch sind Vergleiche grundsätzlich denkbar. Doch lässt sich eine Prüfung, die entwickelt wurde, um das Modul zu prüfen, gleich behandeln wie ein wissenschaftlich entwickelter Test? Dazu wird nachfolgend die Kategorisierung von Jonkisz et al. (2012) herangezogen und betrachtet, ob und in wieweit die Prüfungen den Anforderungen genügen.

7.3.1

Testplanung

Für die Testplanung differenzieren Jonkisz et al. (2012) nach Merkmalsarten, Test‐ arten, Geltungsbereich und Zielgruppe, struktureller Testaufbau, Testlänge und Testzeit sowie Testadministration aus (vgl. Jonkisz et al., 2012). Bei Merkmalsarten wird zwischen quantitativen und qualitativen Merkmalen, unidimensionalen oder multidimensionalen Merkmalen sowie zeitlich stabile oder zeitlich veränderbare Merkmale unterschieden. Die Frage nach quantitativen oder qualitativen Merkmalen hat einen Einfluss auf das zu wählende Skalenniveau. Während sich qualitative Merkmale bei einer

73

74

Kompetenzorientiertes Prüfen

möglichen Einordnung in unterschiedliche Kategorien zuordnen lassen und lediglich über Nominalskalen erfasst werden können, sind quantitative Merkmale dadurch ausgezeichnet, dass darüber hinaus eine Abstufung in den Merkmalen erkennbar ist. Für das Skalenniveau sind dabei „Messungen auf Ordinal-, Intervall- oder auch Verhältnisskalennivau“ (Jonkisz et al., 2012, S. 28) möglich. Die Differenzierung nach unidimensionalen und multidimensionalen Merkmalen betrachtet, ob das Gesamtmerkmal durch eines oder mehrere Teilmerkmale erfasst wird (vgl. Jonkisz et al., 2012). Bezüglich der zeitlichen Stabilität unterscheiden Kelava und Schermelleh-Engel (2012) zwischen stabilen Merkmalen (Trait) und zeitlich veränderbaren Merkmalen (State). Persönlichkeitsmerkmale sind dabei beispielsweise Trait-Merkmale und verändern sich über die Zeit lediglich minimal (vgl. Jonkisz et al., 2012). Bezüglich der Testarten unterscheiden Jonkisz et al. (2012) zwischen Leistungs‐ tests, Persönlichkeitstests, objektiven Persönlichkeitstests, projektiven Verfahren und apparativen Tests (vgl. Jonkisz et al., 2012). Durch den Prüfungszuschnitt und die Fokussierung auf die kognitive Leistungsfähigkeit kommt im vorliegenden Fall lediglich ein Leistungstest in Frage, wodurch die weiteren Testarten nicht weiter betrachtet werden. Ziel von Leistungstests ist dabei, dass die maximale Leistung und Fähigkeit in Testaufgaben durch die getesteten Personen gezeigt wird. Es wird davon ausgegangen, dass nicht die Testmotivation, sondern die reale Leistung erfasst wird (vgl. Jonkisz et al., 2012). Durch den Prüfungscharakter wird davon ausgegangen, dass durch das Ziel des Bestehens Motivation gegeben sein kann (vgl. Schmalt & Sokolowski, 2006) und deshalb die reale Leistung gemessen wird. Eine weitere Differenzierung liegt zwischen Speed- und Powertests vor. Während Speedtests einfache Fragen stellen, die jedoch in einem zeitlich engen Rahmen gestellt werden und eine Beschränkung dadurch gegeben ist, dass nicht alle Fragen innerhalb des Zeitfensters beantwortet werden können, kommen bei Powertests sowohl einfache als auch komplexe Fragen zum Einsatz, wobei die Leistung über das erreichte Schwie‐ rigkeitsniveau festgestellt wird (vgl. Jonkisz et al., 2012). Als dritte Möglichkeit wird mittlerweile die Speededness betrachtet. Hierbei geht es, im Gegensatz zu Speedoder Powertests um eine Mischform. So ist ein grundsätzliches Zeitfenster gegeben, das dazu führt, dass ab einem gewissen Zeitpunkt ein Powertest zu einem Speedtest wechseln kann. Diese aufkommende Zeitknappheit kann einen Einfluss auf die ge‐ zeigte Leistung zum Ende eines Tests haben (vgl. Williams, 2017). Diese Variante und testspezifische Implikationen sind bisher vergleichsweise gering untersucht und werden für diese Arbeit deshalb nicht weiter in den Blick genommen. Der Geltungsbereich und die Zielgruppe sind ebenfalls für die Testplanung be‐ deutsam. Der Geltungsbereich betrachtet dabei die Validität (vgl. Jonkisz et al., 2012). Diese wird neben der in Kapitel 1 betrachteten inhaltlichen Validität nach‐ folgend ebenfalls ausführlicher betrachtet. Die Zielgruppe als Personenkreis, über den Aussagen getroffen werden ist ebenfalls bei der Planung der Untersuchung

Betrachtung der schriftlichen Prüfungen als Testinstrument

zu berücksichtigen (vgl. Jonkisz et al., 2012). Diese ist durch die Prüfung und das Themenfeld gegeben. Aus der Testart, dem Geltungsbereich und der Zielgruppe lässt sich der struk‐ turelle Testaufbau ableiten. Klassischerweise bestehen Tests aus einer Vielzahl an Testitems, die reliabel und valide das jeweilige Merkmal erfassen. Bei multidimensio‐ naler Erfassung bieten sich verschiedene Tests je Merkmal an, wobei die Erstellung der Subtests als unidimensionale Merkmale naheliegend ist (vgl. Jonkisz et al., 2012). Die Testlänge und Testzeit wurde im Rahmen des Speedtests bereits angespro‐ chen. Jonkisz et al. (2012) ergänzen hierbei, dass eine Testlänge angemessen zur Erfassung des jeweiligen Merkmals sein muss. Zwar präzisieren mehr Items die Erfassung der Merkmale, dennoch ist ab einem gewissen Punkt der Mehrwert der Reliabilität kaum noch vorhanden, die Gefahr des Genauigkeitsverlusts durch un‐ passende Variablen sogar eher gegeben. Zudem hat die Testlänge einen Einfluss auf die Motivation (vgl. Jonkisz et al., 2012). Die Testadministration umfasst die Frage, in welcher Form die Items zur Bear‐ beitung ausgegeben werden. Unterschieden wird zwischen Paper-Pencil-Tests und computergestützten Tests. Zudem unterscheidet man zwischen Einzel- und Grup‐ pentestung. Während Einzeltestungen eine weitreichendere Erfassung ermöglichen, ist eine Gruppentestung durch die Erfassung einer größeren Menge an Teilnehmen‐ den als ökonomischer zu erachten (vgl. Jonkisz et al., 2012).

7.3.2

Aufgabentypen und Antwortformate

Die Aufgaben und Items sind als Repräsentant der latenten Konstrukte anzusehen und je nach Formulierung und Typ unterschiedlich zu beantworten. Man unterschei‐ det zwischen dem Aufgabenstamm, der die jeweilige Fragestellung beinhaltet, und dem Antwortformat. Speziell im Punkt der Antwortformate existiert dabei eine Aus‐ wahl an verschiedenen Formaten, die je nach Einsatz die Leistung unterschiedlich erfassen. Es wird differenziert nach freien, gebundenen und atypischen Aufgabenfor‐ maten. Freie Aufgaben lassen sich zudem in Kurzaufsatz- und Ergänzungsaufgaben ausdifferenzieren, Aufgaben mit gebundenem Antwortformat in Ordnungsaufgaben, Auswahlaufgaben und Beurteilungsaufgaben. Diese können jeweils zusätzlich wei‐ ter ausdifferenziert werden. Aufgaben mit atypischem Antwortformat stellen eine Kombination aus freiem Antwortformat und gebundenem Antwortformat dar (vgl. Jonkisz et al., 2012). Kurzaufsatzaufgaben fordern von den Probanden, eine ausgewählte Thematik in Form von Kurzaufsätzen zu beantworten, wobei der Umfang von einem Wort bis zu mehreren Seiten reichen kann. Eine Beschränkung, beispielsweise durch die Anzahl der Wörter, ist ratsam. Diese Fragetypen benötigen die eigene Wiedergabe des Wissens, was den Zufallsfaktor der Antwort minimalisiert. Gerade auch für an‐

75

76

Kompetenzorientiertes Prüfen

wendungsbezogene Fragestellungen bietet sich dieses Antwortformat an. Jedoch ist die Bearbeitung sowohl für die prüfende Person als auch den Prüfling mit einem erhöhten Aufwand verbunden. Zudem kann die Auswertungsobjektivität kritisch betrachtet werden. Diese ist besonders bei mehrdeutigen Antworten eingeschränkt. Aus diesem Grund ist ein Codebuch mit klaren Beurteilungskriterien angebracht (vgl. Jonkisz et al., 2012). Auswahlaufgaben kommen nur vereinzelt in einer der eingesetzten Prüfungen vor. Hierbei handelt es sich um dichotome Aufgaben. Dabei haben die Studierenden die Wahl zwischen zwei Antwortalternativen, wobei zwischen ja und nein gewählt werden muss, ob eine Aussage korrekt ist. Dies ist eine der häufiger eingesetzten Formen der dichotomen Aufgaben. Der Vorteil liegt in der Ökonomie, besonders bei der Bearbeitung und der Korrektur, da lediglich eine Antwort korrekt sein kann. Zudem ist die Lösungszeit der Proband*innen aufgrund der dichotomen Antwort‐ möglichkeit als kurz anzusehen. Jedoch ist die Ratewahrscheinlichkeit in diesem Fall mit 50 % sehr hoch, was dieses Antwortformat sehr anfällig für Messfehler macht. Zudem ist, im Vergleich zu Kurzaufsatzaufgaben mit dem Fokus auf Reproduktion und Eigenleistung, das Leistungsniveau häufig lediglich in Form der Wiedererken‐ nung gegeben (vgl. Jonkisz et al., 2012).

7.3.3

Itemformulierung

Neben dem Aufgabentyp ist die Formulierung der Items von zentraler Bedeutung, auch vor dem Hintergrund der Erfassung von Leistungen. Je nach Fragetyp ist eine andere Kategorisierung miteinzubeziehen. Das Antwortverhalten variiert beispiels‐ weise danach, ob Fragen hypothetisch oder biographieorientiert gestellt sind. Auch der Abstraktionsgrad ist in diesem Kontext anzuführen. Speziell für schriftliche Prüfungen ist jedoch am bedeutsamsten, dass eine sprachliche Verständlichkeit gegeben ist. Dadurch kann eine Fehlinterpretation vermieden sowie Verzerrungen durch das Leseverständnis geringgehalten werden. Eine Gewährleistung bieten dabei beispielsweise klare Satzkonstruktionen, Vermeidung von Abkürzungen sowie die Vermeidung von Fachbegriffen, die für die Zielgruppe nicht vorausgesetzt werden können (vgl. Jonkisz et al., 2012). 2 Neben der sprachlichen Verständlichkeit ist auch der Inhalt eindeutig zu for‐ mulieren, damit alle Beteiligten ein identisches Verständnis der Frage und daraus folgend der zu gebenden Antwort haben. Dazu sollten Universalausdrücke ver‐ 2 Weitere, zu berücksichtigende Aspekte werden aufgrund des Zuschnitts der Arbeit an dieser Stelle nicht

weiter vertieft. Dies gilt auch für weitere Faktoren der Itemformulierung. Das ist auch dadurch begründet, dass der zusätzliche Fokus auf klassische Fragebögen hier teilweise eine weitreichendere Betrachtung darstellt, als es für die Arbeit von Bedeutung ist.

Fazit zu kompetenzorientiertem Prüfen im Hochschulkontext

mieden werden, komplexe und unbekannte Begrifflichkeiten definiert werden und Mehrdeutigkeiten vermieden werden. Besonders die Mehrdeutigkeit kann durch‐ aus situationsbedingt sein und einen Einfluss auf die Reliabilität und Validität der Tests haben. Items haben desweiteren die Anforderung, die Verknüpfung mehrerer Aussagen zu vermeiden, sofern es nicht explizit gewünscht ist. Auch darf kein unter‐ schiedliches Vorwissen einen Einfluss auf die Beantwortung der Frage haben (vgl. Jonkisz et al., 2012). Abschließend kann demnach gesagt werden, dass einige Aspekte, die als zentrale Gedanken, aber auch Bedingungen, die an Tests und Fragebögen gestellt werden, durchaus auch bei Prüfungen anzuwenden sind. Dies ist erwartungskonform, weil schriftliche Prüfungen teilweise Bezüge zu Leistungstests herstellen und deutliche Gemeinsamkeiten in Struktur und Aufbau gewollt sind, um geeignete Prüfungen zu gestalten. Dies betrifft insbesondere Aspekte wie die Gütekriterien, die besonders im Rahmen des kompetenzorientierten Prüfens (vgl. Schaper, Reis et al., 2012) vergleichbare Anforderungen wie an Tests (vgl. Bühner, 2011; vgl. Lienert und Raatz, 1998; vgl. Moosbrugger und Kelava, 2012) stellen. Dennoch muss berück‐ sichtigt werden, dass durch die Zielsetzung nicht ohne eine nähere Betrachtung davon ausgegangen werden kann, dass Prüfungen automatisch mit empirischen Tests vergleichbar sind. Wie der Erfüllungsgrad für die betrachteten Prüfungen ausfällt, wird in Kapitel 2.2 näher betrachtet.

7.4

Fazit zu kompetenzorientiertem Prüfen im Hochschulkontext

Es liegt eine Forschungslücke vor, ob sich Modulabschlussprüfungen zur Erfassung des berufspädagogischen Wissens als eine Kompetenzfacette eignen. Für die vorlie‐ gende Arbeit lässt sich theoretisch daraus ableiten, dass sich schriftliche Prüfungen als geeignetes Instrument zur Erfassung des berufspädagogischen Wissens eignen. Speziell Schaper und Hilkenmeier (2013) betonen dabei, dass diese Prüfungsformen für den gesamten Studienverlauf nicht als einzige Prüfungen vorkommen sollten, um eine umfängliche Kompetenzerfassung zu gewährleisten. Eine Schwierigkeit ergibt sich bei anderen Formaten jedoch in der Einlösung der Gütekriterien. Speziell für mündliche Prüfungen, Referate und Hausarbeiten, aber auch für Abschlussarbei‐ ten, ist die Objektivität, auch über mehrere prüfende Personen hinweg, nur schwer zu gewährleisten, vergleichbar sieht dies auch für die Reliabilität und Validität aus (vgl. Schaper & Hilkenmeier, 2013). Nachfolgend wird eine Fokussierung auf das berufspädagogische Wissen als Grundlagenwissen vorgenommen, weshalb sich die schriftlichen Prüfungen, die die Modulabschlussprüfungen der Grundlagenmodule an der Universität Stuttgart darstellen (vgl. Universität Stuttgart, 2019a), für Analy‐ sen anbieten.

77

8

Curriculare Referenzsysteme

Nach einer Betrachtung theoretischer Ansätze zur Kompetenzmessung durch Prü‐ fungen bleibt die Frage zu klären, welche Inhalte überhaupt geprüft werden sollen. Eine Orientierung hierfür bilden Curricula. Diese sind vor allem aus der Schulbildung ein Begriff, sowohl im allgemeinbildenden Bereich in Form von Bildungsplänen (vgl. Asmussen et al., 2016) als auch im Berufsbildungsbereich in Form von Rahmenlehr‐ plänen und Ausbildungsordnungen (vgl. Sekretariat der Kultusministerkonferenz, 2018). Zudem existieren in der Berufsbildung für manche Fächer Rahmenricht‐ linien, die losgelöst vom Rahmenlehrplan nicht nur für einzelne Berufe, sondern berufsübergreifend gelten, beispielsweise für das Fach Politik (vgl. Niedersächsisches Kulturministerium, 2015). Diese Rahmenpläne und Bildungspläne werden dabei in regelmäßigen Abständen weiterentwickelt, wie beispielsweise im Rahmen der Ein‐ führung der Kompetenzorientierung als bundesländerübergreifende, verbindliche Vorgabe durch die Kultusministerkonferenz. In diesem Rahmen werden auch Aufga‐ ben und Limitierungen deutlich, beispielsweise der Erziehungs- und Bildungsauftrag, der vor allem im allgemeinbildenden Bereich zentral ist (vgl. Asmussen et al., 2016). Für die einzelnen Schulsysteme im allgemeinbildenden Bereich existieren darüber hinaus konkretere Bildungspläne, beispielsweise für das Gymnasium, die sich in die verschiedenen Fächer ausdifferenzieren. Daraus lassen sich Leitgedanken und die angestrebte Kompetenzentwicklung ableiten. Durch die Vorgaben haben die Lehrkräfte ein Konzept zur Themengestaltung des Unterrichts in den jeweiligen Klassenstufen. So wird beispielsweise im Fach Geschichte für die Klassen 9 und 10 im Themenbereich „ehemalige Imperien und Europäische Integration im Vergleich“ (Ministerium für Kultus, Jugend und Sport, 2016, S. 35) deutlich, dass Vergleiche aus historischer Perspektive und mögliche Entwicklungsszenarien als Lernziel festgelegt werden. Diese Ziele werden anschließend weiter konkretisiert und in Bezug zu ande‐ ren Themen gesetzt. Zudem werden die zu erlernenden Kompetenzen konkretisiert, im genannten Beispiel wird die Fragekompetenz miteinbezogen, die sich dadurch auszeichnet, dass die Schüler*innen „historische Fragestellungen und Strategien zu ihrer Beantwortung entwickeln“ (Ministerium für Kultus, Jugend und Sport, 2016, S. 14) können (vgl. Ministerium für Kultus, Jugend und Sport, 2016).

Curriculare Referenzsysteme

Im dualen System spielt zudem eine Rolle, dass sowohl für den Betrieb in Form der Ausbildungsordnung als auch die Schule in Form des Rahmenplans Vorgaben exis‐ tieren, die die fachlichen Fähigkeiten und Fertigkeiten, die zur Ausführung des Berufs nötig sind, vertraglich zwischen Schule und Betrieb festlegen. Dies ermöglicht eine Gliederung und Vernetzung der Lernorte (vgl. Industrie- und Handelskammer zu Dortmund, 2019). Es handelt sich dabei jedoch nur um eine Mindestvorgabe, was bei den Lernfeldern der Rahmenlehrpläne deutlich wird, die zwar Inhalte und Zeitpläne vorgeben, die Umsetzung und Ausgestaltung jedoch den Lehrkräften im Rahmen der Lehrveranstaltung überlassen. Dennoch werden auch hier klare Limitationen, Ziele und zu vermittelnde Kompetenzen formuliert. Daraus lassen sich letztlich auch der Bildungsauftrag der beruflichen Schulen und zentrale didaktische Grundsätze ableiten. Diese Grundsätze schaffen beispielsweise den Rahmen, wie der Unterricht grob gestaltet werden kann (vgl. Kultusministerkonferenz, 2017). Besonders im schulischen Bereich der beruflichen Bildung spielt dabei die Situationsorientierung mittlerweile eine zentrale Rolle. Die Veränderung von einer Fächersystematik zur Situationsorientierung hat dabei einen Veränderungsprozess der Curricula bewirkt, um diese an Geschäfts- und Arbeitsprozesse anzulehnen. Speziell durch die Frage der Auswahl und Vermittlung der Inhalte wird dabei die Fokussierung auf Employability als Bezugnahme zur Arbeitswelt deutlich (vgl. Clement, 2006). Im Rahmen der beruflichen Bildung ist der Ausbildungsrahmenplan im Rahmen der Ausbildungs‐ ordnung explizit fokussiert (§5 BBiG), im allgemeinbildenden Bereich zeigt sich ebenfalls, dass Lehrpläne auch zur Gestaltung des Unterrichts als bildungspolitisches Instrument angesehen werden können (vgl. Adolph, 2015). 1 Beide Bereiche decken sich mit der Definition des Curriculums, die beispielsweise Tenorth und Tippelt (2007) anführen: Das C(urriculum) ist die sprachlich definierte Form, in der ein planvoller Ablauf eines Lehr-/Lernprozesses beschrieben und meist auch als Norm für das Handeln der Lehr‐ profession und in Bildungseinrichtungen politisch oder administrativ gesetzt wird. C. sind i.d.R. an (allgemeinen oder spezifischen) Lehrzielen orientiert und sie enthalten meist auch Aussagen über die Rahmenbedingungen des Lernens und die intendierten Formen der Realisierung (im Unterschied zum Lehrplan, der sich meist auf die Pro‐ grammseite beschränkt) (Tenorth & Tippelt, 2007, S. 138).

Das Begriffsverständnis für den Hochschulbereich fällt vergleichbar aus. In Anleh‐ nung an die Hochschulrektorenkonferenz (2017b) versteht man unter dem Curricu‐ lum „im weitesten Sinne den Lehrplan eines Studiengangs, wie er in Modulhandbü‐ chern und fachspezifischen Bestimmungen niedergelegt ist. Er umfasst die Lernziele 1 Für eine ausführlichere Betrachtung der Curricula in der Allgemeinbildung und beruflichen Bildung

siehe beispielsweise Asmussen et al. (2016), Kultusministerkonferenz (2017) sowie die jeweiligen Cur‐ ricula der Schulsysteme, Ausbildungen und Unterrichtsfächer.

79

80

Curriculare Referenzsysteme

der einzelnen Module eines Studiengangs, die Inhalte sowie die Unterrichtsma‐ terialien, wie Lehrbücher oder digitale Angebote“ (Hochschulrektorenkonferenz, 2017b, S. 3). Weitestgehend unberührt bleibt dabei der politische oder adminis‐ trative Aspekt, der bei der oben genannten Definition als zentral erachtet werden kann. Dennoch wird das Curriculum als wichtiges Element erachtet, um die zen‐ tralen Inhalte des Studiums vergleichbar in der Prüfungsurkunde auszuweisen (vgl. Hochschulrektorenkonferenz, 1997). Zudem sind die Aspekte der administrativen und politischen Rolle in Überlegungen zur Internationalisierungen der Curricula zu finden, wobei durch eine Uneinheitlichkeit der Systeme nicht von Vorschriften, sondern lediglich von Empfehlungen gesprochen werden kann (vgl. Hochschulrek‐ torenkonferenz, 2017b). Speziell im Hochschulkontext wird das Curriculum und die Curriculument‐ wicklung regelmäßig mit Studiengangsentwicklung gleichgesetzt, was sich in ver‐ schiedenen Ansätzen zeigt. Dies ist auch dadurch begründet, dass es häufig keine einheitlichen übergeordneten Basiscurricula für die Studiengänge gibt. So ist die Cur‐ riculumsentwicklung vielmehr eine Veränderung oder Ergänzung des Lehrangebots unter Einbezug als relevant erachteter Inhalte, die beispielsweise aus Expert*innen‐ workshops, Synopsen oder Zukunftswerkstätten abgeleitet werden (vgl. Hochschul‐ rektorenkonferenz, 2017a; vgl. Niethammer et al., 2014). Die Uneinheitlichkeit im Hochschulbereich geht darauf zurück, dass die Hoch‐ schulen selbst für die Qualitätssicherung und Studiengangsentwicklung, aber auch für die Ausgestaltung der Lehre zuständig sind. Die Freiheit in Lehre und Forschung spielt dabei ebenfalls eine wichtige Rolle (vgl. Studienakkreditierungsstaatsvertrag, 2017). Es gibt also, im Gegensatz zu den Regelungen im allgemeinbildenden und be‐ rufsbildenden schulischen Bereich deutlich weniger Einfluss und Austausch, sowohl auf Ebene des Bundes, als auch der Länder (vgl. Bundesinstitut für Berufsbildung, 2015). Festgelegt wird im Hochschulbereich lediglich folgendes: (2) Die Länder tragen im Rahmen der Qualitätssicherung und -entwicklung gemeinsam dafür Sorge, dass die Gleichwertigkeit einander entsprechender Studien- und Prü‐ fungsleistungen sowie Studienabschlüsse und die Möglichkeit des Hochschulwechsels gewährleistet werden (Studienakkreditierungsstaatsvertrag, 2017, Artikel 1).

Festlegungen geschehen dabei vorrangig auf formaler und fachlich-inhaltlicher Ebene. Die formalen Kriterien umfassen dabei „Studienstruktur und Studiendauer, Studiengangsprofile, Zugangsvoraussetzungen und Übergänge zwischen Studienan‐ geboten, Abschlüsse und Abschlussbezeichnungen, Modularisierung, Mobilität und Leistungspunktesystem, Gleichstellung der Bachelor- und Masterstudiengänge zu den bisherigen Diplom-, Staatsexamens- und Magisterstudiengängen, Maßnahmen zur Anerkennung von Leistungen bei einem Hochschul- oder Studiengangswechsel und von außerhochschulisch erbrachten Leistungen“ (Studienakkreditierungsstaats‐

Curriculare Referenzsysteme

vertrag, 2017, Artikel 2). Durch die Vorgabe der formalen Kriterien im Studienak‐ kreditierungsstaatsvertrag wird sichergestellt, dass die jeweiligen Hochschulen und Studiengänge die oben bereits erwähnten Kriterien erfüllen, die im Rahmen des Bologna-Prozesses generiert wurden (siehe dazu auch Kapitel 2). Dies zeigt sich speziell in der Modularisierung und dem Leistungspunktesystem, das als solches verbindlich vorgesehen ist und auf Studiengangsebene eine zentrale Rolle einnimmt (vgl. Studienakkreditierungsstaatsvertrag, 2017). Etwas konkreter wird die Sachlage, wenn man die fachlich-inhaltlichen Kriterien in den Blick nimmt. Dazu gehören: 1. dem angestrebten Abschlussniveau entsprechende Qualifikationsziele eines Stu‐ diengangs unter anderem bezogen auf den Bereich der wissenschaftlichen oder der künstlerischen Befähigung sowie die Befähigung zu einer qualifizierten Erwerbstätigkeit und Persönlichkeitsentwicklung, 2. die Übereinstimmung der Qualifikationsziele mit einem schlüssigen Studiengangskonzept und seine Umsetzung durch eine angemes‐ sene Ressourcenausstattung, entsprechende Qualifikation der Lehrenden und entspre‐ chende kompetenzorientierte Prüfungen sowie die Studierbarkeit unter Einbeziehung des Selbststudiums, 3. auf dem aktuellen Stand von Wissenschaft und Forschung befind‐ liche fachlich-inhaltliche Standards, 4. Maßnahmen zur Erzielung eines hinreichenden Studienerfolgs, 5. Maßnahmen zur Geschlechtergerechtigkeit und zum Nachteilsaus‐ gleich für Studierende mit Behinderung oder chronischer Erkrankung, 6. das Konzept des Qualitätsmanagementsystems (Ziele, Prozesse und Instrumente) sowie die Maßnah‐ men zur Umsetzung des Konzepts. (Studienakkreditierungsstaatsvertrag, 2017, Artikel 2).

Bezeichnend ist an dieser Vorgabe, dass einzelne Aspekte, speziell im Rahmen der Heterogenität und Inklusion, fokussiert werden und dass ein Qualitätsmanagement gewährleisten soll, dass eine Sicherung der Standards zu ermöglichen ist. Aus fach‐ licher Sicht wird lediglich der aktuelle Stand der Wissenschaft und Forschung für die Ausgestaltung der Inhalte, ein Niveau, das dem entsprechenden Qualifikati‐ onsziel angepasst ist und eine Übereinstimmung mit einem schlüssigen Konzept, sowie räumliche und personale Umsetzbarkeit vorgegeben (vgl. Studienakkreditie‐ rungsstaatsvertrag, 2017). Wichtig ist an dieser Stelle für diese Arbeit der Bezug auf kompetenzorientierte Prüfungen, der aus der Bologna-Forderung nach Employa‐ bility abgeleitet werden kann. Auf kompetenzorientiertes Prüfen wurde bereits in Kapitel 7 ausführlicher eingegangen. Die Regelung der Studienakkreditierung liegt letztlich auf Länderebene, wodurch die Bundesländer zur Sicherung der oben genannten Kriterien aufgefordert sind. Diese Sicherung geschieht mithilfe von Gutachter*innen, die einer länderüber‐ greifenden Stiftung zugehörig sind. Die Überprüfung geschieht in regelmäßigen Abständen in Form der Akkreditierung (vgl. Studienakkreditierungsstaatsvertrag, 2017). Der Gutachter*innengruppe sitzt dabei üblicherweise eine fachaffine Person

81

82

Curriculare Referenzsysteme

bei, die die fachliche Ausgestaltung prüft. Wenn es sich um eine Systemakkredi‐ tierung handelt, wird der Hochschule bzw. dem Studiengang damit die Möglich‐ keit gegeben, Veränderungen des Studiengangs selbstständig durchzuführen. Die Systemakkreditierung ist jedoch auch zeitlich befristet und muss regelmäßig neu erlangt werden (vgl. Akkreditierungsrat, 2010; vgl. FIBAA, 2017). Somit wird letzt‐ lich den Hochschulen eingeräumt, die Gestaltung der Studiengänge, speziell auf fachlicher Ebene, selbst vorzunehmen, wenn auch mit leichten Einschränkungen und einer Kontrolle der Erfüllung dieser Vorgaben. Somit lässt sich die institutionelle Vorgabe für die fachliche Ausgestaltung der Stu‐ diengänge auf die Aktualität der Inhalte, den Wissenschafts- und Forschungsbezug und eine anforderungsgerechte Fokussierung beschränken (vgl. Studienakkreditie‐ rungsstaatsvertrag, 2017), die in regelmäßigen Abschnitten durch eine Akkreditie‐ rung geprüft wird (vgl. FIBAA, 2017). Offen bleibt vorerst jedoch, was letztlich der wirkliche Inhalt ist, der aktuell ist, den wissenschaftlichen Standards entspricht und je Modul für den jeweiligen angestrebten Abschluss sinnhaft ist. Um dieser Problematik entgegenzuwirken, haben einige Gesellschaften bzw. Sek‐ tionen für den jeweiligen Fachbereich Kern- bzw. Basiscurricula entwickelt, die als inhaltliche Handreichung für die Neuentwicklung von Studiengängen, aber auch für die Ausgestaltung zentraler Inhalte laufender Studiengänge dienen können. Beispiel‐ haft sei hier das Kerncurriculum Fachdidaktik angeführt, das für alle Fachdidaktiken in der hochschulischen Lehrerbildung als Vorschlag gilt (vgl. Gesellschaft für Fach‐ didaktik, 2004), im Bereich der Medienpädagogik (vgl. Sektion Medienpädagogik, 2017), der sozialen Arbeit (vgl. Deutsche Gesellschaft für Sozialarbeit, 2005) und der Sportwissenschaft (vgl. Deutsche Vereinigung für Sportwissenschaft, 2015) liegen ebenfalls Curricula vor. Deutlich wird über alle genannten Curricula, dass es sich lediglich um Handreichungen bzw. Vorschläge handelt. Für die in dieser Arbeit betrachtete Domäne liegt ebenfalls ein Basiscurriculum vor, das in einer ursprüng‐ lichen Fassung sowie einer erweiterten Fassung existiert (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014).

8.1

Basiscurriculum Berufs- und Wirtschaftspädagogik

Die Sektion der Berufs- und Wirtschaftspädagogik hat in Form des Basiscurriculums den Fokus auf verbindliche Standards für die berufs- und technikpädagogischen Studiengänge gelegt. Dies geschah „im Interesse der Sicherung der Qualität des universitären Studiums der Berufs- und Wirtschaftspädagogik“ (Sektion Berufsund Wirtschaftspädagogik, 2003, S. 1). Entwickelt wurde das Basiscurriculum auf Grundlage mehrstufiger Expert*innenbefragungen, um zentrale Inhalte des Studi‐ ums der Berufs- und Wirtschaftspädagogik zu erfassen und zu kategorisieren. Diese Inhaltsanalyse wurde dabei intradisziplinär vorgenommen (vgl. Sektion Berufs- und

Basiscurriculum Berufs- und Wirtschaftspädagogik

Wirtschaftspädagogik, 2003). Zudem wurde neben der Expert*innenbefragung eine Integration der Empfehlungen aus dem Bereich der Erziehungswissenschaft zu‐ grunde gelegt (vgl. Deutsche Gesellschaft für Erziehungswissenschaft, 2004). Nach eigenem Verständnis wird durch das Basiscurriculum festgelegt, welche inhaltlichen Standards standortübergreifend den Studiengängen zugrunde liegen sollten und wie die Disziplin sich inhaltlich verortet. Zur Ausgestaltung wird dabei neben all‐ gemeinpädagogischen Aspekten explizit die berufsfachliche Didaktik in den Blick genommen. Mit der Benennung von Schwerpunkten, Themengebieten und Lehrinhalten faßt das Basiscurriculum jene Wissens- und Problembereiche in einer systematischen Rahmen‐ ordnung zusammen, die in ihrer Substanz den aktuellen inhaltlichen Grundbestand des Faches umreißen. Es konturiert somit die Gestalt des akademischen Studiums der Berufsund Wirtschaftspädagogik unter Einschluß der Didaktik der beruflichen Fachrichtungen. (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 1)

Durch diese Beschreibung wird die Ausdifferenzierung der Inhalte von groben Schwerpunkten zu klaren Lehrinhalten deutlich. Der Fokus des Curriculums liegt neben der Selbstverpflichtung der Fachvertreter*innen auf einer Außenbetrach‐ tung für die Politik, die Seminare, Gewerkschaften und explizit die oben bereits angesprochenen Akkreditierungsagenturen, die für die inhaltliche Überprüfung der Studiengänge zuständig sind. Zudem kann es für Studierende eine Grundlage zur kritischen Auseinandersetzung mit den Inhalten des Basiscurriculums im Abgleich mit der Erfüllung in den jeweiligen Studiengängen sein. Ziel ist primär ein gemeinsa‐ mes und vergleichbares Kompetenzprofil, das, im Rückgriff auf die bereits erwähnte Employability und Professionalisierung, den Anforderungen des Bologna-Prozesses einen merklichen Schritt näher kommen soll (vgl. Sektion Berufs- und Wirtschafts‐ pädagogik, 2003). Das Basiscurriculum selbst gibt, in Anlehnung an die erwartbaren Semesterwochenstunden, dennoch einen Umsetzungsspielraum, den die Hochschu‐ len individuell ausgestalten können und mit eigenen Schwerpunkten füllen können (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Wie oben beschrieben, ist auch dieses Curriculum lediglich eine Handreichung, das zwar von Mitglieder*innen der Sektion eingehalten werden soll, deren verbind‐ licher Miteinbezug jedoch nicht gewährleistet werden kann. Dennoch dient das Curriculum zusätzlich sowohl für die Akkreditierungsverfahren, für die Festlegung der Mindeststandards für Sondermaßnahmen zur Sicherung des Lehrkräftenach‐ wuchses, sowie für die Regierungen der Bundesländer als Leitlinie (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Die Frage inwieweit das Basiscurriculum wirklich Einfluss auf die Ausgestaltung der Lehre im Hochschulkontext nimmt, bleibt jedoch offen.

83

84

Curriculare Referenzsysteme

8.2

Inhaltliche Dimensionen des Basiscurriculums

Abgeleitet aus einem Leitbild ergibt sich eine Dimensionsstruktur, die den Studien‐ verlauf und die am Ende des Studiums erreichten Kompetenzen näher abstecken soll. Dieses Leitbild bezieht sich auf die möglichen Berufe, die mit dem Studiengang der Berufs- und Wirtschaftspädagogik erreichbar sind, 2 aber auch auf daraus abgeleitete Kompetenzen, die die Berufsbefähigung ermöglichen sollten (vgl. Sektion Berufsund Wirtschaftspädagogik, 2003). Dazu zählen: – „die Ziel- und Inhaltsbestimmung von Bildungsgängen (Curriculumentwicklung), – die Gestaltung von Unterricht und Unterweisung sowie die Ermöglichung von Lern- und Bildungsprozessen in schulischen und außerschulischen Feldern, – die Ermittlung und Beurteilung personaler Lern- und Bildungsvoraussetzungen, der individuellen Lernergebnisse sowie die damit zusammenhängende Berufs- und Bildungsberatung, – die Entwicklung der Rahmenbedingungen für die berufliche Bildung (Schul- und Organisationsentwicklung, Lernortkooperation, Ordnungsmittel, Zertifikationsund Prüfungswesen)“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 6). Für die Kompetenzerreichung als solche wird angeraten, sich mit den Inhalten so vertraut zu machen, dass die Studierenden selbstständig befähigt sind, „praktische Fragen und Probleme in den genannten Tätigkeitsfeldern theoriegeleitet zu reflektie‐ ren und rational begründete, auf individuelle und kollektive Bedürfnisse abgestimmte Lösungen zu entwickeln und umzusetzen“ (Sektion Berufs- und Wirtschaftspädago‐ gik, 2003, S. 6). Besonderer Wert wird zudem auf die eigene Auseinandersetzung und bewusste Weiterbildung mit neuen wissenschaftlichen Erkenntnissen gelegt. Zudem ist das professionelle Handeln, besonders vor dem Hintergrund der Personen und der Gesellschaft, mit der man in Austausch ist, als wichtiger Aspekt angeführt (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Die Studierenden sollen also im Anschluss an das Studium „zu einem theoriegeleitet-reflexiven, erfahrungsoffenen und verantwortlichen Handeln“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 6) befähigt sein. Aus diesem Leitbild und den Kompetenzen ergeben sich die Dimensionen „1. Dif‐ ferenziertes und integriertes Wissen und Können in Bezug auf pädagogisch relevante Bedingungs- und Entscheidungsfelder, 2. (selbst-)kritisch-experimentelle Haltung und Bereitschaft zu reflexiver Praxis und 3. Pädagogisches Ethos und balancierte Identität“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 7). 2 Nach Sektion Berufs- und Wirtschaftspädagogik (2003) sind die Tätigkeiten in den Feldern „Berufliches

Schulwesen, betriebliches Bildungs- und Personalwesen, Berufliche Weiterbildung in öffentlicher und privater Trägerschaft, Bildungsverwaltung, Bildungsmanagement und Bildungspolitik“ (Sektion Berufsund Wirtschaftspädagogik, 2003, S. 3). Das deckt sich mit den angestrebten Berufstätigkeiten der in dieser Arbeit betrachteten Studiengänge.

Inhaltliche Dimensionen des Basiscurriculums

Das zugrunde liegende Kompetenzverständnis zur beruflichen Kompetenz geht auf das professionelle Wissen, ähnlich wie bei Baumert und Kunter (2006), zurück, das nicht nur die kognitive Wissensebene umfasst, sondern auch affektive und vo‐ litionale Aspekte in den Blick nimmt. Die Befähigung zur späteren Berufsausübung soll im Studium gewährleistet werden, wobei der Fokus auf das Wissen zu setzen ist, das spezifisch die pädagogisch-didaktischen Aufgaben, Strukturen sowie Probleme der Domäne in den Blick nimmt (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Daraus ergibt sich eine Rahmenstruktur mit fünf zentralen Bereichen. Grundla‐ gen der Berufs- und Wirtschaftspädagogik, die, neben einer Einführung in das Feld auch Grundlagen der Wissenschaftstheorien und eine geschichtliche Einordnung der Domäne in den Fokus nehmen sollen, bieten eine erste Verortung im Gegenstands‐ feld. Der zweite Schwerpunkt, Didaktik der beruflichen Aus- und Weiterbildung, bietet eine Auseinandersetzung mit der Didaktik und Methodik beruflicher Bildung, explizit mit Lehr-Lernzielen, didaktischen Konzeptionen in den jeweiligen Berufs‐ feldern sowie Gestaltung von Lehr-Lerneinheiten im Rückgriff auf Didaktik und Methodik beruflicher Bildung sowie passender Medien. Als dritter Schwerpunkt sind Bedingungen und Strukturen beruflichen Lernens genannt, die zum einen gän‐ gige Theorien dazu beinhalten sollten, Diagnostik und Evaluation auf Prozess- und Ergebnisebene umfassen, die berufliche Sozialisation aufgreifen und die Organisa‐ tion beruflicher Bildung, hier in Form von Institutionen und deren Entwicklung, sowohl national als auch international, untersucht. Die quantitative und qualitiative Berufsbildungsforschung stellt den nächsten Schwerpunkt dar, wobei explizit die berufliche Lehr-Lernforschung und zentrale Forschungsprogramme und Strategien aufgegriffen werden sollen. Abschließend wird der Blick auf gängige Studien des Bereichs gelegt, aber auch auf Versuche, die Komplexität des praktischen Lehrens greifbar zu machen (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Diese Schwerpunkte sind vergleichbar mit den Informationen aus den oben beschriebenen Bildungsplänen bzw. Rahmenlehrplänen. Somit ist, wie im Bereich der Allgemein‐ bildung bzw. der schulischen beruflichen Bildung, ein inhaltlicher Rahmen für die thematische Ausgestaltung des Studiums vorgeschlagen. Für jede Teilkomponente der Schwerpunkte existiert eine Ausdifferenzierung der Lehrinhalte, die für die Lehrveranstaltungen der Hochschulen als zentral angesehen werden. Dennoch wird explizit betont, dass die Lehrenden die Auswahl, Umfang, Gewicht und Intensität der Inhalte frei und eigenständig gestalten dürfen, die Lehr‐ inhalte lediglich orientierenden Charakter haben und sich diese Aspekte mit der Zeit im Rahmen von Evaluationen auch verändern können. Die Inhalte sollen als Beispiele verstanden werden. Lediglich der Einteilung in Grund- und Hauptstudium sei zu folgen (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Hier liegt auch ein Unterschied zu allgemeinbildenden und berufsbildenden Curricula, in denen die Lehrinhalte deutlich verbindlicher erfüllt werden müssen. Dies geht auch auf die

85

86

Curriculare Referenzsysteme

durch die Freiheit der Forschung und Lehre eingeschränkte Vergleichbarkeit über Standorte und Bundesländer hinweg zurück. Inhaltlich ist nachfolgend beispielhaft der Lehrinhalt für den Bereich der Didaktik der beruflichen Aus- und Weiterbil‐ dung angeführt. Dieser differenziert sich, wie oben beschrieben, in Grundlagen und Grundprobleme der Didaktik als eine inhaltliche Komponente aus. Für die anderen Dimensionen ergibt sich dabei eine vergleichbare Form und Feingliedrigkeit.

8.3

Weiterentwicklung des Basiscurriculums

Das vergleichsweise ausführlich ausgestaltete Basiscurriculum für die Berufs- und Wirtschaftspädagogik, das als ein „Meilenstein für die Professionsentwicklung“ (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) gesehen werden kann, muss an mancher Stelle auch kritisch betrachtet werden. Die reale Umsetzung des Basis‐ curriculums in ein Kerncurriculum kann dabei auf verschiedene Weise geschehen und bleibt, gerade vor der Frage der Kompetenzorientierung im Rahmen der Em‐ ployability und der teilweise gegenüberstehenden Wissenschaftsorientierung, den Hochschulen überlassen. Das spielt vor allem auch auf der realen Umsetzungsebene in Form der einzelnen Module eine nicht zu vernachlässigende Rolle, wobei durch die Differenzierungsmöglichkeit keine Einheitlichkeit, auch über die Hochschul‐ standorte hinweg, erkennbar scheint (vgl. Sloane, 2003): Eine Möglichkeit wäre eine kompetenzbasierte Reformulierung des Curriculums. Eine andere Möglichkeit [. . . ] wäre es, das Kerncurriculum als fachwissenschaftliche Struktur der Berufs- und Wirtschaftspädagogik zu verstehen, um dann in [. . . ] Matrixform eine systematische Verbindung zwischen diesen fachwissenschaftlichen Vorgaben (Wissen‐ schaftsstandards des Faches) und den Kompetenzen (Standards der Lehrertätigkeit) herzustellen (Sloane, 2003, S. 491).

Wilbers (2005) rät dazu, proaktiv eine Weiterentwicklung der Standards vorzuneh‐ men, um eine Klarheit der Umsetzung und die Berücksichtigung der Ergebnisse des Bologna-Prozesses im Fokus zu haben und der Kompetenzorientierung einen größeren Raum zu geben, als dies in der vorherigen Version der Fall ist (vgl. Wilbers, 2005). Speziell die Bologna-Reform, die Modularisierung sowie die Umstellung auf Bachelor- und Masterabschlüsse wird in der Überarbeitung des Basiscurriculums im Jahre 2014 berücksichtigt. Unter Miteinbezug der Bildungspolitik und neuen Forschungserkenntnissen soll dabei die in dem Basiscurriculum von 2003 ange‐ sprochene regelmäßige Aktualisierung umgesetzt werden (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Im Gegensatz zur ersten Fassung wird die Intra- und Interdisziplinarität deutlich in den Fokus gestellt. Inhaltlich wird auf die Berücksich‐ tigung des Kerncurriculums der Erziehungswissenschaft (vgl. Deutsche Gesellschaft

Weiterentwicklung des Basiscurriculums

für Erziehungswissenschaft, 2004), Thesen zur Ausgestaltung der Bachelor- und Masterstudiengänge, Rahmenvereinbarungen der KMK, Anerkennungseckpunkte der Lehramtsstudiengänge über Standorte hinweg, Standards der Bildungswissen‐ schaften sowie Anforderungen in Fachwissenschaften und Fachdidaktiken in der Lehramtsausbildung, aufgebaut (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Im Vergleich zur früheren Version steht die Kompetenzorientierung und die fachwissenschaftliche sowie bildungstheoretische Generierung der Inhalte im Fokus. Übereinstimmend in beiden Versionen ist der Wirkungsbereich über die eigene Sektion hinaus, der bei der Version von 2003 schon im Fokus stand (vgl. Sekretariat der Kultusministerkonferenz, 2018; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Die Änderungen zeigen sich deutlich in den ausdifferenzierten (unterstellten) Dimensionen berufs- und wirtschaftspädagogischer Professionalität und somit der Kompetenz, 3 die deutlich ausführlicher in den Blick genommen wird als zuvor. In‐ haltlich zeigt sich die Kompetenzorientierung im übergreifenden Ziel der beruflichen Lehramtsausbildung: [Ziel ist] die Fähigkeit und Bereitschaft zu kompetentem Handeln und Forschen in Bezug auf berufs- und wirtschaftspädagogisch relevante Bedingungs- und Entschei‐ dungsfelder wie Strukturen, Organisationen, Lehr-, Lern- und Entwicklungsprozesse, Professionalisierung von Lehrenden/Ausbildenden/Dozierenden; das schließt die be‐ rufliche Sozialisation und Erkenntnisgewinnung anhand von jeweils angemessenen Forschungsmethoden mit ein (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 8).

Dieses wird in Verbindung zu drei Bezugspunkten gesetzt, nämlich „Berufliche Tätigkeitsfelder [...], Inhalte [..] sowie Dispositionen [..]“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 8). Die ‚Dimension‘ der beruflichen Tätigkeitsfelder geht neben einem kurzen Über‐ blick über spätere Berufsmöglichkeiten auf die Dynamik der Berufswelt ein. Das Studium bildet die inhaltliche Basis, um die Unvorhersehbarkeit, Individualität und Heterogenität zu bewältigen und an der ständigen Veränderung des Systems mit‐ zuwirken. Explizit wird die Polyvalenz des Studiengangsaufbaus gefordert, um der Fülle an verschiedenen beruflichen Tätigkeitsfeldern Transparenz zu verschaffen (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Diese Inhalte beziehen sich auf die beruflichen Handlungen und den daraus ab‐ geleiteten Kontexten. Wie für andere Lehramtsstudiengänge wird der Miteinbezug der Fachwissenschaften und der Fachdidaktiken für die inhaltliche Ausgestaltung als unabdingbar angesehen. Zudem spielt das berufs- und wirtschaftspädagogische

3 Die Unterschiede des Geltungsbereichs werden an dieser Stelle nicht weiter vertieft. Stattdessen soll

der Fokus auf die Inhalte und Kompetenzen gelegt werden.

87

88

Curriculare Referenzsysteme

Wissen eine weitere zentrale Rolle. Daraus lassen sich die Themen ableiten, die im Studiengang behandelt werden sollen (vgl. Sektion Berufs- und Wirtschaftspädago‐ gik, 2014). Die Fähigkeitsstufen, die in den inhaltlichen Bereichen erzielt werden sollen, sind in Dispositionen beschrieben. Unterschieden wird dabei zwischen: (1) Wissen: Hierbei geht es primär um den Auf- und Ausbau mentaler Modelle sowohl für die Bereiche der Fachwissenschaften als auch für den Bereich der Berufs- und Wirt‐ schaftspädagogik einschließlich der Didaktiken der beruflichen Fachrichtungen. (2) Fähigkeiten und Fertigkeiten: Hierbei handelt es sich vornehmlich um die Ausbildung und Aneignung von praktisch bedeutsamen Handlungsoptionen, Handlungskonzep‐ ten und Handlungsroutinen in Wissenschaft und Praxis. (3) Einstellungen: Hierbei geht es vor allem um den Erwerb von professioneller Identität und die Entwicklung eines professionellen Habitus im Hinblick auf die beruflichen und disziplinären Inhalte, Denkfiguren, Modelle und Paradigmen der entsprechenden Fachwissenschaft sowie der Berufs- und Wirtschaftspädagogik einschließlich der Didaktiken der beruflichen Fachrichtungen (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 9).

Diese Dispositionen sind je nach Kontext verschieden ausgeprägt und stehen in Wechselwirkung zueinander (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). In einer zeitlichen Verortung der Inhalte zeigt sich, dass der hochschulischen Ausbildung die Vermittlung grundlegender Kompetenzen, speziell der Fachwissen‐ schaften, Fachdidaktiken und der Berufs- und Wirtschaftspädagogik, zukommt. 4 Dennoch wird die Vermittlung unterrichtspraktischer Kompetenzen und der beruflichen Rolle bereits in der hochschulischen Ausbildung aufgegriffen (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Ähnlich wie bei dem Basiscurriculum aus 2003 (vgl. Sektion Berufs- und Wirt‐ schaftspädagogik, 2003) werden Inhaltsbereiche vorgegeben, die an den jeweiligen Standorten umgesetzt werden sollen und, speziell im Hinblick auf Zeitpunkt und Umfang, lediglich als Empfehlung dienen (vgl. Sekretariat der Kultusministerkon‐ ferenz, 2018; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Im direkten Vergleich der Inhalte miteinander zeigt sich, dass die didaktischen Inhalte sowohl 2003 als auch 2014 mit ungefähr 25 % einen ähnlichen Anteil ein‐ nehmen. Auch die Auseinandersetzung mit der Berufspraxis ist über die Versionen mit ca. 15 % ähnlich gewichtet. Veränderungen zeigen sich in den Grundlagen sowie Bedingungen und Strukturen beruflichen Lernens, die durch eine Umstrukturierung im Umfang reduziert wurden. Diese Reduzierung macht knapp 10 % aus. Dieser Anteil ist in der Version von 2014 zugunsten der Forschungsmethodik umverlagert 4 Im Referendariat rückt die Vermittlung unterrichtspraktischer Kompetenzen in den Fokus, während

in der Berufseinstiegsphase sowie der Fort- und Weiterbildung die weitere Entwicklung in der jeweiligen beruflichen Rolle angestrebt wird (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014).

Inhaltlicher Vergleich des berufspädagogischen Wissens

worden, die jetzt einen Anteil von 25 % am Gesamtinhalt des Studiums aufweist (vgl. Sekretariat der Kultusministerkonferenz, 2018; vgl. Sektion Berufs- und Wirt‐ schaftspädagogik, 2003; vgl. Söll, 2017). Kritisiert wird am Basiscurriculum, dass die Vorgaben sehr vielfältig ausfallen, was die Transparenz und Vergleichbarkeit der Studiengänge über die Standorte hinweg negativ beeinflusst. Wichtig ist auch die regelmäßige Aktualisierung, um den Vorgaben und Beschlüssen aus der Hochschul- und Bildungspolitik Sorge zu tragen. Ob das wirklich umsetzbar ist, bleibt offen (vgl. Söll, 2017). Bei aller Kritik bietet das Basiscurriculum aber im Vergleich zu den Versionen anderer Domänen eine gute Grundlage, die als inhaltliche und organisatorische Richtlinie herangezogen werden kann, um die inhaltliche Ausgestaltung der Studiengänge und Module vergleichs‐ weise einheitlich über verschiedene Standorte hinweg zu ermöglichen. Was jedoch bisher offen bleibt ist, wie das Basiscurriculum inhaltlich mit den Dimensionen des pädagogischen Wissens und somit einer allgemeinpädagogischen Ausdifferenzierung des pädagogischen Fachwissens übereinstimmt oder ob der Fo‐ kus auf die berufliche Bildung inhaltlich zu anderen Dimensionen führt. Aus diesem Grund wird nachfolgend ein inhaltlicher Vergleich des pädagogischen Wissens nach Voss et al. (2015) und dem Basiscurriculum der BWP (vgl. Sekretariat der Kul‐ tusministerkonferenz, 2018; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) vorgenommen.

8.4

Inhaltlicher Vergleich des berufspädagogischen Wissens

Durch die unterschiedliche Zielgruppe ist zu erwarten, dass eine inhaltliche Überein‐ stimmung nicht vollständig gegeben sein wird. Dennoch ist denkbar, dass teilweise inhaltliche Übereinstimmungen der Dimensionen vorhanden sind. In Anlehnung an Kunter et al. (2011) und Kunter et al. (2013) lassen sich die Inhalte des pädagogischen Wissens beschreiben als „Lernprozesse, Heterogenität, Altersstufen und Lernbiographien, Klassenführung, Interaktion / Kommunikation, Lehr-Lern-Methoden und -konzepte, Diagnostik, Gestaltung der Lernumgebung“ (Voss et al., 2015, S. 190). Trotz des unterschiedlichen Abstraktionsgrades zeigt eine Gegenüberstellung, dass der unterschiedliche Fokus zwischen dem Modell und den Inhalten des Ba‐ siscurriculums durch den Grad der Beschreibung sichtbar wird. Während Voss et al. (2015) in übergeordneter Perspektive den Blick auf Aspekte der pädagogi‐ schen Psychologie und der allgemeinen Bildung legen, ist das Basiscurriculum der BWP deutlich fokussierter auf die Erziehungswissenschaft und die Zielgruppe der beruflichen Bildung. Entwicklungen zeigen sich zudem in der Dimension ‚Hetero‐ genität‘. Während diese in der frühen Version des Basiscurriculums nicht explizit genannt wird, ist Heterogenität, wie auch Inklusion, sowohl in den Zielen als auch

89

90

Curriculare Referenzsysteme

den Inhalten der Version von 2014 explizit aufgeführt (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Grundsätzlich ist eine inhaltliche Übereinstimmung in den meisten Dimensionen erkennbar. Zwar werden regelmäßig verschiedene Begrifflichkeiten herangezogen, durch eine Ausdifferenzierung der Themen wird die inhaltliche Nähe aber deutlich. So stellt die Diagnostik bei allen Versionen einen wichtigen Aspekt dar, wobei sich für die Basiscurricula die Fokussierung auf Diagnostik und Evaluation beruflicher Lernprozesse und Lernergebnisse (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) bzw. in der Version von 2014 spezifischer auf die kritische Betrachtung des Unterrichts, Assessment-Ansätze und curriculare Überlegungen bezieht (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Bezüglich der Lernprozesse bei Voss et al. (2015) zeigen sich Übereinstimmungen in den Varianten des Basiscurriculums mit Bezügen zur beruflichen Bildung (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Etwas weniger inten‐ siv wird auf die Lernumgebung, Klassenführung, Interaktion und Kommunikation eingegangen. Dies ist möglicherweise auch dadurch verursacht, dass diese Aspekte eine praktische Relevanz in klarer Interaktion zwischen Lehrenden und Lernenden aufweisen und somit im Rahmen des Basiscurriculums eher im Bereich des Vorbe‐ reitungsdienstes anzutreffen sind (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014; vgl. Voss et al., 2015). Als Fazit ist demnach festzuhalten, dass eine Übereinstimmung der verschiedenen Inhalte vorliegt, wenn auch domänenspezifisch differenziert, auf unterschiedlichen Abstraktionsgraden und aus verschiedenen Betrachtungsansätzen, was als klare Li‐ mitation zu berücksichtigen ist. Es ist m.E. dennoch naheliegend, dass in Teilen von einem ähnlichen Verständnis zu den Themen ausgegangen werden kann. Für die vorliegende Arbeit wird aufgrund der Bezugsgruppe der Fokus auf das berufspädago‐ gische Wissen gelegt. Dennoch ist dabei auch durch inhaltliche Überschneidungen mit der allgemeinen Pädagogik ein Bezug zum pädagogischen Wissen in Anlehnung an Voss et al. (2015) herstellbar. Diese Überlegungen spielen dabei für für das nach‐ folgende Kapitel eine wichtige Rolle.

II

Methodik der empirischen Untersuchung

1

Ableitung der Forschungsfragen

Die bisherige Betrachtung der Theorie und der dazugehörige Forschungsstand gibt einen weitreichenden Einblick in das Kompetenzverständnis und kompetenzorien‐ tiertes Prüfen im Hochschulkontext, zeigt aber auch auf, dass noch immer große Lücken in der Befundlage vorliegen. Speziell die hierfür in Frage kommende Berufs‐ pädagogik an Hochschulen und im speziellen an der Universität Stuttgart ist dabei noch weitestgehend unbeachtet. Abgeleitet aus den theoretischen Betrachtungen, besonders im Rahmen des kompetenzorientierten Prüfens, des CA-Ansatzes und der Verknüpfung dieser Elemente vor dem Hintergrund denkbarer Kompetenzmo‐ delle, der Kompetenzerfassung und Lernziele ergeben sich deshalb verschiedene Vorgehensweisen und zentrale Forschungsfragen, die anschließend in empirischen Analysen näher untersucht werden. In Anlehnung an das Ziel der Employability kann für die Hochschule und die einzelnen Module abgeleitet werden, dass Kompetenzen im Mittelpunkt stehen (vgl. Gerholz & Sloane, 2008). In diesem Rahmen soll von einem Kompetenzverständnis in Anlehnung an Weinert (2002) und Klieme und Leutner (2006) ausgegangen werden. Der oben beschriebenen Struktur von Kompetenzen für die Arbeit folgend (siehe Kapitel 5) kann davon ausgegangen werden, dass der Fokus auf der Fachkom‐ petenz bzw. dem professionellen Wissen liegt. Aus Gründen der Zugänglichkeit wird in der vorliegenden Arbeit als erster Schritt nur das berufspädagogische Wissen als Teil des Grundstudiums analysiert. Daraus lässt sich die erste Forschungslücke ablei‐ ten. Offen ist nämlich, welche Dimensionierung dem berufspädagogischen Wissen zugrunde liegt. Da im Rahmen des pädagogischen Wissens weitere, inhaltsbezo‐ gene Ausdifferenzierungen denkbar sind, kann nicht ohne weiteres eine ein- bzw. mehrdimensionale Wissensstruktur angenommen werden. Gerade im Rückgriff auf die Befunde aus der beruflichen Bildung (vgl. Nickolaus & Walker, 2016) und der Befundlage im Bereich des allgemeinen Lehramts (vgl. Voss et al., 2015) ist eine mehrdimensionale Kompetenzstruktur naheliegend. Eine weitere Forschungslücke besteht darin, wie das berufspädagogische Wissen im Hochschulkontext erfasst wer‐ den kann. Modulabschlussprüfungen scheinen dafür denkbar. Doch sind Prüfungen des berufspädagogischen Wissens statistisch analysierbar und mit den Realprüfun‐

94

Ableitung der Forschungsfragen

gen vergleichbar? Die Befundlage gibt hier keine eindeutigen Aussagen, speziell im Hochschulbereich liegen dazu m.W. keine Befunde vor. Zudem sind Aussagen zum Leistungsniveau der Studierenden der Berufspädagogik bisher nicht vorliegend. Zwar zeigt sich, dass die Verfahren der Niveaumodellierungen im Hochschulkontext anwendbar sind, für die vorliegende Zielgruppe wurde hierzu aber bisher keine nä‐ here Analyse, speziell auf Grundlage der Prüfungsleistungen, vorgenommen. Diese Forschungslücke ist auch deshalb höchst relevant, da hiermit Rückmeldungen über die Note hinweg für Studierende und Lehrende generierbar wären. Eine Besonderheit liegt in der vorliegenden Stichprobe darin, dass verschiedene Studiengänge die Prüfungen ablegen. Die Prüfungen differenzieren dabei nicht nach den Studiengängen, auch wenn die Schwerpunkte variieren. Deshalb ist hier die For‐ schungslücke sichtbar, ob die gemeinsame Prüfung dennoch für die beiden Gruppen fair ist, oder ob für die verschiedenen Studierendengruppen verschiedene Prüfungen nötig sind. Um diese Forschungslücken zu schließen, werden verschiedene Aspekte in die Be‐ trachtung miteinbezogen. In einem ersten Schritt verden Voranalysen durchgeführt, die sich inhaltlich mit den Prüfungen auseinandersetzen. Diese Analysen dienen im Speziellen dazu, die inhaltliche Validität der Prüfungen zu bestimmen und somit zu verorten, ob das berufspädagogische Wissen überhaupt durch diese Prüfungen abgebildet werden kann. Wenn diese Vorbedingung erfüllt ist, können die folgenden Analysen den Fokus auf eine empirische Auseinandersetzung mit den Prüfungen legen. Zur Reduzierung der Forschungslücken ist es dabei bedeutsam, dass in einem ersten Schritt geprüft wird, ob die eingesetzten Modulabschlussprüfungen skalierbar sind und somit ein statistisches Modell überführt werden können, das die jeweiligen Dimensionen abbildet. Dieser Schritt ist für alle betrachteten Prüfungen relevant. Dies erlaubt die Ableitung der ersten Forschungsfrage: F1: Lässt sich die Skalierung einer realen Prüfung interpretieren? Zur Überprüfung werden Methoden benötigt, die Aussagen zur Interpretation der Skalierungen der Prüfungen und damit der Modellgüte der jeweiligen Skalen erlau‐ ben. Die gewählten Methoden werden in Kapitel 2.5 beschrieben. Daraus ergeben sich die folgenden Hypothesen: H1.1.: Die Prüfung BWP I lässt sich im Rückgriff auf theoretische Überlegungen skalieren. H1.2.: Die Prüfung BWP II lässt sich im Rückgriff auf theoretische Überlegungen skalieren. H1.3.: Die Prüfung BWP III lässt sich im Rückgriff auf theoretische Überlegungen skalieren. H1.4.: Die Prüfung BWP IV lässt sich im Rückgriff auf theoretische Überlegungen skalieren.

Ableitung der Forschungsfragen

An diese Frage anschließend werden die skalierten Prüfungen näher untersucht. Besonders verschiedene Aspekte der Validität werden in diesem Rahmen, explizit mit den folgenden zwei Forschungsfragen weiter fokussiert. Die Module werden für verschiedene Studiengänge angeboten. Doch sind die Prüfungen auch für die verschiedenen Gruppen in gleicher Weise beantwortbar oder ergeben sich durch die Studienwahl für diese Prüfungen eine Unfairness? Als weitere Gruppen werden dabei das Geschlecht und das Semester miteinbezogen, um zu überprüfen, ob der Test geschlechtsunabhängig ist und über die Durchgänge hinweg keine Unfairness erzeugt. Das dazu eingesetzte Verfahren des Differential Item Functioning (vgl. Haladyna & Rodriguez, 2013) wird in Kapitel 2.5.5 ausführlicher betrachtet. Daraus ergibt sich folgende Fragestellung: F2: Messen die Items für verschiedene Gruppen fair? Theoretische Betrachtungen legen eine Differenzierung nach Geschlecht, Studien‐ gang sowie für einen Teil der Items das Semester, in dem die Prüfungen geschrieben wurden, nahe. H2.1.: Die Items messen bezüglich des Geschlechts fair. H2.2.: Die Items messen bezüglich des Studiengangs fair. H2.3.: Die Items messen bezüglich des Semesters, in dem die Prüfung geschrieben wurde, fair Um die Forschungslücke bezüglich der zugrunde liegenden Kompetenzstruktur des berufspädagogischen Wissen zu füllen, ist eine Strukturanalyse angebracht. Daraus lässt sich die Forschungsfrage und dementsprechend ein erster Betrachtungsansatz generieren: F3: Welche Struktur liegt dem berufspädagogischen Wissen der Berufs‐ pädagogik zugrunde? Zur Beantwortung dieser Frage ist denkbar, dass auf die Struktur auf Grundlage des Basiscurriculums (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sek‐ tion Berufs- und Wirtschaftspädagogik, 2014) bzw. die Modulstruktur, die sich inhaltlich aus den Basiscurricula ableitet (vgl. Universität Stuttgart, 2019a), zu‐ rückgegriffen werden kann. Dem gegenüber steht der Gedanke, dass neben der Modulstruktur die Vorlesungsstruktur bedeutsam sein kann, die sich teilweise in Ausrichtung und Umfang in einer Veranstaltung ausdifferenziert (vgl. Universität Stuttgart, 2019a). Dieser Aspekt ist speziell für das Modul ‚Didaktik beruflicher Bildung‘ von Bedeutung, da hier in einem Modul zwei Vorlesungen vorzufinden sind, die in einer Prüfung geprüft werden (vgl. Universität Stuttgart, 2019a). Für das berufspädagogische Wissen ist es denkbar, dass eine eindimensionale Struktur

95

96

Ableitung der Forschungsfragen

in Form von „Grundlegenden Kompetenzen hinsichtlich der Fachwissenschaften“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 10) vorliegt, in Frage kommt. Diese theoretischen Modellierungen decken sich mit den Überlegungen anderer Analysen des pädagogischen Wissens, beispielsweise bei König und Blömeke (2009). Während hierbei eine mehrdimensionale Struktur bezüglich des pädagogischen Wis‐ sens vorliegt, liegt bei Müser et al. (2018) eine eindimensionale Struktur vor. Eine weitere Möglichkeit ist ein Generalfaktor berufspädagogischen Wissens, der dem Gedanken folgt, dass es sich bei berufspädagogischem Wissen um ein homogenes Konstrukt handelt. Diese Vermutung ist denkbar, wie beispielsweise die Studie von Seifert und Schaper (2010) zeigt, jedoch ist in diesem Fall eine mehrdimensionale Struktur bevorzugt. Ob das auch für das hier betrachtete berufspädagogische Wissen zutrifft, bedarf einer weiteren Betrachtung. Auch für das Modul ‚Didaktik beruflicher Bildung‘ sind hier Überlegungen zur Dimensionalisierung relevant. Expert*innen der Berufspädagogik, die an der Gestaltung der Prüfung und der vorliegenden Analysen beteiligt waren, fügten an, dass Studierende die Inhalte, die sich aus inhaltlicher Sicht zwischen Didaktik und Methodik ergeben, in der Vorlesung kaum verknüpfen (vgl. Nickolaus, 2018b; vgl. Nickolaus, 2018a). Auch das Basiscurriculum aus 2003 weist explizit eine zweidimensionale theoretische Struktur aus (vgl. Sektion Berufsund Wirtschaftspädagogik, 2003). Diese inhaltliche Trennung widerspricht jedoch den theoretischen Überlegungen, das Verständnis der Didaktik in den Mittelpunkt stellen. Bonz (2009) beschreibt dabei eine Didaktik im weiteren Sinn. Diese umfasst eine Didaktik im engeren Sinn, beispielsweise in Form von Inhalten und Zielen, sowie Methodik in Form von Methoden und Medien (vgl. Bonz, 2009). Methodisch wird ein Modellvergleich zwischen zentralen Modellen mithilfe ver‐ schiedener Verfahren, die in Kapitel 2.5.6 näher beschrieben werden, vorgenommen. Daraus lassen sich folgende Hypothesen ableiten: H3.1.: Das Modul ‚Didaktik beruflicher Bildung‘ weist eine zweidimensionale Struktur entlang der Vorlesungen auf. H3.2.: Das berufspädagogische Wissen weist eine eindimensionale Struktur auf. H3.3.: Das berufspädagogische Wissen weist eine mehrdimensionale Struktur an‐ hand der inhaltlichen Vorlesungen auf. H3.4.: Ein Generalfaktormodell für das berufspädagogische Wissen unterliegt der aus H3.2. bzw. H3.3. mehrdimensionalen Struktur. Auch wenn eine statistische Analyse der schriftlichen Prüfungen denkbar erscheint liegt eine Forschungslücke vor, inwiefern bei einer statistischen Betrachtung ei‐ nes Tests eine Übereinstimmung mit den realen Prüfungen existiert. Um die Er‐ kenntnisse als solche im hochschulischen Kontext explizit weiter interpretieren und anwenden zu können, ist es bedeutsam, dass die Zusammenhänge zwischen dem statistisch analysierten Test und den Realdaten möglichst hoch ausfällt. Daraus ergibt sich die dritte Forschungsfrage:

Ableitung der Forschungsfragen

F4: Sind die durch die IRT geschätzten Fähigkeiten vergleichbar mit den Leistungsmaßen, die klassisch aus Prüfungen ermittelt wurden? Zur Überprüfung wird dabei die Note herangezogen, die in der schriftlichen Prüfung vergeben wurde. H4.1.: Es besteht ein Zusammenhang zwischen dem statistisch analysierten Test und der real vergebenen Note in der Prüfung. Neben der Struktur des berufspädagogischen Wissens ist in Anlehnung an Klieme und Leutner (2006) für eine umfänglichere Betrachtung der Miteinbezug der Kom‐ petenzniveaus bedeutsam. Dabei geht es „darum, welche konkreten situativen Anfor‐ derungen Personen bei welcher Ausprägung einer Kompetenz bewältigen können“ (Klieme & Leutner, 2006, S. 883). Um die Forschungslücke über das Leistungsniveau von Studierenden der Berufspädagogik zu schließen wird folgende Forschungsfrage gestellt: F5: Lassen sich für die verschiedenen Dimensionen pädagogischen Wissens Niveaumodelle generieren? Im Rückgriff auf eine mögliche Annahme der Hypothese H4.1. ist es denkbar, dass Noten als Bestimmungshilfe der Niveaus in Frage kommen. Dieser Ansatz soll nicht unberücksichtigt bleiben. Dies hängt auch mit dem Stellenwert von Noten als Beurteilungskriterien des Lernerfolges zusammen. Durch den vermuteten hohen Standard von Noten raten deshalb beispielsweise auch Trim et al. (2009) im Rahmen der Verknüpfung des Sprachkompetenzniveaus und Benotungssystemen dazu, die Noten für eine Niveaubeschreibung nicht unberücksichtigt zu lassen. Daraus lassen sich für die Frage folgende Hypothesen ableiten: H5.1.: Es lassen sich Anforderungsniveaus zur Abgrenzung verschiedener Niveaus für die Dimensionen des berufspädagogischen Wissens ermitteln. H5.2.: Es lassen sich für die jeweiligen Anforderungsniveaus Beschreibungen fin‐ den, die die Niveaus verständlich ausdifferenzieren. Aus diesen Fragestellungen und Hypothesen leitet sich der weitere Aufbau der vor‐ liegenden Arbeit ab. Dazu ist es jedoch wichtig, näher zu beleuchten, wie die Daten erhoben wurden und welche Besonderheit bei der Erhebung im Unterschied zu anderen Untersuchungen vorliegt. Auch die gewählten Methoden zur Beantwortung der Forschungsfragen werden nachfolgend beschrieben.

97

2

Methodisches Vorgehen

Die Daten, die für die vorliegende Arbeit herangezogen werden, wurden im Rahmen des BMBF-geförderten Projektes QuaLIKiSS (FKZ: 01PL11005) im Projektteil Innovatives Prüfen erfasst. Die Projektlaufzeit war von 1. Oktober 2016 bis 30. Sep‐ tember 2020. Da es sich um Prüfungsdokumente handelt kann nur für ausgewählte Items eine ausführlichere Betrachtung vorgenommen werden, da Teile der Prüfungen weiterhin im Prüfungskontext zum Einsatz kommen.

2.1

Erhebungsanlage

Die betrachteten Daten wurden im Zeitraum von Wintersemester 2014 / 2015 bis zum Sommersemester 2018 erhoben. Es werden Daten der Universität Stuttgart in den Studiengängen Berufspädagogik und Technikpädagogik miteinbezogen. Alle nachfolgenden Analysen beschränken sich demzufolge auf diese Zielgruppe. Jede der betrachteten Prüfungen kann in jedem Semester durch die Studierenden geschrieben werden. Somit liegen insgesamt sieben Messzeitpunkte vor, nämlich WS 14/15, SS 15, WS 15/16, SS 16, WS 16/17, SS 17, WS 17/18. Bei allen Prüfungen handelt es sich um Teilleistungen von Grundlagenmodulen. Da die Module ‚Einführung in der Berufspädagogik‘ sowie ‚Organisation beruflicher Bildung‘ ein Bestandteil der Orientierungsprüfung darstellen und das Modul ‚Didaktik beruflicher Bildung‘ als Kernmodul für die Erlangung des Abschlusses bestanden werden muss, kann davon ausgegangen werden, dass es sich um eine Vollerhebung der beobachteten Studien‐ gänge handelt. Diese begründete Annahme wird auch für die weiteren Betrachtungen zugrunde gelegt.

Instrumente

2.2

Instrumente

Bei den hier untersuchten Prüfungen handelt es sich um die Modulabschlussprüfung der Module ‚Einführung in die Berufspädagogik‘, ‚Organisation beruflicher Bildung‘ sowie ‚Didaktik beruflicher Bildung‘. Übereinstimmend mit den Ansätzen von Scha‐ per und Hilkenmeier (2013) wird die Prüfungsform der schriftlichen Prüfung zur Erfolgsmessung eingesetzt (vgl. Universität Stuttgart, 2019a). Die vorliegenden Prüfungen legen den Fokus auf das berufspädagogische Wissen und die Erfassung dieses auf einer gestuften Merkmalskategorisierung. Die Merk‐ male sind quantitativ erfasst und werden, durch die Festlegung des Nullpunkts bei Nichtlösung der Prüfungsaufgaben als Intervallskala betrachtet. In Anlehnung an den bisherigen Forschungsstand aus dem berufsbildenden Bereich (vgl. z. B. Nic‐ kolaus & Walker, 2016) und dem Hochschulkontext (vgl. z. B. Voss et al., 2015) wird davon ausgegangen, dass das berufspädagogische Wissen im vorliegenden Fall multidimensional auftritt, für die einzelnen Vorlesungen als Subdimensionen aber unidimensional betrachtet werden kann. Für die vorliegenden Prüfungen und damit das berufspädagogische Wissen wird in Anlehnung an das Kompetenzver‐ ständnis nach Weinert (2002) und Hartig und Klieme (2006) davon ausgegangen, dass Kompetenzen und Wissensdimensionen erlernbar und veränderbar sind und diesbezüglich als State-Merkmal verstanden werden können. Darüber hinaus sind den Modulen weitere Veranstaltungs- und Prüfungsformen zugeordnet, die weitere Kompetenzbereiche in den Fokus setzen, beispielsweise vorlesungsbegleitende Übungen, die explizit die Erhöhung der Methodenkompetenz sowie die Sozial- und Selbstkompetenz durch mündliche Präsentationen und schrift‐ liche Hausarbeiten erfassen (vgl. Schaper und Hilkenmeier, 2013; zur Umsetzung siehe Universität Stuttgart, 2019a). Diese werden an dieser Stelle aber nicht weiter betrachtet. Der Makrostruktur für den Bachelorstudiengang Berufspädagogik folgend ist im ersten Semester das Modul ‚Einführung in die Berufspädagogik‘ empfohlen. Das Modul ‚Organisation beruflicher Bildung‘ ist im zweiten Semester verordnet. Das Modul ‚Didaktik beruflicher Bildung‘, welches aus den zwei Vorlesungen ‚Didaktik beruflicher Bildung‘ und ‚Methodik beruflicher Bildung‘ besteht, wird für das erste und zweite Semester empfohlen, die Modulabschlussprüfung wird für das Ende des zweiten Semesters empfohlen (vgl. Universität Stuttgart, 2020a). Für den Bachelorstudiengang Technikpädagogik wird die ‚Einführung in die Be‐ rufspädagogik‘ ebenfalls im ersten bzw. zweiten Semester empfohlen. Das Modul ‚Organisation beruflicher Bildung‘ ist jedoch im vierten Semester empfohlen, das Modul ‚Didaktik beruflicher Bildung‘ im vierten und fünften Semester (vgl. Univer‐ sität Stuttgart, 2020b). Für Studierende im Master handelt es sich, je nach Studienwahl, höchstens um eine Auflage, so beispielsweise für die Studiengänge Technikpädagogik Profil A und

99

100

Methodisches Vorgehen

Technikpädagogik Profil C, die als konsekutive Studiengänge auf den beschriebenen Bachelorstudiengängen aufbauen (vgl. Universität Stuttgart, 2019c). Lediglich im Masterstudiengang Technikpädagogik Profil B sind die Vorlesungen verpflichtend für Masterstudierende vorgesehen, es liegt jedoch keine Empfehlung vor, in welchem Semester die Module abgeschlossen werden sollen. Die Inhalte der Prüfungen unterscheiden sich für die Studiengänge nicht, somit schreiben alle Studierenden die gleichen Prüfungen. Eine thematische Berücksich‐ tigung der Schwerpunkte der Berufspädagogik und der Technikpädagogik findet jedoch im Vorfeld im Rahmen der Vorlesungen statt, die inhaltlich sowohl Elemente der Berufspädagogik als auch der Technikpädagogik beinhalten, was sich auch in der Prüfung wiederspiegelt (vgl. Nickolaus, 2018b; vgl. Nickolaus, 2018a; vgl. Nickolaus, 2018c; vgl. Nickolaus, 2018e). Die Prüfungen haben eine zeitlich klar festgelegte Beschränkung. Pro Prüfung ist ein Zeitraum von 60 Minuten zur Beantwortung der Fragen gegeben. Da das Modul ‚Didaktik beruflicher Bildung‘ aus den Vorlesungen ‚Didaktik beruflicher Bildung‘ und ‚Methodik beruflicher Bildung‘ besteht, werden beide Prüfungsteile in einer gemeinsamen Prüfung im Umfang von 120 Minuten geprüft. Die inhaltliche Trennung ist für die Studierenden nicht hervorgehoben, sondern nur den Prüfer*innen bekannt. Erfahrungsgemäß ist das Zeitfenster so gefasst, dass ein deutlich überwiegender Teil der Studierenden die Prüfung innerhalb der Zeit problemlos lösen kann und Zeit für eine erneute Betrachtung bereits beantworteter Aufgaben bleibt. Aufgrund der variierenden Schwierigkeit wird der Fokus auf das erreichte Schwierigkeitsniveau gelegt. Die vorgegebene Testlänge ergibt sich für die Prüfung aus der Testzeit, die durch das Modul vorgegeben ist (vgl. Universität Stuttgart, 2019a). Für die vorliegende Prüfung wird ein Paper-Pencil-Test eingesetzt. Die Tes‐ tung geschieht auf Gruppenebene, in der alle Studierenden des jeweiligen Semesters in einem gemeinsamen Rahmen die Prüfung absolvieren. Um eine möglichst hohe Auswertungsobjektivität zu gewährleisten und mögli‐ che Korrektureffekte zu vermeiden, wurde zur Verwendung der Prüfungen als ein Testinstrument, der als Leistungstest zu verstehen ist, ein Codebuch generiert, um alle Prüfungen erneut und unabhängig der bisherigen Bewertung neu zu bewerten. Das Codebuch basiert dabei auf den Informationen aus den Vorlesungen BWP I-IV (vgl. Nickolaus, 2018c; vgl. Nickolaus, 2018e; vgl. Nickolaus, 2018b; vgl. Nickolaus, 2018a), den Informationen aus Fachliteratur und lehrbegleitende Literatur zu den jeweiligen Themen, für BWP III beispielsweise Nickolaus (2012) sowie Expert*in‐ neninterviews mit Fachexpert*innen aus der Berufs- und Wirtschaftspädagogik. Die bisherige Punktebewertung, bei der jede Aufgabe zwei Punkte gibt, konnte in der Auseinandersetzung mit einer Codieranweisung nicht durchgängig bestehen bleiben, weshalb teilweise Items mit einem Punkt und Items mit zwei Punkten vorliegen. Während in der realen Prüfung feingliedrige Teilpunkte vergeben wurden, ist in Anlehnung an das Codebuch lediglich die Vergabe voller Punkte vorgesehen. Dies

Instrumente

geht neben statistischen Aspekten drauf zurück, dass damit die Genauigkeit der Bewertung erhöht wird und transparenter auszugestalten ist. Die Anzahl der Items ist in Tabelle 2.1 zu finden. Darin ist erkennbar, dass der Umfang pro Durchgang zwischen den Prüfungen ähnlich ausfällt. Ein Durchgang der Prüfung BWP I weist jedoch die Besonderheit auf, dass die Items in zwei Versio‐ nen (A und B-Version) vorzufinden sind. Dabei wurden nur die Aufgaben in ihrer Position rotiert, insgesamt waren die gestellten Aufgaben jedoch identisch. Tab. 2.1 Verteilung der Items auf die Jahre Prüfung

WS14/15

SS15

WS15/16

SS16

WS16/17

SS17

WS17/18

Ges.

BWP I

29

29

29

26

26

26

26 (A/B)

68

BWP II

23

–

–

23

21

21

21

33

BWP III

25

25

25

25

25

25

25

40

BWP IV

22

22

22

22

22

22

22

29

Die Items wurden teilweise über die verschiedenen Semester rotiert und getauscht, wodurch ein erweiterter Itempool generiert werden konnte, der durch wiederkeh‐ rende Aufgaben miteinander verankert ist. Den Gedanken der Item-Response-Theo‐ rie (IRT) folgend, können die Items auch miteinander in Verbindung gesetzt werden und somit wie die operationalisierten Ausprägungen der latenten Variablen, also die Subdimensionen des berufspädagogischen Wissens, betrachtet werden (vgl. Moosbrugger, 2012). Der Aufgabentyp der Kurzaufgaben stellt in der Prüfung den überwiegenden Teil der Aufgaben dar. Insgesamt kommen zudem sechs Auswahl‐ aufgaben mit einem ja/nein-Schema in der Prüfung BWP II zum Einsatz. Bezüglich der Itemformulierung ist für die vorliegenden Prüfungen davon aus‐ zugehen, dass die Studierenden zentrale Fachbegriffe des Bereichs kennen und verstehen. Ob die Fragen und Formulierungen als solche von den Studierenden verstanden werden, müsste jedoch ausführlicher betrachtet werden. Für Prüfungen, explizit auch die betrachteten Prüfungen, kann eine Verknüpfung von Inhalten ge‐ wünscht sein, beispielsweise wenn es darum geht, Inhalte zu vergleichen oder zu unterscheiden. Durch den Bezug zu den Vorlesungen als erste inhaltliche Grundlage zur Berufspädagogik ist davon auszugehen, dass das Vorwissen bei allen Studieren‐ den vergleichbar ist und die Informationen für alle Studierenden gleich zugänglich sind. Dennoch hat der Besuch der Veranstaltung und die Auseinandersetzung mit der zur Verfügung stehenden Materialien einen gewünschten Effekt auf die Leis‐ tungsentwicklung. Die thematische Ausgestaltung geschah durch die Prüfer, namentlich Prof. Dr. Reinhold Nickolaus und in ausgewählten Fällen Prof. Dr. Stephan Abele, der im Sommersemester 2015 und Wintersemester 2015/2016 die Vorlesung BWP I und die dazugehörige Prüfung betreut hat. Die Vorlesung und Prüfung BWP II wurde

101

102

Methodisches Vorgehen

im Sommersemester 2015 und Wintersemester 2015/2016 nicht durch die Abtei‐ lung Berufs-, Wirtschafts- und Technikpädagogik durchgeführt und wird aus diesem Grund nicht in die Betrachtung miteinbezogen. Die Erfassung weiterer Rahmendaten geschieht lediglich über die Informationen, die auf den Prüfungen zur Zuordnung zur Verfügung stehen. Das betrifft die Matri‐ kelnummer, der als Studierendencode eingesetzt wird, die Personeninformationen über Geschlecht sowie den Studiengang, für den die Prüfung geschrieben wird. Durch den Besuchszeitraum der Prüfung kann zudem das Semester als Variable in die weitere Betrachtung aufgenommen werden. Eine Erfassung weiterer Variablen ist aufgrund der gegebenen Situation nicht möglich. Da bestehende Prüfungen her‐ angezogen werden, ist eine nachträgliche Erfassung zusätzlicher Aspekte nicht ohne weiteres gewährleistet. Aus diesem Grund beschränkt sich die Arbeit auf die Daten der vorliegenden Grundlagenprüfungen.

2.3

Stichprobe

Die Empfehlung an die Studierenden ist, dass die Prüfung BWP I im Wintersemes‐ ter abgelegt wird. Sowohl die Prüfung BWP II als auch BWP III/IV werden für das Sommersemester empfohlen. So verteilen sich die Studierenden über die ver‐ schiedenen Prüfungszeiten unterschiedlich. Über alle betrachteten Semester hinweg haben N = 387 Studierende mindestens eine der Prüfungen geschrieben, teilweise mehrere oder sogar alle Prüfungen. Davon haben N = 293 Personen die Prüfung BWP I im Zeitraum von Wintersemester 2014/15 bis Wintersemester 2017/2018 geschrieben. Aufgrund der fehlenden Semester haben in diesem Zeitraum lediglich N = 160 Personen die Prüfung BWP II geschrieben. Die Prüfung BWP III/IV, die zusammengeschrieben wird, wurde von insgesamt N = 331 Studierenden über die verschiedenen Semester abgelegt. Wenn Personen eine Prüfung häufiger ablegen mussten, werden die Prüfungsversuche in den einzelnen Prüfungen getrennt erfasst, die Gesamtzahl der Studierenden umfasst dabei die Personen ohne Berücksichtigung der Prüfungsversuche. Ausführliche Informationen sind in Tabelle 2.2 zu finden. In der Gesamtstichprobe sind 263 Personen weiblich und 122 Personen männlich. Bei zwei Personen liegt keine Aussage zum Geschlecht vor. Dies entspricht einem Tab. 2.2 Anzahl der Studierenden über die Semester hinweg Prüfung

WS14/15

SS15

WS15/16

SS16

WS16/17

BWP I

90

21

BWP II

25

–

BWP III/IV

38

55

SS17

WS17/18

Ges.

52

12

–

45

66

7

45

293

14

59

17

160

52

66

45

49

26

331

Stichprobe

Frauenanteil von 68 %, der Anteil männlicher Studierender liegt bei 31,5 %. Das zeigt sich in ähnlichem Maß auch bei den jeweiligen Prüfungen. So sind in BWP I 63 % weiblich, in BWP II sind es 64 %, lediglich die Prüfung BWP III/IV weist mit 70 % einen leicht höheren Anteil weiblicher Studierender auf. Bezüglich der betrachteten Studiengänge zeigt sich ein deutliches Ungleichge‐ wicht zugunsten der Zielgruppe der Berufspädagogik ab. Insgesamt haben 264 der Studierenden (68,2 %) die Prüfungen im Rahmen des Studienganges Berufs- und Technikpädagogik im Bachelor abgelegt, 26 Studierende (6,7 %) legten die Prüfung als Leistung des Studiengangs Technikpädagogik im Bachelor ab. Für die Master‐ Studiengänge zeigt sich, dass 52 Studierende (13,4 %) die Prüfung im Rahmen des Studiengangs Technikpädagogik Profil B ablegen, der Anteil der Studierenden im Profil C fällt mit 8 Studierenden (2,1 %) erwartungsmäßig gering aus. Bei 32 Studie‐ renden (8,3 %) war eine genaue Zuordnung zu dem jeweiligen Masterprofil nicht möglich, was eine differenzierte Betrachtung dabei erschwert. Für die Analysen, die den Studiengang betreffen, wurde für die Studierenden eine Zuordnung anhand externer Studierendeninformationen vorgenommen. Drei Studierende haben die Prüfung als Schlüsselqualifikation abgelegt. Die Verteilung über die Studiengänge hinweg ist in Tabelle 2.3 zu finden und zeigt, dass über die verschiedenen Prüfungen hinweg ähnliche Studierendenhäufigkeiten auftreten. Lediglich bei der Prüfung BWP II ist deutlich erkennbar, dass der Anteil der Masterstudierenden deutlich höher ausfällt, als der Anteil Bachelor-Studierender. Tab. 2.3 Verteilung der Studierenden über die Studiengänge Prüfung

B.Sc. TP

B.A. BP

M.Sc. TP B

M. Sc. TP C

M.Sc. TP

SQ

BWP I

19

191

48

1

31

2

BWP II

15

7%

9% BWP III/IV

23 7%

65 %

16 %

11 %

>0 %

86

32

1

25

0

54 %

20 %

1%

16 %

0%

38

7

23

11 %

2%

239 72 %

>0 %

7%

1 >0 %

Auch bezüglich des Studiengangs zeigen sich geschlechtsspezifische Unterschiede. So ist beispielsweise für die Prüfung BWP I der Anteil der Studentinnen in den Studiengängen der Berufspädagogik deutlich höher als dies bei den Studiengängen der Technikpädagogik der Fall ist, bei denen der Anteil Studenten deutlich dominiert. Im Bachelor Berufspädagogik liegt der Anteil weiblicher Studierender bei 77 %, der Anteil männlicher Studierender liegt für den Bachelor Technikpädagogik bei 63 %, bei den Studierenden des Master Technikpädagogik Profil B sogar bei 71 %. Sowohl bei der Prüfung BWP II als auch der Prüfung BWP III/IV fällt das Ergebnis sogar noch deutlicher aus. So liegt dort der Frauenanteil für den Bachelor Berufspädagogik

103

104

Methodisches Vorgehen

bei 87 % bzw. bei 82 %, der Männeranteil für den Master Technikpädagogik Profil B bei den Prüfungen BWP II bei 84 %, für die Prüfung BWP III/IV immerhin noch bei 76 %. Eine Ausnahme stellt die Verteilung bei Studierenden des Bachelor Tech‐ nikpädagogik dar. Während mit 74 % der Anteil männlicher Studierender bei den Prüfungen BWP III/IV im Vergleich zur BWP I erhöht ist, fällt die Verteilung bei der Prüfung BWP II mit einem Anteil männlicher Studierender von 53 % vergleichsweise ausgeglichen aus. Für die Gesamtstichprobe lässt sich dieses Bild ebenfalls bestätigen. Die Ver‐ teilung zeigt, dass 214 der Studierenden der Berufspädagogik (Bachelor) weiblich sind, 50 Studierende sind männlich. Insgesamt sind damit 55,2 % aller Studierender weiblich und studieren Berufspädagogik, die männlichen BP-Studierenden machen 12,9 % aus. Die Studierenden der Technikpädagogik im Bachelor sind demgegen‐ über, wie auch in den einzelnen Prüfungen, häufiger männlich als weiblich. Während alle erfassten Studierenden der Technikpädagogik Profil C weiblich sind, dominiert der Anteil männlicher Studierender bei Studierenden der Technikpädagogik Profil B. Hier sind 38 Studierende männlich und 14 Studierende weiblich. Die männlichen Studierenden der Technikpädagogik Profil B entsprechen damit knapp 10 % aller untersuchter Studierender. Die Masterstudierenden, die keinem genauen Profil zu‐ geordnet werden konnten, sind mit 18 männlichen und 14 weiblichen Studierenden vergleichsweise ausgeglichen mit einem Anteil von 4,7 % bzw. 3,6 % der Gesamtstu‐ dierenden vertreten. Insgesamt zeigen sich somit leicht unausgeglichene Verteilungen. Diese sind aber durchaus erwartungskonform. So zeigen beispielsweise Wyrwal und Zinn (2018) für Studierende der Technikpädagogik an der Universität Stuttgart zu Beginn des Studiums ähnliche Geschlechtsverteilungen und vergleichbare Stichprobenzahlen bei dem betrachteten Studiengang. Für den Studiengang Berufspädagogik liegen keine Vergleichsdaten vor.

2.4

Dateneingabe, Umgang mit fehlenden Werten und eingesetzte Software

Missing data, also fehlende Werte, spielen deshalb eine zentrale Rolle, weil viele Modellverfahren und Testtheorien, beispielsweise die Klassische Testtheorie, eine vollständige Datenstruktur benötigen. Deshalb ist es für die Arbeit bedeutsam, zu überlegen, wie mit fehlenden Werten verfahren werden kann. Es werden dabei drei verschiedene Formen von missing data unterschieden (vgl. Salgado et al., 2016): (1) Missing Completely at Random, (2) Missing Not at Random und (3) Missing at Random. Missing at Random (MAR) ist für die vorliegende Arbeit die wahrscheinlichste Form der fehlenden Werte. Hierbei geht es darum, dass der fehlende Wert dadurch zustande kommt, dass die Angaben durch die Proband*innen fehlen. Dennoch ist

Dateneingabe, Umgang mit fehlenden Werten und eingesetzte Software

dieser Aspekt nicht völlig zufällig, da einige Faktoren dazu führen können, dass der Wert fehlt, beispielsweise Motivation, Zeit, eine mangelnde Fähigkeit o.Ä. (vgl. Salgado et al., 2016). Bei MAR-missings bestehen verschiedene Möglichkeiten damit umzugehen, die auch einen Einfluss auf die Parameterschätzung haben können. Diese Vorgehen sind beispielsweise, den fehlenden Wert als missing zu behandeln, den Wert zu impu‐ tieren oder eine fehlende Angabe als Antwortform zu berücksichtigen (vgl. Rost, 2004; vgl. Salgado et al., 2016). Je nach Wahl des Vorgehens bestehen verschiedene Implikationen für das weitere Vorgehen, weshalb es bedeutsam ist, zu überlegen, wie fehlende Werte behandelt werden. Untersuchungen zeigen, dass sowohl Itemals auch Personenparameter bezüglich fehlender Werte vergleichsweise robust sind. Dennoch ist der Konsens, dass fehlende Werte ignoriert werden sollen, nicht aber als falsch zu werten sein sollten, speziell im Rahmen von Leistungstests (vgl. Pohl et al., 2013). Während Ignorieren zu einer Überschätzung der Fähigkeiten führen kann, kann die Verbuchung fehlender Werte als falsche Antwort zu einer Unterschätzung der Personenfähigkeit führen. Es lässt sich aber zeigen, dass ein Ignorieren fehlender Angaben zu einer Veränderung der Ergebnisse führt, auch wenn andere Ergebnisse vorliegen (vgl. Robitzsch, 2015). Für die vorliegende Arbeit wird davon ausgegangen, dass es sich durch das Vor‐ handensein der Prüfungssituation bei fehlenden Werten nicht um Effekte handelt, die auf Motivation, Zeit, Übersehen der Fragestellung o.Ä. zurück gehen, sondern fehlende Werte als ein Nicht-Wissen auftreten und somit ein falsch beantwortetes Item vorliegt. Diese Entscheidungen gehen auf die testtheoretische Gestaltung der Prüfung als Test unter Berücksichtigung besonderer Bedingungen zurück. Die Daten wurden in der Statistik-Software IBM SPSS Statistics (IBM Corp., 2017; Version 25) eingegeben und kritisch auf Korrektheit der Eingabe untersucht. Anschließend wurden die Daten in einen CSV-Datensatz transferiert und in R im‐ portiert. Alle nachfolgenden Untersuchungen sind mit dem Programm R (R Core Team, 2020; Version 4.0.2) unter Zuhilfenahme von RStudio durchgeführt worden. Zur Unterstützung der statistischen Schritte und zur Beantwortung spezieller Frage‐ stellungen wurde auf verschiedene Packages zurückgegriffen. Im Speziellen werden in der Arbeit die Pakete psych (vgl. Revelle, 2017), TAM (vgl. Robitzsch et al., 2017) und CDM (vgl. Robitzsch et al., 2020) genutzt. Zudem wurden die Pakete car (Fox et al., 2020), cluster (Maechler et al., 2021) und fpc (Hennig, 2020) verwendet. Zur optimalen Arbeit mit den eingesetzten Daten und auf Grund der sich daraus ergebenden komplexen Struktur, speziell bezüglich Nachschreibern und somit dop‐ pelten Personen im Datensatz, wurde im Projektkontext das unveröffentlichte Paket qualikiss entwickelt. Die Entwicklung von Hilfsskripten, Codes und Funktionen wurde im Projektkontext, sofern nötig, im Austausch mit Stefan Behrendt entwickelt.

105

106

Methodisches Vorgehen

2.5

Methodisches Vorgehen

Nachfolgend wird das methodische Vorgehen der Arbeit näher in den Blick genom‐ men. Die eingesetzten Methoden leiten sich dabei aus der Theorie, den bisherigen Befunden, der Stichprobe und besonders aus den Forschungsfragen ab. Die beschrie‐ benen Methoden geben damit nur einen zielgerichtet selektierten Einblick unter Berücksichtigung vorangehender Entscheidungen.

2.5.1

Gütekriterien und deren Überprüfung

Für die Gestaltung eines wissenschaftlichen Tests werden die Gütekriterien als wich‐ tige Bedingung angesehen. Diese Kriterien sind dabei zentral, um die Testqualität bewerten zu können. Klassisch wird zwischen Objektivität, Reliabilität und Validität unterschieden. Zudem können Nebengütekriterien herangezogen werden, beispiels‐ weise die Testfairness (vgl. Moosbrugger & Kelava, 2020). Für eine ausführliche Betrachtung sei an dieser Stelle auf Moosbrugger und Kelava (2020) verwiesen. Die Organisation der Prüfungen, die den Modulabschluss der Grundlagenmodule bilden (vgl. Universität Stuttgart, 2019a), geschieht zentral. Dadurch wurden die Prüfungen in Räumlichkeiten geschrieben, die eine vergleichbare Prüfungssituation gewährleisten. Die Aufsicht der Prüfung geschah durch Mitarbeitende der Abteilung Berufs-, Wirtschafts- und Technikpädagogik der Universität Stuttgart. Eine Befähi‐ gung der Betreuenden ist damit anzunehmen. Der Prüfungsaufbau wurde bereits im Vorfeld mit den Studierenden besprochen und auch vor Beginn der Prüfung erneut mit den Studierenden durchgegangen sowie Rahmenbedingungen wie beispielsweise der zeitliche Rahmen geklärt. Die Aufgaben wurden in schriftlicher Form gestellt. Es kann demnach von kontrollierten Durchführungsbedingungen und einer hohen Standardisierung ausgegangen werden. Durchführungsobjektivität (vgl. Moosbrug‐ ger & Kelava, 2012) wird deshalb als gegeben angesehen. Die Reliabilität, also die Messgenauigkeit des Tests, wird im Rahmen der klassi‐ schen Testtheorie verstanden „als Verhältnis der Varianz der wahren (messfehler‐ freien) und der Varianz der beobachteten (gemessenen) Testergebnisse“(Rost, 2004, S. 376). In der IRT wird im Vergleich dazu zur Bestimmung der Reliabilität in Form der inneren Konsistenz eine Beurteilung auf Grundlage der ICC vorgenommen (vgl. Moosbrugger & Kelava, 2020). Die Schätzung der Messgenauigkeit kann spezifisch über die Varianz des Merkmals und der Varianz der EAP vorgenommen werden. Die so bestimmte EAP/PV-Reliabilität gibt Auskunft über die Messgenauigkeit von Items bezüglich einer bestimmten Dimension. Bei mehreren Dimensionen ist es nötig, diese Schätzung für jede Dimension getrennt vorzunehmen. Zudem wird die Reliabilität des Personenfähigkeitsschätzers über die WLE-Reliabilität abgebildet

Methodisches Vorgehen

(vgl. Terzer et al., 2013). Beide Reliabilitätswerte werden in der vorliegenden Arbeit herangezogen, um die Güte des Schätzers zu bestimmen. Validität, also die Betrachtung, ob die Interpretation der Ergebnisse angemessen und plausibel ist, wird teilweise als das bedeutendste Gütekriterium gesehen. Wichtig ist dabei neben empirischen Evidenzen auch die Betrachtung der theoretischen Überlegungen, Modelle und Gesetzmäßigkeiten (vgl. Schaper, 2014). Eine Validie‐ rung ist demnach das Suchen und Finden von Argumenten für die „Angemessenheit einer Testinterpretation“ (Schaper, 2014, S. 23). Dem Validitätsverständnis von Messick (1994) folgend können fünf Aspekte der Validität unterschieden werden, die für die vorliegende Arbeit relevant sind: – „Inhaltliche Validität: Curriculare und theoretische Absicherung des modellierten Bereichs (content aspect) – Kognitive Validität: Passung der kognitiven Prozesse bei der Kompetenzerfassung zum postulierten theoretischen Kompetenzmodell (substantive aspect) – Strukturelle Validität: Passung von theoretischem Kompetenzmodell und gewähl‐ tem psychometrischem Messmodell (structural aspect) – Verallgemeinerbarkeit: Angemessenheit einer über die Aufgaben- und Personen‐ gruppe hinausgehenden Interpretation (generalizability aspect) – Externe Validität: Angemessenheit mit Blick auf konvergente, diskriminante und prädiktive Zusammenhänge mit anderen Konstrukten (external aspect)“ (Schaper, 2014, S. 26) Wichtig ist bei der Betrachtung der Validität, dass diese Aspekte in Interdependenz zueinander stehen. Eine reine Beschränkung auf ein Validitätsmerkmal ist damit zur Einschätzung der Validität nicht zielführend (vgl. Schaper, 2014). Zur Bestimmung des Erfüllungsgrads der jeweiligen Validitätsaspekte gibt es verschiedene Möglichkeiten. Für die inhaltliche Validität, bei der die inhaltliche Rele‐ vanz sowie die Repräsentativität des jeweiligen Konstrukts im Blick ist, kann mithilfe von Expert*innen analysiert werden, wie hoch die Übereinstimmung ist. Ein dement‐ sprechendes Verfahren hierfür ist die Delphi-Methode (vgl. Kunina-Habenicht et al., 2012). Alternativ ist es denkbar, auf bestehende Curricula zurückzugreifen, um den Erfüllungsgrad der inhaltlichen Validität für das jeweilige Konstrukt zu betrachten (vgl. Schaper, 2014). Dies entspricht dem Verfahren, das in Kapitel 1 Anwendung findet. Für die kognitive Validität spielt die Frage nach der Operationalisierung eine bedeutende Rolle. Des betrifft nicht nur die Passung des Konstrukts mit dem finalen Test, sondern auch die Form der Erhebung und den Erhebungsrahmen. Dadurch ergeben sich mögliche Schwierigkeiten, sollte hier eine Diskrepanz auftreten. Die Bestimmung des Erfüllungsgrades geschieht hierbei neben konkreten Konstruktions‐ überlegungen über die Einschätzung von Expert*innen, aber auch der Untersuchung

107

108

Methodisches Vorgehen

der Bearbeitung und der Prozesse (vgl. Schaper, 2014). Überlegungen dieser Art sind beispielsweise in Kapitel 2.2 aufgegriffen. Bezüglich der strukturellen Validität ist in der IRT vor allem die Modellprüfung über den Vergleich verschiedener Modellstrukturen geeignet, diese näher zu bestim‐ men. Dies geschieht zum einen über eine konfirmatorische Modellprüfung, wie in Kapitel 2.5.6 erläutert sowie über die Itemfit-Statistik, die in Kapitel 2.5.4 erläutert wird. Dabei ist bei Modellvergleichen das Modell zu wählen, das die besseren Kenn‐ werte und damit die höhere strukturelle Validität aufweist (vgl. Embretson & Reise, 2009). Wichtig ist hierbei aber auch explizit die „Passung zwischen theoretischem und psychometrischem Modell“ (Schaper, 2014, S. 33). Das in Kapitel 2.5.5 beschriebene DIF, das untersucht, ob das Modell unabhängig von speziellen Subgruppen ist, kann als ein Aspekt der Verallgemeinerbarkeit ge‐ nannt werden. Dennoch bedeutet auch ein fehlender DIF-Effekt an der Stelle nicht, dass bei anderen Stichproben trotz der spezifischen Objektivität diese Effekte völlig auszuschließen sind (vgl. Schaper, 2014). Bezüglich der externen Validität ist es sinnhaft, weitere Faktoren miteinzubezie‐ hen, beispielsweise „konvergente, diskriminante und prädiktive Zusammenhänge mit anderen Konstrukten“ (Schaper, 2014, S. 26). Vorliegend bietet es sich dabei an, die realen Prüfungsnoten als Leistungsmaß hinzuzuziehen. Die Auswahl weiterer Faktoren ist aufgrund der nachträglichen Generierung eines Tests aus den bestehen‐ den Prüfungen erschwert. Durch diese Verfahren und Gedanken, die in verschiedenen Prüfungsschritten ab‐ laufen, lässt sich ein Kompetenzstruktur- und Kompetenzniveaumodell generieren, das unter Prüfung der verschiedenen Kriterien eine hohe Güte vorweist.

2.5.2

Methodik der Voranalysen

In einem ersten Schritt werden Items, die nur wenigen Studierenden vorgelegt wurden, nicht weiter in die Betrachtung miteinbezogen. Items mit einer relativen Häufigkeit von x < 0.05 bzw 0.95 > x werden ebenfalls in der weiteren Unter‐ suchung nicht berücksichtig (vgl. Moosbrugger & Kelava, 2012). Zu Beginn wird zudem untersucht, ob Items, die in verschiedenen Varianten in den unterschied‐ lichen Testversionen auftreten, signifikante Schwierigkeitsunterschiede aufwiesen. Eine unterschiedliche Variante liegt beispielsweise vor, wenn sich einzelne Begrifflichkeiten, die nicht inhaltsrelevant sind, unterscheiden. Dadurch soll vermieden werden, dass verschiedene Versionen nicht das gleiche Item abbilden, was zu einer Verzerrung führen würde.

Methodisches Vorgehen

2.5.3

Partial-Credit-Model

Zentral ist die Frage, welche Testtheorie für die Bearbeitung fokussiert wird. Dabei wird für die vorliegende Arbeit die Item-Response-Theorie (IRT) 1 als zentrale me‐ thodische Theorie gewählt (vgl. Moosbrugger, 2012). Diese Theorie findet bei der Erfassung von Kompetenzen vielfältige Verwendung (vgl. Winther, 2010). Der Fokus auf die IRT hängt auch mit den Möglichkeiten der Betrachtung von Itemstrukturen und Modellierungsgedanken in Anlehnung an das zugrunde gelegte Kompetenz‐ verständnis und daran gesetzte Bedingungen nach Klieme und Leutner (2006) zusammen. So hat die IRT ihren Namen daher, dass Items eine zufällig gewählte Repräsentation des zugrundegelegten latenten Konstrukts sind. Kennwerte wie der Itemfit, der in Kapitel 2.5.4 betrachtet wird, erlauben dabei Aussagen, wie geeignet die Items real sind. Die Güte erlaubt Aussagen über das gewählte Modell und Kon‐ strukt (vgl. Wright & Linacre, 1994). Dies bedingt auch das methodische Vorgehen zur Generierung dieser Strukturen und Niveaus des berufspädagogischen Wissens als Teil der Fachkompetenz. Das häufig eingesetzte 1-PL-Modell (vgl. Hambleton et al., 1991) weist insofern eine deutliche Beschränkung auf, als dass lediglich dichotome Items damit betrachtet werden können. Gerade in schriftlichen Prüfungen, aber auch zur Erfassung von anderen Merkmalen, beispielsweise Einstellungen, werden jedoch häufig mehrere Punkte pro Item vergeben bzw. es sind mehrere Antwort‐ möglichkeiten möglich. Wenn ein*e Proband*in lediglich nur einen Teil eines Items richtig beantwortet, wird dem Ansatz folgend nur ein Teil der maximal erreichbaren Punktzahl vergeben, man spricht dann von einem Partial-Credit-Model (PCM), das Teilpunkte berücksichtigen kann und eine direkte Erweiterung des Rasch-Modells darstellt (vgl. Geiser & Eid, 2010). Wenn man beispielsweise ein dreistufiges Item betrachtet (maxk = 2), beschrei‐ ben die Kategorienfunktionen, „in welcher Weise die Wahrscheinlichkeit, in eine bestimmte Antwortkategorie k (k = 0, . . . , m) zu fallen (oder diese zu wählen), von der latenten Traitausprägung Θ abhängt“ (Geiser & Eid, 2010, S. 318). Zur Interpretation der Schwellen schreiben Geiser und Eid (2010): Dann können wir uns vorstellen, dass die Wahrscheinlichkeit für die erste Kategorie, P(0), d.h. die Wahrscheinlichkeit, bei dem Item keine der beiden korrekten Alternativen zu entdecken, bei sehr geringer Fähigkeitsausprägung hoch ist und dann mit zuneh‐ mender Fähigkeitsausprägung absinkt. Gleichzeitig steigt mit zunehmender Fähigkeit zunächst die Wahrscheinlichkeit P(1), eine Antwort in Kategorie 1 zu erhalten (d.h. eine, jedoch nicht beide richtigen Lösungen des Items gefunden zu haben). Mit weiter steigender mentaler Rotationsfähigkeit sinkt dann die Wahrscheinlichkeit, nur eine der

1 Eine ausführliche Beschreibung der IRT, den zugrunde liegenden Gedanken und Besonderheiten ist

beispielsweise bei Hambleton et al. (1991) zu finden.

109

110

Methodisches Vorgehen

beiden korrekten Lösungen zu erkennen, wieder ab. Die Wahrscheinlichkeit, P(2), einen Score von 2 (beide korrekten Alternativen erkannt) zu erreichen steigt (Geiser & Eid, 2010, S. 319).

Die Schnittpunkte bestimmen die Übergänge, an denen sogenannte Schwellen, im englischen Thresholds, festgelegt werden. Zur Beschreibung werden die Schwellen‐ parameter τis festgelegt. Dabei können für das PCM bei jedem Item x eine oder mehrere Schwellen s bestehen (vgl. Geiser & Eid, 2010). Daraus ergibt sich folgende Gleichung: exp(xΘ − σix ) P(xvi = x) = Pm s=0 exp(sΘ − σis )

(1)

P Mit ms=0 τis und σi0 = 0 Anhand der Schwellenparamter kann die Ordnung und Position der Schwellen bestimmt werden. Die Distanz zwischen zwei Schwellen kann zudem eine Auskunft über den Anteil der Schwelle im Rahmen der Personenfähigkeit geben. Wenn keine Ordnung zwischen den Schwellen vorliegt, muss zudem die postulierte Ordinalität innerhalb des Items verworfen werden. Dies kann beispielsweise bei unpassenden Antwortkategorien oder ungeeigneten Antwortformaten auftreten (vgl. Geiser & Eid, 2010). Die Itemschwierigkeit σi ergibt sich dabei aus dem Punkt, an dem die Wahrscheinlichkeit, das Item als Repräsentant der Leistung zu beantworten, für den Durschnitt der Proband*innen bei einem festgelegten Wert liegt (vgl. Hambleton et al., 1991). Je nach Untersuchung können die Grenzwerte, die zur Generierung der Itemschwierigkeit herangezogen werden, variieren. Für die vorliegende Arbeit wird dabei in Anlehnung an Hambleton et al. (1991) eine Lösungswahrscheinlichkeit von 50 % gewählt. Θ stellt die Personenfähigkeit der Proband*innen dar (vgl. Hambleton et al., 1991). Da in den Prüfungen Teilpunkte vergeben werden, scheint das PCM zielführend. Eine zweiparametrische Erweiterung wird an dieser Stelle aufgrund der Items, Stich‐ probe und dem erhöhten Messfehler nicht näher berücksichtigt.

2.5.4

Methodische Grundlagen der Skalierung

Während die Eindimensionalität lediglich für eindimensionale IRT-Modelle von Bedeutung ist, gilt die lokale stochastische Unabhängigkeit und die Itemhomogenität für alle IRT-Modelle als Grundvoraussetzung. Ein Verfahren zur Bestimmung der lokalen stochastischen Unabhängigkeit zeigt dabei beispielsweise Yen (1994) in Form der Q3 -Statistik auf. Dieser Ansatz geht darauf zurück, dass die Voraussetzung durch Abhängigkeiten zwischen den Items und durch Mehrdimensionalität verletzt werden (vgl. Christensen et al., 2017). Die Verletzung dieser Voraussetzung macht

Methodisches Vorgehen

sich in der Schätzung der Personenparameter bemerkbar und nimmt einen negativen Einfluss auf die Reliabilität und Validität, die damit nur noch eingeschränkt gegeben ist. Gerade die Reliabilität wird dadurch insofern verzerrt, dass möglicherweise die Genauigkeit überinterpretiert wird (vgl. Christensen et al., 2017). Zur Bestimmung der lokalen Abhängigkeit (Local Dependency, LD) werden die Pearson-Korrelationen der Residuen herangezogen, wobei erwartet wird, dass die Residualkovarianzen untereinander sehr gering ausfallen. Besonders brauchbar für die vorliegende Arbeit ist das Verfahren vor dem Hintergrund, dass es im Rahmen des Rasch-Modells und des Partial-Credit-Modells häufig zum Einsatz kommt (vgl. Christensen et al., 2017). Aufgrund der Stabilität bezüglich der Anzahl der Items wird dabei zum Einsatz der Erweiterten Form des Q3,max -Tests geraten, die sogenannte Q3,∗ -Teststatistik. Es existiert dabei kein klarer Grenzwert, ab wann die Werte zu hoch ausfallen, da dies situationsabhängig ist, es zeigt sich aber, dass die Q3,∗ -Teststatistik für 1000 Personen bei 20 Items um einen Grenzwert von .2 vergleichsweise stabil misst, Werte von >.2 auf eine lokale Abhängigkeit hinweisen und Items mit einem Zusammenhang von >.3 als ungeeignet gesehen werden. Dennoch muss in diesem Fall individuell abgewogen werden, ob die lokale Abhängigkeit in Realsituationen zu einem Ausschluss der Items o.Ä. führen muss, da auch höhere Werte je nach Situation anzunehmen sind (vgl. Christensen et al., 2017). So sollte das 95. Perzentil bzw. das 99. Perzentil zur Bestimmung möglicher Grenzwerte herangezogen werden (vgl. Christensen et al., 2017). Durch die vorliegende Gesamtstichprobe lässt sich zudem auf die spezifische Objektivität schließen, die deshalb hier nicht näher betrachtet wird. Homogenität umfasst über die Itemhomogenität hinaus die Personenhomogenität, die davon ausgeht, dass Personengruppen zur Beantwortung einer Fragestellung die gleichen latenten Fähigkeiten heranziehen (vgl. Rost, 2004). Eine Möglichkeit der Bestim‐ mung der Personenhomogenität sind DIF-Analysen, die untersuchen, ob ein Test für verschiedene Bezugsgruppen fair misst (vgl. beispielsweise Greiff, 2012). Itemfit-Statistiken dienen dazu, näher zu betrachten, ob Items und Personen zum jeweiligen Modell passen. Dies geht darauf zurück, dass es sich um Schätzungen handelt und somit ermittelt werden kann, welche Personen und Items nicht zur Schätzung des Modells geeignet sind. Die Fit-Überprüfung ist deshalb wichtig, weil die Daten zur Schätzung möglicherweise nicht zu den restlichen Daten und dem Modell passen und dadurch zu einer Divergenz führen können. Dabei ist das Be‐ merken eines Misfits nicht automatisch ein Grund für einen Ausschluss, sondern vielmehr ein Grund zur Überlegung, wieso die Daten nicht passen und möglicher‐ weise eine Grundlage, die Daten und das Modell zu überdenken, weil die Gründe für einen Misfit vielfältig ausfallen können (vgl. Köhler & Hartig, 2017). Während der Personenfit andeutet, ob das Antwortverhalten einer Person bei mehreren Items nicht zu dem erwartbaren Muster passt, betrachtet der Itemfit die Antworten mehre‐

111

112

Methodisches Vorgehen

rer Proband*innen zu einem Item. Misfit tritt beispielswiese auf, wenn viele starke Proband*innen eine leichte Aufgabe nicht beantworten können oder eine schwere Aufgabe von schwachen Proband*innen besser gelöst werden kann als von fähigeren Proband*innen. Die hierzu herangezogenen Verfahren des Infits und Outfits sind dabei Chi2 -Verfahren (vgl. Boone et al., 2014). Infit betrachtet, ob die gegebenen Antworten nahe an der zu erwarteten Perso‐ nenfähigkeit oder Itemschwierigkeit liegen, oder ob die Informationen weit davon abweichen. Outfit betrachtet im Gegensatz dazu, ob Ausreißer in den Schätzungen vorliegen, beispielsweise durch raten oder gedankenlose, nicht durch Unkenntnis er‐ zeugte Fehler. Die Outfit-Statistik ist sensibler bezüglich Ausreißern, da im Vergleich zum Infit keine gewichtete Item Fit Statistik vorliegt (vgl. Boone et al., 2014). Je nach Quelle gibt es keine Einheitlichkeit, welcher Wert zentraler zu betrachten ist, da dies durchaus situationsspezifisch sein kann. Boone et al. (2014) raten beispielsweise zur Fokussierung auf Outfit, der Infit ist eher bedeutsam, wenn einige irrelevante Ausreißerdaten vorliegen (vgl. Boone et al., 2014). Die Interpretationen variieren dabei grundsätzlich, je nachdem, was betrachtet werden soll (vgl. Wright & Linacre, 1994), was durchaus kritisch gesehen werden kann. In einigen Werken wird die Empfehlung von Wilson (2012) herangezogen, dass als unterer Grenzwert .75 und als oberer Grenzwert 1.33 empfehlenswert sei und sich in verschiedenen Studien als zielführend gezeigt hat (vgl. Wilson, 2012). Dennoch ist auch dieser Grenzwert kritisch zu sehen, da dieser abhängig von der Stichprobe und der Itemanzahl ist. Wie bereits in vorigen Grenzbereichen könnte das 95. bzw. 99. Perzentil hier eine, für die Stichprobe korrekte Grenzbetrachtung erlauben. Deshalb wird neben der Fokussierung auf den Idealwert von 1 das Konfi‐ denzintervall für die Bewertung des Itemfits herangezogen. Für die vorliegende Arbeit werden sowohl der Infit als auch der Outfit betrachtet, wobei der Infit durch die Standardisierung das fokussierte Maß für die Bestimmung des Itemfits ist. Für die Betrachtung wird dabei untersucht, inwiefern die gegebenen Werte vom Idealwert von 1 abweichen, bei zu großen Abweichungen im Vergleich zur Einschätzung von Wilson (2012) wird eine mögliche Anpassung angestrebt. Da‐ bei wird eine Eliminierung von Items immer unter Berücksichtigung der inhaltlichen Validität abgewogen. Der root mean square Deviation (RMSD) ist ein Maß, das die Invarianz der Itemparameter einer ausgewählten Gruppe in den Blick nimmt (vgl. Buchholz & Hartig, 2019). Dieses Maß liefert Indizien für ein Vorliegen von Messinvarianz (vgl. Maydeu-Olivares, 2013). Dieses Vorgehen wurde in der PISA-Studie 2015 an einem generalisierten Partial Credit Model eingesetzt und bietet die Möglich‐ keit zu bestimmen, ob Noninvarianz auf Step- oder Itemebene auftritt. Sowohl die Itemschwierigkeit als auch Diskriminationsparameter werden zur Bestimmung des RMSD herangezogen und sind eine sensitive Stellgröße. Eine Übertragung auf das PCM ist möglich. Der RMSD kann Werte zwischen 0 und 1 annehmen, wobei grö‐

Methodisches Vorgehen

ßere Werte einen schlechteren Itemfit darstellen. Daraus lässt sich ableiten, ob die Parameter die Daten der betrachteten Gruppe besser oder schlechter beschreiben. Von Misfit wird bei Buchholz und Hartig (2019) ab einem Wert von RMSD > .1 für Wissensskalen und von RMSD > .3 bei Fragebogenkonstrukten gesprochen, wobei aus den Werten der einzelnen Items auf den RMSD im Mittel geschlossen wird (vgl. Buchholz & Hartig, 2019). Maydeu-Olivares (2013) benennt im Gegensatz dazu einen Wert von RMSD > .05 als grenzwertig, betont dabei aber deutlich, dass die Bestimmung des Konfidenzintervalls als Grundlage zur Festlegung, ob der RMSD wünschenswert ist, herangezogen werden soll. Dies geht auch darauf zurück, dass verschiedene Aspekte einen Einfluss auf die Bestimmung der Kennwerte haben (vgl. Maydeu-Olivares, 2015). Köhler et al. (2020) gehen dabei auf die Dynamik der Grenzwerte näher ein. Zur Prüfung der Fits der Prüfungen werden in der vorliegenden Arbeit damit auf den Itemfit in Form des Infits und Outfits, die Q3,∗ -Teststatistik, die EAP/PV- und die WLE-Reliabilität sowie RMSD auf Itemebene und als Mittelwert zurückgegriffen. Die Reliabilitäten dienen dabei primär vergleichend, um die Modellveränderungen im Rahmen von möglichen Prozessen kritisch zu bewerten. In einem ersten Schritt wird jeweils unter Berücksichtigung theoretischer und inhaltlicher Überlegungen, eine methodische Anpassung in Richtung der jeweiligen Idealwerte der Kennwerte vorgenommen, sofern nötig. Wenn eine inhaltliche Veränderung nicht weiter nahe‐ liegend erscheint, wird dabei von einem inhaltlichen Idealmodell ausgegangen. Zum Vergleich des inhaltlichen Idealmodells mit den statistischen Kriterien werden die Werte des Idealmodells mit den für dieses Modell geltenden Grenzwerten abgegli‐ chen. Eliminierungen werden dabei jedoch nur vorgenommen, wenn Items deutlich auffällig sind und inhaltlich nicht zur Konstruktabdeckung beitragen.

2.5.5

Differential Item Functioning

Bezüglich der Testwertinterpretation spielt auch die Betrachtung des Differential Item Functioning (DIF) eine wichtige Rolle (vgl. Moosbrugger & Kelava, 2020). Besonders im Kontext von large scale assessments (vgl. McElvany et al., 2016) wie beispielsweise im Rahmen der PISA-Studie ist dieses Verfahren dabei deutlich in den Fokus der Betrachtung gerückt. Untersuchungsgegenstand ist beispielsweise, ob Items für Personen mit Migrationshintergrund bei gleicher Fähigkeit anders messen (vgl. Dinis da Costa & Araújo, 2012). Ein Item ist dabei bei dem hier relevanten non-uniformen DIF als gleich schwer zu verstehen, wenn die Itemschwierigkeit für die betrachteten Gruppen vergleichbar ausfällt (vgl. Xi, 2010). Dabei ist wichtig, dass keine Gruppe bevorzugt wird und die Testitems für alle Proband*innen gleich lösbar sind. Gleichheit ist dabei die gleiche Wahrscheinlichkeit zur Lösung eines Items, ohne dass weitere Kriterien

113

114

Methodisches Vorgehen

auf die Lösungswahrscheinlichkeit Einfluss nehmen. Die Einflussfaktoren können vielfältig sein, vorliegend beispielsweise der Studiengang, für den die Veranstaltung besucht wird und damit einhergehend unterschiedliche Themenschwerpunkte der Studierenden, aber auch das Semester, in dem die Prüfung geschrieben wird. Um diese Unterschiede zu ermitteln, werden DIF-Effekte betrachtet. Der Begriff fasst dabei verschiedene Methoden zusammen, die beispielsweise auf Grundlage der IRT ermitteln, ob Unterschiede einen kritischen Punkt überschreiten. Speziell für Rasch-skalierte Items (vgl. Martinková et al., 2017) und PCMs (vgl. Abou El-Komboz et al., 2014) existiert ein fundierter Methodenpool. Der Fokus wird in der Arbeit auf Methoden liegen, die sich an den Folgearbeiten zur PISA-Studie orientieren (vgl. Chen und Jiao, 2014; vgl. Yildirim und Berberogˆlu, 2009; vgl. Yildirim und Yildirim, 2011). Speziell für polytome Variablen wird dabei ein faktoranalytisches Verfahren in den Blick genommen (vgl. Grisay und Monseur, 2007; vgl. Grisay et al., 2007; vgl. Segeritz und Pant, 2013). Einen ausführlichen Überblick zu methodischen Gedanken und der empirischen Berechnung bieten dabei Yildirim und Yildirim (2011). In diesem Verfahren, das für die vorliegende Arbeit am zielführendsten ist, wer‐ den die Kommunalitäten auf Grundlage einer einfaktoriellen Komponentenanalyse (PCA) bestimmt. Der Grenzwert, der von Grisay und Monseur (2007) mit >.7 für die Kommunalität festgelegt wurde, wird in den Arbeiten mit Daten der PISA-Studie nahegelegt, eine Begründung für die Grenze liegt jedoch nicht vor (vgl. Grisay und Monseur, 2007; vgl. Grisay et al., 2009). Neben der Kommunalität wird als weiterer Faktor die mittlere absolute Abweichung (mean absolute deviation – MAD) her‐ angezogen, die die durchschnittliche Streuung der einzelnen Items vom Mittelwert betrachtet. Der hier angeführte Grenzwert wird mit 0.5 Logits festgelegt, auch hier wird dieser Grenzwert nicht spezifiziert (vgl. Grisay et al., 2009). Speziell im Hochschulbereich ist die Befundlage zu DIF vergleichsweise gering. Zwar gibt es Versuche, den DIF, speziell bezüglich des Geschlechts, gering zu halten (vgl. Findeisen, 2017), ansonsten gibt es gerade hier bisher wenige Informationen zu DIF-Effekten. Eine Unterscheidung zwischen Lehramtsstudierenden und Fach‐ studierenden zeigt für differenzierte Studiengänge in der gleichen Veranstaltung, dass erwarteterweise Fachstudierende bei fachspezifischen Veranstaltungen Vorteile haben (vgl. Woitkowski, 2015). Dies führt dazu, dass DIF-Analysen bezüglich des Studiengangs relevant werden. Die in dieser Arbeit vorliegenden Daten werden methodisch in Anlehnung an Grisay et al. (2009) analysiert. Als erster Kennwert wird die aus der Hauptkompo‐ nentenanalyse der betrachteten Gruppen bestimmte Kommunalität in Anlehnung an die Arbeiten von Grisay und Monseur (2007) sowie Grisay et al. (2007), die bereits vielfältig erprobt wurden, gewählt. Zudem wird, zur Bestimmung eines globalen DIF-Indikators auf den MAD zurückgegriffen. Die Autoren setzen dabei für die Indikatoren Grenzbereiche an, ab denen für eine Gruppe bedenkenswerte Werte angenommen werden (vgl. Grisay et al., 2009). Eine Begründung für diese Werte

Methodisches Vorgehen

wird jedoch nicht weiter erläutert, weshalb in dieser Arbeit auf die Idealwerte hin analysiert wird. Anschließend werden die Kennwerte mit statistisch bestimmten Grenzwerten abgeglichen und Abweichungen angepasst und bestimmt. In der vor‐ liegenden Arbeit werden die Grenzwerte auf Basis des 95 %-Konfidenzintervalls bestimmt. Das für die DIF-Analysen herangezogene Verfahren auf Grundlage einer faktor‐ analytischen Bestimmung der Kommunalität und der MAD bietet eine Besonderheit, die für die Beantwortung der Hypothesen jedoch zu einer Schwierigkeit führt. Durch das Heranziehen von Verfahren der Klassischen Testtheorie ist es nötig, dass für jede Ausprägung mindestens ein Wert in jeder Gruppe vorhanden sein muss (vgl. Yildirim & Yildirim, 2011). Speziell bei Prüfungen liegt jedoch die Besonderheit vor, dass nicht in jedem Semester alle Items geprüft werden, sondern lediglich Teile als Ankeritems regelmäßig vorhanden sind. Dennoch sind Ankeritems vorhanden, die in verschiedenen Semestern auftreten, um den Bezug zwischen den Prüfungen aus testtheoretischer Sicht herzustellen. Somit ist hier für eine Betrachtung des Semes‐ ter-DIF lediglich eine Aussage für die Ankeritems möglich, die in allen Prüfungen vorhanden sind. Eine reine Gegenüberstellung der jeweiligen Prüfungszeitpunkte zueinander ist für die Betrachtung des DIF nicht zielführend, da die sich daraus erge‐ benden Aussagen gering sind. Diese Ergebnisse liefern dabei eine Tendenz bezüglich der Betrachtung der Gesamtprüfung. Eine Schwierigkeit bietet zudem die geringe Stichprobe. Da teilweise nur Nachprüfungen in Semestern miteinbezogen werden, ist der Aussagegehalt hier nur für diese Subgruppe möglich. Dennoch soll zum tieferen Verständnis eine Betrachtung der Prüfungen vorgenommen werden, jedoch aus der Betrachtung der Ankeritems keine Implikationen für die Prüfungsskalierung abgleitet werden.

2.5.6

Modellvergleich

Nach der Wahl des Modells bleibt die Frage offen, ob das erwartete Modell mit dem realen Modell konform ist und ob andere Modelle möglicherweise besser geeignet sind. Bei der Modelltestung wird dabei das reale Antwortverhalten für ausgewählte Items mit dem geschätzten Verhalten, das aus dem Modell abgeleitet wird, vergli‐ chen. Als Verfahren werden dazu asymptotische χ2 -Tests herangezogen, wobei der Likelihood-Ratio-(LR)-χ2 -Test sowie die Pearson-χ2 -Statistik als gängigste Ver‐ fahren gelten. Die Modellpassungsuntersuchung benötigt jedoch eine erwartete Häufigkeit, die über 1 liegt, was real teilweise als schwer zu erfüllen gilt (vgl. Geiser & Eid, 2010), wie beispielsweise vorliegend mit einer großen Anzahl an Items aber nur einer vergleichsweise geringen Stichprobe. So sind zu große Unterschiede zwischen χ2 -Verteilungen und p-Werten ein Indiz dafür, dass eine Interpretation vermieden werden sollte. Eine Überinterpretation

115

116

Methodisches Vorgehen

führt in vielen Fällen jedoch zu einer zu frühen Verwerfung des Modells. Begrün‐ det wird dies damit, „dass die meisten IRT-Modelle (wie viele andere statistische Modelle auch) Annahmen machen, die eine Vereinfachung der Realität darstellen“ (Geiser & Eid, 2010, S. 323). Deshalb ist der relative Modellfit im Gegensatz zum absoluten Modellfit als eine denkbare Alternative zu sehen (vgl. Geiser & Eid, 2010). Dazu schreiben Geiser und Eid (2010): Häufig verwendete Indices zum Modellvergleich sind die so genannten informations‐ theoretischen Maße oder Informationskriterien (information criteria, IC). Hierzu zählen z. B. Akaike’s Information Criterion (AIC) und das Bayes Information Criterion (BIC; zu den Formeln siehe z. B. Rost 2014, S. 342). IC berücksichtigen neben der Model‐ lanpassung auch die Anzahl der geschätzten Modellparameter als Indikator für die Modellsparsamkeit. Modelle mit vielen freien Parametern werden von den IC „bestraft“ da sie weniger sparsam sind. In der Praxis werden die zu vergleichenden Modelle anhand der IC in eine Rangreihe gebracht und das Modell mit dem kleinsten IC-Wert wird ausgewählt (Geiser & Eid, 2010, S. 324).

In der vorliegenden Arbeit wird das oben beschriebene relative Verfahren zur Be‐ stimmung des geeigneten Modells herangezogen. Neben dem AIC und dem BIC wird darüber hinaus auch der AICc als Kennwert vorgeschlagen. Das geht darauf zurück, dass der AICc eine korrigierte Version des AIC darstellt. Die Korrektur ge‐ schieht dabei hinsichtlich der Stichproben, da die Formel zur Berechnung des AICc zusätzlich Freiheitsgrade und die Stichprobe in Relation setzt. Dies ermöglicht eine generalisierte Betrachtung, wodurch der AICc auch häufiger eingesetzt wird, um Mo‐ delle miteinander zu vergleichen (vgl. Hurvich & Tsai, 1989). Die Skaleneigenschaft der Ordinalität bleibt dabei erhalten, wodurch auch hier lediglich die Kennwerte miteiander verglichen werden, jedoch keine generalisierte Modell-Aussage aus dem generierten Kennwert getroffen werden kann. Mit der Wahl für das Modell mit dem geringsten Wert können die anderen Modelle darüber hinaus ignoriert bzw. verworfen werden (vgl. Snipes & Taylor, 2014). Zur Bestimmung des g-factor-Modells wird mit den bestehenden Daten ein Bifac‐ tor-Modell errechnet, aus dem der g-factor abgeleitet wird (vgl. Koch et al., 2018). Zur Beantwortung der Frage, ob ein g-factor-Modell vorliegen kann, wird ωh näher betrachtet und mit den Werten von ωtotal verglichen. ωh sollte bei Vorliegen eines Generalfaktormodells hoch ausfallen, da dadurch die Modellvarianz im Vergleich zur Gesamtvarianz bestimmt wird. Zudem muss der Wert von ωtotal höher ausfallen als der Wert von ωh (vgl. Debatin et al., 2018; vgl. Gignac, 2015).

Methodisches Vorgehen

2.5.7

Methodik der Prüfungsvergleiche

Um die Ergebnisse der inhaltlichen und strukturellen Validität näher in Verbindung mit den realen Prüfungen zu setzen ist bisher noch ungeklärt, ob die statistisch analysierte Prüfung, die in den Skalierungen durchaus Veränderungen aufgrund statistischer Bedarfe erfahren kann, weiterhin mit der zugrunde gelegten Prüfung zu vergleichen ist. Dies hängt auch damit zusammen, dass die Prüfungen im Vorfeld der Analysen komplett neu kodiert und durch Experten geratet wurden, im Gegensatz dazu aber die grundlegenden Prüfungen im Rahmen des Tagesgeschäfts bewertet werden und ein Codebuch bei Prüfungen in vielen Fällen oftmals nicht vorliegt. So‐ mit spielt das implizierte Wissen der Lehrenden im Bewertungsprozess die zentrale Rolle. Oftmals ist eine Explikation dieses Wissens nur schwer möglich (vgl. Schewe & Nienaber, 2011). Um die Vergleichbarkeit zwischen der zugrunde gelegten, implizit korrigierten Originalprüfung mit der statistisch sauber analysierten Prüfung zu betrachten, erge‐ ben sich durch die Analysen erschwerte Situationen. Im Skalierungsprozess werden einzelne Items nicht weiter miteinbezogen, Items zusammengefasst oder anders kodiert. Zudem werden in den real eingesetzten Prüfungen auch Teilpunkte pro Auf‐ gabe, teilweise in 0,25-Punkt-Schritten, vergeben, was bei der statistisch analysierten Prüfung aufgrund der entstehenden Komplexität und Reduktion der Ausprägungen nicht vorgenommen wurde. Denkbar als Kriterium für die Vergleichbarkeit scheint die jeweilige Leistung. Eine aus der statistisch geschätzten Skalierung generierte Leistung sollte demnach mit den real existierenden Note vergleichbar sein, wenn davon ausgegangen werden soll, dass die statistisch geschätzte Prüfung und die Realprüfung als vergleichbar anzuse‐ hen sein sollten. Um dies zu gewährleisten, werden die realen Prüfungsnoten dem jeweiligen Prüfungsdatensatz hinzugefügt und mit den WLE-Personenfähigkeiten korreliert. Daraus lässt sich ein Mittelwert über alle Studierenden hinweg bestimmen, der den Zusammenhang zwischen der statistisch betrachteten und der realen Prüfung darstellt. Durch die Richtung der Note sollte diese Korrelation negativ ausfallen. Die so generierten Werte sollten sich demnach möglichst nahe an -1 orientieren (vgl. Schober et al., 2018). Darauf aufbauend werden die jeweiligen Noten der Personen herangezogen, um zu ermitteln, mit welcher Personenfähigkeit die jeweilige Note erreicht wird, um daraus die Notenbereiche zu bestimmen, die in der statistisch orientierten Prüfung aus der Leistung folgt. Dies hat den Vorteil, dass die Note und die Personenfähigkeit auf einer Skala abgebildet werden kann. Die Standardabweichung kann dabei herangezogen werden, um die Spanne der erreichten Personenfähigkeiten bei der jeweils erhaltenen Note zu verdeutlichen. Ein vergleichbares Vorgehen ist beispielsweise bei Büchter und Pallack (2012) für den schulischen Bereich zu finden, die Autoren greifen ebenfalls auf die WLE-Personenfähigkeit zurück (vgl. Büchter & Pallack, 2012).

117

118

Methodisches Vorgehen

2.5.8

Methodik der Niveaumodellierung

Aufgrund der Limitationen, die sich für die vorliegenden Daten bei einer Generie‐ rung der Niveaus auf Grundlage schwierigkeitsbestimmender Aufgabenmerkmale ergibt und der Tatsache, dass gängige, sich als zielführend erwiesene Merkmale, nicht umfänglich zur Beschreibung der Kompetenzniveaus auf allen Punkten der Skala herangezogen werden können (vgl. Just et al., 2021), scheint der Ansatz nach Beaton und Allen (1992) für die Beschreibung der Kompetenzniveaus zielführend. Eine Schwierigkeit liegt dabei häufig in der Bestimmung der Schwellenpunkte, die den Übergang zwischen den Niveaustufen darstellen. Gängige größere Vergleichsstu‐ dien, wie NAEP oder PISA, wählen die Ankerpunkte der Schwellen über festgelegte Stufen, beispielsweise in 50er-Schritten der jeweils gewählten Skala (vgl. Beaton und Allen, 1992; vgl. OECD, 2012). Eine Alternative ist auch eine Generierung der Ankerpunkte über Mittelwerte ausgewählter relevanter Besonderheiten. Dadurch ist eine Abgrenzung der Niveaustufen beispielsweise anhand der jeweiligen Noten möglich (vgl. Forsyth, 1991). Dieser Ansatz wird nachfolgend zur Generierung der Ankerpunkte herangezogen. Dieses Verfahren namens Embedded Standard Setting gruppiert hierbei Items an‐ hand statistischer Analysen und zieht die Items zur Bestimmung der Grenzwerte heran, wobei dieser Wert das Ideal unter Berücksichtigung der Items darstellt. Dies sorgt dafür, dass der Messfehler so gering wie möglich ist. Das Verfahren hat sich dabei bereits bewährt und wird im amerikanischen Raum vielfältig eingesetzt (Lewis & Cook, 2020). Über dieses Vorgehen werden in der vorliegenden Untersuchung die idealen Schwellen zwischen den Notenstufen gebildet. Die Generierung erfolgt auf Grund‐ lage der plausible values (vgl. Beaton & Allen, 1992), um möglichst genaue Aussagen zu generieren. Die Feingliedrigkeit der Notenstufen wird dabei insofern berücksich‐ tigt, dass die Schwellen auf Basis der vollen Notenstufen gebildet werden und jeweils bei dem Übergang zwischen den jeweiligen Noten die Schwellengrenze gezogen werden. Zur Schwellenbeschreibung werden die Items berücksichtigt, die von Stu‐ dierenden, die auf dieser Stufe einzuordnen sind, zu einer hohen Wahrscheinlichkeit gelöst werden können (vgl. Beaton & Allen, 1992). Für die vorliegende Arbeit wird dabei Pj,k > .65 gewählt. Darauf aufbauend sollen die Aufgaben von Studierenden auf dem darunterliegenden Niveau wahrscheinlich nicht gelöst werden (vgl. Beaton & Allen, 1992). Da lediglich ein eingeschränkter Anteil an Items zur Beschreibung der Niveaus vorliegt, wird hierfür die Lösungswahrscheinlichkeit von unter 55 % angesetzt. Demnach sollte Pj,k−1 = .55 gelten. Die Kombination beider Kriterien erlaubt die Auswahl der jeweiligen Items, die zur Beschreibung der Niveaustufen herangezogen werden. Eine Generalisierung der Merkmale dieser Items, unter Be‐ rücksichtigung der inhaltlichen Quellen zur Beschreibung der Inhalte oder unter Miteinbezug von Expert*innen, beispielsweise der Lehrenden, erlaubt eine Beschrei‐

Methodisches Vorgehen

bung der Niveaustufen (vgl. Beaton & Allen, 1992). In der vorliegenden Arbeit wird das Modulhandbuch der jeweiligen Subdimension, das Basiscurriculum sowie gängige Fachliteratur zur Beschreibung der Niveaus durch den Autor unter Mit‐ einbezug weiterer Lehrender und deren Expertise gewählt. Zudem dient die Arbeit von Maisch (2020), die sich im Rahmen einer Abschlussarbeit im Projektkontext mit den Niveaus auf Grundlage der bestimmten Schwellen näher befasst hat, als Beschreibungsgrundlage. Zur Erstellung der Schwellen werden die jeweiligen No‐ tenstufen herangezogen, spezifischer jeweils der Übergang zwischen den Noten. Dies erlaubt die Bildung von Niveaubeschreibungen, welche Anforderungen Studierende auf der jeweiligen Notenstufe bezüglich der jeweiligen Prüfung bewältigen können. Zur näheren Betrachtung der Schwellenwerte auf der Skala der Personenfähigkeiten, wird über die WLE-Personenfähigkeit der Personen und der Note bestimmt, an welcher Stelle, basierend auf der Fähigkeitsdifferenzierung, der Übergang zwischen den Notenstufen statistisch liegt. Für nachfolgende Analysen werden Kategorienzu‐ ordnungen herangezogen, die sich aus der statistisch generierten Note anhand der gewählten Schwellen ergibt.

2.5.9

Umgang mit Grenzwerten

An verschiedenen Stellen der bisherigen Betrachtung wird betont, dass die Grenz‐ werte anhand der Konfidenzintervalle bestimmt werden sollten, obwohl einige Au‐ toren Vorschläge unterbreiten, an welcher Stelle mögliche Grenzen gesetzt werden können. Christensen et al. (2017) betonen dabei, dass diese Grenzwerte lediglich für die jeweiligen Arbeiten gesehen werden können, da diese nur für die vorlie‐ gende Anzahl an Proband*innen und Items zu werten ist. Simulationen mit anderen Stichproben zeigen bei der Q3,∗ -Teststatistik, dass die Werte vergleichsweise nahe beieinander liegen, jedoch trotzdem Unterschiede auftreten können (vgl. Christen‐ sen et al., 2017). Für die vorliegende Arbeit soll deshalb diese Problematik aufgenommen werden aber auch klare Limitationen in der Umsetzung nicht unerwähnt bleiben. Simu‐ lationsstudien zur Bestimmung der Grenzwerte sind teilweise sehr komplex und müssen für jeden Analyseschritt ausführlich durchdacht und umgesetzt werden. Zur Erhöhung des Fits soll in allen Fällen theoriegeleitet versucht werden, möglichst nahe an die als optimal erachteten Werte zu kommen, für die Q3,∗ -Teststatistik sowie den RMSD ist dies ein Wert von 0 (vgl. Buchholz und Hartig, 2019; vgl. Christensen et al., 2017), für den Infit und Outfit sowie die EAP/PV- sowie WLE-Reliabilität wird ein Wert von 1 angestrebt (vgl. Wright & Linacre, 1994). Sofern eine weitere theorieba‐ sierte Verbesserung des Modells unter Berücksichtigung der Kennwerte nicht weiter zielführend erscheint, wird mithilfe der Konfidenzintervalle untersucht, inwieweit das entstandene Modell die Kriterien erfüllt. Von weiteren Modellanpassungen wird

119

120

Methodisches Vorgehen

an dieser Stelle aufgrund der theoriegeleiteten Konzeption und dem Fokus der Arbeit abgesehen, eine Berücksichtigung der Ergebnisse aber vorgenommen. Eine ähnliche Problematik liegt bei den DIF-Analysen vor. Die im Rahmen von Grisay et al. (2009) angesprochenen Grenzwerte, die auch bei PISA angewendet werden, basieren auf keiner fundierten Bestimmung. Zur Festlegung, ob eine Test‐ fairness vorliegt, wird hierbei aus diesem Grund ebenfalls die Bestimmung des Konfidenzintervalls vorgenommen. Werte des MAD sollten dabei möglichst nahe des Nullpunktes liegen, während die Kommunalität möglichst nahe der 1 liegen sollte. Wie bereits oben angesprochen werden Implikationen daraus gezogen, um mögliche Begründungen für die auftretenden Effekte zu untersuchen. Modellan‐ passungen werden dabei jedoch nur bei einer großen Anzahl an auffälligen Items vorgenommen. In beiden Fällen geht das Vorgehen auf die Problematik zurück, dass der Fokus auf der Betrachtung von Items liegt, die nicht explizit zur statistischen Analyse als Test generiert wurden. Deshalb spielt auch die theoretische Betrachtung eine wich‐ tige Rolle und ein Ausschluss der Items sollte nur begründet durchgeführt werden. Die Grenzwerte, die sich aus dem 95 %-Konfidenzintervall bzw. dem 95. Perzentil ergeben, sind dabei lediglich als Orientierung anzusehen, ob die Modellbildung weitestgehend gelungen ist. Weitere Modellanpassungen würden dabei zu einer neuen Bestimmung der Grenzen führen, auf diesen Prozess wird aus diesem Grund verzichtet.

III

Empirische Befunde

1

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

Nachfolgend wird die inhaltliche Validität der Module und Prüfungen der Berufsund Technikpädagogik an der Universität Stuttgart untersucht. Als Referenzsystem wird dabei das in Kapitel 8 näher betrachtete Basiscurriculum herangezogen. Der zugrunde liegende Gedanke ist dabei, dass dieses durch fachliche Expert*innen ausgestaltet wurde. Dadurch ist laut den Autor*innen des Basiscurriculums in ei‐ nem gegenseitigen Austauschprozess eine inhaltlich valide Orientierungshilfe für die Gestaltung der Hochschullehre der Berufs- und Technikpädagogik konzipiert worden (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufsund Wirtschaftspädagogik, 2014). In einem ersten Schritt wird deshalb eine Gegenüberstellung des Basiscurriculums mit den jeweiligen Modulen ‚Einführung in die Berufspädagogik‘, ‚Organisationen beruflicher Bildung‘, ‚Didaktik beruflicher Bildung‘ sowie weitere Aspekte in den Modulen, die sich im Basiscurriculum finden können, vorgenommen. Anschließend werden die Inhalte des Basiscurriculums mit den eingesetzten Modulabschlussprü‐ fungen verglichen. Eine abschließende Betrachtung ermöglicht, den Gedanken des CA zu spezifizieren und untersucht, inwiefern sich die Inhalte der Module in den Modulabschlussprüfungen wiederfinden. Die zentralen Inhalte der Module und Prüfungen werden dabei mit den Inhal‐ ten des Basiscurriculums in den verschiedenen Versionen verglichen, um mögliche Entwicklungen und Veränderungen der relevanten Themen und Inhalte miteinzu‐ beziehen. Bei verschiedenen Abstraktionsgraden wird dabei eine Einordnung zu den übergeordneten Thematiken gewählt, um eine Klassifizierung vorzunehmen. Bei der Bezugnahme auf das Basiscurriculum der Sektion Berufs- und Wirtschaftspädagogik (2003) ist eine Vergleichbarkeit mit den jeweiligen Modulen und Prüfungen insofern vereinfacht, da im Basiscurriculum der Sektion Berufs- und Wirtschaftspädagogik (2003) eine inhaltliche Ausdifferenzierung der zentralen Inhalte vorgenommen wird. Herausfordernder ist eine Zuordnung dabei für das Basiscurriculum der Sektion Berufs- und Wirtschaftspädagogik (2014). in dieser Version wird keine ausdifferen‐ zierte Betrachtung der Inhalte vorgenommen. Stattdessen werden die Inhalte als

124

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

Teil zentraler Kompetenzen gefasst (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Dadurch ist lediglich eine übergeordnete Bezugnahme und ein Versuch einer übergeordneten Kategorisierung möglich.

1.1

Curriculare Einordnung der Grundlagenmodule der BWP

Die Grundlagenmodule der Studiengänge Berufs- und Technikpädagogik sowie Technikpädagogik an der Universität Stuttgart sind laut dem Modulhandbuch den ‚Basis- und Kernmodulen‘ 1 bzw. dem Modulbereich ‚Erziehungswissenschaft mit dem Schwerpunkt Berufspädagogik‘ 2 zugeordnet. In den Bachelor-Studiengängen unterscheiden sich die Module aus inhaltlicher Sicht nicht, auch die Ergänzungs‐ module im Master-Studiengang unterscheiden sich inhaltlich nicht von den Bache‐ lor-Modulen (vgl. Universität Stuttgart, 2019a; vgl. Universität Stuttgart, 2019b; vgl. Universität Stuttgart, 2019c). Die zentralen Module ‚Einführung in die Berufs‐ pädagogik‘ (mit der gleichnamigen Veranstaltung und Prüfung, die nachfolgend abgekürzt wird als BWP I), ‚Organisation beruflicher Bildung‘ (mit der gleichnami‐ gen Veranstaltung und Prüfung, die nachfolgend abgekürzt wird als BWP II) sowie ‚Didaktik beruflicher Bildung‘ (bestehend aus den Vorlesungen und dazugehörigen Prüfungen ‚Didaktik beruflicher Bildung‘ (nachfolgend BWP III) sowie ‚Methodik beruflicher Bildung‘ (nachfolgend BWP IV)) werden nachfolgend auf Übereinstim‐ mung des Modulhandbuches mit zentralen Inhalten des Basiscurriculums verglichen.

1.1.1

Curriculare Übereinstimmung der Lernziele des Moduls Einführung in die Berufspädagogik mit dem Basiscurriculum

Im Modul ‚Einführung in die Berufspädagogik‘ sind folgende Lernziele genannt: – „Kenntnis wesentlicher Grundlagen der Berufs- und Wirtschaftspädagogik, insbe‐ sondere wissenschaftstheoretische Kenntnisse. – Fähigkeit die Relevanz wissenschaftstheoretischer Erkenntnisse für das praktische Handeln aufzuzeigen, – forschungsmethodische Grundkenntnisse, – Fähigkeit Techniken wissenschaftlichen Arbeitens situationsadäquat zu nutzen, – Grundlegende Kenntnisse zu Lerntheorien und Fähigkeit deren Relevanz für prak‐ tische Verhandlungssituationen abzuschätzen“ (Universität Stuttgart, 2019a, S. 4).

1 Hierbei handelt es sich um Bachelor-Modulgruppen. 2 Hierbei handelt es sich um Master-Modulgruppen.

Curriculare Einordnung der Grundlagenmodule der BWP

Inhaltlich befasst sich das Modul mit einem Einblick in die Grundrichtung der Er‐ ziehungswissenschaft, den Grundlagen geisteswissenschaftlicher und empirischer Forschungsmethoden, Grundbegriffen der Berufs- und Wirtschaftspädagogik, der Rolle von Lehrenden und Lernenden in der beruflichen Bildung, sowie den Anfor‐ derungen an Lehrende und Merkmale der Lernenden. Des Weiteren werden die Gegenstandsfelder der Berufs- und Wirtschaftspädagogik in den Blick genommen. In einer anderen Veranstaltung des Moduls, welche in dieser Arbeit jedoch nicht näher miteinbezogen wird, wird zudem die pädagogische Psychologie als Inhalt behandelt (vgl. Universität Stuttgart, 2019a). Inhaltlich deckt sich die Auflistung der Ziele und Inhalte mit den zentralen Elementen, die in den verschiedenen Versio‐ nen des Basiscurriculums ausgewiesen werden. In der Version von 2014 finden sich die Inhalte über alle Kategorien hinweg, wobei lediglich auf die Grundlagenebene näher eingegangen wird (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Das Modul ‚Einführung in die Berufspädagogik‘ folgt dabei den Empfehlungen des Basiscurriculums zur ‚Einführung in die Berufspädagogik‘ (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Inhaltlich sind einige Überschneidungen zu finden. Der Bereich der Aufgaben und Forschungsfelder der BWP aus dem Basiscurriculum finden sich spezifisch in den Lernzielen und der Kenntnis wesentlicher Grundlagen im Modul wieder. Die Grundbegriffe sind als solches ebenfalls ein Teil der Inhaltsbeschreibung des Moduls. Einblicke in das Bildungs- und Beschäftigungssystem sowie in den Arbeitsmarkt als relevanter Inhalt der Einführung im Basiscurriculum sind nicht explizit ausgewiesen, finden sich aber teilweise im Modul ‚Organisation beruflicher Bildung‘ (vgl. Kapi‐ tel 1.1.2). Erziehungswissenschaftliche Theoriebildung wird teilweise in Lernzielen und Inhalten des Moduls angedeutet, eine Spezifizierung fehlt jedoch. Deutlicher ist die Betrachtung der Rolle der Lehrkraft bzw. der ausbildenden Person. Dieser Aspekt wird explizit in der Inhaltsbeschreibung des Moduls genannt. Während die systema‐ tische Einordnung der Disziplin ebenfalls in Ansätzen in den Gegenstandsfeldern der Berufs- und Wirtschaftspädagogik aufzufinden ist, ist die Entwicklungsgeschichte im Rahmen des Moduls ‚Einführung in die Berufspädagogik‘ nicht abgedeckt. Die dazugehörigen Inhalte sind in einer eigenen Lehrveranstaltung abgedeckt, die in dieser Arbeit jedoch nicht näher betrachtet wird und erst im Master verortet ist. Zusätzlich finden sich aber Überschneidungen zu den Lerninhalten der wissen‐ schaftstheoretischen Grundlagen sowie den Hauptströmungen der Disziplin, die im Basiscurriculum als relevant eingestuft werden. So sind beispielsweise die Lern‐ theorien als Lernziel des Moduls inhaltlich hier zugeordnet. Ein weiterer inhaltlicher Bezug findet sich im Schwerpunkt der ‚Bedingungen und Strukturen beruflichen Lernens‘. Die Lerninhalte der Theorien des beruflichen Lehrens und Lernens sind ebenfalls in Ansätzen in den Lernzielen und Inhalten des Moduls wiederzufinden. Teilweise sind verschiedene Schwerpunkte abgedeckt. Jedoch ist für das Modul zielgruppengerecht eine Anpassung der Inhalte vorgenommen. Das zeigt sich bei‐

125

126

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

spielsweise im Miteinbezug der Inhalte der betrieblichen Aus- und Weiterbildung. Dennoch ist die Tendenz klar, dass sich die Inhalte des Moduls weitestgehend mit den Inhalten des Basiscurriculums decken. Fehlende Aspekte finden sich hierbei in anderen Modulen wieder. Das Basiscurriculum (2014) geht im Vergleich zur Version von 2003 kaum auf inhaltliche Aspekte ein, was einen Vergleich deutlich erschwert. Inhaltlich wer‐ den dabei lediglich „Theorien, Organisation, Strukturen der beruflichen Bildung (inkl. Fragen der Berufsbildungspolitik oder des Berufsbildungsmanagements)[...], berufliches Lehren, Lernen und Entwickeln [...], Erfahrungen in berufs- und wirt‐ schaftspädagogischen Praxisfeldern (inkl. Praktika und schulpraktische Studien) sowie Aspekte der beruflichen Professionalisierung (inkl. beruflicher Sozialisation)“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 9) als übergeordnete Bereiche gefasst, die mit den Inhalten des Basiscurriculums aus 2003 vergleichbar sind. Diese Ausdifferenzierung ist auch die Grundlage für die deutlich offener gefasste Kompetenzbeschreibung. So ist hierbei eine Einordnung nur übergeordnet möglich. Zwar werden beispielsweise ‚Theorien beruflicher Bildung‘ als zentrale Kompetenz‐ bereiche genannt, ‚berufliches Lehren, Lernen und entwickeln‘ als eine inhaltliche Aufgabe der späteren Absolvierenden gesehen, die theoriegeleitete Bearbeitung praxisnaher Fragestellungen in den Fokus gestellt und die Rolle der Lehrperson inhaltlich gefasst, eine spezifischere Nennung dessen, was dahinter zu verstehen ist, bleibt jedoch aus (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Ein Ver‐ gleich des Moduls mit diesen Aspekten ist deshalb nur auf einer sehr übergeordneten Ebene möglich, dennoch finden sich teilweise Überschneidungen. So spielen Theo‐ rien, die Lehrenden-Rolle, das berufliche Lernen und wissenschaftliches Arbeiten im Rahmen des Moduls eine zentrale Rolle. Diese Bereiche werden sowohl in den Lernzielen als auch den Inhalten angeführt und näher spezifiziert. Die eigentliche Ausgestaltung bleibt den Lehrenden nach dem Basiscurriculum jedoch selbst über‐ lassen. Es zeigt sich abschließend aber deutlich, dass inhaltliche Überschneidungen zwi‐ schen dem Basiscurriculum (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014) und dem Modul (vgl. Univer‐ sität Stuttgart, 2019a) vorliegen. Nicht aufgegriffene Themen des Basiscurriculums finden sich in anderen Modulen wieder. Es kann also, speziell Bezug nehmend auf die Version von 2003, eine hohe inhaltliche Valdität erwartet werden. Auch mit dem Basiscurriculum aus 2014 liegen Überschneidungen auf übergeordneter Ebene vor.

Curriculare Einordnung der Grundlagenmodule der BWP

1.1.2

Curriculare Übereinstimmung der Lernziele des Moduls Organisation beruflicher Bildung mit dem Basiscurriculum

Die Lernziele des Moduls ‚Organisation beruflicher Bildung‘ werden im Modul folgendermaßen beschrieben: Die Studierenden erwerben Grundkenntnisse zur Organisation beruflicher Bildung und sind in der Lage Bezüge zwischen dem Bildungssystem und anderen gesellschaftlichen Subsystemen zu analysieren und Entwicklungsprozesse auf der Makro- und Mesoebene im Rekurs auf reflektierte normative Bezugsgrößen zu beurteilen. Sie besitzen die Fähig‐ keit theoriegeleitet und selbstständig betriebliche Aus- und Weiterbildung zu erkunden und zu analysieren (Universität Stuttgart, 2019a, S. 8)

Dabei wird eine andere Formulierung und Beschreibungsart im Vergleich zum Modul ‚Einführung in die Berufspädagogik‘ deutlich. Während es sich bei der ‚Ein‐ führung in die Berufspädagogik‘ um eine Auflistung handelt, liegt hier eine textlich ausformulierte Variante vor. Im Gegensatz zur breiten Fächerung des Einführungs‐ moduls ist das Modul ‚Organisation beruflicher Bildung‘ zielgerichteter formuliert. Dabei sind inhaltlich vor allem die gesellschafts- und organisationstheoretischen Grundlagen, die Struktur des Berufsbildungssystems sowie dessen Entwicklung im Fokus. Speziell auch der Vergleich der verschiedenen Aspekte spielt dabei eine Rolle. Neben der Betrachtung der Organisation liegt die Situation der Lehrenden und Lernenden in der Organisation Schule im Fokus, beispielsweise in Form der Lernschwäche und Leistungsstärke, neuen Lernformen und Methoden, Kompe‐ tenzsteigerungen, Bildungswege speziell für Frauen im MINT-Bereich, aber auch die Lernortkooperation zwischen Wirtschaft und Schule (vgl. Universität Stuttgart, 2019a). Die Zuordnungen zu den Kompetenzen des Basiscurriculums 2014 fällt hier mit dem Bezug zu den ‚Theorien, Organisation, Strukturen beruflicher Bildung‘, aber auch ‚Berufs- und wirtschaftspädagogische Praxisfelder‘ sowie ‚Professionalisierung‘ deutlich einfacher aus, als im vorangegangenen Fall. Dies führt zwar zu Freiräumen, jedoch ebenfalls zu Unklarheiten, ob das Modul dennoch als inhaltlich valide erachtet werden kann. Deutlich klarer ist die Zuordnung zu dem Schwerpunkt der ‚Bedingungen und Strukturen beruflichen Lernens‘ als Teil des Basiscurriculums aus 2003. Speziell im Lerninhalt ‚Institutionen und Institutionsentwicklung der beruflichen Bildung im nationalen und internationalen Rahmen‘ finden sich zahlreiche Bezüge zu den Zielen und Inhalten des Moduls und des Basiscurriculums. So spielen die Grundkenntnisse zu Organisationen beruflicher Bildung, die im Modul hervorgehoben werden, im Basiscurriculum eine wichtige Rolle, beispiels‐ weise in Form der „Institutionen und Institutionsentwicklung der beruflichen Bil‐ dung“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 19). Dies umfasst auch

127

128

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

die Verknüpfung zwischen dem Bildungssystem und verschiedenen Subsystemen, im Basiscurriculum ist dieser Punkt in der Lernortkooperation aufgegriffen. Besonders der Einblick in betriebliche und schulische Aus- und Weiterbildung wird hier explizit genannt. Darüber hinaus geht das Basiscurriculum auf nationale und internationale Bildungssysteme unter Berücksichtigung von Länderspezifika ein. Dies ist im Mo‐ dulhandbuch nicht als Lernziel genannt, wobei es in der Lehrveranstaltung bewusst aufgegriffen wird. Auch für dieses Modul finden sich jedoch auch weitere inhaltliche Vertiefungen in anderen Lehrinhalten wieder. So spielt das Bildungs- und Beschäfti‐ gungssystem bereits im Modul ‚Einführung in die Berufspädagogik‘ eine Rolle, der Lehrinhalt ‚Sozialisation durch Arbeit und Beruf‘ bezieht sich auf die schulische und betriebliche Ausbildung und ist in einem eigenen Modul zu diesem Thema verortet (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Universität Stuttgart, 2019a). Auch für das Modul ‚Organisation beruflicher Bildung‘ lässt sich somit inhaltliche Validität annehmen. Die zentralen Inhalte sind in vergleichbarer Weise sowohl im Basiscurriculum als auch der Modulbeschreibung zu finden. Speziell im Basiscurricu‐ lum 2003 ist jedoch eine deutlich spezifischere Auseinandersetzung mit den Themen gegeben, als dies im Modul der Fall ist. Dies kann jedoch auch der Aufgabe der Mo‐ dulbeschreibung geschuldet sein, einen kürzeren Abriss über Inhalt und Lernziele zu geben. Speziell in diesem Fall ist zu erwarten, dass eine Betrachtung der inhaltlichen Validität zwischen dem Basiscurriculum und der Prüfung weiteren Einblick erlaubt.

1.1.3

Curriculare Übereinstimmung der Lernziele des Moduls Didaktik beruflicher Bildung mit dem Basiscurriculum

Im Gegensatz zu den Modulen ‚Einführung in die Berufspädagogik‘ sowie ‚Orga‐ nisation beruflicher Bildung‘ sind dem vorliegenden Modul zwei Veranstaltungen zugeordnet, die einen direkten Bezug zur Berufspädagogik aufweisen. Das Modul und die zugehörigen Beschreibungen beziehen sich inhaltlich auf beide Vorlesun‐ gen. Auffällig ist, dass die Lernziele und die Inhalte im Vergleich zu den anderen Modulbeschreibungen vergleichsweise kurz ausfallen. Folgende Lernziele sollen die Studierenden am Ende des Moduls erreicht haben: ‚Die Studierenden erwerben die Fähigkeit auf der Basis grundlegenden Wissens zur Didaktik Entscheidungen zur Gestaltung von Lehr-Lernprozessen zu reflektieren und zu begründen. Sie sind insbesondere in der Lage, Lehr-Lernziele und Lehrverfahren unter Berücksichtigung relevanter Bedingungen zu planen und Lehr-Lernprozesse zu beurteilen (Universität Stuttgart, 2019a, S. 17)

Darin wird teilweise die inhaltliche Breite des Moduls, bestehend aus den Schwer‐ punkten Didaktik und Methodik beruflicher Bildung, erkennbar. Auch die Inhalte

Curriculare Einordnung der Grundlagenmodule der BWP

der Vorlesung beinhalten mit der Berücksichtigung allgemeiner Modelle des Lehrens und Lernens, Lehr-Lernkonzepte beruflicher Bildung, Kompetenzmodellen und Kompetenzentwicklung Elemente der Didaktik beruflicher Bildung, während die me‐ thodische Gestaltung von Lehr-Lernprozessen der Vorlesung ‚Methodik beruflicher Bildung‘ zugeordnet werden kann. Beide Veranstaltungen befassen sich mit ausge‐ wählten Ergebnissen der Lehr-Lernforschung (vgl. Universität Stuttgart, 2019a). Im Basiscurriculum von 2014 werden die Themenschwerpunkte ‚Theorien, Organisa‐ tion, Strukturen beruflicher Bildung‘ und ‚Berufliches Lehren, Lernen, Entwickeln‘ in den Blick genommen (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Es liegt keine weitere Spezifizierung vor, was zu einem hohen Interpretationsspielraum führen kann. Auch in diesem Fall ist das Basiscurriculum 2003 für eine Inhaltsbeschreibung deutlich mehr auf den Inhalt fokussiert, als dies im Basiscurriculum 2014 der Fall ist, was auch auf die Fokussierung auf Kompetenzen der neueren Version zurück‐ zuführen ist (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Das Spektrum der Lerninhalte, die hier herangezogen werden können, fällt groß aus. Die Inhalte sind dabei dem Schwerpunkt ‚Didaktik der beruflichen Aus- und Weiterbildung‘ zugeordnet. Die Basis bilden dazu ‚Grundlagen und Grundprobleme der Didaktik‘, die im Kontext allgemeiner Modelle und Konzepte behandelt werden. Diese Inhalte sind, neben grundsätzlichen curricularen Aspekten Grundprobleme der Didaktik aber auch didaktische Grundkonzeptionen und Modelle. Verschiedene didaktische Strömungen finden dabei besondere Erwähnung und können als relevant identifiziert werden. In der Modulbeschreibung (vgl. Universität Stuttgart, 2019a) spiegeln sich diese Inhalte in Form von grundlegenden Wissens zur Didaktik wieder. Besonders die Entscheidungsfindung und Reflektionsfähigkeit auf Grundlage von Modellen und Konzepten wird hier betont. Speziell die didaktische Gestaltung ist im Basiscurriculum (2003) als Lehrinhalt ‚Didaktische Konzeptionen der beruflichen Aus- und Weiterbildung‘ auf die Un‐ terrichts- und Unterweisungsgestaltung im berufsbildenden Kontext gefasst. Das wird beispielsweise in der Fokussierung auf berufliche Lernfelder erkennbar. Diese Aspekte, die beispielsweise Entscheidungsfindungsprozesse beinhalten, greifen auch auf wichtige Theorien bezüglich der Lehr-Lernziele und Lehrverfahren zurück. Dies ist auch verknüpfbar mit dem Ziel, die eigene Lehre zu planen und zu beurteilen, was ohne Überlegungen zur didaktischen Konzeption nicht umzusetzen ist. Jedoch ist hier im Rahmen der Lernziele des Moduls nur auf oberflächlicher Ebene das Ziel genannt, die zugrundegelegten Konzeptionen finden sich erst in den Lehr‐ veranstaltungen. An diesem Punkt sind die Überschneidungen jedoch merkbar häufiger. Die Veranstaltung ‚Methodik beruflicher Bildung‘ befasst sich größtenteils mit Elementen, die im Lehrinhalt ‚Berufsbezogene Lehr-Lern-Arrangements als Integra‐ tion didaktischer, methodischer und medialer Entscheidungen‘ im Basiscurriculum

129

130

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

(vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) verortet sind. Methoden, die in diesem Zuge genannt werden, sind unter Berücksichtigung von Aktionsformen, Sozialformen, den verfügbaren Medien und Lerntheorien näher ausgeführt. Dazu zählt das Rollenspiel, Experimente, Planspiele und Projekte. In den Lernzielen des Moduls (vgl. Universität Stuttgart, 2019a) sind diese Aspekte nicht näher aufgeführt, vielmehr ist eine übergeordnete Fähigkeit, die eigene Lehre zu planen, durchzu‐ führen und theorie- und empiriegeleitet zu beurteilen das zentrale Ziel. Auch hier sind auf der inhaltlichen Ebene der Vorlesungen jedoch alle genannten Aspekte wiederzufinden. Die Thematik der ‚Lehr- und Lernziele‘, die in beiden Veranstaltungen verortet ist, findet sich im Basiscurriculum (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) im Bereich der ‚Lehrziele und Lernziele in beruflichen Lernen‘ wieder. Inhaltlich wird dabei auf die Interaktion zwischen Lehrenden und Lernenden, die Ziele der Lehre, die Struktur der Lehre und geeignete Taxonomien eingegangen. Die Inhalte werden in beiden Veranstaltungen mit den jeweiligen Modellen, Konzepten bzw. Methoden begründet und verknüpft. Auch hier sind vereinzelt Bezüge zu anderen Lerninhalten des Basiscurriculums herzustellen (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Universität Stuttgart, 2019a), die sich in verschiedenen Bereichen wiederfinden. Eine vollstän‐ dige Abgrenzung der Inhalte als einzelne Elemente ist deshalb nicht ohne weiteres möglich. Was jedoch auch hier erkennbar ist, ist der erhöhte Detailgrad der Lehr‐ inhalte im Basiscurriculum im Vergleich zu den Lernzielen des Moduls. Das hängt auch mit den verschiedenen Zielsetzungen und den sich daraus ergebenden Ab‐ straktionsgraden zusammen. Besonders vor dem Hintergrund, zentrale Inhalte und Lernziele von zwei Lehrveranstaltungen zusammenzufassen, ist dies kaum anders umsetzbar. Das Basiscurriculum (2003) geht diesbezüglich deutlich spezifischer auf eine inhaltliche Betrachtung der unspezifischen Lernziele des Modulhandbuchs ein. So ist die Thematik der Entscheidungsfindung zur Gestaltung von Lehr-Lernpro‐ zessen sowie dies reflektiert und begründet auf Grundlage didaktischen Wissens im Modul durchzuführen nicht näher spezifiziert und entspricht der übergeordneten Betrachtungsebene des Bereichs „Didaktik der beruflichen Aus- und Weiterbildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 8) im Basiscurriculum, je nach Ausgestaltung ist jedoch auch ein anderer Lehrinhalt denkbar. Die weitere Ausdif‐ ferenzierung in Grundlagen, Lehrziele, Lernziele, didaktische Konzeptionen sowie berufsbezogene Lehr-Lern-Arrangements deckt sich jedoch mit der Betrachtung, die die inhaltliche Beschreibung des Moduls nahelegt. Im Basiscurriculum von 2014 zeigt sich die inhaltliche Überschneidung in ver‐ schiedenen Bereichen. Beispielsweise ist im Bereich der „Theorien, Organisation, Strukturen beruflicher Bildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) die Auseinandersetzung mit ausgewählten Problemen der beruflichen Bil‐ dung, aber auch zentrale Theorien zu verorten. Dies deckt sich mit dem Lernziel,

Curriculare Einordnung der Grundlagenmodule der BWP

auf Basis didaktischen Wissens Entscheidungen zu treffen. Auch im Rahmen der Professionalisierung ist mit Blick auf die „Rolle des/der Lehrenden in der beruflichen Bildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) eine inhaltliche Überschneidung deutlich. Auch hier fehlt jedoch die spezifische Beschreibung, wie das auf Veranstaltungsebene ausgestaltet werden kann.

1.1.4

Modulübergreifende Lehrinhalte

Durch die Ausrichtung der Abteilung Berufs-, Wirtschafts- und Technikpädago‐ gik an der Universität Stuttgart ergibt sich die Situation, dass der Inhaltsbereich der ‚Forschungsmethoden‘ sowie die Schwerpunkte ‚Ansätze und Methoden der quantitativen und qualitativen Berufsbildungsforschung‘ als auch ‚Unterrichts- und unterweisungspraktische Studien‘ über die verschiedenen Module verteilt vorzu‐ finden sind. Das ist jedoch nicht immer als explizites Lernziel in den jeweiligen Modulbeschreibungen zu finden. Zudem umfassen die Studiengänge weitere Mo‐ dule, die explizit die Lernziele aufweisen, die in den Kompetenzen bzw. Lehrinhalten des Basiscurriculums ausgewiesen sind (vgl. Sektion Berufs- und Wirtschaftspäda‐ gogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014; vgl. Universität Stuttgart, 2019a). Durch den Zuschnitt der Module, Veranstaltungen und Inhalte ist eine eindeutige Zuordnung einzelner Module zu einer Kompetenzfacette bzw. einen Lehrinhalt kaum möglich.

1.1.5

Fazit zur Modulbetrachtung

Es zeigt sich, dass die Ziele, die in den Modulbeschreibungen angeführt werden, übergeordnet in den Basiscurricula der BWP zu finden sind. Eine detaillierte Aus‐ differenzierung der Inhalte, die auf einer verlgeichbaren Ebene stattfindet wie die Ausdifferenzierungen der Inhalte des Basiscurriculums, geschieht jedoch erst im Kontext der Lehrveranstaltung und darauf aufbauend der Prüfungen. Es gibt den‐ noch klare Bezüge, weshalb davon ausgegangen werden kann, dass eine inhaltliche Validität auf Modulebene gegeben ist. Dennoch zeigt sich auch, dass nicht alle Inhalte des Basiscurriculums in den jeweiligen Veranstaltungen vollständig über‐ nommen wurden. Das hängt auch damit zusammen, dass zentrale Aspekte auch in anderen Veranstaltungen und Modulen zu finden sind und eine klare Trennung auf Grundlage der Ausdifferenzierung im Basiscurriculum nicht gewährleistet werden kann. So gibt es beispielsweise explizit eine Veranstaltung zur Geschichte beruflicher Bildung, eine Erwähnung der Inhalte in Einzelveranstaltungen ist dadurch jedoch nicht ausgeschlossen, aber nicht im Fokus der Lernziele. Über das gesamte Studium hinweg werden demnach die Inhalte komplett abgebildet, weshalb es sich lediglich

131

132

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

um eine Verschiebung der Bezugspunkte, weniger aber um eine Auslassung dieser handelt (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufsund Wirtschaftspädagogik, 2014; vgl. Universität Stuttgart, 2019a; vgl. Universität Stuttgart, 2019b; vgl. Universität Stuttgart, 2019c).Dies geht auch auf die Gestaltung der Lernziele zurück.

1.2

Curriculare Einordnung der Prüfungen der BWP

Nachdem sich für die genannten Module bereits eine hohe inhaltliche Validität im Abgleich mit den Basiscurricula (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014) zeigt, bleibt die Frage zu klären, ob auch für die eingesetzten Instrumente, die Prüfungen der Berufs- und Technikpädagogik an der Universität Stuttgart im Zeitraum von Wintersemester 2014/15 bis Wintersemester 2017/2018, inhaltliche Validität gegeben ist. Dazu werden bei den jeweiligen Aufgaben die zentralen Inhalte formuliert. Diese Inhalte werden den Inhalten der Basiscurricula gegenübergestellt. Dabei wird versucht, identische Inhalte zu identifizieren und zu klassifizieren. Wenn ein identischer Inhalt nicht gefunden werden kann, wird eine Einordnung in die übergeordnete inhaltliche Thematik vorgenommen. Speziell für die Version von 2014 des Basis‐ curriculums der Sektion Berufs- und Wirtschaftspädagogik (2014) ist dabei eine Einordnung in die übergeordneten Themenbereiche als Teil der relevanten Kompe‐ tenzinhalte vorzunehmen, da eine inhaltliche Ausdifferenzierung nicht vorgenom‐ men wird.

1.2.1

Curriculare Übereinstimmung der Prüfung BWP I mit dem Basiscurriculum

Zur näheren Analyse der Prüfungsinhalte wurde für die Prüfung BWP I jede einge‐ setzte Aufgabe näher in den Blick genommen. Insgesamt wurden 40 Aufgaben, die über alle betrachteteten Semester hinweg untersucht wurden, näher beleuchtet. Über alle Aufgaben hinweg lassen sich 62 Inhalte identifizieren, die auch Dopplungen über verschiedene Aufgaben aufweisen können. Diese Inhalte werden für die Überprüfung der inhaltlichen Validität herangezogen. Die Prüfungsinhalte zeigen in einer Betrachtung mit dem Basiscurriculum der Sektion Berufs- und Wirtschaftspädagogik (2003), dass die Inhalte nicht einem spezi‐ fischen Bereich zugeordnet werden können. Dies geht auch auf die Breite der Inhalte zurück. Zum einen wird, wie im Modulziel bereits angeführt, die Vermittlung von Grundbegriffen in den Fokus gestellt. Darüber hinaus wird ein besonderer Wert auf die Grundlagen wissenschaftlichen Arbeitens und der Forschungsmethodik gelegt (vgl. Universität Stuttgart, 2019a). Dieses Muster findet sich auch in der inhaltlichen

Curriculare Einordnung der Prüfungen der BWP

Übereinstimmung der Prüfungsinhalte mit den Inhalten des Basiscurriculums der Sektion Berufs- und Wirtschaftspädagogik (2003) wieder. So lassen sich zentrale, übergeordnete Kapitel in häufiger Form in den Prüfungsinhalten finden. Acht Inhalte lassen sich dem Inhaltsbereich „Ansätze und Methoden der quan‐ titativen und qualitativen Berufsbildungsforschung“ (Sektion Berufs- und Wirt‐ schaftspädagogik, 2003, S. 20f) zuordnen. Diese Inhalte beziehen sich explizit auf Fragestellungen der Forschungsmethodik, wie sie als Inhalt auch im Modulhand‐ buch genannt werden. Der überwiegende Teil der Inhalte ist darüber hinaus der Unterkategorie „Verfahren der beruflichen Lehr-Lern-Forschung“ (Sektion Berufsund Wirtschaftspädagogik, 2003, S. 20) zuzuordnen. Einen größeren Teil nimmt die inhaltliche Einordnung der Themen zu Kapitel 3, „Bedingungen und Strukturen beruflichen Lernens“ (Sektion Berufs- und Wirt‐ schaftspädagogik, 2003, S. 16) ein. Insgesamt können 14 von 62 Prüfungsinhalte diesem Inhaltsbereich des Basiscurriculums zugeordnet werden, wobei auch hier eine weitere Unterteilung in die Unterkategorien möglich ist. Diese geschieht vergleichs‐ weise ausgewogen. Sechs Themen sind in Bereich 3.3 zu finden, drei Inhalte decken sich mit den Inhalten in Bereich 3.1 und fünf Prüfungsinhalte sind in Inhaltsbereich 3.2. zu finden. Thematisch ist das Spektrum innerhalb der Bedingungen und Struk‐ turen des beruflichen Lernens weitreichend und erstreckt sich über grundlegende Lehr-Lerntheorien, Fragestellungen zur Diagnostik und Evaluation sowie Grundla‐ gen der Sozialisation. Innerhalb dieses Bereichs wird jedoch der Inhaltsschwerpunkt bezüglich zentraler Institutionen ausgelassen. Dies ist auch dadurch zu erklären, dass dafür eine eigene Vorlesung mit zugehöriger Prüfung existiert. Mit 26 Nennungen sind die meisten Inhalte dem Bereich „Grundlagen der Be‐ rufs- und Wirtschaftspädagogik (BWP)“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 10) zuzuordnen, was der Erwartung anhand der Ausgestaltung der zugrun‐ deliegenden Veranstaltung und dem Modul entspricht. Ein besonderer Fokus liegt bei den Prüfungsinhalten dabei auf der Betrachtung der verschiedenen genann‐ ten Grundbegriffe. Aber auch Aspekte der Sprachregulierung und Grundlagen der Geisteswissenschaft und der Pädagogik sind hier überschneidend in den Aufgaben und dem Basischrriculum (2003) zu finden. Darüber hinaus werden Aussagetypen explizit genannt. Dies entspricht den Erwartungen an die Veranstaltungen und den Inhalten anhand der Vorgaben des Moduls und des Basiscurriculums (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Universität Stuttgart, 2019a). Trotz der deutlichen Übereinstimmungen in 49 von 62 Fällen gibt es 13 Inhalte, die nicht explizit im Basiscurriculum (Sektion Berufs- und Wirtschaftspädagogik, 2003) zu finden sind. Darunter fallen spezifische Grundlagen wissenschaftlichen Arbeitens wie Wissen über Bibliografien oder Zitation. Darüber hinaus sind Ver‐ pflichtungsaspekte im Rahmen der Prüfung erfragt, die so im Basiscurriculum nicht explizit ausgewiesen werden. Auch sind ausgewählte Theorien so nicht namentlich im Basiscurriculum genannt und eher übergeordnet zu erfassen, beispielsweise die

133

134

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

Lerntheorie nach Straka. Dennoch wird im Basiscurriculum auf Lerntheorien gene‐ rell eingegangen. Im Kontrast dazu weist eine übergeordnet vorgenommene Kategorisierung der Prüfungsinhalte mit den Inhalten des Basiscurriculums aus 2014 keine fehlenden Zuordnungen auf, was durch die weit gefassten Thematiken zustande kommt. So lassen sich insgesamt vier Kategorien erkennen. Dem übergeordneten Bereich des wissenschaftlichen Arbeitens lassen sich drei Prüfungsinhalte zuordnen, die in dem vorangegenagen Basiscurriculum nicht zugeordnet werden konnten. 22 Prüfungsin‐ halte beziehen sich auf den Bereich des Erkenntnisgewinns bzw. den Forschungsme‐ thoden, was im direkten Vergleich zu der vorangegangenen Betrachtung ein deutlich größerer Bereich ist. Das hängt auch damit zusammen, dass Inhalte, die im Basiscur‐ riculum 2003 noch der Kategorie Bedinungen und Strukturen beruflichen Lernens zugeordnet werden können, deutlich zielführender im Bereich der Erkenntnisgewin‐ nung zu verorten sind. Es können 33 Inhalte dem Bereich der „Theorien, Organisation, Strukturen beruflicher Bildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) zugeordnet werden, der enorm viele Prüfungsinhalte unter sich vereint und als übergeordneter Bereich angesehen werden kann. Vier Inhalte betrachten die Rolle der Lehrperson in der beruflichen Bildung. Diese Inhalte wurden im Basiscuricculum 2003 dem Bereich der Strukturen beruflicher Bildung zugeordnet. Für die Prüfung BWP I zeigt sich damit, dass eine hohe inhaltliche Validität auf Grundlage der durch Expert*innen ermittelten Inhalte im Rahmen der Basiscuriccula ferstgestellt werden kann. Jedoch gibt es vereinzelte Lücken, speziell im Vergleich mit dem Basiscurriculum 2003. Dies geht auch auf die sehr spezifische Festlegung der Prüfungsinhalte zurück. Dennoch sollte diese Limitation bei den folgenden In‐ terpretationen berücksichtigt werden. Demgegenüber zeigt der Verlgeich mit dem Basiscurriculum aus 2014 keine Zuordnungsproblematik. Das spricht dafür, dass auf Ebene der Prüfungsinhalte der inhaltliche Bezug deutlich klarer, wenn auch allgemeiner, hergestellt werden kann (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014; vgl. Universität Stuttgart, 2019a).

1.2.2

Curriculare Übereinstimmung der Prüfung BWP II mit dem Basiscurriculum

Zur Betrachtung der inhaltlichen Validität der Prüfung BWP II werden insgesamt 30 Aufgaben herangezogen, die 50 verschiedene Inhalte beinhalten. Eine Dopplung der Inhalte in den verschiedenen Aufgaben ist dabei möglich. Wie bereits für die Prüfung BWP I geschehen, wird diesen Prüfungsinhalten die Zuordnung zu den Inhalten im Basiscurriculum aus 2003 gegenübergestellt, um eine Übereinstimmung beider Inhalte zu erfassen.

Curriculare Einordnung der Prüfungen der BWP

Besonders auffällig ist, dass die meisten Prüfungsinhalte dem Inhaltsbereich 3, „Bedingungen und Strukturen beruflichen Lernens“ (Sektion Berufs- und Wirt‐ schaftspädagogik, 2003, S. 16) zugeordnet werden können. Dies entspricht mit 26 Inhalten über der Hälfte aller genannten Prüfungsinhalte. Eine weitere Ausdifferen‐ zierung zeigt, dass lediglich der Bereich der Institutionen und Institutionsentwick‐ lung der beruflichen Bildung und der Bereich der Sozialisation durch Arbeit und Beruf erfasst wird. Dies ist insofern unproblematisch, da die Bereiche der Theorien beruflicher Bildung als auch Diagnostik und Evaluation bereits in der Prüfung BWP I behandelt wurden und in anderen Lehrveranstaltungen vorzufinden sind (vgl. Uni‐ versität Stuttgart, 2019a). Neben Aspekten der Struktur beruflicher Bildung befassen sich fünf Prüfungsin‐ halte mit dem Bereich der „Lehrziele und Lernziele im beruflichen Lernen“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 13), die explizit auch losgelöst der Or‐ ganisationen beruflicher Bildung im Basiscurriculum genannt werden. Wie bereits in Kapitel 1.1.4 angesprochen, deckt sich dies mit dem Eindruck im Rahmen der Analysen der Module, dass einzelne Inhalte in allen Prüfungen aufgegriffen werden. Eine Problematik zeigt sich in der Prüfung durch die inhaltliche Gestaltung der Veranstaltung für zwei Studiengänge. Die betrachteten Inhalte des Basiscurriculums legen explizit den Fokus auf Inhalte, die für Studierende des beruflichen Lehramtes als relevant erachtet werden. Dies entspricht den Technikpädagogik-Studierenden an der Universität Stuttgart. Inhalte für Studierende der Berufspädagogik mit dem Fokus auf die betriebliche Aus- und Weiterbildung werden im Basiscurriculum 2003 nicht explizit genannt. Dennoch werden die Inhalte als relevant erachtet. Aus diesem Grund wird das übergeordnete Thema der Organisationsentwicklung als relevant für die Beschreibung bewertet. Diesem übergeordneten Bereich können insgesamt zwölf Inhalte der Prüfung BWP II zugeordnet werden. Diese Inhalte legen den Fokus ex‐ plizit auf unternehmerische Organisationen und Ansätze der Organisationstheorien und deren -entwicklung. Diese Inhalte grenzen sich zu den Inhalten der beruflichen Weiterbildung ab, die für die Berufspädagogik-Studierenden ebenfalls als relevant erachtet werden können und in der Prüfung explizit sechs Mal aufgegriffen wer‐ den. Trotz der hohen Zuordnungsquote weisen sechs Prüfungsinhalte keine klare Zu‐ ordnung zum Basiscurriculum 2003 auf. Zum einen umfasst das Inhalte, die den Übergang in das Berufsbildungssystem umfassen und somit den Übergang von der ersten zur zweiten Schwelle beleuchten, zum anderen sind es Ansätze der Selektivität des Bildungssystems, also Überlegungen bezüglich der Abgänge und wie diese be‐ einflusst werden können. Diese Aspekte können im Basiscurriculum nicht eindeutig verortet werden. Darüber hinaus sind Ansätze von Qualifikationsrahmen auf natio‐ naler und internationaler Ebene nicht klar im Basiscurriculum benannt, lediglich eine vergleichsweise unklare Zuordnung zu Vergleichssystemen wäre denkbar. Aufgrund der Unklarheit einer eindeutigen Zuordnung wird darauf aber verzichtet.

135

136

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

Durch die offene Inhaltsformulierung des Basiscurriculums 2014 ist hierbei eine Zuordnung wieder deutlich übergeordnet vorzunhemen. Mit 37 Nennungen ent‐ sprechen die meisten Aufgaben dem Inhaltsbereich „Berufsbildungssysteme, Insti‐ tutionen, Übergangssystem, Berufsorientierung, Berufswahl etc.“ (Sektion Berufsund Wirtschaftspädagogik, 2014, S. 11). Diese Zuordnung deckt sich mit der Zu‐ ordnung des zugrunde liegenden Moduls. Darüberhinaus werden 13 Inhalte dem Bereich „ausgewählte Probleme der beruflichen Bildung: Theorien, Organisation, Qualität, Geschichte, Politik, Management der beruflichen Bildung“ (Sektion Berufsund Wirtschaftspädagogik, 2014, S. 11) zugeordnet. Auch dies deckt sich mit den Zuordnungen auf Modulebene. Aspekte der Organsiationsentwicklung und der Wei‐ terbildung, die in der Betrachtung des Basiscurriculums 2003 nicht klar zugeordnet werden können, sind hierbei je nach Schwerpunkt in beiden Kategorien zu finden. Wenngleich das Basiscurriculum 2014 durch die erhöhte inhaltliche Freiheit eine inhaltliche Vergleichbarkeit über die Standorte hinweg erschwert, ist eine Zuord‐ nung der Prüfungsinhalte weitestgehend möglich, es gibt kaum Inhalte, die nicht explizit im Basiscurriculum genannt werden, weshalb von inhaltlicher Validität aus‐ gegangen werden kann. Diese inhaltlichen Limitationen einzelner Inhalte sind bei einer Interpration zu berücksichtigen.

1.2.3

Curriculare Übereinstimmung der Prüfung BWP III mit dem Basiscurriculum

Die Inhalte der Prüfung BWP III werden mit den Prüfungsinhalten verglichen, die im Basiscurriculum zu finden sind. Wie bereits bei der Prüfung BWP I werden hier ebenfalls 40 Aufgaben betrachtet. Insgesamt werden hierbei 65 Prüfungsinhalte analysiert, die innerhalb der Aufgaben auch Dopplungen aufweisen. Im Vergleich zu den anderen Prüfungen ist hier noch deutlicher eine inhaltliche Zuordnung bezüglich des Basiscurriculums 2003 erkennbar. Insgesamt können 55 von 65 Inhalten dem übergeordneten Themengebiet „Didaktik der beruflichen Aus- und Weiterbildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 12) zugeordnet werden. Dies entspricht der Zuordnung, die auch bezüglich der Module erkennbar war (siehe Kapitel 1.1.3). Auch an dieser Stelle liegt der inhaltliche Fokus deutlich auf der Didaktik der beruflichen Aus- und Weiterbildung. Die Prüfungsinhalte verteilen sich dabei auf die drei Unterkategorien. Es lassen sich 20 Inhalte dem Bereich „Grundlagen und Grundprobleme der Didaktik“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 12) zuordnen. Darunter fallen besonders Grundlagen zu Didaktikverständnissen, Grundkonzeptionen sowie Modelle und Konzepte beruflicher Bildung. Zudem bezie‐ hen sich 19 Inhalte auf die zweite Kategorie, „Lehrziele und Lernziele im beruflichen Lernen“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 12). In dieser Inhaltska‐ tegorie verorten sich beispielsweise Lernzieltaxonomien, aber auch Überlegungen zu Zielbereichen und -konzepten beruflichen Lehrens und Lernens. Diese Inhalte werden

Curriculare Einordnung der Prüfungen der BWP

sowohl in der Prüfung als auch im Basiscurriculum (2003) als zentral erachtet. Seltener sind dagegen Zuordnungsn zum Inhaltsbereich „Didaktische Konzeptionen der be‐ ruflichen Aus- und Weiterbildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 12). Sowohl in der Prüfung als auch im Basiscurriculum wird dabei beispielsweise die didaktische Reduktion genannt. Neben den häufigen Inhalten der Kategorie Zwei finden sich einzelne Inhalte, die anderen Kategorien zugeordnet werden können. So sind beispielsweise zwei Prüfungsinhalte zu finden, die auf die Lernphasen nach Roth (vgl. Roth, 1983) Bezug nehmen. Im Basiscurriculum 2003 sind diese Inhalte in der Kategorie 5 zu finden, „Unterrichts- und unterweisungspraktische Studien“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 22) umfassen dabei Aspekte der beruflichen Hand‐ lungskompetenz und weiterer praktischer Elemente. Eine weitere Nennung eines anderen Inhalts stellt die Betrachtung von zentralen Grundbegriffen in geeigneten Kontexten dar. Wie bereits in Kapitel 1.2.1 ausführ‐ licher betrachtet, findet sich dieser Prüfungsinhalt im Basiscurriculum 2003 in der Kategorie 1. Dies gilt für alle hierbei betrachteten Grundbegriffe. Die Berufliche Tüchtigkeit sowie deren Bedeutung wird nicht näher im Basiscurriculum aufgegrif‐ fen, wenngleich sie Prüfungsinhalt ist. Eine Zuordnung ist somit nicht möglich. Deutlich offener ist die Zuordnung der Inhalte zu den Kompetenzinhalten, die im Basiscurriculum 2014 behandelt werden. Dadurch können alle betrachteten Inhalte dem Gebiet „ausgewählte Probleme der beruflichen Bildung: Theorien, Organisa‐ tion, Qualität, Geschichte, Politik, Management der beruflichen Bildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) zugeordnet werden. Punktuell ist bei einer weiteren Fassung der Inhalte auch eine Verknüpfung zu den Inhalten „Berufliches Lehren & Lernen & Entwicklen“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) denkbar, dieser Inhalt der Kompetenz wirkt jedoch zu anwendungsori‐ entiert, während die vorliegende Prüfung den Fokus auf die theoretische Betrachtung der Theorien und Begrifflichkeiten legt. Für die Prüfung BWP III, die sich mit der Didaktik beruflicher Bildung befasst, lässt sich somit eine hohe inhaltliche Validität in Bezugnahme zu beiden Curricula herstellen. Lediglich einzelne Bereiche werden nicht spezifischer erfasst. Im Ver‐ gleich zu den anderen bisher betrachteten Prüfungen wird jedoch deutlich klarer auf einen Inhaltsbereich Bezug genommen.

1.2.4

Curriculare Übereinstimmung der Prüfung BWP IV mit dem Basiscurriculum

Die letzte betrachtete Prüfung ist Teil des Moduls ‚Didaktik beruflicher Bildung‘, das sich aus den Veranstaltungen ‚Didaktik beruflicher Bildung‘ und ‚Methodik beruflicher Bildung‘ zusammensetzt und die Inhalte der zweiten Vorlesung, ‚Methodik beruflicher Bildung‘, fokussiert (vgl. Universität Stuttgart, 2019a). Insgesamt liegen

137

138

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

29 Aufgaben vor, die sich auf 28 Inhalte beziehen und in den verschiedenen Aufgaben auftreten können. Es lassen sich 18 Inhalte der „Didaktik der beruflichen Aus- und Weiterbil‐ dung“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 12) des Basiscurriculums zuordnen. Dabei liegt der Hauptfokus auf dem Inhaltskatalog „Berufsbezogene Lehr-Lern-Arrangements als Integrationen didaktischer, methodischer und medialer Entscheidungen“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 15), was sich inhaltlich als eine methodische Betrachtung der Lernumgebungen und Lernformen darstellt. Dies deckt sich mit dem Inhalt, der im Modul genannt wird. Fünf Inhalte der Prüfung beziehen sich zudem auf den Bereich „Lehrziele und Lernziele im be‐ ruflichen Lernen“ (Sektion Berufs- und Wirtschaftspädagogik, 2003, S. 13). Speziell Lernen, Motivation und Interesse als Lernziel wird sowohl in der Prüfung als auch im Modulhandbuch inhaltlich hervorgehoben. Zwei Inhalte der Prüfung lassen sich dem Bereich der Lehrprofession und Lehr‐ rolle zuordnen, die im Basiscurriculum bereits in Inhaltsbereich 1 aufgeführt sind. Ein Prüfungsinhalt ist darüberhinaus dem Prozess Diagnostik und Evaluation zu‐ zuordnen. Sieben Prüfungsinhalte können keinen Inhalten des Basiscurriculums (2003) zugeordnet werden. Hierbei handelt es sich um (1) Fragen und deren Einsatz im Unterricht, (2) ATI-Effekte und (3) dem Umgang mit Störungen im Unterrichts‐ geschehen. Im Gegensatz dazu ist die Zuordnung der Prüfungsinhalte zu den Inhalten der berufspädagogischen Kompetenz im Basiscurriculum (2014) wieder übergeordnet vorgenommen. Als zentrale Bereiche lassen sich drei Inhaltsdimensionen finden. Elf Prüfungsinhalte werden dem Bereich „ausgewählte Probleme der beruflichen Bildung: Theorien, Organisation, Qualität, Geschichte, Politik, Management der beruflichen Bildung“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) zuge‐ ordnet. Dies deckt sich mit den Inhalten, die sich in Kapitel 1.2.3 finden lassen. Darüber hinaus sind elf Prüfungsinhalte den Kategorien „Berufliches Lehren & Lernen & Entwickeln“ (Sektion Berufs- und Wirtschaftspädagogik, 2014, S. 11) zuzuordnen und fünf Prüfungsinhalte der „Rolle des / der Lehrenden in der beruflichen Bildung (u.a. Lehrer/in, Ausbilder/in oder Dozent/in)“ (Sektion Berufsund Wirtschaftspädagogik, 2014, S. 11). Insgesamt ist hier ebenfalls eine einfachere Zuordnung möglich. Es lässt sich für die Prüfung BWP IV subsummieren, dass inhaltliche Validität ebenfalls weitestgehend angenommen werden kann. Speziell zu einer Zuordnung der Inhalte wie im Basiscurriculum von 2014 beschrieben, zeigen sich klare Zuord‐ nungsmöglichkeiten. Zwischen den Prüfungsinhalten und den Inhalten des Basis‐ curriculums (2003) sind die meisten Elemente ebenfalls klar zuzuordnen und weisen Bezüge zu Inhalten der Methodik beruflicher Bildung auf (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014; vgl. Universität Stuttgart, 2019a).

Vergleich der Inhalte der Module und der Prüfungen

1.2.5

Fazit zur inhaltlichen Validität der Prüfungen

Festzuhalten bleibt, dass je nach Bezugsbereich eine inhaltliche Validität vollständig oder zumindest in Teilen angenommen werden kann. Limitationen ergeben sich durch Lücken aller Prüfungen bei der inhaltlichen Übereinstimmung mit den in‐ haltlich als relevant erachteten Themen des Basiscurriculums (2003), die nicht klar zugeordnet werden können. Für die anderen Prüfungsinhalte ist eine klare Zuord‐ nung sowohl zu der früheren als auch zu der aktuellen Version des Basiscurriculums problemlos möglich. Ein möglicher Gedanke, dass eine reine inhaltliche Betrachtung noch nicht den Komplexitätsgrad des Inhaltes umfasst, muss jedoch unbedacht blei‐ ben, weil die Komplexitätsstufen, auf denen nach Meinung von Fachexpert*innen die Inhalte im Studium zu erfüllen sind, nicht klar definiert werden.

1.3

Vergleich der Inhalte der Module und der Prüfungen

In Anlehnung an den CA-Ansatz von Biggs und Tang (2011) scheint es zudem be‐ deutsam, auch die Inhalte der Module und Prüfungen zueinander in Bezug zu setzen. Dazu wird die Beschreibung der Lernziele des Modulhandbuchs (vgl. Universität Stuttgart, 2019a) als Darstellung des jeweiligen Moduls herangezogen. Zudem soll untersucht werden, welchem Bereich nicht verortbare Aufgaben zugehörig sind. Dieses Vorgehen wird für die drei Module und die vier Prüfungen angewendet, wobei sich die inhaltlihe Überschneidung zwischen den Modulen und den Prüfungen zeigt.

1.3.1

Inhaltliche Überschneidungen des Moduls und der Prüfung BWP I

Zur Betrachtung der inhaltlichen Überschneidung und der Prüfung BWP I werden die stichwortartig beschriebenen Lernziele des Moduls (vgl. Universität Stuttgart, 2019a) als Kategorien gewählt und relevante Punkte als Kategorien abgeleitet. Nachfolgend wird hier eine Differenzierung für die Betrachtung vorgenommen, um spezifischere Auseinandersetzungen mit den Inhalten zu ermöglichen. Es zeigt sich, dass alle gewählten Kategorien auftreten, jedoch in unterschiedli‐ cher Häufigkeit. Auffällig ist auch, dass alle Aufgaben mindestens einer Kategorie zugeordnet werden können, was für die inhaltliche Validität sprechen könnte. Von insgesamt 62 Zuordnungen der inhaltlichen Ausgestaltung der Prüfung können dabei 19 (Teil-)Aufgaben den Kenntnissen wesentlicher Grundlagen der Berufs- und Wirtschaftspädagogik zugeordnet werden. Dies entspricht dabei mit der häufigsten Zuordnung, wobei ebenfalls 19 Zuordnungen zur Kategorie der wissenschaftstheoretischen Kenntnisse auftreten. Hierbei ist die Differenzierung jedoch nicht durchgängig eindeutig möglich, da die Inhalte in einem engen Bezug

139

140

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

zueinander stehen. Zu diesen beiden Kategorien zählen Fragen zu verschiedenen Theorien der Erziehungswissenschaft oder zu Begrifflichkeiten der Berufs- und Wirt‐ schaftspädagogik wie Beruf oder Sozialisation. Die nächsthäufige Kategorie sind forschungsmethodische Grundlagen mit 13 Ausprägungen. Dazu gehören inhaltliche Aufgaben zu Signifikanz. Mit acht Ausprägungen sind Grundlegende Kenntnisse zu Lerntheorien in der Prüfung vorzufinden. In den Aufgaben spiegelt sich das in Fragen zu ausgewählten Lernmodellen wieder. Die letzte auftretende Kategorie ist mit drei Ausprägungen die Fähigkeit, Tech‐ niken wissenschaftlichen Arbeitens zu nutzen. Die Aufgaben, beispielsweise zum Schreiben von Literaturangaben und korrekter Zitation, sind jedoch deutlich aus‐ führlicher im Rahmen der BWP I-Übung abgedeckt, weshalb hier die geringe Be‐ rücksichtigung dieser Kategorie naheliegend ist. Insgesamt zeigt sich aber deutlich, dass die Prüfungsaufgaben alle Inhalte der Modullernziele wiederspiegeln, was für die inhaltliche Validität im Rückgriff auf die bisherigen Betrachtungen als sehr positiv einzustufen ist.

1.3.2

Inhaltliche Überschneidungen des Moduls und der Prüfung BWP II

Im Gegensatz zur Kategorisierung der Lernziele des Moduls für BWP I sind für das Modul BWP II deutlich weniger Kategorien vorzufinden. Zwar sind die Lernziele selbst ausführlich in der Beschreibung, die inhaltliche Ebene wird nachfolgend aber nur durch die folgenden Kategorien abgebildet: – „Grundkenntnisse zur Organisation beruflicher Bildung [...], – Bildungssystem [...], – betriebliche Aus- und Weiterbildung [..] erkunden und [..] analysieren“ (Univer‐ sität Stuttgart, 2019a, S. 8) Auch hier wird eine explizite Ausdifferenzierung zusammenhängender Lernziele vorgenommen, um eine spezifischere Betrachtung zu ermöglichen. So wird zwischen Grundkenntnissen zur Organisation beruflicher Bildung und dem Bildungssystem generell unterschieden, wobei auch hier nicht immer eindeutig eine Trennung vor‐ genommen werden kann. Insgesamt werden aus den Aufgaben 50 Teilaspekte abgeleitet, die mithilfe der drei oben genannten Kategorien auf ihre Übereinstimmung mit dem Modul untersucht werden. Die Aufgabenteile sind dabei vergleichbar häufig den jeweiligen Lernzielkatego‐ rien als Repräsentaten des Moduls zuzuordnen. Am häufigsten ist mit 18 Nennungen dabei die Erkundung und Analyse der betrieblichen Aus- und Weiterbildung genannt.

Vergleich der Inhalte der Module und der Prüfungen

Dazu zählen beispielsweise Aufgaben, die spezielle Weiterbildungsformen und deren Einsatz in ausgewählten Situationen benennen. Mit 17 Zuordnungen ist vergleichbar häufig die Kategorie des Bildungssystems vorzufinden, die explizit ausgewählte Schulformen und deren Besonderheiten in den Blick nimmt, beispielsweise in Form des Übergangssystems und dazugehöri‐ gen Schulformen. Eine Abgrenzung zur Analyse und Erkundung liegt dabei in der Anwendung der Systeme auf ausgewählte Bereiche. Vergleichbar ist die Differenzierung bezüglich der Grundkenntnisse zur Orga‐ nisation beruflicher Bildung, bei der Kategorie geht es dabei um grundlegende Organisationsformen und deren Definition und Verständnis, jedoch ohne einen Anwendungsaspekt dieses Wissens. Die Zuordnung ist dabei in 14 Fällen angebracht. Eine Besonderheit liegt bei einer Aufgabe bezüglich der Theorie der Schlüsselqua‐ lifikation. Hier zeigt sich, dass eine Zuordnung zu den gewählten Kategorien nicht eindeutig möglich ist. Die auffällige Teilaufgabe wird vorerst weiter miteinbezogen, sollte sich jedoch erneut eine Auffälligkeit bezüglich dieser Aufgabe zeigen, ist ein Beibehalten aus Sicht der inhaltlichen Validität nicht gerechtfertigt. Abgesehen von einer Aufgabe können somit alle Aufgaben den gewählten Kate‐ gorien zugeordnet werden und sind aus Sicht der inhaltlichen Validität damit als Verbindung zwischen dem Modul und der Prüfung verknüpft. Dies spricht auch für die Qualität der Prüfung.

1.3.3

Inhaltliche Überschneidungen des Moduls und der Prüfung BWP III

In Anlehnung an die Voranalysen werden für diese Untersuchung die nachfolgenden Kategorien herangezogen: – „[...] grundlegendes Wissen zur Didaktik [...], – Gestaltung von Lehr-Lernprozessen zu reflektieren und zu begründen“ (Univer‐ sität Stuttgart, 2019a, S. 17) Die beiden Kategorien sind dabei nicht losgelöst voneinander zu betrachten und deshalb als aufeinander aufbauend eine Darstellung des Komplexitätsgrades. Da‐ bei ist das grundlegende Wissen die Basis für die Reflektion und Begründung der Gestaltung der Lehr-Lernprozesse. Auf Aufgabenebene können 65 Ausprägungen abgeleitet werden, die diesen bei‐ den Kategorien zur Betrachtung der inhaltlichen Validität zugeordnet werden. Es zeigt sich dabei, dass 51 Aufgabenaspekte der Kategorie des grundlegenden Wissens zur Didaktik zugeordnet werden können. Ein Beispiel dafür sind Modelle und Konzepte beruflicher Bildung wie das Berliner Modell (vgl. Heimann et al., 1979), jedoch ohne hier eine Verknüpfung oder Ableitung mit anderen Bereichen

141

142

Inhaltsvalidität berufspädagogischer Prüfungsaufgaben

vorzunehmen, sondern lediglich die Inhaltsebene, in Form der Wiedergabe des Mo‐ dells. Die Reflektion und Begründung der Gestaltung von Lehr-Lernprozessen ist für 14 Teilaufgaben die zentrale Kategorie. Hierunter fallen Auswahlprozesse bezüglich bestimmter didaktischer Aspekte und deren Begründung, beispielsweise die Analyse eines didaktischen Modells für eine ausgewählte Unterrichtsbetrachtung. Grundsätzlich ist damit die inhaltliche Validität gegeben, jedoch in Form einer deutlichen Verknüpfung der Inhalte bezüglich der grundlegenden Betrachtung der Didaktik. Bezüglich des Moduls und der Prüfung ist die Verknüpfbarkeit der Inhalte hier gegeben, was für die weiteren Analysen positiv zu bewerten ist.

1.3.4

Inhaltliche Überschneidungen des Moduls und der Prüfung BWP IV

Wie für die Prüfung BWP III ist auch hier lediglich ein Teil der Lernzielbeschreibung des Moduls für die Beschreibung dieser Prüfung zielführend. Hierbei lassen sich aus dieser Beschreibung die folgenden Kategorien ableiten: – „[...] Lehr-Lernziele und Lehrverfahren [...], – Lehr-Lernziele [..] beurteilen“ (Universität Stuttgart, 2019a, S. 17) Auch hier ist erkennbar, dass die beiden Kategorien aufeinander aufbauen und zur Beantwortung von Aufgaben der Kategorie der Lehr-Lernzielbeurteilung auch ein Wissen bezüglich der Lehr-Lernziele nötig ist. Wie bereits für die Prüfung BWP IV ist auch hier die untergeordnete Kategorie, hier das grundsätzliche Wissen über Lehr-Lernziele und Lehrverfahren, häufiger in der Prüfung vorzufinden. Dies betrifft 16 der Fälle. Ein Beispiel hierfür ist eine Beschreibung des entdeckenden Lernens nach Bruner (vgl. Bruner, 1976). Diese Aufgabe ist rein theoretisch und kann auf einer reinen Wissensebene beantwortet werden. Mit 12 Ausprägungen ist die zweite Kategorie, die Beurteilung der Lehr-Lern‐ prozesse, in der Prüfung vorzufinden. Diese Aufgaben beinhalten beispielsweise die Auswahl spezifischer Methoden oder Medien unter Berücksichtigung einer gegebe‐ nen Lehr-Lernsituation sowie die Besonderheiten ausgewählter Methoden bezüglich des gewünschen Lernziels. Auch hier zeigt sich insgesamt, dass alle Aufgabenaspekte einer der Kategorien zugeorndnet werden können und somit eine inhaltliche Verknüpfung des Moduls in Form der Lernziele und der Prüfung möglich ist.

Vergleich der Inhalte der Module und der Prüfungen

1.3.5

Abschließende Betrachtung der Lernziel-Prüfungs-Übereinstimmung

Abschließend lässt sich sagen, dass eine Zuordnung der Lernziele mit den Prü‐ fungsinhalten für die jeweiligen Prüfungen grundsätzlich möglich ist. Der Ansatz entspricht dabei einem Teilaspekt des CA-Ansatzes (vgl. Biggs & Tang, 2011), nach dem für eine gute Hochschullehre die Lernziele und die Prüfungsinhalte aufeinander abzustimmen sind. Dieser Aspekt kann hierbei als gegeben angesehen werden, was auch bezüglich der inhaltlichen Validität wünschenswert ist. Eine Ausnahme bildet dabei jedoch eine Aufgabe zu Schlüsselqualifikationen als Teil der Prüfung BWP II, die nicht eindeutig den Lernzielen des Moduls zugeordnet werden kann. Es handelt sich dabei jedoch um die einzige eingeschränkte Zuord‐ nungsmöglichkeit, was als positiv zu bewerten ist. Trotz der gegebenen Situation der inhaltlichen Validität ist nachfolgend zu prüfen, ob die Prüfungen für die weiteren statistischen Analysen aufgrund der Interpretation der Skalierung geeignet sind. Dies geschieht über eine Einschätzung der Fitwerte und Modellinterpretation unter Berücksichtigung statistischer Ergebnisse und der inhaltlichen Auseinandersetzung mit der Prüfung.

143

2

Skalierung berufspädagogischer Prüfungen

Als erste Forschungsfrage wird untersucht, ob eine Skalierung der Prüfungen mit Methoden der IRT möglich ist, indem die jeweiligen Kennwerte zur Güte und des Fits interpretiert werden. Ziel ist dabei die Generierung eines möglichst geeigneten Modells.

2.1

Voranalysen

In einem ersten Schritt werden Items, die nur wenigen Studierenden vorgelegt wur‐ den, nicht weiter in die Betrachtung miteinbezogen. Für die BWP I betrifft das 16 Items bzw. Teilitems, bei der Prüfung BWP II sind es zwei Items, für die Prüfung BWP III sind es ebenfalls zwei Items und für die Prüfung BWP IV liegen fünf Items bei einer Stichprobengröße von 49, diese Items bleiben aufgrund möglicher Ab‐ hängigkeiten aber vorerst weiter miteinbezogen. Während bei den Prüfungen BWP I, BWP III und BWP IV keine Fälle auftreten, in denen die relative Häufigkeit die Werte von 0.05 < x < 0.95 überschreitet, betrifft das bei der Prüfung BWP II fünf Stufen von Items. Im Rückgriff auf theoretische Betrachtungen wird in diesen Fällen eine Dichotomisierung der Items mit maxk = 2 vorgenommen. Dies hängt damit zusammen, dass ein überwiegender Teil der Studierenden diese Items nicht vollständig lösen konnte. Es liegt demnach nahe, dass die Items für die Zielgruppe zu schwer ausfielen. Im Anschluss an die Dichotomisierung sind auch bei der Prüfung BWP II alle Häufigkeiten innerhalb der gesetzten Grenzwerte. Für die Prüfung BWP I liegen elf versionsbedingte mögliche Übereinstimmun‐ gen zwischen den Items vor. Die Untersuchungen zeigen, dass in neun Fällen eine Zusammenlegung der Versionen angebracht ist. In zwei Fällen bleiben die verschie‐ denen Versionen weiterhin erhalten. Dabei werden die Items inhaltlich auf mögliche Ursachen für die Unterschiede zwischen den Versionen untersucht. Zusammenge‐ legt werden die Items A004, A006a, A006b, A016a und A020. Bei den Items A007, A018, A034 sowie A009 sind Versionen aufgrund der absoluten Häufigkeit eliminiert worden, die verbleibenden Versionen werden jedoch auf signifikante Schwierigkeits‐

Skalierung der Prüfung BWP I

unterschiede untersucht und zeigen, dass eine Zusammenfassung der Versionen zu einem Item angebracht ist. Ein Beispiel für die Zusammenfassung von Items ist dabei das Item A016a. Die Versionen unterscheiden sich in der ergänzenden Formulierung eines der zu unter‐ scheidenden Aspekte. So lautet Version 1 folgendermaßen: Worin besteht der Unterschied zwischen einer deskriptiven und einer präskriptiven Aussage? (2 Punkte)

In Version 2 wird die präskriptive Aussage spezifiziert: Worin besteht der Unterschied zwischen einer deskriptiven und einer präskriptiven (normativen) Aussage? (2 Punkte)

Die Antwort ist für beide Versionen identisch, die Ergänzung um die normative Aussage zieht dabei keine signifikante Veränderung bezüglich der Schwierigkeit nach sich. Dem folgend werden beide Versionen als ein Item behandelt und in die weiteren Untersuchungen dementsprechend miteinbezogen. Für die Prüfung BWP II zeigt sich bei der Überprüfung der signifikanten Schwie‐ rigkeitsunterschiede für drei Items, dass die verschiedenen Versionen zusammenge‐ fasst werden sollen. Dies wird für nachfolgende Untersuchungen ebenfalls berück‐ sichtigt. Während bei der Prüfung BWP III keine Zusammenfassung von Itemver‐ sionen nötig ist, betrifft das bei der Prüfung BWP IV ein Item, das in zwei Versionen vorliegt. Wie bereits für Items der BWP I und BWP II wurden ebenfalls theoretische Überlegungen zur Begründung des Vorgehens herangezogen. Die Signifikanzprü‐ fung legt zudem diese Zusammenfassung nahe. Daraus generiert sich ein Set von Items, das sowohl bezüglich der relativen, als auch der absoluten Häufigkeit innerhalb der angesetzten Grenzwerte liegt und auch bei verschiedenen Versionen keine signifikanten Unterschiede der Itemschwierigkeit aufweisen. Nachfolgend soll die Forschungsfrage für die verschiedenen Dimensionen des berufspädagogischen Wissens beantwortet werden.

2.2

Skalierung der Prüfung BWP I

Zu Beginn der Skalierung weist das Modell der Prüfung BWP I folgende Kennwerte auf: Tab. 2.1 Basisskalierung BWP I Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP I

.825

.863

0.83 < x < 1.30

0.73 < x < 1.72

X < 0.714

0.064

145

146

Skalierung berufspädagogischer Prüfungen

In der ersten Skalierung zeigt sich, dass der Outfit mit einem Idealwert von 1 sowie die Werte der Q3,∗ -Statistik mit Idealwert 0 deutlich erhöht ausfallen. Speziell die erhöhten Werte der Q3,∗ -Statistik sind dabei kritisch zu sehen. Die Messgenauigkeit in Form der Reliabilitäten liegt sowohl für die Item- als auch die Personenparame‐ terschätzer bereits in einem guten Bereich nahe 1, ebenso ist der RMSD im Mittel bereits in einem guten Wertebereich. Speziell zur Verbesserung der lokalen sto‐ chastischen Unabhängigkeit werden Items näher betrachtet, die hoch miteinander korrelieren. Aufgaben, die einen a- und b-Teil aufweisen, fallen dabei auffällig hoch aus. Im folgenden Schritt werden die untergliederten Aufgaben als ein Item betrach‐ tet. Dies betrifft acht Itempaare. Weitere Unregelmäßigkeiten der Items bezüglich der Q3,∗ -Statistik und des Itemfits ergeben sich möglicherweise durch das polytome Punktesystem, wobei nach theoretischer Auseinandersetzung mit den betroffenen Items eine Dichotomisierung von fünf Items zielführend erscheint. Einige Items sind in allen Prozessen deutlich auffällig und werden deshalb in den weiteren Betrach‐ tungen nicht berücksichtigt. Dabei handelt es sich neben den Items A008x1, A036x1 sowie A037x1, die aufgrund der Q3,∗ -Statistik nicht weiter miteinbezogen werden, um das Item A030, das aufgrund der Formulierung der Aufgabe möglicherweise nicht zu den anderen Items passt. Dieses Item sieht folgendermaßen aus: In empirischen Studien zur Personalauswahl zeigt sich, dass Schulnoten ein gutes Kri‐ terium zur Auswahl von Auszubildenden sein können. Geeignete Bewerber lassen sich insbesondere an der Durchschnittsnote des allgemein bildenden Abschlusszeugnisses erkennen. Im Grunde genommen bestätigt diese Erkenntnis das Vorgehen, das schon lange in unserem Unternehmen praktiziert wird: Bei der Auswahl von Auszubildenden achten wir vor allem auf Noten im Verhalten und in Religion. Kritisieren Sie diese Aussage und legen Sie dabei logische Kriterien an. (2 Punkte)

Denkbar ist, dass die Aufgabe zu komplex formuliert ist oder die Aussage als sol‐ che zu lang ist und dadurch möglicherweise durch das Leseverständnis eine andere Dimension gemessen wird. Im Rahmen der daraus abgeleiteten Schritte zeigt sich dabei, dass sieben Residu‐ alkovarianzen weiterhin erhöht ausfallen. Aus theoretischer Sicht ergibt sich hierbei jedoch kein weiterer Handlungsbedarf. Insgesamt entsprechen diese sieben Inter‐ korrelationen bei insgesamt 904 betrachteten Werten einem sehr geringen Anteil. Durch die Reduktion der Items mit hohen Residualkovarianzen wurde ebenfalls der erhöhte Outfit-Wert einzelner Items deutlich verbessert. Insgesamt wird somit von einer inhaltlich geeigneten Skalierung ausgegangen. Dadurch ergibt sich für die Prüfung BWP I ein Modell mit folgenden Kennwerten: Tab. 2.2 Skalierung BWP I Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP I

.855

.845

0.86 < x < 1.22

0.74 < x < 1.26

X < 0.36

0.055

Skalierung der Prüfung BWP I

Abb. 2.1 Wrightmap BWP I (eigene Darstellung)

Die Wrightmap (Abbildung 2.1) zeigt, dass besonders für Studierende im oberen und unteren Leistungsbereich wenige Items zur Bestimmung der Fähigkeit vor‐ handen sind. Das geht auch auf die Struktur der Prüfung zurück. Besonders für sehr fähige Studierende ist, basierend auf der Grenze der erreichtbaren Punkte, eine Erfassung mit hoher Testinformation schwer, da sich somit die Grenze für die Bestnote verschieben würde. Besonders schwere Aufgaben sind in Prüfungen zudem unangebracht, diese Aufgaben wären für die Bestimmung jedoch nötig. Ähnlich sieht dies für sehr schlechte Studierende aus, da besonders leichte Aufgaben ebenfalls für eine Verzerrung der Prüfung sorgen würden. Für einen Teil der Studierenden, die nur einen minimalen Teil der Prüfung vor der Abgabe bearbeitet haben, ist hierbei möglicherweise auch ein motivationaler Effekt nicht völlig auszuschließen. Studie‐ rende, die dieses Muster aufweisen und beispielsweise keine oder nur eine Aufgabe beantwortet haben, werden deshalb nicht weiter miteinbezogen. Studierende, die jedoch mehr Aufgaben an verschiedenen Stellen in der Prüfung bearbeitet haben, wurden miteinbezogen und erklären die Ausprägung im unteren Personenfähigkeits‐ bereich. Positiv ist aber, dass im Bereich der meisten Personen die Anzahl der Items hoch ist, was sich an dieser Stelle auch in einer hohen Testinformation zeigt. Der Test fällt dabei dennoch vergleichsweise schwer aus. Hypothese 1.1 lässt sich somit bestätigen. Für die Prüfung BWP I lässt sich ein weitestgehend passendes Partial Credit Modell generieren, das möglichst nah an den bestmöglichen Modellwerten orientiert ist. Eine Betrachtung der statistisch an‐ hand von Simulationen bestimmten Grenzwerte, die auf dem 95 %-Signifikanzniveau bestimmt wurden, zeigen jedoch punktuell aus statistischer Sicht weitere Handlungs‐ potenziale.

147

148

Skalierung berufspädagogischer Prüfungen

Eine Betrachtung des RMSD zeigt, dass der statistische Grenzwert knapp verfehlt wird. Mit einem Wert von 0.055 liegt das reale Modell über dem statistisch be‐ stimmten Wert von 0.05. Dabei weisen insgesamt 8 der 41 betrachteten Items einen erhöhten Wert des RMSD auf, wobei alle Werte nur minimal über der jeweiligen Grenze liegen. Bezüglich der Q3,∗ -Statistik zeigen sich in der statistischen Betrachtung der Grenz‐ werte ebenfalls Unregelmäßigkeiten. Insgesamt weisen 37 von 781 Itempaaren eine erhöhte Residualkovarianz auf. Dies entspricht 4,7 % aller möglichen Itempaare. Bezüglich des Infits und Outfits zeigen sich ebenfalls vereinzelt Auffälligkeiten, die eine weitere Betrachtung dieser Items bei einer späteren Verwendung nahelegen. Fünf Items (A002x1, A014x1, A019x1, A016a, A018x) weisen einen zu niedrigen Outfit auf, während drei Items (A022x1, A004x, A021x1) einen erhöhten Outfit haben. Ein ähnliches Bild zeigt sich auch bezüglich des Infits. Neben den identischen erhöhten oder zu geringen Werten wie für den Outfit zeigen sich zudem die Items A005x1 und A032x1 erhöht. Da die Items lediglich leicht erhöht sind und im Mittel der Infit als auch der Outfit vergleichsweise nah am Idealwert anzusiedeln sind, wird die Limitation durch die statistische Analyse in Kauf genommen, da hierbei als relevant erachtete Inhalte nicht mehr abgedeckt werden würden. Obwohl aus statistischer Sicht weitere Anpassungen des Modells denkbar wären, wird der damit einhergehende Informationsverlust bezüglich der inhaltlichen Vali‐ dität dabei als zu hohe Veränderung wahrgenommen, wie eine kritische Prüfung der auffälligen Items nahelegt. Dennoch muss dieses Ergebnis als Limitation herange‐ zogen werden. Für weitere Modellbetrachtungen kann es deshalb aus statistischer Sicht zu Verzerrungen kommen. In Betrachtung der Idealwerte der betrachteten Maße ist jedoch auch davon auszugehen, dass diese Verzerrungen lediglich gering ausfallen. Diese Diskrepanz könnte durch eine Überarbeitung der Items für spätere Durchgängen behoben werden.

2.3

Skalierung der Prüfung BWP II

Für die Prüfung BWP II wird ebenfalls die Frage aufgeworfen, ob der Fit der Items und die Schätzgenauigkeit des Partial Credit Models weitestgehend die Kriterien erfüllt. Zu Beginn der Betrachtung können dabei die Werte aus Tabelle 2.3 berichtet werden. Tab. 2.3 Basisskalierung BWP II Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP II

.842

.837

0.75 < x < 1.37

0.64 < x < 1.59

X < 0.59

0.073

Skalierung der Prüfung BWP II

Während die Reliabilität und der RMSD im Mittel bereits als gut zu bewerten sind, ist der erhöhte Wertebereich des Infits und Outfits auffällig. Ebenfalls auffällig ist die deutlich erhöhte Residualkovarianz einzelner Items miteinander. Besonders eine Gruppe von Items ist hervorzuheben, die sich von den restlichen Items unterscheidet. Während die meisten Items polytome, offene Aufgaben mit einem Punktespektrum von maxk = 2 sind, scheinen die Items, die dichotome Single-Choice-Aufgabenstel‐ lungen haben, eine auffällig hohe Residualkovarianz zueinander aufzuweisen. Aus diesem Grund kommt an dieser Stelle die Frage auf, ob die Single-Choice-Items möglicherweise durch den Fragetyp eine eigene Dimension darstellen oder ein ge‐ meinsamer Faktor zwischen den Items besteht. Dazu wird in einem ersten Schritt ein Bifactor-Modell gerechnet. Der Vergleich der Omega-Werte in einer hierarchischen Ebene (ωh = .426) im Vergleich zum Omega für ein Gesamtmodell (ωtotal = 0.902) zeigt, dass keine hierarchisch überge‐ ordnete Dimension für dieses Itemset im Vergleich zu einer Gesamtdimensionierung dominiert. Es bleibt damit weiterhin zu prüfen, ob die Single-Choice-Items eine eigene Di‐ mension bilden. Dazu wird ein Modellvergleich zwischen einer eindimensionalen Lösung und einer zweidimensionalen Lösung vorgenommen. Neben dem AIC sowie dem BIC als zentrales Vergleichskriterium wird der AICc als korrigiertes Kriterium gegenübergestellt. Tabelle 2.4 zeigt dabei die Modellwerte der beiden Modelle. Tab. 2.4 Modellvergleich BWP II AIC

BIC

AICc

1-dimensionales Modell

6462

6666

6666

2-dimensionales Modell

6436

6639

6531

Durch den Modellvergleich wird deutlich, dass eine zweidimensionale Modellstruk‐ tur aufgrund der Parameter zu bevorzugen ist. Dies ergibt sich daraus, dass alle Kennwerte des zweidimensionalen Modells geringer ausfallen. Daraus lässt sich ableiten, dass die Single-Choice-Aufgaben als eigene Dimension betrachtet werden müssen. Dies liegt möglicherweise daran, dass die Aufgabentypen andere latente Variablen messen oder zur Beantwortung von Single-Choice-Aufgaben eine andere Fähigkeit benötigt wird, als dies bei den offenen Aufgaben der Fall ist. Die EAP/PV-Reliabilitäten der beiden Dimensionen fallen jedoch unterschiedlich aus. Während die Single-Choice-Dimension eine EAP/PV-Reliabilität von .519 auf‐ weist und somit nicht als reliabel zu bewerten ist, ist die Dimension BWP II, die sich aus den offenen Aufgaben ergibt, mit einer EAP/PV-Reliabilität von .853 reliabel. Die Vermutung liegt nahe, dass zu wenig Items für die Single-Choice-Dimension vorliegen, um diese eindeutig abzubilden. Aufgrund der geringen Reliabilität werden die Single-Choice-Items nicht weiter in die Untersuchung miteinbezogen.

149

150

Skalierung berufspädagogischer Prüfungen

In der weiteren Betrachtung zeigt sich, dass drei Items auf einzelnen Stufen eine zu geringe Trennschärfe aufweisen, nämlich B021, B022 sowie B023. Die Items erfüllen zwar knapp die Grenzen der absoluten Häufigkeiten, dennoch ist die Quote der vollständigen Beantwortung zu gering. Diese Items werden deshalb in der weiteren Betrachtung als dichotome Items betrachtet, wobei die Dichotomisierung auch hier theoriegeleitet nachvollzogen werden kann. Trotz dieses Prozesses bleibt das Item B21 auffällig, weshalb es nicht weiter in die Untersuchung miteinbezogen wird. Das auffällige Item fällt folgendermaßen aus: Welche Grundannahmen liegen den folgenden Managementmodellen zugrunde? Tradi‐ tionelles/tayleristisches Modell. Human Relation Modell. Human Ressources Modell.

Eine Begründung für die Auffälligkeit ist an dieser Stelle aus theoretischer Sicht nicht zu bestimmen. Die Inhalte werden im Rahmen der Lehrveranstaltung behandelt und sind in Rücksprache mit Expert*innen für die Zielgruppe als relevant anzusehen. Möglicherweise ist die Modellunterscheidung durch die Art der Fragestellung kom‐ plexer als erwartet. Die Betrachtung der Q3,∗ -Statistik zeigt für drei Items noch immer eine hohe Residualkovarianz der Teilitems zueinander. Diese Items, die aus einem a- und b-Teil bestehen, werden deshalb als zusammenhängende Items behandelt. Dies ist inhalt‐ lich naheliegend, da die Inhalte in einer jeweiligen Abhängigkeit zueinanderstehen. Daraus ergibt sich ein finales Modell, das die Fit-Werte aus Tabelle 2.5 aufweist. Tab. 2.5 Skalierung BWP II Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP II

.836

.823

0.79 < x < 1.16

0.75 < x < 1.22

X < 0.49

0.065

Für das finale Modell zeigt sich, dass die Q3,∗ -Statistik noch immer hohe Kor‐ relationen zwischen verschiedenen Items aufweist. Jedoch betrifft dies nur einen sehr geringen Teil der insgesamt 407 Residualkovarianzen. Aus theoretischer Sicht ist keine inhaltliche Abhängigkeit der jeweiligen Items untereinander erkennbar. Denkbar ist jedoch, dass eine vergleichbare Struktur der Aufgabenstellung mögliche Zusammenhänge erklärt. Die Werte für die EAP/PV-Reliabilität, die WLE-Reliabilität, den Infit und den Outfit liegen in einem wünschenswerten Bereich. Auch die RMSD nähert sich dem Idealwert von 0 an. Abbildung 2.2 zeigt die Wrightmap für die Prüfung BWP II. Es ist auch hier er‐ kennbar, dass für besonders leistungsstarke oder leistungsschwache Studierende keine Items zur Bestimmung der Personenfähigkeit vorliegen und somit an dieser Stelle die Testinformation sehr gering ausfällt. Dies kann auf die Prüfungssituation zurückgeführt werden, die Limitationen gegenüber reguläten Tests zur Kompetenz‐

Skalierung der Prüfung BWP II

Abb. 2.2 Wrightmap BWP II (eigene Darstellung)

messung offenbart. Hier liegt demnach eine Schwachstelle, da hier nicht trennscharf Aussagen für diese Studierenden generiert werden können. Für Studierende im mittleren Fähigkeitenbereich liegt genug Iteminformation vor. Insgesamt zeigt sich, dass in diesem Bereich keine Lücken erkennbar sind und somit eine gute Abdeckung in diesen Bereichen gegeben ist. Somit kann auch für die Dimension BWP II aus inhaltlicher Sicht eine weitest‐ gehend modellkonforme Struktur angenommen werden. Die Dimension wird aus diesem Grund, wie bereits die Dimension der BWP I, in die weiteren Untersuchun‐ gen miteinbezogen. Neben der inhaltlichen Betrachtung soll ebenfalls eine statistisch geleitete Be‐ trachtung der Kennwerte vorgenommen werden. Für die RMSD wird im Mittel ein Grenzwert von 0.062 bestimmt. Dieser Wert kann jedoch nicht erreicht werden, die vorliegende Analyse erreicht einen mittleren RMSD von 0.065, es liegt somit eine geringe Verletzung der Grenze vor. Dies geht darauf zurück, dass drei Items die jeweiligen Grenzen des RMSD überschreiten. Dabei handelt es sich um die Items B008x1, B011x und B027x1. Sowohl inhalt‐ lich als auch bezüglich der Aufgabenstellung unterscheiden sich die Items dabei enorm. Aus inhaltlicher Sicht sind die Items, die einen Bezug zur Selektivität des Bildungssystems, der kritischen Betrachtung zentraler Bildungsplanungstheorien und Bürokratieformen aufweisen, jedoch speziell für die Zielgruppe der Berufs‐ pädagogik-Studierenden als wichtig anzusehen. Eine Selektion dieser Items würde dabei zu einem deutlichen Informationsverlust führen, da diese Inhalte nicht in vergleichbarer Form durch andere Items abgedeckt werden. Die Verletzung ergibt

151

152

Skalierung berufspädagogischer Prüfungen

sich möglicherweise deshalb, weil sich die Fähigkeiten der Studiengänge teils anders abbilden. Unter Berücksichtigung des Grenzwertes der Q3,∗ -Statistik fallen 28 Itempaare auf. Dies entspricht 6,8 % aller möglichen Paare. Besonders hängt dabei das Item B020x1 erhöht mit anderen Items zusammen. Dieses Item, das sich mit den Organi‐ sationsebenen des Bildungssystems befasst, weist jedoch keine eindeutige inhaltliche Verknüpfung zu den anderen Items auf, mit denen es korreliert. So korreliert dieses Item beispielsweise mit einem Item, die sich mit den rechtlichen Bestimmungen des Bildungssystems befasst. Weitere Korrelationen zeigen sich, erwartungskonform, mit einer vorangegangenen Itemversion, die ähnliche Inhalte abdeckt. Es zeigt sich jedoch nicht, dass eine Zusammenlegung dieser Items ratsam ist. Aus inhaltlicher Sicht ist dieses Item als relevant anzusehen, die entstandene Problematik wird in den weiteren Analysen jedoch berücksichtigt. Bezüglich des Infits und Outfits weisen ebenfalls einzelne Items Werte auf, die über oder unter den statistisch bestimmten Grenzwerten liegen. So ist das Item B003x1 auffällig, das einen niedrigen Outfit aufweist. Da ein zu geringer Infit oder Outfit als weniger kritisch erachtet wird (vgl. Boone et al., 2014), kann an dieser Stelle von einer Reduktion des Informationsgehalts durch eine Eliminierung dieses Items abgesehen werden. Bezüglich des Infits weisen drei Items zu hohe oder zu geringe Werte auf. Das Item B004x1 sowie das Item B030x weisen jeweils einen zu hohen Infit auf, wobei es bei dem Item B004x1 die erste Stufe betrifft, während bei dem Item B030x eine vollständige Beantwortung des Items betroffen ist. Zudem hat das Item B030x3 auf der zweiten Stufe einen zu niedrigen Infit-Wert. Während der niedrige Wert aufgrund von Überdiskrimination weniger kritisch ist, deutet der er‐ höhte Wert darauf hin, dass Proband*innen nicht ausreichend voneinander getrennt werden. Inhaltlich werden beide Items, die sich mit der Lernortkooperation und dem Übergangssystem befassen, speziell für Technikpädagogik-Studierende als zentral zur Erfassung der Fähigkeit herangezogen. Abschließend lässt sich somit sagen, dass zwar ein inhaltliches Modell generiert werden kann, eine Bestimmung der statistischen Grenzwerte zeigt jedoch weiteren Handlungsbedarf. So sind weiterhin vereinzelte Items auffällig, die inhaltlich jedoch als relevant anzusehen sind und als Teil der inhaltlichen Analyse (siehe Kapitel 1) bereits Erwähnung fanden. Eine datengetriebene Modellierung scheint deshalb an dieser Stelle für die Arbeit nicht zielführend. Die Limitationen, die sich jedoch daraus ergeben, sollen in den weiteren Analysen Berücksichtigung finden.

Skalierung der Prüfung BWP III

2.4

Skalierung der Prüfung BWP III

Eine erste Skalierung der Prüfung BWP III ergibt folgende Modellinformationen, die in Tabelle 2.6 dargestellt werden. Tab. 2.6 Basisskalierung BWP III Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP III

.917

.904

0.78 < x < 1.22

0.64 < x < 1.70

X < 0.66

0.032

Auch wenn sowohl der Infit, als auch die Reliabilitäten und der RMSD wünschens‐ werte Werte annehmen, fallen die Residualkovarianzen einzelner Items sowie der Outfit deutlich zu hoch aus. Zudem ist die Trennschärfe zwischen den Stufen der Items C008x2, C021x2 und C011x1 zu gering, weshalb diese Items zu dichotomen Items umcodiert werden. Die hohen Residualkovarianzen sind vor allem bei Items anzutreffen, die aus einem a- und einem b-Teil bestehen. Dies entspricht den Er‐ kenntnissen aus den bisherigen Skalierungsprozessen und der zugrundeliegenden Theorie (vgl. Christensen et al., 2017). In diesem Zuge wird deshalb ebenfalls eine theoretisch begründete Zusammenfassung der Subitems zu einem Item vorgenom‐ men. Dies betrifft die Items C004, C007, C017 sowie C021. Im Anschluss an die Schritte ergibt sich für die Prüfung BWP III ein weitestgehend fittendes Modell. Die Modellkennwerte sind in Tabelle 2.7 zu finden. Tab. 2.7 Skalierung BWP III Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP III

.909

.895

0.79 < x < 1.17

0.68 < x < 1.26

X < 0.45

0.025

Zwar existieren noch immer Residualkovarianzen, die leicht erhöht ausfallen, aber auch hier ist dies lediglich auf einen kleinen Teil zutreffend. Eine inhaltlich begrün‐ dete Zusammenlegung oder Eliminierung der Items ist an dieser Stelle nicht sinnvoll, wie eine nähere Betrachtung dieser Items zeigt. Der geringe untere Wert der Outfits ist auffällig, hierbei wird aber bedacht, dass ein geringer Outfit nicht kritisch für das Modell ist. Wie in Abbildung 2.3 erkennbar ist, ist auch hier die Testinformation für den oberen und unteren Fähigkeitsbereich eingeschränkt, was auf die Prüfungssituation zurückzuführen ist. Erkennbar ist hier auch, dass die Personenfähigkeit teilweise wei‐ ter in einer merkbaren Dichte in den negativen Bereich geht, als dies bei den anderen Prüfungen der Fall war. Die Testinformation ist im mittleren Fähigkeitsbereich aber auch hier in einem sehr guten Maß gegeben. Somit kann auch diese Hypothese angenommen werden, es lässt sich auch für die Dimension BWP III ein inhaltlich tragfähiges IRT-Modell generieren, das sich möglichst nah an den Idealwerten des Modells orientiert.

153

154

Skalierung berufspädagogischer Prüfungen

Abb. 2.3 Wrightmap BWP III (eigene Darstellung)

Ein Vergleich der Realwerte mit den statistisch analysierten Grenzwerten zeigt für die Prüfung BWP III, dass der globale Itemfit in Form des mittleren RMSD mit einem Wert von 0.056 unter der durch das 95 %-Signifikanzniveau bestimmten Grenze von 0.062 liegt und somit davon ausgegangen werden kann, dass keine Messinvarianz vorliegt. Auch auf Ebene der Einzelitems sind keine auffälligen Items erkennbar. Bezüglich der Q3,∗ -Statistik liegen 24 Itempaare von insgesamt 742 betrachteten Itempaaren über den statistisch analysierten Grenzwerten. Dies entspricht 3,3 % aller Residualkovarianzen. Es zeigt sich jedoch, dass kein Item auffällig häufig mit anderen Items korreliert. Stattdessen sind die verschiedenen Residualkovarianzen teilweise deutlich variierend. Dies erschwert eine inhaltliche Analyse an dieser Stelle. Infit und Outfit fallen bei einzelnen Items auffällig aus. So ist beispielsweise für die Items C008x1 sowohl der Infit als auch der Outfit unterhalb des unteren Grenzwerts. Auch der Outfit des Items C024x1, als auch der Infit der Items C010x1 und C021x1 fallen geringer als der statistisch analysierte Grenzwert aus. Im Gegensazu dazu ist die zweite Schwelle des Outfits des Items C012x1 zu hoch, aber auch der Infit fällt für dieses Item erhöht aus. Bei den Items C018x1 für den Outfit und C009x1 für den Infit ist jeweils nur der Wert der ersten Schwelle über dem Grenzwert. Insgesamt sind somit einige Items über oder unter den statistisch idealen Grenzen. Aus inhaltlicher Sicht wird nicht erkennbar, wieso die Items nicht fitten. Grundsätzlich besteht an dieser Stelle deshalb Handlungsbedarf, durch eine Eliminierung der Items wäre jedoch auch hier der Informationsverlust erhöht. Somit fallen alle Kennwerte vergleichsweise nah an die jeweiligen Grenzen aus, weshalb dieser Aspekt in Kauf genommen wird. Dennoch wird bei nachfolgenden

Skalierung der Prüfung BWP IV

Analysen berücksichtigt, dass das Modell aus einer rein statistischen Betrachtung weitere Analyseprozesse benötigen würde, obwohl die Tendenz zu einer guten Modellpassung bereits ersichtlich ist. Optimiert werden könnte dies durch eine inhaltliche Überarbeitung der Items bzw. eine Gestaltung von neuen Items mit ähnlichen Inhalten.

2.5

Skalierung der Prüfung BWP IV

Ein erstes Modell weist die Kennwerte aus Tabelle 2.8 auf. Tab. 2.8 Basisskalierung BWP IV Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP IV

.894

.879

0.77 < x < 1.49

0.58 < x < 3.07

X < 0.81

0.052

Auch für diesen Prüfungsteil fällt auf, dass die Werte des RMSD sowie die Relia‐ bilitäten bereits positiv zu werten sind. Auf Modellebene kann deshalb bereits von einem grundsätzlich brauchbaren Modell ausgegangen werden. Dabei ist jedoch eine Auffälligkeit bei der Q3,∗ -Statistik sowie bezüglich des Infits und des Outfits auch für die vorliegenden Prüfungsaufgaben auf Itemebene zu erkennen. Wie bereits oben geschehen, werden auch hier Anpassungen vorgenommen, indem Items zusammen‐ gefasst werden bzw. dichotomisert werden. Im Gegensatz zu den Prüfungen BWP I und BWP II sind auch hier wie bereits für die Prüfung BWP III keine Versionsunter‐ schiede erkennbar. Speziell bei der Betrachtung der Q3,∗ -Statistik wird hierbei deutlich, dass einige Items eine lokale stochastische Abhängigkeit aufweisen. Explizit seien die Itempaare D033 und D034 sowie D036 und D037 hervorgehoben, die deutlich erhöht miteinan‐ der zusammenhängen. Eine nähere Betrachtung zeigt, dass die Inhalte der jeweiligen Itempaare deutliche Gemeinsamkeiten aufweisen. So geht es bei dem Itempaar D033 und D034 um Lehrgriffe nach Gordon et al. (2006) und ihre Anwendung, beispiels‐ weise im Kontext von ‚Straßensperren‘ (vgl. Gordon et al., 2006). Die Items werden somit zusammengefasst. Bei dem Itempaar D036 und D037 ist die Situation jedoch etwas komplizierter. Während eines der Items nach den Bedingungen für den Einsatz direktiver Lehr-Lernsituationen fragt, werden bei dem anderen Item Bedingungen für handlungsorientierte Lehr-Lernumgebungen erfragt. Die Antworten zeigen, dass die Ergebnisse zu gegenläufigen Erkenntnissen führen. So führt das Wissen zu einer dieser Lernumgebungen gleichzeitig zur Verknüpfung mit dem Wissen der anderen Lernumgebung. Dies hat jedoch auch zur Folge, dass ein Beantworten des einen Aspekts automatisch auch zu einem Verständnis über den anderen Aspekt führt, da dies dem Gegenteil entpricht. Für die weitere Betrachtung macht es hierbei deshalb

155

156

Skalierung berufspädagogischer Prüfungen

Sinn, das Maximum der beiden Items zur weiteren Untersuchung heranzuziehen und dieses Itempaar als ein Item zu werten. Ein Item wird aus der weiteren Betrachtung ausgeschlossen. Das betroffene Item D031 weist hohe Residualkovarianzen zu verschiedenen anderen Items auf. Speziell zu dem folgenden Item D032 ist die Residualkovarianz auffällig hoch. Inhaltlich decken sich die Items D031 und D032 insofern, dass Item D032 eine komplexere und spezifischere Variante des Items D031 darstellt, weshalb dieses Item im weiteren Prozess nicht miteinbezogen wird. Die Aufgabe ist nachfolgend zu finden. Was versteht man unter ATI-Effekten (Aptitude-Treatment-Interaction)? Schüler mit unterschiedlichen Voraussetzungen profitieren von unterschiedlichen Lern‐ umgebungen. Keine eindeutige Unterrichtsvariante, Abhängigkeit der Effekte eines Verfahrens abhängig von den individuellen Eigenschaften der Lernenden.

Zur möglichen Reduzierung des Infits und Outfits wurde theoriegeleitet eine Di‐ chotomisierung ausgewählter Items vorgenommen. Dies betrifft die Items D030 in einer optimierten Variante sowie D047. Diese Optimierung ist theoretisch durch die unklare Fragestellung für die vollständige Beantwortung begründbar, bei der die Idealantworten des Codierbuches in Kontrast zu den Antworten der Studierenden steht. Durch diese Schritte lässt sich die Prüfung BWP IV in einem besseren Maß durch ein IRT-basiertes Partial Credit Model abbilden. Dieses Modell weist die Fitwerte auf, die in Tabelle 2.9 zu finden sind. Tab. 2.9 Skalierung BWP IV Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP IV

.880

.861

0.88 < x < 1.22

0.72 < x < 1.27

X < 0.37

0.041

Es lässt sich auch hier die Entwicklung erkennen, dass die Werte der RMSD besser ausfallen, die Reliabilitäten sind im Rahmen der neuen Skalierung lediglich minimal geringer als zu Beginn, was erwartungskonform ausfällt und dafür spricht, dass der Schätzer durch die Prozesse nicht deutlich ungenauer wird. Die Verbesserung des Itemfits sowie die Prüfung der Bedingung der lokalen stochastischen Unabhängigkeit durch die Q3,∗ -Statistik zeigt, dass deutliche Tendenzen zu den Idealwerten der jeweiligen Fit-Werte erreicht werden konnten. Speziell bezüglich der Betrachtung der Q3,∗ -Statistik sind jedoch noch immer einzelne Residualkovarianzen zu finden, die deutlich erhöht sind, es handelt sich jedoch nur um einen sehr geringen Anteil. Zudem zeigt sich bei diesen Paaren, dass eine theoriegeleitete Modellveerbesserung nicht weiter möglich ist. Von einer rein statistisch getriebenen Modellierung wird an dieser Stelle abgesehen, da die Anzahl der auffälligen Residualkovarianzen zu gering ausfällt.

Skalierung der Prüfung BWP IV

Abb. 2.4 Wrightmap BWP IV (eigene Darstellung)

Die Betrachtung der Wrightmap für die Prüfung BWP IV (Abbildung 2.4) weist noch deutlicher als die anderen Prüfungen fehlende Testinformation im oberen und unteren Notenbereich auf. Zwar ist auch hier die Prüfungsstruktur nicht außen vor zu lassen, es ist hier aber dennoch der Bedarf in höherem Maße als in den anderen Prüfungen erkennbar, für diese Bereiche Items zu konzipieren. Dies würde dazu führen, dass hier auch für diese Studierendengruppe die Aussagekraft erhöhrt wird und somit die Trennschärfe gegeben ist. Es lässt sich also sagen, dass auch für die Prüfung BWP IV ein IRT-konformes Modell gebildet werden kann. Die Hypothese kann also ebenfalls bestätigt werden. Unter Berücksichtigung statistischer Betrachtungen der Werte und dem Vergleich zu statistisch generierten Grenzwerten auf Grundlage des 95 %-Konfidenzintervalls, zeigen sich dennoch, im Gegensatz zu einer rein inhaltlich vorgenommenen Skalie‐ rung, deutliche Bedarfe, die eine Limitation darstellen. Besonders positiv hervorzuheben ist, dass die Q3,∗ -Statistik, trotz theoretisch leicht erhöhten Residualkovarianzen zeigt, dass alle Korrelationen unter den sta‐ tistisch analysierten Grenzwerten liegen. Hier ist also umfänglich von lokaler sto‐ chastischer Unabhängigkeit auszugehen. Auf Itemebene sind alle Werte des RMSD unterhalb der statistisch bestimmten Grenzen. Dennoch liegt der reale Mittelwert des RMSD mit 0.042 leicht über dem statistisch idealen Grenzwert von 0.041. Die Differenz fällt jedoch nicht signifikant aus. Es kann somit also von keiner Messinva‐ rianz ausgegangen werden. Bezüglich des Infits und Outfits zeigen sich, wie bereits bei den anderen Prüfun‐ gen, Auffälligkeiten. So weisen drei Items einen geringeren Outfit auf, ein Item weist

157

158

Skalierung berufspädagogischer Prüfungen

einen zu hohen Outfit auf. Bezüglich des Infits weisen zwei Items zu geringe Werte auf, wobei ein Item einen zu hohen Infit vorweist. Eine weitere Dichotomisierung bzw. eine Eliminierung von Items ist an dieser Stelle jedoch aus theoretischer Sicht nicht zielführend.

2.6

Betrachtung der Ergebnisse der ersten Forschungsfrage

Es zeigt sich für die Forschungsfrage, dass die Hypothesen, inwiefern die Prüfungen IRT-basiert skaliert werden können und somit IRT-Modelle aus den realen Prü‐ fungen abgeleitet werden können, theoretisch angenommen werden können. Die Werte des RMSD, die die Diskrepanz zwischen wahren und geschätzten Werten angibt und im Mittel möglichst nahe 0 gehen sollte, um einen perfekten Fit zwischen den Daten und dem Modell aufzuweisen, fallen für alle Modelle sehr gering aus und liegen unter einem Wert von 0.1 (vgl. Oliveri & von Davier, 2011). Es zeigt sich speziell bezüglich der Reliabilitäten zudem, dass die Messgenauigkeit, die sich aus der Varianz zwischen den realen Messwerten und der Varianz der Schätzer der Itemund Personenparameter bestimmen lässt (vgl. Terzer et al., 2013), für alle einzeln betrachteten Dimensionen sehr hoch ausfällt. Die Werte des Itemfits sind, in Anlehnung an Wilson (2012) für alle Prüfungen ebenfalls nah an den Idealwerten von 1 orientiert, weshalb davon ausgegangen wer‐ den kann, dass die Items gut passen. Als einzige Unregelmäßigkeit bleiben erhöhte Werte der Q3,∗ -Statistik in Anleh‐ nung an Christensen et al. (2017) zu nennen, die punktuell auf erhöhte Residu‐ alkovarianzen zwischen Itempaaren und damit auf Ansätze lokaler stochastischer Abhängigkeit hinweisen. Es bleibt für diese Werte jedoch die Problematik, wie mit diesen erhöhten Werten umgegangen werden kann, ohne einen Informationsverlust durch Eliminierung von Items zu erzeugen. Dieser Schritt sollte aus Gründen der inhaltlichen Validität weitestgehend vermieden werden. Für die Beantwortung der Forschungsfrage heißt das, dass praktisch generierte Prüfungen der Berufspädagogik aus inhaltlicher Sicht IRT-basiert skaliert werden können. Die Prüfungen weisen dabei gute Fit-Werte auf, dennoch zeigt der Mit‐ einbezug statistischer Idealgrenzen, dass punktuell weitere Handlungen nahegelegt werden sollten. Dieser Prozess würde jedoch dem Fokus der Arbeit widersprechen, weshalb die Ergebnisse kritisch betrachtet werden und für die weiteren Analysen Be‐ rücksichtigung finden. Dennoch ist die klare Tendenz zu statistisch guten Modellen erkennbar, weshalb die Modelle nicht verworfen werden und in weiteren Analysen Verwendung finden. Zur weiteren statistisch geleiteten Modellierung ist jedoch wichtig, auffällige Items inhaltlich zu überarbeiten und in späteren Analysen erneut kritisch zu be‐ trachten. Besonders bezüglich der lokalen stochastischen Unabhängigkeit werden

Betrachtung der Ergebnisse der ersten Forschungsfrage

somit Aspekte deutlich, die in bisherigen Betrachtungen nicht ersichtlich wurden, beispielsweise durch Subdimensionen aufgrund von Aufgabenstellungen oder un‐ spezifischen Antworterwartungen, die auf diese Weise nicht sichtbar werden. Hier hilft möglicherweise der Ansatz des lauten Denkens. In Form qualitativer Analysen kann hier möglicherweise eine weitere Ebene betrachtet werden. Eine weitere aufgezeigte Maßnahme liegt im Bedarf, für den leichten und schweren Aufgabenschwierigkeitsbereich Items zu konzipieren, um in diesen Bereichen die Testinformation zu erhöhen. In einer ersten Betrachtung wurde bisher von vier unabhängigen Einzeldimensio‐ nen ausgegangen, die als solche Partial-Credit-Models sind und losgelöst voneinan‐ der betrachtet wurden. Für die weitere Betrachtung soll neben der Modellgüte noch ein anderer Aspekt der Güte für die einzelnen Items untersucht werden. Um neben der Reliabilität und ersten Ergebnissen zur strukturellen Validität weitere Aussagen über die Verallgemei‐ nerbarkeit treffen zu können, wird die Testfairness im folgenden Kapitel in den Blick genommen. Um diese zu bestimmen, wird nachfolgend für die vier Dimensionen durch Methoden des DIF ermittelt, ob die Prüfungen sowohl geschlechtsunabhängig als auch studiengangsunabhängig und durchgangsunabhängig, soweit möglich, fair messen.

159

3

Differential Item Functioning und Itemfairness

Zur Beantwortung der zweiten Forschungsfrage, ob die Testitems für verschiedene Gruppen fair messen, wird der Fokus auf das Differential Item Functioning gelegt. Als die zu betrachtenden Gruppen hat sich in theoretischer Auseinandersetzung dabei das Geschlecht, der Studiengang und das Semester, in dem die Klasur geschrie‐ ben wird, als relevant ergeben. Diese Aspekte werden deshalb zur Bestimmung der Testfairness miteinbezogen.

3.1

Die Items messen bezüglich des Geschlechts fair

In einem ersten Schritt wird untersucht, ob für die verschiedenen Prüfungen bei identischen Leistungen im Mittel Unterschiede zwischen Itemschwierigkeiten für die Geschlechter vorliegen. Für die jeweiligen Prüfungen zeigen sich dabei die Er‐ gebnisse aus Tabelle 3.1 Tab. 3.1 DIF-Analysen bezüglich des Geschlechts Prüfung

Geschlecht

BWP I

BWP II

BWP III

BWP IV

Stichprobe

Kommunalität

MAD

weiblich

185

.948

0.12

männlich

109

weiblich

102

männlich

59

weiblich

232

männlich

99

weiblich

232

männlich

99

0.22 .914

0.19 0.31

.951

0.11 0.26

.976

0.08 0.20

Es zeigt sich durchgängig, dass die Kommunaltitätswerte sehr hoch ausfallen. Diese Ergebnisse sind als sehr posititv zu werten. Die Testitems weisen demnach über den ganzen Test betrachtet somit keine Unfairness auf. Etwas spezifischer wird die

Die Items messen bezüglich des Geschlechts fair

Betrachtung des MAD. Es zeigt sich, dass der MAD bei den männlichen Studierenden durchgängig höher ausfällt. Dennoch liegen die Werte noch in einem akzeptablen Bereich. Hierbei spielen auch Stichprobeneffekte für die Interpretation des MAD eine Rolle. Dadurch, dass weibliche Studierende einen deutlich größeren Anteil der Stichprobe ausmachen, ist diese Ausprägung durchaus erwartungskonform. Wenn man die Unterschiede der Geschlechter vom Mittelwert grafisch betrachtet, zeigt sich, dass kein deutliches Muster erkennbar ist und die jeweiligen Graphen ver‐ gleichsweise nah beieinander liegen.

Abb. 3.1 Itembetrachtung der Geschlechter-DIF für die Prüfungen BWP I-IV (eigene Darstellung)

Es ist erkennbar, dass für die Prüfung BWP I die Ausprägungen der einzelnen Gruppen nicht auffällig voneinander abweichen. Die erhöhten und reduzierten Werte einzelner Items gleichen sich dabei über alle Items hinweg deutlich aus. Etwas abweichend ist lediglich die Prüfung BWP II, was durch die erhöhten Werte des MAD bei männlichen Studierenden durchaus zu erwarten ist. Eine theorie‐ basierte Betrachtung der jeweiligen Items zeigt jedoch, dass keine systematischen Auffälligkeiten zwischen den Items erkennbar sind. Ein Beispielitem ist hierfür die erste Schwelle des Items B013x1. Diese Aufgabe fragt danach, welche Merkmale eine Weiterbildungsmaßnahme wahrscheinlicher werden lassen. Während das Item möglicherweise durch den Studiengang geprägt sein könnte, ist hier keine Auffällig‐ keit erkennbar, die dafür spricht, dass es geschlechtsspezifische Unterschiede gibt. Der Unterschied scheint an dieser Stelle demnach auf andere Aspekte zurückzufüh‐ ren zu sein. Denkbar ist beispielsweise, dass die Anzahl der Merkmale, die für die korrekte Beantwortung nötig ist, nicht näher spezifiziert wird. Dies ist in einigen der teilweise deutlich geringer auffälligen Items zu bemerken. Dieser Aspekt sollte demnach auch in der zukünftigen Aufgabengestaltung Berücksichtigung finden, auf

161

162

Differential Item Functioning und Itemfairness

geschlechterbezogenen DIF lässt sich daraus aus inhaltlicher Sicht jedoch nicht eindeutig schließen. Die Prüfungen BWP III und BWP IV zeigen wie die Prüfung BWP I keine auffälli‐ gen Ausprägungen und Positionswechsel in den betrachteten Gruppen männlicher sowie weiblicher Studierender. Eine Betrachtung der Werte im Abgleich mit den statistisch analysierten Grenz‐ werten (Siehe Kapitel 2.5.9) zeigt, dass für die Prüfung BWP I die Werte punktuell erhöht ausfallen, dies jedoch in geringem Maße. Die Kommunalität, die einen realen Wert von 0.948 aufweist, sollte bei über 0.951 liegen. Die Tendenz ist dabei jedoch erkennbar, dennoch kann nicht von einer vollständigen Erfüllung des Kriteriums ausgegangen werden. Deutlich wird dies ebenfalls bezüglich des MAD, der bei weib‐ lichen Studierenden bei 0.12 liegt, jedoch einen Wert von 0.11 aufweisen sollte. Der Wert für männliche Studierende ist mit 0.22 ebenfalls über dem Grenzwert von 0.21. In beiden Fällen ist der Wert des MAD jedoch nur sehr knapp über den statistisch analysierten Grenzen. Es ist also eine Tendenz zur Testfairness bezüglich des Geschlechts im Mittel erkennbar, eine vollständige Fairness kann statistisch jedoch nicht angenommen werden. Dies wird bei den weiteren Analysen bei Bedarf miteinbezogen. Die Betrachtung der Prüfung BWP II zeigt, dass der Wert der Kommunalität sowie des MAD leicht erhöht ist, jedoch noch innerhalb erwartbarer Bereiche. So ist der MAD für weibliche Studierende um 0.01 über dem Grenzwert, während für männliche Studierende der Grenzwert mit dem Realwert identisch ist (jeweils 0.31). Bezüglich der Kommunalität unterscheidet sich das Ergebnis ebenfalls minimal. Während der Idealwert bei 0.93 liegt, ist die berechnete Kommunalität mit 0.914 un‐ ter der Grenze. Es liegt somit lediglich eine Tendenz zugunsten einer Testunfairness vor, diese kann jedoch nicht vollständig angenommen werden. Speziell bezüglich des MAD sind jedoch unter Berücksichtigung der 99 %-Signifikanzniveaus die Grenzen deutlich eingehalten. Diese Tendenz muss jedoch kritisch berücksichtig werden und wird bei weiterer Betrachtung in auftretenden Situationen berücksichtigt. Deutlicher fallen die Ergebnisse bezüglich der Prüfung BWP III aus. Alle Werte erfüllen die statistisch bestimmten Grenzen. Mit einem Wert von 0.951 liegt die Kommunalität deutlich über dem Grenzwert, von .921. Der MAD liegt sowohl für weibliche als auch männliche Studierende unter der bestimmten Grenze. Für die Prüfung BWP III kann somit umfänglich davon ausgegangen werden, dass kein DIF bezüglich des Geschlechts vorliegt. Ein vergleichbares Ergebnis zeigt sich für die Prüfung BWP IV. Auch hier sind die Kommunalität und der MAD innerhalb der statistisch analysierten Grenzen, von .965 für die Kommunalität sowie von 0.1 bzw. 0.23 bezüglich des MAD für weibliche und männliche Studierende. Hier kann somit ebenfalls Testfairness bezüglich des Geschlechts angenommen werden. Unter Berücksichtigung der vorliegenden Situation und unter Miteinbezug der

Die Items messen bezüglich des Studiengangs fair

theoretischen Betrachtung kann die Hypothese teilweise angenommen werden. Es liegt speziell bei den Prüfungen BWP III und BWP IV kein DIF-Effekt bezüglich des Geschlechts vor. Für die Prüfungen BWP I und BWP II zeigt sich eine Tendenz zugunsten einer Testfairness. Dennoch ist speziell bei der Prüfung BWP II hier die vergleichsweise geringe Stichprobe zu bedenken, die hier zu Verzerrungen führen könnte. Auffällige Items sollten bei geschlechtsbezogenen Betrachtungen nur ein‐ geschränkt miteinbezogen werden.

3.2

Die Items messen bezüglich des Studiengangs fair

Die DIF-Analysen hinsichtlich des Studiengangs untersuchen, ob die Prüfungen für die verschiedenen betrachtbaren Studiengänge fair messen. Das Item C017x2 wird aufgrund fehlender Ausprägungen in der Subgruppe der Technikpädagogik in Teilantworten hierbei nicht berücksichtigt. Die Werte für die verschiedenen Prüfun‐ gen, differenziert nach den Studiengängen Berufspädagogik und Techninkpädagogik, sind in Tabelle 3.2 zu finden. Tab. 3.2 DIF-Analysen bezüglich des Studiengangs Prüfung BWP I

BWP II

BWP III

Geschlecht

Stichprobe

Kommunalität

Berufspädagogik

195

.940

Technikpädagogik

101

Berufspädagogik

88

Technikpädagogik

73

Berufspädagogik Technikpädagogik

BWP IV

Berufspädagogik Technikpädagogik

247

85

0.12 0.24

.892

0.28 0.34

.917

85 247

MAD

0.13 0.36

.965

0.10 0.25

Die Betrachtung der Kommunalität zeigt, dass bei allen Prüfungen für die Studien‐ gänge davon ausgegangen werden kann, dass keine auffälligen DIF-Effekte auftreten und somit die Prüfungen im Gesamten für die verschiedenen Studiengänge fair messen. Lediglich der Wert der Prüfung BWP II fällt im Vergleich etwas geringer aus. Etwas differenzierter muss die Betrachtung des MAD ausfallen. Für alle Prüfungen sind die Werte des MAD vergleichsweise nah an dem Idealwert von 0. Es kann also auch hier bestätigt werden, dass im Mittel keine DIF-Effekte bezüglich des Studiengangs vorliegen und im Mittel somit die Prüfungen für die verschiedenen Studiengänge fair messen. Dennoch weisen die Prüfungen BWP II und BWP III

163

164

Differential Item Functioning und Itemfairness

erhöhte Werte bezüglich des MAD auf, was eine nähere Betrachtung zur Analyse sinnvoll erscheinen lässt.

Abb. 3.2 Itembetrachtung der Studiengangs-DIF bei den Prüfungen BWP I-IV (eigene Darstellung)

Wie in Abbildung 3.2 erkennbar ist, sind vereinzelte Items deutlich auffällig, was die Erklärung des erhöhten MAD-Wertes darstellt. Die Unterschiede von τ der Gruppen zum Mittelwert ist für einzelne Items auf einem deutlich erhöhten Maß. Zur Beschreibung sollen zwei Typen differenziert werden. Die optische Sichtung zeigt, dass die Werte Technikpädagogik-Studierender teilweise deutlich vom Mittelwert abweichen. Das ist teilweise durch die Stichprobe begründet. Durch die erhöhten Zahlen von Berufspädagogik-Studierenden ist hierbei die Nähe zum Mittelwert na‐ heliegender. Dennoch unterscheiden sich spezifische Items für die Gruppen. Die Abweichung vom Mittelwert von einzelnen Items der Technikpädagogik‐ Gruppe ist bei den Items C019x2, C001x2, C004b2, C016a2 und C018x2 deutlich zu erkennen, deren MAD > 1 Logit vom Mittelwert entfernt liegen. Bei allen Items ist der Unterschied für das Erreichen des ersten Punktes zu finden. Die Items sind für Technikpädagogik-Studierende im Mittel deutlich schwerer, als dies für Berufs‐ pädagogik-Studierende der Fall ist. Es fällt dabei auf, dass alle Items aus späteren Versionen sind, die ergänzende Inhalte im Vergleich zu früheren Versionen erfasst. Beispielsweise sei hier Aufgabe C016a2 dargestellt. a) welche Wissensformen werden in der Forschung unterschieden? Nennen Sie ergän‐ zend zu deklarativem und prozeduralem Wissen zumindest drei weitere Formen

Die Besonderheit ist dabei, dass bereits ein Teil der Antwort vorgegeben wird. Dennoch ist keine inhaltliche Übereinstimmung zwischen dieser Aufgabe und den

Die Items messen bezüglich des Studiengangs fair

anderen Aufgaben erkennbar. Es liegt deshalb nahe, dass möglicherweise die Be‐ sonderheit auf die Stichprobe zurückzuführen ist, da diese Aufgaben nur in den Semestern Sommersemester 2017 und Wintersemester 2017/2018 eingesetzt wur‐ den. Dies trifft auch für die anderen Aufgaben zu. Eine zweite betrachtete Itemgruppe sind Aufgaben, in denen TechnikpädagogikStudierende deutlich besser abschneiden, als dies bei den Studierenden der Berufs‐ pädagogik der Fall ist. Dies betrifft die Items C016x1, C010x1, C011x1, C022x1, C008x1 sowie C002x2. Auffällig ist, dass es weitestgehend die Items betrifft, die in früheren Versionen eingesetzt wurden. Auch hier ist kein explizites inhaltliches Muster erkennbar. Die Aufgaben beziehen sich auf Begrifflichkeiten, Wissensformen sowie Modelle der allgemeinen und beruflichen Didaktik. Neben der Nennung einzelner Aspekte ist auch der Vergleich verschiedener Begrifflichkeiten in den Aufgaben ab‐ gefragt. Andere Aufgaben des gleichen Fragetyps sind dabei jedoch nicht betroffen. Dennoch ist die Vermutung naheliegend, dass die Themen für Technikpädagogik‐ Studierende eingängiger sind. Ob die Studierenden jedoch unterschiedlich an die gestellten Aufgaben herangehen, müsste qualitativ analysiert werden. Zur kritischen Betrachtung der Kommunalitäts- und MAD-Werte werden auch hier neben der Betrachtung der Werte vor der Orientierung am Idealwert von 1 bzw. 0 die Betrachtung des 95 %-Signifikanzniveaus für die einzelnen Werte als Grenzwerte herangezogen. Für die Prüfung BWP I zeigt sich dabei, dass die bestimmten Werte teilweise unter den statistisch bestimmten Grenzwerten für die vorliegenden DIF-Analysen liegen. Speziell die Kommunalität fällt mit .94 höher aus, als die Untergrenze von .934. Somit ist bezüglich der Kommunalität statistisch keine Unfairness gegeben. Differenzierter muss dabei jedoch der Wert für den MAD betrachtet werden. Für die Technikpädagogik-Studierenden zeigt sich, dass der MAD mit 0.24 unter dem statistisch bestimmten Grenzwert von 0.29 liegt. Anders ist dies bezüglich der Be‐ rufspädagogik-Studierenden, hierbei liegt der Wert mit 0.121 erhöht im Vergleich zum Grenzwert von 0.08. Somit muss hier davon ausgegangen werden, dass eine punktuelle Unfairness für Berufspädagogik-Studierende vorliegt. Ein vergleichbares Ergebnis zeigt sich bei der Prüfung BWP II. Hier ist ebenfalls ein geringerer Kommunalitätswert im Vergleich zur statistisch bestimmten Grenze von 0.927 vorliegend. Während, wie bei der BWP I-Prüfung, der MAD für Tech‐ nikpädagogik-Studierende mit 0.34 unter dem Grenzwert von .35 liegt, ist der Wert bezüglich der Berufspädagogik-Gruppe erhöht. Der Wert von .28 liegt deutlich über dem Grenzwert von .15. Dies ist aus inhaltlicher Sicht teilweise nachvollziehbar, wie die Betrachtung der inhaltlichen Validität (siehe Kapitel 1) bereits verdeutlicht hat. Durch den klaren Fokus auf schulische Inhalte und das Schulberufssystem bzw. Berufsbildungssystem, bietet sich inhaltlich eine Fokussierung auf die Technikpäd‐ agogik an. Aus diesem Grund ist es erwartbar, dass für Berufspädagogik-Studierende aufgrund der inhaltlichen Gestaltung eine Unfairness entstehen kann. Diese Un‐

165

166

Differential Item Functioning und Itemfairness

fairness muss in den weiteren Analysen bedacht werden. Zudem ist inhaltlich eine kritische Auseinandersetzung mit den Prüfungsinhalten angebracht. Diese Effekte zeigen sich in ähnlicher Form auch für die Prüfung BWP III. Die Kommunalität liegt mit .917 unter der Grenze von .921. Der MAD ist bezüglich der Technikpädagogik, trotz erhöhten Werten, unter der statistisch bestimmten Grenze. So liegt der MAD für Technikpädaogik-Studierende mit 0.36 unter dem Grenzwert des 95 %-Signifikanzniveaus von 0.39. Anders sieht dies für die Berufspädagogik aus, während die Grenze bei 0.09 liegt, ist der MAD mit 0.13 über der Grenze. Auch hier liegt demnach eine Unfairness bezüglich der Berufspädagogik vor. Abschließend wird die Prüfung BWP IV auf die gleiche Weise analysiert. Hier zeigt sich, dass die Kommunalität mit einem Wert von .97 über der Grenze von .95 liegt. Ähnlich ist dies bei dem MAD der Technikpädagogik-Gruppe, der mit 0.25 unter der Grenze von 0.32 liegt. Wie bei den anderen Prüfungen liegt jedoch eine Unfairness für Berufspädagogik-Studierende bei einzelnen Items vor. Im Mittel liegt der Wert mit 0.10 über dem Grenzwert von 0.07. Es lässt sich auch für den vorliegenden Fall zeigen, dass geringe DIF-Effekte be‐ züglich des Studiengangs vorliegen. Studierende der Berufspädagogik haben bei den eingesetzten Items eine Bevorteilung. Dies könnte jedoch auch durch Stich‐ probeneffekte zu begründen sein. So ist der überwiegende Teil der betrachteten Personen in einem Berufspädagogik-Studiengang eingeschrieben. Die Hypothese kann somit lediglich teilweise angenommen werden. Dieser Aspekt sollte auch bei nachfolgenden Analysen betrachtet werden. DIF-Analysen bezüglich des akademischen Grades wirken ergänzend dazu auf den ersten Blick sinnvoll, durch die Zusammensetzung der Studierenden ist hierbei jedoch ein sehr ähnliches Ergebnis zu erwarten. Eine klare Auslegung der Veran‐ staltung auf Master-Studierende liegt jedoch nicht vor, diese Studierenden sind keine explizite Zielgruppe der Veranstaltung. Dies hängt damit zusammen, dass es sich bei den Veranstaltungen für die Studierenden im Master um Auflagenmodule oder Ergänzungsmodule handelt. Für Studierende des Masterstudiengangs Tech‐ nikpädagogik Profil C handelt es sich beispielsweise um eine ergänzende Auflage, wenn vergleichbare Veranstaltungen nicht bereits im Bachelor-Studiengang an einer anderen Hochschule besucht wurden. Zudem fällt der Anteil der Studierenden im Master gering aus, was detaillierte Analysen nicht möglich macht.

3.3

Die Items messen bezüglich des Semesters fair

Für die nachfolgenden Analysen können die Ankeritems herangezogen werden. Dies führt jedoch auch zu eingeschränkten Aussagen bezüglich der Gesamtprüfungen. Dennoch erlauben die Ergebnisse erste Tendenzen, die Ursprünge von DIF-Effekten aufzeigen können.

Die Items messen bezüglich des Semesters fair

3.3.1

DIF-Analysen bezüglich des Semesters für die Prüfung BWP I

Für die Prüfung BWP I lassen sich neun Ankeritems ermitteln. Bei diesen Items handelt es sich um die Items A010x1, A013a1, A013b1, A019x1, A025x1, A004x, A006a, A006b, A028x1 mit den jeweiligen Stufen. Die Ergebnisse sind in Tabelle 3.3 zu finden. Tab. 3.3 DIF-Analysen bezüglich des Semesters für BWP I Semester

Stichprobe

Kommunalität

MAD

Wintersemester 2014/2015

90

.857

0.23

Sommersemester 2015

21

.898

0.40

Wintersemester 2015/2016

52

.466

0.48

Sommersemester 2016

12

.527

0.50

Wintersemester 2016/2017

66

.881

0.26

7

.609

0.91

Wintersemester 2017/2018, Version A

22

.754

0.34

Wintersemester 2017/2018, Version B

23

.914

0.32

Sommersemester 2017

Es wird dabei sehr deutlich, dass das Wintersemester 2015/2016 sowie das Sommer‐ semester 2016 einen sehr geringen Wert der Kommunaliät aufweisen und die Werte des MAD deutlich erhöht ausfallen. In diesen Semestern hat jemand anderes doziert, die Prüfungen jedoch weitestgehend identisch durchgeführt. Da die Prüfungen er‐ neut bewertet wurden und somit ein Korrektureffekt weitestgehend auszuschließen ist, legt die Auffälligkeit nahe, dass durch eine andere Vermittlung der Inhalte durch eine andere Lehrperson eine Ungerechtigkeit bezüglich der Prüfung besteht, die bei gleicher Leistung durch ein anderes Maß an Informationen zu einer veränderten Möglichkeit der Leistungsdarbietung führen kann. Es handelt sich dabei jedoch um Einzelitems, die hier besonders deutlich einen Effekt auf die im Mittel bestimmten Werte haben. Auffällig ist dies dadurch, dass lediglich zwei Items im Wintersemester 2015/2016 einen MAD über x > 1 aufweisen. Im Sommersemester 2016 trifft dies ebenfalls auf zwei Items zu. In beiden Varianten handelt es sich dabei um das Item A013b1 auf der Stufe zur vollen Punktzahl, während sich das zweite Item jeweils unterscheidet. Aufgabe A013b1 erfragt: Welcher der beiden Definitionstypen wird in der Wissenschaft als ungeeignet erachtet und warum?

Dabei ist ein klarer Bezug zur Teilaufgabe A013a1 zur Beantwortung erkennbar. Eine nähere Betrachtung des Items zeigt, dass die Begründung für einen ungeeigneten Definitionstyp in diesem Durchgang in offenerer Form bewertet wurde im Vergleich

167

168

Differential Item Functioning und Itemfairness

zu den anderen Durchgängen. Um dies zu berücksichtigen wird das Item für nach‐ folgende Analysen zusammengefasst betrachtet und herangezogen. Aufgrund der geringen Stichprobe ist der Einfluss einzelner Items im Vergleich zu den bisherigen Analysen deutlich erhöht. Ein klarer Rückschluss aufgrund dieser Items ist für die Gesamtbetrachtung der Prüfungen nur eingeschränkt möglich. Es zeigt sich dennoch, dass für den geringen Anteil der Items sowohl die Kommunalität als auch der MAD vergleichsweise schnell anschlägt. Das Item A013b1 ist hierbei besonders auffällig, da dieses Item in einzelnen Durchgängen von kaum einer studie‐ renden Person korrekt bearbeitet wurde. Ergänzend dazu wird die Betrachtung der jeweiligen Werte im Vergleich zum 95 %-Signifikanzniveau als Grenzwert vorgenommen. Bezüglich der Kommunali‐ tät zeigt sich, dass auch hier das Wintersemester 2015/16 unter dem berechneten Grenzwert liegt. Während in diesem Wintersemester der Wert .805 betragen sollte, liegt dieser lediglich bei .466. Die anderen Semester liegen alle über den jeweiligen Grenzwerten. Das Wintersemester 2015/16 sticht demnach sehr deutlich hervor und muss auch bezüglich der statistisch bestimmten Grenzwerte kritisch gesehen werden. Für den MAD sieht dies leicht anders aus. Das Wintersemester 2014/15 weist mit 0.234 im Vergleich zur Grenze von 0.2 einen leicht erhöhten Wert auf. Auch das Wintersemester 2015/16 ist hierbei mit .476 deutlich über der Grenze von .28. Ebenfalls erhöht ist das Sommersemester 2017 mit 0.906, während der MAD einen Wert von 0.78 nicht überschreiten sollte. Grundsätzlich ist hierbei jedoch generell zu berücksichtigen, dass kaum Items für die Bestimmung herangezogen werden konnten und somit einzelne Items eine deutliche Verzerrung bewirken. In der Gesamtbetrachtung hat dies zur Folge, dass eine generelle Aussage bezüg‐ lich der Prüfungen aufgrund der Ankeritems nur in geringem Maße möglich ist. Eine detaillierte Aussage auf Itemebene kann damit nicht getroffen werden. Die Frage, ob die Prüfungen des Wintersemester 2015/2016 sowie des Sommersemesters 2016 möglicherweise kritisch behandelt werden müssen, kann damit nicht klar beantwor‐ tet werden. Somit kann die Hypothese für die Ankeritems der Prüfung BWP I nicht angenommen werden.

3.3.2

DIF-Analysen bezüglich des Semesters für die Prüfung BWP II

Für die Prüfung BWP II sind lediglich fünf Items mit den jeweiligen Stufen über alle Semester hinweg als Ankeritems heranziehbar. Dabei handelt es sich um die Items B002x1, B008x1, B009x1, B010x1 sowie B029x1. Zwei weitere Items können dabei nicht herangezogen werden, da in einzelnen Semestern keine Ausprägungen für die erste oder zweite Stufe vorliegen. Die Ergebnisse für die ausgewählten Items sind in Tabelle 3.4 abgebildet.

Die Items messen bezüglich des Semesters fair

Abb. 3.3 Itembetrachtung der Semester-DIF der Prüfung BWP II (eigene Darstellung)

Tab. 3.4 DIF-Analysen bezüglich des Semesters für BWP II Semester

Stichprobe

Kommunalität

MAD

Wintersemester 2014/2015

25

.908

0.42

Sommersemester 2016

45

.994

0.32

Wintersemester 2016/2017

14

.835

0.45

Sommersemester 2017

59

.819

0.30

Wintersemester 2017/2018

17

.907

0.39

Die Werte der Kommunalität und des MAD liegen innerhalb der gesetzten Gren‐ zen. Dennoch muss angemerkt werden, dass die Werte teilweise erhöht ausfallen. Dies ergibt sich jedoch möglicherweise aufgrund der geringen Anzahl an Items und Stichprobeneffekten. Eine Betrachtung der Verteilung (siehe Abbildung 3.3) zeigt, dass die einzelnen Prüfungen lediglich für einzelne Items von den anderen Werten abweichen. So gibt es in den Semestern WS 14/15, WS 16/17 sowie WS 17/18 einzelne Items, die einen MAD von x > 1 aufweisen. Es handelt sich dabei jedoch um verschiedene Items, die ansonsten keine sichtbare Gemeinsamkeit aufweisen. Dies zeigt eine detailliertere Betrachtung der Inhalte, die Vorlesungsmaterialien wurden bezüglich dieser Items nicht verändert. Vergleichbare Ergebnisse zeigen sich auch im Abgleich mit den Grenzwerten, die sich aus dem 95 %-Signifikanzniveau ergeben. Die Kommunalität fällt für alle Semester höher aus als der untere Grenzwert. Hierfür kann also eine Fairness über das Semester hinweg angenommen werden. Ähnliche Befunde zeigen sich auch bezüglich des MAD. Hierbei sind keine Auffälligkeiten erkennbar, alle Ergebnisse bewegen sich innerhalb der gesetzten Grenzen. Auch wenn die Ergebnisse nicht überinterpretiert werden können, kann zumindest für die Ankeritems die Aussage getroffen werden, dass diese Items über die Semester

169

170

Differential Item Functioning und Itemfairness

hinweg im Mittel fair messen. Eine Generalisierung der Ergebnisse auf die gesamte Prüfung des jeweiligen Semesters ist jedoch auch hier nicht möglich. Dennoch kann die Hypothese angenommen werden.

3.3.3

DIF-Analysen bezüglich des Semesters für die Prüfung BWP III

Durch die Analysen ergeben sich Kommunalitäts- und MAD-Werte, die in Tabelle 3.5 zu finden sind. Für die Analysen werden zehn Items miteinbezogen, die in allen Versionen vorhanden sind. Dabei handelt es sich um die Items C003x1, C005x1, C007x1, C009x1, C011x1, C012x1, C014x1, C015x1, C020x1 und C024x1. Tab. 3.5 DIF-Analysen bezüglich des Semesters für BWP III Semester

Stichprobe

Kommunalität

MAD

39

.955

0.34

Sommersemester 2015

55

.846

.32

Wintersemester 2015/2016

52

.923

.29

Sommersemester 2016

66

.866

0.26

Wintersemester 2016/2017

45

.74

0.73

Sommersemester 2017

49

.797

0.34

Wintersemester 2017/2018

26

.775

0.49

Wintersemester 2014/2015

Die Betrachtung der Ergebnisse zeigt, dass das letzte betrachtete Semester, also das Wintersemester 2017/2018 auffällig hohe MAD-Werte aufweist, die jedoch noch immer tendenziell in Richtung des Idealwerts liegt. Dabei sind lediglich die Items C007x1 und C024x1, jeweils bei der Schwelle, den ersten Punkt zu erreichen, über dem oben betrachteten Grenzwert auf Itemebene von x > 1. Aufgrund der geringen Itemzahl führt das bereits dazu, dass lediglich zwei Items eine Verzerrung des Wertes bewirken. Der Aussagegehalt ist für die generelle Betrachtung zudem enorm einge‐ schränkt. Eine nähere Betrachtung der Items zeigt dabei keine Besonderheit oder mögliche Gemeinsamkeit, die zu einer möglichen Unfairness in diesem Semester führt. Auch die Gegebenheiten lassen für dieses Semester keine Erklärung für die DIF-Effekte zu. Deutlich über den gesetzten Grenzwerten des MAD liegt das Wintersemester 2016/2017. Der Wert für die Kommunalität ist vergleichsweise gering. Mit den Items C007x1, C012x1 und C020x1 sind zwar auch hier lediglich drei Items auffällig, dennoch betrifft es für das Item C012x1 beide Schwellen, wohingegen für das Item C007x1 lediglich die erste Schwelle und für das Item C020x1 die zweite Schwelle für die DIF-Effekte deutlich über einem MAD von x > 1 liegt. Auch hier ist keine Begründung aufgrund der Items und den Gegebenheiten möglich.

Die Items messen bezüglich des Semesters fair

Abb. 3.4 Itembetrachtung der Semester-DIF der Prüfung BWP III (eigene Darstellung)

In Abbildung 3.4 wird dieser Effekt auch optisch noch einmal sichtbar. Dennoch ist auch hier lediglich eine Aussage über die Ankeritems möglich. Ob DIF-Effekte für die komplette Prüfung auftreten, kann hier nicht näher betrachtet werden. Jedoch besteht für den Zeitraum zwischen Wintersemester 2014/2015 und Wintersemes‐ ter 2016/2017 ein deutlich größerer identischer Itempool. Dieser wird aus diesem Grund in Kapitel 3.3.5 ausführlicher analysiert, um den erhöhten MAD-Wert für das Wintersemester 2016/2017 näher in den Blick nehmen zu können. Die Ergebnisse der Kommunalität und des MAD unter Berücksichtigung des 95 %-Signifikanzniveaus zeigen, dass ein überwiegender Teil der Werte außerhalb der Grenzen liegt. Lediglich die Wintersemester 14/15 sowie Wintersemester 15/16 liegen unter den bestimmten Grenzwerten. Bezüglich des MAD liegen die Werte für das Wintersemester 16/17, das Sommersemester 2017 sowie das Wintersemester 2017/2018 jeweils knapp über den Grenzwerten. Als Limitation muss dazu gesagt werden, dass die geringe Anzahl der Items hierbei zu einer Verzerrung führt. Es liegt also eine semesterbezogene Unfairness vor. Diese sollte näher betrachtet werden. Ein Rückschluss auf die komplette Prüfung ist dadurch dennoch nicht mög‐ lich, weshalb von einem Ausschluss einzelner Semester in der weiteren Betrachtung abgesehen wird. Die Hypothese kann für die Ankeritems der Prüfung BWP III nicht bestätigt werden.

3.3.4

DIF-Analysen bezüglich des Semesters für die Prüfung BWP IV

Das angewendete Vorgehen zur Betrachtung der Ankeritems mit der Betrachtung der Kommunalität und des MAD findet auch für die Prüfung BWP IV Anwendung. Hier‐ bei werden 14 Items herangezogen, nämlich die Items D026x1, D027x1, D028x1, D035x1, D036x1, D038x1, D040x1, D042x1, D043x1, D044x1, D045x1, D046x1, D047x1. Die Ergebnisse sind in Tabelle 3.6 ausführlich zu finden.

171

172

Differential Item Functioning und Itemfairness

Abb. 3.5 Itembetrachtung der Semester-DIF der Prüfung BWP IV (eigene Darstellung)

Tab. 3.6 DIF-Analysen bezüglich des Semesters für BWP IV Semester

Stichprobe

Kommunalität

MAD

Wintersemester 2014/2015

38

.864

0.47

Sommersemester 2015

55

.880

.32

Wintersemester 2015/2016

52

.945

.30

Sommersemester 2016

66

.950

0.23

Wintersemester 2016/2017

45

.875

0.37

Sommersemester 2017

49

.902

0.32

Wintersemester 2017/2018

26

.734

0.61

In dieser Betrachtung wird deutlich, dass das Wintersemester 2017/2018 einen erhöhten MAD-Wert aufzeigt. Insgesamt liegen die MAD-Werte von fünf Items über einem Wert von x > 1. Dies betrifft die Items D038x1 (auf der Schwelle zur Erreichung eines Punktes), D026x1, D028x1, D040x1 sowie D046x1 an der Schwelle zur Erreichung des zweiten Punktes. Inhaltlich besteht keine erkennbare Verknüpfung zwischen den Items. Es zeigt sich auffällig, dass die zweite Schwelle eine Unfairness bei den Ankeritems aufweist. Weshalb explizit diese Schwelle bedeutsam wird, ist dabei nicht umfänglich nachvollziehbar. Teilweise ist in den Aufgaben jedoch nicht klar, wie viele Begriffe beispielsweise nötig sind, um die volle Punktzahl zu bekommen. Dieser Effekt ist auch in Abbildung 3.5 erkennbar. Es ist dabei auch auffällig, dass die Schwierigkeit der Items nicht einseitig ausfällt. Manche Items dieser Betrachtung werden einfacher, während andere Items merklich schwerer ausfallen. Deutlicher wird dies bei der Betrachtung der Kommunalität und dem MAD im Ab‐ gleich mit statistisch bestimmten Grenzen. Für die Kommunalität liegen abgesehen der Semester Wintersemester 2015/16 bzw. Sommersemester 2017 Werte vor, die über den statistisch festgelegten Grenzen liegen. Ein ähnliches Bild zeigt ich auch bei

Die Items messen bezüglich des Semesters fair

dem MAD, bei der ebenfalls das Wintersemester 2015/16 bzw. das Sommersemester 2017 unter den Grenzen liegen. Zudem ist der Wert des Sommersemesters 2017 unter den simulierten Grenzen. Diese Hypothese lässt sich aus diesem Grund ebenfalls nicht bestätigen. Es treten für die Ankeritems DIF-Effekte auf, wobei keine Rückschlüsse auf die Gesamtprü‐ fung getroffen werden können. Eine Selektion ausgewählter Semester findet deshalb auch für die Prüfung BWP IV nicht statt. Dennoch sind die DIF-Effekte auch hierbei zu berücksichtigen, wenn Aussagen auf Semesterebene getroffen werden. Da die Prüfungen BWP III und BWP IV zusammengeschrieben werden und der Itempool eine Zeit lang unverändert war, besteht hier die Möglichkeit, eine vollständige DIF-Analyse für den Zeitraum von Wintersemester 2014/2015 bis Win‐ tersemester 2016/2017 vorzunehmen. Diese Analysen werden im nachfolgenden Kapitel deshalb vorgenommen.

3.3.5

DIF-Analysen ausgewählter Semester der Prüfungen BWP III und IV

In Tabelle 3.7 sind die Ergebnisse für die Prüfung BWP III abgebildet. Tab. 3.7 DIF-Analysen bezüglich ausgewählter Semester für BWP III Semester

Stichprobe

Kommunalität

MAD

Wintersemester 2014/2015

38

.910

0.34

Sommersemester 2015

55

.921

.26

Wintersemester 2015/2016

52

.926

.27

Sommersemester 2016

66

.928

0.20

Wintersemester 2016/2017

45

.727

0.60

Die Ergebnisse für die komplette Prüfung decken sich in Teilen deutlich mit den Ergebnissen der Ankeritems in diesen Semestern. Es zeigt sich ebenfalls, dass die Prüfungen von Wintersemester 2014/2015 bis Sommersemester 2016 keine DIF-Ef‐ fekte bezüglich der Kommunalität aufweisen und der MAD innerhalb der gesetzten Grenzen liegt. Auffälligkeiten weist lediglich das Wintersemester 2016/2017 auf. Dies ist auch in Abbildung 3.6 erkennbar. Deutlicher wird dies, wenn man die ersten vier Semester und das Wintersemester 2016/2017 gegenüberstellt. Diese Betrachtung ist deshalb naheliegend, da diese Semester keine DIF-Effekte über die Semester hinweg aufweisen. Tabelle 3.8 zeigt dabei die Kommunalitäts- und MAD-Werte für die jeweiligen Gruppen.

173

174

Differential Item Functioning und Itemfairness

Abb. 3.6 Itembetrachtung der Semester-DIF ausgewählter Jahrgänge der Prüfung BWP III (eigene Darstellung)

Abb. 3.7 Gegenüberstellung ausgewählter Semester BWP III (eigene Darstellung)

Tab. 3.8 vergleichende DIF-Analysen bezüglich ausgewählter Semester für BWP III Semester WS 2014/2015 bis SS 2016 WS 2016/2017

Stichprobe

Kommunalität

MAD

211

.891

0.11

45

0.60

Dies wird umso klarer in der Gegenüberstellung der Gruppen in der grafischen Darstellung (Abbildung 3.7). Erkennbar wird, dass die Items im Wintersemester 2016/2017 abweichen. Es lässt sich also nicht sagen, dass die Prüfung deutlich schwerer für die Stichprobe ausfällt als für die anderen Semester, stattdessen gibt es vereinzelte Items, die schwerer ausfallen, während manche Items leichter oder gleich schwer im Wintersemester 2016/2017 als in den anderen Semestern sind. Durch die Struktur der Prüfung ist naheliegend, dass die Ergebnisse für die Prü‐ fung BWP IV ähnlich ausfallen (Tabelle 3.9). In die Betrachtung kann das Item D039x1 nicht miteinbezogen werden, da dieses Item im Sommersemester 2015 nicht zum Einsatz kam.

Die Items messen bezüglich des Semesters fair

Abb. 3.8 Gegenüberstellung ausgewählter Semester BWP IV (eigene Darstellung)

Tab. 3.9 vergleichende DIF-Analysen bezüglich ausgewählter Semester für BWP IV Semester WS 2014/2015 bis SS 2016 WS 2016/2017

Stichprobe

Kommunalität

MAD

211

.944

0.07

45

0.42

Für die Prüfung BWP IV zeigen sich erhöhte Werte des MAD im Wintersemester 2016/2017. Auch die grafische Betrachtung zeigt, dass, wie bereits für die Prüfung BWP III, einzelne Items leichter oder schwerer ausfallen, während es Items gibt, die eine vergleichbare Schwierigkeit aufweisen (Abbildung 3.8). Die Anzahl der auffälligen Items fällt hier im direkten Vergleich jedoch deutlich geringer aus, als dies für die Prüfung BWP III der Fall ist. Während bei der Prüfung BWP III acht Items einen MAD von x > 1 aufweisen, sind es bei der Prüfung BWP IV lediglich vier Items. Dennoch muss betont werden, dass die Prüfung BWP IV weniger Items beinhaltet. Für beide Prüfungen ergibt sich auf den ersten Blick keine klare Erklärung, weshalb dieses Semester unregelmäßig im Verhältnis zu den anderen Semestern auffällt. Sowohl auf Itemebene als auch in der Durchführung und der Vermittlung der Inhalte sind keine Aspekte bemerkbar, die diese DIF-Effekte für dieses Semester erklären können. Befragungen mit Studierenden haben eine mögliche Begründung aufgezeigt. Im Anschluss an das Sommersemester 2016 haben Studierende eine studentische Musterlösung angelegt. Diese Musterlösung wurde generiert, indem im Anschluss an die Prüfung aus der Erinnerung Fragen gesammelt wurden, die anschließend selbst‐ ständig beantwortet wurden. Ein völliger Zugang zu den Prüfungsfragen liegt nicht vor. Die studentische Musterlösung wurde zur weiteren Betrachtung herangezogen. Bei der Betrachtung der Musterlösung zeigen sich verschiedene Aspekte. Zum einen sind Aufgaben nicht vorhanden, die Informationen liegen im Gesamten somit nicht durchgängig vor. Zum anderen sind die Aufgaben in verschiedener Qualität vorhanden. Teilweise liegen nur Fragen vor, die in der studentischen Musterlösung

175

176

Differential Item Functioning und Itemfairness

nicht beantwortet werden. Darüber hinaus sind die Fragen teilweise unvollständig sowie die Antworten teilweise unvollständig und falsch. Im Gegensatz dazu gibt es in der studentischen Musterlösung auch Fragen, die komplett beantwortet werden. Besonders deutlich wird dies bei der Betrachtung der Items unter Berücksich‐ tigung des Lösungsgrades. Dieser wird dabei ausdifferenziert nach Fehlern in der Musterlösung, teilweise richtig gelöst, fehlerhaft gelöst, vollständig gelöst und un‐ beantwortet. Es zeigt sich dabei, dass je nach Vorhandensein in der Musterlösung andere Ergeb‐ nisse in der Betrachtung zwischen den vorangehenden Semestern und dem Winter‐ semester 2016/2017 auffällig werden. So werden in der studentischen Musterlösung fehlende Items schwerer. Dies ist dadurch zu erklären, dass möglicherweise das Wissen nicht über die Musterlösung hinaus erlernt wird. Teilweise gelöste Aufgaben bleiben von der Schwierigkeit her vergleichbar zu den vorangehenden Semestern. Deutlich schwerer werden Items, die in der Musterlösung falsch sind. Es liegt dabei nahe, dass fälschlicherweise davon ausgegangen wird, dass die Antwort korrekt ist und keine kritische Überprüfung und Lernen darüber hinaus nötig ist. Vollständig vorhandene Aufgaben in der studentischen Musterlösung werden durch die Hinzu‐ nahme der Musterlösung einfacher. Dies trifft auch bei Aufgaben auf, die lediglich in Form der Frage gegeben sind, nicht jedoch die Antwort vorhanden ist. Durch einen Lernprozess können Lernende diese Informationen jedoch selbstständig ergänzen und somit beantworten. Dadurch ist jedoch die Aussagekraft der Fähigkeitsschätzung stark eingeschränkt, insbesondere, da nicht trennbar ist, wie viele Personen explizit betroffen sind. Deutlicher wird dies, wenn die Varianzaufklärung durch die Musterlösung berück‐ sichtig wird. Hierbei erklärt die Musterlösung R2 = .101, p < 0.008. Daraus ergibt sich, dass die studentische Musterlösung den DIF-Effekt zu 10,1 % erklärt (siehe Abbildung 3.9). Andere Aspekte scheinen die semesterbezogenen Besonderheiten zu sein, der Effekt der Musterlösung als Auffälligkeit sollte jedoch insgesamt vermieden werden. Für die Prüfung BWP IV wird ein anderer Aspekt deutlich. So ist dort der Anteil der Aufgaben, die in der studentischen Musterlösung vorhanden sind, deutlich gerin‐ ger. Die meisten Aufgaben sind nicht in der Musterlösung zu finden. Dies zeigt sich auch in der Betrachtung der Verteilung. So liegen keine fehlerhaften Aufgaben vor. Der Anteil der Aufgaben, die teilweise, vollständig gelöst oder nur in Form der Frage in der studentischen Musterlösung auftritt, ist im Vergleich zur Prüfung BWP III deutlich geringer. Die meisten Aufgaben sind nicht in der Musterlösung zu finden. Dieses Ergebnis zeigt sich auch in der linearen Regression. Die studentische Mus‐ terlösung löst dabei lediglich R2 = .016, p < 0.188. Daraus ergibt sich, dass die studentische Musterlösung als eine mögliche Quelle der leicht erhöhten DIF-Werte interpretiert werden kann. Die nicht signifikante Erklärungskraft von 1,6 % zeigt jedoch, dass diese sehr gering ist (siehe Abbildung 3.10).

Die Items messen bezüglich des Semesters fair

Abb. 3.9 Lösungsgrad der Musterlösung BWP III (eigene Darstellung)

Abb. 3.10 Lösungsgrad der Musterlösung BWP IV (eigene Darstellung)

Daraus lässt sich die Erkenntnis ableiten, dass studentische Musterlösungen durchaus eine Unfairness zwischen den Semestern begründen kann. Studierende sollten zudem darauf hingewiesen werden, dass studentische Musterlösungen kei‐ nen Garant für bessere Bearbeitung der Aufgaben darstellen. Durch falsche oder unvollständige Angaben ergibt sich demgegenüber sogar für eine nicht bestimmbare Menge an Studierenden eine erhöhte Schwierigkeit bei den Aufgaben, die bei glei‐ cher Fähigkeit bei ungeeignetem Vorgehen zu schlechterer Leistung führen kann.

177

178

Differential Item Functioning und Itemfairness

Zudem ist die Verwendung identischer Aufgaben über einen längeren Zeitraum ohne Veränderung der Auswahl zu überdenken. Für die weitere Betrachtung ergeben sich zwei Implikationen aus den Ergebnissen. Auf der einen Seite ist die Unfairness des Wintersemesters 2016/2017 der Prüfung BWP III deutlich erkennbar. Für die weitere Bearbeitung wird aus diesem Grund auf einen Miteinbezug dieses Semesters in die Analysen verzichtet. Im folgenden Kapitel wird die Struktur der Prüfung BWP III unter Berücksichtigung der Erkenntnis erneut betrachtet. Auf der anderen Seite fällt die Varianzaufklärung der Musterlösung für die Prüfung BWP IV vergleichsweise gering aus. Dieses Semester wird aus diesem Grund zwar in die weiteren Analysen miteinbezogen, die Erkenntnis aber kritisch bei Betrachtungen auf Semesterebene berücksichtigt. Dennoch zeigt sich deutlich, dass eine Rotation der Items nötig ist, um studenti‐ sche Musterlösungen zu vermeiden. Ein bisher unbedachter Faktor, der empirisch nur schwer zu bestimmen ist, ist die Verbreitung der studentischen Musterlösung. Da davon auszugehen ist, dass nicht alle Personen Zugang zu den Musterlösungen haben, entsteht eine gruppenbezogene Unfairness innerhalb dieses Semesters. Dieser DIF-Effekt kann leider nicht näher betrachtet werden, spielt jedoch eine wichtige Rolle bezüglich der Testfairness.

3.3.6

Ergänzende Skalierung der Prüfung BWP III

Durch die Erkenntnisse wird der Bedarf für eine neue Skalierung ohne Miteinbezug des Wintersemesters 2016/17 aufgezeigt. Die Ergebnisse der ergänzenden Skalie‐ rung sind in Tabelle 3.10 abgebildet. Tab. 3.10 Skalierung BWP III ohne Wintersemester 2016/17 Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP III

.909

.894

0.78 < x < 1.19

0.67 < x < 1.35

X < 0.46

0.058

Es zeigt sich, dass der Wertebereich des Outfits und der Q3,∗ -Statistik leicht erhöht ist. Bei der Betrachtung des Outfits fallen besonders die Items C017x2, C018x2 sowie C021x2 auf, die einen zu geringen Outfit aufweisen, der nicht ausgeblendet werden kann. Für die weiteren Analysen werden diese Items aus diesem Grund nicht weiter miteinbezogen. Daraus ergibt sich letztlich die Skalierung aus Tabelle 3.11. Tab. 3.11 angepasste Skalierung BWP III ohne Wintersemester 2016/17 Prüfung

EAP/PV

WLE

Infit

Outfit

Q3,∗

RMSD

BWP III

.906

.891

0.77 < x < 1.17

0.73 < x < 1.31

X < 0.42

0.055

Betrachtung der Forschungsfrage bezüglich der DIF-Effekte

Die Veränderung zeigt sich besonders in besseren Werten des Outfits und der mittleren Q3,∗ -Statistik. Speziell für die Q3,∗ -Statistik liegen deutlich weniger er‐ höhte Werte vor, wobei weiterhin einzelne Items erhöhte Werte aufweisen. Wei‐ tere Anpassungen für diese Skalierung wirken aus theoretischer Sicht nicht ziel‐ führend, da lediglich durch die Eliminierung relevanter Inhalte Verbesserungen möglich werden. Somit wird für die weiteren Analysen dieses Modell als final heran‐ gezogen. Auch die Betrachtung der statisitsch analysierten Grenzwerte auf Grundlage des 95 %-Signifikanzniveaus unterstreicht dieses Ergebnis. Für die Q3,∗ -Statistik zeigt sich, dass legiglich 21 von 631 Itempaaren oberhalb des bestimmbaren Grenzwertes liegt. Dies entspricht 3,3 % und stellt eine deutliche Verbesserung zur vorherigen Variante dar. Auch bezüglich des RMSD fallen die Ergebnisse deutlich besser aus. Mit 0.051 liegt der reale Wert unter dem Grenzwert von 0.058. Auf Einzelitemebene weisen vier Items einen leicht erhöhten Wert des RMSD auf, diese Erhöhungen fallen jedoch sehr gering aus. Bezüglich des Infits und Outfits sind dennoch einige Items vorhanden, deren Werte über oder unter den Idealwerten liegen. Bezüglich des Outfits weisen die Items C004x1, C008x1, C010x1 sowie C024x1 einen zu geringen Outfit-Wert auf, die Werte der Items C012x1, C016x1 sowie C018x1 sind erhöht. Für den Infit zeigt sich ein ähnliches Ergebnis, die meisten genannten Items sind auch hier auffällig. Lediglich der Wert für das Item C004x1 sowie das Item C018x1 fällt hierbei im Vergleich zur vorangegangenen Analyse unauffällig aus, dafür ist zusätzlich das Item C015x1 im Vergleich zum statistisch analysierten Grenzwert erhöht. Aufgrund der Gesamtbetrachtung und der inhaltlichen Validität wird dennoch auf eine Anpassung der Items verzichtet. Grundsätzlich zeigt sich, dass der Ausschluss des Semesters zu einer deutlichen Verbesserung der Fit-Werte führt. Das somit letztlich entstehende Modell erweist sich dabei als brauchbar und kann in die weiteren Analysen miteinbezogen werden. Dennoch besteht punktuell aus statistischer Sicht weiterhin die Möglichkeit der Verbesserung der statistischen Passung, dies geht aber zu Lasten der inhaltlichen Passung. Das gegebene Modell erlaubt gültige Rückschlüsse zum Konstrukt.

3.4

Betrachtung der Forschungsfrage bezüglich der DIF-Effekte

Die Forschungsfrage, ob die Prüfungen bezüglich des Geschlechtes, des Studien‐ gangs und der Kohorte fair messen, kann nur teilweise beantwortet und bestätigt werden. Die herangezogenen DIF-Analysen in Anlehnung an Yildirim und Yildirim (2011) und Grisay et al. (2007), die die Kommunalität sowie den MAD heranziehen, basieren teilweise auf Verfahren der klassischen Testtheorie, was zu Limitationen führt, wenn keine vollständige Datengrundlage vorhanden ist.

179

180

Differential Item Functioning und Itemfairness

Bezüglich des Geschlechts zeigen die Ergebnisse deutlich, dass sowohl für die Kommunalität als auch für den MAD, die Grenzwerte weitestgehend eingehalten werden. Dadurch ergibt sich, dass die betrachteten Prüfungen der Berufs- bzw. Tech‐ nikpädagogik an der Universität Stuttgart bezüglich des Geschlechts fair messen. Sowohl Fragestellung als auch Antwort zeigen dabei im Mittel über alle Aufgaben hinweg keine positive oder negative Beeinflussung der Darstellung der Personen‐ fähigkeit bei identischer Personenfähigkeit der Gruppen. Dennoch sind einzelne Items auffällig. Die Auffälligkeiten sind jedoch in beide Richtungen ausgeprägt, weshalb im Mittel über alle betrachteten Items hinweg keine merkliche Ungleichheit auftritt. Statistisch bestimmte Grenzwerte legen jedoch eine kritische Betrachtung für folgende Analysen nahe. Bezüglich des Studiengangs fallen die Ergebnisse vergleichbar aus. Auch hier treten zwar für einzelne Items erhöhte Werte auf, im Mittel sind jedoch die Werte der Kommunalität und des MAD innerhalb der Grenzwerte, weshalb im Mittel keine Ungleichheit bezüglich des Studiengangs vorliegt. Somit misst der Test sowohl für Berufspädagogik-Studierende als auch für Technikpädagogik-Studierende weitest‐ gehend fair. Es sind jedoch bei einzelnen Items erhöhte MAD-Werte vorhanden, dabei zeigt sich jedoch keine theoriebasierte Erklärung für diese auftretenden erhöh‐ ten Werte. Zudem zeigen statistisch bestimmte Grenzwerte jedoch Tendenzen zu DIF-Effekten. Die Aussagen bezüglich der Testfairness für Ankeritems über die Kohorten hinweg sind differenziert. Lediglich für die Prüfung BWP II liegen die Werte innerhalb der Grenzen. Für die Prüfung BWP I, BWP III und BWP IV liegen für einzelne Kohorten erhöhte Werte des MAD vor. Für die Prüfung BWP I liegt die Vermutung nahe, dass durch einen Dozenten-Wechsel eine Unfairness gegenüber den anderen Semestern erklärt werden kann. Aussagen für die anderen Semester sind nur eingeschränkt möglich. Zudem sind keine Aussagen über die komplette Prüfung auf Grundlage der Ankeritems möglich. Die Hypothese kann, abgesehen von der Prüfung BWP II, in diesem Fall nicht angenommen werden. Eine differenziertere Betrachtung erlaubt sich bei den Prüfungen BWP III und BWP IV für die Kohorten des Wintersemesters 2014/2015 bis Wintersemester 2016/2017. Hier zeigt sich der erhöhte MAD-Wert bezüglich des Wintersemes‐ ters 2016/2017 der Prüfung BWP III noch deutlicher. Diese Kohorte weist bei der Prüfung BWP IV lediglich einen leicht erhöhten Wert auf. Für beide Prüfungen zeigt sich, dass eine studentische Musterlösung eine hohe Erklärungskraft für die erhöhten MAD-Werte aufweist. Durch den erhöhten Wert wird die Kohorte Wintersemester 2016/2017 der Prüfung BWP III nicht weiter in die Betrachtung miteinbezogen. Eine angepasste Skalierung der Prüfung BWP III weist nach einigen Handlungs‐ schritten wünschenswerte Werte bezüglich der Reliabilitäten, des Infits, Outfits, der Q3,∗ -Statistik sowie des RMSD auf. Da die Werte für die Prüfung BWP IV nur leicht erhöht sind, wird die Kohorte des Wintersemesters 2016/2017 zwar weiterhin mit‐

Betrachtung der Forschungsfrage bezüglich der DIF-Effekte

einbezogen, bei kohortenbezogenen Betrachtungen wird, wie auch in Rückschluss auf die Ankeritems, jedoch der auftretende DIF-Effekt einzelner Semester bedacht. Grundsätzlich zeigen die Ergebnisse der Analysen, dass die Dozierenden im Rah‐ men dieser schriftlichen Prüfungen in der Lage sind, faire Prüfungen bezüglich des Geschlechts und des Studiengangs konzipieren zu können. Bezüglich der Kohorten kann die Gleichheit beispielsweise durch andere Lehrfokussierungen Dozierender oder studentische Musterprüfungen mit verschiedener Qualität negativ beeinflusst werden. Zudem sind über die Kohorten hinweg leicht erhöhte Werte über die Prü‐ fungen hinweg erkennbar. Es scheint nötig, Studierende explizit auf die Gefahren falscher Musterlösungen hinzuweisen. Zudem führt ein großer Itempool und eine Itemrotation dazu, dass studentische Musterlösungen reduziert werden können und eine Unfairness dadurch reduziert werden kann. Dies hängt auch damit zusammen, dass die Zugänglichkeit zu ebendiesen Musterlösungen einen Einfluss auf die Note geben kann.

181

4

Dimensionen berufspädagogischen Wissens

Nachdem die Skalierungen interpretierbar ausfallen und basierend auf den DIF-Ana‐ lysen Anpassungen auffälliger Semester vorgenommen werden geht es nachfolgend um die Struktur des berufspädagogischen Wissens. Durch Dimensionsanalysen kann die Forschungslücke zur vorliegenden Struktur gefüllt werden.

4.1

Dimensionierung des Moduls Didaktik beruflicher Bildung

Nachfolgend wird geprüft, welche Dimensionalisierung für die Prüfungen nahelie‐ gend ist. Um die geeginete Dimensionierung aus statistischer Sicht zu analysieren, wird eine Gegenüberstellung der jeweiligen Modelle vorgenommen. Dazu wird ein ein‐ dimensionales Modell, das die Items der finalen Skalierungen der BWP III und BWP IV als zusammenhängend sieht, mit einem zweidimensionalen Modell, das die Items jeweiligen Subdimensionen zuordnet, verglichen (siehe Abbildung 4.1).

Abb. 4.1 schematische Dimensionalisierung des Moduls ‚Didaktik beruflicher Bildung‘ (eigene Darstellung)

Dimensionierung des Moduls Didaktik beruflicher Bildung

Die statistische Betrachtung der Modelle und der Modellvergleich (siehe Ta‐ belle 4.1) bestätigen, was durch die inhaltliche Auseinandersetzung mit der Didaktik und Methodik naheliegend ist. Sowohl der AIC, BIC als auch der AICc fallen für das zweidimensionale Modell geringer aus als die Modellwerte des eindimensionalen Modells. Daraus kann geschlossen werden, dass eine eindimensionale Lösung einer zweidimensionalen Lösung unterlegen ist. Aus diesem Grund sollte aus statisti‐ scher Sicht das eindimensionale Modell verworfen werden und stattdessen sollte die zweidimensionale Dimensionierung bevorzugt werden. Dies deckt sich auch mit Überlegungen im Rahmen der inhaltlichen Validität. Tab. 4.1 Dimensionsvergleich BWP III/IV Modelle

AIC

BIC

AICc

1-dimensional

19199

19560

19276

2-dimensional

19127

19495

19208

Die zwei betrachteten Dimensionen weisen mit Werten von RelEAP/PV,BWPIII = .897 und RelEAP/PV,BWPIV = .906 sehr hohe Reliabilitäten auf. Die beiden Dimensionen korrelieren mit r = .89 sehr hoch miteinander, was auch aus theoretischer Sicht nachvollziehbar ist. Der maximale Wert der Q3,∗ -Statistik liegt mit 0.39 in einem leicht erhöhten Bereich im Vergleich zum Idealwert von 0, dennoch ist dieser Wert noch als zufriedenstellend anzusehen. Der Spanne des Outfits liegt zwischen 0.70 und 1.33, die Spanne des Infits zwischen 0.78 und 1.22. Die WLE-Reliabilität liegt mit .629 für die Dimension Didaktik im unteren, noch akzeptablen Bereich im Vergleich zur ursprünglichen Skalierung der Einzeldimension, für die Methodik-Dimension liegt mit einer WLE-Reliabilität von .858 ein vergleichbar geringer Messfehler des WLE-Schätzers wie in der Einzeldimension vor. Der verringerte Wert für die Didak‐ tik-Dimension lässt sich durch den Miteinbezug der Methodik in die Bestimmung des Wertes erklären, was theoretisch dem Verständnis der Methodik als Teil der Didaktik abzuleiten ist. Der RMSD liegt im Mittel bei 0.0614 und fällt damit wün‐ schenswert aus. Aufgrund der Ergebnisse kann nachfolgend davon ausgegangen werden, dass Didaktik und Methodik als eigenständige Dimensionen in den Analysen behan‐ delt werden müssen. Hypothese H3.1, dass für das Modul ‚Didaktik beruflicher Bildung‘ die Vorlesungsstruktur vorliegt, kann damit angenommen werden. Für die Modulgestaltung heißt das, dass hier eine Trennung der Vorlesungen vorgenommen werden sollte. Die Kombination und damit die gemeinsame Prüfung führt zu einer komplexeren Situation, in der die Inhalte als verknüpft angegesehn werden, die Studierenden diese Verknüpfung aber nicht vornehmen können. Jedoch muss hier die hohe Korrelation berücksichtigt werden, da theoretisch eine gewisse Nähe der In‐ halte vorliegt. Es macht hier grundsätzlich Sinn, zusammenhängend angenommene

183

184

Dimensionen berufspädagogischen Wissens

Abb. 4.2 schematische Dimensionalisierung des berufspädagogischen Wissens (eigene Darstellung)

Vorlesungen und Inhalte dahingehend zu überprüfen, ob diese Zusammenhänge real auch für die Studierenden existieren. Hier können qualitative Analysen einen ersten Hinweis geben, ausführliche Analysen der Prüfungen sind aber grundsätzlich empfehlenswert, um Aussagen zu den Dimensionen zu generieren.

4.2

Dimensionierung des berufspädagogischen Wissens

Nachfolgend wird statistisch eine Strukturprüfung bezüglich des berufspädagogi‐ schen Grundlagenwissens an der Universität Stuttgart vorgenommen. Dazu wird für beide Möglichkeiten der Stuktur, eindimensional oder vierdimensional (siehe Abbildung 4.2), jeweils ein Modell gerechnet. Im eindimensionalen Modell werden alle Items aller Studierenden zur Modellbe‐ schreibung ohne Ausdifferenzierung herangezogen. Es werden dadurch die Daten von 697 Studierenden bezüglich insgesamt 167 verschiedener Items berücksichtigt, wobei nicht alle Studierenden auch alle Aufgaben vorgelegt bekommen haben. Das vierdimensionale Modell differenziert sich nach den oben bereits beschriebenen Vorlesungen und deren Orientierungen im Rahmen der Skalierungen aus. Alle Di‐ mensionen werden miteinander gerechnet, was Aussagen zu den Zusammenhängen zwischen den Dimensionen erlaubt. Tab. 4.2 Dimensionsvergleich des ein- und vierdimensionalen Modells Modelle

AIC

BIC

AICc

1-dimensional

36407

37349

36584

4-dimensional

36251

37233

36447

Die Ergebnisse aus Tabelle 4.2 zeigen, dass die Modellfit-Werte des vierdimensiona‐ len Modells durchgängig geringer ausfallen. Der Unterschied liegt über 10 Ziffern.

Dimensionierung des berufspädagogischen Wissens

Damit kann anhand des Modellfits das vierdimensionale Modell als besser erachtet werden. Die Ergebnisse des χ2 -Test erhärten diese Tendenz, auch wenn die Ergeb‐ nisse dieses Tests nicht überinterpretiert werden sollten. Damit kann Hypothese H3.3 angenommen werden und Hypothese H3.2 verworfen werden. Die EAP/PV-Reliabilitäten des vierdimensionalen Modells (Tabelle 4.3) fallen erwartungsgemäß geringer aus, als bei den einzelnen Stukturmodellen. Sowohl Di‐ mension 1, als auch Dimension 3 und 4 liegen für die EAP/PV-Reliabilität über .70. Lediglich für Dimension 2 fällt die EAP-Reliabilität mit RelEAP/PV,BWPII = .59 zu ge‐ ring aus. Dies sollte in Analysen mit dem Gesamtmodell auf jeden Fall miteinbezogen werden. Tab. 4.3 Reliabilitäten der vier Subdimensionen Dimension 1

Dimension 2

Dimension 3

Dimension 4

.743

.593

.704

.755

Die einzelnen Dimensionen korrelieren verschieden hoch miteinander (siehe Ta‐ belle 4.4). Erwartungsgemäß korrelieren die Dimensionen Didaktik und Methodik mit .89 am höchsten miteinander. Die Dimension BWP I korreliert ebenfalls mit allen anderen Dimensionen hoch. Dies könnte ein Indiz dafür sein, dass die Grundlagen des berufspädagogischen Wissens möglicherweise als eine losgelöste Dimension als Grundlage eines Generalfaktors berufspädagogischen Wissens anzusehen sein könnte. Diesem Indiz wird in anschließenden Analysen nachgegangen. Sehr hoch korrelieren ebenfalls die Dimensionen 1 und 2, also BWP I sowie BWP II. BWP II und BWP III korrelieren im Vergleich dazu deutlich geringer miteinander. Tab. 4.4 Korrelationen der vier Subdimensionen Dimension 1 Dimension 1

Dimension 2

Dimension 3

Dimension 4

.782

.780

.863

Dimension 2

.782

Dimension 3

.780

.661

.661

Dimension 4

.863

.740

.740 .889

.889

Unklar bleibt an dieser Stelle jedoch, weshalb BWP II und BWP III so geringe Kor‐ relationen aufweisen. Denkbar ist dabei, dass dies auf die Inhalte zurückzuführen ist. Die erhöhten Korelationen zwischen BWP II und BWP IV ergeben sich dabei mögli‐ cherweise durch die inhaltliche Verknüpfung der praktischen Betrachtung und dem methodischen Fokus auf Methoden der Allgemeinpädagogik und Berufspädagogik. Die WLE-Reliabilitäten liegen für die Dimensionen 1 (RelWLE,BWPI = .845), Di‐ mension 2 (RelWLE,BWPII = .823) und Dimension 4 (RelWLE,BWPIV = .858) in einem sehr guten Bereich. Die Messungenauigkeit des WLE-Schätzers ist deshalb als gering

185

186

Dimensionen berufspädagogischen Wissens

anzusehen. Lediglich bei Dimension 3 (RelWLE,BWPIII = .638) fällt die Reliabilität gering aus. Erwartungskonform weisen einige Items bezüglich der Q3,∗ -Statistik deutlich erhöhte Werte auf. Die hohen Residualkovarianzen auf Itemebene zwischen den verschiedenen Inhaltsdimensionen legen nahe, dass lokale stochastische Abhängig‐ keiten zwischen den Items der verschiedenen Dimensionen nicht ausgeschlossen sind. Auf Ebene der einzelnen Dimensionen in den Skalierungen fällt die lokale stochastische Unabhängigkeit deutlich besser aus. Für weitere Analysen müssten diese Abhängigkeiten näher in den Blick genommen werden und, soweit möglich, reduziert werden. Hierzu sollte auch die inhaltliche Validität (Kapitel 1) in den weiteren Prozess miteinbezogen werden. Möglicherweise deutet dies auch auf einen Generalfaktor berufspädagogischen Wissens hin. Das Spektrum des Infits der Items liegt mit Werten zwischen 0.79 und 1.21 in sehr gutem Bereich. Die Spanne des Outfits fällt jedoch auffällig aus. Mit Werten zwischen .52 und 1.78 sind auffällige Items festzustellen. Für weitere Analysen ist, wie bereits bei der Q3,∗ -Statistik der Blick spezifischer auf diese Items zu legen. Dies betrifft zehn Items über alle Dimensionen hinweg. Der RMSD liegt im Mittel bei 0.091 und tendiert damit zum wünschenswerten Bereich eines RMSD von 0. Auf Einzelitemebene sind hier ebenfalls einzelne Items erhöht. Abschließend lässt sich damit sagen, dass eine vierdimensionale Modellstruktur einer eindimensionalen Modellstruktur vorgezogen werden kann. Für die jeweili‐ gen Gütewerte sind teilweise noch Limitationen erkennbar und weitere Schritte nötig, wenn Aussagen auf Gesamtmodell-Ebene getroffen werden. Je nach Untersu‐ chungsschritt muss hier deshalb eine weitere Betrachtung vorgenommen werden, auf Subdimensionsebene kann mit den vorangegangenen Skalierungen jedoch auf bereits als brauchbar ermittelte Modelle zurückgegriffen werden. Durch die Ergeb‐ nisse des Modellvergleichs zeigt sich auch, dass beispielsweise Niveaumodelle für die einzelnen Dimensionen getrennt vorgenommen werden müssen und nicht für ein Gesamtmodell. Bei weiteren Erhebungen gibt dies einen Anhaltspunkt für folgende Schritte. Besonders die Werte der Q3,∗ -Statistik deuten darauf hin, dass die Inhalte klarer voneinander getrennt werden sollten.

4.3

Liegt ein Generalfaktormodell vor?

Für die vorliegende Arbeit wird auf ωh als Indikator für das Vorliegen eines g-fac‐ tor-Modells zurückgegriffen. Das mit den Daten aus den generierten Skalierungen bestimmte Modell weist ωh = .933 auf. Durch den hohen Wert scheint ein g-fac‐ tor-Modell möglich. Dies ergibt sich auch aus dem Vergleich dieses Wertes mit dem Wert von ωtotal = .975.

Einordnung der Ergebnisse der Dimensionalisierung

Abb. 4.3 schematische g-factor-Dimensionalisierung des berufspädagogischen Wissens (eigene Darstellung)

Der sich daraus ergebende g-factor weist eine EAP/PV-Reliabilität von .818 auf, was hoch ausfällt. Die Reliabilitäten der anderen Dimensionen fallen im Ver‐ gleich dazu erwartbar sehr gering aus mit Werten von RelEAP/PV,BWPI = .025, RelEAP/PV,BWPII = .079, RelEAP/PV,BWPIII = .132 und RelEAP/PV,BWPIV = .159. Tab. 4.5 Dimensionsvergleich des vierdimensionalen Modells mit einem g-factor-Modell Modelle

AIC

BIC

AICc

4-dimensional

36252

37234

36447

g-factor-Modell

36278

37238

36463

Die Betrachtung des AIC und des AICc (Tabelle 4.5) zeigt deutlich, dass das vier‐ dimensonale Modell einem g-factor-Model (siehe Abbildung 4.3) vorzuziehen ist. Bei einer Betrachtung des BIC ist der Unterschied nicht so hoch, dennoch ist auch hier der Wert des BIC für das vierdimensionale Modell geringer als der BIC des g-factor-Modells, was eine Favorisierung des vierdimensionalen Modells nahelegt. Damit kann Hypothese H3.4 angenommen werden. Ein vierdimensonales Modell ist einem g-factor-Modell bezüglich des berufspädagogischen Wissens vorzuziehen.

4.4

Einordnung der Ergebnisse der Dimensionalisierung

Die Betrachtung der Hypothesen zeigt, dass für die Forschungsfrage bezüglich der Dimensionalisierung des berufspädagogischen Wissens ein vierdimensionales Modell, ausdifferenziert mach den jeweiligen Vorlesungen, allen anderen Dimen‐ sionierungen vorzuziehen ist. Dies deckt sich auch mit den theoretischen Gedanken des Basiscurriculums (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) und

187

188

Dimensionen berufspädagogischen Wissens

den Überlegungen, die sich über das Modulhandbuch und die Gestaltung der Vor‐ lesungen ergeben (vgl. Nickolaus, 2018b; vgl. Nickolaus, 2018a; vgl. Nickolaus, 2018c; vgl. Nickolaus, 2018e; vgl. Universität Stuttgart, 2019a). Dabei ist besonders hervorzuheben, dass eine Vorlesungsstruktur einer Modulstruktur für das Modul ‚Didaktik beruflicher Bildung‘ vorzuziehen ist. Dies hat deutliche Implikationen für den Studiengang, da das Modul bisher mit einer Prüfung geprüft wird. Denkbar wäre hierbei, zwei Module anzulegen oder die Prüfungen getrennt zu schreiben. Generell ist auch die Vorlesungsstruktur einem eindimensionalen Modell des berufspädago‐ gischen Wissens vorzuziehen. Ein g-factor-Modell mit einer weiteren gemeinsamen Komponente aller Subdimensionen ist nicht auszuschließen, unterliegt jedoch eben‐ falls der Dimensionierung basierend auf den Vorlesungen. Es ist denkbar, dass sich die Faktoren des berufspädagogischen Wissens besonders in späteren Semestern als eine gemeinsame Dimension zeigen, um dies zu ermitteln sind weitere Analysen, speziell zum Ende des Studiums, zielführend. Damit ergibt sich für die weiteren Analysen die Möglichkeit, auf Ebene der Subdimensionen Analysen vorzunehmen. Implikationen der Dimensionsierungser‐ gebnisse für die Studiengänge und die Berufspädagogik im Allgemeinen werden im Rahmen der Diskussion (siehe Kapitel 1) näher beschrieben.

5

Vergleichbarkeit von Skalierung und realer Prüfung

Nachdem die inhaltliche und strukturelle Validität in den vorangegangenen Kapiteln näher betrachtet wurde und sich inhaltlich klare Verbindungen zwischen den Prü‐ fungen und den in verschiedenen Quellen als relevant erachteten Inhalten zeigen, ist die Frage offen, ob Skalierungen und Realprüfungen vergleichbar sind. Skalierungen, die für die jeweiligen Prüfungen der Berufspädagogik durchgeführt wurden legen in Dimensionsanalysen eine vierdimensionale Struktur des berufspädagogischen Wissens nahe. Deshalb werden nachfolgend die Dimensionen getrennt betrachtet.

5.1

Es besteht ein Zusammenhang für die Prüfung BWP I

In einem ersten Schritt werden die Analysen für die Prüfung BWP I durchgeführt. Hier sind im Skalierungsprozess einige Änderungen in Form von Zusammenfas‐ sungen und veränderter Kodierungen vorgenommen worden, was die Frage der Vergleichbarkeit in höherem Maße aufwirft. Die Betrachtung der Korrelation der Personenfähigkeit der insgesamt 293 Studierenden mit der Note der jeweiligen Personen führt zu einem Korrelationskoeffizienten von r = −.85. Der negative Wert ergibt sich dabei aus der Richtung der Noten im Vergleich zur Richtung der Personenfähigkeit der Studierenden. Diese hohe Korrelation spricht dafür, dass eine Vergleichbarkeit zwischen der Realprüfung und der statistisch skalierten Prüfung in hohem Maße besteht. Da hier die Personenfähigkeit, wie auch die Note, ein Leistungsmaß in der jeweiligen Prüfung ist, ist hier der hohe Zusammenhang sehr wünschenswert, um weitere Aussagen zu ermöglichen. Für die Prüfung BWP I ergeben sich für die WLE-Personenfähigkeit im Mittel in Gegenüberstellung mit der jeweiligen Note die Werte in Tabelle 5.1

190

Vergleichbarkeit von Skalierung und realer Prüfung

Abb. 5.1 Abbildung der Noten (BWP I) (eigene Darstellung)

Tab. 5.1 Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP I Notenstufe

Mittelwert

Standardabweichung

1,3

1.75

0.26

1,7

1,63

0.07

2

1.32

0.07

2,3

1.01

0.05

2,7

0.77

0.05

3

0.48

0.04

3,3

0.28

0.04

3,7

0.10

0.05

4

–0.19

0.06

5

–0.72

0.08

Eine Besonderheit ergibt sich dadurch, dass keine Person eine 1,0 in der Prüfung erreicht hat. Dieser Bereich kann dadurch auch nicht näher bestimmt werden. Deut‐ licher wird dies bei der Verteilung der Noten im Vergleich zur Personenfähigkeit in der grafischen Darstellung 5.1. In dieser Darstellung wird ersichtlich, dass die Standardabweichungen der Noten 1,7 bis 5,0 sich kaum überschneiden, was für eine gute Differenzierung der Noten

Es besteht ein Zusammenhang für die Prüfung BWP II

für die jeweiligen Personenfähigkeiten spricht. Zudem wird erkenntlich, dass er‐ wartungsgemäß die Note 5,0 am häufigsten als Einzelnote verteilt wurde. Dennoch sammeln sich die meisten Noten der Studierenden der Häufigkeit entsprechend im mittleren Bereich. Dies deckt sich mit der Verteilung der Personenfähigkeit. Eine deutliche Ausnahme zeigt sich bei der Standardabweichung der Note 1,3. Dies ergibt sich möglicherweise dadurch, dass keine 1,0 vergeben wurde. Studierende mit besseren Leistungen werden dabei ebenfalls der Note 1,3 zugeordnet, dennoch betrifft es kaum Studierende. Im Gegenzug dazu wurde die Note vereinzelt auch an Studierende vergeben, die eigentlich eine deutlich geringere Leistung aufweisen. Der Darstellung folgend liegt die berechtigte Note für Personen an unteren Bereich der Standardabweichung auf dem Level der Note 2,0. Denkbar ist hierbei jedoch, dass sich durch die geringe Anzahl an Studierenden mit der Note 1,3 im Vergleich zu den anderen Noten einzelne Leistungen zu möglichen Verzerrungen führen können. Insgesamt kann die Hypothese für die Prüfung BWP I angenommen werden. Die Personenfähigkeit und die Note korrelieren hoch miteinander. Darüber hinaus zeigt sich, dass sich die Noten durch die Personenfähigkeiten gut abbilden lassen. Lediglich für die Note 1,3 zeigt sich hier eine Limitation, möglicherweise ergibt sich diese durch die geringe Anzahl der Studierenden in diesem Bereich, sowie der fehlenden 1,0. Hier sollte demnach auch bei der Bearbeitung der realen Prüfung besonders darauf geachtet werden, dass die Leistungen der Studierenden mit der Note korrekt abgebildet werden. Dies ist deutlich bei den anderen Notenstufen der Fall, was für eine hohe Aussagekraft der Note aus Sicht der statistischen Analysen spricht. Möglicherweise müssen dabei durch die Einführung von Codebüchern und fixen Punkte-Noten-Grenzen in Korrekturprozessen der Prüfungen einheitliche Bewer‐ tungsschemata generiert werden. Dies ermöglicht auch eine Erhöhung der Korrela‐ tion über den bereits positiv ausfallenden Wert. Zudem sollten die Skalierungsergeb‐ nisse in der realen Prüfung näher berücksichtigt werden. Das fehlende Auftreten der Note 1 in der Realprüfung ist ebenfalls ein interessanter Aspekt, der weiter betrachtet werden kann. Für die vorliegende Abbildung ist aber erkennbar, dass einzelne Studierende die Fähigkeit mit einer geringen Wahrscheinlichkeit aufweisen können. Die Ursache, wieso diese Leistung dennoch nicht in der Prüfung gezeigt werden konnte, liegt neben dem Zufall möglicherweise an Prüfungsbedingungen.

5.2

Es besteht ein Zusammenhang für die Prüfung BWP II

Auch für die Prüfung BWP II zeigen sich hohe Zusammenhänge zwischen der Leistung der Studierenden in Form der Personenfähigkeiten und der realen Prü‐ fungsnote. Die Korrelationskoeffizienten liegen dabei im Mittel bei einem Wert von r = −.92. Damit ist die gemittelte Korrelation in einem sehr hohen Bereich.

191

192

Vergleichbarkeit von Skalierung und realer Prüfung

Die Mittelwerte der WLE-Personenfähigkeit pro Note und die Standardabwei‐ chungen können aus Tabelle 5.2 abgelesen werden. Tab. 5.2 Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP II Notenstufe

Mittelwert

Standardabweichung

1,3

1.99

0.08

1,7

1.30

0.09

2

1.13

0.08

2,3

0.69

0.08

2,7

0.53

0.04

3

0.24

0.03

3,3

–0.04

0.06

3,7

–0.45

0.07

4

–0.70

0.06

5

–1.11

0.07

Auch hier fällt auf, dass die Note 1,0 nicht vergeben wurde und die beste Note somit 1,3 ist. Im Gegensatz zur Prüfung BWP I ist hier die Standardabweichung auch bei der Note 1,3 vergleichbar weit wie für die anderen Noten, die Verzerrung ist hier in diesem Maße also nicht so sehr gegeben wie in der Prüfung BWP I. In Abbildung 5.2 zeigt sich, dass die Differenzierung zwischen den jeweiligen No‐ tenstufen für die Personenfähigkeiten gut gelingt. Lediglich im Bereich zwischen 1,7 und 2,0 liegt eine Überschneidung der Standardabweichungen vor. Auch zwischen den Noten 2,3 und 2,7 kann nicht umfänglich sauber differenziert werden. Auffällig ist auch die Verteilung der Personenfähigkeit, die in dem Bereich der Note 3,0 die größte Häufung der Personenfähigkeit aufweist. Dies deckt sich auch mit der Häu‐ figkeit der Note, die im Vergleich zu den anderen Noten deutlich häufiger vergeben wurde. Es zeigt sich jedoch auch, dass dieses Mittel keine Überschneidung der Stan‐ dardabweichungen mit den Noten davor und danach aufweist. Hier kann also auch weitestgehend von einer sauberen Trennung der Noten nach der Personenfähigkeit ausgegangen werden. Aufgrund des Korrelationskoeffizienten, der mittleren Personenfähigkeit pro Note, der Standardabweichungen und den Erkenntnissen aus der grafischen Betrach‐ tung kann die Hypothese für die Prüfung BWP II ebenfalls angenommen werden. Auch hier ergibt sich durch den Miteinbezug der Note die Erkenntnis, dass die Per‐ sonenfähigkeit und die Note gut abgebildet werden können. Somit ist der statistisch analysierte Test und die Note vergleichbar. Für die Realprüfung ergibt sich dadurch aber neben einer Anpassung auf Basis der statistischen Skalierung die Aufgabe, im Bereich zwischen 1,7 und 2,7 eine Reduktion der Standardabweichung durch

Es besteht ein Zusammenhang für die Prüfungen BWP III und BWP IV

Abb. 5.2 Abbildung der Noten (BWP II) (eigene Darstellung)

gezielte Schaffung neuer Prüfungsaufgaben vorzunehmen. Da sich Verzerrungen möglicherweise durch variierende Bewertungsschemata ergeben können, sollte eine fixierte Punkteverteilung und fixe Notengrenzen eingeführt werden, was auch die Objektivität und Reliabilität der Realprüfung erhöhen kann.

5.3

Es besteht ein Zusammenhang für die Prüfungen BWP III und BWP IV

Die Prüfungen BWP III und IV weisen die Besonderheit auf, dass die Prüfungen zusammengeschrieben werden und abschließend aus beiden Prüfungsteilen eine gemeinsame Note generiert wird. Dabei liegt eine geringe Gewichtung durch die maximal erreichbare Punktzahl pro Prüfungsteil vor, der sich möglicherweise hier‐ bei zeigen kann. Der Unterschied beträgt dabei je Durchgang 4 Punkte bzw. zwei Aufgaben, die in BWP IV weniger sind als in BWP III. Die gemittelte Korrelation der Personenfähigkeiten mit den jeweiligen Noten ergeben für die Prüfung BWP III einen Korrelationskoeffizienten von r = −.84 und für die Prüfung BWP IV einen Korrelationskoeffizienten von r = −.82. Der Zusammenhang fällt hierbei also für die Prüfung BWP IV etwas geringer aus, dieser geringere Wert ist jedoch nicht problematisch. Auch hier spricht die negative Kor‐ relation dafür, dass die Richtung der Note hier erkennbar ist. Es kann also trotz der doppelt berücksichtigten Noten hier davon ausgegangen werden, dass die Personen‐

193

194

Vergleichbarkeit von Skalierung und realer Prüfung

fähigkeit der statistisch analysierten Prüfung und der Realprüfung in hohem Maße zusammenhängt und die Realprüfung dadurch auch mit der statistisch analysierten Prüfung abgebildet werden kann, Verzerrungen durch die Punkteverteilung sind aber dennoch möglich, wirken hier jedoch recht gering. Die im Mittel erreichten Personenfähigkeiten und deren Standardabweichungen für die Note für die Prüfung BWP III sind in Tabelle 5.3 zu finden. Tab. 5.3 Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP III Notenstufe

Mittelwert

Standardabweichung

1

2.58

0.27

1,3

2.22

0.12

1,7

1.49

0.06

2

1.13

0.08

2,3

0.82

0.07

2,7

0.65

0.07

3

0.24

0.06

3,3

0.04

0.08

3,7

–0.26

0.05

4

–0.46

0.06

5

–1.45

0.10

Es wird hierbei erkenntlich, dass auch die Note 1 im Gegensatz zu den vorangehen‐ den Prüfungen abgedeckt wird, da diese Note von Studierenden erreicht wurde. Die Personenfähigkeit, die im Mittel dafür nötig ist, fällt jedoch erwartungsgemäß sehr hoch aus, die Standardabweichung ist ebenfalls erhöht. Auch hier ist die Richtung der Mittelwerte wie in den vorangegangen betrachteten Prüfungen durchgängig passend, sodass man im Mittel mit einer besseren Personenfähigkeit auch die bessere Note bekommt. Dies wird auch deutlich, wenn man die grafische Darstellung der Personenfähigkeiten und der Note in Abbildung 5.3 näher betrachtet. Auffällig ist hierbei, dass die Differenzierung zwischen der Note 2,3 und 2,7 nur eingeschränkt möglich ist. Ebenfalls ist die Differenzierung der Noten zwischen 1,0 und 1,3 kaum erkennbar, da die Standardabweichungen sich überschneiden. Es zeigt sich also, dass die Differenzierung der besten Studierenden in den Noten kaum erkennbar ist und somit nur bedingt gegeben ist, dass man bei der Note 1,0 garan‐ tiert eine höhere Personenfähigkeit aufweist, als bei 1,3. Dies betrifft letztlich aber nur einen sehr kleinen Anteil an Studierenden, was die Verzerrung möglicherweise aufgrund von erhöhter Großzügigkeit bei der Notenvergabe aufgrund der Punkte im Vergleich zu der strikt kodierten Prüfung als Ursache hat. Hier liegt demnach eine deutliche Beschränkung der Vergleichbarkeit zwischen den Prüfungen und glei‐

Es besteht ein Zusammenhang für die Prüfungen BWP III und BWP IV

Abb. 5.3 Abbildung der Noten (BWP III) (eigene Darstellung)

chermaßen Handlungsbedarf vor. Probleme der Differenzierung ergeben sich aber möglicherweise auch durch die Prüfungsstruktur. Durch die gedeckelte maximale Punktzahl wird speziell der obere Schwierigkeitsbereich nicht klar erfasst, was sich hier auch in einer Messungenauigkeit durch eine reduzierte Testinformation in die‐ sem Schwierigkeitsbereich zeigt. Hier ist das Wesen von Prüfungen für Skalierungen von Tests in Teilen nachteilig, was für die Interpretation der Noten auf Basis der Personenfähigkeit berücksichtigt werden sollte. In Realprüfungen ist dieser Effekt meist nicht wahrnehmbar, spiegelt sich in den Prüfungen BWP I und BWP II aber beispielsweise in der fehlenden Note 1 wieder. Für die Prüfung BWP IV ist der Zusammenhang zwischen den Personenfähigkei‐ ten und der Noten etwas geringer. Diese Mittelwerte sind in Tabelle 5.4 zu finden. Wie in der Prüfung BWP III ist erwartungskonform die Personenfähigkeit, die zum Erreichen der Note 1,0 nötig ist, sehr hoch. Speziell bei den höheren Noten liegt eine erhöhte Standardabweichung vor. Dies wird in der grafischen Darstellung der Ergebnisse (siehe Abbildung 5.4) ersichtlich. Hier ist die Differenzierung zwischen den Noten aufgrund der Personen‐ fähigkeit an einigen Stellen nicht vollständig gegeben, wie die Überschneidungen der Standardabweichungen zeigt. Besonders der Bereich der guten Noten ist dabei nicht klar ausdifferenziert und weist dadurch mögliche Unsicherheiten in der Genauigkeit der Note auf. Auch die Differenzierung zwischen den Noten 3,0 und 3,3 ist nicht um‐ fänglich gegeben, so erhalten möglicherweise Personen mit einer Personenfähigkeit,

195

196

Vergleichbarkeit von Skalierung und realer Prüfung

Tab. 5.4 Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP IV Notenstufe

Mittelwert

Standardabweichung

1

2.78

0.26

1,3

2.24

0.15

1,7

1.55

0.08

2

1.27

0.09

2,3

0.83

0.08

2,7

0.64

0.05

3

0.19

0.07

3,3

0.04

0.10

3,7

–0.23

0.05

4

–0.48

0.06

5

–1.44

0.10

die der Note 3,0 entspricht, stattdessen eine 3,3 und anders herum. Ähnlich ist dies bei der Ausdifferenzierung zwischen 2,3 und 2,7. An dieser Stelle kann demnach gesagt werden, dass zwar aus dem Korrelati‐ onskoeffizienten abgeleitet werden kann, dass sowohl für die Prüfung BWP III

Abb. 5.4 Abbildung der Noten (BWP IV) (eigene Darstellung)

Betrachtung der Zusammenhänge

als auch für die Prüfung BWP IV davon ausgegangen werden kann, dass die sta‐ tistisch analysierte Prüfung mit der Realprüfung vergleichbar ist, die Genauigkeit auf Notenebene ist jedoch an einigen Stellen eingeschränkt und muss deshalb bei dieser feingliedrigen Ausdifferenzierung mit den jeweiligen Notenschritten vorsich‐ tig berücksichtig werden. Dennoch lässt sich auch hier die Hypothese annehmen. Hier wird jedoch klar der Bedarf deutlich, die Vorlesungen getrennt zu prüfen. Dies reduziert die Verzerrungen, die mit einer gemeinsamen Note einher gehen, da hier Effekte zwischen den Prüfungen erwartungskonform sind. Besonders die Gewichtung verzerrt hier möglicherweise deutlich. Bemerkenswert ist hier aber, dass in einer kombinierten Prüfung die Personenfähigkeiten zum Erreichen der jeweiligen Note recht hoch ausfallen. Auch dies ist möglicherweise durch die Prüfungsstruktur bedingt.

5.4

Betrachtung der Zusammenhänge

Für die Zusammenhänge lässt sich über alle Prüfungen hinweg sagen, dass die Kor‐ relationskoeffizienten vergleichsweise hoch ausfallen. Dies spricht dafür, dass die Vergleichbarkeit zwischen der statistischen Prüfung und der Realprüfung gegeben ist. Somit ist davon auszugehen, dass die Prüfungen sowohl unter Berücksichtigung der inhaltlichen Validität, strukturellen Validität, als auch unter Berücksichtigung der externen Validität wünschenswerte Ergebnisse aufweisen und die Prüfungen in realer Umsetzung und statistischer Modellierung somit miteinander verknüpft werden können. Unter Berücksichtigung der Skalierungen und Dimensionsanalysen kann deshalb davon ausgegangen werden, dass die Güte der im Rahmen dieser Arbeit betrachteten Prüfungen als statistische Tests gegeben ist. Eine deutliche Limitation zeigt sich jedoch in den Ausdifferenzierungen in Form der feingliedrigen Notenstufen. Über alle Prüfungen hinweg zeigt sich über die Stan‐ dardabweichungen, dass eine trennscharfe Differenzierung der Noten anhand der Personenfähigkeit nicht umfänglich auftritt. Besonders bei der Prüfung BWP IV wird deutlich, dass eine Differenzierung zwischen den ,3- und ,7-Stufen und der jeweils vollen Note nicht immer eindeutig möglich ist. Dies zeigt sich auch bei den anderen Prüfungen. Eine mögliche Lösung für diese Arbeit ist deshalb, die Notenstufen ,7-0-,3 zu der jeweiligen Note zusammenzufassen, also beispielsweise die Noten 2,7, 3 sowie 3,3 zur Note 3 zusammenzufassen, um die Genauigkeit zu erhöhen. Dies reduziert jedoch die Vergleichbarkeit mit der Realprüfung deutlich, da hier in Anlehnung an die Prüfungsordnung eine Reduktion der Noten auf die Gesamtschritte nicht umsetzbar ist. Hier muss demnach diese Einschränkung der Vergleichbarkeit in weiteren Analysen auf dieser feingliedrigen Ebene der Noten berücksichtigt werden. Dennoch ist hier klar für die Forschungsfrage die Antwort zu geben, dass die verschiedenen Formen eine Vergleichbarkeit aufweisen.

197

198

Vergleichbarkeit von Skalierung und realer Prüfung

Für die Prüfungsgestaltung generell lässt sich jedoch ableiten, dass die Diffe‐ renzierung deutlich erhöht werden sollte. Hier kann, neben einer Reduktion des impliziten Wissens als Grundlage der Korrektur, ein klares Punktespektrum mit fixen Grenzen helfen. Zudem sollte generell die Differenzierung zwischen den Noten kritisch-reflektiert vorgenommen werden. Speziell für die vorliegenden Prüfungen ist eine Trennung der Prüfungen BWP III und BWP IV nötig, um mögliche Effekte untereinander und Verzerrungen durch einzelne Prüfungsteile zu reduzieren. Alter‐ nativ wären getrennte Noten eine Option, um Gewichtungseffekte zu vermeiden.

6

Niveaumodelle des berufspädagogischen Wissens

Nachdem bereits Ergebnisse bezüglich der Dimensionierung und damit der Kompe‐ tenzstruktur der Subdimensionen des berufspädagogischen Wissens auf Grundlage der skalierten Subdimensionen vorliegen, folgen die Überlegungen, wie die jeweili‐ gen Subdimensionen bezüglich der Leistung genauer beschrieben werden können.

6.1

Niveaumodell für die Prüfung BWP I

Zur Bestimmung des Niveaumodells für die Prüfung BWP I wird auf das oben be‐ schriebene Verfahren zurückgegriffen. Durch diese Bestimmung der Schwellenwerte ergeben sich die Werte aus Tabelle 6.1 für die jeweiligen Schwellen zwischen den vollen Noten. Tab. 6.1 Schwellenwerte der Niveaus BWP I

Schwellenwert

Schwelle 1-2

Schwelle 2-3

Schwelle 3-4

Schwelle 4-5

1.34

0.64

–0.07

–0.61

Eine Gegenüberstellung der Personenfähigkeit und der in der Prüfung vergebenen Note unter Berücksichtigung der statistisch bestimmten Schwellen ist in Abbil‐ dung 6.1 zu finden. Dies dient dazu, die Genauigkeit der über die Schwellen be‐ stimmten Notenniveaus zu bestimmen. Es zeigt sich, dass gerade Personen, die auf den Noten zwischen den Hauptno‐ ten liegen, also beispielsweise 2,3 und 2,7, teilweise trotz geringerer Fähigkeit eine bessere Note bekommen haben, als sie basierend auf ihrer Fähigkeit bekommen sollten. Zudem sind Diskrepanzen bei der Notenvergabe erkennbar. Die Schwellen sind jedoch so bestimmt, dass dieser Effekt kleinstmöglich ausfällt. Die Ursprünge dafür können dabei vielfältig sein, beispielsweise eine ungenaue Korrektur. Dies ist nicht ausgeschlossen, da teilweise ein Prüferwechsel stattgefunden hat. Auch die Rolle nicht miteinbezogener Items und eine Überinterpretation einzelner Be‐

200

Niveaumodelle des berufspädagogischen Wissens

Abb. 6.1 statistische Notenzuordnung (BWP I) (eigene Darstellung)

reiche auf Basis zusammengefasster Items bzw. umkodierter Items kann hierbei dazu führen, dass eine Person letztlich eine andere Note bekommt, als diese Person aufgrund der Personenfähigkeit in diesem Test haben sollte. Besonders auffällig ist dies auch bei Studierenden, die eigentlich die Note 5,0 bekommen haben. Anhand der Personenfähigkeiten sind dabei Studierende zu finden, die eine vergleichbare Personenfähigkeit aufweisen als Studierende, die eine 4, teilweise sogar noch besser, bekommen haben. Diese Besonderheit, die sich hier als Differenzierung zwischen der realen Note und der Zuordnung zu einem Notenbereich basierend auf der Perso‐ nenfähigkeit ergibt, zeigt die Differenz zwischen der statistisch analysierten Prüfung und der real vergebenen Note. Eine Überinterpretation sollte durch die statistische Anpassung des Modells jedoch nicht stattfinden. Für nachfolgende Interpretationen werden die Personen der Kategorie zugeordnet, die sich aus der Notenschwellen ergibt. Unter Berücksichtigung der WLE-Personenfähigkeit und der Schwellen ergibt sich Abbildung 6.2. Der Notenstufe 5 werden die Studierenden mit einer Wahrscheinlichkeit von 18 % zugeordnet, die Wahrscheinlichkeit einer Verortung auf Notenstufe 4 liegt bei 25 %, mit 38 % Wahrscheinlichkeit sind die Studierenden auf einem Kompetenzniveau der Notenstufe 3 verortet, zu 17 % sind die Studierenden der Berufspädagogik auf No‐ tenstufe 2 und lediglich mit 2 % erreichen die Studierenden das Kompetenzniveau 1. Für die Notenstufe 1 können dabei Aufgabe A005x2 sowie jeweils der zweite Score und somit die vollständige Beantwortung der Aufgaben A025x1, A021x1 und A031x1 herangezogen werden. Notenstufe 2 wird über eine volle Beantwortung der Aufgaben A013x1 und A021x2 sowie über die Eigenschaften, die zur teilweise korrekten Beantwortung der Aufgaben A010x1, A019x1, A031x1, A027x1, A022x1, A033x1, A016x2, A021x1 sowie A005x1 relevant sind, beschrieben. Zur Beschreibung der Notenstufe 3 bietet sich nur die vollständige Beantwortung der Aufgabe A001x1 an, weshalb umliegende Aufgaben mit vergleichbarer Lösungswahrscheinlichkeit zur Beschreibung herangezogen werden. Die letzte beschreibbare Notenstufe, Stufe 4,

Niveaumodell für die Prüfung BWP I

Abb. 6.2 Niveauzuordnung (BWP I) (eigene Darstellung)

kann über die Fähigkeiten, die zur teilweisen Beantwortung der Aufgaben A016a sowie A001x1 und vollständig beantwortet die Aufgaben A011x1, A004x und A014x1 nötig sind, beschrieben werden. Die darunter liegende Stufe kann aufgrund der Art des Verfahrens nicht bestimmt werden. Das hängt damit zusammen, dass diese Stufe keine darunter liegenden Personen aufweist. Dadurch ergeben sich die nachfolgen‐ den Beschreibungen der Niveaus: Niveaustufe 1: Die Studierenden verfügen über konzeptuelles und prozedurales berufspädagogisches Wissen. Sie sind fähig, die Berufspädagogik als eine Teildisziplin der Erziehungswissenschaft differenziert zu betrachten und komplexe Zusammen‐ hänge zu den Grundrichtungen der Erziehungswissenschaft zu bilden. Sie sind dazu in der Lage, Fachbegriffe der Berufspädagogik zu erschließen. Sie können Informa‐ tionen in einem Kontext einarbeiten und Unterschiede erkennen und beschreiben. Eine Anwendung des Wissens ist möglich. Sicher verankert sind beispielsweise grundlegende Fachbegriffe der Berufspädagogik, die Differenzierung verschiedener Definitionstypen sowie forschungsmethodische Grundlagen. Niveaustufe 2: Die Studierenden können grundlegende Fragestellungen der Erzie‐ hungswissenschaft wiedergeben. Fachbegriffe sind bekannt und werden verstanden. Grundlegende Modelle und Konzepte der Erziehungswissenschaft sind bekannt und können kritisch betrachtet werden. Die Studierenden können das gelernte Fakten‐ wissen auf selbstgewählte Beispiele anwenden und übertragen. Wissenschaftliche Arbeitstechniken können angewendet werden. Sicher verankert ist das berufspädago‐ gische Grundlagenwissen. Grafiken, und Modelle werden verstanden und können interpretiert werden. Niveaustufe 3: Die Studierenden können grundlegendes Fachwissen der Erzie‐ hungswissenschaft und speziell der Berufspädagogik wiedergeben. Einfache be‐ rufspädagogische Fachbegriffe werden verstanden und können situationsspezifisch angewendet werden. Erste Schlussfolgerungen sind auf Grundlage dieser Fachbe‐

201

202

Niveaumodelle des berufspädagogischen Wissens

griffe ebenfalls möglich. Erziehungswissenschaftliche Fragestellungen können von den Studierenden wiedergegeben werden, Grafiken und Modelle zudem in diese Wiedergabe miteinbezogen werden. Theoretische Grundkenntnisse der Forschungs‐ methodik sind bei den Studierenden vorhanden. Niveaustufe 4: Die Studierenden können Faktenwissen wiedergeben und somit klar strukturierte Fragestellungen beantworten. Wenn weitere Informationen ge‐ nannt sind, können diese erkannt und wiedergegeben werden. Einfache Schlussfolge‐ rungen werden anhand des bestehenden berufspädagogischen Wissens geschlossen. Wiedergabe von Wissen aus vertrauten Bereichen und Kontexten, beispielsweise bekannten Modellen und Konzepten, gelingt den Studierenden. Die Inhalte werden von den Studierenden losgelöst voneinander betrachtet.

6.2

Niveaumodell für die Prüfung BWP II

Die sich ergebenden Schwellenwerte für die jeweiligen Notenbereiche der Prüfung BWP II sind in Tabelle 6.2 abgebildet. Tab. 6.2 Schwellenwerte der Niveaus BWP II

Schwellenwert

Schwelle 1-2

Schwelle 2-3

Schwelle 3-4

Schwelle 4-5

1.73

0.62

–0.221

–0.76

Diese Gegenüberstellung der Personenfähigkeit und die Note in der realen Prüfung unter Berücksichtigung der statistisch idealen Notengrenzen ist in Abbildung 6.3 dargestellt. Auch hier zeigt sich die Problematik, dass Personen, basierend auf ihrer Perso‐ nenfähigkeit, teilweise nicht die Note erhalten haben, die für die jeweilige Fähigkeit statistisch als passend erachtet wird. Die Ursache ist auf vielfältige Möglichkeiten zurückzuführen. Bei der Prüfung BWP II kann hierbei insbesondere die nicht weiter berücksichtigte Aufgabe 1 eine Rolle spielen, da diese eine große Anzahl an Punkten gab, die damit nicht in der statistisch bestimmten Personenfähigkeit abgebildet wird, jedoch einen nicht zu vernachlässigten Teil der Gesamtpunktzahl für die reale Note abbildet. Dies erklärt möglicherweise, wieso hier einige Personen eine geringere Note basierend auf der Personenfähigkeit aufweisen, als sie in der finalen Prüfung erreicht haben. Insgesamt sind hierbei jedoch anteilig weniger Personen als in der Prüfung BWP I vorhanden, die nicht die statistisch bestimmte Note erhalten haben. Jedoch weisen beispielsweise einige Personen, die die Note 4 bzw. 3,7 erhalten haben eine geringere Personenfähigkeit auf und sollten demnach statistisch betrachtet die Note 5 erhalten. Für die weiteren Analysen sollte auch hier jedoch eine Überinterpre‐ tation vermieden werden. Stattdessen wird für die weiteren Analysen die statistische Zuordnung zu den Noten herangezogen.

Niveaumodell für die Prüfung BWP II

Abb. 6.3 statistische Notenzuordnung (BWP II) (eigene Darstellung)

Abb. 6.4 Niveauzuordnung (BWP II) (eigene Darstellung)

Die Verteilung der Personen auf die Niveaus auf Basis der Dichte der WLE-Perso‐ nenfähigkeit ist in Abbildung 6.4 zu finden. Der untersten Niveaustufe, Notenstufe 5, sind insgesamt mit einer Wahrschein‐ lichkeit von 21 % Studierende, die die Prüfung in diesem Zeitraum abgelegt haben, zuzuordnen. Auf Stufe 4 sind mit 20 % Studierende vergleichbar häufig dieser Kate‐ gorie zuzuordnen. Wie bereits für die Prüfung BWP I sind mit der Wahrscheinlichkeit von 39 % die meisten Studierenden in der Notenstufe 3 zu finden. Auf Notenstufe 2 sind zu einer Wahrscheinlichkeit von 18 % Studierende verortet. Auf der Noten‐ stufe 1 ist die Wahrscheinlichkeit der Zuordnung zu dieser Stufe bei 3 %, dies sind zwar leicht mehr potenzielle Studierende, als dies für die Prüfung BWP I der Fall war, dennoch wird diese Stufe nur von sehr wenigen Studierenden erreicht. Dies zeigte sich bereits bei den real in der Prüfung vergebenen Noten, auch hier gab es kaum Studierende, die die Note 1,3 erreichten, die Note 1 wurde von niemandem erreicht. Zur Beschreibung der Niveaustufe 1 können daraus abgeleitet vier Itemstufen herangezogen werden. Der erste Schritt zur Beantwortung der Aufgabe B003x1

203

204

Niveaumodelle des berufspädagogischen Wissens

sowie jeweils die vollständig beantwortete Aufgabe B022x1, B032x1 sowie B023x1 bilden dabei die Notenstufe 1 ab. Für die Notenstufe 2 sind dies für die Stufe der teilweise korrekten Beantwortung die Aufgaben B004x1, B031x1, B016x1, B008x1, B022x1 sowie B032x1 und die Fähigkeit zur vollständigen Beantwortung der Auf‐ gaben B011x, B014x1 und B027x1. Für diese Stufe ergibt sich dadurch eine Vielzahl an Aufgaben, die eine detaillierte Beschreibung des Niveaus erlauben. Für Stufe 3 können, wie bereits für die Prüfung BWP I, kaum Aufgaben zur Bestimmung des Niveaus herangezogen werden, weshalb auch umliegende Aufgaben genutzt wer‐ den, um die Bestimmung der Niveaustufe zu ermöglichen. Dies sind die Aufgaben B020x1, B025x1 sowie B002x1 für die jeweils teilweise korrekte Beantwortung der Aufgabe sowie Merkmale zur vollständigen Beantwortung der Aufgabe B017x1. Da auf diesem Niveau die meisten Studierenden verortet sind, liegt hier eine deutliche Schwachstelle des Niveaumodells vor. Für die Notenstufe 4 können Merkmale zur teilweise korrekten Beantwortung der Aufgaben B019x1, B011x, B017x1 herange‐ zogen werden und B030x3, die Aufgaben B010x1 sowie B013x1 werden vollständig beantwortet miteinbezogen. Dadurch ergeben sich die nachfolgenden Beschreibun‐ gen der Niveaus: Niveaustufe 1: Die Studierenden kennen die Grundlagen der betrieblichen Bil‐ dungsarbeit, können diese interpretieren und Merkmale unterscheiden. Eine An‐ wendung und Analyse dieses Wissens gelingt in gegebenen und selbst gewählten Kontexten. Beschreibung und Interpretation von theoretischen Grundlagen, sowie rechtlichen, institutionellen und organisatiorischen Elementen ist umfänglich mög‐ lich. Das deutsche Bildungssystem wird umfänglich verstanden und Besonderheiten anhand ausgewählter Qualitätskriterien analysiert. Niveaustufe 2: Die Studierenden kennen und verstehen die Grundlagen der betrieblichen Bildungsarbeit. Fachbegriffe aus diesem Bereich können durch die Stu‐ dierenden korrekt angewendet werden. Theoretische Grundlagen, sowie rechtliche, institutionelle und organisatiorische Elemente werden durch die Studierenden kor‐ rekt beschrieben. Modelle des Bildungs- und Beschäftigungssystems werden durch die Studierenden korrekt beschrieben und gegenübergestellt. Komplexe Fragestel‐ lungen und Stärken bzw. Schwächen des Bildungssystems können wiedergegeben werden. In die Auseinandersetzungen mit den Thematiken werden durch die Stu‐ dierenden einfache Befunde des Forschungsstands miteinbezogen. Niveaustufe 3: Die Studierenden können theoretische Grundlagen der betriebli‐ chen Aus- und Weiterbildung beschreiben. Ein Faktenwissen liegt nicht umfänglich vor, zentrale Aspekte können jedoch genannt werden. Informationen können aus ge‐ gebenem Material abgeleitet und kontextspezifisch wiedergegeben werden. Kriterien des Übergangs an Schwellen sind umfänglich beschrieben. Niveaustufe 4: Wissen über die Grundlagen betrieblicher Bildungsarbeit kann von den Studierenden in klar vorgegebenen Kontexten abgerufen werden. Es ist für die Studierenden eine klare Information erforderlich, um die Inhalte einzuordnen.

Niveaumodell für die Prüfung BWP III

Die Studierenden können verschiedene Aspekte des Bildungssystems wiedergeben, gängige Aspekte der Organisation im Lehr-Lernbereich können teilweise genannt werden. Eine Einordnung dieser Inhalte ist jedoch nicht möglich.

6.3

Niveaumodell für die Prüfung BWP III

Die Schwellenwerte für die Prüfung BWP III sind in Tabelle 6.3 zu finden. Tab. 6.3 Schwellenwerte der Niveaus BWP III

Schwellenwert

Schwelle 1-2

Schwelle 2-3

Schwelle 3-4

Schwelle 4-5

1.96

0.74

–0.00

–0.75

Zur Betrachtung, inwiefern die realen Noten von den empirisch bestimmten No‐ tenstufen abweichen, wird hier ebenfalls die Personenfähigkeit mit der realen Note unter Miteinbezug der Schwellen betrachtet (Siehe Abbildung 6.5). Wie für die vorangegangen analysierten Prüfungen zeigt sich besonders an den Schwellenübergängen, dass die Zuordnung zwischen der realen Note und der Zu‐ ordnung zur Note basierend auf der Personenfähigkeit durchaus variieren kann. Mögliche Ursachen wurden in den vorangehenden Kapiteln bereits beschrieben. Speziell die Zuordnung von Personen zur realen Note 5 bei einer Personenfähigkeit, die eine Zuordnung zur Note 4 erlauben würde, ist hierbei auffällig. Die Interpre‐ tation sollte hierbei jedoch nur eingeschränkt vorgenommen werden, da sich die reale Note aus der Prüfung BWP III und der Prüfung BWP IV zusammensetzt und hier nur die Personenfähigkeit für die Prüfung BWP III herangezogen wird. Es ist demnach möglich, dass sich die Zuordnung zur Note 5 durch eine geringere gezeigte Personenfähigkeit im zweiten Teil der Prüfung ergibt. Zudem wurden in der Modellanpassung Veränderungen am Punkteverhältnis und der Gewichtung vorgenommen. Dennoch hält sich insgesamt die Anzahl der Personen, die nicht dem jeweiligen Bereich zugeordnet werden, in Grenzen. Auffällig ist an den Schwellen aus Tabelle 6.3, dass der Abstand zwischen den Schwellen 1 und 2 im Vergleich zu den bereits großen Schritten in den voran‐ gehenden Prüfungen hier noch einmal deutlich höher ausfällt. Demnach ist die Personenfähigkeit, die zur Erreichung der Notenstufe 1 nötig ist, vergleichsweise hoch angesetzt. Dies wird auch deutlich, wenn man die Schwellen bei der Betrach‐ tung der Dichte der WLE-Personenfähigkeit für die Prüfung BWP III miteinbezieht (siehe Abbildung 6.6). Insgesamt können mit einer Wahrscheinlichkeit von 23 % Studierende der Noten‐ stufe 5 zugeordnet werden, dies entspricht ungefähr so vielen, wie in den vorangehen‐ den Prüfungen. Auffällig ist jedoch, dass einige Studierende sehr geringe Personen‐ fähigkeiten aufweisen. Diese Studierende haben teilweise nur einen geringen Teil der

205

206

Niveaumodelle des berufspädagogischen Wissens

Abb. 6.5 statistische Notenzuordnung (BWP III) (eigene Darstellung)

Abb. 6.6 Niveauzuordnung (BWP III) (eigene Darstellung)

Prüfung bearbeitet, was möglicherweise eine Bestimmung ihrer Personenfähigkeit erschwert und einen motivationalen Effekt nahelegt. Zur Notenstufe 4 lassen sich mit einer Wahrscheinlichkeit von 27 % Studierende zuordnen, während auf Nive‐ austufe 3 zu 25 % Studierende verortet sind. Dies entspricht einem höheren Anteil der Studierenden auf Stufe 4 als in den vorangehenden Prüfungen, aber auch einem geringeren Anteil an Studierenden auf Notenstufe 3. Auf Notenstufe 2 sind mit zu 23 % Wahrscheinlichkeit wieder vergleichbare Zahlen der potenziellen Studierenden vorhanden, als in den vorangehend betrachteten Prüfungen. Auch Niveaustufe 1 ist mit einer Wahrscheinlichkeit von 3 % Studierende zu verorten. Insgesamt zeigt sich, dass sich die Studierenden über die Notenstufen 2 bis 5 deutlich ausgeglichener verteilen, als dies bei den bisher betrachteten Prüfungen der Fall ist. Zur Beschreibung der ersten Niveaustufe kann trotz der vergleichsweise hoch scheinenden Schwelle auf einige Aufgaben zurückgegriffen werden, besonders auf vollständig beantwortete Aufgaben. Dies sind die Aufgaben C016x1, C006x2, C020x1, C019x2, C005x1, C022x1, C014x1, C018x1, C004a2 sowie C013x2. Die

Niveaumodell für die Prüfung BWP III

Aufgabe C012x1 wird mit einer Berücksichtigung der teilweisen Beantwortung in die Formulierung der ersten Niveaustufe miteinbezogen. Auch für die Niveaustufe 2 sind mit insgesamt 10 Aufgaben einige Informationen zur Beschreibung des Nive‐ aus gegeben. Informationen zur teilweisen Beantwortung werden für die Aufgaben C018x1, C013x1, C020x1, C001x1, C006x2, C008x1 und C007x1 herangezogen. C003x1, C016a2 und C004b2 werden mit einer vollständigen Beantwortung be‐ rücksichtigt. Für Notenstufe 3 werden mit den Aufgaben C022x1, C014x1, C005x1, C006x1 und C001x2 jeweils teilweise beantwortete Aufgaben zur Beschreibung gewählt. Die Notenstufe 4 kann ebenfalls über teilweise beantwortete Aufgaben beschrieben werden, genauer gesagt C016x1, C019x1, C009x1 sowie C010x2. Die Vollständige Beantwortung der Aufgaben C010x1 und C023x1 wird ebenfalls be‐ rücksichtigt. Die Note 5 kann hier basierend auf der Bestimmung der Aufgaben unter Berücksichtigung der Lösungsquoten nicht beschrieben werden. Im Vergleich zu den vorangehenden Prüfungen zeigt sich hier insgesamt die Besonderheit, dass deutlich mehr Aufgaben zur Beschreibung der Niveaus zur Verfügung stehen, was auch auf die größere Anzahl der Aufgaben für die Prüfung BWP III zurückzuführen ist. Durch diese Aufgaben ergeben sich folgende Niveaubeschreibungen: Niveaustufe 1: Die Studierenden können Grundlagen der beruflichen Bildungs einordnen und beurteilen. Sie können didaktische Modelle und Konzepte beschrei‐ ben, miteinander vergleichen und auf selbst gewählte Lehr-Lernprozesse anwen‐ den. Die Studierenden können mehrere Zusammenhänge zwischen Modellen und Konzepten herstellen und benennen. Strukturen und Formen der Erfassung und Bewertung von Wissen, Fähigkeiten und Fertigkeiten werden durch die Studieren‐ den unterschieden. Komplexe Fragestellungen zu didaktischen Situationen können mithilfe von didaktischem Modellen und Konzepten kritisch beurteilt werden. Niveaustufe 2: Die Studierenden können komplexe Fragestellungen zur Didaktik beruflicher Bildung erläutern. Didaktische Fachbegriffe sind ihnen bekannt und werden von den Studierenden verstanden. Die Studierenden können zudem grobe Zusammenhänge modellieren und didaktische Modelle und Konzepte auf vorge‐ gebene Fälle anwenden. Aspekte der Lehr-Lernzielklassifikation werden von den Studierenden korrekt angewendet und zugeordnet. Niveaustufe 3: Die Studierenden können Grundlagen der Didaktik beruflicher Bil‐ dung wiedergeben, insbesondere didaktische Modelle und Konzepte. Faktenwissen zur Didaktik beruflicher Bildung kann korrekt wiedergegeben werden. Besonderhei‐ ten ausgewählter Ansätze des Lehrens und Lernen sind den Studierenden bekannt. Niveaustufe 4: Die Begrifflichkeiten der Didaktik beruflicher Bildung sind den Studierenden teilweise bekannt. Die Studierenden können dabei zentrale Fakten und Informationen wiedergeben. Die Studierenden sind dazu in der Lage, erste Zusammenhänge zwischen didaktischen Modellen und Konzepten zu erkennen.

207

208

Niveaumodelle des berufspädagogischen Wissens

6.4

Niveaumodell für die Prüfung BWP IV

Für die Prüfung BWP IV lassen sich die Schwellenwerte aus Tabelle 6.4 ermitteln. Deutlich ist hierbei, dass, wie bereits für die Prüfung BWP III, der Schwellenwert für das Erreichen der Niveaustufe 1 sehr hoch liegt. Tab. 6.4 Schwellenwerte der Niveaus BWP IV

Schwellenwert

Schwelle 1-2

Schwelle 2-3

Schwelle 3-4

Schwelle 4-5

2.02

0.76

–0.02

–0.74

Wie für die vorangegangenen Analysen kann auch hier die reale Note mit der Perso‐ nenfähigkeit abgebildet werden und die Grenzen für die über die Personenfähigkeit bestimmten Schwellen zwischen den vollen Noten eingezeichnet werden, um zu betrachten, ob die Verteilung erwartungskonform ist (Siehe Abbildung 6.7). Wie bereits vorangehend ist auch hier teilweise zu erkennen, dass die realen Noten einzelner Personen von der Notenstufe abweichen, zu der sie basierend auf der Personenfähigkeit zugeordnet werden. Auch hier ergibt sich jedoch die Besonder‐ heit, dass die Modulabschlussprüfung aus den Prüfungen BWP III und BWP IV besteht und somit die Note beide Teile der Prüfung beinhaltet. So kann die Leistung in der Prüfung BWP III hier zu Abweichungen führen, die nicht näher betrachtet werden können. Besonders bei Studierenden mit den Noten 3 und 4 scheint hier der Unterschied deutlich. Das könnte möglicherweise durch die beschriebene Prüfungs‐ situation zustande kommen. Grundsätzlich sind die Werte jedoch als wünschenswert zu sehen und die Schwellen können als zielführend erachtet werden. Dies ermöglicht es, die Schwellen bei der Darstellung der Dichte der WLE-Perso‐ nenfähigkeit zu berücksichtigen und somit die Niveaus abzustecken, um Aussagen darüber zu bekommen, mit welcher Wahrscheinlichkeit Studierende auf dem jewei‐ ligen statistisch bestimmten Niveau vorzufinden sind (siehe Abbildung 6.8). Es zeigt sich, dass zu 23 % Studierende dem Notenniveau 5 und damit dem nied‐ rigsten Niveau zuzuordnen sind. Mit jeweils 27 % sind sowohl auf der Niveaustufe 3 als auch auf der Niveaustufe 4 gleich wahscheinlich Studierende zu finden. Diese Bereiche stellen darüber hinaus die Bereiche dar, in denen die meisten Studierenden zu finden sind. Auf Niveaustufe 2 sind zu 21 % Studierende verortet. Mit einer Wahr‐ scheinlichkeit von lediglich 2 % liegt die Anzahl der potenziellen Studierenden auf der höchsten Stufe in einem vergleichbar geringen Bereich wie für die anderen Prü‐ fungen. Generell sind die jeweiligen Wahrscheinlichkeiten der Studierendenzahlen vergleichbar mit den Zahlen der anderen Prüfungen. Zur Beschreibung der höchsten Stufe, der Notenstufe 1, können zehn Itemstufen herangezogen werden. Für die Aufgaben D032x2, D032x1, D026x1, D033x, D042x1, D043x1, D038x1, D047x1 sowie D041x1 wird die vollständig gelöste Aufgabe zur

Niveaumodell für die Prüfung BWP IV

Abb. 6.7 statistische Notenzuordnung (BWP IV) (eigene Darstellung)

Abb. 6.8 Niveauzuordnung (BWP IV) (eigene Darstellung)

Beschreibung der Niveaustufe 1 berücksichtigt, während für die Aufgabe D030x1 die teilweise gelöste Antwort des Codebuchs zur Beschreibung der Stufe herangezogen wird. Für die Beschreibung der Notenstufe 2 sind lediglich die Aufgabe D036x1 bei vollständiger Beantwortung der Aufgabe und die Aufgabe D026X1 in Form der teilweise korrekten Beantwortung der Aufgabe die Aufgaben, die zur Beschreibung herangezogen werden. Um eine genauere Beschreibung zu ermöglichen werden deshalb Aufgaben mit einer vergleichbaren Itemschwierigkeit herangezogen. Für die Beschreibung der dritten Niveaustufe erweisen sich durch die Berücksichtigung der Lösungswahrscheinlichkeiten ebenfalls lediglich zwei Aufgaben als geeignet. Bei Aufgabe D045x1 ist hierbei auch nur die teilweise korrekte Beantwortung der Frage für die Beschreibung des Niveaus relevant, während für Aufgabe D027x1 der Score von 1 als vollständige Beantwortung berücksichtigt wird. Auch hier werden Aufgaben mit vergleichbarer Itemschwierigkeit berücksichtigt, um eine spezifischere Beschrei‐ bung zu erlauben. Für Niveaustufe 4 werden mit den Aufgaben D036x1, D040x1, sowie D041x1 mit der jeweils teilweise korrekten Beantwortung der Aufgabe mehr

209

210

Niveaumodelle des berufspädagogischen Wissens

Aufgaben herangezogen, zusätzlich kann von den Aufgaben D035x1 und D038x1 der vollständig gelöste Score betrachtet werden, um die Beschreibung des Niveaus zu ermöglichen. Daraus ergeben sich die nachfolgenden Beschreibungen der Noten: Niveaustufe 1: Fachbegriffe der Methodik werden von den Studierenden voll‐ ständig durchdrungen und erschlossen. Konzepte methodischer Entscheidungen sind den Studierenden in vertiefender Form bekannt und können auf selbst gewählte Kontexte angewendet werden. Zusammenhänge werden erkannt und können als Grundlage für methodische Entscheidungen dienen. Methodische Modelle können zugeordnet und definiert werden. Die Studierenden können Unterrichtsmethoden voneinander abgrenzen und diese für die geeigneten Unterrichtskontexte auswählen. Niveaustufe 2: Grundlegende Fachbegriffe der Methodik werden von den Studie‐ renden verstanden. konzeptuelle und prozedurale Aspekte des berufspädagogischen Wissens können umgesetzt werden. Die Studierenden haben grundlegende Kennt‐ nisse zu methodischen Modellen und können auf dieser Basis Theorien verorten und Unterrichtsmethoden zuordnen. Unterrichtsmethoden sind den Studierenden be‐ kannt, daraus können durch die Studierende geeignete Lehr-Lernkonzepte gewählt werden. Die Studierenden verfügen über ein Wissen über den Forschungsstand zur Methodik beruflicher Bildung. Niveaustufe 3: Die Studierenden können theoretische Grundlagen der Methodik beruflicher Bildung beschreiben und unterscheiden. Diese Inhalte können jedoch nicht in komplexen Kontexten angewendet werden. Unterrichtsmethoden und deren Besonderheiten sind den Studierenden bekannt, dies gilt auch für Kriterien des Lehr-Lernerfolgs. Niveaustufe 4: Grundlegendes Wissen zu Begrifflichkeiten der Methodik sind den Studierenden bekannt. Sie können Fakten wiedergeben und Aspekte der Methodik beruflicher Bildung teilweise verstehen. Die Studierenden können Qualitätskriterien von Lehr-Lernprozessen anführen. Fragen und Aspekte der Unterrichtsqualität kön‐ nen durch die Studierenden genannt werden. Bei vorgegeben Informationen und einem engen Rahmen können geeignete Methoden genannt werden.

6.5

Fazit bezüglich der Niveaumodellierungen

Die vorangehenden Ergebnisse zeigen, dass sich, basierend auf den gesetzten Noten‐ übergängen als Schwellen, eine Niveaumodellierung in Anlehnung an Beaton und Allen (1992) umsetzen lässt und die Niveaus auf Grundlage der Prüfungsaufgaben be‐ schrieben werden können. Dieses Verfahren, das im Hochschulkontext beispielsweise auch bei Dammann (2016) für ingenieurwissenschaftliche Studiengänge herangezo‐ gen wurde, bietet sich demnach auch hier an. Die Hypothesen 5.1 und 5.2, die besagen, dass sich Schwellen zwischen den verschiedenen Anforderungsniveaus finden lassen sowie die Beschreibung dieser Anforderungsniveaus möglich ist, kann demnach für

Fazit bezüglich der Niveaumodellierungen

alle Prüfungen angenommen werden. Eine Limitation liegt jedoch in den Aufgaben, die zur Beschreibung der Niveaus herangezogen werden. Die Anzahl dieser Aufgaben, die sich aus der prozentualen Lösungswahrscheinlichkeit ergibt, ist teilweise gering, was möglicherweise zu einer reduzierten Aussagekraft der Niveaus führt. Um die Aussagekraft zu erhöhen wird vorliegend auch auf Aufgaben mit einer vergleichbaren Itemschwierigkeit zurückgegriffen. Grundsätzlich scheint es jedoch angebracht, die Anzahl der Aufgaben, speziell im mittleren Personenfähigkeitsbereich, zu erweitern, um die Aussagekraft der Niveaus zu erhöhen. Eine weitere Limitation zeigt sich in der Übereinstimmung der Realnoten der Personen und der statistischen Zuordnung zu einer Niveaustufe. Durch die oben angeführten Problematiken wie verschiedene Prüfer, kombinierte Prüfungsnoten, sowie ausgeschlossenen und zusammengefassten Items, könnte die Zustimmung von Studierenden zu den jeweiligen Niveaustufen in einzelnen Fällen reduziert sein, besonders bei Studierenden, die statistisch auf ein anderes Niveau eingeordnet wurden, als in den realen Prüfungen. Eine qualitative Interviewstudie zeigt dabei in diesem Kontext jedoch, dass sich Studierende der Berufspädagogik mit vergleichbaren Niveaubeschreibungen identifizieren können und der inhaltlichen Ausgestaltung der Niveaus zustimmen (vgl. Maisch, 2020). Wenn Niveaus zur Leistungsrückmeldung herangezogen werden sollen, muss hier jedoch die Zuordnung eindeutig sein und die Beschreibung spezifiziert werden. Für Individualrückmeldungen scheint der Ansatz ungeeignet. Da die Niveaumodelle primär zur näheren Beschreibung der Kompetenzen her‐ angezogen werden können (vgl. Klieme & Leutner, 2006), sollte auch ohne den Verwendungszweck als individualdiagnostisches Instrument eine möglichst gute Verständlichkeit erzielt werden. Im Sinne einer individuellen Leistungsrückmeldung bietet sich stattdessen beispielsweise das Verfahren des Cognitive Diagnosis Mode‐ ling (vgl. Evran, 2019; vgl. Robitzsch et al., 2020) an, der individuelle Beschreibungen aufgrund der Tasks der Items in Verbindung mit den Skills der Personen ermöglicht (vgl. Robitzsch et al., 2020). Zwar wird die Wahl der Niveau- und Schwellenbestimmung über schwierig‐ keitsbestimmende Merkmale als zielführender zur Beschreibung der Kompetenzen gesehen (vgl. Nickolaus, 2014b), dieser scheint aufgrund der Komplexität der Inhalte bei vergleichsweise geringer Variation formaler Merkmale und erhöhter Selbststän‐ digkeit des Lernens und Wissenserwerbs der Studierenden im Hochschulkontext nicht ohne Weiteres anwendbar. Hier könnte jedoch unter Miteinbezug indivi‐ dueller Eigenschaften wie das Lernverhalten und die verwendeten Hilfsmittel im Lernprozess eine Adaptierung möglich sein (vgl. Just et al., 2021). Somit bietet das eingesetzte Vorgehen einen guten ersten Einblick, bietet aber auch Potenzial für weitere Analysen. Es kann an dieser Stelle gezeigt werden, dass basierend auf statistisch analysierten Skalen und unter Miteinbezug der statistischen Idealnoten der Studierenden eine Be‐ schreibung der Niveaus möglich ist. Dadurch lassen sich die einzelnen Dimensionen

211

212

Niveaumodelle des berufspädagogischen Wissens

des berufspädagogischen Wissens beschreiben, was eine verständliche Auseinan‐ dersetzung mit diesen Dimensionen und damit dem berufspädagogischen Wissen als Teil der Fachkompetenz bzw. des Professionswissens angehender Lehrkräfte ermöglicht.

IV

Diskussion und Ausblick

1

Zusammenfassung und Ergebnisreflexion

Nachfolgend wird zusammenfassend auf zentrale Ergebnisse eingegangen, bevor im Rahmen der Diskussion eine kritische Betrachtung der Theorie, der Methodik und der Ergebnisse vorgenommen wird. Ein Ausblick gibt darüber hinaus erste Anregun‐ gen, welche weiteren Fragestellungen sich durch die Arbeit ergeben.

1.1

Zusammenfassung

Um die Kompetenzorientierung im Hochschulkontext zielführend zu betrachten, benötigt es eine fachadäquate Kompetenzmessung, die durch die vorliegende Arbeit für die Grundvorlesungen der Berufspädagogik für das berufspädagogische Wissen als Facette der Fachkompetenz bzw. des Professionswissens betrachtet wird. Die Testinstrumente zur Messung des berufspädagogischen Wissens als Teil der Fach‐ kompetenz wurden aus den bestehenden Prüfungen abgeleitet und statistisch unter Berücksichtigung der Item-Response-Theorie (IRT) skaliert und analysiert. Diese Arbeit nimmt diese Analysen für die in der Berufspädagogik verorteten Prüfungen der Grundlagenmodule ‚Einführung in die Berufspädagogik‘, ‚Organisationen beruflicher Bildung‘ sowie ‚Didaktik beruflicher Bildung‘, bestehend aus den Vorlesungen ‚Didaktik beruflicher Bildung – BWP III‘ und ‚Methodik beruflicher Bildung – BWP IV‘, vor. Die schriftlichen Modulabschlussprüfungen orientieren sich an den Inhalten der Vorlesungen und den Modulbeschreibungen. Die Module selbst sind zu Beginn des Studiums verortet und laut Studienverlaufsplan in den ersten beiden Semestern zu absolvieren. Auch wenn die Module selbst als eigenständige Elemente betrachtet werden können, wird aus inhaltlicher Sicht das Wissen aus den Lehrveranstaltungen in späteren Lehrveranstaltungen relevant und als Grundlage für die themenspe‐ zifische Anwendung des Wissens, beispielsweise im Rahmen von Referaten und Hausarbeiten, gesehen. Aus diesem Grund fokussieren sich diese Prüfungen der Grundlagenmodule auf das berufspädagogische Wissen mit einer Erfassung der Kompetenzausprägung über schriftliche Prüfungen. Die inhaltliche Beschreibung

216

Zusammenfassung und Ergebnisreflexion

der Module orientiert sich dabei an den Basiscurricula der Berufs- und Wirtschafts‐ pädagogik, die sowohl aus inhaltlicher als auch aus kompetenzorientierter Sicht spezifizieren, welche Inhalte im Studium bedeutsam sein sollten (vgl. Sektion Berufsund Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Die Fokussierung auf die Grundlagenprüfungen ergibt sich dabei aus den Kenntnissen, Fähigkeiten und Fertigkeiten, die sich in Form des berufspädagogi‐ schen Wissens als Teil der fachlichen Kompetenz abbilden lassen. Das berufspädagogische Wissen kann je nach Zielgruppe als Teil der Kompe‐ tenzkonstrukte der beruflichen Handlungskompetenz als Teil der Fachkompetenz (vgl. Kultusministerkonferenz, 2017) für die Berufspädagogik-Studierenden oder im Rahmen des Kompetenzkonstrukts der professionellen Handlungskompetenz von Lehrkräften als Teil des professionellen Wissens (vgl. Baumert & Kunter, 2006) für die Technikpädagogik-Studierenden, betrachtet werden. Für die Betrachtung des berufspädagogischen Grundlagenwissens ist diese Unterscheidung aber vorläufig nicht weiter relevant, da beide Studiengänge die gleichen Prüfungen ablegen und sich somit die Kompetenzfacette inhaltlich überschneidet. Differenzierungen sind in den anderen Dimensionen bzw. Modulen des Studiums erkennbar. Zur Skalierung des berufspädagogischen Wissens wurden die Prüfungen der vier Grundlagenvorlesungen aus den Semestern von Wintersemester 14/15 bis Winter‐ semester 17/18 analysiert. Es wurden dabei alle eingesetzten Prüfungsdurchgänge durch eine Verankerung über Ankeritems und unter Berücksichtigung der Beson‐ derheiten der IRT anlysiert (BWP I: 293 Personen, BWP II: 160 Personen, BWP III: 331 Personen, BWP IV: 331 Personen). Den Studierenden wurden je Durchgang zwischen 21 und 29 Items vorgelegt. Dadurch ergibt sich ein Gesamtitempool für die verschiedenen Prüfungen von 68 Items für BWP I, 33 Items für BWP II, 40 Items für BWP III und 29 Items für BWP IV. Die vier Prüfungen wurden mithilfe eines Partial Credit Model skaliert und kritisch betrachtet. Modellanpassungen bezüglich der statistisch bestimmten Kennwerte wurden zum jeweiligen Idealwert hin vorgenommen und anschließend unter Berück‐ sichtigung des statistisch bestimmten Grenzwertes bewertet. Zur Analyse wurden als Fitwerte der Infit, der Outfit, die WLE- sowie EAP/PV-Reliabilität, der RMSD und die Q3,∗ -Teststatistik zur Bestimmung der lokalen stochastischen Unabhän‐ gigkeit herangezogen. Alle vier Prüfungen weisen nach inhaltlich abgestimmten Modellanpassungen wünschenswerte Ergebnisse auf, es lassen sich demnach re‐ liable Modelle generieren, die Güte der Items ist zufriedenstellend. Der statistisch bestimmte Grenzwert legt jedoch teilweise weitere Handlungen nahe, die unter Berücksichtigung der inhaltlichen Validität jedoch nicht erfolgen konnten. Zur Bestimmung des Erfüllungsgrades der Validität in Anlehnung an Messick (1994) wurden verschiedene Ansätze herangezogen. Die inhaltliche Validität wurde mithilfe eines Vergleichs der Prüfungen und der Module mit dem Basiscurriculum und Standardliteratur bestimmt, um die inhaltliche Überschneidung unter Berück‐

Zusammenfassung

sichtigung der Meinung von Expert*innen zu betrachten. Dabei zeigt sich deutlich, dass eine inhaltliche Validität gegeben ist und die Prüfung als relevant erachtete Inhalte erfasst. Der Erfüllungsgrad der kognitiven Validität wurde über Auseinander‐ setzungen mit der Operationalisierung und der miteinbezogenen Gruppe bestimmt. Die strukturelle Validität wurde neben der Berücksichtigung der Fitwerte über Struk‐ turanalysen vorgenommen. Verallgemeinerbarkeit wurde durch eine Betrachtung des Differential Item Functioning näher in den Blick genommen. Die externe Validi‐ tät wurde mithilfe der Prüfungsnoten geprüft. Für das Geschlecht und den Studiengang liegt über alle Prüfungen hinweg kein DIF-Effekt vor. Bezüglich des Semesters, in dem die Prüfung geschrieben wird, ist eine Aussage nur eingeschränkt möglich, da lediglich einzelne Ankeritems näher betrachtet werden können. Die Analyse der Gesamtdurchgänge der Prüfungen BWP III und BWP IV zeigen dabei auf, dass ein Semester der Prüfung BWP III deutliche DIF-Effekte aufweist, weshalb dieser Durchgang nicht weiter berücksichtigt wird. Als eine Ursache lässt sich eine studentische Musterlösung bestimmen, die zu verzerrten Itemschwierigkeiten und damit auch verzerrten Personenfähigkeiten führt. Die Prüfung der Struktur des berufspädagogischen Wissens legt eine vierdimen‐ sionale Struktur, ausdifferenziert nach den Vorlesungen, nahe. Diese ist gegenüber einer eindimensionalen Struktur bzw. einem g-factor-Model basierend auf dem Ver‐ gleich der Modellkennwerte AIC, BIC sowie AICc zu bevorzugen. Dies deckt sich auch mit vergleichbaren Befunden zu Fachwissen in verschiedenen Domänen (vgl. Nickolaus & Walker, 2016) und zum pädagogischen Wissen bei (angehenden) Lehr‐ kräften (vgl. Voss et al., 2015). In beiden Fällen wird eine weitere Ausdifferenzierung der Wissensdimensionen nahegelegt. Eine Validitätsprüfung unter Berücksichtigung der realen Prüfungsnoten zeigt bei Korrelationen von r < −.81, dass die statistisch analysierte Prüfung mit der Realprü‐ fung in hohem Maße vergleichbar ist. Die in diesem Zuge anhand eines Codebuchs losgelöste Kodierung der Prüfungen mit den realen Korrekturen der Professor*innen stimmen überein und die Ergebnisse sind demnach vergleichbar. Es zeigt sich jedoch auch, das eine saubere Differenzierung der Noten speziell bei Teilschritten nicht durchgängig möglich ist, was Optimierungspotenzial der Prüfungen aufzeigt. In Anlehnung an das Verfahren nach Beaton und Allen (1992) können für alle vier Dimensionen Niveauschwellen anhand der statistisch bestimmten idealen Note er‐ mittelt werden, um Niveaus zu generieren, die den vollen Notenstufen entsprechen. Basierend auf der Lösungswahrscheinlichkeit auf den jeweiligen Notenstufen können Items bestimmt werden, die zur Beschreibung der Notenstufen dienen. Dadurch können Niveaumodelle generiert werden, die eine Beschreibung der Subdimensio‐ nen des berufspädagogischen Wissens ermöglichen. Diese Niveaus weisen dabei besonders Merkmale der verschiedenen als relevant bestimmten Inhalte, aber auch Elemente von Taxonomiestufen des Wissens, beispielsweise nach Bloom (1969), auf.

217

218

Zusammenfassung und Ergebnisreflexion

Abschließend lässt sich sagen, dass sich die untersuchten Prüfungen der Berufs‐ pädagogik dazu eignen, als Testinstrumente Aussagen bezüglich des berufspädagogi‐ schen Wissens der Studierenden zu generieren. Die Prüfungen sind dabei valide und reliable Testinstrumente.

1.2

Implikationen für die Domäne und den Standort Stuttgart

Aus der Zusammenfassung wird deutlich, dass die Ergebnisse der Arbeit einen Anlass bieten, an verschiedenen Stellen Konsequenzen sowohl für die betrachteten Studien‐ gänge bzw. den Lehrstuhl Berufs-, Wirtschafts- und Technikpädagogik am Standort Stuttgart als auch für die Domäne der Berufspädagogik generell zu ziehen. Die Er‐ gebnisse zeigen empirisch fundierte Veränderungsansätze zur weiteren Optimierung auf. Dies beginnt bereits bei der theoretischen Betrachtung der Thematik. Es zeigt sich in der Auseinandersetzung mit der Befundlage deutlich, dass für die Domäne der Bedarf besteht, weitere Studien in diesem Kontext anzusetzen. Während für den allgemeinbildenden und berufsbildenden Bereich (siehe Kapitel 3) sowie für andere Hochschuldomänen (siehe Kapitel 4) Befunde zur Kompetenz vorliegen, ist das im Hochschulbereich für die Berufspädagogik kaum der Fall. Eine Ausnahme bilden Analysen zu Interessenprofilen der Studierenden (vgl. Leon et al., 2018). Speziell um weitere Ableitungen zu generieren, ist hier eine Bezugnahme und weitere empirische Arbeit unabdingbar. Dies gilt speziell für theoretische und empirische Überlegungen zum Kompetenzprofil der Berufspädagogik. Eine vergleichbare Ableitung ergibt sich aus der Betrachtung der inhaltlichen Validität. Durch die Basiscurricula (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014) ist für die Domäne bereits ein Werkzeug gegeben, eine Vergleichbarkeit zwischen den Standorten, an denen der Studiengang angeboten wird, zu schaffen. Das aktuelle Basiscurriculum weist jedoch die Problematik auf, dass auf die spezifischen Inhalte nur sehr margi‐ nal eingegangen wird (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Die Freiheit, die sich für die Ausgestaltung der Lehre hierbei ergibt, geht jedoch auch mit einer geringeren Vergleichbarkeit über die Standorte hinweg einher. Hier besteht also der Bedarf, einen Vergleich der Studiengänge zu schaffen und Gemeinsamkeiten herauszuarbeiten. Gemeinsame Tests schaffen hier auch einen Leistungsvergleich über die Standorte hinweg. Für den Standort Stuttgart lässt sich daraus ableiten, dass bereits in gutem Maße auf die Basiscurricula zur Gestaltung der Lehre zurück‐ gegriffen wird (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014). Es ist von hoher Bedeutung, dass dieser Ansatz auch weiterhin für die Lehrgestaltung berücksichtigt wird. Dies ermöglicht ein geordnetes und mit anderen Standorten vergleichbares Vorgehen.

Implikationen für die Domäne und den Standort Stuttgart

Deutlich weitreichender als die bisher beschriebenen Implikationen sind die Im‐ plikationen, die sich für die Domäne und den Standort Stuttgart aus den Daten und den Datenanalysen ergeben. Da die Stichprobe eine Vollerhebung aller Studierender der Grundlagenvorlesungen der Berufspädagogik an der Universität Stuttgart ent‐ spricht, die die Prüfung abgelegt haben, ist die Stichprobe in Teilen vergleichbar mit den Daten anderer Erhebungen an der Universität Stuttgart (vgl. Wyrwal & Zinn, 2018), die für die Technikpädagogik auf vergleichbare Zahlen und Verteilungen kommen. Das Vorgehen über die Prüfungen bietet dabei eine gute Zugänglichkeit und durch den Kontext der Prüfungsleistung eine erhöhte Beteiligung. Es kann demnach besonders im Hochschulkontext mit vergleichsweise geringen Teilneh‐ mendenquoten (vgl. Baumert et al., 2014) eine Empfehlung sein, die Prüfungen als Kompetenztest zu konzipieren und umzusetzen, um Aussagen zu den Studierenden und Prüfungen über die Prüfungsantworten hinweg zu generieren. Ein gemeinsamer Itempool kann dabei auch die Möglichkeit bieten, standortübergreifend Vergleiche zwischen den Studierenden herzustellen. Die Entwicklung einer Kooperation mit anderen Standorten ist also zu empfehlen. Deutlich spezifischer, speziell für den Standort Stuttgart, sind die Implikationen, die sich aus der Skalierung ergeben. Für alle Prüfungen fallen die Ergebnisse zwar bereits wünschenswert aus, es ergibt sich dennoch die Situation, dass der Itempool an ausgewählten Stellen erweitert werden sollte. Dies betrifft zum einen eine nä‐ here Betrachtung von Items, die inhaltlich Residualkovarianzen mit anderen Items aufweisen, aber inhaltlich als relevant einzuschätzen sind. Hier sollte eine Überarbei‐ tung dieser Items bedacht werden bzw. über weitere Veränderungen von Items mit deutlichen lokalen stochastischen Abhängigkeiten zueinander nachgedacht werden. Zum anderen zeigen die Wrightmaps, dass es Fähigkeitsbereiche gibt, an denen die Testinformation vergleichsweise gering ausfällt und somit die Itemschwierigkeiten vereinzelt nicht reliabel sein könnten. Während es aus Sicht der Prüfung am unteren Skalenende unkritisch ist, da das Spektrum der Note 5 vergleichsweise groß ist und die Testinformation für die Bestimmung des Bestehens ausreichend ist, ist im oberen Skalenbereich eine Bestimmung der Personenfähigkeit für sehr fähige Studierende nur eingeschränkt möglich. Dies ist aber auch mit dem Konzept der Prüfung ver‐ bunden. Hier sind demnach Überlegungen vorzunehmen, wie dieser Konflikt zu lösen sein kann und inwiefern eine Umstellung der Prüfung mit gestaffelten Noten, beispielsweise in Form eines High-Performance-Bereichs, sinnig ist. Dabei ist auch zu berücksichtigen, ob dieser Aufwand für die geringe Anzahl an Studierenden als nötig erachtet wird. Diese Problematik kann auch standortübergreifend von Bedeutung sein, wenn ein vergleichbares Vorgehen angestrebt wird. Diese Veränderungspro‐ zesse auf Itemebene sind jedoch als langfristig anzusehen und werden regelmäßige Folgeuntersuchungen benötigen. Dies ermöglicht letztlich aber eine deutliche Ver‐ besserung der Prüfungen, das Erkennen auffälliger Items und das Potenzial, diese zu ändern oder zu verwerfen.

219

220

Zusammenfassung und Ergebnisreflexion

Die Analyse der DIF-Effekte in Anlehnung an Grisay und Monseur (2007) zeigt für die Prüfungen, dass kein DIF-Effekt bezüglich des Geschlechts und kaum DIF-Ef‐ fekte bezüglich des Studiengangs vorliegen. Der Studiengangs-DIF zeigt sich leicht in Prüfungen, die verschiedene inhaltliche Schwerpunkte aufweisen, separiert nach Berufspädagogik und Technikpädagogik. Während für den Geschlechtsaspekt kein Handlungsbedarf besteht, ist für den Studiengangs-DIF die Überlegung naheliegend, eine Trennung der Module mit verschiedenen Schwerpunkten zu erwägen. Der DIF-Effekt ist letztlich aber gemessen an vergleichbaren Analysen von Grisay und Monseur (2007) gering, auch wenn die statistische Betrachtung der Idealgrenzen hier einen Effekt aufzeigt. Möglicherweise kann an dieser Stelle eine Adaption ein‐ zelner Items und eine stärkere Berücksichtigung dieses Effekts für die Generierung der Prüfungsaufgaben zielführend sein. Deutlich drastischer fällt der semesterbe‐ zogene DIF-Effekt auf, wobei hier für die einzelnen Semester teilweise nur eine eingeschränkte Anzahl an Items herangezogen werden kann, was generelle Aussagen erschwert. Hier lässt sich für den Standort Stuttgart jedoch ableiten, dass darauf geachtet werden sollte, vergleichbare Bedingungen über die Semester hinweg zu schaffen und die Inhalte in vergleichbarer Weise und mit gleichbleibender Qualität zu vermitteln. Besonders da zu erwarten ist, dass die folgenden Semester auf den Grundlagen aufbauen (vgl. Universität Stuttgart, 2019a) und somit eine Verankerung dieser Inhalte von großer Bedeutung ist. Eine Betrachtung ausgewählter Semester des Moduls ‚Didaktik beruflicher Bildung‘ zeigt eine weitere Problematik für den Standort Stuttgart: Die Aufgaben müssen unbedingt in regelmäßigen Abständen rotiert werden, um die Wahrscheinlichkeit von studentischen Musterprüfungen zu reduzieren, wenn dies nicht explizit gewollt ist, da diese studentische Musterprüfung für die Prüfung BWP III einen signifikanten Anteil an der Varianz des DIF-Effekts erklärt. Für den Standort Stuttgart ist deshalb die Entwicklung einer Itembatterie dringend zu empfehlen, aus der mithilfe von wechselnden Ankeritems eine Ver‐ knüpfung verschiedener Prüfungen ermöglicht wird. Die Problematik kann auch als eine Empfehlung an die Domäne dienen, da hier die Relevanz einer Itemrotation und Variation deutlich wird. Eine zu häufige Verwendung der gleichen Prüfungen ist drin‐ gend zu vermeiden. Zudem kann die Empfehlung ausgesprochen werden, zumindest theoretisch mögliche DIF-Effekte in die Gestaltung der Aufgaben miteinzubeziehen, um diese so gering wie möglich zu halten. Eine statistische Analyse möglicher Effekte ist dabei wünschenswert, ist jedoch auch von der Prüfungssituation, der Anzahl der Personen und Struktur abhängig. Die Dimensionsanalysen zeigen für den Standort Stuttgart sehr deutlich auf, dass die Teilprüfungen des Moduls ‚Didaktik beruflicher Bildung‘ dringend getrennt werden sollten, da trotz hoher Zusammenhänge eine zweidimensionale Struktur einer eindimensionalen Struktur vorzuziehen ist. Dennoch sind die Inhalte als solche theoriebasiert miteinander verknüpft (vgl. Bonz, 2009), was eine Bezugnahme zwi‐ schen den Veranstaltungen durchaus erlaubt. Eine Lösung kann hier möglicherweise

Implikationen für die Domäne und den Standort Stuttgart

die Schaffung eines eigenständigen Moduls sein. Ein eindimensionales berufspäd‐ agogisches Wissen über alle Grundlagenvorlesungen hinweg ist nicht zu bevorzugen. Dies ist ein Hinweis darauf, dass eine Reflexion mit der Modulstruktur sowie den zusammenhängenden Prüfungen ratsam wäre. Finale Aussagen dazu können ver‐ gleichbare statistische Analysen der Prüfungen generieren. Die Implikationen der Niveaumodellierungen für den Standort sind abschließend vielfältig. Die eingeschränkte Möglichkeit, schwierigkeitsbestimmende Merkmale zur Niveaugenerierung heranzuziehen (vgl. Just et al., 2021), zeigt den Bedarf, auf in‐ dividuelle Besonderheiten des Lernens der Studierenden an der Universität Stuttgart näher einzugehen. Eine Möglichkeit sind dabei qualitative Interviews bezüglich des Lernverhaltens. Dies kann neben einem Potenzial für schwierigkeitsbestimmende Merkmale auch die Lehre und die Materialbereitstellung deutlich verbessern. An den Schwellen zeigen sich deutliche Schwachstellen der korrekten Zuordnung der Studierenden zu den statistisch idealen Noten. Hier ist deshalb ein großer Bedarf, Bewertungsschemata zu generieren um eine vergleichbare Zuordnung und eine erhöhte Objektivität zu ermöglichen. Teilweise scheint es für die Niveaubeschrei‐ bungen angebracht, weitere Items miteinzubeziehen, speziell die Beschreibung der Notenstufe 3 ist durchgängig auffällig durch eine geringere Anzahl berücksichtiger Items im Vergleich zu den anderen Stufen. Hier sind deshalb weitere Items für den spezifischen Bereich zielführend. Im Rahmen einer oben bereits empfohlenen rotierenden Itembatterie kann hier explizit versucht werden, geeignete Items anhand der Niveaubeschreibung zu generieren. Für die Domäne bieten die Niveaubeschrei‐ bungen ebenfalls viele Vorteile. So ergibt sich hier die Möglichkeit und der Bedarf, einen Abgleich der Niveaus mit den eingesetzten Aufgaben an anderen Standorten vorzunehmen. Dies erhöht die Aussagekraft über den Standort Stuttgart hinweg. Ver‐ gleiche zwischen den Standorten kommen also auch hier wieder in den Fokus, wobei mit dem Niveaumodell eine Grundlage geschaffen ist, passende, standortspezifische Aufgaben zu generieren. Da das Basiscurriculum der Berufs- und Wirtschaftspädago‐ gik (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2014) in den Prozess der Niveaubeschreibung miteinbezogen wurde, sind hier auch deutliche Übereinstimmungen zu erwarten. Diese spezifischen Implikationen stellen einen ersten Schritt der Betrachtung des berufspädagogischen Wissens als Teil der Kompetenz der Berufs- und Tech‐ nikpädagogik-Studierenden dar, obwohl noch einige Punkte unbeachtet bleiben und weiterer Handlungssbedarf besteht. Dieser wird nachfolgend kritisch unter Berücksichtigung der Zusammenfassung und der Implikationen, die sich ergeben, diskutiert.

221

222

Zusammenfassung und Ergebnisreflexion

1.3

Diskussion und kritische Reflexion der Befunde

Im Rahmen dieser Arbeit konnte gezeigt werden, dass die untersuchten Prüfungen geeignet sind, um ein IRT-basiertes Instrument darzustellen, das bei einer geeigneten Stichprobe zur Kompetenzmessung geeignet ist und die statistischen Anforderungen erfüllt. Nachfolgend wird diskutiert, ob die angesetzten Ziele und Fragestellungen der Arbeit erfüllt werden konnten. Deshalb wird auf die Theorie der Arbeit, die Methodik und die Ergebnisse näher eingegangen. Eins der zentralen Ziele war die Überprüfung, ob schriftliche Modulabschlussprü‐ fungen zur Messung der Kompetenz der Berufspädagogik-Studierenden geeignet ist. Dies sollte über erste Analysen eines Teilbereichs des Kompetenzmodells geschehen. Basierend auf den vorliegenden Ergebnissen kann dieses Ziel als bestätigt angesehen werden. Dennoch wurden an einigen Stellen bereits Limitationen und Unsicherhei‐ ten bezüglich der Theorie und der Untersuchung selbst geäußert. Da bezüglich der berufspädagogischen Kompetenz von Berufspädagogik-Studierenden bisher keine Erkenntnisse vorliegen, scheint es umso wichtiger, eine kritische Betrachtung vor‐ zunehmen, um eine weitere Entwicklung in diesem Bereich voranzutreiben.

1.3.1

Reflexion der theoretischen Prämissen

Die Betrachtung des Forschungsstandes zu Kompetenzorientierung in der Hoch‐ schullehre und die Erfassung der Kompetenz zeigt, dass dieser Bereich bisher über‐ wiegend theoretisch betrachtet wurde (vgl. Schaper, Reis et al., 2012). Speziell für den Bereich der Berufspädagogik liegen bisher kaum Ergebnisse vor. Die vorliegende Arbeit bietet aus diesem Grund einen ersten Einblick in die Thematik und wirft Fragen auf, die weitestgehend beantwortet werden können. Es besteht dement‐ sprechend aber weiterhin ein großer Bedarf, die berufliche Lehrerbildung sowie die Lehrerbildung allgemein empirisch zu betrachten. Die Befunde können hierbei als erste Diskussionsgrundlage dienen. Aus diesem Grund war es naheliegend, den allgemeinbildenden Bereich (z. B. Klieme, 2008) und den berufsbildenden Bereich (z. B. Nickolaus & Walker, 2016) sowie die Hochschullehre generell und CA im Speziellen (vgl. Biggs & Tang, 2011) als theoretische Grundlage für die Arbeit heran‐ zuziehen. Da hier bereits erste Befunde zu Kompetenzen und deren Struktur sowie der Hochschulprüfungsprüfungsgestaltung gegeben sind, ist eine mögliche Ableitung auf den Bereich des berufspädagogischen Wissens denkbar. Dennoch scheint es auch hier nahezuliegen, die Betrachtung und Verortung in anschließenden Arbeiten zu spezifizieren und auch die Forschung zur Kompetenz des beruflichen Lehramts deutlich zu erweitern. Die Auswahl des Forschungsstandes geschah dabei durch den Schwerpunkt des Studienganges, weshalb der Fokus auf dem technisch-orientierten, betriebswirtschaftlich-orientierten und erziehungswissenschaftlichen Bereich der

Diskussion und kritische Reflexion der Befunde

Hochschulforschung liegt. Ein Miteinbezug anderer Bereiche bietet möglicherweise weitere Einblicke und sollte hier als Limitation der Arbeit für generelle Betrachtun‐ gen kompetenzorientierter Prüfungen im Hochschulkontext miteinbezogen werden, eine vollumfängliche Betrachtung würde jedoch an dieser Stelle den Rahmen der Ar‐ beit sprengen. Hier bieten beispielsweise weitere Projektergebnisse für den Bereich der VWL und der Konstruktionslehre weitere Einblicke. Die Fokussierung auf das berufspädagogische Wissen als Teilfacette der beruflichen Handlungskompetenz bzw. der Professionellen Handlungskompetenz von Lehrkräften ist für eine erste Betrachtung des Themas schlüssig, jedoch auch aus pragmatischen Gründen geschehen. Hierbei muss klar betont werden, dass die Aussagen zu diesen Teilfacetten keine umfängliche Aussage zur Kompetenz der Studierenden über das gesamte Studium erlaubt. Dieser Pragmatismus ist auch deshalb hier gewählt, da speziell das Grundwissen durch die Prüfungen der Grund‐ lagenvorlesungen in einem ersten Schritt standardisiert erfasst werden kann. Eine Standardisierung anderer Prüfungsformate ist nur eingeschränkt möglich, ist be‐ züglich der Anwendung des Wissens zukünftig aber ebenfalls zu betrachten. Zudem werden damit Inhalte abgebildet, die losgelöst einer späteren Spezialisierung für alle Studierenden am Ende der Module identisch und bekannt sein sollte. Bezüglich des Kompetenzverständnisses wurde für die vorliegende Arbeit aufgrund verschiedener Aspekte der Ansatz der empirischen Bildungsforschung nach Klieme und Leutner (2006) unter Berücksichtigung der Überlegungen von Weinert (2002) gewählt. Ein anderes Kompetenzverständnis, beispielsweise nach Arnold und Erpen‐ beck (2017) ist jedoch möglicherweise ebenfalls relevant und als zielführend zu sehen. Ein deutlich anzumerkender Punkt ist, dass keine Festlegung auf ein Kompe‐ tenzmodell aufgrund der zwei Studiengänge, die betrachtet wurden, vorgenommen wird. Es wird zwar die Subdimension des berufspädagogischen Wissens bei beiden Kompetenzmodellen als simultan angesehen und es zeigen sich auch sehr deutliche Überschneidungen, dennoch bleibt hier die Limitation, auch für die Betrachtung der weiteren Dimensionen der Kompetenz, dass keine klaren Aussagen zu treffen sind. Eine Differenzierung ergibt sich möglicherweise im weiteren Studienverlauf der beiden Studiengänge unter Miteinbezug der Fachdidaktik und weiteren Modulen. Hier besteht dabei weiterer Forschungsbedarf. Bezüglich der Fachkompetenz in Anlehnung an die Kultusministerkonferenz (2017) und der Ausdifferenzierung, die beispielsweise Nickolaus und Walker (2016) anführen, ist die Problembearbeitung bzw. Anwendung des Fachwissens bisher nicht näher betrachtet worden. Diese ist im Rahmen des Studiums primär in späteren Modulen verortet (vgl. Universität Stuttgart, 2019a) und durch weniger standar‐ disierte Prüfungsformen, beispielsweise durch Hausarbeiten, erfasst (vgl. Schaper & Hilkenmeier, 2013). Auch bei der Ausdifferenzierung des Professionswissens, das besonders für angehende Lehrkräfte naheliegt (vgl. Voss et al., 2015), wurde lediglich ein Teilbereich betrachtet. Baumert und Kunter (2006) betonen dabei

223

224

Zusammenfassung und Ergebnisreflexion

explizit, dass Teile des Professionswissens, speziell das Organisationswissen und das Beratungswissen, im Studium nicht explizit erfasst werden können und lediglich im späteren Berufsalltag messbar auftreten (Baumert & Kunter, 2006). Bezüglich der beruflichen Handlungskompetenz und der Professionellen Kom‐ petenz von Lehrkräften wurde in der vorliegenden Arbeit bisher kein Blick auf die Sozial-, Methoden- und Personalkompetenz (vgl. Kultusministerkonferenz, 2017) bzw. die motivationale Orientierung, Überzeugungen/Werthaltungen und selbst‐ regulative Fähigkeiten (vgl. Baumert & Kunter, 2006) gelegt. Diese Aspekte sind jedoch für die Betrachtung der Kompetenz als Ganzes von großer Bedeutung. Die Konzeption der Leistungserfassung über schriftliche Prüfungen bietet jedoch nur in sehr eingeschränkter Form Möglichkeiten, diese zu erfassen. Für weitere Arbeiten ist es deshalb auf jeden Fall zu empfehlen, diese Aspekte weiter miteinzubeziehen und zu erfassen. Schaper und Hilkenmeier (2013) geben in diesem Kontext Empfehlungen zu Prüfungsformen, die verschiedene Kompetenzfacetten abbilden können. Inwieweit diese Formen letztlich auch reliable und valide Instrumente darstellen, ist jedoch unklar. Auch hier scheint demnach weiterer Bedarf, die Untersuchungen auszuweiten. Bisher auch unbeachtet ist die zeitliche Entwicklung des berufspädagogischen Wissens. Die Leistungen wurden bisher lediglich querschnittlich betrachtet, es scheint jedoch zielführend, die zeitliche Entwicklung und das Wissen zum Ende des Studiums in die Überlegungen miteinzubeziehen. Dies könnte Aussagen zur Verfestigung einzelner Bereiche, aber auch Erkenntnisse zu möglichen Vergessens‐ aspekten aufzeigen. Unter Berücksichtigung der vorangehenden Ergänzung mit weiteren Aspekten der Kompetenz sind hierbei auch Zusammenhänge über die Zeitpunkte hinweg ein wichtiger Aspekt, der hier unbeobachtet blieb. Wenngleich diese Arbeit nicht als umfängliche Analyse der Kompetenz verstanden werden kann, kann sie dennoch als ein erster Ansatz zur Messung einer Teilfacette über reale Prüfungen verstanden werden. Die hier gewonnenen Erkenntnisse eröff‐ nen zudem eine Vielzahl an Perspektiven für anschließende Untersuchungen, um einen ganzheitlicheren Blick auf die Kompetenz zu gewinnen.

1.3.2

Reflexion der Methodik

Für die vorliegende Arbeit wird aufgrund theoretischer Überlegung und Aspekte der Leistungsmessung ein Partial-Credit-Model (vgl. Masters, 1982) gewählt. Dies ergibt sich aus der Überlegung der Messung von Fähigkeiten und den daraus ab‐ geleiteten Implikationen. Die herangezogenen Methoden sind begründet durch die Konzeption der Prüfungen und den Prüfungssituationen, auf die der Autor selbst zum Zeitpunkt der Testungen keinen Einfluss hatte. Methodisch wird dabei an einigen Stellen auf Verfahren zurückgegriffen, die in vergleichbaren Arbeiten angewendet wurden. Durch die Berücksichtigung der Noten als Aspekt der exter‐

Diskussion und kritische Reflexion der Befunde

nen Validität der Ergebnisse wird methodisch ein gängiges Verfahren adaptiert, um Aussagen zu den Schwellen der Niveaus zu generieren. Dies ermöglicht weitere Überlegungen, die sich aus den Notenniveaustufen ergeben, beispielsweise in Form von Rückmeldungen. Die Wahl der Methodik scheint dabei für die vorliegenden Fragestellungen angebracht, alternative Methoden, die möglicherweise zu ande‐ ren Ergebnissen kommen, sind jedoch nicht völlig abzulehnen und bieten unter Umständen weitere Ergebnisse und Analysen. Hier sind deshalb weitere Arbeiten zur Kompetenzerfassung mithilfe von Hochschulprüfungen relevant, um weitere methodische Überlegungen zu berücksichtigen. Speziell bei Prüfungen, denen eine andere Gestaltung zugrunde liegt ist es deshalb auch sinnig und möglich, andere Modellklassen heranzuziehen. Besonders bei einer abweichenden Gestaltung der Prüfungen auf Grundlage methodischer Überlegungen bieten sich hier weitere Mög‐ lichkeiten an. Dies stellt auch eine Schwäche der vorliegenden Arbeit dar. Dadurch, dass auf bestehende Prüfungen zurückgegriffen wurde ist die Wahl der Methodik von der bestehenden Prüfungsstruktur abhängig. Veränderungen dieser Struktur sind nachträglich aus vergleichender Perspektive kaum möglich und können erst für anschließende Prüfungsdurchgänge Anwendung finden. Zur Bestimmung der Testgüte wird auf verschiedene Kennwerte zurückgegriffen, die sich im Kontext der IRT als zielführend erwiesen haben. Zum einen sind dies für den Itemfit der Infit und Outfit (vgl. Reise & Revicki, 2015), zur Prüfung der lokalen stochastischen Unhabhängigkeit die Q3,∗ -Teststatistik (vgl. Christensen et al., 2017), die EAP/PV-Reliabilität sowie die WLE-Reliabilität zur Bestimmung des Messfehlers der Schätzungen (vgl. Rost, 2004) sowie der RMSD zur Betrachtung der Messinvarianz (vgl. Buchholz & Hartig, 2019). Die Fokussierung auf Kennwerte des Itemsfits und keine Berücksichtigung der häufig berichteten Modellfit-Werte über den RMSD als Adaption des RMSEA hinaus (vgl. Oliveri & von Davier, 2011) ergibt sich in Anlehnung beispielsweise Maydeu-Olivares et al. (2011) und Sachse und Weirich (2020). Speziell der RMSD als Fitwert ist aktuell auch Thema verschiedener Forschungsprojekte (vgl. Köhler et al., 2020). Die Wahl der eingesetzten Methoden ist dabei auf die gegebene Situation zurück‐ zuführen, es bestehen jedoch auch alternative Ansätze, die unter anderen Umständen durchaus auch berechtigt sind. So geht die methodische Wahl zur Bestimmung des DIF mithilfe des MAD und der Kommunalität (vgl. Grisay & Monseur, 2007) darauf zurück, dass diese Methoden geeignet sind, bei PCMs und Kontrollvariablen mit mehreren Ausprägungen Einsatz finden zu können. Dies ist jedoch mit dem Nach‐ teil verbunden, dass nur vollständige Werte herangezogen werden können. Dies ist beispielsweise für die Durchgänge der Prüfungen relevant, da durch eine Variation der Items somit nur die Ankeritems herangezogen werden können, die in allen be‐ trachteten Durchgängen eingesetzt wurden. Bei anderen beschriebenen Verfahren wäre jedoch nur eine Betrachtung in dichotomer Form möglich gewesen. Ohne die Berücksichtigung der Durchgänge wären somit andere Verfahren zu empfehlen.

225

226

Zusammenfassung und Ergebnisreflexion

Auch die methodische Entscheidung bezüglich des Umgangs mit Grenzwerten kann für weitere Arbeiten kritisch betrachtet werden. Es macht hierbei Sinn, die statistisch bestimmten Grenzwerte für die Anpassung der Modelle heranzuziehen, was jedoch nur mit einem größeren Itempool ohne einen deutlichen Verlust der Inhalte sinnig ist. Dieser Abwägungsprozess zwischen den verschiedenen Validitäts‐ aspekten muss kritisch reflektiert werden und für weitere Analysen an vertieft in den methodischen Prozess von Beginn der Analysen miteinbezogen werden.

1.3.3

Reflexion der Befunde

Zur Betrachtung der inhaltlichen Validität der Prüfungen wurde neben den In‐ halten der Prüfung auch der Inhalt der Module mit den zentralen Inhalten der Berufs- und Wirtschaftspädagogik abgeglichen. Dabei zeigte sich, dass die Inhalte des Basiscurriculums (vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003) deutli‐ che Überschneidungen mit den Lernzielen der Module (vgl. Universität Stuttgart, 2019a) aufweisen. Im Rückschluss aus dem hochschuldidaktischen Ansatz des CA (vgl. Biggs & Tang, 2011) ergibt sich eine Verbindung zwischen den Lernzielen, deren Erfüllung über die Prüfungen erfasst wird. Für die Lernziele und die Prüfungen zeigt sich dabei, dass inhaltliche Validität vorliegt und sich die Lernziele mit den getesteten Inhalten in der Prüfung decken. Weitestgehend unbeachtet bleibt mit den Lehr-Lernsituationen der Bereich der Vermittlung der Inhalte, die sich aus den Lernzielen ergeben und deren Erreichung in den Prüfungen gemessen wird. Dieser Aspekt spielt für kompetenzorientiertes Prüfen jedoch auch eine Bedeutung und sollte deshalb in späteren Arbeiten weiter in den Blick genommen werden. Es zeigt sich zudem, dass mit den Grundlagenvorlesungen nur ein Teil der In‐ halte angesprochen wird, die im Studium der Berufs- und Technikpädagogik in Anlehnung an das Basiscurriculum als relevant erachtet werden (vgl. Sektion Berufsund Wirtschaftspädagogik, 2003; vgl. Sektion Berufs- und Wirtschaftspädagogik, 2003). Einige zentrale Inhalte sind in Modulen abgebildet, die im späteren Verlauf des Studiums von den Studierenden besucht werden. Es scheint also naheliegend, für die Betrachtung der inhaltlichen Validität des Studiums als Abbildung der zen‐ tralen Inhalte der Sektion Berufs- und Wirtschaftspädagogik das gesamte Studium zu betrachten. An dieser Stelle können nur Aussagen für die betrachteten Module vorgenommen werden. Die Fit-Werte wurden, sofern nötig, in Richtung des Idealwertes hin korrigiert, die Analyse der statistisch bestimmten Grenzen zeigt dabei jedoch vereinzelt, dass weitere Anpassungen des Modells angebracht sind, die aus Gründen der inhaltlichen Validität nicht ohne Weiteres umzusetzen sind. Deshalb wird auf diese Anpassun‐ gen verzichtet. An dieser Stelle scheint es wichtig, die Anzahl der Items inhaltlich durchdacht zu erweitern und weitere Analysen heranzuziehen, um eine statistisch ak‐

Diskussion und kritische Reflexion der Befunde

zeptable Prüfung zu erzielen, die gleichzeitig eine hohe inhaltliche Validität aufweist. Eine Generierung weiterer Items bzw. eine Adaption der auffälligen Items ist im Rah‐ men der vorliegenden Arbeit nicht möglich, sollte für spätere Prüfungsdurchgänge aber berücksichtigt werden. Die Reliabilität der Schätzungen kann für alle Prüfungen als sehr gut bewertet werden. Die Validität wurde zudem über die Berücksichtigung theoretischer Überlegungen, der Struktur, der Note und des DIF geprüft und konnte nach Ausschluss eines auffälligen Semesters nachgewiesen werden, wobei, wie er‐ wähnt, die inhaltliche Validität für die Analysen berücksichtigt wurde und für Schritte höher gewichtet wurde, als die statistisch bestimmten Grenzen. Die Güte kann damit unter Berücksichtigung der Limitationen als positiv bewertet werden. Speziell die Analyse der Prüfung BWP II hat gezeigt, dass für die vorliegende Arbeit verschiedene Aufgabenformate als eigene Dimension zu behandeln sind. Dies führt dazu, dass aufgrund der geringen Itemzahl der Multiple-Choice-Aufgaben ein weiterer Miteinbezug dieser Aufgaben nicht möglich war. Für die Prüfungsgestaltung ist dieses Ergebnis jedoch von großer Bedeutung. Für die Prüfungen ist es deshalb bedeutsam zu überlegen, welche Aufgabentypen gewünscht sind und Einsatz finden sollen, wenn basierend auf dem Aufgabentyp verschiedene Aspekte gemessen wer‐ den. Diese Fokussierung ist aufgrund der gegebenen Prüfung in dieser Arbeit nicht möglich, sollte aber unbedingt näher untersucht werden. Die Strukturanalyse zeigt, dass die vierdimensionale Struktur der Vorlesungen be‐ stätigt werden kann und zu präferieren ist. Dies spricht dafür, dass die Studierenden inhaltlich die Vorlesungen nicht umfänglich verknüpfen können, obwohl die hohen Korrelationen zwischen den Dimensionen zeigen, dass gemeinsame Aspekte zwi‐ schen den Vorlesungen besteht. Die Niveaumodellierung ermöglicht darüber hinaus, die metrischen Skalen der Subdimensionen in Form einer Notenstruktur zu einer ordinalen Skala zu transformieren und diese zu beschreiben. Diese Beschreibungen sind nachvollziehbar für die Studierenden und bieten die Grundlage für weitere Prozesse, beispielsweise die Konzeption von Feedbacksystemen für Studierende. Eine weitere Limitation der Arbeit ergibt sich dadurch, dass sich die schriftlichen Prüfungen lediglich auf Grundlagenwissen und Ansätze der Anwendung des Wis‐ sens und somit auf die Fachkompetenz fokussieren. Andere Facetten werden kaum betrachtet und auch die Anwendung des Wissens rückt bei den Prüfungsaufgaben klar in den Hintergrund. Speziell vor aktuellen Entwicklungen und Verständnissen bezüglich der Kompetenz (vgl. Arnold & Erpenbeck, 2017) ist es deshalb wichtig, auch weitere Aspekte in zukünftige Betrachtungen miteinzubeziehen. Zwar sind die getroffenen Aussagen zum Fachwissen und den schriftlichen Prüfungen in hohem Maß ein Erkenntnisgewinn ein Mehrwert und beantwortet einige Desiderate, den‐ noch zeigen die Ergebnisse auch hier die Schwachstelle auf. Offen ist jedoch, wie beispielsweise Sozial- und Personalkompetenz gemessen werden können und wie eine faire und psychometrisch fundierte Erfassung und Bewertung dieser Aspekte gewährleistet werden kann.

227

2

Ausblick

Durch die Limitationen und diskutierten Aspekte zeigt sich, dass die Ergebnisse die‐ ser Arbeit als ein erster Schritt gewertet werden können. Die Ergebnisse ermöglichen bereits einen guten Einblick in das berufspädagogische Wissen der Studierenden zu Beginn des Studiums. Im Rückschluss auf die Reflexion macht es für zukünftige Arbeiten Sinn, mit einer erweiterten Itembatterie die Kompetenz der Studierenden spezifischer und umfänglicher zu analysieren. Besonders die Förderung der Kom‐ petenzdimensionen, die keinen reinen Fachbezug aufweisen, wie beispielsweise die Sozialkompetenz, stellen ebenfalls ein Ziel des kompetenzorientierten Studiums dar (vgl. Schaper, Reis et al., 2012) und sollte deshalb in nachfolgenden Arbeiten ausführlicher beleuchtet werden. Dies betrifft auch den Miteinbezug der Formate in Folgesemestern, die deutlich mehr auf die Sozial- sowie Personalkompetenz einge‐ hen. Ein weiteres Forschungsfeld, das sich im Zuge dieser Arbeit ergibt, ist die Feed‐ backforschung und eine Betrachtung der Möglichkeiten, Studierenden Leistungen und Kompetenzentwicklung zurückzumelden. Bisher beschränkt sich das Feedback auf die Note und den damit einhergehenden Folgen (vgl. Carless, 2006; vgl. Price et al., 2010), für einen Entwicklungsprozess unter Berücksichtigung der Leistung in Modulen als formative Evaluation des Studiums ist hier weiterer Forschungsbedarf gegeben. Die hier generierten Niveaumodellierung bieten einen ersten Anhaltspunkt für Lehrende und Lernende, als direktes Rückmeldeelement scheinen die Niveaus aber nur eingeschränkt brauchbar. Es ergeben sich jedoch durch den Ansatz des CA erste Möglichkeiten, über die Lernziele Rückmeldungen zu ermöglichen (vgl. Gallagher, 2017). Hier bietet der Ansatz des Cognitive Diagnosis Modeling mögli‐ cherweise eine methodische Option (vgl. de La Torre & Minchen, 2014). Auf die Verknüpfung des CA und Cognitive Diagnosis Modeling geht Behrendt (2021) aus‐ führlicher ein. Besonders der Faktor, dass die Lernziele als skills gefasst werden und die tasks aus den Prüfungen abgeleitet werden, bietet zukünftig weitere Betrach‐ tungsweisen, die auch auf die Berufspädagogik übertragen werden können. Die Arbeit fokussiert sich bisher auf die Studierenden der Berufspädagogik an der Universität Stuttgart. Es bestehen zwar erste Überlegungen, vergleichbare Un‐

Ausblick

tersuchungen an anderen Standorten umzusetzen, dies ist jedoch bisher kaum ge‐ schehen. Hier besteht weiterer Forschungsbedarf, um mögliche Besonderheiten an der Universität Stuttgart herauszuarbeiten und eine generelle Betrachtung des berufspädagogischen Wissens bzw. der Kompetenz der Berufs-, Wirtschafts- und Technikpädagogik-Studierenden zu ermöglichen. Dies erlaubt möglicherweise auch eine umfängliche Kompetenzbetrachtung über den Teilaspekt des berufspädagogi‐ schen Wissens hinweg. Grundsätzlich zeigt die Arbeit, dass sich schriftliche Prüfungen eignen, um ba‐ sierend auf statistischen Analysen ein Instrument zu generieren, das zur Messung der Leistungen der Studierenden aus statistischer Sicht geeignet ist. Der Ansatz, Hochschulprüfungen zu verwenden ist neu, zeigt sich aber als erfolgsversprechend. Es ist deshalb wichtig, diesen Ansatz über die Berufspädagogik hinaus auch bei an‐ deren Studiengängen und Domänen zu berücksichtigen. Dies bietet das Potenzial, mögliche Schwierigkeiten der Testung, die sich im Hochschulkontext ergeben (vgl. Dammann, 2016) zu umgehen und Aussagen zu generieren, inwiefern die Forderung der kompetenzorientierten Lehre und Prüfung letztlich umgesetzt werden kann. Mit dieser Arbeit wird aus empirischer Sicht ein erster großer Schritt zur Beantwortung dieser Frage gegangen.

229

Abkürzungsverzeichnis

ATI AIC AICc BIC CA COACTIV DIF EAP/PV ECTS FALKO IRT IQB IC ITEL KoKoHs LEK LD LR MAD MAR PCA PCM PISA ProwiN QuaLIKiSS RMSD TIMSS

Aptitude-Treatment-Interaction Akaike’s Information Criterion Akaike’s Information Criterion corrected Bayes Information Criterion Constructive Alignment Cognitive Activation in the Classroom: The Orchestration of Learning Opportu‐ nities for the Enhancement of Insightful Learning in Mathematics Differential Item Functioning expected a posteriori European Credit Transfer and Accumulation System Fachspezifische Lehrerkompetenzen Item-Response-Theorie Institut zur Qualitätsentwicklung im Bildungswesen Information Criteria innovative teaching for effective learning Kompetenzmodelle und Instrumente der Kompetenzerfassung im Hochschulsek‐ tor – Validierungen und methodische Innovationen Längsschnittliche Erhebung pädagogischer Kompetenzen von Lehramtsstudieren‐ den local dependency likelihood-ratio mean absolute deviation (mittlere absolute Abweichung) missing at random einfaktorielle Komponentenanalyse Partial-Credit-Model Programme for International Student Assessment Professionswissen in den Naturwissenschaften Qualitätspakt Lehre – Individualität und Kooperation im Stuttgarter Studium root mean square deviation Trends in International Mathematics and Science Study

Abkürzungsverzeichnis

TEDS-M WLE SD Mw r X ω Θ P σ τ

Teacher Education and Development Study: Learning to Teach Mathematics weighted likelihood estimation Standardabweichung Mittelwert Korrelation nach Pearson Item Stärke des g-factor Personenfähigkeit Wahrscheinlichkeit Itemschwierigkeit Schwellenparameter

231

Verzeichnis der Tabellen

2.1 2.2 2.3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 4.1 4.2 4.3 4.4 4.5 5.1 5.2

Verteilung der Items auf die Jahre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anzahl der Studierenden über die Semester hinweg . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilung der Studierenden über die Studiengänge . . . . . . . . . . . . . . . . . . . . . . . . . . . Basisskalierung BWP I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skalierung BWP I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Basisskalierung BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modellvergleich BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skalierung BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Basisskalierung BWP III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skalierung BWP III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Basisskalierung BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skalierung BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich des Geschlechts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich des Studiengangs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich des Semesters für BWP I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich des Semesters für BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich des Semesters für BWP III . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich des Semesters für BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . DIF-Analysen bezüglich ausgewählter Semester für BWP III . . . . . . . . . . . . . . . . . . . . vergleichende DIF-Analysen bezüglich ausgewählter Semester für BWP III . . . . . . . . vergleichende DIF-Analysen bezüglich ausgewählter Semester für BWP IV . . . . . . . . Skalierung BWP III ohne Wintersemester 2016/17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . angepasste Skalierung BWP III ohne Wintersemester 2016/17 . . . . . . . . . . . . . . . . . . Dimensionsvergleich BWP III/IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dimensionsvergleich des ein- und vierdimensionalen Modells . . . . . . . . . . . . . . . . . . Reliabilitäten der vier Subdimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Korrelationen der vier Subdimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dimensionsvergleich des vierdimensionalen Modells mit einem g-factor-Modell . . . Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP I . . . . . . . . . . . . . . Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP II . . . . . . . . . . . . .

101 102 103 145 146 148 149 150 153 153 155 156 160 163 167 169 170 172 173 174 175 178 178 183 184 185 185 187 190 192

Verzeichnis der Tabellen

5.3 5.4 6.1 6.2 6.3 6.4

Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP III . . . . . . . . . . . . . Mittelwerte der Personenfähigkeiten auf der Notenstufe für BWP IV . . . . . . . . . . . . . Schwellenwerte der Niveaus BWP I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schwellenwerte der Niveaus BWP II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schwellenwerte der Niveaus BWP III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schwellenwerte der Niveaus BWP IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

194 196 199 202 205 208

233

Verzeichnis der Abbildungen

2.1 2.2 2.3 2.4 3.1

Wrightmap BWP I (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wrightmap BWP II (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wrightmap BWP III (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wrightmap BWP IV (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Itembetrachtung der Geschlechter-DIF für die Prüfungen BWP I-IV (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Itembetrachtung der Studiengangs-DIF bei den Prüfungen BWP I-IV (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Itembetrachtung der Semester-DIF der Prüfung BWP II (eigene Darstellung) . . . . . 3.4 Itembetrachtung der Semester-DIF der Prüfung BWP III (eigene Darstellung) . . . . 3.5 Itembetrachtung der Semester-DIF der Prüfung BWP IV (eigene Darstellung) . . . . 3.6 Itembetrachtung der Semester-DIF ausgewählter Jahrgänge der Prüfung BWP III (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Gegenüberstellung ausgewählter Semester BWP III (eigene Darstellung) . . . . . . . . . 3.8 Gegenüberstellung ausgewählter Semester BWP IV (eigene Darstellung) . . . . . . . . . 3.9 Lösungsgrad der Musterlösung BWP III (eigene Darstellung) . . . . . . . . . . . . . . . . . . . 3.10 Lösungsgrad der Musterlösung BWP IV (eigene Darstellung) . . . . . . . . . . . . . . . . . . . 4.1 schematische Dimensionalisierung des Moduls ‚Didaktik beruflicher Bildung‘ (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 schematische Dimensionalisierung des berufspädagogischen Wissens (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 schematische g-factor-Dimensionalisierung des berufspädagogischen Wissens (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Abbildung der Noten (BWP I) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Abbildung der Noten (BWP II) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Abbildung der Noten (BWP III) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Abbildung der Noten (BWP IV) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 statistische Notenzuordnung (BWP I) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . 6.2 Niveauzuordnung (BWP I) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 statistische Notenzuordnung (BWP II) (eigene Darstellung) . . . . . . . . . . . . . . . . . . .

147 151 154 157 161 164 169 171 172 174 174 175 177 177 182 184 187 190 193 195 196 200 201 203

Verzeichnis der Abbildungen

6.4 6.5 6.6 6.7 6.8

Niveauzuordnung (BWP II) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . statistische Notenzuordnung (BWP III) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . Niveauzuordnung (BWP III) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . statistische Notenzuordnung (BWP IV) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . Niveauzuordnung (BWP IV) (eigene Darstellung) . . . . . . . . . . . . . . . . . . . . . . . . . . . .

203 206 206 209 209

235

Literatur

Abele, S. (2011). Hängt die prognostische Validität eignungsdiagnostischer Verfahren von der Operationalisierung des Ausbildungserfolgs ab? In R. Nickolaus & G. Pätzold (Hrsg.), Lehr‐ Lernforschung in der gewerblich-technischen Berufsbildung (S. 13–35). Franz Steiner Verlag. Abele, S. (2014). Modellierung und Entwicklung berufsfachlicher Kompetenz in der gewerblich-tech‐ nischen Ausbildung (Bd. 1). Steiner. Abele, S., Greiff, S., Gschwendtner, T., Wüstenberg, S., Nickolaus, R., Nitzschke, A. & Funke, J. (2012). Dynamische Problemlösekompetenz. Zeitschrift für Erziehungswissenschaft, 15(2), 363–391. https://doi.org/10.1007/s11618-012-0277-9 Abele, S. & Gschwendtner, T. (2010). Die computerbasierte Erfassung beruflicher Handlungs‐ kompetenz: Konzepte, Möglichkeiten, Perspektiven am Beispiel der KfZ-Mechatronik. Berufs‐ bildung in Wissenschaft und Praxis, (1), 14–17. Abou El-Komboz, B., Zeileis, A. & Strobl, C. (2014). Detecting Differential Item and Step Func‐ tioning with Rating Scale and Partial Credit Trees. https://epub.ub.uni-muenchen.de/17984/ 1/TR152_pctrees.pdf Adolph, A. (2015). Lehrpläne als Steuerungsinstrument im Schulsystem: Eine Untersuchung zu Ak‐ zeptanz und Wirkungen von Lehrplänen allgemeinbildender Schulen (Dissertation). Technische Universität Dresden. Dresden, Fakultät Erziehungswissenschaften. Akkreditierungsrat. (2010). Regeln für die Akkreditierung von Studiengängen und für die Syste‐ makkreditierung: Beschluss des Akkreditierungsrates vom 08.12.2009 i. d. F. vom 10.12.2010. Alesi, B. & Kehm, B. (2012). Internationalisierung von Hochschule und Forschung. In H. Böck‐ ler-Stiftung (Hrsg.), Expertisen für die Hochschule der Zukunft. Klinkhardt. Amann, E., Klaus, H., Pape, A., Preusker, C., Reimann, A. M. & Wessler, M. (2018). Die Qualifi‐ zierungsphase in den Wirtschaftswissenschaften: Lösungen spezifischer Herausforderungen im Rahmen einer konsistenten Studiengangsgestaltung (Hochschulrektorenkonferenz, Hrsg.). Anderson, J. R. (1996). ACT: A simple theory of complex cognition. American Psychologist, 51(4), 355–365. https://doi.org/10.1037/0003-066X.51.4.355 Arnold, R. & Erpenbeck, J. (2017). Wissen ist keine Kompetenz: Dialoge zur Kompetenzreifung (3. unveränd. Aufl., Bd. 77). Schneider-Verl. Hohengehren. Artelt, C., Stanat, P., Schneider, W. & Schiefele, U. (2001). Lesekompetenz: Testkonzeption und Ergebnisse. In Deutsches PISA-Konsortium (Hrsg.), PISA 2000 (S. 69–140). Leske; Budrich.

Literatur

Asendorpf, J. B. & Neyer, F. J. (2012). Psychologie der Persönlichkeit. Springer. https://doi.org/10. 1007/978-3-642-30264-0 Asmussen, S., Engemann, C., Schühle, H.-C., Stein, R., Stribel, D. & Wohlgemuth, J. (2016). Bildungsplan 2016. Neckar-Verlag GmbH. Avenarius, H., Ditton, H., Döbert, H., Klemm, K., Klieme, E., Rürup, M., Tenorth, H. E., Weis‐ haupt, H. & Weiß, M. (2003). Bildungsbericht Für Deutschland: Erste Befunde. VS Verlag fur Sozialwissenschaften GmbH. https://ebookcentral.proquest.com/lib/kxp/detail.action? docID=6295261 Bachmann, H. (2014). Kompetenzorientierte Hochschullehre: Die Notwendigkeit von Kohärenz zwi‐ schen Lernzielen, Prüfungsformen und Lehr-Lern-Methoden (Bd. v.1). hep verlag. Baumert, B. & May, D. (2013). Constructive Alignment als didaktisches Konzept: Lehre planen in den Ingenieur- und Geisteswissenschaften. Journal Hochschuldidaktik, (2), 23–27. Baumert, J., Bos, W. & Lehmann, R. (Hrsg.). (2000). TIMSS / III Dritte Internationale Mathematikund Naturwissenschaftsstudie - Mathematische und naturwissenschaftliche Bildung am Ende der Schullaufbahn: Band 1 Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit. VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978- 3- 32283411-9 Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, W., Schneider, W., Stanat, P., Till‐ mann, K.-J. & Weiß, M. (Hrsg.). (2001). PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Leske und Budrich. Baumert, J. & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeit‐ schrift für Erziehungswissenschaft, 9(4), 469–520. https://doi.org/10.1007/s11618-006-0165-2 Baumert, J. & Kunter, M. (2011). Das Kompetenzmodell von COACTIV. In M. Kunter, J. Bau‐ mert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften (S. 29–54). Waxmann. Baumert, J., von Davier, M., Jeschke, S., Seeber, S., Stemmler, G., Sumfleth, E. & Wilhelm, O. (2014). Audit-Bericht zur Förderbekanntmachung „Kompetenzmodellierung und Kompeten‐ zerfassung im Hochschulsektor“. Beaton, A. E. & Allen, N. L. (1992). Interpreting Scales Through Scale Anchoring. Journal of Educational Statistics, 17(2), 191–204. https://doi.org/10.2307/1165169 Beck, B. & Klieme, E. (Hrsg.). (2007). Sprachliche Kompetenzen: Konzepte und Messung: DESI‐ Studie (Deutsch Englisch Schülerleistungen International). Beltz Verlag. Beck, E., Baer, M., Guldimann, T., Bischoff, S., Brühwiler, C., Müller, P., Niedermann, R., Rogalle, M. & Vogt, F. (2008). Adaptive Lehrkompetenz: Analyse und Struktur, Veränderung und Wirkung handlungssteuernden Lehrerwissens. Waxmann. Behrendt, S. (2021). Evidence-Based Feedback in Higher Education through Constructive Ali‐ gnment and Cognitive Diagnostic Modeling. Behrendt, S., Abele, S. & Nickolaus, R. (2017). Struktur und Niveaus des Fachwissens von Kfz‐ Mechatronikern gegen Ende der formalen Ausbildung. Journal of Technical Education, 5(1), 47–75.

237

238

Literatur

Behrendt, S., Dammann, E., S, tef˘anic˘a, F., Markert, B. & Nickolaus, R. (2015). Physical-technical prior competencies of engineering students. Empirical Research in Vocational Education and Training, 7(1), 121. https://doi.org/10.1186/s40461-015-0013-9 Biggs, J. B. (2003). Aligning teaching for constructing learning (The Higher Education Academy, Hrsg.). Biggs, J. B. & Tang, C. S.-k. (2011). Teaching for quality learning at university: What the student does (4. ed.). Society for Research into Higher Education & Open University Press. Blancke, S., Roth, C. & Schmid, J. (2000). Employability (Beschäftigungsfähigkeit) als Herausfor‐ derung für den Arbeitsmarkt: Auf dem Weg zur flexiblen Erwerbsgesellschaft; eine Konzept- und Literaturstudie (Bd. 157). Universität Stuttgart / Akademie für Technikfolgenabschätzung in Baden-Württemberg. Blömeke, S., Kaiser, G. & Lehmann, R. (2010a). TEDS-M 2008 Sekundarstufe I: Ziele, Unter‐ suchungsanlage und zentrale Ergebnisse. In S. Blömeke, G. Kaiser & R. Lehmann (Hrsg.), TEDS-M 2008 (S. 11–38). Waxmann. Blömeke, S., Kaiser, G. & Lehmann, R. (Hrsg.). (2010b). TEDS-M 2008: Professionelle Kompetenz und Lerngelegenheiten angehender Primarstufenlehrkräfte im internationalen Verlgeich. Waxmann. Blömeke, S., Kaiser, G., Schwarz, B., Seeber, S., Lehmann, R., Felbrich, A. & Müller, C. (2008). Fachbezogenes Wissen am Ende der Ausbildung. In S. Blömeke, G. Kaiser & R. Lehmann (Hrsg.), Professionelle Kompetenz angehender Lehrerinnen und Lehrer (S. 89–104). Waxmann. Bloom, B. S. (1969). Taxonomy of educational objectives: The classification of educational goals. Prentice Hall. Bonz, B. (2009). Methoden der Berufsbildung: Ein Lehrbuch (2., neubearb. und erg. Aufl.). Hirzel. Boone, W. J., Staver, J. R. & Yale, M. S. (2014). Rasch analysis in the human sciences. Springer. Borsboom, D., Mellenbergh, G. J. & van Heerden, J. (2003). The theoretical status of latent varia‐ bles. Psychological Review, 110(2), 203–219. https://doi.org/10.1037/0033-295X.110.2.203 Bruner, J. S. (1976). Entdeckendes Lernen. In A. Holtmann (Hrsg.), Das sozialwissenschaftliche Curriculum in der Schule (S. 91–105). VS Verlag für Sozialwissenschaften. Buchholz, J. & Hartig, J. (2019). Comparing Attitudes Across Groups: An IRT-Based Item-Fit Statistic for the Analysis of Measurement Invariance. Applied psychological measurement, 43(3), 241–250. https://doi.org/10.1177/0146621617748323 Büchter, A. & Pallack, A. (2012). Methodische Überlegungen und empirische Analysen zur im‐ pliziten Standardsetzung durch zentrale Prüfungen. Journal für Mathematik-Didaktik, 33(1), 59–85. https://doi.org/10.1007/s13138-011-0032-4 Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3., aktualisierte und erw. Aufl.). Pearson Studium. http://lib.myilibrary.com/detail.asp?id=404890 Bundesinstitut für Berufsbildung. (2015). Ausbildungsordnungen und wie sie entstehen (7., überarb. Aufl.). Bundesinstitut für Berufsbildung. Bundesministerium für Bildung und Forschung (Hrsg.). (2007). Möglichkeiten und Voraussetzun‐ gen technologiebasierter Kompetenzdiagnostik. Bundesministerium für Bildung und Forschung. (2015). Bericht der Bundesregierung über die Umsetzung des Bologna-Prozesses 2012 - 2015 in Deutschland.

Literatur

Bundesministerium für Bildung und Forschung. (2018). Die Umsetzung der Ziele des Bolo‐ gna-Prozesses 2015 - 2018: Nationaler Bericht von Kultusministerkonferenz und Bundesmi‐ nisterium für Bildung und Forschung unter Mitwirkung von HRK, DAAD, Akkreditierungsrat, fzs, DSW und Sozialpartnern. Carless, D. (2006). Differing perceptions in the feedback process. Studies in Higher Education, 31(2), 219–233. https://doi.org/10.1080/03075070600572132 Chen, Y.-F. & Jiao, H. (2014). Exploring the Utility of Background and Cognitive Variables in Explaining Latent Differential Item Functioning: An Example of the PISA 2009 Reading Assess‐ ment. Educational Assessment, 19(2), 77–96. https://doi.org/10.1080/10627197.2014.903650 Christensen, K. B., Makransky, G. & Horton, M. (2017). Critical Values for Yen’s Q3: Iden‐ tification of Local Dependence in the Rasch Model Using Residual Correlations. Applied psychological measurement, 41(3), 178–194. Clement, U. (2006). Curricula für die berufliche Bildung: Fächersystematik oder Situationsori‐ entierung? In R. Arnold & A. Lipsmeier (Hrsg.), Handbuch der Berufsbildung. VS Verlag für Sozialwissenschaften. Cursio, M. & Jahn, D. (2015). Formulierung kompetenzorientierter Lernziele auf Modulebene. https://www.nat.fau.de/files/2015/12/03-Leitfaden-Leitfaden-zur-Formulierung-kompe tenzorientierter-Lernziele-auf-Modulebene-NatFak-und-FBZHL.pdf Dammann, E. (2016). Entwicklung eines Testinstruments zur Messung fachlicher Kompetenzen in der Technischen Mechanik bei Studierenden ingenieurwissenschaftlicher Studiengänge (Dissertation). Universität Stuttgart. Stuttgart, Institut für Erziehungswissenschaft. https://elib.uni-stuttgart. de/handle/11682/9090 Dammann, E., Behrendt, S., S¸ tef˘anic˘a, F. & Nickolaus, R. (2016). Kompetenzniveaus in der ingenieurwissenschaftlichen akademischen Grundbildung – Analysen im Fach Technische Mechanik. Zeitschrift für Erziehungswissenschaft, 19(2), 351–374. https://doi.org/10.1007/ s11618-016-0675-5 Debatin, T., Aljughaiman, A., AlGhawi, M., Stoeger, H. & Ziegler, A. (2018). Reliability and interpretation of total scores from multidimensional cognitive measures – evaluating the GIK 4-6 using bifactor analysis. Psychological Test and Assessment Modeling, 60(4), 393–401. de La Torre, J. & Minchen, N. (2014). Cognitively Diagnostic Assessments and the Cognitive Diagnosis Model Framework. Psicología Educativa, 20(2), 89–97. https://doi.org/10.1016/j. pse.2014.11.001 Der Europäische Hochschulraum. (1998). Gemeinsame Erklärung zur Harmonisierung der Ar‐ chitektur der europäischen Hochschulbildung: Paris, Sorbonne, dem 25. Mai 1998. Deutsche Gesellschaft für Erziehungswissenschaft. (2004). Kerncurriculum für das Hauptfach‐ studium Erziehungswissenschaft. Deutsche Gesellschaft für Sozialarbeit. (2005). Kerncurriculum Soziale Arbeit / Sozialarbeitswis‐ senschaft für Bachelor- und Masterstudiengänge in Sozialer Arbeit. Deutsche Vereinigung für Sportwissenschaft. (2015). Leitlinien und Kompetenzerwartungen für ein Kerncurriculum Ein-Fach-Bachelor Sportwissenschaft.

239

240

Literatur

Deutsches PISA-Konsortium (Hrsg.). (2001). PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Leske; Budrich. Dietzen, A., Tschöpe, T. & Velten, S. (2010). In die Blackbox schauen – Kompetenzen mes‐ sen, Ausbildungsqualität sichern. Berufsbildung in Wissenschaft und Praxis, (1), 27–30. Dietzen, A., Velten, S., Schnitzler, A., Schwerin, C., Nickolaus, R., Gönnenwein, A., Nitzschke, A. & Lazar, A. (2014). Einfluss der betrieblichen Ausbildungsqualität auf die Fachkompetenz in ausgewählten Berufen (Aqua.Kom): Abschlussbericht. Bundesinstitut für Berufsbildung. Dietzen, A., Weiß, R., Nickolaus, R. & Rammstedt, B. (Hrsg.). (2016). Kompetenzorientierung: Berufliche Kompetenzen entwickeln, messen und anerkennen ([1. Auflage]). W. Bertelsmann Verlag GmbH & Co. KG. Dinis da Costa, P. & Araújo, L. (2012). Differential item functioning (DIF): What functions differently for immigrant students in PISA 2009 reading items?. Publications Office. Dollny, S. & Tepner, O. (2012). CK und PCK von Chemielehrkräften: Unterschiede und Zusam‐ menhänge. In S. Bernholt (Hrsg.), Konzepte fachdidaktischer Strukturierung für den Unterricht (S. 212–214). Lit. Embretson, S. E. & Reise, S. P. (2009). Item response theory for psychologists (Reprinted 2009 by Psychology Press, Bd. 4). Psychology Press. Enders, N. (2014). Zur dimensionalen Struktur sozialer Kompetenz: Modellierung selbstberichteter Verhaltenstendenzen in Konflikten mit Gleichaltrigen im frühen Jugendalter (Dissertation). Uni‐ versität Hildesheim. Hildesheim, Erziehungs- und Sozialwissenschaften. Euler, D. (2011). Kompetenzorientiert prüfen – eine hilfreiche Vision? In E. Severing & R. Weiß (Hrsg.), Prüfungen und Zertifizierungen in der beruflichen Bildung (S. 55–66). Bundesinstitut für Berufsbildung. European Higher Education Area. (2009). Bologna-Prozess 2020 – der Europäische Hoch‐ schulraum im kommenden Jahrzehnt: Kommuniqué der Konferenz der für die Hochschulen zuständigen europäischen Ministerinnen und Minister, Leuven/Louvain-la-Neuve, 28. und 29. April 2009. European Higher Education Area. (2012). Communiqué of the Conference of European Ministers Responsible for Higher Education, Bucharest, 26-27 April 2012: Beyond the Bologna Process: Creating and connecting national, regional and global higher education areas. Evran, D. (2019). An Application of Cognitive Diagnosis Modeling in TIMSS: A Comparison of Intuitive Definitions of Q-Matrices. International Journal of Modern Education Studies, 3(1), 5–17. FIBAA. (2017). Handreichung der FIBAA zur Akkreditierung von Studiengängen gemäß den Anforderungen des Akkreditierungsrates. Findeisen, S. (2017). Fachdidaktische Kompetenzen angehender Lehrpersonen. Springer. https : //doi.org/10.1007/978-3-658-18390-5 Fleischmann, A., Jäger, C. & Strasser, A. (2014). Kompetenzmodell Hochschullehre: Welche Kompetenzen benötigen Lehrende an der Technischen Universität München?

Literatur

Forsyth, R. A. (1991). Do NAEP Scales Yield Valid Criterion-Referenced Interpretations? Edu‐ cational Measurement: Issues and Practice, 10(3), 3–9. https : / / doi . org / 10 . 1111 / j . 1745 3992.1991.tb00197.x Fox, J., Weisberg, S., Price, B., Adler, D., Bates, D., Baud-Bov, G., Bolker, B., Ellison, S., Firth, D., Friendly, M., Gorjanc, G. & Graves, S. (2020). Package ‘car’. https://cran.r-project.org/web/ packages/car/car.pdf Frey, A. (2006). Methoden und Instrumente zur Diagnose beruflicher Kompetenzen von Lehr‐ kräften: Eine erste Standortbestimmung zu bereits publizierten Instrumenten. In Zeitschrift für Pädagogik (Hrsg.), Kompetenzen und Kompetenzentwicklung von Lehrerinnen und Lehrern. Beltz. Fricke, M. (2017). FALKO-R: Professionswissen von Religionslehrkräften: Entwicklung eines Messinstruments zur fachspezifischen Lehrerkompetenz. In S. Krauss, A. Lindl & A. Schilcher (Hrsg.), FALKO: fachspezifische Lehrerkompetenzen (S. 291–336). Waxmann. Friedrich-Alexander-Universität Nürnberg-Erlangen. (2015). Formulierung kompetenzorientier‐ ter Lernziele auf Modulebene. Gallagher, G. (2017). Aligning for Learning: Including Feedback in the Constructive Alignment Model. All Ireland Journal of Teaching and Learning in Higher Education (AISHE-J), 9(1). Geiser, C. & Eid, M. (2010). Item-Response-Theorie. In C. Wolf & H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse (S. 311–332). VS Verlag für Sozialwissenschaften / Springer. Gerholz, K.-H. & Sloane, P. F. (2008). Der Bolognaprozess aus curricularer und hochschuldidak‐ tischer Perspektive: Eine Kontrastierung von beruflicher Bildung und Hochschulbildung auf der Bachelor-Stufe. bwp@, (14). Gesellschaft für Fachdidaktik. (2004). Kerncurriculum Fachdidaktik: Orientierungsrahmen für alle Fachdidaktiken: Einstimmiger Beschluss der Mitgliederversammlung vom 12. November 2004 (Gesellschaft für Fachdidaktik e.V., Hrsg.). Gignac, G. E. (2015). Estimating the Strength of a General Factor: Coefficient Omega Hierarchi‐ cal. Industrial and Organizational Psychology, 8(3), 434–438. https://doi.org/10.1017/iop. 2015.59 Gordon, T., Burch, N. & Organ, M. (2006). Lehrer-Schüler-Konferenz: Wie man Konflikte in der Schule löst (18. Aufl., Bd. 2993). Heyne. Greiff, S. (2012). Individualdiagnostik komplexer Problemlösefähigkeit (Diss.). Münster, Waxmann. Grisay, A., de Jong, J. H. A. L., Gebhardt, E., Berezner, A. & Halleux-Monseur, B. (2007). Transla‐ tion equivalence across PISA countries. Journal of applied measurement, 8(3), 249–266. Grisay, A., Gonzalez, E. & Monseur, C. (2009). Equivalence of item difficulties across national versions of the PIRLS and PISA reading assessments. In W. Schulz, D. M. Von, D. Hastedt, E. Gonzalez, R. J. Mislevy, R. Zuzovsky, A. Grisay, C. Monseur, J. Hencke, L. Rutkowski, O. Neuschmidt, C.-Y. Chiu, M. Seo, C.-a. Hsieh & X. Xu (Hrsg.), Issues and methodologies in large-scale assessments (S. 63–83).

241

242

Literatur

Grisay, A. & Monseur, C. (2007). Measuring the equivalence of item difficulty in the various versions of an international test. Studies in Educational Evaluation, 33(1), 69–86. https://doi. org/10.1016/j.stueduc.2007.01.006 Grossman, P. L. & Richert, A. E. (1988). Unacknowledged knowledge growth: A re-examination of the effects of teacher education. Teaching and Teacher Education, 4(1), 53–62. https://doi. org/10.1016/0742-051X(88)90024-8 Gschwendtner, T. (2008). Ein Kompetenzmodell für die kraftfahrzeugtechnische Grundbildung. In R. Nickolaus & H. Schanz (Hrsg.), Didaktik der gewerblich-technischen Berufsbildung (S. 103– 119). Schneider. Hacker, W. (2014). Allgemeine Arbeitspsychologie: Psychische Regulation von Tätigkeiten (3., vollst. überarb. Aufl.). Hogrefe. Haladyna, T. M. & Rodriguez, M. (2013). Developing and validating test items. Routledge. Hambleton, R. K., Swaminathan, H. & Rogers, H. J. (1991). Fundamentals of item response theory ([Nachdr.], Bd. 2). Sage Publ. Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In E. Klieme & B. Beck (Hrsg.), Sprachliche Kompetenzen: DESI-Studie (Deutsch Englisch Schülerleistungen Internatio‐ nal) (S. 83–99). Beltz. Hartig, J. & Frey, A. (2013). Sind Modelle der Item-Response-Theorie (IRT) das „Mittel der Wahl“ für die Modellierung von Kompetenzen? Zeitschrift für Erziehungswissenschaft, 16(S1), 47–51. https://doi.org/10.1007/s11618-013-0386-0 Hartig, J. & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127–143). Springer Medizin. Heimann, P., Otto, G. & Schulz, W. (1979). Unterricht: Analyse und Planung (10., unveränd. Aufl., Bd. 1/2). Schroedel. Helmke, A. & Weinert, F. E. (1996). Bedingungsfaktoren schulischer Leistungen. In M. Hassel‐ horn, R. K. Silbereisen, D. Albert, M. Amelang, N. Birbaumer, J. Bredenkamp, B. Bridgeman, A. Ehlers, H. Feger, H. Flor, A. D. Friederici, C. F. Graumann, K.-J. Groffmann, K. Hahlweg, H. Heckhausen, D. Hellhammer, T. Herrmann, H. Heuer, J. Hoffmann, . . . B. Zimolong (Hrsg.), Enzyklopädie der Psychologie (S. 71–176). Helmke, A. (2007). Unterrichtsqualität erfassen, bewerten, verbessern: Dieses Buch ist Franz-Emanuel Weinert gewidmet (6. Aufl.). Kallmeyer. Hennig, C. (2020). Flexible Procedures for Clustering. https://cran.r-project.org/web/packages/ fpc/fpc.pdf Higgins, R., Hogg, P. & Robinson, L. (2017). Constructive alignment of a research-informed teaching activity within an undergraduate diagnostic radiography curriculum: A reflection. Radiography, 23, 30–36. https://doi.org/10.1016/j.radi.2016.11.004 Hill, H. C., Rowan, B. & Ball, D. L. (2005). Effects of Teachers’ Mathematical Knowledge for teaching on Student Achievement. American Educational Research Journal, 42(2), 371–406. Hochschulrahmengesetz. (2017). §1 Anwendungsbereich. https://www.gesetze- im- internet. de/hrg/HRG.pdf

Literatur

Hochschulrektorenkonferenz. (1997). Zur Einführung von Bachelor- und Masterstudiengän‐ gen/-abschlüssen: Entschließung des 183. Plenums vom 10. November 1997. https://www. hrk.de/positionen/position/beschluss/detail/zur-einfuehrung-von-bachelor-und-master studiengaengen-abschluessen/ Hochschulrektorenkonferenz. (2014). Employability und Praxisbezüge im wissenschaftlichen Studium: HRK-Fachgutachten ausgearbeitet für die HRK von Wilfried Schubarth und Karsten Speck unter Mitarbeit von Juliane Ulbricht, Ines Dudziak und Brigitta Zylla. Hochschulrektorenkonferenz. (2016). Kompetenzorientiertes Prüfen (Duisburg). https://www. hrk-nexus.de/aktuelles/tagungsdokumentation/kompetenzorientiertes-pruefen-duisburg/ Hochschulrektorenkonferenz. (2017a). Studiengangentwicklung – von der Idee zum Curriculum. Hochschulrektorenkonferenz. (2017b). Zur Internationalisierung der Curricula: Empfehlung der 22. Mitgliederversammlung der HRK am 9. Mai 2017 in Bielefeld. HRK-Nexus. (2015). Kompetenzorientiert prüfen: Zum Lernergebnis passende Prüfungsaufga‐ ben. Hurvich, C. M. & Tsai, C.-L. (1989). Regression and time series model selection in small samples. Biometrika, 76(2), 297–307. https://doi.org/10.1093/biomet/76.2.297 IBM Corp. (2017). IBM SPSS Statistics for Windows (Version 25.0). Armonk, NY: IBM Corp. Industrie- und Handelskammer zu Dortmund. (2019). Ausbildungsordnungen und Rahmen‐ pläne. https : / / www . dortmund . ihk24 . de / bildung / ausbildung / ausbildungsordnungen / ausbildungsordnungen_index/314584 Jonkisz, E., Moosbrugger, H. & Brandt, H. (2012). Planung und Entwicklung von Tests und Fragebogen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 27–74). Springer. Julius-Maximilians-Universität Würzburg. (2013). Kurzleitfaden: Kompetenzorientierung. Just, A. (2016). Didaktische Grundkompetenzen von Studierenden der Berufs- und Technikpädagogik: Ergebnisse einer Skalierung von Prüfungsaufgaben (Masterthesis). Universität Stuttgart. Stuttgart, Institut für Erziehungswissenschaft, Abteilung Berufs-, Wirtschafts- und Technikpädagogik. Just, A., Behrendt, S., Macha, K. & Kögler, K. (2021). Schwierigkeitsbestimmende Aufgaben‐ merkmale und Grenzen ihres Einsatzes im Hochschulbereich. In H. Binz & U. Meiser (Hrsg.), Qualitätspakt Lehre – Individualität und Kooperation im Stuttgarter Studium: Ausgewählte Ergeb‐ nisse aus der zweiten Förderphase (S. 89–107). Jüttner, M. & Neuhaus, J. (2013). Das Professionswissen von Biologielehrkräften: Ein Vergleich zwischen Biologielehrkräften, Biologen und Pädagogen. Zeitschrift für Didaktik der Naturwis‐ senschaften, 19, 31–49. Kanning, U. P. (2009). Diagnostik sozialer Kompetenzen (2., aktualisierte Aufl., Bd. Bd. 4). Hogrefe. Kelava, A. & Schermelleh-Engel, K. (2012). Latent-State-Trait-Theorie. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 363–381). Springer-Verlag Berlin Heidelberg. Kirchhoff, P. (2017). FALKO-E: Fachspezifisches professionelles Wissen von Englischlehrkräf‐ ten: Entwicklung und Validierung eines domänenspezifischen Testinstruments. In S. Krauss,

243

244

Literatur

A. Lindl & A. Schilcher (Hrsg.), FALKO: fachspezifische Lehrerkompetenzen (S. 113–152). Waxmann. Kirschner, S. B. (2013). Modellierung und Analyse des Professionswissens von Physiklehrkräften (Dissertation). Universität Duisburg-Essen. Duisburg-Essen. Klieme, E. (Hrsg.). (2008). Unterricht und Kompetenzerwerb in Deutsch und Englisch: Ergebnisse der DESI-Studie. Beltz. Klieme, E., Avenarius, H., Blum, W., Döbrich, P., Gruber, H., Prenzel, M., Reiss, K., Riquarts, K., Rost, J., Tenorth, H.-E. & Vollmer, H. J. (2007). Zur Entwicklung nationaler Bildungsstandards (Bd. 1). Bundesministerium für Bildung und Forschung. Klieme, E. & Beck, B. (Hrsg.). (2007). Sprachliche Kompetenzen: Konzepte und Messung: DESI‐ Studie (Deutsch Englisch Schülerleistungen International). Beltz. Klieme, E. & Leutner, D. (2006). Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen: Beschreibung eines neu eingerichteten Schwer‐ punktprogramms der DFG. Zeitschrift für Pädagogik, 52, 876–903. Klieme, E., Maag-Merki, K. & Hartig, J. (2007). Kompetenzbegriff und Bedeutung von Kom‐ petenzen im Bildungswesen. In Bundesministerium für Bildung und Forschung (Hrsg.), Möglichkeiten und Voraussetzungen technologiebasierter Kompetenzdiagnostik (S. 5–16). Koch, T., Holtmann, J., Bohn, J. & Eid, M. (2018). Explaining general and specific factors in longi‐ tudinal, multimethod, and bifactor models: Some caveats and recommendations. Psychological methods, 23(3), 505–523. https://doi.org/10.1037/met0000146 Köhler, C. & Hartig, J. (2017). Practical Significance of Item Misfit in Educational Assess‐ ments. Applied psychological measurement, 41(5), 388–400. https : / / doi . org / 10 . 1177 / 0146621617692978 Köhler, C., Robitzsch, A. & Hartig, J. (2020). A Bias-Corrected RMSD Item Fit Statistic: An Evaluation and Comparison to Alternatives. Journal of Educational and Behavioral Statistics, 45(3), 251–273. https://doi.org/10.3102/1076998619890566 König, J. (2015). Designing an international instrument to assess teachers’ general pedagogical knowledge (GPK): Review of studies, considerations, and recommendations: Technical paper prepared for the OECD innovative teaching for effective learning (ITEL) – phase II project: A survey to profile the pedagogical knowledge in the teaching profession (ITEL teacher know‐ ledge survey). http://www.oecd.org/officialdocuments/publicdisplaydocumentpdf/?cote= EDU/CERI/CD/RD%282014%293/REV1&doclanguage=en König, J. & Blömeke, S. (2009). Pädagogisches Wissen von angehenden Lehrkräften. Zeitschrift für Erziehungswissenschaft, 12(3), 499–527. https://doi.org/10.1007/s11618-009-0085-z König, J., Doll, J., Buchholtz, N., Förster, S., Kaspar, K., Rühl, A.-M., Strauß, S., Bremerich-Vos, A., Fladung, I. & Kaiser, G. (2017). Pädagogisches Wissen versus fachdidaktisches Wissen? Struktur des professionellen Wissens bei angehenden Deutsch-, Englisch- und Mathematiklehr‐ kräften im Studium. Zeitschrift für Erziehungswissenschaft. https://doi.org/10.1007/s11618017-0765-z

Literatur

König, J. & Seifert, A. (Hrsg.). (2012). Lehramtsstudierende erwerben pädagogisches Professions‐ wissen: Ergebnisse der Längsschnittstudie LEK zur Wirksamkeit der erziehungswissenschaftlichen Lehrerausbildung. Waxmann. Krauss, S., Brunner, M., Kunter, M., Baumert, J., Blum, W., Neubrand, M. & Jordan, A. (2008). Pedagogical content knowledge and content knowledge of secondary mathematics teachers. Journal of Educational Psychology, 100(3), 716–725. https://doi.org/10.1037/0022-0663.100. 3.716 Kufner, S. (2012). Diagnose und Prognose von Handlungskompetenz im Bereich des adaptiven Lehrens bei Studierenden: Eine Videostudie (Dissertation). Universität Passau. Passau, Philosophische Fakultät, Fach Erziehungswissenschaft. Kuhlee, D. (2017). The Impact of the Bologna Reform on Teacher Education in Germany: An Empirical Case Study on Policy Borrowing in Education. Research in Comparative and Interna‐ tional Education, 12(3), 299–317. https://doi.org/10.1177/1745499917730733 Kultusministerkonferenz. (2004). Bildungsstandards derKultusministerkonferenz: Erläuterungen zur Konzeption und Entwicklung. Luchterhand. Kultusministerkonferenz. (2017). Handreichung für die Erarbeitung von Rahmenlehrplänen der Kul‐ tusministerkonferenz für den berufsbezogenen Unterricht in der Berufsschule und ihre Abstimmung mit Ausbildungsordnungen des Bundes für anerkannte Ausbildungsberufe (aktualisierte). Kultusministerkonferenz. (2018). Handreichung für die Erarbeitung von Rahmenlehrplänen der Kul‐ tusministerkonferenz für den berufsbezogenen Unterricht in der Berufsschule und ihre Abstimmung mit Ausbildungsordnungen des Bundes für anerkannte Ausbildungsberufe. Kunina-Habenicht, O., Lohse-Bossenz, H., Kunter, M., Dicke, T., Förster, D., Gößling, J., Schulze‐ Stocker, F., Schmeck, A., Baumert, J., Leutner, D. & Terhart, E. (2012). Welche bildungswis‐ senschaftlichen Inhalte sind wichtig in der Lehrerbildung? Zeitschrift für Erziehungswissenschaft, 15(4), 649–682. https://doi.org/10.1007/s11618-012-0324-6 Kunina-Habenicht, O., Schulze-Stocker, F., Kunter, M., Baumert, J., Leutner, D., Förster, D., Lohse-Bossenz, H. & Terhart, E. (2013). Die Bedeutung der Lerngelegenheiten im Lehr‐ amtsstudium und deren individuelle Nutzung für den Aufbau des bildungswissenschaftlichen Wissens. Zeitschrift für Pädagogik, 59(1), 1–23. Kunter, M., Baumert, J., Blum, W., Klusmann, U., Krauss, S. & Neubrand, M. (Hrsg.). (2011). Professionelle Kompetenz von Lehrkräften: Ergebnisse des Forschungsprogramms COACTIV. Wax‐ mann. Kunter, M., Klusmann, U., Baumert, J., Richter, D., Voss, T. & Hachfeld, A. (2013). Professional competence of teachers: Effects on instructional quality and student development. Journal of Educational Psychology, 105(3), 805–820. https://doi.org/10.1037/a0032583 Kunter, M., Kunina-Habenicht, O., Baumert, J., Dicke, T., Holzberger, D., Lohse-Bossenz, H., Leutner, D., Schulze-Stocker, F. & Terhart, E. (2015). Bildungswissenschaftliches Wissen und professionelle Kompetenz in der Lehramtsausbildung. In C. Gräsel & K. Trempler (Hrsg.), Entwicklung von Professionalität pädagogischen Personals (S. 37–54). Vs Verlag für Sozialwissen‐ schaften.

245

246

Literatur

Lenske, G., Thillmann, H., Wirth, J., Dicke, T. & Leutner, D. (2015). Pädagogisch-psychologisches Professionswissen von Lehrkräften: Evaluation des ProwiN-Tests. Zeitschrift für Erziehungswis‐ senschaft, 18(2), 225–245. https://doi.org/10.1007/s11618-015-0627-5 Leon, A., Behrendt, S. & Nickolaus, R. (2018). Interessenstrukturen von Studierenden und damit verbundene Potentiale für die Gewinnung von Lehramtsstudierenden: Journal of Technical Education ( JOTED), Bd. 6 Nr. 2 (2018): Journal of Technical Education ( JO‐ TED)-Sonderausgabe. https://doi.org/10.48513/JOTED.V6I2.129 Lewis, D. & Cook, R. (2020). Embedded Standard Setting: Aligning Standard-Setting Methodo‐ logy with Contemporary Assessment Design Principles. Educational Measurement: Issues and Practice, 39(1), 8–21. https://doi.org/10.1111/emip.12318 Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Auflage). Beltz. http://www. content-select.com/index.php?id=bib_view&ean=9783621278454 Lindl, A. & Kloiber, H. (2017). artifices docendi: FALKO-L: Modellierung und Messung do‐ mänenspezifischer Kompetenzen von Lateinlehrkräften. In S. Krauss, A. Lindl & A. Schilcher (Hrsg.), FALKO: fachspezifische Lehrerkompetenzen (S. 153–200). Waxmann. Lorig, B., Bretschneider, M., Gutschow, K., Mpangara, M. & Weber-Höller, R. (2014). Kom‐ petenzbasierte Prüfungen im dualen System – Bestandsaufnahme und Gestaltungsperspektiven: Abschlussbericht. Bundesinstitut für Berufsbildung. Lüke, N., Seider, J. & Fenn, M. (2018). Struktur und Inhalt des fachbezogenen Professionswissens angehender Lehrkräfte in den Geisteswissenschaften: 1-2 (2018): Lehrerbildung im Span‐ nungsfeld der Diskurse. heiEDUCATION, (1), 75–98. https://doi.org/10.17885/heiup.heied. 2018.1-2.23827 Maechler, M., Rousseeuw, P., Struyf, A., Hubert, M., Hornik, K., Studer, M. & Roudier, P. (2021). Package ’cluster’. https://cran.r-project.org/web/packages/cluster/cluster.pdf Maisch, V. (2020). Niveaumodellierung ausgewählter Prüfungen der Berufs- und Technikpädagogik an der Universität Stuttgart (Masterthesis). Universität Stuttgart. Stuttgart, Institut für Erzie‐ hungswissenschaft. Martinková, P., Drabinová, A., Liaw, Y.-L., Sanders, E. A., McFarland, J. L. & Price, R. M. (2017). Checking Equity: Why Differential Item Functioning Analysis Should Be a Routine Part of Developing Conceptual Assessments. CBE life sciences education, 16(2). https://doi.org/10. 1187/cbe.16-10-0307 Masters, G. N. (1982). A rasch model for partial credit scoring. Psychometrika, 47(2), 149–174. https://doi.org/10.1007/BF02296272 Maydeu-Olivares, A. (2013). Goodness-of-Fit Assessment of Item Response Theory Models. Measurement: Interdisciplinary Research and Perspectives, 11(3), 71–101. https://doi.org/10. 1080/15366367.2013.831680 Maydeu-Olivares, A. (2015). Evaluating fit in IRT models. In S. P. Reise & D. A. Revicki (Hrsg.), Handbook of item response theory modeling. Routledge Taylor & Francis Group. Maydeu-Olivares, A., Cai, L. & Hernández, A. (2011). Comparing the Fit of Item Response Theory and Factor Analysis Models. Structural Equation Modeling: A Multidisciplinary Journal, 18(3), 333–356. https://doi.org/10.1080/10705511.2011.581993

Literatur

McElvany, N., Schwabe, F., Gebauer, M. M. & Bos, W. (2016). Prüfung der Testfairness ausgewähl‐ ter Large-Scale-Assessments für zentrale Schülersubpopulationen. In Bundesministerium für Bildung und Forschung (Hrsg.), Forschungsvorhaben in Ankopplung an Large-Scale-Assesments (S. 23–30). Bundesministerium für Bildung und Forschung (BMBF), Referat Bildungsfor‐ schung. Messick, S. (1994). Validity of Psychological Assessment: Validitation of Inferences from Persons’ Responses and Performances as Scientific Inquiry into Score Meaning. ETS Research Report Series, 1994(2), 1–28. https://doi.org/10.1002/j.2333-8504.1994.tb01618.x Ministerium für Kultus, Jugend und Sport. (2016). Geschichte: Bildungsplan 2016: Bildungsplan des Gymnasiums. Neckar-Verlag GmbH. Moosbrugger, H. (2012). Item-Response-Theorie (IRT). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 227–274). Springer. Moosbrugger, H. & Kelava, A. (2012). Qualitätsanforderungen an einen psychologischen Test. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 7–26). Springer. Moosbrugger, H. & Kelava, A. (2020). Testtheorie und Fragebogenkonstruktion (3rd ed. 2020). Springer. https://doi.org/10.1007/978-3-662-61532-4 Müser, S., Fleischer, J. & Leutner, D. (2018). Der Erwerb bildungswissenschaftlichen Wissens im Lehramtsstudium: Erwerben Studierende des Lehramtes die von der KMK vorgegebenen Kompetenzen? 2. Programmkongress der BMBF-Qualitätsoffensive Lehrerbildung. https : //www.uni-due.de/proviel/wp-content/uploads/2018/11/Poster-QLB_Berlin.pdf Neuweg, G. H. (2006). Emergenzbedingungen pädagogischer Könnerschaft. In H. Heid & C. Harteis (Hrsg.), VERWERTBARKEIT (S. 205–228). VS Verlag für Sozialwissenschaften. Nickolaus, R. (2012). Didaktik – Modelle und Konzepte beruflicher Bildung: Orientierungsleistungen für die Praxis (3., korr. und erw. Aufl., Bd. 3). Schneider-Verl. Hohengehren. Nickolaus, R. (2014a). Anmerkungen zu Möglichkeiten und Grenzen einer empirischen Prüfung des Lernfeldkonzepts. In N. Naeve-Stoß, S. Seeber & W. Brand (Hrsg.), Lehrerbildung und Unterrichtsentwicklung aus der Perspektive des lernenden Subjekts (S. 1–18). bwp@. Nickolaus, R. (2014b). Schwierigkeitsbestimmende Merkmale von Aufgaben und deren didakti‐ sche Relevanz. In U. Braukmann, B. Dilger & H.-H. Kremer (Hrsg.), Wirtschaftspädagogische Handlungsfelder (S. 285–303). Eusl. Nickolaus, R. (2018a). Didaktik beruflicher Bildung II: Schwerpunkt Methoden – BWP IV: Vorlesungsskript. Nickolaus, R. (2018b). Didaktik beruflicher Bildung: BWP III: Vorlesungsskript. Nickolaus, R. (2018c). Einführung in die Berufs- und Wirtschaftspädagogik: BWP I: Vorlesungs‐ skript. Nickolaus, R. (2018d). Kompetenzmodellierungen in der beruflichen Bildung – eine Zwischenbi‐ lanz. In J. Schlicht & U. Moschner (Hrsg.), Berufliche Bildung an der Grenze zwischen Wirtschaft und Pädagogik (S. 255–282). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/9783-658-18548-0_14

247

248

Literatur

Nickolaus, R. (2018e). Organisatorisch-institutionelle Aspekte beruflicher Bildung: BWP II: Vorlesungsskript. Nickolaus, R., Abele, S. & Albus, A. (2015). Technisches Vorwissen als Prädiktor für die berufliche Kompetenzentwicklung in gewerblich-technischen Berufen. In S. Kruse & L. Windelband (Hrsg.), Technik im Spannungsfeld der Allgemeinen und Beruflichen Bildung (S. 9–29). Kovac, Dr. Verlag. Nickolaus, R., Behrendt, S., Dammann, E., S, tef˘anic˘a, F. & Heinze, A. (2013). Theoretische Modellierung ausgewählter ingenieurwissenschaftlicher Kompetenzen. In O. Zlatkin-Troit‐ schanskaia, R. Nickolaus & K. Beck (Hrsg.), Kompetenzmodellierung und Kompetenzmessung bei Studierenden der Wirtschaftswissenschaften und der Ingenieurwissenschaften (S. 150–176). Verlag Empirische Pädagogik. Nickolaus, R. & Seeber, S. (2013). Berufliche Kompetenzen: Modellierungen und diagnostische Verfahren. In A. Frey (Hrsg.), Handbuch Berufspädagogische Diagnostik (S. 166–195). Beltz. Nickolaus, R. & Walker, F. (2016). Kompetenzorientierung in der beruflichen Bildung. In A. Dietzen, R. Weiß, R. Nickolaus & B. Rammstedt (Hrsg.), Kompetenzorientierung (S. 7–28). W. Bertelsmann Verlag GmbH & Co. KG. Niedersächsisches Kulturministerium. (2015). Rahmenrichtlinien für das Fach Politik: In der Be‐ rufseinstiegsschule, Berufsschule, Berufsfachschule, Fachoberschule, Berufsoberschule, Fach‐ schule, im Beruflichen Gymnasium (Niedersächsisches KM, Hrsg.). Niethammer, C., Koglin-Hess, I., Digel, S. & Schrader, J. (2014). Herausforderung Curriculum‐ entwicklung: Ein konzeptioneller Ansatz zur Professionalisierung. Zeitschrift für Hochschulent‐ wicklung, 9(2), 27–40. OECD. (2012). PISA 2009 Technical Report. OECD Publishing. Oliveri, M. E. & von Davier, M. (2011). Investigation of model fit and score scale comparability in international assessments. Psychological Test and Assessment Modeling, 35(3), 315–333. Oser, F., Bauder, T., Salzmann, P. & Heinzer, S. (Hrsg.). (2013). Ohne Kompetenz keine Qualität: Entwickeln und Einschätzen von Kompetenzprofilen bei Lehrpersonen und Berufsbildungsverant‐ wortlichen. Verlag Julius Klinkhardt. Pant, H. A., Zlatkin-Troitschanskaia, O., Lautenbach, C., Toepper, M. & Molerov, D. (Hrsg.). (2016). Modeling and Measuring Competencies in Higher Education: Validation and Methodologi‐ cal Innovations (KoKoHs) (Bd. 11). Pellegrino, J. W., Chudowsky, N. & Glaser, R. (2001). Knowing What Students Know. National Academies Press. https://doi.org/10.17226/10019 Pissarek, M. & Schilcher, A. (2017). FALKO-D: Die Untersuchung des Professionswissens von Deutschlehrenden: Entwicklung eines Messinstruments zur fachspezifischen Lehrerkom‐ petenz und Ergebnisse zu dessen Validierung. In S. Krauss, A. Lindl & A. Schilcher (Hrsg.), FALKO: fachspezifische Lehrerkompetenzen (S. 67–112). Waxmann. Pohl, S., Gräfe, L. & Rose, N. (2013). Dealing With Omitted and Not-Reached Items in Compe‐ tence Tests. Educational and Psychological Measurement, 74(3), 423–452. https://doi.org/10. 1177/0013164413504926

Literatur

Prenzel, M. (2004). PISA 2003: Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des zweiten internationalen Vergleichs. Waxmann. Prenzel, M., Schindler, C. & Schulz, F. (2012). Prüfungskultur an der Technischen Universität München: Erste Ergebnisse einer Befragung der Studierenden. Price, M., Handley, K., Millar, J. & O’Donovan, B. (2010). Feedback: All that effort, but what is the effect? Assessment & Evaluation in Higher Education, 35(3), 277–289. https://doi.org/10. 1080/02602930903541007 Puffer, G. & Hofmann, B. (2017). Falko-M: Entwiclkung und Validierung eines Testinstruments zum domänenspezifischen Professionswissen von Musiklehrkräften. In S. Krauss, A. Lindl & A. Schilcher (Hrsg.), FALKO: fachspezifische Lehrerkompetenzen (S. 245–290). Waxmann. R Core Team. (2020). R: A language and environment for statistical computing. https://www.Rproject.org/ Raab-Steiner, E. & Benesch, M. (2018). Der Fragebogen: Von der Forschungsidee zur SPSS-Auswer‐ tung (5., aktualisierte und überarbeitete Auflage, Bd. Schlüsselkompetenzen). facultas. https: //www.utb-studi-e-book.de/9783838587271 Rapp, S. (2014). Entscheidungshilfen zur Wahl der Prüfungsform: Eine Handreichung zur Prü‐ fungsgestaltung (Zentrum für Lehre und Weiterbildung, Hrsg.). Rauch, D. & Hartig, J. (2012). Interpretation von Testwerten der IRT. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 253–263). Springer-Verlag Berlin Heidelberg. Reinmann, G. (2016). Kompetenzorientierung und Prüfungspraxis an Universitäten: Ziele heute und früher, Problemanalyse und ein unzeitgemäßer Vorschlag. In S. Lin-Klitzing, D. Di Fuccia & T. Gaube (Hrsg.), Leistungsstandards und Leistungebewertung an Gymnasien und Universitäten (S. 114–128). Verlag Julius Klinkhardt. Reise, S. P. & Revicki, D. A. (Hrsg.). (2015). Handbook of item response theory modeling: Applicati‐ ons to typical performance assessment. Routledge Taylor & Francis Group. Reiss, K., Weis, M., Klieme, E. & Köller, O. (Hrsg.). (2019). PISA 2018: Grundbildung im interna‐ tionalen Vergleich (1. Auflage). Waxmann. Revelle, W. (2017). psych: Procedures for Personality and Psychological Research: Version = 2.7.8. Robitzsch, A., Kiefer, T. & Wu, M. (2017). TAM: Test analysis modules: R package version 2.8-21. Robitzsch, A. (2015). Essays zu methodischen Herausforderungen im Large-Scale Assessment (Diss‐ tertation). Humboldt-Universität zu Berlin. Berlin. Robitzsch, A., Kiefer, T., George, A. C. & Uenlue, A. (2020). Package ’CDM’: March 10,2020. https://cran.r-project.org/web/packages/CDM/CDM.pdf Rosendahl, J. & Straka, G. A. (2011). Kompetenzmodellierung zur wirtschaftlichen Fachkompe‐ tenz angehender Bankkaufleute. Zeitschrift für Berufs- und Wirtschaftspädagogik, 107, 190–217. Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion (2., vollständig überarbeitete und erweiterte Aufl.). H. Huber. Roth, H. (1983). Pädagogische Psychologie des Lehrens und Lernens (16. Aufl.). Schroedel.

249

250

Literatur

Rüschoff, B. & Velten, S. (2021). Anforderungen an einen erfolgreichen Wissenschafts-Praxis-Trans‐ fer: Entwicklung eines Konzepts zur Begleitung der Projekte der Forschungs- und Transferinitiative ASCOT+ (Bd. Heft 228). Bundesinstitut für Berufsbildung. http://nbn-resolving.de/urn:nbn: de:0035-0928-9 Sachse, K. & Weirich, S. (2020). IRT Basics and Application in IQB-National-Trends-in-Stu‐ dent-Achievement-Studies. Salgado, C. M., Azevedo, C., Proença, H. & Vieira, S. M. (2016). Secondary Analysis of Electronic Health Records: Missing Data. Sass, S. (2010). Computerbasierte Testverfahren – Einfluss des Aufgabenformats auf die Testleis‐ tung. IPN BG, 5(4). Schaper, N. (2008). (Arbeits-)Psychologische Kompetenzforschung. In M. Fischer & G. Spöttl (Hrsg.), Forschungsperspektiven in Facharbeit und Berufsbildung (S. 91–115). P. Lang. Schaper, N. (2009). Aufgabenfelder und Perspektiven bei der Kompetenzmodellierung und -messung in der Lehrerbildung: Scope and perspectives of competence modelling and measurement in teacher education research. Empirische Pädagogik e.V. Schaper, N. (2014). Validitätsaspekte von Kompetenumodellen und -tests für hochschulische Kompetenzdomänen. In F. Musekamp & G. Spöttl (Hrsg.), Kompetenz im Studium und in der Arbeitswelt- Competence in Higher Education and the Working Environment (S. 21–48). Peter Lang D. Schaper, N. (2018). Impulsvortrag zum Ars Legendi Vorbereitungsworkshop: Themenfokus: Innovatives Prüfen, 01.03.2018. Schaper, N. & Hilkenmeier, F. (2013). Umsetzungshilfen für kompetenzorientiertes Prüfen: HRK-Zusatzgutachten (Hochschulrektorenkonferenz, Hrsg.). https : / / www . hrk - nexus . de/fileadmin/redaktion/hrk-nexus/07-Downloads/07-03-Material/zusatzgutachten.pdf Schaper, N., Reis, O., Wildt, J., Horvath, E. & Bender, E. (2012). Fachgutachten zur Kompetenz‐ orientierung in Studium und Lehre. Schaper, N., Schlömer, T. & Paechter, M. (2012). Editorial: Kompetenzen, Kompetenzorientie‐ rung und Employability in der Hochschule. Zeitschrift für Hochschulentwicklung, 7(4). https: //doi.org/10.3217/zfhe-7-04/01 Schewe, G. & Nienaber, A.-M. (2011). Explikation von implizitem Wissen: Stand der Forschung zu Barrieren und Lösungsansätzen. Journal für Betriebswirtschaft, 61(1), 37–84. https://doi. org/10.1007/s11301-011-0073-2 Schiering, D., Sorge, S., Petersen, S. & Neumann, K. (2019). Konstruktion eines qualitativen Niveaumodells im fachdidaktischen Wissen von angehenden Physiklehrkräften. Zeitschrift für Didaktik der Naturwissenschaften, 9(4), 1105. https://doi.org/10.1007/s40573-019-00100-y Schindler, C. (2015). Herausforderung Prüfen: Eine fallbasierte Untersuchung der Prüfungspraxis von Hochschullehrenden im Rahmen eines Qualitätsentwicklungsprogramms. TUM – School of Education. Schindler, C. (2016). Auf dem Weg zu gutem Prüfen – Herausforderungen bei der Umsetzung kompetenzorientiertem Lehrens und Prüfens: Vortrag bei der Tagung Kompetenzorientes Prüfen des Projekts nexus in Zusammenarbeit mit der Universität Duisburg, 12.07.2016.

Literatur

Schmalt, H.-D. & Sokolowski, K. (2006). Motivation. In H. Spada (Hrsg.), Lehrbuch allgemeine Psychologie (S. 501–551). Huber. Schmidt, S., Brückner, S., Zlatkin-Troitschanskaia, O. & Förster, M. (2015). Das wirtschaftswis‐ senschaftliche Wissen in der Hochschulbildung: eine Analyse der messinvariaten Erfassung finanzwirtschaftlichen Fachwissens bei Studierenden. Empirische Pädagogik, 29(1), 106–124. Schober, P., Boer, C. & Schwarte, L. A. (2018). Correlation Coefficients: Appropriate Use and Interpretation. Anesthesia and analgesia, 126(5), 1763–1768. https://doi.org/10.1213/ANE. 0000000000002864 Schödl, A. & Göhring, A. (2015). Fachspezifische Lehrerkompetenzen (FALKO) – Teilprojekt Physik. Schrader, F.-W. & Helmke, A. (2007). Determinanten der Schulleistung. In M. K. W. Schweer (Hrsg.), Lehrer-Schüler-Interaktion (S. 285–302). VS Verlag für Sozialwissenschaften. Schubarth, W., Speck, K., Ulbricht, J., Dudziak, I. & Zylla, B. (2014). Employability und Praxisbe‐ züge im wissenschaftlichen Studium: Fachgutachten. Schumann, S. & Eberle, F. (2011). Bedeutung und Verwendung schwierigkeitsbestimmender Aufgabenmerkmale für die Erfassung ökonomischer und beruflicher Kompetenzen. In U. Faßhauer, B. Fürstenau & E. Wuttke (Hrsg.), Grundlagenforschung zum Dualen System und Kompetenzentwicklung in der Lehrerbildung (S. 77–90). Verlag Barbara Budrich. Seeber, S. (2007). Berufsspezifische Fachleistungen in ausgewählten Berufen des Bereichs Wirt‐ schaft und Verwaltung am Ende der Berufsausbildung. In R. Lehmann & S. Seeber (Hrsg.), ULME III (S. 107–158). Behörde für Bildung und Sport. Seeber, S. (2008). Ansätze zur Modellierung beruflicher Fachkompetenz in kaufmännischen Ausbildungsberufen. Zeitschrift für Berufs- und Wirtschaftspädagogik, 104(1), 74–97. Seeber, S. (2016). Economic competencies and situation-specific commercial competencies: Re‐ flections on conceptualization and measurement. Citizenship, Social and Economics Education, 15(3), 162–182. https://doi.org/10.1177/2047173417695275 Seeber, S. & Nickolaus, R. (2010). Kompetenzmessung in der beruflichen Bildung. Berufsbildung in Wissenschaft und Praxis, (1), 10–13. Segeritz, M. & Pant, H. A. (2013). Do They Feel the Same Way About Math? Educational and Psychological Measurement, 73(4), 601–630. https://doi.org/10.1177/0013164413481802 Seidel, T. & Stürmer, K. (2014). Modeling and Measuring the Structure of Professional Vision in Preservice Teachers. American Educational Research Journal, 51(4), 739–771. https://doi.org/ 10.3102/0002831214531321 Seifert, A. & Schaper, N. (2010). Überprüfung eines Kompetenzmodells und Messinstruments zur Strukturierung allgemeiner pädagogischer Kompetenzen in der universitären Lehrerbildung. Lehrerbildung auf dem Prüfstand, 3(2), 179–198. Sekretariat der Kultusministerkonferenz. (2018). Handreichung für die Erarbeitung von Rahmen‐ lehrplänen der Kultusministerkonferenz für den berufsbezogenen Unterricht in der Berufsschule und ihre Abstimmung mit Ausbildungsordnungen des Bundes für anerkannte Ausbildungsberufe.

251

252

Literatur

Sektion Berufs- und Wirtschaftspädagogik. (2003). Basiscurriculum für das universitäre Studien‐ fach Berufs- und Wirtschaftspädagogik (Sektion Berufs- und Wirtschaftspädagogik (BWP) der Deutschen Gesellschaft für Erziehungswissenschaft, Hrsg.). Sektion Berufs- und Wirtschaftspädagogik. (2014). Basiscurriculum für das universitäre Studi‐ enfach Berufs- und Wirtschaftspädagogik im Rahmen berufs- und wirtschaftspädagogischer Studiengänge (Sektion Berufs- und Wirtschaftspädagogik (BWP) der Deutschen Gesellschaft für Erziehungswissenschaft, Hrsg.). Sektion Medienpädagogik. (2017). Orientierungsrahmen für die Entwicklung von Curricula für medienpädagogische Studiengänge und Studienanteile. MedienPädagogik, 1–7. Sembill, D., Rausch, A., Seifried, J., Wolf, K. D., Wuttke, E. & Martens, T. (2015). Modellierung und Erfassung domänenspezifischer Problemlösekompetenz von Industriekaufleuten (Ver‐ bundprojekt DomPL-IK). Bundesministerium für Bildung und Forschung. Severing, E. (2011). Prüfungen und Zertifikate in der beruflichen Bildung: eine Einführung. In E. Severing & R. Weiß (Hrsg.), Prüfungen und Zertifizierungen in der beruflichen Bildung (S. 15–36). Bundesinstitut für Berufsbildung. Shulman, L. S. (1986). Those Who Understand: Knowledge Growth in Teaching. Educational Researcher, 15(2), 4. https://doi.org/10.2307/1175860 Shulman, L. S. (1987). Knowledge and Teaching: Foundations of the New Reform. Harvard Educational Review, 57(1), 1–23. https://doi.org/10.17763/haer.57.1.j463w79r56455411 Sloane, P. F. (2003). Bakkalaureaten und Magister für die (berufsbildenden) Schulen: Quo vadis der Berufs- und Wirtschaftspädagogik? Zeitschrift für Berufs- und Wirtschaftspädagogik, 99(4), 481–493. Snipes, M. & Taylor, D. C. (2014). Model selection and Akaike Information Criteria: An example from wine ratings and prices. Wine Economics and Policy, 3(1), 3–9. https://doi.org/10.1016/j. wep.2014.03.001 Söll, M. (2017). Orientierungspotenziale des Basiscurriculums der Berufs- und Wirtschaftspäda‐ gogik für die disziplinäre Binnen- und Außenlegitimität. In J. Seifried, B. Ziegler & S. Seeber (Hrsg.), Jahrbuch der berufs- und wirtschaftspädagogischen Forschung 2017 (S. 29–42). Budrich Barbara. S¸ tef˘anic˘a, F. (2018). Einflüsse von Berufswahlmotiven und Lerngelegenheiten auf das Professionswissen von Lehramtsstudierenden im Fach Mathematik. Steiner. S, tef˘anic˘a, F. (2013). Modulbeschreibungen – Deskriptionen realer Ansprüche oder realitäts‐ ferne Lyrik? Eine qualitative Analyse am Beispiel (Höhere/Angewandte) Mathematik I/II im Rahmen des Maschinenbaustudiums an ausgewählten Hochschulstandorten Baden-Württem‐ bergs. Zeitschrift für Berufs- und Wirtschaftspädagogik, 109(2), 286–303. Straka, G. A. & Macke, G. (2003). Handlungskompetenz und Handlungsorientierung als Bil‐ dungsauftrag der Berufsschule: Ziel und Weg des Lernens in der Berufsschule? Berufsbildung in Wissenschaft und Praxis, (4), 43–47. Studienakkreditierungsstaatsvertrag. (2017). Studienakkreditierungsstaatsvertrag. Stürmer, K. & Gröschner, A. (2019). Lehrerinnen und Lehrer. In M. Gläser-Zikuda, M. Harring & C. Rohlfs (Hrsg.), Handbuch Schulpädagogik. UTB.

Literatur

Tatto, M. T. & Schmidt, W. (2012). Policy, practice, and readiness to teach primary and secondary mathematics: Findings from the IEA Teacher education and Development Study in Mathematics (TEDS-M). IEA. Tenorth, H.-E. & Tippelt, R. (Hrsg.). (2007). Beltz Lexikon Pädagogik. Beltz. Terzer, E., Hartig, J. & Upmeier zu Belzen, A. (2013). Systematische Konstruktion eines Tests zur Modellkompetenz im Biologieunterricht unter Berücksichtigung von Gütekriterien. Zeitschrift für Didaktik der Naturwissenschaften, 19. Treutlein, A. (2013). Humankompetenz: Anmerkungen zur Konkretisierung eines variantenrei‐ chen Konstrukts sowie mögliche Operationalisierungen von Konstruktfacetten. Zeitschrift für Berufs- und Wirtschaftspädagogik, 109(3), 332–359. Trim, J. L. M., Quetz, J., Schieß, R. & Schneider, G. (Hrsg.). (2009). Gemeinsamer europäischer Referenzrahmen für Sprachen: Lernen, lehren, beurteilen ; [Niveau A1, A2, B1, B2, C1, C2] ([Nachdr.]). Langenscheidt. Universität Stuttgart. (2018). In Modulen prüfen: Prüfungen im Überblick (Stabsstelle Qualitäts‐ entwicklung, Hrsg.). Universität Stuttgart. (2019a). Modulhandbuch Studiengang Bachelor of Arts Berufspädagogik / Technikpädagogik. Universität Stuttgart. (2019b). Modulhandbuch Studiengang Bachelor of Science Technikpäd‐ agogik. Universität Stuttgart. (2019c). Modulhandbuch Studiengang Master of Science Technikpädago‐ gik. Universität Stuttgart. (2020a). Makrostruktur für den Studiengang B.A. Berufspädagogik / Tech‐ nikpädagagogik (Hauptfach). Universität Stuttgart. (2020b). Makrostruktur für den Studiengang B.Sc. Technikpädagagogik. van Waveren, L. & Nickolaus, R. (2015). Struktur- und Niveaumodell des Fachwissens bei Elek‐ tronikern für Automatisierungstechnik. Journal of Technical Education, 3(2), 1–31. http:// www.journal-of-technical-education.de/index.php/joted/article/viewFile/59/60 Velten, S., Nitzschke, A., Nickolaus, R. & Walker, F. (2018). Die Fachkompetenzstruktur von Technikern für Elektrotechnik und Einflussfaktoren auf ihre Kompetenzentwicklung. Journal of Technical Education, 6(1), 1–24. Voss, T., Kunina-Habenicht, O., Hoehne, V. & Kunter, M. (2015). Stichwort Pädagogisches Wis‐ sen von Lehrkräften: Empirische Zugänge und Befunde. Zeitschrift für Erziehungswissenschaft, 18(2), 187–223. https://doi.org/10.1007/s11618-015-0626-6 Voss, T. & Kunter, M. (2011). Pädagogisch-psychologisches Wissen von Lehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften. Waxmann. Voss, T., Kunter, M. & Baumert, J. (2011). Assessing teacher candidates’ general pedagogi‐ cal/psychological knowledge: Test construction and validation. Journal of Educational Psy‐ chology, 103(4), 952–969. https://doi.org/10.1037/a0025125

253

254

Literatur

Walker, F., Link, N. & Nickolaus, R. (2015). Berufsfachliche Kompetenzstrukturen bei Elektro‐ nikern für Automatisierungstechnik am Ende der Berufsausbildung. Zeitschrift für Berufs- und Wirtschaftspädagogik, 111(2), 222–241. Weinert, F. E. (2001). Concept of competence: A conceptual clarification. In D. S. Rychen & L. H. Salganik (Hrsg.), Defining and selecting key competencies (S. 45–65). Hogrefe & Huber. Weinert, F. E. (2002). Vergleichende Leistungsmessung in Schulen – eine umstrittene Selbstver‐ ständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17–31). Beltz. Weiß, R. (2011). Prüfungen in der beruflichen Bildung. In E. Severing & R. Weiß (Hrsg.), Prüfun‐ gen und Zertifizierungen in der beruflichen Bildung (S. 37–52). Bundesinstitut für Berufsbildung. Wendt, H., Bos, W., Selter, C., Köller, O., Schwippert, K. & Kasper, D. (Hrsg.). (2016). TIMSS 2015: Mathematische und naturwissenschaftliche Kompetenzen von Grundschulkindern in Deutsch‐ land im internationalen Vergleich. Waxmann Verlag. Wilbers, K. (2005). Standards für die Bildung von Lehrkräften. In P. Gonon, F. Klauser, R. Nick‐ olaus & R. Huisinga (Hrsg.), Kompetenz, Kognition und neue Konzepte der beruflichen Bildung (S. 135–146). VS Verl. für Sozialwiss. Wildt, J. & Wildt, B. (2011). Lernprozessorientiertes Prüfen im Constructive Alignment: Ein Beitrag zur Förderung der Qualität von Hochschulbildung durch eine Weiterentwicklung des Prüfsystems. Neues Handbuch Hochschullehre, 2(50), 1–46. Williams, I. (2017). A Speededness Item Response Model for Associating Ability and Speededness Parameters (Dissertation). Rutgers, The State University of New Jersey. New Brunswick, New Jersey. Wilson, M. (2012). Constructing Measures: An Item Response Modeling Approach. Lawrence Erl‐ baum Associates. Winther, E. (2010). Kompetenzmessung in der beruflichen Bildung. W. Bertelsmann Verlag. Winther, E. & Achtenhagen, F. (2009). Skalen und Stufen kaufmännischer Kompetenz. Zeitschrift für Berufs- und Wirtschaftspädagogik, 105(4), 521–556. Woitkowski, D. (2015). Fachliches Wissen Physik in der Hochschulausbildung: Konzeptualisierung, Messung, Niveaubildung (Dissertation). Universität Paderborn. Paderborn. Woitkowski, D. (2019). Erfolgreicher Wissenserwerb im ersten Semester Physik. Zeitschrift für Didaktik der Naturwissenschaften, 31(2–3), 162. https://doi.org/10.1007/s40573-019-000947 Woitkowski, D., Riese, J. & Reinhold, P. (2011). Modellierung fachwissenschaftlicher Kompetenz angehender Physiklehrkräfte. Zeitschrift für Didaktik der Naturwissenschaften, 17, 289–313. Wright, B. D. & Linacre, J. M. (1994). Reasonable Mean-Square Fit Values. Rasch Measurement Transactions, 8(3), 370–371. Wyrwal, M. & Zinn, B. (2018). Vorbildung, Studienmotivation und Gründe eines Studienab‐ bruchs von Studierenden im Lehramt an berufsbildenden Schulen. Journal of Technical Educa‐ tion, 6(2). Xi, X. (2010). How do we go about investigating test fairness? Language Testing, 27(2), 147–170. https://doi.org/10.1177/0265532209349465

Literatur

Yen, W. M. (1994). Effects of Local Item Dependence on the Fit and Equating Performance of the Three-Parameter Logistic Model. Applied psychological measurement, 8(2), 125–145. Yildirim, H. H. & Berberogˆ lu, G. (2009). Judgmental and Statistical DIF Analyses of the PISA2003 Mathematics Literacy Items. International Journal of Testing, 9(2), 108–121. https://doi. org/10.1080/15305050902880736 Yildirim, H. H. & Yildirim, S. (2011). Correlates of communalities as matching variables in diffe‐ rential item functioning analyses. H.U. Journal of Education, (40), 386–396. Zentrum für wissenschaftliche Weiterbildung Biberach. (2016). Handreichung für Dozierende zur Formulierung von Lernzielen. Zinger, B. (2012). Das Hochschulstudium nach Bologna: Zwischen Strukturreform und didaktischer Neuausrichtung (Bd. 11). Kassel University Press GmbH. Zlatkin-Troitschanskaia, O. & Blömeke, S. (2012). Kompetenzmodellierung und Kompetenzer‐ fassung im Hochschulsektor: Aufgaben und Herausforderungen des BMBF-Forschungspro‐ gramms KoKoHs. Zeitschrift für Soziologie der Erziehung und Sozialisation, 107–108. Zlatkin-Troitschanskaia, O., Förster, M., Schmidt, S., Brückner, S. & Beck, K. (2015). Erwerb wirtschaftswissenschaftlicher Fachkompetenz im Studium: Eine mehrebenenanalytische Be‐ trachtung von hochschulischen und individuellen Einflussfaktoren. In S. Blömeke & O. Zlat‐ kin-Troitschanskaia (Hrsg.), Kompetenzen von Studierenden (S. 116–135). Beltz Juventa. Zlatkin-Troitschanskaia, O. & Kuhn, C. (2010). Messung akademisch vermittelter Fertigkeiten und Kenntnisse von Studierenden bzw. Hochschulabsolventen: Analyse zum Forschungsstand: Arbeitspapiere Lehrstuhl für Wirtschaftspädagogik Ausgabe Nr. 56. Zlatkin-Troitschanskaia, O., Nickolaus, R. & Beck, K. (Hrsg.). (2013). Kompetenzmodellierung und Kompetenzmessung bei Studierenden der Wirtschaftswissenschaften und der Ingenieurwissen‐ schaften. Verlag Empirische Pädagogik. Zlatkin-Troitschanskaia, O., Pant, H. A., Toepper, M., Lautenbach, C. & Molerov, D. (2017). Valid Competency Assessment in Higher Education: Framework, Results, and Further Perspectives of the German Research Program KoKoHs. AERA Open, 3(1). https://doi.org/10.1177/ 2332858416686739 Zlatkin-Troitschanskaia, O. & Seidel, J. (2011). Kompetenz und ihre Erfassung – das neue „Theo‐ rie-Empirie- Problem“ der empirischen Bildungsforschung? In O. Zlatkin-Troitschanskaia (Hrsg.), Stationen Empirischer Bildungsforschung (S. 218–233). VS Verlag für Sozialwissen‐ schaften. https://doi.org/10.1007/978-3-531-94025-0_16

255

Trotz zahlreicher Überlegungen zu kompetenzorientierten Prüfungen im Hochschulkontext ist offen, inwiefern schriftliche Prüfungen zur Kompetenzmessung geeignet sind. Für den berufsbildenden und akademischen Bereich zeigt Andreas Just die Forschungslücken zu kompetenzorientiertem Prüfen sowie bezüglich der Kompetenzstruktur und den Kompetenzniveaus auf. Zentral ist die Frage, welche Inhalte für das berufspädagogische Wissen in den ersten Semestern bedeutsam sind. Im Rahmen empirischer Analysen nimmt Just auf Grundlage von schriftlichen Prüfungen der Berufspädagogik mit

ISBN 978-3-515-13463-7

9 783515 134637

Methoden der Item-Response-Theorie eine Auswertung der skalierten Prüfungen, Strukturanalysen und Niveaumodellierungen vor. Die Ergebnisse verdeutlichen, dass eine Übertragung der Methoden auf bestehende Prüfungen möglich ist und eine ausführlichere Analyse und Beschreibung der Prüfungen und Noten gelingt. Es wird aber auch erkennbar, an welchen Stellen Veränderungen an den Prüfungen nötig werden. Dies erlaubt eine Weiterentwicklung der Prüfungen und eine bessere Differenzierung zwischen den Prüfungsnoten.

www.steiner-verlag.de Franz Steiner Verlag