222 93 4MB
German Pages 353 [354] Year 2015
Annelen Brunner Automatische Erkennung von Redewiedergabe
Narratologia
|
Contibutions to Narrative Theory
Edited by Fotis Jannidis, Matías Martínez, John Pier, Wolf Schmid (executive editor) Editorial Board Catherine Emmott, Monika Fludernik, José Ángel García Landa, Inke Gunia, Peter Hühn, Manfred Jahn, Markus Kuhn, Uri Margolin, Jan Christoph Meister, Ansgar Nünning, Marie-Laure Ryan, Jean-Marie Schaeffer, Michael Scheffel, Sabine Schlickers, Jörg Schönert
Band 47
Annelen Brunner
Automatische Erkennung von Redewiedergabe |
Ein Beitrag zur quantitativen Narratologie
ISBN 978-3-11-041731-9 e-ISBN (PDF) 978-3-11-041742-5 e-ISBN (EPUB) 978-3-11-041747-0 ISSN 1612-8427 Library of Congress Cataloging-in-Publication Data A CIP catalog record for this book has been applied for at the Library of Congress. Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2015 Walter de Gruyter GmbH, Berlin/Boston Druck und Bindung: CPI books GmbH, Leck ♾Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com
Inhalt Tabellenverzeichnis | XI Abbildungsverzeichnis | XIV 1 1.1 1.1.1 1.1.2 1.2
Einleitung | 1 Worum geht es in dieser Studie? | 1 Einordnung in das Feld der Digital Humanities | 2 Redewiedergabe als Untersuchungsgegenstand | 3 Aufbau der Studie | 6
Teil I
Manuelle Annotation des Erzähltextkorpus
2
Einführung | 11
3 Das Erzähltextkorpus | 14 3.1 Prinzipien der Zusammenstellung | 14 3.2 Zur Textgestalt im Erzähltextkorpus | 18 3.2.1 Musäus: Entführung | 20 3.2.2 Bürger: Münchhausen | 20 3.2.3 Bernhardi: Belinde | 21 3.2.4 Günderrode: Bramine | 21 3.2.5 Kleist: Erdbeben | 22 3.2.6 Tieck: Eckbert | 23 3.2.7 Hauff: Kalif | 24 3.2.8 Hebbel: Kuh | 24 3.2.9 May: Ziege | 25 3.2.10 Schnitzler: Ypsilon | 25 3.2.11 Janitschek: Weib | 26 3.2.12 Heym: Irre | 27 3.2.13 Kafka: Gracchus | 28 3.2.14 Zusammenfassung | 28 4 4.1 4.2 4.3 4.3.1
Das Phänomen Wiedergabe | 30 Wiedergabe in Linguistik und Literaturwissenschaft | 30 Die Konstanten narratologischer Kategoriesysteme | 33 Zur Konstruktion narratologischer Wiedergabeskalen | 36 Mimesis | 36
VI | Inhalt 4.3.2 4.3.3 4.3.4
Faithfulness | 38 Mittelbarkeit | 42 Textinterferenz | 44
5 Das Annotationssystem | 51 5.1 Direkte Wiedergabe | 54 5.1.1 Beschreibung | 54 5.1.1.1 Freie direkte Wiedergabe | 54 5.1.1.2 Innerer Monolog und Bewusstseinsstrom | 57 5.1.1.3 Wechsel der Erzählebene | 58 5.1.1.4 Zitate | 59 5.1.2 Markierungsrichtlinien | 59 5.2 Freie indirekte Wiedergabe | 59 5.2.1 Beschreibung | 59 5.2.2 Unabhängige Konjunktivsätze | 62 5.2.3 Markierungsrichtlinien | 63 5.3 Indirekte Wiedergabe | 63 5.3.1 Beschreibung | 63 5.3.2 Markierungsrichtlinien | 66 5.4 Erzählte Wiedergabe | 68 5.4.1 Beschreibung | 68 5.4.2 Markierungsrichtlinien | 71 5.5 Attribute | 71 5.5.1 level – Schachtelungsgrad | 72 5.5.2 non-fact – Nicht-faktische Wiedergaben | 73 5.5.3 prag – Abweichende pragmatische Funktion | 77 5.5.4 ambig – Ambiguitäten | 77 5.5.4.1 Ambiguität des Wiedergegebenen | 77 5.5.4.2 Ambiguität der Wiedergabetechnik | 79 5.5.5 narr – Sprache oder Handlung? | 80 5.5.6 border – Grenzbereiche der Definition | 82 5.5.6.1 Definition und Grenzfälle von Rede | 82 5.5.6.2 Definition und Grenzfälle von Geschriebenem | 84 5.5.6.3 Definition und Grenzfälle von Gedanken | 84 5.5.7 metaph – Metaphern | 89 5.6 Sonderkategorien | 91 5.6.1 frame – Rahmen für direkte Wiedergabe | 91 5.6.2 embedded – Wechsel der Erzählebene | 91 6
Auswertung | 94
Inhalt
6.1 6.2 6.3 6.4
| VII
Zur Subjektivität manueller Annotation | 94 Hauptkategorien | 96 Attribute | 102 Fazit | 109
Teil II
Automatische Annotation
7
Einführung | 113
8
Technischer Rahmen und Vorverarbeitung | 116
9 9.1 9.2 9.3
Grundsätzliches zur Auswertung | 121 Arten der Auswertung | 122 Maße zur Bewertung des Erfolgs | 123 Auswertung auf Satzbasis | 125
10 Regelbasierte Ansätze | 127 10.1 Wiedergabewörter | 129 10.1.1 Wörter für Wiedergabe in linguistischen Darstellungen | 129 10.1.2 Das Modul MarkSTWWords | 134 10.1.2.1 Kompilation der Wiedergabewortliste | 135 10.1.2.2 Aufbereitung der Liste | 139 10.1.2.3 Empirische Studie: Die Verwendung ausgewählter Wiedergabewörter | 140 10.1.2.4 Auswertung auf Basis des Erzähltextkorpus | 149 10.2 Die Erkennung indirekter Wiedergabe | 152 10.2.1 Konjunktiv (und würde-Konstruktion) | 153 10.2.2 Eingebettete Sätze | 158 10.2.2.1 Verbletztsätze mit einleitendem Element | 158 10.2.2.2 Verbzweitsätze | 160 10.2.2.3 zu + Infinitiv-Konstruktion | 161 10.2.2.4 Zur Stellung des eingebetteten Satzes | 161 10.2.3 Formelhafte Referatshinweise | 162 10.2.4 Das Modul MarkIndirect | 164 10.3 Die Erkennung direkter Wiedergabe | 174 10.3.1 Rahmenformeln | 174 10.3.2 Anführungszeichen | 175 10.3.2.1 Funktion | 176 10.3.2.2 Typographische Besonderheiten | 177 10.3.2.3 Historische Perspektive | 179
VIII | Inhalt 10.3.3 10.3.4 10.3.5 10.4 10.4.1 10.4.2 10.5 10.5.1 10.5.2 10.6 10.6.1 10.6.2 10.6.3
Das Modul MarkQuotation | 182 Das Modul MarkFrame | 187 Kombination von MarkQuotation und MarkFrame | 192 Die Erkennung erzählter Wiedergabe | 195 Indikatoren für erzählte Wiedergabe | 195 Das Modul MarkReported | 196 Die Erkennung freier indirekter Wiedergabe | 199 Indikatoren für freie indirekte Wiedergabe | 199 Das Modul MarkFreeIndirect | 203 Fazit | 207 Gesamtauswertung der regelbasierten Erkennung | 207 Andere Wiedergabeerkenner | 211 Möglichkeiten der Weiterentwicklung | 215
11 Maschinelles Lernen | 219 11.1 Die Formulierung der Lernaufgabe | 223 11.2 Sätze als Instanzen | 225 11.3 Attribute | 227 11.4 Lernalgorithmus: RandomForest | 231 11.5 Lernen aller Wiedergabekategorien gleichzeitig | 236 11.6 Lernen jeder Wiedergabekategorie einzeln | 239 11.6.1 Die Bedeutung der Wiedergabewort-Attribute | 249 11.6.2 Pseudo-Frei-Indirekt | 250 11.7 Empirische Studie: Attributbewertung | 252 11.7.1 Attributbewertung für direkte Wiedergabe | 256 11.7.2 Attributbewertung für freie indirekte Wiedergabe | 258 11.7.3 Attributbewertung für indirekte Wiedergabe | 260 11.7.4 Attributbewertung für erzählte Wiedergabe | 261 11.7.5 Allgemeine Beobachtungen | 263 11.8 Lernen auf der Basis von Satzabschnitten | 265 11.8.1 Auswertung auf Satzabschnittsbasis | 269 11.8.2 Auswertung auf Satzbasis | 270 11.9 Fazit | 271 12 12.1
Gesamtbewertung der automatischen Erkennung | 275 Übereinstimmung zwischen den Ergebnissen von regelbasierten Methoden und maschinellem Lernen | 276 12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen | 277 12.2.1 Korrektheit der Ergebnisse | 277
Inhalt
12.2.2 12.2.3 12.2.3.1 12.2.3.2 12.2.3.3 12.2.3.4 12.3 12.3.1 12.3.2
| IX
Voraussagekraft des relativen Anteils an Wiedergabe | 278 Befunde für die einzelnen Wiedergabetypen | 280 Direkte Wiedergabe | 280 Freie indirekte Wiedergabe | 284 Indirekte Wiedergabe | 286 Erzählte Wiedergabe | 290 Auswertung ohne Grenzfälle | 293 Regelbasierte Verfahren | 296 Maschinelles Lernen | 298
13 Schlussbetrachtung | 304 13.1 Manuelle Annotation und die Natur von Wiedergabe | 304 13.1.1 Korpus | 304 13.1.2 Annotation | 305 13.1.3 Merkmale von Wiedergabe | 306 13.2 Automatische Annotation | 307 13.2.1 Überblick und Auswertungsstragien | 307 13.2.2 Direkte Wiedegabe | 308 13.2.3 Indirekte Wiedegabe | 309 13.2.4 Erzählte Wiedegabe | 309 13.2.5 Freie indirekte Wiedegabe | 310 13.2.6 Gesamtbewertung | 310 13.3 Forschungsperspektiven | 312 13.4 Die Studie als Beispiel quantitativer Literaturwissenschaft | 313 A A.1 A.2 A.3 A.3.1 A.3.2 A.4 A.5 A.6 A.7 A.7.1 A.7.2
Anhang | 315 Grundlagen für die Texte des Erzähltextkorpus | 315 Das Digitale-Bibliothek-Korpus | 316 Das Literatur-Korpus | 316 Zusammensetzung | 316 Bibliographische Angaben für die zitierten Belege | 317 Das Stuttgart-Tübingen-Tagset | 318 Zufallseffekte beim Lernen mit Random Forest, Resampling und Kreuzvalidierung | 320 Parametereinstellungen für die maschinellen Lernexperimente | 323 Statistische Formeln | 324 Standardabweichung | 324 Korrelation | 325
X | Inhalt Literatur | 327 Register | 335
Tabellenverzeichnis Tab. 3.1 Tab. 3.2
Zusammensetzung des Erzähltextkorpus | 15 Veränderungen der Zeno-Texte gegenüber den Erstdrucken | 29
Tab. 4.1 Tab. 4.2 Tab. 4.3 Tab. 4.4
Wiedergabekategorien nach Semino/Short | 40 Normkategorien für Wiedergabe nach Leech/Short | 41 Wiedergabekategorien nach Martinez/Scheffel | 43 Kennzeichen von Wiedergabekategorien nach Schmid (Prototypen) | 47
Tab. 5.1 Tab. 5.2 Tab. 5.3 Tab. 5.4
Hauptkategorien für die manuelle Annotation | 52 Übersicht über die Attribute | 72 Mögliche Werte von non-fact | 74 Abdeckung von Semino/Shorts hypothetical im Vergleich zu non-fact | 76
Tab. 6.1 Tab. 6.2 Tab. 6.3 Tab. 6.4 Tab. 6.5 Tab. 6.6 Tab. 6.7
Anzahl der Instanzen pro Kategorie | 96 Absolute Frequenz der Attribute | 102 Prozentsatz der Instanzen, die das jeweilige Attribut tragen | 103 Vorkommen von Semino/Shorts embedded vs. level | 105 Vorkommen von Semino/Shorts hypothetical vs. non-fact | 105 Untertypen von non-fact | 107 Untertypen von border (bei Gedankenwiedergabe) | 107
Tab. 9.1
Beispiel für eine Auswertung | 124
Tab. 10.1 Tab. 10.2
Mustersuche für Wiedergabeverben | 137 MarkSTWWords: Wiedergabewörter in Wiedergabemarkierungen | 150 MarkSTWWords: Wiedergabemarkierungen, die Wiedergabewörter enthalten | 150 MarkIndirect: Erkennungsmuster | 165 MarkIndirect: Entwicklung des F-Scores | 170 MarkIndirect: Entwicklung des Recalls | 171 MarkIndirect: Entwicklung der Precision | 172 MarkQuotation: Auswertung textweise | 184
Tab. 10.3 Tab. 10.4 Tab. 10.5 Tab. 10.6 Tab. 10.7 Tab. 10.8
XII | Tabellenverzeichnis Tab. 10.9 Tab. 10.10 Tab. 10.11 Tab. 10.12 Tab. 10.13 Tab. 10.14 Tab. 10.15 Tab. 10.16 Tab. 10.17 Tab. 10.18 Tab. 10.19 Tab. 10.20 Tab. 10.21
MarkQuotation: Ergebnisse je nach Wertung der embedded-Passagen | 186 MarkFrame: Erkennungsmuster | 188 MarkFrame: Vergleich der F-Scores bei Variation von Muster 2, textweise | 190 MarkFrame: Gesamtauswertung bei Variation von Muster 2 | 190 MarkFrame: Einfache Anwendung und Anwendung nach MarkIndirect | 192 MarkQuotation mit MarkFrame: Auswertung auf Satzbasis | 194 MarkQuotation vs. MarkQuotation mit MarkFrame (Satzbasis) | 195 MarkReported: Gesamtauswertung, verschiedene Konfigurationen | 197 MarkReported: Auswertung textweise | 198 MarkFreeIndirect: Ergebnisse für das Gesamtkorpus, Version 1 | 204 MarkFreeIndirect: Ergebnisse für das Gesamtkorpus, Version 2 | 205 MarkFreeIndirect: Auswertung textweise | 206 Gesamtauswertung der regelbasierten Annotation auf Satzbasis | 209
Anteil der Sätze mit mehreren Wiedergabeinstanzen | 226 Umwandlung eines Satzes in einen Instanzvektor | 230 Konfusionsmatrix zur Klassifizierung aller Kategorien gleichzeitig | 236 Tab. 11.4 RandomForest: Klassifizierung der Kategorien einzeln | 242 Tab. 11.5 RandomForest Resampled: Auswertung für direct, textweise | 244 Tab. 11.6 RandomForest Resampled: Auswertung für indirect, textweise | 245 Tab. 11.7 RandomForest Resampled: Auswertung für reported, textweise | 246 Tab. 11.8 RandomForest Resampled: Auswertung für free_indirect, textweise | 247 Tab. 11.9 RandomForest Resampled: Ergebnisse ohne stw_words | 249 Tab. 11.10 Konfusionsmatrix für Pseudo-Frei-Indirekt | 251 Tab. 11.11 Ergebnisse für Pseudo-Frei-Indirekt | 252 Tab. 11.1 Tab. 11.2 Tab. 11.3
Tabellenverzeichnis
|
XIII
Attributbewertung direct | 256 Attributbewertung free_indirect | 258 Attributbewertung indirect | 260 Attributbewertung reported | 262 Anteil der Satzabschnitte mit mehreren Wiedergabeinstanzen | 268 Tab. 11.17 Vergleich ML mit Sätzen und mit Satzabschnitten | 269 Tab. 11.18 Vergleich ML mit Sätzen und mit Satzabschnitten erweitert auf Sätze | 271 Tab. 11.12 Tab. 11.13 Tab. 11.14 Tab. 11.15 Tab. 11.16
Tab. 12.1 Tab. 12.2 Tab. 12.3 Tab. 12.4 Tab. 12.5 Tab. 12.6 Tab. 12.7 Tab. 12.8 Tab. A.1 Tab. A.2 Tab. A.3
Übereinstimmung zwischen Regelbasiert und ML (F-Scores) | 276 Direkte Wiedergabe: Gesamtauswertung | 281 Freie indirekte Wiedergabe: Gesamtauswertung | 284 Indirekte Wiedergabe: Gesamtauswertung | 287 Erzählte Wiedergabe: Gesamtauswertung | 290 Reduzierung der Vergleichsmengen durch Enfernung der Grenzfälle | 294 Regelbasiert: Auswertung mit und ohne Grenzfälle | 297 Maschinelles Lernen: Auswertung mit und ohne Grenzfälle | 299 Grundlagen für die digitalen Versionen der Texte des Erzähltextkorpus | 315 Das Stuttgart-Tübingen Tagset | 318 Auswirkungen unterschiedlicher Seed-Werte | 323
Abbildungsverzeichnis Abb. 4.1
Typische Verwendungen von Wiedergabeschablonen nach Schmid | 49
Abb. 6.1 Abb. 6.2 Abb. 6.3
Anzahl der Instanzen bei Semino/Short vs. Erzähltextkorpus | 98 Prozentuale Anteile der Sätze mit Wiedergabe | 100 Sätze mit Wiedergabe, absolute Werte | 101
Abb. 7.1
Abstraktionsschritte | 114
Abb. 10.1 Abb. 10.2 Abb. 10.3 Abb. 10.4 Abb. 10.5
Regelbasierte Module | 128 Stichprobe: Verwendungsweise von Wiedergabewörtern | 143 Übergangsdiagramm zu MarkIndirect | 167 Ablauf der regelbasierten Erkennung | 208 F-Scores der Einzeltexte bei regelbasierter Erkennung | 209
Abb. 11.1 Abb. 11.2 Abb. 11.3 Abb. 11.4
Prinzip des überwachten maschinellen Lernens | 221 Beispiel für einen einfachen Entscheidungsbaum | 231 Schema zur Arbeitsweise von RandomForest | 233 Entwicklung der Fehlerrate bei der Erkennung aller Typen gleichzeitig | 237 Verteilung der Kategorien auf Sätze | 238 Ablauf von Lernen und Auswertung mit RandomForest und Resampling | 241 Bewertungen für die 80 Attribute bei den vier Wiedergabetypen | 255 Durchschnittliche Menge von Satzabschnitten pro Satz | 267 Verteilung der Kategorien auf Satzabschnitte (bei Mehrfachzählung) | 267
Abb. 11.5 Abb. 11.6 Abb. 11.7 Abb. 11.8 Abb. 11.9
Abb. 12.1 Abb. 12.2 Abb. 12.3 Abb. 12.4
Direkte Wiedergabe: F-Scores der Einzeltexte und Standardabweichung | 281 Direkte Wiedergabe: Vorhersage der relativen Anteile | 282 Freie indirekte Wiedergabe: Vorhersage der relativen Anteile | 285 Indirekte Wiedergabe: F-Scores der Einzeltexte und Standardabweichung | 287
Abbildungsverzeichnis
| XV
Indirekte Wiedergabe: Vorhersage der relativen Anteile | 288 Erzählte Wiedergabe: F-Scores der Einzeltexte und Standardabweichung | 291 Abb. 12.7 Erzählte Wiedergabe: Vorhersage der relativen Anteile | 292 Abb. 12.8 Anteil von ind und rep abhängig von der Strenge der Definition | 295 Abb. 12.9 ML von indirect, abhängig von der Strenge der Definition | 301 Abb. 12.10 ML von reported abhängig von der Strenge der Definition | 302
Abb. 12.5 Abb. 12.6
Abb. A.1
OOB-Fehlerraten bei unterschiedlichen Seed-Werten | 322
1 Einleitung 1.1 Worum geht es in dieser Studie? Der Begriff ‚Redewiedergabe‘ bezeichnet, im weitesten Sinne, die Repräsentation einer Aussage in einem anderen Kontext. Dies kann in Form eines direkten Zitats geschehen – Sie sagte: „Ich bin müde.“ – oder in indirekter Form – Sie sagte, sie sei müde. –, um nur die bekanntesten der möglichen Formen zu erwähnen. Das Mitund Gegeneinander von Erzähler und Figur, das Spiel mit den Stimmen und die Art, wie diese dem Leser vermittelt werden, ist relevant für fast jede Erzählung. Es handelt sich zudem um eine narrative Technik, die sehr systematisch untersucht wurde – alle umfassenderen erzähltheoretischen Werke widmen ihr Aufmerksamkeit und es existieren zahlreiche Kategoriensysteme, die die verschiedenen Arten von Redewiedergabe in ihrer Form und Funktion zu erfassen versuchen. Die vorliegende Studie nähert sich diesem etablierten, narratologischen Phänomen auf eine neue Art und Weise: Es wird untersucht, wie quantitative und automatische Methoden dabei helfen können, Redewiedergabe zu identifizieren und damit auch besser zu verstehen und in neuen Aspekten zu untersuchen. Auf der Basis der narratologischen Forschung wird zunächst ein Annotationsystem für Redewiedergabeformen entwickelt und auf ein Beispielkorpus von deutschsprachigen Erzähltexten angewendet, um eine empirische Basis zu schaffen. Im nächsten Schritt geht es darum, Methoden zu entwickeln, wie man die Redewiedergabeformen mit Hilfe des Computers automatisch erkennen und annotieren kann. Warum ist dies ein lohnendes Ziel? Die wachsende Rechen- und Speicherkapazität und der Ausbau des Internets führen dazu, dass immer mehr literarische Texte in digitaler Form verfügbar sind. Dies ist nicht nur bequem für den Zugriff, sondern eröffnet auch ganz neue Möglichkeiten: Elektronische Texte können mit automatischen Methoden verarbeitet werden. Diese Verarbeitung ist um ein vielfaches schneller als alles, was ein Mensch leisten kann. Die empirische Basis für Forschungen besteht damit nicht mehr nur aus ein paar Dutzend (meist kanonischen) Texten, sondern aus Hunderten oder gar Tausenden von Texten, die in die Theoriebildung einbezogen werden können. Dies ermöglicht einen völlig neuen Blick auf das literarische Schaffen und eröffnet Chancen, die die Literaturwissenschaft für sich nutzen sollte. Voraussetzung dafür ist allerdings, dass Computermethoden entwickelt werden, die Aspekte erfassen können, die für die Literaturwissenschaft interessant sind. Die vorliegende Studie ist ein Schritt auf dem Weg in diese Richtung.
2 | 1 Einleitung 1.1.1 Einordnung in das Feld der Digital Humanities Die Studie befindet sich an der Schnittstelle zwischen Narratologie, Linguistik und Informatik und fällt in den Bereich der Digital Humanities. Digital Humanities – ‚digitale Geisteswissenschaften‘ – bezeichnet die Verknüpfung von geisteswissenschaftlicher Forschung mit computerbasierten Anwendungen und Methoden. Die Anfänge dieses Forschungsfeldes reichen bis in die Mitte des 20. Jahrhunderts zurück, es hat sich jedoch vor allem in den letzten Jahrzehnten durch die Verbreitung von Computern und Internet rasch weiterentwickelt und ist ein Feld, dessen Grenzen keineswegs fest abgesteckt sind. So können Digitalisierungsprojekte von Bibliotheken ebenso hinzugerechnet werden wie die theoretische Auseinandersetzung mit Internetkultur und digitaler Informationstechnologie (vgl. Svenson 2010). Im deutschen Sprachraum hat sich speziell für die Anwendung von Computern in den Literaturwissenschaften auch der Begriff ‚Computerphilologie‘ etabliert (vgl. Jannidis 2007). Dieser umfasst neben der Auseinandersetzung mit digitaler Literatur (‚Hyperfiction‘) und dem großen Gebiet der digitalen Editionen und der Textauszeichnung auch die Anwendung computerbasierter, quantitativer Verfahren zur Untersuchung von literaturwissenschaftlichen Fragestellungen. In diesen Bereich lässt sich diese Studie einordnen. Ein großer Vorteil computerbasierter Methoden besteht in der bereits erwähnten Möglichkeit der automatischen Verarbeitung von Massendaten. So können Studien auf eine breitere und auch objektivere Basis gestellt und Entwicklungen in einer weiten Perspektive untersucht werden. Ein eindrückliches Beispiel für diese Herangehensweise ist das Culturomics-Projekt (http://www.culturomics.org, Michel et al. 2011), das das Vorkommen von Begriffen im riesigen Buch-Korpus von Google Books untersucht und auf dieser Grundlage kulturwissenschaftliche Beobachtungen macht. In der Literaturwissenschaft war einer der Vorreiter der weiten Perspektive Franco Moretti, der vielfältiges Material zu literarischen Werken auswertet und an mehreren Beispielen aufzeigt, wie Regelhaftigkeiten und Entwicklungslinien durch Kombination und Visualisierung der Daten sichtbar werden (vgl. Moretti 2005). Quantitative Analysemethoden sind meist wortbasiert und setzen auf den Oberflächenstrukturen von Texten an. Sie beruhen auf der Entdeckung von Wiederholungen und Kontrasten, etwa durch die Erstellung von Konkordanzen, der Bestimmung des typischen Vokabulars eines Textes oder von typischen Kollokationen. Werkzeuge, die solche Analysen erlauben, sind heute auch online verfügbar (z.B. VoyeurTools http://voyeur.hermeneuti.ca/ oder WordSmithTools http://www.lexically.net/wordsmith/). Die Darstellung von Fischer-Starcke demonstiert beispielhaft, wie die literarische Textinterpretation durch die Anwendung solcher Methoden unterstützt werden kann (vgl. Fischer-Starcke 2010).
1.1 Worum geht es in dieser Studie?
| 3
Mit mathematisch komplexen quantitativen Verfahren arbeitet die Stilometrie (vgl. z.B. Burrows 2004, Hoover 2008), bei der mit Hilfe von Statistik Sprachstile untersucht und differenziert werden. Meist dienen diese Verfahren der Autorschaftserkennung, sie können aber auch auf andere Bereiche übertragen werden, wie die Unterscheidung von Genres oder, wie Burrows schon in einer frühen, wegweisenden Studie demonstriert hat, um die stilistischen Unterschiede zwischen den wörtlichen Reden unterschiedlicher literarischer Figuren aufzuzeigen (vgl. Burrows 1987). Die erwähnten Ansätze sind normalerweise an den spezifischen Merkmalen eines bestimmten Textes oder einer Gruppe von Texten interessiert. Wenn sie überhaupt Annotationswerkzeuge verwenden, so bewegen sich diese auf einer allgemein linguistischen Ebene, wie etwa der Lemmatisierung von Wortoberflächen oder der Bestimmung von Wortarten. Für literaturwissenschaftliche Studien sind jedoch oft auch abstraktere Konzepte von Interesse, und so wird in dieser Studie eine narrative Technik in den Mittelpunkt gerückt. Die Fragestellung steht damit Projekten nahe, deren Ziel es ist, narratologische Konzepte zu systematisieren. Beispiele für eine solche Herangehensweise sind der Versuch der Erfassung literarischer Figuren mit Hilfe einer digitalen Ontologie (Zöllner-Weber 2005) oder das von Meister entwickelte System zur Annotation von Ereignisstrukturen in narrativen Texten (vgl. Meister 2003). Solche Annotationsleistungen sind die Voraussetzung dafür, dass quantitative Analysemethoden auch auf Strukturen angewendet werden können, die nicht direkt an der Textoberfläche erkennbar sind. In den beiden Beispiel sind es jedoch jeweils menschliche Annotatoren, die nach bestimmten Richtlinien die Strukturen systematisieren. Die vorliegende Studie hingegen geht einen Schritt weiter und lotet aus, wie ein narratologisches Konzept automatisch erfasst werden kann.
1.1.2 Redewiedergabe als Untersuchungsgegenstand In realweltlichen Kontexten wird das Phänomen Redwiedergabe zumeist als Einbettung der Originaläußerung eines ersten Sprechers in die Äußerung eines zweiten Sprechers beschrieben. Im literarischen Kontext geht es schwerpunktmäßig um die Modellierung der Äußerung einer Figur im Erzählertext, also um Fragen der Figurendarstellung und Erzähltechnik. Die Studie beschäftigt sich nicht nur mit der Wiedergabe von Rede im engen Sinne – also verbalen Äußerungen –, sondern auch mit der Wiedergabe von Gedanken und geschriebenem Text. Insofern ist der Begriff ‚Redewiedergabe‘ für das Gesamtphänomen etwas irreführend, auch wenn er in einigen narratologischen Darstellungen durchaus in diesem übergreifenden Sinne verwendet wird
4 | 1 Einleitung (vgl. z.B. Genette 1998, Schmid 2005). Um Missverständnisse zu vermeiden, wird im Folgenden der Begriff ‚Wiedergabe‘ gebraucht, wenn das Phänomen insgesamt gemeint ist. ‚Redewiedergabe‘, ‚Gedankenwiedergabe‘ und ‚Wiedergabe von Geschriebenem‘ sind spezialisierte Unterbegriffe davon. Zur Beschreibung narratologischer Zusammenhänge werden in dieser Studie folgende Begriffe verwendet: ‚Erzähltext‘ ist ein literarischer Prosatext, ohne dass damit eine nähere Gattungszuschreibung impliziert wird. ‚Erzähler’ ist die Instanz, die diesen Text präsentiert. Passagen, die ausschließlich in deren Stimme abgefasst sind, werden als ‚(reiner) Erzählertext‘ bezeichnet. ‚Figur‘ ist eine handelnde Entität im Erzähltext. Unterschieden werden zudem ‚homodiegetisches Erzählen‘ (Ich-Erzählung), bei dem der Erzähler selbst eine Figur ist, und ‚heterodiegetisches Erzählen‘ (Er-Erzählung), bei dem dies nicht der Fall ist. Diese Begriffe gelten, solange nicht explizit eine Theorie wiedergegeben wird, die eine andere Terminologie verwendet. Warum wurde gerade Wiedergabe als Untersuchungsgegenstand gewählt? Zunächst gibt es einen pragmatischen Grund: Wiedergabetechniken befinden sich nicht auf so hohem Abstraktionsniveau wie etwa Figurenkonzeptionen oder Ereignisstrukturen. Sie weisen zumindest teilweise Merkmale auf, die an der Textoberfläche fassbar sind, so dass es einige offensichtliche Ansatzpunkte für eine automatische Erkennung gibt. Zudem sind sie sowohl in der literaturwissenschaftlichen als auch in der linguistischen Forschung systematisch behandelt worden, so dass auf vorhandene Strukturbeschreibungen und Kategoriensysteme zurückgegriffen werden kann. Gerade die Tatsache, dass die Definition von Wiedergabetechniken auf einer Mischung von oberflächenbasierten und funktional-interpretatorischen Faktoren beruht, macht eine Auseinandersetzung damit besonders interessant. Vor allem aber handelt es sich um ein Phänomen, das zum Kernbereich der Narratologie gehört. Wiedergabe ist in fast allen narrativen Texten zu beobachten und Wiedergabetechniken sind interpretatorisch relevant, da sie der Figurendarstellung dienen und Rückschlüsse auf die Beziehung zwischen Erzähler und Figur erlauben. Aber was für einen Mehrwert hat es, gerade Redewiedergabe mit einem weiten, quantifizierenden Blick zu betrachten? Warum braucht man eine automatische Erkennung, die die Annotation von Hunderten von Texten ermöglicht? Einige Beispiele: Durch eine systematische Annotierung von Texten aus verschiedenen Perioden kann man beobachten, wie sich die verwendeten Formen über einen größeren Zeitraum hin verändern. Literaturwissenschaftliche Thesen, etwa dass die freie indirekte Wiedergabe (‚erlebte Rede‘) sich gegen Ende des 19. Jahrhunderts als verbreitetes Stilmittel etablierte, können so empirisch überprüft werden. Auch die Behandlung von Gedankenwiedergabe im Gegensatz zur Wie-
1.1 Worum geht es in dieser Studie?
|
5
dergabe von gesprochener Sprache (vgl. z.B. Cohn 1978, Palmer 2004) kann umfassender untersucht werden. Große Mengen von Texten, in denen Redewiedergabe annotiert ist, wären auch nützlich in der Erforschung von Figuren-Netzwerken im Sinne von Moretti (Moretti 2011). In solchen Netzwerken sind die Figuren eines literarischen Textes die Knoten eines Graphen, die verbunden werden, wenn zwischen ihnen Worte getauscht werden, also eine Sprachhandlung stattfindet. Die Analyse solcher Beziehungsgraphen erlaubt Einblicke in die Handlungs- und Erzählstruktur der Werke. Eine automatische Erkennung von Redewiedergabeinstanzen (mit Zuordnung zu den involvierten Figuren) würde den Aufbau solcher Netzwerke, der aktuell oft durch manuelle Annotation geschieht, deutlich erleichtern.1 Nicht zuletzt ermöglicht die Annotation von Redewiedergabe eine Unterscheidung zwischen Teilen der Erzählung, die den Figuren und solchen, die dem Erzähler zugeordnet sind, so dass darauf aufbauende Untersuchungen – etwa zu stilistischen Unterschieden – möglich werden. Diese für die Literaturwissenschaft sehr interessanten Fragestellungen werden in dieser Studie selbst nicht direkt verfolgt, aber sie liefert die Vorarbeiten, die diese erst ermöglichen – und enthält zudem einige Beobachtungen zu Merkmalen der Redewiedergabe, die auch vom narratologischen Standpunkt aus interessant sind. Die Studie kann auf zwei verschiedene Arten gelesen werden: Zum einen in Hinblick auf das Phänomen Redewiedergabe und deren automatische Erfassung im Speziellen. Sie soll eine Ausgangsbasis für weiterführende Forschungen in diesem Gebiet schaffen – sei es nun, dass die hier vorgestellten Methoden bei literaturwissenschaftlichen Studien direkt angewendet oder dass sie weiterentwickelt und verbessert werden. Aus diesem Grund sind auch die Materialien, die im Rahmen dieser Studie entwickelt wurden, online frei zugänglich. Zum anderen kann die Studie aber auch verstanden werden als ein Fallbeispiel für die Annäherung an ein literaturwissenschaftliches Thema mit Computermethoden. Sie liefert damit Anschauungsmaterial und Antworten auf allgemeinere Fragen: Inwieweit kann der Computer bei der Analyse einer narrativen Technik nützlich sein? Welche Schwierigkeiten ergeben sich, wenn man sich einem literarischen Phänomen mit Hilfe einer Maschine annähert, für die ein Text zunächst nichts weiter als eine Abfolge von Zeichen ist? Welche Art von Ergebnissen erhält man und wie können diese verstanden und weiter verwendet werden?
1 Die Arbeit Elson/McKeown 2010, auf die in Abschnitt 10.6.2 eingegangen wird, beschäftigt sich mit der Erkennung von Redewiedergabe in diesem Anwendungskontext.
6 | 1 Einleitung Die Studie möchte ein Verständnis für die neuen Methodiken wecken, indem sie illustriert, welche Schritte der Untersuchung und der Abstraktion notwendig sind und wie Erkenntnisse aussehen können, die auf eine solche Art und Weise gewonnen werden können. Hierzu dienen auch detailliertere technische Beschreibungen an relevanten Stellen, die es dem Leser erlauben, die Annahmen und Heuristiken nachzuvollziehen, die angewendet werden. Die Darstellung von Methoden der automatischen Sprachverarbeitung und des maschinellen Lernens, die im Rahmen der Studie angewendet werden, erfolgt dabei stets so, dass sie auch ohne Vorkenntnisse verständlich ist. Dabei wird deutlich, dass der Computer dem Menschen die Leistung der Interpretation nicht abnehmen kann – er ist jedoch ein neues Werkzeug mit großem Potential, dessen Anwendung und Ergebnisse ihrerseits verstanden und interpretiert werden müssen.
1.2 Aufbau der Studie Die Studie versteht sich als Grundlagenforschung und versucht darum, sich dem Phänomen mit verschiedenen Strategien zu nähern. Die Untersuchungen sind nicht auf eine bestimmte Anwendungssituation ausgerichtet und es ist nicht das Ziel, ein ausgereiftes Annotationswerkzeug für Wiedergabetechniken zu entwickeln. Im Vordergrund stehen stattdessen das Aufzeigen von grundsätzlichen Herangehensweisen sowie die Reflexion der Anwendung automatischer Verfahren zur Textanalyse. Im Rahmen dieser Studie wurde ein spezialisiertes Korpus deutscher Erzähltexte zusammengestellt und manuell annotiert. Anschließend wurden verschiedene automatische Erkennungsmethoden entwickelt und die Erfolge ausgewertet. Entsprechend gliedert sich die Studie in zwei Teile: Der erste, Manuelle Annotation, beschäftigt sich mit der Beschreibung des verwendeten Korpus und dessen Annotation mit Wiedergabekategorien. Dieser Vorgang ist für sich genommen eine empirische Studie: Ein geeignetes Annotationssystem musste definiert werden, weshalb in diesem Teil auch – vornehmlich narratologisch motivierte – Definitionen von Wiedergabekategorien thematisiert werden. Die Entwicklung des Annotationssystems geschieht zugleich in Auseinandersetzung mit realen literarischen Texten, so dass der Blick auf Besonderheiten des Phänomens Wiedergabe gelenkt wird. Im Ergebnis ermöglicht die manuelle Annotation systematische Beobachtungen über die Struktur und Verwendung von Wiedergabetechniken. Zudem ist sie eine unentbehrliche Grundlage für die Entwicklung und Auswertung automatischer Methoden: Sie liefert statistische Daten, kann als Vergleichswert herangezogen werden und als Trainingsmaterial für maschinelle Lernverfahren dienen.
1.2 Aufbau der Studie
| 7
Der zweite Teil der Studie, Automatische Annotation, beschreibt die Entwicklung automatischer Methoden zur Erkennung der Wiedergabetechniken. Dabei wird ein modularer Ansatz verfolgt, d.h. es werden verschiedene Komponenten entwickelt, die unabhängig voneinander angewendet werden können. Dieser Teil untergliedert sich weiter entsprechend der Herangehensweisen: Zunächst werden regelbasierte Verfahren dargestellt, für die vorhandenes Wissen in explizite Regeln übersetzt wird. In diesem Kontext erfolgt auch eine Auswertung der linguistischen Forschung in Hinblick auf geeignete Indikatoren. Danach wird die Erkennung mit Hilfe von maschinellem Lernen beschrieben. Hier wird es dem Computer überlassen, anhand von manuell annotierten Beispielen Heuristiken zu entwickeln, um neue Fälle zu erkennen. Die Ergebnisse der beiden Herangehensweisen werden bei der abschließenden Auswertung verglichen und in Beziehung gesetzt. Dabei wird auch auf die Bedeutung unterschiedlicher Bewertungsmethoden eingegangen. Die Zusatzmaterialen zu dieser Studie umfassen das manuell und automatisch annotierte Korpus sowie die im Rahmen der Studie entwickelten Erkenner und Hilfsprogramme. Sie sind im Forschungsdaten-Repositorium des Instituts für Deutsche Sprache (http://repos.ids-mannheim.de) unter der Adresse http://hdl.handle.net/10932/00-027B-9E8A-9300-0B01-E frei verfügbar. Es handelt sich dabei um Prototypen, die nicht systematisch auf Robustheit oder Effizienz getestet, aber durchaus funktionstüchtig sind. Alle Module wurden für das GATE-Framework entwickelt, eine Arbeitssumgebung zur maschinellen Bearbeitung von natürlichsprachigen Texten (http://gate.ac.uk). Die Verwendung dieses etablierten Frameworks hat den Vorteil, dass die Module leicht weiterzugeben sind und nicht von propriäteren Umgebungen abhängen. Für das maschinelle Lernen wird die ebenfalls frei verfügbare Statistiksoftware R verwendet. Für den Leser, der sich weniger für die technischen Details und mehr für grundsätzliche Ideen der Studie sowie narratologische Implikationen interessiert, empfehle ich insbesondere folgende Kapitel: – Manuelle Annotation: – Kapitel 2: Einführung – Kapitel 3.1 und 3.2.14: Grundsätzliche Gestalt des Erzähltextkorpus – Kapitel 4: Das Phänomen Wiedergabe, v.a. aus literaturwissenschaftlicher Sicht – Kapitel 5, Anfang: Überblick über das Annotationssystem – Kapitel 6: Auswertung der manuellen Annotation – Automatische Annotation: – Kapitel 7 bis 9: Grundsätzliches zur automatischen Annotation – Kapitel 10, Anfang: Grundstruktur des regelbasierten Ansätze
8 | 1 Einleitung – – – – –
Kapitel 10.1.2.3: Empirische Studie zum Verhalten von Wiedergabewörtern Kapitel 10.6.1: Auswertung und Fazit zur regelbasierten Annotation Kapitel 11.1 bis 11.3: Grundsätzliches zu maschinellem Lernen und Grundstruktur des Ansatzes Kapitel 11.7: Empirische Studie zur Attributbewertung – welche Faktoren sagen Wiedergabetechniken gut voraus? Kapitel 12: Gesamtbewertung der automatischen Erkennung
Die wichtigsten Ergebnisse der Studie sind in der Schlussbetrachtung zusammengefasst.
|
Teil I: Manuelle Annotation des Erzähltextkorpus
2 Einführung Vor dem Versuch, eine automatische Erkennung von Wiedergabe durchzuführen, steht die Auseinandersetzung mit dem Untersuchungsgegenstand selbst. Wie genau ist Wiedergabe zu definieren und wie zeigt sie sich in realen Texten? Zudem braucht man eine Vergleichsbasis, um die Erfolge automatischer Annotation bewerten zu können. Darum wurde für diese Studie ein Korpus literarischer Texte, das ‚Erzähltextkorpus‘, zusammengestellt und manuell annotiert. Diese manuelle Annotation hat einen doppelten Nutzen: Zum einen dient sie als Referenz zur Bewertung von automatischen Annotationswerkzeugen und als Trainingsmaterial für maschinelle Lernverfahren. Zum anderen ist die Entwicklung und Anwendung eines Annotationsschemas für sich genommen eine empirische Studie zu einem narratologischen Forschungsgegenstand. Der Prozess der manuellen Annotation erzwingt die Reflexion über die Definition von Kategorien, beleuchtet die Art und Vielfalt von Wiedergabestrategien in literarischen Texten und ermöglicht im Ergebnis Beobachtungen zur Verteilung von Wiedergabe im Korpus. Die systematische Annotation eines Korpus mit Wiedergabekategorien ist für das Deutsche noch nicht durchgeführt worden und findet nur in der Studie von Semino/Short für das Englische ein Vorbild (vgl. Semino/Short 2004). Im Gegensatz zu der üblichen Praxis, Wiedergabekategorien anhand von ausgewählten Beispielen zu illustrieren, führt diese Herangehensweise zu einem anderen Blick auf den Untersuchungsgegenstand. Semino/Short heben hervor: A major innovative aspect of our study lies in the fact that we systematically annotated the whole of a balanced electronic corpus of textual extracts, thus forcing ourselves to account for all the instances of SW&TP [Speech, Writing and Thought Presentation] in our data, whether or not they happened to fall conveniently within our initial set of categories. (Semino/Short 2004, 43)
Dies gilt auch für die im Rahmen dieser Studie durchgeführte manuelle Annotation, und die Arbeit von Semino/Short wird im Folgenden an verschiedenen Stellen vergleichend herangezogen, da die auftretenden Besonderheiten und Schwierigkeiten sehr ähnlich sind. Jedoch soll an dieser Stelle auf einige Unterschiede zwischen den beiden Annotationsprojekten hingewiesen werden, vor deren Hintergrund alle Vergleiche zu verstehen sind. – Sprache: Semino/Short arbeiten mit englischen Texten. Es ist in der Wiedergabeforschung durchaus üblich, dass Kategorien sprachübergreifend definiert und angewendet werden. So wurde etwa das einflussreiche System von Genette auf der Grundlage des Französischen entwickelt (vgl. Genette 1998) und vie-
12 | 2 Einführung
–
–
–
le Autoren greifen auf Beispiele aus verschiedenen Sprachen zurück, z.B. Fludernik 1993 (v.a. Englisch, aber auch Deutsch, Französisch, Russisch, Japanisch) und Schmid 2005 (v.a. Deutsch, Russisch, Französisch). Auch linguistische Studien weisen nach, dass es Entsprechungen von Wiedergabekategorien in den verschiedensten Sprachen gibt (vgl. z.B. von Roncador 1988). Der Vergleich ist damit durchaus legitim, dennoch kann der Sprachunterschied vor allem bei der Verwendung von grammatischen Merkmalen zur Definition von Kategoriegrenzen relevant werden. Korpus: Semino/Short sind bei ihrer Studie daran interessiert, ein ‚balanciertes‘ Korpus zu untersuchen. Sie haben dafür ein Korpus zusammengestellt, das zu gleichen Teilen aus Auszügen aus literarischen, (auto)biographischen und journalistischen Texten besteht. Außerdem unterscheiden sie in jedem dieser Teile eine Sektion mit ‚ernsthaften‘ und eine mit ‚populären‘ Texten (serious vs. popular) (vgl. Semino/Short 2004, 19–26). Ein signifikanter Teil ihrer Studie beschäftigt sich mit dem Vergleich der Ergebnisse in diesen verschiedenen Korpussektionen. Die vorliegende Studie konzentriert sich hingegen ausschließlich auf literarische Texte, die zudem vollständig, nicht in Auszügen, verwendet werden. Eine weitere Unterstrukturierung des Korpus gibt es nicht. Aus diesem Grund werden bei Vergleichen i.A. nur Ergebnisse aus Semino/Shorts literarischem Teilkorpus herangezogen, welches auch in der Größe vergleichbarer mit dem Erzähltextkorpus ist (ca. 87.000 Tokens2 in Semino/Shorts LiteraturTeilkorpus vs. ca. 57.000 im Erzähltextkorpus). Annotationsschema: Semino/Shorts Studie wurde durchgeführt, um ein bestimmtes Wiedergabemodell, entwickelt von Leech und Short (Leech/Short 19813 ), in der Praxis zu testen und ggf. weiterzuentwickeln. Die hier durchgeführte manuelle Annotation hingegen ist nicht von vornherein einem bestimmten Ansatz verpflichtet, weshalb im Folgenden auch die Festlegung eines Annotationsschemas thematisiert wird. Rahmenbedingungen: Semino/Shorts Studie wurde im Rahmen eines mehrjährigen Projekts durchgeführt. Alle Annotationen wurden von zwei bis drei Personen überprüft und Zweifelsfälle im Team diskutiert. Im Rahmen dieser Studie standen keine vergleichbaren Ressourcen zur Verfügung, weder zeit-
2 ‚Tokens‘ bezeichnet hier die Menge von Wörtern und Satzzeichen (ohne Leerzeichen) in einem Text. 3 Die Autoren beziehen sich zwangsläufig auf die erste Auflage dieses Werks. Im Folgenden wird jedoch normalerweise die zweite, erweiterte Auflage zitiert, Leech/Short 2007, da es in den entscheidenden Teilen keine Abweichungen gibt.
2 Einführung
|
13
lich noch personell. Die manuellen Annotationen wurden ausschließlich von der Verfasserin durchgeführt. Auf das Problem der Subjektivität wird bei der Auswertung der Ergebnisse (Abschnitt 6) eingegangen. Die Ausführungen zur manuellen Annotation sind folgendermaßen gegliedert: Zunächst folgt eine Beschreibung des Erzähltextkorpus. Danach wird näher auf das Phänomen Wiedergabe, schwerpunktmäßig in der Narratologie, eingegangen und anschließend das verwendete Annotationssystem detailliert vorgestellt. Dabei werden alle Kategorien und Attribute beschrieben und mit Beispielen aus dem Erzähltextkorpus illustriert. Den Abschluss bildet eine Auswertung der manuellen Annotation, z.T. im Vergleich zu Ergebnissen bei Semino/Short.
3 Das Erzähltextkorpus 3.1 Prinzipien der Zusammenstellung Das Erzähltextkorpus besteht aus 13 Texten mit insgesamt etwa 57.000 Tokens. Tabelle 3.1 bietet eine Übersicht über die verwendeten Texte, die im Folgenden mit den angegebenen Kurztiteln bezeichnet werden. Beim Design kamen verschiedene, sowohl theoretische als auch praktische Faktoren zum Tragen, die seine Form und Zusammenstellung beeinflusst haben (zu Korpusdesign vgl. auch Hunston 2008). Bei dem Erzähltextkorpus handelt es sich um ein spezialisiertes Korpus, das gezielt zur Untersuchung eines einzelnen Gegenstandes – Wiedergabetechniken in deutschsprachigen literarischen Texten – kompiliert wurde. Dieser Untersuchungsgegenstand ist jedoch weit gefasst: Gerade literarische Texte sind äußerst divers, so dass die Zusammenstellung einer repräsentativen Untermenge nahezu unmöglich ist. Es wurden darum von vornherein Einschränkungen vorgenommen. So richtet sich der Blick in dieser Studie ausschließlich auf Prosatexte, da dort das Verhältnis von Erzähler und Figur und damit Techniken der Wiedergabe am stärksten im Vordergrund stehen. Zudem sollten nur vollständige und abgeschlossene Texte verwendet werden. Alle Texte sind darum kurze Erzählungen oder Kurzgeschichten, mit Ausnahme von Bürger: Münchhausen, welcher nur den Beginn des Münchhausen-Romans umfasst. Da der Roman jedoch sehr episodenhaft ist, weist auch dieser Text einen hohen Grad an Abgeschlossenheit auf und kann für sich alleine stehen. Der Text Hauff: Kalif umfasst neben der „Geschichte von Kalif Storch“ noch Teile der Rahmenhandlung, in die diese eingebettet ist. Jedoch ist diese Rahmenhandlung marginal, so dass man weiterhin von Abgeschlossenheit sprechen kann. Die Entscheidung für abgeschlossene Texte ist nicht selbstverständlich und wurde nach Abwägung der Alternativen getroffen. So wäre es möglich gewesen, für das Korpus gezielt Passagen auszuwählen, die Wiedergabe enthalten, was zu deutlich mehr relevanten Instanzen geführt hätte. Allerdings hätte eine solche Zusammenstellung den empirischen Wert der Studie deutlich reduziert, da zum einen eine interpretative Vorauswahl stattgefunden hätte und zum anderen die Häufigkeit von verschiedenen Wiedergabephänomenen in realen Texten nicht hätte verglichen werden können. Eine weitere Alternative wäre gewesen, zufällige Auszüge aus verschiedenen Texten auszuwählen, wie Semino/Short es tun. Dies hätte eine größere Diversität von Autoren und Schreibstilen ermöglicht. Jedoch ist nicht selten der Gesamtkontext für die Bestimmung und Einordnung eines Phä-
Die Kuh Die verwünschte Ziege
Bernhardi, Sophie
Günderrode, Karoline von
Kleist, Heinrich von
Tieck, Ludwig
Hauff, Wilhelm
Hebbel, Friedrich
May, Karl
Schnitzler, Arthur
Janitschek, Maria
Heym, Georg
Kafka, Franz
1802
1805
1807
1812
1825
1849
1878
1889
1902
1913
1913
Die Entführung
Der Jäger Gracchus
Der Irre
Darüber kommt kein Weib hinweg
Mein Freund Ypsilon
Die Geschichte von Kalif Storch
Der blonde Eckbert
Das Erdbeben in Chili
Geschichte eines Braminen
Belinde
Münchhausen, Kapitel 1
Musäus, Johann Karl August
Bürger, Gottfried August
1788
Titel
1787
Autor
Jahr
2045
5653
1754
4976
5831
2081
4741
7593
6577
4393
4696
1660
5222
Tokens
3.
3.
3.
1.
3.
3.
3.
3. (1.)
3.
1. (3.)
3.
1.
3.
Erz.Halt.
m
m
w
m
m
m
m
m
m
w
w
m
m
Geschl. Autor
Kafka: Gracchus
Heym: Irre
Janitschek: Weib
Schnitzler: Ypsilon
May: Ziege
Hebbel: Kuh
Hauff: Kalif
Tieck: Eckbert
Kleist: Erdbeben
Günderrode: Bramine
Bernhardi: Belinde
Bürger: Münchhausen
Musäus: Entführung
Kurztitel
Tab. 3.1. Zusammensetzung des Erzähltextkorpus (die angegebenen Jahreszahlen beziehen sich auf den Erstdruck der relevanten Fassung)
3.1 Prinzipien der Zusammenstellung | 15
16 | 3 Das Erzähltextkorpus nomens relevant, was die Annotation von Auszügen erschwert. Außerdem hat die Verwendung vollständiger Texte den Vorteil, dass die Verteilung und Menge von Wiedergaben über einen zusammenhängenden Text hinweg beobachtet werden kann. Für das Ziel dieser Studie am entscheidendsten jedoch ist, dass es für die Auswertung der Erkennungsmethoden sehr nützlich ist, abgeschlossene Texte betrachten zu können. Auf diese Weise kann nämlich abschätzt werden, wie die Gesamterfolge bei unterschiedlichen eigenständigen Werken ausfallen (vgl. Abschnitt 9). Bei der Zusammenstellung des Erzähltextkorpus kamen zudem technische und praktische Erwägungen zum Tragen. Zum einen sollten die Texte frei verfügbar sein, um es zu ermöglichen, das annotierte Erzähltextkorpus weiterzugeben oder zu veröffentlichen, ohne auf lizenzrechtliche Probleme zu stoßen. Zum anderen sollten ihre Kodierung und Auszeichnung einheitlich und konsistent sein, um Aufwand für die Beseitigung formaler Inkongruenzen zu vermeiden. Bei der Entwicklung der automatischen Erkennungsmethoden wurde angestrebt, dass diese möglichst problemlos auf andere Texte angewendet werden können. Somit war es gar nicht wünschenswert, bei der Korpuszusammenstellung auf sorgfältig und aufwendig aufgearbeitete Texte zurückzugreifen, die z.B. den Anforderungen einer historisch-kritischen Edition genügen. Eine solche Wahl hätte leicht dazu führen können, dass die auf dieser Grundlage entwickelten Methoden nur auf sehr ähnliche, stark spezialisierte Korpora angewendet werden können und damit ihre Nützlichkeit und die Übertragbarkeit der Erkenntnisse stark eingeschränkt. Aufgrund dieser Überlegungen wurden digitalisierte, gemeinfreie Texte von der Plattform Zeno.org verwendet (http://www.zeno.org), welche im Rahmen des Projekts TextGrid in ein XML-Format konvertiert worden sind, das den Richtlinien der TEI (Text Encoding Initiative) genügt (zu TextGrid vgl. Neuroth et al. 2011). Bei der Textgestalt müssen ein paar Abstriche gemacht werden. Die Texte enthalten teilweise Fehler, die bei der automatischen Annotierung durchaus zu Problemen führen. Diese Fehler wurden bewusst nicht korrigiert, um eine reale Anwendungssituation der Annotierungswerkzeuge zu simulieren: Bei digitalisierten Texten muss man grundsätzlich immer damit rechnen, dass solche Fehler auftreten, und es stehen selten die Ressourcen zur Verfügung, diese vollständig zu korrigieren.4 Außerdem liegen der digitalisierten Version teilweise Ausgaben mit modernisierter Rechtschreibung und Zeichensetzung zugrunde. Dies kommt der automatischen Verarbeitung sogar entgegen, da es die Menge der orthographischen
4 Die Fehler werden im Folgenden auch in Zitaten aus dem Erzähltextkorpus reproduziert.
3.1 Prinzipien der Zusammenstellung
| 17
Varianten reduziert. Abschnitt 3.2 geht genauer auf die Gestalt der einzelnen Texte des Korpus ein. Die Entscheidung für Zeno.org als Textquelle führte auch dazu, dass ein Rahmen für die Zeitspanne gesetzt war, aus der die Texte stammen konnten. Nach oben wurde dieser durch die Urheberrechtsbestimmungen begrenzt: Texte, deren Autor weniger als 70 Jahre tot ist, sind normalerweise nicht frei verfügbar. Nach unten war die Grenze dadurch gegeben, dass Texte vor der Mitte des 18. Jahrhunderts immer weniger normierte Schreibung und Zeichensetzung aufweisen und damit die automatische Verarbeitung vor eine Reihe zusätzlicher Probleme stellen, die den Rahmen dieser Studie übersteigen. Zudem war für diesen Zeitraum der Texttyp ‚kurzer, abgeschlossener Prosatext in deutscher Sprache‘ bei Zeno.org kaum verfügbar. Das Korpus umfasst somit Texte mit Entstehungszeitpunkten zwischen 1787 und 1913, also einen Zeitraum von etwa 130 Jahren. Erst im Rahmen dieser engen Beschränkungen – kurze, abgeschlossene Erzähltexte von Zeno.org – wurde nun versucht, eine gewisse Repräsentativität zu erreichen. Texte, die auffallend stark von der Norm abweichen, wurden nicht aufgenommen, da dies die Verallgemeinerbarkeit von Beobachtungen zusätzlich erschwert hätte. Daneben kamen folgende Kriterien zum Tragen: – Zeitliche Streuung: Es sollte ein möglichst breiter zeitlicher Bereich abgedeckt werden, und die Verteilung der Texte sollte einigermaßen gleichmäßig sein. – Erzählhaltung: Sowohl die homodiegetische als auch die heterodiegetische Erzählhaltung sollte vertreten sein. – Geschlecht: Weibliche und männliche Autoren sollten vertreten sein. – Erzählweise: Verschiedene Erzählweisen sollten vertreten sein. So gibt es neben stark beschreibenden Texten wie Musäus: Entführung stark dialoglastige wie Janitschek: Weib, und mit Heym: Irre ein Beispiel für einen Text, bei dem die Darstellung des Bewusstseins des Protagonisten im Mittelpunkt steht. – Kanonik: Neben sehr bekannten Texten, die zum klassischen Literaturkanon gehören, (z.B. Tieck: Eckbert, Kleist: Erdbeben) wurden auch eher unbekannte gewählt (z.B. Bernhardi: Belinde, May: Ziege), um einen Querschnitt durch unterschiedliche Literaturformen zu erhalten. Bei keinem dieser Kriterien wurde eine tatsächliche Ausgewogenheit erreicht. Zudem ist die Klassifizierung der einzelnen Texte nicht trivial, insbesondere die letzten beiden Kriterien sind stark interpretationsabhängig. Selbst bei einem recht formalen Kriterium wie der Erzählhaltung ist die Abgrenzung problematisch. So ist Tieck: Eckbert ein heterodiegetischer Text, der aber zu fast zwei Dritteln aus einer homodiegetischen Binnenerzählung besteht, und Günderrode: Bramine hat die Form eines Dialogs, bei dem ein Teilnehmer fast ununterbrochen spricht. Es
18 | 3 Das Erzähltextkorpus handelt sich also formal um eine heterodiegetische, im Schwerpunkt aber eher um eine homodiegetische Erzählung. Aus diesen Gründen wird an keiner Stelle dieser Studie ein Vergleich zwischen künstlich definierten Untersektionen des Erzähltextkorpus gezogen (z.B. Ergebnisse für homodiegetische vs. heterodiegetische oder kanonische vs. nichtkanonische Texte). Das einzigen Untereinheiten, die bei der Auswertung sinnvoll verglichen werden können, sind die einzelnen Texte des Korpus selbst. Ohne Frage ist das Erzähltextkorpus zu klein und unterliegt zu vielen Einschränkungen, um eine wirklich repräsentative Übersicht über die Verwendung von Wiedergabestrategien in der deutschen Literatur zu geben, und die Ergebnisse sind mit der Vorsicht zu behandeln, die bei stichprobenhaften, empirischen Untersuchungen immer angebracht ist. Jedoch ist bemerkenswert, wie viele verschiedene Phänomene und Sonderfälle bereits in dieser kleinen Auswahl an Erzähltexten zu beobachten sind.
3.2 Zur Textgestalt im Erzähltextkorpus Die Plattform Zeno.org (http://www.zeno.org), die vom Verlag Editura betrieben wird, stellt digitalisierte Versionen gedruckter Texte zur Verfügung. Vom TextGrid-Projekt wurden die Lizenzen erworben und die Texte in ein gültiges TEI-Format konvertiert. Diese Texte sind unter http://www.textgrid.de/digitalebibliothek.html verfügbar und stehen unter einer Creative Commons Lizenz, d.h. sie dürfen frei heruntergeladen und für weitergehende Analysen verwendet werden (vgl. TextGrid 2011). Sie werden kontinuierlich überarbeitet, um Konvertierungsfehler zu korrigieren. Das Erzähltextkorpus verwendet Texte aus der Version I des Archivs. Diese wurden genauso übernommen, wie sie verfügbar waren, auch wenn sie offensichtliche Fehler in Digitalisierung oder Formatierung enthielten. Folgende formale Vereinheitlichungen lassen sich bei allen Texten des Erzähltextkorpus beobachten: – Alle Worttrennungen sind zusammengeführt. – Absätze sind mit dem Tag
(paragraph) markiert. – Es werden ausschließlich nach innen weisende spitze Anführungszeichen verwendet – üblicherweise doppelte spitze Anführungszeichen für normale Zitate (»Text«) und einfache spitze Anführungszeichen für eingebettete Zitate (›Text‹). – Hervorhebungen werden in der TEI-Version vereinheitlicht und durch den Tag (highlight) markiert. – Seitenumbrüche der Textvorlage werden in der TEI-Version durch den Tag (pagebreak) dargestellt. Wenn Seitenumbrüche innerhalb eines Wortes
3.2 Zur Textgestalt im Erzähltextkorpus |
19
auftreten, wird das getrennte Wort zusammengeführt und die Seitengrenze dahinter markiert. Die beiden letzten Punkte sind nur der Vollständigkeit halber aufgeführt und spielen im Rahmen dieser Studie keine Rolle, da diese Markierungen bei den vorgestellten Methoden der automatischen Erkennung nicht verwendet werden. Alle Texte verfügen über bibliographische Informationen, die neben Titel und Autor auch Hinweise zu Entstehung und Erstausgabe sowie zu der Textausgabe umfassen, die der digitalen Version zugrunde liegt. Für das Erzähltextkorpus wurden nur die Informationen übernommen, die sich nach der Konvertierung in TEI innerhalb der -Tags befanden, d.h. der TEI-Header mit den Meta-Informationen wurde entfernt. Da die Kodierung der bibliographischen Angaben bei Zeno.org uneinheitlich war, sind diese jedoch in der Version I der TextGrid-Konversion z.T. fehlerhaft und bleiben nicht immer auf den TEI-Header beschränkt. Dies führt dazu, dass alle Texte noch Reste von Meta-Informationen enthalten. Dabei handelt es sich stets um eine Wiederholung des Titels; in manchen Fällen finden sich zusätzlich noch der Name des Autors und Angaben zu Entstehung oder Erstveröffentlichung. Wie in Abschnitt 3.1 bereits ausgeführt, wurde nicht angestrebt, ein Korpus mit möglichst werkgetreuer Textgestalt zusammenzustellen. Mehrere Texte beruhen auf modernisierten Ausgaben. In Abschnitt A.1 des Anhangs sind die vollständigen bibliographischen Daten zu den Textausgaben aufgelistet, auf die die digitalen Fassungen zurückgehen. Da es aus literaturwissenschaftlicher und editionsphilologischer Perspektive relevant ist, wie die Gestalt der einzelnen Texte des Erzähltextkorpus einzuschätzen ist, wird ihr Zustand im Folgenden kurz kommentiert, wobei Erstausgaben, Reprints und historisch-kritische Ausgaben zum Vergleich herangezogen werden. Die Darstellung versteht sich als reine Bestandsaufnahme. Das Ziel ist nicht, eine Wertung der vorliegenden Textfassungen vorzunehmen, sondern lediglich einen Eindruck zu vermitteln, welche Eingriffe stattgefunden haben. Rein typographische Veränderungen wie die verwendete Schriftart (ursprünglich oft Fraktur) und drucktechnische Besonderheiten werden dabei nur in Ausnahmefällen erwähnt. Zugleich wird auch kurz auf den Entstehungskontext der Texte sowie die Erzählhaltung und Auffälligkeiten der Erzählweise eingegangen, die im Kontext des Themas Wiedergabe von Interesse sind. Die Reihenfolge der Darstellung ist chronologisch nach Entstehungszeit bzw. Erstveröffentlichung der Texte in der Form, die für das Erzähltextkorpus relevant ist.
20 | 3 Das Erzähltextkorpus 3.2.1 Musäus: Entführung Die Erzählung „Die Entführung. Eine Anekdote“ von Johann Karl August Musäus entstammt der Sammlung Volksmährchen der Deutschen, die 1782–1786 in fünf Bänden veröffentlicht wurde. Die dem Zeno-Text zugrunde liegende Ausgabe ist von 1976 (Musäus 1976). Ein Vergleich mit der Erstausgabe des Textes vom 1787 (Musäus 1787) ergibt, dass deutliche Modernisierungen an der Textgestalt vorgenommen worden sind. So wurden die Orthographie vieler Einzelwörter sowie Fälle von Groß-Klein-Schreibung und Zusammen-Getrennt-Schreibung an die heutigen Konventionen angeglichen. Die Lautung des Textes blieb dabei aber unverändert. In selteneren Fällen wurde auch die Zeichensetzung verändert und z.B. ein Strichpunkt durch ein Ausrufezeichen ersetzt. Der Text enthält drei Fußnoten, welche in der Erstausgabe jeweils am Seitenende abgedruckt sind. In der TEIKonvertierung sind sie an den Verweisstellen in den Text eingefügt. Dies hat zur Folge, dass an diesen Stellen im Erzähltextkorpus der Satzfluss unterbrochen ist.5 Die Erzählhaltung ist heterodiegetisch, und der Text enthält nur wenige Fälle von direkter Wiedergabe und keine Dialoge.
3.2.2 Bürger: Münchhausen Der Roman Wunderbare Reisen zu Wasser und zu Lande, Feldzüge und lustige Abentheuer des Freyherrn von Münchhausen von Gottfried August Bürger erschien erstmals 1786 und wurde 1788 in einer erweiterten Fassung neu aufgelegt, deren Text der Version bei Zeno.org zugrunde liegt. Die Erweiterung wirkt sich auf den Ausschnitt aus, der in das Erzähltextkorpus aufgenommen wurde: Die letzte Episode des Textes, die Geschichte von dem General mit der Silberplatte im Kopf, fehlt in der Erstfassung. Textgrundlage für den Zeno-Text ist eine Ausgabe von 1976 (Bürger 1976). Diese ist in Orthographie und Zeichensetzung modernisiert und enthält eine Kapiteleinteilung samt Überschriften, die nicht Teil der Ausgabe von 1788 ist (vgl. Bürger 1788). Das „Erste Kapitel“, das für das Erzähltextkorpus verwendet wurde, existiert also in der Erstausgabe nicht als abgegrenzte Einheit. Die Erzählhaltung ist homodiegetisch, jedoch ebenso arm an direkter Wiedergabe wie Musäus: Entführung. Auffallend ist zudem die Episodenhaftigkeit der Struktur: Der Fokus liegt nicht, wie bei allen anderen Texten des Erzähltextkor5 Im Rahmen dieser Studie wird auf diese Besonderheit keine Rücksicht genommen, da keine Instanzen von Wiedergabe dadurch betroffen sind. Bei einer Weiterentwicklung der Methoden wäre es jedoch ratsam, die automatische Analyse technisch so zu verfeinern, dass Fußnoten separat behandelt werden.
3.2 Zur Textgestalt im Erzähltextkorpus |
21
pus, auf einer zusammenhängenden Geschichte, sondern mehrere Begebenheiten werden nur locker verknüpft aneinandergereiht.
3.2.3 Bernhardi: Belinde Die Erzählung „Belinde“ von Sophie Bernhardi6 wurde 1802 in Wunderbilder und Träume in eilf Märchen, einer Sammlung von Kunstmärchen, erstveröffentlicht. Die Grundlage des Zeno-Textes ist die zweite Ausgabe von 1823 (Bernhardi 1823). Ein Vergleich mit dem Text der Erstausgabe (Bernhardi 1802) ergab eine völlige Übereinstimmung. Sogar Fehler im Zeno-Text (fliegrn statt fliegen und die Verwendung eines Punktes statt eines Trennungszeichens, was zu der Form Belin. de statt Belinde führt) sind bereits in der Erstausgabe vorhanden. Weder Orthographie noch Zeichensetzung wurden verändert. Im Rahmen dieser Studie besonders erwähnenswert ist die Tatsache, dass dieser Text auch in der Erstausgabe keinerlei Anführungszeichen oder sonstige Markierungen für direkte Wiedergabe verwendet. Die Erzählhaltung ist heterodiegetisch, mit einer Mischung aus dialogischen und rein erzählenden Passagen.
3.2.4 Günderrode: Bramine Der Erstdruck der „Geschichte eines Braminen“ von Karoline von Günderrode7 erfolgte 1805 in Herbsttage von Sophie von La Roche. Das Buch ist eine Zusammenstellung von verschiedenen Erzählungen und Gedichten sowie einem Musikstück, verknüpft und eingeführt durch Kommentare von La Roche. Diese gibt an, das Manuskript der „Geschichte“ sei ihr von einem Braminen (Brahmanen, hinduistischen Geistlichen) übergeben worden, der sich ‚Tiann‘ nenne, ein Pseudonym, das Günderrode auch an anderer Stelle verwendet. Der Text schließt entsprechend mit der Unterschrift Tiann.
6 Sophie Bernhardi ist eine geborene Tieck (die Schwester des Dichters Ludwig Tieck) und nahm zunächst den Namen ihres ersten Mannes, August Ferdinand Bernhardi, nach ihrer Scheidung dann den ihres zweiten Mannes, Baron Karl Georg von Knorring, an. Die erste Ausgabe der Wunderbilder ist unter dem Pseudonym ‚Sophie B.‘ erschienen (vgl. Haberstok 2001). 7 Der Name der Autorin wird in älteren Ausgaben öfters als ‚Günderode‘ wiedergegeben, in der neueren Forschung jedoch als ‚Günderrode‘. In dieser Studie wird i.A. die Schreibweise mit zwei r verwendet, bei Literaturangaben jedoch die Schreibung reproduziert, die die Herausgeber verwendet haben.
22 | 3 Das Erzähltextkorpus Die von Zeno.org als Grundlage verwendete Edition ist von 1922 (von Günderode 1922). Ein Vergleich mit der Erstausgabe der Herbsttage von 1805 (La Roche 1805) ergab, dass die ursprüngliche Schreibung und Zeichensetzung weitgehend beibehalten wurde, abgesehen von ein paar wenigen Tilgungen von Kommata und Absatzmarkierungen. Außerdem enthält der Zeno-Text an zwei Stellen textuelle Abweichungen, die sinnentstellend sind und vermutlich auf Digitalisierungsfehler zurückgehen (er statt es und Unsern statt Unfern). Auf die eigentliche Erzählung folgt ein kurzes Gedicht, das in den Herbsttagen nicht an an dieser Stelle zu finden ist. Auch dieses wurde ins Erzähltextkorpus übernommen, da nicht in die Gestalt der Zeno-Texte eingegriffen werden sollte. Die Textstruktur ist die eines Dialogs. Ein Sprecher, der Bramine, erzählt einem Zuhörer die Geschichte seines Lebens. Jedoch wird diese Struktur nur an einer Stelle deutlich, als der Zuhörer, etwa in der Mitte des Textes, mit einem Einwand unterbricht, auf den der Erzähler eingeht, bevor er fortfährt. Die Erzählhaltung ist damit zwar formal heterodiegetisch, aber de facto weitgehend homodiegetisch. Da das Thema die innere Entwicklung des Erzählers ist, steht die äußere Handlung sehr wenig im Vordergrund und der Text enthält ausführliche Reflexionen.
3.2.5 Kleist: Erdbeben Die Erzählung „Das Erdbeben in Chili“ von Heinrich von Kleist wurde erstmals 1807 im Morgenblatt für gebildete Stände unter dem Titel „Jeronimo und Josephe“ abgedruckt und erschien dann 1810 in den Erzählungen. Der Text von Zeno.org folgt der Kleist-Ausgabe in vier Bänden von 1978 (von Kleist 1978). Zum Textvergleich wurde die textkritische Münchner Ausgabe von 2010 herangezogen (von Kleist 2010a). Diese fußt auf der Quellenarbeit der historisch-kritischen Brandenburger Kleist-Ausgabe und greift weder in die Orthographie noch in die Interpunktion der Werke ein (vgl. von Kleist 2010b, 843). Der Vergleich zeigt, dass der Zeno-Text in Orthographie sowie Groß-KleinSchreibung und der Setzung von Apostrophen normalisiert ist. Auch einige der Hervorhebungen im Originaltext fehlen. Die Zeichensetzung allerdings, die bei Kleist gerade auch bei der Markierung von Wiedergabe sehr eigenwillig ist, entspricht dem Originaldruck. Nur an einer Stelle wird die Stellung eines Anführungszeichens und eines Doppelpunkts vertauscht, was wohl die Berichtigung eines Versehens im Originaltext ist. Außerdem enthält der Zeno-Text eine nicht korrekt zusammengeführte Worttrennung (Beschei denheit). Eine Auffälligkeit des Textes ist, dass er nur in drei Absätze untergliedert ist, was ebenfalls der Originalform entspricht.
3.2 Zur Textgestalt im Erzähltextkorpus |
23
Die Erzählhaltung ist heterodiegetisch, und die Sätze sind auffallend lang und verschachtelt mit eingeschobenen Passagen direkter Wiedergabe, die die Satzgrenzen z.T. verschwimmen lassen.
3.2.6 Tieck: Eckbert Das Kunstmärchen „Der blonde Eckbert“ von Ludwig Tieck erschien erstmals 1797 in dem Band Volksmärchen und wurde dann in den Phantasus (Erstdruck des relevanten ersten Bandes 1812) integriert, wofür es in eine Rahmenerzählung eingebunden und deutlich überarbeitet wurde. Die bei Zeno.org verfügbare Version folgt der Phantasus-Fassung, enthält aber keinerlei Elemente der Rahmenerzählung. Textgrundlage war die Tieck-Ausgabe in vier Bänden von 1975 (Tieck 1975), die sich an der Ausgabe letzter Hand, den Schriften (1828–1854), orientiert. Die Zeno-Version enthält einige Abweichungen von dieser Textvorlage, die wohl als Digitalisierungsfehler zu werten sind. So steht an zwei Stellen sinnentstellend Eng statt fing und in einer Textpassage sind scheinbar willkürlich Wörter hervorgehoben, ohne dass es dafür eine Entsprechung in der Vorlage gibt („[...] daß ihm sein Leben in manchen Augenblicken mehr wie ein seltsames Märchen, als wie ein wirklicher Lebenslauf erschien.“) Zusätzlich wurde ein Vergleich mit dem Text der historisch-kritischen TieckAusgabe von 1985 (Tieck 1985) durchgeführt, die sich am Erstdruck des Phantasus orientiert. Sie attestiert Tiecks Texten „eine wahrhaft anarchische Freiheit in Orthographie und Interpunktion“ (Tieck 1985, 1202). Während die Orthographie auch in der historisch-kritischen Ausgabe unter Wahrung des Lautstandes normalisiert ist, so dass kein genauer Abgleich möglich war, wird die Zeichensetzung originalgetreu reproduziert. Man kann feststellen, dass im Erstdruck alle Markierungen von direkter Wiedergabe fehlten. Im Zeno-Text (und der Ausgabe von 1975) hingegen ist diese konsequent markiert, wobei doppelte Anführungszeichen für einfache und einfache Anführungszeichen für eingebettete Wiedergaben verwendet werden. Auch an anderen Stellen weicht der Zeno-Text in der Zeichensetzung leicht vom Erstdruck ab und enthält zudem weniger Hervorhebungen. Die Erzählhaltung ist heterodiegetisch, das Märchen hat jedoch die Besonderheit, dass es eine homodiegetische Binnenerzählung enthält, die etwa zwei Drittel des Gesamttextes ausmacht.
24 | 3 Das Erzähltextkorpus 3.2.7 Hauff: Kalif „Die Geschichte von Kalif Storch“ von Wilhelm Hauff wurde erstmals im Märchen Almanach auf das Jahr 1826 für Söhne und Töchter gebildeter Stände veröffentlicht, der 1826 erschien. Sie ist zusammen mit fünf weiteren Kunstmärchen in eine Rahmenerzählung, „Die Karawane“, eingebettet. Der Textausschnitt, der in das Erzähltextkorpus integriert ist, umfasst die Erzählung ab ihrem Titel sowie einen Teil der Rahmenerzählung, die Überleitung zum nächsten Märchen. Der Zeno-Text folgt einer Ausgabe von 1970 (Hauff 1970a), welcher der letzte, von Hauff selbst betreuten Druck zugrunde liegt. Laut Herausgeberkommentar bewahrt die Fassung „Lautstand, Formenstand und Interpunktion; lediglich die Orthographie und Typographie wurden [...] modernisiert“ (Hauff 1970b, 871). Die Modernisierung bezieht sich nach Angaben der Herausgeber vor allem auf eine Vereinheitlichung von Hervorhebungen, die Tilgung funktionsloser Kommata und Apostrophen sowie auf die Normierung von Getrennt-Zusammen-Schreibung und Groß-Klein-Schreibung. Ansonsten wurden nur vorsichtige Vereinheitlichungen durchgeführt. Ein Vergleich mit dem Reprint der Erstausgabe bestätigt dies (vgl. Hauff 1991). Die Erzählung ist in fünf Abschnitte unterteilt, die in der Erstausgabe wie im Zeno-Text mit römischen Ziffern überschrieben sind. Der Text ist eine heterodiegetische Erzählung mit recht vielen Dialogpassagen. Eine Besonderheit ist, dass ein Teil der Rahmenerzählung am Ende des Textes mit ins Erzähltextkorpus übernommen wurde.
3.2.8 Hebbel: Kuh Der Erstdruck der Erzählung „Die Kuh“ von Friedrich Hebbel erfolgte 1849 in der Zeitschrift Die Presse. Der digitalen Version liegt eine Ausgabe von 1965 zugrunde (Hebbel 1965), welche sich auf die historisch-kritische Ausgabe von Richard Maria Weber von 1911 sowie die Ausgabe von Herrmann Krumm von 1913 stützt. Die Schreibweise wurde „[unter] Wahrung des ursprünglichen Lautstandes [...] behutsam der modernen Orthographie angeglichen“ (Hebbel 1965, 813), die Zeichensetzung jedoch unverändert beibehalten. Ein Vergleich mit dem Originalabdruck bestätigt dies (vgl. Hebbel 1849). Bemerkenswert an der Textgestalt ist das vollständige Fehlen von Absätzen. Im Originaldruck findet sich ein einziger, ansonsten ist der Text, dem Zeitungsformat geschuldet, sehr platzsparend gesetzt. Außerdem werden die Anführungszeichen bei direkter Wiedergabe so verwendet, dass sie eingebettete Rahmenformeln mit umschließen. Die Erzählhaltung ist heterodiegetisch. Der erste Teil des Textes besteht fast vollständig aus einem Selbstgespräch, durchsetzt von kurzen Handlungs-
3.2 Zur Textgestalt im Erzähltextkorpus |
25
beschreibungen, der zweite Teil ist Handlungsbeschreibung mit nur kurzen Einschüben direkter Rede.
3.2.9 May: Ziege Die Erzählung „Die verwünschte Ziege. Ein Schwank aus dem wirklichen Leben“ von Karl May wurde viermal veröffentlicht, davon zweimal mit verändertem Titel („Die Wette“ und „Die verhexte Ziege“). Außerdem stellt sie eine Überarbeitung der früher entstandenen, aber später veröffentlichten Erzählung „Ziege oder Bock“ dar (vgl. May 2010, 484–485). Der Zeno-Text beruht auf einem Reprint der Erstveröffentlichung in der Zeitschrift Weltspiegel aus dem Jahre 1878, welches von der historisch-kritischen May-Ausgabe als „zuverlässiger und manuskriptnaher Text“ (May 2010, 485) bewertet wird. Ein Vergleich mit der historischkritischen Ausgabe bestätigt, dass weder Orthographie noch Zeichensetzung normalisiert wurden. Der Text im Erzähltextkorpus weist somit altertümliche Schreibweisen und einige Inkonsistenzen auf, so auch einen Wechsel zwischen einfachen und doppelten Anführungszeichen zur Markierung von Eigennamen. Außerdem wird bei einer eingeschobenen Rahmenformel das Komma konsequent vor das schließende Anführungszeichen gesetzt. Anzumerken ist, dass der Zeno-Text vor Beginn der eigentlichen Erzählung noch einen ausführlichen Quellennachweis enthält und damit der Text des Erzähltextkorpus mit dem größten Anteil an Meta-Informationen ist. Die Erzählhaltung ist heterodiegetisch und der Text stark dialoglastig mit deutlichen Kennzeichen gesprochener Sprache, wie Stammeln, Ausrufen und abgebrochenen Wörtern.
3.2.10 Schnitzler: Ypsilon Die Erzählung „Mein Freund Ypsilon. Aus den Papieren eines Arztes“ von Arthur Schnitzler wurde 1889 in der Zeitschrift An der schönen blauen Donau erstmals veröffentlicht (Schnitzler 1889) und erschien 1932 nochmals in Die kleine Komödie, einer Sammlung früher Novellen (Schnitzler 1932). Der Zeno-Text beruht auf einer Ausgabe von Schnitzlers erzählenden Schriften von 1961 (Schnitzler 1961a). Das Nachwort der Ausgabe macht keine eindeutige Aussage darüber, welche Textausgabe als Grundlage genommen wurde (vgl. Schnitzler 1961b, 989–991). Vermutlich handelt es sich um die spätere Ausgabe; da die inhaltlichen Unterschiede der beiden Fassungen jedoch, anders als bei Bürger: Münchhausen und Tieck:
26 | 3 Das Erzähltextkorpus Eckbert, sehr gering sind, wird dennoch das Jahr der Erstveröffentlichung für die chronologische Einordnung des Textes im Erzähltextkorpus verwendet. Zieht man zum Vergleich die Erstausgabe heran, zeigen sich einige Abweichungen: Zum einen gibt es an mehreren Stellen kleinere textuelle Änderungen, die auf eine Überarbeitung hindeuten. Auch in der Schreibung wurden Veränderungen vorgenommen, vor allem was Groß-Klein-Schreibung, ZusammenGetrennt-Schreibung und die Verwendung von Apostrophen betrifft, welche im Zeno-Text oft getilgt wurden. Auch einzelne Wörter wurden in ihrer Schreibung modernisiert. Der Erstdruck enthält Stellen, an denen mehrere Punkte oder Gedankenstriche aneinander gereiht werden. Diese sind im Zeno-Text auf drei normiert, während in der Erstausgabe auch mehr hintereinander folgen können. Zur Markierung eingebetteter direkter Wiedergabe wird in der Erstausgabe der gleiche Typ Anführungszeichen verwendet wie für normale Wiedergabe. Zudem steht, wie in May: Ziege, das Komma bei einer eingeschobenen Rahmenformel stets vor statt hinter dem schließenden Anführungszeichen. Die Handhabung der Anführungszeichen im Zeno-Text folgt hingegen der heutigen Konvention. Wenn man den Zeno-Text stattdessen mit der späteren Fassung in der Kleinen Komödie vergleicht (Schnitzler 1932), sind die Texte fast identisch. Allerdings gibt es auch hier drei sinnverändernde Abweichungen der Zeno-Version (Halb träum statt Halbtraum; schleppen dem statt schleppendem; ruhigem statt unruhigem). Erwähnenswert ist noch, dass die Grabinschrift, die im Text zitiert wird, in beiden gedruckten Ausgaben wie eine Grabplatte dargestellt wird, die den Textfluss unterbricht. Im Zeno-Text fehlt diese graphische Umsetzung natürlich, die Inschrift hat jedoch einem eigenen Absatz und ist in Großbuchstaben formatiert. Nicht reproduziert sind die Sterne, die zwischen den letzten vier Absätzen eingeschoben sind, und diese vom Rest der Erzählung und voneinander absetzen. Die Erzählung ist homodiegetisch mit dialogischen und rein narrativen Passagen. Auffallend ist die bereits erwähnte Tendenz zur Verwendung von Gedankenstrichen und aneinander gereihten Punkten, die das ‚Verschweben-Lassen‘ von Sätzen oder auch einen dramatischen Sprechgestus signalisieren.
3.2.11 Janitschek: Weib Die Erzählung „Darüber kommt kein Weib hinweg“ von Maria Janitschek wurde 1902 in dem Band Die neue Eva erstmals veröffentlicht. Diese Ausgabe liegt auch der Version bei Zeno.org zugrunde. Zum Textvergleich wurde die zweite Auflage herangezogen, die aus dem gleichen Jahr stammt und in der Paginierung mit dem Zeno-Text übereinstimmt (Janitschek 1902).
3.2 Zur Textgestalt im Erzähltextkorpus |
27
Die Orthographie des Textes entspricht bis auf wenige Abweichungen den heutigen Konventionen, allerdings wird grundsätzlich ss statt ß verwendet. An einer Stelle wurde das Wort litterarisch in der Druckfassung in literarisch im Zeno-Text geändert. Bei der Setzung von Anführungszeichen sind einige Unterschiede zu beobachten: Ein öffnendes Anführungszeichen fehlt im Zeno-Text, und ein Fehler bei der Kombination von einfachen und doppelten Anführungszeichen ist in der digitalen Version teilweise bereinigt, indem die einfachen Anführungszeichen entfernt wurden. Die Anführungszeichen bei der ersten direkten Wiedergabe im Text fehlen hingegen auch in der Druckversion. Der Text ist heterodiegetisch, jedoch stark dialoglastig. Er enthält nur im letzten Drittel einen rein erzählerischen Einschub.
3.2.12 Heym: Irre Die Erzählung „Der Irre“ von Georg Heym wurde 1913 in dem Band Der Dieb. Ein Novellenbuch erstmals veröffentlicht. Der Zeno-Text stützt sich auf die HeymGesamtausgabe von 1962 (Heym 1962). Diese folgt dem Druck von 1913, gibt aber an, dass „die Texte auf Grund der erhaltenen Entwürfe revidiert und an manchen Stellen von Fehlern befreit“ (Heym 1962, 890) wurden. Ein Vergleich des digitalen Textes mit der Erstausgabe (Heym 1913) ergibt Folgendes: In der Schreibung, die weitgehend der heutigen Norm entspricht, wurden an einigen Stellen leichte Veränderungen vorgenommen, die fast ausschließlich Zusammen-Getrennt- oder Groß-Klein-Schreibung betreffen. Auch textuelle Änderungen sind zu beobachten: duftig im Zeno-Text statt luftig im Erstdruck, und, weniger sinnverändernd, der alt-böse Feind im Zeno-Text statt der alte, böse Feind im Erstdruck. Einer der Absätze im Originaltext ist in der Zeno-Fassung nicht reproduziert – dies liegt vermutlich daran, dass die Absätze in der Ausgabe von 1962 nicht eingerückt und damit nicht immer klar markiert sind. Die Zeichensetzung ist weitgehend unverändert, allerdings gibt es bei der Markierung von Wiedergabe Abweichungen. So fügt der Zeno-Text an zwei Stellen AnführungszeichenMarkierungen für direkte Wiedergabe ein. Jedoch wird auch im Zeno-Text die Markierung von direkter Wiedergabe nicht konsistent gehandhabt – es treten sowohl markierte als auch unmarkierte Fälle auf. Außerdem gibt es im Erstdruck mehrere Fälle, in denen Anführungszeichen und Komma vor der eingeschobenen Rahmenformel vertauscht sind, wie bei den Originalen von Schnitzler: Ypsilon und May: Ziege. Der Zeno-Text normalisiert die Stellung entsprechend der heutigen Konvention. Auch die Anzahl von Auslassungspunkten wird auf drei normiert. Die Erzählhaltung ist heterodiegetisch und Heym: Irre nimmt im Erzähltextkorpus insofern eine Sonderstellung ein, als die Erzählweise sehr stark personal
28 | 3 Das Erzähltextkorpus ist, und der Text zahlreiche Beispiele von freier indirekter Wiedergabe sowie Passagen enthält, die die Fantasien des wahnsinnigen Protagonisten wiedergeben.
3.2.13 Kafka: Gracchus „Der Jäger Gracchus“ ist, wie so viele Texte Franz Kafkas, erst postum veröffentlicht worden. Die erste Veröffentlichung erfolgte 1913 durch Max Brod in der Sammlung Beim Bau der Chinesischen Mauer. Die Fassung bei Zeno.org stützt sich auf die Kafka-Gesamtausgabe von 1950-1974 (die sogenannte ‚Brod-Ausgabe‘) (Kafka 1974). Ein Vergleich des Zeno-Textes mit dem Reprint der Erstausgabe (Kafka 2008) ergab verhältnismäßig wenige Abweichungen. Die Orthographie ist unverändert und entspricht weitestgehend den heutigen Konventionen. Auffallend sind ein Fehler in der Überschrift des Zeno-Textes – Grachhus statt Gracchus – der wohl auf ein Versehen bei der Eingabe der Meta-Informationen zurückgeht, sowie eine sinnverändernde Abweichung (Ware im Zeno-Text statt Waage im Erstdruck) im ersten Abschnitt, vermutlich eine Korrektur. Ein Absatzumbruch des Erstdrucks ist in der digitalen Version nicht reproduziert. Im Bereich der Interpunktion fällt neben wenigen leichten Veränderungen vor allem die Tilgung von Kommata bei der Aneinanderreihung mehrerer attributiv gebrauchter Adjektive auf. Die Markierung von eingebetteter direkter Rede ist im Erstdruck inkonsequent gehandhabt, was im Zeno-Text vereinheitlicht wurde. Die Erzählhaltung des Textes ist heterodiegetisch; die Erzählung gliedert sich in einen rein beschreibenden ersten Teil und einen fast rein dialogischen zweiten Teil.
3.2.14 Zusammenfassung Tabelle 3.2 zeigt eine Zusammenfassung, inwieweit bei den einzelnen Texten Eingriffe in Orthographie und Interpunktion stattgefunden haben. Wie man sieht, ist die Orthographie bei vielen der älteren Texte modernisiert, was die automatische Verarbeitung erleichtert. Jedoch weisen einige Texte durchaus Varianten in Schreibung und Zeichensetzung auf, die nicht der heutigen Norm entsprechen. Die Qualität der digitalen Versionen ist recht gut, sie enthalten aber auch einige Fehler und vereinzelte Textpassagen, die nicht zur eigentlichen Erzählung gehören. Ihr Zustand ist damit realistisch für Material, das ohne aufwendige Vorverarbeitung verfügbar ist.
3.2 Zur Textgestalt im Erzähltextkorpus |
29
Tab. 3.2. Veränderungen der Zeno-Texte gegenüber den Erstdrucken
Text
Orthographie
Interpunktion
Musäus: Entführung
ja
wenig
Bürger: Münchhausen
ja
ja
Bernhardi: Belinde
nein
nein
Günderrode: Bramine
nein
wenig
Kleist: Erdbeben
ja
nein
Tieck: Eckbert
ja
ja
Hauff: Kalif
ja
wenig
Hebbel: Kuh
ja
nein
May: Ziege
nein
nein
Schnitzler: Ypsilon
ja
ja
Janitschek: Weib
nein
ja
Heym: Irre
wenig
ja
Kafka: Gracchus
nein
wenig
Als Testdaten für die automatische Erkennung sind die Texte des Erzähltextkorpus als eher schwierig einzuschätzen, da sie sowohl in der äußeren Form als auch in den Erzählweisen recht unterschiedlich sind. Die Studie mit einem solchen Korpus hat jedoch den Vorteil, dass Beobachtungen zum Verhalten von Wiedergabe und den Erfolgschancen für deren Erkennung, die auf dieser Basis gemacht werden, ein Stück weit allgemeingültiger sind als bei einem sehr homogenen Korpus. Zudem können mehr unterschiedliche Phänomene am Erzähltextkorpus demonstriert werden.
4 Das Phänomen Wiedergabe Die Wiedergabe von Aussagen und Äußerungen ist ein Phänomen, das verschiedene Disziplinen berührt. So sind etwa die Unterscheidung von Aussagen de re (über die Dinge der Welt) und de dicto (über Sprache/Aussagen) sowie der Wahrheitswert zitierter Aussagen ein Thema der formalen Logik. Gesellschaftliche Normen, wie und unter welchen Bedingungen fremde Äußerungen im eigenen Text wiedergegeben werden, gehören zum Bereich der Soziologie. Die Modellierung verschiedener Wissens- und Bezugsräume ist ein kognitionswissenschaftliches Thema. Da in dieser Studie der Fokus auf Wiedergabe in literarischen Texten liegt, werden diese Aspekte nicht oder nur wenig berührt. Stattdessen steht im Vordergrund, welche Bedeutung das Phänomen in der Narratologie hat und wie es in diesem Kontext behandelt wird. Unterstützend wird die linguistische Forschung ausgewertet, da diese sich systematisch mit sprachlichen Strukturen beschäftigt und damit wichtige Hinweise liefert, wie Wiedergabe sich an der Textoberfläche zeigt. Es folgt zunächst ein kurzer Überblick, aus welchen Blickwinkeln das Phänomen Wiedergabe in Linguistik und Literaturwissenschaft betrachtet wird. Anschließend werden die Konstanten narratologischer Klassifkationssysteme beschrieben und darauf eingegangen, nach welchen Gesichtspunkten Wiedergabeskalen in der Narratologie strukturiert werden.
4.1 Wiedergabe in Linguistik und Literaturwissenschaft Bei der Behandlung von Wiedergabe in Linguistik und Literaturwissenschaft gibt es durchaus Überschneidungspunkte. Beide Disziplinen beschäftigen sich mit den Feinheiten dessen, was mit Sprache ausgedrückt und bewirkt werden kann. Prinzipiell liegt der Unterschied darin, dass die linguistische Forschung sich mit Sprachstrukturen an sich beschäftigt, die literaturwissenschaftliche – bzw. narratologische – Forschung mit Erzählstrukturen in fiktionalen Texten. Der Blickwinkel der Linguistik ist also allgemeiner und zugleich näher an der Sprachoberfläche, da sie sich für lexikalische und grammatische Eigenheiten interessiert. Dafür beschäftigt sie sich kaum mit der erzählerischen Wirkung, die durch verschiedene Wiedergabetechniken erzielt wird und die in der Narratologie eine zentrale Rolle spielt. In dezidiert linguistischen Untersuchungen wird entweder nicht zwischen literarischer und nicht-literarischer Sprache unterschieden oder, v.a. bei empirischen Untersuchungen, oft nicht-literarische Sprache in den Vordergrund
4.1 Wiedergabe in Linguistik und Literaturwissenschaft
|
31
gestellt (z.B. Steyer 1997; Short et al. 2001; Heringer 2006). Das Phänomen Wiedergabe wird aus zwei Blickwinkeln behandelt: Entweder wird ein Inventar an unterschiedlichen Typen systematisch strukturell beschrieben (vgl. z.B. Weinrich 2005; Kaufmann 1976), oder es wird von einem sprachlichen Phänomen (typischerweise dem Konjunktiv) ausgegangen und dessen Verwendung in verschiedenen Kontexten beschrieben, von denen die Wiedergabe einer ist (vgl. z.B. Eisenberg 1999). Von zentraler Bedeutung ist fast immer die Unterscheidung zwischen zwei Sprechsituationen, wobei in der einen auf die andere referiert wird. Typisch ist die Kontrastierung einer ‚Originaläußerung‘ mit ihrer Wiedergabe, um die sprachlichen Unterschiede – z.B. deiktische Verschiebungen – zu exemplifizieren (vgl. z.B. Kaufmann 1976, 15–18; Weinrich 2005, 903–909, Zifonun et al. 1997, 1757–1758). Nicht-direkte Wiedergabe wird also oft als Transformation einer ursprünglichen Äußerung erklärt. Allerdings weisen einige linguistische Untersuchungen durchaus darauf hin, dass diese Originaläußerung fiktiv sein kann und auch direkte Wiedergabe nicht unbedingt Anspruch auf Wortwörtlichkeit erhebt (vgl. z.B. Dudenredaktion 2005; Zifonun et al. 1997; Fabricius-Hansen 2002). Bei der Beschreibung des Verbmodus Konjunktiv hat dessen Funktion zur Markierung von Wiedergabe einen festen Platz, was sich schon daran zeigt, dass in mehreren Darstellungen ein eigener Name dafür definiert wird. Die Rede ist vom ‚Referatskonjunktiv‘ oder ‚Indirektheitskonjunktiv‘. Diese letzte Bezeichnung, die auch von Fabricius-Hansen und der Duden-Grammatik übernommen wird (vgl. Fabricius-Hansen 2001; Dudenredaktion 2005, § 762), geht auf die IDS-Grammatik zurück, die ‚Indirektheitskontexte‘ als einen zentralen Funktionskreis des Konjunktivs bezeichnet. An die Beschreibung dieser Funktion wird nicht selten eine Theorie der Modellierung von Wiedergabe insgesamt geknüpft. So definiert die IDS-Grammatik: Indirektheitskontexte sind Kontexte, also Verwendungszusammenhänge, in denen der Sprecher ein Stück propositionales Wissen nicht unmittelbar als für ihn selbst zum Sprechzeitpunkt aktuelles Wissen anspricht, sondern es wiedergibt, indem er sich auf eine andere Quelle rückbezieht. (Zifonun et al. 1997, 1753)
32 | 4 Das Phänomen Wiedergabe Ähnlich führt Fabricius-Hansen aus: Mit dem reportiven Konjunktiv markiert der Narautor8 explizit, dass das Geschehen, von dem die Rede ist, aus figuraler Sicht (‚de dicto‘) beschrieben wird; der Konjunktiv ist ein narautoral motiviertes Signal für die Verschiebung des epistemischen Jetzt. (Fabricius-Hansen 2001, 4)
In eine ähnliche Richtung geht die Darstellung von Bernhardt/Pedersen 2007, die zur Erklärung die Mental-Space-Theorie von Fauconnier (vgl. Fauconnier 1994) heranziehen und folgern, dass indirekte Wiedergabe „zu einem Evidentialisraum [gehört], in dem eine andere mentale Repräsentation als die des Produzenten S1 indirekt wiedergegeben wird“ (Bernhardt/Pedersen 2007, 160). Der Konjunktiv sei eines der Mittel, mit dem der Wechsel in diesen mentalen Raum signalisiert wird. In allen drei Beispielen wird, ausgehend von der Modusbetrachtung, die Beschreibung von Wiedergabe über die Annahme verschiedener Wissensräume modelliert, wobei vor allem bei Fabricius-Hansen die Nähe zur narratologischen Sichtweise offensichtlich ist. In der Literaturwissenschaft findet die Beschäftigung mit Wiedergabe oft im Kontext einer übergreifenden Erzähltheorie statt (z.B. Genette 1998; Stanzel 2001; Martinez/Scheffel 2007; Leech/Short 2007). In anderen Darstellungen liegt der Fokus dezidiert auf einem Teilbereich, etwa nur auf der Wiedergabe von Bewusstseinsinhalten (z.B. Palmer 2004; Cohn 1978), oder einer bestimmten Wiedergabeform, typischerweise der ‚erlebten Rede‘ (z.B. Fludernik 1993). Eine Konstante ist, dass Wiedergabe stets in Zusammenhang mit Figurendarstellung und Erzählweise gesetzt wird. Im Gegensatz zu linguistischen Untersuchungen ist die Beschreibung der Wiedergabe als Transformation noch problematischer, da innerhalb des fiktionalen Werks, im Gegensatz zur realen Welt, nur in den seltensten Fällen eine ‚Originaläußerung’ existiert. Das Modell wird zwar auch gelegentlich zur Veranschaulichung verwendet, aber seltener und deutlich knapper als in linguistischen Darstellungen. Eine weitere Gewichtungsverschiebung ergibt sich aus der besonderen Rolle, die der Erzähler im Gegensatz zu den Figuren einnimmt – eine Ungleichverteilung, die es bei der Wiedergabe im nicht-literarischen Kontext nicht gibt. Bei literaturwissenschaftlichen Darstellungen liegt der Schwerpunkt normalerweise auf der Wirkung der verschiedenen Arten der Wiedergabe in Hinblick auf die Figurendarstellung bzw. das Verhältnis zwischen Erzähler und Figur. Formale Merkmale treten dabei oft in den Hintergrund. Die Entwicklung eines Kategorien-
8 Mit ‚Narautor‘, einer Zusammenziehung aus ‚Autor‘, dem Textproduzenten, und ‚Narrator‘, dem fiktiven Erzähler, bezeichnet Fabricius-Hansen die Instanz, die die Sprecherrolle inne hat (vgl. Fabricius-Hansen 2001, 2).
4.2 Die Konstanten narratologischer Kategoriesysteme
| 33
systems und die formale Abgrenzung verschiedener Wiedergabeformen muss in einer narratologischen Darstellung nicht einmal angestrebt sein, trotz intensiver Beschäftigung mit dem Phänomen (vgl. z.B. Schmid 2005). Es gibt mehrere Forscher, die ihre Studien zur Wiedergabe explizit auf der Grenzlinie zwischen den beiden Disziplinen ansiedeln, so etwa Banfield 1982; Fludernik 1993; Toolan 2001; Leech/Short 2007. Diese Arbeiten zeichnen sich dadurch aus, dass sie die Systematik linguisitischer Sprachbetrachtung zur Analyse literarischer Texte verwenden. Solche Ansätze sind für diese Studie von besonderem Interesse, da sie den Blick auf formale Indikatoren richten, die an der Textoberfläche identifizierbar sind, und diese mit literaturwissenschaftlich relevanten Funktionen verknüpfen. Genau dies ist auch eine Voraussetzung für die automatische Erkennung. Im Folgenden wird zunächst die narratologische Perspektive im Vordergrund stehen, da diese die Leitlinie für die manuelle Annotation darstellt. Linguistische Untersuchungen zu verschiedenen Aspekten der Wiedergabe werden jedoch im Zusammenhang mit Wiedergabeindikatoren bei der regelbasierten Erkennung (Abschnitt 10) näher beleuchtet.
4.2 Die Konstanten narratologischer Kategoriesysteme Die Haupttypen von Wiedergabe, die man als gemeinsamen Nenner in den verschiedensten narratologischen Betrachtungen findet, sind die Formen direkte Wiedergabe und indirekte Wiedergabe, die auch in der Linguistik zentral sind, sowie die freie indirekte Wiedergabe (im Deutschen bekannter unter dem Namen ‚erlebte Rede‘). Zumeist behandeln die Darstellungen sowohl die Wiedergabe von wörtlicher Rede als auch die von Gedanken und Bewusstseinsinhalten einer Figur. Nicht immer gibt es jedoch eine scharfe Trennung zwischen diesen beiden Arten von Inhalt, und der Begriff ‚Rede‘ wird nicht selten in einem übergreifenden Sinne verwendet (z.B. bei Genette 1998; Schmid 2005). Wird die Unterscheidung zwischen der Wiedergabe von Rede und der von Gedanken explizit gemacht, so geschieht dies üblicherweise durch die Definition paralleler Kategoriesysteme für die beiden Typen (vgl. z.B. Martinez/Scheffel 2007; Leech/Short 2007). Die Wiedergabe von geschriebenem Text wird nur selten thematisiert, taucht jedoch in dem System von Semino/Short in Form eines weiteren parallelen Kategoriensystems auf (vgl. Semino/Short 2004). Die Anfänge der theoretischen Betrachtung von Wiedergabe gehen auf die Antike zurück. Platon unterscheidet im dritten Buch von Der Staat Fälle, in denen ein Dichter in seiner eigenen Stimme spricht (haple diegesis, ‚reine Erzählung‘), und solche, in denen er die Stimme einer Figur nachahmt (mimesis‚ ‚Nach-
34 | 4 Das Phänomen Wiedergabe ahmung‘) (vgl. Platon 1990, 392a–394a). Schon in der antiken Rhetorik werden die Begriffe ‚oratio recta‘ (direkte Wiedergabe) und ‚oratio obliqua‘ (indirekte Wiedergabe) verwendet (vgl. McHale 2011, Abschn. 10). Diese kann man als die beiden Kernkategorien von Wiedergabe in der Narratologie betrachten. Die Grundunterscheidung zwischen der direkten Präsentation der Figurenstimme und deren Vermittlung durch die Stimme des Erzählers wurde in einer Vielzahl moderner Ansätze aufgegriffen, mit unterschiedlicher Gewichtung und Wertung. Im Folgenden werden prototypische Fälle der Grundtypen kurz illustriert. Im Fall der direkten Wiedergabe ist die Stimme der Figur von der Rede des Erzählers klar abgegrenzt. Der Text, der der Figur zugeordnet ist, wird meist durch eine einleitende Wendung eingerahmt und typographisch gekennzeichnet. (1)
a. „Willst du morgen vorbeikommen?“, fragte sie. b. Er dachte: „Das ist aber sehr nett von ihr!“
Dem entgegen steht die indirekte Wiedergabe, bei der die Stimme der Figur durch die Stimme des Erzählers vermittelt wird. Der wiedergegebene Inhalt ist typischerweise einer Rahmenformel grammatisch untergeordnet und Pronomen, Deiktika und Tempus sind dem Referenzrahmen des Erzählers angeglichen. (2)
a. Ob er am nächsten Tag vorbeikommen wolle, fragte sie. b. Er dachte, dass das sehr nett von ihr sei.
Die Beispiele 2a und 2b illustrieren die prototypische Form der indirekten Wiedergabe, es gibt jedoch noch viele weitere Möglichkeiten, Rede- oder Bewusstseinsinhalte im Erzählertext abzubilden. So könnte der Inhalt der Aussagen in den Beispielen 1a und 1b auch so wiedergegeben werden: (3)
a. Sie lud ihn für den nächsten Tag ein. b. Er fand das sehr nett von ihr.
Nicht alle Darstellungen gehen auf Fälle wie 3a und 3b ein und unterscheiden sie von der indirekten Wiedergabe. Einige definieren jedoch eine weitere Wiedergabekategorie für solche Fälle und nennen sie ‚erzählte‘ oder ‚berichtete‘ Wiedergabe (z.B. Leech/Short 2007; Genette 1998 ). Bei dieser Form wird auf eine Rede oder einen Gedanken der Figur Bezug genommen, ohne dass eine klare Form mit Rahmenformel und abhängiger Proposition vorliegt. In der Forschung hat das Interesse an solchen stark erzählerischen Wiedergaben erst gegen Ende des 20. Jahrhunderts zugenommen, vor allem im Zusammenhang mit der Wiedergabe von Bewusstseinsinhalten (vgl. z.B. Cohn 1978; Palmer 2004). Die dritte Wiedergabekategorie, die in der narratologischen Forschung sehr große Beachtung gefunden hat, ist im Deutschen am bekanntesten unter dem Namen ‚erlebte Rede‘, im Französischen als ‚style indirect libre‘ und im Englischen
4.2 Die Konstanten narratologischer Kategoriesysteme
| 35
als ‚free indirect discourse‘. Die Bezeichnung ‚erlebte Rede‘ wurde 1921 von Etienne Lorck geprägt und bezieht sich auf die Annahme, dass diese Wiedergabeform das unmittelbare ‚Erleben‘ des Bewusstseins der Figur erlaube (vgl. Schmid 2005, 215). Der Begriff ist insofern etwas ungünstig, als ‚Rede‘ an gesprochene Sprache denken lässt, es aber meist Gedanken bzw. Bewusstseinsinhalte sind, die in dieser Form wiedergegeben werden. Darum wird im Folgenden als Bezeichnung für dieses Phänomen eine Übersetzung des englischen Begriffs verwendet: ‚freie indirekte Wiedergabe‘. Dieser lässt sich leichter handhaben, wenn zwischen der Wiedergabe von Gedanken (‚freie indirekte Gedankenwiedergabe‘) und Rede (‚freie indirekte Redewiedergabe‘) unterschieden werden soll, und fügt sich besser in das Raster von direkter und indirekter Wiedergabe ein. Freie indirekte Wiedergabe bezeichnet das Phänomen, dass ein Textabschnitt sowohl Kennzeichen aufweist, die auf die Stimme der Figur verweisen, als auch solche, die auf die Stimme des Erzählers verweisen. Merkmale der Erzählerstimme sind typischerweise die Tempusform (meist Präteritum) und die Personalpronomen (dritte statt erste oder zweite Person). Merkmale der Figurenstimme können zeit- und ortsbezogene Marker wie jetzt und hier sein. Zudem sind Wortwahl und Struktur der freien indirekten Wiedergabe an Mustern der direkten Wiedergabe orientiert; sie weist also häufig die Form von Fragen oder Ausrufen auf und verwendet Ausdrücke, die für die Sprache der Figur typisch sind. Freie indirekte Wiedergabe vermittelt damit den Eindruck direkter Wiedergabe, die in Tempus und Person an den Erzählertext angepasst ist: (4)
a. Wollte er morgen vorbeikommen? b. Das war aber sehr nett von ihr!
Freie indirekte Wiedergabe rückte deutlich später in den Fokus der literaturwissenschaftlichen Forschung als die beiden klassischen Grundformen direkte und indirekte Wiedergabe. Sie wurde um die Jahrhundertwende zum 20. Jahrhundert ‚entdeckt‘ und hat seither sehr große Aufmerksamkeit erfahren (vgl. McHale 2011, Absch. 10). Die genaue Wirkung dieser Wiedergabeform und ihr Status wurden vielfach diskutiert, wobei ein Hauptstreitpunkt die Frage nach der Haltung des Erzählers bei freier indirekter Wiedergabe ist und ob man von einer Zweistimmigkeit von Erzähler- und Figurenrede sprechen kann. Zunächst wurde die freie indirekte Wiedergabe als ein neueres, speziell literarisches Stilmittel gesehen, beschränkt auf heterodiegetische Erzähltexte mit dem Erzähltempus Präteritum. Neuere Untersuchungen zeigen jedoch, dass sie auch in der ersten und zweiten Person und in Sätzen mit Tempus Präsens auftritt (vgl. z.B. Fludernik 1993). Ihre Wurzeln reichen zurück bis ins Mittelalter und darüber hinaus (vgl. McHale 2011, Abschn. 10). Zudem ist die freie indirekte Wiedergabe nicht nur in vielen verschiedenen Sprachen (vgl. von Roncador 1988, 136f), sondern auch in nicht-literarischen und so-
36 | 4 Das Phänomen Wiedergabe gar mündlichen Kontexten nachzuweisen (vgl. z.B. Bredel 1999, 123, Schank 1989, 267). Die drei Wiedergabetypen direkt, frei-indirekt und indirekt kann man als Konstanten in allen neueren Kategoriesystemen betrachten. In verschiedenen narratologischen Darstellungen werden noch weitere Kategorien hinzugefügt, v.a. im erzählerischen Bereich, oder auch Kategorien in übergreifende Gruppen zusammengefasst.
4.3 Zur Konstruktion narratologischer Wiedergabeskalen Anstatt die Kategoriesysteme verschiedener Narratologen detailliert zu vergleichen, sollen an dieser Stelle nur wenige exemplarisch herausgegriffen werden. Der Schwerpunkt liegt dabei darauf, welche prinzipiellen Überlegungen aus narratologischer Sicht hinter der Idee von Wiedergabekategorien stehen. Dies schärft den Blick dafür, welche Aspekte von Wiedergabe für die Narratologie überhaupt von Interesse sind und beeinflusst maßgeblich die Argumentation bei der Abgrenzung von Kategorien. Die Welt, die in einem fiktionalen Text präsentiert wird, ist kein exaktes Abbild der realen Welt, sondern gehorcht eigenen Regeln und Konventionen, die sich im Laufe der Literaturgeschichte etabliert und auch verändert haben. Wenn man in der realen Welt noch mit einigem Recht von der Vorstellung ausgehen kann, dass eine Originaläußerung von einer anderen Person wiedergegeben und dabei transformiert wird, so ist bei literarischen Texten nur das objektiv vorhanden, was im Text präsentiert wird. Es gibt also nur in den seltensten Fällen so etwas wie ein Original, nämlich dann, wenn innerhalb der Textwelt dieselbe Äußerung mehrmals wiedergegeben und dabei transformiert wird. Es gibt auch keine Personen – literarische Figuren werden allein durch den Text konstruiert. Wie also kann man überhaupt erklären, was Wiedergabe in einem literarischen Text bedeutet und wie die verschiedenen Techniken sich zueinander verhalten?
4.3.1 Mimesis Mit dem Begriff ‚Mimesis‘ (Nachahmung), der aus der Darstellung von Platon kommt, wurden in der Wiedergabeforschung zwei verschiedene Konzepte verbunden und oftmals vermischt: einerseits die Technik, dass ein Autor mit der Stimme seiner Figur spricht statt mit seiner eigenen, was im Wesentlichen der Verwendung bei Platon entspricht; andererseits die getreue Nachahmung dessen, was wir als Realität wahrnehmen (vgl. McHale 2011, Abschn. 14).
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 37
Die letztere Bedeutung ist problematisch, denn es gibt Argumente dafür, dass Mimesis im Sinne einer tatsächlichen, getreuen Wiedergabe einer Äußerung prinzipiell nicht möglich ist, da es Faktoren wie Stimme und Tonfall gibt, die nicht reproduziert werden können. Hinzu kommt, dass gerade in der Literatur die Darstellung gesprochener Sprache stark konventionalisiert ist. Mit einem Transskript einer realen Konversation hat sie wenig gemein. Dialektale Ausdrücke und nicht-normgerechte Schreibung oder Grammatik werden nicht realitätsgetreu verwendet, sondern als Metaphern und Signale, um den Eindruck einer bestimmten Sprechweise zu vermitteln und damit eine Figur zu charakterisieren (vgl. Leech/Short 2007, 128–139). Eine Untersuchung der Dialoggestaltung in deutschen und finnischen Romanen hat ergeben, dass die Autoren aus den möglichen Mitteln, Mündlichkeit darzustellen, individuell eine Auswahl treffen und dabei von Faktoren wie ästhetischen Zielen und gesellschaftlichen Erwartungen der Entstehungszeit beeinflusst sind (vgl. Schwitalla/Tiittula 2009, 240f).9 Darüber hinaus kann auch bei direkter Wiedergabe signalisiert werden, dass sie eben nicht eine Originaläußerung getreu nachahmt. Dies geschieht, indem klar gemacht wird, dass keine Originaläußerung stattgefunden hat (z.B. Wenn sie hier wäre, würde sie sagen: „Nur über meine Leiche!“; vgl. zu nicht-faktischen Wiedergaben auch Abschnitt 5.5.2), oder indem Elemente offensichtlich nicht korrekt reproduziert werden (z.B. Ersetzung von Namen durch So-und-so). Roncador spricht in diesem Zusammenhang von ‚nichtwörtlicher direkter Rede‘ (vgl. von Roncador 1988, 89–102). Bei der Konstruktion von Wiedergabeskalen wird zudem häufig stillschweigend angenommen, dass die beiden Bedeutungen des Mimesis-Begriffs miteinander korrelieren, also dass eine Wiedergabe umso realitätsgetreuer und lebensechter ist, je direkter sie erfolgt. Dies ist jedoch nicht der Fall. Mit derselben Form von Wiedergabe können ganz verschiedene Grade von ‚Realitätsnachahmung‘ erzielt werden; stark stilisierte Fälle von direkter Wiedergabe sind ebenso möglich wie sehr figurennahe indirekte Wiedergabe. Folglich können die formalen Wiedergabetechniken nicht nach dem Grad an realitätsnaher Nachahmung geordnet werden, da es sich um zwei unterschiedliche und nicht parallele Skalen handelt (vgl. McHale 2011, Abschn. 14). Sternberg weist zudem darauf hin, dass, wenn ei-
9 Interessanterweise zeigen Untersuchungen zur Wiedergabe von realen Originaläußerungen, dass auch diese im direkten Modus sehr oft nicht exakt reproduziert werden, sogar bei schriftlicher Wiedergabe und wenn das Original in schriftlicher Form vorlag. Ganz offensichtlich wird bei realer Kommunikation so rasch von der Textoberfläche abstrahiert, dass diese nur dann genau reproduziert wird, wenn bei Fehlern Sanktionen drohen, etwa bei wissenschaftlichen Arbeiten, in juristischen Kontexten und bis zu einem gewissen Grad auch im Journalismus (vgl. z.B. Steyer 1997, Heringer 2006, Short et al. 2001).
38 | 4 Das Phänomen Wiedergabe ne solche Gleichsetzung von Form und Funktion existieren würde, Kontextabhängigkeit und Ambiguität in der poetischen Darstellung nicht mehr möglich wären (vgl. Sternberg 1982, 112). Dies ist im Kontext dieser Studie eine wichtige Feststellung, da sie zeigt, dass es unmöglich ist, die Funktion und Wirkung von Wiedergabetechniken allein auf formaler Basis zu bestimmen. Da die automatische Erkennung aber nur auf dieser Basis funktioniert, wird es immer Aspekte von Wiedergabe geben, die damit nicht erfasst werden. Dies ist jedoch kein Grund, die automatische Erkennung an sich aufzugeben, da auch die systematische Identifizierung formaler Merkmale sehr aufschlussreich in Bezug auf narratologische Fragestellungen sein kann. Es ist lediglich eine Warnung, voreilige Schlüsse aufgrund formaler Befunde zu ziehen.
4.3.2 Faithfulness Leech/Short 1981 (Neuauflage Leech/Short 2007) und darauf aufbauend auch Semino/Short 2004 operieren bei der Konstruktion ihres Wiedergabesystems mit dem Begriff ‚Faithfulness‘. Den Techniken werden verschiedene Grade von Faithfulness zugewiesen, wobei der Grad bei direkter Wiedergabe am höchsten ist. In einer Studie auf der Grundlage des von Semino/Short annotierten Korpus, bei der real vorhandene Texte mit ihren Wiedergaben in anderen Texten verglichen werden, beschäftigen sich Semino, Short und Wynne eingehend mit Einwänden gegen das Faithfulness-Konzept und seinem Verhältnis zur Mimesisals-Realitätsabbildung. Sie definieren das Konzept folgendermaßen: For us, faithfulness in direct discourse concentrates on those factors which are relevant in specifying as accurately as is feasible in context the precise communicative content of the discourse being reported. (Short et al. 2001, 328)
Faithfulness – so betonen die Autoren – ist also nicht gleich Wörtlichkeit oder genaue Nachahmung, sondern kontextabhängig. Welche Einzelmerkmale für eine ‚getreue‘ Wiedergabe reproduziert werden müssen, hängt von vielen Faktoren ab, z.B. davon was wiedergegeben wird – Rede, Gedanken oder Geschriebenes – und welchen Zweck die Reproduktion hat. Darum sind Argumente wie die nicht vollständige Reproduzierbarkeit von Äußerungen kein Grund, das Konzept aufzugeben. Dass Informationen verloren gehen, wenn etwa eine gesprochene Äußerung schriftlich reproduziert wird, ist ein normales Phänomen, auf das Hörer gefasst sind (vgl. Short et al. 2001, 330). In Bezug auf die Existenz von direkter Wiedergabe, die klar ihre NichtWörtlichkeit signalisiert, entgegnen die Autoren, dass dies zum einen vergleichs-
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 39
weise seltene Phänomene seien, zum anderen durch die klaren Signale die Erwartungen des Hörers entsprechend angepasst würden, ohne dass dadurch das Konzept Faithfulness an sich obsolet werde (vgl. (Short et al. 2001, 329–331). Das Konzept fußt also auf den Erwartungen und kommunikativen Konventionen, die mit den Wiedergabetechniken verknüpft sind. Diese haben auch gesellschaftliche Relevanz, was man in den Fällen beobachten kann, in denen eine ‚fehlerhafte‘ Wiedergabe zu Sanktionen führen kann (z.B. in journalistischen und wissenschaftlichen Kontexten): Bei einer direkten Wiedergabe sind deutlich höhere Erwartungen an die Verlässlichkeit im Spiel, und es muss auf größere Exaktheit geachtet werden als bei einer indirekten Wiedergabe. Zwar wäre es theoretisch denkbar, Wiedergabekategorien allein auf der Basis von grammatischen Merkmalen zu unterscheiden, aber ohne das Konzept der Faithfulness gäbe es keinen Grund, überhaupt eine Unterscheidung durchzuführen: The reason for the various discourse presentation category distinctions, in our view, relates to the varying prototypical faithfulness claims of the different (re)presentational forms, even though the extent to which these claims apply varies depending on context [...] (Short et al. 2001, 332)
Wie man sieht, argumentieren Semino, Short und Wynne stark mit realweltlichen Situationen. Tatsächlich ist ihr System explizit sowohl für die Anwendung auf nicht-fiktionale als auch auf fiktionale Texte gedacht.10 Das folgende Zitat macht deutlich, dass eine direkte Übertragung von der Wirklichkeit in die fiktionale Welt stattfindet: In fictions which report events that happened in a fictional past, we conventionally assume that the ‘reports’ are real within the fiction, and so use the canonical assumptions associated with the various categories on the discourse presentation scales analogically, and with effectively guaranteed faithfulness results. (Short et al. 2001, 332)
Die verschiedenen Wiedergabetechniken lassen sich danach anordnen, wie weit sich der Anspruch an Faithfulness erstreckt, den sie transportieren, d.h. für wie viele Details sie versprechen, sie ‚getreu‘ wiederzugeben. Leech/Short charakterisieren die verschiedenen Grade folgendermaßen: 1.
Speech occurred. [→ Narrator’s Representation of Voice]
10 Deswegen wurde bei Semino/Shorts Annotationsprojekt auch ein Korpus zusammenstellt, das sowohl literarische als auch (auto)biographische und journalistische Texte enthält (vgl. Semino/Short 2004, 19–24).
40 | 4 Das Phänomen Wiedergabe 2.
Speech occurred + speech act (and topic) specified. [→ Narrator’s Representation of Speech Acts] 3. Speech occurred + speech act (and topic) and propositional content specified. [→ Indirect speech] 4. Speech occurred + speech act (and topic), propositional content and the words and structures used to utter that propositional content specified. [→ (Free) direct speech] (Leech/Short 2007, 303)11
Tab. 4.1. Wiedergabekategorien nach Semino/Short
Speech
Narrator’s Representation of Voice (NV)
Narrator’s Representation of Speech Acts (NRSA)
Indirect speech (IS)
Free indirect speech (FIS)
(Free) direct speech (FDS/DS)
Writing
Narrator’s Representation of Writing (NW)
Narrator’s Representation of Writing Acts (NRWA)
Indirect writing (IW)
Free indirect writing (FIW)
(Free) direct writing (FDW/DW)
Thought
Internal Narration (NI)
Narrator’s Representation of Thought Acts (NRTA)
Indirect thought (IT)
Free indirect thought (FIT)
(Free) direct thought (FDT/DT)
Das Kategoriensystem, das Semino/Short in ihrem Annotationprojekt verwenden, enthält die vier aufgelistete Kategorien und ‚Free indirect speech‘ (freie indirekte Wiedergabe), die zwischen der indirekten und der direkten Wiedergabe eingeordnet ist (siehe Tabelle 4.1). Es ist eine Weiterentwicklung des ursprünglichen Systems von Leech/Short 1981, das aufgrund der Erfahrungen bei der Korpusannotation um eine Skala für Geschriebenes sowie die am weitesten links stehende Spalte der Techniken ergänzt wurde. Die Reihenfolge der Kategorien ist von zwei Faktoren bestimmt: den linguistischen Merkmalen, die sie aufweisen, und dem Grad an Faithfulness, der zu erwarten ist (vgl. Semino/Short 2004, 10).
11 Die Namen der entsprechenden Wiedergabekategorien nach Leech/Short wurden von der Verfasserin im eckigen Klammern ergänzt, um den Bezug zu Tabelle 4.1 klarer zu machen. Freie indirekte Wiedergabe fehlt, da diese Form in Hinblick auf ihren Faithfulness-Anspruch einen nicht ganz klaren Status zwischen indirekter und direkter Wiedergabe hat (vgl. Leech/Short 2007, 261), so dass eine Ergänzung zu interpretativ erschien.
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 41
Der Faithfulness-Anspruch ist es auch, der es erlaubt, die unterschiedliche Wirkung von verschiedenen Wiedergabetechniken zu erklären. So werden für die Wiedergabe von Rede und für die von Gedanken jeweils andere Modi als Norm empfunden: Für Rede ist es die direkte Wiedergabe, da dies die Form ist, in der ein Hörer Rede wahrnimmt. Für Gedanken hingegen ist es die indirekte Wiedergabe, da Gedanken normalerweise nicht versprachlicht werden und also auch nicht direkt wahrgenommen werden können.12 Eine Technik, deren prototypischer Faithfulness-Anspruch sich nur auf die Wiedergabe des Inhalts, nicht aber auf die der Form, bezieht, ist darum angemessen. Direkte Gedankenwiedergabe hingegen wirkt künstlicher als direkte Redewiedergabe. Tabelle 4.2 veranschaulicht den Unterschied in den Normkategorien. Tab. 4.2. Normkategorien für die Wiedergabe von Rede vs. Gedanken nach Leech/Short
← Wiedergabe von Rede → Narrators Representation of Speech Acts
Indirect speech
Free indirect speech
Direct speech
Free direct speech
← Wiedergabe von Gedanken → Narrators Representation of Thought Acts
Indirect thought
Free indirect thought
Direct thought
Free direct thought
Über diesen Unterschied lässt sich auch die unterschiedliche Wirkung erklären, die mit freier indirekter Redewiedergabe im Vergleich zu freier indirekter Gedankenwiedergabe erzielt wird. Freie indirekte Redewiedergabe hat im Vergleich zur Normkategorie einen geringeren Grad an Faithfulness und impliziert stärkere Eingriffe in die ‚getreue‘ Darstellung der Äußerung. Daraus ergibt sich häufig eine ironisierende und distanzierende Wirkung. Freie indirekte Gedankenwiedergabe hingegen hat im Vergleich zur Norm einen höheren Grad an Faithfulness, ist näher am ‚Originalsprecher‘ und suggeriert dem Leser größere Nähe zu dessen Gedankenprozess (vgl. Leech/Short 2007, 276–277 und Semino/Short 2004, 13–15).
12 Dies entspricht auch Palmers Auffassung, der ‚thought report‘, unter den indirekte Gedankenwiedergabe subsumiert werden kann, als die natürlichste Wiedergabeform für Gedanken ansieht (vgl. Palmer 2004, 76).
42 | 4 Das Phänomen Wiedergabe 4.3.3 Mittelbarkeit Wiedergabe wird in der narratologischen Forschung oftmals im Rahmen einer umfassenderen Betrachtung von Erzählweise behandelt. Dabei geht es um „einen verschiedenen Grad an Mittelbarkeit oder – anders gewendet – an mimetischer Illusion im Rahmen der Erzählung“ (Martinez/Scheffel 2007, 49). Platons Unterscheidung zwischen Mimesis und Diegesis wird also nicht nur in Hinblick auf Wiedergabe herangezogen, sondern allgemeiner zur Charakterisierung von zwei verschiedenen Erzählweisen. Diese Grundunterscheidung wurde im 19. Jahrhundert von Otto Ludwig aufgegriffen. Percy Lubbock und Norman Friedman haben sie in der englischen Erzähltheorie mit den Begriffen ‚telling‘ und ‚showing‘ oder ‚simple narration‘ und ‚scenic presentation’ etabliert. Auch Stanzels Begriffspaar ‚berichtende Erzählung‘ und ‚szenische Darstellung’ folgt diesem Prinzip (vgl. Stanzel 2001, 191f, Martinez/Scheffel 2007, 47–48). Die einzelnen Ansätze sind in ihrer Schwerpunktsetzung unterschiedlich, haben jedoch gemeinsam, dass erzählerische Techniken im Vordergrund stehen und Wiedergabe als Teil einer übergreifenden narrativen Strategie gesehen wird. Stellvertretend für diese Denkweise soll die Behandlung von Wiedergabe innerhalb des einflussreichen erzähltheoretischen Systems von Genette dargestellt werden, an dem sich auch die Darstellung von Martinez/Scheffel orientiert (vgl. zum Folgenden v.a. Genette 1998, 116–132; Martinez/Scheffel 2007, 51–63). Genette definiert die Hauptkategorien für seine Beschreibung einer Erzählung in Analogie zur Grammatik des Verbs und unterscheidet ‚Zeit‘, ‚Modus‘ und ‚Stimme‘ (statt dem grammatischen Begriff ‚Person‘) (vgl. Genette 1998, 19). Die Wiedergabe ordnet er dem Bereich Modus zu. Bei dieser Metapher orientiert er sich an einer Definition, nach der der Modus einer Verbform verändert werden kann, um etwas mehr oder weniger nachdrücklich zu behaupten, und erklärt sie folgendermaßen: Die ‚Repräsentation‘ oder genauer gesagt die narrative Information hat verschiedene Grade; die Erzählung kann den Leser auf mehr oder weniger direkte Weise mehr oder weniger detailliert informieren und so (um eine geläufige und bequeme räumliche Metapher aufzugreifen, die man aber nicht buchstäblich nehmen sollte) eine mehr oder weniger große Distanz zu dem, was sie erzählt, zu nehmen scheinen [...] . (Genette 1998, 113)
Beim Parameter der Distanz wird unterschieden zwischen der Erzählung von Handlungen und der Erzählung von Worten. Mit ‚Erzählung von Worten‘ ist sowohl die Wiedergabe von gesprochener Rede als auch die Wiedergabe von „Gedanken, d.h. von unausgesprochener innerer Rede von Figuren“ gemeint (Martinez/Scheffel 2007, 55). Genette lehnt es explizit ab, eine Skala für Gedanken auf der Ebene von Rede und Handlung zu schaffen, denn nach seiner Auffassung
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 43
Tab. 4.3. Wiedergabekategorien nach Martinez/Scheffel (angelehnt an Genette)
Narrativer Modus
←→
(Mittelbar) Rede
Gedanken
Dramatischer Modus (Unmittelbar)
Erzählte Rede
Transponierte Rede
Zitierte Rede
Erwähnung eines sprachlichen Aktes
indirekte Rede
direkte Rede
Valtin sprach mit Grete.
Valtin sagte zu Grete, dass sie ein Nest in ihrem Garten hätten.
Valtin sagte zu Grete: „Weißt du, wir haben ein Nest in unserm Garten!“
Gesprächsbericht
erlebte Rede
autonome direkte Rede
Valtin erzählte Grete von einem Nest.
Ja, sie hatten wirklich ein Nest in ihrem Garten.
Weißt du, wir haben ein Nest in unserm Garten!
Bewusstseinsbericht
indirekte Rede
Gedankenzitat
Valtin hatte darüber nachgedacht, ob er Grete ein Geheimnis verraten sollte, und er war nun entschlossen, es auszuplaudern!
Valtin sagte sich, dass er Grete von dem Nest erzählen wollte.
„Ich will Grete jetzt unbedingt von dem Nest erzählen“, dachte er.
erlebte Rede
autonomer innerer Monolog
Doch, jetzt wollte er Grete unbedingt von dem Nest erzählen!
Da kommt Grete in den Garten... sie sieht traurig aus... na, da will ich ihr doch mal von unserm Nest erzählen...
44 | 4 Das Phänomen Wiedergabe werden diese in einem Erzähltext immer entweder auf Rede oder auf Handlung zurückgeführt (Genette 1998, 234). Genette operiert bei seinem System mit dem Gegensatz zwischen dem ‚dramatischen Modus‘ (ohne Distanz, unmittelbar) und dem ‚narrativen Modus‘ (mit Distanz, mittelbar). Drei Grundkategorien werden unterschieden: die ‚Zitierte Rede‘ im dramatischen Modus, die ‚erzählte Rede‘ im narrativen Modus und die ‚transponierte Rede‘, die eine Mischform zwischen beiden Modi darstellt. Tabelle 4.3 (nach Martinez/Scheffel 2007, 62) bietet einen Überblick über alle Kategorien. Die Darstellung folgt der Adaption von Martinez/Scheffel und zeigt eine separate Skala für Gedankenwiedergabe. Dies ist kein Widerspruch zu Genette, da hier die Repräsentation von Gedanken als innere Rede gemeint ist (was man auch an den Benennungen sehen kann), für die nur an manchen Stellen eigene Begriffe eingeführt werden. Dieses System ist, anders als das von Semino/Short, für die Anwendung auf literarische Texte definiert und operiert deutlich weniger mit realtweltlichen Bezügen. Stattdessen zeigen sich in der Begrifflichkeit Anleihen an literarische Formen (‚Drama‘). Bei der Erklärung des Begriffs der Distanz (zur Darstellung von Handlungen) verwenden Martinez/Scheffel interessanterweise Filmtechniken als Metapher (Martinez/Scheffel 2007, 49), die Bezüge zu künstlerischen Formen und Strategien sind also sehr deutlich.
4.3.4 Textinterferenz Ein Ansatz, der das Phänomen der Wiedergabe rein auf der Textebene und ohne Anleihen an eine Analogie zur Wirklichkeit zu erfassen sucht, ist der Textinterferenzansatz von Wolf Schmid. Dieser fällt in dieser Darstellung insofern aus dem Rahmen, als Schmid zwar sehr wohl die ‚üblichen‘ Wiedergabekategorien mit Hilfe der Textinterferenz beschreibt, aber kein eigenes Wiedergabesystem definiert. Der Textinterferenz-Ansatz wurde entwickelt in Rückbezug auf Michail Bachtin, Vladimir Vološinov und insbesondere den sogenannten Redeinterferenz-Ansatz von Lubomír Doležel (vgl. Schmid 2005, 177–221). Schmid geht von der Unterscheidung zwischen ‚Erzählertext“ und ‚Personentext‘13 aus. Diese Begriffe bezeichnen „reine, genotypische Formen“, die die „Subjektsphäre der jeweiligen Instanz, ihre perzeptive, ideologische und sprachliche Perspektive in reiner Form“ enthalten (Schmid 2005, 155). Schmids Interesse gilt dem Verhältnis dieser beiden ‚Texte‘. Im real vorliegenden, narrativen Text können die beiden ‚genotypischen Formen‘
13 Bei Schmid steht der Begriff ‚Person‘ für literarische Figur.
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 45
gleichzeitig präsent sein und sich vermischen. Dies geschieht vor allem beim Auftreten von Wiedergabe, aber nicht ausschließlich dann. Schmid definiert einen Katalog von Merkmalen, in denen sich Erzählertext und Personentext unterscheiden können – allerdings nicht müssen (vgl. Schmid 2005, 182f). 1. Thematische Merkmale (Thema): unterschiedliche Auswahl des Themas, charakteristische Themen 2. Ideologische Merkmale (Wertung): unterschiedliche Bewertung thematischer Einheiten, Sinnposition 3. Grammatische Merkmale der Personalform (Person): verwendete grammatische Personalform bei Pronomina und Verben; meist 3. Person im heterodiegetischen Erzählertext, 1., 2. und 3. Person im Personentext 4. Grammatische Merkmale des Tempus (Zeit): verwendetes Tempus; meist Präteritum oder historisches Präsens im Erzählertext, alle Tempusformen im Personentext 5. Grammatische Merkmale des Zeigsystems (Zeigsystem): Bezeichnungen für Raum und Zeit der erzählten Handlung; im Personentext bezogen auf die Ich-Jetzt-Hier-Origo der Figur (z.B. heute, hier, dort, links), im Erzählertext anaphorische Zeigwörter, die sich auf frühere Angaben im Text zurückbeziehen (z.B. an diesem Tag, ebenda, an demselben Ort, links vom Helden) 6. Merkmale der Sprachfunktion (Sprachfunktion): unterschiedliche Sprachfunktionen (nach Bühler): Darstellung, Ausdruck oder Appell 7. Stilistische Merkmale der Lexik (Lexik): unterschiedliche Bezeichnungen für dieselben Objekte, allgemeine Wortwahl 8. Stilistische Merkmale der Syntax (Syntax): unterschiedliche syntaktische Muster Ein weiteres Differenzierungskriterium, das im Ansatz von Doležel erwähnt wird, sind graphische Merkmale, d.h. der Personentext kann graphisch markiert sein, der Erzählertext ist dies normalerweise nicht. Schmid nimmt dies jedoch nicht in seinen Katalog auf, da die graphischen Merkmale nicht Eigenschaften des Personentextes selbst sind, sondern seiner Präsentation im Erzählertext (vgl. Schmid 2005, 183–184). Wie oben bereits angedeutet, muss eine Unterscheidbarkeit zwischen Personenund Erzählertext nicht in allen Merkmalen gegeben sein. Tatsächlich tritt in literarischen Texten oft der Fall auf, dass die Opposition neutralisiert wird, was aus zwei Gründen geschehen kann: Entweder treten in einem Textabschnitt die entsprechenden Merkmale gar nicht auf (dies ist am häufigsten für die Merkmale Person und Zeigsystem der Fall), oder Erzählertext und Personentext fallen in
46 | 4 Das Phänomen Wiedergabe einem Merkmal zusammen. Dies kann z.B. für das Merkmal Zeit der Fall sein, wenn das Erzähltempus (historisches) Präsens ist. Eine solche Neutralisierung kann lokal, also nur auf einen Abschnitt bezogen, vorkommen oder global, über den gesamten Erzähltext hinweg. Globale Neutralisierung tritt am häufigsten für die Merkmale Thema, Wertung, Sprachfunktion, Lexik und Syntax auf. In Hinblick auf die Merkmale Person, Zeit, Zeigsystem und Sprachfunktion ist noch zu beachten, dass diese nur dann als Differenzierungsmerkmale fungieren, wenn der Erzählertext Aussagen enthält, die sich auf die erzählte Welt beziehen. Wenn der Erzähler die Erzählung kommentiert, also exegetische Aussagen trifft, so nimmt der Erzählertext typische Züge des Personentextes an: 1. Person, Präsens, deiktische Adverbien und Ausdrucks- bzw. Appellfunktion. Textinterferenz ist dann gegeben, wenn mindestens eins der obigen Merkmale auf einen anderen Text verweist als die restlichen. Die Wiedergabeformen lassen sich auf diese Art beschreiben. Schmid unterscheidet die klassischen Formen direkte Rede, erlebte Rede14 und indirekte Rede. Tabelle 4.4 illustriert, welche Merkmale im Deutschen bei den jeweiligen Formen auf welchen der beiden Texte verweisen. Neben den klassischen Wiedergabeformen wurden auch Muster für weitere von Schmid beschriebene Textinterferenzmuster angegeben, welche kursiv gesetzt sind. Dabei wird vorausgesetzt, dass „die direkte Rede den Personentext authentisch wiedergibt (was in realen literarischen Texten [...] keineswegs der Fall zu sein braucht)“ (Schmid 2005, 188). Darüber hinaus sind alle abgebildeten Muster als typische Fälle zu verstehen. Wie Schmid anhand zahlreicher Beispiele demonstriert, ist die Verteilung der Merkmale auf Erzähler- und Personentext für eine Kategorie keinesfalls unabänderlich. Die direkte Rede zeichnet sich erwartungsgemäß dadurch aus, dass sie in allen Merkmalen dem Figurentext entspricht. Die ‚entpersönlichte direkte Rede‘ ist eine Spezialform und bezeichnet einen Typ der Wiedergabe, bei der Erzählertext und Personentext in syntaktischen und lexikalischen Merkmalen nicht differieren (gekennzeichnet durch die Kreuze auf beiden Ebenen), d.h. die Personen sprechen im gleichen Stil wie der Erzähler. Diese Form war in der europäischen Literatur vor dem 19. Jahrhundert sehr verbreitet (vgl. Schmid 2005, 191). Bei erlebter Rede verweisen im Deutschen typischerweise die Merkmale für Person und Zeit auf den Erzählertext, die restlichen auf den Personentext. Allerdings können diese Oppositionen auch neutralisiert werden, so etwa das Merkmal Zeit, wenn das Erzähltext-Tempus Präsens ist und das Merkmal Person, wenn die
14 In dieser Studie heißt diese Form normalerweise ‚freie indirekte Wiedergabe‘; im Folgenden werden jedoch durchgehend Schmids Begriffe verwendet.
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 47
erlebte Rede in einer homodiegetischen Erzählung (Ich-Erzählung) auftritt. Auch die Unterschiede in Syntax und Lexik müssen nicht immer stark hervortreten. Je mehr Merkmale neutralisiert sind, desto weniger klar identifizierbar ist die erlebte Rede. Tab. 4.4. Kennzeichen von Wiedergabekategorien nach Schmid (Prototypen); ET = Erzählertext, PT = Personentext
Thema
Wertung
Person
Zeit
Zeigsystem
Sprach- Lexik funktion
Syntax
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Direkte Rede ET PT
x
Entpersönlichte direkte Rede ET PT
x
x
(Personale) indirekte Rede ET PT
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Narrationale indirekte Rede ET PT
x
x
x
x
x
x
Erlebte Rede ET PT
x
x
Bei der indirekten Rede unterscheidet Schmid zwei Typen: Bei der ‚narrationalen indirekten Rede‘ wird die Rede der Person durch den Erzähler stark überarbeitet und keines der formalen Merkmale verweist mehr auf den Personentext. Dieser ist lediglich in den inhaltlichen Merkmalen Thema und Wertung präsent. Bei der ‚personalen indirekten Rede‘ hingegen werden bei der Wiedergabe die stilistischen Besonderheiten der Person beibehalten. Tabelle 4.4 bildet einen typischen Fall von personaler indirekter Rede ab, in dem die Opposition im Merkmal Sprachfunktion neutralisiert ist und das Merkmal Syntax noch auf den Erzählertext verweist (wie z.B. Sie fragte sich, warum sie heute zu dieser blöden Weihnachtsfeier antanzen müsse. Weihnachten sei doch erst morgen.). Die personale indirekte Rede
48 | 4 Das Phänomen Wiedergabe kann jedoch noch extremer in Richtung Personentext tendieren, wie in folgendem Beispiel: Nachdem er im Nu erkannt hatte, dass er zugrunde gerichtet, in einem gewissen Sinne vernichtet worden war, dass er sich selbst besudelt und seine Reputation beschmutzt hatte, dass er in Gegenwart Unbeteiligter verspottet und bespuckt worden war, dass er von jenem heimtückisch beschimpft worden war, den er noch gestern für seinen hervorragendsten und zuverlässigsten Freund gehalten hatte, dass er schließlich entsetzlich durchgefallen war [...] (F. M. Dostoevskij, Poln, sobr. soč. v 30 t., Bd. 1, S.167; zit. n. Schmid 2005, 199)
Schmid argumentiert, dass hier neben Zeigsystem, Sprachfunktion (die in diesem Fall Expression sei) und Lexik auch die Syntax in ihrer rhetorischen Reihung von Synonymen auf den Personentext verweise, so dass sich ein Muster ergebe, das dem der erlebten Rede entspricht. Dass im zitierten Beispiel immer noch die typische Indirekte-Wiedergabe-Form mit Rahmenformel und abhängigem Nebensatz vorliegt, ist offenbar nicht genug, um das Merkmal Syntax weiterhin auf den Erzähltext verweisen zu lassen. Eine weiterer Typ, auf den Schmid hinweist, ist die ‚freie indirekte Rede‘. Dieser Begriff ist bei ihm nicht, wie in dieser Studie, ein Synonym zu ‚erlebter Rede‘, sondern er bezeichnet den Fall „wenn in einer personalen indirekten Rede die Expressivität und die Syntax von PT [Personentext] die syntaktischen Restriktionen der Schablone sprengen oder wenn die indirekte Rede die konstitutiven Merkmale der direkten Rede (graphische Markierung, Gebrauch der 1. und 2. Person) übernimmt“ (Schmid 2005, 199). Das folgende Beispiel illustriert den Übergang von der Schablone der indirekten zu der der direkten Rede. Man beachte die Hervorhebungen von Schmid. Die Fürstin [Liza Bolkonskaja] teilte mit, dass sie alle ihre Kleider in Petersburg gelassen habe und hier Gott weiß in was herumlaufen werde und dass sich Andrej völlig verändert habe und das Kitty Odyncova einen alten Mann geheiratet habe und dass sich für Fürstin Mar’ja ein Bräutigam pour tout de bon gefunden habe, aber dass wir darüber später noch sprechen werden. (F. M. Dostoevskij, Poln, sobr. soč. v 90 t., Bd. 9, S.120; zit. n. Schmid 2005, 200)
Das Prinzip der Textinterferenz kann auch verwendet werden, um Effekte zu charakterisieren, die keine Wiedergaben im eigentlichen Sinne sind. Schmid nennt hier die ‚erlebte Wahrnehmung‘, die sich dadurch auszeichnet, dass „der Erzähler die Wahrnehmung der Person wiedergibt, ohne die Wiedergabe in die Ausdrucksform der Person zu kleiden“ (Schmid 2005, 206) und das ‚uneigentliche Erzählen‘, eine Rede des Erzählers, die Wertungen und Benennungen aus dem Personentext übernimmt.
4.3 Zur Konstruktion narratologischer Wiedergabeskalen
| 49
Abb. 4.1. Typische Verwendungen von Wiedergabeschablonen nach Schmid
Auch wenn Schmid bei seinen Ausführungen fast ausschließlich von ‚Rede‘ spricht, so sind damit keinesfalls nur Aussagen (verbale Äußerungen) gemeint, sondern auch Gedanken, Wahrnehmungen und Gefühle sowie Sinnposition einer Figur. Abbildung 4.1 illustriert, welche ‚Wiedergabeschablonen‘, wie Schmid sie nennt, typischerweise für welchen Inhaltstyp verwendet werden. Interessant ist die Dreiteilung der Abbildung: Zwischen der Ebene des Inhalts und der der Schablone, also der konkreten Realisierung mit Oberflächenkennzeichen, steht noch die Ebene der „Formen des wiedergegeben PT [Personentextes]“ (Schmid 2005, 190). Keine der bisher betrachteten Darstellungen von Wiedergabe führt eine solche zusätzliche Ebene ein, die zwischen den abstrakten Inhalten und den konkreten Wiedergabemustern liegt. Die Tatsache, dass nicht nur keine Trennung von Rede- und Gedankenwiedergabe durchgeführt wird, sondern sogar Wahrnehmungen, Gefühle und Sinnposition auf derselben Ebene mit einbezogen werden, macht klar, dass bei Schmid das ‚Subjekt der Figur‘ im Kontrast zum ‚Subjekt des Erzählers‘ im Mittelpunkt steht. Welche Aspekte der Figur in den Vordergrund treten und dargestellt werden, ist zweitrangig. Dass auf der Basis der Textinterferenz kein Kategoriensystem für Wiedergabe definiert werden kann, zeigt sich schon daran, dass die Muster der Merkmalsverteilung für die gleiche Kategorie von Fall zu Fall variieren können. Tabelle 4.4 bildet zwar typische Fälle ab, aber es wurde gezeigt, dass von diesen in vielen Text-
50 | 4 Das Phänomen Wiedergabe beispielen abgewichen wird. Zudem können prinzipiell alle Gegensätze neutralisiert werden. Keine der Oppositionen ist verlässlich und eindeutig genug, um eine Identifizierung einer bestimmten Wiedergabeform zu erlauben. Hinzu kommt, dass Schmid nur grob beschreibt, wie die einzelnen Merkmale auszusehen haben, um auf den Personen- oder auf den Erzählertext zu verweisen. Hier gibt es bestenfalls für die Merkmale Person, Zeit und Zeigsystem Anhaltspunkte, die auf der Textoberfläche identifiziert werden können. Schmids Darstellung ist also nicht geeignet, um ein Kategoriensystem für Wiedergabe zu definieren, aber sie verrät viel darüber, was Narratologen an der Frage der Wiedergabe tatsächlich interessiert – nämlich die Darstellung der Figur im Erzähltext. Sie stellt die Wiedergabe in einen narrativen Kontext und zeigt auch ihre enge Verwandtschaft zu Techniken, die ebenfalls Textinterferenz verwenden. Damit schafft sie ein differenziertes Bild von erzählerischen Techniken.
5 Das Annotationssystem Im Gegensatz zu Semino/Short 2004, die bei ihrem Annotationsprojekt das Ziel verfolgen, das von Leech/Short 1981 entwickelte Kategoriensystem zu überprüfen, ist diese Studie keinem bestimmten narratologischen Ansatz verpflichtet. Stattdessen gilt es, das letztendliche Ziel, die automatische Erkennung, im Auge zu behalten. Allerdings ist es nicht sinnvoll, von vornherein eine manuelle Annotierung durchzuführen, die ganz auf die Möglichkeiten der automatischen Erkennung abgestimmt ist: Zum einen behandelt diese Studie verschiedene Ansätze der automatischen Erkennung, die auch unterschiedliche Stärken und Schwächen haben und darum verschiedene Kategoriesysteme favorisieren könnten. Zum anderen ist es entscheidend, dass die verwendeten Kategorien auch von literaturwissenschaftlichem Interesse sind. Insofern ist ein Kategoriensystem sinnvoll, das aus literaturwissenschaftlicher Perspektive geschaffen wurde, aber dennoch möglichst strukturiert ist, da ein klarer Aufbau die Handhabung sowohl bei der manuellen Annotation als auch bei der Automatisierung erleichtert. Das Schema, das für die manuelle Annotation gewählt wurde, entspricht in weiten Teilen dem von Semino/Short verwendeten (Tabelle 4.1, S. 40). Die einzige Abweichung ist, dass die Kategorien ‚Narrator’s Representation of Voice‘ und ‚Narrator’s Representation of Speech Acts‘ (und deren Äquivalente für die Wiedergabe von Gedanken und Geschriebenem) zusammengefasst wurden.15 Dies ermöglicht in einem gewissem Rahmen auch Vergleiche mit Semino/Shorts Ergebnissen. Vor allem aber hat dieses Schema den Vorteil, dass es durch seine zwei Achsen, eine für die Technik der Wiedergabe und eine für das, was wiedergegeben wird, sehr systematisch ist. Für die manuelle Annotation ergibt sich damit ein Schema, das die drei klassischen Kategorien direkte, freie indirekte und indirekte Wiedergabe erfasst, sowie eine weitere Kategorie für die erzählte Wiedergabe zur Verfügung stellt. Auch wenn diese Form nicht in allen narratologischen Darstellungen beachtet wird, sollten solche Fälle von Wiedergabe weder ignoriert noch mit der recht klar formal definierten indirekten Wiedergabe vermischt werden. Das verwendete Annotationsschema hat auch starke Ähnlichkeiten zu dem Schema von Martinez/Scheffel (Tabelle 4.3, S. 43). Dieses ist ebenfalls zweiachsig – wobei die eine Achse das Medium des Wiedergegebenen und die andere Genettes Parameter Distanz (vgl. Abschnitt 4.3.3) abbildet – und unterschiedet vier Typen von Wiedergabe. Nur die übergreifende Kategorie ‚transponierte Rede‘, die eine weitere Abstraktionsebene einführt, ist eine Besonderheit bei Mar-
15 Die Gründe für diese Zusammenfassung werden in Abschnitt 5.4 dargelegt.
52 | 5 Das Annotationssystem tinez/Scheffel bzw. Genette. Das Schema für die manuelle Annotation entspricht also weitgehend gängigen Kategoriensystemen für Wiedergabe. Technisch gesehen ist das Annotationssystem XML-basiert. Die Tags entsprechen Kategorien, die durch Attribute näher bestimmt werden können. Die Namen für Kategorietags, Attribute und deren Werte sind englisch und werden im Folgenden mit Schreibmaschinenschrift hervorgehoben. Den Kern der Annotation bilden zwölf Hauptkategorien. Jeder Fall von Wiedergabe muss mit einer dieser Kategorien markiert sein, im Falle von Ambiguitäten auch mit mehreren. Tabelle 5.1 zeigt das Schema und die verwendeten Bezeichnungen für die Hauptkategorien. In den Abschnitten 5.1 bis 5.4 werden die Hauptkategorien erläutert. Daneben gibt es zwei Sonderkategorien, embedded (Binnenerzählung bzw. Wechsel der Erzählebene) und frame (Rahmenformel), auf deren Funktion in Abschnitt 5.6 eingegangen wird. Um Besonderheiten der markierten Textstellen zu vermerken, werden Attribute verwendet. Nur die Hauptkategorien und die Sonderkategorie frame können Attribute tragen. Bis auf level dienen alle Attribute der Markierung nichtprototypischer Fälle von Wiedergabe. Sie werden im Abschnitt 5.5 erläutert. Tab. 5.1. Hauptkategorien für die manuelle Annotation
erzählt
indirekt
frei-indirekt
direkt
Rede
reported speech
indirect speech
free indirect speech
direct speech
Geschriebenes
reported writing
indirect writing
free indirect writing
direct writing
Gedanken
reported thought
indirect thought
free indirect thought
direct thought
Die Beschreibungen erläutern die Bedeutung und Verwendung des jeweiligen Kategorietags oder Attributs und geben Beispiele, wie die Markierungen durchgeführt werden. Dabei wird Unterstreichung verwendet, um anzuzeigen, welche Wörter von dem XML-Tag abgedeckt werden. Bei der allgemeinen Diskussion dient hingegen i.A. Kursivsatz dazu, den relevanten Teil eines Beispiels hervorzuheben.
5 Das Annotationssystem
|
53
Die folgenden Aussagen gelten grundsätzlich für die Markierungen im Erzähltextkorpus: Da viele Auswertungen in dieser Studie satzweise erfolgen, erstreckt sich eine Wiedergabemarkierung maximal über einen Satz, um die Zählung der Annotationen zu erleichtern. Zusammenhängende Passagen, z.B. bei direkter Wiedergabe, werden also in mehrere Sätze zerlegt und zählen nicht als eine einzige Markierung.16 Bei der Markierung gibt es zwei Grundregeln, die möglichst erfüllt werden sollen und zuweilen auch in Konkurrenz treten können: 1. Zusammenhängende Wiedergabepassagen (auf Satzebene oder darunter) sollten nicht getrennt werden. Grund hierfür ist zum einen die bessere Zählbarkeit der Annotationen, zum anderen sollte die Struktur der einzelnen Instanzen, die für die Entwicklung von automatischen Erkennungsmethoden wichtig ist, nach Möglichkeit erhalten bleiben. Dafür wird manchmal in Kauf genommen, dass Elemente mit erfasst werden, die nicht zur eigentlichen Wiedergabe gehören, wie etwa im folgenden Beispiel: (5)
Er sagte ihr, daß er, bei dieser Stimmung der Gemüter und dem Umsturz aller Verhältnisse, seinen Entschluß, sich nach Europa einzuschiffen, aufgebe; daß er vor dem Vizekönig, der sich seiner Sache immer günstig gezeigt, falls er noch am Leben sei, einen Fußfall wagen würde; und daß er Hoffnung habe (wobei er ihr einen Kuß aufdrückte), mit ihr in Chili zurückzubleiben. (Kleist: Erdbeben)
Der eingeschobene Erzählertext (wobei er ihr einen Kuß aufdrückte) wird hier nicht ausgespart, um die Markierung nicht zu unterbrechen. Insbesondere bei der Markierung von indirekter Wiedergabe treten häufiger schwierige Fälle auf, von denen einige in Abschnitt 5.3 thematisiert werden. Bei der Markierung direkter Wiedergabe wurde gegen diese erste Grundregel insofern verstoßen, als Rahmenformeln grundsätzlich ausgespart werden, auch wenn sie den wiedergegebenen Satz zerreißen. (6)
»Was ist’s,« fragte er erwartungsvoll, »daß ich heute Kuhmilch trinken soll? (May: Ziege)
Hier wurde der spezielle Status der Rahmenformel höher bewertet als das Streben nach zusammenhängenden Annotationen. 16 Wiedergaben, die sich über mehrere Sätze erstrecken, wurden zunächst am Stück markiert und anschließend automatisch zerlegt. Das Erzähltextkorpus enthält auch noch die ursprünglichen Markierungen. Sie sind benannt mit dem Namen der jeweiligen Kategorie und dem Zusatz mult (also z.B. direct_speech_mult). Im Rahmen dieser Studie spielen diese Markierungen keine Rolle, aber sie wurden für eventuelle spätere Untersuchungen bewahrt.
54 | 5 Das Annotationssystem 2.
Es sollte möglichst gezielt nur der Textteil markiert werden, der direkt mit Wiedergabe zu tun hat. Für automatische Techniken, insbesondere das maschinelle Lernen, ist es vorteilhaft, wenn das Typische von Wiedergabepassagen im Vordergrund steht. Wenn z.B. Annotationen von indirekter oder erzählter Wiedergabe lange und komplexe Modifikatoren des Subjekts enthalten, so lenkt dies von der eigentlichen Struktur ab. Darum werden solche Modifikatoren nicht mit annotiert, wenn es sich mit Grundregel 1 vereinbaren lässt. Dies kann dazu führen, dass die syntaktische Abgrenzung der Annotationen nicht immer korrekt und konsequent ist. Es stand hier jedoch die spätere Verwendung der Ergebnisse bei der Entwicklung automatischer Methoden im Vordergrund.
Auf weitere Richtlinien bei der Markierung wird in den Abschnitten zu den Hauptkategorien jeweils genauer eingegangen.
5.1 Direkte Wiedergabe 5.1.1 Beschreibung Direkte Wiedergabe umfasst die Hauptkategorien direct_speech, direct_ writing und direct_thought. Gemeint sind hier Teile des Textes, die die Stimme einer Figur zitieren, sei es in Form einer verbalen Äußerung, eines schriftlichen Zeugnisses oder von ‚innerer Rede‘, also ausformulierten Gedanken. Im Folgenden wird auf einige Spezialfälle der direkten Wiedergabe eingegangen und erklärt, wie mit diesen bei der manuellen Annotation umgegangen wurde.
5.1.1.1 Freie direkte Wiedergabe Die freie direkte Wiedergabe ist eine Kategorie, die in mehreren narratologischen Darstellungen zusätzlich unterschieden wird. Bei Martinez/Scheffel wird diese Form in Anlehnung an Genette und McHale als ‚autonome direkte Figurenrede‘, bzw. im Fall von Gedankenwiedergabe als ‚Innerer Monolog‘ bezeichnet. Sie liegt vor, wenn „Figurenrede wörtlich, ohne Kommentare eines Erzählers, ohne verba dicendi (also Verben wie ‚sagte er‘, ‚seufzte er‘, ‚antworteten sie‘ etc.) und womöglich sogar ohne distanzierende Anführungszeichen präsentiert wird“ (Martinez/Scheffel 2007, 51). Genauso definiert ist die Kategorie free direct speech/thought/writing bei Semino/Short, basierend auf dem System von Leech/Short (vgl. Semino/Short 2004, 10–11, Leech/Short 2007, 258–259). Bei einer Anordnung der Wiedergabekategorien zwischen den Polen des Erzählers
5.1 Direkte Wiedergabe
| 55
und der Figur gilt die freie direkte Wiedergabe als die Kategorie, die dem Pol der Figur am nächsten ist. Dies wird damit begründet, dass durch das Weglassen der Rahmenformel und der Anführungszeichen keine Einmischung des Erzählers mehr sichtbar sei und die Figurenstimme unverstellt repräsentiert werde. Semino/Short verwenden bei ihrer Studie zwar die Kategorie freie direkte Wiedergabe, da diese Teil des Schemas von Leech/Short ist, jedoch diskutieren sie deren Relevanz kritisch und fassen sie in den Auswertungen fast immer mit Vorkommen von direkter Wiedergabe zusammen. Das Hauptargument, warum freie direkte Wiedergabe nicht als eigenständige Kategorie zu verstehen ist, beruht drauf, dass diese Form keinen stärkeren Anspruch auf Verlässlichkeit (Faithfulness) erhebt als direkte Wiedergabe (vgl. Semino/Short 2004, 49). Die Erfahrungen bei der Annotation bestätigten die Vorbehalte insofern, als sich zwar eine Unterscheidung aufgrund formaler Kriterien treffen lässt, diese jedoch komplex und zudem unbefriedigend ist. Eines der Kriterien für die Unterscheidung zwischen direkter und freier direkter Wiedergabe ist das Vorhandensein einer Rahmenformel. Die folgenden Beispielsätze illustrieren das Kontinuum, das man hier beobachten kann (Beispiele nach Semino/Short 2004, 195–196, Absatzgliederung und Hervorhebungen nach Semino/Short): (7)
‘It’s a very bitter atmosphere here,’ said one journalist. (‚Comrades Clash over Editorship of Star, Independent on Sunday, 4 December 1994)
(8)
‘Thank you’, said Honor Klein. ‘Now would you mind helping me stack these boxes on top of each other? I shall need the space.’ (Iris Murdoch, A Severed Hand, p. 79)
(9)
I was silent for a moment in order to give greater force to my next remark. I spoke as deliberately as I could. ‘You are a most unmitigated cad.’ (Somerset Maugham, The Moon and Sixpence, p. 53)
(10)
I worked myself up into a state of moral indignation. ‘Damn it all, there are your children to think of [...] ’ (Somerset Maugham, The Moon and Sixpence, p. 48)
Obgleich bei allen Beispielen eine Art Einführung der Figurenrede vorhanden ist, wäre nur Beispiel 7 direkte Wiedergabe, wenn man das harte formale Kriterium anlegen würde, dass die Rahmenformel im selben Satz auftauchen muss. Alle anderen Beispiele müssten als freie direkte Wiedergabe gelten. Nach den Annotationsregeln von Semino/Short ist die Kategorisierung folgendermaßen: Beispiele 7 und 8 sind direkte Wiedergabe, Beispiel 9 ist ein ambiger Fall und nur Beispiel 10 eindeutig freie direkte Wiedergabe. Hierbei werden als zusätzliche Kriterien Absatzmarkierungen herangezogen, sowie die Frage, ob die einleitende Wendung
56 | 5 Das Annotationssystem einen Ausdruck enthält, der explizit auf eine Sprachhandlung verweist. Jedoch urteilen die Autoren selbst: Although these criteria were necessary in order for us to annotate the corpus, their sheer complexity and air of conventionality suggest that the relevant boundary is extremely fuzzy. More importantly, the examples we discussed clearly form a continuum that our tagging criteria ‘slice up’ in a way that appears to be rather arbitrary, and which, unlike other categories, does not coincide with the functional boundary in terms of faithfulness conditions (see 1.3). (Semino/Short 2004, 196–197)
Bei der Wiedergabe von Geschriebenem und Gedanken, führen Semino/Short weiter aus, kommt hinzu, dass die Verwendung von Anführungszeichen insgesamt seltener und als Werkzeug der Hervorhebung weniger konventionalisiert ist als bei der Wiedergabe von Sprache. Sie kommen darum zu dem Schluss, dass zwischen den beiden Wiedergabetypen keine kategoriale Grenze besteht und man die freie direkte Wiedergabe bestenfalls als eine Variante der direkten Wiedergabe sehen kann. Die Beobachtungen am Erzähltextkorpus decken sich mit Semino/Shorts Erfahrungen. Darum wurde bei der manuellen Annotation von vornherein darauf verzichtet, eine eigene Kategorie für freie direkte Wiedergabe einzuführen. Zu den bereits genannten Problemen kommt beim Erzähltextkorpus noch hinzu, dass eine geringere formale Normierung der Textgestalt vorliegt als in Semino/Shorts Korpus. So verzichtet der Text Bernhardi: Belinde ganz auf Anführungszeichen. Bei Günderrode: Bramine fehlen diese zumindest auf der obersten Ebene, nur eingebettete direkte Wiedergabe wird markiert. Bei anderen Texten, z.B. Kleist: Erdbeben und Heym: Irre, sind manche direkten Wiedergaben markiert und manche nicht. Alle diese Texte verwenden jedoch trotzdem Rahmenformeln, und der Dialog wirkt nicht figurennäher als in anderen Texten. Es ist nicht auszuschließen, dass der Verwendung der Anführungszeichen auf einer höheren interpretativen Ebene eine Bedeutung zugewiesen werden kann – insbesondere bei Kleist, dessen ungewöhnliche Zeichensetzung schon mehrmals wissenschaftlich untersucht wurde –, allerdings wäre diese sehr subtil und könnte kaum als Grundlage für eine allgemeine Kategorie dienen. Zudem ist gerade die Zeichensetzung ein Merkmal, das in verschiedenen Textausgaben oft normalisiert wird. Eine darauf beruhende Kategorie steht also auf sehr unsicherem Fundament. Was die Verwendung von Rahmenformeln angeht, ist den Ausführungen von Semino/Short noch hinzuzufügen, dass diese beim Wechsel von Rede und Gegenrede fast immer in mehr oder minder hohen Maße weggelassen werden, wenn die Sprecherrollen klar sind. Die Häufigkeit der Verwendung von Rahmenformeln hat zweifellos stilistische Auswirkungen, allerdings verändert ihr Fehlen den Status eines einzelnen Dialogbeitrags nicht so stark, dass es nötig erscheint, diesen ei-
5.1 Direkte Wiedergabe
| 57
ner anderen Wiedergabekategorie zuzuordnen. Die Rahmenformeln selbst werden mit der Sonderkategorie frame markiert (siehe Abschnitt 5.6.1), so dass das Zahlenverhältnis von direkter Wiedergabe und Rahmenformeln in einem Text bestimmt werden kann, falls dieses Phänomen näher untersucht werden soll.
5.1.1.2 Innerer Monolog und Bewusstseinsstrom Der Begriff ‚Innerer Monolog‘ wurde 1931 von Édouard Dujardin, dem Autor von Les Lauriers sont coupés, in einer ersten theoretischen Untersuchung etabliert (vgl. Martinez/Scheffel 2007, 61). Gemeint ist auf jeden Fall eine Form der Gedankenwiedergabe, jedoch ist der Begriff nicht unproblematisch, da er unterschiedlich verwendet wird. Cohn weist auf eine Ambiguität hin, die in Dujardins Ausführungen auftaucht und in Folge die Verwendung des Begriffs durchzieht. ‚Innerer Monolog‘ kann zwei Dinge bezeichnen: 1) a narrative technique for presenting a character’s consciousness by direct quotation of his thoughts in a surrounding narrative context; and 2) a narrative genre constituted in its entirety by the silent self-communion of a fictional mind. (Cohn 1978, 15)
Typ 1 wird bei Cohn ‚quoted interiour monologue‘ (zititerter Innerer Monolog) genannt und entspricht der direkten Gedankenwiedergabe. Typ 2 nennt sie ‚autonomous interiour monologue‘ (autonomer Innerer Monolog) und es handelt sich dabei nicht um eine Wiedergabetechnik, sondern um eine literarische Form, eine Variante der Ich-Erzählung. Beispiele für diese eher seltene, aber viel diskutierte Form sind Dujardins Les Lauriers sont coupés sowie Schnitzlers Leutnant Gustl und Fräulein Else. Das berühmte letzte Kapitel von Joyce’ Ulysses ist streng genommen kein autonomer Innerer Monolog, da es nur ein Teil eines Gesamtwerks ist, wird aber dennoch sehr oft als Beispiel in diesem Zusammenhang herangezogen.17 Als Untertyp der direkten Wiedergabe ist also vor allem der zitierte Innere Monolog interessant. Diese Art der Bewusstseinsdarstellung kann sehr unterschiedliche Formen annehmen, eine ausführliche Darstellung seiner Entwicklung findet sich bei Cohn 1978, 58–98. Vor allem in älteren Texten ist die Technik des Selbstgesprächs häufig, das auch laut geführt werden kann, so dass die Grenzen zwischen Gedanken- und Redewiedergabe verschwimmen. Diese Form ist angelehnt an den Bühnenmonolog und bewegt sich rhetorisch oft auf hohem Niveau. Das
17 Cohn prägte außerdem noch den Begriff ‚narrated interiour monologue‘ (erzählter Innerer Monolog). Hierbei handelt es sich allerdings um eine Bezeichnung für freie indirekte Gedankenwiedergabe, die in Abschnitt 5.2 behandelt wird.
58 | 5 Das Annotationssystem Gegenmodell hierzu, das sich Ende des 19. Jahrhunderts entwickelte, ist der Bewusstseinsstrom (‚stream of consciousness‘). Diese Technik, die in der narratologischen Forschung des 20. Jahrhunderts sehr viel Aufmerksamkeit erfahren hat, kann auch als direkte Wiedergabe realisiert werden, ist aber eigentlich eine Kategorie, die quer zur Ebene der Wiedergabetypen liegt: Stream of consciousness is best thought of not as a form but as a particular content of consciousness, characterized by free association, the illusion of spontaneity, and constant microshifts among perception, introspection, anticipation, speculation, and memory [...] . It can be realized formally by first-person “autonomous” interior monologue (as in Molly Bloom’s soliloquy from Ulysses, or the first three sections of Faulkner’s The Sound and the Fury), or by FID [free indirect discourse] (as in Joyce’s Portrait of the Artist as a Young Man, or Virginia Woolf’s Mrs. Dalloway and To the Lighthouse), or indeed by a combination of means. (McHale 2011, Abschn. 12)
Im Annotationssystem könnte ‚Bewusstseinsstrom‘ folglich allenfalls als Sonderkategorie kodiert werden oder als Attribut, das Instanzen von Wiedergabe mitgegeben wird, die diesen besonderen Inhalt und diese Erzählweise aufweisen. Darauf wurde verzichtet, da nicht nur die Abgrenzung schwierig ist, sondern das Erzähltextkorpus auch schlecht geeignet ist, um dieses Phänomen zu studieren: Nur 4 der 13 Texte sind nach 1900 entstanden, und beim Bewusstseinsstrom handelt es sich um eine Technik der Moderne. Auch der Begriff ‚Innerer Monolog‘ wird bei der manuellen Annotation nicht verwendet. Nach der Definition von Cohn ist er identisch mit dem Begriff ‚direkte Gedankenwiedergabe (mit narrativem Rahmen)‘, entspricht also der Hauptkategorie direct_thought. Bei Martinez/Scheffel ist ‚autonomer Innerer Monolog‘ eine Untermenge von direkter Gedankenwiedergabe und wird unterschieden vom ‚Gedankenzitat‘. Diese Unterscheidung beruht, analog zur ‚autonomen direkten Rede‘, auf dem Vorhandensein von Markierungen wie Anführungszeichen und Rahmenformeln. Warum diese Unterscheidung bei der manuellen Annotation nicht nachvollzogen wurde, ist bereits in Abschnitt 5.1.1.1 dargelegt worden.
5.1.1.3 Wechsel der Erzählebene Wenn direkte Wiedergabe einen Wechsel der Erzählebene bewirkt, wird anstelle von direct_speech die Sonderkategorie embedded verwendet. Eine Beschreibung dieser Sonderkategorie und deren Anwendung findet sich in Abschnitt 5.6.2.
5.2 Freie indirekte Wiedergabe
| 59
5.1.1.4 Zitate Ein Grenzbereich von direkter Wiedergabe ist das Zitat. Gemeint sind hier wörtliche Wiedergaben von Teilen anderer Texte. Auch Sprichwörter und ‚geflügelte Worte‘ fallen in diesen Bereich. Diesen Aussagen ist gemeinsam, dass sie nicht das Referat dessen sind, was eine Figur der Erzählung von sich gegeben hat. Sie werden darum nicht als direkte Wiedergaben annotiert, egal ob sie in Anführungszeichen stehen oder nicht. Ein Beispiel für diesen Fall sind die zahlreichen (fehlerhaften) lateinischen Zitate, die in May: Ziege vorkommen. (11)
Papperlapapp, ich kenne das! Aber ich bin Homöopath, und die Liebe ist eine Krankheit, die nicht allöopathisch geheilt werden kann: Simia simius, wie wir Lateiner sagen. (May: Ziege)
5.1.2 Markierungsrichtlinien Markiert werden die Wiedergabe selbst sowie die umschließenden Anführungszeichen, falls diese vorhanden sind. Für Rahmenformeln wird die Kategorie frame verwendet (siehe Abschnitt 5.6.1). (12)
»Ein schlimmes Schicksal«, sagte der Bürgermeister mit abwehrend erhobener Hand. »Und Sie tragen gar keine Schuld daran?« (Kafka: Gracchus)
(13)
»Nichts da – sagte er zurückkehrend – das kam aus dem Stall des Nachbars! Nun, morgen wird aus dem meinigen geantwortet werden! (Hebbel: Kuh)
5.2 Freie indirekte Wiedergabe 5.2.1 Beschreibung Freie indirekte Wiedergabe umfasst die Hauptkategorien free_indirect_ speech, free_indirect_writing und free_indirect_thought. Auch wenn diese Wiedergabetechnik prinzipiell für Rede, Gedanken und geschriebenen Text gleichermaßen verwendet werden kann, ist free_indirect_thought am üblichsten. Die Assoziation dieser Form mit der Repräsentation von Bewusstseinsinhalten ist so stark, dass z.B. Schmid argumentiert, freie indirekte Wiedergabe von Rede existiere nicht – oder zumindest kaum. Stattdessen handle es sich dabei oftmals „nicht etwa um die Wiedergabe äußerer Rede, sondern um die
60 | 5 Das Annotationssystem Darstellung ihrer Wahrnehmung im Bewusstsein des Hörenden“ (Schmid 2005, 203, Fussnote). Dies ist keine Einzelmeinung ist, sondern wurde, wie Fludernik ausführt, z.B. auch in den ausführlichen Untersuchungen von Banfield und Wiebe vertreten (vgl. Fludernik 1993, 96) und findet sich sogar in einer linguistische Darstellung, der IDS-Grammatik, welche angibt, dass Gesprächsbeiträge nur „gefiltert durch das Bewusstsein des Reflektierenden“ (Zifonun et al. 1997, 1775) in freier indirekter Wiedergabe dargestellt würden. Da jedoch für die Beschreibung der Wiedergabeform nur Information verloren geht, wenn man alle Arten freier indirekter Wiedergabe als free_direct_thought klassifiziert, gilt bei der manuellen Annotation wie für alle anderen Wiedergabetechniken: Wenn durch den Textzusammenhang klar wird, dass der Inhalt der Wiedergabe laut geäußert wurde, dann wird sie mit einer speech-Kategorie annotiert, und wenn der Inhalt in geschriebener Form vorlag, mit einer writing-Kategorie. Freie indirekte Wiedergabe zeichnet sich dadurch aus, dass eine Vermischung bzw. Überlagerung von Figuren- und Erzählerstimme stattfindet. Sie ist nur schwer formal zu fassen, weshalb es Versuche gab, sie stattdessen über ihre Funktion zu definieren. Jedoch sind die treffendsten und genauesten Funktionsanalysen für freie indirekte Wiedergabe meist sehr kontextabhängig und schlecht verallgemeinerbar. Überträgt man sie zu stark auf andere Werke, besteht die Gefahr, dass dies zu unexakten Analysen und pauschalen Urteilen führt (vgl. Fludernik 1993, 79–81). Darum wird bei der manuellen Annotation versucht, sich soweit wie möglich an formalen Kriterien zu orientieren. Typische Merkmale der freien indirekten Wiedergabe sind: – keine Rahmenformel – grammatikalisch unabhängige Sätze (auch Fragen und Ausrufe) – Tempus und Personalpronomen entsprechen dem Bezugsrahmen des Erzählers (im prototypischen Fall: Präteritum und dritte Person) – zeitliche und räumliche Deiktika entsprechen dem Bezugsrahmen der Figur (‚nahe‘ Deiktika, z.B. jetzt, hier) – Syntax und Lexik entsprechen dem Idiolekt der Figur Toolan nennt als typisches Merkmal zudem Modalitätsmarker: FID [free indirect discourse] is marked by frequent use of modal verbs (must, should, had to, could, might, would) and sentence adverbials (certainly, perhaps, maybe, surely, of course, etc.) expressing judgement about the likelihood or necessity or desirability of some action or state transpiring. (Toolan 2001, 131)
Da solche Ausdrücke Wünsche und Bedürfnisse ausdrücken und zudem keine sicheren Aussagen darstellen, erscheint es oft plausibler anzunehmen, dass hier
5.2 Freie indirekte Wiedergabe
| 61
nicht die Perspektive des Erzählers, sondern die einer Figur wiedergegeben wird. Fludernik liefert eine detaillierte Analyse, wie sich die Merkmale Expressivität und sprachliches Register auf der Ebene der Syntax, Morphologie und Lexik zeigen können (vgl. Fludernik 1993, 227–279). Allerdings weist sie auch darauf hin, dass ‚Subjektivitätsmarker‘ nicht in allen Sprachen und v.a. nicht von allen Autoren gleichermaßen häufig verwendet werden (Fludernik 1993, 96–97). Keines der genannten Merkmale für freie indirekte Wiedergabe muss immer vorhanden oder erkennbar sein, insbesondere wenn Erzähler- und Figurenstimme sehr ähnlich sind und in Tempus und Person zusammenfallen (vgl. hierzu auch die Ausführungen zum Textinterferenzmodell in Abschnitt 4.3.4). Leech/Short definieren freie indirekte Wiedergabe darum über Familienähnlichkeit im Sinne Wittgensteins: Die Gruppenzugehörigkeit ist nicht dadurch definiert, dass alle Mitglieder ein gemeinsames Merkmal haben, sondern jedes Mitglied teilt Merkmale mit einem anderen, so dass alle miteinander verknüpft sind (vgl. Leech/Short 2007, 264; 281). Nach dieser Definition können z.B. sogar grammatikalisch abhängige Sätze mit Rahmenformel, die formal dem Muster der indirekten Wiedergabe entsprechen, als freie indirekte Wiedergabe deklariert werden, wenn der Idiolekt der Figur darin ausgeprägt genug ist. Für die Belange der manuellen Annotation wird ähnlich verfahren und der obige Merkmalskatalog gilt als Orientierungsrichtlinie. Im Gegensatz zu der Definition von Semino/Short sind jedoch das Fehlen der Rahmenformel und die Unabhängigkeit des Satzes notwendige Kriterien, d.h. Wiedergaben, die von Rahmenformeln abhängen, werden prinzipiell als indirekt klassifiziert, egal welche weiteren Merkmale sie aufweisen. Eine Besonderheit, die bei der Identifizierung von freier indirekten Wiedergabe unbedingt zu beachten ist, ist ihre Kontextabhängigkeit. In einer Studie auf Grundlage des von Semino/Short annotierten Korpus untersucht Ikeo die Frage, was eindeutige Fälle von freier indirekter Wiedergabe von solchen unterscheidet, die auch als reiner Erzählertext aufgefasst werden können. Das Ergebnis ist, dass es vor allem darauf ankommt, wie klar signalisiert wird, wessen Perspektive im Text gerade eingenommen wird (vgl. Ikeo 2007). Auch im Erzähltextkorpus ist deutlich zu beobachten, dass freie indirekte Wiedergabe abschnittsweise auftritt, wenn die Perspektive einmal etabliert ist. Hier geschieht es nicht selten, dass einzelne Sätze keine Merkmale besitzen, die eindeutig auf den Referenzrahmen der Figur oder deren Idiolekt verweisen. Diese Sätze könnten, für sich genommen, als reiner Erzählertext gewertet werden. Wenn jedoch die Perspektive unverändert bleibt, wirken sie kontextbedingt ebenfalls als freie indirekte Wiedergabe. Als Beispiel soll der folgende Auszug aus Heym: Irre dienen, in dem die Erinnerungen des Protagonisten darstellt werden.
62 | 5 Das Annotationssystem (14)
Er erinnerte sich plötzlich an den Verrückten, der glaubte, er hätte gläserne Beine, und er könnte nicht laufen. Er hatte den ganzen Tag auf seinem Schneidertisch gesessen, aber die Wärter hatten ihn immer erst hintragen müssen. Allein war er keinen Schritt gegangen. Wenn sie ihn auf seine Beine stellten, ging er einfach nicht weiter. Dabei waren seine Beine ganz gesund, das sah doch jeder. Sogar auf das Klosett war er nicht einmal allein gegangen, nein, wie einer doch so verrückt sein konnte. Das war ja zum Lachen. (Heym: Irre)
Der gesamte kursiv gesetzte Teil wurde als free_indirect_thought gewertet (der erste, einleitende Satz ist reported_thought). Zwar enthalten nur die unterstrichenen Passagen deutliche Hinweise auf die subjektive Perspektive, jedoch gehören auch die ersten drei Sätze eindeutig zur Erinnerungssequenz. Sie könnten aufgrund formaler Merkmale als reiner Erzählertext klassifiziert werden, doch dies würde ihrem Status in der Erzählung nicht gerecht.
5.2.2 Unabhängige Konjunktivsätze Eine formale Besonderheit, die in den angelsächsischen Darstellungen nicht thematisiert wird – vermutlich weil die Konjunktivformen im Englischen fast immer homonym zu den Präteritumformen sind – sind Sätze, die keine Einführungsformel, aber den Modus Konjunktiv aufweisen.18 Dass die Wirkung solcher Sätze sehr unterschiedlich sein kann, zeigen die folgenden Beispiele: (15)
Eines Tages pochte Dr. Klausmann bei [s]einer Freundin an. Er fand sie unwirsch, geärgert, fast grob. Was er wünsche. Ewig die Fragerei wegen der Zeitung! (Janitschek: Weib)
(16)
Ich pflegte ihn auch zu ermahnen, ernstlicher als mancher andere: er solle nicht allzu enge Freundschaft mit seinen Schatten schließen, sondern sich auch im Leben ein bißchen umschauen, wo es manch lebendig Ding gäbe, des Besehens wert; auch Mädchen, blonde, braune, die mir zum Beispiel viel lieber wären als seine schwirrenden Eintagsgestalten. (Schnitzler: Ypsilon)
Beide Beispielsätze weisen Konjunktiv auf und sind grammatisch unabhängig. Der kurze Stakkatosatz in 15 ahmt deutlich den Duktus von direkter Wiederga-
18 In der Linguistik wird manchmal gerade für diesen Typ der Begriff ‚freie indirekte Wiedergabe‘ verwendet, z.B. bei Fabricius-Hansen 2002.
5.3 Indirekte Wiedergabe
| 63
be nach und wirkt damit wie eine typische freie indirekte Wiedergabe (der darauf folgende verblose Satz wurde auch als eine solche annotiert). Bei 16 hingegen fungiert der vorhergehende Satz, der noch dazu nur mit einem Doppelpunkt abgegrenzt ist, quasi als Rahmenformel und man ist geneigt, die Instanz als indirekte Wiedergabe zu klassifizieren. Bei der manuellen Annotation werden Sätze dieser Form prinzipiell als ambig zwischen freier indirekter Wiedergabe und indirekter Wiedergabe klassifiziert, mit beiden Kategorien annotiert und dem Attribut ambig versehen (siehe auch Abschnitte 5.3 und 5.5.4).
5.2.3 Markierungsrichtlinien Die Markierung von Instanzen freier indirekter Wiedergabe erstreckt sich fast immer über einen vollständigen Satz: (17)
Meine Zähne schlugen zusammen. Wo war er, wo war er denn nur? (Schnitzler: Ypsilon)
In den seltenen Fällen, in denen eindeutig ist, dass eine Verschiebung der Perspektive von Handlungsbeschreibung zu Gedanken der Figur innerhalb eines Satzes stattfindet, wird nur der entsprechende Satzteil markiert. (18)
Er riß in seiner Wut von dem Feldrande ein Büschel Kornähren ab und schwenkte es wie einen Stock in der Hand. Dann stand er auf, und nun wehe ihr. (Heym: Irre)
5.3 Indirekte Wiedergabe 5.3.1 Beschreibung Indirekte Wiedergabe umfasst die Kategorien indirect_speech, indirect_ writing und indirect_thought. Sie besteht typischerweise aus einer Rahmenformel und einem untergeordneten Satz, der die Wiedergabe enthält. Dabei wird ein propositionaler oder illokutionärer Inhalt transportiert (vgl. z.B. Fludernik 1993, 74). In manchen Darstellungen wird die ‚Figurenferne‘ der indirekten Wiedergabe betont. Martinez/Scheffel etwa charakterisieren die Form folgendermaßen: In der indirekten Rede [...] kann im Prinzip alles Gesagte dargestellt werden, es fehlt jedoch die Wörtlichkeit, d.h. wir wissen in diesem Fall nicht, wie die ‚wirklich‘ gesprochenen Worte
64 | 5 Das Annotationssystem der Figur lauten. Dadurch, daß eine narrative Instanz hier die Rede eines anderen in die eigene Rede integriert, geht der individuelle Stil der Figurenrede [...] verloren. (Martinez/Scheffel 2007, 52)
In realen Texten lässt sich jedoch beobachten, dass die Form der indirekten Wiedergabe eine große Bandbreite aufweist und sowohl stark neutralisierend und zusammenfassend sein kann als auch stilistische Besonderheiten haben kann, die sehr deutlich auf die Stimme der Figur verweisen. Schmids Charakterisierung der personalen indirekten Rede im Vergleich zur narrationalen indirekten Rede illustriert dies anschaulich (vgl. Tabelle 4.4, S. 47). Wie in Abschnitt 5.2 bereits erwähnt, wurde die Entscheidung von Leech/Short 2007, Fälle mit deutlichem Figurenstil unter freie indirekte Wiedergabe zu subsumieren, bei der manuellen Annotation nicht nachvollzogen. Stattdessen ist indirekte Wiedergabe die Kategorie, die am stärksten und eindeutigsten formal, also über ihre grammatische Struktur, definiert wird. In diesem Abschnitt werden nur die wichtigsten Merkmale erläutert, um zu erklären, welche Fälle als indirekte Wiedergabe annotiert werden. Eine ausführlichere Betrachtung der grammatikalischen Besonderheiten findet sich in den Abschnitten 10.2.1 und 10.2.2. Eine indirekte Wiedergabe besteht aus 1. einer Rahmenformel 2. einer untergeordneten Phrase, welche den Inhalt der wiedergegebenen Proposition enthält. Die typischen Muster sind – Rahmenformel + Nebensatz mit Verbzweitstellung – Rahmenformel + Nebensatz mit Konjunktion dass, ob oder w-Fragewort – Rahmenformel + (erweiterter) Infinitivsatz Konjunktiv als Verbmodus im Nebensatz ist ein sehr typisches, allerdings kein notwendiges Merkmal indirekter Wiedergabe. Häufig ist die Rahmenformel verbal, jedoch kann der Wiedergabesatz auch von einer Nominalphrase abhängen: (19)
Ihm kam der Gedanke, daß er vielleicht die Kinder wieder zum Leben bringen könnte. (Heym: Irre)
Die Konstruktion mit (erweitertem) Infinitiv ist für indirekte Wiedergabe weniger prototypisch als die beiden Nebensatzkonstruktionen. Die Entscheidung, solche Sätze ebenfalls als indirekte Wiedergabe zu werten (und nicht als erzählte Wiedergabe), entspricht dem Vorgehen von Semino/Short und hat zwei Gründe: Zum einen erhöht dies die Vergleichbarkeit der beiden Annotationsprojekte. Wichti-
5.3 Indirekte Wiedergabe
| 65
ger jedoch ist, dass erweiterte Infinitivsätze genauso komplexe Propositionen ausdrücken können wie Nebensätze und dass es lediglich vom Verb der Rahmenformel abhängt, welche Konstruktion verwendet wird. So ist z.B. bei dem Verb befehlen die Konstruktion mit zu + Infinitiv üblich: (20)
Belinde mußte ihrem Vater folgen, er befahl ihr, ein Roß zu besteigen, und er selbst und einige Diener begleiteten sie. (Bernhardi: Belinde)
Allerdings haben Infinitivsätze eine größere Tendenz als Nebensätze, stark verkürzt zu werden: (21)
Die Nachteule bat ihn zu erzählen, der Kalif aber hub an und erzählte, was wir bereits wissen. (Hauff: Kalif)
Solche Instanzen wirken kaum anders als Fälle erzählter Wiedergabe, jedoch werden sie aufgrund der formalen Kriterien ebenfalls als indirekte Wiedergabe annotiert. Dies ist ein Beispiel dafür, dass formale Faktoren zum Tragen kommen, wenn die gefühlsmäßige Grenze zwischen Wiedergabekategorien verschwimmt. Die Rahmenformel kann auch nachgestellt werden: (22)
Willkommen ihr Störche, ihr seid mir ein gutes Zeichen meiner Errettung, denn durch Störche werde mir ein großes Glück kommen, ist mir einst prophezeit worden! (Hauff: Kalif)
Zudem werden, obgleich hier keine grammatische Unterordnung vorliegt, auch Sätze mit eingeschobener Rahmenformel als indirekte Wiedergabe gezählt, wenn mindestens eines der anderen prototypischen Merkmale zutrifft, d.h. entweder Konjunktiv, Konjunktion oder erweiterter Infinitiv vorliegt. Man betrachte allerdings folgenden Fall: (23)
Der schöne Fritz aber hatte einen Vertrauten unter seiner Kameradschaft, einen alten Wachtmeister-Lieutenant, der im Rufe war, daß er sei ein Meister in allen Schröpferskünsten, er besaß, sagte das Gerücht, das verlorne Kunstgeheimnis sich feste zu machen, konnte Geister zitieren, und hatte jeden Tag einen Freischuß. (Musäus: Entführung)
Während der kursiv gesetzte Teil den formalen Vorgaben für indirekte Wiedergabe entspricht, ist der unterstrichene Teil problematisch: Es ist zwar ein Satz mit eingeschobener Rahmenformel, doch er enthält keinen Konjunktiv und ist auch syntaktisch unabhängig. Tatsächlich entspricht die Form der einer direkten Wiedergabe, allerdings ist das Tempus dem des Erzähltextes angepasst. Dieser Satz-
66 | 5 Das Annotationssystem teil wurde als ambig zwischen indirect_speech und direct_speech ausgezeichnet.19 Sätze, die im Konjunktiv stehen, aber keine Rahmenformel aufweisen, werden als ambig zwischen indirekter Wiedergabe und freier indirekter Wiedergabe gewertet, wie bereits in Abschnitt 5.2.2 erläutert. Von entscheidender Bedeutung für die Entscheidung, ob etwas als indirekte Wiedergabe klassifiziert wird oder nicht, ist die Rahmenformel. Über diese wird kommuniziert, dass es sich bei der folgenden Proposition um etwas Gesprochenes, Gedachtes oder Geschriebenes handelt. Normalerweise enthält darum die Rahmenformel ein Verb oder Nomen, das explizit eine Sprach-, Denk-, oder Schreibhandlung ausdrückt. Wenn an dieser Stelle keine Eindeutigkeit herrscht, so wird die Identifizierung problematisch. Auf solche Grenzfälle wird bei der Erläuterung der Attribute narr (Abschnitt 5.5.5) und border (Abschnitt 5.5.6) genauer eingegangen.
5.3.2 Markierungsrichtlinien Im Gegensatz zu direkter und freier indirekter Wiedergabe erstreckt sich die indirekte Wiedergabe häufig nicht über einen ganzen Satz. Die Abgrenzung der Markierung ist damit deutlich schwieriger. Wie in der Einleitung zum Annotationssystem ausgeführt, sollte eine zusammenhängende Wiedergabe möglichst in einem Stück markiert und gleichzeitig vermieden werden, zu viel Text zu markieren, der nicht direkt etwas mit der Struktur der Wiedergabe zu tun hat, wie z.B. lange Relativ- oder Nebensätze. Die Richtlinien versuchen, zwischen diesen beiden Zielen zu vermitteln. – Bei verbaler Rahmenformel beginnt die Markierung mit dem Verb der Rahmenformel und endet am Ende der untergeordneten Phrase. Das Subjekt der Rahmenformel wird nicht mit annotiert (also er sagte, dass..., nicht er sagte, dass...). Damit soll eine stärkere Fokussierung auf die für die indirekte Wiedergabe typischen Strukturen erreicht werden, denn das Subjekt kann umfangreich sein und z.B. abhängige Relativsätze enthalten. Außerdem wird das Subjekt bei aneinandergereihten indirekten Wiedergaben oft nicht wiederholt, so dass es in deutlicher Entfernung zum Rest der Phrase steht (vgl. Beispiel 24).
19 Außerdem ist die Annotation mit dem Attribut metaph versehen, da Gerücht als ‚Sprecher‘ auftritt, siehe Abschnitt 5.5.7.
5.3 Indirekte Wiedergabe
–
–
–
Bei Abhängigkeit von einer Nominalphrase beginnt die Markierung mit dem Substantiv (einschließlich eventueller Modifikatoren wie Artikel und Adjektive) und endet am Ende der untergeordneten Phrase (z.B. seine freche Behauptung, dass...). Ist die Nominalphrase Teil einer verbalen Konstruktion, die auf einen Wiedergabeakt verweist, so wird die gesamte Verbalphrase annotiert (z.B. gab die Antwort, dass..., nicht gab die Antwort, dass...). Wenn mehrere vollständige Konstruktionen von Rahmenformel + Nebensatz aufeinander folgen, wird jede einzeln annotiert. Verbindende Konjunktionen wie und werden nicht mit annotiert. (24)
–
| 67
Sie befahl dem Fräulein die Hände zu lösen, und hieß sie dann sich niedersetzen und spinnen. (Bernhardi: Belinde)
Wenn hingegen mehrere untergeordnete Phrasen von derselben Rahmenformel abhängen, wird der gesamte Komplex als eine einzige Instanz annotiert. Verbindende Konjunktionen wie und werden mit annotiert. (25)
In Don Fernandos Gesellschaft ward die Frage aufgeworfen, ob man nicht auch an dieser Feierlichkeit teilnehmen, und sich dem allgemeinen Zuge anschließen solle? (Kleist: Erdbeben)
Manchmal kann es problematisch sein, festzustellen, ob eine Satzgrenze vorliegt, wie etwa in folgenden Beispielen: (26)
Don Fernando stieg eine Röte des Unwillens ins Gesicht; er antwortete: es wäre gut! Donna Elvire möchte sich beruhigen;[ambig] und führte seine Dame weiter. (Kleist: Erdbeben)
(27)
Verloren war ich für meine Berufsarbeiten seit dem Augenblick, da ich dies schöne Land gefunden hatte, ich gab sie auf, denn erst wollte ich wissen, wer ich sey? was ich seyn solle? welche Stelle mir gebühre? und welche Gesetze in dem Reiche herrschten, dessen Bürger ich werden wollte? ehe ich meiner Thätigkeit einen Kreis bestimmte. (Günderrode: Bramine)
In beiden Fällen sind Satzzeichen in eine Wiedergabe eingeschoben, die man als zusammenhängend lesen könnte. Genaugenommen ist die Interpunktion der indirekten Wiedergabe hier der der direkten Wiedergabe angeglichen. Bei Beispiel 26 ist es möglich, die Passage Donna Elvire möchte sich beruhigen als unabhängigen Konjunktivsatz aufzufassen, weshalb sie als ambig zwischen indirekter und freier indirekter Wiedergabe klassifiziert wird. Bei Beispiel 27 jedoch weisen die Satzteile was ich sein solle? etc. Nebensatzstellung auf und können darum trotz der eingeschobenen Fragezeichen nicht als unabhängig aufgefasst werden. Es handelt sich um eine einzige, zusammenhängende indirekte Wiedergabe.
68 | 5 Das Annotationssystem Die folgenden Konstruktion wird ebenfalls als indirekte Wiedergabe gewertet. Auch wenn die Abhängigkeit von der Rahmenformel nicht unmittelbar gegeben ist, so ist doch offensichtlich, dass diese nur elidiert ist: (28)
Und weil die Armen immer noch jammerten; dieser, daß er sein Haus, jener, daß er Weib und Kind, und der dritte, daß er alles verloren habe: so schlichen Jeronimo und Josephe in ein dichteres Gebüsch, um durch das heimliche Gejauchz ihrer Seelen niemand zu betrüben. (Kleist: Erdbeben)
5.4 Erzählte Wiedergabe 5.4.1 Beschreibung Erzählte Wiedergabe umfasst die Kategorien reported_speech, reported_ writing und reported_thought. Im Vergleich zur direkten, freien indirekten und indirekten Wiedergabe ist die erzählte Wiedergabe als Kategorie weniger etabliert und vor allem in älteren Darstellungen oftmals nicht Teil des Kategoriensystems. Dies liegt vermutlich daran, dass sie sich stark dem Erzählertext annähert und damit unauffällig und zugleich formal sehr inhomogen ist. Bei der manuellen Annotation umfasst der Begriff ‚erzählte Wiedergabe‘ grob gesagt Passagen, die nicht den Kriterien für indirekte Wiedergabe genügen, aber dennoch Rede, Gedanken oder Geschriebenes repräsentieren. Semino/Short unterteilen dieses Phänomen in zwei Kategorien: ‚Narrator’s Representation of Speech/Thought/Writing Acts‘ (NRSA/NRTA/NRWA) versus ‚Narrator’s Representation of Voice/Writing‘ (NV/NW) und ‚Internal Narration‘ (NI). Dies ist insofern besonders bemerkenswert, als die letztgenannte Kategorie, die auf Semino/Shorts Skala dem Pol des Erzählers am nächsten steht, explizit für ihr Annotationsprojekt eingeführt wurde. Sie stellt die deutlichste Erweiterung des Schemas von Leech/Short dar, die aufgrund von Korpusevidenzen durchgeführt wurde. Bei der hier durchgeführten manuellen Annotation wurde diese Teilung nicht nachvollzogen, aber da die Studie von Semino/Short aufgrund ihrer Korpusbezogenheit ein besonderes Vorbild darstellt, soll dies begründet und dazu zunächst ihr System näher erläutert werden. Für die Redewiedergabekategorien erfolgt die Abgrenzung folgendermaßen: NRSA beschreibt entsprechend der Definition von Leech/Short den Fall „where the narrator specifies the illocutionary force of the utterance, and, possibly, its topic“ (Semino/Short 2004, 44). Die Einführung der neuen Kategorie NV erwuchs aus dem Bedürfnis, auch Fälle zu erfassen, die keines der beiden Kriterien erfül-
5.4 Erzählte Wiedergabe
|
69
len. Semino/Short nennen zwei Haupttypen von Phänomenen, die mit NV zusätzlich erfasst werden: –
minimal references to the fact that a particular character/person engaged in some unspecified form of verbal activity, and – summary references to speech events that involved a large number of participants. (Semino/Short 2004, 45)
Während die Kategorien für Geschriebenes, NRWA und NW, im Wesentlichen analog gehandhabt werden, ist die Definition bei den GedankenwiedergabeKategorien abweichend. NRTA ist folgendermaßen definiert: This captures those cases where the narrator reveals that a character engaged in a specific act of thinking but does not spell out the propositional content involved (though a specification of the topic of thought is sometimes given). (Semino/Short 2004, 45)
Diese Definition ist deutlich weiter als die von NRSA, da hier kein zusätzliches Merkmal wie die Erwähnung der Illokution verlangt wird. Die Kategorie NI umfasst zum einen, analog zu den Kategorien bei Rede und Geschriebenem, minimale Erwähnungen von Gedankenwiedergabe, jedoch stellen Semino/Short fest, dass diese wesentlich seltener sind als ihre Äquivalente: The NV and NW categories described above were designed to capture very minimal discourse reports (e.g. ‘She talked on’, ‘he wrote to me frequently’). However, sentences and clauses of the ‘He thought carefully’ kind, although theoretically possible, were rare in our corpus. (Semino/Short 2004, 51)
Folglich wurde die Definition von NI erweitert: We therefore adapted the label NI (Narration of Internal States or Internal Narration) for all those cases where the narrator reports a character’s cognitive and emotional experiences without presenting any specific thoughts. By our definition, however, NI does not include reports of characters’ perceptions, whether those stimuli are internal (‘She felt a pain in her stomach’) or external (‘She felt the softness of his hair’). (Semino/Short 2004, 46)
Ferner legen sie (in Abgrenzung zu Toolan) fest: „As far as we are concerned, the character’s conscious awareness of his or her internal experiences is not a requirement for a stretch of text to be classified as NI.“ (Semino/Short 2004, 47) Dies verleiht der Kategorie eine deutlich andere Färbung als NV und NW, und bei dieser Definition erweist sich NI in dem von Semino/Short untersuchten Korpus dann auch als die häufigste Form der Gedankenwiedergabe überhaupt (vgl. Semino/Short 2004, 46).
70 | 5 Das Annotationssystem Bei der manuellen Annotation umfasst die reported-Kategorie im Falle von Rede und Geschriebenem beide Kategorien von Semino/Short, also auch die von NV bzw. NW abgedeckte minimale Erwähnung. Eine weitere Untergliederung dieser sowieso schon schwer zu erfassenden Kategorie erschien nicht hilfreich. Die Kategorie reported_thought ist allerdings keine direkte Kombination aus NRTA und NI. Die Erweiterung der Gedankenwiedergabe auf die Repräsentation von Wahrnehmung und Gefühlsregungen wurde nicht nachvollzogen, da dies zu weit von Kernphänomenen der Wiedergabe weggeführt hätte.20 Eine genauere Begründung und weitere Ausführungen zum komplexen Problem der Definition von Gedankenwiedergabe finden sich im Zusammenhang mit dem Attribut border in Abschnitt 5.5.6. Die Annnotationsergebnisse zur erzählten Gedankenwiedergabe sind also nur bedingt vergleichbar mit denen bei Semino/Short. Praktisch betrachtet sind die häufigsten Grundtypen der erzählten Wiedergabe: – Verbale Bezüge auf eine Sprach-, Denk- oder Schreibhandlung, die nicht die Struktur Rahmenformel + untergeordnete Phrase aufweisen – Nominalphrasen ohne abhängigen Nebensatz, die sich auf Wiedergaben beziehen Fälle von erzählter Wiedergabe können sehr unterschiedlich sein. In ihrer minimalsten Form bestehen sie nur aus einem einzelnen Wort, das auf eine sprachliche, schriftliche oder gedankliche Handlung schließen lässt. Der Inhalt dieser Handlung muss nicht wiedergegeben werden, aber der Verweis muss explizit sein, d.h. reine Inhaltszusammenfassungen gelten nicht als erzählte Wiedergabe. In Beispiel 29 ist folglich der erste Satz reported_speech, aber nicht der zweite. (29) Nun begann er mir eine Geschichte zu erzählen, während deren er manchmal auf die Blätter schaute, die vor ihm lagen. Es handelte sich da um irgendein sonderbares Mägdelein, das auf einer Insel im Indischen Ozean lebte, Türkisa hieß und das Holdseligste war, das jemals von Menschen oder Göttern war erschaut worden. (Schnitzler: Ypsilon) In Fällen, wo eine sprachliche Handlung zwar stark impliziert ist, aber die Semantik der verwendeten Wörter dies nicht explizit macht, kann reported_speech mit dem Attribut narr verwendet werden (siehe Abschnitt 5.5.5).
20 Semino/Short stellen ihre Behandlung von NI im Fazit ihrer Darstellung sogar selbst in Frage. Da die Kategorie den anderen Wiedergabekategorien sehr unähnlich ist, überlegen sie, ob dieses Phänomen nicht lieber als eine Unterart des Erzählertextes gewertet werden sollte (vgl. Semino/Short 2004, 228).
5.5 Attribute | 71
5.4.2 Markierungsrichtlinien Für die Markierung von erzählter Wiedergabe gelten, zusätzlich zu den allgemeinen, folgende Richtlinien: – Prinzipiell wird bei erzählter Wiedergabe angestrebt, den ganzen Satz oder Satzteil zu markieren, der eine Sprach-, Denk- oder Schreibhandlung wiedergibt. – Wenn es möglich ist, mehrere unterschiedliche sprachliche, schriftliche oder gedankliche Handlungen zu identifizieren, so werden diese jeweils einzeln markiert. – Wenn eine Nominalphrase mit einem Verb verwendet wird, so dass sich im Ganzen eine Sprach-, Denk- oder Schreibhandlung ergibt, sollte – wie bei indirekter Wiedergabe – die ganze Verbalphrase markiert werden (also Pläne entwerfen, nicht nur Pläne). Markierungsbeispiele für erzählte Wiedergabe sind: (30)
Ich kam durch mehrere Dörfer und bettelte, weil ich jetzt Hunger und Durst empfand, ich half mir so ziemlich mit meinen Antworten durch, wenn ich gefragt wurde. (Tieck, Eckbert)
(31)
Eben begann er zu schreiben. (Schnitzler: Ypsilon)
(32)
Drauf, als er eines Ringes an seiner Hand gewahrte, erinnerte er sich plötzlich auch Josephens; und mit ihr seines Gefängnisses, der Glocken, die er dort gehört hatte, und des Augenblicks, der dem Einsturze desselben vorangegangen war. (Kleist: Erdbeben)
(33)
Statt dessen hatten sie ihn vorgeladen, verhört, lauter Theater mit ihm aufgestellt. (Heym: Irre)
5.5 Attribute Attribute können den Hauptkategorien und der Sonderkategorie frame beigefügt werden, um Besonderheiten der Instanzen zu vermerken. Bis auf level weisen alle Attribute darauf hin, dass die Instanz auf irgendeine Weise keine prototypische Wiedergabe ist. Die Attribute dienen also vor allem der Markierung und Klassifizierung von Grenzfällen. Die Vergabe aller Attribute ist optional, und Instanzen können beliebig viele unterschiedliche Attribute tragen. Für das Attribut level wird ein Defaultwert angenommen, wenn es fehlt, die restlichen Attribute gelten in diesem Fall einfach
72 | 5 Das Annotationssystem als nicht relevant bzw. nicht zutreffend. Die Attribute level, ambig, non-fact und border haben zudem Werte, die eine noch feinere Klassifizierung erlauben. Die restlichen Attribute tragen lediglich einen Platzhalter-Wert – yes – wenn sie einer Instanz zugewiesen werden. Dies hat dann die Bedeutung „Merkmal X trifft zu“. Eine Übersicht über alle Attribute und ihre Werte gibt Tabelle 5.2. Tab. 5.2. Übersicht über die Attribute
Attribut
Erklärung
Werte
level
Schachtelungsgrad
numerisch, Default ist 1 (Zählung wird zurückgesetzt bei embedded)
ambig
Ambiguität
Name der alternativen Hauptkategorie
non-fact nicht faktisch
neg, hyp, fut, ques, imp, plan, unspec
border
Randphänomen (näher bestimmt nur bei Gedankenwiedergabe)
percept, feel, state, unspec
narr
Ambiguität zwischen Handlung und Sprache/Geschriebenem (nicht bei Gedankenwiedergabe)
yes (Platzhalter)
prag
Pragmatischer Gehalt ist nicht wirklich Wiedergabe
yes (Platzhalter)
metaph
Metapher
yes (Platzhalter)
5.5.1 level – Schachtelungsgrad Das Attribut level bezeichnet die Tiefe der Schachtelung der Wiedergabe, die mittels einer Zahl angegeben wird. Der Default-Fall ist level:1, d.h. eine Wiedergabe im Erzählertext. Wenn dieser Fall vorliegt, kann das Attribut auch weggelassen werden. Eine Wiedergabe innerhalb einer anderen Wiedergabe erhält das Attribut level:2, bei weiterer Schachtelung wird entsprechend hochgezählt. Im folgenden Beispiel gibt eine Figur, der Bürgermeister, die Rede einer anderen Figur, seiner Frau, wieder, die folglich als direct_speech, level:2 markiert wird:
5.5 Attribute | 73
(34)
»Gewiß«, sagte der Bürgermeister. »Sie wurden mir heute in der Nacht angekündigt. Wir schliefen längst. Da rief gegen Mitternacht meine Frau: ›Salvatore‹, – so heiße ich – ›sieh die Taube am Fenster!‹ [...] (Kafka: Gracchus)
Zweck dieses Attributs ist es, nachvollziehen zu können, wie die Beziehungen von Wiedergabeformen untereinander sind und ob es Tendenzen gibt, dass bestimmte Typen häufiger verschachtelt werden. Die Verwendung der Sonderkategorie embedded, die einen Wechsel der Erzählebene anzeigt, bewirkt, dass die Zählung des Werts von level zurückgesetzt wird. Eine genauere Erklärung findet sich in Abschnitt 5.6.2. Aufgrund dieser Besonderheit von embedded sind Schachtelungsgrade höher als level:2 im Erzähltexkorpus sehr selten. Wenn sie auftreten, müssen sie allerdings nicht unbedingt besonders kompliziert wirken, wie das folgende Beispiel für level:3 zeigt: (35)
[direct_speech, level:1]»Das eben nicht«, entgegnete ich, »aber schon das eine oder andere Mal habe ich [indirect_thought, level:2]daran gedacht, wie sehr es seiner Liebe zu dir zustatten käme, wenn du ihm erklärtest: [direct_speech, level:3] ›Mein süßer Ypsilon, ich existiere ja eigentlich nicht, ich habe mich davongestohlen aus einem Märchen, und diese holde Wirklichkeit in deinen Armen ist nur ein Traum ...‹« (Schnitzler: Ypsilon)
5.5.2 non-fact – Nicht-faktische Wiedergaben Das Attribut non-fact steht für ‚nicht-faktisch‘. Dies bedeutet, dass die wiedergegebene Äußerung (bzw. der Gedanke oder das Geschriebene), so präsentiert wird, als habe sie in der Textwelt nicht real stattgefunden. Dabei geht es ausschließlich um die Präsentation; der Wahrheitsgehalt der wiedergegebenen Aussage innerhalb der Textwelt spielt keine Rolle. Nicht-faktische und faktische Wiedergaben verwenden die gleichen Konstruktionen und sind sich an der Textoberfläche sehr ähnlich. Ihr Status in der Textwelt ist jedoch grundlegend anders. Wenn nicht nur ein Interesse daran besteht festzustellen, ob in einem Text auf Sprach-, Gedanken- oder Schreibhandlungen Bezug genommen wird, sondern auch daran, welchen Status diese haben, ist eine Kennzeichnung von nicht-faktischen Wiedergaben sinnvoll.
74 | 5 Das Annotationssystem Der Wert des Attributs non-fact klassifiziert genauer, um welche Art von NichtFaktizität es sich handelt. Tabelle 5.3 listet die möglichen Werte mit Beispielen auf. Tab. 5.3. Mögliche Werte von non-fact
Wert
Erklärung
Beispiel
neg
negiert
Traurig wandelten die Verzauberten durch die Felder, sie wußten gar nicht, was sie in ihrem Elend anfangen sollten. (Hauff: Kalif)
hyp
hypothetisch
Ist nur der tugendhaft, der auf den Ruinen seines eignen Geistes steht und sagen kann: Seht, diese hatten sich empört, aber sie sind gefallen, ich bin Sieger worden über sie Alle! (Günderrode: Bramine)
fut
Zukünftiges
Laß ihn arbeiten, noch zwei, drei Tage, dann wird er selber zu dir kommen und dich bitten, wieder die Alte zu sein. (Schnitzer: Ypsilon)
ques
Frage
Glauben Sie aber, Herr Bürgermeister, daß ich in Riva bleiben soll? (Kafka: Gracchus)
imp
Wunsch, Befehl
Gelobe dem Ritter deine Hand zu reichen, und du kehrest mit mir in mein Schloß zurück. (Bernhardi: Belinde)
plan
Plan, Absicht
»Gehst Du in die ›drei Schwanen‹, Papa?« fragte die Tochter. »Nur für einen Augenblick, um mich zu entschuldigen; ich muß nach Meinsdorf zum Richter.« (May: Ziege)
unspec
nicht spezifiziert
[Dieser Wert wird verwendet, wenn die Instanz keinem der anderen Typen zuzuordnen ist.]
Binnenerzählungen eröffnen einen neuen Referenzbereich, d.h. allein die Tatsache, dass eine Wiedergabe innerhalb einer Binnenerzählung auftaucht, rechtfertigt noch keine Kennzeichnung als non-fact, auch wenn die gesamte Binnenerzählung innerhalb der Rahmenerzählung als fiktional präsentiert wird. Nur wenn die Wiedergabe in der Textwelt der Binnenerzählung selbst als nicht stattgefunden dargestellt wird, wird sie mit non-fact gekennzeichnet. Häufig, vor allem bei den Kategorien indirect und reported, weisen markierte Passagen deutliche formale Merkmale von Nicht-Faktizität auf, z.B. Frageform oder Verneinung. Die Nicht-Faktizität kann aber auch nur durch den Kontext deutlich werden. Dies ist typischerweise bei der Kategorie direct der Fall, wo die Signale für Nicht-Faktizität in der Rahmenformel, nicht in der direkten Wiederga-
5.5 Attribute | 75
be selbst, zu finden sind. Berücksichtigt werden auch lexikalische Verneinungen, wie in den folgenden Beispielen: (36)
Er befühlte sich Stirn und Brust, unwissend, was er aus seinem Zustande machen sollte [...] (Kleist: Erdbeben)
(37)
Er übernachtete auch bei Don Alonzo, und säumte lange, unter falschen Vorspiegelungen, seine Gemahlin von dem ganzen Umfang des Unglücks zu unterrichten; [...] (Kleist: Erdbeben)
Hier erfolgt die Negierung durch die Semantik der Wörter unwissend bzw. säumen. In letzter Konsequenz könnte man zu dem Schluss kommen, dass eigentlich auch Instanzen von z.B. schweigen annotiert werden müssten, da diese als ‚negierte Rede‘ verstanden werden können. Darauf wurde bei der manuellen Annotation verzichtet, da sich der Definitionsbereich von Wiedergabe damit sehr ausweitet. Die nicht-faktische Wiedergabe stellt einen Randbereich dar und sollte nicht überbewertet werden. Lexikalisch verneinte Wiedergaben müssen also immer zumindest einen Inhalt der (nicht stattgefundenen) Wiedergabe transportieren. In Beispiel 36 ist diese im Nebensatz kodiert, in Beispiel 37 ist es die erzählte Wiedergabe über den Umfang des Unglücks unterrichten. Bei Semino/Short existiert eine ähnliche Markierung für ein Phänomen, das sie als ‚hypothetische‘ Wiedergabe bezeichnen (hypothetical), aber – in Abgrenzung zu geläufigeren Verwendungen des Wortes ‚hypothetisch‘ – sehr ähnlich definieren wie non-fact: „It captures all presentations of discourse which are indicated as not actually occurring in the world evoked by the text [...] “ (Semino/Short 2004, 165). Die Autoren geben ausführliche Erklärungen dazu, welche Fälle sie mit dieser Markierung erfassen, es gibt jedoch, anders als bei non-fact, keine Möglichkeit zur expliziten Spezifizierung der einzelnen Untertypen bei der Annotation. Tabelle 5.4 illustriert, was von Semino/Short markiert wird und wie im Vergleich dazu das Attribut non-fact verwendet wird (vgl. Semino/Short 2004, 160–166). Wie man sieht, werden weitgehend die gleichen Phänomene abgedeckt. Allerdings gibt es zwei Abweichungen: Zum einen dient zur Kennzeichnung von Höflichkeitsfloskeln nicht non-fact, sondern das Attribut prag (siehe Abschnitt 5.5.3). Die Klassifizierung ‚Höflichkeitsfloskel‘ hat einen anderen Stellenwert als ‚Nicht-Faktizität‘, was sich daran zeigt, dass es sowohl faktische als auch nichtfaktische Höflichkeitsformeln geben kann. Es wirkt also verzerrend, sie pauschal mit demselben Attribut zu markieren wie Nicht-Faktizität. Stattdessen können die Attribute non-fact und prag der gleichen Instanz zugewiesen werden, was auch nicht selten geschieht.
76 | 5 Das Annotationssystem Zum anderen ist das Phänomen „Interpretationen von (non-)verbalem Verhalten“ normalerweise nicht Teil der Definition von non-fact. Seine Nicht-Faktizität ist zu stark kontext- und interpretationsabhängig. Solche Fälle werden nur dann mit non-fact markiert, wenn sie deutliche Oberflächenmerkmale wie Konjunktiv, Futur oder Negation aufweisen. Sie können, je nach Zusammenhang, stattdessen das Attribut metaph (vgl. Abschnitt 5.5.7) tragen. Tab. 5.4. Phänomene, die von Semino/Shorts hypothetical-Kategorie abgedeckt werden, im Vergleich zu den Untertypen von non-fact
Semino/Shorts hypothetical
Wert bei non-fact
potential speech, thought or writing events: Dies ist nach Semino/Short der prototypische Fall: Eine hypothetische – also vorgestellte Situation – wird präsentiert, in der die wiedergegebene Sprach-/Gedanken-/Schreibhandlung vorkommt.
hyp
Wünsche
imp
Pflichten, z.B. Handlungsanweisungen, die aber im Text selbst nicht unbedingt realisiert werden müssen
unspec
Intentionen
plan
Vorhersagen
hyp, fut Form)
Interpretationen von verbalem und non-verbalem Verhalten anderer Personen: Bei verbalen Handlungen handelt es sich hier oft um ein Nebeneinander von tatsächlicher Äußerung und der Interpretation des Wiedergebenden, was damit gemeint war. Bei non-verbalen Handlungen wird ein Verhalten als Kommunikation interpretiert und in eine verbale Äußerung ‚übersetzt‘.
keine Markierung oder Attribut metaph
Szenarien in der Zukunft
fut
Höflichkeitsfloskeln wie I was going to say ... Wörtlich genommen ist dies der Ausdruck einer früheren Intention. Pragmatisch gesehen handelt es sich allerdings um eine Indirektheitsstrategie, die der Höflichkeit dient.
Attribut prag, je nach Form zusätzlich auch hyp o.ä.
Wiedergabe innerhalb des Skopus eines negierten Ausdrucks
neg
(je
nach
5.5 Attribute | 77
5.5.3 prag – Abweichende pragmatische Funktion Das Attribut prag markiert eine sprachliche Wendung, die sich zwar der Muster von Wiedergabe bedient, aber pragmatisch einen anderen Zweck erfüllt. Dabei handelt es sich z.B. um Höflichkeitsfloskeln und Redewendungen. Instanzen von prag verwenden häufig die erste Person Singular, d.h. eine Figur referiert die eigene Aussage und weist dabei ausdrücklich auf die eigene Sprach- oder Denkhandlung hin. Solche Wendungen sind oft gleichzeitig nicht-faktisch. Beides trägt dazu bei, dass die eigentliche Funktion von Wiedergabe außer Kraft gesetzt wird. (38)
»Außerordentlich«, sagte der Bürgermeister, »außerordentlich. – Und nun gedenken Sie bei uns in Riva zu bleiben?« »Ich gedenke nicht«, sagte der Jäger lächelnd [...] (Kafka: Gracchus)
(39)
»Danke untertänigst«, erwiderte der Großvezier, indem er sich bückte, »aber wenn ich es wagen darf zu behaupten, Eure Hoheit sehen als Storch beinahe noch hübscher aus, denn als Kalif. (Hauff: Kalif)
5.5.4 ambig – Ambiguitäten Wenn unklar ist, welcher Hauptkategorie eine Textpassage zuzuordnen ist, z.B. reported_speech oder reported_thought, so wird die entsprechende Passage mit beiden Kategorien annotiert. Außerdem erhalten beide Annotationen das Attribut ambig, das als Wert den Namen der alternativen Kategorie erhält (z.B. erhielte der Tag reported_speech das Attribut ambig: reported_thought). Das Attribut wird ausschließlich für Unsicherheiten zwischen Hauptkategorien verwendet. Wenn unsicher ist, ob überhaupt eine Wiedergabe vorliegt, wählt man die Attribute narr (Abschnitt 5.5.5) oder border (Abschnitt 5.5.6). Da das verwendete Kategorieschema zweiachsig ist, kann es auch zwei Arten von Ambiguität geben, die grundlegend verschieden sind: Ambiguität des Wiedergegebenen und Ambiguität der Wiedergabetechnik. Semino/Short machen sehr ähnliche Beobachtungen bei der Annotation ihres Korpus (vgl. Semino/Short 2004, 182–200).
5.5.4.1 Ambiguität des Wiedergegebenen Eine Ambiguität auf der Achse dessen, was wiedergegeben wird – Rede, Geschriebenes oder Gedanken – geht auf Unsicherheiten bei der Interpretation der im Text präsentierten Welt zurück. Sie tritt auf, wenn im Text nicht hinreichend spezifiziert wird, welches Medium genutzt wird, entweder weil es als irrelevant gesehen wird oder weil die Ambiguität gewünscht ist.
78 | 5 Das Annotationssystem Dieses Phänomen tritt im Erzähltextkorpus vor allem zwischen Rede- und Gedankenwiedergabe auf, typischerweise bei der Technik des Selbstgesprächs. Hier ist oft nicht klar, ob die Figur laut spricht oder es sich lediglich um Gedanken handelt. Da Gedanken in Erzähltexten oft sehr stark als ‚innere Rede‘ präsentiert werden, ist diese Ambiguität naheliegend, vor allem bei direkter Gedankenwiedergabe mit ihrer in Abschnitt 5.1.1.2 dargestellten Nähe zum Bühnenmonolog. Ambiguität zwischen Rede- und Gedankenwiedergabe findet sich zum Beispiel in Heym: Irre, einem Text, der sich dadurch auszeichnet, dass der Protagonist ganz in einer eigenen Welt lebt und seine Aufmerksamkeit meist auf sich selbst gerichtet ist. Die Unterscheidung zwischen verbalisierter und stummer ‚Rede‘ ist hier vor allem aufgrund der Reaktionen anderer Figuren möglich. Fehlen diese, etwa wenn der Protagonist allein ist, wird die Unterscheidung schwierig, verliert aber gleichzeitig an Relevanz, da in keinem Fall eine echte Kommunikation stattfindet, wie in dem folgenden Beispiel: (40)
Er überlegte, was er sagen wollte, Wort für Wort, wiederholte es sich ein paarmal. (Heym: Irre)
In Tieck: Eckbert wird der Übergang von stummem zu artikuliertem Selbstgespräch sogar explizit thematisiert: (41)
Ich dachte mir den schönsten Ritter von der Welt, ich schmückte ihn mit allen Vortrefflichkeiten aus, ohne eigentlich zu wissen, wie er nun nach allen meinen Bemühungen aussah; aber ich konnte ein rechtes Mitleid mit mir selber haben, wenn er mich nicht wieder liebte; dann sagte ich lange rührende Reden in Gedanken her, zuweilen auch wohl laut, um ihn nur zu gewinnen. (Tieck: Eckbert)
Ambiguität zwischen Rede und Geschriebenem ist im Erzähltextkorpus selten, da die verwendeten Texte insgesamt wenig Bezüge zu Schriftzeugnissen enthalten.21 Sie tritt vor allem bei erzählten Wiedergaben auf, bei denen die vermittelte Information im Mittelpunkt steht und nicht der Weg, auf dem sie kommuniziert wurde: (42)
Mehrere Jahre waren so vergangen, in welchen ich nichts Höheres kannte als Geld erwerben, um es auf eine angenehme Art wieder auszugeben. Die Nachricht von dem Tode meines Vaters brachte mich zuerst zu einiger Besinnung. (Günderrode: Bramine)
21 Bei Semino/Shorts Untersuchung tritt diese Ambiguität etwas häufiger auf, vor allem in ihrem Teilkorpus von (auto)biographischen Texten. Dies ist aufgrund der Besonderheiten dieser Textsorte, deren Authentizität oft mit schriftlichen Zeugnissen abgesichert wird, auch nicht erstaunlich (vgl. Semino/Short 2004, 189).
5.5 Attribute | 79
Es wird hier völlig offen gelassen, ob der Protagonist diese Nachricht auf mündlichem oder schriftlichem Wege erhalten hat, und es ist für den Text auch nicht von Belang.
5.5.4.2 Ambiguität der Wiedergabetechnik Hier besteht die Unsicherheit darin, ob die Wiedergabe als direkt, frei-indirekt, indirekt oder erzählt klassifiziert werden soll. Ambiguitäten dieser Art beruhen letztendlich auf Definitionsproblemen bei der Abgrenzung der Wiedergabetechniken. Wie in verschiedenen Darstellungen angemerkt, bewegen sich die Wiedergabetypen auf einer Skala zwischen Erzähler(text) und Figur(entext) und weisen oft fließende Übergänge auf (vgl. Abschnitt 4.3). Bei der manuellen Annotation wurde versucht, die Hauptkategorien möglichst eindeutig zu definieren, wobei auch oft formale Gesichtspunkte den Ausschlag geben. Dennoch kann es aus verschiedenen Gründen zu Problemen bei der Zuordnung kommen. Eine Ambiguität, die sich rein aus der formalen Definition ergibt, kann zwischen indirekter und erzählter Wiedergabe auftreten, wenn von demselben Verb sowohl ein untergeordneter Satz als auch eine Nominalphrase abhängen. (43)
Er mischte sich unter das Volk, das überall, mit Rettung des Eigentums beschäftigt, aus den Toren stürzte, und wagte schüchtern nach der Tochter Asterons, und ob die Hinrichtung an ihr vollzogen worden sei, zu fragen [...] (Kleist: Erdbeben)
Fragen, ob die Hinrichtung an ihr vollzogen worden sei ist indirekte Wiedergabe, nach der Tocher Asterons fragen hingegen erzählte Wiedergabe, da kein Nebensatz vorliegt. Trennen kann man die beiden Instanzen nicht, da sie beide vom gleichen Verb abhängen. Solche engen syntaktischen Verflechtungen werden folglich als ambig markiert. Zum zweiten werden bestimmte Phänomene bei der Annotation des Erzähltextkorpus grundsätzlich als ambig angesehen, weil sie funktional zwischen zwei Kategorien liegen. Auf einige solche Fälle wurde bereits bei der Beschreibung der Hauptkategorien eingegangen. Hier seien diejenigen genannt, die häufiger und systematisch auftreten: Wie in Abschnitt 5.2 ausgeführt, wird ein selbstständiger Konjunktivsatz als ambig zwischen freier indirekter und indirekter Wiedergabe klassifiziert. Ein weiteres Phänomen sind floskelhafte, kurze Wendungen, die formal zwar direkte Wiedergabe sind, sich aber eigentlich eher wie erzählte Wiedergabe verhalten. Vor allem die Wendungen Ja sagen und Nein sagen sind so konventionalisiert, dass sie im Grunde synonym zu bejahen und verneinen verwendet werden. Nicht ganz so offensichtlich, aber ähnlich verhält es sich mit Herein sa-
80 | 5 Das Annotationssystem gen (entspricht: hereinbitten). Solche Fälle gelten als ambig zwischen direkter und erzählter Wiedergabe.
5.5.5 narr – Sprache oder Handlung? Das Attribut narr wird vergeben, wenn aus dem Text heraus nicht klar wird, ob eine Handlung verbal oder non-verbal ausgeführt wird. Im Gegensatz zu border geht es also nicht um die Grenzen der Definition, was Sprache ist (vgl. Abschnitt 5.5.6), sondern um eine interpretatorische Ambiguität, wie bei der Ambiguität zwischen Sprache, Geschriebenem und Gedanken (vgl. Abschnitt 5.5.4.1). Das Attribut hat die Besonderheit, dass es nie bei der Wiedergabe von Gedanken verwendet wird. Die Erfassung von Gedankenwiedergabe ist an sich so schwierig, dass eine Trennung zwischen definitorischen und interpretatorischen Grenzfällen nicht praktikabel wäre. Sprach- und Schreibhandlungen hingegen sind konkrete Ereignisse in der Textwelt, die mehr oder weniger eindeutig kommuniziert werden können. Im Erzähltextkorpus tritt das Attribut ausschließlich bei der Wiedergabe von Rede auf, was damit zusammenhängt, dass die Wiedergabe von Geschriebenem insgesamt sehr selten ist. Darum wird im Folgenden auch nur auf Redewiedergaben Bezug genommen, prinzipiell sind die Ausführungen aber auf Wiedergaben von Geschriebenem übertragbar. Klare Fälle von Redewiedergabe liegen immer dann vor, wenn ein Verb oder Nomen verwendet wird, das eine Sprachhandlung bezeichnet. Ist dies nicht der Fall, kann eine Ambiguität auftreten, wie in den folgenden Beispielen: (44)
[...] folgte ihm, da [...] auch Jeronimo nichts einzuwenden hatte, zu seiner Familie, wo sie auf das innigste und zärtlichste von Don Fernandos beiden Schwägerinnen, die sie als sehr würdige junge Damen kannte, empfangen ward (Kleist: Erdbeben)
(45)
Der Kalif, der seinem Großvezier schon lange gern eine Freude gemacht hätte, schickte seinen schwarzen Sklaven hinunter, um den Krämer heraufzuholen. (Hauff: Kalif)
(46)
Auf den Feldern, so weit das Auge reichte, sah man Menschen von allen Ständen durcheinander liegen, Fürsten und Bettler, Matronen und Bäuerinnen, Staatsbeamte und Tagelöhner, Klosterherren und Klosterfrauen: einander bemitleiden, sich wechselseitig Hülfe reichen (Kleist: Erdbeben)
(47)
In den Abendstunden lehrte sie mich lesen, ich fand mich leicht in die Kunst [...] (Tieck: Eckbert)
5.5 Attribute | 81
(48)
Der Gutsherr scheuete keine Kosten, dieser tumultuarischen Hausgenossenschaft durch die berühmtesten Geisterbanner Friede gebieten, und ewiges Stillschweigen auferlegen zu lassen. (Musäus: Entführung)
Die dargestellten Handlungen ließen sich theoretisch alle non-verbal vollziehen. Der Fokus liegt nicht auf der sprachlichen Äußerung, sondern auf dem erzielten Effekt. Trotzdem liegt nahe, dass in allen Fällen eine Sprachhandlung stattgefunden hat. Ambiguitäten zwischen sprachlicher und nicht-sprachlicher Handlung treten nur bei nicht-direkten Formen der Wiedergabe auf, insbesondere bei indirekter und erzählter Wiedergabe (alle obigen Beispiele wurden als reported_speech annotiert). Bei diesen Formen steht von vornherein eher der Effekt einer Handlung im Vordergrund. Werden die Bezüge auf eine sprachliche Ausführung zu gering, stellt sich die Frage, ob nicht eigentlich reiner Erzählertext vorliegt, bei dem die Wiedergabekomponente keine Rolle mehr spielt. Für die Entscheidung, ob das Attribut narr vergeben wird, ist auch der Kontext der Textpassage entscheidend. Man betrachte folgenden Fall: (49)
Nun lag sich die Gelehrsamkeit der beiden Männer in den Haaren, und es hatte hier am Stammtische schon manche heiße Schlacht gegeben, aus welcher Holfert stets als Sieger hervorgegangen war. »Warum aber gehst Du denn selbst nach Meinsdorf?« fragte Einer der Anwesenden, der einem etwaigen Streite zuvorkommen wollte. (May: Ziege)
Der Abschnitt liefert den Hintergrund zu einem unmittelbar vorhergehenden Wortwechsel der beiden Männer, und der Hinweis auf einen drohenden Streit macht eindeutig klar, dass mit der heißen Schlacht ein Rededuell gemeint ist. Dieser Fall wurde als reported_speech ohne das Attribut narr ausgezeichnet, obgleich die Wortwahl für eine Redewiedergabe sehr untypisch ist, ungewöhnlicher als die Formulierungen in den Beispielen 44 bis 48. Entscheidend ist, dass bei den obigen Beispielen die Interpretation als Rede zwar plausibel ist (darum wurden sie überhaupt annotiert), der Kontext aber keine zusätzliche Unterstützung dieser These liefert. Die heiße Schlacht hingegen legt zwar isoliert betrachtet eine Interpretation als Sprachhandlung kaum nahe, aber der Kontext macht diese quasi zwingend. Da mit narr eine textinterpretatorische Ambiguität markiert wird, wäre die Vergabe des Attributs an dieser Stelle unpassend.22
22 Die heiße Schlacht trägt allerdings aufgrund ihrer geringen Prototypik als Sprachhandlung das Attribut border.
82 | 5 Das Annotationssystem 5.5.6 border – Grenzbereiche der Definition Mit dem Attribut border werden Fälle markiert, die Handlungen ausdrücken, welche an der Grenze der Definition von Rede, Gedanken oder Geschriebenem liegen. Im Gegensatz zu narr (Abschnitt 5.5.5) geht es hier nicht um die Interpretation der Textwelt, sondern um die Definition dieser Phänomene. Aufgrund ihrer besonderen Komplexität gibt es für Gedankenwiedergabe Werte, mit denen das Attribut border genauer spezifiziert werden kann: percept, state und feel. Ansonsten erhält das Attribut immer den Wert unspec (unspezifiziert). Im Folgenden wird ausgeführt, wie die Prototypen von Rede, Geschriebenem und Gedanken für die manuelle Annotation definiert sind und welche Grenzfälle typischerweise auftreten.
5.5.6.1 Definition und Grenzfälle von Rede Der Prototyp von ‚Rede‘ ist eine lautliche, kohärente Äußerung zum Zweck der Kommunikation. Instanzen werden dann als Randphänomene markiert, wenn nicht alle diese Merkmale vorhanden sind. Es gibt verschiedene Arten von Abweichungen, aber die folgenden Gruppen treten bei der manuellen Annotation besonders hervor.
Sonderformen des Sprechens Bei Wendungen wie z.B. beten, segnen, zählen und singen ist nicht immer klar, ob ein kommunikatives Ziel vorhanden ist. Im Falle von beten und segnen wendet man sich an Gott, was nicht der normalen Kommunikationssituation entspricht. Zählen oder singen wird häufig ganz ohne Adressatenbezug durchgeführt. (50)
Er warf sich vor dem Bildnisse der heiligen Mutter Gottes nieder, und betete mit unendlicher Inbrunst zu ihr, als der einzigen, von der ihm jetzt noch Rettung kommen könnte. (Kleist: Erdbeben)
(51)
Doch der kräftigste Segen, vor welchem das ganze Reich des Belials zitterte, und der Sprengwedel mit Weihwasser getränkt, der unter den bösen Geistern sonst aufräumte, wie die Fliegenklappe unter den Stubenfliegen, vermochte lange Zeit nichts gegen die Hartnäckigkeit der gespenstischen Amazonen [...] (Musäus: Entführung)
(52)
Indem ich aß, sang sie mit kreischendem Ton ein geistliches Lied. (Tieck: Eckbert)
5.5 Attribute | 83
(53)
Eins, zwei, drei, eins, zwei, drei, zählte er, und bei drei krachten die beiden kleinen Schädel immer zusammen wie das reine Donnerwetter. (Heym: Irre)
Wendungen des Benennens oder Bezeichnens Diese Wendungen drücken eher einen Zustand als eine Sprachhandlung aus. Typische Verben sind heißen, bezeichnen, genannt werden u.ä. (54)
In einer Gegend des Harzes wohnte ein Ritter, den man gewöhnlich nur den blonden Eckbert nannte. (Tieck: Eckbert)
(55)
Meine Arbeit wurde gesegnet. ›Der große Jäger vom Schwarzwald‹ hieß ich. (Kafka: Gracchus)
Inkohärente Äußerungen Hierunter fallen Äußerungen ohne kommunikativen Inhalt ebenso wie Interjektionen. Fälle, in denen das Verb nur eine Lautäußerung spezifiziert (z.B. schreien, jammern), werden nur dann überhaupt als Wiedergabe markiert, wenn der Kontext nahe legt, dass sie Worte enthalten. (56)
[...] dann hörte ich die Alte husten und mit dem Hunde sprechen, und den Vogel dazwischen, der im Traum zu sein schien, und immer nur einzelne Worte von seinem Liede sang. (Tieck: Eckbert)
(57)
Trostlos jammerten beide, als sie am vierten Tage die Hütte eines Einsiedlers auf einem Felsen erblickten [...] (Bernhardi: Belinde)
(58)
Hier lag ein Haufen Erschlagener, hier ächzte noch eine Stimme unter dem Schutte, hier schrien Leute von brennenden Dächern herab [...] (Kleist: Erdbeben)
Stimme und Stimmqualität Wenn nur auf die Stimmqualität Bezug genommen wird, ist dies ebenfalls ein Randphänomen von Redewiedergabe, da zwar eine Sprachhandlung stattfindet, aber der kommunikative Gehalt keine Rolle spielt. (59)
Belinde bemerkte, wie ihre Augen [die der Alten] vor Wuth anfingen zu glänzen, daß sie heut noch so wenig gethan hatte; sie hörte schon die kreischende Stimme der Alten, und warf sich voll Verzweiflung auf den Boden. (Bernhardi: Belinde)
84 | 5 Das Annotationssystem 5.5.6.2 Definition und Grenzfälle von Geschriebenem ‚Geschriebenes’ bezeichnet eine schriftliche Fixierung von Sprache zum Zweck der Kommunikation. Aufgrund der Seltenheit der Wiedergabe von Geschriebenem im Erzähltextkorpus konnten weniger eindeutig Gruppen von Randphänomenen identifiziert werden. Beispiele sind Unterschriften, zitierte Buchtitel und schriftliches Rechnen, wo jeweils eine Schreibhandlung stattfindet, die aber nur sehr bedingt der Kommunikation dient. (60)
Seine Gedichte, deren einige allerdings, mit »Y« unterzeichnet, in einem kleinen Salzburger oder Grazer Blättchen veröffentlicht wurden, ragten nicht sonderlich hervor [...] (Schnitzler: Ypsilon)
(61)
Es war niemand mehr im Schlosse wach, als die Ausgeberin, welche in schweren Ziffern, noch bei später Nacht, an der Küchenrechnung kalkulierte; [...] (Musäus: Entführung)
(62)
Die Kandidatin wurde sanfter. Sie zog ein dickes Heft hervor. »Über die Verkümmerung der Stimmbänder am untern Kehlkopf der Luftröhre bei den weiblichen Singvögeln.« (Janitschek: Weib)
5.5.6.3 Definition und Grenzfälle von Gedanken Die Definition von ‚Gedanken‘ zum Zweck der Identifizierung von Wiedergabe in literarischen Texten ist um einiges komplexer als die von Rede und Geschriebenem, weshalb an dieser Stelle etwas weiter ausgeholt werden soll. Zwischen der Wiedergabe von Rede oder Geschriebenem und der Wiedergabe von Gedanken gibt es einen entscheidenden Unterschied: Während es in der realen Welt theoretisch feststellbar ist, ob und wenn ja welche Rede oder welcher Text vorlag, sind Gedanken niemals von außen wahrnehmbar, und die Entscheidung, wann eine kognitive Leistung als Gedanke zu werten ist, ist alles andere als eindeutig. Die Analogie mit dem wiedergegebenen ‚Original‘ funktioniert darum auf Gedanken und Bewusstseinsinhalte übertragen nicht reibungslos. Dennoch existieren zahlreiche Kategoriensysteme für Gedankenwiedergabe, die völlig parallel zu denen für die Wiedergabe von Rede aufgebaut sind. Gedanken werden dabei wie stumme bzw. innere Rede behandelt, die ebenso wie verbalisierte Rede wiedergegeben werden kann. Diese Handhabung von Gedankenwiedergabe ist nicht unumstritten Jemand, der sich vehement dagegen wendet, dass eine adäquate Beschreibung der Darstellung von Bewusstseinsinhalten mit Hilfe eines Schemas möglich ist, das dem für Redewiedergabe entspricht, ist Palmer in seinem Buch Fictional Minds. Er weist darauf hin, dass zwar in der Literaturwissenschaft die Sprache als Medium des Gedankens eine sehr große Rolle spielt, ihre Bedeutung für das Den-
5.5 Attribute | 85
ken aus psychologischer Perspektive jedoch umstritten ist und oft eher gering eingeschätzt wird (Palmer 2004, 92–97). Psychologische Studien ergaben, dass Menschen mit schwerer Sprachstörung (Aphasie) dennoch in der Lage sind, komplexe gedankliche Leistungen auf einer nicht-sprachlichen Ebene zu erbringen sowie neue Fertigkeiten zu erlernen und soziale Beziehungen zu unterhalten. In der Kognitionswissenschaft wird üblicherweise mit Skripten und Frames operiert, deren Versprachlichung eine geringe Rolle spielt. Die Fixierung auf die ‚sprachähnliche‘ Repräsentation von Gedanken in der Narratologie erscheint darum verzerrend. Palmer unterscheidet für die Darstellung von Bewusstseinsinhalten die Kategorien ‚direct thought‘ und ‚free indirect thought‘, die im Wesentlichen so definiert sind wie die entsprechenden Hauptkategorien in dieser Studie, sowie ‚thought report‘. Thought report ist nach Palmer die frequenteste und zentralste Kategorie der Gedankenwiedergabe, die auch im Zentrum seines Buches steht. Sie ist definiert als „the equivalent of indirect speech, in which narrators present characters’ thoughts in the narrative (for example: ‘She wondered where she was.’)“ (Palmer 2004, 54). Der Vergleich mit ‚indirect speech‘ ist insofern irreführend, als die Kategorie sehr viel weiter gefasst ist als die indirekte Wiedergabe in anderen Kategoriesystemen. Auf das hier beschriebene Annotationschema bezogen würde thought report sowohl indirect_thought als auch reported_thought und noch einiges mehr erfassen. Palmer ist der Meinung, dass eine genauere Unterscheidung hier nicht zielführend ist und greift zur Veranschaulichung ein Beispiel von Leech/Short auf, wo zwischen ‚Indirect Thought‘ (IT) und ‚Narrative Report of a Thought Act‘ (NRTA) unterschieden wird: He wondered if she still loved him. (IT) vs. He wondered about her love for him. (NRTA).23 Der Unterschied, so Palmer, werde von den meisten Lesern kaum wahrgenommen und sei wohl von geringer Bedeutung. Die Besonderheit des thought report sei vielmehr, dass er Gedanken und mentale Zustände nahtlos mit Handlung und Erzählerkommentar verknüpfen könne. Die folgenden Funktionen, die Palmer auflistet, vermitteln einen Eindruck, wie weit diese Kategorie definiert ist (vgl. Palmer 2004, 81–85): – Presentation of variety of mental events: Geistige Vorgänge, wie z.B. innere Rede, Wahrnehmung, Empfindungen, Gefühle, Aufmerksamkeit und Stimmung – Presentation of latent states of mind: Geistige Zustände, z.B. innere Haltung, Beurteilungen, Ansichten, Fähigkeiten, Wissen, Charakterzüge, typische Denkmuster, Erinnerungen, innere Antriebe, Vorstellungen und Wünsche – Presentation of mental action: Verknüpfung zwischen mentalen Vorgängen und Handlungen, z.B. Motive und Intentionen
23 Palmer zitiert die Erstausgabe, Leech/Short 1981, doch dasselbe Beispiel findet sich auch in der überarbeiteten Neuauflage von 2007, vgl. Leech/Short 2007, 271.
86 | 5 Das Annotationssystem –
– –
– –
–
Presentation of character and personality: Charakterisierung, Verknüpfung der aktuellen Gedanken einer Figur mit früheren Urteilen und Hypothesen über diese Figur Summary: Zusammenfassungen länger andauernder mentaler Zustände und Entwicklungen Presentation of background information: Informationen zum mentalen Zustand der Figur, die im Hintergrund oder über den Kontext transportiert werden; insbesondere: – Negative knowledge: Hervorhebung, dass eine Figur bestimmtes Wissen nicht besitzt, z.B. Ihm war nicht bewusst, wie sehr er sie liebte. Häufig ist auch in der Schwebe, ob etwas bewusstes Wissen der Figur ist oder Verknüpfungen nur durch den Erzähler geliefert werden, wie etwa die Kausalbeziehung in dem Satz Er ging fort, weil er wütend war. – Physical context: Enge Verflechtung zwischen Aussagen über den mentalen Zustand der Figur und Beschreibungen der physikalischen Welt, z.B. „Selden paused in surprise. In the afternoon rush of the Grand Central Station his eyes had been refreshed by the sight of Miss Lily Bart.“ (Edith Wharton: House of Mirth, zit. n. Palmer 2004, 83) – Presupposition: Aussagen über mentale Befindlichkeiten von Figuren, die über Präsupposition transportiert werden, also stillschweigend vorausgesetzt und indirekt erschließbar sind. Presentation of intermental thinking: Ausdruck von Gedanken und inneren Zuständen, die von mehreren Individuen geteilt werden Expression of consensus: Ausdruck von Meinungen, Normen und Ansichten, die nicht einer individuellen Figur zugeschrieben werden, sondern zum Konsens einer sozialen Gruppe gehören Interpretation, analysis, and judgement: Wertende und interpretierende Darstellung (Hier verweist Palmer auf die Studie Story and Discourse von Seymour Chatman, vgl. Chatman 1978, 237–243.)
Palmer betont, dass viele dieser Möglichkeiten, das Bewusstsein einer Figur darzustellen, mit den ‚verbalen‘ Techniken direct thought und free indirect thought nicht möglich sind. Die Konzentration auf diese beiden Wiedergabetechniken, die sich daraus ergibt, dass das Kategoriensystem für Gedankenwiedergabe parallel zu dem von Redewiedergabe angelegt wird, verzerre die Wahrnehmung von Bewusstseinspräsentation. Insbesondere werde die Verknüpfung von Bewusstsein mit anderen Aspekten der Erzählung, wie der Beschreibung von Handlungen und physischen Gegebenheiten, vernachlässigt (vgl. Palmer 2004, 57–68). Die ausführliche Auflistung dessen, was Palmer unter thought report fasst, wurde hier vor allem reproduziert, um einen Eindruck zu geben, wie komplex das
5.5 Attribute | 87
Phänomen der Gedankenwiedergabe ist, und um eine Stimme zu Wort kommen zu lassen, die den Ansatz von Gedanken als ‚innere Rede‘ hinterfragt. Allerdings ist es für den Fokus dieser Studie nicht zweckmäßig, Palmers Ansatz zu folgen. Auch wenn für die Repräsentation eines Bewusstseins im fiktionalen Text all die Techniken verwendet werden, die er aufzählt, so ist doch zu fragen, ob eine derartige Ausweitung der Definition einer Wiedergabekategorie sinnvoll ist. Wiedergabe, wie sie in dieser Studie betrachtet wird, ist zuvörderst eine literarische Technik. Dass Gedanken als Sprache modelliert werden, ist eine alte literarische Konvention, die sich z.B. an den bereits erwähnten Bühnenmonologen zeigt. Insofern ist es legitim, parallele Kategoriensysteme für Sprach- und Gedankenwiedergabe zu schaffen, und die Prämisse, dass Gedanken dabei als ‚innere Rede‘ behandelt werden, ist dafür sogar notwendig. Dass dies nicht der psychologischen Wirklichkeit entspricht und sich deswegen auch die Wirkung von Gedankenwiedergabe teilweise von der von Redewiedergabe unterscheidet, ist unbenommen, ebenso wie die Tatsache, dass ‚Gedankenwiedergabe‘ in der hier verwendeten Definition nicht alle Facetten der Bewusstseinsrepräsentation umfasst. Gerade im Rahmen dieser Studie spielen systematische und formale Kriterien eine große Rolle, da nur sie an der Oberfläche identifiziert und damit bei der automatischen Erkennung verwendet werden können. Darum ist es sinnvoll, auf der Parallelität von Rede- und Gedankenwiedergabe zu beharren. Damit fallen alle bis auf den ersten und den zweiten von Palmers Punkten (‚mental events‘ und ‚mental states‘) ganz eindeutig nicht in den Skopus von Gedankenwiedergabe, da sie im Vergleich zu Sprachhandlungen zu wenig abgegrenzt sind und damit die Wiedergabekategorien nicht mehr vergleichbar wären. Doch auch unter ‚mental events und ‚mental states‘ sind bereits eine Fülle von Phänomenen gefasst, die nicht in gleichem Maße als prototypische Gedanken betrachtet werden sollen. Für die Zwecke der manuellen Annotation bezeichnet ‚Gedanke’ in seiner prototypischen Bedeutung einen bewussten, analytischen, kognitiven Prozess. Diese Definition ist enger als in anderen Darstellungen – offensichtlich enger als bei Palmer, aber auch enger als bei Semino/Short – weshalb für die wichtigsten Typen von Randphänomenen Werte für das Attribut border definiert wurden. Diese erlauben es, die Definition dessen, was als Gedanken gesehen wird, bei der Auswertung flexibel zu verändern, indem man jeweils bestimmte Randtypen gezielt ausblenden kann. Die Typen von Grenzfällen werden im Folgenden beschrieben.
percept: perzeptive Wahrnehmungen Perzeptive Wahrnehmungen werden oft ausgedrückt mit Verben wie z.B. erkennen oder merken.
88 | 5 Das Annotationssystem (63)
Plötzlich merkte er, daß auf seiner Weste noch ein großer Blutfleck war. (Heym: Irre)
state: kognitive Zustände und Eindrücke Beispiele für kognitive Zustände sind Wendungen wie wissen oder der Ansicht sein; Eindrücke werden z.B. ausgedrückt mit jemandem ist so als ob, es scheint jemandem. (64)
Die Alte war schon einige Tage abwesend, als ich mit dem festen Vorsatze aufstand, mit dem Vogel die Hütte zu verlassen, und die sogenannte Welt aufzusuchen. (Tieck: Eckbert)
feel: Gefühlsregungen, verbunden mit Propositionen Die Abgrenzung von Gedanken zu Gefühlsäußerungen ist besonders schwierig. Hier gilt: Wenn die Gefühlsäußerung mit einem propositionalen Inhalt verknüpft ist, kann sie als Gedankenwiedergabe mit border:feel gelten. (65)
Aber ach! Deine Hoffnung, daß durch uns deine Rettung kommen werde, ist vergeblich. (Hauff: Kalif)
(66)
Glückliche Tage, Wochen und Monden waren ihnen ungezählt verflossen, als Belinde fühlte, daß die Zeit nahe sey, wo noch ein dritter Hausgenoß ihre Freude theilen würde; sie empfand, daß sie Hülfe bedürfe, und zog ein Blatt aus der Blume. (Bernhardi: Belinde)
Wenn dies jedoch nicht der Fall ist, handelt es sich überhaupt nicht um Gedankenwiedergabe. So wird in den folgenden Beispielen der kursiv gesetzte Satzteil nicht als Wiedergabe annotiert. (67)
Die Glocken, welche Josephen zum Richtplatze begleiteten, ertönten, und Verzweiflung bemächtigte sich seiner Seele. (Kleist: Erdbeben)
(68)
Stillschweigend ritten alle, der Vater war erzürnt, die Diener betrübt, daß sie ihr Fräulein so verstoßen sahen. (Bernhardi: Belinde)
Beispiel 67 ist keine Wiedergabe, da lediglich die Gefühlsregung beschrieben wird. In Beispiel 68 liegt trotz der Form ebenfalls keine Wiedergabe vor, da der dass-Satz eine Begründung für die Trauer der Diener enthält, aber nicht deren propositionalen Inhalt.
5.5 Attribute | 89
unspec: Andere Grenzfälle Abgesehen von den beschriebenen Gruppen kann es weitere Fälle geben, in denen das border-Attribut vergeben wird. Dies sind insbesondere Konstruktionen, bei denen Propositionen, die Gedanken der Figur wiedergeben, mit untypischen Einleitungen verwendet werden, wie etwa in den folgenden beiden Instanzen von indirect_thought: (69)
Er sah bald den Jeronimo schüchtern an, bald überflog er die Versammlung, ob nicht einer sei, der ihn kenne? (Kleist: Erdbeben)
(70)
In dem Maße wie die Reize des jungen Fräuleins aufzublühen begannen, stimmten sich die Absichten der Mutter höher hinauf, durch sie den Glanz des verlischenden Geschlechtes noch recht zu erheben. (Musäus: Entführung)
In Beispiel 69 ist der Gedanke mit einer Handlung (und implizit mit einer Wahrnehmung) verbunden, in Beispiel 70 handelt es sich eigentlich nicht um einen spezifischen Gedanken, sondern um eine sich allmählich entwickelnde Einstellung. Da jedoch auch bei Redewiedergabe nicht immer nur einzelne Sprachhandlungen präsentiert werden, kann auch dies eine legitime Gedankenwiedergabe sein.
5.5.7 metaph – Metaphern Das Attribut metaph markiert Metaphern, die sich der Form von Wiedergabe – typischerweise der Wiedergabe von Rede – bedienen. Verschiedene Typen lassen sich unterscheiden. In der folgenden Auflistung sind diese grob geordnet: Die erste Gruppe steht einer prototypischen Wiedergabe noch am nächsten, die letzte ist schon sehr weit davon entfernt. Diese verschiedenen Gruppen werden jedoch nicht durch unterschiedliche Werte des Attributs abgebildet, da eine solch genaue Spezifizierung angesichts der recht wenigen Fälle von metaphorischer Wiedergabe übertrieben erschien.
Übersinnliches Hier ist unklar, ob der ‚Sprecher‘ noch in der Realität der Erzählung existiert. (71)
Hier in dieser stillen Einsamkeit habe ich meine Eigenheit, meinen Frieden, meinen Gott gefunden, und tausend Geisterstimmen reden Offenbarungen zu mir, die ich im Getümmel des Lebens nicht vernehmen könnte. (Günderrode: Bramine)
90 | 5 Das Annotationssystem Personifizierung von inneren Zuständen und Konzepten (72) Nur selten wurde Eckbert von Gästen besucht, und wenn es auch geschah, so wurde ihretwegen fast nichts in dem gewöhnlichen Gange des Lebens geändert, die Mäßigkeit wohnte dort, und die Sparsamkeit selbst schien alles anzuordnen. (Tieck: Eckbert) (73)
In dem Augenblicke, da der Taumel der Leidenschaft sie verließ, zog sie die Vernunft zu Rate, um den getanen Fehlschritt wieder gutzumachen, und diese treue Ratgeberin sagte ihr, daß sie wieder in das Schloß zurückkehren, und den Treubrüchigen vergessen sollte. (Musäus: Entführung)
Interpretation als Äußerung Handlungen, die eigentlich keine Äußerungen sind, werden im übertragenen Sinne als solche interpretiert.24 (74)
Der Hund liebte mich sehr und tat alles was ich wollte, der Vogel antwortete mir in seinem Liede auf alle meine Fragen, mein Rädchen drehte sich immer munter, und so fühlte ich im Grunde nie einen Wunsch nach Veränderung. (Tieck: Eckbert)
(75)
Es kam zwar nicht so eilig zu einer mündlichen Erklärung; aber beide Teile wußten ihre Gesinnungen einander mitzuteilen, sie verstunden einander; ihre Blicke begegneten sich auf halbem Wege, und sagten sich, was die scheue Liebe zu entdecken wagt. (Musäus: Entführung)
reine Metapher Wörter, die Sprachhandlungen bezeichnen, werden zur Beschreibung von Situationen verwendet, in denen eindeutig kein sprachlicher Akt vorliegt. (76)
Um uns flüsterte der Wald mit geheimnisvollen Stimmen, und der Wind strich über die Wipfel. (Schnitzler: Ypsilon)
(77)
Die Wiederkehr des Lenzes rief die Heldenschar wieder unters Zelt. (Musäus: Entführung)
24 Dies sind Fälle, die von Semino/Short mit unter die Kategorie hypothetical gefasst würden (vgl. Abschnitt 5.5.2).
5.6 Sonderkategorien
| 91
5.6 Sonderkategorien 5.6.1 frame – Rahmen für direkte Wiedergabe Mit der Sonderkategorie frame werden Rahmenformeln für direkte Wiedergabe ausgezeichnet. Sie trägt stets dieselben Attribute wie die dazugehörige direkte Wiedergabe und zusätzlich ein Attribut type, das die Werte speech, thought und writing annehmen kann und anzeigt, zu welcher Art von Wiedergabe die Rahmenformel gehört. Bei Semino/Short gibt es eine ähnliche Kategorie namens ‚Narrator’s Report of Speech/Thought/Writing‘, die „reporting clauses and similar phenomena“ markiert (Semino/Short 2004, 35). Diese ist allerdings weiter definiert als frame und umfasst neben Rahmenformeln von direkter Wiedergabe auch solche von indirekter Wiedergabe. Semino/Short vertreten die Auffassung, dass diese Elemente nicht Teil der Wiedergabe, sondern Teil des Erzählertextes sind und darum von der eigentlichen Wiedergabe unterschieden werden sollten, was vor allem bei Wortzählungen ins Gewicht fällt. Die Zerlegung von indirekter Wiedergabe wurde bei der manuellen Annotation nicht nachvollzogen, weil die Verknüpfung zwischen Rahmenformel und Wiedergabesatz bei dieser Technik enger ist als bei direkter Wiedergabe. Die Rahmenformel ist zudem maßgeblich für die Definition indirekter Wiedergabe, während sie bei direkter Wiedergabe optional ist. Die Kategorie frame wurde eingeführt, da die Rahmenformeln bei direkter Wiedergabe sehr eng mit der Wiedergabetechnik assoziiert sind und auch für die automatische Erkennung Relevanz haben. Bei der manuellen Annotation wird nur der Teil des Satzes mit frame annotiert, der direkt als Rahmenformel fungiert, d.h. meist nur Subjekt und Verb der Rahmenformel. (78)
»Guten Morgen, Papa,« antwortete das Mädchen, aber ohne die sonstige offene Freundlichkeit in den vollen, weichen Zügen. (May: Ziege)
5.6.2 embedded – Wechsel der Erzählebene Direkte Wiedergabe, vor allem von gesprochener Sprache, ist ein typisches Werkzeug, um eine neue Erzählebene zu eröffnen. Um diese Fälle zu kennzeichnen, wurde die Sonderkategorie embedded eingeführt, die direct_speech ersetzen kann. Bei der Verwendung von embedded wird der Zähler des Attributs level zurückgesetzt. D.h. ein Fall von z.B. indirect_speech innerhalb einer embedded-Passage ist level:1, nicht level:2. Die Entscheidung, das Phänomen auf diese Art zu kennzeichnen, hat folgenden Grund: Durch den Wechsel der Erzählebene, der eintritt, wenn eine Figur
92 | 5 Das Annotationssystem in wörtlicher Rede eine Geschichte in der Geschichte zu erzählen beginnt, wird ein neuer Referenzrahmen geschaffen, der für diese ‚verschachtelte‘ Erzählung gilt. Sätze, die keine Wiedergabe enthalten, sind im Grunde Erzählertext (auf einer höheren Ebene), auch wenn sie formal als direkte Wiedergabe zu werten wären. Durch die Verwendung der Kategorie embedded können solche Passagen von ‚normalen‘ direkten Wiedergaben unterschieden werden. Trotz der speziellen Markierung ist auch eine Auswertung des Erzähltextkorpus nach rein formalen Gesichtspunkten möglich, indem alle embeddedInstanzen mit den direct_speech-Instanzen zusammengefasst und die Zähler der level-Attribute, die sie enthalten, um eins nach oben gesetzt werden. Auf die Auswirkungen, die die unterschiedliche Kategorisierung von eingebetteten Passagen auf die Erfolgswerte der automatischen Erkennung direkter Wiedergabe hat, wird in Abschnitt 10.3.3 eingegangen. Der Wechsel der narrativen Ebene ist ein komplexes Phänomen, das sich über mehr als eine Ebene erstrecken und auch Ebenen durchbrechen kann (vgl. z.B. Coste/Pier 2011). Die im Erzähltextkorpus auftretenden Fälle sind allerdings recht konventionell, so dass die grobe Markierung mit einer einzigen Sonderkategorie ausreichend ist, um sie zu beschreiben. Ebenenwechsel, die mit anderen Techniken als direkter Wiedergabe herbeigeführt werden, werden bei der Annotation überhaupt nicht berücksichtigt. Eine Schwierigkeit ist die Entscheidung, wann ein tatsächlicher Wechsel der Erzählebene vorliegt. Im Erzähltextkorpus gibt es einen einzigen Fall, in dem der Erzähler der eingebetteten Erzählung nicht selbst als handelnde Figur auftritt. Dies ist Hauff: Kalif, wo die „Geschichte von Kalif Storch“ in eine Rahmenerzählung eingebettet ist – die Mitglieder einer Karawane erzählen sich gegenseitig Geschichten – welche sich am Ende des im Erzähltextkorpus vorliegenden Auszugs schließt. Dies ist ein sehr klarer Fall von Wechsel der Erzählebene. In allen anderen Fällen berichten Figuren aus ihrer eigenen Vergangenheit. So erzählt Bertha in Tieck: Eckbert die Geschichte ihrer Jugend und Almor in Günderrode: Bramine berichtet seinem Zuhörer Lubar, wie er Bramine (Brahmane) wurde. Berthas Geschichte macht ca. zwei Drittel des Gesamttextes aus und wird am Stück präsentiert. Almors Geschichte erstreckt sich quasi über den ganzen Text, mit Ausnahme einer Unterbrechung etwa in der Mitte. Hier meldet sich der Zuhörer mit einem Einwand zu Wort, auf den der Erzähler eingeht, bevor er seine Geschichte fortsetzt. Bei der Markierung wurde dieser Austausch mit direct_speech markiert, jedoch wieder embedded verwendet, sobald die Fortsetzung der Erzählung
5.6 Sonderkategorien
| 93
signalisiert wird, was in diesem Fall sehr eindeutig geschieht.25 In diesen beiden Fällen ist es ebenfalls naheliegend, dass ein Wechsel der Erzählebene vorliegt und die Passagen eine besondere Behandlung verdienen: Es handelt sich zum einen um abgeschlossene Erzählungen, die raum-zeitlich klar von der Situation in der Rahmenerzählung abgetrennt sind, zum anderen sind beide von signifikanter Länge. Hingegen wurde darauf verzichtet, Passagen als embedded zu kennzeichnen, die zwar Erinnerungen des Protagonisten wiedergeben, aber im Vergleich zum Rest des Textes kurz sind und/oder mehrfach unterbrochen werden, wie etwa die Erzählung des Jägers Gracchus in Kafka: Gracchus. Zwar könnte man auch hier für einen Wechsel der Erzählebene argumentieren, aber da diese Frage nicht Kern dieser Studie ist, wurden nur die Passagen als embedded markiert, die so signifikant sind, dass ihre Behandlung als direct_speech die Bewertung und Beschreibung dieser Wiedergabekategorie stark beeinflussen würde.
25 Die Wiederaufnahme sieht folgendermaßen aus: (1)
Der Kampf (fuhr Almor in seiner Erzählung fort) des Einzelnen mit der Gesellschaft [...] (Günderrode, Bramine)
Auffallend ist hier die Markierung der Rahmenformel durch Klammern, die nur an dieser Stelle so verwendet werden, was deutlich auf den besonderen Status dieser direkten Wiedergabe hinweist. Im Rest des Textes sind die Rahmenformeln stets durch Kommata abgetrennt.
6 Auswertung 6.1 Zur Subjektivität manueller Annotation Vor dem Überblick über die Annotationsergebnisse soll thematisiert werden, welche Verlässlichkeit die manuell durchgeführte Annotation überhaupt haben kann und wie die Ergebnisse zu behandeln sind. Die Definition eines Annotationsschemas verlangt zahlreiche Festlegungen, wie das zu untersuchende Phänomen untergliedert und abgegrenzt werden soll. Einige davon – z.B. die Markierungsrichtlinien für indirekte und erzählte Wiedergabe (vgl. Abschnitt 5.3.2 und 5.4.2) – sind sehr technisch und letztendlich willkürlich. Es kommt nur darauf an, sich für eine Variante zu entscheiden und die Entscheidung transparent zu machen, wozu die ausführliche Darstellung in Abschnitt 5 dienen sollte. Doch selbst wenn man ein Annotationsschema definiert hat, kommt es bei der Zuweisung von Markierungen zu Textteilen immer wieder zu Unsicherheiten und Zweifelsfällen. Zahlreiche Attribute und Sonderkategorien wurden eingeführt, um solche Fälle zu markieren und zu unterscheiden. Jedoch ist, bei allem Bemühen um innere Konsistenz, das Ergebnis ein Abbild einer subjektiven Sicht auf die Dinge. Eine Beschäftigung von mehreren Annotatoren, wie bei Semino/Short, wäre zweifellos wünschenswert gewesen, war aber im Rahmen der Studie nicht möglich. Allerdings wurde zumindest ein kurzer, vergleichender Test durchgeführt. Zu diesem Zweck wurde drei Freiwilligen – alle mit sprach- und/oder literaturwissenschaftlichem Hintergrund, aber nicht spezialisiert auf Wiedergabe – eine Zusammenstellung kurzer Ausschnitte aus drei der Korpustexte vorgelegt (ca. 900 Tokens). Die Aufgabe war es, diese mit dem hier dargestellten Annotationsschema auszuzeichnen. Die Probanden erhielten dazu Annotationsrichtlinien mit kurzen Erklärungen der Kategorien und Attribute sowie Beispielsätzen. Alle Freiwilligen empfanden die Aufgabe als unerwartet schwierig und zeitintensiv. Die Übereinstimmung sowohl zwischen den Annotatoren untereinander als auch zwischen diesen und der Annotation der Verfasserin war lediglich für die Kategorie direct_speech weitgehend gegeben. Dies war auch die einzige Kategorie, die typographisch eindeutig gekennzeichnet war. Nicht typographisch markierte Fälle von direct_thought erwiesen sich bereits als problematisch. Bei allen anderen Kategorien ergaben sich zahlreiche Widersprüche auf unterschiedlichen Ebenen: Denselben Textteilen wurden unterschiedliche Kategorien zugewiesen, und es gab unterschiedliche Auffassungen, ob bestimmte Textteile überhaupt als eine Form von Wiedergabe klassifiziert werden sollten oder nicht. Ins-
6.1 Zur Subjektivität manueller Annotation
| 95
besondere Fälle von nicht-prototypischer Wiedergabe erwiesen sich erwartungsgemäß als strittig. Zweifellos wären einige dieser Diskrepanzen vermeidbar gewesen, wenn man die Annotatoren zuvor auf das Annotationschema trainiert hätte, um Missverständnisse auszuräumen. Andere ergaben sich jedoch klar aus der Natur der Definitionen, die, obwohl versucht wurde, formale Kriterien soweit wie möglich einzubeziehen, doch oftmals semantische und interpretatorische Komponenten haben. Hier hätte man nur dadurch mehr Einheitlichheit schaffen können, dass man noch mehr harte, formale Kriterien zur Abgrenzung festgelegt hätte. Dieser Test ist natürlich keinesfalls als wissenschaftliche Studie zu verstehen, vermittelt aber einen Eindruck, wie Menschen auf die Aufgabe der Annotation von Wiedergabe reagieren, und zeigt, dass deren Identifizierung und Differenzierung eine komplexe Aufgabe darstellt. Eine Beschäftigung von mehreren Annotatoren hätte die Verlässlichkeit und innere Konsistenz der Annotation durch gegenseitige Kontrolle steigern können, dennoch bleibt ein grundsätzliches Dilemma bestehen: Harte, formale Kritierien verhindern vielleicht Unsicherheiten und Widersprüche, führen aber zu Kategorien, die sehr speziell sind und auch der Intuition zuwiderlaufen können (vgl. hierzu auch die Erfahrungen von Semino/Short bei der Abgrenzung der freien direkten Wiedergabe, dargestellt in Abschnitt 5.1.1.1). ‚Weichere‘ semantische und interpretatorische Kritierien, die der Herangehensweise der Narratologie mehr entsprechen, bleiben letztendlich subjektiv. Es ist symptomatisch, wenn Semino/Short berichten, dass die Annotationen in ihrer Gruppe diskutiert wurden (vgl. Semino/Short 2004, 27). Bei mehreren Annotatoren ergibt sich also vielleicht eine Konsensinterpretation einer Gruppe, jedoch ist auch diese auf den Gegenstandsbereich bezogen nicht objektiv richtig oder falsch. In diesem Sinne ist die manuelle Annotation als eine Annäherung an das Phänomen zu verstehen, bei der man über Einzelentscheidungen sicherlich verschiedener Auffassung sein kann. Die beobachteten Ergebnisse sollten als Trends verstanden werden, auch deswegen, weil das Erzähltextkorpus nur einen sehr kleinen Ausschnitt von möglichen literarischen Texten darstellt. Die systematische Herangehensweise eröffnet dennoch ein Bild auf die Verteilung und das Verhalten von Wiedergabe in literarischen Texten und bietet einen Ansatzpunkt für die Entwicklung automatischer Methoden. Im Folgenden wird eine knappe Auswertung der manuellen Annotation präsentiert. Dabei werden z.T. Ergebnisse der Annotation von Semino/Shorts Literatur-Teilkorpus vergleichend herangezogen. Hierbei sollten die Unterschiede zwischen den beiden Annotationsprojekten im Hinterkopf behalten werden, die in Abschnitt 2 dargestellt wurden. Das Ziel der Auswertung ist zum einen, zu zeigen, wie sich die verschiedenen Kategorien und Attribute zueinander verhalten und welche Unterschiede v.a. zwischen den Hauptkategorien von Wiedergabe
96 | 6 Auswertung empirisch feststellbar sind. Zum anderen dient die Darstellung aber auch dazu, das Erzähltextkorpus mit seinen Besonderheiten besser einschätzen zu können, was wichtig ist, da es die Datengrundlage darstellt, auf der die automatischen Methoden später getestet werden.
6.2 Hauptkategorien Tabelle 6.1 zeigt die Frequenzen der Hauptkategorien und der beiden Sonderkategorien. Gezählt wurden jeweils Instanzen, wobei eine Instanz maximal einem Satz entspricht. Die Gesamtzahl der Sätze im Erzähltextkorpus ist 2586, was jedoch nur als grober Vergleichswert dienen kann, da v.a. bei indirekter und erzählter Wiedergabe nicht selten mehrere Instanzen in einem Satz auftauchen. Zudem kann dieselbe Textpassage von mehreren Annotationen erfasst werden, sei es aufgrund von Ambiguitäten oder von überlappenden Wiedergaben. Tab. 6.1. Anzahl der Instanzen pro Kategorie
Kategorie
Anzahl Instanzen
direct_speech
998
reported_speech
374
indirect_thought
199
reported_thought
172
indirect_speech
123
free_indirect_thought
101
direct_thought
34
reported_writing
24
free_indirect_speech
9
direct_writing
6
indirect_writing
0
free_indirect_writing
0
embedded
451
frame
329
6.2 Hauptkategorien
| 97
Zunächst ist zu sagen, dass die Wiedergabe von Geschriebenem im Vergleich zu der von Rede und Gedanken im Erzähltextkorpus sehr selten auftritt. Für zwei ihrer Kategorien, free_indirect_writing und indirect_writing, gibt es sogar überhaupt keine Vorkommen im Erzähltextkorpus. Darum sind Aussagen speziell über die writing-Kategorien und deren Vergleich mit den Kategorien für Rede und Gedanken nur sehr eingeschränkt möglich. Die Kategorie direct_speech ist mit Abstand am frequentesten – grob überschlagen sind etwa zwei Fünftel der Sätze des Gesamtkorpus direkte Redewiedergabe. Die beiden anderen Direkte-Wiedergabe-Kategorien, direct_ thought und direct_writing, sind hingegen sehr viel seltener vertreten. Ebenfalls sehr hoch ist die Anzahl von embedded-Instanzen. Zusammengenommen decken die beiden Kategorien direct_speech und embedded sogar mehr als die Hälfte der Sätze des Erzähltextkorpus ab. Dies liegt daran, dass drei Texte, Tieck: Eckbert, Günderrode: Bramine und Hauff: Kalif, zu sehr großen Teilen mit embedded abgedeckt sind. Eine Wertung der Binnenerzählungen als direct_speech würde also eine starke Verschiebung der Gewichtung bedeuten. Die Sonderkategorie frame hat etwa ein Drittel so viele Instanzen wie die Kategorien für direkte Wiedergabe zusammengenommen. Da direkte Wiedergabe meist satzweise auftritt, kann man also grob sagen, dass auf drei Sätze eine Rahmenformel kommt. Der Kategorie direct_speech folgt reported_speech. Ihre Frequenz ist zwar fast um zwei Drittel geringer als die von direct_speech, aber beinahe doppelt so hoch wie die der nächstfolgenden Kategorie. Diese ist indirect_ thought, die mit reported_thought eng beieinander liegt. Die Kategorie indirect_speech fällt etwas ab. Insgesamt bewegen sich aber diese drei Kategorien in einem ähnlichen Frequenzbereich. Die Häufigkeit von indirekter und erzählter Wiedergabe ist damit für Gedanken und Sprache ähnlich und insgesamt recht hoch. Auch reported_writing ist in Relation zur Gesamthäufigkeit der Wiedergabe von Geschriebenem gut vertreten. Die Frequenz der Kategorie free_indirect_thought liegt nicht viel unter der der indirect- und reported-Kategorien, ganz im Gegensatz zu der sehr viel selteneren Kategorie free_indirect_speech. Hier ist jedoch anzumerken, dass die Instanzen von free_indirect_thought fast ausschließlich aus einem einzigen Text stammen: Heym: Irre. Dieses Ungleichgewicht ist nicht optimal und der Tatsache geschuldet, dass das Erzähltextkorpus eine historische Zeitspanne abdeckt (1787–1913), in der erst gegen Ende Texte aufkamen, die die freie indirekte Wiedergabe stark verwenden. Mit Heym: Irre wurde gezielt ein Beispiel für einen solchen Text einbezogen.
98 | 6 Auswertung
2000
Abbildung 6.1 stellt die Ergebnisse für die Häufigkeit der Wiedergabe von Rede, Gedanken und Geschriebenem im Erzähltextkorpus neben die Ergebnisse im Literatur-Teilkorpus von Semino/Short.26
1000 0
500
Anzahl der Instanzen
1500
reported indirect free indirect direct
Speech
Thought
Writing
Se/Sh:Sp
Se/Sh:Th
Se/Sh:Wr
Abb. 6.1. Anzahl der Instanzen für Rede, Gedanken und Geschriebenes – Vergleich des Erzähltextkorpus mit Semino/Shorts Literatur-Teilkorpus
26 Die Zahlen, die Abbildung 6.1 sowie den Tabellen 6.4 und 6.5 zugrunde liegen, sind den Auswertungen von Semino/Short entnommen. Die Darstellungen selbst stammen jedoch nicht direkt aus deren Buch, sondern die Daten wurden für die Belange dieser Studie neu kombiniert und die Prozentanteile in den Tabellen selbst berechnet. Die Quellen für die Zahlenwerte sind (jeweils in Semino/Short 2004): Frequenz für speech: S. 67; Frequenz für writing: S. 100; Frequenz für thought: S. 115; Frequenz für hypothetical: S. 169; Frequenz für embedded: S. 176–178. Die Werte für Semino/Shorts Kategorien NV und NRSA(p) bzw. FDS und DS (und deren Äquivalente für writing und thought) wurden zur besseren Vergleichbarkeit aufsummiert.
6.2 Hauptkategorien
| 99
Der Vergleich ist recht grob, da die verwendeten Wiedergabekategorien nicht in in allen Fällen gleichgesetzt werden können – insbesondere Semino/Shorts NRTA+NI ist umfassender als reported_thought (vgl. hierzu Abschnitt 5.4). Zudem ist das Literatur-Teilkorpus etwas größer als das Erzähltextkorpus, was sich auch in der größeren Menge von Wiedergabeinstanzen niederschlägt. Dennoch sieht man recht ähnliche Trends in den Ergebnissen der beiden Annotationsprojekte. Es wird sichtbar, wie groß der Frequenzunterschied zwischen Instanzen der Wiedergabe von Rede, Gedanken und Geschriebenem ist, wobei Rede deutlich hervorsticht. Bei Rede sind erzählte und v.a. direkte Wiedergabe dominant, während bei Gedankenwiedergabe die Häufigkeit der vier Techniken sehr viel ausgeglichener ist. Im Literatur-Teilkorpus ist die Menge der reported-Instanzen bei Gedankenwiedergabe deutlich größer als im Erzähltextkorpus, was sich mit der abweichenden Definition der Kategorie erklären lässt. Dass freie indirekte Wiedergabe im Literatur-Teilkorpus häufiger ist, hängt höchstwahrscheinlich damit zusammen, dass dieses modernere Texte enthält – es besteht ausschließlich aus Auszügen aus Werken, die nach 1900, meist sogar nach 1950 veröffentlicht wurden (vgl. Semino/Short 2004, 232). Zur Wiedergabe von Geschriebenem lässt sich wenig Verlässliches sagen, da die Gesamtanzahl der Instanzen in beiden Fällen gering ist, aber es ist doch interessant, dass hier die gleichen Techniken dominieren wie bei Rede: erzählte und direkte Wiedergabe (im Literatur-Teilkorpus gibt es auch einige wenige Instanzen von freier indirekter und indirekter Wiedergabe von Geschriebenem). Bei allen Einschränkungen bezüglich der Vergleichbarkeit der beiden Annotationsprojekte ist es bemerkenswert, dass die Trends in der Verteilung der Wiedergabetypen selbst über Sprachgrenzen hinweg und bei literarischen Texten aus unterschiedlichen Zeitperioden nicht stark auseinander driften. Dies lässt darauf hoffen, dass die Untersuchungen, die auf Grundlage des Erzähltextkorpus gemacht werden, eine gewisse Übertragbarkeit haben. Zudem zeigt die Graphik, dass eine nähere Betrachtung der Unterschiede der Wiedergabe von Rede und Geschriebenem auf der einen Seite und von Gedanken auf der anderen Seite ein interessantes Untersuchungsfeld wäre, auch wenn im weiteren Verlauf dieser Studie vor allem die Unterscheidung der Wiedergabetechniken im Vordergrund stehen wird. Abbildung 6.2 gibt einen Überblick über die Verteilung von Wiedergabetechniken bezogen auf die einzelnen Texte des Erzähltextkorpus. Dafür wurden die Instanzen der Wiedergabe von Rede, Gedanken und Geschriebenem zusammengefasst und nur nach direct, free_indirect, indirect und reported unterschieden. Die Angaben in der Abbildung sind prozentual auf Satzbasis, d.h. es wurde berechnet, wie viel Prozent der Sätze des jeweiligen Textes welche Wie-
100
100 | 6 Auswertung
●
● ●
80
●
●
●
60
● ●
●
●
40
Prozent der Sätze
dir dir+emb fi ind rep
●
●
●
20
●
● ●
●
1913: Kafka
1913: Heym
1902: Janitschek
1889: Schnitzler
1878: May
1849: Hebbel
1825: Hauff
1812: Tieck
1807: Kleist
1805: Günderode
1802: Bernhardi
1788: Bürger
1787: Musäus
0
●
Abb. 6.2. Prozentuale Anteile der Sätze mit Wiedergabe in den Texten des Erzähltextkorpus (chronologisch geordnet)
dergabetechnik enthalten.27 Die Texte des Erzähltextkorpus sind chronologisch angeordnet, um Hinweise auf eventuelle Entwicklungstendenzen zu erhalten – verlässliche Aussagen erlaubt ein so kleines Korpus in dieser Hinsicht natürlich nicht. Die Abbildung zeigt, dass die Anteile der Wiedergabetechniken in den verschiedenen Texten sehr unterschiedlich sind. Vor allem der Anteil an direkter Wiedergabe schwankt stark zwischen äußerst dialoglastigen Texten wie May: Ziege, der zu etwa 70 % aus direkter Wiedergabe besteht, und solchen wie Bürger: Münchhausen, der fast überhaupt keine enthält. Gerade die sehr häufige und auffallende direkte Wiedergabe hängt offenbar stark von Inhalt und Erzählweise des Einzeltextes ab. Historische Faktoren scheinen hier keine offensichtliche Rolle zu spielen. Die gestrichelten Linien zeigen, wie die Anteile aussehen, wenn man die
27 Eine genaue Beschreibung, wie die Auswertung auf Satzbasis vor sich geht, findet sich in Abschnitt 9.3.
6.2 Hauptkategorien | 101
embedded-Passagen ebenfalls als direkte Wiedergabe wertet. Der Unterschied ist für die drei betroffenen Texte gravierend – bei Günderrode: Bramine und Hauff: Kalif werden dann über 90 % der Sätze als ‚direkte Wiedergabe enthaltend‘ angesehen, bei Tieck: Eckbert etwa 70 %. Bei der freien indirekten Wiedergabe kann man den plötzlichen Anstieg bei Heym: Irre beobachten, auf den bereits hingewiesen wurde. Daneben enthalten nur die Texte Tieck: Eckbert, Kleist: Erdbeben, Janitschek: Weib und Schnitzler: Ypsilon vereinzelte und teils auch unsichere Instanzen von freier indirekter Wiedergabe. Der Anteil von indirekter und erzählter Wiedergabe bleibt im Vergleich dazu relativ konstant – eventuell mit leichtem Abwärtstrend. Es ist zu vermuten, dass die ‚erzählerischen’ Wiedergabetechniken im Hintergrund des Textes bleiben und darum auch weniger von speziellen Eigenheiten beeinflusst werden.
400 ●
Anzahl der Sätze
●
300
dir dir+emb fi ind rep ●
200
● ●
●
●
100
●
●
●
● ● ●
● ● ●
1913: Kafka
1913: Heym
1902: Janitschek
1889: Schnitzler
1878: May
1849: Hebbel
1825: Hauff
1812: Tieck
1807: Kleist
1805: Günderode
1802: Bernhardi
●
1788: Bürger
●
1787: Musäus
0
Abb. 6.3. Sätze mit Wiedergabe in den Texten des Erzähltextkorpus, absolute Werte (Balken = Gesamtzahl der Sätze)
102 | 6 Auswertung Abbildung 6.3 stellt ebenfalls die Anteile der Wiedergabetechniken pro Text dar, verwendet aber, im Gegensatz zu Abbildung 6.2, die absolute Anzahl von Sätzen. Dabei wird ersichtlich, wie unterschiedlich die Texte des Erzähltextkorpus in Hinblick auf die Gesamtmenge der Sätze sind, und auch, wie gering die Menge von ‚Wiedergabesätzen‘ in manchen Fällen ist. Dabei ist anzumerken, dass die Menge der Sätze nicht direkt proportional zur Länge des Textes (Anzahl der Tokens, vgl. hierzu Tabelle 3.1) ist. Der längste Text nach Tokenanzahl ist Tieck: Eckbert, dieser kommt jedoch erst an vierter Stelle, was die Anzahl der Sätze angeht. Durch eine gezielte Auswahl von Sätzen und Abschnitten hätte man eine balanciertere Korpuszusammensetzung erreichen können, aber es ist auch ein Vorteil, dass Schwankungen abgebildet werden, wie sie in realen Texten zu erwarten sind. Die absolute Verteilung wird hier auch gezeigt, um die satzweise Betrachtung besser einschätzen zu können, die in vielen Fällen Referenzpunkt für die Auswertung automatischer Annotationsmethoden in den folgenden Kapiteln ist.
6.3 Attribute Tab. 6.2. Absolute Frequenz der Attribute
Instanzen
level
ambig
speech
998
24
12
thought
34
0
writing
6
0
non-fact
border
narr
prag
metaph
15
3
0
3
2
0
0
0
0
0
0
1
0
1
0
0
0
direct
free_indirect speech thought
9
0
7
0
0
0
0
0
101
0
1
0
0
0
0
0
indirect speech
123
23
9
11
0
6
6
2
thought
199
49
5
61
85
0
8
3
reported speech
374
86
24
70
42
48
18
22
thought
172
33
14
26
53
0
4
7
writing
24
7
3
4
1
1
0
0
6.3 Attribute | 103 Tab. 6.3. Prozentsatz der Instanzen, die das jeweilige Attribut tragen
level
ambig
non-fact
border
narr
prag
metaph
direct speech
2,40
1,20
1,50
0,30
0
0,30
0,20
thought
0
0
0
0
0
0
0
writing
0
16,67
0
16,67
0
0
0
0
0
0
0
0
0
0
0
0
0
8,94
0
4,88
4,88
1,63
30,65
42,71
0
4,02
1,51
12,83
4,81
5,88
free_indirect speech
0
77,78
thought
0
0,99 indirect
speech
18,70
7,32
thought
24,62
2,51
reported speech
22,99
6,42
18,72
11,23
thought writing
19,08
8,09
15,12
30,64
0
2,31
4,05
29,17
12,50
16,67
4,17
4,17
0
0
Tabellen 6.2 und 6.3 zeigen die Verteilung der Attribute bezogen auf die Hauptkategorien. Aus Tabelle 6.3 lässt sich ablesen, wie viel Prozent der Instanzen jeder Kategorie jeweils das Attribut tragen. Es ist möglich, dass eine Kategorie kein Attribut oder mehrere Attribute gleichzeitig trägt, weshalb sich die prozentualen Angaben nicht zu 100 Prozent addieren. Das Attribut narr ist insofern ein Sonderfall, als es per Definition nicht bei der Wiedergabe von Gedanken auftreten kann. Das Attribut level wurde nur gezählt, wenn es Werte über 1 hat, also tatsächlich eine Einbettung vorliegt. In Bezug auf die free_indirect-Kategorien ist anzumerken, dass grundsätzlich nur das Attribut ambig vergeben wurde, und dieses nur nach formalen Kriterien (bei selbstständigen Konjunktivsätzen). Dies hängt damit zusammen, dass freie indirekte Wiedergabe an sich eine schwer zu fassende Technik ist, die sich deutlich von den anderen Wiedergabetypen unterscheidet. Vor allem verwendet sie keinerlei Rahmenformeln oder Wörter mit Bezug zu Sprach-, Denkoder Schreibhandlungen. Bei der Definition der meisten Attribute spielt jedoch die Art, wie die Wiedergabe vermittelt wird, zumindest implizit eine Rolle – Fälle von non-fact z.B. beruhen fast immer auf Modifikationen der Rahmenformel und Fälle von narr und border oft auf der Semantik der vermittelnden Wörter.
104 | 6 Auswertung Darum wäre es notwendig gewesen, die Definitionen für freie indirekte Wiedergabe zumindest anzupassen oder ganz neue Attribute zu definieren, die unsichere Fälle dieser Wiedergabetechnik erfassen. Darauf wurde verzichtet, da die Beispiele für freie indirekte Wiedergabe im Erzähltextkorpus sowieso recht selten und zu wenig gestreut sind, um eine gute Basis für eine tiefergehende Untersuchung zu liefern. Die Beobachtungen zur Attributverteilung bei den free_indirectKategorien sind darum weniger aussagekräftig. Es fällt ins Auge, dass bei den indirect- und reported-Kategorien der Anteil der Instanzen, die durch Attribute modifiziert sind, deutlich höher ist als bei den direct-Kategorien. Diese Wiedergabetypen werden zum einen häufiger eingebettet – haben also hohe Werte bei level – zum anderen haben sie einen höheren Anteil an nicht-prototypischen Instanzen, die mit den verschiedenen anderen Attributen markiert werden. Dies weist darauf hin, dass die ‚erzählerischen‘ Techniken dazu neigen, auch andere Funktionen zu übernehmen als die reine Wiedergabe von Sprach-, Denk- oder Schreibhandlungen einer Figur. Zudem ist ihre Unterscheidung vom reinen Erzählertext schwieriger, was sich insbesondere bei den Kategorien für Gedankenwiedergabe am hohen Anteil von border-Markierungen zeigt. Damit ergibt sich v.a. für indirekte Wiedergabe eine interessante Diskrepanz zwischen relativ klarer, formaler Identifizierbarkeit und funktionaler Ambivalenz.
6.3 Attribute
| 105
Tab. 6.4. Vergleich von embedded in Semino/Shorts Literatur-Teilkorpus und level im Erzähltextkorpus
Semino/Short
ErzTKorpus
Se/Sh
ErzTK
total
emb
total
level
in %
in %
362
88
374
86
24,31
22,99
IS ∼ indirect_speech
117
57
123
23
48,72
18,70
57
10
9
0
17,54
0
(F)DS ∼ direct_speech
1569
24
998
24
1,53
2,40
NV+NRSA(p) ∼ reported_speech FIS ∼ free_indirect_speech
NW+NRWA(p) ∼ reported_writing
39
14
24
7
35,90
29,17
IW ∼ indirect_writing
5
1
0
0
20,00
0
4
2
0
0
50,00
0
(F)DW ∼ direct_writing
19
3
6
0
15,79
0
NI+NRTA(p) ∼ reported_thought
565
91
172
33
16,11
19,19
95
15
199
49
15,79
24,62
FIT ∼ free_indirect_thought
230
0
101
0
0
0
77
4
54
0
5,19
0
FIW ∼ free_indirect_writing
IT ∼ indirect_thought
(F)DT ∼ direct_thought
Tab. 6.5. Vergleich von hypothetical in Semino/Shorts Literatur-Teilkorpus und non-fact im Erzähltextkorpus
Semino/Short NV+NRSA ∼ reported_speech
IS ∼ indirect_speech
FIS ∼ free_indirect_speech
ErzTKorpus
Se/Sh
ErzTK
total
hyp
total
n-fact
in %
in %
362
45
374
70
12,43
18,72
117
15
123
11
12,82
8,94
57
1
9
0
1,75
0
1569
19
998
15
1,21
1,50
Thought
967
23
506
87
2,38
17,19
Writing
67
7
30
4
10,45
13,33
DS+FDS ∼ direct_speech
106 | 6 Auswertung Zwei der Attribute, level und non-fact, haben (grobe) Äquivalente im Annotationssystem von Semino/Short, so dass auch hier Vergleiche zwischen dem Erzähltextkorpus und dem Literatur-Teilkorpus durchgeführt werden konnten. Semino/Shorts System enthält keine Attribute, sondern verwendet Sonderkategorien, um die entsprechenden Instanzen auszuzeichnen, was aber funktional denselben Zweck erfüllt. Tabelle 6.4 zeigt den Vergleich zwischen den Vorkommen des Attributs level und Semino/Shorts embedded28 . Beide bezeichnen Wiedergaben, die innerhalb anderer Wiedergaben auftreten. Die Tabelle listet die absoluten Frequenzen für die verschiedenen Wiedergabetypen in den beiden Korpora auf und zeigt außerdem die prozentualen Anteile von verschachtelten Wiedergaben, um die Werte besser vergleichbar zu machen.29 Bei den Kategorien mit sehr wenig Vorkommen, wie den writing-Kategorien und free_indirect_speech im Erzähltextkorpus, sind die Prozentzahlen allerdings wenig aussagekräftig, da sich wegen der geringen Menge der Instanzen schnell starke Schwankungen ergeben. Wenn man dies beachtet, zeigt sich, dass die Tendenzen in den beiden Korpora relativ ähnlich sind, abgesehen davon, dass im Literatur-Teilkorpus ein deutlich höherer Anteil von indirekter Redewiedergabe eingebettet vorkommt, dafür im Erzähltextkorpus ein etwas höherer Anteil von indirekter Gedankenwiedergabe. Insgesamt bestätigt sich aber der Trend, dass Einbettung deutlich häufiger bei den indirect- und reported-Kategorien auftritt. Der Vergleich von Semino/Shorts hypothetical mit non-fact in Tabelle 6.5 ist problematischer, weil es in diesem Fall Abweichungen in der Definition gibt (vgl. Abschnitt 5.5.2). Auch hier ist der grobe Trend – mehr nicht-faktische Instanzen bei indirekter und erzählter Wiedergabe – gleich. Dabei sind die Anteile im Erzähltextkorpus fast durchgehend höher, obgleich non-fact tendenziell enger definiert ist als hypothetical. Insbesondere bei Gedankenwiedergabe springt der Unterschied ins Auge.
28 Nicht zu verwechseln mit der für die Annotation des Erzähltextkorpus definierten Sonderkategorie embedded, die Binnenerzählungen markiert. 29 Tabellen 6.4 und 6.5 beruhen wie Abbildung 6.1 auf Zahlen aus Semino/Shorts Auswertungen (vgl. hierzu Fußnote 26 auf S. 98). In den Tabellen ist explizit aufgeführt, welche Wiedergabekategorien jeweils gleichgesetzt wurden.
6.3 Attribute | 107 Tab. 6.6. Untertypen von non-fact
direct
indirect
indirect
reported
reported
reported
total
total
speech
speech
thought
speech
thought
writing
neg
1
1
39
23
14
2
81
42,78
hyp
7
2
9
16
7
2
43
22,87
in %
imp
0
5
3
11
1
0
20
10,64
plan
3
2
3
8
0
0
16
8,51
ques
2
1
7
3
2
0
15
7,98
fut
2
0
0
7
2
0
11
5,85
unspec
0
0
0
2
0
0
2
1,06
Tab. 6.7. Untertypen von border (bei Gedankenwiedergabe)
unspec
indirect_thought
reported_thought
total
total in %
8
27
35
25,36
state
48
17
65
47,10
feel
15
4
19
13,77
percept
14
5
19
13,77
108 | 6 Auswertung Die Tabellen 6.6 und 6.7 fächern die Verteilung für die beiden Attribute auf, bei denen Untertypen unterschieden werden: non-fact und border. Bei border wurden nur die Untertypen bei Gedankenwiedergabe berücksichtigt, da das Attribut bei der Wiedergabe von Rede und Geschriebenem immer den Wert unspec trägt (vgl. Abschnitt 5.5.6). Die Spalte ‚total in %‘ gibt in diesem Fall an, wie viel Prozent der Instanzen mit border dem Untertyp zugeordnet sind. Es fällt auf, dass die häufigsten Untergruppen non-fact:neg und border:state sind. Betrachtet man die Instanzen, stellt sich heraus, dass es ein Einzelphänomen gibt, das das Gesamtbild der Auswertung stark beeinflusst: die Verneinung von wissen. Einige Beispiele für diese Wendung sind die folgenden: (79)
Dabei trägt die Frau goldene Ohrringe, und das Kind weiß nicht, ob es eine Semmel ohne Butter essen will oder nicht! (Hebbel: Kuh)
(80)
Aber er wußte nicht recht, wo er hingehen sollte. (Heym: Irre)
(81)
Schon beim Eintritt ward mir wundersam zumute, ich erschrak und wußte nicht worüber [...] (Tieck: Eckbert)
Diese Instanzen, die meist dem Wiedergabetyp indirect_thought, seltener reported_thought zuzuordnen sind, wurden stets mit den Attributen non-fact:neg und border:state ausgezeichnet, da es sich bei wissen um ein Zustandsverb handelt, das in der Wendung negiert wird. Dies führt zu der auffallenden Häufung dieser beiden Untertypen. Vermutlich ist dies auch ein wesentlicher Faktor, warum im Vergleich mit Semino/Shorts Literatur-Teilkorpus im Erzähltextkorpus eine so viel höhere Konzentration von nicht-faktischen Wiedergaben bei der Gedankenwiedergabe auftritt (vgl. Tabelle 6.5). Ein häufig auftretendes englisches Äquivalent zu der Wendung des ‚Nicht-Wissens‘ wird bei Semino/Short nicht erwähnt. Ob die Vorliebe für diese Wendung tatsächlich eine Eigenart des Deutschen oder der deutschen Literatur ist, oder ob sich im Erzähltextkorpus nur zufällig eine thematisch oder stilistisch bedingte Ballung ergeben hat, kann auf der vorhandenen Datengrundlage nicht entschieden werden. Da die Frage nicht im Fokus der Studie steht, wurde sie nicht systematisch weiter verfolgt.30 Zumindest ist festzuhalten, dass die Weiß-nicht-Konzentration sich nicht nur auf wenige Texte des Erzähltextkorpus beschränkt, sondern eine recht weite Streuung aufweist. Dieses Phänomen demonstriert auch, wie gravierend Einzelentscheidungen bei der Definition der Kategorien die Ergebnisse der Studie verändern können: Wiedergaben mit wissen sind nach der verwendeten Definition von Gedanken (vgl. 30 Vgl. allerdings Abschnitt 10.1.2.3: Dort konnte zumindest eine Tendenz von wissen zur Verneinung auch auf der Basis von anderen Daten nachgewiesen werden.
6.4 Fazit
| 109
Abschnitt 5.5.6.3) ein Randphänomen. Wäre die Definition restriktiver und würde ‚Wissenszustände‘ nicht mehr zur Gedankenwiedergabe zählen, so wären auf einen Schlag die Instanzen von indirect_thought um einen großen Teil reduziert. Dies ist insgesamt bei allen Kategorien zu beachten, die einen hohen Anteil an nicht-prototypischen Instanzen aufweisen, also v.a. bei indirekter und erzählter Wiedergabe. In dieser Studie wird meist mit einer großzügigen Definition gearbeitet, die alle Grenzfälle mit einschließt. Abschnitt 12.3 beschäftigt sich jedoch mit den Auswirkungen, die eine Einschränkung der Definition auf den Erfolg der automatischen Erkennung hat.
6.4 Fazit Die ausführliche Erörterung des Annotationsschemas und die Auswertung der Ergebnisse der manuellen Annotation liefern einige Erkenntnisse über den Gegenstandsbereich Wiedergabe, die bei der Annäherung an die automatische Annotation nützlich sind. Auf einer allgemeinen Ebene lässt sich Folgendes festhalten: – Die Definition und vor allem die Abgrenzung von Wiedergabekategorien ist auch für Menschen nicht trivial und kann nicht vollkommen auf der Basis formaler Kriterien erfolgen. – Insbesondere die Wiedergabe von Gedanken ist definitorisch ein Problem und kann nur dann auf dieselbe Weise wie die Wiedergabe von Rede und Geschriebenem behandelt werden, wenn man Gedanken als ‚innere Rede‘ versteht. – Leichte Veränderungen in der Definition können auf die Annotationsergebnisse sehr starke quantitative Auswirkungen haben (z.B. die Behandlung von Binnenerzählungen und Grenzfällen). Da die manuelle Annotation als Maßstab für die Bewertung der automatischen Annotation verwendet werden wird, ist es wichtig, sich diese Tatsachen vor Augen zu halten. Einige Trends im Erzähltextkorpus entsprechen den Ergebnissen im LiteraturTeilkorpus von Semino/Short, und man kann vermuten, dass sie allgemeine Merkmale von Wiedergabe in literarischen Texten sind: – Wiedergabe von Rede ist die häufigste Kategorie, mit deutlichem Abstand zur Gedankenwiedergabe und wiederum deutlichem Abstand zur Wiedergabe von Geschriebenem. – Indirekte und erzählte Wiedergabe haben einen deutlich höheren Anteil an eingebetteten und an nicht-prototypischen Instanzen als direkte Wiedergabe.
110 | 6 Auswertung Die Aufschlüsselung der Annotation auf einzelne Texte des Erzähltextkorpus ergab folgende Erkenntnisse: – Der Anteil direkter Wiedergabe unterliegt von Text zu Text starken Schwankungen. – Indirekte und erzählte Wiedergaben sind insgesamt seltener, aber ihr Anteil in verschiedenen Texten ist konstanter. Nicht alle feinen Unterscheidungen, die bei der Annotation des Erzähltextkorpus getroffen wurden, sind für die im Rahmen dieser Studie entwickelten automatischen Methoden relevant. Da Vereinfachungen – im Gegensatz zu nachträglicher Erhöhung der Komplexität – jedoch immer problemlos möglich sind, erschien es sinnvoll, das Phänomen möglichst detailliert zu behandeln, auch um den Blick für Problem- und Sonderfälle zu schärfen. Die detaillierten Markierungen können zudem bei einer späteren Weiterentwicklung der automatischen Erkennung noch zum Tragen kommen oder andere Studien zu Wiedergabe auf der Basis des Erzähltextkorpus ermöglichen.
|
Teil II: Automatische Annotation
7 Einführung Nachdem der vorhergehende Teil dieser Studie sich mit Wiedergabe aus literaturwissenschaftlicher Sicht auseinandergesetzt und über die manuelle Annotation empirisch an das Phänomen angenähert hat, präsentiert dieser Teil Überlegungen und Untersuchungen, wie man die narratologischen Kategorien mit automatischen Methoden erfassen kann. In diesem Rahmen werden verschiedene Erkennungsmodule und -strategien vorgestellt und ausgewertet, die als Prototypen zu verstehen sind. Die Anwendung von automatischen Methoden ermöglicht die systematische Bearbeitung einer wesentlich größeren Textmenge als von einem Menschen zu bewältigen wäre. Dadurch eignet sie sich vor allem für vergleichende Studien über einen großen Zeitraum hinweg. Die Markierung verschiedener Typen von Wiedergabe in einem großen Romankorpus würde etwa ermöglichen, Entwicklungslinien über eine historische Periode hinweg zu beobachten. Auch weitere Unterschiede, z.B. zwischen Autoren, Genres oder anderen Gruppierungen, könnten explorativ untersucht werden und eventuell Rückschlüsse auf narrative Trends ermöglichen. Was im Rahmen dieser Studie angestrebt wird, ist jedoch zunächst eine Annäherung an mögliche Strategien der Erkennung. Ein umfangreicheres Anwendungsszenario der Methoden wird nicht vorgestellt. In Abschnitt 10.6.2 wird kurz auf ein paar Beispiele für die automatische Erkennung von Wiedergabe im Rahmen anderer Forschungsprojekte eingegangen. Für den Computer ist ein Text zunächst nichts anderes als eine Abfolge von Zeichen. Bei automatischer Analyse werden Strukturen entweder durch Vergleich und die dabei zu Tage tretenden Regelhaftigkeiten bzw. Abweichungen identifiziert, oder aufgrund von Wissen, das im Programm zusätzlich hinterlegt wurde. In der Praxis sind fast immer beide dieser Komponenten an der Schaffung von Ergebnissen beteiligt, aber zu verschiedenen Anteilen. In der folgenden Darstellung wird zwischen zwei verschiedenen Herangehensweisen unterschieden: 1. Regelbasierte Ansätze: Hier wird Wissen genutzt, das über Sprache und Wiedergabetechniken vorhanden ist. Das Vorgehen ist für den Menschen weitgehend transparent und kontrollierbar, allerdings können auch hier die Ergebnisse der Anwendung und Verallgemeinerung von Mustern überraschend sein. 2. Maschinelles Lernen: Beim überwachten maschinellen Lernen, wie es im Rahmen dieser Studie durchgeführt wird, wird Trainingsmaterial – im konkreten Fall Text mit manuell annotierten Wiedergaben – vorgegeben. Aus diesen Beispielen konstruiert ein Algorithmus ein statistisches Modell, mit dem versucht wird, Vorhersagen für unbekannte Texte zu treffen. Bei diesem
114 | 7 Einführung Ansatz ist sehr viel weniger transparent, nach welchen Richtlinien entschieden wird, und diese müssen nicht der menschlichen Denkweise entsprechen. Er eignet sich vor allem dann, wenn es für Menschen sehr schwierig ist, für ein Phänomen Regeln auf der Basis der Textoberfläche zu formulieren, z.B. bei freier indirekter Wiedergabe. Die Trennung dieser beiden Herangehensweisen ist nicht ganz scharf. So verwendet auch das maschinelle Lernen Vorverarbeitungsschritte und Abstraktionen, die auf menschlichem Wissen und Hypothesen beruhen, und die Umsetzung menschlichen Wissens in regelbasierten Verfahren erfordert oft eine Art von struktureller Abstraktion, die nicht unbedingt der Intuition entspricht. In der automatischen Sprachverarbeitung haben sich vor allem hybride Ansätze durchgesetzt, die sowohl regelbasierte als auch statistische Komponenten verwenden, und so werden auch beide Verfahren im Rahmen dieser Studie ausgelotet.
Abb. 7.1. Abstraktionsschritte
Konzeptuell verläuft der Weg von der Textoberfläche zu narratologischen Kategorien in zwei Schritten, wie in Abbildung 7.1 illustriert. Zunächst werden auf der Textoberfläche lexikalische Elemente, strukturelle Besonderheiten und formale Konventionen bei Zeichensetzung und Formatierung identifiziert. Dies sind zwar bereits Abstraktionen, aber formaler Art. Von diesen wiederum muss eine Verknüpfung zur narratologischen Funktion gefunden werden. Da in dieser Studie
7 Einführung
|
115
von den narratologischen Kategorien ausgegangen und versucht wird, Wege zu finden, diese in Texten zu identifizieren, kann man sagen, dass der zweite Schritt vollzogen wird, wenn die Erkennungsmodule konzipiert werden. In diesem Moment wird bestimmt, was erkannt werden soll – wobei die Abgrenzung der Kategorien aus der narratologischen Theorie stammt – und welche Indikatoren zu welchen Ergebnissen führen sollen. Die Module selbst leisten vor allem den ersten Schritt. Das Grundprinzip ist in jedem Fall Verallgemeinerung, denn Verallgemeinerung ist unabdingbar für die Formulierung jeglicher Regeln, ebenso wie für die Berechnung statistischer Modelle. So beruhen alle Ansätze, die im Folgenden zur Identifizierung von Wiedergabe vorgestellt werden, im Kern auf dem Versuch, Muster und Ähnlichkeiten zu erkennen, und diese mit narratologischen Kategorien zu assoziieren. Dabei verfügt der Computer natürlich nicht über die gleiche Flexibilität, die einen menschlichen Annotator strukturgleiche Elemente je nach Kontext unterschiedlich und für die Bedeutung des Gesamttextes passender interpretieren lässt. Andererseits ermöglicht die Automatisierung eine unvoreingenommenere Behandlung ähnlicher Strukturen und liefert damit konsistentere und vergleichbarere Daten als sie ein menschlicher Annotator produziert hätte. Der Teil zur automatischen Annotation ist folgendermaßen gegliedert: Vorangestellt sind grundsätzliche Ausführungen zum technischen Rahmen, der Vorverarbeitung und den Auswertungsmethoden. Anschließend werden die im Rahmen dieser Studie entwickelten Erkennungsmethoden vorgestellt, zunächst die regelbasierten Ansätze, dann die Erkennung mit Hilfe von maschinellem Lernen. Den Abschluss bildet eine Gesamtbewertung der automatischen Erkennung, die die Ergebnisse der beiden Herangehensweisen vergleicht und kombiniert.
8 Technischer Rahmen und Vorverarbeitung Die Module, die im Rahmen dieser Studie implementiert wurden, sind für GATE (General Architecture for Text Engineering) entwickelt.31 Auch die manuelle Annotation und die Auswertung der Ergebnisse erfolgten in dieser Arbeitsumgebung. GATE stellt eine Infrastruktur bereit, die es erlaubt, Softwarekomponenten zur Verarbeitung natürlicher Sprache zu entwickeln, zu verknüpfen und anzuwenden (vgl. Cunningham et al. 2011). Es handelt sich um ein freies Open-SourceProgramm, das seit ca. 15 Jahren kontinuierlich weiterentwickelt wird und über ein festes Entwicklungsteam an der Universität Sheffield verfügt. Es hat eine aktive Community und Anwender sowohl im wissenschaftlichen als auch im kommerziellen Bereich. Die im Rahmen dieser Studie eingesetzte Version ist GATE 7.0. GATE verfügt über mehrere Komponenten, von denen im Kontext dieser Studie vor allem der GATE Developer im Vordergrund steht. Dies ist eine Java-basierte Entwicklungsumgebung, die es erlaubt, Texte einzulesen, zu Korpora zu bündeln und sowohl manuell als auch automatisch zu annotieren. Die Annotationen sind durchsuch- und manipulierbar und können in XML-Formaten abgespeichert werden. Die Entwicklungsumgebung erlaubt es, verschiedene Module zur Sprachverarbeitung zu bündeln und einzubinden. Dies können sowohl bereits vorhandene Werkzeuge sein als auch selbst entwickelte. Die Strategie bei der Textbearbeitung besteht darin, mehrere Module hintereinander zu schalten, wobei jedes auf die Ergebnisse der vorhergehenden zugreifen und diese weiterverwenden kann. Zudem stellt GATE auch einige Funktionen zum Durchsuchen und Vergleichen von Annotationen zur Verfügung. Die Vorteile bei der Verwendung dieser Software liegen zum einen darin, dass sie einen flexiblen Rahmen für die Manipulation von Textdaten darstellt. Sowohl Vorverarbeitungsschritte wie die Tokenisierung (Zerlegung des Textes in Einzelwörter) und das Part-of-Speech-Tagging (die Zuweisung morphologischer Kategorien zu Wortoberflächen) als auch die Präsentation und Auswertung der Ergebnisse werden sehr erleichtert. Zum anderen sind neu entwickelte Komponenten von allen GATE-Nutzern verwendbar und man erspart sich Kompatibilitätsprobleme, die bei reinen Eigenentwicklungen sehr wahrscheinlich wären. Da das Ziel der Studie nicht die Entwicklung eines eigenständigen, optimierten Programms ist, sondern das Experiment mit verschiedenen Herangehensweisen im Vordergrund
31 Für das maschinelle Lernen wurde zusätzlich noch die Statistik-Software R verwendet; vgl. hierzu Abschnitt 11.
8 Technischer Rahmen und Vorverarbeitung
| 117
steht, bietet sich der modulare Ansatz von GATE besonders an, da er es erlaubt, verschiedene Komponenten flexibel zu kombinieren und auszuwerten. Die im Rahmen der Studie entwickelten Komponenten sind als Prototypen zu verstehen, die Herangehensweisen exemplarisch illustrieren; im Folgenden wird nicht auf alle Einzelheiten der technischen Umsetzung eingegangen werden. Es ist jedoch für das Verständnis hilfreich, zu wissen, dass immer eine Abfolge von Manipulationsschritten durchgeführt wird, die entweder direkt mit der Textoberfläche arbeiten oder mit den Annotationen, die in früheren Schritten hinzugefügt worden sind. Alle selbst entwickelten Module, sowohl bei den regelbasierten Verfahren als auch beim maschinellen Lernen, gehen von einer grundlegenden Vorverarbeitung des Textes aus, die aus folgenden Schritten besteht: – Tokenisierung: Der Text wird in seine Bestandteile (‚Tokens‘) zerlegt, welche entweder Wörter oder Satzzeichen sind. – Zerlegung in Sätze: Satzgrenzen werden markiert. – Morphologisches Tagging: Den einzelnen Tokens wird morphologische Information zugewiesen, vor allem die Wortart und die Grundform (Lemma) des Tokens. Für diese bei der Verarbeitung natürlicher Sprache sehr gängigen Schritte werden bereits vorhandene Werkzeuge genutzt. Dies sind für die Tokenisierung und die Zerlegung in Sätze Module, die standardmäßig mit GATE mitgeliefert werden (GATE Unicode Tokeniser und RegEx Sentence Splitter, vgl. Cunningham et al. 2002). Diese Module sind zwar für das Englische entwickelt, funktionieren jedoch auch für das Deutsche zufriedenstellend, da sich die beiden Sprachen auf dieser Ebene sehr ähnlich sind. Für das morphologische Tagging wurden zwei verschiedene Tagger verwendet: der TreeTagger und der RF-Tagger, die beide von Helmut Schmid entwickelt wurden (vgl. Schmid 1994, 1995; Schmid/Laws 2008). Vor allem der TreeTagger wird im wissenschaftlichen Bereich viel genutzt. Der neuere RF-Tagger hat den Vorteil, dass er detailliertere morphologische Informationen liefert, z.B. den Modus eines Verbs, was für die Identifizierung von Konjunktivformen wichtig ist. Die Wahl fiel auf diese beiden Tagger, da sie für das Deutsche geeignet und frei verfügbar sind. Es handelt sich um statistische Tagger, d.h. sie sind auf bereits annotierten Texten trainiert und versuchen, die erlernten Strukturen auf neue Texte zu übertragen. Dieses Verfahren ist insofern robust, als immer eine Wortartinformation zurückgeliefert wird, auch bei unbekannten Wörtern. Allerdings kann nicht immer eine lemmatisierte Form zugewiesen werden. Die Tagger liefern, ebenso wie der Tokenisierer und der Satzgrenzen-Erkenner, keine hundertprozentig korrekten Ergebnisse. Fehler bei der Vorverarbeitung sind
118 | 8 Technischer Rahmen und Vorverarbeitung also zu erwarten und beeinflussen natürlich auch den Erfolg von weiteren Modulen, die darauf aufsetzen. Es ist möglich, die Ergebnisse der Vorverarbeitung durch spezifische Anpassungen zu verbessern, allerdings wurde im Rahmen dieser Studie weitgehend darauf verzichtet, da dies, vor allem beim Tagger, sehr aufwendig gewesen wäre. Lediglich der Satzgrenzen-Erkenner wurde leicht modifiziert, damit er die im Erzähltextkorpus verwendeten doppelten spitzen Anführungszeichen adäquat verarbeiten kann. Abgesehen vom Aufwand wurden die Module auch deswegen nicht zu sehr für das Erzähltextkorpus optimiert, weil sie auf Erzähltexte allgemein anwendbar sein sollen und die im Korpus enthaltenen Texte nur eine sehr kleine Auswahl darstellen. Eine starke Anpassung – z.B. ein Nachtrag aller Wörter, die vom Tagger nicht erkannt werden – würde zwar die Ergebnisse für das Erzähltextkorpus verbessern, jedoch ist davon auszugehen, dass die erzielte Erfolgsrate nicht übertragbar wäre, weil für unbekannte Texte keine solche spezielle Anpassung erfolgen kann. Darum wurden die Werkzeuge für die Vorverarbeitung in dem Zustand verwendet, wie die jeweiligen Entwickler sie zur Verfügung stellen. So sind auch die im Rahmen dieser Studie durchgeführten Analysen leichter reproduzierbar. Eine Vorverarbeitung, wie sie hier beschrieben ist, ist bei der Verarbeitung natürlicher Sprache Standard. Dennoch soll kurz auf die Implikationen eines solches Vorgehens hingewiesen werden. Ein in elektronischer Form vorliegender Text ist zunächst nichts weiter als eine Abfolge von Zeichen. Die Betrachtung auf der Basis von Wörtern und Sätzen ist die übliche Art, sich ihm anzunähern, allerdings stellt auch diese bereits eine Interpretation dar, die normalerweise vom menschlichen Leser geleistet wird. Die verwendeten Werkzeuge reproduzieren diese Leistung durch die Ausnutzung von Konventionen, wie etwa der, dass zwischen einzelnen Wörtern üblicherweise Leer- oder Satzzeichen stehen oder dass ein Punkt ein Satzende markieren kann. Dies ist noch eine relativ einfache Abstraktion, obgleich nicht vergessen werden sollte, dass es bereits hier nicht zu unterschätzende Schwierigkeiten gibt. Diese sind sowohl theoretischer Natur – wie definiert man ‚Wort‘ und ‚Satz‘ – als auch praktischer Natur – die Unterscheidung einer Satzendemarkierung mit Punkt von einer Abkürzung ist z.B. keineswegs trivial. Ein gravierenderer Interpretationsschritt ist das Hinzufügen von morphologischer Information. Die Existenz von verschiedenen Typen von Wörtern und ihre Rückführung auf eine ‚Grundform‘ ist ein grammatisches Konstrukt, das sich noch deutlich weiter von der reinen Sprachoberfläche entfernt als die Abgrenzung von Wörtern und Sätzen. In verschiedenen Grammatiktheorien gibt es oft sehr große Unterschiede, welche Typen von Wortarten unterschieden werden und auch, welcher Wortart eine Wortoberfläche zugewiesen wird. Jeder morphologische Tagger folgt einem bestimmten System, dessen Angemessenheit von Grammatikern
8 Technischer Rahmen und Vorverarbeitung
| 119
durchaus verschieden bewertet wird. Häufig sind die beim automatischen Tagging verwendeten Kategorien auch von praktischen und pragmatischen Erwägungen beeinflusst. Der TreeTagger verwendet das ‚Stuttgart-Tübingen Tagset‘ (STTS), das im Jahr 1995 aus der Zusammenführung zweier Tagsets, dem der Universität Stuttgart (Institut für Maschinelle Sprachverarbeitung, IMS) und dem der Universität Tübingen (Seminar für Sprachwissenschaften, SfS), entstanden ist (vgl. Schiller et al. 1999). Bei der Unterscheidung der Wortarten spielen distributionelle sowie semantische und morphologische Kriterien eine Rolle. Es handelt sich um ein ziemlich grobes Tagset, das in der maschinellen Sprachverarbeitung für das Deutsche jedoch relativ weit verbreitet ist. Die Kategorien des STTS sind im Anhang dieser Studie, Abschnitt A.4, vollständig aufgelistet. Der RF-Tagger verwendet ein detaillierteres Tagset, welches an das der TIGER-Treebank (Brants et al. 2002) angelehnt ist und eine Erweiterung des STTS-Sets um Informationen zu Numerus, Person, Genus, Kasus, Grad, Zeit und Modus darstellt. Den Tags für Präpositionen wurden noch zusätzlich Kasus-Informationen hinzugefügt (vgl. Schmid/Laws 2008, 5). Auch wenn das Tagset des RF-Taggers im Wesentlichen eine Verfeinerung des TreeTagger-Tagsets ist, sind die Ergebnisse, die die beiden Tagger für die Daten des Erzähltextkorpus liefern, nicht immer konform. Dies hängt damit zusammen, dass es sich in beiden Fällen um statistische Tagger handelt, bei denen auch das Material, auf dem sie trainiert wurden, einen Einfluss auf spätere Ergebnisse hat. Im Rahmen dieser Studie werden meist die Kategorien des TreeTaggers verwendet, die des RF-Taggers werden nur herangezogen, wenn genauere Klassifizierungen gebraucht werden, wie z.B. der Modus eines Verbs. Eine interessante Studie zur Verlässlichkeit automatischer Taggingmethoden ist Belica et al. 2011. Dort werden die Erfahrungen beim morphosyntaktischen Tagging des umfangreichen Deutschen Referenzkorpus (DeReKo) des Instituts für Deutsche Sprache wiedergegeben. Die Annotation erfolgte mit drei konkurrierenden Taggern, von denen einer der TreeTagger war. Um die Verlässlichkeit zu überprüfen, wurden deren Annotationen miteinander verglichen, wobei die Tagsets zu einem System von 9 Grundkategorien vereinfacht wurden, um sie aufeinander abbildbar zu machen. Bei einem Vergleich auf der Basis eines Teilkorpus von DeReKo mit 370 Millionen Wörtern ergab sich eine Übereinstimmung von 91,57 % zwischen allen drei Taggern auf Basis dieses stark reduzierten Tagsets. Misst man jedoch die Übereinstimmung der Annotation von vollständigen Sätzen, so beträgt die Übereinstimmugsrate nur noch 31,36 % (vgl. Belica et al. 2011, 457–460). Dies zeigt, dass bei der Durchführung von automatischer morphologischer Annotation nicht ohne Weiteres ein objektiv ‚richtiges‘ Ergebnis zu erwarten ist – nicht nur,
120 | 8 Technischer Rahmen und Vorverarbeitung weil die Tagger selbst Schwächen haben, sondern auch, weil es sich dabei eben um Abstraktionen über ein hochkomplexes System, die natürliche Sprache, handelt.
9 Grundsätzliches zur Auswertung Hauptbezugspunkt für die Auswertung der automatischen Komponenten im Rahmen dieser Studie ist die manuelle Annotation des Erzähltextkorpus. Da dieses nur eine relativ kleine Stichprobe für literarische Erzähltexte darstellt, enthält es zum einen Besonderheiten, die sich aus der Zusammenstellung der Texte zufällig ergeben und weit größeres Gewicht bekommen als es für die Gesamtheit aller Erzähltexte angemessen ist, zum anderen fehlen Merkmale, die in Erzähltexten auch auftreten könnten. Bei der Entwicklung der automatischen Erkennungsmethoden wurde darum vermieden, sie zu sehr auf das Erzähltextkorpus hin zu optimieren. Die Ergebnisse der Auswertung hätten dadurch zwar in vielen Fällen verbessert werden können, dies hätte jedoch nicht unbedingt eine bessere Verwendbarkeit der Module in einem allgemeinen Kontext bewirkt, da Besonderheiten des Erzähltextkorpus überbetont worden wären. Zudem wäre die Abschätzung der Erfolgsrate übermäßig optimistisch geworden. Das Erzähltextkorpus wurde nicht konsequent in ein Trainingskorpus zur Entwicklung der automatischen Methoden und ein Testkorpus für deren Evaluation geteilt, um es nicht noch zusätzlich zu verkleinern. Bei der Auswertung der maschinellen Lernmethoden wird jedoch Kreuzvalidierung angewendet (vgl. Abschnitt 11.6). Bei der Auswertung spielt nicht nur der Gesamterfolg, sondern auch die Stabilität der Erfolgsrate eine Rolle. Für vergleichende Untersuchungen ist es äußerst ungünstig, wenn die Erfolgsraten für verschiedene Untereinheiten (hier: Texte) stark variieren. Hier kommt die Zusammensetzung des Erzähltextkorpus zum Tragen. Da es sich aus 13 Texten zusammensetzt, von denen jeder ein abgeschlossenes literarisches Werk mit unterschiedlichen Besonderheiten ist, kann die Performanz der Methoden über verschiedene Werke getestet werden. Darum wird bei vielen der Auswertungen eine Aufschlüsselung der Ergebnisse nach den einzelnen Texten des Erzähltextkorpus vorgenommen. Desweiteren ist festzuhalten, dass die manuelle Annotation zwar der wichtigste Referenz- und Orientierungspunkt ist, es jedoch nicht das Ziel ist, sie in allen Einzelheiten automatisch nachzubilden. Hauptsächlich wird angestrebt, die Achse der Techniken im Hauptkategoriensystem zu reproduzieren, d.h. die Wiedergabetypen direct, free_indirect, indirect und reported voneinander und von reinem Erzählertext zu unterscheiden. Da dies bereits sehr viel Stoff für Untersuchungen bietet, wird die Unterscheidung nach Medium – Sprache, Gedanken, Geschriebenes – im Rahmen dieser Studie nicht versucht. Diese wäre jedoch ein interessantes Thema für weiterführende Forschungen. Auch Attribute und Sonderkategorien werden nicht reproduziert, spielen jedoch bei der Auswertung eine Rolle. So wird überprüft, welche Auswirkungen es auf die Erfolge au-
122 | 9 Grundsätzliches zur Auswertung tomatischer Annotation hat, wenn Grenzfälle der manuellen Annotation, die mit Attributen gekennzeichnet sind, bei der Auswertung ignoriert werden (vgl. Abschnitt 12.3).
9.1 Arten der Auswertung Der Erfolg der automatischen Methoden wird durch den Vergleich mit der manuellen Annotation gemessen. Jedoch gibt es verschiedene Möglichkeiten, welche Art der Übereinstimmung erzielt werden soll. So könnte das Ziel sein, genau die Grenzen der manuellen Markierungen zu erfassen. Dies wäre z.B. notwendig, wenn angegeben werden soll, wie viele Wörter eines Textes Teil einer Wiedergabe sind. Allerdings hat sich bereits bei der manuellen Annotation gezeigt, dass die Abgrenzung der Markierung nicht immer offensichtlich ist und von Annotationskonventionen abhängt, vor allem bei den Typen indirect und reported (vgl. Abschnitte 5.3.2 und 5.4.2). Gröbere Arten der Übereinstimmung wären beispielsweise, dass nur eine Überlappung der automatischen mit der manuellen Annotation vorliegen oder nur der Anfang einer Wiedergabe gefunden werden muss – dies würde Aussagen über die absolute Menge, aber nicht die Ausdehnung der Instanzen erlauben. Desweiteren ist es möglich, andere Gliederungseinheiten des Textes heranzuziehen und etwa zu untersuchen, wie viel Prozent der Sätze nach manueller Annotation Wiedergabe enthalten und wie viel Prozent von den automatischen Methoden vorausgesagt wird. Wie man sieht, sind auch die Auswertung und ihre Interpretation analytische Schritte und es ist nicht möglich, von dem einen Erfolgswert automatischer Annotation zu sprechen. Alle genannten Auswertungsmethoden haben ihre Berechtigung. Welche davon sinnvoll und aussagekräftig ist, hängt davon ab, wie man die automatische Erkennung einsetzen will. Da diese Studie sich mit dem Problem der Erkennung als solchem auseinandersetzt, wird die Auswertung nicht sofort auf ein Anwendungsziel hin ausgerichtet, sondern es werden verschiedene Auswertungsarten durchgeführt, um dem Leser den Vergleich der Ergebnisse zu erlauben. Im Folgenden werden die in dieser Studie verwendeten Arten der Auswertung kurz charakterisiert. Dabei entspricht die Reihenfolge einer abnehmenden Strenge, d.h. es werden zunehmend weniger Anforderungen an die Exaktheit der automatischen Erkennung gestellt. – Übereinstimmung der Instanzen: Es wird geprüft, ob die von der automatischen Annotation gefundenen Textabschnitte exakt den bei der manuellen Annotation markierten entsprechen. Ergebnisse dieser strengsten Art der Auswertung werden gelegentlich bei der Beschreibung regelbasierter Module erwähnt, z.B. bei MarkQuotation (Abschnitt 10.3.3).
9.2 Maße zur Bewertung des Erfolgs
–
–
–
|
123
Überlappung der Instanzen: Hier reicht es für einen Erfolg, wenn die automatische Annotation sich mit der manuellen überlappt, d.h. Abweichungen in der genauen Begrenzung sind irrelevant. Dies ist die primäre Auswertungsmethode für die regelbasierten Module. Auswertung auf Satzbasis: Der Text wird als Abfolge von Sätzen betrachtet und Ziel ist es, zu erkennen, welche Sätze Wiedergabe enthalten. Dabei ist nicht nur die genaue Begrenzung der Wiedergabe irrelevant, sondern auch ihre Position im Satz. Diese Auswertungsmethode wird durchgehend beim maschinellen Lernen angewendet (zur Begründung siehe Abschnitt 11.2), jedoch auch bei der Endauswertung der regelbasierten Methoden (Abschnitt 10.6.1) und beim Vergleich der beiden Herangehensweisen (Abschnitt 12). Für diese Auswertungsmethode müssen die manuellen und die regelbasierten Annotationen umstrukturiert werden, was in Abschnitt 9.3 näher erläutert wird. Vom Prinzip her sehr ähnlich ist die Auswertung auf Satzabschnittsbasis, die jedoch nur an einer Stelle im Kontext der maschinellen Lernverfahren angewendet und dort erläutert wird (vgl. Abschnitt 11.8). Vergleich der relativen Anteile von Wiedergabe: Daneben wird in dieser Studie auch die Voraussagekraft automatischer Methoden in Bezug auf den relativen Anteil von Wiedergabe in einem Text betrachtet. Da dies jedoch erst bei der Gesamtbewertung der automatischen Annotation (Abschnitt 12) geschieht, wird dieses Verfahren dort erläutert.
Im Folgenden werden Grundlagen erklärt, die in vielen Auswertungskontexten in dieser Studie verwendet werden: zum einen die statistischen Erfolgsmaße, die für alle Auswertungen außer dem Vergleich der relativen Anteile relevant sind, zum anderen die Konvertierung der Annotationen für die Auswertung auf Satzbasis. Aspekte der Auswertung, die weniger häufig zum Tragen kommen, werden an den Stellen erklärt, an denen sie zum ersten Mal auftreten.
9.2 Maße zur Bewertung des Erfolgs Es gibt drei wichtige Maße, die bei den Auswertungen verwendet werden: Recall, Precision und F-Score. Diese Maße sind Standard im Bereich des Information Retrieval und Musterabgleichs (vgl. Manning et al. 2008, 142–144). Im vorliegenden Fall ist Recall der Anteil von manuell annotierten Instanzen, der auch bei der automatischen Annotation gefunden wurde. Precision ist der Anteil der automatisch gefundenen Instanzen, die tatsächlich korrekt sind. Der Wert beschreibt also die Genauigkeit der Erkennung. Ein optimales System sollte sehr gute Werte für beide Maße erreichen, in der Realität ist es jedoch meist so, dass Recall und Preci-
124 | 9 Grundsätzliches zur Auswertung sion gegeneinander abgewogen werden müssen: Ist der Erkenner sehr restriktiv, verbessert sich die Precision, da keine falsche Treffer gefunden werden, aber der Recall verschlechtert sich, da Instanzen, die nicht genau den Erwartungen entsprechen, ignoriert werden. Ist der Erkenner hingegen großzügig, ist die Chance höher, dass viele Instanzen gefunden werden, so dass der Recall steigt, aber die Wahrscheinlichkeit für falsche Treffer erhöht sich, so dass die Precision sinkt. Um ein Maß zu erhalten, das sowohl Recall als auch Precision berücksichtigt, wird der F-Score berechnet, der das harmonische Mittel zwischen beiden darstellt. Das bei der Auswertung verwendete Maß ist der F1-Score, in den Recall und Precision zu genau gleichen Teilen einfließen. Er wird mit folgender Formel berechnet: F =2×
Precision × Recall Precision + Recall
Tabelle 9.1 zeigt einen Ausschnitt aus einer der Auswertungstabellen für ein regelbasiertes Modul.32 Für den Text Bernhardi: Belinde wurde die manuelle Annotation mit einer automatischen verglichen. Dabei gab es 9 Instanzen, die in der manuellen Annotation auftreten, vom automatischen Erkenner aber nicht gefunden wurden, und 8 Instanzen, die nur in der automatischen Annotation auftreten, also fälschlicherweise erkannt wurden. In 22 Fällen stimmen die beiden Annotationen 22 überein. Daraus berechnet sich ein Recall von 22+9 = 0, 71 und eine Precision von 0,73×0,71 22 = 0, 73. Der F-Score ist 2 × = 0, 72 für diesen Text. 22+8 0,73+0,71 Tab. 9.1. Beispiel für eine Auswertung
Text
Übereinstimmung
nur manuell
Bernhardi: Belinde
22
9
nur automatisch
Precision
Recall
F-Score
8
0,73
0,71
0,72
0,77
0,59
0,65
0,75
0,62
0,68
... Durchschnitt Texte Gesamtkorpus
200
122
66
32 Die Tabellen in den folgenden Kapiteln zeigen die exakten Trefferzahlen normalerweise nicht, um die Übersichtlichkeit zu verbessern. Diese sind hier nur angegeben, um die Berechnung nachvollziehbar zu machen.
9.3 Auswertung auf Satzbasis
| 125
Bei der Auswertung werden diese Berechnungen für jeden Text des Korpus durchgeführt. Die beiden untersten Tabellenzeilen zeigen zwei unterschiedliche Durchschnittswerte. In der Zeile Gesamtkorpus wird das gesamte Korpus wie ein Dokument behandelt und der F-Score auf dieser Basis berechnet. Bei Durchschnitt Texte werden Precision, Recall und F-Score für jeden einzelnen Text berechnet und dann jeweils der Durchschnitt der Ergebnisse gebildet.33 Diese Berechnungsmethode gewichtet kürzere Texte tendenziell stärker. Die Werte für Precision, Recall und F-Score werden immer auf zwei Nachkommastellen genau angegeben. Da der F-Score auf Grundlage der genauen Werten berechnet und das Ergebnis dann erst gerundet wird, kann es passieren, dass sich scheinbar inkonsistente Werte ergeben. Eine Reihe ‚Precision: 0,88 – Recall: 0,85 – F-Score: 0,87‘ kann jedoch ebenso korrekt sein wie eine Reihe ‚Precision: 0,88 – Recall: 0,85 – F-Score: 0,86‘ – im zweiten Fall waren die Werte für Precision und Recall vor der Rundung niedriger als im ersten, so dass sich das F-Score-Ergebnis verändert hat. Da die Auswertungsergebnisse für die vorgestellten Methoden sowieso als Trends verstanden werden sollten, bei denen leichte Schwankungen nicht aussagekräftig sind, wurde auf eine Angabe der Zahlenwerte ohne Rundung verzichtet.
9.3 Auswertung auf Satzbasis Bei der Auswertung auf Satzbasis ist das Ziel, zu erkennen, dass ein Satz eine bestimmte Wiedergabekategorie enthält, nicht aber, wie diese genau begrenzt ist. Aufgrund der unterschiedlichen Struktur der Markierungen, die bei der manuellen (und auch regelbasierten) Annotation hinzugefügt werden, und der linearen Gliederung in Sätze sind dabei einige Punkte zu beachten. Zunächst muss genauer erläutert werden, wie ‚Satz‘ in diesem Kontext zu verstehen ist. Wie in Abschnitt 8 ausgeführt, wurde bei der Vorverarbeitung ein automatischer Satzgrenzenerkenner verwendet. Dieser segmentiert den Text nach folgenden Regeln: – Eine oder mehrere Leerzeilen bezeichnen eine Satzgrenze. – Ein bis drei Punkte, Fragezeichen oder Ausrufezeichen bezeichnen eine Satzgrenze. – Ausgenommen sind Abkürzungen, die mit einem Punkt enden. (Diese sind in einer internen Liste aufgezählt.)
33 Der F-Score wird bei Durchschnitt Texte also nicht nach der oben angegebenen Formel aus den Precision- und Recall-Werten in derselben Zeile berechnet.
126 | 9 Grundsätzliches zur Auswertung –
Schließende Anführungszeichen werden zu dem Satz gerechnet, zu dem sie gehören.
Eine Satzsegmentierung sieht folgendermaßen aus (die enthaltenen Annotationen für direkte Wiedergabe sind kursiv gesetzt, die für indirekte bzw. erzählte Wiedergabe unterstrichen): (82)
Lange betrachtete er die Schrift, plötzlich aber rief er aus: »Das ist lateinisch, o Herr, oder ich laß mich hängen.« [direct]
(83)
»Sag was drin steht«, befahl der Kalif, »wenn es lateinisch ist.« [direct und indirect]
(84) Selim fing an zu übersetzen: »Mensch, der du dieses findest, preise Allah für seine Gnade. [direct und reported] (Hauff: Kalif) Ein einzelner Satz kann mehrere Instanzen von Wiedergabe enthalten. Dafür gibt es verschiedene Ursachen: – Der Satz enthält ambige Wiedergaben. Im verwendeten Annotationsschema wird in diesem Fall dieselbe Instanz mit beiden möglichen Kategorien annotiert und damit zweimal gezählt (vgl. Abschnitt 5.5.4). – Der Satz enthält geschachtelte Wiedergaben. Fälle von anderen Wiedergabetypen innerhalb direkter Wiedergabe finden sich sowohl in Satz 83 – Sag was drin steht – als auch in Satz 84 – preise Allah für seine Gnade. – Der Satz enthält mehrere Wiedergaben hintereinander. In Satz 84 ist Selim fing an zu übersetzen ein Fall von erzählter Wiedergabe, auf den eine direkte Wiedergabe folgt. Bei der Auswertung auf Satzbasis wird jedem Satz des Erzähltextkorpus eine Kategorie zugewiesen, entsprechend der Kategorie der Wiedergabe, die er enthält. Sätze, die mehr als eine Instanz von Wiedergabe enthalten, werden einmal als Vertreter für jede darin vorkommende Kategorie gezählt. Wenn mehrere Instanzen des gleichen Wiedergabetyps auftreten, führt dies jedoch nicht zur Mehrfachzählung. Satz 84 wird also zweimal gezählt (einmal als direct und einmal als reported), aber nicht dreimal (einmal als direct und zweimal für die zwei Vorkommen von reported). Die Mehrfachzählung führt dazu, dass die Summe aller ‚Sätze, die X enthalten‘ größer ist als die Gesamtmenge der Sätze im Erzähltextkorpus.
10 Regelbasierte Ansätze Regelbasierte Ansätze zeichnen sich dadurch aus, dass sie von vorhandenem Wissen ausgehen und dieses in einem Programm umzusetzen versuchen. Darum geht es in diesem Kapitel sowohl um die theoretische Auseinandersetzung mit Indikatoren für Wiedergabephänomene, als auch um die konkrete Umsetzung und die Beobachtungen, die sich bei der Auswertung am Erzähltextkorpus machen lassen. Die Erforschung und Beschreibung von Regelhaftigkeiten des sprachlichen Systems ist eines der Hauptgebiete der linguistischen Forschung, weshalb sie eine der besten Quellen für Indikatoren ist, die zur Identifizierung von Wiedergabe dienen können. Im Folgenden wird darum besonders auf linguistische Ansätze und Beobachtungen zurückgegriffen. Man kann drei Arten von Indikatoren unterscheiden: 1. lexikalische Indikatoren: Hierbei handelt es sich um konkrete lexikalische Einheiten, die Wiedergabe signalisieren, z.B. bestimmte Verben. 2. grammatisch-strukturelle Indikatoren: Bestimmte grammatische Merkmale (z.B. Konjunktiv) oder Strukturen (z.B. Nebensatz eingeleitet mit ob), die unabhängig von der konkreten lexikalischen Realisierung sind, können ebenfalls als Indikatoren dienen. 3. formal-strukturelle Indikatoren: Dies sind Merkmale, die nicht das Wortmaterial betreffen, sondern typographische Merkmale und Konventionen, z.B. Zeichensetzung bei direkter Rede. In der Realität wirken diese Typen von Indikatoren meistens zusammen. So gehören zum strukturellen Typ ‚Nebensatz‘ z.B. auch formale Merkmale wie Kommasetzung, und sein Typ kann durch bestimmte, lexikalisch konkrete Konjunktionen näher spezifiziert werden. Verwendet man also Oberflächenindikatoren zur Erkennung von Wiedergabe, sind fast immer welche aus allen Gruppen involviert, jedoch in unterschiedlicher Gewichtung. Für die Arbeit mit den lexikalischen Indikatoren sind Listen mit konkreten Wortoberflächen notwendig, für die grammatisch- oder formal-strukturellen Indikatoren muss man hingegen Muster formulieren und/oder auf vorgelagerte Abstraktionen wie morphologisches Tagging zurückgreifen. Wie in Abschnitt 9 erwähnt, liegt das Hauptaugenmerk der automatischen Erkennung auf der Unterscheidung der strukturellen Kategorien direct, free_ indirect, indirect und reported. Die weitergehende Differenzierung von Rede vs. Gedanken vs. Geschriebenes müsste für alle Kategorien auf der Basis lexikalischer Indikatoren geschehen, da sie semantisch und nicht formal markiert ist.
128 | 10 Regelbasierte Ansätze Kapitel 5 hat gezeigt, dass die Erscheinungsformen und Definitionskriterien für die vier Kategorien sehr unterschiedlich sind. Darum verlangen sie beim regelbasierten Vorgehen auch unterschiedliche Herangehensweisen. Vorausgreifend sei gesagt, dass indirekte Wiedergabe eindeutig diejenige Kategorie ist, für die die meisten offensichtlichen Indikatoren zu finden sind, weshalb sie sich am Besten für eine regelbasierte Behandlung eignet. Auch bei der direkten Wiedergabe gibt es einige Anhaltspunkte, vor allem auf der formal-strukturellen Ebene. Die erzählte Wiedergabe ist vor allem über lexikalische Indikatoren fassbar. Die freie indirekte Wiedergabe schließlich hat am wenigsten klare Indikatoren, weshalb ihre Erfassung mit rein regelbasierten Ansätzen am schwierigsten ist. Die regelbasierten Module, die im Rahmen dieser Studie entwickelt wurden, und ihre Abhängigkeiten sind in Abbildung 10.1 dargestellt. Die englischen Bezeichnungen entsprechen den Namen der entsprechenden GATE Processing Resources.
Abb. 10.1. Regelbasierte Module
Wie man sieht, führt nicht jedes Modul direkt zur Erkennung eines Typs von Wiedergabe. Das Modul MarkSTWWords etwa tut dies nicht, ist aber eine wichtige
10.1 Wiedergabewörter
|
129
Grundlage für die Erkennung von erzählter und indirekter Wiedergabe sowie von Rahmenformeln der direkten Wiedergabe. MarkFrame und MarkQuotation wirken zur Erkennung direkter Wiedergabe zusammen. Lediglich das Modul MarkFreeIndirect steht für sich alleine. MarkSTWWords ist schwerpunktmäßig ein lexikalisches Modul, das mit einer Liste konkreter lexikalischer Oberflächen arbeitet. Dies trifft auch auf MarkReported zu, da dieses die Ausgaben von MarkSTWWords direkt weiterverwendet. MarkQuotation und MarkFrame nutzen vor allem formal-strukturelle Merkmale und MarkIndirect grammatisch-strukturelle. MarkFreeIndirect ist schwerer einzuordnen und verwendet unterschiedliche Indikatoren. Im Folgenden wird zunächst näher auf das Phänomen der ‚Wiedergabewörter‘ eingegangen, die wohl der beste Indikator für Wiedergabe überhaupt sind und für alle Formen – mit Ausnahme der freien indirekten Wiedergabe – relevant sein können. Darauf folgen Abschnitte zur Erkennung von einzelnen Wiedergabetypen. In jedem Abschnitt wird so vorgegangen, dass zunächst die relevanten Indikatoren erläutert werden, gefolgt von der Beschreibung und Auswertung der jeweiligen Module. Das Fazit enthält eine Gesamtauswertung auf Satzbasis für die regelbasierte Erkennung, einen kurzen Vergleich mit anderen Ansätzen automatischer Wiedergabeerkennung und Hinweise zu Weiterentwicklungsmöglichkeiten.
10.1 Wiedergabewörter Eine Möglichkeit, wie sich Wiedergabe an der Textoberfläche niederschlägt, ist das Auftreten von Wörtern, die sich auf eine Sprach-, Denk- oder Schreibhandlung beziehen können. Diese werden im Folgenden ‚Wiedergabewörter‘ genannt.
10.1.1 Wörter für Wiedergabe in linguistischen Darstellungen Die Gruppe, auf die in der linguistischen Forschung im Kontext von direkter und indirekter Wiedergabe am häufigsten verwiesen wird, sind die so genannten verba dicendi, Verben des Sagens. Winkler definiert diese folgendermaßen: Verba dicendi sind in der Regel dreistellige Verben mit zwei Objektkomplementen, die den Adressaten der durch das Verb bezeichneten Äußerung und diese Äußerung selbst bezeichnen. Das dritte, externe Argument ist eine NP [Nominalphrase] im Nominativ und bezeichnet den Sprecher. [...] Neben verba dicendi mit zwei Objektkomplementen gibt es aber noch Verben mit drei oder auch nur mit einem Objektkomplement. (Winkler 1988, 217)
130 | 10 Regelbasierte Ansätze Für die Erkennung von indirekter Wiedergabe ist insbesondere das Komplement interessant, welches die Äußerung bezeichnet. Dass diesem eine besondere Bedeutung zukommt, zeigt sich daran, dass es auch bei verba dicendi mit nur einem Objektkomplement üblicherweise noch vorhanden ist. Dieses Komplement kann zwei verschiedene semantische Ausrichtungen haben: Es kann „entweder den Gesprächsgegenstand bezeichnen oder den Inhalt dessen wiedergeben, was mit der sprachlichen Äußerung mitgeteilt wird“ (Winkler 1988, 220). Die folgenden Beispiele illustrieren die verschiedenen Arten der Realisierung und die beiden unterschiedlichen semantischen Ausrichtungen (Beispiele nach Winkler 1988, 220–221): (85)
Gesprächsgegenstand: a. Er berichtet über die Ergebnisse seiner Forschungen. b. Er berichtet darüber, welche Ergebnisse seine Forschungen gezeitigt haben.
(86)
Inhalt der Äußerung: a. Paul teilt mir seine neue Adresse mit. b. Herr Meier behauptet, gestern nicht in Berlin gewesen zu sein.
Die Beispiele 85b und 86b zeigen Formen mit eingebetteten Sätzen, wobei im Falle von 85b, dem Satz mit Bezug zum Gesprächsgegenstand, das Korrelat darüber als Einbettungsstütze für den Nebensatz fungiert. Eine typische Form der indirekten Wiedergabe wird durch Beispiel 86b repräsentiert. Diese strukturelle Betrachtung lässt sich in Beziehung zu den unterschiedlichen Wiedergabetypen setzen: Ist das Komplement eine Nominal- oder Präpositionalphrase, ergibt sich normalerweise erzählte Wiedergabe, ist es als eingebetteter Satz oder Infinitivkomplement realisiert, ergibt sich indirekte Wiedergabe, und ist es ein direktes Zitat, so handelt es sich um eine Rahmenformel der direkten Wiedergabe. Es liegt auf der Hand, dass es Vorteile bringt, sich bei der Erkennung von Wiedergabe an solchen Wörtern zu orientieren. Da man diese nicht allein über die Struktur erkennen kann, sind Quellen vonnöten, um eine möglichst umfangreiche Liste zusammenzustellen. Allerdings werden im Kontext der Beschreibung von Wiedergabe zumeist nur ein paar Beispiele für verba dicendi gegeben. Ansonsten darauf vertraut, dass die Bezeichnung intuitiv genug ist, um eine Vorstellung zu vermitteln (vgl. z.B. Helbig/Buscha 2011, 177). Detailliertere Untersuchungen, die den Begriff verwenden, wie die von Winkler oder die kontrastive Untersuchung von Eduardo, klassifizieren die verba dicendi nach semantischstrukturellen Merkmalen, legen aber keine umfangreichen Sammlungen an (vgl. Winkler 1988; Eduardo 1993). Sucht man nach umfassenden Auflistungen von relevanten Wörtern, so findet man wenig mit direktem Bezug zu Wiedergabe. Eine
10.1 Wiedergabewörter
|
131
denkbare Quelle sind Lernerwortschätze, wie etwa der europäische Referenzrahmen Profile deutsch (vgl. Glaboniat et al. 2002), die den Vorteil haben, dass sie das Vokabular in thematische Gruppen gliedern. In Profile deutsch wären z.B. die Bereiche ‚Fremdsprachen‘ und ‚Persönliche Beziehungen und Kontakte – Korrespondenz‘ relevant. Nachteil an dieser Art von Quellen ist, dass sie bewusst nur die gebräuchlichen Wörter auflisten. Linguistische Darstellungen erweitern prinzipiell den Fokus oft auf Kommunikation im Allgemeinen. Dort ist etwa von ‚Verben des sprachliche Ausdrucks‘ (Schumacher 1986) oder ‚Kommunikationsverben‘ die Rede (Harras et al. 2004). Eine weitere, sehr umfangreich erforschte Untergruppe sind die ‚Sprechaktverben‘, deren Klassifikation aus der Sprechakttheorie von Searle erwächst (vgl. Searle 1969) und v.a. pragmatisch ausgerichtet ist. Solche Darstellungen nehmen üblicherweise eine Untergliederung der Verben nach ihren semantischen und funktionalen Merkmalen vor. So wird in Verben in Feldern (Schumacher 1986) unterschieden zwischen ‚Verben des Mitteilens‘, ‚Verben des Übermittelns‘ (bei denen die Mitteilung über einen Zwischenschritt erfolgt) und ‚Verben des Diskutierens‘, die dialogisch ausgerichtet sind. Etwas ausführlicher sei die Systematik des Handbuchs deutscher Kommunikationsverben dargestellt, das folgende Gruppen unterscheidet (vgl. Harras et al. 2004): – allgemeine verba dicendi (behaupten, reden, sagen, sprechen, (sich) äußern, (sich) aussprechen) – diese Gruppe ist sehr eng gefasst und beinhaltet nur diese 6 Einträge, die darum alle aufgezählt sind – Sprechaktverben (nach Searle): Repräsentative (z.B. lügen, berichten), Direktive (z.B. instruieren, aufgeben), Kommissive (z.B. protestieren, aushandeln), Expressive (z.B. beleidigen, prahlen), Deklarative (z.B. beschuldigen, segnen) – Verben, mit denen auf gesprächs- und themenstrukturierende Akte Bezug genommen wird (z.B. abschweifen, hinzufügen) – Verben, mit denen auf Redesequenzen Bezug genommen wird (z.B. besprechen, (sich) streiten) – Verben, mit denen auf Äußerungsmodalitäten Bezug genommen wird (z.B. flüstern, zischen, herunterleiern) – Verben, mit denen auf das Kommunikationsmedium Bezug genommen wird (z.B. rezitieren, faxen) – Verben, mit denen auf kommunikationseröffnende/-abschließende Akte Bezug genommen wird (z.B. sich an jemanden wenden, sich verabschieden) Wie man an den Beispielen sieht, ist diese Einteilung nicht auf die Verwendbarkeit dieser Wörter als Indikatoren für Wiedergabe ausgerichtet. Zum einen sind nicht wenige Wörter enthalten, die ambig sind (z.B. zischen, aufgeben, hinzufügen) und sich nur in einer ihrer Verwendungsweisen auf Kommunikation beziehen.
132 | 10 Regelbasierte Ansätze Zum anderen kann man die obigen Gruppen nicht ohne weiteres mit Affinitäten zu einem bestimmten Wiedergabetyp in Beziehung setzen. So kann z.B. aus der Gruppe der Deklarative beschuldigen in indirekter, erzählter und zur Einleitung von direkter Wiedergabe eingesetzt werden, segnen jedoch üblicherweise nur in erzählter, und selbst dann ist es ein Verb, das keine starke Wiedergabesemantik hat.34 Allerdings enthält das Handbuch deutscher Kommunikationsverben auch grammatische Informationen zu den einzelnen Verben, die deren Konstruktionsmöglichkeiten darlegen, was durchaus Rückschlüsse auf ihre Verwendbarkeit im Wiedergabekontext ermöglicht. So kann man schließen, dass Verben, die keine Nebensätze oder Infinitivkonstruktionen an sich binden können, nicht für indirekte Wiedergabe verwendet werden. Zum Teil enthält das Handbuch sogar explizite Hinweise auf Beschränkungen, z.B. dass verurteilen nicht zur Rahmung direkter Wiedergabe verwendet werde (vgl. Harras et al. 2004, 377).35 Wenn die Vorauswahl, was als Wiedergabewort betrachtet werden soll, schon getroffen ist, können für grammatische Informationen allerdings auch allgemeinere Darstellungen herangezogen werden, wie etwas das Valenzwörterbuch deutscher Verben (VALBU, Schumacher et al. 2004), von dem auch eine elektronische Version verfügbar ist (http://hypermedia.ids-mannheim.de/evalbu/index.html). Außerdem sind in diesem Zusammenhang FrameNet-Projekte interessant. Diese
34 Von den drei Vorkommen des Verbs im Erzähltextkorpus wurde eine mit dem Attribut narr, auf der Grenze zwischen Handlung und Sprachhandlung, ausgezeichnet: (1)
Der schöne Fritz wurde mit Entsetzen gewahr, daß er sich schlimm vergriffen hatte, schwitzte Todesschweiß, hob an sich zu kreuzen und zu segnen, und alle Stoßgebetlein zu intonieren, die ihm in der Angst einfielen. (Musäus: Entführung)
Die beiden weiteren wurden gar nicht als Wiedergabe markiert: (2)
[...] daß der Himmel ihre Ehe mit keinen Kindern segnen wolle. (Tieck: Eckbert)
(3)
Ich lauerte auf, schoß, traf, zog das Fell ab, ist das eine Schuld? Meine Arbeit wurde gesegnet. ›Der große Jäger vom Schwarzwald‹ hieß ich. (Kafka: Gracchus)
In den beiden letzten Fällen ist der Gebrauch des Verbs stark metaphorisch, so dass kaum von einer Wiedergabesituation die Rede sein kann. 35 Solche Aussagen sind jedoch mit Vorsicht zu behandeln, da die Möglichkeiten im realen Sprachgebrauch sehr groß sind. So lässt sich folgende Verwendung von verurteilen im Deutschen Referenzkorpus (Institut für Deutsche Sprache 2012) nachweisen: (1)
«Sie haben tausende unschuldiger Menschen aus allen Teilen der Welt, mit allen möglichen Nationalitäten und Religionen umgebracht», verurteilte Rumsfeld den Terrorismus. (A01/OKT.33911 St. Galler Tagblatt, 08.10.2001, Ressort: TB-AKT (Abk.); Krieg gegen den Terror)
Hier ist zwar die Akkusativvalenz regulär mit den Terrorismus gefüllt, aber es wird offenbar eine neue Argumentstelle für die direkte Wiedergabe eröffnet. Zu ähnlichen Konstruktionen vgl. auch Beispiele 89 und 90 sowie Beispiel 99 in Abschnitt 10.1.2.3.
10.1 Wiedergabewörter
|
133
lexikographischen Projekte bauen Datenbanken für Verben, Nomen und Adjektive auf und listen für jeden Eintrag die syntaktischen und semantischen Valenzen seiner Lesarten auf. Die Vorteile solcher Ressourcen liegen in der korpusbasierten Erarbeitung, der elektronischen Form und der stark strukturierten Vorgehensweise, die die Nutzung für automatische Methoden erleichtert. Ressourcen für das Deutsche sind German FrameNet (http://www.laits.utexas.edu/gframenet/, vgl. Boas 2009) und SALSA (The Saarbrücken Lexical Semantics Acquisition Project, http://www.coli.uni-saarland.de/projects/salsa, vgl. Burchart et al. 2009). Die Verwendung linguistischer Darstellungen ist hilfreich, allerdings werden darin in fast allen Fällen einige Aspekte vernachlässigt, die für Wiedergabe ebenfalls relevant sind. Zum einen enthalten die auf Kommunikation und Sprachhandeln ausgerichteten Darstellungen zumeist keine Wörter, die für die Wiedergabe von Gedanken relevant sind. Dies ist nicht nur für die Erkennung von echter Gedankenwiedergabe ein Problem, sondern solche Verben können z.T. auch für die Wiedergabe von Rede gebraucht werden, z.B. meinen. Im Kontext von Wiedergabe werden neben den verba dicendi gelegentlich die Gruppen der ‚verba sentiendi‘ (Verben des Empfindens) sowie der ‚verba putandi‘ (Verben des Meinens) erwähnt (vgl. Weinrich 2005, 898). Auch Helbig/Buscha weisen darauf hin, dass indirekte Wiedergabe auch „nach Verben des Denken und Fühlens und anderen Ausdrücken für redebegleitendes Tun“ (Helbig/Buscha 2011, 177) auftritt, die Duden-Grammatik spricht von „Verben des Denkens, Hoffens u.ä.“ (Dudenredaktion 2005, § 763, Tabelle). Bei der Hinzunahme dieser Gruppen stößt man allerdings wieder auf das Problem der genauen Definiton von Gedankenwiedergabe, auf das bereits in Kapitel 5.5.6.3 eingegangen wurde. Zum anderen konzentrieren sich linguistische Darstellungen bei der Sammlung und Darstellung von Wörtern, die mit Kommunikation assoziiert sind, meist auf Verben. Doch auch Nomen bzw. Nominalphrasen können Wiedergabeakte bezeichnen oder auf eine eingebettete Proposition verweisen. Winkler nennt als Beispiele etwa die Tatsache, die Frage, der Vorschlag, das Märchen (vgl. Winkler 1988, 231; siehe auch Beispiel 85b). Sie nennt die Nomen nur als Einbettungsstützen im Kontext der verba dicendi, jedoch können diese auch unabhängig von den Verben auftreten und wie diese Nebensätze verschiedener Art an sich binden. Weinrich erwähnt das Phänomen ebenfalls (Beispiele nach Weinrich 2005, 899, Hervorhebung von Weinrich): (87)
/die Nachricht, daß Sie sich selbständig gemacht haben, hat mich . . . /
(88)
/die Besorgnis, ob der Betrieb auch Gewinn abwerfen wird, ist wohl nicht .../
134 | 10 Regelbasierte Ansätze Beispiel 88 verweist auf einen Gedanken- bzw. Gefühlszustand, und es stellt sich wieder die Frage, ob dies als Wiedergabe zu werten ist. Dies zeigt, dass sich bei Nomen als referatseinleitenden Elementen dieselbe Problematik ergibt wie bei Verben: Die Semantik des Einzelworts bestimmt die Interpretation, um welche Art von Wiedergabe es sich handelt bzw. ob überhaupt noch Wiedergabe vorliegt, wobei oft auch der Kontext eine Rolle spielt. Ziemlich sichere Indikatoren sind entweder Nomen, die einen Äußerungsakt bezeichnen (z.B. die Frage) oder solche, die auf einen Äußerungtsyp Bezug nehmen (z.B. die Geschichte). Desweiteren ist zu beachten, dass auch Wörter, die von ihrer Grundsemantik kaum oder gar keinen Bezug zum Sprechen, Schreiben oder Denken haben, dennoch auf Wiedergabe verweisen können. Dies ist gerade bei den Rahmenformeln für direkte Wiedergabe der Fall, die rein situativ sein können. Die Verbstellung wird dabei der der klassischen Rahmenformeln angepasst (Zitate nach Engel 2004, 66): (89)
„Der soll keine Chance mehr haben?“ zog Otto die Augenbrauen hoch.
(90)
„Es ist nicht so, dass die Kunden in Schlangen an der Kasse stehen“, trat auch der Vorsitzende Faller der herrschenden Volksmeinung entgegen.
Während die Rahmenformel in Beispiel 90 den kommunikativen Akt beschreibt, ohne Wörter zu verwenden, die sich in ihrer Grundsemantik auf Rede beziehen, bezeichnet die Rahmenformel in Beispiel 89 eine die Äußerung begleitende Handlung (vgl. hierzu auch die Beobachtungen zur Verwendung von lächeln in Abschnitt 10.1.2.3).
10.1.2 Das Modul MarkSTWWords Das Modul MarkSTWWords (‚Mark Speech, Thought or Writing Words‘) wird auf einen vorverarbeiteten Text angewendet und verfügt über eine interne Liste lemmatisierter Verben und Nomen, welche dann im Text als Wiedergabewörter markiert werden. Es liefert die Grundlage für andere Module, die seine Ergebnisse nutzen, um konkrete Wiedergabekategorien zu identifizieren. Eine prinzipielle Schwäche des listenbasierten Ansatzes ist, dass er nicht auf lexikalische Variation reagieren kann. Das heißt, wenn im Text zur Wiedergabe ein Wort verwendet wird, das nicht in der Liste vorhanden ist, oder auch nur eine neue Schreibvariante auftritt, so wird das Modul diesen Fall nicht erkennen. Da es eine potentiell unendliche Menge von Wörtern gibt, die auf eine Wiedergabe Bezug nehmen können, ist ein solches Versagen immer möglich. Leider ist die-
10.1 Wiedergabewörter
|
135
ses Problem nicht zu umgehen, da die Möglichkeit, sich auf eine Wiedergabe zu beziehen, mit der Semantik des Einzelwortes und dem Kontext zusammenhängt und dafür keine allgemeine, oberflächenbezogene Regel definiert werden kann. Andererseits ist gerade das listenbasierte Vorgehen, wenn es erfolgreich ist, eine der verlässlichsten Erkennungsmöglichkeiten überhaupt und als Grundlage für mehrere weitere Module unverzichtbar. Dies hängt damit zusammen, dass Wiedergabe in weiten Teilen auf lexikalischer Ebene signalisiert wird. Das gilt insbesondere für erzählte Wiedergabe, aber auch für den Rahmen als Teil indirekter Wiedergabe und die Rahmenformeln der direkten Wiedergabe. Diese Formen beruhen darauf, dass im Text explizit auf eine Sprach-, Denk- oder Schreibhandlung hingewiesen wird, und dies geschieht naheliegenderweise oft mit Hilfe von Wörtern, die eine entsprechende Semantik transportieren. Das Herzstück des Moduls ist also die Wiedergabewortliste. Im Folgenden wird dargestellt, wie diese kompiliert wurde, und es werden Untersuchungen durchgeführt, die einen Eindruck vermitteln, wie gut die Liste für Voraussagen geeignet ist.
10.1.2.1 Kompilation der Wiedergabewortliste Für die Zusammenstellung der Wiedergabewortliste für MarkSTWWords wurden drei verschiedene Quellen verwendet, die auch zugleich unterschiedliche Herangehensweisen exemplifizieren: 1. Verwendung einer linguistisch motivierten und redaktionell bearbeiteten Liste 2. Herausfiltern von Kandidaten aus einem Korpus mit Hilfe von Mustersuche 3. Suche nach sinnverwandten Wörtern mit Hilfe eines Thesaurus
Nutzung linguistischer Darstellungen Wie in Abschnitt 10.1.1 dargestellt, gibt es einige linguistische Darstellungen, die Verben behandeln, die mit Wiedergabe assoziiert werden können. Es liegt nahe, ein solches wissenschaftlich fundiert zusammengestelltes Werk als Quelle heranzuziehen. Die Wahl fiel auf das Handbuch für Kommunikationsverben, das einen recht umfangreichen Ausschnitt aus diesem Bedeutungsfeld umfasst. Verwendet wurde das Verbregister des Wörterbuchteils (Harras et al. 2004). Die Einträge wurden folgendermaßen bearbeitet: – Einträge mit alternativen Formangaben wurden aufgespalten, z.B. (he)rumbrüllen → herumbrüllen und rumbrüllen.
136 | 10 Regelbasierte Ansätze –
–
Nachgestellte Angaben wie Reflexivpronomen oder Angaben zu Komplementen wurden entfernt, z.B. heißen, jmdn. etw. → heißen oder brüsten, sich → brüsten. Ebenfalls entfernt wurden die im Register vorhandenen Kürzel, die die Klassifikation der Verben nach dem Schema des Handbuchs kodieren.
Nach der Löschung doppelter Einträge, die durch die Kürzungen entstanden sind, ergab sich damit eine Liste von Verblemmata mit 579 Einträgen. Der Grund für die Kürzungen liegt darin, dass das Modul MarkSTWWords in seiner aktuellen Form nur mit einfachen Grundformen arbeitet und darum die grammatische Mehrinformation nicht hätte verarbeiten können. Die semantischstrukturellen Informationen konnten ebenfalls nicht genutzt werden, da die Klassifizierung nicht direkt auf die Erfordernisse zugeschnitten ist, die für Wiedergabe gelten (vgl. Abschnitt 10.1.1). Es wäre denkbar, noch andere linguistische Darstellungen zur Erweiterung der Wiedergabewortliste heranzuziehen, falls sie elektronisch verfügbar sind. Diese bieten den Vorteile einer guten Dokumentation und hohen Verlässlichkeit, allerdings müssen die jeweils unterschiedlichen Auswahlkriterien der einzelnen Werke beachtet und in Zusammenhang mit dem Anwendungsziel der Erkennung von Wiedergaben gesetzt werden. Die Nutzbarmachung der in linguistischen Darstellungen meist reichlich vorhandenen Zusatzinformationen hat Potential, wurde aber für den Prototypen des Moduls nicht versucht.
Mustersuche im Korpus Die zweite Strategie zum Aufbau der Wiedergabewortliste bestand darin, aus einem Korpus literarischer Texte Verben zu extrahieren, die wahrscheinlich zur Rahmenformel einer direkten Wiedergabe gehören. Verwendet wurde das ‚Digitale-Bibliothek-Korpus‘ mit ca. 45 Millionen Tokens (zur Beschreibung dieses Korpus siehe Anhang, Abschnitt A.2). Die Texte des Korpus enthielten zu dem Zeitpunkt, da die Extraktion vorgenommen wurde, keine morphologische Annotation, und es wurde aus Gründen des Aufwands auch selbst keine vorgenommen. Stattdessen wurde eine sehr einfache Mustersuche mit regulären Ausdrücken durchgeführt. Die beiden verwendeten Muster sind in Tabelle 10.1 dargestellt. Gesucht wurden genau die Zeichen , (Komma), : (Doppelpunkt) und " (doppeltes Anführungszeichen oben; Unicode dezimal 34). Wort bedeutet in diesem Kontext lediglich: ‚Zeichenkette, die von Leerzeichen eingeschlossen ist‘. Diese ‚Wörter‘ wurden mit Hilfe der Muster extrahiert.
10.1 Wiedergabewörter
|
137
Tab. 10.1. Mustersuche für Wiedergabeverben
Muster 1 er
Wort
:
"
sagte
:
"
Danke.
Muster 2 Danke
"
,
Wort
"
,
sagte
er
Die Kombination ‚Doppelpunkt gefolgt von Anführungszeichen‘ (Muster 1) markiert mit großer Wahrscheinlichkeit den Beginn einer direkten Wiedergabe, die Kombination ‚Anführungszeichen gefolgt von Komma‘ (Muster 2) deren Ende. Die Hypothese war, dass die herausgefilterten Wörter Verben sind, die einen Teil der Rahmenformel darstellen. Es zeigte sich, dass von diesen groben Mustern nur das zweite tauglich war. Mit Muster 1 wurden zu selten Verben erfasst, was daran liegt, dass direkt vor der direkten Wiedergabe auch sehr oft Nominalphrasen stehen, welche sich meist auf den Sprecher beziehen. Die Ergebnisse wurden verworfen und flossen nicht in die Wiedergabewortliste mit ein. Die Liste der mit Muster 2 aus dem Korpus extrahierten Zeichenketten wurde sowohl mit Hilfe automatischer Methoden als auch manuell bereinigt. Zunächst wurden alle Einträge mit dem TreeTagger annotiert und diejenigen entfernt, die nicht als Verben erkannt wurden. Die Restmenge wurde manuell überprüft und diejenigen Einträge entfernt, bei denen kein Bezug zu Wiedergabe erkennbar war oder die sehr stark ambig waren. Diese Vorgehensweise beruht auf der Vermutung, dass Verben, die in der Rahmenformel direkter Wiedergabe auftreten, auch für indirekte und erzählte Wiedergabe relevant sind. Dabei wird in Kauf genommen, dass Verben, welche nur für die beiden letzteren Wiedergabetypen verwendet werden, nicht gefunden werden. Das Vorgehen könnte auf verschiedene Arten optimiert werden. Nahe liegend wäre die Verwendung eines morphologisch gut annotierten Korpus und eine Verfeinerung der verwendeten regulären Ausdrücke, so dass etwa auch andere Typen von Anführungszeichen berücksichtigt werden. Dennoch ergab sich auch bei diesem groben Vorgehen eine recht umfangreiche Liste mit tauglichen Verben. Der Vorteil dieser Herangehensweise ist, dass die Liste auf realen Korpusdaten beruht. Damit kann auch festgestellt werden, wie häufig einzelne Wörter gefunden wurden, was eine erste Abschätzung von deren Relevanz ermöglicht.
138 | 10 Regelbasierte Ansätze Thesaurussuche Mit den beiden bisher dargestellten Strategien wurden ausschließlich Verben gewonnen, doch die Wiedergabewortliste sollte auch Nomen enthalten. Ein geeignetes linguistisches Werk in elektronischer Form war jedoch nicht verfügbar. Auch ein einfaches Suchmuster, das auf das Korpus angewendet werden konnte, bot sich in diesem Fall nicht an. Darum wurde der Ansatz gewählt, von einem eindeutigen Wiedergabewort ausgehend sinnverwandte Wörter zu suchen. Verwendet wurde hierfür die Resource OpenThesaurus (http://www.openthesaurus.de). Es handelt sich hierbei um „eine interaktive Website zur Entwicklung eines deutschsprachigen Wörterbuchs für Synonyme“, die von Daniel Naber betreut wird (siehe Naber o. J.). OpenThesaurus enthielt im Mai 2012 ca. 69.000 Worteinträge (ohne Doppelungen). Die Einträge sind nach verschiedenen Kriterien kategorisiert, z.B. nach Sprachniveau, Region (Österreich, Schweiz, Deutschland), Kategorie (z.B. Medizin, Schifffahrt) und untereinander vernetzt. Relationen sind Synonyme, Oberbegriffe, Unterbegriffe und Assoziationen. Die Daten werden kollaborativ erstellt und sind für den freien Download lizensiert. Auf diese Resource wurde mittels eines selbst entwickelten Skripts zugegriffen, das mit einem Suchwort initialisiert wird und mit Hilfe der definierten Synonymrelationen eine Sammlung sinnverwandter Wörter anlegt. Dazu werden zunächst alle Synonyme gespeichert, die auf der Seite des Suchworts verzeichnet sind. Anschließend greift das Skript auf die Seiten dieser Synonyme zu und speichert deren Synonyme ebenfalls. Von weiteren Verzweigungen wurde abgesehen, da der semantische Abstand zu groß wurde, was zu zu vielen irrelevanten Treffern führte. Die Suchwörter waren: Ansprache, Antwort, Gespräch, Nachricht, Rede – alles Begriffe, die im Kontext von Wiedergabe im Erzähltextkorpus auftreten. Ein Begriff aus der Gedankenwiedergabe wurde bewusst nicht als Suchwort verwendet, da die Expansion in diesem Bereich sehr rasch zu Ergebnissen führte, die kaum mehr mit Wiedergabe in Beziehung zu setzen waren. Hier zeigt sich wiederum die Schwierigkeit, den semantischen Bereich ‚Gedanke‘ auf eine passende Art abzugrenzen. Aus der Ergebnisliste wurden anschließend Doppelungen entfernt und die verbliebenen Einträge manuell bereinigt. Auf diese Weise ergab sich eine Sammlung von sinnverwandten Wörtern, die mit Wiedergabe assoziiert sind. Die endgültige Liste enthält 216 Einträge, die sowohl Begriffe für Gesprächsformen (z.B. Unterredung, Vorwurf, Zank) und Sprechweisen (z.B. Tonfall, Timbre) als auch für schriftliche Formen (z.B. Traktat, Sinnspruch, Depesche) enthält. Die Suche nach Wörtern über semantische Verwandtschaft bietet eine gute Möglichkeit, vorhandene Sammlungen zu expandieren. Der Nachteil ist, dass es wenig Kontrolle darüber gibt, wann die hinzugewonnen Wörter noch relevant für die Anwendung sind, so dass nach der Expansion auf jeden Fall ein Nachbear-
10.1 Wiedergabewörter
|
139
beitungsschritt erfolgen sollte. Um den Ausbau der Wiedergabewortliste weiter voranzutreiben, wäre die Verwendung von GermaNet naheliegend, der elektronischen Referenzdatenbank, die deutsche Wörter mit ihren semantischen Vernetzungen darstellt (http://www.sfs.uni-tuebingen.de/lsd, vgl. Kunze/Lemnitzer 2002). Nach dem Zusammenfügen der drei Listen, die mit den unterschiedlichen Verfahren gewonnen wurden, und dem Entfernen von Duplikaten ergab sich eine Sammlung von 960 Wörtern, die als mögliche Indikatoren für Wiedergabe betrachtet werden. Durch das Heranziehen weiterer Quellen, wie oben erwähnt, wäre es möglich, die Ergebnisliste zu ergänzen und zu verfeinern. Jedoch ist davon auszugehen, dass zumindest ein guter Teil der relevanten Wörter erfasst wurde.
10.1.2.2 Aufbereitung der Liste Die Wiedergabewortliste ist grundsätzlich großzügig zusammengestellt; bei den manuellen Bereinigungen wurden nur wenige Wörter entfernt, um bei der Annotierung eine möglichst hohe Erkennungsrate zu erzielen. Dies bringt es mit sich, dass die Einträge einen unterschiedlich hohen Verlässlichkeitsgrad haben – manche Wörter garantieren mit ihrem Auftreten quasi, dass eine Wiedergabe vorliegt, manche können nur unter sehr speziellen Umständen Indikatoren sein. Problematisch bei der Erkennung und Identifizierung von Wiedergabe mit Hilfe der Liste von lemmatisierten Wörtern sind vor allem folgende Fälle: – Präfixverben (z.B. fortfahren, hinzufügen): Es ist sehr schwierig, Präfixverben korrekt automatisch zu taggen, wenn die Beziehung zwischen einer Verbform und ihrem abgetrennten Präfix hergestellt werden muss, welche durch mehrere andere Tokens getrennt sein können. So wird hinzufügen in einem Satz wie „Es ist schwierig,“ fügte er hinzu. mit sehr hoher Wahrscheinlichkeit als fügen erkannt. Dies ist also ein Problem der Vorverarbeitung. – ambige Wörter (z.B. schwindeln (‚lügen‘ vs. ‚sich schwindlig fühlen‘), klatschen (‚tratschen‘ vs. ‚applaudieren‘)) – handlungsbezogene Wörter: Es gibt nicht wenige Wörter, die häufig im Zusammenhang mit Sprach-, Denk- oder Schreibhandlungen stehen, ohne dass dies Teil der Kernwortbedeutung ist (z.B. kichern, enthüllen). Dies ist ein Problem, dass mit der Natur von Wiedergabe zusammenhängt (vgl. auch die Ausführungen zum Attribut narr, Abschnitt 5.5.5). Bei der Aufbereitung der Liste wurden den Wörtern deswegen penalties (‚Strafwerte‘) zwischen 0 und 5 zugeordnet, die umso höher sind, je weniger eindeutig und typisch das Wort als Wiedergabewort ist. Dabei wurden vor allem die oben aufgezählten Merkmale als Faktoren herangezogen, die zur Erhöhung der penal-
140 | 10 Regelbasierte Ansätze ty eines Wortes führen. In der Gruppe mit penalty = 0 sind nur solche Wörter enthalten, die sich in ihrer Kernbedeutung und ohne Ambiguitäten auf Sprach-, Denk- oder Schreibhandlungen beziehen, z.B. sagen, denken, Nachricht. Die Gruppe mit penalty = 5 enthält Wörter, die nur sehr schwach mit Wiedergabe assoziiert sind, z.B. einweihen, Demontage, oder nur in speziellen Kontexten die Funktion als Wiedergabewörter übernehmen können, z.B. überbringen, sehen. Diese Zuordnung wurde ausschließlich kompetenzbasiert durchgeführt und ist recht grob. Wenn im weiteren Verlauf der Studie Betrachtungen durchgeführt werden, die sich auf die penalty-Werte stützen, sollte den exakten Ergebnissen für die einzelnen penalty-Gruppen darum nicht zu viel Bedeutung beigemessen werden. Aussagekräftig sind vor allem die Tendenzen, die sich aus der Erweiterung und Verkürzung der Wiedergabewortliste ergeben. Außerdem wurde die Markierung rep (reported) für solche Wörter eingeführt, die nicht als Einleitung einer Wiedergabe (also als Rahmenformel oder innerhalb indirekter Wiedergabe), sondern nur zu deren Erwähnung gebraucht werden können, wie z.B. nominieren, befragen. Dieser Marker wurde jedoch sehr vorsichtig vergeben, um nicht fälschlicherweise mögliche Konstruktionen auszuschließen. Zudem kann man im Umkehrschluss nicht sagen, dass dies alle Wörter seien, die erzählte Wiedergabe markieren können – diese Gruppe ist weit größer. Da vermieden werden sollte, die Liste zu sehr auf die Eigenheiten des Erzähltextkorpus anzupassen, wurden keine nicht normgerechten Schreibvarianten, die in den Erzähltexten vorkommen, in die Liste aufgenommen, auch wenn dies die Erkennungsrate verbessert hätte. Es wäre sicherlich lohnenswert, die Aufbereitung der Wiedergabewortliste noch zu verfeinern. Denkbar wäre zum einen eine Verbesserung der Zuordnung der penalties, zum anderen auch eine Anreicherung mit weiteren Informationen, sowohl semantischer Art, wie etwa Hinweise auf das wahrscheinlichste Medium (Rede, Gedanken, Geschriebenes), als auch syntaktisch-struktureller Art, z.B. besondere Markierungen für Wörter, die nur in einem bestimmten Kontext als Wiedergabewörter gebraucht werden können, z.B. fügen als Teil von hinzufügen oder überbringen als eine Nachricht überbringen. Dies ist jedoch, vor allem wenn die Angaben empirisch abgesichert sein sollen, mit erheblichem Aufwand verbunden. Die Untersuchungen, die in den folgenden beiden Abschnitten dargestellt sind, sollen einen Eindruck vermitteln, wie der Bezug zwischen Wiedergabe und den Wörtern aus der Liste aussieht.
10.1.2.3 Empirische Studie: Die Verwendung ausgewählter Wiedergabewörter Eine relevante Frage ist, in welchem Maße ‚Wiedergabewörter‘ tatsächlich im Kontext von Wiedergabe verwendet werden. Um allgemeingültigere Ergebnisse
10.1 Wiedergabewörter
| 141
zu erhalten, wurde diese Stichproben-Studie nicht anhand des Erzähltextkorpus durchgeführt, sondern auf eine breitere Datengrundlage gestellt. Das Untersuchungskorpus, genannt ‚Literatur-Korpus‘, besteht aus einer Auswahl literarischer Texte aus dem Deutschen Referenzkorpus (DeReKo, vgl. Institut für Deutsche Sprache 2012; Kupietz et al. 2010) und umfasst ca. 11.800.000 Tokens.36 Für alle Wörter der Wiedergabewortliste wurde zunächst die Frequenz bestimmt, die diese im Literaturkorpus haben. Diese Zahlen sind allerdings nur bedingt verlässlich: Zum einen können Fehler in der automatische Lemmatisierung auftreten. Zum anderen erlaubte das Korpusrechercheprogramm COSMAS 2 zur Zeit der Abfrage für das Literatur-Korpus keine Suchanfragen mit morphologischer Information. Darum erfolgte die Suche nach Wortoberflächen, so dass sich Ambiguitäten (z.B. meine als Possessivpronomen vs. als Verbalform in der 1. Person Singular) ergaben. Die Frequenzen können jedoch zur Orientierung dienen. Für die Stichproben-Studie wurden 10 Verben aus der Wiedergabewortliste ausgewählt, die sich im obersten Frequenzbereich befinden. Dabei wurden bewusst neben typischen verba dicendi auch solche Verben aufgenommen, die nicht sofort mit Wiedergabe assoziiert werden. Die Verben wurden in allen Flexionsformen im Literatur-Korpus gesucht, dann wurden aus der Ergebnismenge per Zufallsauswahl Belege extrahiert und manuell klassifiziert. Belege, die keine Form des gesuchten Verbs enthielten (z.B. das Schloss bei schließen) wurden nicht in die Stichprobe aufgenommen. Da die Studie sich nur auf Verben konzentriert, wurden auch Nominalisierungen und attributiv gebrauchte Partizipformen aussortiert. Auf diese Weise ergab sich für jedes Verb eine Liste von 100 zufällig aus dem Korpus gewonnenen Verwendungsbeispielen. Jedes Beispiel wurde einer der folgenden Gruppen zugeordnet: – frame: Vorkommen des Verbs als Teil der Rahmenformel von direkter Wiedergabe – indirect: Vorkommen des Verbs als Teil von indirekter Wiedergabe – reported: Vorkommen des Verbs als Teil von erzählter Wiedergabe – narration: Vorkommen des Verbs als Teil von reinem Erzählertext, also ohne Bezug zu Wiedergabe Die Techniken direkte Wiedergabe (im Gegensatz zu ‚Rahmenformel von direkter Wiedergabe‘) und freie indirekte Wiedergabe reproduzieren per Definition nur
36 Zur genauen Zusammensetzung dieses Korpus siehe Anhang, Abschnitt A.3. Die Abfrage erfolgte im März 2012.
142 | 10 Regelbasierte Ansätze den Inhalt der Wiedergabe, weshalb Wiedergabewörter für sie keine Rolle spielen. Deswegen wurden keine Gruppen direct und free_indirect definiert. Bei der Klassifizierung ergaben sich natürlich die gleichen Probleme wie bei der manuellen Annotation des Erzähltextkorpus. Jedoch wurde darauf verzichtet, Grenzfälle oder Besonderheiten mit Hilfe von Attributen zu kennzeichnen. Dies betrifft z.B. nicht faktische oder metaphorische Verwendung (non-fact und metaph) sowie nicht-prototypische Wiedergaben (border). Manche Verben, wie etwa wissen, sind bei der manuellen Annotation grundsätzlich als border gekennzeichnet. Bei der Kurzstudie ist davon auszugehen, dass solche Grenzfälle mitgezählt wurden. Die Auswertung entspricht damit der manuellen Annotation ohne Ausschluss von Grenzfällen, wie sie als Vergleichspunkt für die automatische Annotation in fast allen Fällen (außer in Abschnitt 12.3) verwendet wird. Zu den einzelnen Verben gibt es allerdings im Folgenden kurze Anmerkungen zu ihrer Verwendungsweise, die auch auf Klassifizierungsentscheidungen eingehen. Auf eine Unterscheidung der Wiedergabe von Rede, Gedanken und Geschriebenem wurde im Rahmen der Kurzstudie verzichtet, in manchen Fällen ist diese allerdings durch die Art des Verbs gegeben. Für die Untersuchung wurden vor allem Verben aus zwei extremen Gruppen gewählt: Zum einen solche, die als klassische verba dicendi bzw. Kommunikationsverben gelten, zum anderen solche, die andere Hauptdeutungen haben und an die man im Zusammenhang mit Wiedergabe nicht spontan denken würde. Zusätzlich wurden noch zwei Verben gewählt, die zwar mit Sprach- bzw. Denkhandlungen assoziiert, aber weniger klassisch sind als die der ersten Gruppe. Folgende Verben wurden untersucht: – Klassische verba dicendi – antworten – bitten – fragen – sagen – Verben mit anderen Hauptbedeutungen – finden – lächeln – schließen – sehen – Mit Sprach- oder Denkhandlungen assoziierte Verben – heißen – wissen
10.1 Wiedergabewörter
| 143
100 frame indirect reported narration
80
Belege
60
40
20
Abb. 10.2. Stichprobe: Verwendungsweise von Wiedergabewörtern
sagen
fragen
antworten
wissen
bitten
heißen
finden
schließen
lächeln
sehen
0
144 | 10 Regelbasierte Ansätze Abbildung 10.2 zeigt die Ergebnisse der Auswertung. Die Reihenfolge der Wörter in der Abbildung entspricht dem Anteil der Sätze, in denen sie in Wiedergabekontexten vorkommen. Dieser steigt von links nach rechts an, so dass die ‚besten‘ Wiedergabewörter ganz rechts stehen.
Klassische verba dicendi In der Gruppe der Verben, die man zu den typischen verba dicendi zählen kann, ist der Anteil der Sätze, in denen sie nicht mit Wiedergabe assoziiert sind, erwartungsgemäß sehr gering – für sagen und fragen gibt es in der Stichprobe sogar überhaupt keine Belege für eine solche Verwendung. Bei antworten sind die als narration gewerteten Belege Fälle von non-verbaler Kommunikation, wie z.B. dieser Satz: (91)
Herr Grünlich hatte wiederum auf jeden Namen mit einer Verbeugung geantwortet. (Mann: Buddenbrooks, S. 9537 )
In solchen und ähnlichen Fällen kann die Grenze zur Wiedergabe fließend sein, und es wird ganz offensichtlich die prototypisch sprachliche Bedeutungskomponente des Verbs ausgenutzt. Im Falle von sagen sind auch sehr kurze, unmarkierte Zitate, die im Erzähltextkorpus als ambig zwischen direkter und erzählter Wiedergabe eingestuft wurden, nach ihrer Struktur als frame klassifiziert: (92)
Wenn sie Neese sagte, klang das nicht nur lustig-berlinisch, sondern auch furchtbar grotesk. (Walser: Brandung, S. 169)
Zudem werden gerade mit dem prototypischen verbum dicendi sagen recht viele pragmatisch verfestigte Wendungen gebildet, z.B. wie gesagt, man könnte sagen. Da diese aber alle noch etwas mit Wiedergabe zu tun haben, wurden sie als reported eingestuft (bei der manuellen Annotation wären sie mit dem Attribut prag versehen worden). Interessant ist ein Übergang zu freier indirekter Wiedergabe, der sich bei den Verben sagen (2 Fälle) und fragen (2 Fälle) beobachten lässt: (93)
Ohne ice cream, sagt Eileen, kann sie [= Eileen] nicht leben. (Walser: Brandung, S. 112)
(94)
[...] wenn der [= ihr Sohn], so sagt sie, ihr nicht nachfolgen darf in die DDR, wird sie zurückkehren nach Amerika [...] (Heym, S.: Nachruf, S. 594)
37 Für vollständige bibliographische Angaben zu den Belegen aus dem Literatur-Korpus siehe Anhang A.3.
10.1 Wiedergabewörter
| 145
(95)
Sollte sie nicht, fragt sie, umkehren, zurück durch die Kontrollen, und hineilen an seine Seite? (Heym, S.: Nachruf, S. 744)
(96)
Wie aber, so fragt er sich jetzt, wenn man den kleinen Mann durch Information zum Denken bringen, ihn dadurch sogar aufrütteln könnte? (Heym, S.: Nachruf, S. 327)
Diese Fälle wurden als frame gewertet, da die Einrahmung der Wiedergabe die eigentliche Funktion des Verbs in diesem Kontext ist. Zwar muss man, angesichts der kleinen Stichprobe, bei der auch noch drei der vier Beispiele aus dem gleichen Roman stammen, mit Verallgemeinerungen sehr vorsichtig sein, aber es ist bemerkenswert, dass diese Art von Konstruktionen, bei denen die Struktur einer direkten Wiedergabe entspricht, aber der wiedergegebene Text transformiert ist, nur mit den beiden wohl prototypischsten verba dicendi auftritt. Das Verb bitten hat eine noch höhere Tendenz als sagen, in pragmatischen Wendungen aufzutreten. Die Form bitte als Gesprächspartikel (z.B. Hilf mir bitte!), die einen sehr hohen Anteil der Verwendungen ausmacht, wurde nicht als Verbform gewertet, ist also in dieser Stichprobe gar nicht vertreten. Eng mit dieser Bedeutung verwandt sind Wendungen wie darf ich bitten und wenn ich bitten darf. Diese wurden als narration klassifiziert, da sie von der Funktion ‚Wiedergabe‘ sehr weit entfernt sind. Andere Beispiele, bei denen bitten mit einem Subjekt in der ersten Person auftritt, wurden noch als indirekte oder erzählte Wiedergaben gewertet, sind aber Grenzfälle, die bei der manuellen Annotation mit prag gekennzeichnet worden wären: (97)
»Dann«, sagte der Oberst überlegen, »dann muß ich euch sagen, daß ihr nichts vom dynamischen Recht versteht.« »Bitte das zu erläutern«, sagte die erste Ratte überheblich. (Lenz: Duell, S. 54)
(98)
ja, dann geh mit Gott, Jean ... aber sei vorsichtig, ich bitte dich, nimm dich in acht! (Mann: Buddenbrooks, S. 181)
Wendungen wie um Vergebung/Entschuldigung bitten drücken Sprachhandlungen aus und wurden darum als reported gewertet. Sie machen etwa ein Drittel dieser Kategorie aus. Das Verb bitten ist also zwar sehr eng mit Kommunikation verknüpft, aber hat eine Tendenz zu nicht-prototypischer Wiedergabe.
Verben mit anderer Hauptbedeutung Der andere Extremfall, der untersucht wurde, sind Wörter, die in ihrer Grundbedeutung nichts mit Kommunikation zu tun haben, aber dennoch in Wiedergabeformen verwendet werden. Die Relevanz dieser Wörter für Wiedergabe wird leicht
146 | 10 Regelbasierte Ansätze unterschätzt. Das Verb lächeln etwa kann als Einleitungswort für direkte Wiedergabe auftreten: (99)
„Ich werde wachsam sein! Ihr seht nicht weniger müde aus, Sanar! Ruht Euch aus!“, lächelte Wagas. (Planert: Seleno, S.308)
Zudem gibt es einen Übergangsbereich, wo Wendungen mit lächeln ähnlich wie Rahmenformeln verwendet werden. (100)
»[...] Die Philosophie hat die Kinder vergessen«, er lächelte mich an, »für immer vergessen, nicht nur für manchmal, wie ich euch.« (Schlink: Vorleser, S. 136)
(101)
Martine lächelte zaghaft: „Ich glaube, ich möchte jetzt auch etwas trinken!“ (Wittelsbach: Marc, S. 236)
Bei Beispiel 100 handelt es sich strukturell um eine eingeschobene Beschreibung, die jedoch typographisch wie eine Rahmenformel markiert ist. Solche Wendungen gelten als narration, da hier offensichtlich ist, dass eine sehr viel schwächere syntaktische Integration vorliegt als in Beispiel 99: Die Wiedergabe besetzt eindeutig nicht die Vorfeldposition, kann also nicht als Satzglied gesehen werden. In Beispiel 101 ist die syntaktische Struktur nicht eindeutig zu interpretieren. Deswegen diente hier die typographische Markierung als Anhaltspunkt, so dass solche Wendungen als frame klassifiziert wurden, wenn sie einen Doppelpunkt aufweisen. In der Stichprobe gibt es neben den 7 als frame klassifzierten Fällen noch 9 Fälle, die Einschübe in der Art von Beispiel 100 enthalten und damit auf der Grenze liegen. Zudem tritt das Verb lächeln oft in Koordination mit dem eigentlichen Einleitungswort oder im Kontext direkter Wiedergabe auf, ohne direkt mit der Rede assoziiert zu sein. Das Verb sehen hat im Gegensatz dazu keine Tendenz, als Einleitungsverb zu fungieren. Allerdings kann es die Bedeutung von ‚erkennen‘ annehmen und tritt dann v.a. in Konstruktionen der indirekten (Gedanken-)Wiedergabe auf. Hier ist der Übergang zwischen sehen in der Bedeutung ‚wahrnehmen‘ und in der Bedeutung ‚erkennen‘ fließend. Das folgende Beispiel wurde als indirect klassifiziert: (102)
Gott sah, daß er recht hatte und erließ ihm zwölf Jahre. (Grimm: Märchen, S. 724)
Schließen kann in ähnlicher Weise zur Gedankewiedergabe verwendet werden, etwa in der Konstruktion auf etw. schließen. Diese und verwandte Wendungen wurden als reported gewertet. Außerdem kann das Verb als Einleitungsverb auftreten: (103)
Und weil sie für jede Lage einen Spruch hatte, schloß sie: Sorget, aber sorget nicht zu sehr. (Walser: Kindheit, S. 273)
10.1 Wiedergabewörter
| 147
Wendungen wie einen Pakt schließen wurden als narration klassifiziert – zwar ist hier vermutlich eine sprachliche Komponente vorhanden, aber diese wird nicht explizit gemacht. Das Verb finden tritt vor allem in der Konstruktion etw. [gut/schlecht/. . . ] finden in erzählter Wiedergabe und mit der Konstruktion finden, dass in indirekter Wiedergabe auf. In beiden Fällen bedeutet es ‚der Meinung sein‘, so dass man von Gedankenwiedergabe sprechen kann. (104)
Ich fand es am Wochenende auch sehr schön, und habe wegen dem nächsten Samstag gefragt. (Friedrich: Dates, S. 101)
(105)
ich finde, daß beide durchaus angenehme Menschen sind (Mann: Friedemann, S. 87)
Es gibt noch einige andere Fälle, in denen das Wort in Konstruktionen vorkommt, die mit Sprach- oder Denkhandlungen zu tun haben, z.B. eine Antwort finden, ein Urteil finden, Verhandlungen finden statt. Da die Wiedergabesemantik hier allerdings nicht mit dem Verb, sondern mit den jeweiligen Nomen verknüpft ist, wurden diese Wendungen als narration gewertet.
Mit Sprach- bzw. Denkhandlungen assoziierte Verben Im Kontext indirekter Wiedergabe kommt heißen v.a. in der Konstruktion jmd. etw. zu tun heißen = ‚jmd. etw. befehlen‘ vor. Die unpersönliche Konstruktion es heißt kann sowohl als Teil einer indirekten Wiedergabe als auch als Rahmenformel auftreten. (106)
Aber die Zeit, so heißt es, heilt alle Wunden. (Kohen: Geheimnis, S. 259)
(107)
Es hieß, von nun an müsse abends verdunkelt werden, der Zwecke wären Luftschutzübungen. (Ripperger: Rückblicke, S. 51)
Über 40 % der Belege macht die Verwendung von heißen in der Bedeutung ‚einen Namen tragen‘ aus. Diese wird in der manuellen Annotation als border-Fall von reported gewertet und zählt also auch hier als eine Form der erzählten Wiedergabe. Ebenfalls als reported gelten die Wendungen Willkommen heißen und etwas X heißen [= nennen]. Die Konstruktion etw. heißt [in einer Sprache] etw. wurde wegen des starken Bezugs auf Sprache noch als Grenzfall von erzählter Wiedergabe klassifiziert. Alle anderen Verwendungen von heißen im Sinne von ‚bedeuten‘ sind allerdings narration, also auch die häufige Wendung das heißt. (108)
Mit Lucia dagegen hatte sie schon gesprochen, das hieß, sie hatte es eigentlich gewollt, als diese sie eine fette Heulsuse genannt und zur Seite gestoßen hatte (Lange: Via, S. 132)
148 | 10 Regelbasierte Ansätze Wissen ist ein Verb, das zur Gedankenwiedergabe verwendet werden kann (in der manuellen Annotation immer ausgezeichnet mit dem Attribut border: state, da es einen Zustand, nicht eine aktive Denkhandlung ausdrückt). Es wird in der Stichprobe nie in einer Rahmenformel verwendet, aber häufig in indirekter und erzählter Wiedergabe. Pragmatische Einschübe nach dem Muster von Beispiel 109 wurden zu den reported-Instanzen hinzugezählt. (109)
Wir könnten zusammen schwimmen, weißt du? (Lenz: Fest, S. 44)
Als narration gilt die Konstruktion ‚etwas zu tun wissen‘ (= etwas können), wie in Beispiel 110. (110)
Kein Zweifel, wer sich hier als Chef zu benehmen wußte. (Muschg: Glück, S. 87)
Bei der Auswertung der manuellen Annotation fiel auf, dass Konstruktionen mit wissen auffallend oft verneint sind (vgl. Abschnitt 6.3). Im Rahmen der Kurzstudie wurde die Gelegenheit ergriffen, zu überprüfen, ob diese Beobachtung sich auch anhand der Stichprobe aus dem größeren und diverseren Literatur-Korpus bestätigt. Tatsächlich zeigt sich, dass 28 % der Verwendungen im Kontext indirekter Wiedergabe verneint sind, bei erzählter Wiedergabe knapp 10 %. Hier wurden jeweils nur die expliziten Verneinungen gezählt, nicht alle nicht-faktischen Verwendungen. Dieser Anteil an Verneinung ist durchaus recht hoch, vor allem bei der indirekten Wiedergabe. Zum Vergleich: Beim Verb fragen sind 15 % der erzählten Wiedergaben verneint (also mehr als bei wissen), aber nur ca. 8 % der indirekten (also deutlich weniger). Bei sagen sind es etwa 14 % der erzählten Wiedergabe, aber nur 5 % der indirekten. Bei bitten ist der Anteil an Verneinungen insgesamt sehr viel geringer: Es sind von den Instanzen erzählter Wiedergabe 6 % verneint, von den Instanzen indirekter Wiedergabe in der Stichprobe sogar überhaupt keine.
Fazit Die Untersuchung zeigt einige interessante Befunde zu den einzelnen Verben, vor allem aber, dass deren Verhalten sehr unterschiedlich ist und zahlreiche Besonderheiten aufweist. Die Bewertung und Klassifizierung von ‚Wiedergabewörtern‘ ist also keineswegs trivial. Zugleich gibt es einige Tendenzen, die man so nicht unbedingt vermutet hätte: Zum einen weisen Wörter mit Hauptbedeutungen, die nichts mit Kommunikation zu tun haben, dennoch Affinitäten zu Wiedergabe auf, die nicht zu vernachlässigen sind, vor allem, da diese Wörter sehr frequent sind. Insbesondere die Tatsache, dass finden in immerhin fast 20 % seiner Vorkommen mit indirekter oder erzählter Wiedergabe assoziiert ist, ist bemerkenswert. Zum
10.1 Wiedergabewörter
| 149
anderen ist bei scheinbar prototypischen Wiedergabewörtern wie sagen und v.a. bitten die Neigung zu pragmatischen Wendungen, die nur noch am Randbereich von Wiedergabe stehen, ziemlich deutlich. Zudem lässt sich beobachten, dass die verschiedenen Verben ganz unterschiedlich starke Tendenzen zu verschiedenen Wiedergabetypen aufweisen. So enthält die Stichprobe zu antworten sehr wenige Fälle von indirekter Wiedergabe, während bei fragen und sagen der Anteil an indirekter und erzählter Wiedergabe etwa gleich ist. Sagen, fragen und antworten kommen alle in mindestens 50 % der Fälle in Einleitungsformeln vor, bitten hingegen kaum in 10 %. Das Verb lächeln ist im Wiedergabekontext immer Teil einer Rahmenformel, das Verb finden hingegen tritt nur in indirekter oder erzählter Wiedergabe auf. Natürlich sind diese Aussagen aufgrund der geringen Datenbasis nur als Tendenzen zu verstehen, die Variation ist aber doch bemerkenswert. Eine detaillierte Untersuchung nach dem Muster der Kurzstudie könnte Aufschluss darüber geben, wie gut sich ein Wort als Wiedergabewort eignet und für welchen Typ von Wiedergabe – also wie hoch die Wahrscheinlichkeit ist, dass es tatsächlich in dem entsprechenden Kontext auftritt. Die Ergebnisse könnten als Indikator für die Höhe des penalty-Werts verwendet werden, die das Wort erhält. Allerdings sind derartige Untersuchungen sehr aufwendig, darum wurden sie bei der Aufbereitung der Liste für das Modul MarkSTWWords nicht systematisch durchgeführt.
10.1.2.4 Auswertung auf Basis des Erzähltextkorpus Während die Kurzstudie das Verhalten einzelner Wörter untersucht hat, geht es im Folgenden um die Ergebnisse des Moduls MarkSTWWords im Vergleich zur manuellen Annotation, d.h. um die Erfolge, die mit der Wiedergabewortliste als Ganzes erzielt werden. Die Datenbasis ist hier das Erzähltextkorpus. Bei der Auswertung wurde zum einen die Gesamtliste von 960 Wörtern verwendet. Diese schließt auch die Wörter mit penalty = 5 ein, die als sehr unsichere Indikatoren für Wiedergabe eingestuft wurden. Zum anderen wurde auch eine Auswertung durchgeführt, bei der nur die Wiedergabewörter mit penalty-Werten von 0 oder 1 verwendet wurden, also die sicheren Indikatoren. Diese Liste umfasst 377 Wörter. Die im Folgenden präsentierten Zahlen sollten als Tendenzen verstanden werden – jede Anpassung der Liste, vor allem das Hinzufügen bzw. Streichen hochfrequenter Wörter, würde die Ergebnisse verändern. Eine gezielte Optimierung der Liste auf das Erzähltextkorpus hin wurde bewusst vermieden. Die Ergebnisse werden aus zwei verschiedenen Blickwinkeln betrachtet: Tabelle 10.2 geht von der Gesamtmenge der im Erzähltextkorpus gefundenen Wiedergabewörter aus und stellt dar, welcher Prozentsatz davon in Abschnitten auftritt, die mit Wiedergabekategorien markiert sind. Hierdurch ergibt sich ein Hin-
150 | 10 Regelbasierte Ansätze Tab. 10.2. MarkSTWWords: Prozentsatz von Wiedergabewörtern, die innerhalb von manuellen Wiedergabemarkierungen auftreten (Gesamtliste bzw. Einträge mit penalty ≤ 1)
in direkter Wiedergabe (direct)
Gesamtliste
pen ≤ 1
(960)
(377)
10,44 %
07,26 %
in Einleitung zu direkter Wiedergabe (frame)
17,80 %
29,36 %
in freier indirekter Wiedergabe (free_indirect)
00,73 %
00,41 %
in indirekter Wiedergabe (indirect)
19,31 %
26,35 %
in erzählter Wiedergabe (reported)
23,16 %
29,05 %
nicht innerhalb von Wiedergabe
28,57 %
07,57 %
Tab. 10.3. MarkSTWWords: Prozentsatz von manuellen Wiedergabemarkierungen, die Wiedergabewörter enthalten (Gesamtliste bzw. Einträge mit penalty ≤ 1)
Gesamtliste
pen ≤ 1
(960)
(377)
direkte Wiedergabe (direct)
25,82 %
18,86 %
Einleitung zu direkter Wiedergabe (frame)
92,62 %
88,31 %
freie indirekte Wiedergabe (free_indirect)
25,45 %
17,27 %
indirekte Wiedergabe (indirect)
86,27 %
74,22 %
erzählte Wiedergabe (reported)
75,48 %
60,42 %
10.1 Wiedergabewörter
|
151
weis auf die Tendenz zu sogenannten falschen Positiven, d.h. den Fall, dass eine Wiedergabe vermutet wird, wo keine vorliegt. Tabelle 10.3 zeigt im Gegenzug, welcher Prozentsatz von manuellen Wiedergabemarkierungen ein Wiedergabewort enthält. Dies gibt Aufschluss darüber, welcher Anteil an Wiedergabe theoretisch mithilfe der Wiedergabewortliste gefunden werden könnte.38 Zunächst sollen nur die Ergebnisse bei Verwendung der gesamten Wiedergabewortliste betrachtet werden. Für freie indirekte Wiedergabe ist der Befund sehr deutlich: Sie enthält nur einen Bruchteil der Wiedergabewörter (0,73 %), und wenige ihrer Instanzen enthalten Wiedergabewörter (25,45 %). Ein größerer Teil der Wiedergabewörter (10,44 %) tritt innerhalb von direkter Wiedergabe auf, dabei ist allerdings zu beachten, dass direkte Wiedergabe mit Abstand die häufigste Wiedergabekategorie im Erzähltextkorpus ist, so dass die Wahrscheinlichkeit hoch ist, dass ein Wiedergabewort zufällig innerhalb ihrer Markierungen auftaucht. Der Anteil der Direkte-Wiedergabe-Instanzen, die ein Wiedergabewort enthalten, ist mit 25,86 % ähnlich gering wie bei freier indirekter Wiedergabe. Bei beiden Kategorien lässt sich zudem bei der Betrachtung der Instanzen mit Wiedergabewort feststellen, dass es sich nicht selten um eingebettete Fälle anderer Wiedergabetypen handelt. Daran zeigt sich, dass Wiedergabewörter nicht sonderlich geeignet für die Identifizierung von direkter und freier indirekter Wiedergabe sind. Dies entspricht auch der Intuition: Diese beiden Wiedergabetypen zeichnen sich dadurch aus, dass sie Inhalte präsentieren und nicht explizit auf die Tatsache Bezug nehmen, dass eine Wiedergabe stattfindet. Anders verhält es sich mit den verbliebenen drei Kategorien. Insbesondere die Rahmenformel für direkte Wiedergabe (frame) enthält ausgesprochen häufig Wiedergabewörter (zu 92,62 %), und die Wiedergabewörter innerhalb von frame machen auch einen nicht geringen Anteil aus (17,80 %). Fast gleiche Anteile von Wiedergabewörtern kommen innerhalb indirekter und erzählter Wiedergabe vor (19,31 % und 23,16 %), und beide Kategorien werden bemerkenswert gut abgedeckt, wobei die Abdeckung bei indirekter Wiedergabe mit 86,27 % noch etwas höher ist als bei erzählter Wiedergabe mit 75,48 %. Daran zeigt sich, dass Wiedergabewörter für diese drei Kategorien sehr gute Indikatoren sein können.
38 Die Werte in Tabelle 10.2 sind also dem Maß Precision und die in Tabelle 10.3 dem Maß Recall ähnlich. Allerdings findet kein Abgleich zwischen zwei gleichwertigen Annotationen statt. So kann eine einzige Wiedergabemarkierung mehrere Wiedergabewörter enthalten. Außerdem kann ein und derselbe Textabschnitt mit mehreren Wiedergabekategorien markiert sein (z.B. bei geschachtelten Wiedergaben), so dass dasselbe Wiedergabewort in mehreren Wiedergabemarkierungen auftritt. Die Werte sollen nur einen groben Eindruck von der Beziehung zwischen den beiden Annotationen vermitteln.
152 | 10 Regelbasierte Ansätze Ein Anteil von 28,57 % der Wiedergabewörter tritt überhaupt nicht innerhalb einer Wiedergabekategorie auf. Dies sind die eindeutigen Fehler. Zudem ist anzumerken, dass auch die Treffer innerhalb direkter und freier indirekter Wiedergabe nicht als echte Erfolge zu werten sind, da das Vorkommen von Wiedergabewörtern kein Indikator für diese beiden Kategorien ist. Vergleicht man die Auswertungsergebnisse, die nur die sichersten Wiedergabewörter (mit penalty 0 oder 1) verwenden, so wird in Tabelle 10.2 deutlich, dass der Anteil der Wiedergabewörter, die außerhalb von Wiedergabekategorien auftreten, stark abnimmt, wenn die Liste reduziert wird (7,57 % vs. 28,57 % bei Verwendung der Gesamtliste). Zudem konzentrieren sich die Wiedergabewörter nun noch deutlicher in den drei Kategorien frame, indirect und reported. In Tabelle 10.3 sieht man, dass der Prozentsatz von Wiedergabemarkierungen, die Wiedergabewörter enthalten, in allen Kategorien sinkt. Dies ist wenig erstaunlich, da die Menge an Wiedergabewörtern, die insgesamt im Erzähltextkorpus gefunden werden, bei Verwendung der verkürzten Liste fast um die Hälfte geringer ist. Man kann jedoch auch beobachten, dass die Kategorien indirect und reported durch die Reduktion besonders stark betroffen sind: indirect verliert 12,05 Prozentpunkte im Vergleich zur Auswertung mit der Gesamtliste, reported gar 15,06. Bei direct (-6,96 %), free_indirect (-8,18 %) und frame (-4,31 %) sind die Auswirkungen geringer. Dies deutet darauf hin, dass die weniger sicheren Wiedergabewörter vor allem für die Kategorien indirekte und erzählte Wiedergabe relevant sind, während frame kaum von einer längeren Wiedergabewortliste profitiert.
10.2 Die Erkennung indirekter Wiedergabe Indirekte Wiedergabe ist die Wiedergabeform, die in der linguistischen Forschung mit Abstand die meiste Aufmerksamkeit erfahren hat und zudem die Form, die am deutlichsten formal definiert ist. Dies hat sich schon bei der manuellen Annotation indirekter Wiedergabe gezeigt, bei der strukturelle Regeln zur Abgrenzung eine viel größere Rolle spielen als bei anderen Formen der Wiedergabe (vgl. Abschnitt 5.3). Folglich ist dies der Wiedergabetyp, für den eine regelbasierte Herangehensweise am naheliegendsten ist. Helbig/Buscha fassen die Indikatoren folgendermaßen zusammen: Zur formalen Kennzeichnung der indirekten Rede dienen: 1. der Konjunktiv 2. redeeinleitende Verben 3. die Nebensatzform
10.2 Die Erkennung indirekter Wiedergabe
|
153
Keines dieser Mittel ist obligatorisch, doch ist gewöhnlich zumindest eines vorhanden, um die indirekte Rede als solche zu kennzeichnen. (Helbig/Buscha 2011, 174)
Die ‚redeeinleitenden Verben‘ wurden bereits als Wiedergabewörter in Abschnitt 10.1 behandelt. Im Folgenden werden also zunächst der Konjunktiv, dann die Nebensatzformen näher betrachtet. Darauf folgt noch ein Abschnitt zu formelhaften Referatshinweisen, die oftmals im Kontext indirekter Wiedergabe behandelt werden.
10.2.1 Konjunktiv (und würde-Konstruktion) Wie bereits in Abschnitt 4.1 erwähnt, ist die Verknüpfung zwischen dem Konjunktiv und der Markierung von Wiedergabe in linguistischen Darstellungen sehr eng. Die Beschreibung dieser Funktion hat als ‚Referatskonjunktiv‘ oder ‚Indirektheitskonjunktiv‘ einen festen Platz in der Darstellung des Verbmodus und wird nicht selten zum Ausgangspunkt genommen, um das Gesamtphänomen Wiedergabe zu beschreiben (z.B. Zifonun et al. 1997; Dudenredaktion 2005; Helbig/Buscha 2011). Die Duden-Grammatik konstatiert: In der Schriftsprache ist das Referat bzw. die indirekte Rede (indirekte Redewiedergabe) der wichtigste Funktionsbereich des Konjunktivs. Zählungen bestätigen, dass er hier am häufigsten auftritt. (Dudenredaktion 2005, § 762)
Der Verweis auf ‚Zählungen‘ legt nahe, dass eine Auswertung von Korpusbelegen stattgefunden hat, jedoch wird dies nicht genauer spezifiziert.39 Allerdings ist zu betonen, dass weder Konjunktiv I40 noch Konjunktiv II ausschließlich für die indirekte Wiedergabe reserviert sind. Eisenberg urteilt ausdrücklich: „Die primäre Funktion des Konjunktivs liegt mit Sicherheit nicht bei der Signalisierung von Nichtwörtlichkeit.“ (Eisenberg 1999, 119) Diese sei vielmehr die Signalisierung von Nichtfaktivität, d.h. dass bei Sätzen im Konjunktiv lediglich vom Sprecher keine Gültigkeit vorausgesetzt wird. Ein völlig sicherer Indikator für Wiedergabe ist also das Auftreten des Verbmodus Konjunktiv nicht.
39 In ihrem Vorwort weist die Duden-Grammatik lediglich darauf hin, dass für ihre Erstellung „große Mengen aktueller Texte, besonders aus der Presse und dem Internet, ausgewertet werden [konnten]“ (Dudenredaktion 2005, Vorwort). 40 Die Bezeichnung ‚Konjunktiv I‘ ist ein Sammelbegriff für die Formen Konjunktiv Präsens (er sehe), Konjunktiv Perfekt (er habe gesehen) und Konjunktiv Futur (er werde sehen). Der komplementäre Begriff ‚Konjunktiv II‘ umfasst die Formen Konjunktiv Präteritum (er sähe) und Konjunktiv Plusquamperfekt (er hätte gesehen) (vgl. Eisenberg 1999, 117).
154 | 10 Regelbasierte Ansätze Wie sieht es umgekehrt mit der Verbindlichkeit der Konjunktivverwendung aus, wenn indirekte Wiedergabe voliegt? Der Gebrauch, vor allem von Konjunktiv I, ist mit normativen Vorstellungen verknüpft, die allerdings in den letzten Jahrzehnten zunehmend relativiert wurden. Maas/Wunderlich konstatierten in den 1970er Jahren: Die Auffassung, daß in der indirekten Rede stets der Konjunktiv zu benutzen sei, ist jedenfalls nicht berechtigt, sie findet sich auch fast nur noch in sehr traditionell und normativ orientierten Lehrbüchern; tatsächlich wird von Sprechern des Deutschen mindestens ebensooft, wenn nicht sogar wesentlich häufiger der Indikativ verwendet. (Maas/Wunderlich 1972, 166).
Vergleicht man die 2. (1966) und 3. (1973) Auflage der Duden-Grammatik, so lässt sich feststellen, dass die zunächst normative Aussage, die indirekte Wiedergabe habe den Konjunktiv I, im Ersatzfall den Konjunktiv II, zu verwenden, in diesem Zeitraum in eine Empfehlung umgewandelt worden ist (vgl. Kaufmann 1976, 27). Allerdings enthält noch die Neubearbeitung von Engels Grammatik von 2004 die Aussage: „In der Standardsprache [...] wird der Konjunktiv als Index indirekter Wiedergabe konsequent und ausnahmslos verwendet.“ (Engel 2004, 67) Bei einer deskriptiven Betrachtung herrscht jedoch in allen neueren Darstellungen Konsens (auch Engel leugnet dies nicht), dass in indirekten Wiedergabesätzen, die von referatseinleitenden Verben abhängig sind, vier unterschiedliche Formen auftreten können: Konjunktiv I, Konjunktiv II, die Ersatzform mit würde und Indikativ.41 Im Folgenden soll zunächst dargestellt werden, wann überhaupt Konjunktiv gebraucht wird, und anschließend, wie sich die möglichen Formen des Konjunktivs zueinander verhalten. Nicht behandelt wird die Form der Wiedergabe mit Konjunktiv ohne Rahmenformel, in linguistischen Darstellungen oft Redebericht genannt. Diese Form ist bei der manuellen Annotation als ambig zwischen indirekter und freier indirekter Wiedergabe ausgezeichnet und wird in Abschnitt 10.5 im Kontext der Erkennung von freier indirekter Wiedergabe beschrieben.
41 Kaufmann liefert vor diesem Hintergrund einen interessanten Test zur Identifizierung indirekter Wiedergabe, der die Betrachtungsrichtung umkehrt: „Der Konjunktiv I (ersatzweise der Konjunktiv II) muss in der indirekten Rede verwendet werden können.“ (Kaufmann 1976, 20, Hervorhebung von A.B.) In Sätzen ohne Konjunktiv kann also eine Ersetzungsprobe durchgeführt werden. Ist diese erfolgreich, d.h. klingt der Satz danach ‚richtig‘ und verändert sich sein Sinn nicht, so handelt es sich um eine indirekte Wiedergabe. Diese Probe funktioniert erstaunlich gut, ist aber leider für die Zwecke dieser Studie nicht hilfreich, da zwar Ersetzungen durchgeführt werden könnten, aber nicht – und das ist das Entscheidende – deren Plausibilität geprüft werden kann.
10.2 Die Erkennung indirekter Wiedergabe
|
155
Prinzipiell kann Indikativ den Konjunktiv sowohl bei Verbletzt- als auch bei Verbzweitsätzen ersetzen, ohne dass sich eine Bedeutungsveränderung ergibt (Beispiele nach Kaufmann 1976, 23, Hervorhebungen von Kaufmann): (111)
Wiedergabe mit Konjunktiv: a. Er sagte, daß er selbst genug zu tun habe. b. Sie sagten, sie hätten selbst genug zu tun.
(112)
Wiedergabe mit Indikativ: a. Er sagte, daß er selbst genug zu tun hat. b. Sie sagten, sie haben selbst genug zu tun
Strecker führt auf Basis des Deutschen Referenzkorpus des IDS (ausschließlich geschriebene Sprache) eine Untersuchung durch, die vor allem Oberflächenmerkmale systematisch empirisch untersucht und darum für diese Studie von besonderem Interesse ist. Er unterscheidet zwischen der Konstruktion mit Verbzweitsatz (Strecker 2010) und der mit dass-Nebensatz (Strecker 2009a,b), wobei er insbesondere für die letztere Konstruktion verschiedene Einflussfaktoren untersucht. Zunächst wird der Zusammenhang zwischen der Wahl des einleitenden Verbs und der Wahl des Modus beleuchtet. Es wird klar, dass die unterschiedlichen Verben unterschiedliche Tendenzen aufweisen, jedoch sind diese nicht stark genug, dass offensichtlich wäre, was die Wahl des Modus bestimmt. Ein Zusammenhang mit der Gebrauchshäufigkeit des einleitenden Verbs lässt sich nicht nachweisen. Strecker stellt die Vermutung an, dass die Wahl des Modus durch die Bedeutung der Einleitungsverben beeinflusst werde. Zudem werde der Modus dazu verwendet, zu signalisieren, wie der Sprecher zur Glaubwürdigkeit des Gesagten steht. Dabei gilt Konjunktiv I als neutrale Form, Indikativ und Konjunktiv II dagegen können verwendet werden, um Einstellungen zum Wiedergegebenen zu signalisieren: Indikativ, um die Aussage als besonders sicher darzustellen, Konjunktiv II, um sich von ihr zu distanzieren. Allerdings gilt dies nur, wenn das Einleitungsverb im Präteritum und in der dritten Person steht. Steht das Einleitungsverb im Präsens oder im Perfekt, so werden Konjunktivformen insgesamt wesentlich seltener gewählt. Auch die Personalform des Einleitungsverbs hat einen starken Einfluss: Steht es in der ersten oder zweiten Person und im Präteritum, so werden Indikativ und Konjunktiv I ungefähr gleich häufig verwendet, bei der ersten oder zweiten Person in Kombination mit Perfekt oder Präsens dominiert hingegen eindeutig der Indikativ. Dies hat auch damit zu tun, dass v.a. bei der 1. Person Präsens oft keine
156 | 10 Regelbasierte Ansätze echte Wiedergabe vorliegt, sondern eine ausdrückliche Betonung einer Sprachhandlung42 (Beispiel nach Strecker 2009a): (113)
Ich sage noch einmal, daß sich diese Broschüre auf die rechtliche Situation von Jugendlichen bezieht. (die tageszeitung, 03.09.1987, S. 5)
Auch Helbig/Buscha weisen darauf hin, dass bei einem redeeinleitenden Verb in der ersten Person Singular und Tempus Präsens der Konjunktiv unüblich ist, wobei sie Verben des Aufforderns explizit ausschließen (Helbig/Buscha 2011, 176). Die gleiche Beobachtung machen Bernhardt/Pedersen, die das Phänomen damit erklären, dass solche Konstruktionen nach der Mental-Space-Theorie keine Wiedergabe darstellen, da „hier keine andere mentale Repräsentation als die des Produzenten S1 introduziert wird“ (Bernhardt/Pedersen 2007, 158). Bei Verbzweitsätzen ist die Tendenz zum Konjunktiv stärker, da die Verwendung von Indikativ die Unterscheidung zwischen direkter und indirekter Wiedergabe unmöglich machen kann, wenn gesprochene Sprache vorliegt, bzw. bei geschriebener Sprache keine ausreichende graphische Markierung vorhanden ist (Beispiele nach Kaufmann 1976, 24): (114)
mir wurde gesagt er ist verreist
(115)
Interpretationsmöglichkeiten: a. Mir wurde gesagt: „Er ist verreist.“ b. Mir wurde gesagt, er ist verreist.
Bei der korpusbasierten Betrachtung von indirekter Wiedergabe mit Verbzweitsatz (vgl. Strecker 2010) ergibt sich allerdings ein ähnliches Bild wie bei den dassSätzen: Konjunktiv I tritt zwar in der überwiegenden Zahl der Fälle auf, doch insbesondere bei der ersten Person und allgemein im Präsens finden sich auch Indikativformen. Wird eine Konjunktivform verwendet, so gilt Konjunktiv I gemeinhin als die typischste Form für Wiedergabe. Der Duden gibt an, dass diese Form normalerweise gewählt wird, wenn sie eindeutig als Konjunktiv zu erkennen ist (Dudenredaktion 2005, § 776). Andernfalls wird Konjunktiv II als Ersatzform gewählt, was aufgrund der morphologischen Gegebenheiten in der 1./3. Person Plural immer der Fall ist (außer bei sein). Außerdem wird Konjunktiv II dem Konjunktiv I oft in der 2. Person Singular und Plural vorgezogen (Beispiel nach Dudenredaktion 2005, § 776):
42 Solche Fälle wurden bei der manuellen Annotation mit dem Attribut prag gekennzeichnet, vgl. Abschnitt 5.5.3.
10.2 Die Erkennung indirekter Wiedergabe
(116)
|
157
Die Großmutter glaubt, du hättest sie vergessen. Ich habe gehört, ihr wäret mit dem Beschluss der Klasse nicht einverstanden.
Allerdings gelte diese Grundregel vor allem im öffentlichen Sprachgebrauch, v.a. in der Presse. Ähnlich konstatieren Helbig/Buscha eine Präferenz für Konjunktiv I in der „literarischen Sprache (belletristische und wissenschaftliche Prosa, Sprache der Presse usw.)“, gegenüber Konjunktiv II und würde-Ersatzform in der „umgangssprachlich beeinflussten Sprache“ (Helbig/Buscha 2011, 177). In der DudenGrammatik wird die Aussage in Bezug auf literarische Sprache relativiert: Einige Autoren verhielten sich sehr individualistisch, und der Konjunktivgebrauch werde zu einem „genre- und autorenspezifischen Stilmittel“ (Dudenredaktion 2005, § 777; Beispiel nach der Duden-Grammatik): (117)
Sie klopfte. Albrecht sah sie erst, als sie an seinem Bett stand. [...] Sie sagte, sie hätte nur Hallo sagen wollen. Sie käme gerade von Pete. [...] Ob sie etwas tun könne für ihn, fragte Margarethe. Ob er etwas brauche. Ob sie Manon etwas bestellen sollte. (M Streeruwitz)
Die explizite Hervorhebung dieses Punktes in einem Standardreferenzwerk wie der Duden-Grammatik ist bemerkenswert und ein Signal, dass gerade im literarischen Kontext die Verlässlichkeit von Konjunktivformen als Indikator nur bedingt gegeben ist. Auch mit einer Mischung der verschiedenen Konjunktivformen, wie in dem in der Duden-Grammatik zitierten Beispiel, ist immer zu rechnen. Eindrücklich demonstriert Kaufmann die Austauschbarkeit der unterschiedlichen Formen, indem er eine Matrix von zwölf Belegen aufstellt, bei denen sich die indirekte Wiedergabe immer an ein Einleitungsverb anschließt. Es handelt sich um Beispiele mit Verbzweitsatz, Verbletztsatz und abhängigem Fragesatz mit ob oder W-Fragewort. Für alle drei Satzformen lassen sich Belege mit Indikativ, Konjunktiv I, Konjunktiv II und würde-Ersatzform finden und das, obwohl eindeutige Konjunktiv-I-Formen zur Verfügung gestanden hätten (vgl. Kaufmann 1976, 29–30). Interessanterweise stammen acht der zwölf Belege aus literarischen Texten. Kaufmann identifiziert verschiedene Faktoren, die auf die Wahl der Verbform Einfluss nehmen können: Neben den morphologischen Gegebenheiten kann die Unterscheidung zwischen mündlichem (informellen) und schriftlichem (formellen) Sprachgebrauch eine Rolle spielen. Auch der Einfluss von Dialekten oder die soziale Schicht spielen möglicherweise eine Rolle. Zusammenfassend lässt sich sagen, dass der Konjunktiv, insbesondere Konjunktiv I, bei Einleitungsverben in der dritten Person Präteritum und in geschriebener Sprache weit verbreitet ist. Schriftlichkeit, Tempus Präteritum und 3. Person sind auch Merkmale, die in literarischen Texten oft vorliegen. Konjunktiv kann damit als ein guter Indikator für Wiedergabe gelten, wenn auch, aufgrund
158 | 10 Regelbasierte Ansätze der oben dargelegten Einschränkungen, nicht als ein uneingeschränkt verlässlicher.
10.2.2 Eingebettete Sätze Die Betrachtung von eingebetteten Sätzen steht in engem Zusammenhang mit den Wiedergabewörtern, von denen diese abhängig sind. Die unterschiedlichen strukturellen Formen werden im Folgenden einzeln abgehandelt. Welche Konstruktion im Einzelfall gewählt werden kann, hängt von dem verwendeten Verb oder Nomen ab.
10.2.2.1 Verbletztsätze mit einleitendem Element Der Verbletztsatz eingeleitet mit dass, ob oder einem W-Fragewort (Interrogativpronomen bzw. -adverb) ist die typischste Form, eine Wiedergabeproposition wiederzugeben. Bei einigen Verben sind alle drei Möglichkeiten gegeben (Beispiele nach Eisenberg 1999, 310): (118)
Stefanie beweist, daß du da warst
(119)
Stefanie beweist, ob du da warst
(120)
Stefanie beweist, wer es war
Der dass-Satz wird auch als Inhaltssatz bezeichnet und von den indirekten Fragesätzen mit ob oder W-Fragewort unterschieden. Bei einem Nebensatz mit dass hängt es von dem übergeordneten Verb ab, wie wahrscheinlich eine Wiedergabe vorliegt. Eisenberg unterscheidet hier zwischen einer Gruppe von faktiven und einer Gruppe von nicht-faktiven Verben, welche beide ausschließlich dass-Nebensätze nach sich ziehen können (vgl. Eisenberg 1999, 312): – nicht-faktive Verben: abstreiten, androhen, antworten, beantragen, behaupten, bestreiten, folgern, vermuten, versichern, zusagen, denken, annehmen – faktive Verben: akzeptieren, bedauern, begreifen, beklagen, leugnen, vorwerfen, bestaunen, bewundern Im Fall der nicht-faktiven Verben kann man davon ausgehen, dass eine indirekte Wiedergabe vorliegt, in Fall der faktiven Verben, die sich dadurch auszeichnen, dass die untergeordnete Proposition als wahr vorausgesetzt wird, ist dies möglich, aber nicht unbedingt der Fall.
10.2 Die Erkennung indirekter Wiedergabe
|
159
Hervorzuheben ist, dass dass, ob und die W-Fragewörter alle noch weitere Funktionen außer der Einleitung eines Wiedergabesatzes haben. Sie sind also als Indikatoren nicht eindeutig. Der verlässlichste Indikator ist wohl ob – im ‚Handbuch der deutschen Konnektoren‘ wird explizit darauf hingewiesen, dass die „Verwendung als Interrogativausdruck in indirekten Entscheidungsfragen“ seine wichtigste Verwendung sei (Pasch et al. 2003, 629). Allerdings kann ob auch in sogenannten desintegrierten Alternativausdrücken auftreten (Beispiel nach Pasch et al. 2003, 629): (121)
„[...] Ob wir es wollen oder nicht – der Wahlkampf hat begonnen“, sagt Kohl. (B Berliner Zeitung, 19.10.1997, S. 2)
Die W-Fragewörter können selbstverständlich Fragesätze einleiten, allerdings stehen sie dann in Erstposition und der Satz wird mit Fragezeichen markiert, so dass eine Verwechslung mit einem indirekten Wiedergabesatz weniger wahrscheinlich ist. Problematischer ist ihr häufiger Gebrauch in Relativsatzkonstruktionen (Beispiele nach Helbig/Buscha 2011, 565): (122)
Er hat das Buch gekauft, welches er sich wünscht.
(123)
Er hat alles bekommen, was er sich gewünscht hat.
(124)
Er hat Wittenberg besucht, wo er geboren ist.
Am vielfältigsten in seinen Verwendungsmöglichkeiten ist dass. Es kann abgesehen von seiner Funktion zur Einleitung von Wiedergabesätzen als relationaler Postponierer fungieren und zwar mit finaler (Beispiel 125, austauschbar mit damit) und konsekutiver (Beispiel 126, austauschbar mit so dass) Bedeutung (Beispiele nach Pasch et al. 2003, 418): (125)
Märtke muß sich zusammenhalten, daß sie vor den lächelnden Männern nicht aufschluchzt. (MK1 Strittmatter, Bienkopp, S. 292)
(126)
Bienkopp knallt die Tür zu, daß die Kate zittert. (MK1 Strittmatter, Bienkopp, S. 297)
Außerdem kann dass begründend-kausal verwendet werden, d.h im übergeordneten Satz wird eine Präsupposition oder Hypothese ausgedrückt und der dass-Satz liefert einen möglichen Grund für diese (vgl. Pasch et al. 2003, 633–634, Beispiele ebenda): (127)
Hast du Fieber, dass du so rote Backen hast?
(128)
Du hast doch was mit der Uhr gemacht, dass sie nicht mehr geht.
Hinzu kommen noch die Konstruktionen mit dass und Korrelat: dadurch dass und damit dass (Beispiele nach Helbig/Buscha 2011, 406):
160 | 10 Regelbasierte Ansätze (129)
Die Mannschaft erreichte ihren Erfolg dadurch, dass der Trainer ein regelmäßiges hartes Training forderte.
(130)
Dem Kranken konnte damit geholfen werden, dass man ihm ein Betäubungsmittel verabreichte.
Zudem kann sich ein dass-Satz auf ein Nomen beziehen und funktioniert dann ähnlich wie ein Relativsatz (Beispiel nach Helbig/Buscha 2011, 405): (131)
Die Tatsache, dass er kommt, freut mich.
In dieser Konstruktion kann auch eine indirekte Wiedergabe vorliegen, allerdings nur, wenn das Nomen eine entsprechende Semantik hat, also als Wiedergabewort fungieren kann.
10.2.2.2 Verbzweitsätze Der Untersatz mit Verbzweitstellung weist keine Konjunktion oder W-Fragewort auf (Beispiel nach Zifonun et al. 1997, 1764): (132)
Der rheinland-pfälzische Ministerpräsident Wagner berichtete, niemand habe die Absicht geäußert, beim Parteitag in zwei Wochen gegen Kohl zu kandidieren. (Rhein-Neckar-Zeitung, 29.8.1989, 1)
Nach der IDS-Grammatik sind Verbzweitsätze und Verbletztsätze mit dass bei der Wiedergabe gegeneinander austauschbar. Allerdings wird angemerkt, dass offenbar „nur bei dass-Sätzen eine nicht-wörtliche Wiedergabe, also Wiedergabe de re, kommunikativ angemessen [scheint], während uneingeleitete Untersätze als dedicto-Wiedergabe verstanden werden“ (Zifonun et al. 1997, 1765). Wenn man von dieser Feststellung ausgeht, so ist der Nebensatz mit Verbzweitstellung ein verlässlicheres Indiz für Wiedergabe als der dass-Satz. Allerdings ist diese Art von Nebensätzen schwerer zu identifizieren, da es keinen lexikalischen Indikator für sie gibt. Um die Verbzweitstellung zu erkennen, ist eine strukturelle Analyse des Satzes notwendig, die Aufschluss darüber gibt, ob tatsächlich genau ein Satzglied vor dem Verb steht. Hinzu kommt, dass die Verbzweitstellung nur dann von der im Nebensatz üblichen Verbletztstellung zu unterscheiden ist, wenn es außer dem Verb mindestens zwei Satzglieder gibt. Wie in Abschnitt 10.2.1 ausgeführt, ist die Verwendung von Konjunktivformen in Verbzweitsätzen gebräuchlicher, da sie schwächer markiert sind als Verbletztsätze mit Konjunktion.
10.2 Die Erkennung indirekter Wiedergabe
|
161
10.2.2.3 zu + Infinitiv-Konstruktion Eine weitere Möglichkeit, eine von einem referatseinleitenden Wort abhängige Äußerung zu kodieren, ist ein Infinitivsatz mit zu. Zu dieser Kodierungsform findet sich in den linguistischen Darstellungen von Wiedergabe vergleichsweise wenig. Die Duden-Grammatik listet jedoch den Nebensatztypus explizit als eine der möglichen Konstruktionen neben Verbzweitsatz und Nebensatz mit einleitendem Element auf (Beispiel nach Dudenredaktion 2005, § 1684): (133)
(Satzwertige Infinitivphrase): Er behauptet, den Zug verpasst zu haben.
Weinrich zitiert eine zu + Infinitiv-Konstruktion im Zusammenhang mit der indirekten Wiedergabe von Aufforderungen als Alternative zu einem dass-Satz mit sollen (Beispiel nach Weinrich 2005, 904, Hervorhebungen von Weinrich): (134)
/sie hat mir geraten, daß ich mit meiner Zeit nicht so geizig umgehen soll (oder: mit meiner Zeit nicht so geizig umzugehen)/
Die Form der Wiedergabeproposition wird nicht weiter kommentiert, allerdings scheinen zu + Infinitiv-Konstruktionen tatsächlich oft zur Wiedergabe von Aufforderungen geeignet. Auch in der IDS-Grammatik wird ein Beispielsatz mit dieser Struktur als Transformation einer Aufforderung zitiert (vgl. Zifonun et al. 1997, 1756). Letztendlich hängt es vom übergeordeten Verb ab, ob diese Konstruktion gewählt werden kann. Auch ein zu + Infinitiv-Satz deutet nicht zwangsläufig auf eine indirekte Wiedergabe hin, da viele frequente Verben, die nichts mit Wiedergabe zu tun haben, diese Konstruktion nach sich ziehen, z.B. anfangen, aufhören, versuchen.
10.2.2.4 Zur Stellung des eingebetteten Satzes Die Stellung der Rahmenformel vor dem eingebetteten Satz wird als der Normalfall angesehen (vgl. Winkler 1988, 228, Fabricius-Hansen 2002, 21). Nachgestellte oder eingeschobene Rahmenformeln werden bei Fabricius-Hansen als Abweichungen von der Norm der indirekten Wiedergabe diskutiert (Beispiele nach Fabricius-Hansen 2002, 22, Hervorhebungen von Fabricius-Hansen). (135)
Gut durchdachte Konzepte zur Abfallvermeidung seien bereits vorhanden, würden aber nicht umgesetzt, sagte Roland Schnell von der Gruppe Müllnetz [...]. (Berliner Zeitung 24.2.1994)
(136)
Das Unbehagen an der CDU, schreibt Pater Basilius Streithofen in seinem neuen Buch über den Niedergang der Kanzlerpartei, lasse sich nicht „durch das hektische Hin- und Heragieren des Wolfgang Schäuble beseitigen.“ (Der Spiegel 6/1993)
162 | 10 Regelbasierte Ansätze Bei diesen Beispielen stellt sich die Frage, ob sie strukturell gesehen als abhängige oder selbstständige indirekte Wiedergabe zu klassifizieren sind – im Falle von Beispiel 136 plädiert Fabricius-Hansen aus syntaktischer Sicht für selbstständige Wiedergabe. Sie begründet diese Analyse nicht explizit, aber der Grund ist wohl, dass nicht beide Teile der direkten Wiedergabe als Argumente der eingeschobenen Rahmenformel analysiert werden können, so dass diese nicht syntaktisch integriert ist. Aus der funktionalen Perspektive sieht Fabricius-Hansen allerdings nur einen graduellen Übergang zwischen den beiden Formen (Fabricius-Hansen 2002, 21). Ist jedoch der Modus des eingebetteten Satzes Indikativ in einer Tempusform, die der Perspektive des Rahmens entspricht, so sieht sie einen Übergang zum reinen Erzählertext: Wenn nichts dagegen spricht, wird man den Matrixsatz vielleicht eher als Narautortext mit einer Referatsanzeige als Quellenangabe, d.h. als Spezifizierung der Evidenz, auf die der Narautor seine Aussage stützt, interpretieren, oder als Überlagerung von Narautoren- und Figurenperspektive im Sinne von Zifonun et al. (1997)43 (Fabricius-Hansen 2002, 22).
Diese Aussage wird mit folgendem Beispiel illustriert (Beispiel nach FabriciusHansen 2002, 22, Hervorhebungen von Fabricius-Hansen): (137)
Die Art, wie Heiner Geißler, Lothar Späth und Ernst Albrecht 1989 gegen Kohl konspirierten, hielt Schäuble für falsch. Er hatte sich, so bekannte er damals, fest vorgenommen, Kohl zum Aufhören aufzufordern, wenn es mit der Union nicht weiter bergab gegangen und nicht das Wunder der Einheit geschehen wäre. (Der Spiegel 6/1993)
10.2.3 Formelhafte Referatshinweise Dieser Abschnitt beschäftigt sich mit Referatshinweisen, die von ihrer Struktur her von den bisher beschriebenen abweichen. Es folgen Beispiele für unterschiedliche Konstruktionen, die in verschiedenen grammatischen Darstellungen aufgeführt werden. Beispiele nach Zifonun et al. 1997, 1765, Hervorhebungen von A.B.: (138)
Nach der Aussage/den Worten des Ministerpräsidenten habe niemand...
(139) Wie der Ministerpräsident ausführte, habe niemand... 43 An dieser Stelle steht bei Fabricius-Hansen eine Fußnote mit folgender Erklärung: „Das heißt, die Wiedergabe ist zu verstehen als ‚X sagt das, und ich sage das auch‘ (Zifonun et al. 1997:1768).“
10.2 Die Erkennung indirekter Wiedergabe
(140)
|
163
Niemand habe, so der rheinland-pfälzische Ministerpräsident Wagner, ...
Beispiel nach Weinrich 2005, 900, Hervorhebungen von Weinrich: (141)
laut (manchmal abgekürzt: lt.) Meldung unseres Korrespondenten haben sich die Tarifparteien immer noch nicht geeinigt
Beispiel nach Fabricius-Hansen 2002, 23, Hervorhebungen von Fabricius-Hansen: (142)
Hinweisen zufolge war vor der Präsidiumssitzung erwogen worden, ob ... (FAU 4,5.1993)
Beispiel nach Dudenredaktion 2005, § 768, Hervorhebungen von der DudenGrammatik: (143)
[...] Mit einem Befreiungsschlag möchten sich manche Sozialdemokraten am liebsten aus dieser Lage retten. Nach Engholm muss ein „Starker“, ein „Machthungriger“ her! Und zwar sofort! (Zeit 1993)
Fabricius-Hansen spricht in Bezug auf Sätze nach dem Muster der Beispiele 138, 139 und 142 von „Mischformen und Zwischenstufen zwischen (indirekt) wiedergegebener Rede und genuinem Autorentext“ (Fabricius-Hansen 2002, 22). Ihre Beispielsätze stehen allerdings alle im Indikativ, die Rolle des Modus wird an dieser Stelle jedoch, anders als bei den eingeschobenen Referatsanzeigen, nicht kommentiert. Nach der Duden-Grammatik sind Konstruktionen mit parenthetischen wie-Sätzen (Beispiel 139) mit Indikativ nicht als Wiedergabe einzustufen, sondern als Behauptungen bzw. Feststellungen mit Quellenangabe. Hingegen werden Strukturen mit präpositionaler Quellenangabe wie in den Beispielen 142 und 143 als ‚Konkurrenzformen der indirekten Rede‘ bezeichnet, da sie nur den Inhalt der Äußerung einer anderen Person wiedergeben und damit die Gültigkeit der Aussagen einschränken (vgl. Dudenredaktion 2005, § 768). Auffallend ist, dass bei allen Beispielsätzen die Struktur entweder ganz unveränderlich oder zumindest nicht völlig flexibel ist. Am flexibelsten ist noch die wie-Konstruktion, die verschiedene referatseinleitenden Verben und auch Passivkonstruktionen erlaubt. Diese relative Starrheit macht die formelhaften Wendungen zu guten Kandidaten für Indikatoren, da sie vergleichsweise leicht an der Textoberfläche identifiziert werden können. Allerdings fällt auf, dass die Wendungen alle dem journalistischen Sprachgebrauch entstammen oder diesem zumindest sehr nahe stehen. Zwar ist nicht auszuschließen, dass sie auch in narrativen Texten verwendet werden, jedoch wäre dies eher untypisch, weshalb sie für die Wiedergabe in literarischen Texten, die Thema dieser Studie ist, eher ein Randphänomen sind. Als eine weitere Sonderkonstruktion der indirekten Wiedergabe kann die Wendung es heißt betrachtet werden. Ihre Funktion entspricht der eines refe-
164 | 10 Regelbasierte Ansätze ratseinleitenden Verbs, und sie kann sowohl einen dass-Satz als auch einen Verbzweitsatz einleiten (Beispiele nach Engel 2004, 70). (144)
Es heißt, dass dieser Baum keine Chance mehr hat.
(145)
Es heißt, dieser Baum habe keine Chance mehr.
Engel argumentiert, dass diese Form nicht eindeutig der indirekten Rede zuzuordnen sei, da unklar sei, „ob es [...] auf diese Art, das heißt in entsprechender und im Detail rekonstruierbarer Form gesagt wurde“ (vgl. Engel 2004, 70). Diese Argumentation, welche für den Normalfall der nicht-direkten Wiedergabe eine rekonstruierbare Originaläußerung voraussetzt, ist, wie an anderer Stelle dargestellt, wenig tragfähig. Allerdings ist es durchaus richtig, dass diese Form nicht für die Wiedergabe von Figurenrede im eigentlichen Sinne verwendet werden kann, da die Quelle vage bleibt. Dieses Problem ergibt sich allerdings auch bei Wendungen wie man sagt, die ein typisches referatseinleitendes Verb verwenden. Solche Wendungen entsprechen strukturell indirekten Wiedergaben und werden im Rahmen dieser Studie nicht von diesen unterschieden.
10.2.4 Das Modul MarkIndirect MarkIndirect, das Modul für die Erkennung von abhängigen Wiedergabepropositionen, setzt auf dem Modul MarkSTWWords auf und dient der Identifizierung von indirekter Wiedergabe. Es sucht in der Umgebung von Wiedergabewörtern nach Strukturen, die auf einen Nebensatz oder ein zu+Infinitiv-Komplement hindeuten. Damit basiert es vor allem auf den Beobachtungen, die in Abschnitt 10.2.2 dargestellt wurden. Das Ziel ist, die häufigsten und typischsten Strukturen indirekter Wiedergabe zu erfassen. Nicht berücksichtigt sind seltenere Phänomene wie nachgestellte und eingeschobene Rahmenformeln oder formelhafte Wendungen. Im Gegensatz zu MarkSTWWords ist dieses Modul in viel geringerem Maße listenbasiert und damit für sich genommen weniger anfällig für Variation in Wortwahl und Orthographie. Da es allerdings die Ergebnisse von MarkSTWWords als Eingabe benötigt, sind seine Ergebnisse in höchstem Maße von diesem abhängig. Das Modul arbeitet mit Mustern, die sich aus einer Mischung von konkreten lexikalischen Einheiten und abstrakteren Elementen zusammensetzen. Die abstrakten Elemente werden mit Hilfe der morphologischen Annotation (z.B. ‚finites Verb‘) oder interner Listen (z.B. ‚Subjunktor oder W-Fragewort‘) definiert. Tabelle 10.4 zeigt die Muster, die das Modul erkennt, mit Beispielen aus dem Erzähltextkorpus. Ausgangspunkt ist immer ein Wiedergabewort, das von MarkSTWWords markiert wurde.
10.2 Die Erkennung indirekter Wiedergabe
|
165
Tab. 10.4. MarkIndirect: Erkennungsmuster
Muster 1: Subjunktorsatz bzw. Nebensatz mit W-Fragewort STWWord
Komma/ Subj./ Doppelp. W-Wort
er
sagte
,
daß
die
Frage
:
was
finites Verb diese Strafe mit jedem
sollte
Tage wiederkehren ihr
fehle?
Muster 2a: zu + Infinitiv STWWord
Er
befahl
Er
glaubte
optional: Komma/ Doppelp. ihr
,
zu
Infinitiv
ein Roß
zu
besteigen.
ein hämi-
zu
bemerken
sches Lächeln Muster 2b: zu-Infinitiv (verschmolzen) STWWord
sie
beschlossen
optional: Komma/ Doppelp. einmütig
,
zu-Infinitiv hier den
abzuwarten
Abend ich
wünschte
wieder
dazubleiben
Muster 3: Verbzweitsatz im Konjunktiv
Ich
STWWord
Komma/ Doppelp.
dachte
,
Verb im Konjunktiv jetzt
sei
es vorbei.
166 | 10 Regelbasierte Ansätze Muster 1 dient der Erkennung von Nebensätzen mit Subjunktor oder W-Fragewort und erwartet nach dem Wiedergabewort ein Komma oder einen Doppelpunkt, dann eine passende Konjunktion und führt die Erkennung bis zum nächsten finiten Verb fort. Muster 2a und 2b erfassen Sätze mit zu+Infinitiv-Strukturen. Muster 2a verlangt nur das Auftreten eines Wiedergabeworts und des konkreten lexikalischen Elementes zu. Ein Komma ist im Muster nicht vorausgesetzt, da dieses bei kurzen zu-Komplementsätzen wegfallen kann. Dieses Muster wurde insofern restringiert, als die Erkennung abgebrochen wird, wenn die Infinitivform nicht sofort nach dem Wort zu folgt. Muster 2b behandelt den Fall, dass das Wort zu morphologisch mit der Infinitivform verschmolzen ist. Wird eine solche Verbform nach einem Wiedergabewort gefunden, so wird dies ebenfalls als indirekte Wiedergabe gewertet. Muster 3 schließlich erfasst untergeordnete Verbzweitsätze und bezieht als einziges Muster explizit den Verbmodus mit ein. Dieser zusätzliche Indikator ist notwendig, da diese Struktur ansonsten neben dem Wiedergabewort und dem Komma oder Doppelpunkt keine Oberflächenindikatoren enthält. Die Identifizierung der Konjunktivform geschieht mit Hilfe der morphologischen Annotation durch den RF-Tagger sowie einer Liste von eindeutigen Konjunktivformen, die auch abweichende Schreibungen enthält (v.a. sey und seyen). Intern arbeitet das Modul nach dem Prinzip eines endlichen Automaten, wie in Abbildung 10.3 dargestellt. Der Anfangszustand ist Zustand 0, und die Wörter eines Satzes werden nacheinander eingelesen. Bestimmte Eingaben führen dazu, dass ein anderer Zustand erreicht wird (dargestellt durch die Pfeile). Wenn eine bestimmte Abfolge von Eingaben durchlaufen ist, wird die Analyse entweder erfolgreich abgeschlossen (Erfolg) oder abgebrochen (Abbruch). In beiden Fällen kehrt der Algorithmus danach wieder in den Zustand 0 zurück. Mehrere Bedingungen, die bei einem Pfeil aufgelistet sind, bedeuten Alternativen. So führt, wenn der Algorithmus sich in Zustand 2 befindet, das Einlesen eines Verbs im Konjunktiv oder eines Verbs mit eingebettetem zu zum Erfolg. ‚Direkt danach‘ bedeutet, dass das entsprechende Element sofort gefunden wird, nachdem der Zustand erreicht wurde. Wenn also in Zustand 1 ein Komma eingelesen und damit Zustand 2 erreicht wurde, so muss direkt als nächstes Element eine Konjunktion gefunden werden, damit ein Übergang in Zustand 4 erfolgt. Kommt die Konjunktion erst später, erfolgt der Übergang nicht. Das Modul implementiert einige Beschränkungen, die aus grammatischer Sicht nicht zwingend sind und sogar die Erkennung korrekter Strukturen verhindern können, aber dazu dienen, die Treffgenauigkeit insgesamt zu erhöhen. – Nach einem gefundenen Komma darf kein weiteres folgen, solange die Erkennung noch nicht abgeschlossen ist. Dies verhindert, dass Nebensätze, die erst
|
167
Abb. 10.3. Übergangsdiagramm zu MarkIndirect
10.2 Die Erkennung indirekter Wiedergabe
168 | 10 Regelbasierte Ansätze
–
–
–
–
weit hinter einem Wiedergabewort auftreten und keinen Bezug zu diesem haben, als abhängige indirekte Wiedergaben markiert werden. Diese Regel führt aber auch dazu, dass Wiedergaben, die eingeschobene Relativsätze vor dem Verb enthalten, nicht gefunden werden. Zwischen zu und dem Infinitiv dürfen keine weiteren Wörter stehen, was ebenfalls einige korrekte Treffer ausschließt, aber die Ambiguität der Wortoberfläche zu etwas ausgleicht.44 Es ist nur eine begrenzte Menge eindeutiger Konjunktionen zugelassen: dass, daß, ob, wo, warum, wann, wieso, weshalb, wie, wodurch, womit, worin, woraus, worauf, was. Alle anderen Konjunktionen, die direkt hinter dem Komma gefunden werden, bewirken einen Abbruch der Erkennung. Der Grund für diese Regel ist, dass es zahlreiche Nebensatztypen gibt, die keine Indikatoren für Wiedergabe sind (z.B. kausal (weil), konzessiv (obwohl), temporal (als, wenn) etc.). Ähnlich wie der Abbruch beim zweiten Komma verhindert diese Einschränkung allerdings eine korrekte Erkennung, wenn ein solcher Nebensatz entweder eingeschoben oder Teil der Wiedergabe ist. Das Auftreten eines Anführungszeichens hinter dem Komma führt zum Abbruch der Erkennung, da dies eine direkte Wiedergabe vermuten lässt. Durch diese Einschränkung werden indirekte Wiedergaben, die aus anderen Gründen Anführungszeichen enthalten, ebenfalls ausgeschlossen. Beim Auftreten einer koordinierenden Konjunktion (z.B. und, oder) direkt nach dem Wiedergabewort wird die Erkennung ebenfalls abgebrochen. Dies verhindert die Markierung von koordinierten zu-Infinitiven (z.B. zu sprechen und zu hören, wobei sprechen fälschlicherweise als Wiedergabewort interpretiert wird).
Was das Modul MarkIndirect nur unzureichend leistet, ist eine genaue Erfassung der Grenzen von indirekten Wiedergaben. Die von ihm produzierte Markierung beginnt immer mit dem Wiedergabewort und endet entweder beim nächsten finiten Verb (bei Konjunktionen), beim nächsten infiniten Verb (bei einer zu+Infinitiv-Konstruktion) oder beim nächsten Verb im Konjunktiv (bei Verbzweitsätzen im Konjunktiv). Insbesondere Letzteres führt sehr häufig dazu, dass nur Teile der Proposition erfasst werden, da keiner der Satzteile hinter dem Verb mit markiert wird. Doch auch bei Verbletztsätzen und Infinitivsätzen kann es
44 Der TreeTagger vergibt zwar einen Tag speziell für die Partikel zu im Gegensatz zu der Präposition zu, jedoch ist die automatische Unterscheidung nicht völlig verlässlich. Damit keine Treffer aufgrund von Fehlern beim morphologischen Tagging verhindert werden, wird die reine Wortoberfläche verwendet.
10.2 Die Erkennung indirekter Wiedergabe
|
169
geschehen, dass z.B. koordinierte indirekte Wiedergabepropositionen oder Attributsätze nicht erfasst werden. Eine Ausnahmeregelung ist, dass es erlaubt ist, eine Erkennung abzuschließen, wenn eine Struktur von RW-Verb - Komma Konjunktion gefunden worden ist, selbst wenn kein finites Verb identifiziert wird (in Abbildung 10.3 markiert als ‚bedingter Erfolg‘ durch den gestrichelten Pfeil). Diese Regel wurde eingeführt, da die Indikatoren für Wiedergabe in diesem Fall schon recht stark sind und es vorkommt, dass der Tagger die Verbform nicht korrekt erkennt. Verben (oder auch Satzendezeichen) wurden als Ankerpunkt für das Ende der Markierung gewählt, weil sie in den meisten Fällen klar identifizierbar sind, während es ohne gute syntaktische Annotation außerordentlich schwer ist festzustellen, welche Satzteile derselben Proposition angehören. Aufgrund dieser groben Abgrenzung ist der Anteil von automatisch erkannten Instanzen indirekter Wiedergabe, die wirklich genau mit den manuellen Annotationen übereinstimmen, gering – es ergibt sich für das Erzähltextkorpus ein F-Score von maximal 0,24. Wenn man bei der Auswertung jedoch nur die Bedingung stellt, dass sich manuelle und automatische Annotation überlappen, erreicht man Erfolgsraten von maximal 0,68. Bei der Auswertung wird im Folgenden immer schon eine Überlappung als Erfolg gewertet. Da die Ergebnisse vor allem von den Wiedergabewörtern abhängen, die vom Modul MarkSTWWords markiert worden sind, wurde bei der Auswertung getestet, was geschieht, wenn dessen Wiedergabewortliste variiert wird. Zunächst wurden nur Wörter mit penalty = 0 berücksichtigt – also die sichersten Wiedergabewörter –, dann wurde die Liste schrittweise erweitert, bis zum Schluss alle Wörter der Liste berücksichtigt wurden, also auch die unsichersten Kandidaten mit penalty = 5. Die Wiedergabewörter mit der Kategorie rep, also solche Wörter, die ausschließlich oder mit sehr hoher Wahrscheinlichkeit nur für erzählte Wiedergabe verwendet werden (vgl. Abschnitt 10.1.2.2), wurden bei der Erkennung prinzipiell ignoriert. Dies reduziert die Wiedergabewortliste von 960 auf 724 Einträge. Die Tabellen 10.5, 10.6 und 10.7 zeigen die Ergebnisse der Auswertung für F-Score, Recall und Precision. Dabei sind diejenigen Werte, die sich im Vergleich zu der direkt vorangegangenen Messung verschlechtert haben, schwarz hinterlegt und diejenigen, die sich verbessert haben, grau. Bei den weißen Feldern ist keinerlei Veränderung zu beobachten. Die Angabe ‚pen0‘ bedeutet Berücksichtigung nur der Wiedergabewörter mit penalty = 0, ‚pen1‘ Berücksichtigung der Wiedergabewörter mit penalty≤1 (also penalty = 0 und penalty = 1) usw. Bei jeder Spalte ist zudem angegeben, wie lang die Wiedergabewortliste bei dieser Auswertung ist. 0pt 0pt Tabelle 10.5 zeigt die Entwicklung des F-Scores. Man kann beobachten, dass ein Hinzunehmen der Wörter mit penalty = 1 bei fast jedem Text eine sehr deutli-
170 | 10 Regelbasierte Ansätze Tab. 10.5. MarkIndirect: Entwicklung des F-Scores bei Erweiterung der Wiedergabewortliste (grau hinterlegt: Verbesserung; schwarz hinterlegt: Verschlechterung)
pen0
pen1
pen2
pen3
pen4
pen5
(Listenlänge)
(89)
(306)
(434)
(566)
(675)
(724)
Bernhardi: Belinde
0,16
0,58
0,72
0,74
0,72
0,70
Bürger: Münchhausen
0,00
0,50
0,59
0,63
0,67
0,73
Günderrode: Bramine
0,14
0,46
0,49
0,44
0,53
0,59
Hauff: Kalif
0,38
0,72
0,75
0,77
0,77
0,77
Hebbel: Kuh
0,33
0,89
0,80
0,80
0,80
0,73
Heym: Irre
0,22
0,82
0,82
0,77
0,77
0,72
Janitschek: Weib
0,29
0,29
0,50
0,36
0,31
0,31
Kafka: Gracchus
0,00
0,56
0,63
0,57
0,57
0,57
Kleist: Erdbeben
0,47
0,74
0,74
0,74
0,73
0,73
May: Ziege
0,14
0,50
0,46
0,44
0,43
0,39
Musäus: Entführung
0,15
0,54
0,58
0,59
0,60
0,60
Schnitzler: Ypsilon
0,22
0,63
0,70
0,70
0,70
0,65
Tieck: Eckbert
0,50
0,70
0,71
0,71
0,71
0,69
Durchschnitt Texte
0,23
0,61
0,65
0,64
0,64
0,63
Gesamtkorpus
0,31
0,65
0,68
0,67
0,67
0,66
10.2 Die Erkennung indirekter Wiedergabe
|
171
Tab. 10.6. MarkIndirect: Entwicklung des Recalls bei Erweiterung der Wiedergabewortliste (grau hinterlegt: Verbesserung; schwarz hinterlegt: Verschlechterung)
pen0
pen1
pen2
pen3
pen4
pen5
(Listenlänge)
(89)
(306)
(434)
(566)
(675)
(724)
Bernhardi: Belinde
0,10
0,52
0,71
0,77
0,77
0,77
Bürger: Münchhausen
0,00
0,33
0,42
0,50
0,58
0,67
Günderrode: Bramine
0,08
0,36
0,40
0,40
0,52
0,64
Hauff: Kalif
0,24
0,65
0,70
0,73
0,73
0,76
Hebbel: Kuh
0,20
0,80
0,80
0,80
0,80
0,80
Heym: Irre
0,12
0,75
0,75
0,75
0,75
0,75
Janitschek: Weib
0,17
0,17
0,33
0,33
0,33
0,33
Kafka: Gracchus
0,00
0,56
0,67
0,67
0,67
0,67
Kleist: Erdbeben
0,33
0,65
0,69
0,73
0,73
0,73
May: Ziege
0,08
0,50
0,50
0,50
0,50
0,50
Musäus: Entführung
0,09
0,46
0,51
0,54
0,57
0,57
Schnitzler: Ypsilon
0,14
0,50
0,59
0,64
0,64
0,68
Tieck: Eckbert
0,35
0,64
0,65
0,75
0,75
0,75
Durchschnitt Texte
0,15
0,53
0,59
0,62
0,64
0,66
Gesamtkorpus
0,19
0,56
0,62
0,66
0,68
0,70
172 | 10 Regelbasierte Ansätze Tab. 10.7. MarkIndirect: Entwicklung der Precision bei Erweiterung der Wiedergabewortliste (grau hinterlegt: Verbesserung; schwarz hinterlegt: Verschlechterung)
pen0
pen1
pen2
pen3
pen4
pen5
(Listenlänge)
(89)
(306)
(434)
(566)
(675)
(724)
Bernhardi: Belinde
0,43
0,67
0,73
0,71
0,67
0,63
Bürger: Münchhausen
1,00
1,00
1,00
0,86
0,78
0,80
Günderrode: Bramine
0,67
0,64
0,62
0,50
0,54
0,55
Hauff: Kalif
0,90
0,80
0,81
0,82
0,82
0,78
Hebbel: Kuh
1,00
1,00
0,80
0,80
0,80
0,67
Heym: Irre
1,00
0,90
0,90
0,78
0,78
0,69
Janitschek: Weib
1,00
1,00
1,00
0,40
0,29
0,29
Kafka: Gracchus
1,00
0,56
0,60
0,50
0,50
0,50
Kleist: Erdbeben
0,84
0,86
0,79
0,75
0,73
0,73
May: Ziege
0,50
0,50
0,43
0,40
0,38
0,32
Musäus: Entführung
0,60
0,67
0,67
0,66
0,62
0,62
Schnitzler: Ypsilon
0,60
0,85
0,87
0,78
0,78
0,62
Tieck: Eckbert
0,90
0,78
0,77
0,67
0,67
0,64
Durchschnitt Texte
0,80
0,79
0,77
0,66
0,64
0,60
Gesamtkorpus
0,79
0,76
0,75
0,69
0,67
0,64
10.2 Die Erkennung indirekter Wiedergabe
|
173
che Verbesserung bewirkt. Eine Ausnahme ist der Text Janitschek: Weib, der insgesamt sehr wenige Instanzen von indirekter Wiedergabe enthält, von denen zwei Drittel zudem keine Rahmenformel enthalten (sie sind klassifiziert als ambig zwischen indirekter und freier indirekter Wiedergabe, siehe Kapitel 5.3) und damit mit den hier verwendeten Regeln prinzipiell nicht gefunden werden können. Es ist damit ein untypischer und für dieses Modul sehr schwieriger Text. Der F-Score für das Gesamtkorpus verbessert sich bis zu pen2. An diesem Punkt wird etwas mehr als die Hälfte der Wiedergabewörter verwendet (434 von 724), die mindestens einen mittleren Verlässlichkeitsgrad haben. Typische Wörter mit penalty = 2 sind z.B. Hoffnung, freuen, Bericht, Gefühl, aushandeln. Erweitert man die Menge der Wiedergabewörter noch mehr, sinkt der F-Score wieder. Gleichzeitig zeigt die Tabelle, dass sich die einzelnen Texte durchaus unterschiedlich verhalten. Bei einigen bewirkt die Erweiterung der Wiedergabewortliste eine kontinuierliche Verbesserung oder zumindest gleichbleibenden Erfolg, etwa bei Bürger: Münchhausen, Hauff: Kalif und Musäus: Entführung. Bei anderen, wie May: Ziege und Hebbel: Kuh tritt bereits bei pen2 eine kontinuierliche Verschlechterung ein. Ein Schwanken der Tendenz ist eher selten und tritt nur bei Günderrode: Bramine auf, wo der F-Score bei pen3 absinkt, um dann bei pen4 wieder zu steigen. Alle anderen Texte weisen einen idealen Punkt auf, vor dem eine Verbesserung und nach dem eine Verschlechterung oder Stagnation zu beobachten ist. Um die Ergebnisse für die F-Scores besser zu verstehen, ist in den beiden weiteren Tabellen auch die Entwicklung von Recall und Precision aufgeschlüsselt. Wie zu erwarten, verbessert sich der Recall kontinuierlich, wenn die Wiedergabewortliste erweitert wird (vgl. Tabelle 10.6). Vor allem von pen0 zu pen1 erfolgt bei fast allen Texten ein scharfer Anstieg, der auch den Anstieg der F-Scores an dieser Stelle erklärt: Nur mit den Wiedergabewörtern mit penalty = 0 ist die Abdeckung zu gering, weshalb die Ergebnisse wenig befriedigend sind. Bei 9 der 13 Texte stagniert jedoch der Recall spätestens bei pen3. Bei der Entwicklung der Precision ist der gegenteilige Trend zu erwarten: eine kontinuierliche Verschlechterung, wenn die Wiedergabewortliste erweitert wird und mehr unsichere Kandidaten berücksichtigt werden. Wie Tabelle 10.7 zeigt, ist dies für das Gesamtkorpus auch der Fall. Betrachtet man jedoch die einzelnen Texte, stellt man fest, dass der Befund nicht ganz so eindeutig ist. Bei mehr als der Hälfte der Texte kann eine Erweiterung der Liste auch eine Verbesserung der Precision bewirken. Dies liegt daran, dass auch bei ‚sicheren‘ Wiedergabewörtern keine Garantie besteht, dass sie indirekte Wiedergabe signalisieren. Darum kommen Fehlklassifikationen auch schon bei pen0 vor. Bernhardi: Belinde z.B. ist ein Text, der keine Anführungszeichen verwendet, weshalb mehrere Instanzen direkter Wiedergabe, die sehr typische Wiedergabeverben verwenden, irrtümlich von
174 | 10 Regelbasierte Ansätze MarkIndirect markiert werden. Zudem fallen Fehler rechnerisch stärker ins Gewicht, wenn die Gesamtmenge der gefundenen Instanzen gering ist. Eine Erweiterung der Wiedergabewortliste korrigiert also zwar nie Fehlklassifikationen, bewirkt aber, dass diese weniger schwer wiegen, da sie das Finden von mehr korrekten Instanzen ermöglicht. Darum kann auch die Precision von einer nicht zu beschränkten Wiedergabewortliste profitieren. Zusammenfassend lässt sich sagen, dass eine mittelgroße Menge von Wiedergabewörtern bis hin zu einem mittleren Maß an Verlässlichkeit für die Erkennung indirekter Wiedergabe im Erzähltextkorpus am günstigsten ist. Hier gleichen sich Fehlerkennungen aufgrund zu unklarer Indikatoren und zusätzliche Erfolge beim Erkennen von Strukturen mit ungewöhnlicheren Einleitungswörter einigermaßen aus. Die maximale Erfolgsquote für das Gesamtkorpus ist ein F-Score von 0,68 bei pen2; auf die Einzeltexte bezogen beträgt dabei der schlechteste FScore 0,46 und der beste 0,82. Bei allen folgenden Auswertungen wird das Modul MarkIndirect darum immer auf Grundlage der Wiedergabewörter bis einschließlich penalty = 2 angewendet.
10.3 Die Erkennung direkter Wiedergabe Direkte Wiedergabe hat zwei typische Markierungsmerkmale: die Rahmenformel und die typographische Markierung. Bezeichnenderweise sind dies auch die beiden Komponenten, bei deren Wegfall von manchen Narratologen die Zusatzkategorie freie direkte Wiedergabe definiert wird (vgl. Abschnitt 5.1.1.1). Es ist also offensichtlich, dass diese Indikatoren nicht immer vorhanden sein müssen.
10.3.1 Rahmenformeln Rahmenformeln treten in drei verschiedenen Positionen auf: (146)
Vorangestellt: Er sagte: „Nach dem Essen gehen wir spazieren.“
(147) Nachgestellt: „Nach dem Essen gehen wir spazieren“, sagte er. (148)
Eingeschoben: „Nach dem Essen“, sagte er, „gehen wir spazieren.“
Dabei verhält sich das Zitat in vielen Fällen wie ein Satzglied, was sich durch eine Ersetzungsprobe nachweisen lässt (Zitate nach Dudenredaktion 2005, § 1680): (149)
Er behauptete: „Ich habe den Zug verpasst.“ → Er behauptete [das].
(150)
Otto rief mir zu: „Schalt den Apparat ein!“ → Otto rief mir [etwas] zu.
10.3 Die Erkennung direkter Wiedergabe
|
175
Die eingeschobene Rahmenformel kann als Parenthese gewertet werden, d.h. als syntaktisch eigenständiger Satz, der in den zitierten Satz eingeschoben wird. Die Verberststellung, die bei nachgestellter und eingeschobener Rahmenformel zu beobachten ist, wird in der Duden-Grammatik durch den Wegfall des Wortes so erklärt (Zitate nach Dudenredaktion 2005, § 1378): (151)
„Wie lange bleibst du weg?“, fragte sie (→ „. . . ?“, [so] fragte sie.)
(152)
„Ich werde“, versprach sie, „bis Mitternacht zurück sein.“ (→ „. . . “, [so] versprach sie, „. . . “)
Die Annahme eines elidierten so ist allerdings nur notwendig, wenn man das Zitat am Satzanfang nicht als Vorfeldelement interpretieren will, was insbesondere bei nachgestellter (nicht eingeschobener) Rahmenformel die naheliegendste Analyse wäre. Formal betrachtet ist es charakteristisch für die Rahmenformel, dass sie – zumindest nach den gängigen Regeln der Zeichensetzung – immer vom Zitat abgegrenzt wird: zumindest durch ein Komma oder einen Doppelpunkt, oft zusätzlich durch Anführungszeichen (vgl. Rat für deutsche Rechtschreibung 2006, § 81, § 93). Das typischste lexikalische Merkmal der Rahmenformel ist die Verwendung von Wiedergabeverben, ein Thema, das bereits in Abschnitt 10.1 behandelt wurde.
10.3.2 Anführungszeichen Direkte Wiedergabe weist als einzige Wiedergabekategorie häufig eine konventionelle typographische Markierung auf, also einen formal-strukturellen Indikator: das Anführungszeichen.45 Anführungszeichen sind so eng mit direkter Wiedergabe assoziiert, dass man den Eindruck haben kann, sie seien ein eindeutiger Indikator. Jedoch ist weder die Markierung direkter Wiedergabe die einzige Funktion von Anführungszeichen, noch sind Muster und Art der Anführungszeichen immer gleich. Man muss sich also bei der Betrachtung mit zwei Aspekten auseinandersetzen: der Funktion und 45 Das Anführungszeichen ist nicht die einzige Art, direkte Wiedergabe graphisch zu markieren. Weitere Möglichkeiten umfassen Veränderungen des Schriftbildes, wie Kursivsatz oder die Wahl einer anderen Schriftart, oder eine graphische Textstrukturierung, bei der die wechselnden Sprechern zugeordneten Abschnitte z.B. mit Spiegelstrichen eingeleitet und mit Zeilenumbrüchen voneinander abgesetzt werden. Im Rahmen dieser Studie wurde keine nähere Untersuchung solcher Markierungsstrategien durchgeführt, da sie im Erzähltextkorpus nicht auftreten und auch insgesamt seltener sind als die Verwendung von Anführungszeichen. Bei einer Weiterentwicklung der Erkennungsmodule wären dies aber durchaus interessante Ansatzpunkte.
176 | 10 Regelbasierte Ansätze den typographischen Besonderheiten. Anschließend folgt noch eine kurze historische Betrachtung der Verwendung von Anführungszeichen bei direkter Wiedergabe.
10.3.2.1 Funktion Im Gegensatz zu den in erster Linie grammatisch geregelten Satzzeichen (Punkt, Komma), ist der Gebrauch von Anführungszeichen eher typographisch geregelt und deutlich weniger streng normiert (vgl. Wehde 2000, 100). Sie sind unter den paarigen Satzzeichen (Klammern, Doppelkomma, Doppelter Gedankenstrich) eines der vielseitigsten, ihre Funktion ist „nicht in erster Linie [...] die Kennzeichnung der Grenzen eines Einschubs innerhalb des Satzverbandes, sondern die besondere Charakterisierung dieses Einschubs“ (Nerius 1989, 196). Sie markieren „keineswegs eine phonographische Qualität ‚direkter Rede‘ [...] , sondern die syntaktische Nicht-Integration von Textpassagen“ (Maas 1992, 103, Hervorhebung von Maas). Von dieser Grundfunktion, so Maas weiter, leite sich eine metatextuelle Kommentarfunktion ab: Selbst wenn die in Anführungszeichen gesetzten Passagen syntaktisch integriert seien, würde ‚textuelle Inhomogenität‘ signalisiert, die zur Distanzierung und Ironisierung beitrage (vgl. Maas 1992, 103–104) Klokow beschreibt die beiden Hauptverwendungsweisen von Anführungszeichen als die ‚konventionelle‘ und die ‚modalisierende‘: In konventioneller Verwendung kennzeichnen AZ [Anführungszeichen] Zitate, erwähnte Ausdrücke (Unterscheidung von mention und use) und bestimmte Eigennamenidiome (z.B. Buchtitel). In modalisierender Verwendung (nur möglich bei kurzen Wörtern oder Wortgruppen) signalisieren sie, daß sich der Sprecher nicht völlig mit dem markierten Ausdruck identifiziert und daß er nicht bereit ist, für all die Folgen einzustehen, die der Gebrauch des Ausdrucks unter den gegebenen Situationsbedingungen normalerweise nach sich ziehen würde. (Klokow 1978, 15)
In der modalisierenden Verwendung zeigen die Anführungszeichen eindeutig keine direkte Wiedergabe an, was ihre Tauglichkeit als Indikatoren bereits beeinträchtigt. Doch auch bei der konventionellen Verwendung stellt die direkte Wiedergabe nur eine Untergruppe des Zitats dar. Zitate, die als Grenzfälle direkter Wiedergabe gewertet werden können, sind Redewendungen und geflügelte Worte sowie Teilzitate von Äußerungen, die in einen Satz eingebaut werden, ein Phänomen, das vor allem im journalistischen Schreibstil nicht selten ist. Zur Disambiguierung der Verwendung von Anführungszeichen im Kontext von direkter Wiedergabe können in manchen Fällen weitere formale Markierungskonventionen herangezogen werden. Nach der aktuellen deutschen Rechtschrei-
10.3 Die Erkennung direkter Wiedergabe
|
177
bregelung gibt es folgende Besonderheiten bei der Zeichensetzung im Kontext von Anführungszeichen: § 90: Satzzeichen, die zum wörtlich Wiedergegebenen gehören, setzt man vor das abschließende Anführungszeichen; Satzzeichen, die zum Begleitsatz gehören, setzt man nach dem abschließenden Anführungszeichen. § 91: Sowohl der aufgeführte Satz als auch der Begleitsatz behalten ihr Ausrufe- oder Fragezeichen. § 92: Beim angeführten Satz lässt man den Schlusspunkt weg, wenn er am Anfang oder im Inneren des Gesamtsatzes steht. Beim Begleitsatz lässt man den Schlusspunkt weg, wenn der angeführte Satz oder ein Teil von ihm am Ende des Ganzsatzes steht. § 93: Folgt nach dem angeführten Satz der Begleitsatz oder ein Teil von ihm, so setzt man nach dem abschließenden Anführungszeichen ein Komma. Ist der Begleitsatz in den angeführten Satz eingeschoben, so schließt man ihn mit paarigem Komma ein. (Rat für deutsche Rechtschreibung 2006)
Ein guter Indikator für eine direkte Wiedergabe ist also zum einen das Auftreten eines Ausrufe- oder Fragezeichens direkt vor einem schließenden Anführungszeichen, da dies nach § 91 darauf hindeutet, dass ein abgeschlossener Satz zitiert wurde, was bei direkter Wiedergabe oft der Fall ist. Zum anderen weist das Auftreten eines Kommas direkt nach dem schließenden Anführungszeichen auf einen nachgestellten oder eingeschobenen Begleitsatz hin (vgl. § 93), was häufig die Rahmenformel ist. Allerdings wird die Situation dadurch erschwert, dass die obigen Regeln für die Zeichensetzung bei Anführungszeichen lediglich die aktuelle Norm für das Deutsche darstellen. Schon bei einer synchronen Betrachtung sind Abweichungen von dieser Norm – aufgrund von länderspezifischen Konventionen oder typographischen Besonderheiten – zu erwarten. Betrachtet man die historische Dimension, was bei dem Untersuchungsgegenstand ‚literarische Texte‘ unvermeidlich ist, so ergeben sich noch zusätzliche Probleme.
10.3.2.2 Typographische Besonderheiten Es gibt eine Vielzahl von typographischen Zeichen, die als Anführungszeichen verwendet werden. Welche Typen dies sind, ist z.T. länderspezifisch. Für den im Rahmen dieser Studie relevanten deutschsprachigen Raum allein listet das Lexikon der westeuropäischen Typographie bereits fünf verschiedene gebräuchliche Zeichen und Stellungen auf: –
Deutsche Anführungszeichen (Umgangssprachlich auch Gänsefüßchen genannt) „hamburgerfontsitiv“ (unten/oben)
178 | 10 Regelbasierte Ansätze –
Deutsche Guillemets »hamburgerfontsitiv« (mitte/mitte, Spitze nach innen, zwischen x-Linie und Grundlinie ohne Leerzeichen) – Schweizer Guillemets (Deutschsprachige Schweiz) «hamburgerfontsitiv»(mitte/mitte, Spitze nach außen, zwischen x-Linie und Grundlinie ohne Leerzeichen) – Angloamerikanische bzw. englische Anführungszeichen "hamburgerfontsitiv"(oben/oben, zwischen k-Linie und x-Linie, optisch ausgerichtet an der H-Linie) – Französische Guillemets (Guillemets français) « hamburgerfontsitiv »(mitte/mitte, zwischen x-Linie und Grundlinie sowie je ein Leerzeichen bzw. 1/4 Geviert Zwischenraum nach dem Guillemet ouvrant (also vor dem angeführten Wort) und vor dem Guillemet fermant (also nach dem angeführten Wort). (Beinert 2011)
Zusätzlich werden ‚halbe Anführungszeichen‘ verwendet, üblicherweise für eingebettete Anführungen, die aus den oben gezeigten Formen erzeugt werden, indem man jeweils einen der Striche bzw. eine der Spitzen weglässt. Der Schriftsatz regelt zudem nur die Position, nicht die genaue typographische Darstellung der Zeichen, die je nach Schriftart variieren kann. Wie man sieht, ist nur bei manchen Typen von Anführungszeichen eine Unterscheidung von öffnenden und schließenden Anführungszeichen eindeutig möglich. So können diese bei den englischen Anführungszeichen identisch sein. Auch die spitzen Anführungszeichen sind problematisch, da hier je nach Konvention unterschiedlich ist, in welche Richtung das öffnende bzw. schließende Zeichen zeigt. Hier eine Gegenüberstellung der Markierung mit Schweizer bzw. Deutschen Guillemets: (153)
Schweiz: Er sagte: «Ich lese gerade ‹Faust› von Goethe.»
(154)
Deutschland: Er sagte: »Ich lese gerade ›Faust‹ von Goethe.«
Ein zusätzliches Problem besteht darin, dass das hochgestellte einfache englische Anführungszeichen mit einem Auslassungszeichen verwechselt werden kann. Man kann also nicht ohne weiteres davon ausgehen, dass Anführungszeichen und ihre genaue typographische Bedeutung problemlos identifiziert werden. Bei digitalisierten Texten ist die Situation noch zusätzlich erschwert. Vor allem, wenn diese einer geringen formalen Kontrolle unterliegen, kann es, zusätzlich zu den systemimmanenten Ambiguitäten, leicht zu Fehlern oder technischen Problemen kommen. Von den oben aufgelisteten Typen von Anführungszeichen sind nur die englischen im ASCII-Zeichensatz enthalten. Alle anderen sind Sonderzeichen. Das bedeutet eine erhöhte Gefahr, zum einen, dass sie nicht korrekt erzeugt und dargestellt werden, zum anderen, dass es bei der Bearbeitung der di-
10.3 Die Erkennung direkter Wiedergabe
|
179
gitalen Texte zu Kodierungsproblemen kommt, die eine korrekte Erkennung bei der automatischen Annotation verhindern.
10.3.2.3 Historische Perspektive Eine systematische und detaillierte Darstellung der historischen Entwicklung, die die Markierung von direkter Wiedergabe durchlaufen hat, übersteigt den Rahmen dieser Studie. Da jedoch gerade in der Literaturwissenschaft oftmals Texte älteren Datums untersucht werden, soll diese Dimension zumindest angerissen werden, um einen Eindruck zu vermitteln, mit welchen zusätzlichen Komplikationen zu rechnen ist. Wie Parkes in seiner Beschreibung der historischen Entwicklung der Zeichensetzung im westlichen Kulturkreis darstellt, ist der Vorgänger des Anführungszeichen das Diplé (griechisch doppelt), das in seinem Aussehen an ein Größer-alsZeichen erinnert (>), manchmal noch mit ein oder zwei Punkten. Dieses Zeichen wurde am Rand von Handschriften verwendet, um die Aufmerksamkeit auf eine Textpassage zu lenken. Im Mittelalter diente es vor allem dazu, Bibelzitate hervorzuheben. In gedruckten Büchern wurde es dann durch spitze Anführungszeichen (», Guillemets) dargestellt – die Ähnlichkeit ist offensichtlich – oder durch hochgestellte invertierte Kommata (“). Diese Zeichen wurden dann allmählich in den Text integriert und entwickelten sich zu Markierungen von Zitaten und direkter Wiedergabe (vgl. Parkes 1992, 303). Verwendungskonventionen des Anführungszeichens in seiner Form als zwei Striche (‚Gänsefüßchen‘) in der Neuzeit werden von Höchli auf der Grundlage verschiedener Lehrschriften von der zweiten Hälfte des 15. bis zum Ende des 18. Jahrhunderts nachgezeichnet. Die erste Darstellung der Anführungsstriche findet sich bei Hieronymus Freyer (1675–1747) in dessen Werk Anweisungen zur Teutschen Orthographie folgende Regel aufgeführt ist: 12 Regel. Das signum citationis wird gebrauchet, wenn eines andern auctoris Worte anzuführen und von der übrigen Rede zu unterscheiden sind. (Freyer, Anweisung, 1735. S. 11; zit. n. Höchli 1981, 168)
Das Zeichen wird allerdings nicht an Anfang und Ende des Zitates gesetzt, sondern an den Anfang jeder Zeile, die einem anderen Autor zuzuordnen ist. Höchli weist zudem explizit darauf hin, dass das Anführungszeichen zu dieser Zeit nur für Zitate, aber noch nicht zur Markierung direkter Wiedergabe verwendet wird (vgl. Höchli 1981, 169). Erwähnung findet das Zeichen schon früher, 1629, in der Distinction-lehr von Samuel Walter, wo es allerdings nicht explizit als Interpunktionszeichen erwähnt wird, sondern nur auf die Verwechslungsmöglichkeit mit
180 | 10 Regelbasierte Ansätze dem Komma hingewiesen wird (vgl. Höchli 1981, 301, Fußnote). In späteren Grammatiken wird das Zeichen immer wieder unter verschiedenen Namen erwähnt, jedoch wird ihm keine besondere Aufmerksamkeit geschenkt. Manche Autoren machen sogar davon Gebrauch, ohne es näher zu erläutern. Die Erklärung bei Johann Christoph Adelung (1732–1806), der jüngsten von Höchli untersuchten Darstellung, entspricht im Wesentlichen der bei Freyer: Das Anführungszeichen, („) die unmittelbaren Worte eines andern, sowohl bey ihrem Anfange und Beschlusse als auch vorne an den Zeilen bezeichnen. (Adelung, Umständliches Lehrgebäude, 1782. S. 796; zit. n. Höchli 1981, 246).
Höchli konstatiert demnach: Die Anführungsstriche wurden also bis zum Ende des 18. Jahrhunderts in einer Form verwendet, die der heutigen nicht entspricht. Von einer Entwicklung kann nicht die Rede sein, denn sowohl die Form als auch die Funktion sind sich in den 60 Jahren ihres Auftretens gleich geblieben. (Höchli 1981, 302)
In Texten bis zum 18. Jahrhunderts ist also in jedem Fall damit zu rechnen, dass die Verwendungsweise des Anführungszeichens von der heutigen Norm abweicht – ob sie der von Adelung geforderten Norm entspricht, ist eine andere Frage. Um einen Eindruck zu vermitteln, was in dieser Hinsicht bei älteren Texten zu erwarten ist, werden im Folgenden einige Beispiele aus Originaldrucken von Texten dargestellt, die im Erzähltextkorpus enthalten sind. Die Erstausgabe des Münchhausen von 1786 markiert direkte Wiedergabe ohne typographische Zeichen und setzt stattdessen deren Text in einen eigenen Absatz und einer kleineren Schrifttype (vgl. Bürger 1786, 19). Einige Seiten später jedoch wird Gedankenwiedergabe mit doppelten Anführungszeichen markiert, die auch die Rahmenformel umschließen, aber nicht am Zeilenanfang wiederholt werden (im Widerspruch zu Adelungs wenige Jahre früher veröffentlichter Empfehlung): – „Ha ha! dachte ich, nun wollen wir dich bald kriegen!„ (Bürger 1786, 32, Zeilenumbruch wie Bürger)
Dass die Wiedergabe mit einem unten stehenden Anführungszeichen beendet wird, mag ein Setzerfehler sein, entspricht jedoch der Textgestalt des historischen Drucks. Die Erstausgabe von Hauff: Kalif von 1825 weist die Markierung von direkter Wiedergabe am Zeilenanfang auf, jedoch nicht in allen Fällen und manchmal – jedoch nicht immer – ist auch hier die Rahmenformel von den Anführungszeichen
10.3 Die Erkennung direkter Wiedergabe
|
181
eingeschlossen, wie im vorhergehenden Beispiel. Das Zitat mutabor ist nur dadurch markiert, dass es in einer anderen Schriftart gesetzt ist (im Zitat als Schreibmaschinenschrift reproduziert). Lange betrachtete er die Schrift, plötzlich aber rief er aus: „das ist lateinisch, o Herr, oder ich laß mich hängen.“ „Sag was drinn steht, befahl der Kalif, wenn es lateinisch ist.“ Selim fieng an zu übersetzen: „Mensch, der du die„ses findest, preise Allah für seine Gnade. Wer von „dem Pulver in dieser Dose schnupft, und dazu spricht: „mutabor, der kann sich in jedes Thier verwandeln, „und versteht auch die Sprache der Thiere. (Hauff 1991, 10, Zeilenumbruch wie Hauff)
Die Ausgabe von Herbsttage aus dem Jahre 1805 (in der der Text Günderrode: Bramine erstveröffentlicht wurden), enthält ebenfalls Beispiele für die Markierung mit Anführungszeichen am Beginn jeder Zeile – jedoch nicht für direkte, sondern für indirekte Wiedergabe: – denn als ich fragte: „ob „er noch gesonnen sey, eine kleine Wanderung „an meiner Seite zu machen?“ antwortete er [...] (La Roche 1805, 24, Zeilenumbruch wie LaRoche)
Die Markierung von eingebetteter direkter Wiedergabe in der Erstausgabe des Textes Kafka: Gracchus von 1931 (verfügbar als Reprint, Kafka 2008) sieht folgendermaßen aus: „Gewiss“, sagte der Bügermeister. „Sie wurden mir heute Nacht angekündigt. Wir schliefen längst. Da rief gegen Mitternacht meine Frau: Salvatore, – so heiße ich – sieh die Taube am Fenster. Es war wirklich eine Taube, aber groß wie ein Hahn. Sie flog zu meinem Ohr und sagte: ‚Morgen kommt der tote Jäger Gracchus, empfange ihn im Namen der Stadt.“ (Kafka 2008, 46, Zeilenumbruch wie Kafka)
Nicht nur folgt hier eine eingebettete direkte Wiedergabe mit Markierung unmittelbar auf eine ohne Markierung, sondern es fehlt auch das schließende einfache Anführungszeichen, was der Logik der Markierung widerspricht. Sehr ungewöhnlich in der Zeichensetzung ist der Kleist-Text „Das Erdbeben in Chili“, hier nach der kritischen Münchner Ausgabe zitiert. Direkte Wiedergabe ist dort meist unmarkiert, und auch rasche Sprecherwechsel werden nicht ein-
182 | 10 Regelbasierte Ansätze mal durch Zeilenumbrüche signalisiert. Andererseits werden an manchen Stellen Anführungszeichen gesetzt, z.T. in der gleichen Redepassage: Seyd ihr wahnsinnig? rief der Jüngling, und schlug den Arm um Josephen: »ich bin Don Fernando Ormez, Sohn des Commendanten der Stadt, den ihr alle kennt!« (von Kleist 2010a, 160)
Kleists ungewöhnliche Zeichensetzung wird in der Literaturwissenschaft oftmals thematisiert und auch bei Interpretationen herangezogen. Die Editoren der Münchner Ausgabe betonen explizit, „daß die großen Texte – und das gilt ganz besonders für Kleist – nicht selten einer verstörenden Ästhetik der Regelverletzung folgen“ (von Kleist 2010b, 846). Dieses Beispiel verweist damit auf ein weiteres Phänomen, dass die Verwendung von Anführungszeichen – oder überhaupt formalen Mitteln – als Indikatoren problematisch macht, nämlich die Tatsache, dass Autoren auch Zeichensetzung als Stilmittel verwenden und bewusst gegen die herrschenden Normen verstoßen. Diese Beobachtungen stellen selbstverständlich keine systematische Untersuchung dar, zeigen jedoch, dass die Markierung direkter Wiedergabe sehr inhomogen sein kann. Nicht nur die historischen Gegebenheiten, sondern auch Präferenzen des Autors und Verlegers spielen eine Rolle. Hinzu kommen Inkonsistenzen, die darauf hindeuten, dass Setzerfehler in diesem Bereich häufig sind. Da die Verbindlichkeit von Konventionen der Schreibung und Interpunktion in früheren Zeiten geringer war, ist es bei älteren Texten umso unwahrscheinlicher, dass man sich, was die Markierungskonventionen angeht, auf feste Regeln verlassen kann. Gerade Fehler wie das Auftreten eines tiefgestellten, eigentlich öffnenden Anführungszeichen am Ende der Wiedergabe wie in Bürger 1786 oder das Fehlen eines schließenden Anführungszeichens wie im Kafka-Beispiel können jedoch für die automatische Verarbeitung sehr problematisch sein.
10.3.3 Das Modul MarkQuotation Wie die Ausführungen in Abschnitt 10.3.2 gezeigt haben, ist es keineswegs trivial, einen robusten und allgemein verwendbaren Erkenner zu entwickeln, der mit verschiedenen Typen von Anführungszeichen und möglichen Fehlern und Besonderheiten der Markierung umgehen kann. Eine pragmatische Lösung ist es darum, die Entwicklung eines entsprechenden Moduls an das Korpus anzupassen, auf das es angewendet werden soll. Meist ist zumindest in gewissem Rahmen bekannt, was für Arten der Markierung zu erwarten sind, vor allem, wenn alle Texte aus derselben Quelle stammen. Ist nichts über das Korpus bekannt oder eine sehr inhomogene Verwendung von Anführungszeichen zu erwarten, ist zu überlegen,
10.3 Die Erkennung direkter Wiedergabe
|
183
ob sich der Aufwand lohnt, einen wirklich robusten regelbasierten Erkenner zu entwickeln, oder ob nicht die Verwendung andere Indikatoren, wie z.B. der Rahmenformel, oder die Anwendung maschineller Lernmethoden zu bevorzugen wäre (vgl. Abschnitt 11).46 Das Modul MarkQuotation wurde darum mit geringem Aufwand so entwickelt, dass es für das Erzähltextkorpus, dessen Verwendung von Anführungszeichen relativ konsistent ist, taugliche Ergebnisse liefert. Es identifiziert die im Korpus üblicherweise verwendeten doppelten spitzen Anführungszeichen (» und «) und markiert den Text, der sich dazwischen befindet, als direkte Wiedergabe. Das Modul illustriert somit eine naive Herangehensweise, die möglich ist, wenn die im Korpus verwendete Markierungstechnik bekannt und homogen ist. Das Modul ist also weder allgemein noch robust. Eine Schwäche, die weitreichende Folgen haben kann, ist, dass es nicht in der Lage ist, mit Fällen umzugehen, bei denen das schließende Anführungszeichen fehlt. Dieser Fall kann sowohl durch Fehler bei der Digitalisierung als auch als bewusst gewählte historische Markierungsvariante auftreten. Das Fehlen der Endmarkierung ist deswegen so problematisch, weil es schwierig ist, andere formale Indikatoren für das Ende einer direkten Wiedergabe zu finden. Im Erzähltextkorpus tritt dieses Problem nicht auf und wurde darum nicht behandelt. Bei Anwendung des Moduls auf andere Texte kann es also passieren, dass bei fehlendem schließenden Anführungszeichen die Markierung bis zum Textende fortgeführt wird, was zu gravierenden Fehleinschätzungen des Anteils direkter Wiedergabe führt. Außerdem reagiert das Modul nur auf einen bestimmten Typ von Anführungszeichen, der hauptsächlich im Erzähltextkorpus verwendet wird.47 Markierungsmöglichkeiten
46 Alternativ wäre es bei einem inhomogenen Korpus denkbar, die Art der typographischen Auszeichnung in den Metadaten der Einzeltexte festzuhalten und davon ausgehend unterschiedliche spezialisierte Erkennungsmodule anzuwenden. Dies würde allerdings eine gezielte Vorverarbeitung des Korpus voraussetzen und ist auch nur dann praktikabel, wenn zumindest innerhalb eines Textes eine Markierungskonvention konsistent beibehalten wurde, was nicht zwangsläufig der Fall sein muss. 47 Tatsächlich treten im Erzähltextkorpus in wenigen Fällen auch einfache spitze Anführungszeichen (› und ‹) auf, und zwar zur Markierung von eingebetteten Wiedergaben, aber auch zur Kennzeichnung von Eigennamen und uneigentlichem Sprechen. Deren Erkennung wurde nicht implementiert, weil diese Zeichen aufgrund von Kodierungsproblemen an der Schnittstelle von GATE und dem TreeTagger schon in der Vorverarbeitung nicht korrekt erkannt werden. Eine Korrektur wäre recht aufwendig, und da das Erzähltextkorpus nur zwei Instanzen direkter Wiedergabe in einfachen Anführungszeichen enthält, wurde für diesen Prototyp darauf verzichtet. Aufgrund der Art der Auswertung fällt dieser Fehler zudem nicht ins Gewicht: Die Instanzen treten innerhalb einer erkannten direkten Wiedergabe auf und überlappen sich mit dieser, so dass sie als ‚erkannt‘ gewertet werden.
184 | 10 Regelbasierte Ansätze mit anderen Mitteln, beispielsweise durch Kursivsatz oder Einrückung, sind ebenfalls nicht berücksichtigt. Es gäbe hier also zahlreiche Optimierungsmöglichkeiten. Für das Erzähltextkorpus hätten diese jedoch kaum Verbesserungen in der Erkennung bewirkt. Anders als bei dem Modul MarkIndirect entsprechen die Grenzen der Markierung durch MarkQuotation in fast allen Fällen exakt denen der manuellen Annotation. Nur bei drei Texten gibt es ungenaue Abbildungen. In Günderrode: Bramine und vor allem in Hebbel: Kuh tritt der Fall auf, dass die Rahmenformel von den Anführungszeichen mit eingeschlossen wird: (155)
»Hat er sich oben versteckt, Bauer? – rief Hans – komm er jetzt nur herunter, wir sind da!« (Hebbel: Kuh)
MarkQuotation markiert sie darum als Teil der direkten Wiedergabe. Tab. 10.8. MarkQuotation: Auswertung textweise (stark abfallende Ergebnisse sind grau hinterlegt)
Text
Precision
Recall
F-Score
Bernhardi: Belinde
1,00
0,00
0,00
Bürger: Münchhausen
0,50
1,00
0,67
Günderrode: Bramine
1,00
0,29
0,45
Hauff: Kalif
1,00
0,94
0,97
Hebbel: Kuh
1,00
0,86
0,93
Heym: Irre
1,00
0,63
0,78
Janitschek: Weib
1,00
0,97
0,99
Kafka: Gracchus
1,00
0,96
0,98
Kleist: Erdbeben
0,88
0,13
0,23
May: Ziege
0,99
0,98
0,99
Musäus: Entführung
1,00
0,71
0,83
Schnitzler: Ypsilon
0,99
0,96
0,97
Tieck: Eckbert
0,24
0,98
0,38
Durchschnitt Texte
0,89
0,72
0,71
Gesamtkorpus
0,85
0,80
0,82
Tabelle 10.8 zeigt die Ergebnisse der großzügigeren Auswertung, bei der die überlappenden Instanzen als Erfolge gewertet werden. Eine strenge Auswertung ergibt
10.3 Die Erkennung direkter Wiedergabe
|
185
jedoch mit einem F-Score von 0,81 für das Gesamtkorpus nur wenig schlechtere Werte. Wie man sieht, fallen die Ergebnisse extrem unterschiedlich aus, abhängig davon, ob der Text Anführungszeichen verwendet. Dies zeigt sich besonders deutlich an dem Text Bernhard: Belinde, in dem überhaupt keine Anführungszeichen auftreten, weshalb das Modul vollkommen versagt. Auch bei Kleist: Erdbeben und Günderrode: Bramine ist die Mehrzahl der direkten Wiedergaben nicht markiert, was zu den schlechten Ergebnissen führt. Die Fehler bei den restlichen Texten sind meist auf vereinzelte, nicht markierte direkte Wiedergaben zurückzuführen. Hierbei handelt es sich häufig um Gedankenwiedergaben (Beispiel 156) sowie um kurze oder eher ungewöhnliche Wiedergaben (Beispiel 157). Manchmal, wie in Beispiel 158, sind diese auch anders markiert als mit Anführungszeichen. (156)
Kennt er mich denn nicht, fragte er sich. (Heym: Irre)
(157)
Dreimal gen Osten müssen wir uns bücken, und dazu sprechen: Mu – Mu – Mu – (Hauff: Kalif)
(158)
[...] ein stilles Gebet verrichten an dem kleinen Kreuze, so die Inschrift trägt: HIER RUHET IN GOTT MARTIN BRAND (Schnitzler: Ypsilon) [Die Inschrift ist im Originaltext abgesehen von der Verwendung von Großbuchstaben noch in einem eigenen Abschnitt vom Text abgesetzt und damit deutlich markiert.]
Wesentlich seltener sind Fälle, bei denen es zu Fehlerkennungen kommt, weil Wörter in Anführungszeichen gesetzt werden, die keine Wiedergabe darstellen, sondern Eigennamen oder ironische Wendungen. V.a. die Texte May: Ziege und Bürger: Münchhausen sind davon betroffen. (159)
Als er die »drei Schwanen« erreicht hatte, trat er für einen Augenblick in die Gaststube. (May: Ziege)
(160)
Wie es nun immer meine Maxime ist, mich nach dem Bekannten »ländlich sittlich« zu richten, so nahm ich dort einen kleinen Rennschlitten auf ein einzelnes Pferd und fuhr wohlgemut auf St. Petersburg los. (Bürger: Münchhausen)
Ein Sonderfall ist der Text Tieck: Eckbert: Er enthält eine Binnenerzählung in Anführungszeichen, die von MarkQuotation als direct klassifiziert wird, während sie bei der manuellen Annotation als embedded markiert ist. Diese Sondermarkierung wurde eingeführt, um einen Wechsel der Erzählebene von einfacher
186 | 10 Regelbasierte Ansätze direkter Wiedergabe zu unterscheiden (vgl. Abschnitt 5.6.2). Um die Auswirkungen dieser Klassifizierung näher zu untersuchen, wurde eine weitere Auswertung durchgeführt, bei der alle Instanzen von embedded als direkte Wiedergabe gewertet wurden. Tabelle 10.9 zeigt die Ergebnisse im Vergleich. Sie listet nur die drei Texte auf, die embedded-Passagen enthalten, für alle anderen Texte sind die Auswertungsergebnisse identisch. Außerdem ist das Gesamtergebnis für das Erzähltextkopus angegeben. Tab. 10.9. MarkQuotation: Ergebnisse je nach Wertung der embedded-Passagen (emb: embedded-Passagen wurden als direct_speech gewertet)
Text
Precision
Günderrode: Bramine
Recall
F-Score
1,00
0,29
0,45
Günderrode: Bramine emb 1,00
0,07
0,13
Hauff: Kalif
1,00
0,94
0,97
Hauff: Kalif emb
1,00
0,36
0,53
Tieck: Eckbert
0,24
0,98
0,38
Tieck: Eckbert emb
1,00
0,96
0,98
Gesamtkorpus
0,85
0,80
0,82
Gesamtkorpus emb
0,99
0,65
0,79
Wie man sieht, führt die Wertung der embedded-Passagen als direct nicht zwangsläufig zu besseren Ergebnissen. Der Gesamterfolg für das Erzähltextkorpus ist sogar etwas schlechter. Dies liegt daran, dass die als embedded klassifizierten Binnenerzählungen nicht in jedem Fall mit Anführungszeichen markiert sind. Bei Tieck: Eckbert sind die Anführungszeichen vorhanden. Ändert man also die manuelle Klassifizierung, kann für diesen Text ein fast 100-prozentiger Erfolg erzielt werden. Bei Hauff: Kalif und Günderrode: Bramine hingegen ist die Binnenerzählung nicht markiert. Günderrode: Bramine ist es eine homodiegetische Erzählung in Dialogform, bei der keine Anführungszeichen gesetzt sind. Im Fall von Hauff: Kalif ist die gesamte „Geschichte von Kalif Storch“ eine Binnenerzählung, deren Rahmen am Ende des Textes sichtbar wird. Beide Texte werden bei einer Wertung von embedded als direct fast komplett als direkte Rede klassifiziert und schneiden aufgrund der fehlenden Markierungen bei der Auswertung sehr schlecht ab.
10.3 Die Erkennung direkter Wiedergabe
|
187
Es ist Zufall, dass das Erzähltextkorpus eine relativ ausgeglichene Anzahl an Fällen aufweist, in denen Binnenerzählungen durch Anführungszeichen markiert sind, und solchen, in denen sie nicht markiert sind. Jedoch demonstriert dies anschaulich, dass die Frage, ob es vorteilhafter für die automatische Erkennung ist, wenn Binnenerzählungen als direkte Wiedergabe gewertet werden oder nicht, nicht eindeutig zu beantworten ist. Bei allen folgenden Auswertungen werden die embedded-Passagen nicht als direkte Wiedergabe klassifiziert. Der obige Vergleich hat gezeigt, dass sich dies auf die Gesamtergebnisse für das Erzähltextkorpus nicht grob verzerrend auswirkt.
10.3.4 Das Modul MarkFrame Das Modul MarkFrame arbeitet auf der Basis der vom Modul MarkSTWWords erkannten Wiedergabewörter und hat die Aufgabe, diejenigen zu identifizieren, die die Einleitung zu einer direkten Wiedergabe bilden, also in der manuellen Annotation mit frame markiert sind. Das Modul versucht nicht, die tatsächlichen Grenzen der Rahmenformel zu erfassen, zu der typischerweise auch ein Subjekt gehört, sondern konzentriert sich nur auf die Klassifizierung des Wiedergabewortes, das den Kern bildet. Das Modul arbeitet musterbasiert und macht sich die Konventionen der Interpunktion zunutze. Tabelle 10.10 zeigt die relevanten Muster mit Beispielen aus dem Korpus. Es gibt zwei grundsätzliche Mustertypen: Muster 1 versucht, vorangestellte Rahmenformeln zu erfassen, Muster 2 nachgestellte und eingeschobene, die gleich behandelt werden. Wichtig bei der Formulierung der Muster ist, ob angenommen wird, dass Anführungszeichen im Text verwendet werden oder nicht. Wenn man mit Anführungszeichen rechnet und diese in den Mustern obligatorisch macht, so ist die Verlässlichkeit der Erkennung hoch, allerdings steht man vor dem gleichen Problem wie beim Modul MarkQuotation: Für Texte ohne Anführungszeichen ist das Modul nutzlos. Bei vorangestellten Rahmenformeln gibt es die Konvention, einen Doppelpunkt zu verwenden. Dieses Satzzeichen ist vergleichsweise selten, und im Zusammenhang mit Wiedergabewörtern ist sein Auftreten allein schon ein guter Indikator, dass es sich tatsächlich um eine Rahmenformel handelt. Darum ist in Muster 1 das Anführungszeichen optional. Außerdem erlaubt das Muster das Auftreten von einem Personalpronomen oder einem Eigennamen zwischen Wiedergabewort und Doppelpunkt. Die Beschränkung auf diese beiden Worttypen ist recht streng und könnte möglicherweise noch gelockert werden, allerdings sollte der Abstand zwischen Wiedergabewort und Doppelpunkt keinesfalls zu groß wer-
188 | 10 Regelbasierte Ansätze Tab. 10.10. MarkFrame: Erkennungsmuster
Muster 1 (vorangestellt) STWWord
optional: Personalpronomen/ Eigenname
Doppelpunkt optional: öffnendes Anfzeichen
und
entgegnete
:
sie
sagte
:
Die Eule
antwortete
Verzeiht, mein sagte Vater!
ihm
:
sie
:
»
Mittags komme ich wieder Ihr habt mir
»
Oh Herr mein Herz hat gewählt
Muster 2a (nachgestellt) schließendes Anfzeichen »Komm abends «
optional: Komma
STWWord
,
sagte
er durch die Tür
sagte
er.
Du störst mich! « Muster 2b (nachgestellt) Komma Lebe wohl
,
STWWord sagte
sie mit Thränen
Muster 2c1 (nachgestellt) Komma
STWWord
Personalpronomen/ Eigenname
Ich will sterben
,
rief
sie
Er hat seine Reise vollbracht
,
rief
Belinde
aus
Muster 2c2 (nachgestellt) Komma Suche ihn jen- , seits der Berge
STWWord
Artikel
Nomen
sagte
die
Alte
und verschwand.
10.3 Die Erkennung direkter Wiedergabe
|
189
den, da es sonst zunehmend unwahrscheinlicher wird, dass ein Zusammenhang besteht. Schwieriger ist der Fall der nachgestellten Rahmenformel. Muster 2a macht das Anführungszeichen obligatorisch und hat damit einen sehr hohen Verlässlichkeitsgrad. Muster 2b verlangt nur noch ein Komma, gefolgt von einem Wiedergabewort. Dies ist problematisch, da Kommata frequente Satzzeichen sind und ihr Auftreten mit einem Wiedergabewort nicht unwahrscheinlich ist. Um die Menge an falschen Treffern etwas zu reduzieren, wurden als Alternativen zu 2b die Muster 2c1 und 2c2 formuliert. 2c1 verlangt nach dem Wiedergabewort noch ein Personalpronomen oder einen Eigennamen, 2c2 einen Artikel und ein Nomen, was den typischsten Formen von Wiedergabeformeln entspricht. Tabellen 10.11 und 10.12 stellen die Ergebnisse der Auswertung des Moduls MarkFrame bei Verwendung von Muster 2a allein und 2a mit entweder 2b oder 2c1+2c2 einander gegenüber. Da MarkFrame nur einzelne Wiedergabewörter markiert, wurde es bereits als Erfolg gezählt, wenn eine Überschneidung mit der manuellen frame-Markierung vorlag. Wie das Modul MarkIndirect verwendet MarkFrame die Ergebnisse des Wiedergabeworterkenners MarkSTWWords. Die vorliegenden Ergebnisse beruhen auf einer Auswahl von Wiedergabewörtern bis einschließlich penalty = 2. Eine Erweiterung der Liste hätte auch wenig Vorteile, da gerade Rahmenformeln dazu tendieren, die sichersten Wiedergabewörter zu verwenden (vgl. Abschnitt 10.1.2.4). Tabelle 10.11 zeigt, dass die F-Scores für Texte ohne Anführungszeichenmarkierung (v.a. Bernhardi: Belinde und Günderrode: Bramine) steigen, wenn entweder Muster 2b oder die Muster 2c1+2c2 zusätzlich verwendet werden, da sich der Recall verbessert. Bei den restlichen Texten sinken sie hingegen aufgrund der verschlechterten Precision ab, so dass die Erfolgsraten für die einzelnen Texte ausgeglichener werden. Der Text Hebbel: Kuh hat die Besonderheit, dass eingeschobene Rahmenformeln mit Gedankenstrichen abgesetzt und von den Anführungszeichen der direkten Rede umschlossen sind: (161)
Andreas stand auf und tat jetzt den ersten Zug aus der Pfeife »ja so – rief er aus – du brennst noch nicht, und ich meine, schon eine halbe Stunde zu schmauchen! Nun, umsonst will ich dich nicht gestopft haben.« (Hebbel: Kuh)
190 | 10 Regelbasierte Ansätze Tab. 10.11. MarkFrame: Vergleich der F-Scores bei Variation von Muster 2, textweise
Text
Muster 2a
Muster 2a+2b
Muster 2a+2c1+2c2
Bernhardi: Belinde
0,39
0,78
0,77
Bürger: Münchhausen
1,00
1,00
1,00
Günderrode: Bramine
0,14
0,63
0,47
Hauff: Kalif
0,84
0,79
0,81
Hebbel: Kuh
0,62
0,62
0,62
Heym: Irre
0,81
0,81
0,89
Janitschek: Weib
0,57
0,50
0,50
Kafka: Gracchus
0,94
0,92
0,94
Kleist: Erdbeben
0,50
0,48
0,51
May: Ziege
0,76
0,80
0,77
Musäus: Entführung
0,80
0,77
0,83
Schnitzler: Ypsilon
0,87
0,86
0,87
Tieck: Eckbert
0,58
0,47
0,52
Durchschnitt Texte
0,68
0,73
0,73
Gesamtkorpus
0,72
0,75
0,77
Tab. 10.12. MarkFrame: Gesamtauswertung bei Variation von Muster 2
Precision
Recall
F-Score
Muster 2a
0,91
0,60
0,72
Muster 2a+2b
0,80
0,71
0,75
Muster 2a+2c1+2c2
0,86
0,69
0,77
10.3 Die Erkennung direkter Wiedergabe
|
191
Darum können sie von überhaupt keinem der Muster des Typs 2 gefunden werden, so dass das Gesamtergebnis für diesen Text immer gleich bleibt.48 Die Gesamtwerte von Precision und Recall bei Anwendung der verschiedenen Muster werden einander in Tabelle 10.12 gegenübergestellt. Man kann sehen, dass die alleinige Verwendung von Muster 2a, das nur Rahmenformeln mit Anführungszeichen erkennt, die beste Precision, aber einen geringen Recall bringt. Nimmt man das sehr großzügige Muster 2b hinzu, verbessert sich der Recall, aber die Precision sinkt deutlich. Die Verwendung der Muster 2c1+2c2, die die typischsten Strukturen von Rahmenformeln nachbilden, erweist sich als guter Kompromiss: Damit erreicht man nahezu den Recall von 2a+2b und nähert sich der Precision von 2a an. Darum ist dies auch die Musterkombination, die im Folgenden standardmäßig für das Modul MarkFrame verwendet wird. In manchen Anwendungsfällen kann es sicherlich auch vorteilhaft sein, nur Muster zuzulassen, die auf Anführungszeichen aufbauen. Diese Entscheidung hängt davon ab, ob Texte ohne Anführungszeichen zu erwarten sind und ob eine Verschlechterung der Precision zugunsten des Recalls akzeptabel ist. Fast immer ist es jedoch sicherer, sich nicht allein auf die Anführungszeichenmarkierung zu verlassen, um ein vollständiges Versagen des Moduls für bestimmte Texte zu vermeiden, da dies v.a. bei vergleichenden Analysen zu stark verfälschenden Ergebnissen führen kann. Ein grundsätzliches Problem von MarkFrame ist es, dass diejenigen Muster, die keine Anführungszeichen verlangen, auch Rahmenformeln von indirekter Wiedergabe erfassen. Dies gilt für Muster 2b, 2c1 und 2c2 – allerdings sind nachgestellte oder eingeschobene Einleitungen bei indirekter Wiedergabe deutlich seltener als vorangestellte, so dass diese Ambiguität nicht zu sehr ins Gewicht fällt. Auch Muster 1 kann jedoch fälschlicherweise eine Rahmenformel für indirekte Wiedergabe erfassen, da diese manchmal einen Doppelpunkt statt des Kommas verwenden. Eine Möglichkeit, diesem Problem entgegen zu wirken, ist eine gezielte Kombination des Moduls MarkFrame mit dem Modul MarkIndirect: Nachdem die Wiedergabewörter markiert sind, wird als erstes MarkIndirect angewendet. Bei allen Wiedergabewörtern, die zu der Erkennung einer indirekten Wiedergabe geführt haben, wird die Markierung des Moduls MarkSTWWords entfernt, so dass sie für weitere Module nicht mehr als Wiedergabewörter erkenn-
48 Es wäre möglich, ein weiteres Muster für diese Art der Markierung direkter Wiedergabe zu formulieren, jedoch ist die Form recht ungewöhnlich, und es wurde bewusst darauf verzichtet, die Module zu stark auf Besonderheiten des Erzähltextkorpus hin zu optimieren. Damit wird auch simuliert, dass bei einem realen Anwendungsszenarium unerwartete Markierungsarten auftreten können, die die Ergebnisse verschlechtern.
192 | 10 Regelbasierte Ansätze bar sind. Erst dann wird MarkFrame angewendet. Dies hat den Effekt, dass keine Rahmenformel erkannt werden kann, wo eine indirekte Wiedergabe vermutet wird, so dass einige der falschen Treffer vermieden werden. Tabelle 10.13 zeigt die Ergebnisse im Vergleich. Tab. 10.13. MarkFrame: Gesamtergebnisse bei einfacher Anwendung und bei Anwendung nach MarkIndirect
Precision
Recall
F-Score
MarkFrame
0,86
0,69
0,77
MarkFrame nach MarkIndirect
0,91
0,67
0,77
Wie man sieht, verbessert sich die Precision nochmals deutlich, während der Recall etwas absinkt. Letzteres hat v.a. damit zu tun, dass beim Text Bernhardi: Belinde aufgrund der fehlenden Anführungszeichen die Unterscheidung von indirekter Wiedergabe und Rahmenformel sehr schwierig ist. (162)
Laßt mich die Mutter nur noch einmal umarmen, sagte Belinde, daß ich ihren Segen mit mir hinweg nehme. (Berhardi: Belinde)
Im Beispielsatz wird der unterstrichene Teil aufgrund des Wortes daß nach dem Komma als indirekte Wiedergabe missverstanden und die Rahmenformel kann danach nicht mehr von MarkFrame erkannt werden. Ein weiteres grundsätzliches Problem ist es, dass MarkFrame, da es rein strukturell arbeitet, keine feinen Bedeutungsnuancen erkennen kann. So wurde bei der manuellen Annotation festgelegt, Zitate nicht als direkte Wiedergabe zu werten, jedoch werden diese ebenfalls mit Rahmenformeln eingeführt, so dass sie von dem Modul erfasst werden: (163)
Was man sieht, das sieht man, oder, wie wir Lateiner sagen: Nihil est im intellerius, quod num pribus furioso im senfum! (May: Ziege)
10.3.5 Kombination von MarkQuotation und MarkFrame Es ist naheliegend, die beiden vorgestellten Module zu kombinieren. Da bei der manuellen Annotation allerdings die Rahmenformel nie als Teil der direkten Wiedergabe annotiert wurde, kann dies nur dann zu einer Verbesserung der Ergebnisse führen, wenn die Auswertung großzügiger erfolgt, d.h. keine direkte
10.3 Die Erkennung direkter Wiedergabe
|
193
Übereinstimmung von automatischer und manueller Annotation verlangt wird. Stattdessen wird in den folgenden Tabellen satzweise ausgewertet (vgl. Abschnitt 9.1). Für die automatische Annotation bedeutet dies, dass der gesamte Satz als direct markiert wird, wenn entweder das Modul MarkQuotation oder das Modul MarkFrame darin Treffer gefunden hat. Dies hat den Effekt, dass Sätze, in denen Rahmenformeln identifiziert wurden, als direkte Wiedergabe klassifiziert werden können, auch wenn sie nicht in Anführungszeichen stehen. Damit kann die Erkennungsrate für die entsprechenden Texte deutlich verbessert werden. So wird etwa folgender Satz aufgrund der Rahmenformel als direkte Wiedergabe identifiziert: (164)
Ihr kennt den Jüngling nicht, den ihr verwerft, sagte Belinde. (Bernhardi: Belinde)
Die in Abschnitt 10.3.4 beschriebenen Ungenauigkeiten bei der Erkennung von Rahmenformeln führen allerdings gleichzeitig zu einer Verschlechterung der Precision. In Beispiel 165 wird das Wiedergabewort wiederholte wegen des vorausgehenden Kommas und des nachfolgenden Personalpronomens als Teil einer Rahmenformel markiert, so dass der gesamte Satz für direkte Wiedergabe gehalten wird. (165)
Er überlegte, was er sagen wollte, Wort für Wort, wiederholte es sich ein paarmal.
Tabelle 10.14 zeigt die Ergebnisse für die Kombination der beiden Module. Für die Auswertung wurde die manuelle Annotation entsprechend angepasst, so dass auch hier, wenn eine direct-Markierung vorhanden ist, der gesamte Satz einschließlich eventuell vorhandener Rahmenformel als direkte Wiedergabe betrachtet wird. Dabei ist zu beachten, dass sich durch Eigenheiten der automatischen Satzgrenzenerkennung einige Fälle ergeben, in denen die Rahmenformel als eigenständiger Satz aufgefasst wird, wie in dem folgenden Beispiel: (166)
Lächelnd gab sie dem Kalifen die Hand: »Erkennt Ihr Eure Nachteule nicht mehr?«
(167)
sagte sie. (Hauff: Kalif)
Das Ende der direkten Wiedergabe wird als Satzgrenze betrachtet, da die wörtliche Rede mit einem Fragezeichen abschließt (der Doppelpunkt hingegen gilt nicht als Satzgrenzenmarkierung). Folglich wird die Rahmenformel bis zum Punkt (Beispiel 167) als eigenständiger Satz interpretiert. Solche ‚Sätze‘ werden bei der automatischen Erkennung als direkte Wiedergabe klassifiziert, weil sie von MarkFrame erfasst werden. Wenn man bei der Auswertung großzügiger vorgeht
194 | 10 Regelbasierte Ansätze und auch manuelle frame-Annotationen allein als direkte Wiedergaben gewertet werden, wird dies nicht als Fehler betrachtet und die Auswertungsergebnisse verbessern sich noch ein wenig – der F-Score steigt auf 0,85. Im Folgenden bleibt jedoch die strengere Auswertung der Standard. Tab. 10.14. MarkQuotation kombiniert mit MarkFrame: Auswertung auf Satzbasis
Text
Precision
Recall
F-Score
Bernhardi: Belinde
0,97
0,41
0,57
Bürger: Münchhausen
0,50
1,00
0,67
Günderrode: Bramine
1,00
0,40
0,57
Hauff: Kalif
0,92
0,97
0,95
Hebbel: Kuh
0,92
0,98
0,95
Heym: Irre
0,97
0,69
0,81
Janitschek: Weib
1,00
0,97
0,98
Kafka: Gracchus
0,99
1,00
0,99
Kleist: Erdbeben
0,64
0,37
0,47
May: Ziege
0,97
1,00
0,99
Musäus: Entführung
0,75
1,00
0,86
Schnitzler: Ypsilon
0,85
0,99
0,91
Tieck: Eckbert
0,22
1,00
0,36
Durchschnitt Texte
0,82
0,83
0,78
Gesamtkorpus
0,80
0,88
0,84
Die Texte, bei denen eine deutliche Verbesserung im Vergleich zur alleinigen Anwendung von MarkQuotation erzielt werden konnte, sind in Tabelle 10.14 grau hervorgehoben. Insbesondere bei Bernhardi: Belinde, wo der F-Score sich von 0,0 auf 0,57 steigert, ist der Erfolg bemerkenswert. Bei Günderrode: Bramine steigt der F-Score von 0,45 auf 0,57, bei Kleist: Erdeben von 0,23 auf 0,47. Tabelle 10.15 zeigt die Verbesserung, die durch die Kombination der beiden Module für das Gesamtkorpus erzielt werden konnte.
10.4 Die Erkennung erzählter Wiedergabe
|
195
Tab. 10.15. Vergleich der Ergebnisse von MarkQuotation und MarkQuotation in Kombination mit MarkFrame für das Gesamtkorpus bei Auswertung auf Satzbasis
Precision
Recall
F-Score
MarkQuotation
0,84
0,78
0,81
MarkFrame + MarkQuotation
0,80
0,88
0,84
MarkFrame + MarkQuotation nach MarkIndirect
0,81
0,87
0,84
Um den Vergleich zu ermöglichen, wurde auch das Modul MarkQuotation hier satzweise ausgewertet, so dass die Werte nicht exakt mit denen in Abschnitt 10.3.3 übereinstimmen. Wie man sieht, konnte die zusätzliche Verwendung von MarkFrame den Recall deutlich erhöhen, was auf die besseren Ergebnisse bei Texten, die keine oder fast keine Anführungszeichen verwenden, zurückzuführen ist. Die letzte Zeile der Tabelle zeigt die Ergebnisse bei einer vorherigen Anwendung von MarkIndirect (vgl. Abschnitt 10.3.4). Wie bei der separaten Auswertung von MarkFrame bewirkt diese auch hier eine Verbesserung der Precision auf Kosten des Recalls bei gleichem F-Score. Diese letzte Konfiguration wird im Folgenden für die Erkennung direkter Wiedergabe mit regelbasierten Methoden verwendet.
10.4 Die Erkennung erzählter Wiedergabe 10.4.1 Indikatoren für erzählte Wiedergabe Erzählte Wiedergabe ist insofern eine problematische Kategorie für die automatische Erkennung, als sie strukturell sehr divers ist. Wie bei den Ausführungen zum manuellen Annotationssystem dargestellt (vgl. Kapitel 5.4), kann sie sowohl ausführliche Inhalte transportieren als auch nur auf ein einziges Wort beschränkt sein: (168)
Drauf, als er eines Ringes an seiner Hand gewahrte, erinnerte er sich plötzlich auch Josephens; und mit ihr seines Gefängnisses, der Glocken, die er dort gehört hatte, und des Augenblicks, der dem Einsturze desselben vorangegangen war. (Kleist: Erdbeben)
(169)
Statt dessen hatten sie ihn vorgeladen, verhört, lauter Theater mit ihm aufgestellt. (Heym: Irre)
196 | 10 Regelbasierte Ansätze In der Linguistik wird die erzählte Wiedergabe als Form üblicherweise nicht behandelt.49 Beispiele für solche Formen findet man am ehesten im Kontext der Beschreibung von Wiedergabewörtern, wenn diese nicht Nebensätze an sich binden, sondern Präpositionalphrasen (vgl. Abschnitt 10.1.1) (Beispiele nach Winkler 1988, 220–221): (170)
Er berichtet über die Ergebnisse seiner Forschungen.
(171)
Paul teilt mir seine neue Adresse mit.
Die Beispiele zeigen nur einen Teilbereich dessen, was hier unter ‚erzählte Wiedergabe‘ gefasst wird. Das Auftreten von Wiedergabewörtern ist allerdings das Merkmal, das am ehesten als Indikator für erzählte Wiedergabe fungieren kann, da diese Form ihrer Definition nach eine mehr oder minder ausführliche Erwähnung einer Sprach-, Denk- oder Schreibhandlung ist. Auch die Auswertungen des Moduls MarkSTWWords haben bestätigt, dass erzählte Wiedergabe eine starke Affinität zu Wiedergabewörtern hat (vgl. Abschnitt 10.1.2.4).
10.4.2 Das Modul MarkReported Das Modul MarkReported geht von diesen Feststellungen aus und versucht, erzählte Wiedergabe auf der Basis von Wiedergabewörtern und nach dem Ausschlussprinzip zu erkennen. Dabei wird so vorgegangen, dass die von dem Modul MarkSTWWords erkannten Wiedergabewörter zunächst als Eingabe für das Modul MarkIndirect und anschließend für das Modul MarkFrame genutzt werden. Alle Wiedergabewörter, die bei einem Modul zu einer Erkennung geführt haben, stehen den folgenden Modulen nicht mehr zu Verfügung, werden also ‚verbraucht‘. Auf die Kombination von MarkIndirect und MarkFrame und deren Auswirkungen wurde bereits in Abschnitt 10.3.4 eingegangen. Die Hypothese ist nun, dass die verbliebenen Wiedergabewörter – die weder Teile von indirekter Wiedergabe noch von Rahmenformeln sein sollten – Indikatoren für erzählte Wiedergabe sind. Das Modul MarkReported selbst ist extrem einfach und hat keine andere Funktion als die Markierungen für diese Wiedergabewörter in reported umzubenennen. Für die Auswertung wurde es als Erfolg gezählt, wenn eine Überlappung der manuellen und der automatischen Annotation vorlag. Diese Zählweise war not49 Es gibt zwar die so genannte ‚berichtete Rede‘, diese Form entspricht jedoch nicht dem, was hier unter ‚erzählte Wiedergabe‘ gefasst wird, sondern würde nach dem System der manuellen Annotation als ambig zwischen indirekter und freier indirekter Wiedergabe gewertet. Sie wird in Abschnitt 10.5 näher behandelt.
10.4 Die Erkennung erzählter Wiedergabe
|
197
wendig, da ja bei der automatischen Annotation nur einzelne Wiedergabewörter markiert werden. Dies entspricht dem Vorgehen beim Modul MarkFrame, ist aber in diesem Fall etwas problematischer, da erzählte Wiedergaben tendenziell komplexer sind als Rahmenformeln und die Wahrscheinlichkeit, dass innerhalb derselben manuellen Annotation mehrere Wiedergabewörter auftreten, größer ist. (172)
Der Kalif billigte den Vorschlag seines Veziers, und ging mit ihm dem Teich zu. (Hauff: Kalif)
In Beispiel 172 etwa werden die beiden unterstrichenen Wörter als reportedIndikatoren erkannt. Bei der manuellen Annotation ist der Gesamtsatz als erzählte Wiedergabe markiert. In diesem Fall werden beide gefundenen Wörter als die manuelle Annotation überlappend und damit als ‚richtig‘ klassifiziert. Daran sieht man, dass der Vergleich von den automatischen und manuellen reported-Annotationen keine 1:1-Abbildung ist. Solche und ähnliche Fälle sind bei der vorliegenden Zählung nicht selten. Tab. 10.16. MarkReported: Wiedergabewörter zur Voraussage von erzählter Wiedergabe – Vergleich verschiedener Konfigurationen, Ergebnisse für das Gesamtkorpus
Precision
Recall
F-Score
Alle STWWords bis penalty = 5
0,21
0,67
0,33
Reduzierte STWWords bis penalty = 5
0,30
0,60
0,40
Alle STWWords bis penalty = 2
0,27
0,57
0,37
Reduzierte STWWords bis penalty = 2
0,42
0,51
0,46
In Tabelle 10.16 wurden verschiedene Parameter variiert, um einen Eindruck zu bekommen, wie sie sich auf die Ergebnisse auswirken. Die erste Auswertung verwendet die Ergebnisse von MarkSTWWords auf der Basis der gesamten Wiedergabewortliste (bis penalty = 5) als Indikatoren für erzählte Wiedergabe. Bei der zweiten Auswertung wurden diese Annotationen durch die vorherige Anwendung von MarkIndirect und MarkFrame reduziert, wie oben beschrieben. Weiterhin wurde untersucht, wie es sich auswirkt, wenn aus der Liste der Wiedergabewörter von vornherein die weniger sicheren Kandidaten entfernt werden. Für diesen Test wurden nur die Wörter bis einschließlich penalty = 2 verwendet, was sich bei der Auswertung des Moduls MarkIndirect als die günstigste Untermenge erwiesen hatte. Auch hier gibt es wieder eine einfache Auswertung und
198 | 10 Regelbasierte Ansätze eine Auswertung nach Reduzierung der Annotationen durch die Anwendung von MarkIndirect und MarkFrame. Die Reduzierung bewirkt in beiden Fällen eine deutliche Steigerung der Precision und damit verbesserte F-Scores. Zudem kann man schon bei der ‚rohen‘ Verwendung der Ausgabe von MarkSTWWords eine Verbesserung durch die Verkürzung der Wiedergabewortliste feststellen. Es ergibt sich also, dass die restriktivste Konfiguration, die Verwendung der kürzeren Liste in Kombination mit der Reduzierung durch vorherige Anwendung der anderen Module, die günstigste Kombination ist. Dies ist insofern nicht ganz selbstverständlich, als erzählte Wiedergabe durchaus Wiedergabewörter mit höheren penalty-Werten verwendet. Jedoch scheint eine allzu großzügige Auswahl an Wiedergabewörtern die Precision so sehr zu verringern, dass der Gewinn beim Recall dies nicht ausgleicht. Der F-Score für die erfolgreichste Konfiguration – Wiedergabewörter bis penalty = 2 und vorherige Anwendung von MarkIndirect und MarkFrame – ist 0,46. In Tabelle 10.17 sind auch die Ergebnisse für die Einzeltexte aufgelistet. Tab. 10.17. MarkReported: Auswertung textweise auf der Basis von MarkSTWWords (bis penalty = 2) nach Anwendung von MarkIndirect und MarkFrame
Text
Precision
Recall
F-Score
Bernhardi: Belinde
0,35
0,47
0,40
Bürger: Münchhausen
0,50
0,55
0,52
Günderrode: Bramine
0,38
0,39
0,38
Hauff: Kalif
0,49
0,48
0,49
Hebbel: Kuh
0,19
0,67
0,30
Heym: Irre
0,26
0,50
0,34
Janitschek: Weib
0,27
0,50
0,35
Kafka: Gracchus
0,48
0,75
0,59
Kleist: Erdbeben
0,44
0,47
0,45
May: Ziege
0,42
0,58
0,49
Musäus: Entführung
0,56
0,38
0,46
Schnitzler: Ypsilon
0,45
0,67
0,54
Tieck: Eckbert
0,47
0,58
0,52
Durchschnitt Texte
0,40
0,54
0,45
Gesamtkorpus
0,42
0,51
0,46
10.5 Die Erkennung freier indirekter Wiedergabe
| 199
Dieses Ergebnis ist deutlich schlechter als die Erfolgsraten, die bei der Erkennung von indirekter und direkter Wiedergabe erzielt werden konnten, was bei einem so groben Verfahren wenig erstaunlich ist. Es ist allerdings ein erfreulicher Befund, dass die Erfolgswerte für die einzelnen Texte zumindest im Erzähltextkorpus einigermaßen gleichmäßig sind. Der stärkste Einbruch erfolgt bei Hebbel: Kuh und hat damit zu tun, dass recht viele Rahmenformeln aufgrund der ungewöhnlichen Zeichensetzung nicht erkannt und darum die entsprechenden Wörter nicht entfernt worden sind (vgl. Abschnitt 10.3.4). Zur Auswertung von erzählter Wiedergabe ist noch anzumerken, dass sich hier am deutlichsten die Probleme der manuellen Annotation zeigen. Betrachtet man die automatische Annotation, so entdeckt man immer wieder Instanzen, die als Erwähnungen einer Sprach- oder Denkhandlung aufgefasst werden können, aber bei der manuellen Annotation nicht berücksichtigt wurden, weil sie als Wiedergabe wenig prototypisch sind. Solche Grenzfälle werden vom automatischen Erkenner zuverlässiger identifiziert. Inwieweit diese wirklich als Wiedergaben relevant sind, ist letztendlich nur zu entscheiden, wenn das Anwendungsziel der automatischen Erkennung klarer definiert wird.
10.5 Die Erkennung freier indirekter Wiedergabe 10.5.1 Indikatoren für freie indirekte Wiedergabe Freie indirekte Wiedergabe ist besonders schwer zu erkennen, da es keine verlässlichen, gut fassbaren Oberflächenindikatoren für sie gibt. Weder verwendet sie eine konventionelle typographische Markierung, noch weist sie typische grammatische Strukturen auf, noch sind Wiedergabewörter für sie relevant. Im Folgenden werden einige Indikatoren aufgezählt, die dennoch Anhaltspunkte geben können. Eine Form, die bei der manuellen Annotation als Grenzfall zwischen indirekter und freier indirekter Wiedergabe annotiert wurde, ist die sogenannte ‚berichtete Rede‘ (auch ‚Redebericht‘), die in linguistischen Darstellungen oftmals im Kontext der indirekten Wiedergabe beschrieben wird. Es handelt sich um eine uneingeleitete Wiedergabe, die durch Konjunktiv markiert ist (Beispiel nach FabriciusHansen 2002, 14, Hervorhebungen von Fabricius-Hansen): (173)
Wedells Verteidiger Mario D. Opitz gab sich optimistisch. Der angebliche Beweis gegen seinen Mandanten reiche zu seiner Verurteilung nicht aus.
In der Duden-Grammatik wird die berichtete Rede so charakterisiert, dass sie eine „zweite Ebene (‚Figurenebene’) [bildet], die sich durch den Indirektheitskonjunk-
200 | 10 Regelbasierte Ansätze tiv explizit vom Rahmentext abhebt“ (Dudenredaktion 2005, § 771). Der Konjunktivgebrauch gilt bei dieser Form als obligatorisch, um diese Abgrenzung deutlich zu machen (vgl. auch Helbig/Buscha 2011, 177). Die berichtete Rede kann auch als Teil eines Satzes auftreten (Beispiel nach Bernhardt/Pedersen 2007, 155, Hervorhebung nach Bernhardt/Pedersen): (174)
Eine andere Studentin im Tutorium der Orientierung Generale würde gerne „was mit Medien machen“, aber der Numerus Clausus sei ihr in Hamburg zu hoch, die würde jetzt nach Lüneburg gehen. (SZ 1.1.2002:12)
Wie man sieht, muss diese Wiedergabeform nicht explizit eingeführt werden, es muss lediglich ein Kontext vorgegeben werden, in dem „eine zu referierende Sprechhandlung identifiziert werden kann“ (Bernhardt/Pedersen 2007, 155). Von Roncador ist der Auffassung, dass diese Form der Wiedergabe „sich nur auf Gesagtes, und nicht auf Gedachtes beziehen kann“ (von Roncador 1988, 147). Fabricius-Hansen relativiert diese Aussage, weist aber ebenfalls darauf hin, dass der selbstständige Konjunktivsatz bevorzugt zur Wiedergabe von Rede verwendet werde (vgl. Fabricius-Hansen 2001, 5). Dies könnte ein guter Indikator für die Differenzierung von Wiedergabe im engeren Sinn und Gedankenwiedergabe sein. Allerdings sind selbstständige Konjunktivsätze gerade durch ihre Struktur schwer als Wiedergabe zu erkennen: Sie enthalten außer der Konjunktivform keinen offensichtlichen Indikator und indirekte Wiedergabe ist nur eine Verwendungsart des Modus Konjunktiv. Es ist jedoch zu beobachten, dass selbstständige Wiedergaben im Konjunktiv oft auf eingeleitete indirekte Wiedergabesätze folgen und diese weiterführen. Dieses Phänomen könnte bei der automatischen Erkennung dieses Typs hilfreich sein. Um es zu nutzen, müsste allerdings bei der Erkennung über die Satzgrenze hinausgegangen werden, was im Rahmen dieser Studie nicht versucht wurden. Eine solche Erweiterung ist jedoch ein möglicher Ansatzpunkt für Weiterentwicklungen. Die ‚klassische‘ freie indirekte Wiedergabe verwendet allerdings keinen Konjunktiv, so dass dieser Indikator nur sehr bedingt nutzbar ist. Sie zeichnet sich gerade dadurch aus, dass sie ihre Verbform an die des umrahmenden Textes anpasst. Die IDS-Grammatik gibt ein typisches literarisches Beispiel (Beispiel nach Zifonun et al. 1997, 1776, Hervorhebung von Zifonun et al.): (175)
Er dachte an Kai und an das Wiedersehen mit ihm, an Herrn Pfühl, die Klavierstunden, den Flügel und sein Harmonium. Übrigens war morgen Sonntag, und der erste Schultag, übermorgen, war noch gefahrlos. Ach, er fühlte noch ein wenig Sand vom Strande in seinen Knöpfstiefeln. (ABM, 673)
10.5 Die Erkennung freier indirekter Wiedergabe
| 201
Die Verbform hilft in diesem Fall nicht bei der Identifizierung. Eine interessante Beobachtung macht allerdings Fabricius-Hansen: In der freien indirekten Wiedergabe wird (wenn der Erzähltext im Präteritum ist) zur Signalisierung von Zukunftsbezug prinzipiell die Konstruktion würde + Infinitiv verwendet. Insofern kann „das Vorkommen der würde-Konstruktion eine Textstelle als erlebte Rede ausweisen, die man sonst als Narautorentext auffassen könnte“ (FabriciusHansen 2002, 13). Dies wäre zumindest für einige Fälle ein Indikator, wobei auch hier zu beachten ist, dass die würde-Form auch andere Funktionen übernehmen kann. Hilfreich für das Finden von Indikatoren für freie indirekte Wiedergabe ist die Betrachtung nach Schmids Textinterferenzansatz (Schmid 2005, vgl. Abschnitt 4.3.4). Hierbei wird zwischen Personen- und Erzählertext unterschieden und es werden verschiedene Merkmale aufgeschlüsselt, in denen sich diese unterscheiden können und die sich mit einer gewissen Regelhaftigkeit auf der Textoberfläche niederschlagen. Die Liste aus Abschnitt 4.3.4 sei hier noch einmal reproduziert: – Grammatische Merkmale der Personalform (Person): verwendete grammatische Personalform bei Pronomina und Verben; meist 3. Person im heterodiegetischen Erzählertext, 1., 2. und 3. Person im Personentext – Grammatische Merkmale des Tempus (Zeit): verwendetes Tempus; meist Präteritum oder historisches Präsens im Erzählertext, alle Tempusformen im Personentext – Grammatische Merkmale des Zeigsystems (Zeigsystem): Bezeichnungen für Raum und Zeit der erzählten Handlung; im Personentext bezogen auf die Ich-Jetzt-Hier-Origo der Figur (z.B. heute, hier, dort, links), im Erzählertext anaphorische Zeigwörter, die sich auf frühere Angaben im Text zurückbeziehen (z.B. an diesem Tag, ebenda, an demselben Ort, links vom Helden) – Merkmale der Sprachfunktion (Sprachfunktion): unterschiedliche Sprachfunktionen (nach Bühler): Darstellung, Ausdruck oder Appell Tempusmerkmale und Personalform des Verbs sowie Pronomenverwendung können über morphologische Annotation identifiziert werden (wenn auch nicht fehlerfrei). Für die Identifizierung zumindest gängiger Deiktika wäre ein lexikalischer, listenbasierter Ansatz denkbar. Wenn, wie im prototypischen Fall von freier indirekter Wiedergabe, das Erzähltempus Präteritum ist und im gleichen Satz gegenwartsbezogene Deiktika gefunden werden (wie etwa in Beispiel 175), kann dieser Kontrast als Indikator dienen. Merkmale der Sprachfunktion können ebenfalls auf der Textoberfläche sichtbar sein. Wenn man davon ausgeht, dass freie indirekte Wiedergaben dazu tendieren, Ausdrucks- oder Appellfunktion zu haben, also emphatischer zu sein als
202 | 10 Regelbasierte Ansätze der reine Erzählertext, so kann sich das in typographischen Indikatoren niederschlagen, wie z.B. in einem häufigeren Vorkommen von Satzzeichen wie Fragezeichen, Ausrufezeichen und Gedankenstrichen. Gerade der Gedankenstrich ist in diesem Zusammenhang interessant: Er diente im 17. Jahrhundert ursprünglich v.a. als Anzeige rhythmisch-rhetorischer Gliederung beim mündlichen Vortrag, hat aber eine syntaktische Funktion gewonnen und kann verwendet werden, um elliptische Satzstrukturen zu signalisieren, die der mündlichen Rede oder dem Gedankenfluss nachgebildet sind. Daneben hat er im Kontext der literarischen Empfindsamkeit eine semantische Bedeutungsdimension entwickelt: Der Einsatz von Satzzeichen ist dort vielfach nicht mehr in erster Linie grammatisch bzw. orthographisch motiviert, ihnen wächst vielmehr eine eigenständige Ausdrucksfunktion zu. Der Gedankenstrich wird dabei vor allem genutzt, um die Kluft zwischen Empfinden und sprachlichem Ausdrucksvermögen zu markieren. (Wehde 2000, 100–101)
In dieser Funktion zeigt er eine Affinität zu der ‚innerlichen‘ Form der freien indirekten Wiedergabe. Auf der lexikalischen Ebene können Interjektionen ein Indikator sein, da sie zum einen auf emphatischen Sprachgebrauch hindeuten, zum anderen auf Mündlichkeit, was der Tatsache entspricht, dass freie indirekte Wiedergabe der direkten Wiedergabe stilistisch nahe steht. Weitere Indikatoren sind modalisierende Verbformen und Partikeln, die in freier indirekter Wiedergabe häufig vertreten sind (vgl. Toolan 2001, 131). Auf einer noch abstrakteren Ebene sind auch die folgenden Merkmale interessant: – Stilistische Merkmale der Lexik (Lexik): unterschiedliche Bezeichnungen für dieselben Objekte, allgemeine Wortwahl – Stilistische Merkmale der Syntax (Syntax): unterschiedliche syntaktische Muster Wenn zwischen der Erzähler- und der Figurenrede stilistische Unterschiede bestehen, so schlägt sich dies auch auf der Textoberfläche nieder, allerdings nicht in klar definierten Merkmalen, sondern in Form von Abweichungen, die im Vergleich zutage treten. Detaillierte Einzelanalysen hierzu liefert v.a. Fludernik 1993. Das Problem dieser Indikatoren ist, dass sie entweder nur auf sehr spezielle Fälle zutreffen oder selbst schwer fassbar sind – die stilistischen Unterschiede sind der Extremfall. Kein einzelner Indikator ist stabil genug, um ein regelbasiertes Modul darauf aufzubauen, das genug Allgemeingültigkeit besitzt, um brauchbare Ergebnisse zu liefern.
10.5 Die Erkennung freier indirekter Wiedergabe
| 203
10.5.2 Das Modul MarkFreeIndirect Trotz der schwierigen Situation bei freier indirekter Wiedergabe wurde der Prototyp eines Erkennungsmoduls implementiert. Damit soll v.a. eine Strategie angedeutet werden, mit der man sich diesem Wiedergabetyp auf regelbasiertem Wege annähern kann. An diesem Beispiel lassen sich zudem die Beziehungen zwischen regelbasierten Ansätzen und maschinellem Lernen (bzw. statistischen Ansätzen) exemplifizieren. Da kein einzelner Indikator stabil genug ist, um verlässliche Voraussagen zu erlauben, versucht das Modul, ihr Zusammenwirken zu erfassen. Die Erkennung erfolgt satzweise, da dies die üblichste Form freier indirekter Wiedergabe ist. Jeder Einzelsatz wird darauf untersucht, ob er Indikatoren aufweist, die für oder gegen freie indirekte Wiedergabe sprechen. Dafür erhält er positive oder negative Punkte, aus welchen ein Gesamtwert berechnet wird. Übersteigt dieser eine festgelegte Schwelle, so wird der Satz als free_indirect annotiert. In der Testversion werden folgende Indikatoren verwendet, die sich aus den Betrachtungen in Abschnitt 10.5.1 ergeben: – Positive Indikatoren: – Interjektionen: Satz erhält 2 Pluspunkte. (Interjektionen werden als ein besonders guter Indikator betrachtet, da sie selten vorkommen und außer für freie indirekte Wiedergabe nur für direkte Wiedergabe typisch sind.) – ‚Emphatisches‘ Satzzeichen (Fragezeichen, Ausrufezeichen, Gedankenstrich): Satz erhält 1 Pluspunkt. – würde oder würden: Satz erhält 1 Pluspunkt. – Wort aus der Gruppe der FI-Wörter: Satz erhält 1 Pluspunkt. Die Gruppe der ‚FI-Wörter‘ umfasst folgende Elemente (Lemmata): – (modalisierende) Partikeln: ja, nein, wohl, schon, eigentlich, sowieso, eben – Deiktiva: heute, morgen, gestern, jetzt, hier Diese grob zusammengestellte Liste soll zum einen die Tendenz der freien indirekten Wiedergabe zur informellen und mündlichen Sprache widerspiegeln, die häufig Partikeln enthält. Zum anderen sind die gegenwartsbezogenen Deiktika aufgenommen worden, die in einem Text im Präteritum den typischen dualen Bezug der freien indirekten Wiedergabe sichtbar machen können. – Negative Indikatoren: – Pronomen der 1. oder 2. Person: Auftreten verhindert, dass der Satz als free_indirect klassifiziert wird. – Anführungszeichen: Auftreten verhindert, dass der Satz als free_indirect klassifiziert wird.
204 | 10 Regelbasierte Ansätze –
Langer Satz: Satz erhält 4 Minuspunkte, wenn er mehr als 20 Wörter50 umfasst, und 2 Minuspunkte, wenn er mehr als 10 Wörter umfasst.
Wie man sieht, ist die Erkennung sehr restriktiv: Ungewöhnlichere Konstellationen, wie freie indirekte Wiedergabe, die Pronomen der 1. oder 2. Person oder Anführungszeichen enthält, werden von vornherein ausgeschlossen. Minuspunkte für lange Sätze sind nicht nur notwendig, weil freie indirekte Wiedergabe zu kurzen Sätzen tendiert, sondern vor allem deswegen, weil in einem langen Satz die Wahrscheinlichkeit hoch ist, dass dieser mehrere der Elemente enthält, die Pluspunkte bringen. Darum ist ein Ausgleich notwenig. Die Plus- und Minuspunkte eines Satzes werden addiert und es wird ein Schwellenwert festgelegt, der erreicht werden muss, damit der Satz als free_ indirect klassifiziert wird. Tabelle 10.18 zeigt die Auswertung für das Gesamttextkorpus. Tab. 10.18. MarkFreeIndirect: Ergebnisse für das Gesamtkorpus, Version 1
Precision
Recall
F-Score
Schwellenwert = 1
0,13
0,41
0,20
Schwellenwert = 2
0,15
0,12
0,13
Ist der Schwellenwert 1, werden trotz der restriktiven Regeln etwa drei mal so viele Sätze gefunden, wie bei der manuellen Annotation identifiziert. Dabei ist die Precision sehr schlecht, d.h. die Verteilung der gefundenen Instanzen hat wenig mit der realen Verteilung zu tun. Erhöht man den Schwellenwert auf 2, ist die Menge der gefundenen Sätze in etwa korrekt, aber die Precision verbessert sich kaum, so dass sich ein noch schlechterer F-Score ergibt als zuvor. Diese schlechten Ergebnisse sind wenig überraschend. Das System der Plusund Minuspunkte ist grob und die Zuweisung der Werte zu den einzelnen Indikatoren nur abgeschätzt. Die Definition der Einzelindikatoren müsste verfeinert werden (v.a. was die Gruppe der FI-Wörter angeht) und man könnte weitere Indikatoren einbeziehen. Insgesamt beruht das gesamte Vorgehen auf einer feinen Ausbalancierung der einzelnen Wertungen in Relation zum Schwellenwert. Das Modul ist zwar insofern regelbasiert, als alle Gewichtungen und Indikatoren manuell
50 20 Wörter ist ungefähr die Durchschnittslänge von Sätzen im Erzähltextkorpus.
10.5 Die Erkennung freier indirekter Wiedergabe
| 205
festgelegt werden, jedoch ist das Zusammenwirken der einzelnen Faktoren im Anwendungsfall nur noch schwer vorherzusagen. Im Grunde beruht das Vorgehen auf der Abschätzung von Wahrscheinlichkeiten: Wie viel Gewicht für die Klassifizierung haben bestimmte Indikatoren? Wie spielen die Indikatoren zusammen? Dies weist deutliche Parallelen zum maschinellen Lernen auf, wo anhand von Beispieldaten ein statistisches Modell aufgebaut wird, das dann verwendet wird, um andere Daten zu klassifizieren. Der Prozess wird in Kapitel 11 ausführlich beschrieben und soll hier nicht vertieft werden. Allerdings wurde noch ein weiterer Test durchgeführt, der die Beziehungen zwischen den beiden Verfahren anschaulich illustriert. Tab. 10.19. MarkFreeIndirect: Ergebnisse für das Gesamtkorpus, Version 2 mit Indikator ADV
Precision
Recall
F-Score
mit relativem Anteil von Adverbien (ADV) als Indikator Schwellenwert = 1
0,15
0,74
0,25
Schwellenwert = 2
0,24
0,44
0,31
Beim zweiten Testlauf wurde ein zusätzlicher Indikator eingeführt, der von der Attributbewertung im Rahmen des maschinellen Lernens inspiriert ist. Dort wurden verschiedene mögliche Indikatoren mit statistischen Methoden bewertet, und es zeigte sich, dass ein hoher Anteil von Adverbien (d.h. von Elementen, die vom TreeTagger als ADV klassifiziert wurden) im Satz ein sehr guter Indikator für freie indirekte Wiedergabe ist (vgl. 11.7.2). Da Adverbien weniger spezifisch sind als die anderen verwendeten positiven Indikatoren, kommt es vor allem bei langen Sätze zu starken Verzerrungen, wenn man jedes Auftreten eines Adverbs mit einem Pluspunkt belohnt. Darum wird der Faktor relativ zur Satzlänge gewichtet: Die Menge der Adverbien im Satz wird durch die Satzlänge geteilt und mit 10 multipliziert. Das Resultat wird echt gerundet und zum Gesamtwert gezählt. Das bedeutet, wenn mehr als 5 % der Wörter eines Satzes Adverbien sind, gibt es einen Pluspunkt, wenn es mehr als 15 % sind 2 Pluspunkte usw. Wie Tabelle 10.19 zeigt, führt die Einbeziehung dieses Indikators bei einem Schwellenwert von 1 zu einer noch stärkeren Übererkennung bei gleichbleibend schlechter Precision. Wenn man allerdings den Schwellenwert auf 2 hebt, verbessert sich die Treffgenauigkeit stark und es kann ein F-Score von 0,31 erreicht werden – ein deutlich höherer Wert als bei der Erkennung ohne die relativ gewichteten Adverbien. Daran zeigt sich, dass
206 | 10 Regelbasierte Ansätze dieser Erkennertyp von Erkenntnissen, die aus der statistischen Auswertung von empirischen Daten gewonnen werden, direkt profitieren kann. Tab. 10.20. MarkFreeIndirect: Auswertung textweise
Text
Korrekt
Nur Manuell
Nur Regel
Recall
Precision F-score
Bernhardi: Belinde
0
0
5
0,00
1,00
0,00
Bürger: Münchhausen
0
0
1
0,00
1,00
0,00
Günderode: Bramine
0
0
7
0,00
1,00
0,00
Hauff: Kalif
0
0
16
0,00
1,00
0,00
Hebbel: Kuh
0
0
9
0,00
1,00
0,00
Heym: Irre
47
51
31
0,60
0,48
0,53
Janitschek: Weib
0
7
5
0,00
0,00
0,00
Kafka: Gracchus
0
0
2
0,00
1,00
0,00
Kleist: Erdbeben
0
2
22
0,00
0,00
0,00
May: Ziege
0
0
20
0,00
1,00
0,00
Musäus: Entführung
0
0
7
0,00
1,00
0,00
Schnitzler: Ypsilon
1
1
13
0,07
0,50
0,12
Tieck: Eckbert
0
1
17
0,00
0,00
0,00
0,05
0,69
0,05
0,24
0,44
0,31
Durchschnitt Texte Gesamtkorpus
48
62
155
Tabelle 10.20 zeigt die Ergebnisse für die einzelnen Texte bei dieser Konfiguration. Viele Texte des Erzähltextkorpus enthalten überhaupt keine Instanz von free_indirect. Diese können nur entweder einen F-Score von 1 haben, wenn der automatische Erkenner ebenfalls keine Instanz gefunden hat, oder einen FScore von 0, wenn mindestens eine Instanz gefunden wurde. Dies ist wenig aussagekräftig, weshalb in der Tabelle zusätzlich zu Precision, Recall und F-Score angegeben ist, wie viele Instanzen korrekt erkannt wurden, wie viele manuell annotiert sind, aber nicht automatisch gefunden wurden, und wie viele fälschlicherweise automatisch annotiert wurden. Man kann sehen, dass die Anzahl der fälschlich erkannten Instanzen bei den verschiedenen Texten deutlich unterschiedlich ist. Gerade bei den Texten, die laut manueller Annotation gar keine freie indirekte Wiederangabe enthalten, ist dies kein erfreulicher Befund, da es zeigt, dass die Fehlerrate des Moduls nicht konstant ist.
10.6 Fazit
|
207
Die Ergebnisse für die Erkennung freier indirekter Wiedergabe sind insgesamt deutlich schlechter als die für die anderen Wiedergabetypen. Es ist jedoch wahrscheinlich, dass das Modul MarkFreeIndirect durch weiteres Austarieren der Gewichtungen und das Einbeziehen weiterer Indikatoren verbessert werden könnte. Davon wurde jedoch aus zwei Gründen abgesehen: Zum einen wäre dies aufwändig und würde viel experimentelle Arbeit voraussetzen, zum anderen wäre das Ergebnis höchstwahrscheinlich schlecht auf andere Texte übertragbar: Die Anpassung der Gewichtung würde anhand der Ergebnisse am Erzähltextkorpus erfolgen und damit sehr gezielt auf die Fälle von freier indirekter Wiedergabe abgestimmt, die dort vorkommen. Es ist davon auszugehen, dass maschinelle Lernmethoden mit sehr viel weniger Aufwand zu gleichwertigen oder besseren Ergebnissen kommen. Das Modul MarkFreeIndirect ist also noch mehr als die anderen regelbasierten Module als Prototyp für eine Vorgehensweise zu verstehen.
10.6 Fazit 10.6.1 Gesamtauswertung der regelbasierten Erkennung Wie bereits deutlich wurde, hat es in vielen Fällen Vorteile, die einzelnen Module miteinander zu kombinieren, um die Gesamtergebnisse zu verbessern. Im Folgenden soll noch einmal im Überblick dargestellt werden, wie die regelbasierte Erkennung abläuft. Abbildung 10.4 illustriert die Zusammenhänge. Die Module MarkSTWWords, MarkIndirect, MarkFrame sowie das Modul MarkReported werden in genau dieser Reihenfolge angewendet. Die Module MarkQuotation und MarkFreeIndirect sind unabhängig davon und können zu einem beliebigen Zeitpunkt angewendet werden. Die Ergebnisse von MarkFrame und MarkQuotation werden für die Erkennung direkter Wiedergabe kombiniert. Außer den Annotationen von MarkFreeIndirect, die sich sowieso immer auf einen Satz erstrecken, werden alle Annotationen für die Endauswertung so konvertiert, dass ein Abgleich satzweise erfolgen kann, was durch das Modul RW-Sentences geschieht.
208 | 10 Regelbasierte Ansätze
Abb. 10.4. Ablauf der regelbasierten Erkennung
Die Auswertung auf Satzbasis ist aus mehreren Gründen sinnvoll. Zum einen ist sie bei der Erkennung direkter Wiedergabe mit Hilfe der Kombination aus MarkQuotation und MarkFrame sowieso nötig, und die Ergebnisse werden vergleichbarer, wenn sie für die anderen Wiedergabetypen genauso durchgeführt wird. Zudem leistet auch das Modul MarkReported keine auch nur annähernd exakte Erkennung von Instanzengrenzen – es markiert einzelne Wörter. Es geht also bei einer Auswertung nach Sätzen keine wichtige Information verloren. Vor allem aber arbeiten die maschinellen Lernverfahren, die im Rahmen dieser Studie vorgestellt werden, auf Satzbasis (vgl. Abschnitt 11.2), so dass ein direkter Vergleich nur möglich ist, wenn die Ergebnisse der regelbasierten Erkennung entsprechend konvertiert werden.
10.6 Fazit | 209 Tab. 10.21. Gesamtauswertung der regelbasierten Annotation auf Satzbasis
Recall
F-score
direct
0,81
0,87
0,84
free_indirect
0,24
0,44
0,31
indirect
0,81
0,62
0,71
reported
0,51
0,64
0,57
1.0
Precision
● ●
●
●
●
0.8
●
● ●
0.6
● ●
0.4
●
●
●
dir Regel ind Regel rep Regel
Tieck
Schnitzler
Musäus
May
Kleist
Kafka
Janitschek
Heym
Hebbel
Hauff
Günderode
Bürger
Bernhardi
0.0
0.2
F1.0−Score
●
Abb. 10.5. F-Scores der Einzeltexte bei regelbasierter Erkennung (ohne freie indirekte Wiedergabe)
210 | 10 Regelbasierte Ansätze Die in Tabelle 10.21 präsentierten Werte sind die endgültigen Ergebnisse für den Gesamterfolg der regelbasierten Erkennung der Wiedergabetypen direct, free_indirect, indirect und reported, die auch im Folgenden für Vergleiche verwendet werden. Es wurden jeweils die erfolgreichsten getesteten Konfigurationen verwendet. Der Grenzwert für Wiedergabewörter bei Anwendung des Moduls MarkSTWWords war penalty≤2. Die Werte sind aufgrund der veränderten Auswertungsmethode nicht immer identisch mit den Endergebnissen in den vorherigen Darstellungen. Abbildung 10.5 zeigt die F-Scores der Einzeltexte und vermittelt damit einen Eindruck, wie stabil die Erkennungsraten sind. Dies ist wichtig, denn instabile Erfolgsraten sind ein Problem, wenn der Erkenner eingesetzt werden soll, um Entwicklungslinien von Wiedergabekategorien über eine Vielzahl von Texten hinweg abzuschätzen, denn dadurch werden die Ergebnisse schlecht vergleichbar. Am erfolgreichsten ist die Erkennung von direkter Wiedergabe mit einem FScore von 0,84. Mit Hilfe des Indikators ‚Anführungszeichen‘ kann für einige Texte eine Erkennungsrate von nahezu 100 % erreicht werden, die zusätzliche Verwendung der Rahmenformel als Indikator verhindert völliges Versagen bei Texten, wo Anführungszeichen fehlen. Allerdings sind die Erfolgsraten für diesen Wiedergabetyp trotzdem starken Schwankungen unterworfen, was die Verlässlichkeit des Erkennungsmoduls beeinträchtigt. Bei der Erkennung von indirekter Wiedergabe wird ein F-Score von 0,71 erreicht. Hier konnten keine so klaren Markierungen wie Anführungszeichen genutzt werden, jedoch ermöglichte es die recht formale Definition von indirekter Wiedergabe, die Strukturen recht gut zu erfassen. Dies sieht man daran, dass die Precision für indirekte Wiedergabe mit 0,81 hoch ist, sogar genauso hoch wie für direkte Wiedergabe. Auch hier sind Schwankungen in den Erfolgsraten zu beobachten, wenn auch nicht ganz so stark wie bei direkter Wiedergabe. Bei erzählter Wiedergabe beträgt der F-Score 0,57, mit einer Precision von 0,51. In Anbetracht der Tatsache, dass diese Form der Wiedergabe nur über lexikalische Indikatoren erfasst wurde, da sie keine klaren strukturellen Merkmale aufweist, ist es nicht erstaunlich, dass der Erfolg geringer ist. Hier profitieren die Ergebnisse am deutlichsten von der großzügigeren Auswertung auf Satzbasis, da bei dieser viele Fehler der groben Erkennung irrelevant werden. Die Erkennungsraten der einzelnen Texte sind zwar fast immer schlechter als für die beiden anderen Wiedergabeformen, jedoch etwas ausgeglichener. Die Werte für freie indirekte Wiedergabe fehlen in Abbildung 10.5, da die FScores für die Einzeltexte in diesem Fall nicht aussagekräftig sind (vgl. Tabelle 10.18, Abschnitt 10.5.2). Der Gesamt-F-Score von 0,31 für diese Wiedergabetechnik ist aufgrund der besonderen Schwierigkeit der Erfassung mit Abstand der schlechteste.
10.6 Fazit
|
211
Eine zentrale Rolle nimmt bei den exemplarisch umgesetzten Erkennungsstrategien das Modul MarkSTWWords mit seiner Wiedergabewortliste ein. Dies trägt dazu bei, dass die Ergebnisse der darauf aufbauenden Module für die einzelnen Texte ziemlich ungleichmäßig sind, da es sich bei den Wiedergabewörtern um rein lexikalische Indikatoren handelt und die Lexik von Text zu Text den stärksten Schwankungen unterworfen ist. In den Abschnitten zu MarkFrame (10.3.4), MarkReported (10.4) und v.a. MarkIndirect (10.2.4) wurde zudem demonstriert, dass die Variation der Wiedergabewortliste starke Auswirkungen auf die Ergebnisse hat. Wie zu erwarten, ist die regelbasierte Erkennung dann am erfolgreichsten, wenn die Besonderheiten, die eine Kategorie aufweist, sowohl klar erkennbar sind als auch häufig auftreten. Strukturelle, vor allem formal-strukturelle Merkmale sind dabei am günstigsten, da sie eine größere Stabilität gegenüber textspezifischer Variation besitzen als lexikalische Indikatoren. Bei direkter und indirekter Wiedergabe sind diese Voraussetzungen noch bis zu einem gewissen Grad gegeben. Bei erzählter Wiedergabe konnten die Ergebnisse dadurch verbessert werden, dass man sich das Wissen über Strukturen der anderen Wiedergabetypen zu Nutze macht und deren Erkennung zuerst durchführt, so dass die Kandidaten für erzählte Wiedergabe im Voraus reduziert werden. Für freie indirekte Wiedergabe konnten zwar einige mögliche Indikatoren identifiziert werden, jedoch haben diese alle eine so geringe Häufigkeit oder Verlässlichkeit, dass es sehr schwer ist, ein regelbasiertes Modul zu entwickeln. Eine Erkennung mit Hilfe von maschinellem Lernen ist in diesem Fall Erfolg versprechender.
10.6.2 Andere Wiedergabeerkenner Im Folgenden soll kurz auf ein paar Beispiele für die Umsetzung der automatischen Erkennung von Wiedergabe in anderen Projekten eingegangen werden, um die vorgestellten Erkenner-Prototypen und ihre Ergebnisse besser einordnen zu können. Alle dargestellten Ansätze sind regelbasiert, weshalb sie an dieser Stelle behandelt werden. Mit der Erkennung direkter Wiedergabe beschäftigen sich die Darstellungen von Mamede/Chaleira 2004 und Elson/McKeown 2010. Mamede/Chaleira entwickeln ein System, das in portugiesischen Kindergeschichten identifiziert, welche Passagen von einer Figur gesprochen werden. Mit Hilfe dieser Annotation soll ein Sprachsyntetisierungssystem die richtige Stimme für die Passagen auswählen können. Die Identifizierung geschieht mit Hilfe von Heuristiken, die auf der Grundlage eines Trainingskorpus von 11 Kindergeschichten entwickelt wurden. Entstehungszeit, Umfang und Formatierung der Texte werden nicht
212 | 10 Regelbasierte Ansätze näher beschrieben. Die Heuristiken verwenden Oberflächenmerkmale wie das Auftreten von Gedankenstrichen, Ausrufe- und Fragezeichen, Pronomen der 1. oder 2. Person, Zeitadverbien, bestimmten Tempusformen oder von Verben, die Sprachhandlungen beschreiben. Die genaue Formulierung der Regeln wird nicht angegeben, es scheint sich jedoch meist um eine Kombination von Indikatoren, vermutlich in Form einer Mustersuche, zu handeln. Den Heuristiken können Wahrscheinlichkeitswerte zugeordnet werden, die das Maß an Vertrauen in die Kategorisierung ausdrücken und die Schwelle, wann eine Kategorisierung akzeptiert wird, kann angepasst werden. Die mit Abstand erfolgreichste Heuristik ist das Auftreten eines Gedankenstrichs am Anfang eines Abschnitts. Der Gebrauch von Anführungszeichen (‚inverted commas‘) hingegen erweist sich nicht als taugliche Heuristik. Dies deutet darauf hin, dass die typographische Markierung direkter Wiedergabe im Portugiesischen (oder zumindest in dem verwendeten Korpus) deutlich anderen Konventionen gehorcht als im Deutschen. Die Erkennung erreicht eine Erfolgsrate (Precision) von 89 % für das Gesamtkorpus von 15 Geschichten und von 92 % nur für die 4 Geschichten, die bei der Formulierung der Heuristiken nicht berücksichtigt wurden. Elson/McKeown konzentrieren sich in ihrem System vor allem auf die Zuordnung von Sprechern zu Passagen direkter Wiedergabe. Sie verwenden die Ergebnisse, um soziale Netzwerke zwischen Figuren in literarischen Werken aus deren Dialogpassagen abzuleiten (vgl. Elson et al. 2010). Während die Autoren ein elaboriertes System für die Sprecherzuordnung vorstellen, wird die Erkennung der direkten Wiedergabe selbst nur in einem Nebensatz abgehandelt: „quoted speech is a block of text within a paragraph falling between quotation marks.“ (Elson/McKeown 2010, 1014) Sie verwenden also eine ähnlich einfache Strategie wie das Modul MarkQuotation. Erfolgsraten werden lediglich für die Zuordnung zu Sprechern angegeben, aber offenbar funktioniert die Erkennung von Passagen direkter Wiedergabe für das verwendete Korpus von 11 englischen (bzw. ins Englische übersetzten) Romanen und Erzählungen von Autoren des 19. Jahrhunderts (Umfang: ca. 111.000 Wörter) so gut, dass die Autoren keine Notwendigkeit zur Verfeinerung sehen. In der darauf aufbauenden Studie (Elson et al. 2010) wird dasselbe System auf ein Korpus mit 60 Texten und mehr als 10 Millionen Wörtern angewendet. Zwei weitere Darstellungen, Sarmento/Nunes 2009 und Krestel et al. 2008 erfassen nicht nur direkte, sondern auch indirekte Wiedergabe, wobei nicht zwischen diesen beiden Formen differenziert wird. Beide Ansätze sind für die Anwendung auf Nachrichtentexte entwickelt. Sarmento/Nunes beschreiben eine Komponente ihres Programms ‚verbatim‘, welches Kurznachrichten über RSS-Dienste empfängt und aufbereitet, um die Informationen für den Benutzer besser zugänglich zu machen. Die Anwendungssprache ist Portugiesisch. Das Ziel ist es, Wieder-
10.6 Fazit
|
213
gaben mitsamt deren Sprecher aus den Nachrichtentexten zu extrahieren und ihnen ein Themengebiet zuzuordnen. Für die Extraktion verwenden die Autoren das folgende Grundmuster: [Name of Speaker], [Speech Act] [Direct or Indirect Quote]. Insgesamt werden 19 leichte Variationen dieses Grundmusters verwendet, deren genaue Formulierung in der Darstellung nicht wiedergegeben ist. Die Extraktion erfolgt mit Hilfe von regulären Ausdrücken und Wortlisten, darunter eine Liste mit 35 ‚speech acts‘ (Verben, die Sprachhandlungen beschreiben). Sarmento/Nunes liefern keine genauen Erfolgsraten, aber geben an, dass etwa 5 % der Kurznachrichten auf die Muster passen (vgl. Sarmento/Nunes 2009, 3). D.h. der Recall ist gering und die Autoren gehen selbst darauf ein, dass es noch zahlreiche weitere Muster für Wiedergabe gäbe. Krestel/Bergler/Witte präsentieren den elaboriertesten Erkenner für Wiedergabe und gehen am meisten ins Detail, darum soll ihr Ansatz ausführlicher dargestellt und mit den Ergebnissen der regelbasierten Erkennung verglichen werden. Entwickelt wurden Komponenten für die automatische Erkennung von Wiedergabe im Englischen, der intendierte Anwendungsbereich sind Zeitungstexte. Ziel ist es, bei Wiedergabeabschnitten die Quelle (i.e. den Sprecher im weitesten Sinne), das Wiedergabeverb und den Inhalt der Wiedergabe zu markieren. Diese Annotationen sollen dann für automatische semantische Analysen und automatisches Schlussfolgern weiter verwendet werden. Wiedergaben sind dabei von Interesse, weil ihr Verlässlichkeitsstatus ein anderer ist als bei Erzählertext (vgl. Krestel et al. 2008, 2823, zum Fuzzy Believer System vgl. auch Krestel et al. 2007). Die Autoren beschränken sich bei der Erkennung auf direkte und indirekte Wiedergabe, welche nicht unterschieden werden, da sie – für die Zwecke der Autoren – die gleiche Funktion erfüllen. Freie indirekte Wiedergabe wird ausgeschlossen, da diese Form nach ihren Angaben in nordamerikanischen Zeitungstexten so gut wie nie vorkommt (vgl. Krestel et al. 2008, 2824). Ebenfalls ausgenommen sind Infinitivkonstruktionen und Konstruktionen mit Ellipsen, da diese nicht als echte Wiedergaben angesehen werden: „infinitival and other omitted constructs no longer report the speech of others, but interpret their actions or utterances, which requires a different treatment.“ (Krestel et al. 2008, 2825) Zudem ist die Erkennung auf Aussagesätze beschränkt. Die Komponenten wurden für das GATE-Framework entwickelt, das auch für diese Studie verwendet wird. In der Vorverarbeitung wird neben Tokenisierung, Satzgrenzenerkennung und morphologischer Analyse auch Chunking durchgeführt, d.h. es werden komplexere Verbal- und Nominalphrasen identifiziert. Außerdem umfasst die Vorverarbeitung Verbgruppierung, bei der Gruppen von koordinierten Verbalphrasen gebildet werden. Der Wiedergabeerkenner selbst besteht aus zwei Komponenten. Zum einen gibt es den ‚Reporting Verb Marker‘, welcher Verben identifiziert, die eine Wiedergabe einleiten. Die aktuelle Version arbeitet
214 | 10 Regelbasierte Ansätze mit einer Liste von 54 Verben, die die Autoren als die häufigsten Verben mit dieser Funktion bezeichnen. Jeder Eintrag ist mit recht ausführlichen Angaben zu den grammatischen und semantischen Merkmalen des Verbs versehen. Die zweite Komponente ist der ‚Reported Speech Finder‘, welcher 6 allgemeine Muster implementiert, die verschiedene mögliche Abfolgen der Informationseinheiten ‚Quelle‘, ‚Wiedergabeverb‘ und ‚Inhalt‘ darstellen. Die Muster funktionieren ähnlich wie die Muster bei MarkFrame und verwenden auch Satzzeichen wie Komma und Anführungszeichen als Indikatoren (vgl. Krestel et al. 2008, 2826). Die Auswertung erfolgte auf der Basis von sieben Zeitungsartikeln mit etwa 6100 Wörtern und 400 Sätzen, die 133 Fälle von direkter oder indirekter Wiedergabe enthalten. Bei einer Auswertung, die kleinere Fehler in der Zuordnung toleriert, wurde eine Precision von 1,00, ein Recall von 0,79 und ein F-Score von 0,88 erreicht (vgl. Krestel et al. 2008, 2826).51 Die Hauptfehlerquellen sind Fälle, in denen Teile der Einleitungformel als Inhalt der Wiedergabe interpretiert wurden. Interessant ist, dass bei der Fehleranalyse ein Fall gezeigt wird, wo die Erkennung einer indirekten Wiedergabe an einem eingeschobenen Relativsatz scheitert, ein Problem, das genauso beim Modul MarkIndirect auftreten kann (vgl. Krestel et al. 2008, 2827). Obgleich die Komponenten im GATE-System implementiert und frei verfügbar sind, konnte von diesem Ansatz nichts direkt übernommen werden, da der Erkenner für das Englische entwickelt wurde. Es gibt allerdings gewisse Parallelen zwischen der Herangehensweise von Krestel/Bergler/Witte und der Zusammenarbeit der Module MarkSTWWords und MarkIndirect bzw. MarkFrame: In beiden Fällen werden in einem ersten Schritt Wiedergabewörter identifiziert, um dann in einem zweiten Schritt nach Mustern zu suchen. Allerdings ist die notwendige Vorverarbeitung bei Krestel/Bergler/Witte komplexer, da sie Clustering und Verbgruppierung voraussetzen. Auch der Detailgrad der Ergebnisse ist deutlich höher, da auf die genaue Trennung von Quelle und Inhalt Wert gelegt wird, während bei der Erkennung im Rahmen dieser Studie kein Versuch unternommen wird, die innere Struktur der Wiedergabe weiter zu analysieren. Dafür unterscheiden Krestel/Bergler/Witte nicht zwischen direkter und indirekter Wiedergabe, sind also in diesem Punkt großzügiger. Ihre Wiedergabewortliste ist wesentlich kürzer als die von MarkSTWWords verwendete, dafür sind die einzelnen Ein-
51 Am Schluss des Artikels präsentieren die Autoren leicht unterschiedliche Erfolgswerte: eine Precision von 0,98 und einen Recall von 0,83 (Krestel et al. 2008, 2828). Man kann vermuten, dass dies die Ergebnisse bei einer strengen Auswertung sind, wobei der erhöhte Recall in diesem Fall erstaunlich wäre.
10.6 Fazit
|
215
träge mit sehr viel mehr Information angereichert. Bei der Erkennung schließen sie Strukturen aus, die von MarkIndirect erfasst werden (indirekte Wiedergabe mit Infinitiv-Komplement), nehmen aber auch Strukturen hinzu, für die im Modul MarkIndirect keine Regeln implementiert sind (Strukturen mit nachgestellter oder eingeschobener Rahmenformel). Rechnet man die Ergebnisse der satzbasierten Auswertung für direct und indirect zusammen, die mit den im Rahmen dieser Studie entwickelten Modulen erreicht wurden, so ergibt sich für Recall, Precision und F-Score jeweils ein Wert von 0,81. Ein direkter Vergleich mit den Ergebnissen von Krestel/Bergler/Witte ist jedoch aufgrund der zahlreichen Unterschiede in den Voraussetzungen nicht wirklich aussagekräftig. Außerdem sei angemerkt, dass das Erzähltextkorpus mit 57.000 Tokens und 2586 Sätzen – wobei 917 Sätze direkte und 300 Sätze indirekte Wiedergabe enthalten – wesentlich größer ist als das Testkorpus von Krestel/Bergler/Witte. Zudem sind die literarischen Texte aus einem Zeitraum von ca. 130 Jahren höchstwahrscheinlich weniger einheitlich als die von Krestel/Bergler/Witte verwendeten Zeitungstexte. Der Vergleich mit anderen Ansätzen zur Erkennung von Wiedergabe zeigt, dass ähnliche Strategien verfolgt werden wie die hier vorgestellten. Insbesondere Wiedergabewörter und – in geringerem Maße – Anführungszeichen sind wiederkehrende Indikatoren. Was den Komplexitätsgrad der verwendeten Regeln angeht, so ist dieser im Vergleich zu den im Rahmen dieser Studie implementierten Modulen ähnlich oder etwas höher. Die Ansätze haben alle eine Tendenz, stärker auf Precision als auf Recall zu optimieren, weshalb sie sich auf verlässliche Muster beschränken. Die Differenzierung zwischen verschiedenen Arten von Wiedergabe steht nicht im Vordergrund. Der Fokus liegt stattdessen auf den häufigsten Techniken, d.h. auf direkter und in manchen Fällen auf indirekter Wiedergabe. Der angestrebte Detailgrad der Erkennung ist höher: So wird in allen Fällen versucht, auch den Sprecher der Wiedergabe zu identifizieren. Die Annotation von Wiedergabe ist zudem immer ein Baustein in einem größeren Anwendungszusammenhang, weshalb vor allem nach praktischen Strategien für die jeweiligen Daten gesucht wird, nicht nach allgemeinen Lösungen.
10.6.3 Möglichkeiten der Weiterentwicklung Bei der regelbasierten Erkennung im Rahmen dieser Studie werden durchgehend recht grobe und oberflächenorientierte Strategien bevorzugt. Die Entwicklung von komplexeren und auch linguistisch adäquateren Regelsystemen wäre möglich, dies würde aber eine bessere Vorverarbeitung voraussetzen und einen wesentlich höheren Aufwand bei der Regelformulierung nach sich ziehen. Es
216 | 10 Regelbasierte Ansätze gibt mehrere Gründe, wieso dieser Weg nicht eingeschlagen wurde. Zunächst ein sehr pragmatischer: Der Fokus dieser Studie liegt auf vielerlei Fragestellungen zugleich. So stellt die Erkennung jeder der vier Wiedergabetypen jeweils unterschiedliche Anforderungen, zudem sollen verschiedene Herangehensweisen (regelbasiert und maschinelles Lernen) ausgelotet werden. Für die Entwicklung jeder einzelnen Komponente konnten darum nur begrenzt Ressourcen aufgewendet werden. So erschien es sinnvoll, zunächst die Möglichkeiten einfacher Methoden auszuloten, um bei Weiterentwicklungen entscheiden zu können, ob eine Erhöhung der Komplexität lohnenswert ist. Dies muss nicht zwangsläufig der Fall sein, denn weniger komplexe Methoden haben einige Vorteile: – Robustheit: Jeder Vorverarbeitungsschritt bedeutet den Versuch, über die Sprachoberfläche zu abstrahieren, wobei jede Komponente auf den vorhergehenden aufsetzt. In Abschnitt 8 wurde bereits auf die Probleme bei Tokenisierung und Tagging hingewiesen. Parsing, also die automatische Erkennung der Satzstruktur, ist eine noch deutlich komplexere Aufgabe, bei der wiederum Fehler hinzukommen können. Wenn sich die selbst formulierten Regeln auf viele Vorverarbeitungskomponenten stützen, dann ist die Wahrscheinlichkeit höher, dass auf unerwartete Eingaben nicht adäquat reagiert werden kann, so dass eventuell sogar gar keine Ergebnisse geliefert werden. Darum sollte zumindest die Möglichkeit eingebaut werden, auf einfache, robuste Regeln zurückzugreifen, wenn die komplexere Analyse versagt. – Universalität: Komplexe, regelbasierte Methoden funktionieren am Besten, wenn ihr Anwendungsbereich beschränkt ist, z.B. auf eine einzige, auf bestimmte Art und Weise aufbereitete Sorte von Texten. Das Erkenntnisziel dieser Studie bezieht sich jedoch auf das Vorkommen eines recht allgemeinen Phänomens – Wiedergabe – innerhalb eines sehr großen und diversen Gegenstandsbereichs – deutsche Erzähltexte. So ist es nahe liegend, zunächst grobe und allgemeingültige Ansätze zu verfolgen. – Verfügbarkeit: Die hier vorgestellten Module sollen für interessierte Leser selbst anwendbar sein. Deswegen verlangen sie kein speziell aufbereitetes Korpus, keinen optimierten (und höchstwahrscheinlich kostenpflichtigen) Parser und stellen überhaupt so gut wie keine besonderen Anforderungen an die Eingabetexte. Die nicht speziell für diese Studie entwickelten Werkzeuge sind alle frei verfügbar, und alle Textmerkmale, auf die zugegriffen wird, sind so grundlegend, dass sie bei jedem elektronischen Text vorhanden sein sollten. Ist man jedoch bereit, sowohl in die Vorverarbeitung als auch in die Formulierung der Regeln deutlich mehr zu investieren und eventuelle Einschränkungen in
10.6 Fazit
|
217
der Verfügbarkeit in Kauf zu nehmen, so könnten die Erkenner zweifellos davon profitieren. Das größte Entwicklungspotential liegt vermutlich in einer Erweiterung und Verfeinerung des Moduls MarkSTWWords. Dieses ist die Grundlage für mehrere andere Module und wird auch beim maschinellen Lernen eine Rolle spielen. Ein offensichtlicher Ansatzpunkt für Verbesserungen ist die Wiedergabewortliste. Es wäre wünschenswert, deren Einträge sorgfältiger, am Besten auf Basis von Korpusstudien, auszuwählen und mit Informationen anzureichern. Neben grammatischen Informationen wären hier vor allem die Wahrscheinlichkeiten interessant, mit denen die einzelnen Wörter als Teil eines bestimmten Wiedergabetyps auftreten. Im Vergleich zu den groben penalty-Werten würde hier eine Differenzierung eindeutige Vorteile bringen, da bereits klar geworden ist, dass die Formen frame, indirect und reported jeweils eine unterschiedliche Untermenge von Wiedergabewörtern favorisieren. In diesem Zuge könnte auch das Modul MarkSTWWords selbst komplexer gestaltet werden. So wäre es sinnvoll, bei der Identifizierung von Wiedergabewörtern auf den Kontext zu achten, da viele Lemmata nur in bestimmten Konstruktionen als Wiedergabewörter fungieren können. Derartige Erweiterungen an MarkSTWWords hätten unmittelbare Auswirkungen auf MarkIndirect. Wenn die Wiedergabewörter Informationen über ihre Valenzen und bevorzugten Strukturen tragen, könnte gezielt nach den Konstruktionen gesucht werden, die von dem spezifischen Wort abhängig sein können. Hierbei sollte allerdings darauf geachtet werden, die Regeln nicht zu restriktiv zu formulieren, da gerade in literarischen Texten unerwartete Strukturen immer denkbar sind. Als recht einfache Erweiterung wäre es zudem nahe liegend, noch Muster für nachgestellte und eingeschobene Rahmenformeln zu implementieren. Auch die Erkennung erzählter Wiedergabe könnte von einer verbesserten Wiedergabewortliste profitieren, bei der die Information geliefert wird, welche Wörter eine besonders hohe Affinität zu diesem Wiedergabetyp haben. Außerdem wäre die Implementierung von einigen typischen Mustern denkbar, um die Annotation zu verfeinern, z.B. dem Muster für Nominalphrasen mit präpositionaler Erweiterung (z.B. die Nachricht von seinem Tod). Wenn für die Wiedergabewörter Valenzinformationen gespeichert sind und der zu analysierende Text über eine gute syntaktische Annotation verfügt, kann auch die entsprechende Valenzstelle untersucht werden. Ist sie nicht mit einem Nebensatz oder einem Zitat gefüllt, sondern mit einer Nominalphrase, handelt es sich vermutlich um erzählte Wiedergabe. Beim Modul MarkQuotation wäre es sinnvoll, es robuster zu gestalten, so dass Fehler und unerwartete Strukturen bei der Verwendung von Anführungszeichen zumindest nicht zu sehr groben Fehlklassifizierungen führen. So könnte die
218 | 10 Regelbasierte Ansätze automatische Markierung abgebrochen werden, falls innerhalb einer bestimmten Spanne kein schließendes Anführungszeichen gefunden wird. Zudem wäre die Implementierung der Erkennung von verschiedenen Typen von Anführungszeichen denkbar. Dies sollte aber mit Blick auf die Besonderheiten des Korpus geschehen, auf das das Modul angewendet werden soll. Das Modul MarkFreeIndirect könnte ebenfalls optimiert werden, indem man noch mehr mögliche Indikatoren für freie indirekte Wiedergabe einbezieht und die Gewichtungen feiner austariert. In diesem Kapitel erfolgte eine Fokussierung auf prototypische Formen von Wiedergaben. Es gibt noch einige weitere Strukturen, deren Erkennung nicht umgesetzt wurde, obgleich dies regelbasiert möglich wäre. Dies sind zum einen die formelhaften Referatshinweise (Abschnitt 10.2.3), zum anderen der Gebrauch von epistemischen Modalverben zur Signalisierung von Wiedergabe (Beispiele nach Zifonun et al. 1997, 1765, Hervorhebungen von Zifonun et al.): (176)
Entgegen der Aussagen der Pflegekräfte, die ihr das Medikament verabreicht haben, will Berzewski nun Lydia Hagemann nur „in die Voruntersuchung miteinbezogen“ haben. [...] (Spiegel, 3/1985, 61)
(177)
Gegen Wulf, der einen Untergebenen massiv unter Druck gesetzt haben soll, liegt inzwischen bei der Staatsanwaltschaft eine Anzeige wegen „Nötigung“ vor. [...] (Stern 4/1986, 132)
Eine ähnliche Funktion können auch Adverbien erfüllen (Beispiel nach Helbig/Buscha 2011, 180): (178)
Er hat mich angeblich mehrmals angerufen
Eine ausführlichere Studie zu solchen Phänomenen in der Wiedergabe liefert Letnes 2002. Diese Formen sind eher Randphänomene, die in literarischen Texten selten vorkommen und im narratologischen Kontext wenig beachtet sind. Bei einer Weiterentwicklung der Methoden könnten sie aber durchaus einbezogen werden.
11 Maschinelles Lernen ‚Maschinelles Lernen‘ bezeichnet automatische Methoden, die sich durch Erfahrung verbessern können. Dies geschieht, indem ihnen Daten als Beispiele präsentiert werden und sie daraus Informationen ableiten, die ihnen helfen, ihre Aufgabe zu erfüllen (vgl. z.B. Mitchell 1997, 2–3). Es geht also darum, Muster und Zusammenhänge automatisch zu erfassen und nutzbar zu machen. Solche Techniken können auf die unterschiedlichsten Arten von Daten angewendet werden und sind mittlerweile in vielen Disziplinen verbreitet, z.B. in der Medizin und Biologie, im Marketing oder im Bereich der Bilderkennung. Bei der Verarbeitung natürlicher Sprache spielen maschinelle Lernmethoden ebenfalls eine Rolle: im Bereich des Information Retrieval und Data Mining, also dem Auffinden von Informationen in großen Textmengen, bei der Erkennung gesprochener Sprache, bei maschineller Übersetzung, Tagging und Parsing. Der TreeTagger, der für die morphologische Annotation des Erzähltextkorpus verwendet wird, beruht z.B. auf maschinellen Lernalgorithmen (vgl. Schmid 1995). Man unterscheidet überwachte und unüberwachte Lernmethoden (vgl. z.B. Duda et al. 2001, 16–17). Bei den unüberwachten Lernmethoden gibt es keine vorgegebenen Zielkategorien, die der Algorithmus lernen soll. Stattdessen werden ihm Daten präsentiert, in denen er selbstständig verborgene Strukturen entdeckt. Ein verbreiteter Typ von unüberwachtem Lernen ist das Clustering, bei dem die Daten aufgrund solcher maschinell erkannten Regelhaftigkeiten in Gruppen zusammengefasst werden. Clusteringverfahren werden häufig explorativ eingesetzt, auch im Rahmen der Digital Humanities. So werden etwa in der Stilometrie Texte automatisch in Cluster mit ähnlichen Merkmalen sortiert, meist auf der Basis von Worthäufigkeiten. Dies wird z.B. zur Autorschaftserkennung genutzt, indem man beobachtet, in welches Cluster ein Werk mit unbekanntem Autor einsortiert wird und welchen anderen Werken es folglich am nächsten steht (vgl. Hoover 2008). Weitere Beispiele für die explorative Anwendung von unüberwachtem maschinellen Lernen sind die Studien von Scharloth et al. 2012, die Clustering zur Untersuchung feiner stilistischer Unterschiede verwenden, und von Jockers 2012, der maschinelle Ähnlichkeitsmaße und Netzwerkmodelle nutzt, um Beziehungen und Einflüsse zwischen englischsprachigen Werken des 19. Jahrhunderts zu entdecken und zu erforschen. Im Rahmen dieser Studie werden keine unüberwachten Methoden angewendet, da das Ziel ja gerade ist, die narratologisch motivierten und damit a priori festgelegten Wiedergabekategorien zu unterscheiden. Ob unüberwachte Clusteringverfahren zu Gruppen führen können, die diesen ähnlich sind, oder ob sie
220 | 11 Maschinelles Lernen das Phänomen Wiedergabe auf eine andere Art und Weise konzeptualisieren, die narratologisch interessant ist, wäre eine neue Forschungsfrage. Überwachte maschinelle Lernmethoden zeichnen sich dadurch aus, dass die Kategorien, die der Algorithmus unterscheiden soll, vorgegeben sind – im vorliegenden Fall sind es die Typen von Wiedergabe. Anhand von Beispielen soll die Maschine Strategien entwickeln, diese zu erkennen. Im Grunde werden dabei ebenfalls Regeln aufgestellt, nach denen die Entscheidung funktioniert, jedoch formuliert man diese nicht explizit aufgrund von eigenen Beobachtungen und Hypothesen über die zu erkennenden Strukturen, sondern überlässt diese Aufgabe einem Algorithmus. Die Regeln, die die Maschine aufstellt, sind häufig überraschend und entsprechen nicht der menschlichen Denkweise. Je nach Algorithmus ist es möglich, die automatisch aus den Daten abgeleiteten Regeln zu analysieren und zu interpretieren. Wie bei den unüberwachten Methoden kann dies dazu dienen, neue Erkenntnisse über das zu kategorisierende Phänomen – und in diesem Fall auch über die verwendeten Kategorien – zu gewinnen. Eine solche explorative Anwendung von Lernmethoden ist nicht Schwerpunkt dieser Studie, doch Abschnitt 11.7, in dem die Voraussagekraft einzelner Merkmale für bestimmte Wiedergabetypen betrachtet wird, hat diese Ausrichtung. Abbildung 11.1 illustriert den prinzipiellen Ablauf von überwachtem maschinellen Lernen in zwei Phasen. Die erste Phase ist die Trainingsphase. Hierfür benötigt man eine Menge von manuell klassifizierten Daten, aus denen der Algorithmus ein Modell aufbaut. In der zweiten Phase werden diesem Modell Testdaten präsentiert, die neue, bisher unbekannte Fälle enthalten, und es sagt voraus, welche Klassen diesen zugeordnet werden sollen. Das Problem der Wiedergabeerkennung muss für die maschinellen Lernmethoden, die im Kontext dieser Studie angewendet werden, auf eine bestimmte Darstellungsweise herunter gebrochen werden: Es werden zu lernende Instanzen definiert, welche bestimmte Merkmale oder Attribute aufweisen und einer bestimmten Klasse zugeordnet werden. Diese Zuordnung ist es, die dann erlernt werden soll. Übertragen auf die Erkennung von Wiedergabe hieße das z.B.: Die Instanz ist ein Satz. Dieser hat bestimmte Attribute, z.B. Länge, Anzahl der Verben und Anzahl der Satzzeichen, und kann einer Klasse zugeordnet werden, z.B. Direkte Wiedergabe. Der Algorithmus bekommt als Trainingsmaterial eine Reihe von Beispielen für Direkte-Wiedergabe-Sätze, Indirekte-Wiedergabe-Sätze usw. und konstruiert daraus ein Modell. Diesem können nun im zweiten Schritt Sätze präsentiert werden, bei denen nur die Attribute, aber nicht die Klasse bekannt ist, und das Modell sagt anhand der Attributwerte eine wahrscheinliche Klasse (Direkte Wiedergabe, Indirekte Wiedergabe, usw.) voraus. Es werden also nicht, wie bei den regelbasierten Ansätzen, genaue Richtlinien festgelegt, sondern Regelhaftigkeiten, die der Voraussage dienlich sind, werden mit statistischen Mitteln aus den
11 Maschinelles Lernen
Abb. 11.1. Prinzip des überwachten maschinellen Lernens
| 221
222 | 11 Maschinelles Lernen vorhandenen Beispielen abgeleitet. Darum eignet sich maschinelles Lernen gut, um mit Problemen umzugehen, bei denen die Regeln, nach denen die Klassifizierung erfolgt, nicht offensichtlich sind. Wie sich im letzten Kapitel gezeigt hat, ist die Erkennung von Wiedergabe ein komplexes Problem, bei dem das Formulieren von Regeln nur bedingt möglich ist. Dies gilt insbesondere für freie indirekte Wiedergabe, aber auch für erzählte Wiedergabe und direkte Wiedergabe ohne Markierung durch Anführungszeichen. Es ist somit naheliegend, auch mit der Anwendung maschineller Lernverfahren zu experimentieren.52 Die technische Umsetzung der maschinellen Lernexperimente geschah nicht direkt in GATE. Vielmehr wurden die Daten des Erzähltextkorpus mit dem für diesen Zweck entwickelten GATE-Modul RWStatistics in Tabellen umgewandelt, bei denen die Zeilen die Instanzen repräsentieren und die Spalten die betrachteten Attributwerte und die zugeordnete Klasse. Diese Tabellen wurden exportiert und das maschinelle Lernen in R durchgeführt, einer Umgebung für statistische Analyse und Graphikerstellung (http://www.r-project.org, vgl. The R Core Team 2012). R ist, wie GATE, frei verfügbar und ein flexibles Werkzeug, das Implementierungen zahlreicher Lernalgorithmen zur Verfügung stellt. Die in diesem Kapitel vorgestellten Tests und Auswertungen wurden mit Hilfe selbst entwickelter Skripte in dieser Umgebung durchgeführt.53 Klassifizierungsergebnisse können mit Hilfe eines weiteren Moduls, ApplyRPredictions, wieder auf die in GATE gespeicherten Texte übertragen werden. Dies ist nützlich, um einen direkten Eindruck zu bekommen, welche konkreten Instanzen wie klassifiziert wurden und um die Annotationen mit den Ergebnissen der regelbasierten Methoden zu vergleichen.54 Im Folgenden wird zunächst darauf eingegangen, welche Überlegungen in die Aufbereitung der Daten geflossen sind und welche Entscheidungen für das maschinelle Lernen im Rahmen dieser Studie getroffen werden mussten. Im Anschluss werden eine empirische Studie, die eine statistische Bewertung von Attri-
52 Interessanterweise hat der Textinterferenzansatz (vgl. Abschnitt 4.3.4) eine gewisse Ähnlichkeit zu der Herangehensweise des maschinellem Lernens: Er arbeitet mit Merkmalen, die Erzähler- und Personentext gleichermaßen besitzen, aber in verschiedenen Ausprägungen. Dies entspricht in etwa der Idee von Attributen mit unterschiedlichen Werten. Je nach Kombination dieser Merkmalsausprägungen ergeben sich die Interferenzen, also bestimmte Muster, die für Wiedergabetypen typisch sein können. 53 Zwar existieren auch für GATE Komponenten, die maschinelles Lernen erlauben (aktuell v.a. das Learning-Plugin, vgl. auch Li et al. 2009), doch R bot mehr Möglichkeiten und war für die Tests bequemer zu handhaben. 54 Eine direkte Integration der maschinellen Lernprozesse in GATE würde die Durchführung der automatischen Wiedergaberkennung bequemer machen, wurde aber im Rahmen dieser Studie nicht durchgeführt, da es sich dabei um eine rein programmiertechnische Optimierung handelt.
11.1 Die Formulierung der Lernaufgabe
| 223
buten in Hinblick auf die verschiedenen Wiedergabekategorien vornimmt, sowie die Ergebnisse der Anwendung eines maschinellen Lernalgorithmus auf die unterschiedlichen Wiedergabetypen in unterschiedlichen Konfigurationen vorgestellt.
11.1 Die Formulierung der Lernaufgabe Oben wurde bereits skizziert, wie man das Problem der Wiedergabeerkennung so formulieren kann, dass maschinelle Lernalgorithmen darauf angewendet werden können. Bei diesem Schritt werden jedoch eine Menge Annahmen getroffen, die von weitreichender Bedeutung sind, denn auch wenn maschinelles Lernen ein automatisches Verfahren ist, ist es in hohem Maße abhängig von menschlichen Entscheidungen. Im Folgenden werden die einzelnen Bereiche, in denen Entscheidungen getroffen werden müssen, knapp umrissen. – Wie sind die Instanzen definiert? Fälle von Wiedergabe können sowohl nur ein einzelnes Wort als auch mehrere zusammenhängende Sätze umfassen. Der Lernalgorithmus muss jedoch auch bei noch unbekannten Daten wissen, was die Einheiten sind, die er klassifizieren soll, und wo die Grenzen zwischen diesen liegen. Im Rahmen dieser Studie ist die hauptsächlich verwendete Einheit der Satz, es wurden jedoch auch Tests mit ‚Satzabschnitten‘ durchgeführt. Genauere Ausführungen hierzu finden sich in den Abschnitten 11.2 und 11.8. – Welche Klassen sollen gelernt werden? Werden viele verschiedene Klassen definiert, so wird die Lernaufgabe schwieriger, weil es für jede Klasse jeweils weniger Beispiele gibt und die Unterschiede zwischen den Gruppen höchstwahrscheinlich subtiler werden. Sind es wenige Klassen, so kann es hingegen geschehen, dass stark unterschiedliche Fälle in eine Gruppe zusammengefasst werden, für die es schwierig ist, Regularitäten zu erkennen. Letztendlich ist die Entscheidung jedoch abhängig von dem Anwendungsziel und davon, welche Wiedergabekategorien man dafür unterscheiden möchte. Im Rahmen dieser Studie liegt der Schwerpunkt wie bei den regelbasierten Ansätzen auf der Erkennung der strukturellen Hauptkategorien direkte Wiedergabe (direct), freie indirekte Wiedergabe (free_indirect), indirekte Wiedergabe (indirect) und erzählte Wiedergabe (reported). Diese Kategorien stehen im Kontrast zu reinem Erzählertext ohne Wiedergabe (narration), welcher für das maschinelle Lernen als eigene Klasse definiert werden muss. Dadurch ergeben sich maximal 5 Klassen. Die zusätzliche Unterscheidung, ob es sich um Rede, Gedanken oder Geschriebenes handelt, wird aufgrund des beschränkten Trainingsmaterials nicht versucht. Im Rahmen dieser Grundunterscheidung
224 | 11 Maschinelles Lernen
–
–
–
sind verschiedene Vorgehensweisen möglich. So kann versucht werden, alle fünf Kategorien auf einmal zu differenzieren, oder es kann eine einzelne Wiedergabekategorie im Kontrast zum gesamten Rest des Materials betrachtet werden. In den Abschnitten 11.5 und 11.6 werden beide Herangehensweisen dargestellt. Was gilt als positives Beispiel? Bei der manuellen Annotation wurden neben den Hauptkategorien zahlreiche Attribute vergeben, die meist anzeigen, dass es sich um nicht-prototypische Fälle von Wiedergabe handelt. Es stellt sich also die Frage, welche Fälle als ‚gute‘ Beispiele gelten können und für das Training des maschinellen Erkenners verwendet werden sollen. Grundsätzlich wurden bei den Auswertungen alle Instanzen einbezogen, die die Hauptkategorien für Wiedergabe tragen, Abschnitt 12.3.2 beschreibt jedoch vergleichende Tests, bei denen Grenzfälle aus der Trainingsmenge entfernt wurden. Mit welchen Attributen werden die Fälle beschrieben? Die Einheiten, die klassifiziert werden sollen, müssen für den Algorithmus durch Attribute charakterisiert werden. Die Werte für diese Attribute dienen später als Eingabe für die automatische Klassifizierung und sollten darum bei unbekannten Texten automatisch bestimmbar sein. Andernfalls wäre ein manueller Vorverarbeitungsschritt nötig und der damit verbundene Aufwand würde den Nutzen der automatischen Wiedergabeerkennung deutlich einschränken. Es gibt folglich zwei Möglichkeiten, Attribute und ihre Werte festzulegen: Entweder leiten sie sich direkt aus der Oberfläche der Einheit ab, z.B. ‚Anzahl der vorhandenen Tokens‘, oder sie leiten sich aus Informationen ab, die durch automatische Vorverarbeitungsschritte hinzugefügt werden können. Dies wären z.B. ‚Anzahl der Verben‘ (beruhend auf den morphologischen Informationen des automatischen Taggings) oder ‚Anzahl der Wiedergabewörter‘ (beruhend auf der Annotierung durch das Modul MarkSTWWords, vgl. Abschnitt 10.1.2). Die Auswahl der Attribute hat einen starken Einfluss auf das Ergebnis, denn je besser sie die entscheidenden Unterschiede abbilden, desto erfolgreicher kann die Klassifizierung sein. In den Abschnitten 11.3 und 11.7 wird ausführlich auf die Auswahl der Attribute und die Abschätzung ihres Nutzens eingegangen. Welcher Lernalgorithmus soll angewendet werden? Es existiert eine große Fülle von Lernalgorithmen, die unterschiedliche Stärken und Schwächen und oftmals viele Konfigurationsmöglichkeiten haben. Eine ausführliche Abwägung in diesem Bereich würde den Rahmen dieser Studie bei Weitem sprengen. Darum wurde, auch um die Ergebnisse vergleichbar zu halten, bei den vorgestellten Tests immer derselbe Algorithmus
11.2 Sätze als Instanzen
| 225
mit derselben Konfiguration verwendet. Es handelt sich dabei um den Algorithmus RandomForest, der in Abschnitt 11.4 genauer beschrieben wird.
11.2 Sätze als Instanzen Da die angewandten maschinellen Lernverfahren instanzbasiert sind, ist es von besonderer Bedeutung, was für eine Einheit bei der Klassifizierung betrachtet wird. Die Antwort ist im Fall von Wiedergabe nicht offensichtlich, da deren Länge stark variiert. Manchmal entspricht eine Wiedergabe mehreren zusammenhängenden Sätzen, manchmal – im Falle von erzählter aber auch direkter Wiedergabe – kann sie auch nur ein einziges Wort umfassen. Bei der automatischen Erkennung ist es notwendig, eine Einheit zu benutzen, die problemlos automatisch erkannt werden kann, da sie als Grundlage der Klassifizierung auch bei unbekannten Texten vorhanden sein muss. Am naheliegendsten für solche Zwecke sind die allgemeinen Einheiten ‚Wort‘ und ‚Satz‘. ‚Wort‘ eignet sich im Kontext von Wiedergabe schlecht als Einheit, da fast allen Wiedergaben zusammenhängende syntagmatische Einheiten sind. Der Fall, dass eine Wiedergabe genau einem Wort entspricht, ist die Ausnahme. Würde man einen maschinellen Erkennner darauf trainieren, bei jedem einzeln betrachteten Wort zu entscheiden, ob dieses Teil einer Wiedergabe ist, so würde sich bei der Anwendung auf unbekannte Texte ein Flickenteppich aus einzelnen, als ‚Wiedergabe‘ klassifizierten Wörtern ergeben, was weder aussagekräftig noch hilfreich wäre und auch die Natur von Wiedergabe nicht abbilden würde. Darum wurde der Satz als Instanz-Einheit gewählt. Das bedeutet, dass jedem Satz eine oder mehrere Kategorien mit der Bedeutung ‚enthält Wiedergabetyp X‘ zugewiesen wird. In Abschnitt 9.3 wurde bereits ausgeführt, wie diese Zuordnung genau von statten geht. Bei der Erstellung der Tabellen für das maschinelle Lernen wird zusätzlich zu den Wiedergabekategorien direct, free_indirect, indirect und reported noch die Kategorie narration verwendet, die anzeigt, dass ein Satz keinerlei Form von Wiedergabe enthält. Auf diese Art und Weise werden alle Sätze des Erzähltextkorpus in Vektoren mit den entsprechenden Attributwerten und Klassenbezeichnungen umgewandelt. Von besonderer Bedeutung für die maschinelle Annotation ist die Tatsache, dass ein Satz mehrfach kategorisiert sein kann, wenn er mehrere unterschiedliche Instanzen von Wiedergabe enthält. Dies führt nämlich dazu, dass in den Tabellen einige Sätze mehrfach mit den exakt gleichen Attributwerten, aber mit unterschiedlichen Klassen auftreten. Einerseits ist das folgerichtig, da ein Satz, der mehrere Wiedergabetypen enthält, auch Merkmale all dieser Typen aufweisen sollte. Darum kann er als Trainingsmaterial für jede der Klassen relevant sein. Auf
226 | 11 Maschinelles Lernen der anderen Seite ist dieses Vorgehen jedoch problematisch, da es ambige Fälle in den Trainingsdaten produziert. Wenn es Instanzen mit der gleichen Attributwertverteilung, aber mit unterschiedlichen Klassen gibt, ist es für den Lernalgorithmus unmöglich, daraus sinnvolle Regeln abzuleiten. Bei der Anwendung auf Testdaten muss zudem jeder Instanz genau eine Klasse zugewiesen werden, so dass zwangsläufig ein Teil der ambigen Fälle falsch klassifiziert wird, was den Erfolg bei der Auswertung verringert. Tab. 11.1. Anteil der Sätze mit mehreren Wiedergabeinstanzen
Kategorie
Gesamtanzahl Sätze pro Kategorie (bei MehrfachZählung)
Anteil mehrfach Sätze
direct
917
20,6 %
free_indirect
110
15,5 %
indirect
300
50,0 %
reported
450
45,8 %
narration
1098
00,0 %
gezählter
Wie Tabelle 11.1 zeigt, treten Fälle von Mehrfachzählung – als ambig klassifizierte Sätze – bei den unterschiedlichen Wiedergabekategorien in unterschiedlichem Maße auf. Bei den Kategorien indirect und reported liegt der Anteil deutlich höher als bei direct und free_indirect. Dies liegt daran, dass die direkte und die freie indirekte Wiedergabe sich häufig über einen ganzen Satz erstrecken oder zumindest nur von Einschüben, die selbst keine Wiedergaben sind (z.B. Rahmenformeln), unterbrochen werden. Die Mehrfachzählungen bei direkter Wiedergabe sind meist durch geschachtelte Wiedergaben begründet, bei freier indirekter Wiedergabe machen ambige Kategorisierungen einen recht hohen Anteil aus. Fälle von indirekter und erzählter Wiedergabe hingegen treten nicht nur häufig als geschachtelte Wiedergaben auf, sondern umspannen auch seltener einen ganzen Satz, so dass häufiger mehrere Instanzen davon hintereinander im selben Satz vorkommen. Man kann daraus schließen, dass die satzweise Betrachtung für direkte und freie indirekte Wiedergabe angemessener ist als für indirekte und erzählte. Bei direct und free_indirect ist es wahrscheinlicher, dass die Grenzen des Satzes mit denen der Wiedergabe übereinstimmen und somit alle Merkmale der betrachteten Instanz auch tatsächlich als Merkmale der Wiedergabe gelten können.
11.3 Attribute |
227
In Abschnitt 11.8 werden Experimente mit einer kürzeren Einheit, den Satzabschnitten, präsentiert und es wird untersucht, wie dies die Erfolge beim maschinellen Lernen beeinflusst.
11.3 Attribute Im Folgenden werden die Attribute vorgestellt, die für das maschinelle Lernen der Wiedergabetypen verwendet werden. Die Auswahl stellt eine Mischung aus Attributen dar, die aufgrund von Annahmen über Wiedergabe gewählt wurden, und solchen, deren Zweck es ist, dem Algorithmus möglichst viele Informationen über die Instanzen zu geben, damit er selbst Regularitäten finden kann. Insgesamt ergibt sich eine Menge von 80 Attributen, von denen 78 numerisch sind. ‚Anteil von‘ bedeutet, dass die absolute Anzahl der Vorkommen durch die Länge der Instanz – in diesem Fall der des Satzes – geteilt wurde. Der Wert sagt also aus, welchen Prozentsatz des Satzes z.B. Wiedergabewörter ausmachen. Folglich liegen die Werte von 77 Attribute stets zwischen 0 und 1, das einzige numerische Attribut mit Werten im ganzzahligen Bereich ist ‚Satzlänge‘. Diese Normalisierung wurde durchgeführt, weil sonst der Wert des Attributs ‚Satzlänge‘ auf alle anderen numerischen Attribute Einfluss hätte. Die folgenden Attribute wurden gewählt, um dem Lernalgorithmus Material zu geben, in dem er Muster finden kann, wobei kaum eigene Vorannahmen gemacht wurden: – len: Länge des Satzes (Wörter + Satzzeichen) – Anteil von Vorkommen für jede Kategorie des Stuttgart-Tübingen Tagsets (STTS), d.h. die gesamte morphologische Information, die vom TreeTagger vergeben wird. Es handelt sich dabei um insgesamt 54 Tags: 48 morphologische Kategorien und 6 Sondertags. Die Sondertags markieren fremdsprachiges Material, Kompositions-Erstglieder, Nichtwörter und verschiedene Typen von Satzzeichen (Komma, satzbeendende Interpunktion, sonstige satzinterne Satzzeichen). Die vollständige Liste der Kategorien des STTS ist im Anhang in Tabelle A.2 reproduziert. Die Anteile der morphologischen Kategorien wurden als Attribute gewählt, weil die meisten dieser Kategorien im Korpus häufig genug vorkommen, dass daraus Trends ableitbar sind. Das Vorkommen von konkreten Wortoberflächen oder auch Lemmata wäre im Vergleich dazu textspezifischer und kaum verallgemeinerbar. Zudem ist zu vermuten, dass die grammatischen Kategorien etwas über die Satzstruktur und über stilistische Besonderheiten aussagen, was für die Identifizierung von Wiedergabe relevant sein könnte.
228 | 11 Maschinelles Lernen Außerdem wurden folgende Zusammenfassungen von Tags des STTS als Attribute definiert – für den Fall, dass ein größerer Abstraktionsgrad Vorteile bringt: – verb: Anteil aller verbalen Kategorien – verb_fin: Anteil von finiten Formen von Vollverben, Modalverben, Hilfsverben – verb_inf: Anteil von infiniten Formen von Vollverben, Modalverben, Hilfsverben – verb_pp: Anteil von Partizip-Perfekt-Formen von Vollverben, Modalverben, Hilfsverben – noun: Anteil von Nomen und Eigennamen – adj: Anteil von attributiv und prädikativ gebrauchten Adjektiven – zu: Anteil von Partikelwort zu und Infinitivformen mit eingebettetem zu Folgende Attribute wurden aufgrund von konkreten Hypothesen über die Merkmale verschiedener Wiedergabekategorien hinzugefügt: – punc: Anteil von ?, ! und – (Gedankenstrich) im Satz: Diese ‚emphatischen‘ Satzzeichen kommen vermutlich häufiger in direkter und freier indirekter Wiedergabe vor. – pers: Anteil von Personennamen im Satz: Im Gegensatz zu der Kategorie NE (Eigenname) im STTS-Tagset sind hier nur Namen von Personen gemeint. Die Annotation geschieht mit Hilfe einer Liste von Vornamen. Die Hypothese ist, dass der Bezug auf eine Figur bei Wiedergabe eine Rolle spielen könnte. – verb_konj: Anteil von Verbformen im Konjunktiv (über die Kategorisierung mit dem RF-Tagger gewonnen): Diese sollten in Sätzen mit indirekter Wiedergabe häufiger auftreten als in anderen Sätzen. – per12: Anteil von Personalpronomen der ersten und zweiten Person (über die Kategorisierung mit dem RF-Tagger gewonnen). Diese sollten in Sätzen mit direkter Wiedergabe häufiger auftreten. – per3: Anteil von Personalpronomen der dritten Person (über die Kategorisierung mit dem RF-Tagger gewonnen) als Gegenstück zu per12. – Anteil der Wiedergabewörter im Satz, in verschiedenen Gruppierungen. Da sich gezeigt hat, dass Wiedergabewörter zumindest für die Kategorien direct, indirect und reported von großer Bedeutung sind, sollten sie auch beim maschinellen Lernen mit einbezogen werden. Wie in Abschnitt 10.1.2.2 ausgeführt, wurden die Wörter der Liste mit penalty-Werten von 0 bis 5 versehen, wobei 0 die verlässlichsten Wiedergabewörter bezeichnet. Bei der Definition der Attribute wurden zum einen Gruppen bis hin zu einem bestimmten penalty-Wert zusammen betrachtet (ähnlich wie bei der Auswertung des Moduls MarkIndirect in Abschnitt 10.2.4). Die Bezeichnungen dieser Attribute sind stw_word1 bis stw_word5. Hervorzuheben
11.3 Attribute |
–
229
ist, dass diese Gruppen sich überschneiden, also z.B. alle Wiedergabewörter von stw_word1 auch in stw_word2 enthalten sind. Zum anderen wurden Gruppen von Wiedergabewörtern mit genau einem bestimmten penalty-Wert gebildet. Dies sind die Attribute stw_word_e0 bis stw_word_e5 (e steht für ‚exakt‘), zwischen denen es keine Überschneidungen gibt. Damit ergeben sich insgesamt 11 Attribute. Die Aufspaltung wurde vorgenommen, um zu überprüfen, welche Untergruppe unter welchen Bedingungen den besten Voraussagewert hat, was auch für die Bewertung der Wiedergabewortliste von Interesse ist. pStart und pEnd: Information, ob der Satz genau am Anfang oder genau am Ende eines Abschnitts steht. Hiermit soll untersucht werden, ob die Wiedergabekategorien einen Bezug zur Textgliederung haben. Diese beiden Attribute sind nominal und können die Werte y (yes = Satz steht am Anfang/Ende des Abschnitts) oder n (no = Satz steht nicht am Anfang/Ende des Abschnitts) annehmen.
An dieser Stelle wird besonders deutlich, welchen Einfluss kompetenzbasierte Annahmen auch auf das maschinelle Lernen haben. Insbesondere die Attribute der letzten Gruppe fassen Oberflächenmerkmale in stark interpretativer Art zusammen und greifen im Falle der Wiedergabewörter sogar direkt auf die Ergebnisse regelbasierter Module zurück. Es wurde also im Vorfeld eine starke Vorstrukturierung der Textoberfläche vorgenommen. Interessant ist natürlich die Frage, wie gut welche Attribute geeignet sind, um unterschiedliche Wiedergabetypen vorherzusagen. Abschnitt 11.7 beschäftigt sich mit diesem Thema. Tabelle 11.2 veranschaulicht an einem vereinfachten Beispiel die Umwandlung eines Satzes in einen Instanzvektor. Ähnlich sehen die Daten aus, mit denen der maschinelle Lernalgorithmus arbeitet.
230 | 11 Maschinelles Lernen Tab. 11.2. Umwandlung eines Satzes in einen Instanzvektor
Beispielsatz: Wahrhaftig, der Nachmittag ist uns vergangen, ohne daß wir merkten wie! Klasse: direkte Wiedergabe (DIR) Attribut
Wert
Satzlänge (Anzahl der Wörter und Satzzeichen)
14
Anteil an ? ! oder –
0,07
Anteil an Verben im Infinitiv
0
Anteil an Nomen
0,07
Anteil an Adjektiven (attributiv)
0
Anteil an Personennamen
0
Anteil an Personalpronomen 3. Person
0
Anteil an Personalpronomen 1./2. Person
0,14
Anteil an Wörtern aus der Liste der Wiedergabewörter (pen≤2)
0,07
Vorkommen am Abschnittsanfang
nein
Instanzvektor: len punc v_inf
noun ADJA
pers
per3
per12
stw_word2
pStart
Klasse
14
0,07
0
0
0,14
0,07
n
DIR
0,07 0
0
11.4 Lernalgorithmus: RandomForest
|
231
11.4 Lernalgorithmus: RandomForest Der Algorithmus, der im Rahmen dieser Studie für das maschinelle Lernen verwendet wird, heißt RandomForest und wurde von Breiman und Cutler entwickelt (vgl. Breiman 2001; Breiman/Cutler o. J.). Er beruht auf dem Prinzip von Entscheidungsbäumen.
Abb. 11.2. Beispiel für einen einfachen Entscheidungsbaum
Entscheidungsbäume werden im maschinellen Lernen häufig angewendet und können auf vielerlei Arten variiert werden (vgl. Mitchell 1997, 52–80). Die Grundidee ist folgende: Ein solcher Baum wird aus den Trainingsdaten aufgebaut, indem überprüft wird, welche der Attribute sich besonders gut dafür eignen, zwischen Instanzen verschiedener Klassen zu differenzieren. Es gibt unterschiedliche Strategien, um dies zu entscheiden. Klassisch ist z.B. die Berechnung des Information Gain (‚Informationsgewinn‘) eines Attributs. Das am Besten bewertete Attribut
232 | 11 Maschinelles Lernen wird als Wurzelknoten verwendet, um die Daten aufzuteilen. Im nächsten Durchgang wird nun für jede der beiden Teilmengen wiederum überprüft, welches Attribut zur Differenzierung am besten geeignet ist, und es werden entsprechende Unterknoten angelegt. So werden die Trainingsdaten so lange aufgespalten, bis sich möglichst homogene Gruppen von Fällen an den Blättern des Baumes gebildet haben. Der entstandene Baum kann nun neue Fälle klassifizieren, indem ausgehend von der Wurzel an jedem Knotenpunkt der Wert des entsprechenden Attributs überprüft wird, bis an den Blättern des Baumes eine Kategorie erreicht ist, die dann der Instanz zugeordnet wird. Abbildung 11.2 zeigt, wie ein sehr einfacher Entscheidungsbaum mit fünf Attributen für die Differenzierung von Wiedergabekategorien aussehen könnte. Bei der Klassifizierung einer Testinstanz würde hier als erstes das Attribut Anteil $( (Anteil an sonstigen, satzinternen Satzzeichen, z.B. – [] () «») überprüft. Wenn dessen Wert 0,02 oder höher ist, so wird der Satz sofort als direct klassifiziert. Andernfalls wird als nächstes das Attribut Satzlänge geprüft usw. Ein typisches Problem bei Entscheidungsbäumen ist die Überanpassung. Dies bedeutet, dass der Baum zufällige Besonderheiten der Trainingsdaten zu genau abbildet und nicht hinreichend verallgemeinerbar ist. Er liefert dann zwar sehr gute Ergebnisse für die Trainingsdaten, klassifiziert aber neue Beispiele schlecht. Eine Strategie, dem entgegen zu wirken, ist das Zurückschneiden des Baumes, d.h. die feinsten Verzweigungen, die zur Differenzierung von Datengruppen dienen, die sich insgesamt sehr ähnlich sind, werden wieder entfernt. RandomForest baut auf Entscheidungsbäumen auf, ist aber ein komplexerer Lernalgorithmus aus der Gruppe der Ensemble Learner (vgl. Polikar 2006). Dieser Typ von Lernalgorithmen zeichnet sich dadurch aus, dass aus den Trainingsdaten nicht nur ein einziges Modell (also z.B. ein Entscheidungsbaum) gebaut wird, sondern mehrere, wobei die Art des Aufbaus für jedes Modell leicht variiert wird. Bei der Klassifizierung wird ein neuer Fall nun von jedem der Modelle bewertet und auf der Grundlage aller Ergebnisse entschieden, welche Klasse er letztendlich erhält. RandomForest baut einen ‚Wald‘ von Entscheidungsbäumen auf. Jeder Baum wird folgendermaßen konstruiert: – Aus einem Trainingsset mit N Fällen wähle nach dem Zufallsprinzip n Fälle aus, wobei dieselben Fälle auch mehrmals gewählt werden können. Dies ist das Trainingsset für diesen Baum. Der Rest der Fälle wird verwendet, um die Fehlerrate abzuschätzen. – Eine Zahl m wird festgelegt, die wesentlich kleiner ist als die Anzahl M der Attribute. An jedem Knoten des Baumes werden nach dem Zufallsprinzip
11.4 Lernalgorithmus: RandomForest
|
Abb. 11.3. Schema zur Arbeitsweise von RandomForest
233
234 | 11 Maschinelles Lernen
–
m Attribute ausgewählt. Unter diesen m Attributen wird das geeignetste bestimmt und dazu verwendet, den Knoten zu spalten. Der Baum wird so weit entwickelt wie möglich und nicht zurückgeschnitten.
Bei der Klassifizierung gibt jeder Baum eine Stimme ab, welche Klasse er zuweisen würde, und die Klasse mit den meisten Stimmen wird gewählt (vgl. Breiman/Cutler o. J.). Abbildung 11.3 zeigt eine schematische Darstellung von der Trainings- und Klassfizierungsphase des Algorithmus. RandomForest berechnet zudem automatisch eine Fehlerrate, die als OOBFehlerrate (Out-of-bag-Fehlerrate) bezeichnet wird. Wie oben erwähnt, werden beim Aufbau eines Baumes nie alle Trainingsdaten verwendet. Etwa ein Drittel der Instanzen bleibt jeweils übrig, ist also ‚out of bag‘. Diese Fälle werden mit dem neu erstellten Baum klassifiziert. Dies geschieht für jeden Baum des Waldes, so dass am Ende jeder Fall mehrmals ‚out of bag‘ war und mehrere Klassifizierungen hat, von denen die häufigste gewählt wird. Nun wird berechnet, in wie viel Prozent der Fälle die Klasse nicht richtig erkannt wurde.55 Dieser Wert ist die OOB-Fehlerrate. Sie kann für jede zu erkennende Klasse einzeln oder für die Klassifizierung insgesamt berechnet werden. Die OOB-Fehlerrate gilt als ziemlich genau, falls genug Bäume verwendet wurden, andernfalls kann sie zu hoch geschätzt werden (vgl. Bylander 2002). Es handelt sich also um ein eher konservatives Maß zur Abschätzung der Vorhersagequalität. RandomForest gilt aktuell als einer der genauesten Lernalgorithmen (vgl. Caruana et al. 2008). Er wurde in jüngster Zeit auch im Kontext von Autorschaftserkennung verwendet (vgl. Tabata 2012). Diese Anwendung nutzt die gleiche Implementierung wie die vorliegende Studie, das Paket randomForest für R (vgl. Liaw/Wiener 2002). Ein paar der Vorteile von RandomForest sind für die hier durchgeführten Tests besonders von Interesse. So ist die Anwendung eines Ensemble Learners u.a. dann vorteilhaft, wenn nur geringe Mengen von Trainingsdaten zur Verfügung stehen (vgl. Polikar 2006, 23). Dies ist bei den Tests mit dem Erzähltextkorpus eindeutig der Fall, wo im extremsten Fall, bei freier indirekter Wiedergabe, nur maximal 110 Instanzen zum Training zur Verfügung stehen. Durch die zufallsbasierte Zusammenstellung des Trainingssets für jeden Baum werden die Daten effizient ausgenutzt. Zudem ist die Gefahr der Überanpassung wesentlich geringer als es bei einem einzigen Entscheidungsbaum der Fall wäre. Hinzu kommt, dass der RandomForest-Algorithmus gut mit großen Attributmengen umgehen kann
55 Die Fehlerrate ist also das Gegenstück zum Recall, der abbildet, in wie viel Prozent der Fälle die Klasse richtig erkannt wurde, d.h. wie viele Fälle gefunden wurden.
11.4 Lernalgorithmus: RandomForest
|
235
(bis hin zu 1000 Attributen). Insofern sind die 80, z.T. stark überlappenden Attribute bei der Erkennung von Wiedergabe unproblematisch. Zudem ist es bei den Lerntests wegen der Vergleichbarkeit und Übersichtlichkeit vorteilhaft, immer die gleiche Attributkonstellation verwenden zu können. Das Lernen mit einem einfachen Entscheidungsbaum profitiert jedoch stark davon, wenn irrelevante Attribute entfernt werden, so dass dies unvermeidbar gewesen wäre, um gute Ergebnisse zu erhalten. RandomForest hingegen variiert sowieso, welche Attribute an jedem Knoten jedes Baumes beachtet werden, so dass Schwankungen ausgeglichen werden können. Er liefert konstantere Ergebnisse und profitiert sogar von der Fülle der Attribute. Darum war es bei diesem Lernalgorithmus vertretbar, alle Analysen mit denselben Einstellungen durchzuführen. Dies sind immer 500 Bäume (Wert n) und 8 betrachtete Attribute pro Knoten (Wert m).56 Zudem kann man bei allen Lernexperimenten davon ausgehen, dass die in Abschnitt 11.3 vorgestellten 80 Attribute verwendet werden, außer es wird explizit darauf hingewiesen, dass Attribute entfernt wurden. Im Vorfeld wurden auch Tests mit anderen Lernalgorithmen durchgeführt, wie einem klassischen Entscheidungsbaum (C4.5), einem Entscheidungsbaum in Kombination mit AdaBoost-Methoden und Support Vector Machines. Die Ergebnisse waren in Einzelfällen auch etwas besser als die hier vorgestellten, es konnte jedoch kein allgemeiner Trend festgestellt werden und die Abweichungen waren nicht extrem. Vor allem beim einfachen Entscheidungsbaum besteht zudem die Befürchtung, dass die besseren Ergebnisse auf Überanpassung an die Trainingsdaten zurückzuführen sind. RandomForest als Lernalgorithmus ist eine solide Wahl, und zumindest eine Tendenz für Erfolgswahrscheinlichkeiten beim maschinellen Lernen ist damit durchaus abschätzbar. Eine Feinanpassung auf verschiedene Erkennungssituationen wäre aber sicherlich möglich und eine ausführlichere Studie wert. Im Folgenden werden die Ergebnisse des maschinellen Lernens der Wiedergabekategorien mit RandomForest vorgestellt. Aufgrund der Komplexität von RandomForest sind die Gründe für die vorgenommenen Klassifizierungen im Einzelfall nur sehr schwer nachvollziehbar. Darum werden auch keine Versuche unternommen, einzelne Fehler oder Erfolge zu interpretieren, sondern lediglich Erfolgsraten angegeben.
56 Zu den genauen Parametereinstellungen für verschiedene Experimente vgl. Anhang, Abschnitt A.6.
236 | 11 Maschinelles Lernen
11.5 Lernen aller Wiedergabekategorien gleichzeitig Bei diesem Experiment wird versucht, alle Wiedergabekategorien auf einmal zu unterscheiden, d.h. es wird zwischen den Klassen direct, free_indirect, indirect und reported sowie der Klasse narration differenziert, der Sätze zugeordnet sind, die gar keine Wiedergabe enthalten. Bei der Konvertierung der Sätze in Instanzen wurde Mehrfachzuordnung verwendet, wie in Abschnitt 11.2 beschrieben. Wie in Abschnitt 11.4 ausgeführt, verfügt RandomForest über eine interne Fehlerabschätzung, die OOB-Fehlerrate. Abbildung 11.4 zeigt, wie sich der Fehler entwickelt, je mehr Bäume hinzugefügt werden. Eingezeichnet ist eine Linie für jede der fünf zu unterscheidenden Kategorien sowie eine Linie für die Gesamtfehlerrate (OOB). Wie man sieht, stabilisieren sich die Fehlerraten frühestens bei ca. 100 Bäumen. Um möglichst stabile Ergebnisse zu erhalten, werden die Lernexperimente im Rahmen dieser Studie immer mit 500 Bäumen durchgeführt (dem Maximalwert in der Abbildung). Die Gesamtfehlerrate ist mit 38 % bei 500 Bäumen recht hoch. Schlimmer jedoch ist das Bild, wenn man die Fehlerraten für die einzelnen Kategorien betrachtet. Einzig für narration (11 %) und direct (33 %) ist die Verlässlichkeit noch akzeptabel, reported, indirect und free_indirect haben hingegen Fehlerraten von um die 80 %. Man kann sogar beobachten, dass die Fehlerrate für free_indirect ab einem bestimmten Punkt ansteigt, wenn mehr Bäume hinzugefügt werden. Tab. 11.3. Konfusionsmatrix zur Klassifizierung aller Kategorien gleichzeitig (grau hinterlegt = korrekt erkannte Instanzen)
Vorhersage → dir Realität ↓
fi
ind
n
Fehler
Prec
Rec
F-1
rep
dir
616
8
60
89
144
0,33
0,69
0,67
0,68
fi
16
19
9
60
6
0,83
0,41
0,17
0,24
ind
69
9
56
38
128
0,81
0,24
0,19
0,21
n
55
6
10
975
52
0,11
0,77
0,89
0,82
rep
137
4
95
107
107
0,76
0,24
0,24
0,24
100 100
11.5Lernen Lernenaller allerWiedergabekategorien Wiedergabekategoriengleichzeitig gleichzeitig | 11.5
80 80
fifi ind ind
Fehlerraten in % Fehlerraten in % 40 60 40 60
rep rep
gesamt gesamt
20
20
dir dir
0
0
n n
0
0
100 100
200 200
300 300 Anzahl Bäume Anzahl Bäume
400 400
500 500
Abb. 11.4. Entwicklung der Fehlerrate bei der Erkennung aller Typen gleichzeitig Abb. 11.4. Entwicklung der Fehlerrate bei der Erkennung aller Typen gleichzeitig
237
238 | 11 Maschinelles Lernen
400
600
800
Einfach gezählt Mehrfach gezählt
0
200
Anzahl der Sätze
1000
1200
Tabelle 11.3 zeigt die Ergebnisse der Klassifikation in Form einer Konfusionsmatrix, bei der auf der Y-Achse die korrekte Klasse aufgetragen ist und auf der X-Achse die Klasse, die den Sätzen vom Lernalgorithmus zugewiesen wurde. Es gibt also z.B. 69 Fälle, die indirect sind, aber als direct klassifziert wurden. Wie man sieht, werden v.a. free_indirect und reported sehr oft fälschlicherweise als narration kategorisiert. Zudem sind Verwechslungen zwischen direct und reported in beide Richtungen häufig, und indirect wird am häufigsten als reported fehlklassifiziert. Die Tabelle zeigt auch die Fehlerrate, sowie die Werte Precision, Recall und F-Score, die bereits bei der Auswertung der regelbasierten Methoden verwendet wurden.
direct
free_indirect
indirect
reported
narration
Abb. 11.5. Verteilung der Kategorien auf Sätze
Ein wesentlicher Grund für die schlechten Erfolgsraten ist die ungleichmäßige Häufigkeitsverteilung. Abbildung 11.5 verdeutlicht noch einmal, wie unterschiedlich die Gesamthäufigkeiten für die fünf Klassen sind. Beim maschinellen Lernen werden die frequenteren Klassen bevorzugt: Nicht nur steht für diese mehr Trainingsmaterial zur Verfügung, der Algorithmus strebt auch danach, seinen Gesamterfolg zu maximieren. Dabei ist es vorteilhaft, einem Satz im Zweifelsfall eine der häufigsten Klassen zuzuweisen, da die Wahrscheinlichkeit, damit
11.6 Lernen jeder Wiedergabekategorie einzeln
| 239
richtig zu liegen, höher ist – darum auch die starke Tendenz zur Fehlklassifizierung als narration und die Zunahme des Fehlers für free_indirect bei steigender Anzahl von Bäumen. Tatsächlich könnte eine Gesamterfolgsrate von ca. 38 % erzielt werden, wenn man einfach allen Sätzen die häufigste Kategorie, narration, zuweisen würde, was natürlich für die Erkennung von Wiedergabe nicht zielführend wäre. Daneben gibt es noch ein weiteres Problem bei dem Versuch, alle Wiedergabekategorien auf einmal zu erkennen: die Mehrfachzählung, die bei den Sätzen auftritt, die mehr als eine Wiedergabekategorie enthalten (Abbildung 11.5 zeigt auch den Anteil an mehrfach gezählten Sätzen pro Kategorie). Wie in Abschnitt 11.2 ausgeführt, erschweren Ambiguitäten zum einen den Aufbau eines guten Klassifizierungsmodells aus den Trainingsdaten, zum anderen führen sie dazu, dass die automatische Klassifizierung Fehler machen muss, da sie jedem Satz nur eine Klasse zuweisen kann. Das Lernen aller Klassen gleichzeitig ist also keine günstige Strategie. Stattdessen werden für die Erkennung mehrere Lernvorgänge durchgeführt, in denen jeweils nur die Instanzen einer einzigen Wiedergabekategorie von den Restinstanzen unterschieden werden. So ist es auch möglich, einer Instanz mehrere Klassen zuzuweisen, indem man mehrere Erkenner hintereinander anwendet. Allerdings verschärft sich das Problem der Ungleichgewichtung noch, wenn nur eine Klasse mit dem Rest der Trainingsinstanzen kontrastiert wird. Im extremsten Fall, freier indirekter Wiedergabe, ergibt sich eine Verteilung von 110 Instanzen von free_indirect vs. 2476 Instanzen mit anderen Kategorien, also ein Verhältnis von etwa 1:23. Im Folgenden wird dargestellt, wie mit diesem Problem umgegangen wurde.
11.6 Lernen jeder Wiedergabekategorie einzeln Die Situation, dass die zu unterscheidenden Klassen ungleich häufig auftreten, ist im maschinellen Lernen nicht selten, und es gibt verschiedene Strategien, dem entgegen zu wirken. So können die Gruppengrößen ausgeglichen werden, indem man aus der dominanten Gruppe nur eine nach dem Zufallsprinzip zusammengestellte Untermenge verwendet. Das ist allerdings insofern problematisch, als es die sowieso schon geringe Menge an Trainingsdaten drastisch reduziert. Eine zweite Möglichkeit ist es, den Lernalgorithmus kostensensitiv zu machen, z.B. mit dem Metaklassifizierer MetaCost (vgl. Domingos 1999). Dies sorgt dafür, dass es ‚teurer‘– also weniger attraktiv – wird, eine Instanz der seltenen Klasse nicht zu erkennen. Mit MetaCost wurden einige Tests durchgeführt, auf deren Ergebnisse im Fazit (Abschnitt 11.9) kurz eingegangen wird.
240 | 11 Maschinelles Lernen Die im Rahmen dieser Studie verwendete Strategie ist das Resampling oder Oversampling. Hier wird ein ausgeglichenes Datenset geschaffen, indem Instanzen der kleineren Gruppe mehrfach verwendet werden. Auf diesem Datenset kann nun der Lernalgorithmus trainiert werden, ohne dass zu befürchten ist, dass die kleinere Klasse massiv benachteiligt wird. Natürlich ist das Trainingsmaterial für die kleinere Klasse trotzdem schlechter als für die dominante Klasse, da es aufgrund der Verdoppelungen weniger Information enthält, aber zumindest wird die vorhandene Information voll ausgenutzt. Wenn der RandomForest-Algorithmus auf einem solcherart manipulierten Datenset trainiert worden ist, sind allerdings die automatisch berechneten Fehlerraten nicht mehr aussagekräftig – schließlich will man wissen, wie gut das Modell für Daten funktioniert, in denen das Verhältnis von Instanzen, die den Wiedergabetyp enthalten, und solchen, die ihn nicht enthalten, realistisch ist. Um eine Abschätzung der tatsächlichen Erkennungsraten zu erhalten, wird darum eine stratifizierte Kreuzvalidierung durchgeführt, ein Standardverfahren bei der Bewertung maschineller Lernexperimente (vgl. z.B. Witten et al. 2011, 152–154). Dafür werden aus den Instanzen des gesamten Erzähltextkorpus ohne Berücksichtigung von Textgrenzen mehrere gleich große Gruppen gebildet, wobei darauf geachtet wird, dass der Anteil der unterschiedlichen Klassen in jeder Teilgruppe ungefähr gleich ist. Diese gleichmäßige Verteilung der Klassenanteile nennt sich ‚Stratifizierung‘. Im konkreten Fall erfolgt die Teilung in zehn Gruppen, was sich in der Forschung als guter Richtwert etabliert hat. Man spricht von 10-facher Kreuzvalidierung. Neun der Gruppen werden verwendet, um den Lernalgorithmus zu trainieren und ein Modell zu erstellen. Die zehnte Gruppe stellt die Testdaten dar, auf die das Modell angewendet wird. Dieser Prozess wird zehnmal durchgeführt, wobei immer eine andere Gruppe für den Test zurückgehalten wird. Auf diese Weise wird niemals ein Modell auf die Daten angewendet, mit denen es trainiert wurde. Am Ende sind alle Daten des Erzähltextkorpus maschinell klassifiziert worden, und durch den Vergleich mit der manuellen Annotation kann eine Auswertung durchführt werden. Mit dieser Methode ist eine verlässlichere Abschätzung des Erfolgs möglich als wenn man die Daten nur einmal in Test- und Trainingsset geteilt hätte, da zufällige Schwankungen weniger ins Gewicht fallen. Für das Lernen und die Auswertung mit Resampling und Kreuzvalidierung wurde in R ein Skript entwickelt. Abbildung 11.6 illustriert, welche Schritte dieses durchführt. Ausgangspunkt ist eine Datenmenge mit zwei Klassen: Sätze, die Wiedergabe enthalten (W) und Sätze, die keine enthalten (X). X ist dabei deutlich größer als W. Folgende Arbeitsanweisungen werden ausgeführt: 1. Teile alle vorhandenen Daten in Pakete auf, so dass das Verhältnis von W zu X in jedem Paket möglichst gleich ist. (Die Abbildung zeigt der Übersichtlichkeit
| 241
11.6 Lernen jeder Wiedergabekategorie einzeln
Abb. 11.6. Ablauf von Lernen und Auswertung mit RandomForest und Resampling
242 | 11 Maschinelles Lernen halber nur 3 Pakete, tatsächlich wird der Lernvorgang mit 10 Paketen durchgeführt.) 2. Behalte ein Paket als Testdaten zurück und füge die restlichen Pakete als Trainingsdaten zusammen. 3. Teile die Trainingsdaten in Instanzen von X und von W. Vergrößere die Gruppe der W-Instanzen, bis sie die gleiche Größe erreicht hat wie die Gruppe der X-Instanzen. Um eine möglichst gleichmäßige Ausnutzung der W-Instanzen zu gewährleisten, geschieht dies, indem die W-Gruppe so oft verdoppelt wird wie es möglich ist, ohne die Größe der X-Gruppe zu überschreiten.57 Der Größenunterschied, der danach noch besteht, wird ausgeglichen, indem so lange nach dem Zufallsprinzip Instanzen aus der ursprünglichen W-Gruppe gezogen werden, bis die Größe der X-Gruppe erreicht ist. Dabei wird keine Instanz zweimal gezogen. 4. Füge nun die unveränderte X-Gruppe und die vergrößerte W-Gruppe zusammen und trainiere ein RandomForest-Modell auf dieser Datenmenge. 5. Klassifiziere mit diesem Modell die Testdaten, in denen das Mengenverhältnis von X zu W dem realen Verhältnis entspricht. Dieser Prozess wird insgesamt zehnmal durchgeführt, wobei jeweils ein anderes Paket als Testdaten verwendet wird, so dass am Ende Vorhersagen für alle Instanzen des Erzähltextkorpus vorhanden sind.58 Tab. 11.4. RandomForest: Klassifizierung der Kategorien einzeln mit Resampling und Kreuzvalidierung
Precision
Recall
F-Score
direct
0,88
0,85
0,87
direct ohne $(
0,81
0,80
0,81
free_indirect
0,63
0,29
0,40
indirect
0,62
0,47
0,53
reported
0,56
0,45
0,50
57 Um eine Orientierung zu geben: Die Instanzen von direct passen nur einmal in die Restgruppe, die für free_indirect hingegen 22mal. 58 Beim maschinellen Lernen mit RandomForest, Resampling und Kreuzvalidierung werden an verschiedenen Stellen Zufallsfaktoren verwendet. Im Anhang, Abschnitt A.5, wird drauf eingegangen, inwieweit diese die Stabilität der Ergebnisse beeinflussen.
11.6 Lernen jeder Wiedergabekategorie einzeln
| 243
Tabelle 11.4 zeigt die Ergebnisse für die vier Wiedergabekategorien bei Anwendung von RandomForest mit Resampling und Kreuzvalidierung. Angegeben sind wie bei der Auswertung des regelbasierten Lernens die Werte Precision, Recall und F-Score. Ein Vergleich mit den Ergebnissen für das Lernen aller Wiedergabetypen gleichzeitig (Tabelle 11.3) zeigt, dass für alle Typen eine wesentliche Verbesserung erzielt wurde. Die Erkennung von direct erreicht einen ansehnlichen F-Score von 0,87 – besser als bei den regelbasierten Methoden. Die F-Scores für free_indirect, indirect und reported, die zwischen 0,40 und 0,53 liegen, zeugen zwar nicht von einer sehr exakten Erkennung, zumindest bei free_indirect ist der Erfolg jedoch ebenfalls besser als bei der regelbasierten Erkennung. Man kann zudem beobachten, dass das Lernen mit Resampling die Genauigkeit begünstigt – die Werte für Precision sind in allen Fällen höher als für Recall, vor allem bei den seltenen Kategorien. Für die Erkennung direkter Wiedergabe wurde noch ein zusätzlicher Test durchgeführt: Da Anführungszeichen bei der regelbasierten Erkennung von direkter Wiedergabe eine so zentrale Rolle spielen, sich aber gleichzeitig als unzuverlässiger Indikator erwiesen haben, wurde probehalber das Attribut $( entfernt. Dieses beruht auf einem Tag des STTS und bildet den Anteil an sonstigen satzinternen Satzzeichen (– [] () «») ab. Das heißt, es ist das Attribut, welches das Auftreten von Anführungszeichen erfasst. Wenn es entfernt wird, verschlechtern sich sowohl Precision als auch Recall, aber der F-Score für korrekt erkannte direkte Wiedergaben liegt immer noch bei 0,81. Wenn man bedenkt, dass das maschinelle Lernen damit völlig unabhängig von dem Indikator Anführungszeichen ist, ohne den die regelbasierte Erkennung kaum funktioniert, ist dies kein schlechtes Ergebnis. Die Tabellen 11.5 bis 11.8 zeigen eine detaillierte Auswertung der Lernexperimente mit Erfolgswerten für die einzelnen Texte des Erzähltextkorpus. Wie bereits erwähnt, beruhen die dargestellten Ergebnisse auf Kreuzvalidierung, und die Gruppengrenzen für die zehn stratifizierten Pakete verliefen nicht entlang der Textgrenzen. Es ist jedoch möglich, die automatische Klassifizierung für jede Instanz zu bestimmen und Ergebnisse auf die Texte zu übertragen. Zu diesem Zweck wurde das GATE-Modul ApplyRPredictions entwickelt. Anschließend kann eine Auswertung für jeden Text vorgenommen werden, entsprechend dem Vorgehen bei der regelbasierten Annotation. Diese Darstellung ist interessant, da sie einen Eindruck gibt, wie stabil die Ergebnisse für unterschiedliche Texte sind. Tabelle 11.5 zeigt sowohl die Werte für die Erkennung direkter Wiedergabe mit als auch ohne die Einbeziehung des Attributs $(. Man kann sehen, dass für beide Arten des maschinellen Lernens die Recall-Werte für die Texte, die keine oder nur wenige Anführungszeichen verwenden (v.a. Bernhardi: Belinde, Günderrode: Bramine und Kleist: Erdbeben), deutlich höher sind als bei der regelbasierten Er-
244 | 11 Maschinelles Lernen Tab. 11.5. RandomForest Resampled: Auswertung für direct, textweise mit Entwicklung beim Weglassen des Attributs $( (grau hinterlegt: Verbesserung; schwarz hinterlegt: Verschlechterung)
Document
Precision
Prec no $ ( Recall
Recall no $ (F-Score
F-Score no $ (
Bernhardi: Belinde
0,98
0,98
0,86
0,92
Bürger: Münchhausen 0,20
0,10
1,00
1,00
0,33
0,18
Günderode: Bramine
0,49
0,49
0,60
0,60
0,54
0,54
Hauff: Kalif
0,95
0,93
0,85
0,78
0,90
0,85
Hebbel: Kuh
0,98
0,96
0,86
0,88
0,92
0,92
Heym: Irre
0,82
0,55
0,67
0,53
0,74
0,54
Janitschek: Weib
0,97
0,93
0,91
0,63
0,94
0,75
Kafka: Gracchus
1,00
1,00
0,67
0,60
0,80
0,75
Kleist: Erdbeben
0,82
0,76
0,94
0,92
0,88
0,83
May: Ziege
0,98
0,97
0,91
0,88
0,94
0,92
Musäus: Entführung
0,45
0,57
0,83
0,67
0,59
0,62
Schnitzler: Ypsilon
0,86
0,75
0,98
0,89
0,92
0,81
Tieck: Eckbert
0,59
0,39
0,82
0,78
0,69
0,52
Durchschnitt Texte
0,78
0,72
0,83
0,77
0,77
0,70
Gesamtkorpus
0,88
0,81
0,85
0,80
0,87
0,81
0,73
0,84
11.6 Lernen jeder Wiedergabekategorie einzeln Tab. 11.6. RandomForest Resampled: Auswertung für indirect, textweise
Text
Precision
Recall
F-Score
Bernhardi: Belinde
0,75
0,62
0,68
Bürger: Münchhausen
0,75
0,50
0,60
Günderode: Bramine
0,36
0,15
0,22
Hauff: Kalif
0,64
0,42
0,51
Hebbel: Kuh
0,50
0,60
0,55
Heym: Irre
0,89
0,64
0,74
Janitschek: Weib
0,00
0,00
0,00
Kafka: Gracchus
0,33
0,25
0,29
Kleist: Erdbeben
0,72
0,53
0,61
May: Ziege
0,17
0,25
0,20
Musäus: Entführung
0,74
0,45
0,56
Schnitzler: Ypsilon
0,50
0,32
0,39
Tieck: Eckbert
0,65
0,65
0,65
Durchschnitt Texte
0,54
0,41
0,46
Gesamtkorpus
0,62
0,47
0,53
| 245
246 | 11 Maschinelles Lernen Tab. 11.7. RandomForest Resampled: Auswertung für reported, textweise
Text
Precision
Recall
F-Score
Bernhardi: Belinde
0,43
0,45
0,44
Bürger: Münchhausen
0,75
0,67
0,71
Günderode: Bramine
0,68
0,57
0,62
Hauff: Kalif
0,62
0,47
0,54
Hebbel: Kuh
0,00
0,00
0,00
Heym: Irre
0,06
0,05
0,06
Janitschek: Weib
0,33
0,20
0,25
Kafka: Gracchus
0,80
0,31
0,44
Kleist: Erdbeben
0,60
0,59
0,59
May: Ziege
0,77
0,37
0,50
Musäus: Entführung
0,61
0,48
0,53
Schnitzler: Ypsilon
0,57
0,34
0,43
Tieck: Eckbert
0,55
0,50
0,53
Durchschnitt Texte
0,52
0,38
0,43
Gesamtkorpus
0,56
0,45
0,50
11.6 Lernen jeder Wiedergabekategorie einzeln
| 247
Tab. 11.8. RandomForest Resampled: Auswertung für free_indirect, textweise
Text
Korrekt
Nur Manuell
Nur ML
Precision Recall
F-score
Bernhardi_Belinde
0
0
0
1,00
1,00
1,00
Bürger_Münchhausen
0
0
1
0,00
1,00
0,00
Günderode_Bramine
0
0
1
0,00
1,00
0,00
Hauff_Kalif
0
0
0
1,00
1,00
1,00
Hebbel_Kuh
0
0
0
1,00
1,00
1,00
Heym_Irre
30
68
14
0,68
0,31
0,42
Janitschek_Weib
1
6
1
0,50
0,14
0,22
Kafka_Gracchus
0
0
0
1,00
1,00
1,00
Kleist_Erdbeben
0
2
0
1,00
0,00
0,00
May_Ziege
0
0
1
0,00
1,00
0,00
Musäus_Entführung
0
0
0
1,00
1,00
1,00
Schnitzler_Ypsilon
1
1
1
0,50
0,50
0,50
Tieck_Eckbert
0
1
0
1,00
0,00
0,00
0,67
0,69
0,47
0,63
0,29
0,40
Durchschnitt Texte Gesamtkorpus
32
78
19
248 | 11 Maschinelles Lernen kennung. Insbesondere bei Kleist: Erdbeben ist die Verbesserung beachtlich. In der Tabelle sind jeweils die Ergebnisse, bei denen das Weglassen des Attributs $( zu einer Verbesserung führt, grau hinterlegt und die, bei denen es zu einer Verschlechterung führt, schwarz. Es zeigt sich, dass von den problematischen Texten nur Bernhardi: Belinde davon profitiert, dass Anführungszeichen von den Attributen nicht mehr erfasst werden. Für diesen Text, der überhaupt keine Anführungszeichen verwendet, erhöht sich der Recall noch einmal deutlich.59 Bei Günderrode: Bramine und Kleist: Erdbeben, die gelegentlich Anführungszeichen verwenden, gibt es keine Veränderung bzw. eine Verschlechterung wenn das Attribut $( weggelassen wird. Dieser Befund deutet darauf hin, dass die Erkennung mit Hilfe von maschinellem Lernen flexibel ist und gleichzeitig gute Ergebnisse für markierte und unmarkierte direkte Wiedergabe liefern kann. Eine Anpassung der Konfiguration, wie durch das Weglassen des Attributs $( geschehen, scheint dabei nur in extremen Fällen – wenn überhaupt keine Anführungszeichen zu erwarten sind – notwendig. Die Ergebnisse für indirekte und erzählte Wiedergabe in Tabellen 11.6 und 11.7 zeigen, dass es jeweils einen Text gibt, bei dem die Erkennung ganz scheitert, also keinerlei Übereinstimmung von manueller und automatischer Annotation vorliegt – Janitschek: Weib bei indirekter Wiedergabe und Hebbel: Kuh bei erzählter Wiedergabe. Dies ist unerfreulich, allerdings ist anzumerken, dass Janitschek: Weib nur sechs manuell annotierte Fälle von indirekter Wiedergabe enthält, von denen vier ambig sind. Hebbel: Kuh enthält sechs Instanzen erzählter Wiedergabe, von denen drei das Attribut border tragen. Dennoch ist nicht von der Hand zu weisen, dass die regelbasierte Erkennung bei diesen Texten erfolgreicher ist als das maschinelle Lernen. Wie bei der Auswertung des Moduls MarkFreeIndirect (Abschnitt 10.5.2) werden die Ergebnisse für freie indirekte Wiedergabe etwas ausführlicher dargestellt. Tabelle 11.8 gibt zusätzlich zu Precision, Recall und F-Score auch an, wie viele Instanzen nur manuell annotiert waren, wie viele nur automatisch und bei wie vielen die beiden Methoden übereinstimmen. Da es mehrere Texte gibt, die
59 Auch bei zwei anderen Texten zeigen sich leichte Verbesserungen: Bei Hebbel: Kuh erhöht sich der Recall, bei Musäus: Entführung verbessern sich sogar Precision und F-Score. Beide Texte verwenden jedoch Anführungszeichen. Dies zeigt, dass das Zusammenwirken von Faktoren bei der Erkennung mit Hilfe von maschinellem Lernen komplex ist, eine eindeutige Erklärung für Einzelklassifizierungen lässt sich kaum finden. Bei dem Text Musäus: Enführung, der recht wenige direkte Wiedergaben enthält, kann man allerdings feststellen, dass die Verbesserung der Werte darauf zurückgeht, dass ohne das Attribut $( insgesamt weniger – also auch weniger falsche – direkte Wiedergaben annotiert werden. Bei Hebbel: Kuh ist der Verbesserungseffekt so schwach, dass Spekulationen kaum lohnend sind.
11.6 Lernen jeder Wiedergabekategorie einzeln
| 249
keine oder nur eine oder zwei Instanzen von Wiedergabe enthalten, hat bereits die Fehlererkennung von einer einzigen Instanz extreme Auswirkungen auf den F-Score. Betrachtet man die einzelnen Werte, wird klar, dass sich die Abweichungen oft in einem sehr kleinen Rahmen bewegen. Beim Text Heym: Irre, der den Großteil der Instanzen von freier indirekter Wiedergabe enthält, sieht man zudem, dass der Erkenner dazu neigt, eher zu wenige Instanzen zu erfassen als zu viele.
11.6.1 Die Bedeutung der Wiedergabewort-Attribute Von den 80 Attributen, die beim maschinellen Lernen verwendet werden, beruhen 11 auf den Annotationen des Moduls MarkSTWWords. Bei ihrer Definition ist am meisten Interpretation eingeflossen, da sie Konzepte abbilden, die auf den konkreten lexikalischen Elementen der Wiedergabewortliste basieren. Es ist von besonderem Interesse, ob dieser Eingriff für den Erfolg des maschinellen Lernens tatsächlich nötig ist, da die Zusammenstellung einer guten Wiedergabewortliste mit Aufwand verbunden ist. Darum wurde ein Lernexperiment durchgeführt, bei dem die 11 Wiedergabewort-Attribute entfernt wurden. Damit reduziert sich die Attributliste auf 69 Elemente. Tabelle 11.9 zeigt die Ergebnisse im Kontrast zu den Ergebnissen bei Verwendung aller Attribute. Tab. 11.9. RandomForest Resampled: Ergebnisse ohne Attribute auf der Basis von stw_words
Precision
Recall
F-Score
direct
0,88
0,85
0,87
ohne stw_words
0,88
0,85
0,86
free_indirect
0,63
0,29
0,40
ohne stw_words
0,58
0,30
0,40
indirect
0,62
0,47
0,53
ohne stw_words
0,49
0,28
0,36
reported
0,56
0,45
0,50
ohne stw_words
0,41
0,23
0,29
Schon bei der regelbasierten Erkennung hat sich gezeigt, dass Wiedergabewörter v.a. bei den Techniken indirekte und erzählte Wiedergabe eine große Rolle spielen. Dies bestätigt sich auch hier: Während die Ergebnisse bei free_indirect
250 | 11 Maschinelles Lernen und direct durch die Entfernung der Wiedergabewort-Attribute fast unberührt bleiben, sinkt der F-Score bei indirect um 0,19, bei reported sogar um 0,21. Sowohl Recall als auch Precision sinken, wobei der Recall am stärksten leidet. Es ist also offensichtlich, dass die Wiedergabewörter bei diesen beiden Wiedergabetypen eine entscheidende Rolle spielen und ihre Markierung auch beim maschinellen Lernen große Vorteile bringt.
11.6.2 Pseudo-Frei-Indirekt Die Erkennung freier indirekter Wiedergabe auf der Basis des Erzähltextkorpus ist schwierig, da nicht nur ihr Anteil gering ist, sondern sich auch fast alle Instanzen in einem einzigen Text befinden (Heym: Irre). Ob dieses Trainingsmaterial ausreicht, um einen soliden Erkenner zu produzieren, ist fraglich. Darum wurde ein Experiment dazu durchgeführt, wie man einen Lernalgorithmus trotz des Mangels an positiven Beispielen besser auf freie indirekte Wiedergabe trainieren könnte. Das Experiment beruht auf folgender Überlegung: Ein Merkmal freier indirekter Wiedergabe, das in der narratologischen Forschung immer wieder betont wird, ist, dass sie den Stil von Figurenrede nachahmt. Darum sollte eine stilistische Ähnlichkeit zur direkten Wiedergabe bestehen. Also wurde der Lernalgorithmus auch auf Instanzen direkter Wiedergabe trainiert und das Modell dann zur Erkennung freier indirekter Wiedergabe verwendet. Dazu waren einige Anpassungen des üblichen Lern- und Auswertungsvorgangs (vgl. Abbildung 11.6) nötig. Die Daten des Erzähltextkorpus wurden für das maschinelle Lernen so extrahiert, dass die Klassen direct und free_indirect dem Rest der Instanzen gegenüber stehen. Dabei gab es keine Mehrfachzählung, um zu vermeiden, dass Instanzen verdoppelt werden. Stattdessen wurden alle Instanzen, die sowohl freie indirekte als auch direkte Wiedergabe enthalten, als free_indirect klassifiziert. Außerdem wurden gezielt zwei Attribute entfernt: $( (Anteil sonstige satzinterne Satzzeichen: – [] () «») und per12 (Anteil Personalpronomen der 1. oder 2. Person). Beide markieren Merkmale, die sehr gute Indikatoren für direkte Wiedergabe sind, aber gerade nicht charakteristisch für freie indirekte Wiedergabe, die nicht mit Anführungszeichen markiert und im prototypischen Fall in der dritten Person verfasst ist. Durch das Weglassen der Attribute wurde erreicht, dass diese Unterschiede zwischen direkter und freier indirekter Wiedergabe ignoriert werden. Die Werte der restlichen Attribute, so die Hypothese, sollten für beide Kategorien ähnliche, für Figurenrede typische Tendenzen aufweisen. Mit diesen Daten wurde nun eine zehnfache Kreuzvalidierung mit folgenden Besonderheiten durchgeführt:
11.6 Lernen jeder Wiedergabekategorie einzeln
–
–
–
| 251
Bei der Aufteilung in Pakete wurde Stratifizierung sowohl für direct als auch für free_indirect durchgeführt, d.h. es wurde darauf geachtet, dass die Anteile beider Klassen in jedem Paket ihren Anteilen im Gesamtkorpus entsprechen. Beim Trainieren des RandomForest-Modells wurden die Instanzen von free_ indirect und direct als eine Klasse behandelt, genannt pfi (‚pseudo free indirect‘). Das führt dazu, dass eine wesentlich größere Menge Trainingsmaterial vorhanden ist, so dass beim Resampling sehr viel weniger Instanzen verdoppelt werden müssen. Der Hauptanteil von pfi sind dabei natürlich Instanzen von direct. Das Modell wurde nun auf die Testdaten angewendet. Bei der Auswertung galt es nur als Erfolg, wenn eine automatisch gefundene Instanz von pfi mit einer manuell annotierten Instanz von free_indirect übereinstimmte.
Tabelle 11.10 zeigt eine Konfusionsmaxtrix, bei der auf der Y-Achse die Klassifikationen der manuellen Annotation nach free_indirect, direct und dem Rest, bezeichnet mit x, unterschieden werden und auf der X-Achse die automatischen Klassifikationen pfi vs. x. Von den 110 Fällen von freier indirekter Wiedergabe werden 80 als pfi erkannt, sehr viel mehr als beim herkömmlichen Lernen. Allerdings klassifiziert der Erkenner gleichzeitig auch 712 Fälle von direct als pfi. Das Ergebnis ist also ein guter Recall bei sehr schlechter Precision, wie Tabelle 11.11 zeigt. Dies war zu erwarten, da das Modell ja auf Daten trainiert wurde, in denen diese beiden Wiedergabetypen vermischt werden. Tab. 11.10. Konfusionsmatrix für Pseudo-Frei-Indirekt
Vorhersage → pfi Realität ↓ dir
x
712
201
fi
80
30
x
185
1378
252 | 11 Maschinelles Lernen Tab. 11.11. Ergebnisse für Pseudo-Frei-Indirekt – Erkennung von free_indirect mit Training auf free_indirect und direct
Precision
Recall
F-Score
Pseudo-Frei-Indirekt
0,08
0,73
0,15
Auswertung PFI ohne direct-Instanzen
0,30
0,73
0,43
herkömmliche Erkennung von FI
0,63
0,29
0,40
Darum wurde überprüft, ob sich ein Nutzen der Methode zeigt, wenn man Instanzen von direkter Wiedergabe außer acht lässt. Die Auswertung erfolgte also unter der Voraussetzung, dass der Erkenner nur auf Instanzen angewendet wird, bei denen bereits bekannt ist, dass sie keine direkte Wiedergabe enthalten. Es wurden alle manuell als direct annotierten Instanzen entfernt, also quasi die Zeile dir der Konfusionsmatrix nicht beachtet. Dies war in diesem Falle problemlos möglich, weil die Klassifizierungen der manuellen Annotation für das Erzähltextkorpus bekannt sind. Eine solche Filterung kann aber auch auf automatischem Wege erreicht werden, z.B. durch die vorherige Anwendung eines Erkenners für direct (wobei der Erfolg dann natürlich von der Güte dieses Erkenners abhängt). Die zweite Zeile von Tabelle 11.11 zeigt, dass sich bei dieser Art der Auswertung die Precision deutlich verbessert. Der F-Score liegt mit 0,43 nun knapp über dem F-Score von 0,40 für das Lernen von free_indirect auf die herkömmliche Weise. Dieser wurde allerdings auf allen Daten berechnet, so dass davon auszugehen ist, dass er besser wäre, wenn man auch dort die Instanzen von direct ignorieren würde. Man kann also nicht sagen, dass das Lernen mit Pseudo-Frei-Indirekt insgesamt überlegen ist. Allerdings hat es einen sehr viel besseren Recall als die herkömmliche Methode und kann darum eine interessante Option sein, wenn Interesse daran besteht, möglichst viele potentielle Fälle von freier indirekter Wiedergabe zu identifizieren.
11.7 Empirische Studie: Attributbewertung Wie in Abschnitt 11.3 dargestellt, werden 80 Attribute für das maschinelle Lernen verwendet. Die Experimente mit dem Attribut $( und den WiedergabewortAttributen haben gezeigt, welche Auswirkungen es auf den Lernerfolg hat, wenn man einige davon weglässt. Im Folgenden wird die Relevanz der einzelnen Attribute in Bezug auf die verschiedenen Wiedergabetypen gezielter untersucht.
11.7 Empirische Studie: Attributbewertung
|
253
Die Ergebnisse einer solchen Untersuchung können dazu verwendet werden, die Attribute vor dem Lernprozess auf die relevantesten zu reduzieren. Dies wurde jedoch im Rahmen dieser Studie nicht praktiziert, was vertretbar ist, da die Leistung des RandomForest-Algorithmus wesentlich weniger unter überzähligen Attributen leidet als die anderer Lernalgorithmen, wie z.B. einfacher Entscheidungsbäume (vgl. Abschnitt 11.4). Die folgenden Betrachtungen sind rein deskriptiv, d.h. es geht darum, welche Erkenntnisse zu sprachlichen Besonderheiten der verschiedenen Wiedergabetypen die statistische Untersuchung von Beispieldaten beitragen kann und welche erwarteten und verborgenen Regelhaftigkeiten dabei sichtbar werden. Es sei noch einmal daran erinnert, dass es sich um Beobachtungen handelt, die allein auf der Basis des Erzähltextkorpus gemacht werden, weshalb man mit Verallgemeinerungen entsprechend vorsichtig sein muss. Dennoch lassen sich einige interessante Trends feststellen. Der RandomForest-Algorithmus ist so konzipiert, dass er automatisch eine Attributbewertung vornimmt. Tatsächlich liefert die Implementierung in R sogar mehrere unterschiedliche Bewertungen (vgl. Liaw/Wiener 2002, 18). Diejenige, die im Folgenden verwendet wird, nennt sich Mean Decrease Accuracy. Sie wird folgendermaßen berechnet: Immer wenn ein Baum des RandomForest aufgebaut worden ist, wird dieser auf den Out-of-bag-Daten getestet (vgl. Abschnitt 11.4), und es wird festgehalten, wie viele Instanzen der betrachteten Klasse korrekt erkannt wurden. Um die Bewertung für ein Attribut zu erhalten, werden nun die Werte dieses Attributs in den Out-of-bag-Daten zufällig permutiert und dann erneut eine Klassifizierung vorgenommen. Die Anzahl der korrekt erkannten Instanzen in den manipulierten Daten wird von denen in den ursprünglichen Daten abgezogen und auf diese Weise gemessen, wie sehr sich die Erkennung verschlechtert. Der Durchschnitt dieses Werts über alle Bäume ist die Grundlage für die Attributbewertung (vgl. Breiman/Cutler o. J., Variable Importance). Die dahinter stehende Überlegung ist, dass ein Attribut dann wichtig ist, wenn sich die Klassifizierung deutlich verschlechtert, wenn seine Werte zufällig permutiert – also verfälscht – werden. Hohe Werte von Mean Decrease Accuracy deuten auf eine hohe Relevanz des Attributs hin. Für die hier vorgestellten Attributbewertungen wurde für jeden der vier Wiedergabetypen ein RandomForest-Modell mit Resampling auf allen Daten des Erzähltextkorpus trainiert. Kreuzvalidierung war in diesem Fall nicht nötig, so dass die gesamte Datenmenge genutzt werden konnte.60 Betrachtet werden bei jedem
60 Diese RandomForest-Modelle können auch dazu verwendet werden, neue Daten, die nicht Teil des Erzähltextkorpus sind, zu klassifizieren. Sie sind Teil des Zusatzmaterials zu dieser Studie.
254 | 11 Maschinelles Lernen Modell die Mean-Decrease-Accuracy-Werte aller 80 Attribute für die jeweiligen Wiedergabekategorie, d.h. es wird gemessen, wie sehr sich der Erfolg bei der Erkennung der Wiedergabekategorie verschlechtert, nicht der Gesamterfolg des Modells. Zunächst soll die Relevanzentwicklung der 80 Attribute für die unterschiedlichen Wiedergabetypen untersucht werden. Abbildung 11.7 ordnet die MeanDecrease-Accuracy-Werte für jeden der Typen in absteigender Reihenfolge an. In dieser Darstellung geht es nicht darum, welches die gut bewerteten Attribute sind, sondern wie der Verlauf der Kurven ist. Wie man sieht, ist die beste Bewertung für ein Attribut bei free_indirect um einiges höher als bei allen anderen Wiedergabetypen. Hierbei ist zu bedenken, dass für free_indirect deutlich weniger Trainingsdaten zur Verfügung stehen und das RandomForest-Modell darum auf einem Trainingsset erstellt wurde, das sehr viele Wiederholungen enthält. Permutationen der Attributwerte haben bei so wenigen unterschiedlichen Einzelbeispielen besonders dramatische Auswirkungen, so dass Klassen mit einer geringen Menge an Trainingsdaten tendenziell höhere Attributbewertungen haben. Wenn man sich nicht die absoluten Werte, sondern die Art der Kurvenverläufe ansieht, kann man feststellen, dass sich direct und free_indirect recht ähnlich verhalten: Bei beiden gibt es einige sehr gute Attribute und einen steilen Abfall: Wenige Attribute leisten den Hauptanteil bei der Erkennung. Bei indirect und reported hingegen sind die besten Attribute nicht so hervorstechend, und der Abfall der Kurve ist sanfter. Das heißt, es gibt mehr Attribute, die alle kleinere Beiträge zur Erkennung liefern. Zudem wird ersichtlich, dass es für alle Wiedergabetypen Attribute gibt, die keinen nennenswerten Voraussagewert mehr haben. Natürlich müssen dies nicht in jedem Fall die gleichen Attribute sein. Im Folgenden sollen nun für jeden der Wiedergabetypen die besten 20 Attribute betrachtet werden, die in jedem Fall noch positive Werte für Mean Decrease Accuracy haben. Zu beachten ist, dass der Wert, den ein Attribut im Instanzvektor hat – z.B. verb_fin:0,02 (Attribut ‚Anteil finiter Verben‘ = 0,02) – nicht unbedingt hoch sein muss, damit es relevant ist. Auch ungewöhnlich niedrige Werte können aussagekräftig sein. Eine gute Bewertung von z.B. verb_fin muss also nicht zwangsläufig heißen, dass ein Wiedergabetyp besonders viele finite Verben enthält, es heißt lediglich, dass die Werte bei verb_fin bei der Klassifizierung helfen. Auf welche Weise, bleibt der Interpretation überlassen bzw. würde weitere Untersuchungen erfordern.
0.25
11.7 Empirische Studie: Attributbewertung |
direct free_indirect indirect reported
0.15
●
0.10
Mean decrease Accurary
0.20
●
●
0.05
●
● ● ● ●●● ●
● ●●● ●● ●●● ●●
0.00
●●
0
20
●●● ●● ●
●●●
●●● ●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●
40
60
Attribute
Abb. 11.7. Bewertungen für die 80 Attribute bei den vier Wiedergabetypen
80
255
256 | 11 Maschinelles Lernen 11.7.1 Attributbewertung für direkte Wiedergabe
Tab. 11.12. Die 20 besten Attribute zur Erkennung von direkter Wiedergabe
Attribut
Wert
Erklärung
$(
0,1249
Anteil sonstige satzinterne Satzzeichen: - [] () «»
punc
0,0800
Anteil ‚emphatische‘ Satzzeichen: ? ! –
per12
0,0744
Anteil Personalpronomen 1. oder 2. Person
$.
0,0412
Anteil satzbeendende Interpunktion: . ? ! ; :
APPR
0,0356
Anteil Präpositionen/Zirkumpositionen links
VVFIN
0,0294
Anteil finite Vollverben
len
0,0258
Satzlänge
stw_word_e0
0,0253
Anteil Wiedergabewörter, penalty = 0
ART
0,0252
Anteil bestimmte oder unbestimmte Artikel
NN
0,0226
Anteil Appellativa
stw_word1
0,0212
Anteil Wiedergabewörter, penalty ≤ 1
adj
0,0187
Anteil Adjektive insgesamt
stw_word2
0,0185
Anteil Wiedergabewörter, penalty ≤ 2
noun
0,0173
Anteil Nomen und Eigennamen
PPER
0,0166
Anteil irreflexive Personalpronomen: ich, er, ihm
verb_fin
0,0164
Anteil finite Voll-, Hilfs- oder Modalverben
ADJA
0,0159
Anteil attributive Adjektive
verb
0,0157
Anteil Verben aller Arten und Formen
$,
0,0146
Anteil Kommata
VAFIN
0,0142
Anteil finite Hilfsverben
Tabelle 11.12 zeigt die 20 Attribute, die die beste Bewertung für die Erkennung von direkter Wiedergabe haben. Wie bereits erwähnt, ist der Abfall der Bewertungskurve bei diesem Wiedergabetyp steil, so dass v.a. die ersten drei Attribute besonders hervorstechen. – Es bestätigt sich die Hypothese, dass die Attribute $( (Anteil sonstige satzinterne Satzzeichen: – [] () «»), punc (Anteil ‚emphatische‘ Satzzeichen: ? ! –) und pers12 (Anteil Personalpronomen 1. oder 2. Person) eine sehr große Rolle für die Differenzierung direkter Wiedergabe spielen. Vor allem $( sticht
11.7 Empirische Studie: Attributbewertung
–
–
– –
|
257
hervor. Dies entspricht der Intuition, dass direkte Wiedergabe sich durch eine formale Markierung durch Anführungszeichen, emphatischere Satzzeichen und eine veränderte Perspektive auszeichnet. Auch $. (Anteil satzbeendende Interpunktion: . ? ! ; :) rangiert weit oben. Der Grund hierfür ist weniger offensichtlich, zumal dieses Attribut nicht zwischen den verschiedenen Satzendezeichen differenziert. Das verstärkte Auftreten von Doppelpunkten im Kontext direkter Wiedergabe könnte sich allerdings hier niederschlagen. Von den Wiedergabewörtern erreicht stw_word_e0, die beschränkteste Gruppe, den höchsten Wert. Die Gruppen stw_word1 und stw_word2 sind mit geringeren Werten in absteigender Reihenfolge ebenfalls noch unter den besten 20 Attributen vertreten. Dies lässt sich damit erklären, das stw_word_e0 Wörter enthält, die typischerweise in Rahmenformeln vorkommen, und darum auch in den Sätzen mit direkter Wiedergabe auftreten. Die anderen Wiedergabewörter-Attribute enthalten alle ebenfalls die Wörter von stw_word_e0, so dass es sein kann, dass sie vor allem deswegen für die Differenzierung von direkter Wiedergabe tauglich sind. Die Satzlänge (len) befindet sich auch unter den besten 20 Attributen. Zu vermuten ist, dass Sätze in direkter Wiedergabe kürzer sind als andere. Ansonsten finden sich neben verschiedenen Inhaltswort-Kategorien für (v.a. finite) Verben, Adjektive und Nomen auch Funktionswort-Kategorien auf den oberen Rängen, wie APPR (Anteil Präpositionen/Zirkumpositionen links) und ART (Anteil bestimmte oder unbestimmte Artikel). Dies lässt vermuten, dass direkte Wiedergabe sich tatsächlich durch eine abweichende Satzstruktur auszeichnet, vermutlich mit Tendenz zu finiten Strukturen mit relativ hohem Anteil an Nominalphrasen. Es wären jedoch genauere Untersuchungen nötig, um diese Besonderheiten zu analysieren.
258 | 11 Maschinelles Lernen 11.7.2 Attributbewertung für freie indirekte Wiedergabe
Tab. 11.13. Die 20 besten Attribute zur Erkennung von freier indirekter Wiedergabe
Attribut
Wert
Erklärung
ADV
0,2330
Anteil Adverbien: schon, bald, doch
VVFIN
0,2092
Anteil finite Vollverben
noun
0,1641
Anteil Nomen und Eigennamen
len
0,1331
Satzlänge
VAFIN
0,1321
Anteil finite Hilfsverben
NN
0,1273
Anteil Appellativa
$.
0,1080
Anteil satzbeendende Interpunktion: . ? ! ; :
verb
0,1017
Anteil Verben insgesamt
per12
0,1010
Anteil Personalpronomen 1. oder 2. Person
PDS
0,0981
Anteil substituierende Demonstrativpronomen: dieser, jener
per3
0,0910
Anteil Personalpronomen 3. Person
ART
0,0743
Anteil bestimmte oder unbestimmte Artikel
PPER
0,0682
Anteil irreflexive Personalpronomen: ich, er, ihm
$(
0,0643
Anteil sonstige satzinterne Satzzeichen: – [] () «»
verb_fin
0,0618
Anteil finite Voll-, Hilfs- und Modalverben
APPR
0,0549
Anteil Präpositionen/Zirkumpositionen links
$,
0,0529
Anteil Kommata
adj
0,0528
Anteil Adjektive insgesamt
verb_inf
0,0455
Anteil Voll-, Hilfs- und Modalverben im Infinitiv
ADJA
0,0413
Anteil attributive Adjektive
Tabelle 11.13 zeigt die 20 besten Attribute zur Erkennung freier indirekter Wiedergabe. Auch hier stechen die ersten drei bei der Bewertung besonders hervor. – Interessanterweise ist es das Attribut ADV (Anteil von Adverbien), das die beste Voraussagekraft hat. Da in dieser Wortgruppe Wörter wie schon, bald oder doch vorkommen, ist es denkbar, dass hiermit Modalitäts- und Subjektivtätsmarker erfasst werden, die in der Narratologie als Kennzeichen der freien indirekten Wiedergabe genannt werden (z.B. bei Fludernik 1993, vgl. Abschnitt 5.2). In Abschnitt 10.5.2 wurde demonstriert, dass die Verwen-
11.7 Empirische Studie: Attributbewertung
–
–
–
–
|
259
dung von ADV als Indikator auch die Qualität des regelbasierten Moduls MarkFreeIndirect deutlich verbessern kann. Die beiden anderen hervorstechenden Attribute sind VVFIN (Anteil finite Vollverben) und noun (Anteil Nomen und Eigennamen). Deren Bedeutung müsste näher untersucht werden, könnte aber auf einen schlichten, der Mündlichkeit angenäherten Stil hindeuten. Daneben spielen auch Personalpronomen eine große Rolle: sowohl per12 (Anteil Personalpronomen der 1. und 2. Person) und per3 (Anteil Personalpronomen der 3. Person) als auch PPER (Anteil Personalpronomen insgesamt) sind gut bewertet. Hierbei ist zu beachten, dass es vermutlich die Tatsache ist, dass Personalpronomen der 1. und 2. Person bei freier indirekter Wiedergabe selten vorkommen, die das Attribut per12 relevant macht. Wider Erwarten befindet sich das Attribut punc (Anteil emphatische Satzzeichen ? ! -) nicht unter den 20 besten Attributen, es steht aber immerhin an 23. Stelle. Vermutlich wäre sein Rang höher, wenn nicht ein großer Anteil direkter Wiedergabe in der Kontrastmenge zu freier indirekter Wiedergabe enthalten wäre.61 Wie bei direkter Wiedergabe, nur in einem noch stärkeren Maße, fällt auf, dass die Wiedergabewörter als Attribute eine geringe Rolle spielen – sie tauchen überhaupt nicht in der Gruppe der 20 besten Attribute auf.
Bei dieser Auswertung ist zu beachten, dass sie von allen vorgestellten Ergebnissen auf der geringsten Datengrundlage beruht und noch dazu ein sehr großer Teil der Trainingsinstanzen aus demselben Text stammt. Dies kann dazu geführt haben, dass sich hier Verzerrungen ergeben, die mehr den Autorenstil als die Kennzeichen freier indirekter Wiedergabe abbilden. Dennoch erscheinen die beobachteten Tendenzen nicht unplausibel.
61 Umgekehrt ist dieses Problem nicht zu erwarten, denn die wenigen Fälle von freier indirekter Wiedergabe in der Kontrastmenge zu direct dürften die Ergebnisse für die Attributbewertung kaum beeinflussen.
260 | 11 Maschinelles Lernen 11.7.3 Attributbewertung für indirekte Wiedergabe
Tab. 11.14. Die 20 besten Attribute zur Erkennung von indirekter Wiedergabe
Attribut
Wert
Erklärung
stw_word2
0,1429
Anteil Wiedergabewörter, penalty ≤ 2
stw_word_e1
0,1410
Anteil Wiedergabewörter, penalty = 1
stw_word1
0,1376
Anteil Wiedergabewörter, penalty ≤ 1
KOUS
0,1270
Anteil unterordnende Konjunktionen mit Satz: weil, daß, damit, wenn, ob
verb_inf
0,1194
Anteil Voll-, Hilfs- oder Modalverben im Infinitiv
$,
0,1169
Anteil Kommata
stw_word4
0,1163
Anteil Wiedergabewörter, penalty ≤ 4
verb_konj
0,1129
Anteil Voll-, Hilfs- oder Modalverben im Konjunktiv
stw_word3
0,1082
Anteil Wiedergabewörter, penalty ≤ 3
VVINF
0,0969
Anteil Vollverben im Infinitiv
stw_word5
0,0907
Anteil Wiedergabewörter, penalty ≤ 5
$.
0,0862
Anteil satzbeendende Interpunktion: . ? ! ; :
len
0,0726
Satzlänge
verb
0,0708
Anteil Verben aller Arten und Formen
VVFIN
0,0670
Anteil finite Vollverben
noun
0,0576
Anteil Nomen und Eigennamen
PPER
0,0566
Anteil irreflexive Personalpronomen: ich, er, ihm
zu
0,0537
Anteil Partikel zu und Verbformen mit zu
NN
0,0510
Anteil Appellativa
verb_fin
0,0470
Anteil finite Voll-, Hilfs- oder Modalverben
Betrachtet man Tabelle 11.14 mit den 20 besten Attributen für die Erkennung indirekter Wiedergabe, so ist der Unterschied zu der Attributbewertung für direkte und freie indirekte Wiedergabe augenfällig: – Alle kumulativen Wiedergabewort-Attribute rangieren auf den oberen Plätzen, wobei stw_word2 an erster Stelle steht. Dies ist auch die Gruppe von Wiedergabewörtern, die beim regelbasierten Modul MarkIndirect die besten Ergebnisse geliefert hat. Als Einzelgruppe ist stw_word_e1 (Anteil Wie-
11.7 Empirische Studie: Attributbewertung
–
–
|
261
dergabewörter mit penalty = 1) am aussagekräftigsten. Dies bestätigt nicht nur die sehr große Bedeutung, die Wiedergabewörtern für die Erkennung indirekter Wiedergabe beizumessen ist, sondern auch die Vermutung, dass für indirekte Wiedergabe eine etwas großzügigere Definition von ‚Wiedergabewort‘ günstig ist. Die Gruppe der sichersten Wiedergabewörter, stw_word_e0, taucht nicht unter den ersten 20 Attributen auf. Zudem fällt auf, dass das Attribute $, (Anteil von Kommata) einen hohen Aussagewert hat, was auf die typische Nebensatzstruktur von indirekter Wiedergabe hindeutet. Hierzu passt auch die gute Bewertung von KOUS (Anteil unterordnende Konjunktionen). Auch das Vorkommen von verb_konj (Anteil Verben im Konjunktiv), VVINF (Anteil infinite Vollverben), verb_inf (Anteil infinite Verbformen) und zu (Anteil von Partikel zu und Verbformen mit zu) weist auf typische syntaktische Strukturen hin: Konjunktivsätze und zu+Infinitiv-Konstruktionen.
Angesichts der ungünstigen Bedingungen, die die Erkennung von indirekter Wiedergabe auf Satzbasis hat, ist es bemerkenswert, dass diese Charakteristika so deutlich zu Tage treten.
11.7.4 Attributbewertung für erzählte Wiedergabe Tabelle 11.15 zeigt die 20 besten Attribute zur Erkennung von erzählter Wiedergabe. Hier ist die Interpretation der Attribute schwierig, weil es zur Oberflächenform dieses Wiedergabetyps weniger Erwartungen und Hypothesen gibt. Eindeutig festzuhalten ist: – Die Satzlänge scheint hier eine besondere Rolle zu spielen, sie ist das am besten bewertete Attribut. – Wiedergabewörter dominieren die Liste in noch höherem Maße als bei indirekter Wiedergabe. Alle kumulativen Gruppen sind auf den obersten Rängen vertreten und auch eine der Einzelgruppen, stw_word_e1 findet sich unter den ersten 20 Attributen. Dabei führt stw_word4 (Anteil Wiedergabewörter, penalty ≤ 4) die Liste an. Offenbar ist für die Erkennung von erzählter Wiedergabe der Trend zu großzügigen Definition von ‚Wiedergabewort‘ noch stärker als bei indirekter Wiedergabe. – Die restlichen Trends bedürften einer genaueren Analyse. Es ist jedoch interessant, dass auch Satzzeichen, repräsentiert durch die Attribute $. und $,, und nebenordnende Konjunktionen (KON) sehr gut bewertet werden.
262 | 11 Maschinelles Lernen Tab. 11.15. Die 20 besten Attribute zur Erkennung von erzählter Wiedergabe
Attribut
Wert
Erklärung
len
0,1607
Satzlänge
stw_word4
0,1404
Anteil Wiedergabewörter, penalty ≤ 4
stw_word5
0,1242
Anteil Wiedergabewörter, penalty ≤ 5
stw_word2
0,1166
Anteil Wiedergabewörter, penalty ≤ 2
stw_word3
0,1122
Anteil Wiedergabewörter, penalty ≤ 3
stw_word1
0,1000
Anteil Wiedergabewörter, penalty ≤ 1
$.
0,0986
Anteil satzbeendende Interpunktion: . ? ! ; :
KON
0,0937
Anteil nebenordnende Konjunktionen: und, oder, aber
$,
0,0779
Anteil Kommata
stw_word_e1
0,0766
Anteil Wiedergabewörter, penalty = 1
APPR
0,0674
Anteil Präpositionen/Zirkumpositionen links
verb_fin
0,0666
Anteil finite Voll-, Hilfs- und Modalverben
VVFIN
0,0586
Anteil finite Vollverben
NN
0,0567
Anteil Appellativa
noun
0,0547
Anteil Nomen und Eigennamen
verb
0,0540
Anteil Verben insgesamt
ART
0,0530
Anteil bestimmte oder unbestimmte Artikel
PPOSAT
0,0511
Anteil attribuierende Possessivpronomen: mein, deine
KOUS
0,0507
Anteil unterordnende Konjunktion mit Satz: weil, daß, damit, wenn, ob
adj
0,0506
Anteil Adjektive insgesamt
11.7 Empirische Studie: Attributbewertung
|
263
11.7.5 Allgemeine Beobachtungen Bei der Betrachtung der Attributbewertungen lassen sich einige allgemeine Aussagen machen, die für alle Konstellationen Gültigkeit haben. – Das Attribut len (Satzlänge) rangiert immer im oberen Bereich. – Die Attribute NE (Anteil von Eigennamen) und pers (Anteil von Personennamen) haben für alle Kategorien nur einen mittleren bis schlechten Voraussagewert, wobei NE immer etwas besser bewertet ist als pers. Offenbar ist das Auftreten von Eigennamen – die auf die Figuren hinweisen könnten, deren Aussagen oder Gedanken referiert werden – für Wiedergabekategorien von geringer Bedeutung. – Die Attribute pStart und pEnd (Stellung des Satzes am Anfang/Ende eines Abschnitts) rangieren für direkte Wiedergabe recht hoch, auf Rang 24 und 28. Offenbar ist die Stellung eines Satzes relativ zur Abschnittsgrenze am ehesten bei direkter Wiedergabe relevant, die oft blockweise auftritt. Ansonsten haben die Attribute eher mäßige Voraussagekraft, wobei pStart tendenziell etwas besser abschneidet als pEnd. Ein Grund für die relativ schlechte Bewertung ist sicherlich auch die Tatsache, dass die einzelnen Texte des Erzähltextkorpus sich stark darin unterscheiden, wie oft Absatzmarkierungen verwendet werden – Hebbel: Kuh enthält z.B. gar keine. Es ist zu vermuten, dass die Textformatierung zu individuell gehandhabt wird, um die Grundlage für einen stabilen Indikator zu liefern. – Das Attribut ITJ (Anteil an Interjektionen) rangiert bei bei allen Wiedergabetypen weit unten. Dies ist etwas erstaunlich, da man hätte vermuten können, dass Interjektionen als typisches Kennzeichen von gesprochener Sprache mit direkter und freier indirekter Wiedergabe assoziiert sind. Ein Grund für die schlechte Bewertung ist möglicherweise, dass ITJ insgesamt auch bei diesen Wiedergabetypen zu selten auftritt, um groß ins Gewicht zu fallen. – Es gibt zwei Attribute, die auf TreeTagger-Tags beruhen, die in der morphologischen Annotation des Erzähltextkorpus überhaupt nicht auftreten, also auch keinen Voraussagewert haben können: XY (Nichtwort, Sonderzeichen enthaltend: D2XW3) und PIDAT (Anteil attribuierender Indefinitpronomen mit Determiner: [ein] wenig [Wasser]). Zusammenfassend lässt sich sagen, dass sich die Unterschiede zwischen den einzelnen Formen von Wiedergabe in der Attributbewertung deutlich niederschlagen. In vielen Fällen findet man in der statistischen Bewertung der empirischen Daten Bestätigung für Annahmen über die Wiedergabetypen. Allerdings gibt es für alle untersuchten Typen auch Trends, die sich nicht so einfach interpretieren lassen. Dass die betrachteten Einheiten Sätze statt abgegrenzter Instanzen
264 | 11 Maschinelles Lernen von Wiedergabe sind, erschwert die Interpretation noch zusätzlich, vor allem bei erzählter und indirekter Wiedergabe. In vielen Fällen sind die morphologischen Kategorien für die Differenzierung jedoch sehr relevant, und eine detaillierte Untersuchung könnte möglicherweise Aufschluss über noch nicht beschriebene sprachliche Besonderheiten von Wiedergabetypen geben. Zudem liefert die Attributbewertung Anregungen für eine regelbasierte Erkennung. Die unterschiedliche Bewertung der verschiedenen WiedergabewortAttribute bestätigt, dass eine Anpassung der Wiedergabewortliste je nach Zielkategorie sinnvoll wäre – vor allem für die Erkennung von indirect und reported, aber auch für direct, wenn Rahmenformeln mit einbezogen werden. Wie die regelbasierte Erkennung freier indirekter Wiedergabe durch die Einbeziehung des Indikators ADV verbessert werden kann, wurde bereits in Abschnitt 10.5.2 demonstriert. Allerdings ist es selten möglich, Erkenntnisse aus der Attributbewertung direkt in Regeln zu übertragen, da sich hier immer nur Tendenzen ablesen lassen, die keine harten Grenzen zwischen den Typen ziehen und oftmals nur in Kombination wirksam werden. Neben der internen Attributbewertung von RandomForest wurde auch mit einer Bewertung der Attribute mit dem Maß Information Gain experimentiert. Hierbei ist die Bewertung nicht direkt an einen Lernprozess gekoppelt, sondern es wurde für jedes Attribut einzeln untersucht, wie sehr es dazu beiträgt, die Instanzen der jeweiligen Wiedergabekategorie von den Restdaten zu trennen. Um die unterschiedliche Häufigkeit der Kategorien auszugleichen, wurde dabei eine Gewichtung mit MetaCost (vgl. Abschnitte 11.6 und 11.9) durchgeführt. Die Ergebnisse werden nicht ausführlich dargestellt, da sie den gerade referierten sehr ähnlich sind. Zwar gibt es vor allem bei den weniger hervorstechenden Attributen durchaus Unterschiede in der Rangfolge, doch die wichtigsten Trends, die in dieser Darstellung zusammengefasst wurden, bestätigen sich (fast)62 alle auch bei der Bewertung mit Information Gain und können damit für die Daten des Erzähltextkorpus als stabil gelten.
62 Der einzige nennenswerte Unterschied ist, dass sich bei der Bewertung mit Information Gain eine leichte Affinität des Attributs ITJ zu direct und free_indirect feststellen, die Relevanz der Attribute pStart und pEnd für direct sich hingegen nicht bestätigen lässt. Allerdings sind dies auch bei der Bewertung mit Mean Decrease Accuracy nur schwache Trends.
11.8 Lernen auf der Basis von Satzabschnitten
| 265
11.8 Lernen auf der Basis von Satzabschnitten Wie in Abschnitt 11.2 ausgeführt, ist der Satz als Instanz für das maschinelle Lernen der Kategorien indirect und reported problematisch, weil diese Wiedergabetypen häufig kürzer sind als ein Satz, was zu einer unscharfen Erfassung des relevanten Textabschnitts und zu ambigen Instanzen führt. Darum wurden auch Tests mit einer kürzeren Grundeinheit durchgeführt, dem ‚Satzabschnitt‘. Während ‚Wort‘ und ‚Satz‘ etablierte sprachliche Einheiten darstellen, ist es weniger offensichtlich, wie eine Einheit definiert sein soll, die im Umfang zwischen diesen beiden liegt. Hinzu kommt, dass die Abgrenzung der Einheit automatisch erkennbar sein muss, um ihre Verwendbarkeit beim maschinellen Lernen zu gewährleisten. Naheliegend wäre eine Untergliederung in Teilsätze. Dies würde jedoch voraussetzen, dass eine vollständige syntaktische Analyse vorliegt, was bei der Vorverarbeitung des Erzähltextkorpus, wie sie im Kontext dieser Studie durchgeführt wurde, nicht der Fall ist. Der TreeTagger und der RF-Tagger vergeben lediglich morphologische Kategorien, ohne Aussagen über die Beziehung zwischen diesen zu machen. Zwar ist im Funktionsumfang des TreeTaggers auch eine ChunkingFunktion enthalten (vgl. Schmid o. J.), diese beschränkt sich allerdings darauf, Nominalphrasen, Verbalphrasen und Präpositionalphrasen zu erfassen. Dies bedeutet, dass ein großer Teil des Wortmaterials gar keinem Chunk zugeordnet wird und komplexe Strukturen wie ‚Nebensatz‘ nicht erkannt werden. Doch selbst wenn eine korrekte Zerlegung von Sätzen in Teilsätze vorläge, würde diese die Struktur von Wiedergaben nicht auf ideale Weise abbilden. Alle Wiedergabetypen können mehrere Teilsätze überspannen, so dass fast zwangsläufig Instanzen zerrissen würden. Insbesondere eingeschobene Teilsätze, z.B. Relativsätze, unterbrechen die Wiedergabestruktur. Um die Zerlegung zu optimieren, müssten also auch die Typen der Teilsätze erkannt und Regeln dazu definiert werden, an welchen Stellen Trennungen sinnvoll sind. Für ein grammatisch orientiertes Vorgehen wäre also ein hoher Grad an Abstraktion und Analyse notwendig, der auf automatischem Wege nur schwer zu erreichen ist. Eine Untersuchung, ob die Erfolge einen solchen Aufwand rechtfertigen würden, wäre sicherlich interessant, übersteigt jedoch den Rahmen dieser Studie. Stattdessen wurde ein pragmatischer Ansatz gewählt und die Tests mit einer Einheit durchgeführt, die grob den Teilsätzen angenähert ist. Sie wird mit dem neutralen Begriff ‚Satzabschnitt‘ bezeichnet, da es sich nicht um eine klar definierte grammatische Einheit handelt.
266 | 11 Maschinelles Lernen Die bei der Vorverarbeitung identifizierten Sätze werden nach folgenden Regeln weiter unterteilt: – Mögliche Trennstellen sind: – nach einem Komma, Strichpunkt, Doppelpunkt oder schließenden Anführungszeichen – vor der Konjunktion und – Eine Trennung wird nur durchgeführt, wenn der neu definierte Abschnitt mindestens eine verbale Form enthält. Abschnitte ohne verbale Form können sich folglich nur ergeben, wenn sie das letzte oder das einzige Element im Satz sind. Damit soll möglichst verhindert werden, dass koordinierende Strukturen innerhalb desselben Teilsatzes (z.B. Nominalphrasen) auseinander gerissen werden. Die folgenden Beispiele zeigen die Zerlegung von zwei Sätzen in Satzabschnitte, in denen jeweils die indirekte bzw. erzählte Wiedergabe durch Unterstreichung markiert ist. (179)
a. Laß ihn arbeiten, b. noch zwei, drei Tage, dann wird er selber zu dir kommen c. und dich bitten, [indirect] d. wieder die Alte zu sein. [indirect] (Schnitzler: Ypsilon)
(180)
a. Er warf sich vor dem Bildnisse der heiligen Mutter Gottes nieder, b. und betete mit unendlicher Inbrunst zu ihr, [reported] c. als der einzigen, von der ihm jetzt noch Rettung kommen könnte. (Kleist: Erdbeben)
Die Abschnitte 179b und 180c wurden nicht weiter unterteilt, obwohl sie Kommata enthalten, da dies zu Abschnitten ohne verbale Elemente geführt hätte. Wie man sieht, entsprechen die Abschnitte nicht genau der grammatischen Struktur, liefern aber eine Zerlegung des Satzes, die zumindest teilweise mit den Grenzen von Wiedergaben übereinstimmt. Instanzen indirekter Wiedergabe werden allerdings fast immer in zwei Teile zerlegt – die Rahmenformel und den abhängigen Nebensatz. Dies ist für das maschinelle Lernen ungünstig, da der Bezug zwischen diesen Teilen verloren geht. Im Schnitt ergeben sich im Erzähltextkorpus pro Satz etwas weniger als drei Satzabschnitte. Dieser Anteil schwankt allerdings deutlich zwischen den einzelnen Texten, je nachdem, wie lang und komplex die verwendeten Sätze sind (vgl. Abbildung 11.8).
11.8 Lernen auf der Basis von Satzabschnitten
| 267
Satzabschnitte pro Satz
4 3 2 1
Kafka
Heym
Janitschek
Schnitzler
May
Hebbel
Hauff
Tieck
Kleist
Günderode
Bernhardi
Bürger
Musäus
0
1000
2000
3000
Einfach gezählt Mehrfach gezählt
0
Anzahl der Satzabschnitte
4000
Abb. 11.8. Durchschnittliche Menge von Satzabschnitten pro Satz in den Texten des Erzähltextkorpus
direct
free_indirect
indirect
reported
narration
Abb. 11.9. Verteilung der Kategorien auf Satzabschnitte (bei Mehrfachzählung)
268 | 11 Maschinelles Lernen Tab. 11.16. Anteil der Satzabschnitte mit mehreren Wiedergabeinstanzen, dargestellt im Vergleich zu Sätzen
Gesamtanzahl pro Kategorie (bei Mehrfach-Zählung)
Anteil mehrfach gezählter Instanzen
direct Satzabschnitte
1910
Sätze
917
15,3 % 20,6 % free_indirect
Satzabschnitte
175
14,9 %
Sätze
110
15,5 % indirect
Satzabschnitte
812
24,0 %
Sätze
300
50,0 % reported
Satzabschnitte
728
24,5 %
Sätze
450
45,8 %
Satzabschnitte
4023
00,0 %
Sätze
1098
00,0 %
narration
Abbildung 11.9 stellt dar, wie viele Satzabschnitte den einzelnen Wiedergabekategorien zugeordnet werden können. Die Zuordnung erfolgt hier wie bei den Sätzen, d.h. es ist ausreichend, dass ein Abschnitt eine Wiedergabe oder einen Teil derselben enthält, und Wiedergaben des gleichen Typs im selben Satzabschnitt werden nicht mehrfach gezählt (vgl. Abschnitt 9.3). Tabelle 11.16 zeigt sowohl die Menge der Einzelinstanzen als auch den Anteil von Satzabschnitten mit mehreren Wiedergabeinstanzen im Vergleich zu Sätzen. Man sieht, dass der Anteil von Satzabschnitten, die mehr als einen Wiedergabetyp enthalten, bei direct und free_indirect nur wenig niedriger ist als bei der Betrachtung von Sätzen, bei indirect und reported allerdings nur etwa halb so hoch. Wie erwartet erfassen die Instanzen für diese Wiedergabetype nun genauer den relevanten Teil des sprachlichen Materials und die Ambiguitäten sind reduziert. Die Hypothese ist, dass dies für das maschinelle Lernen vorteilhaft ist.
11.8 Lernen auf der Basis von Satzabschnitten
| 269
11.8.1 Auswertung auf Satzabschnittsbasis
Tab. 11.17. Vergleich der Ergebnisse von maschinellem Lernen mit Sätzen und mit Satzabschnitten
Verwendete Instanz
Precision
Recall
F-Score
Satzabschnitt
0,71
0,66
0,69
Satz
0,88
0,85
0,87
Satzabschnitt
0,28
0,15
0,20
Satz
0,63
0,29
0,40
Satzabschnitt
0,40
0,38
0,39
Satz
0,62
0,47
0,53
direct
free_indirect
indirect
reported Satzabschnitt
0,39
0,31
0,34
Satz
0,56
0,45
0,50
Tabelle 11.17 zeigt die Ergebnisse von maschinellem Lernen mit Satzabschnitten. Zum Vergleich sind auch die Ergebnisse des Lernens mit Sätzen noch einmal angegeben. Der Lernprozess wurde mit Resampling und Kreuzvalidierung durchgeführt, wie in Abschnitt 11.6 beschrieben. Es ist hervorzuheben, dass sich das Verhältnis der zu lernenden Kategorie zur Restmenge bei Satzabschnitten in allen Fällen noch stärker zu Ungunsten der Wiedergabeinstanzen verschiebt. Vor allem bei freier indirekter Wiedergabe ist das Mengenverhältnis mit 1:41 bei satzabschnittsbasiertem Lernen im Gegensatz zu 1:23 bei satzbasiertem Lernen extrem. Dies bedeutet, dass noch stärker Resampling betrieben werden muss, um gleichmäßige Gruppen zum Trainieren des RandomForest-Modells zu erhalten. Vergleicht man die Ergebnisse des Lernens auf Satzabschnittsbasis und auf Satzbasis, kann man feststellen, dass sich F-Score, Precision und Recall durchgehend deutlich verschlechtern. Der Abfall ist bei indirect und reported zwar ein wenig geringer als bei direct und free_indirect, jedoch kann die Hypothese, dass ein Lernen auf Satzabschnittsbasis für diese beiden Kategorien klare Vorteile bringt, zunächst nicht bestätigt werden. Dabei ist allerdings zu bedenken,
270 | 11 Maschinelles Lernen dass das Lernen auf kleineren Einheiten für sich genommen einige Erschwernisse mit sich bringt: Durch die größere Menge an Instanzen und die größere Exaktheit, die angestrebt wird, erhöht sich die Fehlerwahrscheinlichkeit. Die einzelnen Instanzen haben weniger Elemente (Wörter bzw. Satzzeichen) und damit auch weniger aussagekräftige Attributwerte. Hinzu kommt das verstärkte Ungleichgewicht im Verhältnis der zu lernenden Klassen. Diese Nachteile überwiegen offenbar gegenüber den möglichen Vorteilen.
11.8.2 Auswertung auf Satzbasis Um die Nachteile, die sich durch die kleineren Einheiten ergeben, etwas auszugleichen, wurde eine weitere Auswertung durchgeführt, bei der der Erfolg des auf Satzabschnitten trainierten Lernalgorithmus auf Satzbasis bestimmt wurde. Dafür wurden die automatisch erzeugten Satzabschnitts-Annotationen auf ganze Sätze erweitert, wie es auch bei den manuellen und den regelbasierten Annotationen zu Auswertungszwecken geschehen ist. D.h. es wird nicht mehr bewertet, ob eine Wiedergabe im richtigen Satzabschnitt erkannt wurde, wie Tabelle 11.17, sondern nur noch, ob sie im richtigen Satz gefunden wurde. Da die Vergleichseinheiten nun gleich sind, ist damit ein ‚gerechterer‘ Vergleich mit den Ergebnissen des maschinellen Lernens auf Satzbasis möglich. Tabelle 11.18 zeigt die Ergebnisse. Zwar sind die Ergebnisse für die Erkennung von free_indirect und direct auf Satzabschnittsbasis immer deutlich schlechter als auf Satzbasis, bei indirect und reported liegen die F-Scores der beiden Methoden nun jedoch dicht beieinander. Dabei ist zu beobachten, dass die Erkennung, die auf Satzabschnitten beruht, eine Tendenz dazu hat, zu viele Sätze als Wiedergabe zu annotieren, während die Erkennung auf Satzbasis eher zu wenige erfasst. Dies liegt daran, dass meist nicht alle Satzabschnitte eines Satzes als Wiedergabe klassifiziert werden, sondern sich die Annotationen über mehrere Sätze verteilen. Werden sie dann auf Satzumfang erweitert, ergeben sich insgesamt mehr annotierte Sätze. Dies führt dazu, dass bei allen Wiedergabetypen die Precision absinkt, was bei indirect und reported ein eher unerwartetes Ergebnis ist. Die Vermutung wäre gewesen, dass die Precision von der genaueren Eingrenzung der Wiedergabeinstanz profitiert. Gleichzeitig erhöht sich der Recall deutlich – außer bei freier indirekter Wiedergabe, bei der die Verwendung von Satzabschnitten nur Nachteile hat. Dieser Effekt – Erhöhung des Recalls, Absinken der Precision – ist besonders ausgeprägt bei indirect. Bei reported führt er zu einer leichten Verbesserung des F-Scores.
11.9 Fazit
|
271
Tab. 11.18. Vergleich der Ergebnisse von maschinellem Lernen mit Sätzen und mit Satzabschnitten erweitert auf Sätze
Precision
Recall
F-Score
direct Satzabschnitt erweitert
0,70
0,92
0,79
Satz
0,88
0,85
0,87
Satzabschnitt erweitert
0,28
0,25
0,26
Satz
0,63
0,29
0,40
Satzabschnitt erweitert
0,38
0,70
0,50
Satz
0,62
0,47
0,53
free_indirect
indirect
reported Satzabschnitt erweitert
0,49
0,54
0,52
Satz
0,56
0,45
0,50
Zusammenfassend lässt sich sagen, dass für freie indirekte Wiedergabe ein Lernen auf Satzabschnittsbasis in jedem Fall sehr ungünstig ist, was auch zu erwarten war, da dieser Wiedergabetyp i.A. in Satzlänge auftritt. Bei direkter Wiedergabe kann man zumindest eine Verbesserung des Recalls (auf Kosten der Precision) beobachten, jedoch profitiert auch dieser Wiedergabetyp in der Gesamtbetrachtung eindeutig von Sätzen als Lerninstanzen. Bei indirekter und erzählter Wiedergabe ist der Vorteil, den die Verwendung von Satzabschnitten bringt, weniger eindeutig als erwartet, es gibt jedoch Anzeichen, dass diese Art des Lernens für diese beiden Wiedergabetypen sinnvoll sein kann. Diese Ergebnisse werden deswegen im abschießenden Vergleich der regelbasierten Erkennung und der Erkennung auf Basis von maschinellem Lernen (Abschnitt 12) noch einmal genauer betrachtet. Allgemein ist die Verbesserung des Recalls beim Lernen mit Satzabschnitten hervorzuheben, die je nach Anwendungsziel vorteilhaft sein könnte.
11.9 Fazit Das satzbasierte maschinelle Lernen mit RandomForests und Resampling ermöglicht mit einem F-Score von 0,87 beachtliche Erfolge bei der Erkennung von direk-
272 | 11 Maschinelles Lernen ter Wiedergabe. Das Fehlen von Anführungszeichen führt dabei zu weitaus weniger starken Einbrüchen als beim regelbasiertem Lernen. Die Erkennung von freier indirekter Wiedergabe ist mit einem F-Score von 0,40 am wenigstens erfolgreich, funktioniert aber dennoch deutlich besser als mit dem vorgestellten regelbasierten Modul. Ein Experiment, in dem auch Instanzen direkter Wiedergabe verwendet wurden, um einen Erkenner für freie indirekte Wiedergabe zu trainieren, hat gezeigt, dass sich so der Recall verbessern lässt, allerdings sehr auf Kosten der Precision. Die Erkennung von indirekter und erzählter Wiedergabe erreicht jeweils FScores von knapp über 0,5, ein schlechteres Ergebnis als bei der regelbasierten Erkennung. Da diese Formen häufig kürzere Einheiten als einen Satz umfassen, wurde auch mit dem maschinellen Lernen auf Satzabschnitten, einer Untereinheit von Sätzen, experimentiert. Dabei wurden etwa die gleichen F-Scores erreicht, aber die Methode ermöglicht einen verbesserten Recall. Die Attributbewertung gab Einblicke in die sprachlichen Besonderheiten von Wiedergabetypen, wobei sich die Vermutung bestätigte, dass eine Verwandtschaft zwischen direkter und freier indirekter Wiedergabe auf der einen Seite und zwischen indirekter und erzählter Wiedergabe auf der anderen Seite besteht. Für die letztgenannten Formen sind Attribute, die auf dem Auftreten von Wiedergabewörtern beruhen, besonders entscheidend, was ein Lernexperiment, bei dem diese Attribute entfernt wurden, bestätigt hat. Zudem tragen bei diesen Formen viele Attribute in geringerem Maße zur Erkennung bei, während es bei direkter und freier indirekter Wiedergabe einige besonders hervorstechende gibt – bei direct v.a. die Attribute, die das Vorhandensein von Anführungszeichen, Personalpronomen der 1. oder 2. Person und von ‚emphatischen‘ Satzzeichen kodieren. Maschinelles Lernen von Wiedergabetypen liefert insgesamt Ergebnisse, die denen des regelbasierten Lernens nicht grundsätzlich unterlegen sind – ein detaillierter Vergleich wird in Abschnitt 12 durchgeführt. Die konkreten Ergebnisse sind jedoch abhängig von einer Vielzahl von Parametern.63 In der Darstellung wurde demonstriert, wie sich verschiedene Variationen auswirken, z.B. das Weglassen einzelner Attribute oder die Wahl einer anderen Grundeinheit zum Lernen, Satzabschnitte statt Sätze. Daneben gibt es jedoch noch weitere Stellen, an denen der Lernprozess verändert werden könnte. So wurde in Abschnitt 11.6 angedeutet, dass es noch eine andere Strategie gibt, um die ungleichmäßige Häufigkeitsverteilung der Instan-
63 Zudem spielen Zufallsfaktoren beim Lernen mit RandomForest, Resampling und Kreuzvalidierung eine Rolle; vgl. hierzu Anhang, Abschnitt A.5.
11.9 Fazit
|
273
zen von Wiedergabe auszugleichen: die Gewichtung durch den Metaklassifizierer MetaCost (vgl. Domingos 1999). Bei dieser Methode werden keine Instanzen verdoppelt oder entfernt, sondern die möglichen Fehler gewichtet. Für den Algorithmus gilt es dann als schwererer Fehler, eine Wiedergabeinstanz zu übersehen als eine zu viel zu erkennen. Mit dieser Strategie wurden im Vorfeld ausführliche Tests durchgeführt. Da jedoch für diese Studie die Entscheidung getroffen wurde, das maschinelle Lernen in R durchzuführen und in dieser Arbeitsumgebung keine Implementierung von MetaCost verfügbar war, wird an dieser Stelle kein direkter Vergleich zum Lernen mit Resampling präsentiert. In der Tendenz ließ sich jedoch feststellen, dass die Gewichtung mit MetaCost zu ähnlichen F-Score-Werten führt. Auch die Reihenfolge der Wiedergabekategorien in Bezug auf den Erkennungserfolg war die gleiche: Der beste Erfolg ergab sich bei direct, es folgen mit deutlichem Abstand und recht eng beieinander liegend indirect und reported, dann mit wiederum etwas Abstand free_indirect. Allerdings sind beim Lernen mit MetaCost die Werte für Recall und Precision ausgeglichener, während das Lernen mit Resampling Precision deutlich bevorzugt. Inwiefern dies ein gewünschter Effekt ist, hängt von der Anwendungssituation ab. Weitere interessante Ansätze für das Lernen mit RandomForests und unbalancierten Daten bietet die Darstellung von Chen/Liaw/Breiman, die zwei Methoden vorstellen, wie eine Gewichtung bzw. ein Sampling-Prozess direkt in den Algorithmus von RandomForest integriert werden kann (vgl. Chen et al. 2004). Ein Ansatzpunkt für die Verbesserung der maschinellen Lernmethoden wären weitere Experimente mit den verwendeten Attributen. So könnten die Attributlisten für die unterschiedlichen Wiedergabetypen variiert werden, um diejenigen zu betonen, die für den jeweiligen Typ besonders relevant sind, sowie zusätzliche, komplexere Attribute getestet werden, wie z.B. Satzlänge relativ zur durchschnittlichen Satzlänge des Textes. Auch wenn RandomForest sich als guter Lernalgorithmus erwiesen hat, wäre zudem eine systematische vergleichende Studie mit anderen Algorithmen interessant. Darauf wurde im Rahmen dieser Studie verzichtet, um den Blick genauer auf die anderen Entscheidungen richten zu können, die bei der Planung der Lernexperimente getroffen werden müssen. Was beim maschinellen Lernen, ebenso wie bei den regelbasierten Ansätzen, nicht berücksichtigt wurde, ist die Tatsache, dass es bei Wiedergabe Zusammenhänge geben kann, die über die Satzgrenze hinausgehen. So steigt vermutlich die Wahrscheinlichkeit für das Austreten einer direkten oder auch freien indirekte Wiedergabe, wenn der unmittelbar vorhergehende Satz bereits der gleichen Kategorie zugeordnet werden konnte, da diese beiden Wiedergabetypen häufig blockweise auftreten. Für eine Weiterentwicklung wäre es lohnend, solche Aspekte bei der Erkennung mit einzubeziehen.
274 | 11 Maschinelles Lernen Zuletzt profitieren maschinelle Lernverfahren immer von einer größere Menge an Trainingsmaterial. Auch wenn damit nicht garantiert ist, dass sich die Erfolgsraten verbessern, so wäre ein auf mehr Daten trainierter Erkenner bei der Anwendung auf jeden Fall stabiler und besser einschätzbar.
12 Gesamtbewertung der automatischen Erkennung Mit der regelbasierten Erkennung und der Erkennung mit Hilfe von maschinellem Lernen sind zwei grundlegend unterschiedliche Methoden vorgestellt worden, mit denen man die automatische Annotation von Wiedergabe durchführen kann. In den Abschnitten 12.1 und 12.2 werden nun die Ergebnisse dieser Methoden verglichen und Kombinationsmöglichkeiten betrachtet. Zum Abschluss wird in Abschnitt 12.3 untersucht, wie es sich auswirkt, wenn man die Vergleichsmenge für die zu erkennenden Instanzen verändert, indem Grenzfälle der manuellen Annotation nicht als Instanzen von Wiedergabe gewertet werden. In den vorangegangenen Kapiteln wurden zahlreiche Variationen der Erkennungsmethoden dargestellt. Diese bezogen sich sowohl auf die Veränderung von Parametereinstellungen als auch auf die Strenge der Auswertung – nach Instanzen (streng oder großzügig), nach Vorkommen in Sätzen und nach Vorkommen in Satzabschnitten. Für die Vergleiche, die in diesem Kapitel durchgeführt werden, werden nur die Ergebnisse der Konfigurationen verwendet, die jeweils am Ende der Kapitel 10 und 11 präsentiert wurden. Das bedeutet konkret: – Auswertung auf Satzbasis, d.h. es wird lediglich überprüft, ob erkannt wurde, dass mindestens eine Wiedergabe eines bestimmten Typs in einem Satz vorliegt, wobei Sätze mit mehreren Wiedergabeformen mehrfach gewertet werden (vgl. Abschnitt 9.3) – Verwendung aller manuell annotierter Instanzen, sowohl für das Training des maschinellen Lernalgorithmus als auch als Vergleichsmenge für die Auswertung (außer in Abschnitt 12.3) – Bei den regelbasierten Ansätzen: – Verwendung von MarkFrame in Kombination mit MarkQuotation zur Erkennung von direkter Wiedergabe – Verwendung der Wiedergabewörter bis einschließlich penalty = 2 – Beim maschinellen Lernen: – Ergebnisse der Kreuzvalidierung mit RandomForest und Resampling, bei Verwendung aller 80 Attribute
276 | 12 Gesamtbewertung der automatischen Erkennung
12.1 Übereinstimmung zwischen den Ergebnissen von regelbasierten Methoden und maschinellem Lernen Abgesehen vom direkten Vergleich der Erfolgswerte ist es eine interessante Frage, wie viel Übereinstimmung es zwischen den Annotationen gibt, die die beiden Typen von automatischen Methoden produzieren. Kommt man auf beiden Wegen zu ähnlichen Ergebnissen oder gibt es große Unterschiede in den Stärken und Schwächen? Tab. 12.1. Übereinstimmung zwischen den Ergebnissen der regelbasierten Methoden und denen des maschinellen Lernens (F-Scores)
Text
direct
free_indirect
indirect
reported
Bernhardi: Belinde
0,49
0,00
0,67
0,57
Bürger: Münchhausen
0,57
1,00
0,77
0,71
Günderode: Bramine
0,45
0,25
0,40
0,60
Hauff: Kalif
0,87
0,00
0,57
0,57
Hebbel: Kuh
0,87
0,00
0,55
0,32
Heym: Irre
0,80
0,43
0,74
0,33
Janitschek: Weib
0,92
0,29
0,00
0,44
Kafka: Gracchus
0,80
0,00
0,33
0,27
Kleist: Erdbeben
0,45
0,00
0,58
0,65
May: Ziege
0,94
0,10
0,58
0,51
Musäus: Entführung
0,56
0,00
0,65
0,74
Schnitzler: Ypsilon
0,86
0,12
0,48
0,38
Tieck: Eckbert
0,42
0,00
0,62
0,72
Durchschnitt Texte
0,69
0,17
0,53
0,52
Gesamtkorpus
0,78
0,24
0,59
0,57
In Tabelle 12.1 werden die Annotationen, die von den regelbasierten Modulen vorgenommen werden, mit denen verglichen, die die maschinellen Lernverfahren liefern. Die Werte sagen nichts darüber aus, wie diese sich zu den manuellen Annotationen verhalten – also wie korrekt sie sind – sondern lediglich, wie stark die Ergebnisse der beiden Herangehensweisen voneinander abweichen. Auch hier ist die Zählung satzweise. Als Übereinstimmungsmaß dient der F-Score, der den glei-
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen
| 277
chen Wert hat, egal ob man die regelbasierten Methoden mit den Ergebnissen des maschinellen Lernens vergleicht oder umgekehrt. Die Tabelle schlüsselt die Übereinstimmung nach Texten auf. Wie man sieht, ist die Übereinstimmung zwischen den beiden Methoden für direkte Wiedergabe mit einem F-Score von 0,78 am besten. Dies hat mit der hohen Erfolgsrate für diesen Wiedergabetyp zu tun – beide Methoden schaffen es recht gut, die korrekten Instanzen zu bestimmen und haben entsprechend dort Überschneidungen. Für indirekte Wiedergabe beträgt der F-Score nur 0,59, für erzählte 0,57, eine recht geringe Überschneidungsrate. Noch gravierender sind die Abweichungen bei freier indirekter Wiedergabe, mit einem F-Score von 0,27. In vielen Fällen sind die Ergebnisse der beiden Herangehensweisen also unterschiedlich. Aus diesem Grund ist es interessant, zu untersuchen, ob es Vorteile bringt, sie miteinander zu kombinieren. Es gibt hier zwei naheliegende Möglichkeiten: Zum einen kann man die Ergebnismengen von regelbasierten Methoden und maschinellem Lernen vereinigen, so dass alle Annotationen, die von mindestens einer der beiden Methoden vorgenommen wurden, verwendet werden. Diese Menge wird im Folgenden als ML ∪ Regel, die Vereinigungsmenge der Ergebnismengen, bezeichnet. Zum anderen kann man nur die Annotationen beibehalten, die sowohl mit Hilfe der regelbasierten Module als auch durch maschinelles Lernen gefunden wurden, also die Schnittmenge der Ergebnismengen, ML ∩ Regel. Diese beiden Mengen werden im Folgenden in die Auswertung mit berücksichtigt.
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen Wie bereits in Abschnitt 9.1 ausgeführt, gibt es mehr als eine Methode, um den Erfolg einer automatischen Annotation zu messen. Bei der Endauswertung soll nicht nur, wie bisher geschehen, die Korrektheit der Ergebnisse betrachtet werden, sondern auch ihre Voraussagekraft für den relativen Anteil von Wiedergabe in einzelnen Texten. Die Auswertungstrategien werden im Folgenden erläutert.
12.2.1 Korrektheit der Ergebnisse Die Korrektheit der Ergebnisse wird mit den bekannten Maßen Precision, Recall und F-Score bestimmt. Bei der Betrachtung der Erfolgswerte sind zwei Aspekte interessant: Zum einen der Gesamterfolg, berechnet auf den gesamten Daten des Erzähltextkorpus. Diese Werte geben einen Eindruck von der Qualität der Erkennung für die größtmögliche Datenmenge.
278 | 12 Gesamtbewertung der automatischen Erkennung Daneben ist jedoch auch die Stabilität der Erfolgsrate von Interesse. Diese kann abgeschätzt werden, indem man die Erfolgswerte für die 13 Einzeltexte des Erzähltextkorpus berechnet, wie bereits mehrfach im Verlauf der Studie geschehen. Um die Schwankungen zwischen den Ergebnissen für die Einzeltexte besser fassbar zu machen, zeigen die Graphiken bei der Auswertung auch deren Mittelwert (dieser Wert wurde in bisherigen Tabellen als ‚Durchschnitt Texte‘ bezeichnet) und die Standardabweichung (vgl. Hartung et al. 2009, 46–47). Die Standardabweichung ist ein statistisches Maß, das ausdrückt, wie stark die Werte für die einzelnen Fälle (hier: Texte) im Schnitt vom Mittelwert abweichen.64 Je niedriger ihr Wert, desto geringere Schwankungen gibt es zwischen den F-Scores der Einzeltexte. Dies ist erstrebenswert, da es erlaubt, besser einzuschätzen, wie hoch der Erfolg bei der Anwendung der Erkennungsmethode auf unbekannte Texte sein wird.
12.2.2 Voraussagekraft des relativen Anteils an Wiedergabe Aufbauend auf der Erkennung auf Satzbasis kann für jeden Text des Erzähltextkorpus berechnet werden, welcher Prozentsatz seiner Sätze Wiedergabekategorien enthält. Eine solche Darstellung wurde bereits in Abbildung 6.2 bei der Auswertung der manuellen Annotation (Abschnitt 6, S. 100) präsentiert. Auf diese Weise kann der von der automatischen Annotation vorausgesagte Anteil mit dem realen Anteil verglichen werden. Dabei ist es nicht mehr relevant, ob die richtigen Sätze als Wiedergabe enthaltend erkannt wurden, sondern lediglich, ob der relative Anteil korrekt ist. Diese Betrachtungsweise ist v.a. sinnvoll, wenn Entwicklungslinien von Wiedergabetypen untersucht werden sollen. Da gerade eine empirische Untersuchung der Verwendung von Wiedergabetypen über einen historischen Zeitraum hinweg ein interessantes Anwendungsgebiet der automatischen Erkennung ist, ist es von besonderem Interesse, als wie verlässlich die Methoden sich in dieser Hinsicht erweisen. Die relativen Anteile von Wiedergabe werden graphisch dargestellt, wobei für jede der automatischen Methoden eine Linie eingezeichnet wird, die deren Voraussagen abbildet. Der reale Anteil, berechnet auf Grundlage der manuellen Annotation, bildet die Referenzlinie, der alle anderen Linien möglichst ähnlich sein sollten. Diese Ähnlichkeit kann nach zwei verschiedenen Gesichtspunkten gemessen werden: Zum einen, wie stark die einzelnen Vorhersagen von den realen Prozentwerten abweichen und zum anderen, wie ähnlich die Linienverläufe sind.
64 Die Formel für die Standardabweichung findet sich im Anhang, Abschnitt A.7.1.
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen
| 279
Um die Abweichung zu berechnen, wird für jeden Text festgestellt, um wie viele Prozentpunkte sich die Vorhersage vom wahren Prozentsatz unterscheidet. Dabei werden die Absolutwerte der Differenzen verwendet, d.h. es bleibt unberücksichtigt, ob es sich um eine Abweichung nach oben (zu viel geschätzt) oder nach unten (zu wenig geschätzt) handelt. Der Durchschnitt dieser Werte ist der durchschnittliche absolute Fehler (mean absolute error). Für diesen Durchschnittswert wird ebenfalls die Standardabweichung angegeben, um einen Eindruck zu vermitteln, wie gut er sich dazu eignet abzuschätzen, wie groß die Abweichung bei der Anwendung auf neue Daten sein wird. Das zweite Maß zur Beurteilung der Voraussagen bezieht sich auf die Ähnlichkeit des Linienverlaufs. Berechnet wird die Korrelation zwischen den vorausgesagten und den realen Prozentwerten.65 Korrelation wird als Maß in der Statistik vor allem verwendet, um festzustellen, ob ein Parameter dazu geeignet ist, Vorhersagen bezüglich eines anderen Parameters zu machen. Übertragen auf die Situation der Wiedergabeerkennung heißt dies: Es wird abgeschätzt, wie gut man mit Hilfe des automatisch berechneten Prozentsatzes Rückschlüsse auf den tatsächlichen Prozentsatz ziehen kann. Die möglichen Werte des Korrelationskoeffizienten liegen zwischen -1 und 1. 1 bedeutet eine perfekte positive Korrelation, d.h. die vorhergesagten und die realen Werte steigen und sinken im gleichen Maße. -1 bedeute eine perfekte negative Korrelation, d.h. die vorhergesagten Werte nehmen im gleichen Maße ab, wie die realen steigen und umgekehrt. 0 bedeutet keine Korrelation zwischen vorhergesagten und realen Werten. Im vorliegenden Fall wäre eine möglichst gute positive Korrelation (also Korrelationskoeffizient ≈ 1) wünschenswert, da dann die Entwicklung des Anteils von Wiedergabe, den die automatischen Methoden abbilden, der realen Entwicklung entsprechen würde. Zu beachten ist, dass bei der Betrachtung der Korrelation die Abweichung nicht ins Gewicht fällt. So würden z.B. vorhergesagte Werte, die immer genau 5 Prozentpunkte über den wahren Werten liegen, sehr gut mit diesen korrelieren. Wenn die Abweichung nur zwischen 2 und 3 Prozentpunkten läge, aber schwankend mal nach oben und mal unten auftreten würde, wäre die Korrelation schlechter. Die Korrelation sagt also nichts darüber aus, wie korrekt die Einzelergebnisse sind.
65 Die Formel für den Korrelationskoeffizienten nach Bravais-Pearson (vgl. Hartung et al. 2009, 73–78), der hier verwendet wird, findet sich im Anhang, Abschnitt A.7.2.
280 | 12 Gesamtbewertung der automatischen Erkennung 12.2.3 Befunde für die einzelnen Wiedergabetypen Folgende Annotationen werden für jeden der vier Wiedergabetypen mit Hilfe der vorgestellten Bewertungsmaße verglichen: – Regel: Instanzen, die durch regelbasierte Module erkannt wurden – ML: Instanzen, die durch maschinelles Lernen erkannt wurden – ML ∪ Regel (Vereinigungsmenge von Regel und ML): Instanzen, die entweder durch regelbasierte Module oder durch maschinelles Lernen erkannt wurden – ML ∩ Regel (Schnittmenge von Regel und ML): Instanzen, die sowohl durch regelbasierte Module als auch durch maschinelles Lernen erkannt wurden Für indirect und reported werden zudem noch die Ergebnisse von maschinellem Lernen auf Satzabschnittsbasis (ausgewertet auf Satzbasis, vgl. Abschnitt 11.8.2) mit berücksichtigt. Für direct und free_indirect wurde darauf verzichtet, da in Abschnitt 11.8 bereits festgestellt wurde, dass das Lernen auf Satzabschnittsbasis für diese Wiedergabetypen keine Vorteile bringt. In Hinblick auf die Erfolgswerte des maschinellen Lernens ist zu bedenken, dass es sich um die Ergebnisse von Kreuzvalidierung auf Basis des Erzähltextkorpus handelt. D.h. die Erkenner wurden auf Daten angewendet, die denen, auf denen sie trainiert wurden, recht ähnlich sind. Es wurde nicht getestet, wie gut sie auf Daten funktionieren, die sich deutlich von denen des Erzähltextkorpus unterscheiden.
12.2.3.1 Direkte Wiedergabe Bei direkter Wiedergabe ist die automatische Erkennung mit Abstand am erfolgreichsten. Wie Tabelle 12.2 zeigt, erreichen die F-Scores für das Gesamtkorpus bei allen Methoden einen Wert von 0,84 und höher. Das beste Einzelergebnis liefert maschinelles Lernen mit einem F-Score von 0,87. Es ist der regelbasierten Erkennung in Precision überlegen und hat einen nur wenig schlechteren Recall. Wenn man die Schnittmenge und die Vereinigungsmenge der beiden Annotationsergebnisse verwendet, lassen sich Precision bzw. Recall jeweils auf über 0,95 steigern. Zwar sind die F-Scores der Kombinationsmengen schlechter als beim maschinellen Lernen allein, aber wenn es auf die Optimierung von einem dieser beiden Maße ankommt, ist dies ein beachtliches Ergebnis. Abbildung 12.1 bezieht sich auf die Stabilität der Erkennungsrate. Es zeigt sich, dass der Mittelwert der F-Scores für alle Methoden gleich ist – 0,77 –, aber beim maschinellen Lernen die geringste Standardabweichung auftritt, 0,188 (die Zahlenwerte sind in der Legende der Abbildung angegeben). Bei der regelbasierten Erkennung ist die Abweichung mit 0,222 höher, was sich dadurch erklärt,
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen | 281 Tab. 12.2. Direkte Wiedergabe: Gesamtauswertung
Regelbasiert
Precision
Recall
F-Score
0,81
0,87
0,84
Maschinelles Lernen
0,88
0,85
0,87
ML ∩ Regel
0,97
0,77
0,86
0,77
0,96
0,85
0.6 0.4 0.2
Tieck
Schnitzler
Musäus
Kleist
Kafka
Janitschek
Heym
Hebbel
Hauff
Günderode
Bürger
Bernhardi
0.0
0,77 mit SD 0,222 / Regel 0,77 mit SD 0,188 / ML 0,77 mit SD 0,243 / ML∪ Regel 0,77 mit SD 0,191 / ML∩ Regel
May
F1.0−Score
0.8
1.0
ML ∪ Regel
Abb. 12.1. Direkte Wiedergabe: F-Scores der Einzeltexte und Standardabweichung
dass diese sich stark auf das Vorhandensein von Anführungszeichen stützt. Man kann sehen, dass sie bei mehreren Texten bessere F-Score-Werte erreicht als das maschinelle Lernen, bei anderen aber starke Einbrüche hat. Dies sind von allem die Texte Bernhardi: Belinde (keine Anführungszeichen), Kleist: Erdbeben (wenige Anführungszeichen) und Tieck: Eckbert (Binnenerzählung in Anführungszeichen, die bei der manuellen Annotation nicht als direkte Wiedergabe gewertet wird). Betrachtet man in Abbildung 12.2a die relativen Anteile von Wiedergabe, die von den verschiedenen Methoden vorausgesagt werden, ergibt sich ein ähnliches
100 100
282 | 12 Gesamtbewertung der automatischen Erkennung
80 80
● ●
direct direct manuell manuell Kor Kor 0,762 0,762 // Regel Regel Kor Kor 0,954 0,954 // ML ML Kor Regel Kor 0,798 0,798 // ML ML∪ Regel Kor Regel Kor 0,919 0,919 // ML ML∩ Regel ● ●
60 60
● ●
● ●
40 40
● ●
● ●
● ●
● ●
● ●
20 20
Prozent der der Sätze Sätze Prozent
● ●
● ● ● ●
Tieck Tieck
Schnitzler Schnitzler
May May
Kleist Kleist
Kafka Kafka
Janitschek Janitschek
Heym Heym
Hebbel Hebbel
Hauff Hauff
Günderode Günderode
Bürger Bürger
00
Bernhardi Bernhardi
Musäus Musäus
● ●
● ●
55
10 10
15 15
SD SD 04,888 04,888 // ML ML SD SD 15,465 15,465 // Regel Regel SD Regel SD 14,874 14,874 // ML ML∪ Regel SD Regel SD 08,474 08,474 // ML ML∩ Regel
00
Durchschnittlicher Durchschnittlicher absoluter absoluter Fehler Fehler in in % %
20 20
(a) Verlauf und Korrelation im Vergleich zur manuellen Annotation
ML ML
Regel Regel
ML Regel ML∪ Regel
(b) Durchschnittlicher absoluter Fehler mit Standardabweichung Abb. 12.2. Direkte Wiedergabe: Vorhersage der relativen Anteile
ML ML∩ Regel Regel
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen
| 283
Bild: Die regelbasierte Erkennung macht z.T. sehr exakte Voraussagen, hat aber Probleme mit bestimmten Texten, für die die Einschätzung der Anteile direkter Wiedergabe deutlich zu hoch oder zu niedrig liegt. Auch der Korrelationskoeffizient ist darum für die regelbasierte Erkennung am niedrigsten (0,762) und für das maschinelle Lernen am höchsten (0,954). In Abbildung 12.2b stellen die Balken den durchschnittlichen absolute Fehler dar, der sich ergibt, wenn man die durch die automatischen Methoden vorausgesagten Anteile mit den realen Anteilen vergleicht. Im Falle von regelbasierter Erkennung wird der Anteil um durchschnittlich ca. 10 % falsch vorhergesagt. Zudem ist die Standardabweichung mit über 15 % sehr hoch, d.h. es ist kaum vorauszusehen, wie gut das Ergebnis bei einem unbekannten Text sein wird. Für das maschinelle Lernen ist sowohl der durchschnittliche absolute Fehler, als auch die Standardabweichung deutlich geringer. Das heißt, diese Methode führt nicht nur zu Ergebnissen, die den realen Werten näher kommen, sie ist auch besser einschätzbar. Zusammenfassend kann man für diese Auswertung sagen, dass zwar alle Methoden gute Ergebnisse liefern, das reine maschinelle Lernen jedoch bei allen Betrachtungsweisen am Besten abschneidet. Bei einem Korpus, in dem direkte Wiedergabe konsistent mit Anführungszeichen markiert ist, wäre allerdings vermutlich der regelbasierte Ansatz überlegen, da er unter idealen Bedingungen die genaueren Ergebnisse liefert – sowohl was die F-Scores als auch was die vorausgesagten Anteile angeht sind seine Ergebnisse für einige Texte sehr gut. Die Vereinigungsmenge der Ergebnisse beider Methoden, ML ∪ Regel, ist ebenfalls vielversprechend, da sie die Genauigkeit der regelbasierten Erkennung mit der Robustheit des maschinellen Lernens verbindet. Dass sie in der Auswertung immer leicht hinter dem reinen maschinellen Lernen zurückbleibt, liegt daran, dass es zwei Stellen gibt, an denen der regelbasierte Erkenner zu viel markiert: Zum einen in Bürger: Münchhausen (ein ironischer Ausdruck in Anführungszeichen) und zum anderen in Tieck: Eckbert (die Binnenerzählung). Bei einer Anwendung gilt es also abzuwägen, in welchem Zustand das verwendete Korpus ist. Wenn man nicht davon ausgehen kann, dass die Markierung normiert ist, ist der sicherste Weg die Erkennung mit maschinellem Lernen oder mit der Vereinigungsmenge der Ergebnisse von regelbasierten und ML-Methoden. Wenn klar ist, dass (fast) nie Anführungszeichen verwendet werden, ist vermutlich sogar maschinelles Lernen ohne das Attribut $(, wie in Abschnitt 11.6 beschrieben, die beste Wahl. Eine weitere denkbare Kombinationsmöglichkeit könnte so aussehen, dass bei jedem Text zunächst geprüft wird, ob Anführungszeichen vorhanden sind, und danach entschieden wird, welche Erkennungsmethode eingesetzt wird. Allerdings ist hier zu bedenken, dass das Vorhandensein
284 | 12 Gesamtbewertung der automatischen Erkennung von Anführungszeichen allein noch nicht heißen muss, dass diese konsequent gesetzt sind, so dass diese Methode mit Risiken behaftet ist.
12.2.3.2 Freie indirekte Wiedergabe Tab. 12.3. Freie indirekte Wiedergabe: Gesamtauswertung
Precision
Recall
F-Score
Regelbasiert
0,24
0,44
0,31
Maschinelles Lernen
0,63
0,29
0,40
ML ∩ Regel
0,68
0,19
0,30
0,26
0,54
0,35
ML ∪ Regel
Aufgrund der Tatsache, dass es für freie indirekte Wiedergabe keine Indikatoren gibt, die gleichzeitig stabil und frequent sind, ist eine rein regelbasierte Beschreibung kaum möglich. Auch der implementierte regelbasierte Ansatz beruht auf Heuristiken. Es handelt sich um einen Fall, wo die Stärke des maschinellen Lernens, aus Beispielen Muster ableiten zu können, die für den menschlichen Betrachter nicht offensichtlich sind, besonders stark zum Tragen kommt. So ist es nicht verwunderlich, dass die Erkennung mittels maschinellem Lernen mit einem F-Score von 0,40 eindeutig am erfolgreichsten ist. Tabelle 12.3, die Gesamtauswertung, zeigt, dass die Ergebnisse des maschinellen Lernens sich vor allem durch eine hohe Precision von 0,63 auszeichnen. Der Recall ist hingegen mit 0,29 ziemlich schlecht. Durch eine Kombination mit dem regelbasierten Ansatz lässt er sich auf 0,54 erhöhen, jedoch stark auf Kosten der Precision, die auf 0,26 absinkt. Einen ähnlichen Effekt – Verbesserung des Recalls auf Kosten der Precision – hat auch das maschinelle Lernen mit ‚Pseudo-FreiIndirekt‘ (Abschnitt 11.6.2), dessen Ergebnisse hier nicht noch einmal dargestellt sind. Auf eine graphische Darstellung der F-Scores und eine Berechnung der Standardabweichung wurde für diesen Wiedergabetyp verzichtet, da die F-Scores aufgrund der Tatsache, dass freie indirekte Wiedergabe in vielen Texten des Erzähltextkorpus überhaupt nicht vorkommt, extreme und wenig aussagekräftige Werte annehmen (vgl. hierzu die Erläuterungen zu Tabelle 10.18 in Abschnitt 10.5.2, S. 203).
100 100
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen | 285
60 60
free_indirect free_indirect manuell free_indirect manuell manuell Kor Kor 0,768 Regel Kor 0,768 0,768 /// Regel Regel Kor Kor 0,973 ML Kor 0,973 0,973 /// ML ML Kor Regel Kor 0,849 ML ∪Regel Regel Kor 0,849 0,849 /// ML ML∪ Kor Regel Kor 0,935 ML Regel Kor 0,935 0,935 /// ML ML∩ ∩Regel
40 40
Prozent der der Sätze Sätze Prozent
80 80
● ●
20 20
● ●
● ●
● ●
Schnitzler Schnitzler
Tieck Tieck
Hebbel Hebbel
● ●
Musäus Musäus
Hauff Hauff
● ●
May May
Günderode Günderode
● ●
Kleist Kleist
Bürger Bürger
● ●
Kafka Kafka
● ●
Janitschek Janitschek
● ●
Heym Heym
● ●
00
● ●
Bernhardi Bernhardi
● ● ● ●
5
10
15
SD SD 3,598 3,598 // ML ML SD SD 2,748 2,748 // Regel Regel SD 3,108 / ML Regel SD 3,108 / ML∪ Regel SD 4,763 / ML Regel SD 4,763 / ML∩ Regel
0
Durchschnittlicher absoluter Fehler in %
20
(a) Verlauf und Korrelation im Vergleich zur manuellen Annotation
ML ML
Regel Regel
ML Regel ML∪ Regel
(b) Durchschnittlicher absoluter Fehler mit Standardabweichung Abb. 12.3. Freie indirekte Wiedergabe: Vorhersage der relativen Anteile
ML ML∩ Regel Regel
286 | 12 Gesamtbewertung der automatischen Erkennung Die relativen Anteile von freier indirekter Wiedergabe werden, wie in Abbildung 12.3a zu sehen, mit Hilfe des maschinellen Lernens gut vorhergesagt. Diese Methode erreicht einen beeindruckend hohen Korrelationswert von 0,973, vor allem, weil sie die fälschliche Erkennung von freier indirekter Wiedergabe vermeidet. Bei der regelbasierten Erkennung hingegen werden in mehreren Texten annähernd so viele Sätze mit freier indirekter Wiedergabe vorhergesagt wie für Heym: Irre, wo sich die Instanzen in Wirklichkeit konzentrieren, so dass die Ergebnisse für eine Abschätzung der realen Anteile kaum brauchbar sind. Der durchschnittliche absolute Fehler (Abbildung 12.3b) ist für alle Methoden deutlich geringer als bei direkter Wiedergabe, jedoch ist auch der Anteil an freier indirekter Wiedergabe insgesamt meist weitaus geringer, so dass die Abweichungen stärker ins Gewicht fallen. Wie zu erwarten, liefert das maschinelle Lernen hier ebenfalls die besten Ergebnisse. Bei freier indirekter Wiedergabe sind die Aussagen, die auf Grundlage des Erzähltextkorpus getroffen werden können, am unsichersten, da dieses recht wenige Beispiele für den Wiedergabetyp enthält. Zudem tritt freie indirekte Wiedergabe zwar in 5 der 13 Texte auf, der weitaus größte Teil der Fälle konzentriert sich jedoch auf einen einzigen Text, Heym: Irre. Dennoch geben die Untersuchungen am Erzähltextkorpus Hoffnung darauf, dass zumindest eine grobe Erkennung mit Hilfe von maschinellem Lernen möglich ist. Weitere Untersuchungen auf der Basis eines Korpus mit einem größeren Anteil an freier indirekter Wiedergabe wären wünschenswert, um die Ergebnisse abzusichern.
12.2.3.3 Indirekte Wiedergabe Die Gesamtauswertung in Tabelle 12.4 zeigt, dass bei indirekter Wiedergabe die regelbasierte Erkennung einen F-Score von 0,71 und damit das beste Ergebnis liefert. Der Precision-Wert von 0,81 ist beachtlich und wird lediglich bei direkter Wiedergabe übertroffen. Die Ergebnisse des maschinellen Lernens sind eindeutig schlechter, lediglich beim Lernen auf Satzabschnittsbasis ergibt sich ein etwas besserer Recall, der allerdings mit einer sehr viel schlechteren Precision einhergeht. Die regelbasierte Erkennung hat auch eine deutlich geringere Standardabweichung (0,116) als das maschinelle Lernen auf Satzbasis und die Kombinationsmengen (Abbildung 12.4). Sogar noch etwas geringer ist allerdings die Standardabweichung beim maschinellen Lernen mit Satzabschnitten. Diese Erkennungsmethode ist also zwar deutlich ungenauer als die regelbasierte, aber etwa gleich stabil. Betrachtet man die relativen Anteile von Wiedergabe in Abbildung 12.5a, so kann man feststellen, dass die Korrelation sowohl bei regelbasierter Erkennung
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen | 287 Tab. 12.4. Indirekte Wiedergabe: Gesamtauswertung
Regelbasiert
Precision
Recall
F-Score
0,81
0,62
0,71
Maschinelles Lernen
0,62
0,47
0,53
ML Satzabschnitt
0,38
0,70
0,50
ML ∩ Regel
0,85
0,38
0,53
0,66
0,71
0,68
1.0
ML ∪ Regel
0.6 0.4
Abb. 12.4. Indirekte Wiedergabe: F-Scores der Einzeltexte und Standardabweichung
Tieck
Schnitzler
Musäus
May
Kleist
Kafka
Janitschek
Heym
Hebbel
Hauff
Günderode
Bürger
Bernhardi
0.0
0.2
F1.0−Score
0.8
0,68 mit SD 0,116 / Regel 0,46 mit SD 0,223 / ML 0,47 mit SD 0,115 / ML Satzabschnitt 0,64 mit SD 0,151 / ML∪ Regel 0,46 mit SD 0,228 / ML∩ Regel
100 100 100
| 12 Gesamtbewertung der automatischen Erkennung 288 | | 12 12 Gesamtbewertung Gesamtbewertung der der automatischen automatischen Erkennung Erkennung
40 40 40
60 60 60
indirect manuell indirect indirect manuell manuell Kor 0,848 Regel Kor Kor 0,848 0,848 /// Regel Regel Kor 0,865 0,865 /// ML ML Kor Kor 0,865 ML Kor 0,943 / ML Satzabschnitt Kor Kor 0,943 0,943 // ML ML Satzabschnitt Satzabschnitt ∪Regel Regel Kor 0,880 0,880 /// ML ML∪ Kor ∪ Regel Kor 0,880 ML Kor 0,832 / ML Regel ∩ Kor Kor 0,832 0,832 // ML ML∩ Regel ∩Regel
● ● ●
● ● ●
● ● ●
● ● ●
● ● ●
● ● ●
● ● ●
Janitschek Janitschek Janitschek
● ● ●
● ● ● ● ● ●
Tieck Tieck Tieck
Schnitzler Schnitzler Schnitzler
Musäus Musäus Musäus
May May May
Kleist Kleist Kleist
Kafka Kafka Kafka
Hauff Hauff Hauff
Günderode Günderode Günderode
Bürger Bürger Bürger
Bernhardi Bernhardi Bernhardi
000
● ● ●
Heym Heym Heym
● ● ●
● ● ●
Hebbel Hebbel Hebbel
20 20 20
Prozent der Sätze Prozentder derSätze Sätze Prozent
80 80 80
● ● ●
555
10 10 10
15 15 15
SD 3,318 ML SD SD 3,318 3,318 /// ML ML SD 3,323 ML Satzabschnitt SD SD 3,323 3,323 /// ML ML Satzabschnitt Satzabschnitt SD 3,800 / Regel SD SD 3,800 3,800 // Regel Regel ∪ SD 2,089 / ML Regel SD ∪Regel SD 2,089 2,089 // ML ML∪ Regel SD 4,667 ML Regel ∩ SD SD 4,667 4,667 /// ML ML∩ Regel ∩Regel
000
Durchschnittlicher absoluter Fehler in % Durchschnittlicher Durchschnittlicherabsoluter absoluterFehler Fehlerin in% %
20 20 20
(a) Verlauf und und Korrelation Korrelation im im Vergleich Vergleich zur zur manuellen manuellen Annotation Annotation (a) (a) Verlauf Verlauf und Korrelation im Vergleich zur manuellen Annotation
ML ML ML
ML Satzabschnitt ML ML Satzabschnitt Satzabschnitt
Regel Regel Regel
∪Regel Regel ML ML ∪ Regel ML∪
(b) Durchschnittlicher absoluter Fehler mit Standardabweichung (b) (b) Durchschnittlicher Durchschnittlicher absoluter absoluter Fehler Fehler mit mit Standardabweichung Standardabweichung Abb. 12.5. Indirekte Wiedergabe: Vorhersage der relativen Anteile Abb. Abb. 12.5. 12.5. Indirekte Indirekte Wiedergabe: Wiedergabe: Vorhersage Vorhersage der der relativen relativen Anteile Anteile
ML Regel ∩Regel ML ML∩ Regel ∩
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen
| 289
also auch bei der Erkennung mit maschinellem Lernen auf Satzbasis deutlich hinter den besten Ergebnissen bei direkter, freier indirekter und erzählter Wiedergabe zurückbleibt. Zudem machen die beiden Methoden sehr ähnliche Voraussagen – für 8 der 13 Texte ist der automatisch gefundene Anteil von Sätzen mit indirekter Wiedergabe praktisch gleich. Allerdings sind es nicht immer die gleichen Sätze, die markiert werden, was man daran sieht, dass die Kurvenverläufe der Schnittmenge (ML ∩ Regel) und der Vereinigungsmenge (ML ∪ Regel) auseinander driften. Würden die Regel- und die ML-Methode exakt die gleichen Sätze finden, müssten diese Werte ebenfalls gleich sein. Betrachtet man die Korrektheit der vorausgesagten Anteile, so erweist sich ML ∪ Regel mit dem geringsten Fehler und der geringsten Standardabweichung als die beste Strategie (vgl. Abbildung 12.5b). Bemerkenswert sind allerdings die Ergebnisse beim maschinellen Lernen mit Satzabschnitten: Die Einschätzung, die diese Erkennungsmethode liefert, liegt durchschnittlich 10 % über den realen Anteilen, was deutlich mehr Abweichung ist als bei allen anderen Methoden. Gleichzeitig ist jedoch die Korrelation dieser Werte mit den realen mit 0,943 mit Abstand am besten.66 Bei indirekter Wiedergabe haben wir also den Fall, dass bei unterschiedlichen Betrachtungsweisen zwei unterschiedliche Methoden als Favoriten hervorgehen. Was die Genauigkeit angeht, so ist eindeutig der regelbasierte Ansatz zu bevorzugen – er liefert nicht nur die besten Ergebnisse für das Gesamtkorpus, diese erweisen sich auch als sehr stabil. Dies ist insofern nicht verwunderlich, als indirekte Wiedergabe recht klare Strukturen aufweist, die sich mit Regeln gut abbilden lassen. Das regelbasierte Modul MarkIndirect hat den zusätzlichen Vorteil, dass es nicht nur erkennen kann, ob in einem Satz überhaupt eine Wiedergabe vorliegt, sondern auch einzelne Instanzen identifizieren kann, wenn auch ihre Grenzen nicht exakt erkannt werden. Wenn es allerdings darum geht, ein Maß zu haben, mit dessen Hilfe man auf den realen Anteil von Sätzen mit indirekter Wiedergabe in einem Text schließen kann, so erweist sich das maschinelle Lernen auf Satzabschnittsbasis als die beste Wahl. Zwar ist damit zu rechnen, dass die vorhergesagten Anteile deutlich zu hoch geschätzt sind, da dies jedoch für alle Texte im gleichen Maße der Fall ist, ist es für eine vergleichende Betrachtung unerheblich.
66 Es ist davon auszugehen, dass dieser Effekt beim Lernen indirekter Wiedergabe auf Satzabschnittsbasis nicht auf Besonderheiten des maschinellen Lernens mit Resampling zurückgeht, da er auch auftrat, als im Vorfeld Tests mit einer Gewichtung mit MetaCost (vgl. Abschnitt 11.9) durchgeführt wurden.
290 | 12 Gesamtbewertung der automatischen Erkennung Tab. 12.5. Erzählte Wiedergabe: Gesamtauswertung
Regelbasiert
Precision
Recall
F-Score
0,51
0,64
0,57
Maschinelles Lernen
0,56
0,45
0,50
ML Satzabschnitt
0,49
0,54
0,52
ML ∩ Regel
0,63
0,37
0,47
0,49
0,71
0,58
ML ∪ Regel
12.2.3.4 Erzählte Wiedergabe Bei erzählter Wiedergabe liegen die Werte der Gesamtauswertung für die verschiedenen Methoden vergleichsweise eng zusammen (vgl. Tabelle 12.5). Es handelt sich zudem um den einzigen Wiedergabetyp, bei dem eine Kombination aus den Ergebnissen von maschinellem Lernen und regelbasierter Erkennung den besten F-Score erzielt – wenn auch der Wert von 0,58 für die Vereinigungsmenge, ML ∪ Regel, den Wert von 0,57 für die regelbasierte Erkennung kaum übersteigt. Abbildung 12.6 zeigt zudem, dass die Erfolgsrate bei der regelbasierten Erkennung mit einer Standardabweichung von 0,111 stabiler ist als für ML ∪ Regel. Was die Erkennung mit maschinellem Lernen auf Satzabschnittsbasis angeht, zeigt sich hier der gleiche Effekt wie bei indirekter Wiedergabe: Zwar ist die Genauigkeit der Erkennung bei dieser Methode deutlich schlechter als bei der regelbasierten Erkennung, die Ergebnisse sind jedoch sehr stabil – ihre Standardabweichung von 0,098 ist sogar die geringste, die bei allen Wiedergabetypen gemessen wurde. Wie Abbildung 12.7a zeigt, neigt die regelbasierte Erkennung dazu, die Anteile von erzählter Wiedergabe zu überschätzen, die Erkennung mit maschinellem Lernen auf Satzbasis dazu, sie zu unterschätzen – letzteres ist ein Effekt, der bei jedem der Wiedegabetypen auftritt und auf die Besonderheiten des Lernens mit Resampling zurückgeht. Es sind in diesem Fall die beiden maschinellen Lernmethoden, auf Satzbasis und auf Satzabschnittsbasis, die die besten Korrelationswerte und den geringsten durchschnittlichen absoluten Fehler produzieren. Beide sind hier fast gleichwertig, wobei die Korrelation beim Lernen auf Sätzen etwas besser ist (0,954) und der absolute Fehler beim Lernen auf Satzabschnitten etwas geringer (3,4 %, vgl. Abbildung 12.7b). Im Gegensatz zu indirekter Wiedergabe wird der Anteil an erzählter Wiedergabe bei der Erkennung mit maschinellem Lernen auf Satzabschnittsbasis nicht massiv überschätzt. Betrachtet man den Verlauf der Linien in Abbildung 12.7a, so scheint diese Methode den realen Anteil sogar am exaktesten vorauszusagen.
1.0 1.0
12.2 Vergleich der Erkennungsergebnisse für die einzelnen Wiedergabetypen | 291
0.6 0.6 0.4 0.4
Tieck Tieck
Schnitzler Schnitzler
Musäus Musäus
May May
Kleist Kleist
Kafka Kafka
Janitschek Janitschek
Heym Heym
Hebbel Hebbel
Hauff Hauff
Günderode Günderode
Bürger Bürger
Bernhardi Bernhardi
0.0 0.0
0.2 0.2
F1.0−Score F1.0−Score
0.8 0.8
0,57 mit mit SD SD 0,111 0,111 // Regel Regel 0,57 0,43 mit mit SD SD 0,210 0,210 // ML ML 0,43 0,48 mit mit SD SD 0,098 0,098 // ML ML Satzabschnitt Satzabschnitt 0,48 Regel 0,56 mit mit SD SD 0,137 0,137 // ML ML∪ Regel 0,56 0,40 mit SD 0,182 / ML Regel ∩ 0,40 mit SD 0,182 / ML Regel
Abb. 12.6. Erzählte Wiedergabe: F-Scores der Einzeltexte und Standardabweichung
Bei erzählter Wiedergabe zeigen sich also ähnliche Trends wie bei indirekter Wiedergabe: Wenn die Genauigkeit der Erkennung wichtig ist, ist die regelbasierte Methode geeignet, wenn die Anteile von Wiedergabe vorausgesagt werden sollen, die Methoden, die maschinelles Lernen verwenden – in diesem Fall sowohl auf Satz- als auch auf Satzabschnittsbasis. Allerdings sind die Befunde längst nicht so klar wie bei indirekter Wiedergabe, da die Ergebnisse der verschiedenen Methoden sehr viel dichter zusammen liegen. Zudem beruht die regelbasierte Annotation auf einem Prozess, bei dem von allen gefundenen Wiedergabewörtern ausgegangen wird und diejenigen als Indikatoren verwendet werden, die nicht als Teile von indirekter Wiedergabe oder Rahmenformeln erkannt wurden (vgl. Abschnitt 10.4). Sie stützt sich also auf die Erfolge anderer regelbasierter Module, während die Ergebnisse des maschinellen Lernens völlig ohne Hilfsmittel erzielt wurden. Es ist denkbar, dass die Ergebnisse der Erkennung mit maschinellem Lernen noch verbessert werden können, wenn es ebenfalls aufbauend auf den Ergebnissen anderer Erkennungskomponenten eingesetzt wird.
100 100 100
292 | 12 Gesamtbewertung der automatischen Erkennung
60 60 60
reported reported manuell manuell Kor Kor 0,849 0,849 // Regel Regel Kor Kor 0,954 0,954 // ML ML Kor Kor 0,942 0,942 // ML ML Satzabschnitt Satzabschnitt Kor Regel Kor 0,897 0,897 // ML ML∪ Regel Kor 0,938 / ML Kor 0,938 / ML∩ Regel Regel
40 40 40
Prozent der der Sätze Sätze Prozent der Sätze Prozent
80 80 80
● ● ●
● ● ●
● ● ●
● ● ●
● ● ●
20 20 20
● ● ●
● ● ●
● ● ● ● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
Tieck Tieck Tieck
Schnitzler Schnitzler Schnitzler
Musäus Musäus Musäus
May May May
Kleist Kleist Kleist
Kafka Kafka Kafka
Janitschek Janitschek Janitschek
Heym Heym Heym
Hebbel Hebbel Hebbel
Hauff Hauff Hauff
Günderode Günderode Günderode
Bürger Bürger Bürger
Bernhardi Bernhardi Bernhardi
00 0
● ● ●
55 5
10 10 10
15 15 15
SD SD 2,653 2,653 // ML ML SD SD 2,252 2,252 // ML ML Satzabschnitt Satzabschnitt SD 4,100 / Regel SD 4,100 / Regel ∪ SD 4,609 / ML SD 4,609 / ML Regel Regel SD SD 3,782 3,782 // ML ML∩ Regel Regel
00 0
Durchschnittlicher Durchschnittlicher absoluter absoluter absoluter Fehler Fehler Fehler in in in % % % Durchschnittlicher
20 20 20
(a) Verlauf und Korrelation im Vergleich zur manuellen Annotation
ML
ML Satzabschnitt
Regel
ML∪ Regel
(b) Durchschnittlicher absoluter Fehler mit Standardabweichung Abb. 12.7. Erzählte Wiedergabe: Vorhersage der relativen Anteile
ML∩ Regel
12.3 Auswertung ohne Grenzfälle
| 293
12.3 Auswertung ohne Grenzfälle Bei den bisherigen Auswertungen wurden stets alle Instanzen, die mit einer Wiedergabe-Hauptkategorie ausgezeichnet wurden, als korrekte Wiedergaben gewertet. Wie im Kontext der manuellen Annotation ausführlich dargelegt, gibt es jedoch eine große Anzahl von Randphänomenen und Zweifelsfällen. Zum Abschluss wird nun überprüft, wie es sich auf die Erfolgswerte auswirkt, wenn man strenger definiert, was als Wiedergabe zu werten ist. Die Komplexität des detaillierten Annotationssystems wurde zu diesem Zweck reduziert, indem die Zweifelsfälle nach ihren Oberflächenmerkmalen in zwei Gruppen eingeteilt wurden (vgl. hierzu auch die Definitionen der Attribute in Abschnitt 5.5): 1. lexikalisch abweichend: Hierbei handelt es sich um Fälle, die andere lexikalische Elemente verwenden als sichere Fälle. Die Gruppe umfasst die Attribute border (Randphänomene von Rede, Gedanken und Geschriebenem; hier werde meist andere lexikalische Einheiten verwendet) und narr (Handlungen, die als sprachlich oder schriftlich umgesetzt interpretiert werden können, aber nicht mit Wörtern beschrieben werden, die eindeutig auf Sprache oder Schrift verweisen). 2. strukturell abweichend: In diesen Fällen ist das lexikalische Material meist das gleiche wie bei sicheren Fällen, aber die Konstruktionen haben Besonderheiten, die den Sinn verändern. Dies umfasst die Attribute non-fact (nichtfaktisch; meist negierte oder modale Konstruktionen), prag (die pragmatische Funktion ist nicht Wiedergabe; meist Besonderheiten in Tempus und Subjekt) und metaph (metaphorisch; meist ungewöhnliche Wahl des Subjekts). Die Zusammenfassung erfolgte nach Oberflächenmerkmalen – nicht wie bei der Definition der Attribute nach semantisch-pragmatischen Kriterien – da für die automatische Erkennung vor allem die Oberfläche relevant ist. Es ergeben sich vier Vergleichsmengen, die bei den Auswertungen verwendet werden: – komplett: alle Wiedergabeinstanzen der manuellen Annotation – no_lex_var (keine lexikalischen Varianten): Wiedergabeinstanzen der manuellen Annotation, die keine Attribute aus Gruppe 1 tragen – no_struct_var (keine strukturellen Varianten): Wiedergabeinstanzen der manuellen Annotation, die keine Attribute aus Gruppe 2 tragen
294 | 12 Gesamtbewertung der automatischen Erkennung –
streng: gar keine Grenzfälle; d.h. Wiedergabeinstanzen der manuellen Annotation, die keine Attribute aus Gruppe 1 oder 2 und nicht das Attribut ambig tragen.67
Wenn ein Satz mehrere Instanzen des gleichen Wiedergabetyps enthält, so ist es ausreichend, dass eine davon nicht als Grenzfall markiert ist, um den gesamten Satz als sichere Instanz zu werten. Tab. 12.6. Reduzierung der Vergleichsmengen durch Enfernung der Grenzfälle
direct
free_indirect
indirect
reported
komplett
917
110
300
450
no_lex_var
913
110
234
352
no_struct_var
906
110
224
342
streng
897
102
174
233
Tabelle 12.6 zeigt, wie viele Instanzen die Vergleichsmengen jeweils enthalten. Die Entfernung von unsicheren Fällen macht bei direct nur wenig Unterschied, da es kaum Instanzen von direkter Wiedergabe mit den entsprechenden Attributen gibt. Bei free_indirect zeigt lediglich die Gruppe streng Veränderungen, da bei diesem Wiedergabetyp nur ambige Fälle (Attribut ambig) als Grenzfälle markiert wurden. Die manuellen Annotationen für indirect und reported hingegen werden im extremsten Fall fast um die Hälfte reduziert. Da der Effekt bei indirekter und erzählter Wiedergabe so stark ist, wurde in Abbildung 12.8 aufgeschlüsselt, wie sich der relative Anteil von Sätzen, die Wiedergaben enthalten, verändert, je nachdem, welche Grenzfälle ausgeschlossen werden. Die angegebenen Korrelationswerte wurden jeweils im Vergleich zu der Verlaufskurve berechnet, die sich ergibt, wenn man alle manuellen Annotationen betrachtet (Vergleichsmenge komplett). Damit wird abgeschätzt, in welchem Maße sich das Profil für die Wiedergabeanteile der Texte verändert, wenn man die Definition enger fasst.
67 Instanzen mit dem Attribut level (verschachtelte Wiedergabe) werden beibehalten, da dieses Attribut keine Unsicherheit bei der Annotation markiert.
50
12.3 Auswertung ohne Grenzfälle | 295
ind komplett KOR: 0.971 / ind no_lex_var KOR: 0.987 / ind no_struct_var KOR: 0.962 / ind streng
30 ●
●
20
Prozent der Sätze
40
●
●
● ● ●
10
●
● ●
●
●
●
Tieck
Schnitzler
Musäus
May
rep komplett KOR: 0.961 / rep no_lex_var KOR: 0.965 / rep no_struct_var KOR: 0.911 / rep streng
40
●
30
● ● ●
● ●
20
Prozent Prozentder derSätze Sätze
Kleist
Kafka
Janitschek
Heym
Hebbel
Hauff
Günderode
Bernhardi
50
Bürger
0
●
● ●
10
●
●
●
May
Schnitzler
● ●
Tieck
Schnitzler
Musäus
May
Kleist Kleist
Kafka
Janitschek Janitschek
Heym
Hebbel Hebbel
Hauff
Günderode Günderode
Bürger
Bürger
Bernhardi
0
●
Abb. 12.8. Relativer Anteil von indirect und reported abhängig von der Strenge der Definition (manuelle Annotation)
296 | 12 Gesamtbewertung der automatischen Erkennung Man sieht, dass die Abnahme des Anteils von indirect-Sätzen über die Texte hinweg relativ gleichmäßig ist: Die Linien für komplett und streng haben einen ähnlichen Verlauf, und die Linien für no_lex_var und no_struct_var liegen fast aufeinander. Die Korrelationswerte sind hoch, vor allem für no_struct_var, und bewegen sich in einem ähnlichen Bereich. Bei indirect bewirkt eine strengere Definition von Wiedergabe also eine gleichmäßige Reduzierung der positiven Fälle, wobei der Ausschluss von lexikalischen und strukturellen Varianten in etwa den gleichen Effekt hat. Bei reported ist der Verlauf der vier Linien unregelmäßiger und stärker abhängig vom Einzeltext. Die Reduzierung auf no_lex_var und die auf no_struct_var können je nach Text sehr unterschiedliche Auswirkungen haben. Die Korrelationswerte sind für die einzelnen Untermengen schlechter als bei indirect, v.a. der Wert bei streng fällt deutlich ab. Dies passt zu der Beobachtung, dass reported eine Wiedergabekategorie ist, die recht schwer abzugrenzen ist und über weniger etablierte Merkmale verfügt als die anderen Kategorien (mit Ausnahme vielleicht von free_indirect). Definitionsentscheidungen bei dieser Kategorie können das Verlaufsprofil über mehrere Texte hinweg entscheidend verändern. Bei vergleichenden Untersuchungen sollte hier besonders darauf geachtet werden, dass die Definitionen konsistent sind.
12.3.1 Regelbasierte Verfahren Tabelle 12.7 zeigt die Auswertungsergebnisse für die regelbasierten Module in Bezug auf die unterschiedlichen Vergleichsmengen. Die Menge der Instanzen, die von den regelbasierten Erkennern gefunden wird, bleibt bei dieser Auswertung immer gleich. Wenn die Vergleichsmenge reduziert wird, wird dieses Ergebnis an immer weniger positiven Fällen, die gefunden werden müssen, gemessen. Folglich können sich die Recall-Werte nur verbessern, wenn die Definition strenger wird. Interessanter ist die Betrachtung der Precision: Man sieht, dass diese für alle Wiedergabetypen abnimmt, wenn die Vergleichsmenge strenger definiert wird. Das deutet darauf hin, dass die Erkenner nicht besonders erfolgreich darin sind, nur die sicheren Fälle zu erfassen. Bei der Auswertung ohne strukturelle Varianten (no_struct_var) ist dies wenig erstaunlich, da diese sich vom lexikalischen Material und von der Grundstruktur her wie prototypische Wiedergaben verhalten. Regelbasierte Module wie z.B. MarkIndirect sind nicht ausgefeilt genug, um beispielsweise Verneinungen (non-fact: neg) zu identifizieren und von sicheren Fällen zu unterschieden.
12.3 Auswertung ohne Grenzfälle
| 297
Tab. 12.7. Regelbasiert: Auswertung mit und ohne Grenzfälle
manuelle Instanzen
Precision
Recall
F-Score
komplett
917
0,81
0,87
0,84
no_lex_var
913
0,81
0,87
0,84
no_struct_var
906
0,80
0,87
0,83
streng
897
0,79
0,88
0,83
komplett
110
0,24
0,44
0,31
streng
102
0,24
0,47
0,31
komplett
300
0,81
0,62
0,71
no_lex_var
234
0,63
0,62
0,63
no_struct_var
224
0,60
0,62
0,61
streng
174
0,50
0,67
0,57
komplett
450
0,51
0,64
0,57
no_lex_var
352
0,41
0,66
0,51
no_struct_var
342
0,39
0,64
0,48
streng
233
0,28
0,67
0,39
direct
free_indirect
indirect
reported
298 | 12 Gesamtbewertung der automatischen Erkennung Bei Ausschluss der lexikalischen Varianten (no_lex_var) wäre eine Verbesserung eher zu erwarten gewesen, und tatsächlich bringt diese Auswertung zumindest die geringste Verschlechterung. Ein Grund, warum der Erfolg nicht besser ist, liegt sicherlich darin, dass unsichere Wiedergabewörter – wie z.B. wissen (border: state) – in der verwendeten Untermenge der Wiedergabewortliste vertreten sind und also sowohl für indirect als auch für reported als Indikatoren verwendet werden. Zudem ist zu beachten, dass sich schon allein die Reduzierung der positiven Fälle ungünstig auf die Erfolgswerte auswirkt, da es weniger Treffermöglichkeiten gibt und Fehlklassifizierungen rechnerisch mehr ins Gewicht fallen. Zusammenfassend lässt sich sagen, dass die regelbasierten Methoden, wie sie hier implementiert sind, mit einer strengeren Definition von Wiedergabe schlecht umgehen können, da sie grundsätzlich für eine großzügige Erkennung ausgelegt sind. Durch Adaption an die strengeren Anforderungen – z.B. indem die Wiedergabewortliste auf prototypische Wörter begrenzt wird – könnten die Ergebnisse vermutlich verbessert werden. Insgesamt ist aber die Differenzierung zwischen ‚guten‘ und ‚schlechten‘ Fällen von Wiedergabe v.a. bei sehr ähnlichen lexikalischen und strukturellen Merkmalen eine zusätzliche Schwierigkeit.
12.3.2 Maschinelles Lernen Analog zu der Auswertung ohne Grenzfälle für die regelbasierten Methoden wurde auch für die maschinellen Methoden überprüft, wie sich eine strengere Definition von Wiedergabe auswirkt. Allerdings wurden die unsicheren Fälle hier nicht nur bei der Auswertung ignoriert, sondern auch nicht als Trainingsmaterial verwendet, d.h. der Lernalgorithmus bekam entsprechend weniger, aber prototypischere Trainingsinstanzen. Dies führt zu einem entscheidenden Unterschied: Bei den Auswertungen der regelbasierten Methoden wird immer die gleiche Ergebnismenge mit einer zunehmend eingeschränkten Menge an manuellen Annotationen verglichen. Beim maschinellen Lernen hingegen wird für jede Auswertung das Modell neu trainiert, d.h. es ergibt sich auch jedes Mal eine andere Ergebnismenge. Tabelle 12.8 listet die Auswertungen zu den vier Vergleichsmengen auf. Zu beachten ist, dass kleinere Vergleichsmengen beim maschinellen Lernen mehr grundsätzliche Nachteile bringen als bei den regelbasierten Methoden. Nicht nur fallen auch hier Klassifizierungsfehler rechnerisch stärker ins Gewicht; hinzu kommt, dass sich die Reduzierung der Trainingsdaten negativ auswirkt. Es gibt weniger unterschiedliche Beispiele, aus denen der Lernalgorithmus Regeln ableiten kann, und beim Resampling müssen die Instanzen öfter vervielfacht werden.
12.3 Auswertung ohne Grenzfälle
| 299
Tab. 12.8. Maschinelles Lernen: Auswertung mit und ohne Grenzfälle
Trainingsinstanzen
Precision
Recall
F-Score
direct komplett
917
0,88
0,85
0,87
no_lex_var
913
0,88
0,85
0,86
no_struct_var
906
0,87
0,85
0,86
streng
897
0,87
0,85
0,86
free_indirect komplett
110
0,63
0,29
0,40
streng
102
0,62
0,30
0,41
0,47
0,53
indirect komplett
300
0,62
no_lex_var
234
0,53
0,33
0,41
no_struct_var
224
0,57
0,36
0,44
streng
174
0,57
0,29
0,39
reported komplett
450
0,56
0,45
0,50
no_lex_var
352
0,53
0,36
0,43
no_struct_var
342
0,49
0,29
0,36
streng
233
0,37
0,14
0,20
300 | 12 Gesamtbewertung der automatischen Erkennung Bei der vergleichenden Auswertung der regelbasierten Methoden konnte man beobachten, dass sich die Precision für alle Typen beim Ausschluss der Grenzfälle verschlechtert, während der Recall gleich oder besser ist. Bei den Ergebnissen des maschinellen Lernens ist ebenfalls stets eine Verschlechterung der Precision zu beobachten, allerdings in weniger starkem Maße. Dafür sinkt der Recall auf z.T. dramatische Weise. Da jedes Mal neue Modelle trainiert werden, spielen hier höchstwahrscheinlich Besonderheiten des Lernens mit Resampling eine Rolle, welches v.a. bei wenig Trainingsdaten dazu neigt, bessere Werte für Precision als für Recall zu produzieren. Wie bei den regelbasierten Methoden sind die Auswirkungen der Reduzierung für direct gering, und free_indirect ist der einzige Wiedergabetyp, dessen F-Score leicht profitiert. Die Auswertungen von indirect und reported zeigen unterschiedliche Trends: Für indirect sind die Ergebnisse mit der Vergleichsmenge no_lex_var schlechter als mit der Vergleichsmenge no_struct_var, obgleich no_lex_var mehr Trainingsinstanzen zur Verfügung stellt. Möglicherweise spielt hier die Tatsache eine Rolle, dass es 11 Wiedergabewort-Attribute gibt, von denen einige auch sehr unsichere Wiedergabewörter einbeziehen und deren Verwendbarkeit durch die strengeren Maßstäbe von no_lex_var deutlich eingeschränkt wird. Für reported allerdings, wo sich die Erkennung sogar noch stärker auf Wiedergabewort-Attribute stützt, ist dieser Effekt nicht zu beobachten, sondern die Erfolgswerte verschlechtern sich kontinuierlich, wenn die Menge der Trainingsinstanzen abnimmt. Wie bei den regelbasierten Methoden hat der Ausschluss von Grenzfällen hier die deutlichsten negativen Auswirkungen. Allerdings ist es beim maschinellen Lernen vor allem der Recall, der drastisch abnimmt. Abbildungen 12.9 und 12.10 zeigen für indirect und reported, welcher Anteil von Wiedergabe bei den reduzierten Vergleichsmengen jeweils vorausgesagt wird. Die angegebenen Korrelationswerte beziehen sich, wie in Abschnitt 12.2.3, auf die Korrelation zwischen den Anteilen der manuellen und der automatischen Annotation. Für indirect sind sich die Linienverläufe für die Anteile, die automatisch bestimmt wurden, bei den verschiedenen Vergleichsmengen recht ähnlich, ebenso wie sich die Linienverläufe der manuellen Annotationsanteile in Abbildung 12.8 ähnelten. Die Korrelationswerte sind für no_lex_var und streng sogar fast identisch. Für reported sind die Linienverläufe für die manuellen Annotationsanteile unterschiedlicher, aber die Voraussage der automatischen Annotation passt sich an diese an. Für no_lex_var und no_struct_var ergibt sich dabei eine überraschend gute Annäherung, und die Korrelationswerte sind insgesamt höher als
| 301
50
12.3 Auswertung ohne Grenzfälle
Manuell no_lex_var KOR: 0.887 / ML no_lex_var
●
30 20
● ● ●
●
●
●
●
10
●
●
● ● ●
●
Schnitzler
Heym
● ●
Musäus
●
May
●
●
Kleist
●
●
●
Hebbel
Hauff
Günderode
Bernhardi
●
50
Bürger
0
●
●
Kafka
●
Janitschek
●
Tieck
Prozent der Sätze
40
●
Manuell no_struct_var KOR: 0.859 / ML no_struct_var
●
30 20
Prozent der Sätze
40
●
● ●
●
●
●
●
10
● ●
●
● ● ● ●
Tieck
●
Musäus
May
Kleist
Kafka
Heym
Hebbel
Hauff
Günderode
● ●
50
Bernhardi
● ●
Janitschek
●
0
●
Bürger
●
● ●
Schnitzler
●
●
Manuell streng KOR: 0.880 / ML streng
●
30 20
Prozent der Sätze
40
●
●
● ●
●
●
●
● ●
●
Heym
Janitschek
● ●
Kleist
●
●
Musäus
●
May
●
Hebbel
Hauff
Günderode
Bernhardi
0
Bürger
●
● ● ●
Schnitzler
● ●
Kafka
●
Tieck
10
● ●
Abb. 12.9. Maschinelles Lernen von indirect, abhängig von der Strenge der Wiedergabedefinition (relativer Anteil)
50
302 | 12 Gesamtbewertung der automatischen Erkennung
Manuell no_lex_var KOR: 0.940 / ML no_lex_var
●
30
● ● ●
20
Prozent der Sätze
40
●
● ●
●
● ●
●
● ●
10
● ●
●
● ● ● ● ●
●
●
●
●
●
Tieck
Schnitzler
Musäus
May
Kleist
Kafka
Janitschek
Heym
Hebbel
Hauff
Günderode
Bernhardi
50
Bürger
0
● ●
Manuell no_struct_var KOR: 0.938 / ML no_struct_var
●
30 20
Prozent der Sätze
40
●
●
●
●
●
●
●
● ●
10
●
●
●
●
●
●
● ●
● ●
●
●
●
Tieck
Schnitzler
Musäus
May
Kleist
Kafka
Janitschek
Hauff
Günderode
Bernhardi
50
Bürger
0
●
Heym
●
●
Hebbel
●
Manuell streng KOR: 0.892 / ML streng
●
30 20
●
● ●
10
Prozent der Sätze
40
●
●
●
●
●
●
●
● ●
●
●
Tieck
Schnitzler
●
Musäus
May
●
Kleist
●
●
Kafka
Hebbel
Hauff
Günderode
Bernhardi
Bürger
0
●
● ●
Janitschek
●
Heym
● ●
Abb. 12.10. Maschinelles Lernen von reported, abhängig von der Strenge der Wiedergabedefinition (relativer Anteil)
12.3 Auswertung ohne Grenzfälle
| 303
bei indirect. Angesichts der schlechten Ergebnisse für reported bei der Auswertung nach Recall, Precision und F-Score ist dieser Befund bemerkenswert. Er deutet auf eine hohe Adaptionsfähigkeit der maschinellen Lernmethoden an unterschiedliches Trainingsmaterial hin, wenn es um die Voraussage der relativen Anteile von Wiedergabe geht. Insgesamt zeigt sich auch bei den maschinellen Methoden, dass das Erkennen von Wiedergabe durch eine Beschränkung auf prototypische Fälle eher schwieriger als leichter wird. Auch hier wäre anzuraten, die Methoden, die auf eine großzügigere Erkennung ausgelegt sind, an die neuen Anforderungen anzupassen.
13 Schlussbetrachtung Ziel dieser Studie war es, die Möglichkeiten der automatischen Erkennung von Wiedergabe in literarischen Texten zu untersuchen. Sie liefert damit ein Fallbeispiel, wie man sich einem narratologischen Phänomen mit automatischen und oberflächenbezogenen Strategien nähern kann und illustriert Herangehensweise, Methoden und Denkweisen quantitativer Literaturwissenschaft. Gleichzeitg sind die gewonnenen Erkenntnisse von praktischem Nutzen, da eine automatische und damit schnelle Markierung von Wiedergabe Studien auf Grundlage von Hunderten von Texten ermöglicht. Die Studie gliederte sich in zwei Teile: Die Zusammenstellung und manuelle Annotation eines Korpus von Erzähltexten und die Entwicklung und Auswertung automatischer Erkennungsmethoden. Die Ergebnisse vermitteln einen Eindruck, wie gut es möglich ist, das Phänomen Wiedergabe automatisch zu erfassen, und zeigen, welche Probleme und ‚Stellschrauben‘ es gibt. Dadurch, dass dies Studie nicht auf eine konkrete Anwendungssituation ausgerichtet ist, konnten methodische Überlegungen vertieft und unterschiedliche Ansätze präsentiert werden. Ein Ergebnis besteht jedoch auch in konkreten Vorgehensweisen und Modulen, die von anderen Forschungsprojekten reproduziert oder sogar direkt genutzt werden können. Das manuell annotierte Erzähltextkorpus und das dafür entwickelte Annotationssystem können ebenfalls für weitere Studien zum Thema Wiedergabe verwendet werden. Korpus und Erkenner-Prototypen sind im Forschungsdaten-Repositorium des Instituts für Deutsche Sprache (http: //repos.ids-mannheim.de) unter der Adresse http://hdl.handle.net/10932/00027B-9E8A-9300-0B01-E frei verfügbar. Es folgt ein kurzer Überblick über die im Rahmen der Studie erlangten Erkenntnisse. Dabei wird unterschieden zwischen dem Vorgang der manuellen Annotation und den empirischen Erkenntnissen zu den Wiedergabetypen einerseits und den Ergebnissen der automatischen Erkennung und ihren Entwicklungsmöglichkeiten andererseits. Den Abschluss bildet eine Darstellung der narratologischen Forschungsperspektiven, die sich aus der Studie ergeben.
13.1 Manuelle Annotation und die Natur von Wiedergabe 13.1.1 Korpus Das für die Untersuchungen in dieser Studie zusammengestellte Korpus enthält eine Auswahl von Erzähltexten mit Entstehungszeiten vom Ende des 18. bis An-
13.1 Manuelle Annotation und die Natur von Wiedergabe
| 305
fang des 20. Jahrhunderts. Auch wenn modernere Beispiele fehlen, was vor allem urheberrechtliche Gründe hat, liefern diese verschiedenartige Beispiele für gebräuchliche Erzählweisen. Zwar sind viele der Texte in Orthographie und Zeichensetzung normalisiert, jedoch enthält das Korpus genug Inhomogenitäten, um die Probleme zu illustrieren, denen man sich bei der Studie mit historischen, digitalisierten Texten gegenüber sieht. Die Texte entstammen der Sammlung des Projekts TextGrid, welches elektronische Texte der Internetplattform Zeno.org in ein TEIkompatibles XML-Format konvertiert hat. Dies ist eine allgemein zugängliche und für Literaturwissenschaftler interessante Textquelle, so dass der Zustand der Texte realistisch für Material ist, mit dem man bei konkreten Projekten arbeiten könnte. Das Korpus ermöglicht also Beobachtungen, die für die zukünftige Arbeit mit Wiedergabeerkennung im größeren Stil wertvoll sind. So zeigte sich etwa, dass die Markierung direkter Wiedergabe mit Anführungszeichen keineswegs einheitlich gehandhabt wird, so dass bei der Zusammenstellung eines eigenen Korpus unbedingt anzuraten ist, darauf zu achten, wie damit in den Texten umgegangen wird.
13.1.2 Annotation Sowohl die Beschäftigung mit der narrotologischen Forschung als auch die Erfahrungen bei der manuellen Annotation des Erzähltextkorpus haben gezeigt, dass Wiedergabe ein komplexes Phänomen ist, dessen Erfassung auch für einen menschlichen Annotator mit zahlreichen Unsicherheiten behaftet ist. Daraus ergibt sich, dass die Ergebnisse automatischer Erkennung in nicht unbeträchtlichem Maße davon abhängen, wie die Definition von Wiedergabe gefasst ist, wobei auch der gewünschte Differenzierungsgrad entscheidend ist. Zwar wurden im Rahmen dieser Studie letztendlich nur die Techniken von Wiedergabe – direkt, frei indirekt, indirekt und erzählt – mit automatischen Methoden unterschieden, das Annotationsystem differenziert jedoch auch danach, was der Inhalt der Wiedergabe ist – Rede, Gedanken oder geschriebener Text. Diese höhere Granularität ermöglicht weitere Studien zu speziellen Fragestellungen. Insbesondere eine genauere empirische Untersuchung der Unterschiede zwischen der Wiedergabe von Rede und Geschriebenem einerseits und von Gedanken andererseits wäre aus narratologischer Perspektive interessant. Um die Grenzfälle zu klassifizieren und zu unterscheiden, wurde bei der manuellen Annotation ein detailliertes Attributsystem eingeführt. Dabei hat sich gezeigt, dass Unsicherheiten weniger im formalen Bereich auftreten als im funktionalen und semantisch-pragmatischen Bereich. Dies umfasst zum einen Fälle, in denen Strukturen von Wiedergabe verwendet werden, um andere Funktio-
306 | 13 Schlussbetrachtung nen erfüllen – etwa im Fall von Höflichkeitsfloskeln (Attribut prag) oder metaphorischen Ausdrücken (Attribut metaph). Im weiteren Sinne kann man auch nicht-faktische Wiedergaben (Attribut non-fact) zu diesem Typ rechnen, da hier die Funktion ebenfalls nicht darin besteht, stattgefundene Äußerungen wiederzugeben. Zum anderen gibt es Fälle, in denen es definitions- oder interpretationsabhängig ist, ob eine Sprach-, Denk- oder Schreibhandlung vorliegt (Attribute border und narr). Unsicherheiten in diesen Bereichen sind bei der Beschreibung von Gedankenwiedergabe deutlich häufiger als bei der Wiedergabe von Rede oder Geschriebenem. Zudem treten sie vor allem bei den Kategorien indirekte und erzählte Wiedergabe auf. Für die Untersuchung von Wiedergabe ist es wichtig zu entscheiden, wie mit den einzelnen Typen von Grenzfällen zu verfahren ist, da sich insbesondere für indirekte und erzählte Wiedergabe deutlich andere Befunde zur Häufigkeit und Verteilung ergeben können, je nachdem welche davon als positive Fälle gewertet werden. Im Rahmen der Studie wurde grundsätzlich eine großzügige Definition von Wiedergabe verwendet, die alle Grenzfälle mit einschließt. Um die Auswirkungen abzuschätzen, die eine Veränderung der Definition auf die Erkennungsrate hat, wurde jedoch ein Test durchgeführt, der Grenzfälle ausschließt und damit die Menge der als Wiedergabe klassifizierten Instanzen verringert. Die Ergebnisse zeigen eine durchgehende Verschlechterung der Erkennungsrate, was darauf hindeutet, dass es für die automatischen Methoden schwer ist, funktional unsichere von prototypischen Fällen zu trennen. Allerdings ist hier auch anzumerken, dass die automatischen Methoden – insbesondere die regelbasierten – auf die großzügige Erkennung hin entwickelt worden sind. Wenn eine restriktivere Erkennung erwünscht ist, wären durch gezielte Anpassungen Verbesserungen möglich.
13.1.3 Merkmale von Wiedergabe Die manuelle Annotation und ihre Auswertung ergaben zudem folgende Beobachtungen zu den typischen Kennzeichen der Wiedergabetypen: Direkte und freie indirekte Wiedergaben umfassen meist vollständige Sätze und tendieren dazu, in mehreren Sätzen hintereinander aufzutreten. Indirekte und erzählte Wiedergaben hingegen sind normalerweise kürzer als ein Satz und treten überdurchschnittlich häufig eingebettet in andere – meist direkte – Wiedergaben auf. Ihre Abgrenzung vom Erzählertext kann recht schwierig sein, und sie weisen viele funktional-semantische Grenzfälle auf. Für beide Formen spielen lexikalische Elemente, deren Semantik auf eine Sprach-, Denk- oder Schreibhandlung verweist, eine wichtige Rolle. Was die Häufigkeitsverteilung angeht, so schwankt der Anteil von direkter Wiedergabe stark von Text zu Text. Dies gilt vermutlich auch für freie
13.2 Automatische Annotation
| 307
indirekte Wiedergabe, wobei diese im Erzähltextkorpus zu schwach vertreten ist, um eindeutige Schlüsse zu ziehen. Indirekte und erzählte Wiedergabe sind insgesamt seltener als direkte, aber gleichmäßiger verteilt.
13.2 Automatische Annotation 13.2.1 Überblick und Auswertungsstragien Im Rahmen der automatischen Annotation wurden zwei Arten von Verfahren erprobt, verglichen und kombiniert. Die regelbasierten Verfahren arbeiten mit explizit formulierten Regeln und formalisieren Wissen über die Besonderheiten der Wiedergabetechniken, das in der Forschung vorhanden ist. Die maschinellen Lernverfahren bauen durch die Verallgemeinerung exemplarischer Fälle Heuristiken auf, wobei die manuellen Annotationen als Trainingsmaterial verwendet wurden. Grob lässt sich sagen, dass direkte Wiedergabe am besten automatisch erfassbar ist, mit deutlichem Abstand zu den anderen drei Formen. Die zweitbesten Ergebnisse waren bei indirekter Wiedergabe zu verzeichnen, gefolgt von erzählter und schließlich freier indirekter Wiedergabe. Auch bei den schwierigsten Formen konnten jedoch Erfolge erzielt werden, die darauf hinweisen, dass die automatische Erkennung zu verwertbaren Ergebnissen führen kann. Die Auswertung der automatischen Annotation ist selbst eine analytische Aufgabe, und was als Erfolg gewertet werden sollte, ist in hohem Maße abhängig von dem angestrebten Erkenntnisinteresse. Die Studie demonstriert dies durch die Anwendung und den Vergleich verschiedener Auswertungsmethoden. Insbesondere wird unterschieden zwischen der Korrektheit der Ergebnisse, die mit den Maßen Precision, Recall und F-Score gemessen wird, und der Stabilität der Erfolgsrate, die mit Hilfe der Standardabweichung zwischen den F-Scores für die Einzeltexte untersucht wird. Eine hohe Stabilität ist wichtig um abzuschätzen, wie gut der Erkenner auf einem unbekannten Text funktionieren wird. Zudem wurde untersucht, wie gut sich die relativen Anteile von Wiedergabe in einzelnen Texten mit Hilfe automatischer Verfahren vorhersagen lassen. Hier wurde zum einen der durchschnittliche absolute Fehler bei der Vorhersage betrachtet und zum anderen die Korrelation zwischen der realen Verlaufskurve der Anteile über mehrere Texte hinweg und der von den automatischen Methoden vorausgesagten Verlaufskurve. Das Maß der Korrelation ist besonders interessant, wenn man vergleichende Untersuchungen auf Grundlage der Ergebnisse der automatischen Erkennung durchführen will: Ein hoher Wert deutet darauf hin, dass sich Rück-
308 | 13 Schlussbetrachtung schlüsse auf die tatsächliche Entwicklung der Anteile ziehen lassen, selbst wenn die Einzelergebnisse der automatischen Erkennung ungenau sind. Für alle Wiedergabetypen wurden nicht nur die Erfolge der regelbasierten Methoden und des maschinellen Lernens einzeln ausgewertet, sondern auch die für die Vereinigungsmenge und die Schnittmenge aus den Ergebnismengen der beiden Methoden. Im Folgenden werden die wichtigsten Aspekte der Auswertung für jeden Typ zusammengefasst. Bei den Aussagen zu den Ergebnissen des maschinellen Lernens ist zu beachten, dass diese für die Auswertung auf Daten angewendet wurden, die denen, auf denen sie trainiert wurden, recht ähnlich sind. Es wurde nicht überprüft, wie gut die Methoden funktionieren, wenn sie Texte bearbeiten sollen, bei denen dies nicht der Fall ist.
13.2.2 Direkte Wiedegabe Bei direkter Wiedergabe spielt die Frage, ob Anführungszeichen zur Markierung konsistent verwendet werden, eine große Rolle. Es ist keineswegs selbstverständlich, dass dies der Fall ist, da die Konventionen der Markierung direkter Wiedergabe nicht nur einem historischen Wandel unterliegen, sondern auch von Autoren und Verlegern sehr individuell gehandhabt werden. Ist eine normierte Markierung durch Anführungszeichen vorhanden, kann mit Hilfe regelbasierter Methoden eine sehr genaue Erkennung mit Erfolgsraten von nahezu 100 % geleistet werden. Beim Erzähltextkorpus, das sowohl Instanzen mit als auch ohne Anführungszeichen enthält, erweist sich jedoch die Erkennung mit Hilfe von maschinellem Lernen als überlegen: Sie erreicht mit 0,87 den maximalen F-Score für das Gesamtkorpus und produziert die geringste Standardabweichung für die F-Scores der Einzeltexte. Noch deutlicher ist ihre Überlegenheit bei der Betrachtung der relativen Anteile von Wiedergabe, wo mit maschinellem Lernen nicht nur ein deutlich geringerer absoluter Fehler, sondern vor allem eine sehr viel bessere Korrelation als mit regelbasierten Methoden erzielt wird. Zudem wurde festgestellt, dass maschinelles Lernen immer noch gute Ergebnisse liefern kann (F-Score von 0,81), wenn der unsichere Indikator Anführungszeichen überhaupt nicht einbezogen wird. Von dieser Abwandlung profitieren jedoch nur Texte, die tatsächlich überhaupt keine Anführungszeichen verwenden. Maschinelles Lernen ist also vielleicht nicht für jedes Korpus die genauste, aber die verlässlichste Erkennungsmethode für direkte Wiedergabe und auf jeden Fall bei Texten zu empfehlen, bei denen die Markierung von direkter Wiedergabe nicht normiert ist.
13.2 Automatische Annotation
| 309
13.2.3 Indirekte Wiedegabe Indirekte Wiedergabe ist der Wiedergabetyp, der am stärksten formal definiert und am besten mit strukturell-grammatischen Regeln fassbar ist. Es ist somit nicht erstaunlich, dass bei diesem Wiedergabetyp die regelbasierten Methoden einen deutlichen Vorsprung haben, was die Korrektheit der Erkennung angeht: Es kann ein F-Score von 0,71 erzielt werden, und auch die Standardabweichung ist bei dieser Methode gering. Betrachtet man die Korrelation der relativen Anteile, so ist maschinelles Lernen auf Satzbasis zwar leicht überlegen, doch die Ergebnisse für die unterschiedlichen Methoden liegen insgesamt eng beieinander. Für indirekte und erzählte Wiedergabe wurde allerdings zusätzlich maschinelles Lernen auch auf der Basis von Satzabschnitten statt auf der Basis von Sätzen durchgeführt, da Instanzen dieser beiden Wiedergabetypen normalerweise kürzer als ein Satz sind. Bei indirekter Wiedergabe ergibt sich hier ein überraschender Befund: Obgleich die Genauigkeit bei der Erkennung mit maschinellem Lernen auf der Basis von Satzabschnitten die schlechteste ist und der Anteil an Wiedergabe wesentlich zu hoch geschätzt wird, ist die Korrelation zwischen den vorausgesagten und den realen Anteilen deutlich besser als bei allen anderen Methoden.
13.2.4 Erzählte Wiedegabe Erzählte Wiedergabe ist ein Wiedergabetyp, der in der Forschung verhältnismäßig wenig Aufmerksamkeit erfahren hat und formal sehr divers ist. Die Erkennung erfolgt schwerpunktmäßig über Wiedergabewörter, also auf einer lexikalischen Ebene. Bei diesem Wiedergabetyp erreicht die Vereinigungsmenge der beiden Methoden den besten F-Score, 0,58, dicht gefolgt von der regelbasierten Erkennung. Letztere weist eine gute Stabilität auf, nur noch übertroffen von der Erkennung mit maschinellem Lernen auf Satzabschnittsbasis, das sich, wie schon bei indirekter Wiedergabe, als ungenau, aber sehr stabil erweist. Was die Voraussage der relativen Anteile angeht, so liefern die beiden maschinellen Erkennungmethoden sowohl den geringsten Fehler als auch die beste Korrelation, wobei ihre Werte eng zusammen liegen. Bei erzählter Wiedergabe zeigen sich also ähnliche Trends wie bei indirekter Wiedergabe: Regelbasiertes Lernen erweist sich als gut, wenn es um die Genauigkeit der Erkennung geht, maschinelle Lernmethoden – in diesem Fall sowohl auf Satz- als auch auf Satzabschnittsbasis – sind vorteilhaft, wenn es um die Vorhersage der relativen Anteile geht. Jedoch sind bei erzählter Wiedergabe die Ergebnisse der verschiedenen Methoden ähnlicher, so dass es schwierig ist, von klaren Favoriten zu sprechen.
310 | 13 Schlussbetrachtung 13.2.5 Freie indirekte Wiedegabe Freie indirekte Wiedergabe schließlich ist der Wiedergabetyp, der sich am schwersten in Regeln fassen lässt, da er keine Indikatoren besitzt, die häufig, stabil und eindeutig genug sind. Das regelbasierte Modul wurde in diesem Fall nur wenig ausgearbeitet, auch deswegen, weil die dort verwendeten Strategien selbst schon stark in die Richtung einer heuristischen Abschätzung gehen, die mit maschinellem Lernen schneller und besser geleistet werden kann. Bei diesem Wiedergabetyp ist das maschinelle Lernen eindeutig überlegen und erreicht einen F-Score von immerhin 0,40. Die Korrelation zwischen den vorausgesagten und den realen relativen Anteile ist zudem bei maschinellem Lernen sehr gut. Da freie indirekte Wiedergabe im Korpus nur wenig vertreten ist und sich stark auf einen Text konzentriert, sind die Ergebnisse für diesen Wiedergabetyp am wenigsten verlässlich. Trotzdem deuten sie darauf hin, dass zumindest eine grobe automatische Erkennung umsetzbar ist. Es wurde zudem ein Ansatz vorgestellt, der die Ähnlichkeiten zwischen freier indirekter und direkter Wiedergabe ausnutzt und Instanzen direkter Wiedergabe als Trainingsmaterial für die Erkennung freier indirekter Wiedergabe verwendet. Auf diese Weise kann ein deutlich verbesserter Recall erzielt werden, jedoch müssten weitere Experimente durchgeführt werden, um das damit einhergehende Absinken der Precision in den Griff zu bekommen.
13.2.6 Gesamtbewertung Zusammenfassend lässt sich sagen, dass regelbasierte Methoden zwar bei direkter, erzählter und vor allem indirekter Wiedergabe Vorteile bringen können, was die Korrektheit der Erkennung angeht, jedoch maschinelle Lernverfahren bei der Korrelation der relativen Anteile immer am besten abschneiden. Es scheint, als wären diese Methoden dann zu bevorzugen, wenn man vor allem an groben Verlaufslinien interessiert ist. Was die Vereinigungs- bzw. Schnittmenge der Ergebnisse der beiden Methoden angeht, so ist eindeutig, dass die Vereinigung der Ergebnismengen den Recall verbessert, also nützlich ist, wenn es darum geht, möglichst viele Instanzen zu finden. Die Verwendung der Schnittmenge hingegen verbessert die Precision, was dazu führt, dass die gefundenen Ergebnisse mit höherer Wahrscheinlichkeit korrekt sind. Ist man an einem dieser Ziele besonders interessiert, sind diese Strategien empfehlenswert. In der Gesamtbetrachtung jedoch bringen Vereinigungs- und Schnittmenge für das Erzähltextkorpus keine auffallenden Erfolge. Für weiterfüh-
13.2 Automatische Annotation
|
311
rende Forschungen wäre es interessant, ausgefeiltere Kombinationsmöglichkeiten der beiden Erkennungmethoden auszuloten. Alle im Rahmen dieser Studie angewendeten Erkennungsmethoden sind als Prototypen zu verstehen und können auf vielerlei Arten optimiert werden. Eine zentrale Rolle bei der Erkennung nimmt die Wiedergabewortliste ein. Diese Zusammenstellung von Verben und Nomen, die mit Wiedergabe assoziiert sein können, ist bei der regelbasierten Erkennung von indirekter und erzählter Wiedergabe ein integraler Bestandteil. Auch Rahmenformeln, die ein Indikator für die direkte Wiedergabe sind, können mit ihrer Hilfe identifiziert werden. Beim maschinellen Lernen fließt der Anteil an Wiedergabewörtern in mehrere Attribute ein, was die Ergebnisse für indirekte und erzählte Wiedergabe maßgeblich verbessert. Insofern wären Ausbau und Verfeinerung der Wiedergabewortliste besonders lohnende Ansatzpunkte zur Verbesserung der automatischen Erkennung mit beiden Methoden. Bei den regelbasierten Methoden ist zu vermuten, dass eine komplexere Vorverarbeitung der Texte mit syntaktischer Annotation und Anreicherung mit grammatischen Informationen sowie darauf aufbauende komplexere Regeln zumindest die Korrektheit der Erkennung verbessern könnten. Dies gilt vor allem für indirekte Wiedergabe und mit hoher Wahrscheinlichkeit auch für erzählte und direkte. Wie groß das Verbesserungspotential in Relation zum Aufwand ist und wie sehr es sich auf die Stabilität und die Korrelation der relativen Anteile auswirkt, wäre zu untersuchen. Bei der Erkennung mit maschinellem Lernen gibt es ebenfalls verschiedene Ansätze zur Optimierung. Auch wenn sich der in dieser Studie verwendete Algorithmus RandomForest als recht tauglich erweisen hat, sind weitere Experimente zur Auswahl des Lernalgorithmus und dessen Konfiguration denkbar. Zudem könnten weitere Möglichkeiten getestet werden, um die ungünstige Häufigkeitsverteilung zwischen Instanzen, die Wiedergabe enthalten, und solchen, die keine enthalten, auszugleichen. Potential liegt auch in einer gezielten Anpassung der verwendeten Attribute auf den zu erkennenden Wiedergabetyp, wobei bekannten Indikatoren mehr Gewicht gegeben werden könnte. In jedem Fall profitiert das maschinelle Lernen immer von mehr Trainingsmaterial, das die Klassifizierung verlässlicher macht. Die im Rahmen dieser Studie verwendeten Module und Funktionen sind alle konkret implementiert und gebrauchsfähig. Es wurde darauf geachtet, sie robust und voraussetzungsarm zu gestalten, um eine allgemeine Anwendbarkeit zu gewährleisten. Wo keine Eigenentwicklungen vorliegen, wurden ausschließlich frei verfügbare Komponenten verwendet. Das maschinelle Lernen wurde mit der Statistiksoftware R durchgeführt und die regelbasierten Module sind kompatibel mit dem etablierten GATE Framework.
312 | 13 Schlussbetrachtung
13.3 Forschungsperspektiven Im Folgenden sollen knapp zwei konkrete Forschungsperspektiven umrissen werden, die sich aus den Ergebnissen dieser Studie ergeben. Zum einen bietet sich, basierend auf den dargestellten Voruntersuchungen, eine gezieltere Behandlung der Erkennung freier indirekter Wiedergabe an. Dies wäre insbesondere deswegen lohnenswert, weil freie indirekte Wiedergabe auch bei menschlichen Interpreten als extrem schlecht zu fassender Wiedergabetyp gilt. Eine computergestützte Annäherung könnte möglicherweise zur Klärung narratologischer Fragestellungen zur Natur dieser Form beitragen. Freie indirekte Wiedergabe ist der Wiedergabetyp, der auf Basis des Erzähltextkorpus am schlechtesten untersucht werden konnte. Zwar enthalten insgesamt 5 der 13 Texte entsprechende Instanzen, allerdings konzentrieren sich die meisten Fälle auf einen einzigen Text, was bei maschinellem Lernen problematisch ist, da die Gefahr besteht, dass Charakteristika des Autorenstils statt des Wiedergabetyps erlernt werden. Darum wäre es notwendig, für dieses Forschungsvorhaben ein neues Korpus zu erstellen, das gezielt unterschiedliche Texte mit Beispielen für freie indirekte Wiedergabe enthält. Auf dieser Basis könnte dann untersucht werden, ob das maschinelle Lernen weiterhin tragfähige Ergebnisse liefert, und die Strategie, Instanzen direkter Wiedergabe als Trainingsmaterial zu nutzen, könnte weiter ausgelotet werden. Eine wichtige Forschungsperspektive liegt natürlich in der konkreten Nutzung der entwickelten Methoden zur Behandlung literaturwissenschaftlicher Fragestellungen. Wie bereits in der Einleitung angedeutet, eröffnet die automatische Erkennung die Möglichkeit, die Entwicklung und Verbreitung verschiedener Wiedergabetechniken im historischen Kontext auf einer breiten Textbasis zu untersuchen. Voraussetzung dazu wäre zunächst die Zusammenstellung eines Korpus, das einen Querschnitt narrativer Texte aus verschiedenen Zeitepochen enthält. Da es sich bei einem solchen Projekt um eine vergleichende Betrachtung handeln würde, wären die Stabilität der Erkennung und eine gute Korrelation zwischen den Anteilen, die die automatische Erkennung voraussagt, und den realen Anteilen besonders wichtig. Folglich würden maschinelle Lernverfahren eine dominante Rolle spielen, möglicherweise unterstützt durch Elemente regelbasierter Erkennung. Bei der Erkennung mit Hilfe maschineller Lernverfahren können die statistischen Modelle verwendet werden, die auf den Daten des Erzähltextkorpus trainiert wurden. Denkbar wäre aber auch, ein Trainingskorpus zu erstellen, das den zu untersuchenden Texten möglichst ähnlich ist, und den Lernalgorithmus daran neu zu trainieren. Dies ist insbesondere anzuraten, wenn das Untersuchungskorpus in sich homogen ist und sich deutlich von den Texten des Erzähltextkorpus
13.4 Die Studie als Beispiel quantitativer Literaturwissenschaft
| 313
unterscheidet. In diesem Zuge wäre es auch sinnvoll, die manuelle Annotation auf den gewünschten Grad der Genauigkeit anzupassen. Die Verlaufskurven, die auf diese Art für die historischen Texte vorausgesagt würden, könnten in Beziehung gesetzt werden zu existierenden Theorien über die Verbreitung und Entwicklung verschiedener Wiedergabetypen. So könnten literaturwissenschaftliche Thesen überprüft und auf Grundlage einer sehr viel breiteren empirischen Basis bestätigt oder modifiziert werden.
13.4 Die Studie als Beispiel quantitativer Literaturwissenschaft Die Studie exemplifiziert ein typisches Vorgehen quantitativer Literaturwissenschaft: Der Ausgangspunkt sind Konzepte, die in der Literaturwissenschaft und Linguistik entwickelt wurden und die insbesondere für die Narratologie Relevanz haben. Die Erkennung von Wiedergabe kann auch in anderen Kontexten nützlich sein (z.B. für die Wissensextraktion bei nicht-literarischen Texten), doch der narratologische Fokus führte dazu, dass auch Aspekte beachtet wurden, die sonst oft vernachlässigt werden, wie die Formen erzählte und freie indirekte Wiedergabe, sowie die Anwendung der Methoden auf historische Texte. Im ersten Schritt, der manuellen Annotation des Erzähltextkorpus, ging es darum, die vorhandenen Ideen aufzunehmen und zu systematisieren. Die Annotation des Erzähltextkorpus erzwang eine präzisere Definition der verwendeten Kategorien und eine genaue, oberflächenbezogene Beschäftigung mit konkreten literarischen Texten. Sie hat eine andere Qualität als traditionelle textnahe Untersuchungen, da sie den Annotator zwingt, sich auch mit dem ‚normalen‘ Fällen auseinanderzusetzen, die aufgrund ihrer Unmarkiertheit oft wenig Beachtung finden. Gleichzeitig mussten die Kategoriensysteme überdacht werden und v.a. die zahlreichen Grenzfälle wurden sichtbar, die zeigten, dass auch scheinbar sehr klare Phänomene in der realen Verwendung schwer abgrenzbar sein können. Der Annotationsprozess selbst führte darum zu einem besseren Verständnis des Phänomens Wiedergabe, auch im narratologischen Sinne. Die quantitativen Verteilungen, die als Ergebnis der manuellen Annotation sichtbar wurden, sind ein weiterer Erkenntnisgewinn. Im zweiten Schritt, der automatische Annotation, wurde gezeigt, inwieweit relativ einfache, heuristische Methoden eine Annäherung an das narratologische Phänomen erlauben. Zudem wurde deutlich, dass automatische Methoden auch explorativ angewendet werden können und dadurch zu neuen Erkenntnissen verhelfen. Ich verweise hier auf die beiden Kurzstudien, zum einen zur Verwendung
314 | 13 Schlussbetrachtung von Wiedergabewörtern und zum anderen zur Attributbewertung des maschinellen Lernens, die empirische Hinweise auf Merkmale der unterschiedlichen Wiedergabetechniken gaben. Auch wenn solche explorativen Ansätze kein Schwerpunkt dieser Studie waren, demonstriert dies doch, dass automatische Methoden nicht nur Arbeitserleichterung bringen, sondern auch dazu beitragen können, mehr über die Sprachbausteine zu lernen, aus denen Literatur sich letztendlich zusammensetzt. Bei der Darstellung der verwendeten Werkzeuge wie automatisches Tagging, Mustersuche und maschinelles Lernen wurde deutlich, dass auch quantitative und computergestützte Verfahren auf menschlichen Annahmen und Festlegungen beruhen und darum nur bedingt als ‚objektiv‘ bezeichnet werden können. Sie verlangen stets den wertenden Blick des Menschen, vor allem wenn es darum geht, tatsächliche interpretatorische oder theoriebildenden Rückschlüsse zu ziehen. Die automatische Erkennung wird sicherlich nie fehlerfrei sein, auch wenn die in dieser Studie vorgestellten Methoden noch deutlich verfeinert werden. Quantitative Ansätze öffnen jedoch den Horizont der möglichen Untersuchungen auf eine neue Weise und erlauben einen wesentlich weiteren Fokus als jemals zuvor. Für ihre kompetente Nutzung sind zwei Dinge nötig: ein Verständnis der Methodik und ein Verständnis des Untersuchungsgegenstandes. Text- und Interpretationsarbeit wird also nicht obsolet. Wie zu Anfang gesagt: Computer sind nicht mehr und nicht weniger als neue Werkzeuge – aber mächtige Werkzeuge, die wir zur die Erweiterung unserer Forschungsmöglichkeiten nutzen sollten.
A Anhang A.1 Grundlagen für die Texte des Erzähltextkorpus Tab. A.1. Grundlagen für die digitalen Versionen der Texte des Erzähltextkorpus Kurztitel
Grundlage der digitalen Version
Musäus: rung
Entfüh-
Musäus, J. K. A. (1976). Volksmärchen der Deutschen. Nach dem Text der Erstausgabe von 1782-1786. Winkler-Verlag, München.
Bürger: hausen
Münch-
Bürger, G. A. (1976). Wunderbare Reisen zu Wasser und zu Lande. Feldzüge und lustige Abenteuer des Freiherrn von Münchhausen, wie er dieselben bei der Flasche im Zirkel seiner Freunde selbst zu erzählen pflegt. Insel-Verlag, Frankfurt a. M.
Tieck: Eckbert
Tieck, L. (1967). Werke in einem Band. Mit einem Nachwort von Richard Alewyn. Hoffmann und Campe, Hamburg.
Günderrode: Bramine
von Günderode, K. (1922). Gesammelte Werke, Band 2. Bibliophiler Verlag von O. Goldschmidt-Gabrielli, Berlin-Wilmersdorf.
Kleist: Erdbeben
von Kleist, H. (1978). Werke und Briefe in vier Bänden, Band 1. Aufbau, Berlin/Weimar.
Bernhardi: Belinde
Bernhardi, S. (1823). Wunderbilder und Träume. UniversitätsBuchhandlung, Königsberg, 2. Auflage.
Hauff: Kalif
Hauff, W. (1970a). Sämtliche Werke in drei Bänden. Nach den Originaldrucken und Handschriften, Band 2 (Märchen, Novellen). Winkler-Verlag, München.
Hebbel: Kuh
Hebbel, F. (1965). Werke, Band 3. Carl Hanser Verlag, München.
May: Ziege
May, K. (1974). Erstdruck Karl Mays in Faksimile-Ausgaben. Serie VII: Beiträge in der Zeitschrift „Weltspiegel“ (1877–1879). KarlMay-Gesellschaft, Hamburg.
Schnitzler: Ypsilon
Schnitzler, A. (1961a). Gesammelte Werke. Die Erzählenden Schriften, Band 1. S. Fischer Verlag, Frankfurt a. M.
Janitschek: Weib
Janitschek, M. (1902). Die neue Eva. Hermann Seemann Nachfolger, Leipzig.
Heym: Irre
Heym, G. (1962). Dichtungen und Schriften. Gesamtausgabe, Band 2 (Prosa und Dramen). Verlag Heinrich Ellermann, Hamburg.
Kafka: Gracchus
Kafka, F. (1950-1974). Gesammelte Werke, Band 8. S. Fischer Verlag, Frankfurt a. M.
316 | A Anhang
A.2 Das Digitale-Bibliothek-Korpus Das zur Extraktion von Wiedergabewörtern verwendete Korpus besteht aus zwei Bänden der Digitalen Bibliothek: – Digitale Bibliothek Bd. 1: Deutsche Literatur von Lessing bis Kafka, herausgegeben von Mathias Bertram (Texte von 108 Autoren) – Digitale Bibliothek Bd. 45: Deutsche Literatur von Frauen. Von Catharina von Greiffenberg bis Franziska Gräfin von Reventlow, herausgegeben von Mark Lehmstedt (Texte von 62 Schriftstellerinnen vom Barock bis zum ersten Drittel des 20. Jahrhunderts) Das Korpus enthält insgesamt 1321 Einzeltexte (Erzähltexte, Aufsätze, Gedichte, Dramen) und umfasst ca. 44.760.000 Tokens. Die Texte sind unter den Korpussiglen dgb01 und dgb45 als Teil des Archiv der historischen Korpora (HIST) im Deutschen Referenzkorpus des Instituts für Deutsche Sprache verfügbar (vgl. Institut für Deutsche Sprache 2012; Kupietz et al. 2010).
A.3 Das Literatur-Korpus A.3.1 Zusammensetzung Das Literatur-Korpus ist eine Zusammenstellung literarischer Texte aus dem Deutschen Referenzkorpus des Instituts für Deutsche Sprache (vgl. Institut für Deutsche Sprache 2012; Kupietz et al. 2010). Es wurde mit Hilfe des Korpusrechercheprogramms COSMAS II (Institut für Deutsche Sprache 2015) zusammengestellt und umfasst 1754 Einzeltexte und insgesamt ca. 11.800.000 Tokens. Wesentliche Bestandteile sind: – Werke von Johann Wolfgang von Goethe (Sigle: GOE) – Werke von Thomas Mann (Sigle: THM) – Werke von Siegfried Lenz (Sigle: LES) – Werke von Stefan Heym (Sigle: HES) – Werke von Martin Walser (Sigle: WAM) – Sagen, Kinder und Hausmärchen der Gebrüder Grimm (Sigle: GRI) – Verschiedene Einzelwerke des 20. und v.a. 21. Jahrhunderts (Siglen: DIV, GR1)
A.3 Das Literatur-Korpus
| 317
A.3.2 Bibliographische Angaben für die zitierten Belege Die Angaben entsprechen den Nachweisen, die das Korpusrechercheprogramm COSMAS II (Institut für Deutsche Sprache 2015) liefert, und enthalten auch die Korpussiglen. – Friedrich: Dates: DIV/OFM.00001 Friedrich, Olaf: Meine Dates, meine Frauen und ich ... Föritz, 2006. – Grimm: Märchen: GRI/KHM.00177 Die Lebenszeit, (Erstv. 1819), In: Kinderund Hausmärchen, gesammelt von Jacob und Wilhelm Grimm. München, 1978. – Heym, S.: Nachruf : HES/NRU.00000 Heym, Stefan: Nachruf, [autobiographischer Roman], (Erstv. 1988). München, 1992. – Kohnen: Geheimnis: DIV/JKG.00001 Kohnen, Hermann J.: Das Geheimnis der Reges Sancti. Föritz, 2003. – Lange: Via: DIV/HLV.00001 Lange, Helge: Via Astra. Föritz, 2003. – Lenz: Duell: LES/DMS.00000 S. Lenz: Duell mit dem Schatten. Roman, (Erstv. 1953), In: Werkausgabe in Einzelbänden, Bd. 2. Hamburg, 1996. – Lenz: Fest: LES/HOR.18001 S. Lenz: Das schönste Fest der Welt, [Hörspiel], (Erstv. 1967), In: Werkausgabe in Einzelbänden, Bd. 18. Hamburg, 1998. – Mann: Buddenbrooks: THM/AMB.00000 T. Mann: Buddenbrooks, [Roman], (1. Buchausg. 1901), In: [Gesammelte Werke in zwölf Bänden mit einem Ergänzungsband], Bd. 1. Frankfurt a.M., 1960. – Mann: Friedemann: THM/AME.01387 T. Mann: Der kleine Herr Friedemann, [Erzählung], (Erstv. 1897), In: [Gesammelte Werke in zwölf Bänden mit einem Ergänzungsband], Bd. 8. Frankfurt a.M., 1960. – Muschg: Glück: DIV/AMS.00000 Muschg, Adolf: Sutters Glück, (Erstv. 2001). Frankfurt a.M., 2003. – Planert: Seleno: DIV/APS.00001 Planert, Angela: Seleno. Föritz, 2006. – Ripperger: Rückblicke: DIV/IRR.00001 Ripperger, Irene: Rückblicke. Föritz, 2005. – Schlink: Vorleser: DIV/SBV.00000 Schlink, Bernhard: Der Vorleser. Zürich, 1995. – Walser: Brandung: WAM/BRA.00000 Walser, Martin: Brandung. Frankfurt a.M., 1985. – Walser: Kindheit: WAM/DVD.00000 Walser, Martin: Die Verteidigung der Kindheit. Frankfurt a.M., 1991. – Wittelsbach: Marc: DIV/KWM.00001 Wittelsbach, Klaus: Marc Marée. Föritz, 2003.
318 | A Anhang
A.4 Das Stuttgart-Tübingen-Tagset Die folgende Tabelle ist zitiert nach Schiller et al. 1999, 6f. Der Tag PAV (Pronominalabverb) heißt in der Version des TreeTaggers, die zur Annotation des Erzähltexkorpus verwendeten wurde, PROAV. Tab. A.2. Das Stuttgart-Tübingen Tagset POS
Beschreibung
Beispiele
ADJA
attributives Adjektiv
[das] große [Haus]
ADJD
adverbiales oder prädikatives Adjektiv
[er fährt] schnell, [er ist] schnell
ADV
Adverb
schon, bald, doch
APPR
Präposition; Zirkumposition links
in [der Stadt], ohne [mich]
APPRART
Präposition mit Artikel
im [Haus], zur [Sache]
APPO
Postposition
[ihm] zufolge, [der Sache] wegen
APZR
Zirkumposition rechts
[von jetzt] an
ART
bestimmter oder unbestimmter Artikel
der, die, das, ein, eine
CARD
Kardinalzahl
zwei [Männer], [im Jahre] 1994
FM
Fremdsprachliches Material
[Er hat das mit „] A big fish [“ übersetzt]
ITJ
Interjektion
mhm, ach, tja
KOUI
unterordnende Konjunktion mit „zu“ und Infinitiv
um [zu leben], anstatt [zu fragen]
KOUS
unterordnende Konjunktion mit Satz
weil, daß, damit, wenn, ob
KON
nebenordnende Konjunktion
und, oder, aber
KOKOM
Vergleichspartikel, ohne Satz
als, wie
NN
Appellativa
Tisch, Herr, [das] Reisen
NE
Eigennamen
Hans, Hamburg, HSV
PDS
substituierendes Demonstrativpronomen
dieser, jener
PDAT
attribuierendes pronomen
jener [Mensch]
Demonstrativ-
A.4 Das Stuttgart-Tübingen-Tagset
| 319
PIS
substituierendes Indefinitpronomen
keiner, viele, man, niemand
PIAT
attribuierendes Indefinitpronomen ohne Determiner
kein [Mensch], irgendein [Glas]
PIDAT
attribuierendes Indefinitpronomen mit Determiner
[ein] wenig [Wasser], [die] beiden [Brüder]
PPER
irreflexives Personalpronomen
ich, er, ihm, mich, dir
PPOSS
substituierendes Possessivpronomen
meins, deiner
PPOSAT
attribuierendes Possessivpronomen
mein [Buch], deine [Mutter]
PRELS
substituierendes men
[der Hund,] der
Relativprono-
PRELAT
attribuierendes Relativpronomen
[der Mann,] dessen [Hund]
PRF
reflexives Personalpronomen
sich, einander, dich, mir
PWS
substituierendes Interrogativpronomen
wer, was
PWAT
attribuierendes Interrogativpronomen
welche [Farbe], wessen [Hut]
PWAV
adverbiales Interrogativ- oder Relativpronomen
warum, wo, wann, worüber, wobei
PAV
Pronominaladverb
dafür, dabei, deswegen, trotzdem
PTKZU
„zu“ vor Infinitiv
zu [gehen]
PTKNEG
Negationspartikel
nicht
PTKVZ
abgetrennter Verbzusatz
[er kommt] an, [er fährt] rad
PTKANT
Antwortpartikel
ja, nein, danke, bitte
PTKA
Partikel bei Adjektiv oder Adverb
am [schönsten], zu [schnell]
TRUNC
Kompostitions-Erstglied
An- [und Abreise]
VVFIN
finites Verb, voll
[du] gehst, [wir] kommen [an]
VVIMP
Imperativ, voll
komm [!]
VVINF
Infinitiv, voll
gehen, ankommen
VVIZU
Infinitiv mit „zu“, voll
anzukommen, loszulassen
VVPP
Partizip Perfekt, voll
gegangen, angekommen
VAFIN
finites Verb, aux
[du] bist, [wir] werden
320 | A Anhang VAIMP
Imperativ, aux
sei [ruhig]!
VAINF
Infinitiv, aux
werden, sein
VAPP
Partizip Perfekt, aux
gewesen
VMFIN
finites Verb, modal
dürfen
VMINF
Infinitiv, modal
wollen
VMPP
Partizip Perfekt, modal
[er hat] gekonnt
XY
Nichtwort, Sonderzeichen enthaltend
D2XW3
$,
Komma
,
$.
satzbeendende Interpunktion
.?!;:
$(
sonstige Satzzeichen; satzintern
- [] ()
A.5 Zufallseffekte beim Lernen mit Random Forest, Resampling und Kreuzvalidierung Bei der Lernprozedur, die in Abschnitt 11.6 beschrieben wird, gibt es mehrere Stellen, an denen Zufallsfaktoren eine Rolle spielen. Dies sind: – Kreuzvalidierung: Bei der Aufteilung der Daten wird nur darauf geachtet, dass die Anteile der Klassen in allen Paketen gleich sind. Welche konkrete Instanz welchem Paket zugeordnet wird, wird per Zufall bestimmt. Darum kann die Zusammensetzung von Trainings- und Testdaten bei mehrfacher Durchführung der Prozedur variieren, so dass die Modelle unter unterschiedlichen Bedingungen erstellt und ausgewertet werden. – Resampling: Beim Resampling wurde versucht, die Zufallsfaktoren klein zu halten, indem zunächst so oft wie möglich die kleinere Klasse in ihrer Gesamtheit vervielfacht wird. Um jedoch am Ende die gleiche Gruppengröße wie für die größere Klasse zu erreichen, werden nach dem Zufallsprinzip weitere Instanzen ausgewählt. Die Zusammensetzung der vergrößerten Datenmenge kann also variieren. – RandomForest: Der RandomForest-Algorithmus selbst verwendet Zufallsfaktoren an zwei Stellen: Zum einen wird für den Aufbau jedes Baumes eine zufällige Untermenge der Daten verwendet. Zum anderen wird an jedem Knoten eine festgelegte Menge von Attributen zufällig aus der Gesamtmenge der Attribute ausgewählt, von denen dann das Beste verwendet wird. Unter diesen Umständen stellt sich die Frage, wie stabil die Ergebnisse für das maschinelle Lernen sind, die in Abschnitt 11 präsentiert werden. Hierzu werden an dieser Stelle ein paar Tests vorgestellt.
A.5 Zufallseffekte beim Lernen A.5 Zufallseffekte beim Lernen mit Random Forest, Resampling und Kreuzvalidierung
| 321 321
Die Skripte in R, die für die Analysen entwickelt wurden, erlauben das Setzen eines sogenannten Seed-Wertes. Dieser Wert wird als Grundlage für die Generierung von Zufallszahlen verwendet. Wenn die Funktion mit dem gleichen Seed-Wert aufgerufen wird, so werden immer die gleichen Zufallszahlen erzeugt, so dass Analysen reproduzierbar sind, auch wenn sie Zufallseffekte enthalten. In Abschnitt A.6 sind die Seed-Werte für die in dieser Studie durchgeführten Experimente aufgelistet, so dass man diese nachvollziehen kann. Um die Stabilität der Ergebnisse zu prüfen, wurden Tests mit verschiedenen Seed-Werten durchgeführt. Abbildung A.1 zeigt die Entwicklungskurven der Outof-bag-Fehlerrate für die vier Wiedergabetypen für Modelle, die jeweils mit 500 Bäumen auf den gesamten Daten des Erzähltextkorpus trainiert wurden. Für jeden Typ wurden vier Modelle trainiert, mit jeweils anderen Seed-Werten, die beim Aufbau der RandomForests sowie beim Resampling zum Tragen kamen. Die SeedWerte waren für jeden Wiedergabetyp 1, 5, 10 und 15. Man kann sehen, dass die Linien alle eine gewisse Streuung aufweisen. Die Streubreite ist jedoch kleiner als 0,5 %, sobald ca. 100 Bäume verwendet werden, bei Kategorien mit wenig unterschiedlichen Beispielen, wie free_indirect, sogar deutlich geringer.68 Außerdem wurde der Kreuzvalidierungsprozess für jede Kategorie mit zwei verschiedenen Seed-Werten getestet. Die Ergebnisse finden sich in Tabelle A.3. Wie man sieht, haben die Zufallseffekte tatsächlich Auswirkungen und zwar je mehr, desto geringer die Menge von Beispielen für eine Kategorie ist – bei free_indirect sind die Schwankungen deutlich. Dieser Test stellt nur eine Stichprobe dar, soll aber helfen, die Aussagekraft der angegebenen Erfolgswerte besser einzuschätzen.
68 Die Fehlerraten sind deutlich anders und niedriger als die in Abbildung 11.4 auf S. 237 (welche die Fehlerrate jeder Kategorie für das Lernen aller Kategorien gleichzeitig darstellt), da es sich um eine ganz andere Messung handelt. Beim Lernen jeder Kategorie einzeln mit Resampling ist der Fehler für free_indirect am geringsten, weil sich dessen Daten aufgrund der vielen Wiederholungen am leichtesten klassifizieren lassen.
4
5
322 | A Anhang
dir
3 2
ind
1
Out−of−Bag−Fehlerrate in %
rep
0
fi
0
100
200
300
400
500
Anzahl Bäume
Abb. A.1. OOB-Fehlerraten für RandomForest mit Resampling bei unterschiedlichen SeedWerten (jeweils 1, 5, 10, 15)
A.6 Parametereinstellungen für die maschinellen Lernexperimente
| 323
Tab. A.3. Aufwirkungen unterschiedlicher Seed-Werte bei RandomForest mit Kreuzvalidierung und Resampling
Precision
Recall
F-Score
direct, Seed = 1
0,89
0,84
0,87
direct, Seed = 15
0,88
0,85
0,87
free_indirect, Seed = 1
0,56
0,28
0,37
free_indirect, Seed = 10
0,63
0,29
0,40
indirect, Seed = 1
0,61
0,49
0,54
indirect, Seed = 15
0,62
0,47
0,53
reported, Seed = 1
0,57
0,44
0,50
reported, Seed = 10
0,56
0,45
0,50
Die Ergebnisse des maschinellen Lernens werden also durch Zufallsfaktoren leicht ‚destabilisiert‘. Allerdings können sich auch die Ergebnisse der regelbasierten Methoden durch leichte Änderungen in den Regeln deutlich verändern (einige Beispiele wurden in Abschnitt 10 demonstriert). Außerdem sind die Zusammensetzung und die Besonderheiten des Erzähltextkorpus selbst stark zufallsbestimmt. Es ist an dieser Stelle also noch einmal daran zu erinnern, dass alle Ergebnisse, die im Rahmen dieser Studie präsentiert werden, nur als Trends verstanden werden sollten.
A.6 Parametereinstellungen für die maschinellen Lernexperimente Die in Abschnitt 11 dargestellten Analysen wurden alle in R durchgeführt, unter Verwendung des Pakets randomForest. Um die Kreuzvalidierung und das Resampling durchzuführen, wurden folgende Funktionen in R entwickelt: – rfResampled(data, rwClass, rfTreeN, seedVal): Trainieren eines RandomForest mit Resampling – crossValRFResampled(data, rwClass, rfTreeN, foldN, seedVal): Kreuzvalidierung mit RandomForest und Resampling – crossValRFResampledPseudoFi(data, rfTreeN, foldN, seedVal): Kreuzvalidierung mit RandomForest und Resampling für Pseudo-Frei-Indirekt (Lernen auf den Beispielen für direct und free_indirect, aber Auswertung nur auf free_indirect)
324 | A Anhang Folgende Parameter wurden für alle Analysen verwendet: – Anzahl der Bäume (rfTreeN): 500 – Anzahl der Attributauswahl pro Knoten: 8 (Defaultwert von randomForest) – Gruppen für die Kreuzvalidierung (foldN): 10 Folgende Seed-Werte (seedVal) wurden verwendet: – Lernen aller Kategorien auf einmal (Abbildung 11.4, Tabelle 11.3): Seed = 1 (Diese Analyse wurde nicht mit den Skripten durchgeführt, darum muss man den Seed-Wert vor dem Aufruf der Funktion randomForest explizit setzen mit set.seed(1)) – Lernen der Kategorien einzeln (Hauptanalyse zur Erkennung mit maschinellem Lernen) (Tabelle 11.4 u.a.): – direct: Seed = 15 – free_indirect: Seed = 10 – indirect: Seed = 15 – reported: Seed = 10 – Lernen mit reduzierten Attributmengen (direct ohne $(), alle Kategorien ohne die Wiedergabewort-Attribute) (Tabellen 11.4 und 11.9): Seedwerte wie bei den entsprechenden Kategorien bei der Hauptanalyse – Pseudo-Frei-Indirekt (Tabellen 11.10 und 11.11): Seed = 1 – Lernen mit Satzabschnitten (Tabelle 11.17): Seedwerte wie bei den entsprechenden Kategorien bei der Hauptanalyse – Lernen mit reduzierten Vergleichsmengen (Tabelle 12.8): Seedwerte wie bei den entsprechenden Kategorien bei der Hauptanalyse
A.7 Statistische Formeln A.7.1 Standardabweichung Die Standardabweichung (vgl. Hartung et al. 2009, 46–47; Field 2005, 6) drückt aus, wie stark die einzelnen Werte für eine Menge von Fällen vom Durchschnittswert abweichen. Wenn die Standardabweichung gering ist, bedeutet dies, dass die Werte wenig schwanken. Die Formel zur Berechnung lautet: n 1 sx = (x i − x¯ )2 n−1 i=1
Dabei ist n die Menge der betrachteten Fälle, x¯ der Durchschnittswert von allen x und x i ein Wert von x.
A.7 Statistische Formeln
|
325
A.7.2 Korrelation In dieser Studie wird der Korrelationskoeffizient nach Bravais-Pearson verwendet (vgl. Hartung et al. 2009, 73–78; Field 2005, 107–111). Die Formel lautet: n ¯ )(y i − y¯ ) i=1 (x i − x r xy = (n − 1)s x s y n ist die Menge der betrachteten Fälle, x und y sind die beiden betrachteten Variablen und x¯ und y¯ deren Durchschnittswerte. s x und s y stehen für die Standardabweichung der jeweiligen Variable (vgl. Abschnitt A.7.1). Die Werte des Korrelationskoeffizienten liegen zwischen -1 und 1, wobei 1 eine perfekte positive Korrelation bedeutet (die Werte von y nehmen zu, im gleichen Maße wie x zunimmt) und -1 eine perfekte negative Korrelation (die Werte von y nehmen ab, im gleichen Maße wie x zunimmt). Eine Korrelation von 0 bedeutet den geringstmöglichen Zusammenhang zwischen der Entwicklung der Werte von x und y.
Literatur Banfield, A. (1982). Unspeakable sentences. Narration and representation in the language of fiction. Routledge & Kegan Paul, Boston u.a. Beinert, W. (2011). typolexikon.de. Das Lexikon der westeuropäischen Typographie. Anführungszeichen. Webseite. http://www.typolexikon.de/a/anfuehrungszeichen.html, zuletzt besucht am 20.02.2015. Belica, C./Kupietz, M./Witt, A./Lüngen, H. (2011). The Morphosyntactic Annotation of DeReKo: Interpretation, Opportunities and Pitfalls. In: Konopka, M./Kupczak, J./Mair, C./Štícha, F./Waßner, U. H. (Hgg.), Grammatik und Korpora 2009. Dritte internationale Konferenz, S. 451–469. Narr, Tübingen. Bernhardi, S. (1802). Wunderbilder und Träume. Friedrich Nicolovius, Königsberg. Bernhardi, S. (1823). Wunderbilder und Träume. Universitäts-Buchhandlung, Königsberg, 2. Auflage. Bernhardt, L./Pedersen, B. B. (2007). Konjunktiv und Indikativ in der indirekten Rede im Deutschen. Deutsch als Fremdsprache, 44(3):154–161. Boas, H. C. (2009). Semantic Frames as Interlingual Representations for Multilingual Lexical Databases. In: Boas, H. C. (Hg.), Multilingual FrameNets in Computational Lexicography: Methods and Applications, S. 59–99. de Gruyter, Berlin u.a. Brants, S./Dipper, S./Hansen, S./Lezius, W./Smith, G. (2002). The TIGER Treebank. In: Proceedings of the Workshop on Treebanks and Linguistic Theories, Sozopol. Bredel, U. (1999). Erzählen im Umbruch. Studie zur narrativen Verarbeitung der „Wende“ 1989. Stauffenburg-Verlag, Tübingen. Breiman, L. (2001). Random Forests. Machine Learning, 45(1):5–32. Breiman, L./Cutler, A. (o. J.). Random Forests. Webseite. http://stat-www.berkeley.edu/users/ breiman/RandomForests/cc_home.htm, zuletzt besucht am 20.02.2015. Burchart, A./Erk, K./Frank, A./Kowalski, A./Padó, S./Pinkal, M. (2009). FrameNet for the semantic analysis of German: Annotation, representation and automation. In: Boas, H. C. (Hg.), Multilingual FrameNets in Computational Lexicography: Methods and Applications, S. 209–244. de Gruyter, Berlin u.a. Bürger, G. A. (1786). Wunderbare Reisen zu Wasser und Lande, Feldzüge und lustige Abenteuer des Freyherrn von Münchhausen, wie er dieselben bey der Flasche im Cirkel seiner Freunde selbst zu erzählen pflegt. London. Bürger, G. A. (1788). Wunderbare Reisen zu Wasser und Lande, Feldzüge und lustige Abentheuer des Freyherrn von Münchhausen, wie er dieselben bey der Flasche im Zirkel seiner Freunde selbst zu erzählen pflegt. London, 2. Auflage. Bürger, G. A. (1976). Wunderbare Reisen zu Wasser und zu Lande. Feldzüge und lustige Abenteuer des Freiherrn von Münchhausen, wie er dieselben bei der Flasche im Zirkel seiner Freunde selbst zu erzählen pflegt. Insel-Verlag, Frankfurt a. M. Burrows, J. F. (1987). Computation into Critism. A Study of Jane Austen’s Novels and an Experiment in Method. Claredon Press, Oxford. Burrows, J. F. (2004). Textual Analysis. In: Schreibman, S./Siemens, R./Unsworth, J. (Hgg.), A Companion to Digital Humanities. Blackwell, Oxford. http://www.digitalhumanities.org/ companion, zuletzt besucht am 20.02.2015. Bylander, T. (2002). Estimating Generalization Error in Two-Class Datasets Using Out-of-Bag Estimates. Machine Learning, 48:287–297.
328 | Literatur Caruana, R./Karampatziakis, N./Yessenalina, A. (2008). An empirical evaluation of supervised learning in high dimensions. In: McCallum, A./Roweis, S. (Hgg.), Proceedings of the 25th Annual International Conference on Machine Learning (ICML 2008), S. 96–103. Omnipress. Chatman, S. (1978). Story and Discourse. Narrative Structure in Fiction and Film. Cornell University. Chen, C./Liaw, A./Breiman, L. (2004). Using Random Forest to Learn Imbalanced Data. Technischer bericht, University of California Berkeley Library. http://statistics.berkeley.edu/ sites/default/files/tech-reports/666.pdf, zuletzt besucht am 20.02.2015. Cohn, D. (1978). Transparent Minds. Princeton University Press, Princeton. Coste, D./Pier, J. (2011). Narrative Levels. In: Hühn, P./Pier, J./Schmid, W./Schönert, J. (Hgg.), The living handbook of narratology. Hamburg University Press, Hamburg. Cunningham, H./Maynard, D./Bontcheva, K./Tablan, V. (2002). GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications. In: Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics (ACL’02), Philadelphia. Cunningham, H./Maynard, D./Bontcheva, K./Tablan, V./Aswani, N./Roberts, I./Gorrell, G./Funk, A./Roberts, A./Damljanovic, D./Heitz, T./Greenwood, M. A./Saggion, H./Petrak, J./Li, Y./Peters, W. (2011). Text Processing with GATE (Version 6). http://tinyurl.com/ gatebook, zuletzt besucht am 20.02.2015. Domingos, P. (1999). MetaCost: A General Method for Making Classifiers Cost-Sensitive. In: Fifth International Conference on Knowledge Discovery and Data Mining, S. 155–164, San Diego. Duda, R. O./Hart, P. E./Stork, D. G. (2001). Pattern Classification. John Wiley, New York u.a., 2. Auflage. Dudenredaktion (Hg.) (2005). Duden. Die Grammatik, Band 4. Dudenverlag, Mannheim u.a., 7. Auflage. Eduardo, J. H. (1993). Verba dicendi. Konstrastive Untersuchungen Deutsch-Spanisch, Band 1 von Hispano-Americana. Geschichte, Sprache, Literatur. Peter Lang, Frankfurt a. M. u.a. Eisenberg, P. (1999). Grundriss der deutschen Grammatik. Der Satz. Verlag J.B. Metzler, Stuttgart/Weimar. Elson, D. K./Dames, N./McKeown, K. R. (2010). Extracting Social Networks from Literary Fiction. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, S. 138–147, Uppsala. Elson, D. K./McKeown, K. R. (2010). Automatic Attribution of Quoted Speech in Literary Narrative. In: Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10), S. 1013–1019, Atlanta. Engel, U. (2004). Deutsche Grammatik – Neubearbeitung. Iudicium Verlag, München. Fabricius-Hansen, C. (2001). Wessen Redehintergrund? Reportive Modalität aus textorientierter kontrastiver Sicht (Deutsch – Norwegisch – Englisch). Reports of the project Languages in Contrast (Språk in kontrast), 14:1–27. Fabricius-Hansen, C. (2002). Nicht-direktes Referat im Deutschen - Typologie und Abgrenzungsprobleme. In: Fabricius-Hansen, C./Leirbukt, O./Letnes, O. (Hgg.), Modus, Modalverben, Modalpartikeln, Linguistisch-philologische Studien Bd. 25, S. 6–29. Wissenschaftlicher Verlag Trier, Trier. Fauconnier, G. (1994). Mental Spaces. Aspects of Meaning Construction in Natural Language. Cambridge University Press, Cambridge.
Literatur
|
329
Field, A. (2005). Discovering Statistics Using SPSS. Sage Publications, London/Thousand Oaks/New Delhi, 2. Auflage. Fischer-Starcke, B. (2010). Corpus Linguistics in Literary Analysis. Jane Austen and her Contemporaries. Continuum, New York. Fludernik, M. (1993). The fictions of language and the languages of fiction. The linguisitic representation of speech and consciousness. Routledge, London/New York. Genette, G. (1998). Die Erzählung. Wilhelm Fink Verlag, München, 2. Auflage. Glaboniat, M./Müller, M./Schmitz, H./Rusch, P./Wertenschlag, L. (2002). Profile Deutsch. Gemeinsamer europäischer Referenzrahmen. Langenscheidt, Berlin u.a. Haberstok, M. (2001). Sophie Tieck – Leben und Werk. Schreiben zwischen Rebellion und Resignation. Iudicium Verlag, München. Harras, G./Winkler, E./Erb, S./Proost, K. (2004). Handbuch deutscher Kommunikationsverben. Teil 1: Wörterbuch. de Gruyter, Berlin u.a. Hartung, J./Elpelt, B./Klösener, K.-H. (2009). Statistik. Lehr- und Handbuch der angewandten Statistik. Oldenburg Verlag, München, 15. Auflage. Hauff, W. (1970a). Sämtliche Werke in drei Bänden. Nach den Originaldrucken und Handschriften, Band 2 (Märchen, Novellen). Winkler-Verlag, München. Hauff, W. (1970b). Sämtliche Werke in drei Bänden. Nach den Originaldrucken und Handschriften, Band 1 (Romane). Winkler-Verlag, München. Hauff, W. (1991). Märchen-Almanach auf das Jahr 1826. Unveränderter Nachdruck der 1. Auflage von 1826. Metzler, Stuttgart. Hebbel, F. (1849). Die Kuh. Die Presse, (23):1. Hebbel, F. (1965). Werke, Band 3. Carl Hanser Verlag, München. Helbig, G./Buscha, J. (2011). Deutsche Grammatik. Ein Handbuch für den Ausländerunterricht. Langenscheidt, Berlin u.a. Heringer, H. J. (2006). Die Welt vom Hörensagen. Der Deutschunterricht, 5:40–50. Heym, G. (1913). Der Dieb. Ein Novellenbuch. Ernst Rowohlt Verlag, Leipzig. Heym, G. (1962). Dichtungen und Schriften. Gesamtausgabe, Band 2 (Prosa und Dramen). Verlag Heinrich Ellermann, Hamburg. Höchli, S. (1981). Zur Geschichte der Interpunktion im Deutschen. Nummer 17 in Studia linguistica Germanica. de Gruyter, Berlin u.a. Hoover, D. L. (2008). Quantitative Analysis and Literary Studies. In: Blackwell (Hg.), A Companion to Digital Litarary Studies. Susan Schreibman and Ray Siemens, Oxford. http://www.digitalhumanities.org/companionDLS/, zuletzt besucht am 20.02.2015. Hunston, S. (2008). Corpus compilation and corpus types. Collection strategies and design decisions. In: Lüdeling, A./Kytö, M. (Hgg.), Corpus Linguistics. An International Handbook, Band 1 von Handbuch zur Sprach- und Kommunikationswissenschaft (HSK), S. 154–168. de Gruyter, Berlin u.a. Ikeo, R. (2007). Unambiguous free indirect discourse? a comparison between ‘straightforward’ free indirect speech and thought presentation and cases ambigous with narration. Language and Literature, 16(4):367–387. Institut für Deutsche Sprache (1991-2015). COSMAS I/II (Corpus Search, Management and Analysis System). Webseite. http://www.ids-mannheim.de/cosmas2, zuletzt besucht am 20.02.2015. Institut für Deutsche Sprache (2012). Deutsches Referenzkorpus/Archiv der Korpora geschriebener Gegenwartssprache 2012-I (Release vom 29.02.2012). Webseite. http://www.idsmannheim.de/DeReKo, zuletzt besucht am 20.02.2015.
330 | Literatur Janitschek, M. (1902). Die neue Eva. Hermann Seemann Nachfolger, Leipzig. Jannidis, F. (2007). Computerphilologie. In: Anz, T. (Hg.), Handbuch Literaturwissenschaft. Bd 2, Methoden und Theorien, S. 27–40. Metzler, Stuttgart/Weimar. Jockers, M. (2012). Computing and Visualizing the 19th-Century Literary Genome. In: Digital Humanities 2012: Conference Abstracts, S. 242–244, Hamburg. Hamburg University Press. Kafka, F. (1950-1974). Gesammelte Werke, Band 8. S. Fischer Verlag, Frankfurt a. M. Kafka, F. (2008). Beim Bau der Chinesischen Mauer. Ungedruckte Erzählungen und Prosa aus dem Nachlaß. Originalgetreuer Nachdruck der Ausgabe Berlin 1931. Georg Olms Verlag, Hildesheim. Kaufmann, G. (1976). Die indirekte Rede und mit ihr konkurrierende Formen der Redeerwähnung, Band 3 von Heutiges Deutsch. Hueber, München. Klokow, R. (1978). Anführungszeichen, Norm und Abweichung. Linguistische Berichte, 57:14– 24. Krestel, R./Bergler, S./Witte, R. (2008). Minding the Source: Automatic Tagging of Reported Speech in Newspaper Articles. In: European Language Resources Association (ELRA) (Hg.), Proceedings of the Sixth International Language Resources and Evaluation Conference (LREC 2008), Marrakesch. Krestel, R./Witte, R./Bergler, S. (2007). Processing of Beliefs extracted from Reported Speech in Newspaper Articles. In: International Conference on Recent Advances in Natural Language Processing (RANLP 2007), Borovets. Kunze, C./Lemnitzer, L. (2002). GermaNet – representation, visualization, application. In: Proceedings of LREC 2002, main conference, Band 5, S. 1485–1491, Las Palmas. Kupietz, M./Belica, C./Keibel, H./Witt, A. (2010). The German Reference Corpus DeReKo: A primordial sample for Linguistic Research. In: Calzolari, N./Choukri, K./Maegaard, B./Mariani, J./Odijk, J./Piperidis, S./Rosner, M./Tapias, D. (Hgg.), Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010), Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache, S. 1848–1854, Malta. European Language Resources Association (ELRA). La Roche, S. v. (1805). Herbsttage. Mit einem Kupfer von Penzel und mit Musik. Gräff, Leipzig. Leech, G./Short, M. (1981). Style in fiction. A Linguistic Introduction to Englisch Fictional Prose. Longman, London. Leech, G./Short, M. (2007). Style in fiction. A Linguistic Introduction to Englisch Fictional Prose. Pearson Education Limited, London, 2. Auflage. Letnes, O. (2002). Zum Bezug epistemischer Modalität in der Redewiedergabe. In: FabriciusHansen, C./Leirbukt, O./Letnes, O. (Hgg.), Modus, Modalverben, Modalpartikeln, Linguistisch-philologische Studien Bd. 25, S. 85–100. Wissenschaftlicher Verlag Trier, Trier. Li, Y./Bontcheva, K./Cunningham, H. (2009). Adapting SVM for Data Sparseness and Imbalance: A Case Study on Information Extraction. Natural Language Engineering, 15(2):241–271. Liaw, A./Wiener, M. (2002). Classification and Regression by randomForest. R News, 2/3:18– 22. Maas, U. (1992). Grundzüge der deutschen Orthographie, Band 120 von Germanistische Linguistik. Niemeyer, Tübingen. Maas, U./Wunderlich, D. (1972). Pragmatik und sprachliches Handeln. Athenäum Verlag, 2. Auflage. Mamede, N./Chaleira, P. (2004). Character Identification in Children Stories. In: EsTAL 2004 – Advances in Natural Language Processing, LNCS, S. 82–90, Berlin/Heidelberg. Springer.
Literatur
|
331
Manning, C. D./Raghavan, P./Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press, New York. Martinez, M./Scheffel, M. (2007). Einführung in die Erzähltheorie. C. H. Beck, 7. Auflage. May, K. (1974). Erstdruck Karl Mays in Faksimile-Ausgaben. Serie VII: Beiträge in der Zeitschrift „Weltspiegel“ (1877–1879). Karl-May-Gesellschaft, Hamburg. May, K. (2010). Die Fastnachtsnarren [Historisch-kritische Ausgabe für die Karl-May-Stiftung]. Karl-May-Verlag, Bamberg/Radebeul. McHale, B. (2011). Speech Representation. In: Hühn, P./Pier, J./Schmid, W./Schönert, J. (Hgg.), The living handbook of narratology. Hamburg University Press, Hamburg. http://www.lhn. uni-hamburg.de/article/speech-representation, zuletzt besucht am 20.02.2015. Meister, J. C. (2003). Computing Action. A Narratological Approach., Band 2 von Narratologia. de Gruyter, Berlin u.a. Michel, J.-B./Shen, Y. K./Aiden, A. P./Veres, A./Gray, M. K./The Google Books Team/Pickett, J. P./Hoiberg, D./Clancy, D./Norvig, P./Orwant, J./Pinker, S./Nowak, M. A./Aiden, E. L. (2011). Quantitative Analysis of Culture Using Millions of Digitized Books. Science, 331(6014):176–182. Mitchell, T. M. (1997). Machine Learning. The McGraw-Hill Companies, New York u.a. Moretti, F. (2005). Graphs, Maps, Trees: Abstract Models for a Literary History. Verso, London. Moretti, F. (2011). Network Theory, Plot Analysis, Band 2 von Literary Lab Pamphlets. Stanford Literary Lab, Stanford. http://litlab.stanford.edu/LiteraryLabPamphlet2.pdf, zuletzt besucht am 20.02.2015. Musäus, J. K. A. (1787). Volksmärchen der Deutschen, Band 5. Ettinger, Gotha. Musäus, J. K. A. (1976). Volksmärchen der Deutschen. Nach dem Text der Erstausgabe von 1782-1786. Winkler-Verlag, München. Naber, D. (o. J.). OpenThesaurus. Webseite. http://www.openthesaurus.de/, zuletzt besucht am 20.02.2015. Nerius, D. (Hg.) (1989). Deutsche Orthographie. VEB Bibliographisches Institut Leipzig, Leipzig, 2. Auflage. Neuroth, H./Lohmeier, F./Smith, K. M. (2011). TextGrid – Virtual Research Environment for the Humanities. The International Journal of Digital Curation, 6(2):222–231. Palmer, A. (2004). Fictional minds. University of Nebraska Press, Lincoln. Parkes, M. B. (1992). Pause and Effect. An Introduction to the History of Punctuation in the West. Scolar Press, Aldershot. Pasch, R./Brauße, U./Breindl, E./Waßner, U. H. (2003). Handbuch der deutschen Konnektoren. Linguistische Grundlagen der Beschreibung und syntaktische Merkmale der deutschen Satzverknüpfer (Konjunktion, Satzadverbien und Partikeln). de Gruyter, Berlin u.a. Platon (1990). Politeia. Werke Band 4, übersetzt von Friedrich Schleiermacher. Wissenschaftliche Buchgesellschaft, Darmstadt, 2. Auflage. Polikar, R. (2006). Ensemble Based Systems in Decision Making. IEEE Circuits and Systems Magazine, 6(3):21–45. Rat für deutsche Rechtschreibung (Hg.) (2006). Deutsche Rechtschreibung: Regeln und Wörterverzeichnis – Amtliche Regelung. Gunter Narr Verlag, Tübingen. Sarmento, L./Nunes, S. (2009). Automatic Extraction of Quotes and Topics from News Feeds. In: Proceedings of DSIE’09 – 4th Doctoral Symposium of Informatics Engineering, Porto. Schank, G. (1989). Redeerwähnung im Interview. Strukturelle und konversationelle Analysen an vier Interviewtypen. Schwann, Düsseldorf.
332 | Literatur Scharloth, J./Bubenhofer, N./Rothenhäusler, K. (2012). Andersschreiben aus korpuslinguistischer Perspektive. Datengeleitete Zugänge zum Stil. In: Schuster, B.-M./Tophinke, D. (Hgg.), Andersschreiben. Formen, Funktionen, Traditionen, S. 157–178. Schmidt, Berlin. Schiller, A./Teufel, S./Stöckert, C./Thielen, C. (1999). Guidelines für das Tagging deutscher Textkorpora mit STTS (Kleines und großes Tagset). Institut für Maschinelle Sprachverarbeitung (Universität Stuttgart)/Seminar für Sprachwissenschaft (Universität Tübingen). http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf, zuletzt besucht am 20.02.2015. Schmid, H. (1994). Probablistic Part-of-Speech Tagging Using Decision Trees. In: Proceedings of International Conference on New Methods in Language Processing, Manchester, UK. Schmid, H. (1995). Improvements on Part-of-Speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT-Workshop, Dublin, Ireland. Schmid, H. (o. J.). TreeTagger - a language independent part-of-speech tagger. Webseite. http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/, zuletzt besucht am 20.02.2015. Schmid, H./Laws, F. (2008). Estimation of Conditional Probabilities With Decision Trees and an Application to Fine-Grained POS Tagging. In: COLING 2008, Manchester, UK. Schmid, W. (2005). Elemente der Narratologie. de Gruyter, Berlin u.a. Schnitzler, A. (1889). Mein Freund Ypsilon. An der schönen blauen Donau. Unterhaltungsblatt für die Familie, IV(2):25–28. Schnitzler, A. (1932). Die kleine Komödie. S. Fischer Verlag, Berlin. Schnitzler, A. (1961a). Gesammelte Werke. Die Erzählenden Schriften, Band 1. S. Fischer Verlag, Frankfurt a. M. Schnitzler, A. (1961b). Gesammelte Werke. Die Erzählenden Schriften, Band 2. S. Fischer Verlag, Frankfurt a. M. Schumacher, H. (Hg.) (1986). Verben in Feldern. Valenzwörterbuch zur Syntax und Semantik deutscher Verben. de Gruyter, Berlin u.a. Schumacher, H./Kupczak, J./Schmidt, R./de Ruiter, V. (2004). VALBU – Valenzwörterbuch deutscher Verben. Studien zur deutschen Sprache. Narr, Tübingen. Schwitalla, J./Tiittula, L. (2009). Mündlichkeit in literarischen Erzählungen. Sprach- und Dialoggestaltung in modernen deutschen und finnischen Romanen und deren Übersetzungen. Stauffenburg-Verlag, Tübingen. Searle, J. R. (1969). Speech acts. Cambridge University Press, Cambridge. Semino, E./Short, M. (2004). Corpus stylistics. Speech, writing and thought presentation in a corpus of English writing. Routledge, London/New York. Short, M./Semino, E./Wynne, M. (2001). Revisiting the notion of faithfulness in discourse presentation using a corpus approach. Language and Literature, 11(4):325–355. Stanzel, F. (2001). Theorie des Erzählens. Vandenhoeck und Ruprecht, Göttingen, 7. Auflage. Sternberg, M. (1982). Proteus in Quotation-Land: Mimesis and the Forms of Reported Discourse. Poetics Today, 3(2):107–156. Steyer, K. (1997). Reformulierungen. Sprachliche Relationen zwischen Äußerungen und Texten im öffentlichen Diskurs. Narr, Tübingen. Strecker, B. (2009a). Er behauptet, dass er die Lösung gefunden hat oder habe oder hätte? – Mit dass eingeleitete indirekte Rede (Teil 2). Webseite. http://hypermedia.ids-mannheim. de/pls/public/fragen.ansicht?v_typ=f&v_id=3540, zuletzt besucht am 20.02.2015. Strecker, B. (2009b). Er sagte, dass er aus Ulm kommt, komme, käme oder kommen würde? – Mit dass eingeleitete indirekte Redewiedergabe (Teil 1). Webseite. http:
Literatur
|
333
//hypermedia.ids-mannheim.de/pls/public/fragen.ansicht?v_kat=&v_id=160, zuletzt besucht am 20.02.2015. Strecker, B. (2010). Sie sagt, er ist, er sei, er wäre gar nicht so übel – Indirekte Redewiedergabe mit Verbzweitsätzen. Webseite. http://hypermedia.ids-mannheim.de/pls/public/ fragen.ansicht?v_typ=f&v_id=3548, zuletzt besucht am 20.02.2015. Svenson, P. (2010). The Landscape of Digital Humanities. DHQ: Digital Humanities Quarterly, 4(1). http://www.digitalhumanities.org/dhq/vol/4/1/000080/000080.html, zuletzt besucht am 20.02.2015. Tabata, T. (2012). Approaching Dickens’ Style through Random Forests. In: Digital Humanities 2012: Conference Abstracts, S. 388–391, Hamburg. Hamburg University Press. TextGrid (2011). Digitale Bibliothek. Webseite. http://www.textgrid.de/ueber-textgrid/digitalebibliothek/, zuletzt besucht am 20.02.2015. The R Core Team (2012). R: A Language and Environment for Statistical Computing. Reference Index Version 2.15.1. http://www.r-project.org, zuletzt besucht am 20.02.2015. Tieck, L. (1967). Werke in einem Band. Mit einem Nachwort von Richard Alewyn. Hoffmann und Campe, Hamburg. Tieck, L. (1975). Werke in vier Bänden. Nach dem Text der Schriften von 1828-1854, Band 2 (Märchen aus dem Phantasus, Dramen). Wissenschaftliche Buchgesellschaft, Darmstadt. Tieck, L. (1985). Schriften in zwölf Bänden, Band 6. Deutscher Klassiker Verlag, Frankfurt a. M. Toolan, M. J. (2001). Narrative. A critical liguistic introduction. Routledge, London u.a., 2. Auflage. von Günderode, K. (1922). Gesammelte Werke, Band 2. Bibliophiler Verlag von O. GoldschmidtGabrielli, Berlin-Wilmersdorf. von Kleist, H. (1978). Werke und Briefe in vier Bänden, Band 1. Aufbau, Berlin/Weimar. von Kleist, H. (2010a). Sämtliche Werke und Briefe (Münchner Ausgabe), Band 2 (Erzählungen, Kleine Prosa, Gedichte, Briefe). Carl Hanser Verlag, München. von Kleist, H. (2010b). Sämtliche Werke und Briefe (Münchner Ausgabe), Band 3 (Materialien, Anmerkungen, Dokumente, Chronik, Register). Carl Hanser Verlag, München. von Roncador, M. (1988). Zwischen direkter und indirekter Rede. Nichtwörtliche direkte Rede, erlebte Rede, logophorische Konstruktionen und Verwandtes. Niemeyer, Tübingen. Wehde, S. (2000). Typographische Kultur: eine zeichentheoretische und kulturgeschichtliche Studie zur Typographie und ihrer Entwicklung. Nummer 69 in Studien und Texte zur Sozialgeschichte der Literatur. Niemeyer, Tübingen. Weinrich, H. (2005). Textgrammatik. Olms, Hildesheim u.a., 3. Auflage. Winkler, E. (1988). Syntaktische und semantische Eigenschaften von verba dicendi und ihre Bedeutung bei der Behandlung des Satzmodus. In: Lang, E. (Hg.), Studien zum Satzmodus I (Linguistische Studien, Reihe A, Arbeitsberichte 177), S. 216–253. Akademie der Wisschenschaften der DDR, Zentralinstitut für Sprachwissenschaft. Witten, I. A./Frank, E./Hall, M. A. (2011). Data Mining. Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Amsterdam et al., 3. Auflage. Zifonun, G./Hoffmann, L./Strecker, B. (1997). Grammatik der deutschen Sprache, Band 3. de Gruyter, Berlin u.a. Zöllner-Weber, A. (2005). Formale Repräsentation und Beschreibung von literarischen Figuren. In: Braungart, G./Gendolla, P./Jannidis, F. (Hgg.), Jahrbuch für Computerphilologie 7. mentis Verlag. http://computerphilologie.uni-muenchen.de/jg05/zoellner-weber.html, zuletzt besucht am 20.02.2015.
Register Ambiguität 38, 140, 141, 168, 178, 191, 226, 239, 268 – im Annotationssystem 77–81, 96 Anführungszeichen 18, 54, 118, 136, 137, 175–182, 210, 214, 243, 250, 283 Bühnenmonolog 57, 78, 87 Bewusstseinsstrom 57 Binnenerzählung 17, 74, 91–93, 97 Clustering 219 Computerphilologie 2 dass 155, 158–160, 168, 260 Deiktika 31, 34, 46, 60, 201, 203 DeReKo (Deutsches Referenzkorpus) 119, 141, 155 Dialog 17, 22, 56, 100, 131, 186, 212 Digital Humanities 2–3 Distanz 42 Doppelpunkt 136, 166, 175, 266 Durchschnittlicher absoluter Fehler 279 Edition (der Texte des Erzähltextkorpus) 18–29, 315 emphatische Satzzeichen 201, 228, 256, 259 Endlicher Automat 166 Entscheidungsbaum 231–232 Er-Erzählung siehe Erzählhaltung, heterodiegetisch Erlebte Rede 34, siehe auch Wiedergabe, freie indirekte Erzählebene 58, 91–93, siehe auch Binnenerzählung, Rahmenerzählung Erzähler 4 Erzählertext 4 – bei Schmid 44–50 Erzählhaltung 4, 17, 20–28 – heterodiegetisch 4 – homodiegetisch 4, 47 Erzählte Rede 43, siehe auch Wiedergabe, erzählte Erzähltext 4
F-Score 123–125 Faithfulness 38–41 Figur 4 FrameNet 133 GATE (General Architecture for Text Engineering) 116–117, 213 Gedankenwiedergabe siehe Wiedergabe von Gedanken Genette, Gerard 42–44 Ich-Erzählung siehe Erzählhaltung, homodiegetisch Indikator 127 Indirektheitskonjunktiv 31 Information Gain 264 Information Retrieval 123 Innerer Monolog 57 inquit-Formel siehe Rahmenformel Interrogativpronomen/-adverb siehe W-Fragewort Kategoriensystem für Wiedergabe 34–36, 39–54 Kodierung 16, 19, 179, 183 Kognition 85 Komma 127, 136, 166, 175, 177, 214, 261, 266 Konjunktion 127, 168, 260, 266 Konjunktiv 31, 117, 153–158, 166, 199, 228, 261 Korpus – Digitale-Bibliothek-Korpus 136, 316 – Erzähltextkorpus 14–29, 315 – Literatur-Korpus 141, 316 Korpusdesign 12, 14–18 Korrelation 279, 325 Kreuzvalidierung 240–242, 320 Leech, Geoffrey 38–41, 54, 61 Mündlichkeit 37, 202 Maschinelles Lernen 113, 219–303 – Algorithmus 224, siehe auch RandomForest – Attribut 224, 227–229
336 | Register – Attributbewertung 252–264 – Instanz 223, 225–227, 265–268 – Klasse 223 – kostensensitives 239, 273 – überwachtes 220–222 – unüberwachtes 219 Mean Decrease Accuracy 253 Mental-Space-Theorie 32, 156 MetaCost 239, 264, 273 Metapher 89–90, 293 Mimesis 34, 36–38 Mittelbarkeit 42–44 Modalitätsmarker 60, 203, 258 Modus (bei Genette) 42 Nicht-Faktizität 73–76, 106, 293 OOB-Fehlerrate 236, 320–323 oratio recta/obliqua 34 Originaläußerung 31, 32, 37, 164 Parsing 216 Personentext 44–50 Präfixverben 139 Precision 123–125 R (Statistiksoftware) 222, 234, 253, 323 Rahmenerzählung 92, 93 Rahmenformel 53, 55, 60, 64, 91, 134, 136, 146, 161, 174, 266 RandomForest 231–235, 320 Recall 123–125 Redebericht 199 Redewiedergabe siehe Wiedergabe Referatshinweis 162 Referatskonjunktiv 31 Reguläre Ausdrücke 136, 213 Resampling 240–242, 320 RF-Tagger 117, 119, 166, 228 SALSA (The Saarbrücken Lexical Semantics Acquisition Project) 133 Satzendeerkennung 117 Schachtelungsgrad 72–73, 106 Schmid, Wolf 44–50 Semino, Elena 11–13, 38–41, 51, 54–56, 68–70, 75–77, 91, 106–109
Short, Mick 11–13, 38–41, 51, 54–56, 61, 68–70, 75–77, 91, 106–109 showing/telling 42 Sprachfunktion 45 Sprechaktverb 131 Standardabweichung 278, 324 Statistik 115, 117, 203, 220, 222, 253, 263, 278, 279, 324 Stilometrie 3, 219 STTS (Stuttgart-Tübingen-Tagset) 119, 227, 318 style indirect libre 34, siehe auch Wiedergabe, freie indirekte Subjektivität 13, 94–95 Subjektivitätsmarker 61, 258 Tagging 117 TEI (Text Encoding Initiative) 16 TextGrid 16, 18 Textinterferenz 44–50 Textoberfläche 33, 37, 50, 73, 114, 129, 163, 201, 229 Thesaurus 138 Token 12, 117 Tokenisierung 117 Transponierte Rede 43 TreeTagger 117, 119, 227 Typographie 177 Urheberrecht 17 verba dicendi 129–131, 133, 144–145 verba putandi 133 verba sentiendi 133 Verbletztsatz 158–160 Verbzweitsatz 155, 160, 166 Verneinung 74, 108, 148, 296 Vorverarbeitung 117–120 W-Fragewort 158–160, 166, 168, 189 Wiedergabe – direkte 34, 54–59, 174–195, 256, 280–284 – erzählte 34, 68–71, 195–199, 261, 290–291 – freie direkte 54–57 – freie indirekte 34, 59–63, 199–207, 258, 284–286 – indirekte 34, 63–68, 152–174, 260, 286–289
Register – von Gedanken 54, 57, 69, 78, 80, 84–89, 99, 109, 133, 138, 200 – von Gefühlsregungen 70, 85, 88, 134 – von kognitiven Zuständen 88, siehe auch wissen – von Wahrnehmungen 70, 85, 87 Wiedergabewörter 129–152, 169–174, 187–195, 228, 249–250
|
337
wissen 108, 148, 298 würde-Konstruktion 153–158 XML 16, 52 Zitat 59, 144, 176, 192 zu+Infinitiv-Konstruktion 161, 166, 228, 261 Zufallseffekte 320 Zusatzmaterialien 7, 304