Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern [Reprint 2013 ed.] 9783110936582, 9783484309777

This volume discusses problems of the organization of monolingual and bilingual dictionaries. The objective is the produ

169 106 8MB

German Pages 262 [268] Year 1997

Table of contents :
1 Einleitung
1.1 Problemstellung
1.1.1 Probleme der Lexikonstrukturierung
1.1.2 Rahmenbedingungen
1.1.3 Vorgehensweise
1.1.4 Struktur dieses Buchs
1.2 Einige Grundbegriffe
1.2.1 Elektronische Wörterbücher
1.2.2 Probleme der kontrastiven lexikalischen Beschreibung
2 Lexikographische Aspekte
2.1 Multifunktionale Wörterbücher
2.1.1 Begriffsbestimmung: Wiederverwendbare lexikalische Ressourcen
2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen
2.2 Strukturierung zweisprachiger Wörterbücher
2.2.1 Vorbemerkung: Deskription vs. Präsentation in der Lexikographie
2.2.2 Direktionale vs. Nicht-direktionale zweisprachige Wörterbücher
2.2.3 Die Strukturierung der Van Dale-Wörterbücher
2.3 Lexikographische Anforderungsdefinition
2.4 Exkurs: Metalexikographie vs. Wörterbuch-Design
3 Constraint-basierte Wörterbücher
3.1 Der TFS-Formalismus
3.1.1 Datentyp von TFS
3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz für die lexikalische Repräsentation
3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz für die Erstellung von (lexikalischen) Spezifikationen
3.1.4 Das Lexikon als Spezifikation: Vorteile und Probleme bei der Verwendung von TFS für die lexikalische Modellierung
3.2 Wörterbucharchitektur
3.2.1 Überblick
3.2.2 Klassifikatorische und stratifikationelle Wörterbücher
3.2.3 Modularität und Interaktion der Module
3.2.4 Dokumentation der lexikalischen Beschreibungen
3.2.5 Zugriffsneutralität
3.2.6 Vergleich der Spezifikation mit der Anforderungsdefinition
4 Einsprachige Wörterbücher
4.1 Bausteine der Einträge
4.2 Beschreibung mit Frame-Semantics
4.2.1 Semantische Rollen für das Wahrnehmungsszenarium
4.2.2 Sorten
4.2.3 Rollenkonstellationen
4.3 Syntaktische Beschreibung
4.3.1 Grammatische Funktionen
4.3.2 Syntaktische Kategorien
4.3.3 Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien
4.3.4 Ableitbarkeit von Lexikoneinträgen für LFG und HPSG aus DELIS- Einträgen
4.4 Abbildungen zwischen den Beschreibungsebenen
4.5 Zur Übertragbarkeit des Ansatzes
4.5.1 Fragment
4.5.2 Lexikalisch-semantische Beschreibung
4.5.3 Syntaktische Beschreibung
4.5.4 Abbildungen zwischen den Beschreibungsebenen
4.6 Probleme der Lexikonmodellierung
4.6.1 Typen vs. Features
4.6.2 Klassifikation von Beschreibungsmitteln vs. Klassifikation von lexikalischen Objekten: Rollen vs. Sorten
4.6.3 Subklassifizierung nach zusätzlichen Merkmalen?
5 Abfrage
5.1 Ad-hoc-Abfrage im TFS-Lexikon
5.1.1 Ad-hoc-Abfrage in stratifikationellen Lexika
5.1.2 Ad-hoc-Abfrage mit Variablen
5.1.3 Nutzung der Ad-hoc-Abfrage in Wörterbuchanwendungen - Vergleich mit Datenbanken
5.2 Anwendung: Lexikonexport
5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage
5.2.2 Präsentation der Information für Zielanwendungen
5.2.3 Ablaufschema des Wörterbuchexports
5.2.4 Robustheit des Exports gegenüber Änderungen des Lexikons
5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuche
5.3 Diskussion: Abfragemethoden
5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs. Closed World Assumption
5.3.2 “Lexikographische” Anfrage vs. Benutzung von Lexikoneinträgen in einem NLP-System
6 Kontrastive Wörterbücher
6.1 Klassifizierung von Übersetzungsproblemen
6.1.1 Motivation für die Einführung einer Problemklassifikation
6.1.2 Ansätze zur Klassifikation von kontrastiven Problemen in der Forschung zur maschinellen Übersetzung
6.1.3 Neuere Ansätze zur Klassifikation von Übersetzungsproblemen: Divergenzen vs. Mismatches
6.2 Klassifikationsvorschlag
6.3 Beispieldiskussion
6.3.1 Subkategorisierungsunterschiede: “syntaktische Divergenz”
6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion
6.3.3 “Inkorporation” von Argumenten und Adjunkten: “conflational” und “lexical” divergence
6.3.4 Divergenzen mit Auswirkungen auf das zu übersetzende Lexem
6.3.5 Head Switching: “demotional/promotional divergence”
6.3.6 Divergenzen mit Auswirkung auf das zu übersetzende Lexem und auf die syntagmatische Umgebung
6.4 Wörterbücher für maschinelle Übersetzung
6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem transferbasierten MÜ-Wörterbuch auf der Grundlage von LFG
6.4.2 Behandlung von Divergenz in einem HPSG-basierten Interlingua-Ansat
6.5 Kontrastive constraint-basierte Wörterbücher
6.5.1 Kontrastives Fragment
6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame Semantics-Beschreibungen
6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment
6.5.4 Lexikographische Anwendung
7 Zusammenfassungen
7.1 Deutsche Zusammenfassung
7.2 Résumé Français
7.3 English Summary
Literatur

Recommend Papers

Marktabgrenzung: Konzeption und Problematik von Ansätzen und Methoden zur Abgrenzung und Strukturierung von Märkten unter besonderer Berücksichtigung von marketingtheoretischen Verfahren [1 ed.] 9783428465286, 9783428065288

116 114 31MB Read more

Die urheberrechtliche Beurteilung von elektronischen und Mikrofilm-Datenbanken [Reprint 2020 ed.] 9783112318454, 9783112307311

166 106 6MB Read more

Von Tierdaten zu Datentieren: Eine Mediengeschichte der elektronischen Tierkennzeichnung und des datengestützten Herdenmanagements 9783839453698

Digitale Technik ist längst fester Bestandteil der Massentierhaltung und des modernen Herdenmanagements. Auf Basis der e

122 60 9MB Read more

Markierungen im allgemeinen einsprachigen Wörterbuch des Deutschen: Ein Beitrag zur Metalexikographie [Reprint 2015 ed.] 9783111340616, 9783484309388

146 4 19MB Read more

Zur Chemie von Siloxenen und zur Darstellung von Polysilinen und nanodimensionierten Siliciumteilchen

592 76 2MB Read more

Die elektronische Justiz: Ein Beitrag zum elektronischen Rechtsverkehr und zur elektronischen Akte unter Berücksichtigung des Justizkommunikationsgesetzes [1 ed.] 9783428518449, 9783428118441

Am 1. April 2005 ist das Justizkommunikationsgesetz in Kraft getreten. Das Gesetz regelt den elektronischen Rechtsverkeh

112 68 701KB Read more

Menschenwürde in der Zwangsvollstreckung: Zur Genese und teleologischen Strukturierung des Vollstreckungsschutzes [1 ed.] 9783161612077, 9783161612084, 3161612078

Die Regelungen zum Vollstreckungsschutz in der Einzelzwangsvollstreckung stellen sich als gewachsenes Konglomerat dar. V

108 67 5MB Read more

Leitfaden zur Konstruktion von Dynamomaschinen und zur Berechnung von elektrischen Leitungen 9783486727012, 9783486727005

157 98 6MB Read more

Die Kontrolle von E-Mails und sonstigen elektronischen Dokumenten im Rahmen unternehmensinterner Ermittlungen: Eine straf- und datenschutzrechtliche Untersuchung unter Berücksichtigung von Auslandsbezügen [1 ed.] 9783428547623, 9783428147625

Das Phänomen der unternehmensinternen Ermittlungen zur Aufklärung von Wirtschaftsstraftaten ist spätestens seit der »Sie

105 12 3MB Read more

IT-Anwendung im Zivilprozess: Untersuchung zur Anwendung künstlicher Intelligenz im Recht und zum strukturierten elektronischen Verfahren. Dissertationsschrift 9783161595325, 9783161595332, 3161595327

Könnte man der zu beobachtenden Überlastung deutscher Zivilgerichte durch einen verstärkten Einsatz von Informationstech

116 93 9MB Read more

Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern [Reprint 2013 ed.]
9783110936582, 9783484309777

Author / Uploaded
Ulrich Heid

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Series Maior

LEXICOGRAPHICA Series Maior Supplementary Volumes to the International Annual for Lexicography Supplements ä la Revue Internationale de Lexicographie Supplementbände zum Internationalen Jahrbuch für Lexikographie

Edited by Sture Allen, Pierre Corbin, Reinhard R. K. Hartmann, Franz Josef Hausmann, Ulrich Heid, Oskar Reichmann, Ladislav Zgusta 77

Published in Cooperation with the Dictionary Society of North America (DSNA) and the European Association for Lexicography (EURALEX)

Ulrich Heid

Zur Strukturiemng von einsprachigen und kontrastiven elektronischen Wörterbüchern

Max Niemeyer Verlag Tübingen 1997

D93 Die Deutsche Bibliothek - CIP-Einheitsaufnahme [Lexicographica / Series maior] Lexicographica : supplementary volumes to the International annual for lexicography / publ. in Cooperation with the Dictionary Society of North America (DSNA) and the European Association for Lexicography (EURALEX). Series maior. - Tübingen : Niemeyer. Frühe Schriftenreihe Reihe Series maior zu: Lexicographica 77. Heid, Ulrich: Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern. -1997 Heid, Ulrich: Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern / Ulrich Heid. - Tübingen : Niemeyer, 1997 (Lexicographica : Series maior ; 77) ISBN 3^84-30977-6

ISSN 0175-9264

© Max Niemeyer Vertag GmbH & Co. KG, Tübingen 1997 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Gedruckt auf alterungsbeständigem Papier. Druck: Weihert-Druck GmbH, Darmstadt Einband: Industriebuchbinderei Hugo Nadele, Nehren

Inhaltsverzeichnis 1

Einleitung 1.1 Problemstellung 1.1.1 Probleme der Lexikonstrukturierung 1.1.2 Rahmenbedingungen 1.1.3 Vorgehensweise 1.1.4 Struktur dieses Buchs 1.2 Einige Grundbegriffe 1.2.1 Elektronische Wörterbücher 1.2.2 Probleme der kontrastiven lexikalischen Beschreibung

1 1 3 4 5 6 7 7 14

2

Lexikographische Aspekte 2.1 Multifunktionale Wörterbücher 2.1.1 Begriffsbestimmung: Wiederverwendbare lexikalische Ressourcen . . 2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen 2.2 Strukturierung zweisprachiger Wörterbücher 2.2.1 Vorbemerkung: Deskription vs. Präsentation in der Lexikographie . 2.2.2 Direktionale vs. Nicht-direktionale zweisprachige Wörterbücher . . . 2.2.3 Die Strukturierung der Van Dale-Wörterbücher 2.3 Lexikographische Anforderungsdefinition 2.4 Exkurs: Metalexikographie vs. Wörterbuch-Design

19 19 19 27 42 42 44 53 65 68

3

Constraint-basierte Wörterbücher 3.1 Der TFS-Formalismus 3.1.1 Datentyp von TFS 3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz für die lexikalische Repräsentation 3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz für die Erstellung von (lexikalischen) Spezifikationen 3.1.4 Das Lexikon als Spezifikation: Vorteile und Probleme bei der Verwendung von TFS für die lexikalische Modellierung 3.2 Wörterbucharchitektur 3.2.1 Überblick 3.2.2 Klassifikatorische und stratifikationelle Wörterbücher 3.2.3 Modularität und Interaktion der Module 3.2.4 Dokumentation der lexikalischen Beschreibungen 3.2.5 Zugriffsneutralität 3.2.6 Vergleich der Spezifikation mit der Anforderungsdefinition

71 71 72

Einsprachige Wörterbücher 4.1 Bausteine der Einträge 4.2 Beschreibung mit Frame-Semantics 4.2.1 Semantische Rollen für das Wahrnehmungsszenarium 4.2.2 Sorten 4.2.3 Rollenkonstellationen 4.3 Syntaktische Beschreibung 4.3.1 Grammatische Funktionen

99 99 101 102 106 108 115 116

4

73 82 84 89 89 90 92 94 95 98

VI

4.3.2 4.3.3

4.4 4.5

4.6

Syntaktische Kategorien Abbildungen zwischen grammatischen Funktionen und syntaktischen Kategorien 4.3.4 Ableitbarkeit von Lexikoneinträgen für LFG und HPSG aus DELISEinträgen Abbildungen zwrischen den Beschreibungsebenen Zur Übertragbarkeit des Ansatzes 4.5.1 Fragment 4.5.2 Lexikalisch-semantische Beschreibung 4.5.3 Syntaktische Beschreibung 4.5.4 Abbildungen zwischen den Beschreibungsebenen Probleme der Lexikonmodellierung 4.6.1 Typen vs. Features 4.6.2 Klassifikation von Beschreibungsmitteln vs. Klassifikation von lexikalischen Objekten: Rollen vs. Sorten 4.6.3 Subklassifizierung nach zusätzlichen Merkmalen?

119 122 123 124 128 128 129 130 132 135 135 137 139

5

Abfrage 145 5.1 Ad-hoc-Abfrage im TFS-Lexikon 146 5.1.1 Ad-hoc-Abfrage in stratifikationellen Lexika 146 5.1.2 Ad-hoc-Abfrage mit Variablen 148 5.1.3 Nutzung der Ad-hoc-Abfrage in Wörterbuchanwendungen - Vergleich mit Datenbanken 152 5.2 Anwendung: Lexikonexport 155 5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage . 156 5.2.2 Präsentation der Information für Zielanwendungen 159 5.2.3 Ablaufschema des Wörterbuchexports 162 5.2.4 Robustheit des Exports gegenüber Änderungen des Lexikons . . . . 165 5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuchel65 5.3 Diskussion: Abfragemethoden 167 5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs. Closed World Assumption 168 5.3.2 "Lexikographische" Anfrage vs. Benutzung von Lexikoneinträgen in einem NLP-System 170

6

Kontrastive Wörterbücher 179 6.1 Klassifizierung von Ubersetzungsproblemen 180 6.1.1 Motivation für die Einführung einer Problemklassifikation 180 6.1.2 Ansätze zur Klassifikation von kontrastiven Problemen in der Forschung zur maschinellen Ubersetzung 183 6.1.3 Neuere Ansätze zur Klassifikation von Ubersetzungsproblemen: Divergenzen vs. Mismatches 186 6.2 Klassifikationsvorschlag 194 6.3 Beispieldiskussion 197 6.3.1 Subkategorisierungsunterschiede: "syntaktische Divergenz" 197 6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion 201

Vll 6.3.3

6.4

6.5

7

"Inkorporation" von Argumenten und Adjunkten: "conflational" und "lexical" divergence 206 6.3.4 Divergenzen mit Auswirkungen auf das zu übersetzende Lexem . . 209 6.3.5 Head Switching: "demotional/promotional divergence" 212 6.3.6 Divergenzen mit Auswirkung auf das zu übersetzende Lexem und auf die syntagmatische Umgebung 214 Wörterbücher für maschinelle Übersetzung 214 6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem transferbasierten MÜ-Wörterbuch auf der Grundlage von LFG . . . 215 6.4.2 Behandlung von Divergenz in einem HPSG-basierten InterlinguaAnsatz 218 Kontrastive constraint-basierte Wörterbücher 222 6.5.1 Kontrastives Fragment 222 6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame Semantics-Beschreibungen 223 6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment . 225 6.5.4 lexikographische Anwendung 227

Zusammenfassungen 7.1 Deutsche Zusammenfassung 7.2 Resume Frangais 7.3 English Summary

Literatur

233 233 237 242 247

Vorwort Dieses Buch richtet sich an Computerlinguisten, Lexikographen und Metalexikographen. Es versucht einige Prinzipien aufzuzeigen, nach denen elektronische monolinguale und kontrastive Wörterbücher strukturiert sein sollten, wenn sie für verschiedene Anwendungen, in Computerlinguistik und Lexikographie, benutzbar sein sollen. Probleme der Wörterbuchstrukturierung wurden seit längerer Zeit sowohl in der Metalexikographie, als auch in der Computerlinguistik und ihrer sich neu entwickelnden Teildisziplin, der "Computational Lexicography", diskutiert; es scheint aber, als hätte es bislang wenig Austausch zwischen den beiden Bereichen gegeben. Und dies, obwohl sich aus den Erfahrungen metalexikographischer Wörterbuchanalysen durchaus Zielsetzungen für eine computerlinguistische Wörterbucharchitektur gewinnen lassen, und obwohl umgekehrt der computerlinguistische Blick auf bestehende Wörterbücher die metalexikographische Sicht und bestehende Ansätze zur Wörterbuchklassifikation erweitern kann. Ein Teil der hier geführten Diskussion versucht, diese Art von Austausch voranzutreiben: auf der Grundlage von Erfahrungen aus computerlinguistischen und metalexikographischen Wörterbuchanalysen werden Vorschläge für die Architektur elektronischer Lexika entwickelt. Zu ihren Merkmalen gehören Modularisierung, Verzicht auf fest vorgegebene Zugriffsstrukturen und eine einheitliche Repräsentation von linguistischen Beschreibungen verschiedener Ebenen. Die vorgeschlagene Architektur wurde in einer Reihe von Wörterbuchfragmenten prototypisch realisiert: ein Constraint-Logik-Formalismus (hier wurde TFS, Typed Feature Structures, verwendet), erlaubt die Umsetzung der Architekturprinzipien in einfacher Weise. Anhand von Beispielen aus der Arbeit im europäischen Forschungsprojekt DELIS wird gezeigt, welche Vorteile sich aus dem Ansatz für die Abfrage, den Export und die Wiederverwendung lexikalischer Beschreibungen ergeben und wie einsprachige Fragmente aus kontrastiver Sicht kombiniert werden können. Der computerlinguistische Anwendungskontext, vor dessen Hintergrund die hier zusammengestellten Vorschläge für kontrastive Lexika zu sehen sind, ist die (interlinguaorientierte) maschinelle Ubersetzung. Die kontrastive Anwendung wird aber eher als Validierung der Wörterbucharchitektur verstanden, nicht als Selbstzweck. Ich möchte an dieser Stelle allen danken, die an der Entstehung dieses Buches beteiligt waren: vor allem Prof. Christian Rohrer, der die hier beschriebenen Arbeiten angeregt und mit konstruktiver Kritik begleitet hat, Prof. Franz Josef Hausmann, der meine Begeisterung für Wörterbücher geweckt und unterstützt hat, und, nicht zuletzt, meinen Stuttgarter Kollegen und den auswärtigen Kooperationspartnern der Projekte Eurotra-7 und DELIS, die stets zu Diskussionen, Kommentaren, Fragen und Vorschlägen bereit waren. Besonders danken möchte ich Regina Steding: ohne sie würde dieses Buch nicht in dieser Form vorliegen. Stuttgart, im April 1996

Ulrich Heid

Kapitel 1 Einleitung 1.1

Problemstellung

Die Bedeutung von lexikalischen Beschreibungen für sprachverarbeitende Systeme steht außer Frage. Wörterbücher^ sind eine der zentralen linguistischen Wissensquellen dieser Systeme, und Fragen der praktischen Realisierung von elektronischen Wörterbüchern sind in den letzten Jahren zunehmend ins Zentrum des Interesses gerückt. Hierzu gehören die Diskussion um Möglichkeiten der Wiederverwertung von bestehenden Wörterbüchern, Forschungen zur lexikalischen Akquisition, zum Beispiel auf der Grundlage von Textcorpora, sowie Überlegungen zur parallelen Nutzbarmachung von lexikalischen Beschreiungen aus der lexikographischen Arbeit für manuelle und maschinelle Konsultation. Obwohl das Interesse an Wörterbüchern in der maschinellen Sprachverarbeitung in der Zeit seit ca. 1985 stark zugenommen hat, gibt es nach wie vor relativ wenig Forschungsarbeiten, die sich mit der Strukturierung von Wörterbüchern befassen, mit Fragen der Organisation und Repräsentation lexikalischer Informationen, sozusagen der "Systemarchitektur" von Wörterbüchern. Solche Fragestellungen werden jedoch dann relevant, wenn es um die Realisierung konkreter sprachverarbeitender Systeme geht, um ihre Wartung, Erweiterung, Anpassung an neue Anwendungs- und Gegenstandsbereiche. Ein Forschungsgebiet, wo sich dieses Defizit besonders bemerkbar macht, ist die maschinelle Übersetzung. Dabei ist die maschinelle Übersetzung gleichzeitig eine derjenigen Anwendungen von Sprachverarbeitungskomponenten, die die komplexesten Anforderungen an die lexikalische Beschreibung und Repräsentation stellen. Viele Autoren, die über maschinelle Übersetzungssysteme schreiben, gehen nicht oder nicht sehr ausführlich auf die lexikalischen Ressourcen ein, die den betreffenden Systemen zugrundeliegen. Wenn die Wörterbücher diskutiert werden, dann in der Regel im Zusammenhang mit der Systemarchitektur, als Komponenten der Wissensquellen, aufweiche das System bei der Übersetzung in irgendeiner Weise zurückgreift. Details über den Aufbau und Organisation der Wörterbücher werden jedoch oftmals nicht gegeben, oder es finden sich lediglich Diskussionen einzelner Übersetzungsbeispiele, aus denen sich allenfalls mehr oder weniger gut rekonstruieren läßt, wie einzelne Wörterbucheinträge eines gegebenen Systems aussehen könnten. Die Wörterbücher eines sprachverarbeitenden Systems hängen natürlich eng mit dessen Grammatiken zusammen. Wenn jedoch ein (umfangreiches) Wörterbuch für verschiedene Anwendungen eingesetzt werden soll, die u.U. auf verschiedenen Grammatiken oder Grammatiktheorien beruhen, dann kann die Frage der Wörterbuchorganisation nicht einfach als Teilproblem der Grammatikentwicklung betrachtet werden. Vielmehr muß man sich dann Gedanken über "multifunktionale Wörterbücher" machen, sowohl aus theoretischer Sicht, als auch aus praktischer. Die theoretische Diskussion hat in den späten 80er Jahren mit Überlegungen zu "reusable resources" begonnen (vgl. unten, Abschnitt 2.1.1 und den neuen Band von [Hötker/Ludewig (Ed.) 1996]). Die praktische Seite wird einer-

1

Die Termini Wörterbuch

und Lexikon werden hier synonym verwendet.

seits im Rahmen des "Linguistic Engineering" diskutiert, andererseits zum Teil schon seit geraumer Zeit in der praktischen Lexikographie realisiert. Diese verschiedenen Aspekte und die Methoden und Verfahren von computerlinguistischer und lexikographischer, bzw. metalexikographischer Arbeit scheinen bislang weitgehend getrennt verfolgt worden zu sein: mindestens werden in Veröffentlichungen aus der Computerlinguistik und Computational Lexicography relativ selten Ergebnisse der lexikographischen Arbeit und der Metalexikographie aufgenommen und verarbeitet, und umgekehrt. Das vorliegende Buch versucht, hier ansatzweise eine Brücke zu schlagen: wo immer möglich, wird die lexikographische Relevanz der vorgeschlagenen computerlinguistischen Modellierungen diskutiert, und umgehrt wird zunächst untersucht, welche Ergebnisse aus der Lexikographie und Metalexikographie für die "Computational Lexicography" ausgenützt werden können. Fragen der Lexikonstrukturierung sind in der Computerlinguistik etwas detaillierter diskutiert worden, seit sich Head-Driven Phrase Structure Grammar (HPSG, [Pollard/Sag 1994], [Pollard/Sag 1987]) als einer der wichtigsten Grammatikformalismen für computerlinguistische Modellierungen etabliert hat. Die Zielsetzung von Arbeiten in diesem Rahmen war es, Generalisierungen im Lexikon in geeigneter Weise zu modellieren^. Andere Arbeiten zur Organisation von Wörterbüchern für die Sprachverarbeitung konzentrieren sich auf einzelne Teilbereiche der lexikalischen Beschreibung, z.B. Morphologie und Morphosyntax ([Domenig 1987], [Domenig 1989], [Domenig/ten Hacken 1992]), oder sie sind stärker an Fragen der Wissensrepräsentation und der hierfür relevanten Formalismen interessiert (z.B. [Daelemans/Van der Linden 1992]). In der Lexikographie bzw. Metalexikographie wurde mit [DANLEX 1987] ein Vorschlag für die Strukturierung von Wörterbüchern gemacht, der primär auf die (computergestützte) Erstellung und auf die Überwachung der Testgestalt (z.B. Eintragsmodelle) von Wörterbüchern für die interaktive Benutzung (durch "menschliche" Benutzer) abzielt, nicht auf den Einbau in sprachverarbeitende Systeme. In diesem Buch wird der Versuch unternommen, Vorschläge für die Strukturierung einsprachiger und zweisprachiger Wörterbücher zu machen. Dabei werden Überlegungen zur Wiederverwendung lexikalischer Information, insbesondere zur Gestaltung von "multifunktionalen" Wörterbüchern, mit Vorschlägen zur formalen Modellierung einsprachiger Wörterbücher und zur Strukturierung von kontrastiven lexikalischen Beschreibungen für maschinelle Übersetzung zusammengebracht. Den Rahmen für die Spezifikation von Architekturvorschlägen für Wörterbücher bilden constraint-basierte Formalismen zur Repräsentation linguistischen Wissens, wie sie unter anderem zur Kodierung von HPSGGrammatiken verwendet werden.®

Die Vorschläge zur Lexikonstrukturierung, die sich in [Pollard/Sag 1987] befinden, sind allerdings in den wenigsten Grammatik-Systemen, die auf HPSG beruhen, implementiert, angewendet oder erweitert worden. Der einzige größere Versuch in dieser Richtung seit der Arbeit von [Flickinger 1987] sind die Vorschläge von [Sanfilippo 1993] zur Strukturierung der Wörterbücher von ACQUILEX. Einen Überblick über constraint-basierte Formalismen, die zur Kodierung von linguistischem Wissen benutzt werden, gibt der Sammelband [Uszkoreit (Ed.) 1993]. Dort findet sich auch eine vergleichende Bewertung der Formahsmen. Da die vorliegenden Überlegungen in engem Kontakt mit Arbeiten zur Entwicklung von TFS {Typed Feature Structure Formalismus, vgl. [Emele 1996]) entstanden ist, lag es nahe, TFS als Beispielfall für einen solchen FormaUsmus zu benutzen. Ich möchte Martin Emele in diesem Zusammenhang für viele sehr anregende Diskussionen und auch dafür herzlich danken, daß er mich an der Entwicklung von TFS aus der Nähe hat teilhaben lassen.

1.1.1

Probleme der Lexikonstrukturierung

Gut strukturierte Wörterbücher sind für Benutzer und Entwickler übersichtlicher und leichter erweiterbar. Außerdem sollte es eine geeignete Wörterbucharchitektur erlauben, sowohl monolinguale als auch kontrastive lexikalische Beschreibungen so zu strukturieren, daß bestimmte deskriptive Generalisierungen abgeleitet bzw. ohne Bedarf an zusätzlichen Beschreibungen ausgedrückt werden können. In der praktischen Lexikographie werden bestimmte Strukturierungsprinzipien mehr oder weniger explizit schon seit langer Zeit eingehalten. Beispielsweise wird in den meisten Wörterbüchern der Verbwortschatz in einige, allerdings sehr grobe syntaktische Klassen eingeteilt (z.B. transitive Verben, intransitive Verben, reflexive Verben). In neueren Wörterbüchern gibt es häufig jeweils spezifische Eintragsmuster für die einzelnen Wortklassen. Einträge zu Substantiven unterscheiden sich dann bereits in ihrer Struktur von Einträgen zu Verben oder zu Präpositionen. Die praktische Lexiographie nutzt dazu bereits einige Hilfsmittel zur Wörterbuchstrukturierung, z.B. Computerwerkzeuge zur Konsistenzkontrolle für Artikelstrukturen. In diesem Buch soll gezeigt werden, welche weiteren Strukturierungs- und Kontrollmöglichkeiten sich ergeben, wenn z.B. die Eigenschaften computerlinguistischer Formalismen ausgenutzt werden. Auch für zweisprachige Wörterbücher wurden in der Lexikographie Strukturierungsvorschläge gemacht^. Besonders interessant sind in diesem Zusammenhang die zweisprachigen Wörterbücher des niederländischen Verlags Van Dale: bei ihrer Entwicklung wurde darauf geachtet, daß einsprachige und zweisprachige Wörterbücher aufeinander bezogen (und im Idealfall voneinander abgeleitet) sind. Die Van Dale-Wörterbücher werden unten in Abschnitt 2.2.3 recht ausführlich diskutiert: sie dienen als Modellfall lexikographischer Strukturierungsprinzipien und gleichzeitig als metalexikographischer Bezugspunkt für die spätere Diskussion über kontrastive Modellierungen für die Sprachverarbeitung. Die Vorschläge zur Wörterbuchstrukturierung, die in diesem Buch gemacht werden, zielen auf die Erstellung "multifunktionaler" lexikalischer Ressourcen ab. Idealerweise sollen verschiedene Anwendungen von einem gemeinsamen Wörterbuch versorgt werden; es soll sowohl wie ein "traditionelles gedrucktes" Wörterbuch benutzt werden können, als auch in Systemen der maschinellen Sprachverarbeitung. Im Fall der zweisprachigen Modellierungen sollten auch maschinelle Übersetzungssysteme mit Daten versorgt werden können, die auf unterschiedlichen Architekturen und (unifikationsbasierten) Grammatiktheorien aufsetzen. Eine empirische Klassifikation von lexikalischen Ubersetzungsproblemen, die zunächst von den beobachteten Phänomenen ausgeht und zu einem System "kontrastiver Klassen" im Lexikon führt, eignet sich für diese Aufgabe. Auf der Grundlage früherer Versuche zur Klassifikation von Ubersetzungsproblemen aus der Forschung zur maschinellen Übersetzung wird eine einfache kontrastive Problemklassifikation erarbeitet, die relativ generelle Lösungsansätze erlaubt, die ohne Zuhilfenahme weiterer Wissensquellen realisiert werden können (vgl. Abschnitt 6.3). Die Forderung nach Offenheit hinsichtlich verschiedener Zielanwendungen zieht eine Reihe weiterer Anforderungen nach sich, die im Detail in Abschnitt 2.1 diskutiert und in Abschnitt 2.3 zusammengefaßt werden. Hierzu gehört u.a. die Forderung nach einem modularem Aufbau der Wörterbücher. Teilbeschreibungen, beispielsweise von verschiedenen Sprachen oder von verschiedenen linguistischen Beschreibungsebenen, sollen separat

4 Vgl. die Diskussion der Zusammenhänge von Datendeskription und lexikographischer Präsentation unten in Abschnitt 2.2.1. Zur Präsentationsseite vgl. [Baunebjerg Hansen 1990].

gehalten und wo nötig explizit miteinander verbunden werden. Damit wird verhindert, daß einerseits analoge Informationen über verschiedene Stellen verteilt sind, andererseits Informationen verschiedener Natur miteinander vermengt werden, wo dies nicht sinnvoll ist. Ein weiteres Ziel in diesem Zusammenhang ist es, die Information von verschiedenen linguistischen Beschreibungsebenen gleichrangig zu behandeln, also keiner linguistischen Beschreibungsebene Priorität über die anderen einzuräumen. Diese Forderung ist in gewisser Weise von den Grundprinzipien von HPSG inspiriert: dort werden linguistische Objekte (Zeichen) durch gleichberechtigte Teilbeschreibungen auf der Ebene der Orthographie, der Syntax, der Semantik und, ggf., der Pragmatik beschrieben. In Abschnitt 3.2 wird gezeigt, inwiefern sich ein solcher Ansatz für ein Lexikonmodell eignet. 1.1.2

Rahmenbedingungen

Die oben vorgetragenen Überlegungen werden in diesem Buch anhand von Beispielen diskutiert. Eine solche Diskussion ist zwangsläufig auf bestimmte Einzelfälle und auf die Beschreibung relativ kleiner Wörterbuchfragmente angewiesen. Im Folgenden werden die Rahmenbedingungen für die Formalisierung, die behandelten Phänomene bzw. Wörterbuchfragmente und eine Reihe weiterer Randbedingungen kurz zusammengestellt. Für die formale Modellierung der in diesem Buch beschriebenen Wörterbuchfragmente wird der TFS-Formalismus (Typed Feature Structures) verwendet. Die formalen Grundlagen von TFS und die Implementierung des hier benutzten TFS-Systems werden nicht beschrieben: sie sind in [Emele 1996] detailliert dargestellt; dort finden sich auch Verweise auf die relevante Grundlagenliteratur. TFS wird stellvertretend für die Klasse der constraint-basierten Formalismen benutzt, die in den letzten Jahren in der Computerlinguistik zunehmend Verbreitung gefunden haben. Die Wörterbuchorganisation ist jedoch eine relativ neue Anwendung von TFS und von Gonstraint-Formalismen überhaupt; außerdem geht es darum, die lexikographische Nutzbarkeit solcher Formalismen zu zeigen. Daher ist es sinnvoll, informell und anhand von Beispielen aus dem Bereich der Wörterbuchstrukturierung die relevanten Eigenschaften des TFS-Formalismus zu beschreiben (vgl. Abschnitt 3.1). Im Hinblick auf die praktische Anwendung eines elektronischen Wörterbuchs muß in diesem Zusammenhang aber nicht nur diskutiert werden, in welcher Weise sich der Formalismus für die Lexikonrepräsentation und -strukturierung eignet, sondern es muß auch dargestellt werden, wie ein elektronisches Wörterbuch benutzt, d.h. interaktiv abgefragt oder in eine Anwendung eingebunden werden kann. Diese Diskussion findet sich in Abschnitt 5. Der Gegenstandsbereich, anhand dessen die Strukturierungsvorschläge illustriert werden, ist die Beschreibung von Verben, insbesondere der Verbsubkategorisierung; dieser Bereich ist in Linguistik und Lexikographie gut untersucht und dokumentiert. Hierfür werden Modellierungen zugrundegelegt, wie sie im Rahmen von HPSG und LexikalischFunktionaler Grammatik (LFG, vgl. [Dalrymple (Ed.) 1995]) vorgeschlagen werden. Diese Grammatik-Formalismen werden als Hintergrund für die Modellierung verwendet, jedoch wird nicht der Versuch unternommen, sämtliche Beschreibungen detailliert im Rahmen der Theorien zu begründen oder zu motivieren. Es geht auch nicht darum, neuartige Beschreibungen für die zur Diskussion stehenden Phänomene vorzuschlagen. Das beschriebene Wörterbuchfragment beruht auf Materialien aus dem DELIS-Projekt®;

5

DELIS steht für "Descriptive Lexical Specißcation and tools [or corpus-based lexicon building". DELIS ist ein Forschungs- und Entwicklungsprojekt, das von der Europäischen Kommission im Rah-

die DELIS-Beschreibungen stellen genügend lexikalische Information bereit, als daß LFGoder HPSG-Systeme damit versorgt werden könnten. Darüber hinaus wird in DELIS versucht, an die syntaktische eine lexikalisch-semantische Beschreibung anzuschließen, die den Prinzipien von Filimores Frame Semantics folgt. Die Grundlagen hiervon werden zusammen mit den Beispiel-Modellierungen in Kapitel 4 dargestellt®. Die konkreten Wörterbucheinträge, die in diesem Zusammenhang diskutiert werden, stammen aus Fragmenten für Verben der sinnlichen Wahrnehmung für Englisch, Französisch, Italienisch, Dänisch und Niederländisch, die exemplarisch in TFS modelliert wurden. Um die Übertragbarkeit der hier vorgeschlagenen Prinzipien zu überprüfen, wurden in DELIS außerdem Fragmente italienischer, englischer und niederländischer Sprechaktverben modelliert (vgl. Abschnitt 4.5). Eine der wichtigsten Grundlagen für die hier vorgeschlagene Strukturierung von einund zweisprachigen Wörterbüchern und für deren Verbindbarkeit untereinander stellt das Vorliegen von parallelen Grammatiken und Lexika dar. Unter "parallelen" Fragmenten werden hier linguistische Beschreibungen von Sätzen verstanden, welche Ubersetzungen voneinander sind. Außerdem setzt die Erstellung paralleler Fragmente die Benutzung desselben Grammatikformalismus bzw. desselben deskriptiven Ansatzes voraus: ein gemeinsames Inventar von Beschreibungsmitteln für die verschiedenen einzelsprachlichen Modellierungen wird definiert; dieses Inventar wird nur dann erweitert, wenn dies für die Beschreibung einzelsprachlicher idiosynkratischer Phänomene notwendig ist. 1.1.3

Vorgehensweise

Die Erstellung linguistischer Spezifikationen hat einige Gemeinsamkeiten mit der Entwicklung von Software. Wie oben angedeutet, fallen Teile der hier geführten Diskussion in den Bereich des "Linguistic Engineering". Dementsprechend ist es sinnvoll, wenn sich auch die Arbeitsmethode an Vorgehensweisen aus dem Software-Engineering anlehnt. Die vorliegende Studie orientiert sich an der Methode des "Rapid Prototyping". Im Software-Engineering versteht man unter "Rapid Prototyping" eine Arbeitsmethode, bei der zunächst eine Anforderungsanalyse erstellt wird, dann eine funktionale und später formale oder technische Spezifikation der zu entwickelnden Programme. Zu einem möglichst frühen Zeitpunkt in der Softwareentwicklung soll eine erste Implementierung verfügbar gemacht werden (ein Prototyp), welcher zu Testzwecken an die Benutzer gegeben wird.

men des Forschungsprogramms LRE (Linguistic Research and Engineering) im Zeitraum 1993-1995 gefördert wurde. An DELIS waren Computerlinguisten (Universitäten Pisa, Clermont-Ferrrand, Amsterdam und Kopenhagen), Wörterbuchverlage bzw. -herausgeber (Van Dale; Den Danske Ordbog, Kopenhagen; Oxford Universlty Press), sowie ein Software- und Beratungsunternehmen (Site, Paris; Lingsoft, Helsinki, Linguacubun, London) beteiligt. Der Autor war Vertreter der Universität Stuttgart in DELIS und Projektkoordinator. Dies ist, soweit sich absehen läßt, die erste constraint-basierte Modellierung von Lexikonfragmenten auf der Grundlage von Ftame Semantics. Wie LFG und HPSG hier als deskriptiver Hintergrund verstanden werden (und auf theorie-interne Diskussionen über die syntaktische Modellierung von Einzelfällen verzichtet wird), dient auch Frame Semantics hier als ein Beispielfall für einen Beschreibungsansatz: Filimores Theorie wird in diesem Buch nicht erweitert, sondern primär ails Beispiel für ein lexikahschsemantisches Beschreibungspiodell genommen, welches lexikographisch relevant ist (vgl. die Arbeiten von [Fillmore/Atkins 1994], [Atkins 1994], [Atkins et. al. 1994], usw.), weil es eine präzise, corpusbaslerte lexikaUsche Beschreibung unterstützt, und weil es die Zusammenhänge von syntaktischer und semantischer Beschreibung explizit macht. Es geht also nicht darum, die deskriptiven Entscheidungen von Frame Semantics zu rechtfertigen oder gegen ajidere Beschreibungen abzusetzen.

Das Feedback, welches aus den Tests dieser ersten Implementierung gewonnen wird, fließt in eine Verfeinerung der Spezifikationen und der Implementierung zurück. Dieser Vorgang wird als "Prototyping cycle" bezeichnet. Man kann sich fragen, inwiefern ein solches Vorgehen für die Entwicklung einer Wörterbucharchitektur, bzw. von lexikalischen Spezifikationen möglich und nützlich ist. Hier wird die These vertreten, daß es gerade bei der Entwicklung von Wörterbuchfragmenten notwendig ist, Anforderungen der Benutzer und Anforderungen, die sich aus den Daten ergeben (z.B. von Texten aus Textcorpora, welche durch ein Wörterbuch abgedeckt werden sollen), bei der Entwicklung zu berücksichtigen. Je früher im Laufe der Lexikonentwicklung Beispielfragmente verfügbar sind, desto früher und effizienter kann die Entwicklung beeinflußt werden. Für den (corpusbasierten) Aufbau von Wörterbuchfragmenten wird dieses Konzept detaillierter in Abschnitt 2.LL3 diskutiert. Zum Teil richtet sich die Präsentation der Architekturvorschläge in diesem Buch ebenfalls nach den Hauptphasen des Prototyping-Zyklus: aus der Diskussion der lexikographischen Praxis (in Kapitel 2) wird eine Anforderungsdefinition abgleitet. Nach der Darstellung des TFS-Formalismus, der als Modellierungshilfsmittel dient, wird eine (funktionale) Spezifikation'^ gegeben (Abschnitt 3.2), die daraufhin überprüft wird, welche Aspekte der Anforderungsdefinition sie erfaßt. Beispielimplementierungen werden in der Form von monolingualen Lexikonfragmenten (in Kapitel 4) dargestellt, und ihre Benutzung in verschiedenen Anwendungen wird diskutiert, z.B. beim Lexikonexport und bei der lexikongesteuerten Corpusanalyse bzw. der Validierung des Lexikons anhand von Corpusmaterial (Kapitel 5). Um Redundanz zu vermeiden, sind allerdings nicht alle Phasen des Prototyping hier separat dokumentiert worden: die Testphase, das sich hieraus ergebende Feedback und die Verbesserungen sind natürlich in die Beschreibung von Spezifikation und Realisierung eingebunden. Ein Großteil der Diskussion in diesem Buch bezieht sich auf einsprachige Beschreibungen: erst auf der Grundlage wohlstrukturierter monolingualer Beschreibungen lassen sich kontrastive Beschreibungen organisieren. 1.1.4

Struktur dieses Buchs

Kapitel 2 beschreibt lexikographische und metalexikographische Aspekte der Wörterbuchstrukturierung und führt so aus praktischer Sicht auf die Anforderungsanalyse hin (Abschnitt 2.1). Kapitel 3 ist dem Repräsentationsformalismus TFS, seinen Eigenschaften und seiner Benutzung für lexikalische Modellierung und Abfrage gewidmet®; es enthält außerdem die funktionale Spezifikation der vorgeschlagenen Wörterbucharchitektur (Abschnitt 3.2). Dem folgt eine Diskussion monohngualer lexikalischer Spezifikationen, wie sie für die Zwecke von DELIS definiert wurden (vgl. Kapitel 4), d.h. eine Beschreibung der "Implementierung" anhand von Beispielen. In Kapitel 5 werden Probleme der Abfrage und

7

8

Eine formale Definition, z.B. in Backus-Naur-Form, wird nicht gegeben. Sie könnte jedoch auch als externe Schema-Definition, wiederum im hier verwendeten Formalismus, angegeben werden. Vgl. dazu die Diskussion in [Emele/Heid 1993], wo gezeigt wird, wie eine formale Meta-Schema-Definition, eine Schema-Definition und die lexikalischen Klassen- und Instanzen-Definitionen für die Wörterbuchfragmente von DELIS formuliert werden können, und wie die verschiedenen Definitionsebenen zusammenhängen. Computerlinguisten, die im constraint-basierten Paradigma arbeiten, können Abschnitt 3.1 ohne Informationsverlust überschlagen.

der Anwendung constraint-basierter Lexika besprochen. Dabei werden bewußt zum Teil auch Beispiele diskutiert, die über die in Kapitel 4 vorgestellten Phänomene hinausgehen. In Kapitel 6 werden Möglichkeiten der Strukturierung von kontrastiven Beschreibungen diskutiert. Zunächst werden empirisch Klassifikationen von kontrastiven lexikalischen Problemen vorgestellt, dann wird gezeigt, wie sich diese in der maschinellen Ubersetzung und in der Lexikographie benutzen lassen. Man kann auch Teile dieses Buchs selektiv lesen und nur bestimmte Themen verfolgen. Die Diskussion allgemeiner Aspekte der Wörterbucharchitektur verteilt sich in folgender Weise: in Abschnitt 2.1 werden Probleme der Wiederverwendung lexikalischer Information und damit eine der zentralen Anforderungen an die zu erstellenden Wörterbuchkonzepte untersucht. Zusammen mit den Resultaten einer Diskussion der Besonderheiten, welche bei zweisprachigen Wörterbüchern hinzutreten, fließen die in Abschnitt 2.1 zusammengestellten Aspekte in die Anforderungsdefinition in Abschnitt 2.3 ein. Die funktionale Spezifikation der allgemeinen Architekturprinzipien erfolgt in Abschnitt 3.2. Aus der Sicht der Anwendung werden Möglichkeiten der Abfrage der so repräsentierten lexikalischen Information in Kapitel 5 diskutiert. Die kontrastiven Aspekte hängen, wie oben angedeutet, mit den allgemeinen Fragen der Lexikonarchitektur und mit den monolingualen Wörterbuchfragmenten eng zusammen. Ein Überblick über die lexikographische Praxis wird in Abschnitt 2.2 gegeben. Die Resultate einer vergleichenden Bewertung der lexikographischen Ansätze fließen in die Anforderungsdefinition in Abschnitt 2.3 ein. In Abschnitt 6.1 werden bestehende Vorschläge zur Klassifizierung lexikalischer Übersetzungsprobleme diskutiert, die eine weitere Grundlage für die Organisation zweisprachiger Wörterbücher darstellen. Beispiele für Implementierungen, die aufgrund dieser Klassifikation entwickelt werden können, sind in den Abschnitten 6.4 und 6.5 angegeben. Die Frage der Wiederverwendbarkeit der lexikalischen Beschreibungen zieht sich ebenfalls als "Leitmotiv" durch dieses Buch. Abschnitt 2.1 ist dieser Problematik gewidmet. Arbeiten aus der praktischen Lexikographie, die zu "wiederverwendbaren" zweisprachigen Wörterbüchern führen, werden in Abschnitt 2.2 vorgestellt. Praktische Vorschläge für den "Wörterbuchexport" und für vergleichbare Anwendungen werden in Abschnitt 5 diskutiert. Für zweisprachige Wörterbücher wird in Abschnitt 6.4 auf Möglichkeiten hingeweisen, wie eine allgemeine Phänomenklassifikation sowohl als Grundlage für transfer-basierte Systeme, als auch für den Interlingua-Ansatz dienen kann.

1.2 1.2.1

Einige Grundbegriffe Elektronische Wörterbücher

Bevor Vorschläge für die Strukturierung von elektronischen Wörterbüchern diskutiert werden können, muß hier zunächst der Begriff "elektronisches Wörterbuch" selbst etwas näher betrachtet werden. Der Begriff des "elektronischen Wörterbuchs" ist in den letzten Jahren als Oberbegriff für ganz verschiedene Produkte und Resultate von Forschungs- und Entwicklungsarbeit benutzt worden, und die Wörterbücher eines großen maschinellen Übersetzungssystems, werden zum Teil ebenso als "elektronische Wörterbücher" bezeichnet, wie die von verschiedenen Unternehmen angebotenen Produkte im Taschenrechnerformat, die den Wortschatz eines Reisewörterbuchs in einem Display anzeigen können. Auch in der Diskussion in der Computerlinguistik bzw. Computational Lexicography

wird der Terminus mitunter unscharf verwendet. Dort wird neben dem "electronic dictionary" auch von "lexical databases", "machine readable dictionaries" und "artificial intelligence lexicons" gesprochen, z.B. bei [ZampoUi 1994] und [Atkins/Levin/Zampolli 1994]. Die Termini heben technische Kriterien (databases) hervor, oder den Zusammenhang mit Ressourcen in einem anderen Format {"machine readable dictionary": meint die in irgendeiner Form als Textdateien zur Verfügung gestellte Version eines gedruckten Wörterbuchs, in der Regel aus dem Satzband hergeleitet). Solche eher intuitiven Klassifizierungen geben eigentlich keinen Aufschluß über relevante Eigenschaften der jeweiligen Ressourcen, und eine etwas präzisere Beschreibung ist notwendig. Im Bereich der elektronischen Wörterbücher gibt es bislang noch keine eindeutig definierte Terminologie. Aus diesem Grund ist es sinnvoll, einige Charakteristika von elektronischen Wörterbüchern im folgenden kurz zu diskutieren. Hieraus ergibt sich eine Reihe von Parametern, nach denen elektronische Wörterbücher beschrieben werden können. 1.2.1.1

Parameter der Beschreibung elektronischer Wörterbücher Überblick

Den ersten Versuch einer Klassifikation elektronischer Wörterbücher, die über die oben genannten "Etiketten" hinausgeht, haben [Martin/Woltering 1989] unternommen. Das Ziel ihrer Typologie elektronischer Wörterbücher ist eine "globale" Beschreibung des Stands von Wissenschaft und Technik in diesem Bereich; Martin/Woltering verwenden eine Reihe von Parametern, entlang derer sie die in ihrem Forschungsüberblick zusammengestellten elektronischen Wörterbücher beschreiben und klassifizieren. Martin/Woltering streben keine vollständige und strikte Klassifikation an: • Physikalische Form der Ressource; • Grad der Formalisierung von Bedeutungsbeschreibungen; • Zusammenhang mit anderen Ressourcen oder mit Computerwerkzeugen; • Anwendungsorientierung der semantischen Beschreibung; • Anwesenheit bzw. Abwesenheit von extralinguistischen Beschreibungen, wie beispielsweise domänenspezifischer Information. Die prominentesten Klassen von elektronischen Wörterbüchern, die anhand dieser Beschreibungsparameter von [Martin/Woltering 1989] identifiziert werden, sind folgende®: • Papierwörterbücher; • "Computer based dictionaries"; • "machine readable dictionaries"; • Lexikalische Datenbanken und Termbanken; • "machine dictionaries";

9

Einige werden bewußt im englischen Original-Wortlaut zitiert, weil eine Übersetzung u.U. interpretierenden Charakter hätte.

• "lexical databases"; • "Artificial Intelligence lexicons". Die von Martin/Woltering identifizierten prominenten Beispielfälle für Wörterbücher und die Kriterien zeigen, daß die in [Martin/Woltering 1989] beschriebene Klassifikation speziell im Hinblick auf die Untersuchung der semantischen Beschreibungen in elektronischen Wörterbüchern unternommen worden ist. Sie ist für unsere Zwecke nicht allgemein genug. Obwohl natürlich jede Klassifikation für einen speziellen Zweck durchgeführt wird, und obwohl insofern jede Typologie die Aspekte wiederspiegelt, die für die jeweilige Zielsetzung als besonders relevant erachtet werden, kann man doch versuchen, elektronische linguistische Ressourcen etwas genereller zu beschreiben. Der Zweck unseres Klassifikationsversuchs ist es, die wichtigsten Aspekte der Form der Wörterbücher (Repräsentationsformalismus, Strukturierung, Organisation usw.), ihres Inhalts (Mikro- und Makrostruktur), sowie des Zusammenhangs zwischen beiden deutlich zu machen. Dazu werden die folgenden Beschreibungskriterien (wiederum, wie bei [Martin/Woltering 1989], als nicht-ausschließliche Parameter) benutzt: • Die Anwendungsorientierung der Ressource: Antwort auf die Frage, ob die Ressource für eine bestimmte Art von Anwendung (interaktiv oder automatisch) konzipiert ist, oder ob sie in dem Sinne "multifunktional" ist, daß sie verschiedene lexikographische u n d / o d e r verschiedene NLP-Anwendungen versorgt oder versorgen soll. • Eine inhaltliche Beschreibung der Ressource: hinsichthch Makrostruktur, Mikrostruktur, Umfang der Ressource und theoretischer Fundierung der Beschreibungen. • Die formale Organisation der Ressource: Zusammenhänge zwischen deskriptiver Seite und Repräsentationsseite; Dokumentation. • Technische Eigenschaften der Ressource: hinsichtlich Repräsentationsformat oder -formalismus, Speichermedium, zugrundeliegender Software usw.). • Zusammenhang der zu beschreibenden Ressource mit anderen, gedruckten oder elektronisch repräsentierten Ressourcen. Diese sehr allgemeinen Beschreibungskriterien sind in ähnlicher Weise für die Zwecke der EuROTRA-7-Studie (vgl. [Heid/McNaught 1991]) und, darauf aufbauend, für die RELATOR-Studie zu linguistischen Ressourcen^" ([Hinkelman (Ed.) 1995]) benutzt worden^^ Im Falle der beiden genannten Studien kommen zusätzliche, nicht-linguistische Angaben

10 RELATOR ist eine von der Europäischen Kommission, Luxenburg, DG XIII E4, im Rahmen des LRE-2Programms in Auftrag gegebene Studie über die Möghchkeit der Reahsierung einer zentralen europäischen Institution für die Katalogisierung und den Vertrieb linguistischer Ressourcen (LRE-62.056). Das Projekt (12-1993 bis 08-1995) hat zur Errichtung der European Linguistic Resources Association, ELRA, geführt, die, 1995 gegründet, von 1996 an eine dem Linguistic Data Consortium, LDC, in den USA vergleichbare Rolle übernehmen soll. RELATOR hat einen ersten Katalog von linguistischen Ressourcen produziert; ELRA soll diese Arbeit weiterführen. 11 Die allgemeinen Beschreibungsparcimeter wurden für die Zwecke von RELATOR so weitgehend generalisiert, daß sie auf alle Arten von Ressourcen (Textcorpora, Wörterbücher, Speech-Samples, Grammatiken, Werkzeuge) angewendet werden konnten. Die speziellere Typologie der elektronischen Wörterbücher wurde vom Autor für die Zwecke von EUROTRA-7 entwickelt und dann für RELATOR weitergeführt. Sie wurde auch im Projekt MULTILEX nahezu unverändert übernommen. Die Nähe

10 hinzu, wie beispielsweise Information über Eigentumsrechte, Verfügbarkeit, und über die Autoren der betreffenden Ressourcen. In Abbildung 1.1 sind die wichtigsten Kriterien zusammengestellt, nach denen im Rahmen von RELATOR elektronische Wörterbücher beschrieben wurden. 1.2.1.2

T y p e n elektronischer Wörterbücher - g e m e i n s a m e Eigenschaften

Für jeden der oben angegebenen Beschreibungsparameter werden im Folgenden jeweils einige relevante Merkmale angegeben. Anwendungsorientierung: die Anwendungsorientierung eines Wörterbuchs bezeichnet die angestrebte hauptsächliche Benutzung, die der Wörterbuchentwickler für das Wörterbuch vorsieht. Auf einer obersten Ebene sollte zwischen "multifunktional" konzipierten Ressourcen und anwendungsspezifischen Ressourcen unterschieden werden Gleichzeitig sollte mindestens zwischen dreierlei möglichen Anwendungssituationen unterschieden werden: • Benutzung der lexikalischen Ressource als gedrucktes Wörterbuch; das Wörterbuch liegt daneben "maschinenlesbar" vor; • Benutzung der Ressource als interaktiv benutztes elektronisch repräsentiertes Wörterbuch ("Lookup-Wörterbücher"); • Benutzung der Ressource in einem sprachverarbeitenden System, normalerweise vollautomatisch und ohne interaktiven Zugriff. Inhaltliche Beschreibung: wie bei gedruckten Wörterbüchern sind makrostrukturelle und mikrostrukturelle Aspekte zu unterscheiden. • Makrostrukturelle Kriterien: - behandelte Sprache bzw. Sprachen; Sprachrichtung im Falle von Übersetzungswörterbüchern; behandeltes (Fachsprachen-)Fragment; - Lemmabestand: Umfang der Makrostruktur; - Lemmaselektion und Kriterien für Lemmastatus linguistischer Objekte (welche linguistischen Objekte haben Lemmastatus, welche können einzeln abgefragt werden: z.B., neben den üblichen Lemmata, auch flektierte Formen, MehrwortEinheiten, Morpheme, Abkürzungen etc.); - Organisation und Gruppierung der Artikel: z.B. semasiologische vs. onomasiologische Wörterbuchorganisation.

zu metalexikographischen Ansätzen zur Beschreibung von Wörterbüchern ist deuthch. Die hier beschriebene Kriterienliste wurde im Zusammenhang der EuROTRA-7-Studie auf rund 30 elektronische lexikalische Ressourcen des Deutschen und ungefähr 100 weitere elektronische Wörterbücher verschiedener anderer europäischer Sprachen angewendet und hat sich als ausreichend hierfür erwiesen. Im Fall der EuROTRA-7-Studie wurden sehr detailherte Beschreibungen von einzelnen prominenten Ressourcen für sechs europäische Sprachen Eingefertigt (pro Ressource ca. 3-4 Seiten Text mit zusammenfassender Tabelle und einzelnen Beispielen aus der Benutzung der jeweiligen Wörterbücher); im Rahmen von RELATOR wurde lediglich ein allgemeiner Überblick über die Situation für die wichtigsten europäischen Sprachen Eingefertigt. 12 Vgl. die detaillierte Diskussion über wiederverwendbare lexikalische Beschreibungen und multifunktionale Wörterbücher in Abschnitt 2.1.1.

11

MRD Version of human use dict. Look-up dict. for human use Application NLP system dict. other Items with lemma status Macrostructure

Grouping of lemmas Fragment covered

Content

Levels described Microstructure

Elementary units per level underlying approach markup, repres. language (cf. Microstr. / Macrostr.)

Explicit

assessment of transformability

Representation — Implicit Storage Technical

Consistency of markup (checking possibilities)

lexicographic Conventions internal structure of entires

Representation language (formal aspects) Interfaces and integratability (cf. usage context) derived from other source(s)

Relationships

not derived legal aspects

Availability

cost of resource cost of use/adaptation

Abbildung 1.1: Schema der Parameter zur Beschreibung elektronischer Wörterbücher ( n a c h E U R O T R A - 7 u n d RELATOR)

12

• Mikrostrukturelle Kriterien: zu den mikrostrukturellen Kriterien gehört das Inventar der linguistischen Beschreibungsebenen, zu denen das Wörterbuch Informationen enthält, eine Beschreibung der zugrundeliegenden linguistischen Theorie bzw. des Beschreibungsansatzes (z.B. bei Instruktionsbüchern von gedruckten Wörterbüchern) , sowie eine Beschreibung der benutzten linguistisch-lexikographischen Beschreibungsmittel und ihrer Dokumentation^^. Wie in der traditionellen (meta) lexikographischen Beschreibung, werden folgende linguistische Beschreibungsebenen unterschieden, für die in einem elektronischen Wörterbuch Angaben vorhanden sein können: - Orthographische Beschreibung (mit Beschreibung von orthographischen Varianten, Trennmöglichkeiten usw.); - Phonetisch-phonologische Beschreibung (Angabe der Lautgestalt); - Morphologische und morphosyntaktische Beschreibung (morphosyntaktische Eigenschaften von Wortformen, eventuell Zusammenhänge mit (möglicherweise Wörterbuch-externen) Morphologie-Systemen bzw. Klassifizierungen des Flexionsverhaltens); - Syntaktische Beschreibung auf der kategorialen bzw. phrasenstrukturellen Ebene (Klassifikation des zu beschreibenden linguistischen Objekts hinsichtlich seiner Wortart, sowie der ggf. von ihm subkategorisierten Ergänzungen); - Relationale bzw. funktional-syntaktische Beschreibung (bei linguistischen Objekten, die als Prädikate aufgefaßt werden können und Ergänzungen subkategorisieren: Angabe der syntaktischen Funktion dieser Ergänzungen); - (lexikalisch) semantische Beschreibung (Definitionen, Sortenangaben, semantische Merkmale, Bedeutungspostulate usw.; Bedeutungserläuterung); - Relational-semantische Beschreibung (lexikalisch-semantische Relationen mit anderen linguistischen Objekten; (Quasi-)Synonymie, Hyp(er)onymie usw.); - Text-semantische Beschreibung (z.B. Vor- und Nach-Bedingungen, mögliche Inferenzen, andere für die Diskurs-Interpretation relevante Informationen); - "Lexikalisch-pragmatische Beschreibung" (diasystematische Markierung, Klassifikation nach Stil-, Fachsprachen-, Textsortenkriterien usw.). Die Beschreibung der formalen Grundlagen bzw. der linguistischen Beschreibungstheorie kann durch einfachen Verweis auf diese Theorie erfolgen. In der Regel ist für jede linguistische Theorie bekannt, bzw. nachvollziehbar, welche Beschreibungsmittel sie verwendet. Allenfalls muß separat beschrieben werden, welche Beschreibungsmittel zum Einsatz kommen. Ebenso muß ggf. deutlich gemacht werden, welche Art extralinguistischer Information vorhanden ist (z.B. Verweise auf Bilder, Geräusche; Verweise auf Elemente eines Domänenmodells, usw.). Formale Organisation des Wörterbuchs: Die Organisation kann explizit oder implizit erfolgen. Explizit organisierte Wörterbücher sind solche, bei denen jeder Angabetyp separat identifizierbar ist und Anfang und Ende jeder einzelnen Angabe (Terminus im Sinne von

13 Außerdem kann an dieser Stelle das Vorhandensein extralinguistischer Information berücksichtigt werden; vgl. [Martin/Woltering 1989].

13 Wiegands metalexikographischer Theorie) anhand der Markierungen feststellbar sind. Dagegen sind implizit organisierte Ressourcen solche, bei denen der Angabetyp und Anfang und Ende einer bestimmten Angabe aus dem Wörterbuchtext mit den Mitteln der metalexikographischen Wörterbuchanalyse erschlossen werden muß. Kennzeichen explizit organisierter Wörterbücher ist das Vorhandensein eines irgendwie gearteten Markup^^ oder bestimmter, voneinander unterscheidbarer Datentypen zur Repräsentation von Angaben unterschiedlichen Typs^®. Technische Eigenschaften: die technischen Eigenschaften einer lexikalischen Ressource betreffen das Speichermedium und die Repräsentation des Wörterbuchs (als Datenbank, Textdatei, Datentypen einer Programmiersprache, komprimiert/unkomprimiert, Anzahl und Formate von Dateien usw.). Zusammenhang mit anderen Ressourcen: "machine readable dictionaries" stehen oft in eingem Zusammenhang mit einem gedruckten Wörterbuch. In solchen Fällen hat das elektronische Wörterbuch zwar andere technische Eigenschaften als das gedruckte, jedoch bleiben die inhaltlichen und die Wörterbuchorganisatorischen Parameter gleich wie beim gedruckten Wörterbuch, oder sie lassen sich bei Kenntnis des "zugrundeliegenden Wörterbuchs" leichter erschließen. 1.2.1.3

Relevanz der Beschreibungsparameter für das D e s i g n von elektronischen Wörterbüchern

Die oben genannten Parameter zur Beschreibung elektronischer Wörterbücher können einerseits für die Beschreibung bestehender lexikalischer Ressourcen benutzt werden, andererseits sollten sie in die Anforderungsdefinition für die Entwicklung neuer elektronischer Wörterbücher hinein: der Entwickler muß sicherstellen, daß für die zu entwickelnde Ressource hinsichtlich der hier beschriebenen Parameter geeignete Entscheidungen getroffen werden. Hierbei spielen insbesondere die makro- und mikrostrukturellen Kriterien, sowie Fragen des Zusammenhangs zwischen den angestrebten Organisationsprinzipien und den technischen Eigenschaften der Ressource für die Definition einer geeigneten Wörterbucharchitektur eine Rolle. In Kapitel 3.2 wird ein Vorschlag für Architekturprinzipien für elektronische Wörterbucher gemacht; in Kapitel 4 werden Beispielfragmente diskutiert, die nach diesen

14 Beispielsweise die Annotation von Textdateien mit SGML (Standard Generalized Markup Language). 15 In Wörterbüchern von NLP-Systemen können das z.B. Attribut-Wert-Strukturen sein, bei denen die einzelnen Attribute durch unterschiedliche Attributnamen voneinander unterschieden werden. Nicht sämtliche elektronischen Wörterbücher sind explizit organisiert. Vielmehr wird gerade in "Lookup"Versionen gedruckter Wörterbücher, die als Textdateien vorliegen, oft auf eine eindeutige Unterscheidung zwischen Angabetypen verzichtet, selbst wenn eine eindeutige Unterscheidung von Textsegmenten durch unterschiedliche typographische Auszeichnungskonventionen möglich ist. Da in der Regel die Typographie in Wörterbuchtexten mehrdeutig ist (z.B. können kursiv gedruckte Teile in ein und demselben Eintrag durchaus Definitionen oder Beispiele sein), ist es nicht trivial, aufgrund der Typen von unterschiedlich ausgezeichneten Textstücken eindeutig zu rekonstruieren und automatisch zu inferieren, welche Angabetypen vorliegen. Vgl. hierzu auch die Probleme der Reinterpretation von gedruckten Wörterbüchern, die in Abschnitt 2.1.2.5 diskutiert werden. Außerdem können z.B. Hierarchien von Einträgen, bei denen Information durch Vererbung bereitgestellt wird, imphzit organisiert sein; es kann daher nötig sein, in einem Lexikon-Formalismus die Unterscheidung zwischen "er-erbter" und "lokal definierter" Information deutlich zu machen (insbesondere für die Zwecke der interaktiven Erweiterung der Wörterbücher).

14 Prinzipien erstellt worden sind. Ohne vorgreifen zu wollen, können wir hier bereits einige Charakteristika der unten im Detail beschriebenen Wörterbücher anhand der oben diskutierten Parameter zusammenstellen. • Anwendungsorientierung: die Ressource soll multifunktional sein, insofern sie verschiedene sprachverarbeitende Anwendungen bedienen soll. Außerdem soll es möglich sein, aus der zu entwickelnden Ressource Material für ein interaktiv abzufragendes elektronisch repräsentiertes Wörterbuch abzuleiten. Anwendungsspezifische Präsentationformen sollen über eine spezielle Export-Komponente aus der formal repräsentierten Beschreibung abgeleitet werden; vgl. Abschnitt 5.2). • Inhaltliche Beschreibung: - Makrostruktur: die Beispielfragmente stammen aus Französisch und Deutsch, Englisch und Niederländisch, sowie Italienisch; die Fragmente beinhalten nur Verben aus dem lexikalisch-semantischen Feld der Wahrnehmung, jedoch sind die Architekturvorschläge auch über diesen Bereich hinaus generalisierbar. - Mikrostruktur: die hier vorgestellten Modellierungen konzentrieren sich auf die orthographische, kategorial- und funktional-syntaktische und lexikalischsemantische Beschreibung. Zum Teil werden "lexikalisch-pragmatische" Aspekte mitberücksichtigt. Der zugrundeliegende Beschreibungsansatz ist von HPSG (Head-Driven Phrase Structure Grammar, vgl. [Pollard/Sag 1994]) inspiriert, der Theorie aber nicht so weitgehend verpflichtet, daß angestrebt würde neue Vorschläge zur lexikalischen oder linguistischen Beschreibung mit HPSG zu machen. Dies erklärt sich schon aus der Zielsetzung der "Multifunktionalität". Für die lexikalisch-semantische Beschreibung wird Filimores Frame Semantics benutzt; auch hier gilt dasselbe: die Theorie dient als Beispielfall für die Anwendung der Lexikonarchitektur. • Organisation der Ressource: das Wörterbuch soll durchgängig explizit organisiert sein. Der Repräsentationsformalismus TFS (Typed Feature Structures) wird verwendet. Er wird in Abschnitt 3.1 detailliert beschrieben. • Technische Eigenschaften: die Benutzung von TFS als Repräsentationsformalismus führt dazu, daß TFS-Definitionen als Textdateien (ASCII files) repräsentiert werden. • Zusammenhang mit anderen Ressourcen: die Beispielfragmente wurden neu konzipiert'®. Die einzelsprachlichen Teilfragmente sind parallel (gleiche Beschreibungsmittel; die Fragmente sind eineinander übersetzbar). 1.2.2

Probleme der kontrastiven lexikalischen Beschreibung

Die Vorschläge zur Wörterbuchstrukturierung, die hier entwickelt werden, sind vor dem Hintergrund von maschinellen Übersetzungssystemen (MÜ-Systemen) zu sehen. Die wichtigsten Aspekte von maschinellen Übersetzungssystemen werden in diesem Zusammenhang als bekannt vorausgesetzt. In einschlägigen Überblicksdarstellungen werden die Grund-

16 Die TFS-Modellierung beruht auf informeller lexikographischer Beschreibungsarbeit, die von den Mitgliedern des DELIS-Projekts geleistet wurde; die DELIS-Partner haben aber nicht selbst TFSModellierungen produziert.

15 prinzipiell der bestehenden MÜ-Systeme detailliert beschrieben^''. Die meisten regelbasierten maschinellen Übersetzungssysteme (also nicht solche, die statistische Verfahren zur Berechnung der wahrscheinlichsten Ubersetzungsäquivalente verwenden) folgen entweder dem Transfer-Ansatz oder dem Interlingua-Ansatz. Beide Verfahren gehen auf stratifikationelle Beschreibungsansätze zurück. Im Falle des Transfer-Ansatzes wird davon ausgegangen, daß das Ubersetzungssystem zunächst quellsprachliche Sätze analysiert und die aus den Quellsprachsätzen abgeleiteten abstrakten Repräsentationen auf andere abstrakte Repräsentationen abbildet, aus welchen zielsprachliche Sätze generiert werden können. Demgegenüber wird im Rahmen des Interlingua-Ansatzes versucht, abstrakte Repräsentationen so zu formulieren, daß sie gleichermaßen geeignet sind, quellsprachliche und zielsprachliche Äußerungen oder Teile davon adäquat zu beschreiben. Wo dies möglich ist, entfällt die Notwendigkeit einer eigenen Abbildung zwischen den einzelsprachspezifischen abstrakten Repräsentationen.

—

—

MO/SY: c-fltr.

MO/SY: c-atr. -

Pf-str. 1• -

SYN: ~f.str. ... Q^

SEAL

\

lex. sem.

lex. sem. ... Q--

R* -

_

—

Abbildung 1.2; Vereinfachtes Schema des Transfer-Ansatzes In den Abbildungen 1.2 und 1.3 sind die beiden Ansätze schematisch und anhand einer sehr vereinfachten linguistischen Beschreibung (nur morphosyntaktische, syntaktische und semantische Beschreibungen) dargestellt. Beim Transferansatz (Abbildung 1.2 werden die funktional-syntaktischen Strukturen und/oder die Prädikat-Argument-Strukturen von Quell- und Zielsprache durch gerichtete Abbildungen verbunden. In einem interlingua-basierten Modell wird dagegen angenommen, daß es eine Repräsentation gibt, die die Bedeutung sowohl der quell- als auch der zielsprachlichen Äußerungen auszudrücken vermag. Das Schema in Abbildung 1.3 ist bewußt analog zu Abbildung 1.2 gehalten; dort ist die semantische Teilbeschreibung hinterlegt: sie dient als gemeinsame Repräsentation für Quell- und Zielsprache^®. Man hat, beispielsweise in Vorbereitungsdiskussionen für das VERBMOBIL-Projekt^®, ausführlich über die Zusammenhänge zwischen Transfer- und Interlingua-Ansatz disku-

17 Vgl. beispielsweise [Nirenburg (Ed.) 1987], dort insbesondere die Einführung von [Tucker 1987]; vgl. auch [Arnold et al. 1994]. Einen Überblick über maschinelle Übersetzungssysteme, die in der Praxis angewendet werden, geben [Slocum 1988], sowie, für ein deutsches Publikum [Schwanke 1991). 18 In beiden Ansätzen wird Interaktion zwischen den einzelnen ebenenspezifischen Teilbeschreibungen, beispielsweise durch relationale Abbildungen, vorausgesetzt 19 VERBMOBIL ist ein Verbundprojekt des Bundesministeriums für Bildung, Wissenschaft, Forschung und Technologie zur maschinellen Übersetzung gesprochener Sprachen.

16

MO/SY: c-8tr.

MO/SY: c-str.

SYN:

f-str.

SYN:

f-str.

SEM:

lex. gern

SEM:

lex. sein

Abbildung 1.3: Vereinfachtes Schema des Interlingua-Ansatzes tiert. In VERBMOBIL^" wird ein Transfer-Ansatz verfolgt, bei dem Information mitbenutzt werden kann, die über die quell- und zielsprachlichen Beschreibungen generalisiert werden kann, z.B. zur Repräsentation von lokalen oder temporalen Relationen (in VERBMOBIL wurde vorgeschlagen, die "Analysetiefe" variabel zu halten, d.h. je nach dem Bedarf der Übersetzung mehr oder weniger abstrakte (semantische und ggf. domänenspezifische) Information in die Repräsentationen einzubinden). In Kapitel 4 werden Beispiele für monolinguale lexikalische Beschreibungen gegeben. Diese könnten mit geringem Aufwand in ein auf HPSG-Grammatiken aufbauendes interlingua-basiertes experimentelles MU-System eingebracht werden, dessen Grundlagen und Funktionsweise zuerst in [Heid/Kuhn 1994] beschrieben worden sind. Für die Quellsprache und die Zielsprache werden jeweils HPSG-(artige) Beschreibungen aufgebaut, und die angereicherten Prädikat-Argument-Strukturen (Werte des "CONT(ent)"Attributs) werden als gemeinsame abstrakte Repräsentation von Quell- und Zielsprache benutzt. In diesem System enthalten die Lexikoneinträge gleichberechtigte Teilbeschreibungen der Wortformen (Lautgestalt, bzw. Orthographie unter dem "PHON(ology)"-Attribut), der syntaktischen Struktur (unter dem Attribut "CAT(egory)") und der semantischen Struktur (Prädikat-Argument-Strukturen, unter dem Attribut "CONT(ent))". Liegen im oben diskutierten Sinne parallele Grammatiken vor, so können quell- und zielsprachliche Grammatiken und Lexika miteinander kombiniert werden. Die Analyse der Quellsprache besteht darin, daß ein Satz, von dem zunächst nur die Zeichenkette bekannt ist, mit den Definitionen von Grammatik und Lexikon verglichen wird. Das Ergebnis ist eine vollständig spezifizierte Struktur, in der zusätzlich zur Zeichenkette eine von der Grammatik abgeleitete syntaktische und semantische Beschreibung ausgegeben wird. Analog hierzu kann man die zielsprachliche Grammatik und ihr Lexikon mit dem Wert des CONT(ent)-Attributs abfragen. Wiederum wird die gesamte, vollständig spezifizierte Satzbeschreibung erzeugt, wobei in diesem Fall Syntax und Zeichenkette ergänzt werden, jetzt anhand der zielsprachlichen Spezifikation. Man kann den ersten Vorgang (von der Textform zur vollständigen Beschreibung) als "Analyse", den zweiten Vorgang (von der Bedeutungsbeschreibung zur vollständigen Beschreibung, inklusive Textform)

20 Im Rahmen der vorliegenden Arbeit konnten aus Gründen der Überlagerung der Erscheinungstermine die neuesten Arbeiten des VERBMOBIL-Projekts nicht oder nur zu einem geringen Teil berücksichtigt werden. Die Vorbereitungsdiskussion ist z.B. in [Kay/Gawron/Norvig 1994] dargestellt.

17

? FHOfi (l

missmyäictionary)

PHON(A/• DE). Hierauf wird in Abschnitt 2.2.3.5 detailliert eingegangen. Demgegenüber ist der direktionale Ansatz auf Effizienz der Präsentation angelegt. Die "Mitwirkung" des Benutzers, d.h. der Einbezug seiner Quellsprachkompetenz wird maximal ausgenützt: Isomorphie-Situationen zwischen Quell- und Zielsprache werden bei der Präsentation von AquiValenzbeschreibungen speziell behandelt: in den Fällen, wo Quellund Zielsprache sich analog verhalten, wird dem Benutzer dieser Sachverhalt signalisiert, und es wird auf eine detaillierte Beschreibung zielsprachlicher Einheiten verzichtet. Umgekehrt wird explizit auf Unterschiede zwischen quell- und zielsprachlicher Realisierung hingewiesen, und es werden all diejenigen Unterscheidungen der Zielsprache hervorgehoben, die für den Benutzer unklar sein könnten. Insofern diese Unterschiede sich aus den (in der Regel dem Benutzer nicht (vollständig) bekannten) Eigenschaften der zielsprachlichen Lexeme oder der "Realien" bzw. Konzepte der hinter der Zielsprache stehenden Kultur erklären lassen, muß die zielsprachseitige Beschreibung in diesen Fällen besonders detailliert, explizit und ggf. kontrastierend sein. Interessant ist in diesem Zusammenhang, daß das direktionale Wörterbuch auch die explizite Unterscheidung von Lesarten dort vermeidet, wo in Quell- und Zielsprache dieselben Lesartenunterscheidungen vorliegen, jedoch in beiden Sprachen die jeweiligen Lesarten in einem Lexem zusammenfallen. Analoge Vorgehensweisen wurden im Rahmen der maschinellen Übersetzung diskutiert, mit den Ziel der "Erhaltung von Ambiguitäten": wenn Quell- und Zielsprache dieselben Mehrdeutigkeiten aufweisen, so ist es nicht notwendig, daß bei der Übersetzung eine vollständige Disambiguierung erfolgt; die Lesarten, die im

46 [Baunebjerg Hansen 1990] stellt fest, daß die Mikrostruktur von Van Dale-Wörterbüchern im Vergleich mit anderen Wörterbüchern besonders stark standardisiert ist.

49 quellsprachlichen Material unterschieden worden wären, würden bei der Übersetzung in die Zielsprache wieder zusammenfallen. In Abbildung 2.10 sind schematisch (von oben nach unten) drei Äquivalenzsituationen angegeben; im ersten Fall hat ein quellsprachliches Lexem (im Bild: linke Seite, "QS") zwei unterschiedliche Bedeutungen (im Bild: Ovale in der Mitte der Zuordnungs-Graphen, "Sem"), von denen jede zu einer eigenen zielsprachlichen Ubersetzung führt. Sowohl das direktionale Wörterbuch als auch das nicht-direktionale würden eine detaillierte Beschreibung dieser Situation für nötig halten. Q^

( g )

oo;o

Abbildung 2.10: Äquivalenz-Situationen Im zweiten Teilbild fallen die Bedeutungen von zwei verschiedenen quellsprachlichen Lexemen zusammen (Quasisynonyme). Im direktionalen Wörterbuch würde man zwei (einfache, nicht notwendig sehr elaborierte) Einträge finden. Im nicht-direktionalen Wörterbuch finden sich ebenfalls zwei separate Wörterbucheinträge. Die Bedeutungserläuterungen der beiden quellsprachlichen Lesarten sind jedoch (idealerweise) analog; anderenfalls sollten sie so gestaltet sein, daß eventuelle Nuancen, in denen sich die beiden Lesarten doch noch unterscheiden, sichtbar gemacht werden. Der im dritten (unteren) Teilbild dargestellte Fall illustriert die Vorgehensweise bei der "Erhaltung von Ambiguitäten": ein quellsprachliches Lexem hat zwei Lesarten. Beide "fallen in der Zielsprache zusammen", sodaß es nur ein zielsprachliches Lexem als Äquivalentkandidat für beide Lesarten gibt. Das direktionale Wörterbuch verzichtet in einem solchen Fall auf eine detaillierte Beschreibung der quellsprachlichen Polysemie und setzt einen einzigen Eintrag (bzw. eine Äquivalentangabe) an. Das nicht-direktionale Wörterbuch macht zwei Einträge: je einen für jede Lesart, selbst wenn das zielsprachliche Lexem als Äquivalentvorschlag in den beiden einzelnen Einträgen (redundant) wiederholt wird. Aus präsentationeller Sicht ist das direktionale Wörterbuch erheblich spezialisierter (und auf die Benutzungssituation - sprachrichtungsabhängige Übersetzung in die unbekannte Zielsprache - genauer zugeschnitten) als das nicht-direktionale Wörterbuch: das ideale direktionale Wörterbuch bietet alle nötige Information und nur gerade so viel In-

50 formation wie nötig. Dagegen ist das nicht-direktionale Wörterbuch modularer, um den Preis gelegentlicher Redundanz. Man könnte sich vorstellen, daß aus einer für ein nicht-direktionales Wörterbuch konzipierten Datengrundlage durch die Anwendung der Präsentationsprinzipien der direktionalen Wörterbücher durchaus ein Wörterbuch im (speziellen) Präsentationsformat des direktionalen Ansatzes abgeleitet werden könnte. 2.2.2.5

Vergleich der Verfahren der Wörterbuchstrukturierung a n h a n d v o n Beispielen - Zwischenbilanz

In Abschnitt 2.2.2.4 wurde der Unterschied zwischen direktionalen und nicht-direktionalen Wörterbüchern im wesentlichen als ein Problem der Präsentation dargestellt. Diese Einordnung kann anhand eines einfachen Beispiels illustriert werden. Zu diesem Zweck werden im folgenden einige Beispiele von Wörterbucheinträgen für einen Internationalismus diskutiert. Als Beispiel sollen das Lexem DE Organisation und seine Äquivalente dienen. Ein Internationalismus wird verwendet, weil wir für die "über verschiedene Sprachen hinweg verwandten" Lexeme ohne Schwierigkeiten das Vorhandensein von analogen Lesartenunterscheidungen zeigen können. Der Fall von DE Organisation, EN Organization, NL organisatie usw. ist eine Instanz des dritten Typs der in der Abbildung 2.10 oben (Seite 49) dargestellten Äquivalenzsituationen. Die englischen, niederländischen und französischen Äquivalente von DE Organisation sollen nachfolgend kurz diskutiert werden. Für das französische Lexem Organisation nehmen wir drei verschiedene Lesarten an, die im folgenden in einem für diesen Zweck zusammengestellten Eintrag angegeben sind (vgl. Abbildung 2.11)^''. Die drei für das französische Lexem unterschiedenen Lesarten werden sinngemäß auch bei den Äquivalenten in anderen Sprachen unterschieden. Im folgenden sind Ausschnitte aus Wörterbucheinträgen des niederländischen Definitionswörterbuchs von [Van Sterkenburg/Pijnenburg 1984] und des COBUILD-Wörterbuchs für Englisch^® angegeben (vgl. Abbildungen 2.12 und 2.13). Die Belege zeigen, daß für diesen Fall davon ausgegangen werden kann, daß unabhängig

47 Der Eintrag ist für den Zweck der vorliegenden Diskussion so formuliert worden; nahezu identische Definitionen finden sich aber in den gängigen einsprachigen Definitionswörterbüchern des Französischen, wie beispielsweise Le Petit Robert (PR), Dictionnaire Hachette du Frangais (DHE), LEXIS, Dictionnaire du fl-anfais vivant (DFV). In Tabelle 2.3 sind die in diesen französischen Wörterbüchern Bedeutung

Definition

Wörterbuch

1

Action d'organiser (qqch.); son resultat. Action d'organiser. Le fait d'organiser ou de s'organiser; son resultat. Fagon dont un ensemble est constitue en vue de son fonctionnement. Maniere dont un ensemble quelconque est constitue, regle. Fait d'etre organise de teile ou teil maniere. Association qui se propose des buts determines. Association, groupement. Association ä buts determines.

[PR] [DHF], [LEXIS] [DFV]

2

3

PR] DHF] LEXIS PR],[L EXIS] DHF] DFV]

Tabelle 2.3: Lesarten von Organisation in verschiedenen französischen Wörterbüchern 48 Die im Eintrag in Abbildung 2.13 in eckige Klammer gesetzten Textteile wurden von uns ergänzt.

51

Organisation, (1) l'action d'organiser qc., de mettre qc. dans an ordre ou une structure; (2) l'etat d'etre organise, structure d'une certaine fagon; Vordre; Ja structure; (3) un groupement de personnes; une association. Abbildung 2.11: Lesarten von F R

Organisation

organisatie, 0.1 hat organiseren. 0.2 het georganiseerd-zijn en de wijze waroop iets is georganiseerd. 0.3 georganiseerd (onstoffelijk) lichaam. Abbildung 2.12: NL organisatie

in [Van Sterkenburg/Pijnenburg 1984]

von der Aufgabe der Übersetzung (COBUILD und [Van Sterkenburg/Pijnenburg 1984] sind nicht aus der Ubersetzungssicht entwickelt worden) in der jeweiligen einzelsprachlichen Beschreibung des Französischen, Englischen und Niederländischen jeweils dieselben Lesarten unterschieden werden, also der Fall der "parallellaufenden" Polysemie vorliegt. An diesen Beispielen läßt sich der Unterschied in der Herangehensweise zwischen direktionalen und nicht-direktionalen Wörterbüchern besonders deutlich zeigen. Der niederländisch—^französische Eintrag aus dem nicht-direktionalen Van Dale-Wörterbuch ([AI et al. 1985]) ist in der Abbildung 2.14 angegeben. Dort wird die Einteilung in drei Lesarten übernommen, die sich im monolingualen Wörterbucheintrag findet (man

Organization, (1) [Organization] is the act of making the arrangements for a particular activity in order to make sure that everything happens as planned. (2) [Organization] is the structure of something, especially the way in which its different parts are related and how they werk together. (3) An Organization is a group, society, club or business, especially a large one that has particular aims. A b b i l d u n g 2.13: E N Organization

in COBUILD

52 vergleiche Abbildung 2.12 mit Abbildung 2.14). Die Numerierung der niederländischen Lesarten wird übernommen, und es wird jeweils ein zielsprachliches Äquivalent angegeben. Das französische Äquivalent ist trivialerweise zunächst der Internationalismus F R Organisation*^. Dementsprechend wird jeweils das Äquivalentpaar "NL organisatie •(->• F R Organisation" wiederholt.

o r g a n i s a t i e [...] 0 . 1 [het organiseren] Organisation

0.2 [het georganiseerd zijn, de wijze] Organisation structure, ordre 0.3 [vereniging] Organisation ^ groupement, organisme,

association

Abbildung 2.14: Eintrag s.v. organisatie im nicht-direktionalen Wörterbuch NL

FR

In einem direktionalen Wörterbuch wird dagegen die "Deckungsgleichheit" der Unterscheidungen in Quell- und Zielsprache zum Anlaß genommen, auf eine Bedeutungsdifferenzierung zu verzichten. Beispieleinträge aus einem französisch niederländischen Wörterbuch (Marabout) und aus einem französisch deutschen Wörterbuch (Klett Standardwörterbuch) sind in Abbildung 2.15 zusammengestellt. Jeweils findet sich nur eine Äquivalentangabe. Insbesondere in vom Umfang her kleineren Wörterbüchern wird dieses Verfahren sehr oft angewendet®".

• Marabout Flash, frangais-neerlandais Organisation: n. organisatie f. Klett-Standardwörterbuch, frangais-allemand Organisation [...] nf. Organisation

Abbildung 2.15: Einträge s.v. FR Organisation in direktionalen Wörterbüchern Die Einträge eines nicht-direktionalen Wörterbuchs (z.B. von Van Dale-Typ) sind stark standardisiert: für jeden Typ von Äquivalenz (vgl. die Diskussion der Beispiel oben in Abbildung 2.10, Seite 49) wird derselbe Typ von Information gegeben. Demgegenüber kann man Einträge des direktionalen Wörterbuchs für bestimmte Äquivalenztypen als (präsentationelle) "Kondensate" der nicht-direktionalen Einträge auffassen.

49 Im Wörterbucheintrag fett gedruckt, vgl. Abbildung 2.14. Nach dem Rechtspfeil ("=;•") werden französische Synonyme (Jcursiv) angegeben, die ggf. ebenfaJls als Äquivalente in Frage kommen. 50 Aber keineswegs nur in Wörterbüchern, die Platz sparen müssen. Das Verfahren bietet sich bei "kleinen" Wörterbüchern an, ist aber nicht durch den makrostrukturellen und mikrostrukturellen Umfang bedingt.

53 2.2.2.6

Zwischenbilanz

Oben am Ende von Abschnitt 2.2.2.1, Seite 45, wurden Extrempositionen der Diskussion über Zusammenhänge zwischen beiden Ansätzen der Wörterbuchorganisation angedeutet. Die Diskussion der Beispiele aus Abbildung 2.10 und die Beispieldiskussion im vorliegenden Abschnitt sprechen für die These, daß der Unterschied zwischen direktionalem und nicht-direktionalem Wörterbuch primär präsentationeller Natur ist. Das gilt insbesondere dann, wenn - wie im Fall Van Dale - die Notwendigkeit einer detaillierten Beschreibung der Zielsprache von Vertretern beider Ansätze anerkannt wird®^ Für die Erstellung wiederverwendbarer zweisprachiger Wörterbücher läßt sich aus dem hier skizzierten Sachverhalt (und insgesamt aus dem Vergleich der beiden Ansätze der zweisprachigen Lexikographie) folgendes ableiten: • Zweisprachige Wörterbücher müssen eine detaillierte Beschreibung der zielsprachlichen Bedingungen enthalten, die die Äquivalentauswahl einschränken. Diese Bedingungen werden in der vorliegenden Arbeit "Äquivalentwahl-Constraints" genannt. Ihre Relevanz wurde von den Vertretern des direktionalen Ansatzes am klarsten erkannt und am deutlichsten artikuliert. • Zweisprachige Wörterbücher müssen modular organisiert sein, wenn sie multifunktional sein sollen: quell- und zielsprachliche Beschreibungen müssen gleichrangig sein und (aus kontrastiver Sicht) kombiniert werden. Eine einheitlich strukturierte quellsprachliche Beschreibung kann als Ausgangspunkt für ein solches modulares Wörterbuchkonzept dienen. Dieser Aspekt wurde von den Vertretern des nichtdirektionalen Ansatzes besonders hervorgehoben. • Ein elektronisches zweisprachiges Wörterbuch braucht weniger auf präsentationelle Effizienz zu achten als gedruckte Wörterbücher und kann ggf. Redundanz enthalten. Der direktionale Ansatz ist gegenüber dem nicht-direktionalen spezifischer insofern er in bestimmten Fällen (z.B. Isomorphie, parallele Ambiguitäten in Quell- und Zielsprache) auf Unterscheidungen verzichtet, die im nicht-direktionalen Wörterbuch vorhanden sind; dadurch ergibt sich im direktionalen Wörterbuch ein Unterschied in der Präsentation der Aquivalenzbeschreibungen je nach Aquivalenztyp. Das Vorliegen einheitlicher Äquivalenzangaben ist aber einfacher zu handhaben und daher für das elektronische Wörterbuch vorzuziehen. Aus dem Format der nicht-direktionalen Wörterbücher läßt sich (durch Kondensierung) ein direktionales Format ableiten (mindestens im Idealfall), aber nicht umgekehrt. Eine "dictionary database" im Sinn von [Martin/AI 1988] sollte dem nicht-direktionalen Modell folgen. 2.2.3

Die Strukturierung der Van Dale-Wörterbücher

Im folgenden wird die Architektur der Van Dale-Wörterbücher etwas detaillierter diskutiert. Auf diese Wörterbücher wurde bereits oben in Abschnitt 2.2.2.3 verwiesen; die zwei-

51 Im Fall der praktischen Realisierung der Van Dale Wörterbücher gibt es allerdings Einschränkungen: die theoretisch akzeptierte Anforderung wird in der prsiktischen Reedisierung nur zum Teil erfüllt: dies zeigt sich allerdings erst bei Experimenten zur Wiederverwendung der Van Dale-Wörterbücher im Detail; Quell- und Zielsprache werden hinsichthch der syntaktischen Beschreibung unterschiedlich behandelt (vgl. Abschnitt 2.2.3.5, unten.)

54 sprachigen Wörterbücher des Verlags Van Dale sind am deutlichsten als nicht-direktionale Wörterbücher konzipiert. Außerdem hängen die einzelnen zweisprachigen Wörterbücher eng miteinander und mit dem einsprachigen niederländischen Definitionswörterbuch von [Van Sterkenburg/Pijnenburg 1984] zusammen. Nachfolgend wird zunächst die Mikrostruktur der einsprachigen und der zweisprachigen Van Dale-Wörterbücher kurz diskutiert, bevor die Zusammenhänge zwischen dem einsprachigen Definitionswörterbuch und den zweisprachigen Wörterbüchern besprochen und schließlich die Vorschläge von [AI 1988] zur Wörterbuchkombination diskutiert werden. Diese Vorschläge sind ein interessantes Beispiel für lexikalische Wiederverwendung in der praktischen Lexikographie. Gleichzeitig stellen sie eine Art Anwendungstest der Eigenschaften der nicht-direktionalen Wörterbücher dar und somit weiteren Input für die Definition von Anforderungen an ein multifunktionales Wörterbuch. Der folgenden Diskussion liegen das einsprachige Definitionswörterbuch von [Van Sterkenburg/Pijnenburg 1984], sowie die niederländisch —> französischen und französisch —> niederländischen Wörterbücher von [AI et al. 1985], die entsprechenden Wörterbücher für Deutsch ([Cox et al. 1986]) und für Enghsch ([Martin/Tops (Ed.) 1988)]) zugrunde. 2.2.3.1

Vorbemerkung: Makrostrukturelle Auswirkungen von Homonymie und Polysemie

Der Schwerpunkt der Untersuchung der Van Dale-Wörterbücher im vorliegenden Rahmen liegt auf der Mikrostruktur. Zu deren Verständnis ist aber eine Vorbemerkung über die Behandlung von homonymen bzw. polysemen Lemmata in der Van Dale-Makrostruktur angebracht. Die makrostrukturelle Gestaltung der Wörterbücher beruht auf einer Trennung von Homonymen. Bei kategorialen Homographen wird die Lemmazeichenangabe mit einer Indexziffer versehen, sodaß Artikel, deren Lemma dieselbe Nennform haben, jedoch unterschiedliche Kategoriewerte, getrennt (und durch hochgestellte Ziffern unterschieden) werden. Die Einträge s.v. metriek aus [Cox et al. 1986] in Abbildung 2.16 sind typische Beispiele für dieses Vorgehen. Bei Polysemie erfogt Binnengliederung der Artikel im Bereich der Bauteile®^ zur syntaktischen bzw. semantischen Beschreibung. Hat ein Lemma z.B. mehrere unterschiedliche Genus- oder Subkategorisierungswerte, so werden mehrere Untereinträge verwendet, wobei außer der Lemmazeichenangabe sämtliche anderen Bauteile wiederholt werden und die jeweils zusammengehörigen Bausteine unter einer gemeinsamen römischen Ziffer zusammengefaßt werden können®^. 2.2.3.2

Bauteile der Mikrostruktur der Van Dale-Wörterbücher

Die Einträge der Van Dale-Wörterbücher bestehen, sowohl beim einsprachigen wie bei den zweisprachigen Wörterbüchern, aus vier Bausteinen. 1. Lemmaangabe; 2. Syntaktische Angaben, Angaben zur Markiertheit, zu Lehnbeziehungen usw. des Lemmas (im folgenden "Syntaktische Information" genannt);

52 Vgl. unten, Abschnitt 2.2.3.2. 53 Hier soll nicht im Detail auf diese Verfahren eingegajigen werden. Vgl. aber dazu [Baunebjerg Hansen 1990]: u.a. Kapitel 3.5.

55 metriek^ (de ~ (v.)) 0.1 [leer van de versbouw] Metrik (v.20; g.mv.) => (ogm.) Verslehre (v.) 0.2 [(let.) maatsoort] Metrum (o.; 2e nv. ~s; mv. Metren en Metra) (ogm.) Versmaß (o.) 0.3 [(muz.)] Metrik. metriek^ (bn.) 0 !• f het ~e stelsel das metrische System. Abbildung 2.16: Artikel für kategoriale Homographen: Einträge s.v. metriek in [Cox et al. 1986] 3. Semantische Beschreibung: Bedeutungserläuterung, im einsprachigen Wörterbuch mit Paraphrasen und Verweisen auf Synonyme, im zweisprachigen Wörterbuch mit Verweisen auf Äquivalente (im folgenden "Bedeutungserläuterung" genannt); 4. Beschreibung des Kombinationsverhaltens des Lemmas; Angabe von Kollokationen; nicht-kollokatorische Verwendungsbeispiele; Angaben zur Verwendung von idiomatischen Wendungen (im folgenden "Kontext-Beispiele" genannt).

Lemma syntakt Inf.

Bed.-Erlaeut

Kontext-Bspe.

Abbildung 2.17: Schema der Van Dale-Mikrostruktur Anhand des Artikels s.v. stalling wird nachfolgend ein Beispiel für diese mikrostrukturelle Einteilung gegeben. Der Artikel ist zunächst im üblichen Druckbild wiedergegeben (vgl. Abbildung 2.18). In der Tabelle in der Abbildung 2.19 ist derselbe Artikel nach der hier vorgenommenen Einteilung in vier Bausteine untergliedert. In Abbildung 2.17 ist die Mikrostruktur schematisch dargestellt. Das Schema aus Abbildung 2.17 wird in den Schemata zur Beschreibung der Interaktion zwischen ein- und zweisprachigen Wörterbüchern weiterverwendet, die unten in den Abbildungen 2.20 bis 2.23 auf den Seiten 59 bis 61 gegeben werden. Im folgenden werden die einzelnen Bauteile kurz kommentiert. 1. Lemmaangabe: Als Lemmata treten meistens einzelne Wörter, gelegentlich auch Mehrwortverbindungen (z.B. happy few, s.v.) oder Wortbildungsmorpheme (z.B. hemi-, hecto-) auf. 2. Syntaktische Information: Die syntaktischen Angaben und Angaben zur Markiertheit sind hinsichtlich ihres Formats streng standardisiert. Insgesamt sind jedoch

56 stalling (de ~ (v.); -en) 0.1 loods, garage enz. waarin rijwielen of auto's worden gestald 0.2 het op stal brengen of zetten van dieren, met name paarden 0.3 het in een loods of garage onderbrengen van rijwielen, auto's enz. 0.4 geld dat man betaalt voor het stallen => stalgeld 0 1-3 gelegenheid tot ~ van rijwielen

2 . 1 een overdekte

~ bij het Station

3 . 4 ik kom u de ^

betalen.

Abbildung 2.18: Der Artikel s.v. stalling aus [Van Sterkenburg/Pijnenburg 1984] Bauteil (1) Lemma (2) Syntaktische Information (3) Bedeutungserläuterung Lesart 1 Lesart 2 Lesart 3 Lesart 4 (4) Kontext-Beispiel

Angabentext stalling (de ~ (v.); -en) 0.1 0.2 0.3 0.4

loods, garage enz. waarin rijwielen of auto's worden gestaJd het op stal brengen of zetten van dieren, met name paarden het in een loods of garage onderbrengen van rijwielen, auto's enz. geld dat men betaalt voor het stallen

1.3 gelegenheid tot ~ van rijwielen 2.1 een overdekte ~ bij het Station 3.4 ik kom u de ~ betalen

Abbildung 2.19: Bauteile eines Van Dale NN-Artikels (Beispiel s.v. stalling, aus [Van Sterkenburg/Pijnenburg 1984], vgl. Abbildung 2.18)

insbesondere die syntaktischen Angaben in den Van Dale-Wörterbüchern relativ wenig differenziert und quantitativ eher unterrepräsentiert. Das Prinzip der Nutzung des sprachlichen Vorwissens der Benutzer, wie es an sich sonst für direktionale Wörterbücher charakteristisch ist, findet hier auch in einem ansonsten nicht-direktional konzipierten Wörterbuch Anwendung. Beispielsweise werden zielsprachliche Subkategorisierungsangaben nur dann explizit aufgeführt, wenn grammatische Konstruktionsunterschiede zwischen Quell- und Zielsprache vorliegen, d.h. wenn die Zielsprache andere syntaktische Konstruktionen benutzt, als sie beim. Liegt eine Art "Isomorphie" zwischen quellsprachlicher und zielsprachlicher Konstruktion vor, so gibt das Wörterbuch überhaupt keine syntaktische Beschreibung von Quell- und Zielsprache an, außer der Grobklassifizierung in intransitive vs. transitive Verben. 3. Bedeutungserläuterungen: die einsprachigen und die zweisprachigen Van Dale-Wörterbücher unterscheiden sich etwas hinsichtlich der Art, in der die Bedeutungserläuterungen formuliert sind. Allerdings sind die zweisprachigen Wörterbücher auf die einsprachigen Wörterbücher bezogen, sodaß sich die notwendigen Verbindungen herstellen lassen^^.

54 Details werden unten, in Abschnitt 2.2.3.4 beschrieben. Die Bedeutungserläuterungen im zweisprachigen Wörterbuch sind "kompakte Zusammenfassungen" der jeweils für die entsprechenden Lesarten im einsprachigen Wörterbuch angegebenen Bedeutungserläuterungen.

57 Im einsprachigen Wörterbuch können Bedeutungserläuterungen, wie in den meisten einsprachigen Definitionswörterbüchern, durch Definitionen (genus proximum, differentia specifica), jedoch auch durch Synonyme gegeben werden; außerdem durch Selektionsrestriktionen oder andere Angaben zur Kombinierbarkeit von Lexemen, durch zusätzliche Markierungen, Registerangaben oder Verweise auf fachsprachliche Verwendungsbereiche. Diese verschiedenen Beschreibungsmittel für Bedeutungserläuterungen können kombiniert sein. 4. Kontextangaben: die Wörterbücher enthalten Kollokationsangaben, sowie Beispiele für die Verwendung der Lexeme im Kontext, die nicht notwendig Kollokationsstatus haben. Die beiden Typen von Angaben sind formal nicht unterschieden. Die Angaben in der Kontext-Beschreibung sind mit den Angaben in der Bedeutungserläuterung verbunden. Hierauf wird nachfolgend eingegangen. 2.2.3.3

Zusammenhänge zwischen Mikrostruktur-Bausteinen: Bedeutungserläuterung vs. Kontext-Beispiele

Wie oben angesprochen, werden in den Van Dale-Wörterbüchern die Bausteine zur Bedeutungserläuterung und zur Angabe von Kontexten explizit miteinander verknüpft. Die Artikel sind so organisiert, daß sämtliche Bedeutungserläuterungen für sämtliche Lesarten zusammengefaßt sind (in dem Baustein der Mikrostruktur, der der Bedeutungserläuterung dient), und daß wiederum sämtliche Kontextbelege für die verschiedenen Lesarten in einem gemeinsamen Baustein zusammengestellt sind. Die Van Dale-Lexikographen mußten nun den Zusammenhang zwischen einzelnen Kontextbelegen und den zugehörigen Lesarten in der Bedeutungserläuterung für den Wörterbuchbenutzer nachvollziehbar machen. In anderen Wörterbüchern wird dieser Zusammenhang durch die Reihenfolge von Bedeutungserläuterungen und Beispielen festgelegt z.b. dadurch, daß die jeweils zu einer Bedeutungserläuterung gehörenden Beispiele dem Text der Bedeutungserläuterung direkt folgen. In den Van Dale-Wörterbüchern wird diese sequenzielle Darstellung aufgegeben, und die Verbindung zwischen Lesarten und Kontextdokumentation wird über ein aus zwei Ziffern bestehendes Verweis-System ("cijfer-punt-cijfer-code") hergestellt. Die in der Liste von Bedeutungserläuterungen angegebenen Lesarten sind numeriert mit zweistelligen Angaben vom Typ "0.1, 0.2, 0.3, ...". Die Kontextbeispiele sind wiederum mit Ziffern versehen, wobei jetzt die erste Ziffer nicht mehr "0" ist, sondern jeweils nach der Wortklasse des von den Autoren für relevant gehaltenen Kombinationspartners variiert. Die Idee ist, daß beispielsweise für Kollokationen die relevanten Kollokationspartner des jeweils beschriebenen Lexems im Beispielteil durch die vorangestellte Ziffer hinsichtliche ihrer Wortklasse identifiziert werden. Kombinationen mit Nomina werden durch die Zififer "l.X" eingeleitet, Kombinationen mit Adjektiven durch "2.X", Kombinationen mit Verben durch "3.X" usw. Die Kombinationen, die oben im Artikel s.v. stalling in Abbildung 2.18, Seite 56 angegeben werden, sind wie folgt klassifiziert: • Die erste Lesart ist als Kombination von Lesart "0.3" von stalUng mit einem Substantiv klassifiziert: NL gelegenheid tot stalling van rijwielen; • das zweite Beispiel ist als Adjektiv-Kombination der ersten Lesart ("0.1") beschrieben: een overdekte

stalling

bij het Station-,

58

• das letzte Beispiel ist als Kombination eines Verbs mit der vierten Lesart von stalling klassifiziert: ik kom u de stalling betalen. Die Anbindung von Kontextbelegen an Lesarten durch den cijfer-punt-cijfer-code erlaubt eine Modularisierung der Datenbeschreibung bei gleichzeitiger expliziter Vernetzung. Die Bedeutungserläuterungen und die Kontextbeispiele sind jeweils separat repräsentiert. Jedes Kontextbeispiel ist eindeutig einer "Lesart" zugeordnet. Es kann also nicht passieren, daß Kontextbeispiele nicht hinsichtlich der Lesarten klassifiziert sind, welche sie illustrieren. Umgekehrt können natürlich Lesarten ohne Belege im Lexikon aufgeführt sein. Die Modularisierung der Komponenten erlaubt es darüber hinaus, daß der Wörterbuch-Benutzer selektiv und auf zwei verschiedenen Zugriffspfaden auf die Information zugreift. Hat er die gewünschte Lesart eines Lemmas identifiziert, so braucht er im Prinzip nur noch die Beispiele durchzusehen, welche zu dieser speziellen Lesart angegeben werden. Umgekehrt kann eine Durchsicht der Kontext-Belege auf diejenigen Beispiele beschränkt werden, deren Kombinationspartner für die aktuelle Fragestellung relevant ist: wenn der Benutzer lediglich Kombinationen von stalling mit Verben sucht, so braucht er nur die mit "3.X" klassifizierten Belege durchzusehen. Vor allem bei längeren Artikeln ist dieses Verfahren dann nützlich, wenn der Benutzer eine präzise Vorstellung dessen hat, was er im Wörterbuch aufsuchen möchte®®. 2.2.3.4

Zusammenhänge zwischen dem einsprachigen Wörterbuch und den zweisprachigen Wörterbüchern

Oben, in Abschnitt 2.2.1 wurden [Van Sterkenburg/Martin/AI 1982] zitiert, die im Program der Van Dale-Wörterbuch-Reihe festgelegt haben, daß das einsprachige Definitionswörterbuch als Ausgangspunkt für die Makrostruktur der Hinübersetzungs-Wörterbücher mit Niederländisch als Quellsprache gelten soll. Auf der Grundlage der oben in Abschnitt 2.2.3.2 diskutierten mikrostrukturellen Architektur der Van Dale-Wörterbücher wird im folgenden gezeigt, wie die konkrete Realisierung des Zusammenhangs zwischen einsprachigem und zweisprachigem Wörterbuch bei Van Dale gelöst worden ist. Für die Zusammenhänge zwischen dem einsprachigen Wörterbuch und den Hinübersetzungs-Wörterbüchern sind die ersten drei Mikrostrukturbausteine von zentraler Bedeutung: Lemma, syntaktische Information und Bedeutungserläuterung®®. Wenn [Van Sterkenburg/Martin/AI 1982] vorschlagen, die Beschreibung des Niederländischen im Wörterbuch von [Van Sterkenburg/Pijnenburg 1984] als Ausgangspunkt für die Makrostruktur der zweisprachigen Wörterbücher zu nehmen, so ist hiermit konkret

55 Hausmann hat in [Hausmann 1989] im Detail auf die praktischen Probleme hingewiesen, die sich bei dem von Van Dale benutzten Verfahren zur Kontextklassifikation ergeben. Beispielsweise ist das "Bezugswort", welches die Vergabe der ersten Ziffer auslöst, in Beispielen nicht immer eindeutig identifizierbar. Das Verfahren an sich bleibt aber relevant, auch als Modell für elektronische Wörterbücher. Auch hier führen Modularisierung und Explizierung zu mehr Flexibihtät beim Zugriff: derselbe Zusammenhang wird in den Vorschlägen zur Wörterbucharchitektur unten in Abschnitt 3.2 deutlich. 56 Für den Moment wird hier von den Kontextbeispielen abstrahiert, obwohl [Martin/van der Vliet 1992] auch für dieses Informationspaket die Zusammenhänge zwischen dem monolingueilen Wörterbuch und den Übersetzungswörterbüchern beschreibt. Diese Verbindungen lassen sich aber aus den oben in Abschnitt 2.2.3.3 beschriebenen Relationen zwischen Komponenten der Mikrostruktur-Bausteine 3 und 4 (Bedeutungserläuterungen, bzw. Kontext-Beispiele) und den nachfolgend beschriebenen allgemeinen Prinzipien ableiten.

59 die Lesarteneinteilung der Einträge des einsprachigen niederländischen Wörterbuchs in der dort realisierten Form gemeint. Oben, in Abbildung 2.17, wurde ein Beispieleintrag in vier Informationspakete zergliedert. Für die Zwecke der folgenden Betrachtung können wir davon ausgehen, daß die Informationspakete 1 und 2 (Lemmaangabe, syntaktische Information) zusammen eine kategorial und syntaktisch eindeutige niederländische Lemmaangabe bilden. Diese kann mit den einzelnen in Beschreibungsbaustein 3 (Bedeutungserläuterungen) angegebenen Beschreibungen von Lesarten zu einer Beschreibungseinheit kombiniert werden, die als quellsprachlicher Teil einer Aquivalentrelation verwendet werden kann. Dieser Zusammenhang ist in der Abbildung 2.20 schematisch dargestellt.

syntakl. Inf. 1&2

3

Bed.-Erlaeut.

Kontext-Bspe.

Abbildung 2.20: Definition der Übersetzungseinheiten in den Van Dale-Wörterbüchern: Mikrostrukturbausteine 1, 2 und 3 (vgl. Abbildung 2.17 oben) Die Kombination aus Lemma, Syntax und jeweils einer Lesartenbeschreibung wird als eine monosemierte quellsprachliche Übersetzungseinheit aufgefaßt. Das einsprachige niederländische Definitionswörterbuch ist eine (semiasologisch) geordnete Menge solcher Quellspracheinheiten. Da die Angaben im quellsprachlichen Wörterbuch semasiologisch sortiert sind, fallen die Bausteine 1 und 2 für verschiedene Lesarten eines Lemmas zunächst in den einsprachigen Einträgen zusammen; man muß sich die darunterliegende "dictionary database" jedoch, mindestens konzeptuell, als aus einer Menge von Tripeln aus den Bausteinen 1, 2 und 3 zusammengesetzt vorstellen®^. Die semasiologische Eintragsstruktur des monolingualen Van Dale-Wörterbuchs ist in Abbildung 2.21 symbolisiert: Die Bausteine 1 und 2 sind für alle Lesarten gemeinsam gültig, daneben stehen die (im Schema mit 3.1 bis 3.5. numerierten) Lesarten. Die Bedeutungserläuterungen sind im einsprachigen Wörterbuch zum Teil relativ umfangreich. Damit sie in einem Übersetzungszusammenhang auf einfachere Weise benutzt und eindeutig referenziert werden konnten, wurden für jede Bedeutungserläuterung kurze Paraphrasen definiert, die in der Datenbasis der zweisprachigen Wörterbücher anstatt der üblichen, ggf. etwas umfangreicheren Angaben verwendet wird: Wir nennen diese Angaben "Paraphrasen". Für die Paraphrasen gibt es nur relativ allgemeine Stilvorgaben, sie sind nicht vollständig standardisiert. Die Numerierung der Lesarten wird vom einsprachigen zum zweisprachigen Wörterbuch übernommen; das exakte Paraphrasierungsverfahren kann jedoch nicht mit formalen Mitteln beschrieben werden^®. Normalerweise wird diesel-

57 Die dabei in Kauf genommene Redundanz (Bausteine 1 und 2 werden wiederholt) ist kein Problem: [Martin/AI 1988] sind ja ausdrücklich der Ansicht, daß in der "dictionary database" Redundanz möglich sein sollte. Zu demselben Schluß kommt auch die EuROTRA-7-Studie, in der Diskussion der Repräsentationszone des Wiederverwendungsszenariums. 58 Die Erstellung der Paraphrasen wurde im Lexikographie-Team von Van Dale beschlossen, aber hinsichthch der Ausgestaltung den Lexikographen überlassen. Persönliche Mitteilung von Bernard AI.

60 3.1

// 1&2

3.3 3.4 3.5

Abbildung 2.21: Die Eintragsstruktur der Van Dale-Wörterbücher: semasiologische Anordnung be Paraphrase für die Lesartenbeschreibung in allen Wörterbüchern mit Niederländisch als Quellsprache benutzt. In den Übersetzungswörterbüchern wird für jedes Tripel aus Lemmazeichen, Syntaxangabe und Bedeutungsparaphrase ein zielsprachliches Äquivalent oder eine Menge zielsprachlicher Äquivalente angegeben. Folglich enthalten zunächst sämtliche NL — X Wörterbücher Äquivalente zu denselben Quellsprach-Tripeln. Wo mehrere Äquivalente als Alternativen angegeben sind, können diese zusätzlich durch zielsprachspezifische Beschreibungen weiter unterschieden werden. Schematisch ist diese Situation in Abbildung 2.22 dargestellt: Für je ein Tripel, z.B. mit Lesart "3.2", gibt es jeweils beispielsweise eine französische bzw. eine englische Übersetzung.

3.2

FR

3.2

EN

1&2

Abbildung 2.22: Verbindung von ein- und zweisprachiger Beschreibung in den Van Dale-Wörterbüchern: monolinguale semasiologische Grundstruktur (vgl. Abbildung 2.21) und zielsprachliche Äquivalent(meng)e Das in den Van Dale-Wörterbüchern verwendete Verfahren ist der Beschreibung in einem interlingua-basierten maschinellen Übersetzungssystems sehr ähnlich. Die Wörterbucheinträge der Quellsprache werden in einer (mehr oder minder formalen) Bedeutungsrepräsentation®® dargestellt (hier in den Bedeutungsparaphrasen, bzw. den Tripeln), und die Übersetzung wird an den Einheiten dieser Bedeutungsrepräsentation festgemacht.

59 In [Heid 1990] wurden die Tripel aus Lemmazeichen, syntaktischer Angabe und Lesartenspezifikation etwas vorschnell als "Konzepte" bezeichnet. Natürlich handelt es sich nicht um eine Abstraktion, die übereinzelsprachlich intendiert wäre; der Begriff "Konzept" legt diese irrtümliche Interpretation nahe, obwohl sie weder in [Heid 1990] intendiert war, noch im Design der Van Dale-Wörterbücher angestrebt wird. Vgl. oben, Fußnote 2.2.2.3, Seite 47.

61

2.2.3.5

Wiederverwendung der Van Dale-Wörterbücher: Wörterbuchkombination

In [AI 1988] wurde auf der Grundlage der oben beschriebenen Architektur der nichtdirektionalen Übersetzungswörterbücher von Van Dale der Vorschlag gemacht, jeweils zwei Übersetzungswörterbücher mit Niederländisch als Quellsprache so zu kombinieren, daß aus den Beschreibungen Äquivalenz-Statements für die Zusammenhänge zwischen den beiden Zielsprachen der Übersetzungswörterbücher definiert werden können. Da die Quellsprachseite sämtlicher NL —X-Wörterbücher im Prinzip dieselbe ist, genügt es die Äquivalente bzw. Äquivalentlisten von je zwei Zielsprachen über die Tripel aus niederländischem Lemma, syntaktischer Beschreibung und Bedeutungsparaphrase miteinander zu verbinden. Die Tripel erhalten dann den Status einer "Zwischenrepräsentation": [AI 1988] spricht von der Verwendung des Niederländischen als "metalangue". Beispielsweise schlägt AI vor, das niederländisch französische und das niederländisch —> englische Wörterbuch in der Weise zu kombinieren, daß sich eine englisch ^ französische Materialsammlung mit Äquivalentangaben ergibt, aus der der Lexikograph manuell französisch englische und englisch französische kontrastive Beschreibungen ableiten kann. Der Vorschlag (im folgenden: "(Wörterbuch)kombination") ist ein konsequenter Schritt, ausgehend von der in Abbildung 2.22 skizzierten Struktur der Datenbasis: er ist schematisch in Abbildung 2.23 dargestellt. 3.2

FR 1

3.2

EN

Abbildung 2.23: Wörterbuchkombination: Äquivalente von FR und EN werden verbunden, Zusammenhang mit der NL Beschreibung (vgl. Abbildung 2.22) Experimente dieser Art wurden von Van Dale für die Kombination des NL FR und des NL -> DE Wörterbuchs (für eine DE FR-Datenbasis) durchgeführt; jeweils wurden Ausschnitte aus einer durch die Kombination entstandenen Datensammlung bereitgestellt, die nach den deutschen bzw. französischen Lemmata sortiert wurden. Im Rahmen eines Gutachtens wurde das Ergebnis der Wörterbuch-Kombination im Detail untersucht®". Die Resultate wurden sowohl quantitativ wie auch qualitativ untersucht; der französisch —> deutsche Teil der durch Wörterbuch-Kombination entstandenen Materialien deckt ungefähr 0,5 % der Makrostruktur eines üblichen zweisprachigen Wörterbuchs ab®^ Der deutsch ^ französische Ausschnitt deckt 0,9 % der Makrostruktur eines üblichen deutsch

60 Die Arbeiten wurden im Auftrag der Verlage Le Robert, Paris, und Van Dale, Utrecht, durchgeführt. Die praktische Arbeit wurde zusammen mit Miriam Scheytt geleistet. Diskussionen über die Arbeiten mit Bernard AI, Alsun Duval und Willy Martin haben viele Details der hier diskutierten Fragestellungen geklärt; allen Beteiligten wird hierfür gedankt. Eine Zusammenstellung der im Rahmen des Gutachtens erzielten Ergebnisse wurde in [Heid 1990] gegeben. 61 Die Ergebnisse wurden verglichen mit den Lemmalisten der Wörterbücher von [Sachs/Villatte], [Weiss/Mattutat], mit [Robert/Colhns], [Robert/Collins-Junior], sowie mit dem französisch niederländisch, niederländisch -y französischen Wörterbuch von [AI et al. 1985].

62

französischen Wörterbuchs ab®^. Die Ergebnisse zeigen, daß rund 80 % der Makrostruktur der zum Vergleich herangezogenen französisch deutschen Wörterbücher in den Kombinationsresultaten enthalten sind. Für den deutsch —^ französischen Teil wurde sogar ein höherer Prozentsatz ermittelt. Die Kombination ist, aus dieser Sicht, effizient und als Verfahren zur Materialbeschaffung für die Erstellung eines Übersetzungswörterbuchs durch lexikalische Wiederverwendung sicherlich geeignet. Parallel zur quantitativen Untersuchung wurde überprüft, ob die in den Kombinationsresultaten enthaltene Information korrekt und hinreichend detailliert ist®^. Bei der Wörterbuchkombination bleiben die Lesarteneinteilungen bestehen, die in den zugrundeliegenden Wörterbüchern vorkommen. Zur Verdeutlichung ist in Abbildung 2.24 der Zusammenhang zwischen den Lesarten von NL stalling (vgl. oben den Eintrag s.v., in Abbildung 2.18, Seite 56) und NL garage mit FR garage und den deutschen Substantiven Autowerkstatt, Garage, Fahrradaufbewahrung, Unterstellen angegeben. Die französisch —^ deutsche Ubersetzung (die umgekehrte Richtung ist weniger interessant, weil nur FR garage zur Verfügung steht) kann anhand der von den NL —> X-Wörterbüchern ererbten Lesartenbeschreibung gesteuert werden®'*. Die Resultate des Wörterbuchkombinationsverfahrens sind dort problematisch, wo "Mismatches" zwischen den in den Kombinationsresultaten auftreten®^. In der Regel gibt ein zweisprachiges Wörterbuch eine zielsprachliche Paraphrase an, wenn ein quellsprachliches Lexem nicht bedeutungserhaltend durch ein einzelnes Lexem der Zielsprache wiedergegeben werden kann. Bei der Kombination der Wörterbücher entstehen Probleme, wenn für ein niederländisches Lexem in einer der beiden Zielsprachen ein "Einwort-Aquivalent" existiert, nicht aber in der anderen. Beispiele hierfür sind NL spelbreker DE Spielverderber o FR personne qui gäche le plaisir des autres; oder: NL houdbaar o DE haltbar, lagerfähig FR qui se conserve, qui se garde (eetwaren). In diesen Fällen kann das Kombinationsresultat nur im deutsch —> französischen Wörterbuch verwendet werden, jedoch nicht oder nur mit Problemen im französisch —^ deutschen Wörterbuch. Ein weiteres Problem entsteht dadurch, daß die Van Dale-Übersetzungswörterbücher zielsprachliche syntaktische Eigenschaften nur dann angeben, wenn sie sich, im Sinne einer groben Klassifikation in transitive, intransitive, reflexive Verben etc. von den entsprechenden Eigenschaften des quellsprachlichen Lexems signifikant unterscheiden. Eine Art "Default-Annahme" für die syntaktische Beschreibung wird in den NL ->• X-Wörterbüchern vorausgesetzt (vgl. die Diskussion dieses Sachverhalts, oben, in Abschnitt

62 Hier wurde mit [Sachs/Viflatte], [Weiss/Mattutat], Bertaux/Lepointe und mit [Cox et al. 1986] verglichen. 63 In der Kombination wurden zunächst nur die Mikrostrukturbausteine 1, 2 und 3 verwendet. In [Martin/van der Vliet 1992] wurden Vorschläge auch für die Kombination der Beispielsätze und Kollokationen gemacht. Da sämtliche Kollokationen des NL -v X-Wörterbuchs in der Regel in die Übersetzungswörterbücher übernommen werden (können), und da jeder Kontext mit der zugehörigen Lesart und dem Kategorietyp des Kollokationspartners versehen ist, dürften bei der Kombination keine Zuordnungsprobleme entstehen. Die Frage ist nur, ob die so gewonnenen Belege für die Beschreibung von Ubersetzungen, in denen das Niederländische keine Rolle spielt, relevant sind. 64 Ein Beispiel: FR garage wird in der Lesart het onderbrengen mit DE unterstellen, in der Lesart b e d r i j f mit DE Autowerkstatt übersetzt (im Schema in Abbildung 2.24 durch Verfolge n der Verbindungslinien ablesbar). 65 Der Terminus "Mismatch" wird im Detail unten in Abschnitt 6.1.3.2 diskutiert. Vereinfacht gesagt, werden als "Mismatches" Situationen bezeichnet, wo die Zielsprache keine einfache lexikalische oder grammatische Möglichkeit hat, die Bedeutung eines quellsprachlichen Lexems auszudrucken, sondern z.B. auf eine Paraphrase rekurrieren muß.

63

autostalling

bedrijf

loods, garage

het onderbrengen

Quellsprache

Lesarten

Zielsprachen

Lesart

3iE

DE

Abbildung 2.24: Übertragung von Lesarten-Unterscheidungen bei der Kombination von Van Dale-Wörterbüchern 2.2.3.2). Wenn nun zwei Wörterbücher mit Niederländisch als Quellsprache kombiniert werden, und wenn dabei die niederländische Beschreibung unterdrückt wird, so können die Kombinationresultate bei der Reinterpretation Schwierigkeiten machen, weil u.U. in den deutschen bzw. französischen Wörterbuchartikeln keine syntaktischen Angaben anzutreffen sind, obwohl zwischen den Sprachen zum Beispiel Konstruktionsunterschiede bestehen. Der Gund für das Fehlen von Angaben in den Konversionsresultaten ist folgender: da die niederländische Beschreibung bei der Wörterbuch-Kombination wegfällt, entfällt auch der Bezugspunkt, aufweichen sich die "Default-Annahmen" in der syntaktischen Beschreibung der Zielsprachlexeme beziehen könnten. Durch eine noch stärkere Modularisierung der zielsprachlichen Beschreibungen und dadurch, daß den zielsprachlichen Äquivalenten jeweils eine eigene syntaktische (und diasystematische) Beschreibung zugewiesen würde, könnte das Problem beseitigt werden®®. Hier zeigt sich sehr deutlich der Wert einer möglichst modularen lexikalischen Beschreibung: Das Verfahren der Wörterbuchkombination funktioniert relativ gut, weil die

66 Bei der den bisherigen Kombinations-Experimenten zugrundeliegenden Version der Wörterbücher, die technisch durch annotierte Text-Dateien reahsiert ist, kann es praJctische Schwierigkeiten geben, die syntaktischen Angaben von zielsprachlichen Äquivalenten einzeln aufzuführen. Wenn ein Wörterbuch jedoch in Attribut-Wert-Strukturen oder in einer anderen, damit äquivalenten Repräsentation vorliegt, so können die genannten Probleme vermieden werden.

64 beteiligten Wörterbücher modular sind, d.h. weil einzelne Informationstypen jeweils separat gehalten sind, aber untereinander verbunden. Die Kombinations-Experimente führen dort zu Problemen, wo diese Modularisierung nicht vollständig durchgehalten ist.

2.2.3.6

Zusammenfassung: Strukturierung und Wiederverwendung nicht-direktionaler Wörterbücher

Die Arbeiten zur Wörterbuch-Kombination zeigen einige relevante Aspekte der Architektur der nicht-direktionalen Übersetzungswörterbücher sehr deutlich. • Das nicht-direktionale Wörterbuch macht die Bedeutungsbeschreibungen und die Lesarten explizit, welche der Äquivalentwahl zugrundeliegen. Anders als im direktionalen Wörterbuch sind alle quellsprachlichen Lesarten gleichermaßen detailliert beschrieben. • Gleichzeitig zeigen die Experimente, daß die nicht-direktionale Wörterbuch-Architektur als Grundlage für die Wiederverwendung ein- und zweisprachiger Beschreibungen dienen kann®^. Ein analoges Vorgehen bei der Entwicklung formalisierter Wörterbücher, oder der Versuch, die Van Dale-Methode stärker zu formalisieren, erscheint als durchaus erfolgversprechend. Die Kombinationsresultate liefern natürlich nur Rohmaterial, aus welchem der Lexikograph die Einträge eines zweisprachigen Wörterbuchs erst noch manuell/intellektuell zu entwickeln hat, jedoch wird dem Lexikographen mit automatischen Mitteln doch bereits eine umfangreiche strukturierte Materialsammlung zur Verfügung gestellt. • Der Mangel an Strukturierung in den zielsprachlichen Teilen der NL X-Wörterbücher wirkt sich bei der Kombination störend aus. An dieser Stelle wird die ansonsten durchgehaltene Modularisierung aufgegeben: wenn ein NL X-Wörterbuch mehrere Äquivalente aus X enthält, so werden sie in einer weitgehend unstrukturierten Liste angegeben; wären sie "lexikalischen Objekte", vom selben Status wie die quellsprachlichen "Lesarten", so könnten sie wiederum detailliert beschrieben werden, und diese Beschreibungen könnten im Konversisionsverfahren besser ausgenutzt werden. Die Konzeption der Van Dale-Wörterbücher ist ein typisches Beispiel dafür, wie einsprachige und kontrastive Beschreibungen miteinander verbunden werden können. Unter Verzicht auf präsentationelle Vorteile (Effizienz, "ambiguitätsbewahrende" Äquivalentbeschreibung) werden Beschreibungen bereitgestellt, die sowohl separat in den einsprachigen Wörterbüchern, als auch kombiniert in verschiedenartigen zweisprachigen Wörterbüchern benutzt werden können®^.

67 Die Tatsache, daß Tripel aus Lemma, Syntaxangabe und Lesarten-Paraphrase als "metalangue" für die Wörterbuch-Kombination verwendet werden können, zeigt, daß der von Van Dale eingeschlagene Weg der Lesartenbeschreibung für die Erstellung einer mehrsprachigen Faktensammlung hinreichend allgemein ist. 68 Interessant ist, daß bei den Kombinationsresultaten die Benutzerorientierung verloren geht. Die NL —> X-Wörterbücher sind für ein niederländisches Publikum verfaßt worden. Die Kombinationsresultate, beispielsweise für Deutsch o Französisch, enthalten immer dieselbe Information, egal ob sie nach den französischen oder nach den deutschen Äquivalenten sotiert sind. Dies ist jedoch insofern kein Problem,

65 Diese Ergebnisse zeigen, daß die Van Dale-Wörterbücher und die Kombinationsresultate eine interessante Datengrundlage für ein interlingua-basiertes maschinelles Übersetzungssystem wären. 2.3

Lexikographische Anforderungsdefinition

Bei der Entwicklung einer Wörterbucharchitektur wird hier ein Ansatz verfolgt, der an den Methoden des Software-Engineering orientiert ist: Zunächst werden die Rahraenbedingungen festgelegt und eine Anforderungsdefinition erstellt, sodann werden Spezifikationen formuliert, auf deren Grundlage beispielhafte Realisierungen entwickelt, getestet und verbessert werden. In den vorausgegangenen Abschnitten sind die grundlegenden Merkmale wiederverwendbarer Ressourcen und einige Probleme der Organisation zweisprachiger Wörterbücher diskutiert worden. Aus der Diskussion zu beiden Themenbereichen läßt sich eine Anforderungsdefinition ableiten, die ein elektronisches Wörterbuch bzw. eine lexikalische Spezifikation (als Grundlage davon) zu erfüllen hat. Die folgenden Abschnitte legen diese Anforderungsdefinition fest. Einige der Anforderungen betreffen sowohl monolinguale als auch kontrastive Wörterbücher, andere betreffen nur einen Wörterbuchtyp. Die Strukturierung des zweisprachigen Wörterbuchs setzt natürlich voraus, daß die einsprachigen Wörterbücher, auf deren Beschreibungen im zweisprachigen Wörterbuch zurückgegriffen wird, ihrerseits in geeigneter Weise strukturiert sind. Aus der Diskussion in den vorausgehenden Kapiteln lassen sich Elemente einer Anforderungsdefinition ableiten. 1. Multifunktionalität des Wörterbuchs: Die hier zu definierenden Wörterbücher und die ihnen zugrundeliegende Architektur sollen die Wiederverwendung der vorhandenen lexikalischen Beschreibungen in verschiedenen Anwendungskontexten unterstützen. Das Wörterbuch soll in dem Sinne multifunktional sein, daß sich aus den im Wörterbuch enthaltenen Beschreibungen lexikalischer Fakten Wörterbucheinträge ableiten lassen, die in verschiedenen Anwendungen, für interaktive Benutzung und für sprachverarbeitende Systeme, benutzt werden können. Die Ableitung anwendungsspezifischer Lexikoneinträge kann durch Exportroutinen bewerkstelligt werden. 2. Dokumentation der Kriterien, welche der Strukturierung des Wörterbuchs, bzw. der verwendeten Klassifikation lexikalischer Beschreibungen zugrundeliegen: Multifunktionalität setzt Reinterpretierbarkeit der Beschreibungen voraus. Die Reinterpretation wird erheblich vereinfacht (und auf eine sichere Grundlage gestellt), wenn die Klassifikations- und Strukturierungskriterien der lexikalischen Beschreibung detailliert dokumentiert sind. Die Dokumentation kann textuell erfolgen, indem die relevanten Kriterien einzeln angegeben und mit Beispielen illustriert werden; sie kann

als man die Kombinationsresultate eher als eine data base im Sinne von [Martin/AI 1988] auffassen muß, nicht als fertige "front-end Wörterbücher". Die Benutzerorientierung wird vom Lexikographen (als Präsentationelles, nicht als deskriptives Kriterium) wieder eingeführt, wenn er bei der Erstellung eines neuen Wörterbuchs z.B. die Konversionsresultate gegen die Makrostruktur eines bestehenden zweisprachigen Wörterbuchs abgleicht und modifiziert.

66

aber auch dadurch erfolgen, daß Beschreibungen verschiedener linguistischer Beschreibungsebenen explizit miteinander in Beziehung gesetzt werden (im Sinne von "Koexistenz-Statements": wenn auf einer gegebenen linguistischen Beschreibungsebene ein Phänomen A vorliegt, so muß gleichzeitig auf einer anderen linguistischen Beschreibungsebene ein Phänomen B vorliegen®®). 3. Robustheit gegenüber Änderungen: Wenn ein gegebenes "multifunktionales" Wörterbuch als lexikalische Informationsquelle für verschiedenartige Anwendungen verwendet werden soll, so muß die Abbildung zwischen der "anwendungsunabhängigen" Repräsentation und den jeweils anwendungsspezifischen Wörterbucheinträgen durch Abbildungsregeln (z.B. Import-/Exportroutinen) geleistet werden. Diese Regeln müssen so konzipiert werden, daß sie von (kleineren) Änderungen der "multifunktionalen" Ressource weitgehend unabhängig sind. Insbesondere muß sichergestellt werden, daß die Hinzufügung lexikalischer Beschreibungen oder die Änderung der Zuordnung einzelner Lesartenbeschreibungen zu bestehenden Klassen keine Auswirkungen darauf hat, wie die Abbildungsregeln zwischen der multifunktionalen Ressource und den einzelnen Zielanwendungen aussehen. Es soll vermieden werden, daß bei Hinzufügung neuer Einträge neue Abbildungsregeln geschrieben werden müssen. 4. Reversible Schnittstellen: Idealerweise würde man davon ausgehen, daß die Anwendungen, welche als "Klienten" des "multifunktionalen" Wörterbuchs auftreten, auch als "Lieferanten" dieses Wörterbuchs in Erscheinung treten können. Dies ist dann möglich, wenn die Abbildungen zwischen der "multifunktionalen" Repräsentation und den einzelnen Anwendungen (mindestens im Prinzip) reversibel sind. 5. Modularität: Modularität spielt auf verschiedenen Ebenen der intendierten Wörterbucharchitektur eine Rolle; die Modularisierung der lexikalischen Beschreibungen ist eine der zentralen Anforderungen sowohl an monolinguale als auch an kontrastive Wörterbücher. (a) Kombination monolingualer und kontrastiver Beschreibungen: die einzelsprachlichen Beschreibungen, auf deren Grundlage Ubersetzungsvorschläge im zweisprachigen Wörterbuch formuliert werden, sollen bei ihrer Konzeption zunächst unabhängig von der Aufgabe der Ubersetzung in eine gegebene Zielsprache formuliert werden können. Sie stellen insofern Komponenten (oder Module) eines Wörterbuchsystems dar, welches separate monolinguale lexikalische Beschreibungen miteinander verbindet. (b) Modularisierung der monolingualen Beschreibungen: Die einzelnen monolingualen Beschreibungen sollen ihrerseits modular sein, beispielsweise im Sinne eines stratifikationellen Ansatzes der linguistischen Beschreibung. Als Arbeitshypothese wird angenommen, daß monolinguale Wörterbücher dadurch strukturiert werden können, daß einzelne linguistische Beschreibungsebenen (z.B.

69 Beispiel: Zusammenhänge zwischen subkategorisierten grsimmatischen Funktionen und phrasenstrukturellen Realisierungen der Verbkomplemente, welche durch die grammatischen Funktionen beschrieben worden sind; wenn im Französischen die grammatische Funktion S U B J E C T vorhegt, so kann sie durch NP, I n f i n i t i v oder Que-Satz, nicht aber durch wh-Sätze (indirekte Fragesätze) realisiert werden. Der Nutzen dieser Art von Dokumentation wurde in Abschnitt 2.1.2.4, Seite 31 angesprochen.

67 Morphosyntax, Konstituentenstruktur, funktionale Syntax, Prädikat-ArgumentStrukturen, pragmatische Beschreibungen) als einzelne Komponenten (oder Module) der monolingualen Lexika aufgefaßt werden. Ziel der Modularisierung soll es sein, sicherzustellen, daß für jede Beschreibungsebene separate Wohlgeformtheitsbedingungen formuliert und mit automatischen Mitteln überprüft werden können (siehe unten, Punkt 6). Außerdem wird davon ausgegangen, daß ein stratifikationeller Ansatz der monolingualen Beschreibung besser in den Rahmen von linguistischen Theorien wie beispielsweise HPSG paßt, wie sie in der maschinellen Sprachverarbeitung weithin Verwendung finden. (c) Modularisierung der ebenenspezifischen Beschreibungen: Bausteine - Klassen - Instanzen: Auch die einzelnen Komponenten der monolingualen Beschreibungen sollten wiederum modular konstruiert sein. Damit die oben in Punkt 3 geforderte Robustheit von Import und Export gegenüber Änderungen des Wörterbuchbestands realisiert werden kann, ist es vorteilhaft, wenn ebenenspezifische lexikalische Beschreibungen wiederum aus Komponenten aufgebaut sind. Die hier vorgeschlagenen Komponenten sind die Definitionen der Beschreibungsmittel, welche als "Vokabular" für die Beschreibungen jeder einzelnen linguistischen Beschreibungsebene gelten sollen, weiterhin Generalisierungen, für jede einzelne Ebene (also einzelsprachspezifische Klassen) und schließlich einzelne Wörterbucheinträge oder Komponenten davon. In einem solchen Modell können Abbildungsregeln zum "Export" in ein anwendungsspezifisches Wörterbuch an den Bausteinen der Beschreibungen festgemacht werden; die Bausteine (das Vokabular) der Spezifikationen auf der funktional-syntaktischen Ebene sind z.B. grammatische Funktionen. Während die Beschreibung bzw. Klassifikation einzelner Verblesarten u.a. von der zugrundegelegten Theorie abhängt und sich öfters ändern (oder der Diskussion unterworfen sein) kann, kann man annehmen, daß das Vokabular der Lexikonspezifikation weitgehend stabil ist. Damit die Abbildungsregeln für den Export "änderungsbeständig" sind, müssen sie also an den Bausteinen der Spezifikation festgemacht werden. 6. Deskriptive Konsistenz: Für jedes Wörterbuch wird man fordern, daß es beschreibungsseitig konsistent sei; die Forderung sieht beinahe trivial aus, ist aber schwer einzuhalten. Deskriptive Konsistenz bedeutet die Benutzung eines festen Inventars von Beschreibungsmitteln im gesamten Wörterbuch (Bausteine der Spezifikation: ein wohldefiniertes Vokabular), die Festlegung, welche Beschreibungsmittel aufweiche Klassen von linguistischen Objekten angewendet werden können bzw. angewendet werden müssen, sowie die explizite Festlegung der Zusammenhänge zwischen den Beschreibungsmitteln und den jeweils damit abzudeckenden Phänomenen; nur wenn der Lexikograph diesen Zusammenhang bewußt beschreibt, können die u.a. bei der Wiederverwertung von bestehenden Wörterbüchern beobachteten Probleme synonymer oder polyfunktionaler Angaben vermieden werden. Die Forderung nach Konsistenz kann in einem Wörterbuch, welches in einem constraint-basierten Formalismus repräsentiert wird durch die Forderung nach dem Vorhandensein einer formalen (und durch den Formalismus automatisch überprüfbaren)

68

Spezifikation ersetzt werden. Eine solche Spezifikation legt genau fest, welche linguistischen Objekte mit welchen Beschreibungsmitteln beschrieben werden müssen (Inhaltsmodell, content model). Die Spezifikation definiert, wie eine formale Grammatik, die Syntax und Semantik der Angaben und ihrer Kombinationen. Im Fall von gedruckten Wörterbüchern bedeutet die Forderung nach deskriptiver Konsistenz, daß eine Typologie von Einträgen, entlang einer Typologie der zu beschreibenden Phänomene und lexikaUschen Objekte erstellt wird, und daß analoge Phänomene bei verschiedenen lexikalischen Einträgen mit analogen Mitteln beschrieben werden. Schließlich sind implizite Angaben zu vermeiden und durch explizite Angaben oder durch Regeln oder in anderer Weise reproduzierbare "Berechnungsanleitungen" zu ersetzen. 7. Gleichermaßen explizite Beschreibung von Quell- und Zielsprache: Das zweisprachige Wörterbuch muß die Quellsprache und die Zielsprache als gleichrangige Komponenten enthalten. Die monolinguale Beschreibung von Quell- und Zielsprache muß jeweils hinreichend explizit sein. Dies betrifft auch diejenigen syntaktischen, semantischen und pragmatischen Eigenschaften der Zielsprache, die aus der Sicht der Hinübersetzung aus einer gegebenen Quellsprache "trivial" sind, beispielsweise isomorph. Werden im zweisprachigen Wörterbuch die (zufälligen) Isomorphien zwischen Quellund Zielsprache bei der Präsentation von Äquivalentbeschreibungen in der Weise ausgenutzt, daß, entsprechend dem Ziel einer möglichst effizienten Präsentation, Teilbeschreibungen weggelassen werden, so führt dies zu impliziten Beschreibungen, die die deskriptive Konsistenz, wie sie oben in 6 gefordert ist, verletzen^". Die hier zusammengestellten Anforderungen werden unten, in Abschnitt 3.2 wiederaufgenommen. Dort wird, auf der Grundlage des TFS-Formalismus, ein Vorschlag für eine (zunächst monolinguale) Wörterbucharchitektur gemacht. Eine monolinguale BeispielModellierung wird in Kapitel 4 vorgestellt. Auf die Abbildung in anwendungsspezifische Wörterbuchformate wird in Abschnitt 5.2 eingegangen. 2.4

Exkurs: Metalexikographie vs. Wörterbuch-Design

Eine Reihe der in diesem Kapitel zusammengestellten Anforderungen beruhen auf der metalexikographischen Analyse bestehender Wörterbücher bzw. Ansätze zur Organisation von Wörterbüchern. Diese Wörterbuchanalysen stehen in der Tradition der metalexikographischen Wörterbuchkritik, wie sie z.B. von Wiegand, Hausmann, sowie in gewisser Weise Zöfgen und anderen vertreten wird. Die in [Heid/Christ/Heyn 1992] und [Heyn/Christ/Heid 1992] beschriebenen Wörterbuchanalysen des OALDSe, aus denen eine Reihe von Kriterien für die deskriptive und formale Konsistenz von einsprachigen Wörterbüchern abgeleitet werden konnte, setzen zum Teil auf Wiegands Ansatz zur Beschreibung von Artikelstrukturen in Wörterbüchern auf, und sie können als "Implementierung" von Wiegands Wörterbuchanalyse-Verfahren aufgefaßt werden. Mit Ausnahme von den in [Bläsi/Koch 1992] beschriebenen Arbeiten, die von Mitarbeitern von Herbert Ernst Wiegand durchgeführt wurden, gibt es sehr wenig

70 Direktionale zweisprachige Wörterbücher sind dewegen weniger leicht wiederverwendbar als nichtdirektionale.

69 publizierte Resultate von metalexikographischen Untersuchungen, die mit Computerunterstützung durchgeführt worden wären. Die metalexikographische Wörterbuchkritik hat offenbar bislang nur zum Teil von den Möglichkeiten einer maschinenlesbaren Repräsentation von Wörterbüchern Gebrauch gemacht^^ Umgekehrt, und dies ist in gewisser Weise noch erstaunlicher, sind die in der "Computational Lexicography" durchgeführten Experimente zur Nutzbarmachung von maschinenlesbaren Wörterbüchern, wie sie etwa in [Boguraev/Briscoe 1989] und neueren, vergleichbaren Arbeiten dokumentiert sind, ohne Verweis auf (und u.U. ohne Kenntnisnahme von) Arbeiten aus der Metalexikographie realisiert worden. Die wenigsten Wörterbuchanalysen, die im Rahmen der Computational Lexicography angestellt wurden, nehmen die Methoden und Ergebnisse der metalexikographischen Wörterbuchuntersuchungen auf. Ebenso sind die Diskussionen um wiederverwendbare Wörterbücher bislang im Wesentlichen nicht im Zusammenhang mit lexikographische Versuchen z.B. von Wörterbuchverlagen und Lexikographen gesehen worden, für praktische Zwecke wiederverwendbare lexikalische Beschreibungen zu erstellen''^. Eine der methodischen Annahmen, die hier verfolgt werden, ist es, daß der Einbezug von Resultaten aus der Lexikographie in die Diskussion um multifunktionale Wörterbücher zu einer Präzisierung der Anforderungsdefinition, sowohl an die lexikographische Beschreibung, als auch an die Abfrage elektronischer Wörterbücher führt. Auch die metalexikographische Wörterbuchkritik hat entscheidende Vorteile davon, wenn ihr Untersuchungsobjekt maschinenlesbar vorliegt, und wenn Methoden der computerlinguistischen Texterschließung und der (halb-)automatischen Konsistenzprüfung und -kontrolle als Hilfsmittel bei der Untersuchung von Wörterbüchern verwendet werden. Das OALDSe war eines der ersten Wörterbücher, welches vollständig (sämtliche in der elektronischen Fassung vorhandenen Wörterbucheinträge) metalexikographisch untersucht worden ist, und nicht nur anhand der stichprobenweisen Untersuchung einer Artikelstrecke oder einer Teilmenge der vorhandenen Einträgen. Gerade im Hinblick auf die Diskussion um deskriptive Konsistenz von Wörterbüchern sind damit Ergebnisse erzielt worden (vgl. [Heyn 1992]), die in dieser Form auf der Grundlage von Stichproben nicht hätten erzielt werden können. Es besteht also ein Synergieeffekt zwischen metalexikographischer Wörterbuchbeschreibung und computerlinguistischer Arbeit an lexikalischen Spezifikationen. Diesen Synergieeffekt gilt es auszunützen.

71 Dies, obwohl englische Wörterbücher seit rund 10 Jahren, in den letzten 5 Jahren vermehrt, maschinenlesbar verfügbar sind. In Deutschland gibt es allerdings in der Tat zum Zeitpunkt der Abfassung des vorliegenden Texts noch kein {für Metalexikographen verfügbares) vollständiges Wörterbuch online. Da viel an metalexikographischer Theoriebildung in Deutschland (an deutschen Wörterbüchern) erfolgt ist, mag hier ein erklärungsrelrevanter Zusammenhang bestehen. 72 Wie die "manuell" durchgeführten Wörterbuchanalysen der Metalexikographie sind auch die Untersuchungen von Wörterbüchern in der Computational Lexicography z.T. "anekdotisch": die relevante Literatur (z.B. [Alshawi 1989], [Vossen/Meijs/den Broeder 1989]) beschreibt in der Regel lediglich einzelne Probleme oder spezifische Methoden der Wiederverwendung von traditionellen Wörterbüchern.

Kapitel 3 Constraint-basierte lexikalische Repräsentation und Wörterbucharchitektur Dieses Kapitel stellt die Merkmale von TFS, dem Typed Feature Structure Rewriting System von Emele und Zajac vor; TFS dient hier als konkretes Beispiel eines constraintbasierten Formalismus^ der für die Repräsentation lexikalischer Beschreibungen eingesetzt werden kann. Zunächst werden die relevanten Eigenschaften des Formalismus aus der Sicht der Benutzung im Lexikon vorgestellt, dann wird auf dieser Grundlage ein Vorschlag für eine Wörterbucharchitektur entwickelt. Hier werden zunächst die Prinzipien dieser Architektur umrissen. In Kapitel 4 werden Beispiellexika vorgestellt und diskutiert, und in Kapitel 5 wird gezeigt, wie sich die Wörterbucharchitektur und die Spezifika des Formalismus für verschiedenartige Abfrageverfahren und zum Teil neuartige Anfragen an lexikalische Wissensbasen nutzen lassen.

3.1

TFS als lexikalischer Repräsentationsformalismus

Für die hier diskutierten Arbeiten zur Lexikonmodellierung wird der TFS-Formalismus (Typed Feature Structures) als Repräsentationssprache für lexikalische Beschreibungen verwendet. T F S ist ein auf Constraint-Logik beruhender Formalismus, der in Arbeiten von [Emele 1994], [Emele 1993], [Zajac 1992] und in [Emele/Heid 1993] im Detail beschrieben ist^. T F S wurde bisher unter anderem zur Kodierung von HPSG-Grammatiken eingesetzt^, jedoch nicht in größerem Ausmaß als Repräsentationssprache für Lexika. Die formalen Eigenschaften von T F S sollen im folgenden nicht detailliert dargestellt werden; eine solche Darstellung findet sich in den zitierten Arbeiten und in [Emele 1996]. Statt dessen ist es jedoch notwendig, zunächst aus der Sicht der lexikographischen Benutzung auf die speziell für die lexikalische Repräsentation relevanten Eigenschaften von TFS einzugehen. Auf dieser Grundlage sind die Vorschläge zur Lexikonarchitektur in Abschnitt 3.2 und die Beispiele für die lexikaUsche Kodierung in Kapitel 4 besser nachzuvollziehen. Außerdem ist uns bisher keine Beschreibung der Benutzung des TFS-Formalismus oder anderer constraint-basierter computerlinguistischer Formalismen für die lexikalische Modellierung bekannt

1 2 3 4

Als allgemeine Einführung und Überblick vgl. [Carpenter 1992]. In [Emele 1994] and [Emele 1993] finden sich auch Verweise auf weitere Literatur und auf andere Constraint-Formalismen. Vgl. [Kuhn 1993] als Einführung, [Heid/Kuhn 1994], etc. In [Emele/Heid 1993] werden einfache Beispiele für die Verwendung von TFS anhand von Einträgen einer fiktiven Personaldatenbank gegeben. Ein Vergleich von lexikalischen Repräsentationssprachen findet sich in [Daelemans/Van der Linden 1992], aber dort werden Constraint-Logik-basierte Formalismen nur sehr kurz angesprochen.

72

3.1.1

Datentyp von TFS

Der im TFS-System verwendete Datentyp sind (komplexe) getypte Featurestrukturen {Typed feature structures, TFS). Featurestrukturen (Attribut-Wert-Strukturen) sind die in Unifikationsgrammatiken üblicherweise benutzten Datenstrukturen. Getypte Featurestrukturen liegen vor, wenn Featurestrukturen klassifiziert und gleichartige Strukturen mit einem "Klassennamen" (in TFS: Typsymbol) versehen werden. Die getypten Featurestrukturen von TFS haben folgende Bausteine: • Ein Typsymbol (das den "Namen" der Klasse von Objekten angibt, zu der eine Featurestruktur gehört); • Attribut-Namen

(zur Angabe von Eigenschaften eines Typs);

• Werte der Attribute: diese können selbst wieder getypte Featurestrukturen sein (damit entstehen komplexe getypte Featurestrukturen), oder Listen von getypten Featurestrukturen, oder atomare Featurestrukturen (s. unten); • Gleichheitsconstraints zwischen Teilbeschreibungen (Bedingungen für Token Identity: Verweis auf ein- und dasselbe Objekt). Featurestrukturen sind entweder atomar oder komplex. Atomare Featurestrukturen bestehen entweder aus einem Typsymbol (das keine weiteren Attribute hat,) oder aus einem systemseitig definierten Typ, z.B. "integer" oder "string". Das TFS-System hat eine Reihe von Notationskonventionen für Featurestrukturen, generell werden Featurestrukturen als Sequenzen von Attribut-Wert-Paaren notiert. Die "lineare" Notation wird bei der interaktiven Eingabe von Definitionen verwendet®. Das graphische Benutzerinterface des TFS-Systems gibt z.B. Evaluierungsresultate in der üblichen Matrix-Notation aus. Nachfolgend sind die beiden Notationen schematisch angegeben®: • lineare Notation: #X=type [Fl: t l , m'[Fl

. . . . Fn:tn] .

tl]

• Matrix-Notation: type

5 6

FNtn

Die "lineeire" Notation wird in der Regel im folgenden zitiert, wenn Beispiele für TFS-Beschreibungen gegeben werden. Einzelne Definitionen werden hier mitunter als "TFS-Statements" bezeichnet. Wir verwenden in unseren Beispielen eine Reihe von Konventionen; die wichtigsten sind nachfolgend zusammengestellt: • Attributnamen werden in GROSSBUCHSTABEN geschrieben und von einem Doppelpunkt gefolgt, z.B. "[ATTRIBUT:...]"; • Wertenamen werden in kleinbuchstaben geschrieben und stehen rechts vom Attributnamen, z.B. "[ATTRIBUT:wert]"; • Attribut-Wert-Pciare werden durch Kommata getrennt, Klammerung erfolgt mit eckigen Klammern; am Ende eines TFS-Statements steht ein Punkt; z.B. "[A:q, B:r, C: [D:s]]."; • Disjunktion wird durch senkrechten Strich ("|") notiert, z.B.: "[A:q|r]." Weitere Notationskonventionen werden zuscimmen mit den jeweiUgen Konzepten eingeführt, vgl. unten, Abschnitt 3.1.2.2 und Fußnote 16, Seite 78.

73 TFS erlaubt die Formulierung von rekursiven getypten Featurestruktur-Constraints. Diese Eigenschaft wird bei der Kodierung von Grammatiken ausgenutzt. In Grammatikmodellen wie HPSG werden rekursive getypte Featurestrukturen als Repräsentationsmittel verwendet''. Im Lexikon werden rekursive Constraints selten benötigt; mögliche Anwendungen sind die Formulierung von Abbildungsregeln oder ggf. die Kodierung von Prinzipien der Wortbildung. Im folgenden werden Eigenschaften von TFS vorgestellt, die für die lexikalische Repräsentation relevant sind; es wird gezeigt, welche Vorteile und Probleme sich für die lexikalische Modellierung und für die Architektur von Wörterbüchern für die Sprachverarbeitung ergeben^. 3.1.2

Eigenschaften aus d e m objektorientierten Paradigma: Relevanz für die lexikalische Repräsentation

TFS hat sowohl Eigenschaften von objektorientierten Repräsentationsformalismen als auch von constraint-basierten Programmiersprachen. Die Kombination der Eigenschaften beider Paradigmen erweist sich für die Repräsentation linguistischer Information und für deren Verarbeitung als besonders nützlich. Man kann auch, vereinfachend, sagen, daß TFS Eigenschaften einer Wissensrepräsentationssprache (Darstellung von Fakten) mit Progammiersprachen-Eigenschaften (Prozessierung von Daten gemäß Algorithmen zur anwendungs- oder aufgabenspezifischen Verarbeitung) verbindet. Diese Unterscheidung stimmt nicht genau mit der obigen Unterscheidung überein; TFS kann jedoch sowohl zur Darstellung linguistischen Wissens, als auch zur Formulierung von Verfahren benutzt werden, die zur "Verarbeitung" linguistischen Wissens dienen. Das erlaubt es nicht nur, Grammatik und Lexikon in einem gemeinsamen Format darzustellen (Wegfall von Schnittstellen), sondern auch, lexikalische Faktenbeschreibungen und beispielsweise Abbildungsregeln für die Reformatierung oder den Export der Beschreibungen einheitlich zu repräsentieren®. Zu den objektorientierten Eigenschaften von TFS gehört das Vorhandensein eines Klassenkonzepts und damit die Möglichkeit, linguistische Beschreibungen und speziell Lexika klassifikatorisch anzulegen. Daneben spielt das aus der objekt-orientierten Progammierung und der Wissensrepräsentation bekannte Konzept der Vererbung von Eigenschaften eine Rolle, welches zum Ausdruck von Generalisierungen benutzt werden kann. Die Vererbungshierarchien können vom Benutzer (d.h. dem Lexikographen) spezifiziert werden. 3.1.2.1

TFS-Hierarchien: Klassifikation lexikalischer Objekte

Merkmalsstrukturen, die dieselben Attribute und dieselben Constraints aufweisen, werden in TFS in einem Typ zusammengefaßt. Beim Aufbau von Wörterbüchern können

HPSG-Grammatiken können also in TFS kodiert werden, ohne daß besondere Konstrukte der TFSSprache oder spezielle Verfahren zur Umsetzung der HPSG-Beschreibungen in TFS nötig wären. TFS bietet sich damit als relativ natürlicher Repräsentationsformalismus für HPSG an. Die Beschreibung beruht neben den oben in Abschnitt auf 3.1 zitierten Aufsätzen auf den Arbeiten von Emele zur formalen Definition von TFS, [Emele 1996], [Emele/Heid 1993], und auf Erfahrungen von Arbeiten aus DELIS. Diese Homogenität wird zum Beispiel in den Arbeiten zu den Export- und Corpus-Such-Werkzeugen in DELIS (vgl. [Emele/Heid 1993], [Linden 1994)) ausgenützt. Die Anwendung für den Export wird unten in Abschnitt 5.2 beschrieben.

74 Typdefinitionen zur Modellierung der Definition von lexikalischen Klassen benutzt werden. Damit läßt sich in TFS-Wörterbüchern das Konzept der lexikalischen Klassifizierung einführen. Wie in Wissensrepräsentationssprachen ergibt sich in einem solchen "getypten" Lexikon eine Möglichkeit zur Kontrolle der Konsistenz von der Beschreibungen einzelner Lexeme, weil jede lexemspezifische Beschreibung Instanz einer allgemeinen Klasse sein mußi°. Klassifikation ist für die Lexikographie kein neues Konzept: schon 0ALD3 hatte Subkategorisierungsklassen; implizit finden sich Klassifikationen in den allermeisten Wörterbüchern. Ein Beispiel für die Anwendung von Klassendefinitionen bei der lexikalischen Beschreibung mit TFS sind die Typdefinitionen, welche in den Wörterbüchern des DELISProjekts für Konfigurationen von semantischen Rollen und von grammatischen Funktionen subkategorisierter Ergänzungen aufgebaut wurden^ Beim Lexikondesign kann man sich fragen, ob die einzelnen Lexikoneinträge (d.h. Instanzen) immer terminale Subtypen sein müssen, oder ob nicht auch solche Klassen Instanzen haben können, die ihrerseits noch Subklassen haben. In der Abbildung 3.1 ist auf der linken Seite eine Hierarchie gezeigt, bei der die non-terminale Klasse B einerseits Subklassen (B1 und B2) hat, andererseits die Instanzen "a", "b" und "c". Eine solche Situation wird in der hier benutzten TFS-Kodierung von DELIS nicht erlaubt. Sie wird rekodiert durch die rechts in Abbildung 3.1 schematisierte Situation, in der die Klasse B eine weitere terminale Subklasse B3 hat, zu der die Instanzen "a", "b" und "c" gehören. Ein Beispiel für die in Abbildung 3.1 illustrierte Unterscheidung ist die Modellierung einer Hierarchie von Subkategorisierungsklassen. Nehmen wir folgendes an: B1 und B2 in Abbildung 3.1 sind Klassen, die sich von B dadurch unterscheiden, daß sie nur jeweils spezielle Realisierungen eines Komplements zulassen (z.B. Objektsprädikativ nur als Nominalphrase (NP) oder nur als Adjektivphrase (AP) realisiert), während die Definition von B beide Realisierungen disjunktiv auflistet. Der Lexikograph muß nun entscheiden, ob er die Verben, die beide Realisierungen zulassen, in B3 sammelt oder unter B als Instanzen "aufhängt". Ein ähnlicher Fall liegt vor, wenn B1 und B2 gegenüber B zusätzliche Merkmale aufweisen, z.B. bei optionalen Argumenten: man könnte sich vorstellen, daß der Lexikograph EN this looks stränge to me als Subtyp von this looks stränge analysiert: das erste Besipiel wäre dann z.B. in B2, das zweite in B bzw. B3. Der Unterschied zwischen den beiden Modellierungen ist für die lexikalische Modellierung insofern relevant, als sich durch die momentane formale Beschränkung, daß nur terminale Klassen Instanzen haben sollen (rechts im Bild 3.1), eine Notwendigkeit für die Einführung von mehr Subklassen ergibt, als in einer Situation, wie sie in Abbildung 3.1 links dargestellt ist. Andererseits wird eine klarere Trennung zwischen Klassenund Instanzdefinitionen erzielt. Auf diese Fragestellung wird unten, in Abschnitt 4.6.3 noch detaillierter eingegangen: die Entscheidung zwischen "flachen" und "tiefen" LexikonHierarchien hängt hiermit (und mit einer Reihe anderer Parameter) eng zusammen.

10 Die Definition des Instanzbegriffs für TFS wird hier bewußt undeutlich gelassen: Instanzen sind in der hier benutzten Version von TFS-Sprache als terminale Subtypen implementiert. Die Implementierung der Klasse/Instanz-Unterscheidung in TFS erfolgt im Rahmen des DELIS-Projekts (Arbeiten von Emele). 11 Diese Anwendung wird unten, in Abschnitt 4.2.3, detailliert beschrieben.

75

cTÄ":^

C

b

O

C a

^

O

b

c

Abbildung 3.1: Instanzen von terminalen Subklassen 3.1.2.2

Arten von Hierarchien in TFS: Spezialisierung

Klassendefinitionen und Klassenhierarctiien hängen eng zusammen; das TFS-System kompiliert aus den Typdefinitionen, durch welche die lexikalischen Klassen kodiert werden, eine Spezialisierungshierarchie mit monotoner multipler Vererbung. Solche Spezialisierungshierarchien können mengentheoretisch wie folgt interpretiert werden: wenn zwischen zwei Typen A und B eine Supertyp Subtyp-Relation besteht (B ist ein Subtyp von A, notiert als: "B < A"), dann wird die Menge aller Objekte in B als eine echte Teilmenge der Menge aller Objekte in A interpretiert. Subtypen erben alle Eigenschaften ihrer Superklasse(n): die Vererbung erstreckt sich sowohl auf Attribut-Wert-Paare ("strukturelle Constraints") als auch auf GleichheitsConstraints (vgl. die Datentypen, oben, in Abschnitt 3.1.1). Im folgenden werden die verschiedenen Arten von Spezialisierungsrelationen skizziert und mit Beispielen aus einfachen lexikalischen Modellierungen illustriert, die vom TFSSystem unterstützt werden. Spezialisierungshierarchien von atomaren Typen Bei atomaren Typen muß die Spezialisierungshierarchie vom Benutzer (z.B. dem Lexikographen) postuliert werden (wie in Abbildung 3.2 symbolisiert, links mit TFS-Statements, rechts durch eine partielle Hierarchie), da die Hierarchiebeziehung ja an keinen Unterschieden in Attribut-WertBeschreibungen festgemacht und damit nicht automatisch inferiert werden kann. Dies ist oft bei den Bausteinen von Lexikondefinitionen der Fall, wenn beispielsweise nicht weiter analysierte linguistische Attributwerte als atomare Typen definiert werden Diese Verwendungsweise spielt zum Beispiel eine Rolle, wenn morphosyntaktischer Werte als Bausteine von Lexikonspezifikationen strukturiert werden sollen (vgl. 3.1), oder auch bei Sortendefinitionen, wenn die einzelnen Sorten nicht weiter mithilfe von AttributWert-Strukturen beschrieben werden sollen:

12 Notation: b < a, (lies "b is-a a"); vgl. auch a = b | c . neben b < a. c < a. Der Unterschied zwischen den beiden Notationen wird unten in Abschnitt 3.1.2.5 diskutiert.

76

b

Morphosyntax

[

Syntax

[

l\

« J

/l\

Semantik U x . Zeichen

^

Abbildung 3.13: Informationen im Wörterbucheintrag einzelner Lexeme: Verweise auf Klassen von den verschiedenen Beschreibungsebenen

3.2.3

Modularität und Interciktion der Module

Vereinfacht ausgedrückt, enthält die hier vorgeschlagene Architektur drei separate aber miteinander verbundene Komponenten: • Definition der Beschreibungsmittel: die Spezifikation der Bausteine der Beschreibung (Vokabular, z.B. Inventar der semantischen Rollen, der grammatischen Funktionen, der Typen phrasenstruktureller Konstrukte); • Klassen-Definition: die Spezifikation der wohlgeformten Kombinationen der Beschreibungsmittel; diese Definitionen sind jeweils ebenenspezifisch; sie stellen Wohlgeformtheitsbedingungen für Teilbeschreibungen der einzelnen im jeweiligen Lexikon beschriebenen linguistischen Ebenen dar (z.B. Definition von Rollenkonstellationen als lexikalisch-semantische Klassen, von syntaktischen Subkategorisierungsklassen, etc.)^'';

34 Ein spezieller Typ von Wohlgeformtheitsbedingungen fehlt derzeit noch (in der Modellierung von DELIS): Es gibt keine "Meta-Spezifikation", die die Wohlgeformtheit der vorhandenen oder eventuell vom Lexikographen neu hinzudefinierten Rollenkombinationen überprüfen hilft, so daß der Lexikograph momentan noch entweder gar keine oder beliebige neue Rollenkombinationen einführen kann. Es fehlt also eine "Meta-Definition" auf der semantischen Ebene, die vergleichbar wäre mit den in der syntaktischen Beschreibungstheorie von LFG vorhandenen allgemeinen Constraints von "Completeness" und "Coherence".

93 • Instanzen-Definition: für jede einzelne Lesart die Spezifikation der Zugehörigkeit zu den einzelnen Klassen. Die Beschreibungsmittel der einzelnen Ebenen werden jeweils separat definiert. Die Kombinationsmöglichkeiten zwischen (in der Regel je zwei) ebenenspezifischen Teilbeschreibungen werden durch separate relationale Constraints (Abbildungen) modelliert. In solchen Abbildungsregeln wird zum Beispiel ausgesagt, daß die im Rahmen von Frame Semantics verwendete Rolle experiencer auf ein Subjekt abgebildet werden kann. Eine natürlichsprachliche Paraphrase des Abbildungsstatements könnte wie folgt lauten: "Liegt in einer lexikalisch-semantischen Teilbeschreibung die Rolle experiencer vor, so muß in der dazugehörigen Teilbeschreibung auf der Ebene der grammatischen Funktionen die Funktion Subjekt vorliegen.". Die Relationen geben das AbbildungspotentiaJ, d.h. die maximale Menge möglicher Abbildungen an. Der Eintrag einer einzelnen Lesart in einem DELIS-Wörterbuch ist wohldefiniert, wenn er auf genau eine lexikalisch-semantische Rollenkonfiguration verweist (d.h. in der TFSKodierung von dem entsprechenden Typ erbt), und wenn er darüberhinaus auf genau eine syntaktische Subkategorisierungsklasse oder eine Menge als Varianten miteinander verbundener Subkategorisierungsklassen verweist (von den betreffenden Typen erbt). Gleichzeitig muß die Kombination der syntaktischen und semantischen Klassen das Produkt der relationalen Constraints für die Abbildungen zwischen jeweils ebenenspezifischen Konstrukten erfüllen. Auf diese Weise werden die Beschreibungen einzelner lexikalischer Zeichen sowohl "horizontal" (durch die Zugehörigkeit zu Typen, die die Konstellationen von ebenenspezifischen Beschreibungsmitteln definieren) als auch "vertikal" (durch Definitionen der Interaktion zwischen Konstrukten der verschiedenen Ebenen) festgelegt. Die Abbildung in 3.14 symbolisiert dies: die Abbildungen zwischen je zwei Ebenen sind durch schattierte Kästchen hinterlegt. Die lexikalisch-semantischen, syntaktischen und phrasenstrukturellen Klassifizierungen sind horizontal als Teil-Listen angegeben. Beispiele aus DELIS für diese Abbildungen werden unten in Abschnitt 4.4 gegeben. Mit dem hier skizzierten Modellierungsverfahren können sowohl die Komponenten der lexikalischen Spezifikation, als auch die Abbildungen zwischen den ebenenspezifischen Beschreibungen modular^® gehalten werden.

ROLLEN:

GRAMM. FUNKTIONEN:

Modalität Sprache 4DE EN FR

perception visuell auditiv sehen see voir

hören hear entendre

attention visuell ansehen, anschauen look/watch regarder

auditiv anhören listen (to) ecouter

Tabelle 4.2: Perception vs. Attention-Verben von DE, FR, EN im visuellen und auditiven Bereich Für die Subtypen von Experiencer gibt es eine Reihe von Tests. Das Vorliegen der Subrolle E x p e r i e n c e r - i n t e n t i o n a l kann anhand von Tests festgestellt werden, die auf eine absichtliche Handlung des Experiencer überprüfen. Ein Beispiel für einen solchen Test ist eine Einbettung des zu prüfenden Verbs unter einem Kontrollverb, das eine absichtliche Entscheidung ausdrückt, wie z.B. DE entscheiden, beschließen, EN decide, FR decider, se decider. Ist die Einbettung akzeptier-

Beschreibungsebenen entspricht dem in Abschnitt 3.2.4 formulierten und in Punkt 2 der Anforderungsdefinition in Abschnitt 2.3, Seite 66 geforderten Prinzip möglichst expliziter Dokumentation der lexikalischen Spezifikationen. 10 Die Unterscheidung wurde oben, in Abschnitt 4.6.2 angesprochen. Sie wird hier im Kontext der Frame Semantics-Beschreibung dargestellt. Eine leichte Redundanz, die sich hierdurch ergibt, ist leider nicht zu vermeiden. 11 Als E x p e r i e n c e r kommen natürlich Tiere und Menschen in Frage. Hier wird abkürzend in der Regel von Personen gesprochen. In den ModeUierungen wird die Sortenrestriktion "[SORT: animate]" verwendet; vgl. unten, Abschnitt 4.2.2 und die Hierarchie in Abbildung 4.2.

104 No 1 2 3 4

Beispielsatz He decided to hear a gun shot He decided to hear Prof. Lee (at a congress) He deliberately heard a gun shot He deliberately heard Prof. Lee

konsistent? -

-h -

-1-

experiencer- Subrolle experiencer--n experiencer--i experiencer--n experiencer--i

Tabelle 4.3: Tests für die Unterscheidung zwischen e x p e r i e n c e r - i und experiencer-n

bar und semantisch konsistent, so liegt die Subrolle e x p e r i e n c e r - i n t e n t i o n a l vor. Ist die Einbettung nicht akzeptierbar, bzw. nicht semantisch konsistent, so liegt die Rolle e x p e r i e n c e r - n o n - i n t e n t i o n a l vor; analog funktioniert die Einbettung unter dem Adverb EN deliberately (etc.). Ein Beispiel für zwei Lesarten von EN hear ist in Tabelle 4.3 angegeben. 4.2.1.2

Percept

Die Rolle percept denotiert das wahrgenommene Objekt oder Ereignis (percept-actual). Außerdem dient die Rollenbezeichnung dazu, Frame Elements zu identifizieren, die einen Gegenstand oder einen Sachverhalt denotieren, auf welchen der Experiencer seine Aufmerksamkeit richtet (percept-target), oder die eine Interpretation seitens des Experiencer denotieren, welche sich aus einem Wahrnehmungsereignis ergibt (percept-interpretation).

Die drei Subtypen der Rolle percept sind wie folgt definiert: • Percept-Actual: Die Entität oder der Sachverhalt, welcher wahrgenommen wird. • Percept-Target: Die Entität oder der Sachverhalt, auf welchen der Experiencer seine Aufmerksamkeit richtet, bzw. welchen er wahrnehmen möchte. • Percept-Interpretation: Eine Schlußfolgerung, Hypothese oder Interpretation, die der Experiencer formuliert, wenn er einen Sachverhalt oder eine Entität wahrnimmt^^. Für die Subtypen der percept-Rolle wurden folgende Tests vorgeschlagen. Die Subrolle percept-interpretation tritt nur auf, wenn gleichzeitig ein (in DELIS als percept-actual klassifiziertes) Komplement vorliegt, welches die perzeptive "Grundlage" für die Interpretation liefert. Dies wird durch Beispielsätze wie DE an ihrem Gesichtsausdruck sah ich, daß sie traurig war illustriert. In diesem Beispielsatz ist an ihrem

12 Die Subrolle percept-interpretation denotiert die Hypothese oder Interpretation, welche der Experiencer bei der Walirnehmung eines Percept hat. Diese Subrolle stellt die (fließende) Grenze zwischen visueller Wahrnehmung und mentaler Wahrnehmung dar. Viele visuellen Wahrnehmungsverben (insbesondere im Französischen) können dazu benutzt werden, in einer "übertragenen" Bedeutung eine mentale Wahrnehmung bzw. eine Schlußfolgerung zu denotieren.

105

Gesichtsausdruck als p e r c e p t - a c t u a l klassifiziert, während daß sie traurig war als p e r c e p t - i n t e r p r e t a t i o n beschrieben wird^^. Ein möglicher Test für die percept-target-Rolle beruht darauf, daß das Objekt, auf das sich die Aufmerksamkeit des experiencer richtet und welches als p e r c e p t - t a r g e t klassifiziert wird, nicht notwendigerweise in der durch den Satz beschriebenen Situation vorhanden sein muß. Folglich können Sätze mit als p e r c e p t - t a r g e t klassifizierbaren percepts akzeptierbare und konsistente Interpretationen erhalten, auch wenn die aktuelle Existenz des percepts negiert wird. In dem Satz EN He looked for a bottle of wine. ist es möglich, einen Nebensatz but he couldn't see one hinzuzusetzen. Die Phrase a bottle of wine in diesem Satz wird als p e r c e p t - t a r g e t analysiert. Dagegen ist der Satz EN *He looked at a bottle of wine, but he couldn't see one. semantisch inkonsistent (a bottle of wine wird hier als p e r c e p t - a c t u a l analysiert). 4.2.1.3

Judgement

Die judgement-Rolle hat drei Subtypen, je nach Art der Beurteilung^'^. Diese drei Subtypen sind wie folgt definiert: • Judgement-veridical: Die Beurteilung betrifft eine intersubjektiv reproduzierbare (nicht notwendig objektive) Eigenschaft des beurteilten percepts. Solche Beurteilungen können durch qualifikative Adjektive ausgedrückt werden (dieser Saft schmeckt bitter: dieses Gas riecht stechend: dieser Stoff fühlt sich feucht an), oder durch Vergleichsphrasen (Präpositionalphrasen oder Vergleichssätze: Das schmeckt wie Lebertran: das riecht, wie wenn es vergammelt wäre). • Judgement-evaluative: Die Rolle dient zum Ausdruck einer subjektiven Beurteilung entlang der "gut schlecht-Skala". Sätze mit der Rolle judgement-evaluative dienen oft dazu, die persönliche Einschätzung des experiencer relativ zu einem Wahrnehmungsereignis bzw. einer wahrnehmbaren Eigenschaft eines Gegenstands oder Sachverhalts auszudrücken. Typische Beispiele sind das schmeckt (mir) gut; das riecht fürchterlich; das hört sich schrecklich an; diese Substanz stinkt wie der Teufel usw. Die evaluativen Adjektive sind nicht für eine bestimmte Wahrnehmungsmodalität spezifisch, sondern können für sämtliche Modalitäten und auch außerhalb des Wahrnehmungsbereichs verwendet werden. • Judgement-inference: Diese Rolle wird zugewiesen, wenn eine persönliche Interpretation eines wahrgenommenen Phänomens ausgedrückt wird. Als persönliche Interpretation werden alle diejenigen Beurteilungen beschrieben, die nicht auf eine Wahrnehmung, sondern auf den Rückschluß verweisen, welchen der experiencer auf Grund einer Wahrnehmung zieht. Typischerweise kann eine Eigenschaft, die als j u d g e m e n t - i n f e r e n t i a l beschrieben wird, nicht ohne menschliches Wissen über

13 Es wurde vorgeschlagen ([Schwanger 1995]), das VorUegen einer percept-interpretation-Rolle dadurch zu prüfen, daß einem Satz eine weitere Begründung, etwa in einem Kausalsatz, hinzugefügt wird. In den meisten Fällen ergeben sich bei Vorliegen von p e r c e p t - i n t e r p r e t a t i o n inkonsistente Beschreibungen, während dies in anderen Fällen nicht erfolgt. Allerdings ist dieser Test nicht besonders trennscharf. 14 Tests werden hier nicht aingegeben, einmal weil solche Tests im Kontext der anderen für den judgingFrame chcircikteristischen Rollen gesehen werden müßten, und zum anderen, weil die Rollen über semantische, lexikalische und syntaktische Kriterien leicht identifizierbar sind. Vgl. oben, Seite 102.

106 die Welt aus einer sinnlichen Wahrnehmung abgeleitet werden. Typische Beispiele sind sie sieht fröhlich aus; sie klingt verärgert; die Suppe schmeckt wie wenn jemand Zucker und Salz verwechselt hätte. Die qualifikativen Adjektive, die mit dieser Rolle beschrieben werden können, können aus ganz verschiedenen semantischen Feldern stammen und haben in der Regel nichts mit dem semantischen Feld Wahrnehmung zu tun. Auch hier sind Vergleichskonstruktionen möglich. Sämtliche Subtypen der judgement-Rolle werden syntaktisch parallel realisiert. 4.2.1.4

TFS-Kodierung der Rollen

In der TFS-Modellierung werden die einzelnen Rollen und ihre Subtypen durch die Typenhierarchie kodiert (vgl. auch Abbildung 4.1 und die Statements 4.1, 4.2, 4.3 und 4.4). (4.1) r o l e

= experiencer

|

percept

I

judgement.

(4.2) e x p e r i e n c e r

= experiencer-int

(4.3) p e r c e p t

= p e r c e p t - a c t u a l | percept-tzürget

(4.4) judgement

= judgement-veridical

I experiencer-nonint. |

percept-interpretation.

| judgement-evaluative I judgement-inferential

Die experiencer-Rolle wird durch ein zusätzliches binäres Merkmal INTENTION in zwei Subtypen spezialisiert (4.5). (4.5)

experiencer-int [INTENTION: +]. experiencer-nonint [INTENTION: -] .

Außerdem wird gefordert, daß der durch die experiencer-Rolle beschriebene Situationsbeteiligte als ein Konzept von der Sorte 'animate' beschrieben werden kann ( 4 . 6 ) . Sinngemäß wird für die Rolle percept-actual gefordert, daß entweder eine Entität oder ein Sachverhalt vorliegt ( 4 . 7 ) ; für percept-interpretation wird die Bedingung aufgestellt, daß lediglich ein Sachverhalt vorliegen kann ( 4 . 8 ) . Sortale Einschränkungen für die judgement-Rolle werden nicht formuliert. (4.6)

experiencer[SORT: animate].

(4.7)

percept-actual[SORT: entity | proposition].

(4.8)

percept-interpretation[SORT: proposition].

Die Rolle p e r c e p t - a c t u a l ist außerdem anhand zusätzlicher Sortenrestriktionen in weitere Subrollen aufgespalten. Diese wurden oben in Abschnitt 4.6.2 beschreiben. Eine Teilhierarchie der relevanten Verbklassen (perception und a t t e n t i o n ) ist in Abbildung 4.12 dargestellt. Die Rollenhierarchie wurde in Abbildung 5.10, Seite 162, dargestellt. 4.2.2

Sorten

Wie in vielen Modellierungen von NLP-Lexika, wird auch in DELIS eine Sortenhierarchie verwendet. Für die Zwecke der DELIS-Beschreibungen wird auf die Ausarbeitung der Sortenhierarchie kein besonderer Wert gelegt. Sie ist nicht dafür gedacht, einen ontologischen Erklärungswert oder eine sonstige Erklärungsrelevanz zu haben, die über die Trennung

107

relativ unkontroverser Lesartenunterscheidungen hinausgehen würde^®. Dementsprechend ist die Sortenhierarchie sehr elementar und wenig ausgearbeitet; bei Bedarf könnte sie aber erweitert werden, oder es könnte ein Domänenmodell angeschlossen werden. Die Sortenhierarchie ist in der Abbildung 4.2 angegeben. Die Sorten sind als atomare Typen von TFS definiert^®.

Jiumanj

Abbildung 4.2: Die in DELIS verwendete rudimentäre Sortenhierarchie Ähnlich wie bei den internen Merkmalen (z.B. INTENTION oben, Abschnitt 4.2.1.4, Statement 4.5), könnte auch für die Sorten-Beschreibung von Subtypen der lexikalisch-semantischen Rollen ein alternativer Weg eingeschlagen werden. Anstatt die Hierarchie tiefer zu gestalten, könnte man auch zwei flachere Teilhierarchien durch Kreuzklassifikation miteinander verbinden: • Die eine solche Teilhierarchie würde die nicht durch Sorten-Merkmale bedingte Hierarchie von Rollen und Subrollen enthalten (z.B. die Unterscheidung zwischen p e r c e p t - a c t u a l , p e r c e p t - t a r g e t und p e r c e p t - i n t e r p r e t a t i o n ) . • Die andere Teilhierarchie ist die Sortenhierarchie. Durch Kreuzklassifikation, z.B. zwischen p e r c e p t - a c t u a l und den relevanten Sorten, würden sich die Subtypen von p e r c e p t - a c t u a l ergeben^^. Die beiden Darstellungen sind konzeptuell und formal äquivalent, jedoch würde ein Kreuzklassifizierungs-Ansatz dem Architekturprinzip der Modularisierung noch weiter entgegenkommen^®.

15 In DELIS wurde die Definition von Subrollen zum Teil von Sortenrestriktionen abhängig gemacht. Ein typisches Beispiel hierfür sind die Subtypen von p e r c e p t - a c t u a l , die in Abschnitt 4.6.2 beschrieben sind. 16 Natürlich ist ein solches Vorgehen aus der Sicht einer detaillierteren lexikahsch semantischen Beschreibung unbefriedigend. Andererseits haben Arbeiten, z.B. im Kontext von EAGLES und früher bereits in EUROTRA, gezeigt, daß es nahezu unmöglich ist, zwischen verschiedenen NLP-Projekten zu einem Konsensus über die verwendeten spezifischen Sorten-Bezeichnungen zu kommen. Auch bei Domänenmodellen (wie beispielsweise im Rahmen von VERBMOBIL) kann in gleicher Weise über den Status von Sorten diskutiert werden. 17 Vgl. die Statements oben, 4.7, Seite 106 und 4.72, 4.73, 4.74, 4.75 auf Seite 138. 18 Die Entscheidung für verhältnismäßig tiefere Hiercirchien und gegen Kreuzklassifikation in der bestehenden Modellierung ist technisch bedingt: Die zur Modellierung verwendete Version von TFS (TFS6.0.10 bzw. TFS-6.1) unterstützt keine vollständige Kreuzklassifikation. Diese Fragestellung wurde oben in 5.3.2 detailliert diskutiert.

108

4.2.3 4.2.3.1

Rollenkonstellationen Prinzipien

Für die Klassifizierung von Verben nach Frame Semantics ist die Tatsache relevant, daß bestimmte Kombinationen von Rollen bzw. Subrollen (Rollenkonstellationen) bei einer größeren Anzahl von Verben bzw. Verblesarten auftreten. Eingangs wurde darauf hingewiesen, daß das gemeinsame Auftreten der Rollen exp e r i e n c e r und percept für die Wahrnehmungssituation charakteristisch ist. Bei Hinzutreten der judgement-Rolle ergeben sich weitere Kombinationen, entweder aus p e r c e p t und judgement, oder aus e x p e r i e n c e r , percept und judgement (dreistellige Verben). Schematisch ist diese grobe Klassifikation in der Abbildung 4.3 dargestellt.

' veridical - evaluative ~ inferential

Abbildung 4.3: Überblick über die Grobklassifikation der semantischen Rollenkonstellationen im Wahrnehmungsbereich Rollenkonstellationen beschreiben Szenarientypen. Die oben schematisch angegebenen Kombinationen beschreiben bestimmte Subtypen des Wahrnehmungsszenariums. Wir nennen die durch eine gemeinsame Rollenkonstellation definierten Verblesarten mitunter eine "semantische Verbklasse". Tabelle 4.4 enthält Lemmata des Englischen, die (jeweils für die fünf Modalitäten der Wahrnehmung) Lesarten aus den Klassen p e r c e p t i o n , a t t e n t i o n und judging haben können. In Tabelle 4.5 sind einige englische Satzbeispiele, jeweils nach semantischen Klassen, mit den zugehörigen Rollenkonstellationen angegeben. Tabelle 4.4 zeigt, daß nur bei Verben der visuellen und der auditiven Wahrnehmung die Unterscheidung der Klassen durch lexikalische Differenzierung erfolgt, während sie sich bei den anderen Wahrnehmungsmodalitäten in unterschiedlichen Lesarten desselben Verbs, mit unterschiedlichen syntaktischen Eigenschaften, äußert. Die Beispiele für EN [toj taste in Tabelle 4.6 zeigen dies deutlich. Der Nutzen einer lexikalischen Beschreibung nach Rollenkonstellationen darf nicht unterschätzt werden. Sowohl für die Gestaltung monolingualer als auch bilingualer Wörterbuchfragmente kann die Rollenkonstellation (interpretiert als Menge, nicht als Liste) einen Ausgangspunkt darstellen. Werden alle Lesarten zusammengestellt, die dieselbe

109 Semantische Verbklasse

vis

aud

olf

gus

tac

perception attention

see look watch

hear listen

smell smell

taste taste

feel feel

sound

smell smell

taste taste

feel feel

judging-veridical judging-evaluative

-

look

Tabelle 4.4: Englische Wahrnehmungsverben: Lemmabeispiele zu den wichtigsten semantischen Verbklassen

Verbklasse

Rollenkonstellation

Beispiele

perception

attention

attention-tgt. judging-ver. judging-eval. judging-inf.

Tabelle 4.5: Beispiele für semantische Klassen und ihre typischen Rollenkonstellationen Rollenkonstellation aufweisen, so entsteht eine ansatzweise onomasiologische Gruppierung des beschriebenen Fragments, bzw. nahe Synonyme werden zusammengestellt. Wird derselbe Vergleich von Lesarten über zwei Sprachen hinweg angestellt, so läßt sich Rohmaterial für die Beschreibung von Übersetzungsäquivalenten gewinnen. Zwar wird nicht angenommen, daß die Beschreibung mithilfe von Rollen von Frame Semantics eine irgendwie "universelle" semantische Paraphrase liefert, aber in der Praxis zeigt sich doch, daß Rollenkonstellationen mit gutem Ergebnis parallel für die DELIS-Sprachen benutzt werden können. Ein einfaches Beispiel für einen solchen Vergleich gibt [Schwenger 1995] (vgl. die Tabellen 4.7 und 4.8): DE duften und FR embaumer, ßeurer haben dieselbe Rollenkonstellation ("FEG" in Abbildung 4.7 und 4.8). Die französischen Lesarten sind synonym; gleichzeitig

Semantische Verbklasse

Beispiele

perception attention judging-veridical judging-veridical j udging-evaluat ive

I tasted garlic in the soup. John has tasted the soup. This juice tastes bitter. This substance tastes of cough drops. This juice tastes nice.

Tabelle 4.6: Lesarten von EN [to] taste

110 sind sie Äquivalenzkandidaten für DE duften in der Lesart mit derselben Rollenkonstellation. Ein solcher Vergleich von Rollenkonstellation ist auch bei "Divergenzen" (im Sinne von Dorr) möglich, wie das Beispiel in 4.8 zeigt.

Lemma

FEG

duften

Lemma

Lemma

fleurer

embaumer

Subj NP (bon)

Subj NP (bon)

P-act GF: PT:

Subj NP (gut)

(J-eval)

Tabelle 4.7: Kontrastive Beschreibung auf der Grundlage von Frame Element Croups: ein einfaches Beispiel F R • DE

Generell kann man sich auch die Beschreibung von "komplexeren" Äquivalentvorschlägen nach demselben Muster vorstellen. Die Beispiele in Tabelle 4.9 zeigen dies: die Tabelle ist parallel zu Tabelle 4.4 angelegt. Für die judging-Lesarten, sowie für die perceptionLesarten mit F R sentir stehen jedoch keine einfachen Verben als französische Äquivalente der englischen Lesarten zur Verfügung.

4.2.3.2

Beispiele für Rollenkonstellationen aus dem Französischen

Die Feinklassifikation des Gegenstandsbereichs der Wahrnehmungsverben ist erheblich detaillierter. Man kann die Rollenkonstellationen aus praktischen Gründen in Teilklassen

Lemma

FEG

riechen

Lemma

sentir P-act

PT: GF:

NP Subj

PT: GF:

P P (Präp=nacii) P-Obj

NP Subj

J-verid AdvP Xcomp

Tabelle 4.8: Kontrastive Beschreibung mit Frame Element Groups: Syntaktische Divergenz

III Verbklasse

vis

aud

olf

gus

tac

perception

voir

entendre

attention jud.-verid.

regarder

ecouter

sentir l'odeur de np sentir avoir une odeur adj

sentir le goüt de np goüter avoir un goüt adj

jud.-eval.

qc. est adj ä l a vue

qc. est adj ä l'oreille

avoir une odeur adj qc. est adj ä l'odeur

avoir un goüt adj qc. est adj au goüt

sentir (la sensation de) np sentir/toucher ressembler ä np qc. est adj au toucher avoir un toucher adj [rare] qc. est adj au toucher

Tabelle 4.9: Französische Äquivalentvorschläge zu den englischen Wahrnehmungslesarten aus Tabelle 4.4 einteilen (vgl. Statement 4.9), danach, ob eine, zwei oder drei Rollen vorliegen^®, Nachfolgend wird als Beispiel das Teilfragment des Französischen diskutiert. (4.9)

one-role < semclass. two-roles < semclass. three-roles < semclass.

E i n s t e l l i g e L e s a r t e n Die Subtypen von e x p e r i e n c e r und p e r c e p t - a c t u a l können ohne andere Rollen auftreten. Wenn die Rolle e x p e r i e n c e r - n o n - i n t e n t i o n a l alleine auftritt, so hat die entsprechende Lesart des Verbs eine Bedeutung, die dem Ausdruck einer Wahrnehmungsfähigkeit dient, vgl. Statement 4.10. Aus diesem Grunde wird die Klasse "f a c u l t y c l a s s " (fac) genannt. Daneben ist es möglich, daß die Rolle e x p e r i e n c e r - i n t alleine auftritt (4.11). Wenn die percept-Rolle alleine auftritt, so liegt eine Lesart vor, bei der eine Evaluation mit verstanden, jedoch nicht im Satz ausgedrückt ist (vgl. 4.12). Die Verben, die solche Lesarten zulassen, schreiben gleichzeitig die Interpretation der mitverstandenen judgement-evaluative-Rolle auf der gut schlecht-Skala vor. Bei dem Verb embaumer ist die Lesart z.B. auf eine positive, bei sentir auf eine negative Evaluation festgelegt. (4.10)

fac fac[FEG:

< one-role. ].

(4.11)

exp-i-only exp-i-only[FEG:

< one-role. ].

(4.12)

pct-only pct-only[FEG:

< one-role. ].

Beispiele; • Faculty verbs (fac): II n'est pas aveugle, U voit (cf. Statement 4.10),

19 Die semantischen Klassen werden alle unter dem Typ s e m c l a s s zusammengefaßt. Diese Einteilung dient mehr der künstlichen Partitionierung der Beschreibungen, als daß sie deskriptiven Wert hat. Auch die syntaktischen Klassen werden in analoger Weise zusammengefaßt und unter dem Typ s y n c l a s s aufgelistet. Da sowohl s e m c l a s s als auch s y n c l a s s in gleicher Weise durch den Typ s e t - o f - f e beschrieben sind, werden auf sie dieselben Konsistenzbedingungen angewendet. Diese Konsistenzbedingungen werden unten in Abschnitt 4.4 noch detaillierter beschrieben.

112

• Verben nur mit experiencer-int: Je regarde, mais je ne vois rien (cf. 4.11), • Verben nur mit p e r c e p t - a c t u a l : Ce fromage sent (cf. 4.12). Die Abbildung 4.4 stellt die Hierarchie der in der Beispielmodellierung beschriebenen Lesarten mit einer einzigen Rolle dar (in der vom TFS-System generierten Form). Die semantischen Klassen und (als terminale Knoten) die zugehörigen Lesarten sind jeweils angegeben.

jegarder-exp-att)

^ucher-exp^ä^ Abbildung 4.4: Hierarchie der einstelligen Lesarten aus dem Beispielfragment der französischen Wahrnehmungsverben

Zweistellige Lesarten Die Gruppe der zweistelligen Lesarten zerfällt, wie oben in Abbildung 4.3 angegeben, in die perception- und attention-Lesarten, sowie in die judgingLesarten. Jede der Teilklassen hat weitere Subtypen, die zum Teil durch Sortenrestriktionen bedingt sind (vgl. die Diskusion in Abschnitt 4.6.2 und die Abbildung 4.12, Seite 140). Die Klasse perc-act-ent enthält beispielsweise diejenigen Lesarten, die als percept nur ein Objekt zulassen, dessen Konzept als von der Sorte e n t i t y klassifiziert ist. Die attention-Lesarten weisen außerdem eine weitere Subklassifizierung auf, je nachdem, ob ein percept-target oder ein percept-actual vorliegt. In 4.13 und 4.14 sind jeweils die Definitionen der p e r c e p t i o n und der a t t e n t i o n Klasse und ihrer Subklassen angegeben. (4.13)

perc

< two-roles.

perc[FEG: ].

perc-act perc-act[FEG:

]. , i f only you could lind an army of it tastes horrible > and i spit i t out . the food tastes pretty coffee tastes g o o d > , and i 'm f e e l i n g better already . coffee tasted diflTerent > to him . gover dredged up a compliment f o r it tasted vile > vithout his usual complement of it tastes creamy > , i s r e l a t i v e l y low in f a t . i t is also saintjustin tasted thin > , rav , and hardly meriting canonisation . which tastes g o o d > too . i t vould be a vaste , and i t vould these tasted nutty > and smelt somewhat of turmeric . t h e y tasted w o o d y > , the f l u i d strands of t r o t t e r punctuated milk tasted vile > , as^if i t vere milk from a cov vho had it tasted g o o d > . i t had no perceptible e f f e c t on potatoes taste great > , but part-boil them f i r s t to speed up vegetables taste b e t t e r > ? vith french beans . the tasters could which tasted sweeter > . foods rieh in dietary f i b r e taste a f o o d tastes different > vhen you are pregnant . ' ' because i t it tastes revolting > vhen you kiss me . ' ' v i t h j o , she vent wines tasted available > f o r under a f i v e r , hovever » and one

Abbildung 5.17: Automatisch aus BNC extrahierte Belege für EN [to] taste + ADJ

178

^witness-perc-thin^ t-distance-minus)

Abbildung 5.18: Teilhierarchie der englischen Wahrnehmungsverben, nach den percept features von [Atkins 1994]

Kapitel 6 Strukturierung kontrastiver Beschreibungen In den vorausgehenden Kapiteln wurde die Strukturierung einsprachiger Wörterbücher diskutiert. Im folgenden Kapitel geht es um zweisprachige Wörterbücher und die ihnen zugrundeliegenden kontrastiven Beschreibungen. Wir schlagen vor, monolinguale Wörterbücher so zu verbinden, daß kontrastive Beschreibungen mit möglichst geringem Mehraufwand gegenüber den monolingualen Beschreibungen erstellt werden können. Die Kombination wohlstrukturierter einsprachiger Wörterbücher führt dazu, daß die zweisprachigen Wörterbücher nicht einfach nur Listen von Aquivalentzuordnungen, sondern ihrerseits strukturiert sind und auf einem klassifikatorischen Ansatz beruhen. Hier wird eine Klassifikation kontrastiver Beschreibungen vorgeschlagen, die - mindestens für den Bereich der lexikalischen Ubersetzungsprobleme bei Verben - hinreichend allgemein ist, als sie für Transfer- und Interlingua-Ansatz, und für verschiedene Grammatikformalismen gleichermaßen benutzt werden kann. Anhand von Modellierungsbeispielen wird dies in Abschnitt 6.4.1 und 6.4.2 illustriert. Diese kontrastive Klassifikation läßt sich auf verschiedene Weisen aufbauen und motivieren. In einem Ansatz, der jeweils einzelsprachliche Klassifizierungen des Subkategorisierungsverhaltens von Verben hat, kann man die syntaktischen Klassen von Quell- und Zielsprache kombinieren und die Resultate wiederum klassifizieren. Dies wird anhand der Subkategorisierungs-Templates von LFG gezeigt (vgl. Abschnitt 6.4.1); das Resultat der Kombination quell- und zielsprachlicher Templates könnte man als "zweisprachige Templates" bezeichnen. In einem interlingua-artigen Übersetzungssystem, wie es auf der Grundlage von HPSG in [Heid/Kuhn 1994] vorgestellt wurde (vgl. auch die Überblicksdarstellung in Abschnitt 1.2.2 oben), werden keine expliziten zweisprachigen Wörterbucheinträge abgelegt, sondern das System kombiniert Informationen aus monolingualen Beschreibungen in geeigneter Weise. Der Nutzen einer kontrastiven Klassifikation für ein solches System liegt in ihrer Anwendbarkeit als Modellierungs-Richtlinie für die einzelsprachlichen Beschreibungen. Neben diesen Anwendungen, die relativ eng an bestehende Systeme angelehnt sind, kann man sich fragen, welche Resultate für zwei- und mehrsprachige Wörterbücher sich aus der Kombination von parallelen monolingualen Wörterbucheinträgen im Stil von DELIS (vgl. oben, Kapitel 5) ergeben. Mindestens für ein System zur Unterstützung der lexikographischen Arbeit beim Wörterbuchaufbau eignet sich das Ergebnis sehr gut. Beispiele hierfür werden in Abschnitt 6.5 diskutiert. Die Kombination von monolingualen Teilbeschreibungen ist technisch machbar und führt zu sinnvollen Anwendungen. Man muß sich in diesem Zusammenhang aber fragen, ob die vorgeschlagene Lösung nur technische Relevanz hat, oder ob sie darüberhinaus einen eigenen Generalisierungswert aufweist. Um diese Frage beantworten zu können ist es sinnvoll, zunächst bestehende Klassifikationen von Übersetzungsproblemen zu betrachten, und zu überprüfen, welcher Nutzen aus solchen Klassifikationen überhaupt gezogen werden kann.

180

Die Behauptung in der vorliegenden Untersuchung ist, daß eine Restrukturierung der bestehenden kontrastiven Problemklassifikationen zur Formulierung kontrastiver Klassen führt, die sich sehr gut für die oben skizzierten Verfahren der Kombination monolingualer Subkategorisierungsklassen und für die Anwendung in MÜ-Systemen eignen. In diesem Kapitel werden deswegen zunächst die wichtigsten Ansätze zur Klassifikation kontrastiver Probleme beschrieben und verglichen; hieraus ergeben sich Vorschläge für eine Vereinfachung der bestehenden Klassifikationen und ein Kriterieninventar für unseren eigenen Klassifikationsversuch: die Problemklassen werden nach zwei Dimensionen eingeteilt: einerseits nach linguistischen Beschreibungsebenen, andererseits danach, ob das Lemma selbst, das vom Lemma subkategorisierte Material oder beide von Unterschieden zwischen Quell- und Zielsprache betroffen sind. Die Argumentation hier in diesem Einleitungsabschnitt unterscheidet sich nur in der Anordnung der einzelnen Schritte von der Struktur des restlichen Kapitels: hier haben wir behauptet, daß es aus praktischer, bzw. "technischer" Sicht sinnvoll ist, modulare einsprachige Wörterbücher zu kombinieren und die Kombinationsresultate wiederum zu klassifizieren. Die Nützlichkeit eines solchen Verfahrens soll anhand von LFG und Transfer, HPSG und Interlingua, und anhand der DELIS-Wörterbücher nachgewiesen werden. Wir haben dann weiterhin behauptet, daß die Analyse bestehender Klassifikationen lexikalischer Übersetzungsprobleme zeigt, daß die "kontrastiven Klassen" durchaus linguistischen und lexikographischen Generalisierungswert haben und mit den Ergebnissen bisheriger Forschungen in maschineller Übersetzung, kontrastiver Linguistik und Übersetzungswissenschaft gut zusammenpassen. Aus praktischen Gründen wird die Phänomenklassifikation in diesem Kapitel zuerst beschrieben, bevor ihre Anwendungen gezeigt werden (sonst müßte zuviel vorweggenommen werden): zunächst wird ein Überblick über bisherige Versuche zur Klassifikation von Übersetzungsproblemen gegeben (vgl. Abschnitte 6.1 und 6.1.3) und die ihnen jeweils zugrundeliegenden Kriterien werden identifiziert. Darauf aufbauend wird eine eigene phänomenologische Klassifikation spezifiziert (vgl. Abschnitt 6.2) und anhand von Beispielmaterial ausführlich illustriert (vgl. Abschnitt 6.3). In den Abschnitten 6.4 und 6.5 werden die Anwendungen für die maschinelle Übersetzung und für die computergestützte zweisprachige Lexikographie diskutiert. 6.1 6.1.1

Klassifizierung von Ubersetzungsproblemen Motivation für die Einführung einer Problemklassifikation

In der Literatur zur Übersetzungswissenschaft, zur kontrastiven Linguistik und zur maschinellen Übersetzung gibt es eine Reihe von Vorschlägen für die Klassifizierung von Übersetzungsproblemen. Übersetzungswissenschaft, kontrastive Linguistik und Stilistik^ haben eine lange Tradition solcher Untersuchungen, die hier nachzuzeichnen den Rahmen dieses Kapitels sprengen würde. Daneben haben zum Teil auch Übersetzer einfach

Vgl. z.B. [Malblanc 1968], [Vinay/Darbelnet 1958]: dort wurden einzelne Beispiele gesammelt und "anekdotisch" beschrieben, aber selten in eine generellere Klassifikation eingebracht. Die Tradition solcher Untersuchungen geht aber (mindestens) auf Saussure zurück. Daß solche Arbeiten noch immer praktische Relevanz haben, zeigt z.B. die Tatsache, daß [Vinay/Darbelnet 1995] 1995 in Englischer Ubersetzung in der Benjamins Translation Library erschienen ist.

181 Phänomene notiert, die ihnen bei ihrer Arbeit aufgefallen sind^. Auch im Rahmen von Forschungen zur valenztheoretischen Beschreibung von lexikalischen Einheiten wurden umfangreiche Überlegungen zu kontrastiven Klassifizierungen und ihrer Benutzung in Valenzlexika angestellt^. In der Forschung zur maschinellen Ubersetzung sind erst ungefähr seit 1988-1990 in nennenswertem Umfang Arbeiten zur Klassifizierung von Ubersetzungsproblemen veröffentlicht worden^. Zum Teil (vgl. etwa die Arbeiten von [Bemova et al. 1988] oder Arbeiten im Rahmen von EUROTRA) dienen die Beschreibungen vor allem dazu, zu zeigen, welche Phänomene von einem bestimmten maschinellen Übersetzungssystem oder einer Komponente davon behandelt werden können. Solche Beschreibungen zielen nicht darauf ab, große Fragmente abzudecken, sondern geben eher eine Aufiistung der speziellen Problemfälle, die ein gegebenes System behandeln kann. In anderen Arbeiten, etwa von Dorr, wird versucht, den Zusammenhang herauszustellen, welcher zwischen der Beschreibung linguistischer Phänomene einerseits und der Modellierung dieser Phänomene in maschinellen Übersetzungssystemen andererseits besteht. Dorr weist mit Recht darauf hin, daß eine strukturierte Materialsammlung eine erste Grundlage für die Strukturierung von Lexikon und Grammatik und für ein wohlstrukturiertes System insgesamt ist. Zweierlei Gründe sprechen dafür, lexikalische Übersetzungsprobleme zunächst auf der Phänomenebene zu klassifizieren: • die empirischen Klassifizierungen können Ausgangspunkt für Klassen und Generalisierungen in einem formal modellierten Übersetzungswörterbuch sein; • eine empirische Klassifikation erlaubt es, die relative Bedeutung der jeweils benutzten (Computer) hnguistischen Repräsentation für die Behandlung von Übersetzungsproblemen in verschiedenen Systemen abzuschätzen. Manche Probleme in einem bestimmten System hängen mehr mit der dort benutzten Repräsentation zusammen, als mit spezifischen lexikalischen Problemen. Die empirische Klassifikation kann insofern auch als Ausgangspunkt für vergleichende Systemevaluation dienen. Beide Aspekte werden im folgenden etwas detaillierter diskutiert. 6.1.1.1

Ausdruck von Generalisierungen - Lexikonstrukturierung

Das Fehlen von Möglichkeiten, kontrastive deskriptive Generalisierungen auch in elektronischen Wörterbüchern auszudrücken, wurde z.B. von [Fontenelle/Adriaens/De Braekeleer 1993] als eines der zentralen Probleme der lexikalischen Modellierung im System

Vgl. die Arbeit von [Zimmer 1990], die eine große Menge von deutsch-französischen Übersetzungsbeispielen enthält und diese nach sehr allgemeinen Kriterien, zum Teil semantischer, zum Teil syntaktischer Art einteilt. Bei Zimmer kann man nicht im strengen Sinn von einer Klassifikation von Übersetzungsproblemen sprechen, es handelt sich eher um eine thematisch organisierte Beispielsammlung. Solche Lexika wurden unter anderem für kontrcistive Fragmente Deutsch-Japainisch, DeutschUngarisch, Deutsch-Finnisch mit Beteihgung des Instituts für deutsche Sprache erarbeitet. Kontrastive Studien Deutsch/Itahenisch, bei denen eine Klassifikation der Übersetzungsprobleme aufgestellt wird, hat kürzhch Koch (vgl. [Koch 1995a], [Koch 1995b], [Koch 1994a], [Koch 1994b]) auf der Grundlage von Arbeiten Tesnieres vorgestellt. Einen bibhographischen Überbhck auf dem Stand von Dezember 1986 gibt Schumacher's Valenzbibliographie ([Schumacher 1987]), der Stand von 1992 ist bei [Storrer 1992] aufgearbeitet. Vorschläge für ein kontrastives Valenz Wörterbuch, aus der Sicht des DeutschFinnischen Sprachvergleichs, macht [Järventausta 1994]. Bemerkenswert ist, daß in den Arbeiten zur maschinellen Übersetzung wiederum fast nie auf die Ergebnisse der jinderen Bereiche referiert wird.

182 METAL bezeichnet. Fontenelle et al. haben die Behandlung von "grooming verbs" im französisch ^ englischen Teilsystem von METAL untersucht und festgestellt, daß Regularitäten bei der Übersetzung von Verben wie F R se laver les mains, se raser, usw. in den Wörterbüchern von METAL nicht einheitlich beschrieben sind. Es gibt auch keine Möglichkeit, eine allgemeine Regel für Verben einer bestimmten Klasse und für deren Übersetzung in die Zielsprache anzugeben. Zwar weisen die Verben sowohl in der Quellsprache als auch in der Zielsprache ein homogenes syntaktisches Verhalten auf, so daß sich die Formulierung einer klassenweisen Übersetzungsregel nahezu aufdrängt, jedoch sind im System keine Modellierungshilfsmittel vorhanden, die die Formulierung einer solchen allgemeinen Abbildung erlauben würden, die später bei der Definition einzelner Wörterbucheinträge wiederverwendet werden könnte^. Einzelne Forscher im Bereich der maschinellen Übersetzung sehen im Fehlen von Generalisierungsmöglichkeiten in kontrastiven Lexika durchaus ein Defizit, jedoch ist uns bisher kein System bekannt, welches in größerem Umfang kontrastive lexikalische Klassifizierungen verwenden würde oder sonst einheitliche Lösungen für ganze Phänomenklassen anbieten würde. Das von Dorr entwickelte experimentelle Übersetzungssystem UNITRAN setzt zwar auf einer kontrastiven Problemtypologie auf, deckt aber nur ein kleines Fragment ab. Die Frage der Lexikonstrukturierung gehört eher zu dem Bereich des "Linguistic Engineering", der sich erst allmählich konstituiert.

6.1.1.2

Vergleich und Evaluierung von Systemen

Außer dem Nutzen einer kontrastiven Klassifizierung für die Lexikonstrukturierung (wenn die Beispiele strukturiert erfaßt sind, können das System-Wörterbuch und die darauf aufsetzende Modellierung besser strukturiert werden), gibt es weitere Motivation für die Einführung einer Klassifizierung von kontrastiven Problemen. Insbesondere sind kontrastive Klassifizierungen ein geeignetes Hilfsmittel beim Vergleich von Übersetzungssystemen und für die Entwicklung von Testmaterial. Bei der Evaluation von Übersetzungssystemen kann meistens nur die Analyse- und Generierungsleistung, bzw. die Übersetzungsleistung insgesamt, verglichen werden. Die in den MÜ-Systemen verwendeten Zwischenrepräsentationen unterscheiden sich in der Regel so stark, daß ein Vergleich nahezu nicht möglich ist, und nur Input und Output betrachtet werden können. Liegt eine kontrastive Klassifizierung von Problemtypen vor, so kann man ermitteln, welche Systeme in der Lage sind, bestimmte Problemtypen zu behandeln. Außerdem kann damit durch Test verschiedener Beispiele, die in dieselbe Problemklasse fallen, überprüft werden, ob sich das System relativ zu einer Klasse von Übersetzungsproblemen konsistent verhält.

Auf ähnliche Probleme hat Bouillon im Zusammenhang mit dem Suissetra-System zur Übersetzung von Lawinen-Warnungen hingewiesen (Persönliche Mitteilung von Pierrette Bouillon, Genf): Zwar stellt sich dort nicht unbedingt das Problem, daß analoge Sachverhalte auf unterschiedliche Weisen und mit unterschiedlichen Übersetzungsregeln ausgedrückt werden, aber das Fehlen von Generalisierungsmöglichkeiten führt zu hoher Redundanz im Wörterbuch. Bouillon gibt das Beispiel der von Windrichtungen abgeleiteten Adjektive (nördlich, östlich, südlich, westlich), für die jeweils einzelne Übersetzungsregeln (z.B. für vent d'ouest) angegeben werden müssen in denen die Übersetzung der Adjektive durch eine Präpositionalphrase mit de {d'est, d'ouest, de nord, de sud, usw.) jeweils neu und ohne Querverweis wiederaufgebaut wird. Sechzig Prozent der Angaben in den Einträgen könnten eingespart werden, wenn eine Klassifizierung und ein Verweis auf eine allgemeine Regel möglich wäre.

183 Dies setzt allerdings die Entwicklung paralleler monolingualer Testsuites und konstrastiver Testmaterialien voraus. Testsuites sind Sammlungen von Beispielsätzen, mit denen das Verhalten eines NLP-Systems überprüft werden soll. In der Regel werden die Beispielsätze einer Testsuite nach linguistischen Kriterien (beispielsweise syntaktische, morphosyntaktische Beschreibung) annotiert und klassifiziert. In dem seit 1994 laufenden LRE-Projekt TSNLP werden Richtlinien für die Erstellung von Testsuites erarbeitet. Wie bei Lexika, spielt auch bei Testsuites die Modularität und die systematische Strukturierung eine große Rolle. In [Hildenbrand/Heid 1991] wurde erstmals gezeigt, wie sich monolinguale syntaktische Klassifizierungen im Lexikon auch für die Erstellung einer Testsuite ausnutzen lassen. Dort wurde anhand der im maschinellen Übersetzungssystem SYS T R A N vorliegenden Subkategorisierungsklassen für Verben eine Testsuite aufgebaut, die nach den Verben parameterisiert war, ansonsten aber nur einen kontrollierten, trivial übersetzbaren Minimalwortschatz enthielt. Die Beispielsätze wurden nach den Subkategorisierungsklassen des Systems angeordnet und im deutsch französischen Teil nach kontrastiven Problemklassen eingeteilt. In [Hildenbrand/Heid 1991] wurde der Schwerpunkt auf die monolingualen Klassifizierungen gelegt. In TSNLP wurde der Gedanke der Modularisierung von Testsuites aus [Hildenbrand/Heid 199l] wieder aufgenommen und als eines der wichtigen Designkriterien für die in TSNLP zu entwerfenden Testsuites identifiziert. Durch den Einsatz von Testsuites ergibt sich eine Möglichkeit, die Evaluierung und den Vergleich maschineller Ubersetzungssysteme gegenüber anderen, früheren Verfahren etwas zu objektivieren, da die intuitive Abschätzung der Ubersetzungsadäquatheit durch gezielte monolinguale und kontrastive Untersuchungen anhand einer system-externen bzw. -internen empirischen Klassifikation ersetzt wird. Man kann also kontrastive Phänomenklassifizierungen als Rohmaterial für die Evaluierung und den Test von maschinellen Ubersetzungssystemen verwenden. Die Arbeiten von [Hildenbrand/Heid 1991] haben gezeigt, daß Klassifizierungen aus den Lexika des zu evaluierenden Systems einen geeigeten Ansatzpunkt hierfür darstellen. 6.1.2 6.1.2.1

Ansätze zur Klassifikation von kontrastiven Problemen in der Forschung zur maschinellen Ubersetzung Überblick

In Forschungsarbeiten zur maschinellen Ubersetzung wurden verschiedene Ansätze zur Klassifizierung von konstrastiven Problemen veröffentlicht. Im Rahmen von Arbeiten an einem tschechisch-russischen maschinellen Übersetzungssystem haben Bemova et al. ([Bemova et al. 1988]) einige Typen von Nominalphrasen und Verbalphrasen beschrieben, die in ihrem System behandelt werden können. Die Klassifikation erfolgt primär als Beschreibung der Datengrundlage des Systems, nicht mit Blick auf weitergehende Generalisierungen. Im Rahmen des EuROTRA-Projekts wurden verschiedene Arbeiten zur Klassifizierung kontrastiver Probleme veröffentlicht. Die umfangreichste Arbeit stellt die Sammlung von Übersetzungsproblemen für EuROTRA dar, die im Rahmen der EUROTRA-6Designstudien von [Lindop/Tsujii 1991] zusammengestellt wurde. Ziel dieser Problemsammlung ist es, auf Schwierigkeiten hinzuweisen, die sich bei der Transfer-Phase des EuROTRA-Systems ergeben. [Lindop/Tsujii 1991] geben Beispiele aus verschiedenen europäischen Sprachen bzw. Sprachpaaren.

184 Eine relativ detaillierte Beschreibung von Übersetzungsproblemen, mit Vorschlägen zu deren Behandlung in METAL, ist von Thurmair veröffentlicht worden ([Thurmair 1990]). Eine ähnliche Vorgehensweise liegt einer Problemsammlung zugrunde, die Luckhardt aus der Sicht des Saarbrücker SusY-Systems veröffentlicht hat ([Luckhardt 1987]). Dorr hat versucht, eine Klassifikation von kontrastiven Problemen in ihrem System UNITRAN ZU benutzen (vgl. [Dorr 1990], [Dorr 1991], [Dorr 1993b]). Insbesondere ist Dorrs Klassifikation so ausgelegt, daß sie relativ viele Typen von Phänomenen und insgesamt relativ breite Fragmente abdecken soll; dies ist bei den oben genannten Klassifizierungsversuchen nicht überall der Fall. Dorrs Beispiele stammen aus der Übersetzung zwsichen Englisch und Spanisch. Auf der Grundlage der Diskussionen in [Dorr 1990] und [Dorr 1991] wurde in [Kameyama/Ochitani/Peters 1991] gezeigt, daß neben den von Dorr beschriebenen "Divergenzen" (vgl. unten) auch sog. "Mismatches" eine Rolle spielen; die von Dorr diskutierten Unterschiede zwischen Quell- und Zielsprache können in der Regel mit lexikalischen oder grammatischen Mitteln innerhalb eines Satzes ausgeglichen werden (Beispiele werden unten in Abschnitt 6.1.3.1 diskutiert). Die von [Kameyama/Ochitani/Peters 1991] diskutierten Fälle beruhen darauf, daß eine der beiden Sprachen Unterscheidungen macht, die in der anderen nicht nachvollzogen werden können, und daß diese Unterschiede nicht innerhalb eines Satzes mit lexikalischen oder grammatischen Mitteln ausgeglichen werden können. Solche Fälle nennen [Kameyama/Ochitani/Peters 199l] "Translation Mismatches". Die Beispiele, die von den Autoren gegeben werden, zeigen, daß die Klassifizierung einzelner Beispiele in Divergences vs. Mismatches nicht immer völlig eindeutig erfolgen kann (vgl. Beispiele unten). 6.1.2.2

Merkmale und Grenzen von kontrastiven Klassifikationen

Die oben erwähnten Ansätze zur Klassifikation kontrastiver Phänomene haben eine Reihe von Gemeinsamkeiten, die nachfolgend kurz beschrieben werden. Sie können danach gruppiert werden, ob sie Teilfragmente beschreiben oder allgemeinere Gültigkeit haben sollen (partielle vs. generelle Klassifikation), ob sie (implizit oder explizit) systemabhängig oder von einer bestimmten Repräsentation abhängig sind, oder ob sie den Versuch unternehmen, von den Spezifika eines gegebenen Systems soweit als möglich zu abstrahieren. Partielle vs. generelle Klassifikationsansätze Die Arbeiten von Bemova und Luckhardt sind partiell, insofern sie entweder auf einem Corpus aufsetzen (im Falle von Luckhardt) oder nur ein relativ kleines Fragment betreffen. [Bemova et al. 1988] beschreiben lediglich Nominalphrasen und Verbalphrasen, die in ihrem tschechisch-russischen System behandelt werden können. In ähnlicher Weise beschreiben [Sadler/Thompson 1991] nur Fälle von Head Switching, als Antwort auf die Diskussion dieser Phänomenklasse bei [Kaplan et al. 1989]. Die Inputpapiere zu der EUROTRA-Problemsammlung von Lindop/Tsujii sind ebenfalls partielle Klassifikationen, in diesem Fall ausgerichtet auf die EUROTRAFragmente. Hingegen ist bei Barnett et al. und bei Dorr bewußt der Versuch unternommen worden, generellere (natürlich nicht erschöpfende) Klassifizierungen einzuführen. Dasselbe gilt für [Vandooren 1993] und [Heid 1993]. Systembezogenheit der Klassifikationsansätze In gewisser Weise sind sämtliche Klassifizierungen von Übersetzungsproblemen von den in einem System verwendeten Re-

185 Präsentationen, oder aber von Repräsentationen abhängig, die in dem jeweils zugrunde gelegten Beschreibungsmodell verwendet werden. Je nachdem, wie weitgehend abstrahiert wird, und danach, wie die Interaktion zwischen den einzelnen linguistischen Beschreibungsebenen modelliert ist, ergeben sich mehr oder weniger Probleme bei der Übersetzung. Allerdings wird nicht in allen Arbeiten für Klassifizierung von kontrastiven Problemen deutlich gemacht, daß diese Abhängigkeit zwangsläufig besteht, oder die (z.T. eher idiosynkratischen) Eigenschaften eines bestimmten Repräsentationssystems werden unkommentiert als Gegebenheit angesehen; hier werden Probleme der Systemarchitektur oder der einsprachigen Beschreibung in einem bestimmten System auf die Typologie der Übersetzungsprobleme projiziert, wodurch die vorgeschlagene Typologie sehr systemabhängig wird, ohne diesen Sachverhalt "zuzugeben". In [Thurmair 1990] wird unmittelbar klar gemacht, daß seine Klassifizierung sich an den Operationen über Baumstrukturen orientiert, die in der bei der Publikation des Artikels verwendeten Version von METAL eingesetzt werden. Zu diesen Operationen gehören das Einfügen oder Löschen von Bäumen und das Versetzen von Teilstrukturen von einer Stelle des Baums an eine andere Stelle. Thurmair nimmt bewußt diese Operationen als Grundlage für seine Klassifizierung von Übersetzungsproblemen und gibt jeweils Beispiele; insofern ist Thurmairs Beschreibung für die Arbeit innerhalb von METAL sehr nützlich; die Generalisierbarkeit seiner Ergebnisse und seiner Schlußfolgerungen ist allerdings begrenzt, weil die Wahl von Baumstrukturen als Repräsentation einige Schwierigkeiten mit sich bringt, die in dieser Form in anderen, z.B. unifikations-basierten Systemen nicht auftreten; ein Teil der von Thurmair beschriebenen Probleme wird z.B. von einem auf LFG oder HPSG beruhenden Übersetzungssystem trivialerweise bahandelt, ohne daß zusätzliche Beschreibungsmittel nötig wären. Anders als bei Thurmair ist in EUROTRA keine oder keine explizite Diskussion der Systemabhängigkeit erfolgt. Die von [Lindop/Tsujii 1991] angegebenen Probleme sind jedoch zum Teil ebenfalls in anderen Systemen lösbar, ohne daß irgendwelche zusätzlichen Beschreibungsmittel notwendig wären. In constraint-basierten Systemen können beispielsweise Unterschiede in der syntaktischen Funktion (z.B. DE der Chef beantwortet den Brief vs. F R le patron repond ä Ja lettre) trivialer Weise mit den Mitteln der G r a m m a t i k und des Lexikons abgehandelt werden^. Dasselbe gilt für die thematischen Divergenzen (vgl. unten; EuROTRA-Beispiel: EN John likes Mary vs. F R Mary plait ä John).

6

Andere Probleratypen (z.B. die Behandlung reflexiver Verben dort, wo sie durch nichtreflexive Verben übersetzt werden) sind spezifisch auf die in EuROTRA verwendeten Repräsentationen zurückzuführen.

186 6.1.3

Neuere Ansätze zur Klassiiikation von Übersetzungsproblemen: Divergenzen vs. Mismatches

Die Klassifikation, die in Abschnitt 6.2, unten, vorgestellt wird, stützt sich auf die Arbeiten von Dorr, von Kameyama et al. und von Barnett et al. zurück. In diesen Arbeiten wird eine etwas generellere Klassifikation auf phänomenologischer Grundlage versucht, mit dem Ziel eine von den Gegebenheiten eines bestimmten maschinellen Übersetzungssystems relativ unabhängige Basis für kontrastive Klassifizierungen zu schaffen. Im folgenden werden zunächst die von Dorr etablierten Typen von Divergenzen diskutiert. Darauf aufbauend wird der Unterschied zwischen Mismatches und Divergences angesprochen, der von Kameyama und Barnett eingeführt wurde. Schließlich werden die genannten Arbeiten aus der maschinellen Übersetzung mit Vorschlägen aus dem Wörterbuchprojekt MULTILEX verglichen. Die genannten Arbeiten stellen damit den Ausgangspunkt für die Problemklassifikation dar, die im Abschnitt 6.2 eingeführt und diskutiert wird. 6.1.3.1

Borrs Divergenztypen

In verschiedenen Arbeiten^ hat Bonnie Dorr eine Klassifikation von Übersetzungsproblemen entwickelt, nach und nach verfeinert und als Grundlage ihres experimentellen MÜ-Systems UNITRAN benutzt. Man kann die in Tabelle 6.1 zusammengestellten sechs Klassen, die so aus [Dorr 1993b] übernommen sind, auf vier hauptsächliche Typen von Unterschieden zwischen Quellund Zielsprache reduzieren. Diese vier Typen sind unten mit einigen Beispielen von uns aufgelistet®: • "Categorial Divergence": — EN: be hungry FR: avoir faim - EN: to schedule sth. FR: etablir l'horaire de qc. • "Conflational Divergence", "Lexical Divergence": — EN: to staff (a school, an office, . . . ) FR: pourvoir (une ecole . . . ) en personnel - EN: to mispronounce sth. FR: proüoncer qc. de travers - EN: to pubheize sth. FR: lendie qc. pubhc • "Thematic Divergences": — EN: I miss my dictionary. FR: Mon dictionnaire me manque.

7 8

Vgl. [Dorr 1990], [Dorr 1993a] und [Dorr 1993b]. In der rechten Spalte der Tabelle 6.1 sind kurze Kommentare angefügt, die unten wieder aufgenommen werden.

187 "Divergence Type" Categorial

Demotional

Promotional

Conflational

Lexical

Thematic

Beispiele EN: I am hungry $ DE: Ich habe Hunger "I have hunger" EN: I Uke eating $ DE: ich esse gern "I eat likingly" EN: John usually goes home $ ES: Juan suele ir a casa "John tends to go (to) home" EN: I stabbed John t ES: Yo le di punaladas a Juan "I gave knife-wounds to John" EN: John broke into the room t S: Juan forzö la entrada al cuarto "John forced entry to the room" EN: I like Mary $ ES: Me gusta Maria "Msiry pleases me

Anmerkungen Kategoriewechsel beim zu übersetzenden Lexem Head Switching

Head Switching (umgekehrte Sprachrichtung) Inkorporation von Argumenten vs. Realisierung der Argumente Zu übersetzender Ausdruck: "Einwort-Lexem" vs. "Mehrwortlexem" Unterschiede im Abbildungsverhältnis zwischen Argumenten und Komplementen

Tabelle 6.1: Dorrs Divergenztypen - FR: qn. deconseille qc. ä qn. EN: sb. advises sb. against

sth.

• "Demotional/Promotional Divergence" (Head Switching): - EN: He still plays piano. FR: II continue ä jouer du piano. Die vier (statt sechs) Klassen können wie folgt definiert werden: • Die kategoriale Divergenz ist bei Dorr als die Ubersetzung eines Lexems einer Kategorie durch ein Lexem einer anderen Kategorie definiert. Ein häufiges Beispiel hierfür ist die Ubersetzung von Verben durch Funktionsverbgefüge (ein Verb der Quellsprache wird in diesem Fall durch ein (prädikatives) Nomen der Zielsprache übersetzt). Auch in Dorrs Beispiel (EN be hungry vs. F R avoir faim) wird ein Adjektiv durch ein Funktionsverbgefüge (FR avoir faim) übersetzt. • Die von Dorr so genannte "conflational divergence" entsteht in der Regel durch Unterschiede in der Verfügbarkeit spezifischer im Gegensatz zu allgemeineren lexikalischen Einheiten. Die "conflation" findet in der Sprache statt, die ein spezifischeres

188 Lexem hat: Dort wird mit einem einzelnen Lexem diejenige Information eingeführt, welche in der anderen Sprache durch ein Komplement oder einen Adjunkt eines allgemeineren Lexems ausgedrückt wird. Zu den "conflational divergences" rechnen wir auch Fälle der Übersetzung kausativer Verben durch Konstruktionen, bei denen das kausative Element eigens als Verb realisiert wird und ein zweites, nicht kausatives Verb, beispielsweise als Infinitivkomplement subkategorisiert ist (vgl. EN run a program vs. FR faire tourner un Programme^). Der Divergenztyp, den Dorr als "lexical divergence" aufführt, kann als eine Variante der Klasse der "conflational divergences" beschrieben werden. • "Thematische Divergenzen" gehen auf Unterschiede zwischen den Sprachen hinsichtlich der Abbildung von Argumenten eines Verb-Prädikats auf die subkategorisierten Komplemente des Verbs zurück. Diese Fälle betreffen die Zusammenhänge zwischen Argumentstruktur und syntaktischer Beschreibung. • Die beiden Klassen der "demotional" und "promotional divergence" können zusammengefaßt werden, da sie, nur unterschieden nach der Sprachrichtung, denselben Typ von Phänomen beschreiben. Die meisten Beispiele für diese Problemklasse sind Phänomene des "Head Switching". Head Switching-Fälle entstehen dadurch, daß sich Sprachen hinsichtlich der Realisierung von semantischen Operatoren unterscheiden. In einer Sprache wird ein Operator als Satzadverb realisiert, in einer anderen u.U. als Prädikat auf der obersten Ebene des Satzes. Verbale Prädikate sind sowohl semantische als auch syntaktische Köpfe (z.B. im Sinne von HPSG), während Adverbien zwar semantisch als Köpfe interpretiert werden, jedoch syntaktisch als Modifikatoren beschrieben werden. Bei der Ubersetzung ergibt sich demnach das Problem, daß syntaktische und semantische Köpfe in der einen Sprache "parallel" in der anderen "orthogonal" verteilt sind. In einer früheren Arbeit hatte Dorr neben den oben in der Tabelle angegebenen Divergenztypen noch eine weitere Klasse vorgeschlagen: "syntaktische Divergenzen". Bei diesen handelt es sich um Fälle, in denen unterschiedliche grammatische Funktionen oder unterschiedliche Komplementrealisierungen bei quell- und zielsprachlichen Verben auftreten. Dieser Fall stellt eine sehr große Gruppe von Übersetzungsproblemen dar, und nicht alle sind mit trivialen Mitteln zu behandeln. Insbesondere ergeben sich Probleme dort, wo satzförmige Ergänzungen der Quellsprache nicht satzförmig in der Zielsprache wiedergegeben werden können, oder wo Infinitive durch finite satzförmige Ergänzungen übersetzt werden müssen. Detaillierte Beispiele hierfür werden unten in Abschnitt 6.3.1.2 gegeben. Dorr's Beispiele sind allerdings weitgehend trivial (direktes Objekt wird durch Präpositionalobjekt übersetzt usw.)^°. 6.1.3.2

D i e Unterscheidung zwischen Mismatches

und

Divergences

Die Problemklassen von Dorr beschreiben ein relativ breites Teilfragment des Übersetzungslexikons, lassen jedoch wichtige (und in der kontrastiven Linguistik seit langer Zeit

9 Das Beispiel wurde von [Thurmair 1990] adaptiert. 10 Dorr h a t diese Fälle vermutlich deswegen in späteren Versionen ihrer Arbeiten nicht mehr aufgeführt, weil sie keine lexikalisch-semantischen Übersetzungsprobleme darstellen, sondern rein syntaktisch bedingte.

189

diskutierte) Bereiche unberücksichtigt: alle diejenigen Phänomene, die auf Unterschiede der Sprachen hinsichtlich der vorhandenen bzw. anwendbaren Beschreibungsdimensionen zurückgehen. Die eine Sprache macht sehr feine Unterschiede, die andere gar keine, weil die entsprechende Unterscheidungs-Dimension gar nicht relevant ist (vgl. das Schema in Abbildung 6.1). Die Vielzahl von Ausdrücken der Eskimos für unterschiedliche Arten von Schnee und Eis, oder die Tatsache, daß das Oberengadinische drei verschiedene Ausdrücke für Kuhglocken (je nach Größe und Tonhöhe) hat, wurden vielfach als Beipiele für diesen Typ von Problemen genannt. QS... ZS... Abbildung 6.1: Unterschiedliche Aufteilung einer Domäne in Quell- und Zielsprache Das Neue an dem von [Kameyama/Ochitani/Peters 1991] benutzten Begriff "translation mismatch" ist, daß er nicht auf den Bereich der Beschreibung von denotationellen Aspekten der lexikalischen Semantik beschränkt bleibt. Er wird generalisiert über die "Grammatik" der beteiligten Sprachen: "We want to call special attention to a less widely recognized problem, that of translation mismatches (Auszeichnung der Autoren). They are found when the grammar of one language does not make a distinction required by the grammar of the other language." (p. 194) In [Kameyama/Ochitani/Peters 1991] wird das Problem der Definitheits- und Numerusangaben bei der Englisch Japanischen Übersetzung diskutiert. Englisch strukturiert die Domäne der "zählbaren" Nomina nach den Dimensionen "definit/indefinit" und "singular/plural" (also vier Untertypen möglicher Nominalphrasen, Kreuzklassifikation). Im Japanischen dagegen ist keines der beiden Klassifikationskriterien obligatorisch; bei der Ubersetzung aus dem Japanischen ins Englische können also Nominalphrasen auftreten, bei denen die für das Englische wichtige Information fehlt^^ Kameyama et al. haben das Interesse der MÜ-Forschung auf Mismatches gelenkt und damit auf die Unterscheidung zwischen Mismatches und Divergences, die allerdings nicht ganz problemlos ist. Abgrenzungsprobleme In beiden Fällen geht es darum, daß Unterscheidungen, die in der Quellsprache gemacht werden, in der Zielsprache nicht vorhanden sind oder umgekehrt. Diese Unterscheidungen können verschiedene linguistische Beschreibungsebenen und Beschreibungsdimensionen betreffen. Der Unterschied, den Kameyama et al. zwischen Mismatches und Divergences sehen, betrifft die Möglichkeiten in der Zielsprache, die fehlenden Unterscheidungen, die die Quellsprache einführt, zu egalisieren. Wenn es möglich ist, innerhalb eines Satzes,

11 Ein weiteres Beispiel für grammatisch bedingte Mismatches ist das Vorhandensein eines DuaJs (neben Singular und Plural) in manchen slawischen Sprachen, wie z.B. Slowenisch; slowenische Personalpronomina haben Formen für "wir zwei", "ihr zwei", "(diese) zwei", die im Deutschen keine direkte Entsprechung haben.

190 beispielsweise durch syntaktische Änderungen oder durch Paraphrasen, die Unterschiede zwischen Quell- und Zielsprache zu egalisieren und somit ohne erzwungenen Informationszuwachs oder Informationsverlust zu übersetzen, so sprechen Kameyama et al. von "translation divergence". Wenn dies nicht möglich ist, so sprechen sie von "translation mismatch". Die Unterscheidung ist stark von der Granularität der Beschreibung und von den benutzten Repräsentationen abhängig. Hinzu kommt, daß man darüber streiten kann, welche grammatischen und lexikalischen Mittel noch als brauchbare Paraphrasen gelten können. Dementsprechend fordern [Barnett et al. 1994], daß eine "most natural translation" angestrebt wird, die den Kriterien der "semantic closeness" und der "naturalness" genügen sollen. Das Kriterium der "naturalness" wird von den Autoren wie folgt definiert: • Quell- und zielsprachlicher Text müssen sich hinsichtlich des Sprachniveaus entsprechen; • syntaktische Strukturen und Ausdrücke von Quell- und Zielsprache müssen von ungefähr proportionaler Länge sein^^; • bei der Übersetzung quellsprachlicher Ausdrücke in zielsprachliche Ausdrücke muß die Ebene der Spezifizität der Quell-Ausdrücke beibehalten werden, wo dies möglich ist; wenn die Quell- und Zielsprache sowohl allgemeinere als auch spezifischere Ausdrücke zur Verfügung haben, so sollen allgemeinere Ausdrücke durch allgemeinere, spezifischere Ausdrücke durch spezifischere übersetzt werden. Bei Divergences ist dies in der Regel möglich, bei Mismatches meistens nicht. Bei Mismatches muß dann aber der "Abstand" hinsichtlich der Spezifizität so klein als möghch gehalten werden. Eine eindeutige Unterscheidung zwischen Divergenzen und Mismatches ist also nicht ohne weiteres möglich: die Grenzen sind etwas fließend. "When we analyse what we called translation divergences above more closely, it becomes clear that divergences are instances of lexical mismatches. [...] divergences are the lexical mismatches resolved within a sentence by cooccurring lexemes." [Kameyama/Ochitani/Peters 1991] Es ist sinnvoll, die Zusammenhänge zwischen den beiden Typen von Übersetzungsproblemen als ein Kontinuum mit unscharfen Übergängen zu begreifen, nicht als eine Klassifizierung mit ganz eindeutigen Kriterien. Weitere Beispiele für Mismatches Viele Mismatches ergeben sich durch kulturspezifische Unterschiede. [Barnett et al. 1994] geben als Beispiel die Übersetzung von japanisch yasai an: yasai entspricht ungefähr DE Gemüse. Aber yasai denotiert nur Dinge, deren Farbe in der Natur grün ist; Minze ist beispielsweise in yasai eingeschlossen, Tomaten dagegen nicht. Zu unserer Vorstellung von Gemüse gehören Tomaten, Karotten, Sellerie usw., die nicht grün sind. Umgekehrt gehört Minze nicht unbedingt dazu'''.

12 Hiermit werden umständliche Paraphrasen oder "epische Erläuterungen" ausgeschlossen, wie sie im Falle von kulturspezifischen Mismatches sehr oft in Wörterbüchern gegeben werden. 13 Kulturspezifische Übersetzungsprobleme sind wiederum in der Übersetzungstheorie, in der Lexikographie und in der lexikalischen Semantik (z.B. [Lyons 1980]-. 426, nach [Durreil 1988]:230) vielfach

191 In der Lexikographie hat z.B. Kromann die durch Kulturspezifika bedingten Übersetzungsprobleme als besonders drastischen Beispielfall für die Aufgabe des zweisprachigen Wörterbuchs herangezogen, Äquivalentbeschreibungen dort besonders explizit zu gestalten, wo die Zielsprache Unterscheidungen macht, die in der Quellsprache unbekannt sind (vgl. die Diskussion über DK Lektor vs. DE Lektor in [Kromann 1989]). Ähnliche Belege, die nicht notwendig auf Kulturspezifika beruhen, sind in der strukturellen Semantik verschiedendlich gegeben worden. Ein Beispiel ist DE Wald/Holz vs. FR bois/foret. [Durrell 1988]: 234 f. beschreibt die Zusammenhänge von EN earth, soil, ßoor, ground vs. DE Erde, Boden, Grund: "As a typical instance of such a messy set we may conside the lexemes earth, soil, ßoor and ground in English and their usual equivalents in German, i.e. Erde, Boden und Grund. The complex nature of the interlingual incongruence between these may be seen initially by looking at common translation equivaler ruht in fremder Erde, trockene Erde (6) Erde = 1) soil earth die Erde wird im Frühjahr warm 2) ground die Saat in die Erde bringen 3) fruchtbarer Boden, den Boden bearbeiten Boden soil = 1) er liegt auf dem Boden ents: ground 2) üoor der Boden des Zimmers 3) (also = loft, bottom, etc.) Grund = 1) ground bis auf den Grund zerstört (also = bottom, foundation, etc.) Schematically, we thus may observe the following relationships of equivalence: (7)

earth

soil

floor

ground

Grund

This is a particularly troublesome set, as in no case in either language do we seem to be dealing clearly with any relationships of a more abstract kind." Einteilung von Mismatches Man kann eine erste, sehr grobe Einteilung von Mismatches danach unternehmen, welche Art von Unterschied in der Informationsmenge zwischen Quell- und Zielsprache vorliegt. Wird durch die Ubersetzung erzwungen, daß der zielsprachliche Satz mehr Information enthält als der quellsprachliche Satz, d.h. muß an einer Stelle ein spezifischeres Lexem der Zielsprache gewählt werden, als in der Quellsprache vorliegt, so kann man von "hyponymischer" Ubersetzung oder "interlingualen Hyponymen" sprechen. Diese Sprechweise beruht auf der Idee einer für beide Sprachen gültigen

diskutiert und anhand von einzelnen Beispielen diskutiert worden. Vgl. auch Diskussionen über die "Unübersetzbarkeit" der Sprachen. Ein neues Beispiel für diese Art Diskussion ist Radtkes Erklärung für die Probleme bei der Übersetzung von DE Buttermilch ins Itahenische (die Substanz ist im deutschen Sprachraum als Getränk für Ernährungsbewußte anzutreffen, während sie in ItaJien als Abfallprodukt gilt und allenfalls als zur Schweineaufzucht tauglich angesehen wird). In italienischen Dialekten gibt es Ausdrücke für die Sache; die in den deutsch-italienischen Wörterbüchern vorgeschlagenen Übersetzungen sind aber den italienischen Muttersprachlern weithin unbekannt. [Radtke 1994]; 92: "Die Tücke der Übersetzung liegt also nicht in der Bezeichnungsübereinstimmung, sondern vielmehr in der unterschiedlichen Wertehierarchie innerhalb der Sachkultur".

192

Konzepthierarchie, die als SpeziaUsierungshierarchie organisiert ist, und deren Knoten Konzepte darstellen, die auf einzelsprachliche Lexeme verweisen. Insofern der obere Teil einer solchen Hierarchie genereller, der untere Teil spezifischer ist, stellt die Übersetzung durch einen spezifischeren Ausdruck einen "downward move" (Barnett et al.) in einer solchen Hierarchie dar. Den umgekehrten Fall, d.h. den Informationsverlust bei der Übersetzung, nennen Barnett et al. "upward move", die Übersetzungstheorie "hyperonymische" Übersetzung. Schematisch ist diese Situation in der Abbildung 6.2 dargestellt.

o

O

o OiffcFentta specific^

L

\I

Abbildung 6.2: "Confiational/lexical divergence" und "Upward Mismatch" in einer mterlingualen" Konzepthierarchie (gestrichelte Pfeile: Abbildungen von "Konzepten" auf Lexeme) Die beiden obigen Fälle sind noch relativ klar identifizierbar. In anderen Fällen, wie etwa bei den von Durrell zitierten englisch/deutschen Übersetzungsäquivalenten erfolgt sowohl in Teilen ein ungewollter Informationszuwachs als auch in Teilen ein Informationsverlust. Die Denotatbereiche von quell- und zielsprachlichen Lexemen überlappen. Solche Fälle nennen Barnett et al. "sideward-move" (Beispiel yasai).

6.1.3.3

Zusammenfassung

Die verschiedenen Versuche zur Klassifikation von Übersetzungsproblemen, die in der Lexikographie, der lexikalischen Semantik, der Übersetzungstheorie und der Forschung zur maschinellen Übersetzung unternommen worden sind, benutzen weitgehend unterschiedliche Terminologie und scheinen nicht in allen Fällen über die Arbeiten in den jeweils anderen Bereichen informiert zu sein. Dennoch läßt sich aus den verschiedenen Ansätzen eine gemeinsame Grobklassifikation herausarbeiten, die trotz unterschiedlicher Zielsetzungen und unterschiedlicher Forschungszusammenhänge als Grundlage für eine detailliertere Klassifikation von Übersetzungsproblemen genommen werden kann. In Tabelle 6.2 sind die Ansätze von Dorr und Barnett einander gegenübergestellt und

193 mit Vorschlägen aus dem Lexikonprojekt MULTILEX (vgl. [Modiano 1994]) verglichen worden. Die Klassifikation von MULTILEX umfaßt den breitesten Bereich". MULTILEX

vollständige Äquivalenz Äquivalenz mit Transformationen "variant translation" Partielle Äquivalenz - hyperonymische Übersetzung - hyponymische Übersetzung - "related translation"

[Barnett et al.

Dorr

Divergenz

Divergenz (verschiedene Subtypen)

Mismatch - upward move - downward move - sideward move (overlap)

Tabelle 6.2: Äquivalenztypen bei MULTILEX, Barnett und Dorr

14

Was bei M U L T I L E X "variant translation" heißt, entsteht dadurch, daß Quell- und Zielsprache zwar denotationelle Äquivalente aufweisen, jedoch diese Äquivalente auf der Ebene der Konnotation, bzw. der Stil-Merkmale Unterschiede aufweisen.

194 6.2

Kriterien für eine Klassifikation von Übersetzungsproblemen als Grundlage für kontrastive Klassen

Nach der Analyse der kontrastiven Klassifikationen aus der Literatur zur maschinellen Übersetzung wird im Folgenden eine eigene Klassifikation vorgeschlagen, auf der die kontrastiven Klassen beruhen, die in den Abschnitten 6.3 und 6.4 beschrieben werden. Die Kriterien dieser Klassifikation sind zum Teil den in Abschnitt 6.1.3 beschriebenen Kriterienkatalogen entnommen oder an sie angelehnt. Dies gilt für die Einteilung in Mismatches und Divergences, sowie dafür, daß auch hier die Tatsache akzeptiert werden muß, daß zwischen Mismatches und Divergences nicht immer ganz strikt unterschieden werden kann, sondern sich fließende Übergänge ergeben. Ansonsten wird eine Vereinfachung des Kriterienkatalogs angestrebt; die hier benutzte Klassifikation deckt ohne Einführung von neuen Parametern gegenüber der Beschreibung in Kapitel 4 dieselben Phänomene ab, wie die publizierten Klassifikationen. Abbildung 6.3 stellt diese kontrastive Phänomenklassifikation schematisch dar. Übersetzungsprobleme

Abbildung 6.3: Schema einer Klassifikation von Übersetzungsproblemen Die hier verwendete Klassifikation beruht auf folgenden Kriterien: • Eine Unterscheidung zwischen Mismatches und Divergences, nach den bei Barnett et al., Kameyama et al. und Dorr dargestellten Kriterien. Bei Divergences, eine Unterscheidung nach dem linguistischen Objekt, welches sich in Quell- und Zielsprache unterscheidet: (1) das zu übersetzende Lexem alleine, (2) das Lexem und - falls es ein Prädikat ist - die davon subkategorisierten Ergänzungen und ggf Adjunkte, oder (3) nur die syntagmatische Umgebung des zu übersetzenden Lexems. Im einzelnen werden die folgenden Subtypen unterschieden:

195

- Das Satzprädikat (z.B. das Verb) selbst weist in Quell- und Zielsprache nichttriviale Unterschiede auf. Betreffen diese Unterschiede die Kategorieebene, dann liegt das Übersetzungsproblem vor, welches Dorr als "categorial divergence" bezeichnet (EN: I am hungry •(->• DE: ich habe Hunger)^^. - Die Unterschiede zwischen Quell- und Zielsprache betreffen das vom Eintragswort subkategorisierte Material (Unterschiede zwischen Quell- und Zielsprache im Subkategorisierungsverhalten). Hier können weitere Unterscheidungen eingeführt werden, je nach Typ und Eigenschaften des von den Unterschieden betroffenen subkategorisierten Materials. Ein Spezialfall dieser Problemklasse sind "thematische Divergenzen" (EN: Ilike Mary SP: Me gusta Maria). Hier ist die Argument-Komplement-Abbildung ("Linking", "Lexical Mapping") betroffen: Quell- und Zielsprache verwenden unterschiedliche Abbildungen. - Unterschiede zwischen Quell- und Zielsprache hinsichtlich des Auftretens, bzw. der Möglichkeit des Auftretens von Adjunkten. Bestimmte Verben der Quellsprache können mit bestimmten Adjunkten kombiniert werden, ihre Äquivalente in der Zielsprache können jedoch nicht mit Adjunkten gleicher Funktion kombiniert werden^®. Die oben genannten drei Typen von Phänomenen (Unterschiede im "Keyword", Unterschiede in der Subkategorisierung, Unterschiede im Adjunktpotential) können natürlich auch kombiniert auftreten. • Im Falle von Mismatches werden dieselben drei Typen unterschieden, wie sie z.B. bei Barnett et al. diskutiert werden: - "Upward move": Informationsverlust durch Ubersetzung mit Hilfe eines allgemeineren Lexems; - "Downward move": Notwendigkeit der Überspezifizierung in der Zielsprache, relativ zur Quellsprache; - "Sideward move": Überlappungen im Informationsgehalt, d.h. eine Kombination aus Informationsverlust und erzwungenem Informationszuwachs. • Die Divergenztypen werden weiter subklassifiziert nach den bei der Übersetzung speziell betroffenen Beschreibungsebenen. Die Klassifizierung beruht auf den linguistischen Beschreibungsebenen, zu denen üblicherweise im Lexikon Informationen angegeben werden. Unabhängig davon, wie diese Informationen im Lexikon

15 Oft hat ein Kategoriewechsel beim Eintragswort weitreichende Folgen für die syntaktische Umgebung des Eintragsworts im Satz. Dies gilt etwa bei Übersetzungen von Verben durch Adjektive oder durch Substcintive. Wird ein Verb durch ein Adjektiv übersetzt, so muß ein geeignetes Kopulaverb eingesetzt werden. Wird ein Verb durch ein Funktionsverbgefüge (Nomen-Verb-Kollokation) übersetzt, so genügt es nicht, nur für das Verb die korrekte Nominalisierung auszuwählen, sondern das Hauptproblem bei der Auswahl des Übersetzungsäquivalents liegt in der Auswahl des richtigen Funktionsverbs. Ebenso kommt es vor, daß die Quellsprache ein Verb im Aktiv hat, die Zielsprache aber ein Verb im Passiv verlangt. Mit diesem Wechsel geht auch ein Wechsel der Subkategorisierungseigenschaften der Verben einher ("thematische Divergenz"). Details und weitere Beispiele hierzu werden unten diskutiert. 16 Ein typisches Beispiel hierfür sind Verben der Änderung von Mengen; mit FR augmenter, monier, etc. können keine strukturisomorphen Konstruktionen zur DE der Umsatz ist um 10% auf 125 Millionen Mark gestiegen konstruiert werden.

196 repräsentiert sind, läßt sich für einzelne Subklassen zeigen, welche Art von Information vorhanden sein muß, damit die jeweiligen Probleme behandelt werden können, sowie welche Teilbeschreibungen überhaupt betroffen sind^^. Die hier angegebenen Kriterien können hierarchisch angeordnet werden: Zunächst wird der Problembereich in Mismatches vs. Divergences eingeteilt, dann werden Mismatches, soweit dies möghch ist, in Fälle mit Informationsverlust, unerwünschtem Informationszuwachs oder Überlappung eingeteilt. Sinngemäß werden Divergenzen danach eingeteilt, ob sie das Lexem selbst, oder von ihm subkategorisiertes oder nicht subkategorisiertes Material (Adjunkte) betreffen, oder das Lexem und seine syntagmatische Umgebung. Divergenzen werden weiterhin nach den betroffenen Beschreibungsebenen subklassifiziert. Die beiden Kriterien zur Subklassifizierung von Divergenzen sind orthogonal und werden kreuzklassifiziert. Dies wird in Abbildung 6.3 verdeutlicht^®.

17 Einige Subtypen der oben eingeführten Divergenztypen lassen sich auf der syntaktischen Ebene beschreiben (z.B. Unterschiede im Subkategorisierungsverhalten), andere betreffen die Zusammenhänge zwischen den Argumenten eines verbalen Prädikats und der Realisierung dieser Argumente durch vom Verb subkategorisierte grammatische Funktionen ("Linking", wie im Falle der thematic divergence), wieder andere Subtypen betreffen morphosyntaktische, pragmatische oder durch diasystematische Markierung beschreibbare Eigenschaften. 18 Man kann prinzipiell auch für Mismatches eine Subklassifikation nach Beschreibungsebenen annehmen. Allerdings fällt es sehr schwer, für sämthche aus der Kombination hervorgehenden Klassen Belege zu finden.

197

6.3

Zur Subklassifizierung von Divergenzen - Beispieldiskussion

Oben in Abschnitt 6.2 wurden die Kriterien angegeben, auf denen die hier benutzte kontrastive Klassifikation beruht. Die kontrastiven Klassen sind schematisch in Abbildung 6.3 dargestellt. Hier werden die Subklassen aus dem Bereich der Divergenzen detailliert anhand von Beispielmaterial diskutiert. Dabei wird auf Generalisierungen hingewiesen, wo dies relevant ist. Zunächst (Abschnitte 6.3.1 bis 6.3.3) werden Fälle behandelt, bei denen sich Quell- und Zielsprache hinsichtlich der syntagmatischen Umgebung des zu übersetzenden Prädikats (in der Regel eines Verbs) unterscheiden. In den Abschnitten 6.3.4 und 6.3.5 angegebene Probleme betreffen primär die Realisierung des Eintragsworts selbst. Die in 6.3.6 beschriebenen Fälle betreffen sowohl das zu übersetzende Lexem als auch dessen syntagmatische Umgebung. Abschnitt 6.3.1 und 6.3.1.2 beschreiben Fälle, wo Quell- und Zielsprache Unterschiede im Subkategorisierungsverhalten aufweisen ("syntaktische Divergenzen"). Abschnitt 6.3.2 behandelt "thematische Divergenzen" und Abschnitt 6.3.3 Fälle von "conflational divergence" bzw. "lexical divergence". Bei den in Abschnitt 6.3.4 diskutierten "kategorialen Divergenzen" unterscheiden sich Quell- und Zielsprache in Eigenschaften des zu übersetzenden Prädikats selbst. Man kann auch die "demotional/promotional divergence" zu diesem Subtyp rechnen, insofern diese Fälle (Head Switching) eben durch einen Kategoriewechsel bei der Realisierung des semantischen Kopfs (Adverb vs. Verb) charakterisiert sind (vgl. Abschnitt 6.3.5). 6.3.1 6.3.1.1

Subkategorisierungsunterschiede: "syntaktische Divergenz" Einfache Fälle

Die häufigste Klasse von Divergenzen, wahrscheinlich überhaupt der häufigste Fall von Aquivalenzbeziehung, liegt dort vor, wo Quell- und Zielsprache sich hinsichtlich der Subkategorisierungseigenschaften von Verben unterscheiden'®. Typische Beispiele für diesen Trivialfall der syntaktischen Divergenz sind in Tabelle 6.3 zusammengestellt; die Beispielsammlung ist in keiner Weise vollständig, sondern dient nur zur Illustration: Französische transitive Verben mit deutschen Äquivalenten, die ein indirektes bzw. ein Präpositionalobjekt subkategorisieren (Tabelle 6.3); umgekehrt sind in Tabelle 6.4 Fälle zusammengestellt, wo deutsche transitive Verben durch französische Verben mit Präpositionalobjekt übersetzt werden. Diese Fälle mögen zunächst trivial erscheinen; sie sind jedoch dort problematisch, wo die Subkategorisierungseigenschaften der Verben der einen Sprache eine Satzkonstruktion erlauben, die in der anderen Sprache nicht beibehalten werden kann. Passivierung ist ein typischer Beispielfall hierfür. Nimmt man an, daß die transitiven Verben jeweils in der Quellsprache auftreten, und daß sie in Passivsätzen erscheinen, so stellt sich das Problem, daß entweder bei der Ubersetzung des Passivsatzes ein anderes Äquivalent ausgewählt werden muß, oder daß die Konstruktion des zielsprachlichen Satzes gegenüber der quellsprachlichen Passivkonstruktion modifiziert werden muß^°.

19 Diese Fälle werden von formalen Grammatiken problemlos behandelt, solange die Unterschiede sich auf die Ebene der grammatischen Funktionen beziehen, und keine allzu umfangreichen phrasenstrukturellen Unterschiede auftreten; vgl. aber Abschnitt 6.3.1.2. 20 Dort, wo neben den Vollverben auch Funktionsverbgefüge als Äquivalentkandidaten zur Verfügung

198 Französisch (SUBJ OBJ)

Deutsch (SuBJ OBJ2)

applaudir approuver assister aider braver, defier contrecarrer contredire (en)croire presider

applaudieren zustimmen helfen helfen trotzen entgegenarbeiten widersprechen glauben Vorsitzen

Französisch (SuBJ OBJ)

Deutsch

cautionner

bürgen

voter

abstimmen

bouder

schmollen

(SuBJ P - O B J ) (SUBJ f ü r - O ß j ) (SUBJ ü b e r - O ß j ) (SUBJ m i t - O B j )

Tabelle 6.3: Syntaktische Divergenz: transitive Verben (FR) vs. Verben mit P-OBJ (DE) D e u t s c h (SUBJ O B J )

Französisch (SuBJ P - O B J )

beichten genießen wechseln vorwegnehmen befehligen beantworten erreichen

se confesser (SUBJ d e - O s j ) bräeficier (SuBJ de-OBj) changer (SUBJ de-OBj) anticiper (SUBJ sur-Oßj) Commander (SUBJ O B J 2 )

repondre (SuBJ ä-OBj) atteindre (SUBJ ä-OBj)

Tabelle 6.4: Syntaktische Divergenz: transitive Verben (DE) vs. Verben mit P-OBJ (FR) Ein Beispiel: die Übersetzung eines Satzes wie 4 ins Deutsche ist nicht gleichzeitig strukturisomorph und unter Verwendung passender Kollokationen möglich. (4) F R un Probleme

rencontre

[...]

a retarde

le

projet...

Der französischen Kollokation rencontrer un probleme entsprechen die in 5a und 5b angegebenen deutschen Kollokationen. (5) a. auf ein Problem

treffen,

b. auf ein Problem

stoßen,

c. *ein Problem (an-) treffen Es gibt im Deutschen keine Kollokation (vgl. 5c), die mit F R rencontrer un probleme äquivalent wäre und gleichzeitig ein transitives Verb enthalten würde, d.h. passivierbar wäre. Als Ubersetzung von 4 muß zum Beispiel 6 gewählt werden: (6) DE ein Problem, auf das [man] traf, hat das Projekt

verzögert

stehen, kann mitunter der "Strukturumbau" vermieden werden, weil ein zielsprachliches Funktionsverbgefüge verwendet werden kann, welches dieselben Subkategorisierungseigenschaften hat, wie das quellsprachhche Verb.

199 Die Grammatik der Zielsprache (in diesem Fall Deutsch) enthält alternative Regeln für die Ubersetzung von Partizipien durch Relativsätze. Sie muß ebenfalls Regeln dafür enthalten, unter welchen Bedingungen und in welcher Form unpersönliche Subjekte (man) eingefügt werden können. Im Wörterbuch muß die syntaktische Information und die Kollokationsinformation vorhanden sein, die die Aquivalentwahl steuert.

6.3.1.2

Spezielle Subkategorisierungsunterschiede: infinite vs. finite Konstruktionen

Bei der Diskussion von syntaktischen Divergenzen wird selten auf einen Spezialfall eingegangen, der zu relativ umfangreichen Änderungen der Satzstruktur führen kann: Ubersetzung von infiniten Konstruktionen durch finite und umgekehrt. In sehr vielen Fällen ist es möglich, finite Komplementsätze oder Infinitivkomplemente strukturisomorph wiederzugeben (vgl. 7 unten). (7) DE Ich höre meinen Nachbarn F R J'entends

mon voisin

tousser.

DE Ich höre daß mein Nachbar F R J'entends

husten.

hustet.

que mon voisin tousse.

Dies ist beispielsweise nicht möglich bei der französisch-deutschen Übersetzung von "a.c.i. im Relativsatz" und von manchen satzwertigen Präpositionalobjekten. Mitunter fehlt in der Zielsprache eine infinite Konstruktionsmöglichkeit, und das Infinitivkomplement muß durch einen finiten Komplementsatz (z.B. daß-Satz) übersetzt werden^^ Das typische und oft zitierte Englisch-Französische Beispiel für solche Fälle (10) tritt eingeschränkt analog auch bei der Ubersetzung vom Französischen ins Deutsche auf (vgl. 11), allerdings muß die Infinitivkonstruktion mit dem Verb etre gebildet sein^^. (10) EN You are suposed to talk at 10:00h DE Man nimmt an, daß Sie um 10:00h sprechen (Sie sollen um 10:00h sprechen) (11) F R Je suppose la secretaire etre absente DE Ich nehme an, daß die Sekretärin abwesend ist

21 Aus der Übersetzung zwischen Französisch und Englisch werden in der Literatur zur maschinellen Übersetzung Konstruktionen wie in 8 und 9 zitiert (vgl. [Caroli 1991]): (8) EN The boss wants her to come FR La patron veut qu 'eile vienne (9) EN He is said to be ill. FR On dit qu'il est

malade.

22 Entsprechend läßt sich auch eine Konstruktion mit Partizip je suppose la secretaire absente oder mit Präpositionalphrase je supposais M. Meyer au Canada belegen.

200 In [Krenn 1995]:236f. werden Fälle von "a.c.i. im Relativsatz" (vgl. 12 und 13) diskutiert, die durchgängig zu der hier diskutierten Problemklasse gehören: (12) FRdonner pour vrai ce qu'on sait etre faux DE für wahr ausgeben, wovon man weiß, daß es falsch ist. (13) F R . . . ies telegrammes qu'on imagine (etre) tres prudents ... ^^ DE . . . die Telegramme, von denen man annimmt, daß sie sehr vorsichtig sind. In [Krenn 1995] wird davon ausgegangen, daß die Verben savoir, croire, considerer, imaginer, soutenir die in 12 und 13 illustrierte Konstruktion erlauben, aber nur eingebettet in einem Relativsatz mit que/qu' als direktes Objekt^^. Satzförmige Präpositionalobjekte: Für die französisch/deutsche Übersetzung sind auch diejenigen Fälle interessant, wo der Sachverhalts-Komplementsatz (auch im Deutschen) die grammatische Funktion eines Präpositionalobjekts hat. Im Französischen sind in solchen Fällen Infinitivkonstruktionen mit den Präpositionen ä und de möglich, während im Deutschen bei bestimmten Verben finite Komplementsätze mit obligatorischem Korrelat gesetzt werden müssen. Typische Beispiele sind die Übersetzungen von FR attraper (vgl. 14), benir (vgl. 15), blaguer (vgl. 16), complimenter (vgl. 17) und justifier (vgl. 18). (14) FR On a attrape un gendarme ä voler des poires DE Man hat einen Polizisten dabei erwischt, wie er Birnen stahP^ (15) FR Je te benis d'y avoir pense DE Ich preise/lobe dich dafür, daß Du daran gedacht hast (16) FRTout le monde Je blaguerait de rester seul DE Jeder würde ihn damit aufziehen/necken,

daß er alleine bleibt

(17) F R O n a complimente le directeur d'avoir reussi un tel exploit DE Man hat dem Direktor dazu gratuliert/dafür er eine solche Leistung vollbracht hatte

Komplimente gemacht (FVG!), daß

(18) FRIJ n'a pas pu justißer avoir paye cette facture DE Er konnte nicht rechtfertigen, daß/warum er diese Rechnung bezahlt

hatte

Im Fall von FR condamner (vgl. 19) ist auch ein infinitivische Übersetzung im Deutschen^® denkbar. Bei den anderen oben genannten Beispielen ist dagegen eine Infinitivkonstruktion nicht möglich.

23 24 25 26

Vgl. [Krenn 1995]:237, mit DE Übersetzung von uns. Vgl. die Einschränkungen im Fall von 11, oben. Vgl. [Busse/Dubost 1983], s.v. attraper. Ich könnte ihn kaum dafür verdammen, so gehandelt zu haben.

201

(19) F R J ' a u r a i s d u m a l ä Je condamner D E Ich könnte

ihn schlecht

d'avoir

agi

ainsi

dafür rügen/verdammen,

daß er so gehandelt

hat

B e i der Ü b e r s e t z u n g der F ä l l e 14 bis 18 m u ß in der Zielsprache i m "dajS-Satz" ein S u b j e k t s P e r s o n a l p r o n o m e n e i n g e s e t z t werden^'^.

6.3.2

Thematische Divergenz und Syntax-Semantik-Interaktion

F ä l l e v o n t h e m a t i s c h e r D i v e r g e n z (Terminus v o n Dorr) sind in der Literatur zur m a s c h i nellen U b e r s e t z u n g viel diskutiert worden. D a s o b e n bereits a n g e s p r o c h e n e B e i s p i e l , "EN like

O

F R plaire",

w u r d e in EUROTRA i m D e t a i l diskutiert. Ä h n l i c h e

"Berühmtheit"

h a b e n die in 2 4 u n d 25 n o c h m a l s m i t B e i s p i e l e n d a r g e s t e l l t e n F ä l l e v o n "EN JacJc, F R manquer,

DE

(24) E N J m i s s my

dictionary

F R Mon dictionnaire

me

(25) E N This girl lacks a good D E Diesem

miss,

fehlen".

Mädchen

fehlt

manque dictionary ein gutes

Wörterbuch

B e i F ä l l e n der t h e m a t i s c h e n D i v e r g e n z ist nicht nur d a s s y n t a k t s i c h e Subkategorisierungsv e r h a l t e n v o n Quell- u n d Zielsprache unterschiedlich, s o n d e r n der eigentliche U n t e r s c h i e d

27 ZwM kann dies weitgehend mechanisch, aus der morphosyntaktischen Analyse der Quellsprache abgeleitet werden, jedoch stellt dieser Fall insofern eine zusätzhche Übersetzungsschwierigkeit dai. Dieselben Übersetzungsregeln für die Beschreibung von Zusammenhängen zwischen finiten und infiniten Konstruktionen müssen auch bei der Übersetzung bestimmter Arten von Adjunkten angewendet werden. Analog zu der Situation bei Verbkomplementen gibt auch bei Adjunktsätzen oft genug eine Alternationsmöglichkeit zwischen finiten und infiniten Konstruktionen, beispielsweise im Falle von DE ohne daß (vgl. 20), oder FR pour que, saus que (vgl. 21, 22): (20) a. Er unterschrieb b. Er unterschrieb

den Brief, ohne daß er ihn nochmals

las.

den Brief, ohne ihn nochmals zu lesen.

(21) a. Pour que vous puissiez lancer le Programme, vous devez choisir l'option b. Pour lancer le Programme, choisissez l'option

"A".

"A".

(22) a. Elle est partie sans qu 'eile ait laisse une trace. b. Elle est partie sans laisser une/de

trace.

Problematisch wird die Übersetzung dort, wo in der einen Sprache eine Alternation zwischen daß-Satz und Infinitiv möglich ist, in der anderen nur ein daß-Satz. Solche Fälle liegen zwischen Französisch und Deutsch bei FR de sorte ä, de fagon a, de maniere ä vor, die alle lediglich mit DE sodaß übersetzt werden können, oder bei der Übersetzung von FR avant de durch DE bevor (vgl. 23): (23) a. Je rends visite ä mon oncle avant de partir pour les b. Ich besuche meinen Onkel, bevor ich nach Amerika

Etats-Unis. gehe.

Die kontrollierten Adjunkte beziehen sich grundsätzlich auf das Subjekt, sodaß bei der Übersetzung zur Not aus der morphosyntaktischen Information ein Subjektspronomen generiert werden kann.

202

zwischen den beiden Sprachen hegt in der Abbildung der Verbargumente auf subkategorisierte Komplemente. Auf der Ebene der Prädikat-Argument-Struktur können Quell- und Zielsprache strukturisomorph beschrieben werden. Unterschiede bestehen nur darin, wie die einzelnen Argumente auf das Subjekt bzw. auf die Komplente von Quell- und Zielsprache abgebildet werden. Anhand des Paars "miss/manquer" ist dieser Sachverhalt in Abbildung 6.4 dargestellt. Dabei sind die Komplemente jeweils durch gleichartige Symbole dargestellt. QS

Präd-Arg.Struktur

ZS

liU I missC^^^^ictiona^J^

(^OTdictionMi^ me

manque.

Abbildung 6.4: Thematische Divergenz: schematische Darstellung der Syntax-Semantik-Abbildung (vgl. Beispiel 24)

6.3.2.1

Beispiele für thematische Divergenzen

Weitere Übersetzungsbeispiele für thematische Divergenz bei zweistelligen Verben sind in den Beispielsätzen 26 bis 32 angegeben. (26) FR J'ai manque cette photo^^ DE Mir ist dieses Photo mißlungen (27) FR Ses services lui ont mehte cette lecompense DE Für seine Dienste hat er diese Belohnung verdient Er hat sich mit seinen Diensten diese Belohnung verdient (28) FR Cette affaire n'a proßte qu'ä Marie DE Nur Marie hat von dieser Angelegenheit proßtiert Diese Angelegenheit hat nur Marie genützt (29) DE Mir widerstrebt (es), diese Arbeit zu tun FR Je repugne ä faire ce travail (30) FR L'egout degorge de l'eau

28 AnaJog im Frajigais Parle: j'ai rate cette pboto.

203

DE Aus dem Rohr Hießt Wasser (31) DE Ihr Argument leuchtet mir ein FR Je comprends/accepte

votre argument

(32) DE Da fällt mir mein Urlaub ein EN I just remember my holidays Analoge Probleme lassen sich auch bei dreistelligen Verben beobachten. Nachfolgend sind Beispiele für einige dreistellige Verben angegeben, bei denen typischerweise das thematische Argument in einer Sprache als direktes Objekt realisiert ist, in der anderen als Präpositionalobjekt (vgl. die Beispiele in 33 bis 36). (33) EN Hans reminds the boss of the task DE Hans erinnert den Chef an die Aufgabe FR Hans rappelle la täche au chef (34) FR Les medecins deconseillent ce medicament aux femmes enceintes DE Die Ärzte raten Schwangeren von diesem Medikament ab (35) FR Max est arrive ä desaccontumer son amie du tabac DE Max hat es geschafft, seiner Freundin das Rauchen abzugewöhnen (36) FR L'orateur demande un verre d'eau au President DE Der Redner bittet den Vorsitzenden um ein Glas Wasser 6.3.2.2

Thematische Divergenz vs. Alternation bei der Argument-Komplement-Abbildung

Uberall dort wo Verben in einer Sprache syntaktische Konstruktionsalternativen ("Alternationen" im Sinne von [Levin 1993]) zulassen, besteht die Möglichkeit, daß bei der Ubersetzung thematische Divergenz-Probleme auftreten. Die Alternationen selbst können im übrigen als intralinguale Beispiele für dasselbe Phänomen interpretiert werden. Ein Beispiel aus der französisch/deutschen Ubersetzung sind Verben zum Ausdruck einer großen Quantität von Objekten an einem bestimmten Ort, wie FR abonder, fourmiller, pulluler, grouiller: Beispiele sind in 37 und 38 angegeben. (37) FR Les pissenJit abondent id. DE Es wimmelt hier von Löwenzahn. (38) FRMoii jardin fourmille/pullule/grouille

de pissenlits.

DE In meinem Garten wimmelt es von Löwenzahn.

204

In [Levin 1993] wird beobachtet, daß syntaktische Alternationen oft einhergehen mit semantischen Klassifizierungen des Verbwortschatzes. Typische Beispiele sind die Alternationen, die man bei den "spray-load-Verben" beobachtet^®. Wo die Zugehörigkeit zu einer Alternationsklasse in einer Sprache zusammenfällt mit der Zugehörigkeit zu einer semantischen Klasse, kann man die zusätzlich beobachtete thematische Divergenz bei der Übersetzung in eine andere Sprache natürlich wiederum mit der betreffenden semantischen Klasse in Verbindung bringen. 6.3.2.3

Behandlung von Thematischer Divergenz in constraint-basierten Grammatiken

Alle Fälle von thematischer Divergenz können relativ problemlos in einem auf grammatischen Funktionen aufsetzenden Ubersetzungsansatz behandelt werden, wie er etwa in einem LFG-basierten System realisiert werden kann. Dort muß nur eine Aussage darüber gemacht werden, welche vom quellsprachlichen Verb subkategorisierte grammatische Funktion durch welche subkategorisierte grammatische Funktion der Zielsprache übersetzt wird. Solche Statements müssen in einem LFG-basierten Ansatz ohnedies für jedes Äquivalentpaar gemacht werden. Das bedeutet, daß die thematische Divergenz vollständig analog zu den üblichen Abbildungen, ohne irgendwelche zusätzlichen Beschreibungsmittel, behandelt werden kann. Ein Grammatik- und Lexikonmodell, welches neben der Beschreibung der Subkategorisierung auf der Ebene grammatischer Funktionen auch die Prädikat-Argument-Struktur des Verbs auf der semantischen Ebene explizit notiert, muß die thematische Divergenz als einen Fall unterschiedlicher Linking Rules oder von Unterschieden zwischen den Sprachen auf der Ebene des Lexical Mapping beschreiben. Solche Beschreibungen sind z.B. in HPSG, sowieso nötig; die thematische Divergenz kann also auch dort ohne zusätzlichen Aufwand beschrieben werden. Dasselbe gilt für FYame Semaatics und die Beschreibungen, die oben in Kapitel 4 diskutiert werden. 6.3.2.4

Thematische Divergenz vs. Informationsstruktur

Thematische Divergenzen haben auch Auswirkungen auf die Informationsstruktur: in konfigurationalen Sprachen und in Sprachen mit (weitgehend) fester Wortstellung bzw. Konstituenten-Reihenfolge haben die einzelnen grammatischen Funktionen typischerweise jeweils eine bestimmte Funktion hinsichtlich der Informationsverteilung (im Sinne einer Thema/Rhema-Beschreibung) im Satz. Aus der Sicht des italienisch/deutschen Sprachvergleichs hat sich beispielsweise [Koch 1994a], [Koch 1994b], [Koch 1995a], [Koch 1995b] ausführlich mit Unterschieden zwischen den beiden Sprachen hinsichtlich der "unmarkierten" Informationsverteilung befaßt. Zusätzlich zur Beschreibungsebene der grammatischen Funktionen und der Prädikat-Argument-Struktur (in Kochs Terminologie: "Semantisch-sachverhaltsdarstellende Struktur, Aktanten-Rollen") führt Koch als dritte Beschreibungsebene die "Informationsstruktur" ein, die dazu dient, die Thema/Rhema-Gliederung des Satzes anhand einer "Hierarchie" von grammatischen Funktionen im Hinblick auf Thematizität vs. Rhematizität zu beschreiben. Aus der Sicht der maschinellen Übersetzung hat sich [Hauenschild 1987] mit derselben Fragestellung befaßt.

29 Eigentlich handelt es sich um zwei verschiedene Klassen.

205

Typischerweise sind sowohl im Italienischen als auch im Deutschen Subjekte besonders thematisch, während direkte und indirekte Objekte sich im Italienischen anders als im Deutschen verhalten, was ihre relative Position auf der Skala zwischen Thematizität und Rhematizität angeht; Koch stellt fest, daß das direkte Objekt im Italienischen stärker thematisch, das indirekte Objekt stärker rhematisch sei, während die Verhältnisse im Deutschen genau umgekehrt liegen. Hieraus ergibt sich, daß nicht notwendig eine Ubersetzung eines italienischen direkten Objekts durch ein deutsches direktes Objekt denselben Wert auf der Ebene der inhaltsstrukturellen Beschreibung haben muß. Die bei Hauenschild diskutierten Beispiele betreffen Fälle, wo für ein Verb der Quellsprache alternativ zwei Ubersetzungsäquivalente in der Zielsprache vorliegen, von denen eines syntaktisch isomorph konstruiert wird, das andere eine thematische Divergenz aufweist. Im speziellen Fall wird der thematischen Divergenz bei der Übersetzung jedoch der Vorzug gegeben, weil auf diese Weise informationsstrukturell analoge Sätze in Quell- und Zielsprache erzeugt werden können, während dies mit der syntaktisch isomorphen Übersetzung nicht möglich wäre. In Hauenschild's Beispielen 39 und 40 liegt im Deutschen (vgl. 39) im zweiten Satz des zu übersetzenden Texts eine markierte Wortstellung vor, die im Englischen nicht isomorph nachgebildet werden kann. (39) DE Europa fördert die neuen Technologien. Zu diesen gehört die

Informationstechnik.

(40) EN Europe supports the new technologies. These include Information

technology.

Die englische Übersetzung (vgl. 40) kann jedoch die Informationsstruktur, welche in 39 vorgegeben wird, dadurch nachbilden, daß für DE gehören zu, statt EN belong to, EN include verwendet wird. Das englische Verb [to] include führt zwar zu einer Übersetzung mit thematischer Divergenz, bewahrt jedoch die Verteilung von Thema und Rhema im Satz (vgl. Abbildung 6.5)^°. Zu diesen; geKbrt

die IT.

These ) include

IT

IT.

belongs ( ^ ^ t h e ^ J ^

Abbildung 6.5: Thema/Rhema-Gliederung und thematische Divergenz, anhand eines Beispiels von [Hauenschild 1987] An dieser Stelle kann auf die Zusammenhänge zwischen thematischer Divergenz und

30 Die Keile, die unter die Sätze in Abbildung 6.5 gelegt worden sind, sollen die Informationsstruktur symbolisieren: das breite Ende der Keile steht für die bekannte Information (Thema), das spitze Ende für die neu eingeführte Information (Rhema). Diese Darstellung weicht bewußt von der Graphik bei [Koch 1994a] ab.

206 Thema/Rhema-Gliederung nur hingewiesen werden. Forschungen über die Integration solcher Parameter in MÜ-Systeme und ihre Wörterbücher laufen erst an (vgl. neue Arbeiten von Engdahl und Vallduvi)®^ 6.3.3

"Inkorporation" von Argumenten und Adjunkten: "conflational" und "lexical" divergence

Oben in Abschnitt 6.1.3.1 wurde bereits darauf hingewiesen, daß die von Dorr als "conflational divergence" bzw. als "lexical divergence" bezeichneteten Unterschiede zwischen Quell- und Zielsprache eigentlich ein und dasselbe Phänomen sind. In beiden Fällen geht es darum, daß in der einen Sprache ein spezifisches Lexem vorliegt, wo in der anderen Sprache nur ein allgemeineres Lexem vorhanden ist, welches entweder durch Lexikalisierung eines Arguments^^ oder durch Lexikalisierung eines Adjunkts spezialisiert werden muß, wenn der spezifische Ausdruck der Quellsprache übersetzt werden soll. Der einzige Unterschied zu "upward mismatches" besteht darin, daß es in der Zielsprache relativ einfache lexikalische und/oder syntaktische Mittel gibt, mit denen der spezialisierte quellsprachliche Ausdruck wiedergegeben werden kann, während im Falle von "upward mismatches" eben solche Mittel nicht zur Verfügung stehen. Der Unterschied ist graduell (vgl. die Diskussion in Abschnitt 6.1.3.2, oben, Seite 189 und Abbildung 6.2, Seite 192). Wird zum Ausdruck der "differentia specifica" ein Adjunkt verwendet^®, so ist meist das syntaktische Verhalten (Subkategorisierung) von quell- und zielsprachlichem Lexem

31 In einem constreiint-basierten System müßte die Ebene der Informationsstruktur EJS eine zusätzliche Beschreibungsebene eingeführt werden, die zum Teil regelhaft mit der Beschreibung der grammatischen Funktionen interagiert. Sie bildet dann ein zusätzhches Constraint, insofern für wohlgeformte Übersetzungen angenommen wird, daß zwischen Quell- und Zielsprache eine möglichst analoge Informationsverteilung angestrebt wird. Pragmatische Constraints dieser Art scheinen Priorität gegenüber den syntaktischen Constraints zu haben. 32 In den Beispielen 41 bis 45 sind einige französisch/deutsche und deutsch/englische Beispiele für Fälle angegeben, bei denen Verbargumente im Sinne einer "lexical divergence" zum Ausdruck der "differentia specifica" verwendet werden. (41) FR concourir (SUBJ) DE an einem Wettbewerb (42) DE abblenden EN dim the/its

teilnehmen

(SUBJ: z.B. das Auto) headlights(vgl.

[Thurmair 1990])

(43) FR debander qn. (SUBJ OBJ) DE jmdm.

den Verband abnehmen (SUBJ 0 B J 2 )

(44) FR degonßer le pneu (SUBJ OBJ) DE die Luft aus dem Reifen herauslassen (SUBJ aus-OBJ) (45) FR deprecier (SUBJ OBJ): cette affaire deprecie ce territoire DE den Wert

mindern (SUBJ)

33 Typische Beispiele sind in 46 bis 49 angegeben: (46) FR embouteiller

(SUBJ OBJ)

207 analog, während es im Falle des Ausdrucks der DifFerentia durch ein Verbkomplement abweichen kann. Wegen der allgemeinen Schwierigkeiten, das Vorhandensein von Adjunkten im Lexikon anzugeben, sind Fälle wie 46 bis 49 besonders problematisch. Die hier diskutierten Fälle treten nicht vollständig unsystematisch auf, sondern sind dort besonders häufig und zum Teil regelhaft anzutreffen, wo sich zwei Sprachen hinsichtlich der Möglichkeiten zur Modifikation von Verbinhalten deutlich unterscheiden. Ein Beispiel ist insbesondere die Verfügbarkeit von Wortbildungsprozessen. Die romanischen Sprachen haben die Möglichkeit, beispielsweise die Wiederholung eines Sachverhalts mit Wortbildungsmitteln (Präfix re-, ri-) auszudrücken. Im Deutschen und im Englischen müssen die romanischen wortgebildeten Verben mit Hilfe einer Kombination aus dem Äquivalent des Basisverbs und einem Adverb übersetzt werden, wie im Beispiel 50 gezeigt ist. In ähnlicher Weise gibt es regelhafte Unterschiede bei "negativen" Verbpräfixen: das Niederländische kann die nicht sachgerechte Durchführung einer Handlung durch Präfixbildungen wie im Fall von 51 ausdrücken, während im Französischen kein analoges Wortbildungsprodukt zur Verfügung steht. (50) FRrevoir (SUBJ OBJ) EN See again (SUBJ OBJ)^^ (51)NL misraden (SUBJ) F R deviner k cöte (SUBJ) Anders als in den Beispielen 41 bis 45 und 46 bis 49 kommt es durch Unterschiede in der Verfügbarkeit von Wortbildungsmitteln zu Reihenbildung. Für die niederländischen Präfigierungen mit mis- sind im wesentlichen zwei Schemata für die Äquivalentbildung im Französischen verfügbar: das eine Schema nimmt als "genus proximum" das Basisverb und realisiert durch einen Adjunkt die zusätzliche Bedeutungskomponente (fehlerhafte Durchführung (vgl. "Schema-1" in Tabelle 6.5)); das andere Schema wählt als "genus proximum" ein Verb, welches das fehlerhafte Durchführen einer beliebigen Aktion bezeichnet, und ergänzt die spezifische Art der Aktion durch einen Adjunkt (vgl. Schema 2 in Tabelle

DE in Flaschen abfüllen (SUBJ OBJ) (47) FR debroussailler DE von Gestrüpp

(SUBJ OBJ) befreien (SUBJ OBJ)

(48) FR aligner (SUBJ OBJ) DE in einer Reihe anordnen (SUBJ OBJ) (49) FR dactylographier

(SUBJ OBJ)

DE mit (der) Schreibmaschine

schreiben (SUBJ OBJ)

34 Vgl. [Sadler/Schmidt 1992]:24/25. 35 In diesem Zusammenhang müssen auch die in der hnguistischen Literatur viel diskutierten Beispielfälle der Verben der Bewegungsart und Bewegungsrichtung angesprochen werden, bei denen sich das Französische und die anderen romanischen Sprachen merklich vom Englischen oder Deutschen unterscheiden. In Beispiel 52 ist ein typisches Beispiel hierfür angegeben. Im Deutschen können Ver-

208

NL

FR Schema 1

zieh misdragen misvatten, misverstaan misraden miswijzen

mal se conduire comprendre mal, comprendre de travers deviner ä cöte donner une indication erronnee

mislopen, misrijden misrekenen misspnngen zieh misspreken

FR Schema 2

FR andere se meconduire (BELG.)

se tromper de reute faire une erreur de calcul se tromper dans son calcul manquer son saut faire un lapsus

Tabelle 6.5: S c h e m a t a zur französischen Übersetzung von niederländischen Verben m i t d e m Präfix misDie Interaktion zwischen Wortbildung und Ubersetzung wird anhand dieser Beispiele sehr deutlich. Berücksichtigt m a n die Wortbildungsmuster, so lassen sich Wortbildungsprodukte in eine allgemeine Klassifikation von Ubersetzungsproblemen einbinden. U m gekehrt wird klar, daß ein vollständiges Übersetzungswörterbuch oder eine vollständige kontrastive G r a m m a t i k die jeweils einzelsprachlich relevanten Wortbildungsmuster bei der

ben wie schwimmen sowohl eine Bewegungsart ausdrücken, als auch ein direktionales Komplement subkategorisieren, durch welches die Bewegungsrichtung ausgedrückt wird. Im Französischen können die ansonsten äquivalenten Verben vom Typ nager nur zum Ausdruck der Bewegungscirt, nicht zum Ausdruck der Bewegungsrichtung verwendet werden. Entsprechend ist eine möghche Übersetzung des deutschen Satzes in 52 ein Satz mit dem Hauptverb traverser, d.h. einem Verb zum Ausdruch der Bewegungsrichtung, welches durch einen Adjunkt (ä Ja nage) spezifiziert wird. (52) DE Er schwimmt durch den Fluß. FR II traverse Je äeuve ä Ja nage.

209

Formulierung von Ubersetzungsregeln berücksichtigen müßte^®. 6.3.4

Divergenzen mit Auswirkungen auf das zu übersetzende Lexem

Die in den vorausgehenden Abschnitten diskutierten Beispiele enthalten Divergenztypen, die nur die syntagmatische Umgebung des zu übersetzenden Lexems (in der Regel eines Verbs) betreffen. Im Folgenden werden Beispiele diskutiert, die die Realisierung des zu übersetzenden Lexems selbst betreffen. Der prominenteste Beispielfall hierfür ist die kategoriale Divergenz. 6.3.4.1

Kategoriale Divergenz

Besonders häufig sind kategoriale Divergenzen, bei denen Verben der einen Sprache durch Adjektivkonstruktionen der anderen Sprache übersetzt werden müssen. Beispiele für die Übersetzung prädikativer Adjektive, beispielsweise des Deutschen, durch Verben des Englischen oder Französischen sind in 58 bis 60 angegeben. Ähnliche Beispiele aus der englischfranzösischen Ubersetzung sind in der Literatur zur maschinellen Ubersetzung und insbesondere zu EUROTRA ausführlich diskutiert worden (vgl. 61 bis 67). (58) DE Er ist in Amsterdam

wohnhaft

EN He resides in Amsterdam (59) DE Ich bin ihr noch 10,- DM schuldig EN 1 still Owe her 10,- DM (60) DE Er ist mit Problemen des Umweltschutzes befaßt

36 Hier kann auf dieses Problem nicht im Detail eingegangen werden. In ähnlicher Weise bleibt zu untersuchen, welche Regelmäßigkeiten bei der Ubersetzung von Verben durch Funktionsverbgefüge bestehen. Die Beispiele 53 bis 55 zeigen Fälle, wo das Französische ein kausatives Verb hat, während das Deutsche als Übersetzungsäquivalent ein kausatives Funktionsverbgefüge verwenden muß. (53) FR desequilibrer

(SUBJ OBJ)

DE aus dem Gleichgewicht (54) FR commercialiser

bringen (SUBJ OBJ)

(SUBJ OBJ)

DE auf den Markt bringen (SUBJ OBJ) (55) FR conceptualiser DE auf einen/den

(SUBJ OBJ) Begriff bringen

(SUBJ OBJ)

Zusammenhänge zwischen Wortbildung (hier im FR) und Funktionsverbgefüge sind in 56 und 57 illustriert. (56) FR se demoder

(SUBJ)

DE aus der Mode kommen

(SUBJ)

(57) FR se desinteresser (SUBJ de-OBJ) DE das Interesse verheren (SUBJ an-OBJ)

210

FR II s'occupe de problemes de la protection de

renviwnnement

(61) ENffe was present at the meeting FR II a assiste a la reunion. (62) EN He is able to solve the problem FR II sait/peut

resoudre le probleme

(63) EN Tbis book is worth a lot FR Ce livre vaut beaucoup^'' (64) ENSue is likely to be 10 minutes Jäte FR Elle risque d'etre en retard de 10 minutes (65) EN Sue is very fond of music FR Elle aime beaucoup la musique^^ (66) ENWe is ashamed of it DE Er schämt sich dafür (67) EN His attempt was

successful/unsuccessful

FR Sa tentative a abouti/echoue^^ Ähnliche Fälle finden sich auch in der Übersetzung zwischen Deutsch und Englisch, mit gesprochenem Deutsch: (68) DE Das ist mir

recht/geschickt

EN That suits me (69) EN ApriJ 6th is possible for me DE Der 6. April g^

bei mir*"

Neben den hier diskutierten Fällen von Kategoriewechsel zwischen Verb und Adjektiv treten vereinzelt auch Alternationen zwischen Adjektiv und Präpositionalphrase (70) oder zwischen einfachen Präpositionen und idiomatischen Präpositionalphrasen (71) auf. (70) EN J am in a hurry (PP) FR Je suis presse (71) F R u n train en provenance de Paris DE ein Zug von/aus Paris

37 38 39 40 41

Die Beispiele 61 bis 63 stammen aus [Crookston et al. 1990]:30. Vgl. [Lindop/Tsujii 1991]. Vgl. [Vandooren 1993]. Die Beispiele 68 und 69 stammen aus Daten von VERBMOBIL. Vgl. [Vandooren 1993].

211

6.3.4.2

Kategoriale Divergenz bei der Übersetzung von Verben durch Funktionsverbgefüge

Eine weitere sehr große Gruppe von kategorialen Divergenzen entsteht dadurch, daß Verben einer Sprache durch Funktionsverbgefüge einer anderen Sprache übersetzt werden müssen^^. Wenn man das Nomen in einem Funktionsverbgefüge in der selben Weise als Prädikat beschreibt, wie ein Verb, dann ist die Klassifizierung als kategoriale Divergenz nur folgerichtig. Argumente hierfür und einen praktischen Vorschlag zur Realisierung im Rahmen von HPSG hat [Kuhn 1994] gegeben. Die semantische Beschreibung des quellsprachlichen Verbs und des zielsprachlichen Funktionsnomens sind in einem solchen Ansatz weitgehend analog, so daß in der Tat lediglich die kategoriale Realisierung (und z.T. davon abhängig, der syntaktische Einbau in den zielsprachlichen Satz) zwischen Quell- und Zielsprache unterschiedlich sind^^. 6.3.4.3

Andere Divergenzen mit Auswirkungen auf das zu übersetzende Lexem

Neben dem Kategoriewechsel zwischen Quell- und Zielsprache können verschiedene andere Arten von Divergenzen mit Auswirkungen auf das zu übersetzende Lexem auftreten. Beispielsweise kann ein lexikalisierter Numerus- oder Tempusunterschied zwischen Quell- und Zielsprache vorliegen, oder Quell- und Zielsprache unterscheiden sich dadurch, daß ein zu übersetzendes Verb in der einen Sprache im Aktiv, in der anderen im Passiv

42 Ein ähnlicher Feill wurde bereits oben in Abschnitt 6.3.3 diskutiert, wo abgeleitete Verben durch Funktionsverbgefüge übersetzt werden mußten. Man kann solche Fälle einerseits unter die lexikailischen Divergenzen (bzw. "conflational divergence") rechnen, andererseits auch unter die kategorialen Divergenzen. 43 Im Rahmen von EuROTRA, sowie in [Vandooren 1993] wurden Beispiele dieser Art ausführlich diskutiert (vgl. 72 bis 77). (72) FR L'industrie

a pu remedier

D E Die Industrie

ä cette

konnte diese Situation

(73) F R Les autorites

ont envisage

D E Die Behörden

in den Griff

une teile

bekommen

evolution

haben eine solche Entwicklung

(74) FR La gouvernement D E Die Regierung

Situation

a entame un nouveau hat ein neues Programm

in Betracht

gezogen

programme in Angriff genommen

(Die Beispiele 72 bis 74 wurden

in EUROTRA diskutiert, vgl. u.a. [Sadler/Schmidt 1992].) (75) FR Les problemes D E Die Probleme

ont ete rappeles

(77) F R II s'est

trust

certainement

suicide

EN He committed

l'auditoire

wurden dem Auditorium

(76) EN They can certainly FR Iis peuvent

ä

suicide

in Erinnerung

gebracht

her avoir conßance en eile (vgl. [Caroli 1991])

212

stehen muß''^. In der Regel geht man davon aus, daß die nur im Passiv auftretenden Verbformen, die eine spezielle Bedeutung haben, als eigene Lexeme (mit morpho-syntaktischen Besonderheiten) jeweils einzelsprachlich aufgeführt und dann im zweisprachigen Lexikon ohne besondere zusätzliche Angaben übersetzt werden können. Das einzige Problem bei dieser Art von Divergenzen besteht darin, daß die StandardUbersetzungsregeln für Aktiv- bzw. Passivsätze auf Grund der im Lexikon vorgegebenen Merkmale außer Kraft gesetzt werden müssen. Dasselbe gilt für "Unregelmäßigkeiten" bei anderen morphosyntaktischen Eigenschaften von Lexemen, wie etwa Numerus bei der Übersetzung von pluralia tanta. 6.3.5

Head Switching: "demotional/promotional divergence"

Man könnte die Übersetzung von Satzadverbien durch Verben als eine Unterklasse von kategorialen Divergenzen auffassen. Allerdings ist die Beschreibung des Phänomens durch "Head Switching"^® genereller: analoge Phänomene gilt es auch innerhalb von Nominalphrasen, bei der Übersetzung von Adjektiv-Nomen-Gruppen durch komplexe Nominalphrasen. Die Übersetzung von Satzadverbien durch Verbalperiphrasen ist in der Übersetzungswissenschaft, speziell in der deutsch-französischen Übersetzung als Problem erkannt worden. [Zimmer 1990] gibt eine Reihe von deutsch-französischen Beispielen. Diese Art von Beispielfällen ist ausführlich von Sadler/Thompson und von [Zajac 1989] diskutiert worden. Sadler/Thompson hatten gezeigt, daß ein ko-deskriptiver Übersetzungsansatz auf der Grundlage von LFG, wie er in [Kaplan et al. 1989] vorgeschlagen wurde, nicht ohne weiteres die Übersetzung von Head Switching bei Satzadverbien erlaubt. [Zajac 1989] hat in einer typisierten Reformulierung des LFG-basierten Transferansatzes gezeigt, wie die

44 Beispiele hierfür sind in 78 bis 83 angegeben. (78) EN Es besteht aus zwei Teilen DE It is composed of two parts (vgl. [Thurmair 1990]) (79) DE Die Wirkung beruht auf dem Prinzip des ... EN The impact is based on the principle

of...

(80) DE Er heißt Max. EN He is calied Max. (81) FR L'etoffe qui habille ce fauteuil ... DE Der Stoff, mit dem der Stuhl bezogen ist, ... (82) EN You are supposed to talk DE Sie sollen sprechen (83) EN You are allowed to ask questions DE Sie dürfen Fragen stellen 45 Vgl. die Diskussion oben, in Abschnitt 6.1.3.1, Seite 188. Satzadverbien sind semantische Köpfe; sie nehmen einen Satz als Argument. Dieser semantischen Kopffunktion entspricht aber nicht eine syntaktische Kopffunktion, weil Satzadverbien auf der Satzebene als Adjunkte (Modifiers) beschrieben werden.

213

Probleme in einem relationalen Übersetzungsansatz gelöst werden können. Eine Liste mit Beispielen findet sich in Tabelle 6.6. Adverbien Verbale Ausdrücke DE zufällig EN happen to DE gerne EN like to FR autrefois, il y avait un pub ici EN there used to be a pub EN he merely said yes FR il se contenta de dire oui FR II ne manquera pas de repondre DE Er wird sicher antworten DE Er kommt gleich FR II ne tardera pas de venir DE mitunter FR il arrive (ä qn) de INF DE immer wieder FR ne pas cesser de INF DE anfangs, zuerst FR commencer par INF DE wieder, weiter(hin), zusehends FR continuer de INF DE trotzdem FR ne pas empecher (qn) de INF DE gerade FR etre en train de INF DE beinahe, fast FR faillir INF DE gewöhnlich, jedesmal FR avoir l'habitude de INF DE ständig, unentwegt, unaufhörlich FR ne pas se lasser, ne pas desemparer de INF, ne pas cesser de INF, ne pas (s')arreter de INF DE anscheinend, offenbar FR sembler INF DE zufällig (sein) FR se trouver etre . . . DE unerwartet FR venir ä INF DE schließlich FR finir par INF DE allmählich (... werden) FR commencer ä INF (passiv) DE immer noch, ununterbrochen FR continuer de/ä INF DE sogar FR aller jusqu'ä INF Tabelle 6.6: Beispiele für Head-Switching Während die Ubersetzung von Satzadverbien durch Verbalperiphrasen relativ gut erforscht ist, fehlen Arbeiten über Head Switching-Phänomene in Nominalphrasen. Die in 84 bis 86 angegebenen Beispiele haben eher anekdotischen Charakter. (84) EN a hundred collaborators FR une centaine de collaborateurs (85) EN the draft proposal FR Je brouillon de la proposition'^^ (86) EN an attempted

murder

FR une tentative de meurtre'^^

46 Vgl. [Crookston et al. 1990]:72. 47 Vgl. [Lindop/Tsujii 1991],

214

6.3.6

Divergenzen mit Auswirkung auf das zu übersetzende Lexem und auf die syntagmatische Umgebung

Die oben beschriebenen Beispiele von Divergenzen betreffen entweder die syntagmatische Umgebung des zu übersetzenden Lexems oder dieses Lexem selbst. Selbstverständlich gibt es auch Fälle, wo die beiden Typen interagieren. Insbesondere zieht die kategoriale Divergenz zum Teil Unterschiede in der Abbildung zwischen Argumenten und Komplementen, d.h. thematische Divergenzen, nach sich. In 87 bis 89 sind Beispiele für die Kombination von thematischer Divergenz und kategorialer Divergenz zwischen Adjektiv und Verb angegeben. (87) FRJVous disposons d'un

telecopiem

EN A fax is available to us (we have a fax (at our disposal)/^ (88) FR Cette tache incombe ä Jean EN John is responsible for this tasi''® (89) DE Das ist mir lieber EN I prefer that^° Hier werden keine weiteren Beispiele für diesen Typ diskutiert; er findet sich allerdings relativ häufig in Paralleltextmaterial. 6.4

Kontrastive Klassen in Wörterbüchern für maschinelle Ubersetzung

In Abschnitt 6.3 wurden Beispiele für lexikalische Übersetzungsprobleme diskutiert, die nach den in Abschnitt 6.2 beschriebenen Prinzipien klassifiziert wurden. Die empirische Klassifikation kann als Grundlage für eine formale Modellierung herangezogen werden. In den folgenden Abschnitten werden je ein Beispiel für die Kodierung von kontrastiven Klassen für Divergenzprobleme in einem Transfer- und einem InterlinguaSystem gezeigt. Die als Beispiele verwendeten Systeme sind eine Remodellierung des kodeskriptiven Ansatzes zur transfer-basierten maschinellen Übersetzung mit LEG (vgl. [Kaplan et al. 1989]), bzw. ein interlingua-basierter Ansatz zur Übersetzung mit HPSG, bei dem die semantische Repräsentation von HPSG (CONTENT-Wert) als gemeinsame abstrakte Beschreibung der äquivalenten Sätze von Quell- und Zielsprache angesetzt wird. Beide Systeme sind ansatzweise mit dem TFS-Formalismus kodiert worden^^. Die kontrastiven Klassen haben natürlich außerdem eine Relevanz für ein multifunktionales kontrastives Wörterbuch: die monolingualen Beschreibungen, die oben in Kapitel 4 diskutiert wurden, können so kombiniert werden, daß der Vergleich des Subkategorisierungsverhaltens der quell- und zielsprachlichen Lexeme anhand der Klassen aus Abschnitt

48 Vgl. [Crookston et al. 1990]:30. 49 Vgl. [Crookston et al. 1990]:30. 5 0 A u s M a t e r i a l v o n VERBMOBIL.

51 Die Kodierungsarbeit zum transfer-basierten LFG-Fragment wurde von Andreas Haida durchgeführt, die Kodierung des HPSG-Fragments wurde von Jonas Kuhn geleistet. Vgl. [Heid/Kuhn 1994].

215

6.3 formalisiert werden kann; ein einfaches Beispiel dafür wird in Abschnitt 6.5 diskutiert: eine kontrastive Anwendung der auf Frame Semantics beruhenden Beschreibungen von Wahrnehmungsverben®^. Die entstehenden Beschreibungen sind, wie die Resultate der Van Dale-Wörterbuchkonversion, richtungsunabhängig. 6.4.1

Monolinguale und kontrastive Subkategorisierungsklassen in einem transferbasierten MÜ-Wörterbuch auf der Grundlage von LFG

Beispiele für Subkategorisierungsangaben in LFG-Wörterbucheinträgen wurden bereits oben in Abschnitt 4.3.4 angegeben. Die Subkategorisierungseigenschaften von Prädikaten werden in Prädikat-Argument-Strukturen ausgedrückt, in denen die grammatische Funktion der subkategorisierten Komplemente angegeben ist; außerdem werden expletive Elemente, die Kontrollrelation bei infiniten Komplementen, die Selektion von Complementizern bei finiten Komplementen und weitere syntaktische Eigenschaften angegeben. Daneben können in LFG "Templates" für Subkategorisierungsbeschreibungen formuliert werden. Die Templates bilden eine sehr flache Hierarchie und können als Abkürzungen für Prädikatswerte und für die ggf. notwendige Zusatzinformation benutzt werden. In den Subkategorisierungstemplates sind die lexemspezifischen Prädikatsnamen durch Variablen ersetzt. Einfache Beispiele sind in Abbildung 6.6 zusammengestellt. Dort sind unter No. (1) und No. (2) jeweils vollständige Lexikoneinträge für ein transitives und ein intransitives Verb angegeben, unter No. (3) und No. (4) die Templatedefinitionen für transitive und intransitive Verben und unter No. (5) und No. (6) einfache Verbeinträge, die auf die Templates verweisen.

No.

(1) (2) (3) (4) (5) (6)

Template-Definition

transitive (x):intransitive (x):-

Verb-Einträge

Prädikat-Argument-Strukturen

acheter, V venir, V

(t

X, V,

(t (t

V, ©transitive (acheter) ©intransitive (venir)

X,

PRED)

= "acheter < ( t

SUBJ)

(t

OBJ)>"

( t PRED) = "venir < ( t S U B J ) > " PRED) PRED)

= "x" = "x "

Abbildung 6.6: Einfache Beispiele von Subkategorisierungs-Templates von LFG In einer getypten Remodellierung des LFG-Pragments, welches in [Kaplan et al. 1989] beschrieben worden ist, hat [Zajac 1992] Wörterbucheinträge aus LFG im TFS-Formalismus (Typed Feature Structures) repräsentiert. In seiner Modellierung werden die Funktionsnamen aus LFG als Attributnamen verwendet, und als Werte dieser Attribute werden Typen eingesetzt, die aus einer Klassifikation von syntaktischen Kategorien (Phrasen)

52 Die Formalisierung kajin im vorliegenden Rahmen nur anhand einzelner Beispiele (vgl. Abschnitt 6.5) gezeigt werden. Die Vorgehensweise folgt den Verfahren, die in [Heid/Kuhn 1994] implementiert wurden, benutzt aber die Beschreibungen aus Kapitel 4. Relativ zu einer gegebenen Rollenkonstellation werden jeweils einzelsprachhche Teilbeschreibungen mit relationalen Constrciints verbunden. Die sich ergebenden Strukturen enthalten über die unten gezeigte Anwendung hinaus genug Information, als daß Wörterbucheinträge im Format eines Transfer-Ansatzes oder eines Interlingua-Ansatzes abgeleitet werden können.

216 stammen. Somit wird die in den Standard-Lexikoneinträgen von LFG nur implizit angegebene Information explizit gemacht, durch welche syntaktischen Kategorien die einzelnen grammatischen Funktionen realisiert werden können. Die von [Zajac 1989] benutzten Wörterbucheinträge sind damit den Einträgen aus DELIS und den Angaben in HPSGWörterbüchern relativ ähnlich, was ihren Informationsgehalt angeht. Auf der Grundlage solcher Einträge lassen sich die oben in Abschnitt 6.3 empirisch identifizierten Klassifizierungen relativ problemlos modellieren. Ein einsprachiger Lexikoneintrag für das französische Verb deconseiller in der von Zajac verwendeten Notation ist in Abbildung 6.7 angegeben, wobei unter (1) die in LFG übliche Notation angegeben ist, unter (2) Zajacs Reformulierung als Attribut-Wert-Struktur von TFS. (1)

deconseiller, V,

(2)

f-vp

[pRED:

(F P R E D ) =

'deconseiller

'

"deconseiller",

SUBJ:

f-np,

OBJ:

f-np,

0BJ2:

f - p p [PREP: "ä"]].

Abbildung 6.7: Eine LFG Prädikat-Argument-Struktur in der von [Zajac 1992] benutzten Notation Die oben in Abbildung 6.6 dargestellten Templates können analog in der Zajac-Notation formuliert werden. Dazu muß lediglich sichergestellt werden, daß die Werte des Attributs PRED von einem definierten Typ predicate sind und daß das ganze Template seinerseits einen Typnamen hat, damit aus den einzelnen Wörterbucheinträgen auf es verwiesen werden kann. In derselben Weise, in der monolinguale Templates formuliert werden können, können kontrastive Beschreibungen ebenfalls durch Templates abgekürzt werden. Hierzu werden ebenfalls die Prädikat-Werte als Variablen aufgefaßt, und die Abbildungen zwischen Prädikat-Argument-Strukturen von Quell- und Zielsprache werden als Subtypen einer allgemeinen Transfer-Relation t r formuliert. Der Formalismus von TFS erzwingt, daß die Ubersetzungsregeln in einer Spezialisierungshierarchie angeordnet werden. Jede Ubersetzungsregel steht für ein Paar aus quell- und zielsprachlichen Subkategorisierungstemplates und den zugehörigen expliziten Angaben über die Zuordnung zwischen den Bausteinen der quell- und zielsprachlichen Einträge. Die Strukturierung als Spezialisierungshierarchie erlaubt es, zum Beispiel alle Fälle von thematischer Divergenz bei zweistelligen Verben in einer gemeinsamen Klasse zu beschreiben, die Unterklassen aufweist, je nach den grammatischen Funktionen, die miteinander in Beziehung gesetzt werden. Einzelne Äquivalentpaare werden danach klassifiziert, zu welchem Abbildungstyp sie zu rechnen sind. Ein einfaches Beispiel für die Formulierung solcher kontrastiver Templates ist in Statement 90 anhand des oben in Abschnitt 6.3.2 (vgl. Beispiel 24, Seite 201) bereits diskutierten Beispiels des Äquivalentpaars FR manquer ^ EN miss angegeben: (90)

FR: Mon dictionnaire me manque EN: I miss my dictionary t r - 0 2 5 [ F F : f-vp[SUBJ: # f - s u b j .

217

0BJ2: # f - o b j 2 ] , FE: e-vp[SUBJ: # e - s u b j , OBJ : # e - o b j ] ] :-tr[FF: #f-subj, FE: # e - o b j ] , tr[FF: #f-obj2, FE: # e - s u b j ] . t r - v v [ F F : [PRED: manquer], FE: [PRED: m i s s ] ] . tr-025 < t r . tr-vv < t r . Die Definition der Klasse t r - 0 2 5 besteht, wie die meisten TFS-Definitionen aus einem strukturdefinierenden Statement und einem Statement, das die Position von t r - 0 2 5 in der Hierarchie der Transferstatements angibt. Vereinfachend wird hier angenommen, daß t r - 0 2 5 eine unmittelbare Subklasse der allgemeinsten Transferabbildung sei, d.h. von t r im LFG-Template-System (Statement: "tr-025 < tr.")®^ Die Strukturdefinition legt die Subkategorisierungsklassen von Quell- und Zielsprache fest, indem die jeweils relevanten grammatischen Funktionen (im Französischen Subjekt und (indirektes) Objekt-2, im Englischen Subjekt und Objekt) angegeben werden^^. Außerdem enthält die Definition eine Bedingung. Diese besteht aus der rekursiven Anwendung der allgemeinen Transferregel t r auf die Verbargumente in beiden Spachen; hier wird die Abbildung des französischen Subjekts auf das englische Objekt, bzw. von FR OBJ2 auf EN S U B J , festgeschrieben. Die Subkategorisierungs-Abbildung ist lexemunabhängig. Daneben gibt es ein lexikalisches Statement (tr-vv), welches die Äquivalenz zwischen den Verbprädikaten beider Sprachen postuliert, und welches wiederum ein Subtyp der allgemeinen Transferrelation t r ist (Statement: " t r - v v < t r . " ) . Wie bereits oben in Abschnitt 3.1.3.2 angedeutet, kann wegen der Verfügbarkeit von relationalen Constraints in TFS die Formulierung von kontrastiven Klasssen durch Relationen erfolgen, d.h. sie ist richtungsunabhängig. Die Modularisierung der kontrastiven Beschreibungen, die beispielhaft in Statement 90 gezeigt wird, unterstützt ein solches Vorgehen^®. In [Heid 1994a] und in [Heid 1994] wurden weitere Beispiele für die Modellierung kontrastiver Klassen in einem LFG-basierten Transferansatz diskutiert^®. Folgende Vor-

53 In einem vollständig ausgearbeiteten System würde t r - 0 2 5 natürlich unter der Klassendefinition für thematische Divergenzen angeordnet. 54 Alternativ könnte auf Template-Namen verwiesen werden, die dort als Abkürzungen der Subkategorisierungsklassen dienen. 55 Dies entspricht dem Vorschlag, der oben, in Abschnitt 6.1.3.1 gemacht wurde, z.B. Dorrs demotional und promotional divergence in eine Klasse zusammenzufassen. 56 Der Transfer auf f-Strukturen, wie er in [Kaplan et al. 1989] (jetzt auch in [Dalrymple (Ed.) 1995], in [Kaplan/Wedekind 1993] etc.) beschrieben ist, wird im Rahmen einer Zusammenarbeit zwischen Rank

218

und Nachteile der Modellierung haben sich anhand bisheriger Experimente herausgestellt: • Die Formulierung der kontrastiven Klassen ist relativ nahe an der lexikographischen Intuition, bzw. erlaubt deren Umsetzung ohne besonderen Aufwand. • Das Ziel der Redundanzminimierung wird beim Aufbau einer Spezialisierungshierarchie erfüllt. • Die kontrastiven Klassen können durch Kombination bestehender monolingualer Subkategorisierungsklassen entwickelt werden. Gegenüber der monolingualen Beschreibung macht die kontrastive Klassifikation keine neuen Beschreibungsmittel nötig. Die Datenstrukturen der Transferhierarchien lassen sich ohne Schwierigkeiten in eine TFS-Modellierung im Stil von Zajac einbinden. Eine analoge Modelherung im Template-Mechanismus von LFG ist weitgehend möglich. • Die Klassen können lokal beschrieben werden, d.h. bei der Übersetzung muß nicht in eines der Argumente des quellsprachlichen Verbs "hineingeschaut" werden, damit entschieden werden kann, wie die umgebende Struktur behandelt wird; damit entfällt die Notwendigkeit, fallweise "vorherzusehen", welche Übersetzungsprobleme auftreten könnten. Vielmehr können Teilbeschreibungen kombiniert werden: sie wirken dann gemeinsam als komplexes Constraint. • Probleme ergeben sich allerdings bei der Auswahl aus alternativen UbersetzungsRelationen. Hier sind geeignete Kontrollstrukturen nötig, die es erlauben, aus mehreren Äquivalentkandidaten auszuwählen, bzw. Konfliktfälle zu lösen®^. • Formale Probleme bereitet die Tatsache, daß Zajac die Namen der subkategorisierten grammatischen Funktionen als Attributnamen benutzt. Dieses Problem wurde in den DELIS-Wörterbüchern durch die Kodierung der Subkategorisierung als Listen und die Modellierung von grammatischen Funktionen als Typen (vgl. Kapitel 4) umgangen und kann hier in analoger Weise gelöst werden. 6.4.2

Behandlung von Divergenz in einem HPSG-basierten Interlingua-Ansatz

In [Heid/Kuhn 1994] wurde die Behandlung der wichtigsten Divergenztypen in einem HPSG-basierten Interlingua-Ansatz ausführlich beschrieben, und die Probleme und Lösungsansätze wurden anhand von Beispielen diskutiert. Das in [Heid/Kuhn 1994] beschriebene Fragment deckt die oben in Abschnitt 6.1.3.1 dargestellten vier (bzw. bei Dorr sechs) Klassen von Divergenzen, sowie die einfachen Fälle von upward bzw. downward mismatches ab. An dieser Stelle genügt es, die relevanten Ergebnisse zusammenzufassen. Ein kurzer Abriß des in [Heid/Kuhn 1994] beschriebenen experimentellen Übersetzungssystems wurde in der Einleitung, in Abschnitt 1.2.2 gegeben.

Xerox Research Centre, Grenoble, Xerox PARC und der Universität Stuttgart (1995/96) bei der Übersetzung von Fachtexten Deutsch ^ Englisch in größerem Umfang erprobt. Die Transferannotationen werden den hier beschriebenen Vorschlägen weitgehend folgen (monolinguale Subkategorisierungstemplates, Templates für die Zuordnung von Subkategorisierungsklassen, Zuordnungen von Prädikaten). 57 Im Rahmen von V E R B M O B I L wurden in jüngster Zeit Vorschläge hierzu von Dorna/Emele erarbeitet, allerdings auf der Grundlage stärker semantikbasierter Repräsentationen.

219

Fälle von syntaktischer und von thematischer Divergenz können in einem HPSG-basierten Ansatz mit denselben Mitteln behandelt werden. Eine Ubereinstimmung der CONT(ent)Werte, die die Grundlage des interlingua-artigen Ansatzes ist, ist trivialerweise erreichbar, weil sich Quell- und Zielsprache ausschließlich in der Valenz-Beschreibung bzw. in der Abbildung unterscheiden, welche die subkategorisierten Ergänzungen zu den Rollen der Content-Beschreibung in Beziehung setzt. Als Beispiel wird hier nochmals die Äquivalenz zwischen FR manquer und EN miss herangezogen (vgl. Abschnitt 6.3.2, Beispiel 24, Seite 201). In 91 und 92 ist für EN miss und FR manquer jeweils ein Wörterbucheintrag aus einem HPSG-Lexikon (in vollständig expandierter Form) angegeben. Die "semantischen" Teilstrukturen, die als Wert des CONTAttributs in den Einträgen auftreten, sind in beiden Wörterbucheinträgen identisch. Unterschiede gibt es lediglich in der Abbildung zwischen den semantischen Teilstrukturen und den syntaktischen Teilstrukturen, die unter dem Pfad CAT|VAL eingebettet sind. Da in HPSG die Abbildung zwischen Argumenten (hier bezeichnet durch Attributnamen "EXP E R ( I E N C E R ) , THEME") und subkategorisierten Verbkomplementen (hier jeweils in einer Liste der Subjekte ( S U B J ) und der Komplemente (COMPS)) explizit durch KoindizierungsMarkierungen ("Tags") formuliert wird, genügt für die Behandlung der thematischen Divergenz die unterschiedliche Zuweisung der Tags. P H O N (misses)

HEAD

VFORM fin verb

CAT VAL

(91)

SYNSEM|LOC

SUBJ

(NP[noml[Y])

COMPS(NP[acc][2]) RELN

miss

E X P E R III

CONT

THEMEN Word PHON (manque)

HEAD

VFORM fin verb •

CAT VAL

(92)

SYNSEM|LOC

SUBJ

RELN CONT

(NP[nom][j])

COMPS(NP[dat][2]) miss

E X P E R E) THEMEM

Word

Die Behandlung von Inkorporation von Argumenten, d.h. von "conflational" bzw. "lexical" divergences (Dorr) muß dem Phänomen Rechnung tragen, daß die eine Sprache einen komplexen Ausdruck mit subkategorisierten Komplementen oder Adjunkten verwendet, wo die andere Sprache einen einzigen Ausdruck benützt, ohne Ergänzungen. Da

220

die gemeinsame Bedeutungsrepräsentation für Quell- und Zielsprache immer so detailliert sein muß, daß sie eine Beschreibung der komplexest möglichen Ausdrücke erlaubt, muß der komplexe Ausdruck als Grundlage für die Modellierung in der Content-Beschreibung herangezogen werden. Die beiden Sprachen unterscheiden sich dann lediglich darin, ob eines der in der Content-Beschreibung vorhandenen Argumente eine Abbildung auf ein subkategorisiertes Komplement des jeweihgen Verbs hat oder nicht®®. In Beispiel 93 ist der HPSG-Lexikoneintrag für EN [to] staff angegeben. Als französisches Übersetzungsäquivalent für [to] staff ist FR pourvoii en personne] vorgesehen. Das französische Verb pourvoir hat ein Präpositionalobjekt (en personnel), welches im französischen Lexikoneintrag auf die Rolle THEME abgebildet wird. Der englische Lexikoneintrag muß ebenfalls eine THEME-Rolle enthalten, jedoch wird keine Abbildung von der semantischen Relation THEME auf ein syntaktisches Komplement angegeben. Außerdem wird, gewissermaßen als Vor-Belegung der Content-Beschreibung, für die THEME-Rolle festgelegt, daß diese Rolle nur durch ein Objekt vom Typ personnel gefüllt sein kann. PHON (staffs) HEAD CAT VAL

(93)

VFORM fin verb SUBJ

(NP[nom][j])

COMPS(NP[acc][g)

SYNSEM LOG RELN

provide

AGENT 0 CONT

GOAL

El

THEMEBl I {personneJfla staff-soa Word

Fälle von Head Switching lassen sich in einem HPSG-basierten Ansatz relativ einfach beschreiben, da HPSG zwischen syntaktischen und semantischen Köpfen unterscheidet. In Adjunktstrukturen wie in 94a ist die "Adjunct Daughter" der semantische Kopf. Der Lexikoneintrag für ein Satzadverb, wie beispielsweise EN still (vgl. 95) zeigt dies: in der syntaktischen Beschreibung (unter dem Pfad CAT|HEAD) wird definiert, daß das Adverb als Modifikator eine Verbalphrase nimmt. In der Bedeutungsbeschreibung (unter dem CONTAttribut) wird eine Relation "still" eingeführt, deren Argument ein Sachverhalt (SOAARG) ist. Wenn man EN stiii durch FR continuer ä Inf übersetzen möchte, wie etwa in den Beispielen 94a 94b, so muß ein Wörterbucheintrag für FR continuer formuliert werden, wie er in 96 angegeben ist. (94) a. EN Marc still smoJces b. FR Marc continue ä fumer

58 Die Verhältnisse sind etwas schwieriger bei Fällen, wo die "differentia specifica" durch ein Adjunkt ausgedrückt wird (vgl. die Beispiele 46 bis 49 aus Abschnitt 6.3.3, Seite 206, oben). Neben der Subjektliste und der COMPS-Liste wird in HPSG auch eine Adjunktliste benutzt. Die Einbindung dieser Liste in lexikalische Beschreibungen für Fälle wie 46 bis 49 steht allerdings noch aus.

221

PHON (stiJl)

HEAD

adv

MODVPS

CAT

(95)

SUBJ SYNSEM

( )

VAL

LOC

COMPS(

RELN

)

still

CONT SOA-ARGIU

PHON (continue) V F O R M FIN

HEAD verb CAT

(96)

SUBJ VAL

SYNSEM ILOC

RELN

CONT

(ENPpsg])

C O M P S ^ V P inf, SUBj([I])

: [D

still

SOA-ARGID

Die Behandlung von Head Switching mit den hier aus [Heid/Kuhn 1994] übernommenen Beschreibungsmitteln erlaubt auch die Behandlung von eingebetteten Strukturen mit Head Switching. Die Beispiele und die Diskussion in [Heid/Kuhn 1994] zeigen, daß sich für die Behandlung von Divergenzen in HPSG generelle Lösungen aus der Kombination der monolingualen Einträge ergeben. Bedingung dafür ist allerdings die Benutzung einer gemeinsamen semantischen Repräsentation und die Formulierung semantischer Beschreibungen, die so detailliert sind, wie sie zur Behandlung derjenigen Sprache sein müssen, die die komplexere Konstruktion aufweist. Unter diesen Bedingungen können die in Abschnitt 6.3 beschriebenen und empirisch klassifizierten Phänomene in diesem Ansatz modelliert werden. Wiederum sind keine zusätzlichen Beschreibungsmittel oder spezifischen Datenstrukturen nötig, damit quell- und zielsprachliche Beschreibung kombiniert werden können. Die Modellierung in TFS ist wieder relational, d.h. die Beschreibungen sind wiederum sprachrichtungs-neutral. Die Notwendigkeit paralleler Beschreibungen, d.h. solcher die auf denselben Grundannahmen, demselben Inventar von Beschreibungsmitteln und letzlich auf analogen Modellierungen für die beteiligten Sprachen aufbauen, wird im Falle der semantischen Beschreibungen jedoch besonders deutlich. Das HPSG-Übersetzungssystem kommt ohne exphzite zweisprachige Wörterbucheinträge aus; dagegen muß mehr Modellierungsaufwand in die einsprachigen Einträge und in die "semantische" Repräsentation investiert werden. Die kontrastiven Klassen stellen hier eine abstrakte Modellierungsrichtlinie dar, anhand deren Wörterbucheinträge erstellt und die Syntax-Semantikabbildungen jeweils repräsentiert werden.

222

6.5

Kontrastive Anwendungen von constraint-basierten Frame Semantics-Wörterbüchern

Im folgenden Abschnitt werden kontrastive Anwendungen der constraint-basierten monolingualen Wörterbuchfragmente beschrieben, die im Detail im Kapitel 4 eingeführt worden sind. Im DELIS-Projekt wurden monolinguale Wörterbuchfragmente für den Bereich der Wahrnehmungsverben und der Sprechaktverben entwickelt. Das Fragment der Wahrnehmungsverben liegt in den fünf Sprachen Englisch, Französisch, Italienisch, Niederländisch und Dänisch vor, das Fragment der Sprechaktverben lediglich in Englisch, Niederländisch und Italienisch. Die Fragmente sind in dem in Abschnitt 1.1.2 geforderten Sinne parallel, d.h. sie decken ungefähr übersetzungsäquivalente Äußerungen ab und sie beruhen auf einem gemeinsamen Inventar von Beschreibungsmitteln und auf einer einheitlichen Architektur: den in den früheren Kapiteln dieses Buchs ausführlich dargestellten Prinzipien. Die hier vorgestellte Anwendung kann also als Validierung der in den Kapiteln 3, 4 und 5 dargestellten Prinzipien angesehen werden. Für die Präsentation der Ergebnisse des bilingualen bzw. multilingualen Vergleichs von monolingualen Beschreibungen, der der kontrastiven Anwendung zugrundeliegt, wird das Präsentationsformat verwendet, welches für die lexikographische Anwendung der TFSBeschreibungen der DELIS-Wörterbücher oben in den Abschnitten 5.2.2 und 5.2.3 eingeführt wurde. Beispiele hierfür finden sich in den Abbildungen 5.11, 5.12 und 5.14, Seite 176. Grundlage des kontrastiven Vergleichs monolingualer Beschreibungen in DELIS ist die Annahme, daß die durch Frame Semantics definierten Rollenkonstellationen über die behandelten Sprachen hinweg generalisiert werden können. Wie oben in Abschnitt 4.2.3 angedeutet, wird von einer bestimmten Rollenkonstellation ausgegangen, und es werden lexikalische Realisierungen des durch diese Rollenkonstellation beschriebenen Frame-Typs aus verschiedenen Sprachen gesucht. In Abschnitt 4.2.3 wurden einige der in [Schwenger 1995] aus deskriptiver Sicht behandelten Beispiele angegeben (vgl. Tabellen 4.7 und 4.8). Im Folgenden werden einige Details der kontrastiven Anwendung der DELIS-TFSWörterbuchfragmente beschrieben. Auf eine Darstellung des Fragments folgt die Beschreibung der Modellierung von Äquivalenzbedingungen in TFS, sowie der Abdeckung der Dorr'schen Divergenztypen. Abschließend wird anhand von einigen Beispielen der Nutzen des automatischen kontrastiven Abgleichs der DELIS-Fragmente für die Lexikographie diskutiert.

6.5.1

Kontrastives Fragment

Die Beispiele für die kontrastive Anwendung von DELIS, die im Folgenden diskutiert werden, stammen aus dem Bereich der Wahrnehmungsverben. Die in Kapitel 4 detailliert dargestellte Klassifikation von Wahrnehmungsverben wird für sämtliche Sprachen übernommen. Die unten in Tabelle 6.7 zusammengestellten Verblesarten sind in dieser Form klassifiziert und formal modelliert worden. Die Tabelle enthält allgemeine Perzeptionsverben, sowie jeweils Verben aus den Klassen perception, a t t e n t i o n und judging. Die feinere Subklassifizierung, die in Kapitel 4 anhand des Französischen diskutiert worden ist, wurde sprachspezifisch für die anderen Sprachen ebenfalls realisiert, ist jedoch in der Tabelle der Übersichtlichkeit halber nicht dargestellt.

223 Sprache

EN

NL

FR

IT

DK

percevoir

percepire

bemoerke

apercevoir

sentire

s'apercevoir

accorgersi

entendre

udire

Klasse 4. general perception

notice

allgemeine Verben auditory-perc

hear

hören

h0re

sentire auditory-att

listen

luisteren

auditory-jud

sound

klinken

ecouter

ascoltare

lytte

sembrare

lyde

(suonare = negat. eval) visual-perc visual-att

see look

zien

voir

vedere

se

kijken

observer

guardare

se pa

watch visual-jud

look

olfactory-perc

smell

regarder ruiken

respirer

kigge sembrare

se ... ud

sentire

lugte

sentir olfactory-att

smell

ruiken

respirer

annusare

lugte til

olfactory-jud

smell

ruiken

sentir

avere...

lugte

( A D J ) odore gustative-perc

taste

sentire

smage

(il sapore di...) gustative-att

taste

proeven

gouter

gustcire,

smage pa

assaporare, assaggiare gustative-jud

tEiste

smaken

_

sapere di

smage

tactile-perc

feel

foelen

sentir

sentire

f0le, moerke

tactile-att

feel

toucher

toccare

f0le pä

-

f0les

täter tactile-jud

feel

-

Tabelle 6.7: Das Fragment der Wahrnehmungsverben aus DELIS, in fünf Sprachen 6.5.2

D i e T F S - K o d i e r u n g des kontrastiven Vergleichs v o n Frame

Semantics-Beschreibungen Informell wurden die Grundprinzipien des kontrastiven Vergleichs von Frame Semantics-Wörterbucheinträgen bereits oben in Abschnitt 4.2.3 angedeutet. Wenn man die Rollenkonstellation aus Frame Semantics als gemeinsame partielle lexikalisch-semantische Beschreibung von äquivalenten Verblesarten verschiedener Sprachen akzeptiert, so lassen sich die folgenden Bedingungen für die Identifikation von Äquivalenten in parallelen Frame Semantics-Fragmenten definieren: 1. Zwei Lesarten sind Äquivalentkandidaten, wenn sie identische Rollenkonstellationen haben; sie gehören dann zum selben fVame-Typ. 2. Liegt eine Klassifikation nach Ereignistypen vor, so sind zwei Verblesarten von verschiedenen Sprachen Äquivalentkandidaten, wenn sie identischen Ereignistypen zugehören. 3. Sind Sortenrestriktionen über Rollen annotiert, so sind zwei Verblesarten verschiedener Sprachen Äquivalentkandidaten, wenn die Sortenrestriktionen für die relevanten

224

Rollen in einer Subsumtionsbeziehung stehen oder identisch sind. Die Bedingungen sind ausschließlich auf der partiellen semantischen Beschreibung formuliert. Hieraus folgt die Unabhängigkeit der kontrastiven Vergleichs-Verfahren von syntaktischen Beschreibungen der Äquivalentkandidaten und die Tatsache, daß syntaktische Divergenzen in diesem Ansatz trivialerweise behandelt werden können. Die TFS-Kodierung des kontrastiven Vergleichs beruht auf der Anwendung der Adhoc-Abfrage (vgl. Kapitel 5). In einer prototypischen TFS-Modellierung wurde statt der hierarchischen Eintragsstruktur der DELIS-Wörterbücher, wie sie in Abbildung 4.1, auf Seite 100 dargestellt ist, die für den Export für lexikographische Anwendungen definierte flache Rekodierung der TFS-Einträge benutzt, für welche Beispiele in Statement 5.9 auf Seite 163 angegeben sind. Ein Beispiel für ein "Bilingual Sign", welches aus den Daten für Niederländisch und Italienisch extrahiert wird, ist in Abbildung 6.8 im oben erwähnten flachen Format angegeben. Es handelt sich dabei um äquivalente Lesarten von IT vedere und NL zien, wie sie durch die Sätze 97 und 98 illustriert werden. (97)

Hij ziet aan Willy dat er iets aan de band is.

(98)

Si vede da questo che non e facile vendere questo

prodotto.

bilingual-sign-nl-it [Ll:lgr-iil7 [1:exper-n, 2:np, 3:"zien", 4:p-actual-ent, 5:obj-pp[PREP:aan], 6:p-Interpretation, 7:dat-cl[COMPLT:dat] , 8:"Hij ziet aan..., d a t . . . " , 9:vis], L2:lgr-it7 [l:exper-n, 2:np, 3:"vedere", 4:p-actual-ent, 5:obj-pp[PREP:da] , 6:p-interpretation, 7:che-cl[COMPLT:that-compl], 8:"Si vede da questo che non e facile vendere questo prodotto.", 9:vis]]. Abbildung 6.8: "Bilingual Sign" NL-IT: äquivalente Lesarten von NL zien und IT vedere (vgl. Sätze 97 und 98) in TFS In Abbildung 6.8 ist eine Instanz des niederländischen-italienischen Vergleichs dargestellt. Sie wird durch Ad-hoc-Abfrage erzeugt, völlig analog zu den Ergebnissen der monolingualen Ad-hoc-Abfrage, die in Abschnitt 5.1.1, auf Seite 146 dargestellt sind. Gegenüber der oben informell angegebenen Definition der Aquivalenzbedingungen gibt es eine kleinere Änderung: statt eines Vergleichs auf der Grundlage von Sortenrestriktionen wird hier, zur

225

Vereinfachung, ein Vergleich auf der Ebene der Phrasenstrukturtypen (für das erste Argument) durchgeführt. Die Definition des niederländisch-italienischen Vergleichsprädikats b i l i n g u a l - s i g n - n l - i t ist in Statement 6.1 angegeben. Dort wird die Identität der Rollen über Koreferenzmarkierungen gefordert (z.B. #f i r s t - f e , oder # s e c d - f e ) , ebenso die Identität der modality-Angabe, stellvertretend für eine Ereignisklassifikation (#modality = mod). Für das erste Argument wird Identität der Phrasentypen gefordert (#f i r s t - p t ) . Analoge Restriktionen, ggf. durch Subsumtionstests über eine multilinguale Klassifikation der Phrasenstrukturtypen, können für die anderen Argumente ebenfalls eingeführt werden, damit beispielsweise Nominalgruppen und Präpositionalgruppen, d.h. Realisierungen von Entitäten, aufeinander abgebildet werden, bzw. satzförmige oder Infinitivkonstruktionen als Realisierungen von Sachverhalten oder Ereignissen. Andererseits möchte man verhindern, daß Lesarten als äquivalent erachtet werden, bei denen die Quellsprache beispielsweise eine Entität als Argument fordert, während die Zielsprache einen Sachverhalt verlangt®®. (6.1) bilingual-sign-nl-it [LI: [1: 2: 4: 6: 9: [L2: [1: 2: 4: 6: 9:

6.5.3

#first-fe = role, #first-pt, #secd-fe = role, #thrd-fe = role, #modality = mod], #first-fe, #first-pt, #secd-fe, #thrd-fe, #modality]].

Die Behandlung von kontrastiven Problemen im DELIS-Fragment

Die Aquivalentzuordnungen auf der Grundlage von Rollenkonstellationen sind weitestgehend von der syntaktischen Realisierung der Rollen unabhängig (vgl. die obige Diskussion). Beispielsweise kann der italienische Pseudo-Relativsatz (vgl. Satz 99 nicht strukturisomorph ins Englische übersetzt werden, weil die Pseudo-Relativ-Konstruktion nur in den romanischen Sprachen auftritt®". Den Sätzen 99 und 100 hegt dieselbe Rollenkonstellation (vgl. 101) zugrunde. Aus diesem Grunde kann die Abbildung problemlos erfolgen, und die einzelsprachlichen "Linking-Rules" sorgen dafür, daß der Pseudo-Relativsatz und seine Ubersetzung durch einen Infinitiv korrekt einander zugeordnet werden. (99) IT: La guardavano che si allontanava (100) EN: They watched her walk away

59 Die Lösung, einen Subsumtionstest über eine Phra-senstruktur-Klaasifikation durchzuführen, hängt mit der für die hier beschriebenen Experimente verwendeten Version der einsprachigen Kodierungen zusammen. Das Verfahren ist weniger elegant, aber es ist mit einem Vergleich auf der Grundlage von Sortenrestriktionen äquivalent; eine Reformulierung der Abbildungen in TFS, in der Weise, daß die Sortenrestriktionen als Äquivalenzkriterien benutzt werden können, ist in Vorbereitung. 60 Im Französischen bevorzugt mit pronominalem "Pseudo-Antezedens": vgl. FR je Ja vois qui arrive, besser als FR ' J e vois Ja fiJJe qui arrive in gleicher Bedeutung. Für den zweiten Beispielsatz ist die Interpretation als normaler Relativsatz nahezu zwingend; während für die Pronominal Version die Pseudo-Relativsatz-Interpretation nötig ist.

226 (101) [EXP-I] guardare pseudo-rel: [PERC-ACTUAL-event] [EXP-I] watch v-inf: [PERC-ACTUAL-event] Von den Divergenztypen, die oben in Abschnitt 6.2, Seite 194, definiert worden sind, werden diejenigen Fälle trivialerweise abgedeckt, die die syntagmatische Umgebung des zu übersetzenden Lexems betreffen (vgl. die oben illustrierte Unabhängigkeit von der syntaktischen Realisierung). Die Behandlung von thematischen Divergenzen stellt ebenfalls kein Problem dar®^. Zur Behandlung von Divergenzen, die das Lexem selbst bzw. das Lexem und seine syntagmatische Umgebung betreffen (z.B. kategoriale Divergenz, Head Switching-Phänomene etc.) müßte die Frame Semantics-Beschreibung auf komplexe Strukturen erweitert werden. Für Nomen-Verb-Kollokationen gibt es hierfür bereits Vorschläge, jedoch noch keine ausgearbeitete TFS-Modellierung im Frame Semantics-Rahmen, die Kollokationen und VerbBeschreibungen zusammenbringen würde®^. Aus diesem Grunde werden die französischen Mehrwort-Äquivalente von englischen Lesarten der judging-Klasse, wie sie in Tabelle 4.9, Seite I I I angegeben sind, von den bisher implementierten Verfahren nicht erfaßt. Sie werden allerdings automatisch als Problemfälle identifiziert und dem Lexikographen zur weiteren Bearbeitung bereitgestellt. Die Abfrage eines zweisprachigen Wörterbuchs muß es erlauben, zielsprachliche und quellsprachliche Constraints zu berücksichtigen. Wegen der vollständigen Modularisierung der Wörterbücher (die Äquivalenz einzelner Lesarten ist nirgends explizit festgeschrieben, sondern wird jeweils durch Evaluierung von Ad-hoc-Anfragen berechnet) gibt es keinerlei Einschränkungen bei der Formulierung von Constraints für die zwei- oder mehrsprachige Abfrage. Für ein maschinelles Übersetzungssystem ist diese Möglichkeit besonders wichtig, da Probleme der Einbindung von Äquivalentkandidaten in zielsprachliche Kontexte auf diese Weise elegant und modular behandelt werden können®^. In Abbildung 6.9 ist eines der Resultate einer Anfrage wiedergegeben, bei der englische Äquivalente für diejenige Lesart von IT guardare gesucht werden, welche ein durch Infinitiv realisiertes percept-actual hat; eine Lösung ist eine isomorph konstruierte Lesart von EN [to] watch. Der kontrastive Vergleich ist nicht auf zwei Sprachen beschränkt. Man kann analog zu bilingualen Anfragen auch mehrsprachige Anfragen stellen. Da die durch die Kombination der einzelsprachlichen Wörterbücher entstandene mehrsprachige Datensammlung im strengen Sinne nicht-direktional ist, gibt es keine Beschränkungen hinsichtlich der Kombination einzelsprachlicher Beschreibungen®''. In Abbildung 6.10 ist eine Beispielanfrage dargestellt, in der Niederländisch, Englisch und Italienisch miteinander verglichen werden. In diesem Fall wurde nach transitiven Verben der attention-Klasse gefragt; für den

61 Allerdings muß sichergestellt sein, daß die Listenkodierung der Rollenkonstellationen, die in der TFSModellierung der Frame Semantics-Beschreibungen verwendet wird, als Menge reinterpretiert werden kann, d.h. unabhängig von der Reihenfolge der Listenelemente. Die Definition der Abbildungen, wie sie etwa im Statement 6.1 angegeben ist ("flache" Rekodierung und feste Reihenfolge der Argumente) erlaubt dies natürlich nicht. Eine entsprechende Kodierung in TFS ist jedoch möglich. 62 Vgl. aber [Kuhn 1994], im Rahmen von HPSG. 63 Die in Abschnitt 3.1.4.1 diskutierten und in Abbildung 3.12, Seite 87 skizzierten Probleme können somit auf elegante Weise gelöst werden. 64 Die Tatsache, daß in den TFS-Beschreibungen die einzelsprachlichen Teilstrukturen nacheinander eingeordnet sind, hängt mit der hierdurch vereinfachten Kodierung zusammen. Man könnte sich genausogut eine Kodierung durch Mengen vorstellen, die die Tatsache stärker unterstreichen würde, daß die Zuordnungen nicht-direktional und ungeordnet sind.

227

?bil-en-it[L2: ; KB

[3:"guardare",

5:

infinite]].

bilicheck(l):

bil-en-it [LI:lgr-en5 [1:exper-i, 2:np, 3:"watch", 4:p-actual-prp, 5: v p , 6:"They

watched her

walk

away

from

them.

7: vis] , L2:lgr-it5 [i:exper-i, 2:np, 3:"guardare", 4:p-actual-prp,

5:vp, 6:"guarda

le

alghe

ondeggiare;",

7:vis]].

Abbildung 6.9: Kontrastive Anwendung von DELIS: EN Äquivalent zu IT guardare + INF Bereich der gustativen und der visuellen Wahrnehmungsmodalität ergeben sich die in 6.10 angegebenen Zuordnungen von Verben. 6.5.4

Lexikographische Anwendung

In Analogie zu der Exportschnittstelle für Lexikographen, die in Abschnitt 5.2.2 und 5.2.3 beschrieben wurde, wurde eine Lexikographen-Schnittstelle für die kontrastiven Beschreibungen entwickelt. Sie verwendet das in Abbildung 5.11, Seite 162 dargestellte Format, d.h. tabellarische Übersichten über die Lesarten, die aus der TFS-Wissensbasis extrahiert worden sind. Die kontrastive Anwendung ist in die prototypisch implementierte Lexikographen-Schnittstelle integriert worden. Im Folgenden wird ein Anwendungsbeispiel diskutiert, welches italienisch/niederländische kontrastive Untersuchungen zum Gegenstand hat. Bei der praktischen Arbeit muß der Lexikograph zunächst die zu vergleichenden Sprachen bestimmen, sowie die Metasprache, die in den tabellarischen Übersichten über die Lesarten verwendet werden soll. Die Lexikographen-Schnittstelle produziert für jedes Sprachpaar vier tabellarische Zusammenstellungen; jeweils eine für die automatisch identifizierten Aquivalentkandidaten pro Sprachrichtung (der Unterschied liegt lediglich in der alphabetischen Sortierung nach dem Lemma der einen bzw. der anderen Sprache), sowie Zusammenstellungen derjenigen Verben der einen Sprache, für die in der anderen keine Äquivalente auf automatischem Wege zugewiesen werden konnten, und umgekehrt. (6.2)

[ESPERIENTE intenzionale] guardare se [SCOPO della percezione] [example: "non restera' che guardare se il prezzo del passaggio sara' giusto."] =>

228 ? tri-nl-en-it ; KB b i l i c h e c k d ) : [LI:lgr-nl5 [l:exper-i, 2:np, 3:"proeven", 4:p-actual-ent, 5:np, 6:"Wijn zorgvuldig in de mond proeven.", 7:gus], L2:lgr-en5 [l:exper-i, 2;np, 3:"taste", 4:p-actual-ent, 5:up, 6:"Lucille tasted the soup.", 7:gus], L3:lgr-it5 [l:exper-i, 2:np, 3:"gustare", 4:p-actual-ent, 5:np, 6:ßi gusta cioccolato.", 7:gus]]. ; KB bilicheck(2): tri-nl-en-it [Ll:lgr-nl5 [l:exper-i, 2:np, 3:"kijken", 4:p-actual-ent, 5:obj-pp[PREP:naar], 6:"Hij k i j k t naar het water.", 7: vis] , L2:lgr-en5 [1:exper-i, 2:np, 3:"watch", 4:p-actual-ent, 5:np, 6 : " I watch him t i l i he disappears....", 7: v i s ] , L3:lgr-it5 [l:exper-i, 2:np, 3:"guardare", 4:p-actual-ent, 5:np, 6:"M. guarda i l muro da tutte le parti. 7:vis]]. Abbildung 6.10: Mehrsprachige Abfrage der DELIS-Datensammlung

229 [actieve WAARNEJER] kijken indir. vraag: [intentioneel WAARNEMINGSOBJEKT] [exeunplo: "Hlj kijkt of er post is."]

(6.3)

[ESPERIENTE intenzionale] vedere se tSCOPO della percezione] [example: "per vedere se laggiu' ci fosse ancora qualche segno."] => [actieve WAARNEMER] kijken indir. vraag: [example: "Hij kijkt of er post is."]

(6.4)

[intentioneel

WAARNEMINGSOBJEKT]

[actieve WAARNEMER] Ittisteren indir. vraag: [intentioneel WAARNEMINGSOBJEKT] [example: "Hij luistert wie er zo'n lavaai maakt."] => [ESPERIENTE intenzionale] sentire se [SCOPO della percezione] [example: "va tu dal babbo e senti se h a bisogno di qualcosa."]

(6.5)

[actieve WAARNEMER] luisteren naar [WAARNEMIIIGSOBJEKT:entiteit] [example: "Hij luistert naar de muziek."] => [ESPERIENTE intenzionale] ascoltare [sorgente/stimolo [example: "l'uomo ascolta dei suoni."]

PERCEPITI]

Anhand des Vergleichs von Itahenisch und Niederländisch wird dies im Folgenden exemplarisch dargestellt. Dabei sind die Einträge 6.2 und 6.3 willkürlich herausgegriffene Beispiele für italienisch niederländische Zuordnungen (in diesem Fall IT guardare und IT vedere als quellsprachliche Verben). Umgekehrt sind 6.4 und 6.5 Beispiele für niederländisch —^ italienische Abbildungen (zwei Lesarten von NL luisteren). In Abbildung 6.11 und 6.12 sind sämtliche italienischen Lesarten der TFS-Wissensbasis dargestellt, die keine niederländischen Äquivalente haben, und umgekehrt in Abbildung 6.12 alle niederländischen Lesarten, für die in der TFS-Modellierung keine italienischen Äquivalente gefunden werden. [ESPERIENTE [ESPERIENTE [ESPERIENTE [ESPERIENTE [ESPERIENTE [ESPERIENTE

intenzionale] intenzionale] intenzionale] intenzionale] non-intenzionale] intenzionale]

ascoltare ascoltare guardare guardare sentire toccare

infin.: pseudo-rel: infin.: pseudo-rel: infin.:

Abbildung 6.11: Kontrastive Suche IT

[evento PERCEPITO] [evento PERCEPITO] [evento PERCEPITO] [evento PERCEPITO] [evento PERCEPITO] [sorgente/stimolo PERCEPITI]

NL: IT Verben ohne direktes NL Äquivalent

Die Ubersicht zeigt, daß für die attention-Lesarten von IT ascoltare, guardare, die Infinitive oder Pseudo-Relativsatz-Konstruktionen nehmen, keine niederländischen Äquivalente zur Verfügung stehen. Das Niederländische hat offenbar nur Infinitivkonstruktionen bei perception-Lesarten, nicht bei a t t e n t i o n : NL luisteren erlaubt, wie EN [to] look, keine Ereignisse als percept. Die Tabelle der niederländischen Lesarten ohne italienische Äquivalente ist umfangreicher aber auch interessanter. Sie enthält mit Ausnahme von Belegen für NL hören und ruiken nahezu ausschließlich judging-Lesarten. Im Italienischen gibt es mit Ausnahme von suonare keine Wahrnehmungsverben mit judging-Lesarten, die zu den in den germanischen Sprachen und im Englischen vorhandenen Prädikativkonstruktionen isomorph wären. Es gibt nur allgemeine (nicht der Wahrnehmung zuzuordnende) VerbKonstruktionen, die die für judging-Lesarten typischen Rollenkonstellationen aufweisen würden. In der Regel müssen die germanischen judging-Lesarten durch Kollokationen vom Typ "avere un odore < a d j > " übersetzt werden.

230

Die Zusammenstellung der niederländischen Lesarten ohne italienische Äquivalente zeigt diesen Sachverhalt sehr deutlich. Dies betrifft sowohl zweistellige, als auch dreistellige Lesarten (beispielsweise mit NL zien). Wären Kollokationen vom Typ IT avere un odore ... (ADJ) bereits in der TFS-Datenbasis erfaßt und nach Frame Semantics kodiert, so würden für die hier als nicht-abbildbar beschriebenen Fälle Übersetzungsvorschläge durch Kollokationen bereitgestellt. [actieve WAARNEMER] [passieve WAARNEMER] [actieve WAARNEMER] [WAARNEMINOSOBJEKT;entiteit] [WAARNEMINGSOBJEKT:ent ite it] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:ent it e it] [passieve WAARNEMER] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:ent ite it] [WAARNEMINGSOBJEKT:ent ite it] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit] [WAARNEMINGSOBJEKT:entiteit]

hören hören indir. vraag: kijken voor klinken alsof + bijzin klinken bv. nwg. klinken gesteldheid/adv: als proeven bv. nwg. proeven gesteldheid/adv: als proeven naar ruiken ruiken bv. nwg. ruiken indir. vraag: ruiken naar smaken also! -f bijzin smaken bv. nwg. smaken gesteldheid/adv: als smaken naar stinken bv. nwg. stinken naar

[WAARNEMINGSOBJEKT:menselijk] [WAARNEMINGSOBJEKTipropositie] [intentioneel WAARNEMINGSOBJEKT] [inferentieel OORDEEL] [inferentieel OORDEEL] [evaluatief OORDEEL] [objectief OORDEEL] [objectiof OORDEEL] [objectief OORDEEL] [evaluatief OORDEEL] [WAARNEHINGSOBJEXT:propositie] [objectief OORDEEL] [inferentieel OORDEEL] [evaluatief OORDEEL] [objectief OORDEEL] [objectief OORDEEL] [evaluatief OORDEEL] [objectief OORDEEL]

[actieve WAARNEMER] zien [WAARNEMINGSOBJEKT:entiteit] gesteldheid/adv: als [evaluatief OORDEEL] AARNEMER] zien [WAARNEHINGSOBJEKT:menselijk] gesteldheid/adv: als [evaluatief OORDEEL] [actieve WAARNEMER] zien dat [WAARNEMINGSOBJEKT:propositie] gesteldheid/adv: als [evaluatief OORDEEL] [passieve WAARNEMER] zien hoe (= a.c.i.) [WAARNEHINGSOBJEKT:propositie] [passieve WAARNEMER] zien indir. vraag: [WAARNEMINGSOBJEKT:propositie]

Abbildung 6.12: Kontrastive Suche NL

IT: NL Verben ohne direktes IT Äquivalent

Der Lexikograph hat nicht nur die Möglichkeit, sich die hier exemplarisch gezeigten tabellarischen Ubersichten generieren zu lassen, sondern er kann außerdem die für ihn geeignete Metasprache wählen. Damit die Frame Semantics-typischen Rollenbezeichnungen für Lexikographen etwas sprechender werden, wurden optionale "Alias-Namen" in den einzelnen Sprachen eingeführt, welche in DELIS benutzt werden. In den Abbildungen oben entspricht die Metasprache immer der Objektsprache. Bei der Erstellung der vier verschiedenen tabellarischen Übersichten kann der Lexikograph jedoch die Metasprache wählen. Beispielsweise kann die italienisch niederländische Abbildung auch mit englischer oder französischer Metasprache oder einheitlich mit Niederländisch (der Zielsprache der Abbildung) als Metasprache geliefert werden. Diese Möglichkeit erleichtert es den Lexikographen, die etwas ungewohnte Terminologie zu beherrschen. Außerdem kann der Lexikograph seine eigenen "Alias-Namen" definieren und verwenden. Die hier beschriebene Anwendung hat eine Reihe von Vorteilen gegenüber der traditionellen Arbeitsmethode bei der Erstellung zweisprachiger Wörterbücher. In der Regel wird bisher ein "FVamework" in der Quellsprache erarbeitet, welches dann an den Zielsprach-Herausgeber des Wörterbuchs weitergeleitet und von ihm mit Äquivalenten

231

und mit zielsprach-spezifischen Ergänzungen versehen wird. Mehrere Iterationen sind in der Regel notwendig, bis das Framework so modifiziert ist, daß es die Anforderungen von Quell- und Zielsprache in geeigneter Weise erfüllt. Die Herangehensweise von DELIS erlaubt es, ähnlich wie bei der Kombination der Van Dale-Wörterbücher, eine nicht-direktionale Datensammlung anzulegen, die im Falle von DELIS die Zuordnungen von Verben von Quell- und Zielsprache enthält, die aufgrund der Frame Semantics-Beschreibung als äquivalent identifiziert werden. Durch die Bereitstellung zusätzlicher Listen von nicht-abbildbaren Verblesarten der beiden Sprachen wird den Wörterbuchherausgebern gleichzeitig deutlich gemacht, an welcher Stelle weitere manuelle Arbeit notwendig ist. In vielen Fällen stellt sich heraus, daß die nicht-abbildbaren Lesarten durch Paraphrasen, durch kategoriale oder lexikalische Divergenzen übersetzt werden müssen, oder daß es sich um Mismatches handelt. Die hier beschriebenen Verfahren nehmen den Wörterbucherstellern die Routinearbeit der Zuordnung von Verblesarten ab. Außerdem wird sichergestellt, daß nicht nur eine unstrukturierte Liste von verbalen Äquivalenten gegeben wird, sondern daß gleichzeitig auf die jeweils relevante Lesart, im Sinne der Rollenkonstellation, verwiesen wird. Es wird also nicht nur eine Äquivalentliste erzeugt, sondern eine strukturierte und semantisch klassifizierte Liste von Äquivalentvorschlägen.

Kapitel 7 Zusammenfassungen 7.1

Deutsche Zusammenfassung

In diesem Buch werden Vorschläge zur Strukturierung von einsprachigen und zweisprachigen Wörterbüchern gemacht. Dabei werden wiederverwendbare multifunktionale Ressourcen angestrebt, d.h. solche, aus denen (z.B. mit Hilfe von Exportroutinen) Informationen für Wörterbucheinträge im Format verschiedener Anwendungen abgeleitet werden können. Die Struktnrierungsvorschläge werden in zwei Schritten entwickelt: zunächst für monolinguale, dann für kontrastive Wörterbücher für maschinelle Ubersetzung. Die Zielsetzung dabei ist, die separat (d.h. nicht notwendigerweise als Komponenten eines maschinellen Übersetzungssystems) entworfenen monolingualen Wörterbücher zu kombinieren, um sie dann als Informationsquelle für kontrastive Beschreibungen für die maschinelle Übersetzung zu benutzen. Die angestrebte Multifunktionalität hat also mehrere Aspekte: Nutzbarkeit der monolingualen Wörterbücher für "menschliche Benutzer" (z.B. durch Export in ein geeignetes Präsentationsformat) und für NLP-Systeme, Kombinierbarkeit der monolingualen Beschreibungen zu kontrastiven Wörterbüchern und schließlich Nutzung einund derselben kontrastiven Beschreibung für transfer-basierte und für interlingua-basierte maschinelle Übersetzung. Eine Grundbedingung für die Kombinierbarkeit der einzelsprachlichen Beschreibungen ist die Entwicklung paralleler Ressourcen: die Beschreibungen der Einzelsprachen müssen auf demselben Ansatz und auf einem gemeinsamen Inventar linguistischer Beschreibungsmittel für alle behandelten Sprachen beruhen; natürlich muß hierbei den einzelsprachlichen Spezifika Rechnung getragen werden. Die Beispielfragmente stammen aus dem Bereich der Verben der sinnlichen Wahrnehmung (Französisch, Englisch, Niederländisch), und - zur Überprüfung der Generalisierbarkeit des Ansatzes - aus einem weiteren lexikalisch-semantischen Feld, dem der sprachlichen Kommunikation (Italienisch). Die Verben werden syntaktisch und semantisch beschrieben. Die syntaktische Beschreibung folgt den Grundlinien von LexikalischFunktionaler Grammatik (LFG) und Head-Driven Phrase Structure Grammar (HPSG); aus den hier erarbeiteten Wörterbuchfragmenten könnten Einträge für diese beiden linguistischen Theorien mittels Exportroutinen abgeleitet werden, da genug Information für beide Theorien explizit repräsentiert wird. Zur semantischen Beschreibung wird der von Fillmore entwickelte Ansatz von Frame Semantics benutzt; Frame Semantics dient als Beispielfall für einen Ansatz der lexikalisch-semantischen Beschreibung, dessen Klassifizierungen durch die Formulierung von expliziten Abbildungen zwischen Semantik und Syntax mindestens indirekt reinterpretierbar und damit wiederverwendbar gemacht werden. Gleichzeitig sind die hier formulierten Wörterbuchfragmente wohl die ersten, in denen eine formale Repräsentation von fVame-Semantics-Beschreibungen versucht wird. Zur Kodierung der Wörterbücher wird der Typed Feature Structure-Formalismus (TFS) benutzt. Anhand der Darstellung seiner wichtigsten Eigenschaften werden die Möglichkeiten diskutiert, die auf Constraint-Logik beruhende Formalismen für die lexi-

234

kaiische Modellierung, für die Strukturierung von Wörterbüchern und für deren Abfrage und Nutzung in NLP-Systemen bieten. Wie oben angesprochen, erfolgt die Definition von Strukturierungsprinzipien für multifunktionale Wörterbücher in zwei Schritten: zunächst für monolinguale, dann für kontrastive Wörterbücher. Für die monolingualen Wörterbücher werden die Architekturprinzipien zunächst als funktionale Spezifikation formuliert, dann bei der Modellierung von Wörterbuchausschnitten in TFS angewendet. Zu den Grundprinzipien der vorgeschlagenen Wörterbucharchitektur gehören die Modularisierung der Wörterbücher nach linguistischen Beschreibungsebenen, die Festlegung separater hierarchischer Spezifikationen für jede Ebene (die formal überprüfbar sind) und die Verwendung eines relationalen Ansatzes zur Verbindung der Module. Die Kombination monolingualer Beschreibungen für kontrastive Zwecke erfolgt dadurch, daß die syntaktischen Klassifizierungen miteinander verbunden werden, während die semantische Beschreibung als gemeinsame abstrakte Repräsentation der einzelsprach-spezifischen Phänomene benutzt wird. Das entspricht auch dem Grundgedanken von Frame SemantJcs: ein Frame ist die Beschreibung einer Situation oder Szene und der an dieser Situation beteiligten Objekte, Individuen und Sachverhalte (Frame Elements); die einzelnen Sprachen haben verschiedene Verfahren, um auf die durch ein Frame beschriebenen Situationen sprachlich zu referieren; der Ansatz steht damit einem interlingua-basierten Übersetzungsmodell nahe, ohne allerdings die vollständige Modellierung des Inhalts von Äußerungen in einer abstrakten Repräsentation anzustreben. Die einzelsprach-spezifischen Realisierungsverfahren werden separat beschrieben und die monolingualen Wörterbuchfragmente miteinander verbunden. Wenn die monolingualen syntaktischen Klassifizierungen kombiniert werden, können die Kombinationsresultate wiederum klassifiziert werden. Dies ergibt die hier nur kurz phänomenologisch beschriebenen kontrastiven Klassen. Da die kontrastiven Klassen vordergründig nur als ein technisches Hilfsmittel zur Strukturierung zweisprachiger Wörterbücher interpretiert werden könnten, muß untersucht werden, inwiefern diese kontrastiven Klassifizierungen Generalisierungen ausdrücken, bzw. überhaupt eine Relevanz für die homogene Beschreibung kontrastiver Probleme im Lexikon haben. Die vorgeschlagenen konstrastiven Klassen decken die in der relevanten Literatur behandelten Phänomene ab (allerdings nur für einen Teilbereich des Lexikons: die Beschreibung der Ubersetzung von Verben und ihrer syntagmatischen Umgebung); außerdem ist die vorgeschlagene kontrastive Klassifizierung genereller als frühere Klassifizierungsversuche aus der Forschung zur maschinellen Übersetzung, und sie kommt mit weniger Parametern aus. Ihre Grundlagen werden ohnehin für die monolinguale Klassifikation benötigt: (1) die Modularisierung der Lexikoneinträge nach den linguistischen Beschreibungsebenen und (2) die Frage, welche linguistischen Objekte von Quell- und Zielsprache sich bei der Übersetzung unterscheiden: das Lemma selbst, seine subkategorisierten Ergänzungen, oder anderes Material in der syntagmatischen Umgebung des Lemmas. Für beide Wörterbuchtypen, monolinguale und kontrastive Lexika, werden gemeinsame Architekturprinzipien definiert; ihre Realisierbarkeit in TFS wird überprüft und diskutiert, und Beispiele für monolinguale Wörterbuchfragmente werden modelliert und diskutiert. Nachfolgend werden diese Prinzipien kurz zusammengefaßt: 1. Wörterbücher müssen als Spezifikationen angelegt werden, die die wohlgeformten lexikalischen Objekte einer Domäne beschreiben und nur diese (vgl. die Definition

235

von Spezifikationen in den Formalen Sprachen). Ein constraint-basierter Formalismus erlaubt sowohl die Definition formaler lexikalischer Spezifikationen (welche Attribute sind für lexikalische Objekte eines bestimmten Typs definiert? Welche Werte kann ein Attribut haben?), als auch die automatische Uberprüfung einzelner lexikalischer Beschreibungen auf Übereinstimmung mit der Spezifikation. Dadurch wird die Konsistenz der lexikalischen Beschreibungen verbessert, und es eröffnen sich Möglichkeiten für die Entwicklung von automatischen Werkzeugen für die Konsistenzkontrolle, bei interaktiver und automatischer lexikalischer Akquisition und bei Änderungen der Spezifikation und der daraus resultierenden Umklassifizierung von lexikalischem Material. 2. Lexikalische Spezifikationen sollten modular angelegt sein. Es wird eine Modularisierung auf mehreren Ebenen verwendet: • die einzelnen monolingualen Wörterbücher sind gleichberechtigte Module des kontrastiven Wörterbuchs; • jede monolinguale Beschreibung ist aus Modulen aufgebaut, die Spezifikationen für die einzelnen linguistischen Beschreibungsebenen sind. Die ebenenspezifischen Module werden durch relationale Constraints miteinander verbunden; • jede ebenenspezifische Beschreibung besteht aus Modulen: - dem Inventar der Beschreibungsmittel (Vokabular), - der Definition der Kombinationsmöglichkeiten der einzelnen Beschreibungsbausteine (lexikalische Klassen), - der Definition einzelner lexikalischer Instanzen (Wörterbucheinträge) auf der Grundlage der Klassen. 3. Aus der Modularität ergeben sich eine Reihe von Eigenschaften der lexikalischen Spezifikationen: • Die angestrebte Multifunktionalität wird dadurch unterstützt, daß Exportroutinen an den Definitionen der Beschreibungsmittel, nicht an den lexikalischen Klassen oder gar den Instanzen festgemacht werden. Wörterbuch und Exportverfahren werden damit robuster gegenüber Änderungen: der Export in verschiedene anwendungsspezifische Formate ist von Änderungen der lexikalischen Spezifikation nicht betroffen, solange nicht neue Beschreibungsmittel eingeführt werden (z.B. neue semantische Rollen oder grammatische Funktionen). Es werden Beispiele für verschiedene Exportanwendungen diskutiert. • Die einzelnen Module sind durch relationale Constraints untereinander verbunden. Damit wird sichergestellt, daß der Zugriff auf lexikalische Information ad hoc mit beliebigen unterspezifizierten Teilstrukturen erfolgen kann. Für die lexikographische Anwendung bedeutet die Möglichkeit der Ad-hoc-Abfrage (die alle constraint-basierten Formalismen kennzeichnet), daß keine Beschreibungsebene Priorität über die anderen hat: semasiologische, onomasiologische oder in anderer Weise strukturierte Wörterbücher können so aus einer einzigen Quelle abgeleitet werden; in analoger Weise sind in einem zweisprachen Wörterbuch für die maschinelle Ubersetzung Constraints von allen Ebenen verfügbar, die die Äquivalentwahl steuern können.

236 • Da die Spezifikationen für die einzelnen Ebenen untereinander explizit verbunden sind, "dokumentieren sie einander": es ist notorisch schwierig, unter Linguisten Einigkeit über die Kriterien zu erzielen, nach denen lexikalische Einheiten semantisch beschrieben werden sollen (die Tatsache, daß kaum je zwei Wörterbücher dieselben Lesarten eines gegebenen Lexems unterscheiden, belegt dies); dies betrifft genauso Frame Semantics; durch die Verbindungen zwischen der semantischen Beschreibung und den syntaktischen Beschreibungen wird sichergestellt, daß die Frame Semantics-Klassifikationen anhand der syntaktischen Beschreibungen transparent werden. Damit wird es leichter, die Wörterbücher zu reinterpretieren und wiederzuverwenden. Die Benutzung von TFS als Spezifikationssprache im Lexikon ist noch neu, und die TFSSprache wurde ursprünglich nicht für diesen Zweck geschaffen. Eine Reihe methodologischer Punkte, die den Aufbau von TFS-Wörterbüchern betreffen, werden deswegen diskutiert. Dabei stellt sich heraus, daß zum Teil die Klassifizierung von Beschreibungsmitteln (z.B. Rollen) auf die Klassifizierung der lexikalischen Objekte (d.h. beispielsweise die Verbklassen) abgebildet wird; diese leichte Redundanz ist der Preis, den man für die starke Modularisierung bezahlen muß. Außerdem kann man sich fragen, ob es sinnvoll ist, eine einzige, tiefe, ggf. sehr komplizierte Hierarchie zu spezifizieren. Idealerweise würde man sich wünschen, daß das Lexikonmodell durch Kreuzklassifikation verschiedener Teilhierarchien entstehen würde; der Lexikograph definiert eine Hierarchie, die die zu beschreibende Domäne (z.B. Wahrnehmungsverben) nach einem einheitlichen, von ihm als zentral aufgefaßten Kriterium (z.B. Rollenkonstellationen ä la Frame Semantics) strukturiert. Außerdem legt er Teilhierarchien für weitere beschreibungsrelevante Kriterien (z.B. zusätzliche Attribute) an, die mit der "Haupt-Hierarchie" kreuzklassifiziert werden. Die Realisierung eines solchen Modells wird von der hier benutzten Version des TFS-Systems noch nicht vollständig unterstützt; eine ähnliche Lösung wurde simuliert. Die Vorschläge für die Wörterbucharchitektur werden aus einer Anforderungsdefinition entwickelt. Sie geht auf eine Diskussion des Konzepts der multifunktionalen Wörterbücher und auf eine Auswertung von Erfahrungen aus der Lexikographie zurück; die Probleme, die bei der Analyse von gedruckten Wörterbüchern im Hinblick auf deren Wiederverwendung im NLP-Kontext auftreten, sollen vermieden werden. Die Benutzung formaler Spezifikationen schafft hier weitgehend Abhilfe. Außerdem wird von den Erfahrungen der praktischen Lexikographie beim Entwurf zweisprachiger Wörterbücher profitiert. Ein Vergleich des direktionalen Ansatzes (z.B. Kromann) mit dem nicht-direktionalen Ansatz (z.B. Verlag Van Dale) zeigt die Notwendigkeit einer detaillierten Beschreibung zielsprachlicher Constraints (Relevanz für die Äquivalentwahl), sowie einer gleichrangigen Behandlung von Quell- und Zielsprache. Die Untersuchung der Van Dale-Verfahren zur Wiederverwendung der zweisprachigen Wörterbücher dieses Verlags unterstreicht die Bedeutung der Modularisierung der Beschreibungen: die Wiederverwendung funktioniert, wo die Van Dale-Wörterbücher modular aufgebaut sind. Sie funktioniert weniger gut, wo die Modularität nicht durchgehalten wird.

237 7.2

Resume Frangais

Ce livre contient des propositions pour la structuration de dictionnaires monolingues et bilingues. L'un des objectifs est de creer des dictionnaires multifonctionnels reutilisables, c'est-ä-dire des ressources lexicales dont on peut faire deriver (par exemple ä l'aide de routines d'exportation) des informations dans le format d'applications difFerentes. Ces propositions de structuration de dictionnaires ont ete developpees dans deux etapes: d'abord la structuration de dictionnaires monolingues, puis de dictionnaires contrastifs, pour la traduction automatique. Le but, dans cette deuxieme etape, est de montrer comment des dictionnaires monolingues, developpes separement (c'est-ä-dire non pas a priori en tant que composantes d'un systeme de traduction automatique) peuvent etre Combines pour ainsi servir de sources d'information pour un systeme de traduction automatique. Ainsi, la multifonctionalite visee a plusieurs aspects: d'une part l'utilisation des dictionnaires monolingues aussi bien pour des "humains" que pour des applications du traitement automatique des langues, ensuite la possibilite de combiner les differentes descriptions monolingues pour en faire des dictionnaires contrastifs, et, enfin, l'utilisation d'une meme description contrastive aussi bien pour la traduction automatique basee sur l'approche transfert que sur l'approche interlangue. L'un des prerequis de la combinaison de dictionnaires monolingues en vue d'une description bilingue est que ces ressources monolingues soient paralleles: les fragments monolingues doivent reposer sur la meme approche descriptive et sur un inventaire de dispositifs descriptifs commun, pour les langues traitees; il est evident que cet inventaire doit pouvoir etre etendu, lä oü c'est necessaire, pour tenir compte de particularites des langues en question. Les fragments discutes ä titre d'exemple, dans ce livre, couvrent les verbes de perception du frangais, de l'anglais et du neerlandais. Pour evaluer les possibilites d'une application plus ample de l'approche proposee ici pour la structuration de dictionnaires, un autre domaine lexical a ete traite, et une autre langue a ete rajoutee: un fragment des verbes de communication de l'italien est decrit egalement, selon les memes principes generaux, et dans le cadre de la meme approche. La description lexicale modelisee dans tous ces fragments porte sur la syntaxe et la semantique lexicale des verbes. La description syntaxique suit les principes de la Grammaire Lexicale Fonctionnelle (LFG) et de Head-Driven-Phrase-Structure Grammar (HPSG). Les fragments de dictionnaires developpes ici pourraient donc aussi servir de base pour la construction de dictionnaires dans ces deux theories, puisque l'information lexicale disponible est suffisamment riche et explicite pour toutes les deux. La description semantique repose sur l'approche de Frame Semantics de Charles Fillmore. Frame Semantics est utilise ici en tant qu'exemple d'une approche semantique lexicale dont les classifications peuvent etre rendues explicites et reinterpretables (et donc reutilisables), parce qu'elle decrit de fagon assez explicite l'interaction entre semantique et syntaxe. En meme temps, il nous semble que les fragments lexicaux presentes ici soient l'une des premieres tentatives d'utiliser Frame Semantics dans un dictionnaire formellement represente. L'encodage des dictionnaires utilise le formalisme Typed Feature Structures (TFS). Ce livre en decrit les proprietes fondamentales, du point de vue de son utilisation (non-

238 Standard, il est vrai) en tant que formalisme de representation d'information lexicale. Ceci permet d'evaluer les possibilites d'une application des formalismes ä contraintes, dont T F S est un exemple, ä la modelisation lexicale, la structuration de ressources lexicales et leur interrogation et utilisation dans des systemes de traitement automatique des langues. Comme nous l'avons indique plus haut, la definition des principes de structuration lexicale se fait dans deux etapes: d'abord pour les dictionnaires monolingues, puis pour les dictionnaires bilingues contrastifs. Ce Processus suit aussi le cycle Standard de developpment de logiciels, connu de l'ingenerie logicielle: une definition de requetes suivie d'une specification fonctionnelle, et enfin d'une implantation, (la modelisation des fragments dictionnairique mentionnes). Parmi les principes de base de l'architecture dictionnairique proposee, il faut nommer la modularisation des dictionnaires, selon les niveaux de description linguistique pertinents, la definition de specifications hierarchiques pour chaque niveau (specification formellement et automatiquement contrölable) et l'utilisation d'une approche relationnelle pour la definition de l'interaction entre les modules. La combinaison des descriptions monolingues en vue de la Constitution d'un dictionnaire bilingue s'effectue ä travers la combinaison de classifications syntaxiques, les descriptions semantiques etant utilisees en tant que representations abstraites generalisees pour les langues considerte. Cette utilisation d'une meme description semantique pour les differentes langues est conforme ä l'hypothese de Frame Semantics qu'un frame est une description d'une Situation ou d'une scene et des objets, individus et phenomenes (frame elements) qui participent ä cette Situation. Selon Frame Semantics, les differentes langues ont differents moyens pour faire reference ä une Situation decrite par un frame. L'approche suivie n'est donc pas sans rappeler le modele de traduetion interlangue, bien qu'elle ne vise pas ä modeliser le contenu complet des enonces dans une representation abstraite. Si l'on compare et combine des classifications syntaxiques monolingues, les resultats de cette combinaison peuvent etre classifies eux-memes. Le r&ultat en est un systeme de classes contrastives. On peut alors considerer ces classes contrastives comme un outil technique pour la structuration de dictionnaires bilingues, et, pour pouvoir leur donner un Statut methodologique et descriptif plus clair, il faut d'une part les comparer avec les classifications contrastives traditionnelles, telles qu'elles apparaissent en traductologie, en lexicographie bilingue et en grammaire contrastive, et d'autre par mettre en evidence leur utilite pour la description homogene de problemes contrastifs lexicaux. II s'avere que les classes contrastives proposees ici couvrent assez bien les phenomenes decrits dans la litterature pertinente (du moins pour la traduetion des verbes et leur environnement syntagmatique, domaine exclusivement traite ici); en outre, la Classification proposee ici est plus generale que les tentatives precedentes elaborees dans la recherche en traduetion automatique, puisqu'elle a besoin de moins de parametres de Classification, et ces parametres sont dejä utilises dans la Classification monolingue: il s'agit en effet de la modularisation des entrees lexicales par niveaux descriptifs, et de la question de savoir quels objets linguistiques se distinguent entre la langue source et la langue cible (le lemme lui-meme, ces complements sous-categorises, ou bien d'autres elements syntagmatiquement relies aux lemmes). Pour les deux types de dictionnaires, monolingues et bilingues, des principes architecturaux communs ont ete definis. Nous avons discute les possibilites de realiser ces principes

239 dans une modelisation ä contraintes, en TFS, et nous les avons appliques ä des fragments dictionnairiques. Voici un bref resumee de ces principes: • La modelisation lexicale doit reposer sur des specifications qui definissent les objets lexicaux d'un domaine (cf. la definition de specifications dans les langages formels). Un formalisme ä contraintes permet aussi bien la definition de specifications lexicales formalisees (Queis attributs sont definis pour un certain type d'objets lexicaux? Quelles valeurs sont admis pour un attribut donne?) que la verification automatique de descriptions particulieres par rapport ä la specification. L'utilisation d'un formalisme ä contraines supporte donc la consistance des descriptions lexicales, et il permet le developpement d'outils automatiques pour le controle de consistence d'un dictionnaire qui aille bien au-delä des outils existant ä l'heure. • Les specifications lexicales doivent etre modulaires. Une modularisation ä plusieurs niveaux est propose: - Les dictionnaires monolingues sont des modules ä part egale d'un dictionnaire bilingue ou plurilingue. - Chaque description monolingue est elle-meme composee de modules, dont chacun est une specification d'un niveau de description linguistique. Ces modules sont relies par des contraintes relationnelles. - Chaque specification d'un niveau de description linguistique donnee est ellememe composee de plusieurs modules: * l'inventaire des dipositifs descriptifs (le vocabulaire de la specification); * la definition des combinaisons bien-formees des dispositifs descriptifs disponibles (la definition des classes lexicales); * la definition d'instances lexicales (c'est-ä-dire d'entrees lexicales individuelles, pour les sens des lemmes traites), sur la base de la Classification lexicale operee. • La modularisation stricte que nous proposons a certaines consequences pour les proprietes des specifications lexicales: il Supporte la multifonctionalite visee, puisque l'exportation, definie en termes de routines d'exportation, repose sur la definition des dipositifs descriptifs, et non pas sur la description des classes lexicales ou des instances lexicales. Ceci est d'autant plus important que le dictionnaire est un objet en evolution: l'exportation doit etre independante de modifications du dictionnaire; lorsque de nouvelles entrees lexicales sont rajoutees au dictionnaires, on ne veut pas etre contraint ä modifier les routines d'exportation. Les exemples discutes dans ce livre montrent que les routines d'exportation sont independantes de modifications aussi bien de la Classification lexicale que de l'inventaire d'instances lexicales. Seules des modifications de l'inventaire des dispositifs descriptifs ont une incidence sur les routines d'exportation. • Les modules sont relies par des contraintes relationnelles. Ceci supporte l'interrogation ad hoc du dictionnaire ainsi specific. L'interrogation ad hoc implique entre autres qu'aucun des niveaux de description linguistique ne soit prioritaire par rapport aux autres. A la difference des dictionnaires traditionnels et de la plupart des bases

240 de donnees, un dictionnaire ä contraintes permet l'interrogation avec n'importe quelle combinaison de descriptions partielles en attribut/valeur. II n'est donc pas necessaire, lors de l'interrogation, de passer par le nom du lemme en question, ni de specifier des chemins d'acces particuliers ä Tinformation lexicale. II s'en suit qu'une seule source lexicale peut alimenter aussi bien un dictionnaire semasiologique qu'onomasiologique ou bien un dictionnaire structure selon la description syntaxique ou Selon une combinaison des differents niveaus descriptifs. La, le formalisme et les principes architecturaux enonces plus haut contibuent ä la definition d'architecture lexicale neutre par rapport aux applications potentielles et les classes de dictionnaires connues de la typologie metalexicographique se voient analyser plutöt en termes d'applications que de principes. • Etant donne que les specifications des differents niveaux de description linguistique sont reliees explicitement entre elles, ces interrelations peuvent etre exploitees ä des fins de documentation. Les linguistes ont traditionnellement des difficultes, ä accepter des criteres communs pour la Classification semantique d'unites lexicales; temoin le fait que rarement deux dictionnaires traditionnels operent les memes distinctions de sens pour un meme lemme. Frame Semantics n'y fait pas exception. Mais le fait que les descriptions semantique et syntaxique soient explicitement reliees permet au moins une documentation des classifications operees par Frame Semantics sur la base des classifications syntaxiques correspondantes. A partir de lä, au moins une verification sur corpus des exemples donnes pour une certaine classe lexicale de Frame Semantics devient possible. L'utilisation de T F S en tant que langage de representation lexicale est nouvelle, et T F S n'a pas initialement ete congu pour cette finalite. II s'en suit qu'un certain nombre de questions methodologiques se pose au sujet de la construction de dictionnaires ä contraintes, en T F S . II s'avere, par exemple, que la modularisation conduit ä une certaine redondance: certaines classifications operees sur l'inventaire des dispositifs descriptifs se repercutent sur la Classification des objets lexicaux. Ensuite, on peut se poser la question suivante: estil utile d'avoir une seule hierarchie lexicale assez complexe, ou ne serait-il pas preferable de modeliser le fragment en question sur la base d'une Classification croisee de differentes hierarchies separees. Le lexicographe definirait dans ce cas chaque hierarchie selon un critere separe, et les differentes hierarchies partielles ainsi constituees sont reunies. Tel modele n'est pas entierement Supporte par la Version actuelle du systeme T F S utilise ici, mais cette Solution a ete simulee. Les propositions pour l'architecture dictionnairique elaborees ici reposent sur une definition de requetes qui s'inspire d'une discusssion detaillee de la notion de ressource multifonctionnelle ainsi que d'experience lexicographique: les travaux d'exploitation et de reutilisation de versions electroniques de dictionnaires traditionnels qui ont ete effectues en "lexicographie computationnelle", au cours des dix dernieres annees, ont permis de dedecter des problemes qui sont ä eviter dans la conception de nouveaux dictionnaires. L'utilisation de specifications formelles permet de contourner le plus grand nombre de ces problemes. En outre, nous avons pu profiter d'experience de la lexicographie bilingue pratique: une comparaison de l'approche directionnelle (proposee par exemple par Kromann) avec l'approche non-directionnelle realisee par la maison d'edition hollandaise Van Dale montre la necessite d'une description tres detaillee des contraintes non seulement de la langue source, mais, ä part egale, de la langue cible. L'analyse detaillee de la methode

241 Van Dale de la reutilisation de dictionnaires bilingues met en evidence l'importance de la modularisation des descriptions: la reutilisation operee dans les experiences Van Dale fonctionne sans aucun probleme lä oü les dictionnaires sont modulaires, mais eile pose Probleme lä oü la modularite n'est pas complete.

242

7.3

English Summary

This book contains proposals for the Organization of monolingual and bilingual dictionaries. The objective, in the dictionary Organization exercise, is to provide reusable multifunctional resources, i.e. lexical data collections from where it is possible to derive Information for dictionary entries in the format of different applications. We arrive at these proposals in two steps: first concentrating on monolingual dictionaries then on contrastive ones intended for machine translation. We adopt this two-step approach, because we want to be able to combine the monolingual dictionaries (which are not a priori conceived as components of machine translation system) to built a contrastive lexical knowledge source for machine translation. The multifunctionality aimed at thus has several aspects: the useability of the monolingual dictionaries for both "human users" and NLP-systems, the possibility to combine monolingual descriptions to construct contrastive dictionaries, and finally the use of one and the same contrastive description for both transfer-based and interlingua-based machine translation systems. A basic precondition for the combination of monolingual descriptions is that these descriptions are parallel-, all monolingual lexical fragments must be based on the same approach and on a commen inventory of descriptive devices; in addition to these, of course, language specific phenomena must be dealt with. The example fragments encoded and described in this book deal vi^ith the field of perception words (for French, English and Dutch), and, to test the generalizability of the approach, with an additional lexical field, namely verbs of oral communication (data from Italian). The verbs are described at the level of syntax and of (lexical) semantics. The syntactic description follows the framework of Lexical Functional Grammar (LEG) and Head Driven Phrase Structure Grammar (HPSG); dictionary entries in the form of these two theories could be automatically derived from the entries contained in the fragments described here, because they contain enough linguistic Information to satisfy the requirements of both theories. The semantic description is based on Eillmore's approach, Frame Semantics. This framework has been chosen as an example of an approach to lexical semantic description which provides lexical Classification and which can be at least indirectly reinterpreted, because semantic descriptions are explicitly linked to syntactic and contextual properties observable in and retrievable from textual material. From this point of view, Frame Semantics provides a good example for a reusable semantic description. Moreover, the lexical fragments described in this book seem to be the first ones, as far as we can see, in which a formal representation of lexical entries from Frame Semantics is provided. Our encoding of dictionary fragments makes use of the Typed Feature Structures formalism, TES. We describe its most important formal properties from the point of view of lexicographic application, which allows to assess the usefulness of constraint logic-based formalisms for lexical modelling, for the Organization of dictionaries and for the retrieval of lexical Information in NLP contexts. Among the basic principles of the dictionary architecture proposed in this book are the modularisation of dictionaries according to different levels of linguistic description, the definition of separate hierarchical specifications for each level, the possibility to formally check these specifications and the use of a relational approach to combine the different modules. The combination of monolingual descriptions in view of the construction of a contrastive dictionary relies on relationships between syntactic classifications, using the

243 semantic description as a common abstract representation of the phenomena appearing in the languages considered. This procedure is in line with the basic assumptions of Frame Semantics: a Frame is the description o f a Situation or scene, and of the objects, individuals and events (Frame Elements) involved in the Situation. Different languages may refer to the Situation described in a Frame in different ways and with different linguistic means; our approach is dose to the model of interhngua-based translaticn, without however aiming at a füll modelling of the content of utterances within an abstract representation formalism. When it is possible to combine the elements of different monolingual syntactic classifications, the results of such combination can again be classified. This leads to "contrastive classes" which are described in the last chapter of this book, from the phenomenological point of view. Given that the contrastive classes we have established could be interpretated a priori as being nothing but a technical device for the structuring of bilingual dictionries, we have to verify to what extent these contrastive classifications express generalizations and, more generally, to what extent they are relevant for the homogeneous description of contrastive problems in the lexicon. The contrastive classes proposed here cover all of the phenomena discussed in the relevant literature (we have however only considered a part of the lexicon: the translation of verbs and of their syntagmatic environment); moreover, our contrastive Classification is more general than earlier Classification proposals from machine translation, and it needs less Parameters than those. Our basic parameters are already necessary for the monolingual Classification: this is true in particular of the modularization of lexical entries and of the question which linguistic objects of source and target language display differences under translation (the lemma itself, its subcategorized complement or other material in its syntagmatic environment). For both types of dictionaries, monolingual and contrastive, we discuss common architectural principles; we verify whether these principles can be realized and implemented in TFS, and we discuss examples of monolingual lexical fragments, their use for the retrieval of lexical Information, as well as their combination from a contrastive point of view. The principles underlying the dictionary architecture proposed are the following: 1. Dictionaries must be specifications which define well-formed linguistic objects of a domain, and only those (cf. the definition of specifications in formal languages). A constraint-based formalism not only allows the definition of formal lexical specifications (which attributes are defined for which types of lexical objects? which values are available for an attribute? etc.), but also it supports an automatic checking of invidual lexical descriptions, to prove conformity with a given specification. These automatic means allow to improve the consistency of lexical description, which in turn should be a precondition for the development of automatic tools for consistency control, to be used for example in interactive and automatic lexical acquisition, in Updates of lexical specifications and in the reclassification of lexical material. 2. Lexical specifications should be modular. We suggest a modularization at different levels: • the individual monolingual dictionaries are a module of a contrastive bilingual or multilingual lexical resource; • each monolingual description contains itself several modules, each of which is a specification for a Single level of linguistic description. The level-specific

244 modules are related by means of relational constraints; • each level-specific description itself is composed of several modules: - the inventory of descriptive devices (vocabulary), - the definition of combination possibilites for the invidual descriptive devices (lexical classes), - the definition of individual lexical instances (dictionary entries) on the basis of the classes. 3. The modularity leads to a number of desirable properties: • The multifunctionality aimed at is supported by the fact that exportation routines do not use lexical classes or lexical instances as their input, but are bound to the descriptive devices underlying these. The dictionary and the exportation procedures are thus more robust with respect to modifications: no changes are necessary in exportation routines when new entries are added to the lexicon. Only the introduction of new descriptive devices (for example new semantic roles, new grammatical functions) would lead to modification in the exportation routines. Examples for different exportation applications are discussed in this book. • The individual modules of the dictionary are related by means of relational constraints. This allows access to any kind of partial lexical Information ad hoc. The possibility of ad hoc query (available, of course, in all constraint-based formalisms) helps to avoid that any descriptive level or any type of description has priority over the others; this allows to derive dictionaries of different types from and the same source: semasiological ones, onomasiological dictionaries or dictionaries structured in any other form. In an analoguos way, all levels of description from both source and target language can influence the selection of equivalents, in a bilingual dictionary for machine translation. • Given that the specifications for the different levels of linguistic description are related explicitly among each other, they serve "as documentation of each other". It is well known how difficult it is to come to an agreement among linguists about the criteria for semantic description of lexical items. Frame Semantics is not an exeption to this rule; however, the explicit statements about the interrelationships between syntactic and semantic descriptions ensures at least partial transparency of Frame Semantics classifications through their syntactic counterparts. This improves chances of reinterpreting lexical descriptions and thus reusing them. The use of TFS as lexical specification language is quite new, and the TFS formalism has not been conceived originally for this purpose. It is thus necessary to discuss a number of methodological issues concerning the construction of TFS-dictionaries. For example, it seems that the Classification of descriptive devices (for examples roles) is in part mapped on the Classification of lexical objects (for example verb classes). The modularization thus has to be paid by some redundancy. Moreover, we have to ask ourselves how useful it is to specify a Single deep and possibly quite complex lexical hierarchy. Ideally, the lexical model would be specified by crossclassification of different partial hierarchies; the lexicographer would define a hierarchy to

245 classify the targeted domain according to one Single criterion. He would also define partial hierarchies for further criteria of descriptive relevance. These would be cross-classified with the main hierarchy. The realization of such a model (of multiple hierarchies and cross-classification) is not yet fully supported by the current version of the T F S system. However, a Solution has been simulated and is discussed. Our proposals for a dictionary architecture are based on a requirements definition which itself is inspired by a discussion of the notion of multifunctional dictionaries and by experience from lexicography; we try to avoid the problems we encountered in the analysis of machine readable versions of printed dictionaries in view of their reuse in an NLPcontext. Most of these problems indeed are removed by the use of formal specifications. We also profit from lexicographic experience when designing bilingual dictionaries. A comparison of the directional approach (e.g. proposed by Kromann) with the nondirectional approach followed, for example, by the Dutch publisher Van Dale, shows the necessity of a detailed description of target language constraints (because of their relevance for equivalent selection), as well as the importance of an equal treatment of source and target language. The analysis of the procedures used by Van Dale in view of the reuse of their bilingual dictionaries proves the importance of the modularization of lexical descriptions: the reuse is easy in all cases where the Van Dale dictionaries are modular, and it poses problems at those places where they are not.

Literaturverzeichnis [ACL-29 1991] Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, (Berkeley, Ca.: University of California), 1991. [Ahmad et al. 1993] Khurshid Ahmad, Stephen Hook, Lothar Lemnitzer, Nicole Modiano, Jan Odijk, Wolf Paprotte, Frank Schumacher: "MLEX-d Standards for a Multifunctional Lexicon", Final report, (Paris: CAP Gemini) 1993. [AI 1983] Bernard P. F. AI: Dictionnaire de thewe et dictionnaire de Version, in: Revue de phonetique appliquee, 66-68 (1983): 201-211. [AI 1988] Bernard P. F. AI: Langue source, langue cible et metalangue, in: [Landheer (Ed.) 1988]: 15 29. [AI et al. 1985] Bernard P. F. AI et aJ.: Van Daie groot woordenboek Nederlands - Rans, (Utrecht/Antwerpen: Van Dale), 1985. [Alshawi 1989] Hiyan Alshawi: Analysing the dictionary deßnitions, in: [Boguraev/Briscoe 1989]: 153169. [Alvar-Ezquerra (Ed.) 1992] Manuel Alvar-Ezquerra (Ed.): Proceedings of the EURALEX International Congress, Malaga, September 1990, (Barcelona: Biblograf), 1991. [Arnold et al. 1994] Douglas Arnold, Lorna Balkan, R. Lee Humphreys, Siety Meijer, Louisa Sadler: Machine Translation: An Introductory Guide, (Oxford: NCC Blackwell), 1994. [ACL 1990] Proceedings of the 28th Annual Conference of the Association for Computational Linguistics. (Pittsburgh, Pa.: University of Pittsburgh), 1990. [Amsler 1980] Robert A. Amsler. The Structure of the Merriam-Webster Pocket Dictionary. PhD Thesis (Austin: University of Texas), 1980. [Atkins 1994] Beryl T. S. Atkins: Analyzing the verbs of seeing: a frame semantics approach to corpus lexicography, to appear in: [Gahl/Johnson/Dolbey (Eds.) 1994]. [Atkins/Duval/Milne 1987] Beryl T. S. Atkins, Alain Duval, Rosemary C. Milne: Robert