150 3 31MB
German Pages 160 Year 1984
Linguistische Arbeiten
149
Herausgegeben von Hans Altmann, Herbert E. Brekle, Hans Jürgen Heringer, Christian Rohrer, Heinz Vater und Otmar Werner
Hans-Ulrich Block
Maschinelle Übersetzung komplexer französischer Nominalsyntagmen ins Deutsche
Max Niemeyer Verlag Tübingen 1984
msinen Eltern
CIP-Kurztitelaufnahme der Deutschen Bibliothek Block, Hans-Ulrich: Maschinelle Übersetzung komplexer französischer Nominalsyntagmen ins Deutsche / Hans-Ulrich Block. - Tübingen : Niemeyer, 1984. (Linguistische Arbeiten ; 149) NE: GT ISBN 3-484-30149-X
ISSN 0344-6727
© Max Niemeyer Verlag Tübingen 1984 Alle Rechte vorbehalten. Ohne Genehmigung des Verlages ist es nicht gestattet, dieses Buch oder Teile daraus photomechanisch zu vervielfältigen. Printed in Germany. Druck: Weihert-Druck GmbH, Darmstadt.
VORWORT
Diese
Arbeit
ist unter dem Titel
Nominalsyntagmen sität
zu Köln
"Maschinelle Übersetzung
französischer
ins Deutsche" von der philosophischen Fakultät der Univerals Dissertation angenornnen worden.
Herren Professoren
Referenten
waren
die
A. Greive und H. Vater. Das Rigorosum fand am 4. 2. 1984
statt. Für
die
geduldige
Unterstützung
der
Arbeit
danke
ich
zunächst
Herrn
Professor A. Greive, der die Dissertation betreute. Für Förderung und Interesse danke ich Herrn Professor H. Vater, die Möglichkeit gab,
der mir in zahlreichen Gesprächen
Probleme der Arbeit zu diskutieren. Besonders bedanken
möchte ich mich auch bei meinen Freunden und Kollegen Dr. Rolshoven, mir
in
Dr.
C. Thiersch, Dr. P.-O. Samuelsdorff und TheVese Torris, die
vielen Diskussionen über linguistische
Anregungen gaben.
B. Rieger, Dr. J.
Datenverarbeitung
wichtige
Frau Dominique Dumas danke ich dafür, daß sie mir rund um
die Uhr ihre Grammatikalitätsurteile zur Verfügung stellte.
Schließlich sei
noch der Firma HDM/Bonn dafür gedankt, daß sie mir ihren Drucker zur Erstellung des reproduktionsreifen
Manuskripts überließ.
0. INHALTSVERZEICHNIS
VORWORT
V
1. EINLEITUNG
l
1.1 Kurzer Überblick über die Geschichte der maschinellen Übersetzung
l
1.1.1 Die Ctoerflächenstruktur-Methode
2
1.1.2 Die Tiefenstruktur-Methode
2
1.1.3 Die semantische Methode
4
1.2 Anforderungen an die maschinelle Übersetzung
4
1.2.1 Syntax- vs. semantikorientierte Systeme
7
2. DER AUFBAU DES ÜBERSETZUNGSMODELLS
14
2.1 Der Aufbau des Gesamtsystems
14
2.1.1 Die Strukturen
14
2.1.1.1 Dependenzbäume
14
2.1.1.1.1 Die Knoten
17
2.1.1.1.1.1 Merkmale
17
2.1.1.1.1.2 Rollen
18
2.1.1.1.1.3 Leerwerte
18
2.1.1.2
18
Die Struktur des Lexikons
2.1.1.2.1 Der Eintrag der Quellsprache
18
2.1.1.2.2 Der Eintrag der Zielsprache
18
2.1.2 Prozeduren
18
2.1.2.1 Die Beschreibungssprache BMS
19
2.1.2.1.1 Syntax von BMS
19
2.1.2.1.2 Semantik von BMS
19
2.1.2.1.2.1 Die Operationen
20
2.2 Die Übersetzungsschritte
22
2.2.1 Die Analyse der Quellsprache
23
2.2.1.1 Die Suche im Lexikon
23
2.2.1.2 Morphologische Analyse der Quellsprache
23
2.2.1.2.1 Ein Beispiel
23
VIII 2.2.1.3 Syntaktische Analyse der Quellsprache
24
2.2.1.3.1 Der verdichtende Arbeitsspeicher mit direktem Zugriff
25
2.2.1.3.2 Die Interaktion des Arbeitsspeichers mit der Inputliste
26
2.2.1.3.3 Die Interaktion des Arbeitsspeichers mit BMS-Funktionen
27
2.2.1.3.4
Die Interaktion des Arbeitsspeichers mit der lexikalischen und morphologischen Analyse
29
2.2.1.3.5 Analyse eines einfachen Satzes
29
2.2.1.3.6 Der Arbeitsspeicher mit Offset 2.2.1.4 Der erste Transformationsteil
34 34
2.2.2 Erzeugung der Zielsprache
35
2.2.2.1 Der Austausch der Lexeme
35
2.2.2.2 Der zweite Transformationsteil
36
2.2.2.3 Erzeugung der Wortformen der Zielsprache
36
2.2.3 Übersetzung eines einfachen Satzes
36
3.
EINDEUTIGE UND MEHRDEUTIGE KETTEN
42
3.1 Typen von strukturellen Ambiguitäten
44
3.2 Klassifizierung von Algorithmen zur Analyse ambiger Ketten
48
3.2.1 Marcus' drei-Zellen-Hypothese
49
3.2.2 Der "Grenze-zurück"-Algorithmus
52
3.2.3 Der "Baumlauf"-Algorithmus
56
4. ANALYSE FRANZÖSISCHER NOMINALSYNTAGMEN
59
4.1
59
Übersicht über R-Ambiguitäten im Französischen
4.1.1 Die theoretisch möglichen Kombinationen
60
4.1.2 Die im Französischen vorkommenden Ketten
61
4.2 L-Strukturen im französischen Nominalsyntagma
64
4.2.1 Adjektive
65
4.2.1.1 Vorangestellte Adjektive
66
4.2.1.2 AdA-Lexeme
66
4.2.2 Quantoren
69
4.2.2.1 Mengen- und Maßangaben
71
4.2.3 Determinantien
73
4.2.4 tout/tous
74
4.2.5 Gesamtübersicht
74
4.3 R-Strukturen im französischen Nominalsyntagma
75
4.3.1 Analysestrategien
78
4.3.2 Detailliertere Beschreibung der N-Komplemente
79
IX
4.3.2.1 Die Rollen
82
4.3.2.2 Die Modi
103
4.3.2.3 Reihenfolgerestriktionen
106
4.3.2.3.1 Reihenfolgerestriktionen innerhalb der Msdusklassen
111
4.3.2.3.1.1 Präpositionale Komplemente
111
4.3.2.3.1.2 Adjektive
114
4.4 Besprechung einzelner Konstruktionen
117
5. DER TRANSFER
126
5.1 Zusammenfassung der Systemeigenschaften
126
5.2 Detailliertere Beschreibung der wichtigsten Transformationsschritte
128
5.2.1 Spezifizierer
128
5.2.1.1 Determinantien
129
5.2.1.2 Quantoren
131
5.2.1.2.1 Mengenkonstruktionen
131
5.2.1.2.2 Die Übersetzung von tou-
132
5.2.1.3 Adjektive
133
5.2.2 Komplemente
133
5.2.2.1 Adjektive
134
5.2.2.2 Substantive
135
5.2.2.3 Präpositionale Komplemente
136
5.2.3 Zielsprachliche morphologische Regeln
143
6. ZUSAMMENFASSUNG UND AUSBLICK
145
6.1 Zusammenfassung
145
6.2 Ausblick
146
7. LITERATUR
148
1. EINLEITUNG
Dieses
Kapitel gibt einen Überblick über den derzeitigen Stand der
maschi-
nellen
Übersetzung ( M . ü . ) und skizziert eine alternative Sichtweise zu den
bisher geläufigen Verfahren der M.ü.
1.1 Kurzer Überblick über die Geschichte der maschinellen Übersetzung Im Laufe der Geschichte der maschinellen Übersetzung läßt sich eine Entwicklung
von zunächst
sehr oberflächlichen
Wort-für-Wbrt-übersetzungen
über
komplexere Phrasenstrukturanalysen und -Synthesen von Quellsprache .
daß jedes
Wort (mot)
eines Tesniereschen Stemmas durch zwei Knoten repräsentiert wird, Knoten
das Wort selbst ist,
so
wenn A unmittelbar auf B folgt
der oben eingeführten Haysschen Notation folgt,
eine "*" •
eine
der andere Knoten das
Bisher haben wir die Datenstruktur "Baum" vorgestellt,
wobei der
Platzhaltersymbol
die zur
Darstellung
der zwischen den Wörtern eines Satzes bestehenden Dependenzrelationen dient. Ein
solcher
Baum
besteht ganz allgemein aus einer Menge
Kanten. Die Knoten eines Baumes sind in
von Knoten und
unserem Modell keine Atome, sondern
selbst wieder komplexe Entitäten.
2.1.1.1.1 Die Knoten Die Knoten eines Baumes enthalten verschiedene Informationen, art,
die Wortform etc.
Wortform, Element
Jeder Knoten enthält eine Kette von Zeichen W, die
eine Menge F von syntaktischen und semantischen Merkmalen und ein R, das
die syntaktische oder semantische Rolle angibt,
Knoten
im Baum spielt ( s . u . ) .
Tripel
.
grandes rivieres (2.9)
wie die Wort-
Wir betrachten somit einen Knoten
die
der
als
ein
Die Knoten des obigen Satzes l es petits ruisseaux fönt les könnten z.B. folgendermaßen aussehen:
< ruisseaux, fsubstantiv,pl. ,mask} , Subjekt) < rivieres, isubstantiv,pl . ,fem} ,objekt>
2.1.1.1.1.1 Merkmale Ein
Merkmal
besteht aus einer
beliebig
langen
Zeichenkette,
allerdings
werden nur die ersten fünf Zeichen der Kette berücksichtigt. Merkmale dienen zur
syntaktischen
und semantischen Charakterisierung
System erlaubt nur binäre Merkmale,
eines
Knotens. Das
sodaß ein Knoten ein bestimmtes Merkmal
18
entweder haben oder nicht haben kann.
2.1.1.1.1.2 Rollen Eine Rolle besteht aus einer beliebig langen Zeichenkette, allerdings werden nur
die
dazu,
ersten fünf Zeichen der Kette berücksichtigt.
die
können
Die Rollen
dienen
Relation eines Knotens zu seinem Mutterknoten zu benennen.
im Prinzip als "Tiefenkasus" im Fillmoreschen Sinn
Sie
aufgefaßt wer-
den. 12
2.1.1.1.1.3 Leerwerte (default values) Ein neu erzeugter Knoten enthält die leere Kette ti als Wortform,
eine leere
Merkmalmenge F und die Rolle "zero".
2.1.1.2 Die Struktur des Lexikons Ein
Lexikoneintrag besteht
aus einem Eintrag der Quellspräche
und einer
geordneten Menge von Einträgen der Zielsprache.
2.1.1.2.1 Der Eintrag der Quellsprache Eine quellsprachliehe Eintragung enthält die Wortform W sowie eine Menge von syntaktischen und senentischen Merkmalen F. Ferner enthält sie einen Verweis auf die entsprechende Eintragung der Zielsprache,
ZE, sowie einen Ausdruck
in BMS ( s . u . ) .
2.1.1.2.2 Der Eintrag der Zielsprache Ein
zielsprachlicher Eintrag enthält die Wortform W, eine Merkmalmenge
einen Ausdruck in BMS (s.u.) sowie einen Verweis auf eine mögliche
F,
Alterna-
tive A.
2.1.2 Prozeduren Prozeduren
sind strukturverändernde Operationen.
Die Menge der
Prozeduren
12 siehe Abschnitt 4.3 für eine Anwendung auf das frz. Nominalsyntagma, zu den Tiefenkasus vgl. Fillmore 1971
19
enthält
Tests und Aktionen.
Prozeduren werden in der
Beschreibungssprache
BMS formuliert.
2.1.2.1 Die Beschreibungssprache BMS BMS
(Baurtmanipulationssprache) ist eine einfache formale Sprache,
Formulierung
von Tests
und Aktionen auf dem oben
beschriebenen
die
die
Datentyp
13
"Baum" erlaubt. BMS hat eine LlSP-ähnliche Syntax.
2.1.2.1.1 Syntax von BMS Ein Ausdruck in BMS besteht aus einer öffnenden Klammer " < " gefolgt von dem Namen einer Operation, 0 bis 2 Argumenten und einer schließenden Klammer:14 (2.10) Ein
Ausdruck::=
"("Operation (Argument) (Argument) " > "
Argument ist entweder eine ganze Zahl,
eine Zeichenkette oder ein Aus-
druck: (2.11)
Argument::= (Integer ! Kette i Ausdruck}
Die Operationen sind durch die folgende Regel definiert: (2.12)
Operation:.— { u ! o ! n ! t : m : i i r i < ; > : f ! p : d i s : 9 ! +1 ! + r ! + < ; + > ! : 1 l : r ! : < ! : > : = ! / : 0 l
* : a ; e i # ! ? : i : . : v : w }
Folgende
Liste gibt die für die einzelnen Operationen zulässigen
Argumente
an: (A=Ausdruck, I=ganze Zahl, K=Kette) (2.13)
(u A A) (o A A) (n A) (t) (m A) U A) (r A) « A) O A) (f K) (p K) I I) I A)