179 14 13MB
German Pages 184 Year 1980
SALEM Ein Verfahren zur automatischen Lemmatisierung deutscher Texte
SALEM Ein Verfahren zur automatischen Lemmatisierung deutscher Texte aus Beiträgen von Hans Eggers, Frank W. Felzmann, Tomas C. Gerhardt, Reinhold Glas, Gerhard Jelinek, Peter Krebs, Heinz-Dirk Luckhardt, Heinz-Dieter Maas, Germano Porta, Annely Rothkegel, Manfred Thiel, Heinz Josef Weber, Emil Weickenmeier, Monika Weissgerber, Harald Zimmermann
zusammengestellt von Hans Eggers, Heinz-Dirk Luckhardt, Heinz-Dieter Maas, Monika Weissgerber
Herausgeber: Sonderforschungsbereich 100 .Elektronische Sprachforschung', Projektbereich A
Max Niemeyer Verlag Tübingen 1980
CIP-Kurztitelaufnahme der Deutschen Bibliothek SALEM : e. Verfahren zur automat. Lemmatisierung dt. Texte / Hrsg.: Sonderforschungsbereich 100 „Elektron. Sprachforschung", Projektbereich A. Aus Beitr. von Hans Eggers... Zsgest. von Hans Eggers ... Tübingen : Niemeyer, 1980. ISBN 3-484-10375-2 NE: Eggers, Hans [Hrsg.]; Sonderforschungsbereich Elektronische Sprachforschung (Saarbrükken) / Projektbereich Germanistik
ISBN 3-484-10375-2 © Max Niemeyer Verlag Tübingen 1980 Alle Rechte vorbehalten. Ohne ausdrückliche Genehmigung des Verlages ist es auch nicht gestattet, das Buch oder Teile daraus auf photomechanischem Wege zu vervielfältigen. Printed in Germany. Satz: Williams, London. Druck: Sulzberg-Druck GmbH, Sulzberg im Allgäu. Einband: Heinr. Koch, Tübingen
Gliederung
Vorwort
VIII
Einführung 1 2 3 4 4.1 4.2 5 I
II
1 Die Stellung der automatischen Lemmatisierung im Rahmen der Projekte des SFB 100 Allgemeine Probleme der Lemmatisierung Wörterbücher als Grundlage der Lemmatisierung Die Basisgrammatik Das Regelsystem Inhaltliche Beschreibung der Regeln Einstweilige Grenzen des Lemmatisierungsverfahrens
3 3 5 6 6 7 13
Überblick über das Lemmatisierungsverfahren
15
1.1 1.2 1.3 1.4 1.4.1 1.4.2 1.5 1.5.1 1.5.2 1.6 1.6.1 1.6.2 1.6.3 1.6.4 1.6.4.1 1.6.4.2 1.6.4.3 1.6.4.4 1.6.4.5 1.7 1.8 1.9
Aufgabe Definitionen Probleme der automatischen Lemmatisierung Grundlagen der automatischen Lemmatisierung Das morpho-syntaktische Wörterbuch SADAW Die Rolle der syntaktischen Analyse Grenzen des Verfahrens Technische Beschränkungen Strukturelle Beschränkungen Lösungsverfahren Die Operatoren Datenflußplan Analysewortklassen Inhalte der Analysespeicher TX-Record Segmentspeicher (AE-Speicher) NOG-Record Prädikatrecord Der Subsatz-Speicher Anwendungsfälle Möglichkeiten der Weiterentwicklung Auswertung eines Testlaufs
15 15 20 22 23 25 25 25 26 27 28 32 34 40 40 44 45 47 48 49 50 51
Das Wörterbuch SADAW (Saarbriicker Deutsches AnalyseWörterbuch)
56
11.1 11.2 11.2.1 11.2.2 11.2.3
56 56 57 67 69
Aufgabe Lexikoninhalt Informationen zu Verbstämmen Informationen zu Substantivstämmen Informationen zu Adjektivstämmen
V
II.3 11.3.1 11.3.2 11.3.3
Liste zur Verschlüsselung bestimmter lexikalischer Informationen Valenzliste Liste der Verbzusatzklassen Liste der Verbsimplexnummern
III Texteingabe (Operator LESEN) 111.1 111.2
Aufgabe Lösungsverfahren
IV Wörterbuchsuche und morphologische Analyse (Operator WOBUDEU) IV.l IV.1.1 IV.l.2 IV.l.3 IV.2 IV.3 IV.3.1 IV.3.1.1 IV.3.1.2 IV.3.1.3 IV.3.1.4 IV.3.2 IV.3.3 IV. 3.4 IV.4
V
Aufgabe Morphologische Analyse Nicht im Lexikon vorhandene Komposita und Ableitungen Feste Sequenzen Anwendungsgrenzen Lösungsverfahren Flexionsanalyse Wortformen Verbstämme Substantivstämme Behandlung der Adjektivstämme Zerlegung von Komposita und Ableitungen Erkennung unbekannter Wörter Erkennung fester Sequenzen Beispiele
75 75 75
78 78 78 79 80 80 81 81 82 82 83 83 83 85 86 87
Homographen-Analyse (Operator DIHOM)
89
V.l V.2 V.2.1 V.2.2 V.3 V.4
89 89 90 93 97 97
Aufgabe Lösungsverfahren Untersuchungen zur Distribution einzelner Lesarten Bildung von Ketten mit eindeutigen Lesarten Anwendungsgrenzen Beispiele
VI Satzsegmentanalyse (Operator SEGMENT) VI.l VI.2 VI.3 VI .4 VI.4.1 VI.4.2 VI.4.3 VI .4.4 VI.5
Aufgabe Satzsegmentgrammatik Anwendungsgrenzen Lösungsverfahren Satzsegmentierung Segmentinventarisierung Überprüfung der Kompatibilität der Segmente Verbzusatzanalyse Beispiele
VII Nominalgruppenanalyse (Operator NOVERA) VII.l VII.2 VII.2.1 VI
72 72 73 74
Aufgabe Nominalgruppengrammatik Strukturierung der nominalen Gruppen (NOG)
102 102 103 108 108 108 109 112 112 113
116 116 116 116
VII.2.2 VII.3 VII.4 VII.5 VII.6
Darstellung der nominalen Gruppen Anwendungsgrenzen Lösungsverfahren Verwendete Begriffe Beispiele
VIH Verbalgruppen-und Komplementanalyse (Operator SYNAN) VIII. 1 VIII.2.1 VIII.2.2 VIII.2.2.1 VIII.2.2.2 VIII. 3 VIII.4 VIII.4.1 VIII.4.2 VIII.4.3 VIII .5
IX
134 134 136 136 136 137 137 137 137 138 144
Semantische Disambiguierung (Operator SEDAM)
148
IX.1 IX.1.1
148
IX.l .2 IX.1.3 IX.1.4 IX.2 IX.2.1 IX.2.2 IX.2.2.1 IX.3
X
Aufgabe Grammatik der Verbalgruppen Valenzgrammatik Rekonstruktion getilgter Einheiten Passivtransformationen Anwendungsgrenzen Lösungsverfahren Verbalgruppenanalyse Komplementanalyse Zulässige Verbalgruppentypen und verbale Subklassen Beispiele
122 124 128 130 130
Aufgabe Reduktion syntaktischer Mehrdeutigkeit durch Kontrolle von Valenzrahmen Ermittlung von Verblesarten durch Kontrolle von Valenzrahmen Disambiguierung durch selektionale Subkategorisierung Die Erkennung fester Syntagmen Lösungsverfahren Das Wörterbuch SESAM und der Operator SEDAM Die Disambiguierung der Präpositionen Nomenklassifikation Anwendungsgrenzen
148 149 149 150 150 150 151 152 153
Lemmatisierte Wörterbücher (Operator SALOP)
155
X.l X.2 X.3 X.3.1 X.3.2 X.4 X.4.1 X.4.2
155 156 156 156 156 159 159
X.4.2.1 X.4.2.2 X.4.2.3
Aufgabe Anwendungsgrenzen Lösungsverfahren Lemmatisierte Indices KWASC-Index Beispiele Lemmatisierter Index KWASC-Index (Indices auf der Basis vollständig durchgeführter Analysen) Segmentindex Nominalgruppenindex Verbalgruppenindex
162 163 165 166
Glossar
168
Literatur
174
VII
Vorwort
Das Forschungsvorhaben .Automatische Lemmatisierung' des Sonderforschungsbereichs 100 .Elektronische Sprachforschung', Projektbereich Germanistik, wurde in den Jahren 1972—1977 von der Deutschen Forschungsgemeinschaft gefördert. Noch verbleibende Aufgaben werden seither im Rahmen des Forschungsvorhabens .Automatische Übersetzung' bearbeitet. Das ist möglich und sogar erforderlich, weil Lemmatisierung wie Übersetzung weithin die gleichen automatisch ablaufenden Analyse- und Synthese-Prozeduren auf lexikalischem, syntaktischem und semantischem Gebiet zur Grundlage haben. Im Unterschied zum Übersetzungsverfahren ergibt aber die automatische Lemmatisierung selbst dann verwertbare Ergebnisse, wenn die syntaktische und semantische Analyse nicht zu vollem Erfolg führt. Der hiermit vorgelegte Bericht stellt in seinen einzelnen Kapiteln die einzelnen Verfahrensschritte in der Reihenfolge ihres Ablaufs dar; eine Gesamtübersicht über den Verfahrensablauf ist im Kapitel I vorangestellt. Wir geben damit die Kurzfassung eines als , . H a n d b u c h " konzipierten, an die Deutsche Forschungsgemeinschaft gerichteten Abschlußberichtes über das Projekt. Am sprachwissenschaftlichen Gehalt wurde nichts gekürzt; wir waren aber bemüht, die umfangreichen programmtechnischen Details des Handbuchs auf ein Mindestmaß zu beschränken. Dieser Bericht wie auch das Handbuch gewann seine Gestalt in zahlreichen Arbeitssitzungen der gesamten Projektgruppe. Wir verzichten deshalb bei den einzelnen Kapiteln auf die Nennung von Namen und wollen diesen Bericht als ein Gemeinschaftswerk der gesamten Projektgruppe verstanden wissen.
Korrekturnote: Der in Kapitel VIII dargestellte Operator SYNAN wurde kürzlich in zwei selbständige Operatoren VERA (Analyse der Verbalgruppen) und KOMA (Komplementanalyse) zerlegt. Das bedeutet eine leichte Modifikation des Verfahrens, aber keine grundsätzliche Änderung. Um die Drucklegung nicht zu verzögern, haben wir von einer Neufassung des Kapitels VIII abgesehen. Vili
Einführung
1
Die Stellung der automatischen Lemmatisierung im Rahmen der Projekte des Sonderforschungsbereichs 100 .Elektronische Sprachforschung'
Das Saarbrücker Forschungsvorhaben .Automatische Lemmatisierung' schließt sich an das Projekt .Elektronische Syntaxanalyse' an, über das wir 1969 berichtet haben.1 Noch während der Laufzeit jenes auf die deutsche Sprache bezogenen Projekts war uns von der Deutschen Forschungsgemeinschaft ein Übersetzungsprogramm RussischEnglisch zur Bearbeitung und Übertragung in ein Übersetzungssystem RussischDeutsch zugewiesen worden. Über dieses Projekt zu berichten, ist hier nicht der Ort. Jedenfalls wurde es in Auseinandersetzung mit dem übernommenen Programm bald erforderlich, eine eigene Syntaxanalyse des Russischen zu entwickeln, wobei die Erkenntnisse aus der deutschen Syntaxanalyse verwertet wurden. Im Laufe der Zeit kam in enger Zusammenarbeit mit anderen Projektgruppen des Sonderforschungsbereichs eine Syntaxanalyse des Französischen und (in Entwicklung) des Englischen hinzu, seit kurzem auch Vorarbeiten zur Einbeziehung des Dänischen. Die Übersetzungsprojekte erforderten zudem die Entwicklung eines Synthese-Algorithmus für die Zielsprache Deutsch. Auch die technischen Voraussetzungen änderten sich. Die deutsche Analyse wurde auf der Rechenanlage ,Elektrologica X I ' realisiert, für die russische waren wir auf den Rechner ,CD 3 300' angewiesen, und seit 1973 arbeiten wir mit einem Großrechner vom Typ ,TR 440'. Für jede neue DV-Anlage waren neue (und zeitraubende) Programmierungen erforderlich. Zugleich stellte sich die Aufgabe, bei steigender Leistungsfähigkeit der DV-Anlagen und wegen der zunehmenden Zahl der bearbeiteten Sprachen sowohl die linguistischen Grundlagen wie auch die technischen Abläufe zu überprüfen. Die linguistische Arbeit setzte sich zum Ziel, soweit wie möglich eine multilingual ausgerichtete Generalisierung und Standardisierung zu erreichen, während im technischen Bereich eine auf Ökonomie bedachte Vereinfachung angestrebt wurde. Im Zuge dieser Arbeiten wurden große Teile des beschriebenen Verfahrens durch wirksamere und multilingual anwendbare Prozeduren ersetzt. Vor allem waren wir bei der beschränkten Zielsetzung des damaligen, nur auf syntaktische Analyse und nur auf deutsche Texte bezogenen Vorhabens von den in den Texten belegten Wortformen ausgegangen, die in einem maschinenlesbaren WortformenIndex zur Verfügung standen. Nun hat zwar auch die maschinelle Übersetzung (MÜ), die jedes einzelne Textwort zu berücksichtigen hat, mit Wortformen zu tun, die wegen 1 Hans Eggers und Mitarbeiter, Elektronische Syntaxanalyse der deutschen Gegenwartssprache, Max Niemeyer Verlag, Tübingen 1969. 1
des Formenreichtums flektierender Sprachen sehr oft nicht mit der lexikalischen Grundform (Lemma) identisch sind, und sie ist auf maschinenlesbare Wörterbücher angewiesen. Es wäre aber äußerst unökonomisch, sämtliche möglichen Wortformen darin aufzunehmen. Für die MÜ kann vielmehr nur die Trennung von Wörterbuch und Flexionsbearbeitung in Betracht kommen. Dazu sind Wörterbücher erforderlich, die nur die Wortstämme (Lemmata) mit den zugehörigen Informationen enthalten und unabhängig davon Operatoren für die Analyse bzw. Generierung der Flexionsformen. Nach diesem Verfahren werden die im Text belegten Wortformen einem Lemma der Quellsprache zugeordnet (automatische Lemmatisierung), und in der Zielsprache werden sie aus dem Lemma generiert. Dementsprechend war das ältere Saarbrücker Analyseverfahren für die Zwecke der MÜ umzustellen. Ist also die automatische Lemmatisierung eine unerläßliche Voraussetzung für eine effektive MÜ, so verspricht sie doch auch im einzelsprachlichen Bereich zu einem wirksamen Instrument weiterführender Forschung zu werden. Denn es besteht ein großer Bedarf an einsprachigen Wörterbüchern, handle es sich nun um die Sammlung des Neuwortschatzes der Gegenwartssprachen, um Fach-Wörterbücher oder auch um Spezial-Wörterbücher zu wichtigen Literaturwerken der Vergangenheit und Gegenwart. Um diesen dringenden Bedarf notdürftig zu decken, sind seit etwa 1960 Indices oder Konkordanzen zu Literaturzwecken verschiedener Sprachen und Epochen in größerer Zahl veröffentlicht worden. Sie beschränken sich fast ausschließlich auf die alphabetische Anreihung von Wortformen und lassen dabei viele Wünsche unerfüllt. Dem Benutzer wäre weit besser mit lemmatisierten Wörterbüchern gedient, und mittels der automatischen Lemmatisierung lassen sich seine berechtigten Erwartungen weitgehend und unter ökonomischer Arbeitsteilung zwischen Mensch und Maschine erfüllen. Die automatische Lemmatisierung erweist sich somit als eine aussichtsreiche Voraussetzung für zwei mittels der elektronischen Datenverarbeitung erreichbare Ziele: 1) Für die MÜ aus einer Sprache in eine andere, 2) für die Erstellung einsprachiger Wörterbücher für die verschiedensten Zwecke. Was die Entwicklung des Saarbrücker Sonderforschungsbereichs 100 , Elektronische Sprachforschung' angeht, muß sogar dem zweiten Ziel die zeitliche Priorität eingeräumt werden. Denn als dank großzügiger Unterstützung der Deutschen Forschungsgemeinschaft die entscheidenden Schritte auf dem Gebiet der automatischen Syntaxanalyse deutscher Sätze gelungen waren, ergab sich als weiterführende Forschungsaufgabe die Nutzbarmachung der Syntaxanalyse für die automatische Lemmatisierung. So sollte ein Instrument geschaffen werden, mit dem die automatische Erstellung von Wörterbüchern zu beliebigen deutschen Texten, z.B. zu einem bestimmten literarischen Werk, möglich würde. Erst als sich der Schwerpunkt der Arbeiten auf die MÜ und auf die Entwicklung multilingual anwendbarer Methoden verlagerte, trat die als Hauptaufgabe vorgesehene Arbeit an der automatischen Lemmatisierung hinter dieser weitergefaßten Problematik zurück und dies um so mehr, als sich hier ein gemeinsames Tätigkeitsfeld für alle beteiligten Teilprojekte auftat. Da aber die 2
automatische Lemmatisierung einen in sich geschlossenen Problemkreis darstellt, und da die Entwicklung des Verfahrens im wesentlichen abgeschlossen ist, halten wir die Zeit für gekommen, das Verfahren zu beschreiben und zur Diskussion zu stellen.
2
Allgemeine Probleme der Lemmatisierung
Die Problematik der automatischen Lemmatisierung sei an einem Beispiel veranschaulicht. Zum Ausgangspunkt wählen wir eine beliebig herausgegriffene Sequenz aus dem .Index' zu einem deutschen Literaturwerk der Romantik. Die im Original angegebenen Belegstellen lassen wir beiseite. Die Informationen, die sich auf die Wortklassen beziehen, fügen wir aus Eigenem hinzu. Sie müssen in den Indices notwendigerweise fehlen, da diese durch einfache alphabetische Anordnungen der Wortformen aus dem laufenden Text und ohne Eingehen auf die syntaktischen Zusammenhänge Zustandekommen.1 DICHT DICHTE DICHTEN DICHTER DICHTERISCHEN DICHTERN DICHTERS DICHTET
ADV SUB, ADJ, FIV ADJ, FIV, INF, SUB (subst. Inf.) SUB, ADJ, ADV ADJ SUB, ADJ (wenn -ERN statt -EREN) SUB FIV
Anm.: Die Wortform DICHTE wurde zu Demonstrationszwecken von uns eingefügt. In buntem Wechsel folgen Wortformen aufeinander, die zu den Lemmata DICHT, DICHTE, DICHTEN, DICHTER, DICHTERISCH gehören. Der Index gibt keine Auskunft über die Wortklassenzugehörigkeit. Die besonders bezeichnete Großschreibung des Anfangsbuchstaben (in unserer Wiedergabe nicht berücksichtigt) ist von schätzbarem, dennoch aber zweifelbarem Wert. Denn im Satzanfang können Großbuchstaben auch andere Wortklassen als das Substantiv auszeichnen. Was lehrt nun diese Sequenz? Außer DICHTERS sind sämtliche Wortformen mehrdeutig. Ein Index läßt solche Mehrdeutigkeiten nicht erkennen, führt vielmehr die mehrdeutige Wortform nach der Reihenfolge der Belegstellen ohne Unterscheidung an. Die Mehrdeutigkeiten lassen sich auf verschiedene Weise klassifizieren. Im einfachsten Falle beziehen sie sich auf morphologische Ambiguitäten (die Wortform DICHTERISCHEN ist nach Kasus, Numerus und Genus vieldeutig). Schwerer wiegt schon die Mehrdeutigkeit von DICHTEN, das, wenn wir vom flektierten Adjektiv einmal absehen, den Infinitiv des Verbs und den zum Substantiv gewandelten Infinitiv 1 Die Abkürzungen für die Wortklassen sind in I 6.3 erklärt. 3
repräsentieren kann. Solche „morphosyntaktischen Mehrdeutigkeiten" werden noch deutlicher in der Dreideutigkeit von DICHTE als SUB (mit Kasusmehrdeutigkeit), Flexionsform des ADJ (mit Kasus-, Numerus- und Genusmehrdeutigkeit) und als FIV (ebenfalls morphologisch mehrdeutig: 1. Sg.Ind., 1./3. Sg.Konj.). Schwieriger noch steht es um die „semantische Mehrdeutigkeit" die in DICHTE, DICHTET impliziert ist. Denn diese Verbform kann sowohl das poetische Schaffen wie das Abdichten einer Rohrleitung meinen. Es leuchtet ein, daß derartige Mehrdeutigkeiten disambiguiert werden müssen, wenn eine brauchbare Übersetzung oder ein Wörterbuchartikel entstehen soll. Weitere Lemmatisierungsprobleme werden in den Indices nicht einmal sichtbar. Zusammengesetzte und modal flektierte Tempora (z.B. HAT GEGEBEN — IST GEGEBEN (WORDEN) - WIRD GEBEN - DARF GEGEBEN WERDEN usw.) treten in einem Index überhaupt nicht in Erscheinung. Vielmehr findet sich unter den Flexionsformen von HABEN, SEIN, WERDEN usw. ein Wust von Belegstellen, in denen die Auxiliar- und Vollverbformen ununterschieden der Reihe nach belegt sind. Für die deutsche Sprachstruktur ergibt sich in dem Vorhandensein der sog. „trennbaren Verbalkomposita" noch eine weitere Schwierigkeit. Zwar würde ein Partizip ABGEDICHTET und das Kompositum in Nebensatzstellung (ein Rohr, das er) ABDICHTETE in einer dem Lemma nahen Form im Index erscheinen, in der Hauptsatzstellung (Er DICHTETE das Rohr AB) hingegen werden die beiden Elemente des Kompositums an weit voneinander entfernten Stellen des Alphabets aufgeführt, und der Benutzer kann lange suchen, bis er das Zusammengehörige gefunden hat. Wir fuhren diese Beispiele nicht an, um an den Indices Kritik zu üben. Es soll nur gezeigt werden, welche Aufgaben die automatische Lemmatisierung zu erfüllen hat. Es kommt also darauf an: — Die Wortklasse, der eine belegte Wortform angehört, eindeutig zu bestimmen, - Substantive nach Kasus, Numerus und Genus zu disambiguieren. - Bei Adjektiven zusätzlich zu (2) auch etwaige Steigerungsformen zu ermitteln. — Bei Verben die zusammengesetzten Zeiten einschließlich ihrer modalen Modifizierungen zu bestimmen und sie einem Lemma zuzuordnen. — Trennbare Verbformen ihrem zukommenden Lemma zuzuordnen. - Als schwierigste Aufgabe: Eine semantische Disambiguierung vorzunehmen, d.h. in unserem Beispielsfalle, die Verbform DICHTET dem Lemma DICHTENj bzw. DICHTEN2 zuzuweisen. Hinzu kommen Probleme bei der Erkennung fester Wendungen. Auf welchen Wegen in dem Saarbrücker Lemmatisierungsprojekt nach der Lösung dieser und anderer Aufgaben gesucht wird, und wie weit die Lösungen bislang gelungen sind, wird in den folgenden Kapiteln im einzelnen dargelegt.
4
3
Wörterbücher als Grundlage der Lemmatisierung
Der Problemkreis der maschinellen Lexika, wie sie zur Syntaxanalyse benötigt werden, wurde bereits gestreift. Im folgenden soll ein knapper Überblick über unsere Erfahrungen in der Anlage und Verwendung von Wörterbüchern gegeben werden. Zwar liegt ein umfassendes „Saarbrücker Deutsches Wörterbuch (SDW)" vor, das über 100 000 Einträge enthält. Dieses ist jedoch aus technischen Gründen (unzureichende Kapazität der in Saarbrücken installierten DV-Anlage) zur Zeit kaum benutzbar. Wir begnügen uns daher einstweilen mit zwei Lexika von geringerem Umfang, nämlich dem „Saarbrücker Deutschen Analysewörterbuch (SADAW)" und einem ausschließlich für die semantische Analyse bestimmten Wörterbuch (SESAM). Die Trennung der beiden Wörterbücher erfolgte, weil für die semantische Analyse ganz andere Informationen erforderlich sind als für die (morpho-)syntaktische. Da die semantische Disambiguierung erst als letzte Stufe des gesamten Verfahrens in Kraft tritt, wenn alle Möglichkeiten auf morphologischer und syntaktischer Ebene erschöpft sind, war es zweckmäßig, die Fülle der für diese letzte Aufgabe erforderlichen Informationen gesondert zu sammeln und das Wörterbuch SADAW nicht damit zu belasten. Die ökonomische Aufgabe, ein Optimum zwischen dem Bedarf an Speicherraum und dem für die maschinellen Abläufe erforderlichen Zeitaufwand zu suchen, hat auch die Anlage des Wörterbuchs „SADAW" beeinflußt. Hier sind außer der möglichst vollständigen Erfassung aller unflektierbaren Wörter (Partikeln) einschließlich der zugehörigen, meist auf Disambiguierung zielenden Informationen auch die Flexionsformen aller Pronomina in extenso angegeben. Ähnlich werden dort auch die umlautfähigen Stämme von Substantiven (GAST, GAEST-e) und Adjektiven (LANG, LAENG-er) als eigene Einträge gebucht, ferner auch bei Verba außer dem Präsensstamm der Partizipiaistamm II, dazu bei starken Verba auch der Präteritalstamm, und in allen Fällen die umlautenden Stammformen. Gewiß wäre es möglich, durch entsprechende Analyse-Operationen auch diese abweichenden Stämme auf die Grundform zurückzuführen. Ein solches Verfahren ist auch entwickelt und anhand des SDW erprobt worden. Dabei stellte es sich heraus, daß ein Zerlegungsverfahren für komplexe Verbformen — dJi. beispielsweise Auffinden des Partizipmorphems ,ge', Löschung des ,ge', Ersetzung des binnenflektierten Stammes durch die Simplex-Grundform und nochmalige Suche im Lexikon — sehr rechenintensiv ist. Daher ist die Aufnahme „unregelmäßiger" Stämme oder Wortformen ins Lexikon dieser Lösung bei weitem vorzuziehen. Auch das vollständigste Wörterbuch muß Lücken enthalten. Das gilt besonders für die deutsche Sprache mit ihren zahlreichen spontan gebildeten Komposita und Ableitungen. Dafür sind Zerlegungsalgorithmen entwickelt worden, die eine Segmentierung zusammengesetzter Wortformen ermöglichen. Dabei wird zwischen Präfixen, Suffixen, Fugen- und Kernmorphemen unterschieden. Obwohl die Struktur der auf diese Weise identifizierten Wörter nicht festgestellt wird, gelingt es doch — aufgrund der Erkennung des Grundwortes oder des Derivationssuffixes — diesen Bildungen recht genaue morpho-syntaktische Informationen zuzuordnen. 5
4
Die Basisgrammatik
Ohne syntaktische Analyse keine Lemmatisierung, und ohne diese weder ein Übersetzungsverfahren noch die Erstellung eines einsprachigen Text-Wörterbuchs. Beides aber beruht auf gemeinsamen Prozeduren der „Saarbrücker Automatischen Textanalyse (SATAN)", über deren Grundlagen deshalb hier noch zu berichten ist. SATAN hat die Aufgabe, zu einem gegebenen (deutschen, russischen, französischen) Text eine syntaktische Beschreibung zu liefern. Einbezogen ist die semantische Disambiguierung, soweit sie durch syntaktische Valenz- und Kongruenzregeln zu leisten ist. Die Form dieser Beschreibung ist durch die Basisgrammatik festgelegt, auf die in den folgenden Kapiteln wiederholt Bezug genommen wird. Die Basisgrammatik definiert Tiefenstrukturen. Sie wird hier in knapper Form ohne Angabe der Regeln für die Oberflächenanalyse und die Transformationen dargestellt. Auch verzichten wir bei der Darstellung des Regelsystems auf die Angabe der Subkategorien (Etiketten), um die Übersichtlichkeit nicht zu beeinträchtigen.
4.1
Das Regelsystem
Das Startsymbol heißt SATZ. Symbole in runden Klammern sind fakultativ. R R R R R R R R R R R R R R R R R
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Satz SC S AK VR KK KE KE NC NA NG NOG NOG NOGR NOGR PRD PRD
= = = = =
= = =
= = =
= = =
= = —
(C) SC S (C SC) VR (AK) KE (KE)11 PRD (KK) KE (KE) n SC NC NA (C NC) NG (KK) (ADN)11 NOG (PRP) NOGR (ADV) n (DET) (NUM) PRN VRB ADJ
(0