195 79 14MB
German Pages 210 [216] Year 1996
Linguistische Arbeiten
352
Herausgegeben von Hans Altmann, Peter Blumenthal, Herbert E. Brekle, Gerhard Heibig, Hans Jürgen Heringer, Heinz Vater und Richard Wiese
Petra
Barg
Automatischer Erwerb von linguistischem Wissen Ein Ansatz zur Inferenz von DATR-Theorien
Max Niemeyer Verlag Tübingen 1996
D 61
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Barg, Petra: Automatischer Erwerb von linguistischem Wissen : ein Ansatz zur Inferenz von DATRTheorien / Petra Barg. - Tübingen : Niemeyer, 1996 (Linguistische Arbeiten ; 352) NE: GT ISBN 3-484-30352-2
ISSN 0344-6727
© Max Niemeyer Verlag GmbH & Co. KG, Tübingen 1996 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Gedruckt auf alterungsbeständigem Papier. Druck: Weihert-Druck GmbH, Darmstadt Buchbinder: Industriebuchbinderei Hugo Nädele, Nehren
Inhaltsverzeichnis
Danksagung
IX
1 Einleitung
1
2 Maschinelles Lernen in der Linguistik
4
2.1
Kriterien von Lernsystemen 2.1.1 Lerndaten und zugrundeliegende Lernstrategie 2.1.2 Repräsentation des Wissens 2.1.3 Anwendungsgebiet 2.2 Lernsysteme in der Linguistik 2.2.1 Grammatikerwerb 2.2.2 Lexikalisches Lernen 2.2.3 Erwerb morphologischen Wissens 2.2.4 Erwerb phonologischen Wissens 2.2.5 Erwerb von linguistischen Klassen
4 5 7 8 8 9 11 13 14 15
3 Verwendung von Defaults in der Computerlinguistik 3.1 Nicht-monotone Erweiterungen unifikationsbasierter Formalismen 3.2 Nicht-monotone Vererbungsnetze 3.3 DATR
17 18 23 28
4 Automatischer Erwerb von DATR-Theorien 4.1 Beschreibung der allgemeinen Lernaufgabe 4.2 Transformationsregeln 4.2.1 Regeln für lokale Verweise 4.2.1.1 Lokale Pfadverweise 4.2.1.2 Lokale Knotenverweise 4.2.1.3 Lokale Knoten-Pfad-Verweise 4.2.1.4 Lokale Verweise in Sequenzen 4.2.2 Regeln für globale Verweise 4.2.2.1 Globale Pfadverweise 4.2.2.2 Globale Knotenverweise 4.2.2.3 Globale Knoten-Pfad-Verweise 4.2.2.4 Globale Verweise in Sequenzen 4.2.3 Regeln für Verweise auf globale Sätze 4.2.3.1 Pfadverweise auf globale Sätze 4.2.3.2 Knotenverweise auf globale Sätze 4.2.3.3 Knoten-Pfad-Verweise auf globale Sätze 4.2.3.4 Verweise innerhalb von Sequenzen
39 40 47 50 51 53 55 56 59 60 63 64 64 66 66 70 71 72
VI 4.2.4 4.3
Regeln zum Aufbau einer Hierarchie
4.2.5 Zusammenfassung der Transformationsregeln Inferenz von Default-Information
74 77 80
4.3.1 Allgemeine Vorgehensweise 82 4.3.2 Default-Regeln 88 4.3.2.1 Default-Regeln fur Sätze mit atomarem Wert oder Knotenverweis 88 4.3.2.2 Default-Regeln für Sätze mit Pfad-Verweis oder Knoten-Pfad-Verweis 89 4.3.2.3 Regeln für Sätze mit Sequenzen 98 4.3.3 Verhältnis Transformationsregeln - Default-Regeln 101 4.3.4 Ein Beispiel 103 4.4 Inferenzprozeß 108 4.4.1 Allgemeine Inferenzstrategie 108 4.4.2 Heuristiken zur Einschränkung des Suchraums 117 4.4.2.1 Einschränkungen der Transformationsregeln 117 4.4.2.2 Einschränkungen des Default-Algorithmus 124 4.4.3 Bewertung von DATR-Theorien 129 4.4.3.1 Einfachheit einer DATR-Theorie 130 4.4.3.2 Homogenität einer DATR-Theorie 134 4.4.3.3 Präferenz bestimmter Strukturierungen einer DATR-Theorie . . . . 136 4.5 Einschränkungen der erlernbaren DATR-Theorien 140 5 Linguistische Lernaufgaben 5.1 Deutsche Substantivflexion 5.1.1 Charakterisierung der Domäne 5.1.2 Repräsentation der Lerndaten 5.1.3 Ergebnisse der Lernaufgaben 5.1.3.1 Schwache Substantive 5.1.3.2 Schwache und gemischt flektierte Substantive 5.1.3.3 Starke Substantive 5.1.3.4 Starke und schwache Substantive 5.1.4 Vergleich mit einer manuell formulierten Theorie 5.2 Syntaktische Verbklassen 5.2.1 Charakterisierung der Domäne 5.2.2 Repräsentation der Lerndaten 5.2.3 Ergebnisse der Lernaufgaben 5.2.3.1 Einstellige Verben 5.2.3.2 Zweistellige Verben 5.2.3.3 Dreistellige Verben 5.2.3.4 Ein-, zwei-und dreistellige Verben
147 147 147 150 152 152 157 160 162 165 168 168 172 173 173 176 180 182
VII 6
7
Schlußbemerkungen
188
6.1
Strukturierung der Domänen
188
6.2
Verwendete DATR-Mittel
193
6.3
Verwendete Bewertungskriterien
194
Zusammenfassung
Literatur
198 199
Danksagung
Beim Anfertigen dieser Arbeit waren mir Menschen auf unterschiedliche Weise behilflich, denen ich an dieser Stelle danken möchte. Mein Dank gilt zunächst meinen beiden Betreuern Jim Kilbury und Dafydd Gibbon, die mich zu dieser Arbeit ermutigt und an ihre Fertigstellung geglaubt haben. Sie haben mich mit zahlreichen Diskussionen, Anregungen und Kommentaren sowohl fachlich als auch persönlich unterstützt. Weiterhin habe ich sehr vom Gedankenaustausch mit Gerald Gazdar und Roger Evans, den Urhebern von DATR, profitiert. Besonderer Dank gebührt Ingrid Renz, die mir während der gesamten Zeit der Anfertigung dieser Arbeit in vielfacher Weise behilflich war. Sie hat Vorversionen von allen Teilen der Arbeit sorgfaltig gelesen und mir wertvolle Kritik zu Fehlern, mißverständlichen Darstellungen und Strukturierungsschwächen gegeben. Nicht unerheblich zur Fertigstellung dieser Arbeit hat auch mein privates Umfeld beigetragen. Meinem Mann Michael danke ich nicht nur für seine moralische Unterstützung, sondern auch dafür, daß er mich mit unermüdlichen Fragen dazu gebracht hat, meine Ideen klarer zu strukturieren und neue Lösungsansätze zu entwickeln. Meinen Eltern und Schwiegereltern danke ich ftir den nötigen Freiraum und den Rückhalt, den sie mir in allen Phasen gegeben haben. Für die freundschaftliche Atmosphäre am Arbeitsplatz danke ich meinen Kollegen Suzanne Wolting, Markus Walther und Christof Rumpf, an die ich mich auch mit inhaltlichen Fragen wenden konnte. Für die Betreuung bei der Anfertigung der Druckvorlage danke ich Richard Wiese, der mir viele wertvolle Hinweise gegeben hat. Düsseldorf, im Januar 1996
1 Einleitung
Ein Linguist, der einen bestimmten sprachlichen Phänomenbereich untersucht, ist zunächst mit den empirisch beobachtbaren Daten dieses Gebietes konfrontiert. Je nach Untersuchungsgegenstand gilt das Interesse so unterschiedlichen Daten wie syntaktisch wohlgeformten Sätzen, flektierten Wortformen, Lauten und vielem mehr. Ausgehend von den Daten, linguistischem Wissen und theoretischen Vorannahmen besteht das Ziel des Linguisten in einer adäquaten Strukturierung des Phänomenbereichs. Dies geschieht beispielsweise, indem die Daten auf Gemeinsamkeiten und Unterschiede hin untersucht werden, um so systematische, von den konkreten Daten abstrahierbare Zusammenhänge und Regularitäten aufzudekken. Neben einer Aufstellung solch verallgemeinerter Aussagen fuhrt dieser Prozeß in der Regel auch zur Klassifikation der Daten und zur Postulierung von linguistischen Klassen für das entsprechende Gebiet. Die erkannten Zusammenhänge bilden die Grundlage für die Formulierung einer linguistischen Beschreibung, die den beobachteten Daten Rechnung trägt. Da die Beschreibung darüberhinaus über den Daten verallgemeinert, dient sie auch dazu, Vorhersagen über neue, nicht untersuchte Daten des Phänomenbereichs zu ermöglichen. Ein Charakteristikum der Computerlinguistik ist die formale Repräsentation der Zusammenhänge als Modell des betrachteten Phänomenbereichs. Durch eine Computerimplementierung kann dieses Modell einer Verifikation unterworfen werden. War traditionellerweise die Aufgabe, eine strukturierte Beschreibung für einen linguistischen Bereich zu erstellen, ausschließlich dem Linguisten vorbehalten, so richtet sich vor allem in jüngster Zeit das Interesse verstärkt auf die Entwicklung von Strategien, solche linguistischen Repräsentationen aufgrund einer Datenmenge maschinell, d.h. anhand eines implementierten Systems, zu erstellen. Die Fragestellung, wie strukturierte Beschreibungen automatisch gewonnen werden können, ist bereits seit längerer Zeit innerhalb der Künstlichen-Intelligenz-Forschung als Teilgebiet einer eigenständigen Disziplin mit der Bezeichnung "Maschinelles Lernen" etabliert. In neuerer Zeit findet die systematische Anwendung und Entwicklung von Verfahren des Maschinellen Lernens auch Eingang in die Linguistik. Die Entwicklung von linguistischen Lernsystemen ist, wie die Entwicklung von Lemsystemen im allgemeinen, je nach Zielsetzung und Erkenntnisinteresse unterschiedlich motiviert. Grundsätzlich unterscheidet man zwischen kognitiven Ansätzen, die zur Modellierung von Prozessen des menschlichen Spracherwerbs dienen, theoretisch motivierten Ansätzen, die zur linguistischen Theoriebildung beitragen und Systemen für den praktischen Einsatz zur Erstellung linguistischer Wissensbasen (wie Lexikon, Grammatikregeln) in einem Sprachverarbeitungssystem. Die verschiedenen Zielsetzungen und Ansätze schließen sich hierbei jedoch nicht notwendigerweise aus. Vor allem Arbeiten mit dem Ziel der linguistischen Theoriebildung sind oft auch kognitiv motiviert. Die vorliegende Arbeit leistet einen Beitrag dazu, linguistisches Wissen in Form von strukturierten Beschreibungen aus einer Menge von unstrukturierten Daten automatisch zu gewinnen. Da die Wahl einer geeigneten Repräsentationssprache mitentscheidend für die
2 Qualität von Beschreibungen ist, wird zur Repräsentation des erlernten Wissens hier ein Formalismus verwendet, der aktuellen computerlinguistischen Anforderungen genügt. Der gewählte, vererbungsbasierte Formalismus DATR wurde speziell im Hinblick auf linguistische Bedürfnisse entwickelt. Er zeichnet sich durch einen Default-Mechanismus aus, der die einheitliche Behandlung von Regularitäten, Subregularitäten und Ausnahmen erlaubt. Das in der vorliegenden Arbeit entwickelte Lernverfahren orientiert sich eng an den Eigenschaften des verwendeten Formalismus. Dadurch sind die erlernbaren Beschreibungen nicht, wie bei vielen anderen Ansätzen, auf eine bestimmte linguistische Domäne beschränkt, sondern auf die Art von Phänomenen, die gut in DATR repräsentiert werden können. In erster Linie dienen die automatisch gewonnenen Beschreibungen dazu, zur linguistischen Theoriebildung beizutragen. Die inferierten DATR-Theorien lassen sich mit bestehenden linguistischen Annahmen und Theorien vergleichen. Dadurch können linguistische Hypothesen unterstützt oder gegebenenfalls auch alternative Beschreibungen, bis hin zu neuen Einsichten in die untersuchten Phänomenbereiche gewonnen werden. Darüberhinaus lassen die maschinell erzeugten Repräsentationen auch Rückschlüsse auf die zur Beschreibung natürlicher Sprache notwendigen bzw. zentralen Sprachkonstrukte des Formalismus zu. Dies ist insbesondere daher von Bedeutung, da DATR zwar im Hinblick auf die Repräsentation linguistischen Wissens entwickelt wurde, jedoch an keine bestimmte linguistische Theorie gekoppelt ist. Daher besteht ein Interesse, die für linguistische Beschreibungen notwendigen DATR-Mittel zu identifizieren, was letztendlich eine stärkere Einschränkung des Formalismus zur Folge haben könnte. Während die Arbeit somit eine klare linguistisch-theoretische Zielsetzung hat, ist sie weniger durch kognitive Fragestellungen oder den praktischen Einsatz in einem Sprachverarbeitungssystem motiviert. Insbesondere wird nicht der Anspruch erhoben, kognitive Prozesse der menschlichen Sprachverarbeitung oder der linguistischen Theoriebildung zu modellieren. Es ist dennoch nicht ausgeschlossen, daß sich die Ergebnisse später auch als relevant für kognitive Fragestellungen erweisen oder daß das Lernsystem in einem Sprachverarbeitungssystem Verwendung findet. Die Arbeit gliedert sich wie folgt: Kapitel 2 führt in die Thematik des Maschinellen Lernens, insbesondere des Maschinellen Lernens von linguistischem Wissen, ein. Nach einer kurzen Darstellung der gängigsten Lernverfahren und allgemeiner Kriterien zur Charakterisierung von Lernsystemen in Abschnitt 2.1, gibt Kapitel 2.2 einen Überblick über bestehende linguistische Lernsysteme, die nach linguistischen Bereichen gegliedert sind. Die Berücksichtigung von Default-Information wird von vielen Linguisten als wichtige Anforderung an einen linguistischen Repräsentationsformalismus erachtet. Da die vorliegende Arbeit diese Ansicht teilt, stellt das dritte Kapitel verschiedene derzeit in der Computerlinguistik verwendete Ansätze zur Berücksichtigung von Default-Information vor. Die erste Möglichkeit besteht in der Erweiterung vorhandener monotoner Formalismen um DefaultMechanismen. Viele der aktuellen unifikationsbasierten Ansätze haben eine solche Erweiterung erfahren (Kap. 3.1). Demgegenüber steht die Verwendung eines Formalismus, der Defaults von vornherein als zentrales Ausdrucksmittel beinhaltet, wie etwa nicht-monotone Vererbungsnetze (Kap. 3.2). Der innerhalb der Computerlinguistik entwickelte prominenteste Vertreter solcher nicht-monotonen Vererbungsnetze ist DATR. Das Kapitel 3.3 gibt eine Ein-
3 führung in diesen Formalismus, der in der vorliegenden Arbeit zur Repräsentation des erlernten Wissens verwendet wird. Kapitel 4 stellt unseren Ansatz zum automatischen Erwerb von linguistischem Wissen vor. Nach einer Charakterisierung der allgemeinen Lernaufgabe in Abschnitt 4.1 werden die einzelnen Komponenten des Lernsystems erläutert. Mit Hilfe von Transformationsregeln (Kap. 4.2) werden Vererbungsbeziehungen zwischen DATR-Sätzen hergestellt. Gemäß den verschiedenen, in DATR repräsentierbaren Vererbungsbeziehungen gliedern sich diese Regeln in Gruppen, die die unterschiedlichen Verweise erzeugen. Die einzelnen Gruppen werden in den entsprechenden Unterkapiteln vorgestellt. Neben der Inferenz von Vererbungsbeziehungen bildet die Inferenz von Default-Information den zweiten Schwerpunkt beim Erwerb von DATR-Theorien. Diese wird durch einen Default-Algorithmus geleistet, der in Kapitel 4.3 entwickelt wird. Ausgehend von diesen zwei Hauptkomponenten wird in Kapitel 4.4 ein heuristischer Inferenzprozeß formuliert, mit dem strukturierte DATR-Theorien erworben werden. Zur Einschränkung des Suchraums und zur Ermittlung des Lernergebnisses werden Gütekriterien eingesetzt, die DATR-Theorien im Hinblick auf ihre Qualität bewerten (Kap. 4.4.3). Die inferierbaren DATR-Theorien unterliegen Einschränkungen, die die verwendbaren Sprachkonstrukte und die Form der Beschreibungen betreffen. Diese werden in Abschnitt 4.5 erläutert. Kapitel 5 zeigt die Anwendung des in Kapitel 4 entwickelten Lernansatzes auf linguistische Daten aus zwei unterschiedlichen Bereichen. Die erste Gruppe von Lernaufgaben umfaßt den Erwerb deutscher Substantivflexion, während die zweite Gruppe Verben aufgrund von deren syntaktischen Eigenschaften klassifiziert. Die Ergebnisse der durchgeführten linguistischen Lernaufgaben werden in Kapitel 6 zusammenfassend beurteilt. Von besonderem Interessen sind die erworbenen Strukturierungen der Domänen, die dafür verwendeten DATR-Mittel und die Gütekriterien. Hierbei werden vor allem die Besonderheiten der inferierten Beschreibungen im Vergleich zu manuell erstellten Theorien herausgestellt. Außerdem werden einige offene Fragen und Erweiterungsmöglichkeiten des Ansatzes angesprochen. Kapitel 7 faßt die Ergebnisse der Arbeit zusammen.
2 Maschinelles Lernen in der Linguistik
2.1
Kriterien von Lernsystemen
Die menschliche Fähigkeit des Lernens gilt als überaus komplex und heterogen. Unter Lernen werden so unterschiedliche Fähigkeiten verstanden wie beispielsweise der Erwerb und die Anwendung von Wissen über physikalische Zusammenhänge (eine kognitive Fähigkeit) oder das Erlernen des Schwimmens (eine motorische Fähigkeit). Demzufolge ist auch der Versuch, Lernvorgänge zu modellieren und zu simulieren, das Maschinelle Lernen, ein vielschichtiges Gebiet mit den unterschiedlichsten Ansätzen. Weitgehende Einigkeit besteht darüber, daß Lernen Veränderungen eines — künstlichen oder natürlichen -— Systems beinhaltet, die zur Verbesserung der Leistungen dieses Systems führen. Viele Wissenschaftler, die auf dem Gebiet des Maschinellen Lernens arbeiten, erachten hierbei den Erwerb von neuem Wissen als zentral und definieren die Verbesserung der Fähigkeiten eines künstlichen Systems auf dieser Grundlage, wie beispielsweise Michalski: "Learning is constructing or modifying representations of what is being experienced." (1986, S.10) Auch die vorliegende Arbeit schließt sich dieser Ansicht an. Die Entwicklung von Lernsystemen ist je nach Standpunkt und Zielen unterschiedlich motiviert, wobei sich die verschiedenen Erkenntnisinteressen jedoch nicht grundsätzlich gegenseitig ausschließen. Da Lernen allgemein als eine der zentralen Eigenschaften intelligenten Verhaltens erachtet wird, ist es naheliegend, daß sich kognitionswissenschaftliche Disziplinen (wie kognitive Psychologie oder kognitive Linguistik) mit Maschinellem Lernen beschäftigen. Die Lernsysteme dienen hier zur kognitiven Modellierung von Aspekten menschlichen Lernens und zur Überprüfung bestehender Lerntheorien. Innerhalb der Künstlichen-Intelligenz-Forschung (KI) besteht zugleich ein theoretisches und praktisches Interesse an Lernsystemen. Zum einen wird unabhängig von einer konkreten Aufgabe untersucht, welche Arten des Lernens mit welchen Mitteln maschinell simuliert werden können. Mit Hilfe der dabei gewonnenen Erkenntnisse werden Lernsysteme für den Einsatz in Expertensystemen entwickelt. Diese Lernkomponenten sollen die Aufgabe der automatischen Wissensakquisition übernehmen. Der Prozeß der Erhebung von Expertenwissen ist in der Regel sehr zeitaufwendig, erfordert im allgemeinen mindestens einen "knowledge engineer" und einen Gebietsexperten und ist zudem fehleranfällig. Kurz: die Wissensakquisition ist einer der Schwachpunkte bei der Erstellung von Expertensystemen ("knowledge acquisition bottleneck") und eine Automatisierung ist daher sehr erstrebenswert, um diesen Engpaß zu beseitigen. Schließlich besteht ein anwendungsorientiertes Interesse am Maschinellen Lernen. Verschiedene Disziplinen (wie Medizin, Landwirtschaft u.a.) haben ein konkretes Interesse an dem maschinell erworbenen Wissen, um es mit bestehenden Annahmen zu vergleichen und die Ergebnisse gegebenenfalls in Anwendungssystemen einzusetzen.
5 Lernsysteme unterscheiden sich aufgrund einer Vielzahl von Eigenschaften voneinander. Zu den wichtigsten Klassifikationskriterien zählen: • • • •
die die die das
Art der Daten, aus denen gelernt wird, zugrundeliegende Lernstrategie, Repräsentation des erlernten Wissens und Anwendungsgebiet des Systems,
wobei diese Kriterien zum Teil voneinander abhängen. In den folgenden Abschnitten werden die Klassifikationskriterien näher erläutert. In Kap. 4 werden sie zur allgemeinen Charakterisierung des dort entwickelten Lernsystems herangezogen.
2.1.1 Lerndaten und zugrundeliegende Lernstrategie Die Art der Lerndaten hängt eng mit der zugrundeliegenden Lernstrategie zusammen. Diese bestimmt, welche Operationen das Lernsystem mit den Lerndaten vornimmt. Ein grundsätzlicher Unterschied besteht hier zwischen traditionellen und konnektionistischen Ansätzen. Während die traditionellen Ansätze auf Symbolen operieren und daher auch symbolische Verfahren genannt werden, arbeiten die konnektionistischen Systeme typischerweise auf Repräsentationen niedrigerer, unstrukturierter Ebenen (z.B. Bit-Vektoren). Der Großteil der bestehenden symbolischen Systeme basiert auf induktiven Lernstrategien (vgl. Michalski 1983, Dietterich/Michalski 1981). Das heißt, das Ziehen von allgemeinen Schlüssen aus vorgegebenen spezifischen Fakten ist bei diesen Systemen die zentrale Operation. 1 Die einzelnen Lernverfahren unterscheiden sich jedoch stark in der Menge an Inferenzen, die das System ziehen muß und ziehen kann. Am unteren Ende der Skala befindet sich das sogenannte rote leaming, bei dem das System selbst keine Operationen auf den Daten vornimmt, sondern diese lediglich unverändert speichert und zu gegebenem Zeitpunkt verwendet. Da jeder Computer in diesem Sinne lernt (indem er Programme speichert und ausführt), wird diese Methode von vielen Wissenschaftlern auch nicht zum eigentlichen Maschinellen Lernen gerechnet. Beim Lernen durch Anweisung ("learning by being told") besteht der Lerninput ebenfalls aus direkten Instruktionen. Diese Instruktionen sind jedoch in einer abstrakteren, nicht direkt vom System verwendbaren Sprache formuliert. Die Aufgabe des Systems besteht darin, die gelieferte Information in eine geeignete interne Repräsentation zu transformieren und in das bestehende Wissen zu integrieren. Beim Lernen durch Analogie ist die Menge an Inferenzen, die das System zieht, wesentlich größer. Bei dieser Art des Lernens wird versucht, für ein zu bearbeitendes Gebiet
Bei deduktiven Systemen werden dagegen Schlüsse aus generellen Axiomen gezogen. Deduktive Schlüsse sind dadurch gekennzeichnet, daß sie sowohl wahrheitserhaltend als auch falschheitserhaltend sind. Im Gegensatz dazu ist bei induktiven Schlüssen lediglich die Falschheitserhaltung gegeben.
6 Analogien zu bereits vorhandenem Wissen ähnlicher Gebiete herzustellen und so für das neue Gebiet nutzbar zu machen. Carboneil definiert es folgendermaßen: "Analogical problem solving consists of transferring knowledge from past problem solving episodes to new Problems that share significant aspects in common with corresponding past experience" (1983, S.13). Hierbei müssen Fragen beantwortet werden wie: Was ist eine Analogie? Welches Wissen wird transferiert und wie wird es auf das neue Problem angewendet? etc. Bisher gibt es vergleichsweise wenige Arbeiten, die Lernen durch Analogie einsetzen. Die Hauptvertreter des induktiven Lernens sind das Lernen aus Beispielen und das Lernen aus Beobachtung und Entdeckung (auch "scientific discovery" genannt). Beim Lernen aus Beispielen (vgl. Dietterich/Michalski 1984, Winston 1975, Quinlan 1986a) sind die Lerndaten entweder Beschreibungen von Instanzen bestimmter Konzepte, deren generelle Beschreibungen daraus inferiert werden, oder Beschreibungen von Teilen von Konzepten, aufgrund derer die Beschreibungen der Gesamtkonzepte erlernt werden. Konzepte können je nach Lernaufgabe völlig unterschiedlich geartet sein. Es kann sich ebenso um ein konkretes Konzept wie Säugetier handeln (Beispiele werden etwa über die Eigenschaften Nachkommen, Gliedmaßen, Fortbewegung beschrieben) wie auch um ein abstraktes wie Kreditwürdigkeit (Beispiele sind etwa Profile von Bankkunden, die über Eigenschaften wie Einkommen, Beruf, Familienstand beschrieben werden). Neben positiven Beispielen enthält der Lerninput manchmal auch Gegenbeispiele, d.h. Beschreibungen von Instanzen, die nicht zu dem Konzept gehören. Eine komplexere Variante besteht darin, daß der Lerninput nicht positive und negative Beispiele eines Konzepts, sondern Beispiele verschiedener Konzepte beinhaltet (z.B. Instanzen von Säugetieren, Vögeln und Insekten). Die Lernaufgabe beim Lernen aus Beispielen besteht nun darin, ausgehend von den Lerndaten plausible, generelle Konzeptbeschreibungen zu generieren, die alle Beispiele des jeweiligen Konzepts, aber keines der anderen Beispiele abdecken. Neben dieser Abdeckung der Lerndaten ist eine weitere Anforderung an die erlernten Konzeptbeschreibungen, daß sie Voraussagen über neue Daten leisten, d.h. daß neue Daten, von denen nicht bekannt ist, zu welchem Konzept sie gehören, korrekt klassifiziert werden. Für die Qualität der erlernten Konzepte ist die Güte der vorhandenen Beispiele mitverantwortlich. Sind die Lernbeispiele stark verrauscht (d.h. mit Fehlern behaftet) oder sind sie nicht charakteristisch für eine bestimmte Domäne, können schlechte Konzeptbeschreibungen die Folge sein. Wie Winston (1975) gezeigt hat, sind beispielsweise für gute Konzeptbeschreibungen auch solche negativen Beispiele entscheidend, die das zu erlernende Konzept nur knapp verfehlen ("near miss"). Ebenso wie die Güte der Beispiele kann auch die Reihenfolge, in der sie vom System verarbeitet werden, für das Ergebnis eine Rolle spielen. Manche Lernverfahren variieren in ihren Ergebnissen mit der Reihenfolge der Beispiele, für andere ist die Reihenfolge irrelevant. Im Gegensatz zum Lernen aus Beispielen besteht der Lerninput beim Lernen durch Beobachtung und Entdeckung (vgl. Lenat/Harris 1978, Michalski/Stepp 1983a, Stepp/Michalski 1986, Lebowitz 1987, Fisher 1987) aus Daten, die nicht durch einen Experten vorklassifiziert sind. D.h. es wird dem System nicht vorgegeben, zu welchen Konzepten die gegebenen Daten gehören. Die Aufgabe des Systems besteht darin, eine Beschreibung in Form von Regeln, Gesetzen oder Taxonomien zu erlernen, die die Menge von Beobachtungen strukturiert, d.h. Zusammenhänge und Regularitäten in den Beobachtungen aufdeckt. Wie sich zeigen wird,
7 entspricht dieses Szenario weitgehend der Aufagabenstellung für unser in Kap. 4 entwickeltes Lernsystem zum automatischen Erwerb von DATR-Theorien. Viele Ansätze des Lernens durch Beobachtung gehören zu den Clustering-Verfahren, die eine Menge von beobachteten Objekten gemäß ihrer Ähnlichkeit in Teilklassen (=Konzepte) gruppieren. Bei manchen dieser Verfahren wird eine taxonomische Beschreibung erlernt, in der die Teilklassen hierarchisch angeordnet sind. Werden hierbei neue Objekte oder neue Eigenschaften generiert, spricht man von konstruktiver Induktion (vgl. Michalski 1983). Weitere induktive Lernmethoden sind die Inferenz von Grammatiken (s. Kap. 2.2.1) oder die automatische Programmsynthese. Lernstrategien unterscheiden sich grundsätzlich auch darin, ob alle Daten gleichzeitig in einem Durchgang präsentiert und verarbeitet werden (Batch-Modus), oder ob das Ergebnis inkrementell aufgrund von Ausschnitten aus der Datenmenge gewonnen wird. Diese Entscheidung hängt auch von der generellen Kontrollstrategie ab. Hier unterscheidet man zwischen daten-gesteuerten ("bottom-up") und modell-gesteuerten ("top-down") Strategien, wobei es auch Mischformen gibt. Während erstere eine inkrementelle Vorgehensweise unterstützt, ist dies bei der modell-gesteuerten Vorgehensweise nicht der Fall. Dafür bietet diese den Vorteil, robuster gegenüber Rauscheinflüssen zu sein.
2.1.2 Repräsentation des Wissens Sowohl für die Eingabedaten als auch für das Lernergebnis muß eine formale Repräsentationssprache gewählt (oder entwickelt) werden. In vielen Systemen wird hierbei für Lerninput und Lernoutput dieselbe Repräsentation verwendet. Dadurch entfallen Transformationen von der einen Repräsentationsform in die andere und die damit verbundenen Probleme. In manchen Ansätzen werden auch die Operationen auf den Daten in der gleichen Sprache repräsentiert, was von Dietterich, London, Clarkson und Dromey (1982) als "single representation trick" bezeichnet wird. Die meisten verwendeten Repräsentationsformalismen orientieren sich an menschlichen Bedürfnissen. Das heißt, es wird ein Formalismus gewählt, den auch menschliche Experten zur Wissensrepräsentation verwenden. Die weiteste Verbreitung haben hier Formalismen, die auf der Prädikatenlogik basieren (z.B. Michalski 1983). Häufig werden auch Bäume (z.B. die Diskriminierungsbäume von Quinlan 1986a) und Graphen (z.B. Winston 1975) verwendet. Neben der Benutzerfreundlichkeit ist ein wichtiges Kriterium bei der Wahl des Formalismus, daß er der Problematik angemessen ist. Das bedeutet, daß er alle gewünschten Ausdrucksmittel (wie z.B. Negation, Disjunktion u.ä.) beinhalten sollte, aber keine darüberhinausgehenden. Für die Repräsentation von linguistischem Wissen bedeutet dies, daß als Repräsentationssprache eine von Linguisten für die Beschreibung der fraglichen Phänomene verwendete Sprache gewählt werden sollte. In Kap. 3 wird dafür argumentiert, daß zur angemessenen Beschreibung vieler linguistischer Phänomene die Verwendung von Defaults erforderlich ist. Daher wird zur Wissensrepräsentation in dieser Arbeit der in Kap. 3.3 vorgestellte linguistische Formalismus DATR verwendet, mit dem Default-Vererbungsnetze repräsentiert werden können.
8 Ist das Lernergebnis nicht für einen menschlichen Benutzer vorgesehen, können andere Kriterien im Vordergrund stehen. Bei der automatischen Programmsynthese werden beispielsweise Lernverfahren verwendet, die ein einfach strukturiertes Programm in ein effizienteres transformieren. Eine solche Vorgehensweise kann durchaus eine höhere Komplexität der Lernergebnisse und dadurch schlechtere Lesbarkeit für den menschlichen Betrachter zur Folge haben.
2.1.3 Anwendungsgebiet Bezüglich ihres Anwendungsgebietes unterscheidet man Lernsysteme vor allem danach, ob sie für eine bestimmte Anwendung konzipiert und eingesetzt werden, oder ob es sich um domänenunabhängige, allgemein verwendbare Verfahren handelt. Die für bestimmte Anwendungen konzipierten Systeme haben auf diesem speziellen Gebiet (z.B. Medizin, Chemie, Landwirtschaft u.a.) oft zu interessanten Ergebnissen geführt, da die Lernverfahren speziell auf das entsprechende Gebiet zugeschnitten werden konnten. Da diese Lernsysteme aber dadurch kaum auf andere Gebiete übertragbar sind — oder höchstens auf sehr nah verwandte — werden auch allgemeine Lernverfahren entwickelt. Diese Ansätze haben jedoch aufgrund ihrer Generalität oft zu uninteressanten Ergebnissen geführt und sind daher unbefriedigend. Ein Ausweg besteht darin, generelle Lemverfahren zu verwenden, die jedoch um domänenspezifisches Hintergundwissen ergänzt werden, wobei dieses Hintergrundwissen je nach Anwendung austauschbar sein muß.
2.2
Lernsysteme in der Linguistik
Schon seit geraumer Zeit gibt es auch in der Linguistik einzelne Versuche, Lernsysteme zu konzipieren und einzusetzen. Aber erst in jüngster Zeit ist ein verstärktes Interesse an der systematischen Entwicklung von linguistischen Lernsystemen zu verzeichnen (vgl. hierzu die Beiträge in Powers/Reeker 1991). Vor allem für die ersten Systeme war die Motivation fast ausschließlich kognitiver Art. Mit den Lernsystemen sollte der Erstspracherwerb (anfangs ausschließlich das Erlernen der Syntax) modelliert werden. Die Lernsysteme dienen hierbei dazu, die zugrundeliegenden kognitiven Prozesse zu untersuchen und zu erklären, sowie zur Unterstützung postulierter Spracherwerbstheorien. Diese kognitive Motivation spielt auch bei aktuellen Lernsystemen in der Linguistik eine große Rolle. Innerhalb der Linguistik existiert derzeit — wie beim Maschinellen Lernen im allgemeinen — sowohl ein theoretisches als auch ein praktisches Interesse an Lernsystemen. Das theoretisch-linguistische Interesse beinhaltet zwei Aspekte: Einerseits soll untersucht werden, welche Art von linguistischer Information mit welchen Mitteln automatisch erworben werden kann. Andererseits werden die erlernten Ergebnisse mit bestehenden linguistischen Annahmen und Theorien verglichen. Die Resultate können zusätzliche Evidenz für bestehende Annahmen
9 oder auch alternative Beschreibungen liefern. Hierbei ist es sogar möglich, daß neue Einsichten in linguistische Fragestellungen gewonnen werden. Wie in der KI ist auch in der Linguistik (speziell Computerlinguistik) ein Engpaß bezüglich der Erstellung von linguistischen Wissensbasen zu verzeichnen. Bei Sprachverarbeitungssystemen von realistischer Größe ist es einerseits zeitaufwendig, die linguistischen Wissensbasen (d.h. Lexika, Grammatiken etc.) manuell zu erstellen und darüberhinaus problematisch, dieses Wissen konsistent zu halten, wenn neues Wissen hinzukommt. Aus diesem Grund besteht auch ein praktisches Interesse an der Entwicklung linguistischer Lernsysteme zum automatischen Erwerb linguistischen Wissens für solche Sprachverarbeitungssysteme. Das von den Systemen zu erwerbende Wissen kann alle linguistischen Ebenen betreffen und von unterschiedlichster Art sein. Es gibt Ansätze zum Erwerb von syntaktischem Wissen, ebenso wie zum Erlernen von morphologischen Regeln oder lexikalischem Wissen, sowie Arbeiten, die verschiedene Aspekte gleichzeitig erfassen. Je nach Art des Wissens, das erlernt werden soll, variiert auch der Lerninput für die Systeme. Viele der existierenden Lernverfahren sind für eine spezielle Anwendung konzipiert und nicht auf andere Gebiete übertragbar. Sie beinhalten daher eine eigens auf diese Anwendung zugeschnittene Lernstrategie. Andere Ansätze versuchen, bereits bestehende, allgemeine Lernverfahren für linguistische Fragestellungen zu verwenden. So wird in (Naerger[Barg] 1988) beispielsweise eine Variante des von Quinlan (1986a) entwickelten Algorithmus ID3 dazu verwendet, dialektologische Beispieldaten (in Form von Merkmalen für die Haupttonvokale) in niederdeutsche Mundartregionen zu klassifizieren. Im folgenden werden einige Lernansätze zum Erwerb linguistischen Wissens vorgestellt. Da sich die Ansätze je nach der Art des linguistischen Wissens, das erlernt werden soll, zum Teil stark unterscheiden, ist die Darstellung nach linguistischen Gebieten geordnet. Dabei wird kein Vollständigkeitsanspruch erhoben. Vielmehr soll beispielhaft gezeigt werden, welche Arten von Ansätzen in den verschiedenen linguistischen Bereichen existieren.
2.2.1
Grammatikerwerb
Die Pionierarbeit im Bereich des grammatikalischen Erwerbs wurde von Gold geleistet (1967, 1978), dessen Arbeit durch die Modellierung des Erstspracherwerbs motiviert war. Das Gebiet des Grammatikerwerbs ist bis heute stark von seinen theoretischen Ergebnissen beeinflußt. Beim Grammatikerwerb besteht die Lernaufgabe in der Inferenz einer Grammatik bzw. eines entsprechenden Automaten für eine Sprache, aufgrund einer endlichen Menge von Beispielsätzen dieser Sprache (eine Einführung in die Thematik geben Biermann/Feldman 1972a, Fu/Booth 1975). 2 Grammatikerwerb kann somit als eine Form des Lernens aus Beispielen betrachtet werden, bei der das erlernte Wissen in Form von Grammatikregeln repräsentiert
Unter Sätzen einer Sprache sind hier nicht notwendigerweise Sätze einer natürlichen Sprache zu verstehen. Bei einigen Systemen ist dies zwar der Fall, andere operieren dagegen auf Ketten von Terminalsymbolen einer formalen Sprache.
10 wird. Während beim herkömmlichen, in Kap. 2.1 beschriebenen Lernen aus Beispielen die inferierten Konzepte jedoch unabhängig voneinander sind, interagieren Grammatikregeln miteinander. Die grundlegende Frage, die sich beim Grammatikerwerb stellt, ist die nach der Lernbarkeit, d.h. ob eine bestimmte Grammatik aufgrund einer gegebenen Menge von Beispieldaten erlernt werden kann. Wie Gold (1967) gezeigt hat, ist das Problem der Identifikation einer Sprache aufgrund von ausschließlich positiven Lerndaten nicht entscheidbar. Dies gilt selbst für reguläre Sprachen. Der Grund liegt darin, daß die Grammatik der Sprache irgendwo zwischen einer Grammatik, die lediglich die Beispielsätze abdeckt (d.h. eine untergenerierende Grammatik) und einer maximal generellen Grammatik, die alle möglichen Sätze (bestehend aus Terminalsymbolen der Sprache) generiert (d.h. eine übergenerierende Grammatik), liegt. Da zwischen diesen beiden Extremen eine Vielzahl von Grammatiken liegt, ist es unmöglich, die korrekte zu bestimmen. Arbeiten zum Erwerb von Grammatiken lösen dieses Problem auf unterschiedliche Weise. Eine Möglichkeit besteht darin, zusätzliche Informationen zu berücksichtigen. So kann der Lerninput beispielsweise zusätzlich zu positiven Beispielen — wie in anderen Lernsystemen auch — negative Beispiele enthalten, wobei für jedes Beispiel angegeben wird, ob es zur Sprache gehört oder nicht. Durch solche negativen Beispiele können zu generelle Grammatiken ausgeschlossen werden. Kognitiv motivierte Arbeiten lehnen die Verwendung von negativen Beispielen jedoch ab, da dies nicht der Situation des Erstspracherwerbs entspricht. Außer negativen Beispielen werden als zusätzliche Informationen auch stochastische Angaben, semantische Informationen oder syntaktische Struktur verwendet. Andere Ansätze, die mit ausschließlich positiven Daten arbeiten, umgehen die Probleme durch die Beschränkung der Grammatik auf eine bestimmte Teilklasse, für die eine Inferenz aus positiven Beispielen möglich ist (z.B. Angluin 1980), oder durch die Aufstellung zusätzlicher Anforderungen an die Grammatik in Form von Gütekriterien. Diese betreffen typischerweise die Komplexität einer Grammatik, die z.B. über Anzahl der Regeln, Anzahl der nicht-terminalen Symbole etc. definiert wird. Hierbei werden in diesem Sinne einfachere Grammatiken bevorzugt (vgl. Biermann/Feldman 1972a, Angluin/Smith 1983). Die meisten implementierten Systeme (d.h. nicht rein theoretischen Untersuchungen) zur Inferenz von Grammatiken basieren auf konstruktiven, heuristischen Verfahren. Bei diesen Ansätzen besteht das Ziel nicht in der Inferenz der korrekten Grammatik, sondern in der Generierung einer plausiblen Generalisierung über den Beispieldaten. Hierbei werden die präsentierten Beispielsätze systematisch zum Aufbau der Regeln einer Grammatik verwendet. So werden die Sätze beispielsweise auf rekursive Strukturen hin untersucht oder auf die Reihenfolgebeziehungen ihrer Elemente (vgl. Fu/Booth 1975). Da konstruktive Verfahren keine erschöpfende Suche durchführen, liegt ihr Hauptvorteil in ihrem geringen Rechenaufwand, der zur praktischen Durchführbarkeit der Ansätze führt. Da die Eigenschaften von regulären Grammatiken am besten verstanden sind und diese daher am leichtesten zu handhaben sind, ist es nicht verwunderlich, daß auch die Ansätze zum Erwerb von regulären Grammatiken am ausgereiftesten sind (z.B. Biermann/Feldman 1972b, Itoga 1981, Garcia/Vidal/Casacuberta 1987). Die Arbeiten zum Erwerb von kontext-freien Grammatiken sind in der Regel auf bestimmte Teilklasse eingeschränkt (z.B. Klammergram-
11
matiken, Crespi Reghizzi 1972). Darüberhinaus erwarten einige Ansätze bestimmte Zusatzinformationen, die über die Beispielsätze hinausgehen. Dazu gehören stochastische Ansätze, bei denen die Häufigkeit des Vorkommens eines Satzes in der Beispielmenge eine Rolle spielt (z.B. Horning 1972, Cook/Rosenfeld/Aronson 1976). Eine interessante Erweiterung der Beispieldaten beinhaltet der Ansatz von Naumann und Schrepp (1992). Lexikalische und phrasale Kategorien werden nicht, wie in anderen Ansätzen, durch atomare Symbole, sondern durch Merkmalsstrukturen repräsentiert, was aktuellen computerlinguistischen Anforderungen entspricht. Diejenigen Systeme, die den Erwerb von Grammatiken natürlicher Sprachen zum Ziel haben, sind in der Regel in eine konkrete Grammatiktheorie eingebettet, deren Anforderungen die zu erlernende Grammatik genügen muß. So wurden einige Verfahren im Rahmen der Transformationsgrammatik entwickelt (z.B. Berwick 1985). Mit dem Wandel von Grammatiktheorien änderten sich auch die entsprechenden Ansätze zum Grammatikerwerb. Berwicks aktuelle Arbeiten (vgl. Berwick 1991) sind beispielsweise nicht mehr regelorientiert, sondern prinzipienbasiert im Sinne der Government and Binding Theorie (Chomsky 1981). Auch für die in der Computerlinguistik prominenten Grammatiktheorien existieren Arbeiten. Fodor (1991) untersucht die Lernbarkeit von Grammatiken innerhalb der Theorien der Generalized Phrase Structure Grammar (GPSG, Gazdar/Klein/Pullum/Sag 1985) und der Head Driven Phrase Structure Grammar (HPSG, Pollard/Sag 1987). Zunächst stellt sie fest, daß GPSG- und HPSG-Grammatiken unter psychologisch natürlichen Bedingungen (d.h. aufgrund von ausschließlich positiven Beispielen) grundsätzlich nicht lernbar sind. Wie bereits oben erläutert, liegt dies daran, daß bei fehlendem negativen Input nicht ausgeschlossen werden kann, daß übergenerierende Grammatiken inferiert werden. Insbesondere sprachspezifische Constraints können ohne systematischen negativen Input überhaupt nicht erlernt werden. Fodor schlägt jedoch Veränderungen der Grammatiken vor, aufgrund derer es möglich ist, GPSG- und HPSG-Grammatiken zu erlernen. Diese Veränderungen betreffen insbesondere die sprachspezifischen Constraints, die Fodor durch universelle, angeborene Defaults ersetzt. Erlernt werden dann sprachspezifische Regeln, die diese Defaults überschreiben.
2.2.2 Lexikalisches Lernen Bei der Modellierung des lexikalischen Lernens besteht die Lernaufgabe darin, unbekannte Wörter, die innerhalb eines sprachlichen Kontextes (einem Satz oder einer Phrase) auftreten, als solche zu identifizieren und neue Lexikoneinträge für diese Wörter zu erstellen (zur Einführung in die Problematik vgl. Zernik 1989). Bestehende Ansätze auf diesem Gebiet sind teilweise in einen kognitiven Rahmen eingebettet und haben die Simulation des menschlichen lexikalischen Erwerbs zum Ziel. Andere Ansätze sind nicht kognitiv motiviert, sondern Bestandteil eines Sprachverarbeitungssystems, welches grundsätzlich die Möglichkeit der Behandlung unbekannter Wörter benötigt, um robust zu sein. Unabhängig davon, ob ein System kognitiv motiviert ist oder nicht, sollte jedes sprachverarbeitende System die Behandlung unbekannter Wörter berücksichtigen, da die Bildung neuer Wörter ein typisches Merkmal
12
natürlicher Sprache ist und ein Lexikon daher nie vollständig sein kann (vgl. Kilbury/Naerger[Barg]/Renz 1992). Diejenigen Ansätze, die den lexikalischen Erwerb beim Menschen simulieren, unterscheiden sich darin, ob der Erstspracherwerb von Kindern oder die Verarbeitung unbekannter Wörter bei einem Erwachsenen modelliert werden soll. Für die beiden Fragestellungen sind grundsätzlich unterschiedliche Vorgehensweisen erforderlich. Beim Erstspracherwerb geht der lexikalische Erwerb gleichzeitig mit dem Erwerb von anderem linguistischen Wissen (syntaktisches Wissen, morphologisches Wissen etc.) einher. Daher wird für die Simulation des Erwerbs ein übergreifender Ansatz benötigt, der die unterschiedlichen Aspekte behandelt und miteinander in Verbindung bringt. Beim lexikalischen Erwerb von Erwachsenen kann dahingegen von einer vollständigen Grammatik ausgegangen werden, und die Lernaufgabe besteht in der Erweiterung des Wortschatzes, wobei auf das vorhandene linguistische Wissen zugegriffen werden kann. Während bei Kindern alle Wörter unbekannt sein können, sind die Möglichkeiten bei einem Erwachsenen eingeschränkter. Eine Restriktion beruht auf der Unterscheidung von offenen und geschlossenen Wortklassen. 3 Nur Wörter, die zu einer offenen lexikalischen Klasse gehören, können unbekannt sein, während alle Elemente der geschlossenen Wortklassen als bekannt vorausgesetzt werden. So können beispielsweise keine neuen Artikel oder Pronomen auftreten. Ein Wort wird von einem System dann als unbekannt erachtet, wenn kein geeigneter Lexikoneintrag für dieses Wort gefunden wird. Dies kann verschiedene Ursachen haben. Zum einen ist es möglich, daß ein Lexikoneintrag für das betreffende Wort völlig fehlt, was beispielsweise bei Neologismen oder Fremdwörtern der Fall ist. Eine andere Möglichkeit besteht darin, daß zwar ein Lexikoneintrag vorhanden ist, dieser jedoch nicht adäquat für das betrachtete Wort ist. Dies ist beispielsweise bei neuen Wortbedeutungen, Bedeutungsverschiebungen u.ä. der Fall. Einige der Systeme, die mit unbekannten Wörtern umgehen, beinhalten keine eigenständige Komponente für diese Aufgabe und sind daher nicht als Systeme des Maschinellen Lernens zu verstehen. Kilbury, Naerger[Barg] und Renz (1992, 1994) gehen beispielsweise von der Annahme aus, daß die Verarbeitung unbekannter Wörter grundsätzlich den gleichen Prinzipien unterliegt wie die Verarbeitung natürlicher Sprache im allgemeinen. Trifft das System auf ein unbekanntes Wort, wird alle aus dem Kontext erschließbare Information über das unbekannte Wort gesammelt und aufgrund dieser ein neuer Lexikoneintrag für das Wort erstellt. Da das System unifikationsbasiert arbeitet, wird das Zusammentragen der Information bei der Verarbeitung der Eingabe mittels Unifikation stets geleistet (auch bei ausschließlich bekannten Wörtern) und es ist daher keine eigenständige Komponente für die Erschließung von Information über unbekannte Wörter notwendig. Je nach der vorhandenen Information (der bestehenden Lexikoneinträge und Grammatikregeln) können auf diese Weise Informationen aller
Als geschlossene Wortklassen werden normalerweise Funktionswörter wie Konjunktionen, Artikel oder Pronomen erachtet. Dahingegen werden Substantive, Verben, Adjektive und Adverbien grundsätzlich als offene Wortklassen betrachtet, wobei jedoch beispielsweise semantisch bedingte Restriktionen gelten.
13 linguistischen Ebenen aus dem sprachlichen Kontext erschlossen werden. Einen ähnlichen, ebenfalls unifikationsbasierten Ansatz verfolgen Lytinen und Roberts (1989). Andere Systeme verwenden bereits etablierte Verfahren des Maschinellen Lernens für den Erwerb neuer Lexikoneinträge. Bei Zernik (1987a, 1987b) wird ein hierarchisches Lexikon als Ergebnis des Parsings aufgebaut. Die Lernaufgabe besteht in der richtigen Plazierung neuer Wörter und Phrasen innerhalb dieser Hierarchie und einer damit verbundenen Verfeinerung der Hierarchie. Für diese Aufgabe verwendet Zernik einen von Mitchell (1982) vorgeschlagenen Algorithmus, der die Hierarchie als Suchraum betrachtet und die richtige Plazierung als Suchproblem auffaßt. Die Operationen der Generalisierung und Spezialisierung spielen hierbei entscheidende Rollen. Wilensky (1990) verwendet eine Form des Lernens durch Analogie, um neue Wortbedeutungen zu erschließen. Das Verfahren wird zunächst auf Metaphern angewendet, dann auf andere Phänomene ausgedehnt. Viele Ansätze sind auf den Erwerb bestimmter Aspekte lexikalischer Information eingeschränkt. Webster und Marcus (1989) beschäftigen sich beispielsweise mit dem Erwerb von Verbbedeutungen aufgrund syntaktischer Rahmen. Rayner, Hugosson und Hagert (1988) beschränken sich auf das Erlernen der syntaktischen Kategorie, wobei jedoch das gesamte Lexikon erlernt wird, d.h. zunächst alle Wörter (auch die Funktionswörter) unbekannt sind.
2.2.3 Erwerb morphologischen Wissens Während die meisten Systeme zum lexikalischen Erwerb von einer vollständigen Morphologie ausgehen, hat eine Reihe von Lernsystemen gerade den Erwerb von morphologischem Wissen zum Ziel. Die meisten dieser Systeme haben nicht den Anspruch der kognitiven Adäquatheit, da sie anwendungsbezogen, d.h. im Hinblick auf den Einsatz in einem praktischen System, konzipiert wurden. Der Lerninput solcher Systeme besteht in der Regel aus Beispielpaaren, zwischen denen eine morphologische Beziehung besteht, wie etwa Singularform und Pluralform eines Substantivs. Die Beispieldaten können hierbei in der Regel einer beliebigen Sprache angehören, d.h. das Lernsystem ist sprachunabhängig. Ziel ist es, die morphologischen Beziehungen der Eingabedaten in Form von morphologischen Regeln zu erfassen, die definieren, in welcher Beziehung der zweite Teil des Paares zu dem ersten steht, d.h. wie der zweite Teil aus dem ersten gewonnen wird. Während die Lernstrategie selbst sprachunabhängig ist, spiegeln die erlernten Regeln morphologische Beziehungen der Sprache der Beispieldaten wider. Diese Regeln werden dann auf neue Daten der gleichen Sprache (mit nur einem Teil des Paares) angewendet, so daß beispielsweise abgeleitete oder flektierte Formen generiert werden. Die Algorithmen zum Erwerb morphologischer Regeln sind größtenteils regelbasiert, wobei die Regeln Substitutionsanweisungen darstellen. Darüberhinaus existieren Generalisierungsregeln, die die erlernten Regeln — wenn möglich — zu generelleren zusammenfassen. Während bei Wothke (1986) die Substitutionen lediglich Präfixe und Suffixe betreffen, d.h. Veränderungen am Wortanfang und/oder Wortende aufdecken, können Zhang und Kim (1990) auch Infixe behandeln. Letzterer Ansatz ist auch in anderen Aspekten überlegen. Während Wothkes Algorithmus ausschließlich graphemische Information nutzt, berücksichtigen Zhang
14 und Kim darüberhinaus auch phonologische und syntaktische Informationen, was zu elaborierteren Regeln führt.. Außerdem müssen die erlernten morphologischen Regeln bei Wothke nach Generalität geordnet werden, damit spezifischere Regeln zuerst angewendet werden. Diese Ordnung ist bei Zhang und Kim nicht erforderlich, da die morphologische Synthese-Komponente die richtige Auswahl einer Regel leistet. Neben diesen regelbasierten, symbolischen Ansätzen gibt es auch innerhalb des konnektionistischen Paradigmas Arbeiten zum Erwerb morphologischen Wissens. So entwickelten Rumelhart und McClelland ein konnektionistisches Netz, das lernt, englische Verben auf ihre Past-Tense-Formen abzubilden (Rumelhart/McClelland 1986, siehe auch Dorffner 1991).
2.2.4 Erwerb phonologischen Wissens Eine Reihe von Arbeiten beschäftigt sich mit dem Erwerb von phonologischem Wissen. Oakey und Cawthorn (1981) stellen ein System vor, mit dem Ausspracheregeln erlernt werden. Ausgehend von 26 Ausgangsregeln (für jeden Buchstaben des Englischen eine Ausspracheregel) werden Hypothesen für die Aussprache von englischen Wörtern generiert. Diese Hypothesen werden dann mit der Lautschrift in einem konkreten Wörterbuch verglichen. Abweichungen führen zur Erstellung neuer, sehr spezieller Regeln. Durch Ähnlichkeitsüberprüfungen werden spezielle Regeln zu allgemeineren generalisiert. Erneute Eingabe derselben Wörter führt schließlich zur Stabilisierung des Systems. Viele Arbeiten behandeln den Erwerb von Betonung. So entwickelten Dresher und Kaye (1990) im Rahmen der Prinzipien- und Parameter-Theorie (Chomsky 1981) ein Modell zum Erlernen von Betonung. Die vorausgesetzte Universalgrammatik besteht in der Metrischen Theorie und das Erlernen der Betonung in dem Setzen der Parameter dieser Theorie. Durieux (1992) und Daelemans/Gillis/Durieux (1994) beschäftigen sich wie Dresher und Kaye ebenfalls mit dem Erwerb von Betonung (von holländischen Simplizia). Sie verwenden jedoch datenorientierte Lernmethoden, die an keine linguistische Theorie gekoppelt sind. Der in Daelemans/Gillis/Durieux (1994) verwendete Ansatz basiert auf Ähnlichkeiten der Eingabedaten. Im Gegensatz zu anderen Lernverfahren wird über den Eingabedaten nicht abstrahiert (d.h. es entstehen keine Regeln, Entscheidungsbäume o.ä.), sondern die Eingabedaten dienen selbst zur Klassifikation neuer Daten. Die Ergebnisse zeigen, daß die wesentlichen Generalisierungen der Domäne erlernt werden, wie beispielsweise die Tatsache, daß holländische Wörter, deren letzte Silbe ein Schwa enthält, grundsätzlich auf der vorletzten Silbe betont werden. Darüberhinaus wird die Auswirkung verschiedener Repräsentationen (mit unterschiedlich starkem theoretischen Vorwissen) der Eingabedaten auf die Lernergebnisse untersucht. Hierbei zeigt sich, daß die besten Ergebnisse bei einer rein phonologischen Repräsentation ohne zusätzliches theoretisches Vorwissen, wie es beispielsweise in dem Ansatz von Dresher und Kaye (1990) verwendet wird, erzielt werden. Für das Erlernen von phonologischem Wissen werden häufig auch konnektionistische Lernverfahren eingesetzt. Bekannt ist hier vor allem das von Sejnowski und Rosenberg entwickelte System NETTALK (Sejnowski/Rosenberg 1987, siehe auch Dorffner 1991). Dieses konnektionistische Netz lernt die Abbildung von geschriebenem englischen Text
15 (Worte) in seine entsprechende Aussprache (zunächst Phoneme, die dann akustisch umgesetzt werden). Hierbei wird jeweils ein Buchstabe, unter Berücksichtigung des linken und rechten Kontextes des betrachteten Buchstabens, in ein Phonem abgebildet. Die Performanz des Systems steigt langsam aber stetig mit zunehmender Anzahl an Beispielen, wobei häufig vorkommende Buchstabensequenzen schneller erlernt werden. Nach der Trainingsphase können auch neue Wörter korrekt ausgesprochen werden. Das System wurde erfolgreich für das Deutsche nachgebildet (Dorffner 1991). Ellison (1992) schlägt ein System zum Erlernen von Vokalharmonie vor, das auf der Methode des simulated annealing basiert. 4 Dieses heuristische Verfahren minimiert das Risiko anderer heuristischer Suchstrategien, vorzeitig in einem lokalen Minimum zu verharren und liefert so global gute (nahezu optimale) Lösungen. Ellison zeigt, wie die Harmoniesysteme von vier Sprachen erfolgreich gelernt werden, und daß das System erkennt, wenn eine Sprache keine Vokalharmonie aufweist.
2.2.5 Erwerb von linguistischen Klassen Neben dem Erwerb von Beschreibungen linguistischer Phänomene in Form von Regeln (z.B. Grammatikregeln, morphologische Regeln) oder Klassifizierung einzelner Objekte in eine bestehende Taxonomie, gibt es auch Ansätze, die eine gegebene Menge von nicht vorklassifizierten Objekten (typischerweise Beschreibungen von Wörtern) in entsprechende Klassen gruppieren, wobei die Klassen selbst nicht gegeben sind. Wie in Kap. 2.1 erwähnt, ist der Erwerb von solchen Klassen ein Zweig des Maschinellen Lernens (Lernen durch Beobachtung und Entdeckung), für den bereits Lernalgorithmen entwickelt wurden. Diese Strategien wurden zum Teil auch auf linguistische Fragestellungen angewendet. Hindle (1990) verwendet ein Clustering-Verfahren, um semantische Klassen für Substantive zu inferieren. Die Substantive werden über ihr Vorkommen als Komplemente von Verben (Subjekt oder Objekt) in konkreten Korpora charakterisiert. Diejenigen Substantive, die in ähnlichen Umgebungen auftreten, werden gemeinsam gruppiert. Obwohl dieses Ähnlichkeitsmaß ausschließlich syntaktische Kriterien berücksichtigt, werden für etliche Substantive semantisch plausible Klassen induziert. Mit dem Ansatz werden allerdings weder linguistische Beschreibungen für die erworbenen Klassen generiert, noch können Hierarchien von Klassen erworben werden. Diese Einschränkungen gelten für die Arbeit von Pereira/ Tishby/Lee (1993) nicht. Auch hier wird ein Clustering-Verfahren verwendet, um Wörter gemäß ihrem syntaktischen Kontext in Bedeutungsklassen zu gruppieren. Speziell wird die Klassifizierung von Substantiven, die den Kopf des direkten Objektes eines transitiven Verbs bilden, untersucht. Im Gegensatz zu Hindle können mit diesem Ansatz Hierarchien von semantischen Klassen erworben werden.
4
Seinen Namen verdankt dieses Verfahren einer Analogie aus der Metallurgie. Hier wird der Erstarrungsprozeß von Metallen durch Wärmezufuhr verlangsamt, um so die Ausbildung besserer (energieärmerer) Gitterstrukturen der Atome zu erreichen.
16 Während auch in dem letztgenannten Ansatz lediglich syntaktische Information für die Einteilung in semantische Klassen berücksichtigt wird, verwenden Basiii, Pazienza und Velardi (1993) semantische Information als Input für eine ähnliche Lernaufgabe. In dieser Arbeit werden Verbtaxonomien durch Beobachtungen von Verbverwendungen in Korpora erworben. Da die Argumentstrukturen von Verben als zentral für deren Semantik erachtet werden, werden im Lerninput die konkreten Verbverwendungen durch die thematischen Rollen der Verbargumente repräsentiert, welche halb-automatisch aus den Korpora gewonnen werden. Zur Durchführung der Lernaufgabe wird eine modifizierte Version des Systems C O B W E B (Fisher 1987) verwendet, das jedoch an die speziellen linguistischen Anforderungen angepaßt werden mußte. Die erworbenen Hierarchien werden zwar als ausdrucksstark beurteilt, jedoch als zu fein strukturiert erachtet, um sie beispielsweise als Typhierarchie in einem Sprachverarbeitungssystem zu verwenden. Daher werden die erworbenen Hierarchien dazu verwendet, um aus ihnen diejenigen Klassen zu extrahieren, die die meiste linguistisch relevante Information enthalten ("basic level classes"). Diese Klassen können als zusätzliche Informationsquelle neben den linguistischen Intuitionen dienen.
3 Verwendung von Defaults in der Computerlinguistik
Eine adäquate Repräsentation linguistischer Information unterliegt einer Reihe von Anforderungen. Neben einer Notation, die sowohl für einen Computer angemessen als auch für einen menschlichen Benutzer verständlich sein sollte, ist eine der wichtigsten Anforderungen hierbei, daß die Information so strukturiert ist, daß Beziehungen und Zusammenhänge, die zwischen linguistischen Objekten bestehen, abgebildet werden können. Weiterhin sollten Generalisierungen, die über diese Zusammenhänge aufgestellt werden können, repräsentiert werden, was eine Minimierung der Redundanz zur Folge hat. Diese Anforderungen haben sich in den in der Computerlinguistik verwendeten Repräsentationsformalismen weitgehend niedergeschlagen. Die meisten linguistischen Generalisierungen haben jedoch keine uneingeschränkte Gültigkeit, sondern sind durch Ausnahmen gekennzeichnet. In vielen bestehenden linguistischen Formalismen können solche Ausnahmen nicht repräsentiert werden, ohne einen großen Teil der Generalisierungen einzuschränken oder ganz aufzugeben. Um dies zu vermeiden und Generalisierungen mit ihren Ausnahmen einheitlich zu repräsentieren, bietet sich die Verwendung von Defaults (Standardannahmen) an. Mit Hilfe von Defaults können gerade solche linguistischen Beziehungen beschrieben werden, die im allgemeinen gelten, für die es aber auch Ausnahmen gibt. Sprachliche Phänomene, die sich am besten mit Hilfe von Defaults beschreiben lassen, finden sich in allen linguistischen Bereichen (vgl. die Zusammenstellung von Gazdar 1987). Diese Erkenntnis ist nicht neu, und viele linguistische Theorien beinhalten daher die Verwendung einer Form von Defaults zur Beschreibung linguistischer Phänomene, wie z.B. DefaultPrinzipien, Default-Regeln oder Default-Werte. Die Vorstellung von Defaults war zunächst vor allem in phonologischen und morphologischen Arbeiten anzutreffen (z.B. Chomsky/Halle 1968), sie sind später aber auch in syntaktische Beschreibungen eingegangen. In jüngster Zeit ist es vor allem die Strukturierung des Lexikons, für die die Verwendung von Defaults von vielen Linguisten als unerläßlich erachtet wird. Im Lexikon spielen Ausnahmen und Subregularitäten eine große Rolle, da die meisten unregelmäßigen Lexeme nicht völlig irregulär sind, sondern z.T. regelmäßig und nur in bestimmten Eigenschaften abweichen. Da solche irregulären und subregulären Beziehungen zentral für die Beschreibung des Lexikons sind, sollten sie leicht darstellbar sein. Mit den in linguistischen Theorien anzutreffenden Vorstellungen von Defaults ist jedoch meist keine wohldefinierte Semantik verbunden, so daß ihr Status oft unklar bleibt. Ein Grund für das Fehlen einer formalen Semantik ist die Tatsache, daß die Repräsentation und Verarbeitung von Default-Information notwendigerweise Mittel erfordert, die eine Form von NichtMonotonie beinhalten. Der Begriff der Nicht-Monotonie stammt aus der Logik und bezeichnet solche Logiken, bei denen zulässige Schlüsse durch Hinzufugen von weiteren Fakten unter Umständen nicht mehr gültig sind. Die Nicht-Monotonie ist auch dafür verantwortlich, daß die Repräsentation von Default-Information mit vielen bestehenden Formalismen inkompatibel ist, da sich aktuelle computerlinguistische Formalismen, wie beispielsweise die unifikationsba-
18 sierten Ansätze (vgl. Shieber 1986a), unter anderem durch monotone Verarbeitungsstrategien auszeichnen. Daher ist es nicht unproblematisch, Default-Mechanismen in solche linguistischen Formalismen zu integrieren. Dennoch wurden verschiedene Versuche unternommen, grundsätzlich monotone Formalismen um nicht-monotone Operationen zu erweitern (s. 3.1). Eine andere Möglichkeit, Default-Information zu repräsentieren, besteht darin, von vornherein einen nicht-monotonen Formalismus zu wählen, der über einen eingebauten Default-Mechanismus verfugt (s. 3.2).
3.1
Nicht-monotone Erweiterungen unifikationsbasierter Formalismen
Die meisten in der neueren Computerlinguistik verwendeten Formalismen entstammen dem Unifikationsparadigma (vgl. Shieber 1986a). Der Datentyp dieser Formalismen ist die Merkmalsstruktur, und die zentrale Operation auf Merkmalsstrukturen ist die Unifikation. Obwohl die Unifikation eine rein monotone Operation ist, gibt es verschiedene Ansätze, nicht-monotone Mechanismen in unifikationsbasierte Formalismen zu integrieren, um die Expressivität des Formalismus dahingehend zu erweitern, daß Ausnahmen und Subregularitäten erfaßt werden können, ohne die Repräsentation von Generalisierungen einzuschränken. Die meisten Erweiterungen weisen jedoch Mängel auf. Viele sind auf bestimmte linguistische Phänomene beschränkt und damit sehr restringiert in ihrer Anwendbarkeit, andere haben unerwünschte Eigenschaften des Gesamtformalismus zur Folge. Fast alle Ansätze kombinieren eine Merkmalsstruktur FS, die strikte, d.h. nicht anfechtbare Information enthält, mit einer Merkmalsstruktur FSD, die Default-Information enthält (vgl. jedoch Lascarides/Briscoe/Asher/Copestake (im Druck), in deren Ansatz eine Merkmalsstruktur sowohl strikte als auch anfechtbare Information enthält). Diese Kombination wird entweder durch eine zusätzliche, nicht-monotone Operation oder durch eine nicht-monotone Variante der Unifikation geleistet. Bei der nicht-monotonen Kombination der beiden Merkmalsstrukturen trägt FSD all diejenige Information zu FS bei, die nicht im Widerspruch zu ihr steht, d.h. die Operation ist monoton in bezug auf FS. Daher wird die Ergebnismerkmalsstruktur von FS, nicht jedoch notwendigerweise von FSD subsumiert, wie das Beispiel in (3-1) zeigt. (Das Symbol u d steht hierbei für Default-Unifikation.) Im Unterschied dazu wird die Ergebnismerkmalsstruktur bei herkömmlicher Unifikation von beiden unifizierten Merkmalsstrukturen subsumiert, oder die Unifikation scheitert. (3-1)
NICHT-MONOTONE UNIFIKATION
FS
F: a G: b H: c
FSD
LL
Ergebnis
'F-. G: H: I:
a b c e
19 Im einfachsten Fall, wie dem in (3-1) abgebildeten, fügt FSD nur Pfade mit atomaren Werten zu FS hinzu. Bei der Kombination komplexer Strukturen und insbesondere im Zusammenhang mit Vindizierten Werten können sich Probleme ergeben, die daraus resultieren, daß FSD verschiedene Informationen enthält, die zwar allein genommen mit FS kompatibel sind, aber gemeinsam zu Unifikationskonflikten fuhren. Das Beispiel in (3-2) (aus Carpenter 1993) illustriert einen solchen Fall (Koindizierung ist, wie allgemein üblich, durch Boxen mit Zahlen repräsentiert). Das alleinige Hinzufugen der Koindizierung in FSD oder des Pfades G: b ist kompatibel mit FS. Die Kombination dieser beiden Informationsteile fuhrt jedoch zu einem Konflikt mit FS. Es können grundsätzlich zwei verschiedene Strategien unterschieden werden, mit diesem Problem umzugehen (vgl. Carpenter 1993). Zum einen kann das Ergebnis der Default-Unifikation aus einer Menge von Merkmalsstrukturen bestehen, in denen jeweils die kompatiblen Teile unifiziert sind ((3-2) (a)). Diese Vorgehensweise wird gutgläubige (engl, "credulous") Default-Unifikation genannt. Im Gegensatz dazu beinhaltet das Ergebnis der skeptischen Vererbung ((3-2) (b)) lediglich diejenigen Informationen, die in allen Ergebnissen der gutgläubigen Default-Unifikation enthalten sind (d.h. die Generalisierung über den Ergebnissen der gutgläubigen Default-Unifikation). 1 (3-2)
GUTGLÄUBIGE VS. SKEPTISCHE DEFAULT-UNIFIKATION
FS
FSD
[Fi a]
(a)
Fi
mb
Gi
m
Hi
c
GUTGLÄUBIGE DEFAULT-UNIFIKATION
Fi a Gl b Hl c
/
Fi
ffla
Gi
HL
Hi
c
Die Unterscheidung zwischen gutgläubigen und skeptischen Vorgehensweisen stammt aus der Literatur zu nicht-monotonen Vererbungsnetzen (vgl. Touretzky/Horty/Thomason 1987).
20 (b)
SKEPTISCHE
DEFAULT-UNIFIKATION
Fi a G: X Hi C Das gravierendste Problem im Zusammenhang mit dieser Art von Default-Unifikation ergibt sich dadurch, daß eine gegebene Merkmalsstruktur normalerweise mit mehreren anderen Merkmalsstrukturen (und nicht nur mit einer, wie in dem Beispiel (3-2)) unifiziert wird, da Informationen von verschiedenen Quellen stammen können. J e nachdem, in welcher Reihenfolge diese Merkmalsstrukturen miteinander unifiziert werden, kann das Ergebnis einer Default-Unifikation variieren, wie das Beispiel in (3-3) deutlich macht. Wird, wie in (a), FS zuerst mit FSD, unifiziert, trägt F S D , den Pfad I:e (die einzige Information, die mit FS kompatibel ist) zum Ergebnis der Default-Unifikation bei. Diese Information ist nun Teil von FS und damit nicht mehr anfechtbar. Aus diesem Grund kann keine Information von FSD 2 default-unifiziert werden, da FSD 2 keine Information enthält, die nicht widersprüchlich zu F S ist. Die umgekehrten Verhältnisse gelten, wenn FS zuerst mit FSD 2 unifiziert wird (Fall (b)). Diese Abhängigkeit von der Reihenfolge der Default-Unifikationen widerspricht dem deklarativen Charakter von unifikationsbasierten Ansätzen, der gerade dadurch zum Ausdruck kommt, daß die Reihenfolge, in der Merkmalsstrukturen unifiziert werden, keine Auswirkungen auf das Ergebnis hat. (3-3)
(a)
(b)
REIHENFOLGEABHÄNGIGE ERGEBNISSE BEI DER
FS
FSD,
FSD 2
F: a H: c
Fi d Ii e
Ft d Ii X
FS
FS
uH FSD,
u d FSD 2
=
u d FSD 2
=
Fi a H-. c Ud FSD, Ii X
DEFAULT-UNIFIKATION
=
=
Fi a Hi c Ii X
21 Die konkreten Ansätze, die eine solche nicht-monotone Operation in einen unifikationsbasierten Formalismus integrieren, beschränken die Anwendung der Operation entweder auf bestimmte Fälle, machen zusätzliche Annahmen über die Reihenfolge der Unifikationen oder haben keine Lösung für die potentiellen Probleme. Shieber (1986a) erwähnt für den PATR-II Formalismus die Operation overwriting zusätzlich zur Unifikation. Obwohl die Sichtweise auf die Operation hier entgegengesetzt ist (Information wird nicht von einer Default-Merkmalsstruktur zugefügt, sondern in der DefaultMerkmalsstruktur durch die Operation überschrieben), handelt es sich um eine Default-Unifikation der oben beschriebenen Art. Abgesehen von der Tatsache, daß die Operation auf atomare Werte eingeschränkt ist und somit nicht für beliebige Merkmalsstrukturen verwendet werden kann, besteht das Problem der Reihenfolgeabhängigkeit, für das Shieber keine Lösung vorschlägt. Auch Karttunen verwendet eine solche overwriting Operation in seiner Implementation des PATR-II Formalismus, dem System D-PATR (Karttunen 1986). Russell, Carroll und Warwick-Armstrong (1991) verwenden eine Form der Default-Unifikation für die Repräsentation eines hierarchischen Lexikons in ihrem unifikationsbasierten Formalismus. Hierbei erben Klassen niedrigerer Ebenen per Default die Information ihrer übergeordneten Klassen. Das Problem der Reihenfolgeabhängigkeit wird dadurch gelöst, daß Information in spezifischeren Klassen in der Hierarchie Vorrang vor der allgemeinerer, übergeordneter Klassen hat. Bei Vererbung von Information von mehreren Klassen der gleichen Ebene muß explizit die Präzedenz der Klassen angegeben werden (priorisierte multiple Vererbung, vgl. Evans/Gazdar/Moser 1993). Im Rahmen eines Ansatzes zur Compilierung von Grammatikfragmenten der Generalisierten Phrasenstruktur-Grammatik (GPSG) (Gazdar/Klein/Pullum/Sag 1985) in PATR-II formuliert Shieber (1986b) die nicht-monotone Operation add conservatively für die Behandlung der GPSG-Defaults. Diese Operation fügt eine Pfadgleichung zu einer PATR-Regel hinzu, wenn die Gleichungen der Regel dadurch nicht unlösbar werden. Andernfalls wird eine schwächere Menge von Gleichungen (mit der Operation add conservatively) hinzugefugt. Das Beispiel in (3-4) zeigt die Modellierung der headfeature Convention (HFC) durch der Operation add conservatively (aus Shieber 1986b). 2 (Anstelle der Pfadgleichungen von PATR-II sind hier die entsprechenden Merkmalsstrukturen aufgeführt.) Die Pfadgleichung (b) kann der Regel (a) nicht zugefugt werden, da dies zu einer Inkonsistenz (bzgl. Merkmal subj) führen würde. Stattdessen wird die schwächere Menge von Pfadgleichungen in (c) hinzugefügt, was zu einer konsistenten Merkmalsstruktur (d) führt. So werden lediglich diejenigen headMerkmale unifiziert, die sich nicht widersprechen, was einer Modellierung der HFC entspricht.
Die head feature convention ist in der GPSG ein Default-Prinzip, das die head-Merkmale einer Mutter und diejenigen ihrer Kopftochter unifiziert, sofern diese sich nicht widersprechen.
22 (3-4)
(a)
ADD CONSERVATIVELY
X0
X„ X2
(b)
=
n: + v: 2 bai: + subj [bar: 2]] subj —
head:
(c)
= = =
head:
n:
ffl
v:
El
bar:
X2: head:
X2: [head:
m
v:
0 dl
m
]
(d)
X0:
El]]
n:
bar:
[head: ffl
X
X2:
head:
n:
QT
v:
(2 +
bar:
El 2
subj : + [head [bar: 2]]
head:
n:
ffl
v:
[21
bar: subj :
Obwohl in der GPSG verschiedene Begriffe von Default eine Rolle spielen, verwendet Shieber die Operation sowohl für die feature specification defaults (FSDs) als auch für die universellen Merkmalsinstantiierungsprinzipien der GPSG, wie etwa die HFC. So erreicht er eine einheitliche Behandlung der GPSG-Defaults. Allerdings ist add conservatively auf die GPSG zugeschnitten und daher restringiert in ihrer Anwendbarkeit. Wie Bouma (1992) zeigt, ist die Operation nicht auf beliebige Merkmalsstrukturen anwendbar. Auch für die Lexical Functional Grammar (LFG) (Bresnan/Kaplan 1982) macht Kaplan (1987) einen Vorschlag zur Behandlung von Defaults. Er ergänzt die Beschreibungssprache für F-Strukturen um einen nicht-monotonen Operator. Die mit ihm durchgeführte Operation, die priority union, ist eine Form der skeptischen Default-Unifikation. Sie ist aber nicht auf beliebige Merkmalsstrukturen anwendbar, da sie für Merkmalsstrukturen mit Koindizierungen nicht definiert ist.
23 Im Gegensatz zu den bisher angeführten Vorschlägen formulieren Bouma (1990,1992) und Carpenter (1993) nicht-monotone Unifikationsoperationen, die auf beliebige Merkmalsstrukturen anwendbar sind. Beide Operationen sind skeptische Ansätze, liefern aber dennoch unter Umständen verschiedene Ergebnisse. Diese resultieren aus einer unterschiedlichen Behandlung von Merkmalsstrukturen mit Koindizierungen. Wie Carpenter zeigt, hat Boumas Formulierung den Nachteil, daß das Ergebnis der Default-Unifikation zweier völlig kompatibler Merkmalsstrukturen nicht mit dem Ergebnis der Standard-Unifikation übereinstimmt. Grundsätzlich gelten sowohl für Boumas default unification als auch für Carpenters skeptical default unification die oben erläuterten Auswirkungen der Reihenfolge, in der Merkmalsstrukturen unifiziert werden, auf das Ergebnis. Allerdings verwendet Carpenter die oben erwähnte Strategie von Russel/Carroll/Warwick-Armstrong (1991), um die Reihenfolge der Operationsanwendungen festzulegen. Der einzige uns bekannte Ansatz, der explizit im Hinblick auf Reihenfolgeunabhängigkeit definiert ist, ist die persistent typed default unification von Lascarides/Briscoe/Asher/Copestake (im Druck). Anders als in den zuvor beschriebenen Ansätzen, enthält hier eine Merkmalsstruktur sowohl strikte als auch anfechtbare Informationen, die jeweils als solche gekennzeichnet sind. Dadurch wird verhindert, daß — wie in den anderen Ansätzen — anfechtbare Information durch die Unifikation mit strikter Information selbst strikt wird. Voraussetzung für die Anwendbarkeit der Operation ist ein Verband getypter Merkmalsstrukturen, da bei der Unifikation der anfechtbaren Information derjenigen Information, die von einem spezifischeren Typ stammt, Vorrang gegeben wird. Unklar ist jedoch, welche Information bei Typen, die nicht in einer Ordnungsrelation stehen, gewinnt.
3.2
Nicht-monotone Vererbungsnetze
Eine Alternative zur Erweiterung eines monotonen Formalismus um nicht-monotone Operationen besteht in der Verwendung eines Formalismus, bei dem Defaults ein zentraler Bestandteil sind. Ein Teil der Formalismen zur Repräsentation von Vererbungsnetzen (auch Semantische Netze genannt) erfüllt diese Anforderung. 3 Während Vererbungsnetze in der Künstlichen-Intelligenz-Forschung (KI) schon seit geraumer Zeit zur Wissensrepräsentation eingesetzt werden, ist innerhalb der Linguistik erst in neuerer Zeit verstärktes Interesse an diesen Formalismen zu verzeichnen. Vererbungsnetze sind beschriftete gerichtete Graphen, die eine intuitive Möglichkeit bieten, Wissen zu strukturieren. Die Knoten dieser Graphen repräsentieren Individuen oder Klassen (auch Objekte, Konzepte, Frames u.ä. genannt), mit denen für sie spezifische Eigenschaften
Dies gilt auch für Frame-basierte Wissensrepräsentationsformalismen (vgl. etwa Flickinger/ Pollard/Wasow 1985, D e Smedt/de Graaf 1990) und objekt-orientierte Programmiersprachen (vgl. De Smedt 1984, Daelemans 1988). Da diese Formalismen viele Gemeinsamkeiten mit Vererbungsnetzen haben und auch in der Literatur meist gemeinsam mit diesen behandelt werden, werden sie hier nicht gesondert vorgestellt.
24 (in Form von Rollen, Slots, Attributen u.ä.) verknüpft sind.4 Kanten repräsentieren Beziehungen, die zwischen den Klassen bestehen. Die zentrale Beziehung, die die meisten Vererbungsnetze aufweisen, ist hierbei die Subsumtionsrelation zwischen Unter- und Oberklasse, die als IS-A-Beziehung in die Literatur eingegangen ist. Diese Beziehung besagt, daß eine Klasse, welche durch eine ZS1-^-Kante mit einer anderen Klasse verbunden ist, zusätzlich zu den für sie typischen Eigenschaften alle Eigenschaften dieser übergeordneten Klasse aufweist. Dies gewährleistet ein mit dem Formalismus verbundener Inferenzmechanismus, der Vererbung als zentrale Inferenzstrategie verwendet. Die Eigenschaften von Oberklassen werden deren Unterklassen vererbt (daher auch der Name Vererbungsnetze). Durch solche IS-A -Kanten läßt sich eine hierarchische Netzstruktur (Taxonomie) aufbauen, die Generalisierungen erfaßt und Redundanzen vermindert. Manche Formalismen für die Repräsentation Semantischer Netze lassen darüberhinaus noch andere Beziehungen zwischen Klassen zu, wie beispielsweise ISPART-OF oder HAS-PROPERTY. Unter dem Begriff Vererbungsnetz wird eine Vielzahl von Formalismen subsumiert, die sich in verschiedenen Eigenschaften voneinander unterscheiden (vgl. hierzu Touretzky 1986, Touretzky/Horty/Thomason 1987). Wie bereits erwähnt, sind dies zum einen die möglichen Verbindungskanten zwischen Klassen. Viele Formalismen erlauben lediglich die Repräsentation hierarchischer Beziehungen, manche beinhalten auch andere Relationen, einige lassen auch negierte Kanten zu (bipolare Netze). Neben der Art der Kanten ist das wichtigste Unterscheidungskriterium das der Art der zugelassenen Vererbung. Die einfachsten Semantischen Netze erlauben für jeden Knoten lediglich eine Kante zu einem übergeordneten Knoten. Dadurch werden keine Netze im eigentlichen Sinn, sondern Bäume repräsentiert, weshalb solche Netze auch baumstrukturiert genannt werden. Kann ein Knoten von mehr als einem übergeordneten Knoten erben, spricht man von multipler Vererbung (Mehrfachvererbung), und es handelt sich um ein echtes Netz. Die Vererbungsbeziehungen kann man weiterhin danach unterscheiden, ob sie strikt (monoton) oder anfechtbar (nicht-monoton) sind. Bei strikter Vererbung erben Unterklassen alle Eigenschaften ihrer Oberklassen und dürfen keine widersprüchlichen Eigenschaften enthalten. Im Gegensatz dazu erlauben andere Netze das prinzipielle Anfechten von Vererbungskanten. In solchen Netzen können Unterklassen Eigenschaften aufweisen, die denen ihrer Oberklassen widersprechen. In diesem Fall hat die Information der Unterklasse Priorität und kann die der Oberklasse in diesem Sinne "überschreiben". Solche Netze werden Default-Vererbungsnetze (auch nicht-monotone Vererbungsnetze) genannt, und es ist diese Klasse von Netzen, die für die vorliegende Arbeit von Interesse ist. Nur Netze mit anfechtbaren Kanten können Default-Wissen und damit auch Ausnahmen und Subregularitäten repräsentieren. Lassen Netze sowohl multiple Vererbung als auch Default-Vererbung zu, kann dies zu Vererbungskonflikten führen, da unterschiedliche Oberklassen widersprüchliche Eigenschaften
Einige Formalismen unterscheiden zwischen Klassen und Individuen, die Instanzen dieser Klassen sind. So wird in KL-ONE (Brachman/Schmolze 1985) beispielsweise zwischen generischen Konzepten und Individuenkonzepten unterschieden. Die meisten Formalismen machen diese Unterscheidung jedoch nicht.
25 (Werte für Eigenschaften) liefern können. 5 Zur Lösung solcher Konflikte werden verschiedene Vorgehensweisen verfolgt, die schon im vorangegangenen Kapitel angesprochen wurden (vgl. Touretzky/Horty/Thomason 1987). Bei der skeptischen Vererbung liefert ein System stets eine einzige Lösung, im Fall von Konflikten keine. Im Gegensatz dazu versucht ein System mit gutgläubiger Vererbung soviel Information wie möglich aus dem Netz zu schließen. Wie bereits im Zusammenhang mit Default-Unifikation erläutert, kann dies zu einer Menge von Lösungen fuhren. Unter Verwendung der priorisierten Vererbung wird eine dieser Lösungen favorisiert. Dies wird dadurch erreicht, daß die Oberklassen einer Klasse nach Präzedenz geordnet werden, wobei die Informationen von Klassen mit höherer Präzedenz Priorität vor denen mit niedrigerer Präzedenz haben. Ein anderer Ansatz besteht darin, Konflikte zu vermeiden, indem multiple Vererbung lediglich im Hinblick auf unterschiedliche Eigenschaften zugelassen wird. Information kann hierbei zwar grundsätzlich von verschiedenen Oberklassen geerbt werden, jedoch mit der Einschränkung, daß eine Eigenschaft immer nur von einer Klasse geerbt werden kann. Bei dieser Art der Vererbung (orthogonale Vererbung) werden Konflikte von vornherein ausgeschlossen. Ein Vorteil von Semantischen Netzen gegenüber anderen Formalismen (wie beispielsweise objekt-orientierten Programmiersprachen) ist die Tatsache, daß für sie formale Semantiken entwickelt werden können. Während monotone Semantische Netze leicht auf Prädikatenlogik 1. Stufe abgebildet werden können, ist eine solche Äquivalenz für nicht-monotone Netze nicht möglich. Etherington und Reiter (1983) zeigen jedoch, daß solche Netze auf die DefaultLogik von Reiter (1980) abgebildet werden können, wodurch eine formale Semantik geliefert wird. Vererbung von Eigenschaften ist auch ein fester Bestandteil vieler unifikationsbasierter Ansätze. Daß dies ein aktuelles Thema ist, zeigen z.B. die Beiträge im Special Issue on Inheritance der Zeitschrift Computational Linguistics (1992, vol. 18 (2,3); eine Einfuhrung in die Thematik und Überblick über bestehende Ansätze geben Daelemans/De Smedt/Gazdar in diesem Band). Die Verwendung von Templates in PATR-II oder Typen in der Head-Driven Phrase Structure Grammar (HPSG) (Pollard/Sag 1987) ermöglicht die Erstellung einer Hierarchie von linguistischen Objekten, welche Generalisierungen erfaßt und Redundanz vermindert. Die Vererbung der Eigenschaften erfolgt mittels Unifikation, wobei es sich um monotone Mehrfachvererbung handelt (abgesehen von den unter 3.1 beschriebenen nicht-monotonen Erweiterungen). So kann der Tatsache Rechnung getragen werden, daß linguistische Objekte Informationen von verschiedenen Quellen erhalten können. Ausnahmen und Subregularitäten können damit jedoch nicht erfaßt werden. Aufgrund ihrer generellen Attraktivität wurden bereits früher (vor allem in der sprachorientierten KI) monotone Semantische Netze zur Repräsentation und Verarbeitung von sprachlichem Wissen eingesetzt. So verwenden beispielsweise Bobrow und Webber (1980) und Brachman und Schmölze (1985) den Formalismus KL-ONE. Auch derzeit existieren noch
Dieses Problem wurde bereits im Zusammenhang mit nicht-monotonen Erweiterungen unifikationsbasierter Formalismen angesprochen (vgl. Kap. 3.1).
26 Arbeiten, die monotone Semantische Netze verwenden. 6 In jüngerer Zeit ist jedoch ein verstärktes Interesse für die Verwendung von nicht-monotonen Vererbungsnetzen aufgekommen, da viele Linguisten die Integration von Default-Wissen für unerläßlich halten. Ansätze, die nicht-monotone Vererbungsnetze zur Repräsentation linguistischen Wissens verwenden, finden sich für alle linguistischen Bereiche. So waren die Überlegungen von De Smedt (1984) wegweisend für die Repräsentation morphosyntaktischer Information. In seinem Aufsatz schlägt er die Verwendung einer objekt-orientierten Programmiersprache (ORBIT) für Frame-basierte grammatische Repräsentationen vor. Für die Behandlung der niederländischen Verbmorphologie werden die Verbklassen als Objekte in einer Vererbungshierarchie repräsentiert, wobei die Klasse der regelmäßigen Verben den obersten Knoten der Hierarchie bildet. Alle anderen Verbklassen (gemischte Verben, starke Verben), sowie konkrete Instanzen (Verben) erben Informationen von dieser Klasse, sofern diese nicht im Widerspruch zur Information ihrer Klasse (oder Instanz) steht. So können — trotz der vorhandenen Ausnahmen und Subregularitäten — alle Generalisierungen über die niederländische Verbmorphologie repräsentiert werden. Außerdem trägt die Hierarchie der Vorstellung Rechnung, daß unregelmäßige niederländische Verben nicht völlig unregelmäßig sind, sondern lediglich in einigen, eindeutig festgelegten Eigenschaften von den regelmäßigen Verben abweichen. Der Ansatz von De Smedt hat viel Beachtung gefunden, da sowohl die Unterscheidung Klasse-Subklasse als auch Regel-Ausnahme mittels Default-Vererbung auf elegante Art und Weise erfaßt wird. Die Ideen werden von De Smedt und de Graaf (1990) weiterentwickelt und auch auf die Behandlung von Substantiven und Adjektiven angewendet. Die Arbeit von Daelemans (1988) ist ebenfalls in dieser objekt-orientierten Umgebung angesiedelt und beinhaltet nicht nur die Repräsentation morphologischer, sondern auch phonologischer und orthographischer Informationen. In den Augen vieler Linguisten besteht ein Nachteil dieser Ansätze darin, daß sie in eine objekt-orientierte Programmierumgebung eingebettet sind. Da diese nicht mit einer formalen Semantik verbunden ist, bleibt die Bedeutung der repräsentierten Fragmente unklar. Das ist anders bei den Ansätzen, die DATR, einen Formalismus zur lexikalischen Wissensrepräsentation mit multipler Default-Vererbung, verwenden (siehe Kap. 3.3). Bereits in (Evans/Gazdar 1989b) wird für einen nicht-trivialen Ausschnitt von DATR eine formale Semantik geliefert, und Keller (1995) entwickelt eine deklarative Semantik für den vollen Sprachumfang. Die Beiträge in den DATR-Papers (Evans/Gazdar 1990) auf dem Gebiet der Morphologie nehmen einen zentralen Platz ein. Es finden sich dort Fragmente zur deutschen und lateinischen Substantivflexion, sowie zur englischen Verbmorphologie. Auch viele der späteren Arbeiten behandeln morphologische Phänomene. Neben weiteren Arbeiten zur Flexionsmorphologie (vgl. Gazdar (1992) zur lateinischen und Corbett/Fraser (1993) zur russischen Substantivflexion), beschäftigt sich Evans (1992) mit der Repräsentation von Derivationsmorphologie in DATR.
® Zajac, der selbst einen objekt-orientierten Ansatz verfolgt, spricht sich sogar explizit gegen die Verwendung von Defaults aus: "Nonmonotonic inheritance is seen as a practical device designed to deal with exceptions, but such a feature goes against generality and referential transparency" (1992, S. 160).
27 Neben diesem zentralen Gebiet der Morphologie wurden in DATR jedoch auch Fragmente für andere linguistische Bereiche formuliert. Auf dem Gebiet der Morphophonologie entwickelt Gibbon das in DATR implementierte Prosodic Inheritance Model (PI). In diesem Modell werden morphotaktische und morphophonologische Generalisierungen auf einheitliche Art und Weise erfaßt. Insbesondere gelingt es, morphoprosodische Phänomene wie Betonung, Ton, Vokalharmonie etc. zu modellieren, die beispielsweise in traditionellen, generativen Ansätzen schwer zu beschreiben sind. Dies wird an den Beispielen der Interkalation in den arabischen Binyan-Systemen (Gibbon 1990, Reinhard/Gibbon 1991), Ton im Kikuyu (Gibbon 1990), Umlaut im Deutschen (Reinhard/Gibbon 1991) sowie deutscher Kompositabildung (Gibbon 1992) demonstriert. Einen ähnlichen Ansatz wie Gibbon beschreibt Cahill (1993). Bleiching (1994) enthält eine umfassende Darstellung der deutschen Flexions- und Derivationsmorphologie, die morphophonologische und wortprosodische Variation im Hinblick auf gesprochenes Deutsch berücksichtigt. Einige Arbeiten liefern auch Beiträge zur Repräsentation von semantischer Information in DATR. So beschreibt Kilgarriff (1993) eine systematische Behandlung von Fällen der Polysemie, insbesondere von Verbalternationen. Unterschiedliche Lesarten eines Verbs werden durch verschiedene Relationen zwischen den syntaktischen Komplementen und semantischen Argumenten des Verbs charakterisiert, wie beispielsweise die unterschiedlichen Lesarten von bake in den Sätzen (a) John is baking the cake, (b) The cake is baking und (c) John is baking. Da diese Art von Alternation nicht spezifisch für das Verb bake ist, sondern für eine ganze Klasse von Verben gilt, abstrahiert Kilgarriff dieses Alternationsverhalten von den konkreten Verben und spezifiziert es in einem übergeordneten Knoten, von dem die Verben ihre Informationen erben. Viele Arbeiten betreffen die Strukturierung des Lexikons in einem praktischen System und zielen somit nicht in erster Linie auf die theoretische Beschreibung einzelner Phänomene ab. Flickinger, Pollard und Wasow (1985) stellen einen Frame-basierten Lexikonansatz für eine HPSG-Grammatik vor. In ihrem Aufsatz illustrieren sie die Default-Vererbung von morphologischen und syntaktischen Verbinformationen. Bei der dafür verwendeten Repräsentationssprache HPRL handelt es sich wie bei den Arbeiten von De Smedt um eine Programmiersprache mit den erwähnten Nachteilen. Die Repräsentation von Ausnahmen und Subregularitäten wird durch die Verwendung von zwei verschiedenen Vererbungsmodi erreicht: normal mode und complete mode. Im normalen Modus findet multiple Default-Vererbung statt, wohingegen der vollständige Modus multipler monotoner Vererbung entspricht. Unklar ist jedoch, wann und wie die Modi gewählt werden. Eine offene Frage ist ebenfalls, wie dieses Frame-basierte Lexikon an die HPSG-Grammatik angebunden wird. Diese Frage stellt sich für alle Ansätze, die zur Repräsentation des Lexikons ein Vererbungsnetz und für die übrigen Komponenten der Grammatik einen unifikationsbasierten Formalismus verwenden. Ein solcher Ansatz wird auch in (Kilbury/Naerger [Barg]/Renz 1991) verfolgt. Zur Repräsentation des Lexikons wird DATR gewählt, während die übrigen Teile der Grammatik im PATR-Ü-Format formuliert werden. Kilbury, Barg und Renz zeigen, wie die zwei Formalismen miteinander verbunden werden können, indem das Lexikon metasprachliche Beschreibungen für Merkmalsstrukturen liefert, die der PATR-Formalismus weiter verarbeitet. Eine ähnliche Vorgehensweise wird in (Cahill/Evans 1990) beschrieben. Die Autoren verwenden ebenfalls ein
28 DATR-Lexikon, welches aber neben Templates (d.h. Abkürzungen für Merkmalsstrukturen, vgl. Shieber 1986a) für die Syntax auch Lambda-Ausdrücke für die Semantik liefert. Eine andere Strategie verfolgen Andry, Fräser, McGlashan, Thornton und Youd (1992). Zwar wird in diesem Ansatz ebenfalls ein DATR-Lexikon in einem unifikationsbasierten Gesamtsystem verwendet, doch erfolgt die Verbindung der beiden Formalismus über eine Generierungskomponente, die das DATR-Lexikon in eine Merkmalsstruktur kompiliert. Eine dritte Strategie verfolgen Duda und Gebhardi (1994). Sie fassen DATR-Anfragen als eine Relation über Merkmalsstrukturen auf, die als solche Bestandteil der Merkmalsstrukturen selbst sind. Die im letzten Abschnitt vorgestellten Ansätze haben hybriden Charakter, da die Vererbungsnetze lediglich zur Repräsentation der Beziehungen im Lexikon verwendet werden, während die übrigen Teile der Grammatik in einem monotonen Formalismus repräsentiert sind. Dies spiegelt die Ansicht wider, daß die Repräsentation von Default-Informationen hauptsächlich im Lexikon eine Rolle spielt.7 Es gibt jedoch auch Systeme, in denen alle Komponenten in einem einheitlichen (nicht-monotonen) Vererbungsnetz repräsentiert werden. Ein Beispiel dafür ist die von Hudson (1984, 1990) vorgestellte und unter Mitarbeit von Fräser weiterentwickelte (Fraser/Hudson 1992) Word Grammar. Wissen aller Ebenen (sowohl linguistisches Wissen als auch Weltwissen) wird hier in einer einzigen Vererbungshierarchie repräsentiert. Der Word Grammar-Formalismus beinhaltet eine Variante der multiplen Default-Vererbung, die stipulated overriding genannt wird. Im Gegensatz zu den anderen Ansätzen, in denen die Vererbung von genereller Information gegebenenfalls durch das Vorhandensein spezifischerer Information automatisch verhindert wird (automatic overriding), muß in der Word Grammar Vererbung explizit durch negative Information blockiert werden. Neben der Tatsache, daß in der Word Grammar alle Grammatik-Komponenten in demselben Formalismus repräsentiert werden, zeichnet sich der Ansatz auch dadurch aus, daß Vererbung nicht nur zur Repräsentation linguistischen Wissens, sondern auch zur Verarbeitung verwendet wird. Vererbung wird hier — wie in den zuvor besprochenen Ansätzen — für die statische Repräsentation verwendet, spielt aber auch für den Aufbau der Strukturen beim Parsing eine entscheidende Rolle.
3.3
DATR
Wie aus Kap. 3.2 ersichtlich ist, wird der Formalismus DATR (Evans/Gazdar 1989a, 1990) bereits von einer Reihe von Linguisten zur Repräsentation von sprachlichem Wissen eingesetzt und ist derzeit einer der prominentesten vererbungsbasierten Formalismen in der Linguistik. Ein Grund dafür ist sicherlich die Tatsache, daß DATR speziell für lexikalische Repräsentationen konzipiert wurde und daher auf linguistische Bedürfnisse zugeschnitten ist. 7
Lascarides, Briscoe, Asher und Copestake (im Druck) plädieren allerdings dafür, daß DefaultInformation über das Lexikon hinaus als solche bestehen bleiben sollte. Am Beispiel von Bedeutungserweiterungen zeigen sie, wie Defaults in den Lexikoneinträgen mit den semantischen Kompositionsregeln sinnvoll interagieren.
29 Evans und Gazdar (1989a, S.66) motivieren die Entwicklung des Formalismus folgendermaßen: The goal of the DATR enterprise is the design of a simple language that (i) has the necessary expressive power to encode the lexical entries presupposed by contemporary work in the unification grammar tradition, (ii) can express all the evident generalizations about such entries, (iii) has an explicit theory of inference, (iv) is computationally tractable, and (v) has an explicit declarative semantics.
Wie bei Vererbungsnetzen im allgemeinen sind die Hauptbestandteile von DATR-Netzen Knoten, die Objekte repräsentieren. Mit den Knoten sind die für die Objekte relevanten Eigenschaften verknüpft. Mit jeder dieser Eigenschaften ist ein Wert assoziiert, der entweder direkt (d.h. als Atom oder Sequenz von Atomen) angegeben, oder durch einen Vererbungsverweis von einer anderen Stelle geerbt wird. Hierbei können verschiedene Eigenschaften ihre Werte zwar von unterschiedlichen Stellen erben, eine gegebene Eigenschaft kann jedoch immer nur von einer Stelle geerbt werden. DATR verwendet somit die orthogonale multiple Vererbung. In DATR werden die repräsentierten Vererbungsnetze DATR-Theorien genannt. Die folgende Abbildung gibt einen Eindruck, wie solche DATR-Theorien repräsentiert werden: (3-5)
BESCHREIBUNG EINES EINFACHEN VERERBUNGSNETZES IN D A T R
(a) (b) (c) (d) (e) (f) (g)
Nl Nl Nl Nl Nl N2 N2
< d e>
< x y>
< a b>
== == == == == == ==
vi. (v2 v 3 ) . N2:
. N l : < a b c> N2:. v3. v4.
Die in (3-5) abgebildete DATR-Theorie besteht aus den zwei Knoten N1 und N2. Die mit diesen Knoten verbundenen Eigenschaften werden in spitzen Klammern hinter einem Doppelpunkt notiert und heißen Pfade. Jeder Pfad besteht hierbei aus beliebig vielen Attributen, die durch Leerzeichen voneinander getrennt werden. Ein Pfad kann auch leer sein, d.h. kein Attribut enthalten. Mit jedem Knoten-Pfad-Paar ist ein Doppelgleichheitszeichen (==) und eine rechte Seite verbunden. Diese Kombination aus Knoten, Pfad und rechter Seite wird DATRSatz (auch Axiom) genannt und mit einem Punkt abgeschlossen. Die rechte Seite eines Satzes gibt an, wie der Wert für diesen Satz bestimmt wird. In (3-5) hat Satz (a) beispielsweise einen atomaren Wert als rechte Seite, d.h. der Wert (hier v i ) ist direkt angegeben. Ähnliches gilt für Satz (b) mit dem Unterschied, daß es sich um eine Sequenz von atomaren Werten handelt (in runden Klammern). Wird der Wert nicht direkt angegeben, kann er durch Vererbungsverweise (auch Vererbungsdeskriptoren genannt) auf andere Sätze von diesen geerbt werden. Die verschiedenen Verweismöglichkeiten sind in den Sätzen (c-e) illustriert. Satz (c) erbt seinen Wert (v3) von einem anderen Knoten, nämlich N2 und zwar von dessen Pfad
. Im Gegensatz zu anderen Formalismen für die Repräsentation von Vererbungsnetzen kann in DATR auch innerhalb eines Knotens von anderen Eigenschaf-
30 ten geerbt werden. So erbt Satz (d) seinen Wert ( v i ) vom ersten Satz desselben Knotens. Die letzte Möglichkeit besteht darin, von einem anderen Knoten-Pfad-Paar zu erben, was bei Satz (e) der Fall ist. Die beiden Sätze des Knotens N2 haben atomare Werte. Die Vererbung eines Wertes kann über beliebig viele Stufen gehen, d.h. ein Satz kann auf einen anderen Satz verweisen, der seinen Wert wiederum von einem anderen Satz erbt usw. Für die Repräsentation von DATR-Theorien gelten bestimmte Abkürzungskonventionen, die sie transparenter machen. Für alle Sätze, die zu einem Knoten gehören, muß der Knoten nur einmal zu Anfang genannt werden. Der abschließende Punkt steht dann nur noch hinter dem letzten Satz eines Knotens. Für Sätze, die von einem anderen Satz desselben Knotens erben, muß nur der Pfad angegeben werden. Ebenso wird für Sätze, die von einem anderen Knoten aber vom gleichen Pfad erben, nur der Knoten angegeben. Mit diesen Abkürzungen läßt sich die Theorie in (3-5) zu der in (3-6) verkürzen: (3-6)
ABKÜRZUNGSKONVENTIONEN
== == ==
== == == ==
vi (v2 v3) N2
N2: v3 v4.
Die in DATR-Theorien repräsentierten Kanten sind alle von der gleichen Art, d.h. es gibt nur eine Sorte von Beziehungen, wobei jedoch wie erläutert, nicht nur von anderen Knoten, sondern auch von Pfaden desselben Knotens, als auch von Knoten-Pfad-Paaren geerbt werden kann. Zugang zu der Information in DATR-Theorien wird mittels Anfragen (queries) gefunden, die von der mit DATR verbundenen Inferenzmaschine evaluiert werden. Die Anfragen bestehen aus einem Knoten-Pfad-Paar und liefern einen atomaren Wert (oder eine Sequenz von atomaren Werten) als Ergebnis, wobei die Auswertung funktional ist, d.h. für jede Anfrage wird genau ein Wert geliefert, oder die Evaluierung scheitert. Für die in (3-6) abgebildete Theorie wird die Anfrage N 1 : < q > beispielsweise zu dem Wert v 4 evaluiert. Zusätzlich zu solchen einzelnen Anfragen ist es auch möglich, eine Menge von Anfragen zu evaluieren (s.u.). Neben den in (3-5) und (3-6) aufgeführten Vererbungsmöglichkeiten — der sogenannten lokalen Vererbung — beinhaltet DATR noch eine weitere Art der Vererbung, die globale Vererbung genannt wird. Auch bei dieser Art der Vererbung kann von Knoten, Pfaden oder Knoten-Pfad-Paaren geerbt werden, jedoch wird hierbei der ursprüngliche Kontext der Anfrage zur Evaluierung herangezogen. Der Unterschied zwischen lokaler und globaler Vererbung beruht auf der Annahme eines lokalen und globalen Kontextes, wobei ein Kontext jeweils aus einem Knoten-Pfad-Paar besteht. Bei der Formulierung einer Anfrage wird ein globaler Kontext in Form des Anfrageknotens (globaler Knoten) und des Anfragepfades
31 (globaler Pfad) aufgestellt. Der lokale Kontext ist zu Beginn einer Evaluierung gleich dem globalen Kontext, ändert sich aber bei jedem Evaluierungsschritt und wird zu dem gerade betrachteten Knoten-Pfad-Paar. Am folgenden Beispiel wird die globale Vererbung illustriert: (3-7)
GLOBALE VERERBUNG
Nl:
== < c d> == " N 2 " . == v i == v 2 .
Während bei lokaler Vererbung die zu evaluierenden rechten Seiten — gemäß den Abkürzungskonventionen — immer mit dem lokalen Kontext ergänzt werden, nehmen globale Verweise (auch gequotete Verweise genannt, angezeigt durch Hochkommata, hier "N2") Bezug auf den globalen Kontext. Soll im Laufe der Evaluierung nun von "N2" geerbt werden, geschieht dies folglich nicht automatisch mit dem Pfad wie bei der lokalen Vererbung, sondern mit dem globalen Pfad. Im Fall der Anfrage N l : < c d> ist globaler Pfad gleich lokaler Pfad, so daß N2 : zu v 2 ausgewertet wird (kein Unterschied zur lokalen Vererbung). Lautet die Anfrage aber N1: , wird zunächst auf den Pfad verwiesen. Soll nun die rechte Seite dieses Satzes ( " N 2 " ) evaluiert werden, geschieht dies mit dem globalen Pfad < a b>. Zu evaluieren ist nun also N2 : < a b>, was zu dem Wert v i führt. (Bei lokaler Vererbung wäre der Wert v 2 geliefert worden.) Beim Antreffen des globalen Verweises wird gleichzeitig der globale Kontext geändert, indem N2 zum neuen globalen Knoten wird, während der ursprüngliche globale Pfad unverändert bleibt. Ebenso wie globale Verweise auf Knoten sind auch globale Verweise auf Pfade und globale Knoten-Pfad-Paare möglich. Ein globaler Verweis auf einen Pfad nimmt bezug auf den globalen Knoten und ändert den globalen Pfad. Ein globaler Verweis auf ein Knoten-PfadPaar ändert lediglich den globalen Kontext, nimmt aber keinen Bezug auf den bisherigen globalen Kontext. Eine letzte Vererbungsmöglichkeit besteht in der Angabe einer komplexen rechten Seite anstelle der bisher vorgestellten einfachen Knoten-, Pfad-, und Knoten-Pfad-Verweise (lokal oder global). Eine komplexe rechte Seite kann zum einen eine Sequenz aus beliebigen Vererbungsdeskriptoren und/oder atomaren Werten sein, wie es in (3-8) illustriert ist.8 Die in der Sequenz enthaltenen Verweise werden nacheinander evaluiert, so daß eine Sequenz mit atomaren Werten geliefert wird. Für (3-8) führt die Evaluierung der Anfrage N1: < a b > beispielsweise zu dem Wert ( v i v 2 v 3 ) .
Q
In neueren DATR-Systemen wird auf die runden Klammern bei den Sequenzen verzichtet bzw. sind die Klammern optional. Für die vorliegende Arbeit wird die ursprüngliche Syntax beibehalten.
32 (3-8) SEQUENZEN Nl: N2 :
== (N2 v 3 ) == v 2 . == v i .
Neben den Sequenzen sind als komplexe rechte Seiten evaluierbare Pfade zugelassen. Wie Sequenzen enthalten diese Pfade selbst wieder beliebige Vererbungsverweise und atomare Werte, wie in (3-9) illustriert. Der Unterschied zu den Sequenzen besteht darin, daß zuerst die Vererbungsverweise in den Pfaden evaluiert werden und dann die Pfade selbst, deren Attribute aus diesen evaluierten Werten bestehen. Für die Theorie in (3-9) liefert beispielsweise die Anfrage N l : < a b> den Wert v, da zunächst die Verweise im Pfad evaluiert werden, was zu dem Ergebnis < v l v 2 v 3 > führt, bevor dieser Pfad ausgewertet wird. Pfade können auf diese Weise beliebig verschachtelt sein, wobei die Evaluierung stets von innen nach außen erfolgt. (3-9)
EVALUIERBARE PFADE
Nl:
< c d> < v l v2 v3> < a b>
N2 :
== v 3 > == v 2 == v . == v i .
Diejenigen DATR-Sätze, die dazu dienen, ein Vererbungsnetz zu beschreiben, werden auch definitorische Sätze genannt. Im Gegensatz dazu bezeichnen Evans und Gazdar Sätze, die sich aus einer Anfrage und dem dafür evaluierten Wert ergeben, als extensionale Sätze. Diese extensionalen Sätze charakterisieren die konkreten Werte für bestimmte Pfade und konstituieren somit Theoreme, die aus dem Netz ableitbar sind. Syntaktisch unterscheiden sich definitorische und extensionale Sätze dadurch, daß definitorische Sätze ein == und extensionale Sätze ein = enthalten. 9 Die in den vorangegangenen Abschnitten eher informell beschriebene Syntax von DATR ist in der Abbildung (3-10) noch einmal in Backus-Naur-Form dargestellt. 10 Die Darstellung ist hier auf den DATR-Satz als Grundeinheit beschränkt. Die größere Einheit der Knotendefinition oder Gesamttheorie (d.h. Menge von Knotendefinitionen), sowie die oben beschriebenen Abkürzungskonventionen wurden vernachlässigt. Die verwendeten Symbole stammen aus den folgenden Mengen:
® Das == und = sind nicht mit dem mathematischen Gleichheitszeichen zu verwechseln. Während das mathematische Gleichheitszeichen symmetrisch ist, sind die DATR-Symbole eher mit den Zuweisungsoperatoren in Programmiersprachen zu vergleichen. 10 Die abgebildete Backus-Naur-Form (BNF) ist angelehnt an die Darstellung in Gibbon/Ahoua (1991). Eine andere, jedoch fehlerhafte BNF findet sich in Evans/Gazdar (1989a).
33
{
==, =, , (, ), " }
KNOTEN = Atome mit einem Großbuchstaben beginnend WERT = Atome nicht mit einem Großbuchstaben beginnend ATTRIBUT = Atome nicht mit einem Großbuchstaben beginnend (3-10)
BACKUS-NAUR-FORM FÜR DIE D A T R - S Y N T A X
Satz LHS Pfad Attribute RHS ERHS Wert_Sequenz DRHS Sequenz Verweis EVerweis EPfad EAusdruck
:= := := := := := := := := := := := :=
LHS RHS KNOTEN : Pfad < Attribute > E 1 ATTRIBUT Attribute = ERHS . 1 == DRHS . WERT 1 ( Wert_Sequenz ) e 1 WERT Wert_Sequenz WERT 1 ( Sequenz ) 1 Verweis c 1 WERT Sequenz 1 Verweis Sequenz EVerweis 1 " EVerweis " KNOTEN 1 KNOTEN : EPfad 1 EPfad < EAusdruck > e 1 ATTRIBUT EAusdruck 1 Verweis EAusdruck
Um die Syntax von DATR zu vervollständigen, sollen hier noch kurz die Deklarationen erwähnt werden (vgl. Jenkins 1990). Eine kleine DATR-Theorie mit Deklarationen ist in (3-11) abgebildet. (3-11)
DEKLARATIONEN
# v a r s $Var: a b # node knoten. # atom Atom.
c.
k n o t e n : < $ V a r x y > == N 2 : < A t o m > . N2: == f o o . # h i d e N2. # s h o w < a x y > . Deklarationen beginnen mit einem # gefolgt von einem Schlüsselwort, das angibt, um welche Deklaration es sich handelt. Zum einen können Deklarationen dazu verwendet werden, um die in DATR üblichen Syntaxkonventionen zu umgehen. So können mit dem Schlüsselwort n o d e Knotennamen deklariert werden, die nicht mit einem Großbuchstaben beginnen, oder mit dem Schlüsselwort a t o m Atome, die nicht mit einem Kleinbuchstaben beginnen. Zum anderen können mithilfe des Schlüsselworts v a r s Variablen deklariert werden. Variablen, die grundsätzlich mit einem $ beginnen, werden statt Attributen in Pfaden verwendet, um eine
34 DATR-Theorie abzukürzen. In (3-11) ist beispielsweise die Variable $ V a r deklariert, die für die Attribute a, b und c stehen kann. Auf diese Weise ist es möglich, den Satz k n o t e n : < $ V a r x y> == N2 : als Abkürzung für die drei folgenden Sätze zu verwenden: 11 k n o t e n : < a x y> == N2: k n o t e n : < b x y> == N2: k n o t e n : < c x y> == N2: Schließlich sind noch die show- und hide-Deklarationen vorgesehen, die es ermöglichen, mehrere Anfragen zu evaluieren und dabei gleichzeitig die Menge der sinnvollen DATR-Anfragen einschränken. Mittels h i d e werden die Knoten angegeben, für die keine Anfrage ausgewertet werden soll. Im Gegensatz dazu werden mittels show die Pfade deklariert, die bei einer Anfrage berücksichtigt werden sollen. Sollen alle sinnvollen Anfragen für einen bestimmten Knoten evaluiert werden, sind das diejenigen Anfragen, die sich aus dem Knoten und den mit show deklarierten Pfaden zusammensetzen. Alle sinnvollen Anfragen in bezug auf eine Gesamttheorie setzen sich aus den nicht durch h i d e ausgeschlossenen Knoten und den mit show deklarierten Pfaden zusammen. Für die Theorie in (3-11) ist die Menge der sinnvollen Anfragen k n o t e n : , k n o t e n : < b x y> und k n o t e n : . Bei einzelnen Anfragen bleiben die Deklarationen jedoch wirkungslos, so daß es beispielsweise möglich ist, auch N2 : auszuwerten. Der mit DATR verbundene Inferenzmechanismus, der Anfragen evaluiert, arbeitet regelbasiert. Insgesamt gibt es sieben Inferenzregeln, die drei verschiedenen Gruppen angehören. Die Regeln aus (Evans/Gazdar 1989a) sind in (3-12) aufgeführt. (3-12)
(i)
INFERENZREGELN
N:P == V . N:P = V .
(ii)
N2:P2 == G. N1:P1 == L. N1:P1 == L{G/N2:P2}.
(iii)
N2:P1 == G. N1:P1 == L. N1:P1 == L{G/N2}.
(iv)
N1:P2 == G. N1:P1 == L. N1:P1 == L{G/P2}.
' 1 Variablen können auch undeklariert verwendet werden. In diesem Fall sind sie nicht auf bestimmte Attribute eingeschränkt, sondern können für jedes beliebige Attribut stehen.
35 (V)
N2:P2 = V. N1:P1 == G. N1:P1 =
(vi)
N2:P1 = V. N1:P1 == G. N1:P1 =
(vii)
G{ V/"N2:P2"}
G{ V/"N2"}.
N1:P2 = V. N1:P1 == G. N1:P1 =
G{V/"P2"}.
Die erste Regel ist trivial und inferiert extensionale Sätze aus definitorischen Sätzen mit atomaren Werten oder Sequenzen von atomaren Werten. Die nächsten drei Regeln bilden die Gruppe für die lokale Vererbung. Regel (ii) wird für Verweise auf Knoten-Pfad-Paare benötigt und ist folgendermaßen zu lesen: "Wenn es einen Satz N 1 : P I == L gibt, wobei L als Teilausdruck N2 : P2 enthält, und es einen Satz N2 : P2 == G gibt, so ersetze alle Vorkommen von N2 : P2 in L durch G." Regel (iii) arbeitet analog für Verweise auf Knoten und Regel (iv) für Verweise auf Pfade. Die dritte Gruppe von Regeln definiert die globale Vererbung. Wie in der zweiten Gruppe wird jeweils eine Regel für globale Verweise auf Knoten-Pfad-Paare, Knoten und Pfade benötigt. Für eine Menge von D ATR-Sätzen T wird der Regelabschluß (rule closure) über T als der Abschluß durch endliche Anwendung der Inferenzregeln definiert. Neben dieser prozeduralen Semantik in Form von Inferenzregeln wurde für eine nichttriviale Teilsprache von DATR auch, wie bereits erwähnt, eine deklarative Semantik formuliert (Evans/Gazdar 1989b). Bei dieser handelt es sich um eine modell-theoretische Semantik, die auf jener für autoepistemische Logiken (vgl. Moore 1983, 1985) basiert. Für die Teilsprache von DATR, der komplexe rechte Seiten (d.h. Sequenzen und evaluierbare Pfade) fehlen, konnte gezeigt werden, daß sie im Hinblick auf diese formale Semantik korrekt und vollständig ist. Darüberhinaus hat Keller (1995) eine deklarative Semantik entwickelt, die den gesamten Sprachumfang von DATR abdeckt. Die bisher vorgestellte Inferenzstrategie beinhaltet die Behandlung von multipler orthogonaler Vererbung, jedoch keine Default-Vererbung. Für die Integration von Default-Vererbung existiert zusätzlich zu dem regelbasierten Inferenzmechanismus ein Default-Mechanismus. Dieser Default-Mechanismus basiert auf der Annahme, daß die Sätze eines DATR-Knotens implizit zusätzliche Sätze definieren. Hierzu werden die Definition der Extension und des Verbundenseins eines Knoten-Pfad-Paares zu einem anderen Knoten-Pfad-Paar benötigt. Ein Pfad P I ist eine Extension eines Pfades P, wenn P I mit P beginnt. P wird auch Präfix von P I genannt und der Teil von P I , der länger als P ist, heißt Suffix. So ist beispielsweise der Pfad < a b c d> eine Extension des Pfades < a b>. Ein Knoten-Pfad-Paar N 1 : P2 ist mit N 1 : P I verbunden, wenn (i) P2 eine Extension von P I ist und (ii) es kein Knoten-Pfad-Paar N l : P3 in der Theorie gibt, so daß P3 eine Extension von P I und P2 eine Extension von P3 ist. Auf dieser Grundlage definieren Evans und Gazdar den Pfadabschluß (path closure) über einer
36 Menge von DATR-Sätzen. Der Pfadabschluß beinhaltet alle extensionalen Sätze, alle definitorischen Sätze und alle Sätze, deren Knoten-Pfad-Paar mit einem der definitorischen Sätze verbunden ist. Der Pfadabschluß soll an einem Beispiel verdeutlicht werden: (3-13)
Nl:
PFADABSCHLUß
==
== v i == v 2 .
Mit dem dritten Satz in (3-13) sind alle Knoten-Pfad-Paare verbunden, deren Pfade mit dem Präfix < a b c> beginnen, also beispielsweise N l : < a b c d>, N l : < a b c q p> etc. Mit dem ersten Satz sind all diejenigen Knoten-Pfad-Paare verbunden, deren Pfade mit dem Präfix < a b > beginnen, jedoch nicht mit dem Präfix , da diese mit dem dritten Satz verbunden sind. Mit dem ersten Satz sind beispielsweise N l : < a b d> und N l : < a b 1 s > verbunden. Mit dem zweiten Satz sind alle Knoten-Pfad-Paare verbunden, deren Pfade mit
beginnen. Aus der Definition des Pfadabschlusses folgt, daß die Menge der verbundenen Knoten-Pfad-Paare und damit auch die Menge der vom Pfadabschluß abgedeckten Sätze unendlich ist. Für die Evaluierung einer Anfrage wird derjenige Satz herangezogen, mit dem das KnotenPfad-Paar der Anfrage verbunden ist, d.h. der Satz mit dem längsten passenden Präfix. Soll also beispielsweise bezüglich (3-13) die Anfrage N l : < a b d e> ausgewertet werden, paßt der erste Satz, da sein Pfad das längste passende Präfix ist und als Ergebnis wird v i geliefert. Wichtig ist hierbei, daß das Suffix des Anfragepfades (hier ) sich auch auf die rechte Seite auswirkt, indem es dort bei Pfaden und Knoten-Pfad-Paaren angehängt wird. (Bei Knoten auf der rechten Seite wird dieser für die Evaluierung stets um den gesamten Anfragepfad ergänzt.) Auszuwerten wäre im obigen Fall also nicht N l :
, sondern N l :
, was für diese Theorie allerdings zu dem gleichen Ergebnis führt, da auch für die Auswertung von N l :
der zweite Satz herangezogen wird. Anders sieht das für die Theorie in (3-14) aus. Für die Anfrage N l : < a b d e> paßt zunächst ebenfalls der erste Satz. Dann muß N l :
ausgewertet werden. Hierfür paßt nun der dritte und nicht mehr der zweite Satz, da der dritte Satz das längste passende Präfix beinhaltet. Der gelieferte Wert heißt daher v 3 und nicht wie für (3-13) v i . (3-14)
Nl:
DEFAULT-INFERENZ
==
== v3 == v 2 .
==
vi
Die Beispiele (3-13) und (3-14) zeigen auch, daß die Operation des Pfadabschlusses nichtmonoton ist. Werden weitere Sätze zu einer Theorie hinzugefügt (wie in (3-14)), können die
37 zuvor inferierten Ergebnisse ihre Gültigkeit verlieren, d.h. für die gleiche Anfrage werden andere Ergebnisse geliefert. Im folgenden soll an einem linguistischen Beispiel gezeigt werden, wie mit Hilfe des Default-Mechanismus DATR-Theorien so strukturiert werden können, daß Generalisierungen erfaßt werden, wobei auch Ausnahmen und Subregularitäten berücksichtigt werden. Abbildung (3-15) illustriert, wie beispielsweise ein Ausschnitt der deutschen (syntaktischen) Verbklassen in DATR repräsentiert werden kann. 12 (3-15)
VERBKLASSEN
INTRANS_VERB: < k a s u s s u b j e k t >
TRANS VERB:
EXPL_VERB:
SCHLAFEN:
SEHEN:
HELFEN:
REGNEN:
nominativ normal. INTRANS_VERB np akkusativ. INTRANS_VERB expletiv. INTRANS_VERB. TRANS_VERB. TRANS_VERB dativ. EXPL VERB.
Die Verbklassen — repräsentiert durch Knoten — sind in (3-15) hierarchisch angeordnet, wobei der Knoten INTRANS_VERB an der Spitze der Hierarchie steht. Er spezifiziert die Merkmale und deren Werte, die diese Verbklasse charakterisieren (hier Kasus n o m i n a t i v und Status n o r m a l (d.h. nicht-expletiv) des Subjekts). Die Verbklassen TRANS_VERB und EXPL_VERB erben von diesem Knoten. TRANS_VERB erbt per default alle Eigenschaften von INTRANS_VERB (durch den leeren Pfad , der Präfix aller anderen Pfade ist) und spezifiziert zusätzliche Eigenschaften für ein Objekt, da intransitiven Verben diese Eigenschaften fehlen. EXPL_VERB erbt ebenfalls per default alle Eigenschaften von INTRANS_VERB, jedoch nicht den Status des Subjekts, da für dieses Merkmal ein Pfad explizit beim Knoten EXPL_VERB angegeben ist. Denn im Gegensatz zu anderen Verben ist der Status des Subjekts bei expletiven Verben nicht n o r m a l , sondern e x p l e t i v . Auf diese Weise kann ausgedrückt werden, daß expletive Verben im Prinzip intransitive Verben sind, d.h. alle Eigenschaften intransitiver Verben haben, außer daß der Status ihres Subjekts expletiv ist. Regnen ist ein solches expletives Verb und folglich erbt der Knoten REGNEN alle Eigen-
19
Die hier abgebildete Hierarchie erhebt keinen linguistischen Adäquatheitsanspruch, sondern dient lediglich zur Illustration der Verwendung der Default-Vererbung in DATR. So könnte man beispielsweise dafür plädieren, daß transitive Verben den unmarkierten Fall darstellen und daher an der Spitze der Hierarchie stehen sollten. Eine solche Strukturierung in Form einer entsprechenden DATR-Theorie wäre selbstverständlich auch möglich. Vgl. dazu auch Kap. 5.2, in dem die durchgeführten Lernaufgaben zum Erwerb von (deutschen) syntaktischen Verbklassen diskutiert werden.
38 Schäften von EXPL_VERB. Im Gegensatz dazu erbt ein 'normales' intransitives Verb wie schlafen seine Eigenschaften von der Verbklasse INTRANS_VERB. Sehen und helfen sind als transitive Verben repräsentiert und erben als solche von dem Knoten TRANS_VERB. Hierbei erbt sehen alle Eigenschaften, helfen alle Eigenschaften außer dem Kasus seines Objektes. Das liegt daran, daß in dieser DATR-Theorie a k k u s a t i v als Default-Kasus für die Objekte transitiver Verben angenommen wird. Da helfen aber ein Dativ-Objekt subkategorisiert, darf der Kasus des Objektes nicht geerbt werden, sondern muß explizit spezifiziert werden.
4 Automatischer Erwerb von DATR-Theorien
In Kapitel 2 wurde gezeigt, daß Maschinelles Lernen aus verschiedenen Gründen auch für linguistische Fragestellungen von Interesse ist und daß bereits einige Systeme zum automatischen Erwerb von linguistischem Wissen entwickelt wurden. Ein wichtiger Punkt bei allen Lernsystemen ist die Wahl einer geeigneten Sprache zur Repräsentation des erlernten Wissens. In Kapitel 3 wurde dafür argumentiert, daß für die Repräsentation von linguistischem Wissen Sprachen wie DATR, die die Formulierung von Defaults erlauben, besonders geeignet sind. Das folgende Kapitel verbindet die ersten beiden, indem ein Ansatz entwickelt wird, der — ausgehend von einer gegebenen Menge von Daten, die Fakten eines konkreten Phänomenbereichs darstellen — DATR-Theorien für diese Domäne automatisch inferiert. Eine zentrale Rolle beim Erwerb von DATR-Theorien spielen hier Transformationsregeln, die dazu dienen, Vererbungsverweise zwischen DATR-Sätzen herzustellen (Kap. 4.2). Die Inferenz von Default-Information stellt einen zweiten Schwerpunkt dar und wird in Kap. 4.3 behandelt. Anschließend (Kap. 4.4) wird die Inferenzstrategie des Gesamtsystems erarbeitet, das unter Verwendung der in 4.2 und 4.3 entwickelten Komponenten DATR-Theorien inferiert. Neben den Transformationsregeln und der Inferenz von Default-Information sind Heuristiken und Auswahlkriterien weitere notwendige Bestandteile des Systems. Abschließend wird gezeigt (Kap. 4.5), daß die Menge der erlernbaren DATR-Theorien auf eine Teilmenge aller möglichen DATR-Theorien beschränkt ist. Zum einen beinhalten die resultierenden Theorien nicht alle Sprachmittel von DATR, sondern die Mittel einer nicht-trivialen Teilsprache, zum anderen ist der Vererbungsfluß restringiert. Darüberhinaus weisen die inferierten DATR-Theorien spezifische Strukturierungen auf. Zur Illustration der einzelnen Bestandteile und Verfahren werden Beispiele verwendet, die teilweise abstrakter Natur sind, d.h. keine natürlichen Domänen beschreiben. Ein Teil der Beispiele stammt jedoch aus dem Bereich der deutschen Substantivflexion. Diese sind allerdings in der Regel vereinfacht und beinhalten keine linguistisch-theoretischen Ansprüche. Da gerade die ersten DATR-Theorien vorwiegend aus dem Bereich der Flexionsmorphologie stammen, bildet die deutsche Substantivflexion jedoch auch eine der durchgeführten und in Kapitel 5 beschriebenen linguistischen Lernaufgaben. Dort werden die Ergebnisse auch aus linguistischer Sicht diskutiert. Alle in den nachfolgenden Kapiteln erarbeiteten Verfahren und Komponenten wurden in der Programmiersprache Prolog implementiert und als Gesamtsystem getestet. 1
Der Programmcode des Systems kann unter der folgenden e-mail-Adresse von der Autorin bezogen werden: [email protected].
40
4.1
Beschreibung der allgemeinen Lernaufgabe
Wie in Kapitel 2 erläutert, ist die Entwicklung von linguistischen Lernsystemen — wie bei Lernsystemen im allgemeinen — unterschiedlich motiviert. Man unterscheidet zwischen Systemen mit dem Ziel der kognitiven Simulation, Systemen mit theoretisch-linguistischem Schwerpunkt und Systemen für den praktischen Einsatz in der Linguistik. Das Interesse der vorliegenden Arbeit ist hauptsächlich auf theoretisch-linguistische Fragestellungen gerichtet. Es soll kein Sprachlerner simuliert werden, sondern eher die analytische Arbeit eines Linguisten, der ausgehend von Beobachtungen über konkrete sprachliche Phänomene eine linguistische Beschreibung formuliert, die den beobachteten Daten Rechnung trägt.2 Die maschinell erworbenen Theorien können dazu dienen, bestehende linguistische Theorien und Annahmen zu unterstützen oder auch gegebenenfalls alternative Beschreibungen zu liefern. Für die meisten Domänen, innerhalb derer Wissen automatisch erworben werden soll, gilt, daß Experten des entsprechenden Gebietes konkrete Beispiele oder Beobachtungen für das Gebiet liefern können. Daher bilden Beispiele und Beobachtungen die gebräuchlichste Art des Lerninputs. Auch innerhalb der Linguistik können Experten (Linguisten) konkrete Beobachtungen und Beispiele für sprachliche Phänomene liefern. Die eigentliche Schwierigkeit besteht darin, über diesen Daten zu abstrahieren und generelle, redundanzarme und korrekte Beschreibungen zu erstellen. Dies zu simulieren, ist die allgemeine Lernaufgabe der vorliegenden Arbeit. Viele Lernsysteme verwenden zur Repräsentation des Lerninputs und des zu erlernenden Wissens dieselbe Beschreibungssprache. Bei der Verwendung von DATR zur Repräsentation des erlernten Wissens, bietet sich ein natürlicher Ausschnitt der Sprache an, um die Daten, aus denen gelernt werden soll, zu repräsentieren: die extensionalen DATR-Sätze (vgl. Kapitel 3.3). In (4-1) sind noch einmal solche extensionalen Sätze abgebildet. Syntaktisch zeichnen sie sich dadurch aus, daß Pfad und Wert durch ein einfaches '=' getrennt werden und daß die rechten Seiten atomare Werte (Satz (1)) bzw. Sequenzen von atomaren Werten sind (Satz (2)). (4-1)
EXTENSIONALE D A T R - S Ä T Z E
(1) (2)
N 1 : < a b> = v i . N l : < c d e> = (v2 v3) .
Wie bereits in Kap. 3.3 erläutert, dienen definitorische Sätze zur Beschreibung von DATRTheorien, während extensionale Sätze Theoreme darstellen, die sich aus einer DATR-Theorie ableiten lassen (in Form von Anfragen und deren zugehörigen Werten). Im Gegensatz zu den DATR-Theorien selbst, die in sich strukturiert sind, können Theoreme als isolierte Aussagen
Es muß betont werden, daß hier keineswegs der Anspruch erhoben wird, die kognitiven Prozesse eines Linguisten zu simulieren, sondern lediglich die Art der Aufgabenstellung, mit der Linguisten konfrontiert sind.
41 über die beschriebenen Objekte der Theorie betrachtet werden. Somit sind sie ideal geeignet zur Repräsentation der Daten, aus denen gelernt werden soll. 3 Mit extensionalen DATR-Sätzen lassen sich isolierte Aussagen über Eigenschaften von sprachlichen Objekten repräsentieren. Als Lerninput könnte man sich beispielsweise die folgenden Sätze vorstellen, die Daten zur Flexion des deutschen Substantivs Auto repräsentieren: (4-2)
POTENTIELLER LERNINPUT
(1) (2) (3) (4) (5) (6) (7) (8) (9)
Auto : : = auto. Auto:: = auto. Auto:: = auto. Auto:: = (auto s Auto:: = auto. Auto:: = ( auto s) Auto:: = ( auto s) Auto : = ( auto s) Auto:: = (auto s)
Die neun Sätze in (4-2) beinhalten Informationen über die Wurzel von Auto sowie über seine Singular- und Pluralformen. Die einzelnen Sätze stehen jedoch nicht miteinander in Beziehung (da jeder Satz einen atomaren Wert hat und somit nicht auf andere Sätze verweist), so daß auch die repräsentierten Eigenschaften hier völlig unabhängig voneinander sind. Ebenso beinhalten die Sätze keine Default-Informationen, da jeder Satz genau eine Eigenschaft abdeckt. 4 Bei dieser Form des Lerninputs erscheint es angemessener, von Beobachtungen als von Beispielen zu sprechen. Wie in Kap. 2.1 erläutert, sind beim Lernen aus Beispielen die Daten in der Regel spezifische, durch einen Lehrer vorklassifizierte Instanzen von Konzepten, aufgrund derer generelle Beschreibungen dieser Konzepte erlernt werden. Beim Lernen durch Beobachtung wird dagegen eine Beschreibung erlernt, die eine Menge von nicht vorklassifizierten Daten strukturiert. Die erlernten Beschreibungen charakterisieren zwar oft ebenfalls Konzepte, aber dem System wird hierbei nicht vorgegeben, welches die zu erlernenden Konzepte sind. Wie bei den meisten anderen Lernsystemen werden als Input nur positive Beobachtungen herangezogen, d.h. es werden keine DATR-Sätze spezifiziert, die explizit nicht zu repräsentierende Eigenschaften von Objekten darstellen. Zwar kann die Berücksichtigung von nega-
Die Problematik, wie man etwa aus rohen Daten in Form von Texten oder gesprochener Sprache oder aufgrund von Informationen eines Informanten zu den Lemdaten in Form von extensionalen DATR-Sätzen kommt, wird hier nicht behandelt, da dies eine eigene Fragestellung ist. Der im folgenden entwickelte Lernansatz setzt auf extensionalen DATR-Sätzen als Lerninput auf. Natürlich sind durch den Pfadabschluß (vgl. Kap. 3.3) mit allen DATR-Sätzen in (4-2) unendlich viele weitere DATR-Sätze verbunden. Bei den Pfaden dieser weiteren DATR-Sätze handelt es sich aber nicht um linguistisch sinnvolle Extensionen der gegebenen Pfade. So ist zwar beispielsweise der Satz A u t o : < s i n g nom u n s i n n > = a u t o mit dem Satz (2) verbunden, doch spezifiziert dieser kein Faktum der fraglichen Domäne (hier: Flexion von Auto).
42 tiver Information den Lernprozeß vereinfachen (vgl. Kapitel 2.1), doch liefern Experten typischerweise nur positive Beobachtungen. Ebenso wie auf negative Information verzichtet wird, wird die Annahme gemacht, daß die betrachteten Daten nicht verrauscht, d.h. fehlerfrei sind. Obwohl Daten in der Realität fast immer mehr oder weniger verrauscht sind und fehlerhafte Daten gravierende Auswirkungen auf das Lernergebnis haben können, gehen die meisten Systeme zunächst von unverrauschten Daten aus, da die Behandlung verrauschter Daten eine komplexe Aufgabe ist und einen eigenen Untersuchungsgegenstand darstellt (vgl. Clark/Niblett 1987, Quinlan 1986b, Naerger [Barg] 1988). Während die meisten in Kapitel 2 vorgestellten linguistischen Lernsysteme speziell für eine bestimmte Domäne entwickelt wurden (z.B. Erwerb morphologischer Regeln, Erwerb regulärer Grammatiken etc.), besteht der Lerninput hier aus extensionalen DATR-Sätzen für eine beliebige linguistische Domäne, d.h. es soll ein domänenunabhängiges linguistisches Lernsystem entwickelt werden. 5 Betrachtet man eine DATR-Theorie, Anfragen an diese Theorie und Werte für die Anfragen als Elemente in einem "DATR-Inferenzszenario", ergeben sich unterschiedliche Inferenz-Aufgaben, je nachdem welches der drei Elemente ermittelt werden soll. Sind DATRTheorie und Anfrage gegeben und ist der Wert für die Anfrage zu ermitteln, handelt es sich um die herkömmliche Inferenz in DATR. Sind dagegen Anfragen und Werte gegeben und ist die Theorie zu ermitteln, handelt es sich um den Erwerb von DATR-Theorien, das Thema dieser Arbeit. Light (1994) behandelt eine Klassifikationsaufgabe, bei der ebenfalls eine DATR-Theorie zu erstellen ist. Hierbei ist jedoch bereits eine strukturierte DATR-Theorie gegeben, und die Aufgabe besteht im Einfügen einzelner, neuer Objekte in diese bestehende Theorie, wobei die neuen Objekte durch extensionale DATR-Sätze beschrieben werden. Auch die dritte Inferenz-Aufgabe hat bereits Beachtung gefunden: Die Ermittlung der möglichen Anfragen bei gegebener DATR-Theorie und konkretem Wert wird als das "reverse query"Problem diskutiert. Langer (1994) schlägt hierfür einen Lösungsansatz für eine nicht-triviale Teilsprache von DATR vor. Die folgende Tabelle faßt die Inferenz-Aufgaben zusammen ('+' bedeutet gegeben, '?' zu ermitteln):
^
Wie sich später zeigen wird (vgl. Kap. 4.5), unterliegen die inferierbaren DATR-Theorien allerdings bestimmten Einschränkungen, die jedoch unabhängig von konkreten linguistischen Domänen bestehen.
43 (4-3)
DATR-INFERENZSZENARIO
DATRTheorie
Anfragen
Werte
herkömmliche Inferenz
+
+
?
"reverse query"-Problem
+
?
+
Erwerb von DATR-Theorien
?
+
+
Ausgehend von extensionalen DATR-Sätzen, die Beobachtungen für linguistische Phänomene einer bestimmten Domäne darstellen, besteht die Lernaufgabe darin, eine (oder mehrere) DATR-Theorie zu inferieren, die diese Beobachtungen strukturiert. Da von konkreten Fakten auf eine generelle Beschreibung geschlossen werden soll, handelt es sich um eine induktive Lernaufgabe. Um als charakteristische Beschreibung für eine Menge von extensionalen DATR-Sätzen zu gelten, muß eine DATR-Theorie — neben der Bedingung, daß sie den allgemeinen Wohlgeformtheitsbedingungen für DATR-Theorien entspricht — den folgenden Anforderungen genügen:
(1)
Konsistenz
Die inferierte DATR-Theorie muß mit den beobachteten Daten konsistent sein. Das bedeutet, daß alle Anfragen an die Theorie, die als Knoten-Pfad-Paar in den extensionalen DATRSätzen vorkommen, denselben Wert liefern müssen, den der entsprechende extensionale Satz aufweist. Diese Menge von Anfragen wird im folgenden auch Beobachtungsanfragen genannt. Eine DATR-Theorie, die im Hinblick auf die Beobachtungsanfragen konsistent mit den Daten ist, heißt beobachtungskonsistent.6 Die folgende Theorie weist diese Eigenschaft beispielsweise nicht auf: (4-4) MIT (4-2) NICHT KONSISTENTE DATR-THEORIE Auto:
^
< r o o t > == a u t o < s i n g > == < r o o t > < p l u > == ( < r o o t >
s).
Beobachtungskonsistenz bezieht sich immer lediglich auf die Evaluierung der Beobachtungsanfragen und sagt nichts über andere Anfragen, die an eine Theorie gestellt werden, aus. S o kann es durchaus sein, daß eine Theorie zwar beobachtungskonsistent im Hinblick auf die Daten ist, aber für andere Anfragen andere Werte liefert, als die Theorie in Form der extensionalen Sätze. S o liefert die Theorie in ( 4 - 5 ) beispielsweise den Wert a u t o für die Anfrage A u t o : < s i n g f o o > , während die Evaluierung dieser Anfrage für die Lerndaten scheitert. Da Anfragen, die keine Beobachtungsanfragen sind, aber für den Erwerb von DATR-Theorien keine Rolle spielen, bezieht sich Konsistenz im folgenden immer auf die Beobaehtungsanfragen, wenn nichts anderes angegeben wird.
44 Während diese Theorie mit den meisten Sätzen in (4-2) konsistent ist, trifft dies nicht für den Satz (4) zu. Die Beobachtungsanfrage A u t o : < s i n g g e n > an die Theorie in (4-4) evaluiert zu a u t o , was den beobachteten Daten widerspricht, da der entsprechende extensionale Satz den Wert ( a u t o s ) hat. Damit ist die Theorie in (4-4) keine korrekte Beschreibung für die Sätze in (4-2). (2) Vollständigkeit Die inferierte DATR-Theorie muß die beobachteten Daten vollständig erfassen. Das bedeutet, daß alle Beobachtungsanfragen für die Theorie evaluierbar sein müssen. Eine Theorie mit dieser Eigenschaft wird beobachtungsvollständig genannt. Die folgende Theorie erfüllt dieses Kriterium in Bezug auf die Daten in (4-2) beispielsweise nicht: (4-5)
IN BEZUG AUF (4-2) UNVOLLSTÄNDIGE DATR-THEORIE
Auto:
== auto == ( s) == ( s).
Zwar liefern alle Beobachtungsanfragen, die an diese Theorie gestellt werden können, korrekte Werte (d.h. die Theorie ist mit den Daten konsistent), aber einige der Beobachtungsanfragen können nicht evaluiert werden. Dies sind die Anfragen A u t o : < s i n g nom>, A u t o : < s i n g a c c > und A u t o : < s i n g d a t > . Da für diese Anfragen kein passender Satz in der Theorie vorhanden ist, scheitert der Versuch, sie zu evaluieren. Die Theorie ist also nicht vollständig in Bezug auf die Daten, da die Sätze (2,3,5) nicht abgedeckt werden. (3) Strukturierung der beobachteten Daten durch Vererbungsverweise Die inferierte Theorie soll eine strukturierte Beschreibung darstellen, die Zusammenhänge, die zwischen den Daten bestehen, aufdeckt. In einer DATR-Theorie werden Zusammenhänge zwischen Eigenschaften von Objekten durch Vererbungsverweise zwischen den Sätzen der Theorie ausgedrückt. Während die Lerndaten beispielsweise eine triviale DATR-Theorie darstellen, die den Kriterien (1) und (2) genügt, handelt es sich hierbei nicht um eine Theorie, die die Daten strukturiert, da alle Sätze unabhängig voneinander sind. (4) Strukturierung der beobachteten Daten durch Generalisierung Die erlernte DATR-Theorie soll derart über den Lerndaten abstrahieren, daß induktive Schlüsse gezogen werden, die zu allgemeineren Annahmen führen. So könnte beispielsweise aus den in (4-2) gegebenen Sätzen induktiv der allgemeinere Schluß gezogen werden, daß alle Pluralformen von Auto ( a u t o s ) lauten.7 In DATR werden solche Generalisierungen mithilfe von Defaults erfaßt, indem ein einziger Satz eine Reihe von Fakten abdeckt, die im
7
Daß in (4-2) zufällig tatsächlich alle Pluralformen aufgeführt sind, spielt hierbei keine Rolle. Da beim induktiven Schließen grundsätzlich von unvollständigen Daten ausgegangen werden muß, könnte dieser Schluß ebenso gezogen werden, wenn nur drei der Formen aufgeführt wären.
45 Input durch jeweils einen extensionalen Satz repräsentiert sind. Eine DATR-Theorie, die derartige Generalisierungen beinhaltet, kann unter Umständen auch Anfragen evaluieren, die von den Lerndaten nicht abgedeckt werden. Die folgende Theorie erfüllt die aufgeführten Kriterien (l)-(4) in Bezug auf die in (4-2) gegebenen Daten: (4-6)
MÖGLICHE DATR-THEORIE FÜR DIE DATEN IN ( 4 - 2 )
Auto:
== auto == == ( s) == ( s).
Daß die Kriterien (1) und (2) erfüllt sind, läßt sich leicht überprüfen. Dem Kriterium (3) wird insofern Rechnung getragen, als die Sätze der Theorie keine isolierten Eigenschaften repräsentieren, sondern die Eigenschaften des Objektes mittels Verweisen zueinander in Beziehung setzen. So wird beispielsweise zum Ausdruck gebracht, daß die Singularformen (außer Genitiv) von Auto wie die Wurzel sind, während die Pluralformen und die Form für Genitiv Singular der Wurzel plus s entsprechen. Die Theorie in (4-6) ist genereller als die Sätze in (4-2), da beispielsweise explizit repräsentiert wird, daß alle Pluralformen die Form Wurzel+s haben und alle Singularformen (außer Genitiv) wie die Wurzel sind. Dies wird dadurch repräsentiert, daß beispielsweise alle Eigenschaften, die die Pluralformen von Auto betreffen, durch einen einzigen Satz abgedeckt werden, während die Lerndaten vier entsprechende Sätze aufweisen. Daß die Theorie in (4-6) mehr Anfragen als die Lerndaten abdeckt, zeigt sich unter anderem an folgendem: würde in (4-2) Satz (9) fehlen, wäre (4-6) immer noch eine Beschreibung der Daten, die zudem auch für die Anfrage A u t o : < p l u d a t > ein Ergebnis liefern würde. An dieser Stelle ist zu betonen, daß die in (4-6) abgebildete DATR-Theorie keineswegs die einzige Theorie für die Daten in (4-2) ist, die die Kriterien (1) - (4) erfüllt. Dies gilt beispielsweise auch für die folgende Theorie: (4-7)
MÖGLICHE DATR-THEORIE FÜR DIE DATEN IN ( 4 - 2 )
Auto:
== auto == ( s) == ( s).
Welche Formen die tatsächlich inferierten DATR-Theorien haben, hängt einerseits mit den unten formulierten Komponenten des Lernansatzes (Transformationsregeln und Default-Algorithmus), andererseits mit zusätzlichen Anforderungen an die Theorie in Form von Gütekriterien (siehe Kap. 4.4.3) zusammen. Die Kriterien (1) - (4) führen zu strukturierten Beschreibungen der Eigenschaften einzelner Objekte. Darüberhinaus sollte eine DATR-Theorie aber auch dazu dienen, die Domäne als Ganzes zu strukturieren. Dies geschieht beispielsweise, indem mehrere Objekte, dadurch daß sie gemeinsame Eigenschaften von einem übergeordneten Knoten erben, als zu einer
46 Klasse gehörig charakterisiert werden (z.B. die Klassen der intransitiven Verben, der transitiven Verben etc., vgl. Kapitel 3.3 Abb. (3-10)). Dies soll am folgenden Beispiel verdeutlicht werden, das als Lerninput neben der Flexionsinformation von Auto auch Flexionsinformation für das Substantiv Klub enthält:
(4-8)
POTENTIELLER LERNINPUT FÜR ZWEI OBJEKTE
Auto: = auto. Auto: = auto. Auto: = auto. Auto: = (auto s). Auto: = auto. Auto: = (auto s). Auto: = (auto s). Auto: = (auto s). Auto: = (auto s). Klub: = klub. Klub: = klub. Klub: = klub. Klub: = (klub s). Klub: = klub. Klub: = (klub s). Klub: = (klub s). Klub: = (klub s). Klub: = (klub s). Da die beiden Substantive Auto und Klub der gleichen Flexionsklasse angehören, teilen sie die für diese Flexionsklasse charakteristischen morphologischen Eigenschaften. Während dies aus den Daten in (4-6) nicht hervorgeht, sollte eine charakteristische DATR-Theorie für die Daten diesen Aspekt erfassen. Die folgende Theorie wird diesem Anspruch gerecht: (4-9)
HIERARCHISCH STUKRURIERTE DATR-THEORIE
Noun: Auto: Klub:
== "" == ("" s) == ("" s). == Noun == auto. == Noun == klub.
Neben den Knotendefinitionen für Auto und Klub, deren Eigenschaften durch die Eingabedaten beschrieben werden, enthält die Theorie einen weiteren Knoten Noun. A u t o und K l u b erben alle, außer den lexemspezifischen Eigenschaften (hier: die Wurzel) von diesem Knoten, der die für die Flexionsklasse charakteristischen Eigenschaften spezifiziert. So wer-
47 den die Gemeinsamkeiten der beobachteten Daten von diesen abstrahiert und in allgemeineren Knoten spezifiziert, wodurch die Domäne hierarchisch strukturiert wird. Zusammenfassend läßt sich die skizzierte Lernaufgabe folgendermaßen in das Paradigma des Maschinellen Lernens einordnen. Zunächst handelt es sich um eine typische Aufgabe aus dem Bereich der induktiven Inferenz, wie das folgende Zitat von Michalski deutlich macht (1983, S.116): In contrast to deduction, the starting premises of induction are specific facts rather than general axioms. The goal of inference is to formulate plausible general assertions that explain the given facts and are able to predict new facts. In other words, inductive inference attempts to derive a complete and correct description of a given phenomenon from specific observations of that phenomenon or of parts of it. Ausgehend von den zwei Hauptvertretern der induktiven Inferenz — dem Konzepterwerb aus Beispielen und dem Konzepterwerb aus Beobachtungen (deskriptive Generalisierung) — läßt sich die vorliegende Lernaufgabe am ehesten als deskriptive Generalisierung charakterisieren. Im Gegensatz zum Konzepterwerb aus Beispielen, wo die Lerndaten aus vorklassifizierten Beispielen konkreter Konzepte bestehen, ist das Ziel des Lernens durch Beobachtung die Aufstellung neuer Konzepte oder Theorien für eine gegebene nicht vorklassifizierte Datenmenge. Zum Konzepterwerb aus Beobachtungen rechnet Michalski u.a. "[...] automated theory formation [...], discovery of relationships in data [...], or an automatic construction of taxonomies [...]" (1983, S. 114). Die oben skizzierte Aufgabe des Erwerbs von DATR-Theorien hat viele Gemeinsamkeiten mit solchen Ansätzen, hat jedoch auch Anknüpfungspunkte zu anderen induktiven Lernaufgaben. Darüberhinaus weist sie für die Aufgabe spezifische Charakteristika auf. So verwenden zwar einige Ansätze Vererbungsnetze zur Repräsentation des erlernten Wissens (z.B. Winston 1975), doch handelt es sich hierbei nicht um DefaultVererbungsnetze. Defaults sind aber gerade charakteristisch für den hier verwendeten Formalismus DATR. Ihre systematische Berücksichtigung bei der Entwicklung eines Lernsystems ermöglicht den Erwerb von Default-Wissen und bildet ein zentrales Anliegen der vorliegenden Arbeit.
4.2
Transformationsregeln
Wie in 4.1 beschrieben ist der Ausgangspunkt für eine zu erlernende DATR-Theorie eine Menge von beobachteten Daten in Form von extensionalen DATR-Sätzen. Diese triviale DATR-Theorie bildet die Ausgangshypothese H 0 einer konkreten Lernaufgabe. Um letztlich zu einer Ergebnishypothese HE (dem Lernoutput) zu gelangen, die den oben aufgeführten Anforderungen entspricht, muß H 0 derart transformiert werden, daß sie (a) Vererbungsverweise enthält, die die Sätze der Theorie miteinander in Beziehung setzen und (b) über den beobachteten Daten generalisiert. In diesem Kapitel wird die Fragestellung behandelt, wie Vererbungsverweise gewonnen werden können. Das nachfolgende Kapitel widmet sich der Generalisierung.
48 Das Wissen darüber, wie aus einer Hypothese Hj generell eine andere Hypothese Hi+1 gewonnen werden kann, die mehr oder andere Vererbungsverweise enthält, wird — wie in vielen anderen Ansätzen auch (z.B. Michalski 1983) — in Form von Regeln formuliert. Die Regeln drücken zulässige Transformationen auf einer gegebenen DATR-Theorie H, aus, wobei 'zulässig' bedeutet, daß das Ergebnis der Transformation Hi+1 eine bezüglich H, konsistente und vollständige DATR-Theorie ist.8 Auf diese Weise wird sichergestellt, daß alle mittels der Regeln generierten Hypothesen den ersten beiden Kriterien (Konsistenz und Vollständigkeit im Hinblick auf den Lerninput) genügen. Da Konsistenz und Vollständigkeit transitive Relationen sind und jede Zwischenhypothese mittelbar oder unmittelbar aus H0 inferiert wird, muß nicht überprüft werden, ob Hi+1 bezüglich Ho konsistent und vollständig ist. Da Vererbungsverweise eine Beziehung von einem DATR-Satz zu einem anderen herstellen, operieren die Transformationsregeln jeweils auf einem DATR-Satz, so daß für diesen Satz ein Vererbungsverweis gewonnen wird. Das bedeutet, ein Satz einer Theorie wird durch eine Regel verändert, wobei der Satz jedoch immer im Kontext der Gesamttheorie betrachtet wird, da — wie weiter unten gezeigt wird — die übrigen Sätze ausschlaggebend für die Anwendbarkeit einer Regel und das Ergebnis der Transformation sein können. Die Anwendung einer Transformationsregel kann formal folgendermaßen charakterisiert werden: 9
® Auch hier werden Konsistenz und Vollständigkeit wiederum lediglich in Bezug auf die Beobachtungsanfragen definiert. D.h., eine Theorie H, ist in Bezug auf eine Theorie H2 konsistent und vollständig, wenn beide Theorien für alle Beobachtungsanfragen dieselben Werte liefern. 9 Die folgende Formalisierung hat einen vorläufigen Charakter und wird im Verlauf der weiteren Arbeit noch vervollständigt und modifiziert.
49 (4-10)
ANWENDUNG EINER TRANSFORMATIONSREGEL
Gegeben: H, = {s„...,s n }
-
eine DATR-Theorie mit den Sätzen s, bis s n
N = {n,,...,n n }
-
die Knoten der Theorie H,
P = {p„...,p n }
-
die Pfade der Theorie H,
V = {v„...,v n }
-
die Werte bzw. Vererbungsverweise der rechten Seiten der Theorie H,
Vq = {v ql ,...,v qn }
-
die ungequoteten Verweise der Theorie H, in gequoteter Form
Si^nj.Pi.Vj) e H[
-
ein konkreter Satz aus der Theorie H „ wobei
n ^ N Pi
e
P
Vi e V B = {b„...,b n }
-
Transformationsbedingungen
TJI SJICN^PJ.VJ) —» S^Cn^ppV;') / BJ
-
eine konsistenz- und Vollständigkeitserhaltende Transformationsregel (zu lesen: Sj kann zu s,' transformiert werden unter den Bedingungen B,), wobei
BJ C B
V;' € N u P u N X P u Vq
Ergebnis: H 2 = ( H[ \ Sj ) u {S;'}
-
eine DATR-Theorie, die durch Transformation eines Satzes aus H, entstanden ist
Die Anwendung einer Transformationsregel auf eine gegebene DATR-Theorie H, bewirkt, daß ein konkreter Satz Sj dieser Theorie verändert wird. Die Veränderung des Satzes, der aus Knoten, Pfad und rechter Seite besteht (n^p,,^) betrifft hierbei die rechte Seite v, des Satzes, während Knoten und Pfad unverändert bleiben. 1 0 Die mögliche neue rechte Seite Vj' ist eingeschränkt durch die gegebene DATR-Theorie. Sie kann aus der Menge der Knoten N der Theorie stammen, was zu einem Satz mit Knotenverweis führt. Ebenso kann v ' aus der Menge der Pfade P stammen, was einem Satz mit Pfadverweis entspricht. Ist
ein geordne-
tes Paar aus N X P , verweist der Satz mittels Knoten-Pfad-Paar auf einen anderen Satz der
In Kap. 4.3 wird gezeigt werden, daß sich auch Pfade von Sätzen ändern können, indem sie verkürzt werden. Dies ist jedoch ein Mittel zur Repräsentation von Default-Information und betrifft nicht die Transformationsregeln, die den Gewinn von Verweisen auf andere Sätze ermöglichen.
50 Theorie. Schließlich ist es noch möglich, daß v/ aus Vq stammt, was einem globalen Verweis entspricht. Durch die Einschränkung von auf diese Werte ist es nicht möglich, daß ein Satz einen Verweis erhält, der außerhalb der betrachteten DATR-Theorie liegt." Bei der Anwendung einer Regel müssen bestimmte Transformationsbedingungen Bj beachtet werden. Diese Bedingungen betreffen das Verhältnis des betrachteten Satzes zu anderen Sätzen und spiegeln so die Tatsache wider, daß ein DATR-Satz immer im Kontext der Gesamttheorie betrachtet werden muß. Wie die konkreten Bedingungen aussehen, wird bei der Diskussion der entsprechenden Regeln dargestellt. Durch Beachtung der Transformationsbedingungen erzeugen die Regeln nur Theorien, die im Hinblick auf H, konsistent und vollständig sind. Das bedeutet, daß eine Theorie H2, die durch Transformation aus H, entstanden ist, für alle Beobachtungsanfragen dieselben Werte liefert wie H,. Da Vollständigkeit und Konsistenz transitive Relationen sind, ist so gewährleistet, daß jede Theorie, die durch Transformation entsteht, in Bezug auf die beobachteten Daten konsistent und vollständig ist, da alle Theorien direkt oder indirekt aus H0, der Ausgangshypothese, entstehen. Im folgenden werden die konkreten Transformationsregeln vorgestellt, wobei zu beachten ist, daß die Regeln noch nicht den Inferenzprozeß selbst darstellen. Sie sind vielmehr deklarativ zu verstehen, indem sie angeben, welche Operationen auf DATR-Theorien zulässig sind und zu welchen Ergebnissen diese führen. Wie der konkrete Inferenzprozeß aussieht, der mit Hilfe dieser Regeln (und weiteren Komponenten) den Erwerb von DATR-Theorien leistet, ist eine gesonderte Fragestellung, die im Anschluß behandelt wird (Kap. 4.4). In der folgenden Darstellung erfolgt die Entwicklung der Regeln unter sukzessiver Betrachtung von DATR-Subsprachen. Kap. 4.2.1 behandelt zunächst den Ausschnitt von DATR, der lediglich lokale Vererbungsverweise beinhaltet. In Kap. 4.2.2 und 4.2.3 werden Regeln für die Inferenz von globalen Verweisen entwickelt. In Kap. 4.2.4 wird untersucht, wie Hierarchien gebildet werden können.
4.2.1 Regeln für lokale Verweise Die denkbar einfachste DATR-Theorie ist eine Theorie, in der alle Sätze atomare Werte haben. Dies entspricht der beobachteten Datenmenge, d.h. der Ausgangshypothese H„. Um eine solche DATR-Theorie zu erhalten, sind keinerlei Transformationen auf dem Lerninput und somit auch keine Transformationsregeln notwendig.
11
Die Darstellung der möglichen rechten Seiten ist an dieser Stelle vereinfacht. Die Anwendung einer Transformationsregel wird später auf Sätze mit Sequenzen ausgedehnt.
51 4.2.1.1
Lokale Pfadverweise
Die nächst komplexere DATR-Theorie besteht aus der Beschreibung eines einzigen Objektes, d.h. sie enthält nur einen Knoten, dessen Sätze miteinander in Beziehung stehen. Zur Repräsentation dieser Beziehungen verwendet man in DATR lokale Pfadverweise. Diese spezifizieren, welche Sätze ihre Werte von welchen anderen Sätzen desselben Knotens erben. So bestimmt der Pfadverweis in der in (4-11) abgebildeten Theorie, daß der zweite Satz seinen Wert vom ersten Satz des gleichen Knotens (Auto) der Theorie erbt. (4-11)
LOKALER PFAD VERWEIS
Auto:
== auto == .
Um eine DATR-Theorie mit Pfadverweisen zu inferieren, ist eine Regel notwendig, die Sätze mit entsprechenden Pfadverweisen erzeugt. Das Ergebnis der Anwendung der Transformationsregel (die rechte Seite) ist also ein Satz mit Pfadverweis, d.h. s':(n,p,v') mit v' e P. Da zumindest die Ausgangshypothese H„ eine Theorie ist, die lediglich Sätze mit atomaren Werten enthält, sollte diese Regel auf solchen Sätzen mit atomaren Werten operieren, um zu einer Theorie mit Pfadverweisen zu gelangen. Hierzu wird (4-10) um die Menge Va c V (die atomaren Werte einer DATR-Theorie H,) ergänzt. Die linke Seite der Transformationsregel hat somit die Form s:(n,p,v), mit v e Va. Da H2 in bezug auf H, konsistent und vollständig sein muß, gelten bestimmte Bedingungen für die Anwendung der Regel. Insbesondere darf für v' nicht jedes Element aus der Menge P eingesetzt werden. Um die Konsistenz mit H, zu gewährleisten, muß der transformierte Satz s' bei einer Beobachtungsanfrage denselben Wert liefern wie der Satz s. Daher muß bestimmt werden, von welchen anderen Sätzen ein Satz mit atomarem Wert seinen Wert erben kann. Dies sind genau die Sätze, die den gleichen atomaren Wert wie der zu transformierende Satz haben. Das bedeutet, daß für v' die Pfade derjenigen Sätze eingesetzt werden können, die den gleichen atomaren Wert wie s haben. Die entsprechende Transformationsregel rl kann nun gemäß (4-10) folgendermaßen formuliert werden: 12
12 Entsprechend der Anwendung einer Transformationsregel in (4-10) bedeuten hier: rl s:(n,p,v) s':(n,p,v') /...
die Regelnummer der zu transformierende Satz (Inputsatz) der transformierte Satz (Outputsatz) mit einem neuen Vererbungsverweis v' die Bedingungen für die Regelanwendung
52 (4-12)
REGEL FÜR LOKALEN PFADVERWEIS
rl: s:(n,p,v) —> s':(n,p,v') /
v e Va, V' 6 P,
s^n.v'.v) e H„ Sj * s Ein kleines Beispiel soll die Bedingungen für die Anwendung dieser Regel und ihr Ergebnis illustrieren: Gegeben: H,:
(s,) (s2) (s3) (s4)
N:
= = = =
vi. v2. vi. vi.
Da für den zu transformierenden Satz s (linke Seite der Regel) lediglich gefordert ist, daß er einen atomaren Wert aufweist (erste Bedingung), können potentiell alle Sätze von H, als Input-Satz für die Regel rl fungieren. Zunächst soll die Anwendung der Regel auf s, betrachtet werden. Die zweite Bedingung von rl fordert, daß der Vererbungsverweis für den zu transformierenden Satz aus der Menge P={, < x y>,
, < a b>}, den Pfaden der Theorie H„ stammt. Wählt man für v' das Element , wird die dritte Bedingung verletzt, da H, keinen Satz N : < c d> = v i enthält. Das bedeutet, daß es nicht zulässig ist, s , z u s , ' : N : < a b > == < c d> zu transformieren. Eine solche Transformation muß ausgeschlossen werden, da sie zu einer Theorie führt, die nicht mit H, konsistent ist, da die Beobachtungsanfrage N : < a b > in dem Fall den Wert v 2 liefert, während sie für H, zu v i evaluiert. Wählt man stattdessen für v' das zweite Element () aus P, wird die dritte Bedingung nicht verletzt, da H, den Satz N : < x y > = v i enthält (s3). Auch die vierte Bedingung ist erfüllt, da s 3 * s, ist. Der Satz S[ kann somit zu s/: N : < a b > == < x y > transformiert werden, was zu der folgenden neuen DATR-Theorie H 2 führt, die in Bezug auf H, konsistent und vollständig ist: 13 H2:
(s^ (s2) (s3) (s4)
11
N: q>
== < x y > . = v2. = vi. = vi.
Bei der Anwendung einer Transformationsregel auf einen extensionalen DATR-Satz wird aus diesem ein definitorischer Satz (mit '=='), da er durch seinen Verweis eine Beziehung im Netzwerk definiert.
53 Ebenso kann für v' das dritte Element aus P (
) gewählt werden, da H, auch den Satz N:
= v i (s 4 ) enthält. In diesem Fall wird s, zu s,': N : < a b > ==
transformiert, was ebenso zu einer in Bezug auf H, vollständigen und konsistenten Theorie führt. Die letzte Bedingung der Regel rl verhindert, daß für v' das Element < a b > aus P gewählt wird. Zwar gibt es einen Satz N : < a b > = v i in H,, doch ist dies der zu transformierende Satz S[. Der Satz N: < a b > = v i kann daher nicht zu N: < a b > == < a b > transformiert werden. Die letzte Bedingung verhindert somit die Entstehung zyklischer DATR-Theorien. 1 4 Wie dieses kleine Beispiel bereits zeigt, führt die Anwendung einer Regel auf einen Satz nicht notwendigerweise zu einem eindeutigen Ergebnis. Es gibt beispielsweise zwei mögliche Anwendungen der Regel rl auf den Satz s, der Theorie H h was zu zwei unterschiedlichen neuen DATR-Theorien führt. Ebenso verhält es sich mit den Sätzen s3 und s 4 aus H,. Der Satz s 3 : N : < x
y>
=
vi
kann zu s 3 ': N : < x
y>
==
und zu
s 3 ': N : < x y > ==
transformiert werden. Der Satz s 4 : N : < p q > = v i kann zu s 4 ': N : < p q > ==
und zu s 4 ': N : < p q > == < x
y > transformiert werden. Im
Gegensatz dazu kann die Regel rl überhaupt nicht auf den Satz s2 angewendet werden, da für kein mögliches v' die dritte Bedingung erfüllt ist, was bedeutet, daß es in dieser Theorie keinen Satz gibt, der den gleichen Wert wie s2 hat. Insgesamt gibt es folglich sechs mögliche Anwendungen der Regel rl auf die DATR-Theorie H„ die zu sechs neuen DATR-Theorien H2 führen.
4.2.1.2
Lokale Knotenverweise
Beschreibt eine DATR-Theorie mehr als ein Objekt, können Beziehungen zwischen den Objekten mittels Knotenverweisen und Knoten-Pfad-Verweisen ausgedrückt werden. Um solche Theorien zu inferieren, müssen entsprechende Transformationsregeln formuliert werden, deren Ergebnisse Sätze mit Knotenverweisen (s':(n,p,v') mit v' e N) bzw. Knoten-Pfad-Verweisen (s':(n,p,v') mit v' e N X P ) sind. Aus den gleichen Gründen wie bei der Regel für lokale Pfadverweise operieren die Regeln auf Sätzen mit atomaren Werten, d.h. die linken Seiten der Regeln haben die Form s:(n,p,v) mit v e Va. Auch für diese Regeln gelten weitere Einschränkungen, die die Wahl von v' betreffen. Analog zu der Tatsache, daß Sätze mittels Pfad nur auf Sätze desselben Knotens verweisen können, verweisen Sätze mit lokalem Knotenverweis auf andere Sätze, die denselben Pfad haben. Um die Konsistenz von H 2 mit H, zu gewährleisten, darf ein Satz s nur dann zu einem Satz s' mit Knotenverweis transformiert werden, wenn der Knoten auf einen Satz
14
Die Verhinderung indirekter Zyklen erfolgt bereits durch die erste und dritte Bedingung der Regel rl, indem Sätze mit atomaren Werten nur auf andere Sätze mit atomaren Werten verweisen können. Wird ein Satz mit atomarem Wert in einen Satz mit Pfadverweis transformiert (wie etwa s, in H2), kann die Regel rl nicht später auf einen Satz angewendet werden, der seinen Wert durch Pfadverweis von s, erbt. Wie weiter unten in diesem Kapitel gezeigt wird, verhindert dies jedoch nicht die Entstehung von Theorien, in denen Werte über mehrere Stufen vererbt werden.
54 verweist, der denselben Wert wie s hat. Die entsprechende Transformationsregel für lokale Knotenverweise hat demnach die folgende Form: (4-13)
REGEL FÜR LOKALEN KNOTENVERWEIS
r2: s:(n,p,v)
s':(n,p,v') /
v e Va, v' e N, S;:(v',p,v) 6 H „ Sj ^ s
Die Anwendung der Regel soll wiederum an einem Beispiel gezeigt werden: H,: (s.) (s 2 ) (s 3 ) (s 4 )
Nl: Nl: N2 : N3 :
Die Regel r2 kann potentiell auf alle vier Sätze von H, angewendet werden, da alle Sätze einen atomaren Wert aufweisen und somit die einzige Bedingung für den Input-Satz erfüllen. Wird versucht, die Regel
auf s, anzuwenden,
muß v' aus der M e n g e
der
Knoten
N = { N 2 , N 3 , N 1 } der Theorie H, stammen. Für das Element N2 ist auch die dritte Bedingung der Regel r2 erfüllt: H, enthält einen Satz N2 : < a b >
= v i (s 3 ). Da dieser Satz nicht der
Input-Satz ist (vierte Bedingung), kann s, zu dem neuen Satz s,': N l : < a b > == N2 transformiert werden. Diese Transformation führt zu folgender Hypothese H 2 : H2: (s,) (s 2 ) (s 3 ) (s 4 )
Nl: Nl: N2 : N3 :
= v i , doch handelt es sich hierbei um den betrachteten Satz, wodurch die vierte Bedingung verletzt wird. S o wird ebenso wie bei Pfadverweisen auch bei Knotenverweisen die Entstehung zyklischer DATR-Theorien verhindert. Der Versuch, die Regel r2 auf den Satz s 2 anzuwenden, scheitert für alle potentiellen v' an der dritten bzw. vierten Bedingung. H, enthält keinen Satz, der verschieden von s 2 ist, aber denselben Pfad und Wert wie s 2 aufweist. Folglich gibt es keinen Satz, von dem
55 s 2 seinen Wert mittels Knotenverweis erben kann. (Natürlich könnte s 2 seinen Wert mittels Pfadverweis von s, erben, doch dazu müßte die Regel rl angewendet werden.) Auf den Satz s 3 kann die Regel r2 genau einmal angewendet werden, nämlich für v' = N l . Eine solche Anwendung der Regel transformiert s 3 zu s 3 ': N2 : < a b > == N l . Bei v' = N3 ist die dritte Bedingung nicht erfüllt, während v' = N2 gegen die vierte Bedingung verstößt. Schließlich kann aus dem gleichen Grund wie bei s 2 die Regel r2 gar nicht auf s 4 angewendet werden. Bei gegebener Hypothese H, und Transformationsregel r2 gibt es folglich zwei zulässige Anwendungen der Regel auf die Theorie, die zu zwei unterschiedlichen neuen Hypothesen führen.
4.2.1.3
Lokale Knoten-Pfad-Verweise
Während ein Satz mittels Pfadverweis auf Sätze des gleichen Knotens verweist und ein Satz mit Knotenverweis auf Sätze, die den gleichen Pfad beinhalten, verweist ein DATR-Satz mit einem Knoten-Pfad-Paar auf einen Satz eines anderen Knotens und mit einem anderen Pfad. Dies muß die entsprechende Transformationsregel für lokale Knoten-Pfad-Verweise berücksichtigen. 15 Darüberhinaus gilt wie beim Pfadverweis und Knotenverweis, daß nur auf solche Sätze verwiesen werden darf, die denselben atomaren Wert aufweisen wie der zu transformierende Satz. In (4-14) ist die Regel für Knoten-Pfad-Verweise formuliert: (4-14)
REGEL FÜR LOKALEN KNOTEN-PFAD-VERWEIS
r3: s:(n,p,v)
s':(n,p,(vn,vp)) /
v e Va, (vn,vp) e N X P, vn * n, vp * p, Sj:(vn,vp,v) e H,
Die Regel r3 soll auf die folgende DATR-Theorie angewendet werden: H,: (s,) (s2) (s3)
Nl: N2: N2:
= v i . = v i . = v i .
Das Beispiel ist wie beim Pfadverweis und Knotenverweis so gewählt, daß alle Sätze die Bedingung für die linke Seite der Regel erfüllen. Der Vererbungsverweis in s' muß bei dieser
15
Zwar kann ein Satz mittels Knoten-Pfad-Verweis auch auf Sätze mit demselben Knoten oder demselben Pfad verweisen, doch ist dies gemäß den Abkürzungskonventionen (vgl. Kap. 3.3) identisch mit einem Pfadverweis bzw. einem Knotenverweis. Diese Fälle werden daher durch die Regeln rl und r2 abgedeckt.
56 Regel ein geordnetes Paar der Menge N X P sein (ein Knoten-Pfad-Paar), die für H, aus den folgenden Elementen besteht: {(Nl,), (Nl,), (N2,), (N2,)}. Bei Anwendung von r3 auf s, scheiden die ersten beiden Elemente aus, da der Knoten identisch mit dem von S[ ist, wodurch die dritte Bedingung verletzt wird. Beim ersten Element wird zusätzlich noch die vierte Bedingung verletzt, die auch von dem dritten Element der Menge verletzt wird. Für (vn,vp) = (N2,) kann die Regel jedoch auf s, angewendet werden. Hier ist auch die fünfte Bedingung erfüllt, daß H, den Satz N2: = v i enthält, s, kann daher zu s/: N1: == N2 : transformiert werden, was zur Hypothese H 2 führt: H2: (s,) (s2) (s3)
N l : == N2 N2 : = v i . N 2 : = v i .
Ebenso kann die Regel r3 auch auf s 3 angewendet werden, wenn (vn,vp) = (Nl,). In diesem Fall wird s 3 zu s3': N2 : == N1: transformiert. Für die anderen Elemente aus N X P ist jeweils die dritte, vierte oder fünfte Bedingung nicht erfüllt. Auf den Satz s2 kann die Regel r3 nicht angewendet werden, so daß es insgesamt zwei zulässige Regelanwendungen von r3 auf H, gibt, was zu zwei neuen Hypothesen H2 führt.
4.2.1.4
Lokale Verweise in Sequenzen
Bei der bisherigen Darstellung der Transformationsregeln für lokale Verweise wurden zunächst keine DATR-Sätze mit atomaren Sequenzen berücksichtigt. Daher muß nun untersucht werden, ob und wie die Regeln mit Sequenzen umgehen können. Grundsätzlich sind zwei Fälle im Zusammenhang mit Sequenzen zu unterscheiden. Erstens kann ein Satz seinen Wert, der aus einer Sequenz von atomaren Werten besteht, von einem anderen DATR-Satz erben. In diesem Fall unterscheidet sich eine Sequenz von atomaren Werten nicht von einem einfachen atomaren Wert bzw. ein atomarer Wert kann als Spezialfall einer Sequenz, nämlich als 1-elementige Sequenz, angesehen werden. Die oben vorgestellten Regeln rl, r2 und r3 müssen lediglich dahingehend modifiziert werden, daß v e Va* ist (d.h. eine Kette über der Menge Va) und nicht v e Va. Die so revidierten Regeln (Abbildung (4-15)) werden genauso auf Sequenzen von atomaren Werten wie auf einfache atomare Werte angewendet. Ist beispielsweise die folgende DATR-Theorie gegeben: H,: (s,) (s2)
N1: = ( v i v 2 v 3 ) . N2: = ( v i v 2 v 3 ) .
gibt es zwei zulässige Regelan Wendungen der Regel r2 auf diese Theorie, einmal mit s, als Input-Satz und einmal mit s2, woraus sich die folgenden zwei neuen Hypothesen ergeben:
57 H 2a ; (s,) (s 2 )
Nl: N2:
< a b > == N 2 . = ( v i v2 v 3 ) .
H 2b : (s,) (s2)
N l : < a b> = ( v i v2 v3) . N 2 : < a b > == N l .
Gleiches gilt für die Regeln rl und r3. Auch sie können genauso auf Sätze angewendet werden, die Sequenzen von atomaren Werten aufweisen. (4-15)
REGELN FÜR LOKALE VERWEISE (REVIDIERTE VERSION)
r l : s:(n,p,v)
s':(n,p,v') /
v e Va\ v' e P, s ^ n . v » € H 1; Sj * s
r2: s:(n,p,v)
s':(n,p,v') /
v e Va*, v' € N, s^v'.p.v) e H „ Sj * s
r3: s:(n,p,v)
s':(n,p,(vn,vp)) /
v e Va*, (vn.vp) € N X P, vn * n, vp * p, s^vn.vp.v) 6 H,
Neben der Möglichkeit, die gesamte Sequenz von atomaren Werten von einem anderen Satz zu erben, ist es in DATR auch zulässig, daß ein Satz lediglich einen Teil seiner rechten Seite (wenn es sich um eine Sequenz handelt) von einem anderen Satz erbt, wie in dem folgenden Beispiel, in dem s 2 mit einem Knotenverweis die Teilsequenz ( v i v 2 ) von s, erbt: 16 (s,) (s2)
Nl: N2:
= ( v i v2) . < a b > == ( N l v 3 ) .
Für diesen Fall sind die bisher vorgestellten Regeln nicht verwendbar, da sie für v' jeweils ein völlig neues Element aus den Mengen P, N oder N X P erfordern und nicht den Fall berücksichtigen, daß lediglich ein Teil von v' aus einer dieser Mengen stammt und ein Teil von v in v' erhalten bleibt. Daher wird für diesen Zweck die folgende zusätzliche Regel formuliert:
16
Bei der Evaluierung von N2: wird zunächst N l : ausgewertet, was den Wert ( v i v 2 ) liefert. Dieser Wert wird dann in der Sequenz eingesetzt, so daß die Anfrage N 2 : < a b> zu dem Wert ( v i v2 v 3 ) evaluiert. Die Teilsequenz ( v i v 2 ) wird hierbei von s, geerbt, während v 3 direkt in der Sequenz als Wert spezifiziert ist.
58 (4-16)
REGEL FÜR LOKALE VERWEISE INNERHALB VON SEQUENZEN
r4: s:(n,p,v)
s':(n,p,v') /
v = v,...v n , n > 1, V =
V
BEFORE VSUB
V
AFTER»
^SUB ^
VsuB ^ ^ ' V
SUB ^ VA > SUB J>
V
=
^BEFORE ^SUB ^AFTER
Die Regel r4 leistet folgendes: Aus der rechten Seite v (bei der es sich um eine Sequenz handeln muß, 1. Bedingung) des Inputsatzes wird eine nicht-leere, echte Teilkette vSUB herausgelöst (2.,3.,4. Bedingung), die nur aus atomaren Werten bestehen darf (5. Bedingung). 17 Bei VBEFORE UND VAFTER handelt es sich ebenfalls um Teilketten von v, von denen maximal eine leer sein kann (wenn beide leer wären, wäre vSUB = v und somit keine echte Teilkette von v). Auf die Teilkette vSUB muß dann eine der Transformationsregeln anwendbar sein (6. Bedingung), die den Vererbungsverweis vSUB' liefert. Dieser wird in der Kette v anstelle von vSUB eingesetzt, was schließlich die neue Sequenz v' ergibt (7. Bedingung). Die potentiellen Werte von v' in r4 machen eine entsprechende Änderung in (4-10) für die Spezifikation von v' erforderlich: Anstelle von v' e N u P u N X P u V , muß v' e (Va u N u P u N X P u Vq)* sein. Die Regel r4 unterscheidet sich von den anderen Regeln für lokale Verweise dadurch, daß sie in ihrem Bedingungsteil nicht nur einfache Anforderungen an die gegebene DATRTheorie definiert, sondern die Anwendung einer anderen Regel beinhaltet. Das folgende Beispiel soll die Anwendung der Regel r4 verdeutlichen. H,: (s,) (s2)
N l : = ( v i v 2 v 3 ) . N2: = ( v i v 2 ) .
Wird die Regel r4 auf s, angewendet, muß zunächst eine Teilkette von ( v i v 2 v 3 ) bestimmt werden, die den Bedingungen in der Regel entspricht. Hierbei darf es sich weder um die leere Kette handeln, noch um die Gesamtkette. Potentielle Teilketten sind somit { ( v i v 2 ) , (v2 v 3 ) , ( v i ) , ( v 2 ) , ( v 3 ) } . Für die Teilkette ( v i v 2 ) kann die Regel r2 angewendet werden, da H, den Satz N 2 : < a b > = ( v i v 2 ) enthält und auch die übrigen Bedingungen von r2 erfüllt sind. Als Wert für vSUB' wird N2 geliefert, was schließlich zur Transformation von s, zu N l : < a b > == (N2 v 3 ) führt. Für die Teilkette (v2 v 3 ) scheitert die Regel, da es keine zulässige Anwendung der Regeln rl, r2 oder r3 gibt. Kein 17
Die Bedingung, daß vSUB nur aus atomaren Werten besteht, ist notwendig, da nicht gefordert ist, daß die gesamte Sequenz ausschließlich atomare Werte beinhaltet. Nur so ist es möglich, daß Sätze mit Sequenzen gebildet werden können, die mehr als einen Vererbungsverweis enthalten, indem die Regel r4 mehrmals hintereinander auf verschiedene atomare Teilsequenzen eines Satzes angewendet wird. Im Gegensatz zu vSUB können die Teilsequenzen VBEF0RE und VAFrER daher beliebige atomare Werte und/oder Vererbungsdeskriptoren enthalten.
59 Satz von H, hat den Wert ( v 2
v 3 ) , so daß diese Teilsequenz auch nicht geerbt werden
kann. Aus dem gleichen Grund kann die Regel auch nicht für die Teilketten ( v i ) ,
(v2),
( v 3 ) angewendet werden. Ebenso scheitert der Versuch, die Regel auf s 2 anzuwenden, da es für keine Teilkette von ( v i
v 2 ) eine zulässige Regelanwendung gibt.
Mit den vorgestellten Regeln r l , r2, r3 und r4 können Sätze mit atomaren Werten (oder Sequenzen, die atomare Teilsequenzen enthalten) in Sätze mit lokalen Verweisen (oder Sequenzen mit lokalen Verweisen) transformiert werden. Durch einen geeigneten Inferenzprozeß, der sich dieser Regeln bedient, können DATR-Theorien erzeugt werden, die aus Sätzen mit atomaren Werten und Sätzen mit lokalen Verweisen bestehen. Es könnte jedoch der Eindruck entstanden sein, daß diese Theorien dadurch, daß die Regeln lediglich auf Sätzen mit atomaren Werten operieren (und die transformierten Sätze lediglich auf Sätze mit atomaren Werten verweisen), in ihrer Form derart eingeschränkt sind, daß die Sätze der inferierten Theorien stets nur auf Sätze mit atomaren Werten verweisen können. Dies würde bedeuten, daß Werte maximal über eine Verweisebene geerbt werden können, während D A T R die Vererbung von Werten über beliebig viele Stufen erlaubt. Daß die vorgestellten Transformationsregeln nicht zu solch eingeschränkten DATR-Theorien führen müssen, zeigt das folgende Beispiel: H,: (s.) (s 2 ) (Sj) (S 4 )
Nl: N2: N2 : N3 :
< a fc»
< c d>
Gegeben ist die DATR-Theorie H „ die beispielsweise durch Anwendung der Regel r2 auf einen Satz N 1 : < a b > Satz zu N2 : < a b >
= v i entsteht. Durch Anwendung der Regel r2 auf s 2 kann dieser
= = N3 transformiert werden. Ebenso ist eine Anwendung der Regel rl
auf s 2 möglich, die den Satz zu N 2 : < a fc» = =
transformiert. In beiden Fälle
entsteht eine neue DATR-Theorie, in der der Satz s, seinen Wert nicht unmittelbar von einem anderen Satz erbt, sondern mittelbar über den Verweis auf s 2 . Dieses Beispiel zeigt, daß die Anwendungen der Regeln r l , r2, r3 und r4 nicht nur DATR-Theorien mit Verweisen über eine Ebene, sondern prinzipiell Theorien mit Verweisen über beliebig viele Ebenen erzeugen können. Daher ist es nicht erforderlich, die Regeln für lokale Verweise auch auf Sätze mit nicht-atomaren Werten auszuweiten.
4.2.2 Regeln für globale Verweise Mit Hilfe von lokalen Verweisen können in D A T R zwei konkrete Sätze miteinander in Beziehung gesetzt werden, indem ein Satz seinen Wert von dem anderen Satz erbt. Soll jedoch ausgedrückt werden, daß zwischen verschiedenen Paaren (oder Mengen) von Sätzen dieselbe Vererbungsbeziehung besteht, wobei die konkreten Werte für jedes Paar unterschiedlich sein können, verwendet man in D A T R globale Verweise (vgl. Kap. 3.3). Auf diese
60 Weise wird in (4-17) beispielsweise ausgedrückt, daß für alle Substantive, die auf Noun verweisen, gilt, daß ihre Singularformen wie die Wurzel sind und ihre Pluralformen wie die Wurzel plus n. Ohne globale Vererbung könnte diese Regularität nicht ausgedrückt werden, da die konkreten Wurzeln für alle Substantive unterschiedlich sind und diese daher beispielsweise nicht in einem übergeordneten Knoten, auf den die Substantive verweisen, direkt angegeben werden können. (4-17) Noun: Farbe : Seife: Tante :
GLOBALE VERWEISE
==
==
==
== " < r o o t > " == ( " < r o o t > " n Noun == f ä r b e . Noun == s e i f e . Noun == t a n t e .
Bei der globalen Vererbung ist das Zusammenspiel von Sätzen mit globalen Vererbungsdeskriptoren und Sätzen, die wiederum auf solche Sätze verweisen, von entscheidender Bedeutung. 18 Im folgenden wird zunächst untersucht, wie Sätze mit globalen Verweisen gebildet werden können. Das anschließende Kapitel behandelt Verweise auf globale Sätze. Da globale Sätze allgemeinere Aussagen treffen als ihre lokalen Entsprechungen, erscheint es sinnvoll, Regeln zu formulieren, die Sätze mit lokalen Verweisen in solche mit entsprechenden globalen Verweisen transformieren, wenn es der Kontext erlaubt. Das bedeutet, daß die Regeln für globale Verweise bestimmen, wann ein Satz mit lokalem Verweis zu einem Satz mit entsprechendem globalen Verweis verallgemeinert werden kann. Wie bei den lokalen Verweisen können in DATR globale Verweise aus einem Pfad, einem Knoten oder einem Knoten-Pfad-Paar bestehen. Außerdem können Sequenzen solche globalen Vererbungsdeskriptoren enthalten. Diese Möglichkeiten sollen nun nacheinander betrachtet werden, beginnend mit den Pfadverweisen.
4.2.2.1
Globale Pfad verweise
Die Regel für globale Pfadverweise sollte auf Sätzen operieren, die einen lokalen Pfadverweis haben, d.h. für die linke Seite der Regel muß die Bedingung v e P gelten. Die Spezifizierung der rechten Seite der Regel (der transformierte Satz) ist ebenfalls unproblematisch. Knoten und Pfad des Satzes bleiben unverändert und bei der rechten Seite muß es sich um die gequotete Form der rechten Seite von s handeln, d.h. v' = vq. Es muß nun geklärt werden, ob weitere Bedingungen für die Anwendung der Regel erfüllt sein müssen und wenn ja, wel-
18 Der Einfachheit halber werden im folgenden Sätze mit lokalen Vererbungsverweisen lokale Sätze und solche mit globalen Vererbungsverweisen globale Sätze genannt.
61 che. Das folgende Beispiel zeigt, daß es nicht zulässig ist, beliebige Pfade einer Theorie zu quoten:
H,: (s.) (Sj) (Sj) (s4)
Nl: Nl: N2 : N2 :
== . = vi. == N l . = v2.
H2: (s,') (s2) (s3) (s4)
Nl: Nl: N2 : N2:
== " == "N2" transformiert werden. Eine solche Transformation des Satzes s 4 ist dagegen nicht zulässig, da die vierte Bedingung der Regel verletzt wird: es gibt einen Satz (s 5 ) in H „ der mittels Pfad auf s 4 verweist. Würde s 4 zu s4': N3 : < a b > == "N2" transformiert, wäre in diesem Fall tatsächlich eine mit H, nicht konsistente Hypothese die Folge. Während die Beobachtungsanfrage N3 : < c d > für H, den Wert v i liefert, wäre das Ergebnis bei einer entsprechenden Anfrage an die neue Theorie v 2 . Für H, gibt es somit genau eine zulässige Regelanwendung von r6, die zur folgenden Hypothese H 2 führt: H2: (s,) (s2) (S3) (s4) (s5)
Nl: N2: N2 : N3 : N3 :
== = = == ==
"N2". vi. v2. N2.
64 4.2.2.3
Globale Knoten-Pfad-Verweise
Um Sätze mit globalen Knoten-Pfad-Verweisen zu gewinnen, sind weniger Bedingungen als bei den Regeln für globale Pfad- und Knotenverweise zu formulieren. Insbesondere kann es bei Sätzen mit globalen Knoten-Pfad-Verweisen nicht dadurch zu Inkonsistenzen mit H, kommen, daß andere Sätze auf die zu transformierenden Sätze verweisen. Die oben beschriebenen Inkonsistenzen resultieren aus der Tatsache, daß durch globale Verweise auf Teile des globalen Kontextes referiert wird und dadurch von anderen Sätzen geerbt wird als mit den lokalen Entsprechungen. Da bei globalen Knoten-Pfad-Paaren aber nicht auf den ursprünglichen globalen Kontext referiert wird, sondern lediglich der globale Kontext geändert wird, verweisen globale Knoten-Pfad-Paare auf keine anderen Sätze als die entsprechenden lokalen Knoten-Pfad-Paare. Die Formulierung der Regel für globale Knoten-Pfad-Verweise ist daher einfacher als die der Regeln r5 und r6. (4-20)
REGEL FÜR GLOBALEN KNOTEN-PFAD-VERWEIS
r7: s:(n,p,v) H> s'K^p.v') /
v e N X P, v' = vq
Für die folgende DATR-Theorie gibt es zwei zulässige Anwendungen der Regel r7. H,: (s,) (s2) (s3)
N l : < a b > == N 3 : < c N2: == N 3 : < c N 3 : = v i .
d>. d>.
Nur der Satz s3 genügt nicht den Bedingungen der Regel, da er keinen Knoten-Pfad-Verweis hat. Auf die anderen beiden Sätze kann r7 erfolgreich angewendet werden, was die beiden Folgehypothesen H2a und H2b ergibt: H2a: (s.) (s2) (s3)
4.2.2.4
N l : == " N 3 : < c d > " . N2 : == N 3 : < c d > . N3 : = v i .
H2b: (s,) (s2) (S3)
N l : < a b> == N3 < c d > . N2 : == "N3 " N 3 : = v i .
Globale Verweise in Sequenzen
Schließlich müssen noch Sequenzen betrachtet werden, da diese in DATR globale Werte beinhalten können. Anders als bei den Regeln für lokale Verweise sind hier nicht zwei Fälle zu unterscheiden. In DATR kann man lediglich einzelne Verweise (d.h. Pfade, Knoten und Knoten-Pfad-Paare) innerhalb von Sequenzen quoten, nicht jedoch ganze Sequenzen oder Teilsequenzen. Daher muß nur dieser Fall durch eine entsprechende Regel erfaßt werden. Die Regeln r5, r6 und r7 sind nicht auf Sequenzen anwendbar und bleiben daher unverändert.
65 Wie bei der Regel für lokale Verweise innerhalb von Sequenzen müssen Teile aus einer Sequenz herausgelöst und dann weiter behandelt werden. Die Teile dürfen allerdings nur 1elementige Ketten sein, da nur einzelne Verweise gequotet werden können. Die Bearbeitung dieser Verweise erfolgt wiederum — wie bei der Regel r4 — durch eine der vorhandenen Regeln. (4-21)
REGEL FÜR GLOBALE VERWEISE INNERHALB VON SEQUENZEN
r8: s:(n,p,v) —» s':(n,p,v') /
v = v,...v n , n > 1, ^
=
^BEFORE
^SUB
^AFTER»
vSUB e ( N u P u N X P ) , s':(n,p,vSUB,)>
s:(n,p,vSUB) V
=
V
BEFORE
V
SUB
V
AFTER
Wie r4 löst die Regel r8 einen Teil aus einer Sequenz heraus. Die erste Bedingung stellt sicher, daß es sich bei v tatsächlich um eine Sequenz handelt. Der herausgelöste Teil vSUB muß ein Knoten, ein Pfad oder ein Knoten-Pfad-Paar sein (3. Bedingung). Das Ergebnis der Transformation dieses Elementes durch eine andere Regel wird in der Sequenz anstelle von V
SUB
H,: (s.) (S2) (S3) (s 4 )
eingesetzt. Das folgende Beispiel verdeutlicht die Anwendung der Regel:
Nl: Nl: Nl: N2:
== ( v i < c = v2. == < c d > . = v4.
Die Regel r8 kann nur auf s, angewendet werden, da die anderen Sätze die erste Bedingung nicht erfüllen (sie haben keine Sequenz). Die zweite Bedingung zerlegt v in Teilketten. Hierbei genügen die beiden Zerlegungen mit vSUB = < c
d > und vSUB = N2 auch der dritten
Bedingung. Für vSUB = < c d > kann die Regel r5 für globalen Pfadverweis erfolgreich angewendet werden, für vSUB = N2 die Regel r6. Somit gibt es zwei zulässige Regelanwendungen der Regel r8 auf H „ die zu den folgenden Hypothesen H 2a und H 2b führen: H2a: (s,) (s 2 ) (s 3 ) (S4)
Nl Nl Nl N2
== ( v i "" N2 = v2. == < a b > . = v4.
H2b: (sl) (s2) (s3) (s4)
Nl Nl Nl N2
== ( v i < c d> = v2. == < a b > . = v4.
"N2"
66 4.2.3 Regeln für Verweise auf globale Sätze Unter der Annahme eines geeigneten Inferenzprozesses können mit den Transformationsregeln rl - r8 DATR-Theorien erzeugt werden, die Sätze mit atomaren Weiten, lokalen und globalen Verweisen beinhalten. Durch die restriktive Formulierung der Regeln für globale Verweise ist es jedoch nicht möglich, daß Sätze ihren Wert von einem Satz erben, der einen globalen Vererbungsdeskriptor enthält. Da globale Verweise aber erst im Zusammenhang mit Sätzen, die auf sie verweisen, Generalisierungen repräsentieren, unterscheiden sich die mit den bisher vorgestellten Regeln inferierbaren DATR-Theorien nicht von ihren rein lokalen Entsprechungen. Erst durch geeignete Verweise auf globale Sätze (wie z.B. in Abbildung (4-17) durch den Verweis von F a r b e , S e i f e und T a n t e auf den Knoten Noun, der Sätze mit globalen Pfaden enthält) können Verallgemeinerungen ausgedrückt werden, die mit rein lokalen Theorien nicht möglich wären. Im folgenden wird untersucht, wie Regeln formuliert werden können, die Sätze mit solchen Verweisen auf globale Sätze erzeugen. Soll in DATR auf einen globalen Satz verwiesen werden, kann dies genau wie bei Verweisen auf andere Sätze mit einem Knoten, einem Pfad oder einem Knoten-Pfad-Paar erfolgen, wobei diese Verweise auch Teil einer Sequenz sein können. Somit werden die Ergebnisse der zu formulierenden Transformationsregeln mit den Ergebnissen der Regeln für lokale Verweise identisch sein, d.h. der Output-Satz ist ein Satz mit lokalem Verweis. Es muß nun geklärt werden, welche Sätze als Input für die Regeln dienen sollen und welches die Bedingungen für die Anwendbarkeit der Regeln sind. Wie sich bei der Diskussion der Regeln für lokale Verweise gezeigt hat, können in DATR nur solche Sätze aufeinander verweisen, die den gleichen Wert haben. Dies ist die Grundvoraussetzung, um die Konsistenz einer Hypothese H 2 mit einer Ausgangshypothese H, zu sichern. Es wird sich zeigen, daß dies auch eine zulässige Vorgehensweise für die Formulierung der Regeln für Verweise auf globale Sätze ist. Diese Vorgehensweise impliziert, daß die Regeln auf Sätzen mit globalen Verweisen operieren müssen, da der transformierte Satz auf einen globalen Satz verweisen soll. Wie bei den anderen Regeln wird zunächst die Inferenz von Sätzen mit Pfadverweisen erörtert.
4.2.3.1
Pfad verweise auf globale Sätze
Damit ein Satz mittels Pfadverweis auf einen anderen Satz verweisen kann, müssen die beiden Sätze demselben Knoten angehören, unabhängig davon, ob es lokale oder globale Sätze sind. Wie bereits erläutert, können globale Verweise aus einem Knoten, einem Pfad oder einem Knoten-Pfad-Paar bestehen, sowie Bestandteil einer Sequenz sein. Zunächst sollen Sätze mit einfachen Verweisen (d.h. keine Sequenzen) betrachtet werden. Die Beispiele in (4-22) zeigen, daß mit Pfaden sowohl auf globale Knoten (a), als auch auf globale Pfade (b) und globale Knoten-Pfad-Paare (c) verwiesen werden kann. In den Beispielen verweisen jeweils die Sätze s, der Hypothesen H 2 auf die globalen Sätze s2. Im Gegensatz dazu haben in H, die Sätze s, und s2 beide den globalen Verweis. Die als H 2 abgebildeten Hypothesen sind jeweils mit den Hypothesen H, konsistent, da für alle Beobachtungsanfragen die glei-
67 chen Werte geliefert werden. Somit sind entsprechende Transformationen der Sätze s, in den Hypothesen H, in die Sätze s, der Hypothesen H 2 grundsätzlich zulässig. (4-22)
LOKALE PFADVERWEISE AUF GLOBALE SÄTZE
(a)
LOKALER PFADVERWEIS AUF EINEN SATZ MIT GLOBALEM KNOTEN
H,: (s,) (s2) (S3) (S4)
Nl: d>
H2: (s,) (S2) (S3) (S4)
== " N 2 " . == " N 2 " . = vi. = v2.
H2: (S,) (S2) (s3)
Nl: == " < x y > " . y> = v i .
(s3)
N l : < a b > == " < x N l : < c d> == " < x N l : < x y> = v i .
(C)
LOKALER PFADVERWEIS AUF EINEN SATZ MIT GLOBALEM KNOTEN-PFAD-PAAR
(S2)
y>". y>".
N l : < a b > == < c d > . N l : < C d> == " N 2 " . N 2 : < a b> = v i . N 2 : < c d> = v 2 .
H2: (s,)
H,:
(s,) (s2) (S 3 )
N l : < a b > == " N 2 : < x N l : < c d> == " N 2 : < x N 2 : < x y> = v i .
y>". y>".
(S2)
(S3)
N l : < a b > == < c d > . N l : < c d> == " N 2 : < x y > " N 2 : < x y> = v i .
Betrachtet man die Beispiele in (4-22), dann fällt auf, daß das Verhalten der drei Fälle unterschiedlich ist. In (a) ist der lokale Pfadverweis von S[ in H 2 nur möglich, weil der Wert des Satzes, auf den er verweist (s2) gequotet ist. Eine Theorie, die sich nur dadurch von H 2 unterscheidet, daß s 2 einen lokalen Knotenverweis hat, ist mit H, nicht konsistent. 21 Dies gilt für (b) nicht. Eine Theorie, die sich von H 2 nur dadurch unterscheidet, daß s 2 einen lokalen Pfadverweis hat, ist ebenfalls mit H, konsistent. Das heißt, es erscheint nicht sinnvoll, mittels lokalem Pfad auf einen Satz zu verweisen, der einen globalen Pfadverweis enthält, da sich eine solche Theorie von ihrer rein lokalen Entsprechung, die beispielsweise durch die Anwen-
21 In diesem Fall sähen H, und H wie unten abgebildet aus, wobei H nicht konsistent mit H, ist. 2 2 Während die Beobachtungsanfrage N 1 : < a b > für H, den Wert v i liefert, lautet der Wert für H 2
v2. H2:
H,:
(s,) (s2) (s3) (s4)
Nl: b> d>
== "N2". == "N2". = vi.
(s,) (s2) (s3)
= v2 .
(S4)
Nl:
== < c d > . == N2
= vi. = v2.
68 dung von Regel r2 gebildet werden kann, nicht unterscheidet. Das gleiche gilt für das Beispiel (c). Die Theorie H 2 könnte durch eine entsprechende Theorie ohne globale Verweise ersetzt werden, ohne daß sich die Konsistenz zu H, ändert. Darüberhinaus kann man die Theorie H 2 auch allein mit Hilfe der Regeln rl, r3 und r7 erzeugen, so daß eine spezielle Regel für den Fall (c) an dieser Stelle nicht notwendig ist. Da auch (b) aus den eben genannten Gründen wenig sinnvoll erscheint, wird eine Regel formuliert, die lediglich den Fall (a) abdeckt. Hierzu wird (4-10) um die Menge Vqn c Vq, die Knoten einer Theorie H, in gequoteter Form, erweitert: (4-23)
REGEL FÜR LOKALE PFADVERWEISE AUF SÄTZE MIT GLOBALEN KNOTEN
r9: s:(n,p,v) - 4 s':(n,p,v') /
v € Vqn, v' e P, Sj:(n,v',v) e
H„
S| * s Die Regel r9 entspricht im wesentlichen der Regel rl (Regel für lokalen Pfadverweis). Der Unterschied besteht darin, daß r9 Input-Sätze mit globalen Knoten erwartet (erste Bedingung), während rl auf Sätzen mit atomaren Werten operiert. Die übrigen Bedingungen sind für die beiden Regeln die gleichen. Für Sequenzen wurden bei der Formulierung der Regel rl zwei Fälle unterschieden: Pfadverweis auf Sätze mit Sequenzen (d.h. die gesamte Sequenz wird geerbt) und Pfadverweis innerhalb von Sequenzen (d.h. ein Teil der Sequenz wird von einem anderen Pfad geerbt). Nur der erste Fall wird von der Regel rl abgedeckt, während der zweite eine eigene Regel (r4) erfordert. Diese Unterscheidung erweist sich auch für Pfadverweise auf globale Sätze als sinnvoll, da auch in diesem Fall ganze Sequenzen oder Teile von Sequenzen geerbt werden können. Für den Fall, daß ein Satz mittels Pfad auf einen Satz mit Sequenz verweisen soll, muß zunächst geklärt werden, welche Elemente in einer solchen Sequenz enthalten sein können. Da Pfade auf Sätze mit globalen Knoten verweisen können, sollte auch ein Verweis auf eine Sequenz von globalen Knoten möglich sein. Wie aber in (4-22) gezeigt wurde, ist ein Pfadverweis auch auf Sätze mit globalen Pfaden und globalen Knoten-Pfad-Paaren prinzipiell zulässig. Daher sollten Pfade auch auf Sequenzen verweisen können, die diese beiden Elemente enthalten. Da jedoch gezeigt wurde, daß Verweise auf globale Pfade oder globale Knoten-Pfad-Paare für sich genommen nicht sinnvoll sind, sollten die entsprechenden Sequenzen mindestens einen globalen Knotenverweis enthalten. Neben globalen Verweisen sollten die Sequenzen auch atomare Werte enthalten können, da bereits bei der Formulierung der Regel rl gezeigt wurde, daß mittels Pfadverweis auf Sätze mit (Sequenzen von) atomaren Werten verwiesen werden kann. Sequenzen können sich somit aus folgenden Elementen zusammensetzen: globale Knoten, globale Pfade, globale Knoten-Pfad-Paare und atomare Werte. Alle Elemente bis auf einen globalen Knoten sind hierbei optional. Da die oben formulierte Regel r9 ein Spezialfall dieser Zusammensetzung ist, wird diese Regel entsprechend erweitert, um auch die anderen Fälle abzudecken:
69 (4-24)
REGEL FÜR LOKALE PFADVERWEISE AUF SÄTZE MIT GLOBALEN KNOTEN
r9: s:(n,p,v)
s':(n,p,v') /
v e (Vq u Va)*, Bx: x E v A x e Vqn, v' e P, s ^ n . v » e H„ Si ^ s
Die Anwendung der so erweiterten Regel r9 soll an der folgenden DATR-Theorie gezeigt werden: H,: (s,) (s2) (s3) (s4) (s5) (s6) (s7) (s8)
N1: d> q> y>
== ( " N 2 " v i " < c d > " ) . = v2. == (" N2" v i " < c d > " ) . == (N2 v i " < c d > " ) . = v3 . = v4. = v5 . = v6 .
Die erste Bedingung der Regel r9 wird von allen Sätzen bis auf s 4 erfüllt. s4 enthält als einziger Satz einen Wert, der weder global noch atomar ist. Die zweite Bedingung erfüllen zusätzlich jedoch nur noch die Sätze s, und s3, da die rechten Seiten der anderen Sätze keinen globalen Knoten enthalten. Für v' = < p q> kann die Regel erfolgreich auf s, angewendet werden, da der Satz N l :
== ( " N 2 " v i " < c d > " ) Bestandteil der DATR-Theorie H, und verschieden von s, ist. Die aus der Transformation des Satzes resultierende Theorie H 2 sieht folgendermaßen aus: H2: (s,) (s2) (s3) (s4) (s5) (s6) (s7) (s8)
N l : q> y>
==
. = v2. ("N2" v i " " ) == (N2 v i " < c d > " ) . = v3 . = vi. -- v 5 . = v6.
Ebenso wie auf s, kann die Regel r9 für v' = < a b > auch auf den Satz s 3 angewendet werden. In diesem Fall entsteht eine DATR-Theorie, in der s 3 seinen Wert mittels Pfadverweis von s, erbt. Die Frage, wie Teilsequenzen von anderen Sätzen geerbt werden können, wird nach der Diskussion von Knotenverweisen und Knoten-Pfad-Verweisen behandelt.
70 4.2.3.2
Knotenverweise auf globale Sätze
Die Formulierung einer Regel zur Erzeugung von Sätzen mit Knotenverweisen auf globale Sätze erfolgt analog zu der von Regel r9. Die Abbildung (4-25) zeigt, daß Sätze auch mittels Knotenverweis auf Sätze mit globalen Pfaden (a), globalen Knoten (b) und globalen KnotenPfad-Paaren (c) verweisen können. Während mit lokalen Pfadverweisen auf Sätze desselben Knotens verwiesen wird, verweisen Sätze mittels Knotenverweis auf Sätze, die den gleichen Pfad beinhalten. Wie bei allen bisher besprochenen lokalen Verweisen müssen der Satz, der verweisen soll, und der Satz, auf den verwiesen werden soll, die gleiche rechte Seite haben, um die Konsistenz zu gewährleisten. Diese Bedingung ist in den Hypothesen H, in (4-25) erfüllt. Wie in (4-22) enthalten jeweils die Theorien in H 2 einen lokalen Verweis auf den globalen Satz und sind konsistent zu den Theorien in H,. (4-25)
LOKALE KNOTENVERWEISE AUF GLOBALE SÄTZE
(a)
LOKALER KNOTENVERWEIS AUF EINEN SATZ MIT GLOBALEM PFAD
H,: (s,) (s2) (s3) (s4)
Nl N2 Nl N2
(b)
LOKALER KNOTENVERWEIS AUF EINEN SATZ MIT GLOBALEM KNOTEN
H,: (s,) (s2) (s3)
N l : < a b > == " N 3 " . N2 : < a b > == " N 3 " . N3 : < a b > = v i .
(c)
LOKALER KNOTENVERWEIS AUF EINEN SATZ MIT GLOBALEM KNOTEN-PFAD-PAAR
H,: (s,) (s2) (s3)
N l : < a b > == " N 3 : < x N2 : < a b > == " N 3 : < x N3 : < x y > = v i .
H2:
:
== " < c d > " == " < c d > " = vi. = v2.
(s,) (s2) (s3) (s4)
H2: (s,) (s2) (s3)
Nl N2 Nl N2
:
= N2 . = "" vi. v2.
N l : < a b > == N2 . N2 : == " N 3 " . N3 : < a b > = v i .
H2:
y>". y>".
(s,) (s2) (s3)
N l : < a b > == N 2 . N2 : < a b> == " N 3 : < x N3 : < x y > = v i .
y>".
Wie im Fall von Pfadverweisen auf globale Sätze ist auch hier festzustellen, daß nur (a) eine sinnvolle Verweisstruktur in H 2 darstellt. Der Verweis eines Knotens auf einen Satz mit globalem Knoten (b) oder globalem Knoten-Pfad-Paar (c) unterscheidet sich nicht von entsprechenden Theorien mit ausschließlich lokalen Verweisen. Zudem kann die Theorie H 2 in (c) auch durch Anwendung der Regeln r2, r3 und r7 erzeugt werden. Daher wird analog zur Regel r9 eine Regel formuliert, die lediglich den Fall (a) abdeckt. Globale Pfade werden hierbei wiederum als Spezialfall einer Sequenz betrachtet, die neben mindestens einem globalen Pfad optional auch globale Knoten, globale Knoten-Pfad-Paare sowie atomare Werte enthal-
71
ten kann. Zur Formulierung der Regel wird (4-10) um die Menge Vqp
== " " . == " " . = vi. = v2.
== "N3 " . == "N3" . = vi. = v2 .
LOKALER KNOTEN-PFAD-VERWEIS PAAR
N l : == " N 3 : < x y > " N2 : == " N 3 : < x y > " N3 : = v i .
H2: (s,) (s2) (s3) (s4)
H2: (s,) (s2) (s3) (s4)
N1 : y>
== N 2 : < x y> . == " " . = vi. = v2.
== N 2 : < x y > . == "N3" . = vi. = v2 .
UF EINEN SATZ MIT GLOBALEM KNOTEN-PFAD-
H2: (s,) (s2) (s3)
N l : == N 2 : < c d > . N2 : == "N3 : " N3 : = v i .
72 Die Fälle (a) und (b) beinhalten in H2 eine sinnvolle Verweisstruktur in dem Sinne, daß die Verweise der Sätze s, nur möglich sind, weil die Sätze, auf die sie verweisen, einen globalen Verweis haben. Andernfalls wäre ein solcher Verweis nicht zulässig, da Beobachtungsanfragen an s, dann zu anderen Ergebnissen führen würden und somit H2 nicht mehr konsistent mit H, wäre. Für das Beispiel in (c) ist das nicht der Fall. Hier könnte s, ebenso gut auf den Satz N2 : == N3 : verweisen, ohne daß sich das Ergebnis der Anfrage an s, ändern würde. Daher ist es nicht notwendig, daß eine Regel den Fall (c) abdeckt. Neben der Behandlung der Fälle (a) und (b) muß — ebenso wie bei den anderen lokalen Verweisen auf globale Sätze — der Knoten-Pfad-Verweis auf Sätze mit Sequenzen berücksichtigt werden. Analog zu lokalen Pfaden und lokalen Knoten können Sätze mittels lokalem Knoten-PfadPaar auch auf Sätze verweisen, die eine Sequenz mit mindestens einem globalen Knoten oder globalem Pfad und beliebigen zusätzlichen atomaren Werten und globalen Verweisen haben. Die folgende Regel deckt alle diese Fälle ab: (4-28)
REGEL FÜR LOKALE KNOTEN-PFAD-VERWEISE AUF SÄTZE MIT GLOBALEN VERWEISEN
rl 1: s:(n,p,v)
s':(n,p,(vn,vp)) /
v e ( V , u V,)*, 3x: x € v A x e (Vqn u Vqp), (vn,vp) e N X P, vn * n, vp * p,
SJ:(vn,vp,v) e H,
4.2.3.4
Verweise innerhalb von Sequenzen
Mit den vorgestellten Regeln r9, rlO und rl 1 können keine Sätze bearbeitet werden, die eine Sequenz als rechte Seite haben und einen Teil dieser Sequenz mittels Verweis von einem anderen Satz erben könnten. Sowohl für lokale als auch globale Verweise wurden bereits entsprechende Regeln formuliert, die solche Sätze bearbeiten können (r4 und r8). Auch für Sätze, die mittels lokalen Verweisen innerhalb von Sequenzen auf globale Sätze verweisen sollen, kann eine solche Regel formuliert werden. Entsprechend den Regeln r4 und r8 löst diese Regel Teile aus der Sequenz heraus, die dann von einer der Regeln r9, rlO oder r l l weiter bearbeitet werden.
73 ( 4 - 2 9 )
REGEL FÜR LOKALE VERWEISE INNERHALB VON SEQUENZEN AUF GLOBALE SÄTZE
rl2: s:(n,p,v)
s':(n,p,v') / v = v,...vn, n > 1, V
V
=
V
BEFORE
SUB
V
^SUB
AFTER>
^
^SUB ^ V
S U
B
E
( V ,
U
V , ) * ,
s:(n,p,vSUB) V
=
^BEFORE
s':(n,p,vSUB'), ^SUB
^
AFTER
Bei näherer Betrachtung der drei Regeln für Verweise innerhalb von Sequenzen (r4, r8, rl 2) wird deutlich, daß sie alle die gleiche Form und Funktion haben. Sie extrahieren Teile aus einer Sequenz, die dann von anderen Regeln transformiert werden. Die drei Regeln unterscheiden sich lediglich hinsichtlich der aus den Sequenzen herausgelösten Teilsequenzen. Während Regel r4 atomare Sequenzen extrahiert, handelt es sich bei Regel r8 um 1-elementige Sequenzen mit globalen Verweisen. Bei Regel r l 2 schließlich können sich die Teilketten aus beliebigen globalen und atomaren Werten zusammensetzen. Bei genauerer Betrachtung der Funktion der Regeln läßt sich feststellen, daß die Formulierung dieser Bedingungen, die die drei Regeln voneinander unterscheiden, überflüssig ist. Denn bei der Bearbeitung einer herausgelösten Teilsequenz durch eine der anderen Regeln, werden dieselben Bedingungen ohnehin jeweils getestet. So können die Regeln rl, r2 und r3 beispielsweise nur auf atomaren Weiten bzw. Sequenzen von atomaren Werten operieren. Daher kann die Formulierung dieser regelspezifischen Bedingungen wegfallen, wodurch die drei Regeln zu einer einzigen verschmelzen, die in (4-30) als neue Regel rl 2' abgebildet ist.
( 4 - 3 0 )
REGEL FÜR VERWEISE INNERHALB VON SEQUENZEN
rl2': s:(n,p,v)
s':(n,p,v') / v = v,...vn, n > 1, V
=
VßEFORE
V
V AFTER*
S U B
^SUB ^
vSUB * v, s:(n,p,vSUB) V
=
V
BEFORE
s':(n,p,v V
SUB
V
S U B }•>
AFTER
Die neue Regel rl2' operiert auf Sätzen mit beliebigen Sequenzen (erste Bedingung). Aus dieser Sequenz wird eine Teilkette herausgelöst, die nicht leer sein darf (zweite und dritte Bedingung) und nicht die gesamte Sequenz umfassen darf (vierte Bedingung). Die herausgelöste Teilsequenz kann dann mit einer anderen Regel bearbeitet werden und das Ergebnis der Transformation ersetzt die ursprüngliche Teilkette der Sequenz. Mit welcher Regel die Teilsequenz bearbeitet wird, hängt von der Form der konkreten Sequenz ab. Wenn die Teilkette alle Bedingungen einer Regel erfüllt, kann diese Regel auf den Satz mit der Teilkette angewendet werden. Die neue Regel rl2' ersetzt somit die bisherige Regel r l 2 und macht die Regeln r4 und r8 überflüssig.
74 4.2.4 Regeln zum Aufbau einer Hierarchie Bei der Beschreibung einer Vielzahl linguistischer Phänomene spielen hierarchische Beziehungen eine große Rolle. In DATR werden Hierarchien durch Verweise auf andere Knoten repräsentiert. Obwohl die bisher vorgestellten Regeln zwar Sätze mit Knotenverweisen und Knoten-Pfad-Verweisen erzeugen können, sind sie aus den folgenden Gründen dennoch nicht ausreichend zur Erstellung einer Hierarchie. Für den Lerninput wird angenommen, daß er lediglich Informationen über Objekte einer Ebene (wie beispielsweise Informationen über konkrete Lexeme) enthält. Insbesondere enthält der Lerninput keine Abstraktionen über den beobachteten Daten. Diese Aufgabe soll das Lernsystem bewältigen. Da die vorgestellten Regeln für Verweise auf andere Knoten (r2, r3, rlO, r l l ) so angelegt sind, daß lediglich auf vorhandene Sätze verwiesen werden kann, ist eine Hierarchiebildung nur in eingeschränkter Form möglich. Es kann nicht derart über den vorhandenen Sätzen abstrahiert werden, daß ihre Gemeinsamkeiten in einem übergeordneten Knoten, der ihre Klasse repräsentiert, erfaßt werden. Um den Aufbau einer Hierarchie in diesem Sinne zu leisten, sind Mittel erforderlich, bestehende Theorien nicht nur durch Transformationen von vorhandenen Sätzen zu verändern, sondern auch um neue Sätze zu ergänzen, auf die vorhandene Sätze dann verweisen. Da die neuen Sätze keine Eigenschaften beobachteter Objekte repräsentieren, sondern bisher von der Theorie nicht abgedeckte Objekte, ist die Erstellung solcher neuen Sätze eine Aufgabe aus dem Bereich der konstruktiven Induktion (vgl. Kap. 2.1). Die neu erzeugten Sätze befinden sich stets auf einer höheren Ebene der Hierarchie als die Sätze, die direkt aus den konkreten, beobachteten Daten entstehen. Sie repräsentieren von den Input-Daten abstrahierte Information und werden deshalb im weiteren Verlauf auch abstrakte Sätze genannt. Im folgenden werden die zusätzlich notwendigen konstruktiven Transformationsregeln formuliert, die abstrakte Sätze erzeugen. Die konstruktiven Transformationsregeln unterscheiden sich von den bisher vorgestellten Regeln in mehrerer Hinsicht, was weitere Modifikationen der in (4-10) formulierten allgemeinen Bedingungen für die Anwendung einer Transformationsregel zur Folge hat. Den Input der bisherigen Regeln bildet stets ein konkreter Satz der gegebenen Theorie, der dann durch die Regel transformiert wird. Bei der Ergänzung einer Theorie um einen abstrakten Satz erfolgt dagegen keine Transformation eines bestehenden Satzes, sondern lediglich die Bildung eines Output-Satzes. Daher wird angenommen, daß jede Hypothese H, nicht nur die Sätze {SL....S,,}, sondern auch den leeren Satz e enthält, welcher als Input für die zu formulierenden konstruktiven Regeln fungiert. Auch der Output-Satz (ein abstrakter Satz) hat eine andere Form als die der bisher vorgestellten Regeln. Die bisherigen Transformationsergebnisse bestehen aus einem in der Theorie vorkommenden Knoten-Pfad-Paar (dem des Input-Satzes) und einem (möglicherweise) neuen Verweis. 22 Damit die vorhandenen Sätze auf den abstrakten Satz verweisen können, 99
Ein neuer Verweis bedeutet hier, daß die Theorie noch keinen Satz enthält, der den gleichen Verweis hat (d.h. der Verweis ist nicht Element der Menge V, vgl. (4-10)) und nicht, daß der Verweis auf einen DATR-Satz verweist, der nicht Bestandteil der gegebenen Theorie ist.
75 muß dieser eine rechte Seite haben, die bereits als solche in H, vorkommt. Das bedeutet, für den Output-Satz gilt die Bedingung v e V. Andererseits soll der abstrakte Satz nicht Bestandteil der Repräsentation der beobachten Daten sein, was bedeutet, daß der Knoten des OutputSatzes keiner der Knoten von H[ sein darf, also n i N. Nachdem Knoten und rechte Seite des abstrakten Satzes festgelegt sind, bleibt nun noch dessen Pfad zu bestimmen. Es stellt sich zunächst die Frage, ob es sinnvoll ist, abstrakte Sätze zu erzeugen, die neben einem neuen Knoten zusätzlich einen Pfad beinhalten, der kein Element der Menge der Pfade P von H, ist. Dies scheint nicht sinnvoll zu sein, da die Eigenschaften der beobachteten Objekte von diesen übergeordneten Knoten durch Verweise geerbt werden sollen. Da Knoten verweise auf diese abstrakten Knoten nur möglich sind, wenn die übergeordneten Knoten die gleichen Pfade wie die Lerndaten spezifizieren, wird die Bedingung formuliert, daß der abstrakte Satz einen Pfad aus P enthält. Desweiteren sollte es sich bei dem Pfad und der rechten Seite des abstrakten Satzes um ein Paar handeln, das als solches Bestandteil von H, ist, d.h. gemeinsam in einem Satz von H, vorkommt. Nur so ist gewährleistet, daß die anderen Sätze von H, auch mittels Knoten auf den abstrakten Satz verweisen können. Im Fall einer beliebigen Kombination wäre lediglich ein Verweis mittels Knoten-Pfad-Paar sichergestellt. Dadurch, daß die Regeln, die Sätze mit Knotenverweisen und Knoten-Pfad-Verweisen erzeugen (r2, r3, rlO, rl 1), bestimmte Bedingungen an den zu transformierenden Satz und die übrigen Sätze der Theorie stellen, können die zulässigen abstrakten Sätze weiter eingeschränkt werden. Die erste Möglichkeit, mit den bisher vorgestellten Regeln Sätze mit Knotenverweisen (bzw. Knoten-Pfad-Verweisen) zu inferieren, besteht in der Anwendung der Regeln r2 und r3. Durch Anwendung dieser Regeln wird ein Satz mit atomarem Wert in einen Satz mit lokalem Knotenverweis (bzw. Knoten-Pfad-Verweis) transformiert. Bedingung ist jeweils, daß es einen Satz in H, gibt, der über den gleichen atomaren Wert verfügt (der Satz auf den verwiesen wird), wie der zu transformierende Satz. Um einen solchen Knotenverweis auf einen abstrakten Satz zu ermöglichen, muß es folglich abstrakte Sätze mit atomaren Werten geben. Die Regel in (4-31) dient dazu, solche Sätze zu inferieren. Da auf die durch die Regel erzeugten, abstrakten Sätze mit lokalen Deskriptoren verwiesen werden kann, wird die Regel lokale Hierarchisierungsregel genannt. ( 4 - 3 1 ) LOKALE HIERARCHISIERUNGSREGEL
rl3: e
s,:(n,p,v) / v e V a \ n £ N s¡: (n¡,p,v) e H,
Mit Hilfe von r l 3 können abstrakte Sätze mit atomaren Werten erzeugt werden, die über einen in H, bisher nicht vorhandenen Knotennamen verfügen. Diese neuen Sätze sind dann Bestandteil von H2, so daß beispielsweise andere Sätze mittels Knoten, Pfad oder KnotenPfad-Paar (durch Anwendung einer Regel) auf diese abstrakten Sätze verweisen können. Das folgende Beispiel illustriert eine zulässige Anwendung der Regel rl3.
76 H,: (s,) (s2) (s3)
N l : < a b> = v i . N l : == < a b > . N2 : = v 2 .
Wird die Regel r l 3 auf H, angewendet, muß der Output-Satz aus einem Knoten bestehen, der verschieden von N l und N2 ist, und einem Pfad-Wert-Paar, das bereits in der Theorie vorkommt. Die rechte Seite muß ein atomarer Wert (bzw. eine Sequenz atomarer Werte) der Theorie sein. Für H, sind daher die Paare (, v i ) und (, v 2 ) möglich. Die beiden daraus resultierenden neuen Theorien mit entsprechenden abstrakten Sätzen sehen folgendermaßen aus: 23 H2a: (s.) (s2) (s3) (S4)
N l ;: d> b>
= vi. == < a b > . = v2 . = vi.
H2b: (s,) (s2) (s3) (s4)
N l : : d>
= == = =
vi.
b>
== "" = vi. == (v2 "
b> q> b>
== " " . = vi. == (v2 "
" v 3 ) = v4. == (v2 "
" v 3 )
4.2.5 Zusammenfassung der Transformationsregeln Nachdem nun alle notwendigen Transformationsregeln formuliert wurden, sind sie in der folgenden Abbildung noch einmal mit neuer Numerierung zusammengestellt. (4-34) enthält die revidierte Formulierung der Anwendung einer Transformationsregel auf eine gegebene DATR-Theorie.
78 (4-33)
TRANSFORMATIONSREGELN
Regeln für lokale Verweise ri: s:(n,p,v)
s':(n,p,v') /
v e V*, v' e P, Si:(n,v',v) e H„ S| / s
r2: s:(n,p,v)
s':(n,p,v') /
v e Va\ V'
€ N,
s^v'.p.v) e H „ Sj ^ s r3: s:(n,p,v)
s':(n,p,(vn,vp)) /
v € Va*, (vn,vp) e N X P, vn * n, vp * p, s^vn.vp.v) e H,
Regeln für globale Verweise r4: s:(n,p,v) —> s':(n,p,v') /
v € P, v V — Vv q '
->3 s^rij.p.n) : Sj e H „ ->3 s^n.p^p) : Sj € H „ ->3 si:(ni,pi,(n,p)) : S; e H „
-3 Sji(nj,p,Vj) : n € \„ si e H„ ->3 Sj^n.pi.Vi) : p € Vj, S; e H„ ->3 Sj^ni.Pi.Vj) : (n,p) e v^ Sj e r5: s:(n,p,v) —» s':(n,p,v') /
v e N, vv — v vq ' -i3 Sj^nj.p.n) : Sj e H„ -•3 Sj^n.pi.p) : S; e H„ -«3 si:(ni,pi,(n,p)) : Sj e H „ - a Sibili,p,Vj) : n e vi; Sj e H „ ->3 Sj^n.pi.Vj) : p e Vi, Si e H „ - 3 Si^üj.pi.Vi) : (n,p) g Vi, Si e H,
r6: s:(n,p,v)
s':(n,p,v') /
v e N X P, v = v„
79 Regeln für Verweise auf globale Sätze r7: s:(n,p,v)
s':(n,p,v') /
v e ( V , u V a )\ 3x: x E v A x e Vqn, v' e P, s ^ n . v » e H„ Sj s
r8: s:(n,p,v)
s':(n,p,v') /
v e ( V , u V a )\ 3x: x e v A x e Vqp, v' e N, s^v'.p.v) e H1; s, * s
r9: s:(n,p,v)
s':(n,p,(vn,vp)) /
v e (Vq u Va)*, 3x: x e v A x e (Vqn u Vqp), (vn,vp) e N X P, vn * n, vp * p, s^vn.vp.v) e H,
Regel für Verweise innerhalb von Sequenzen rlO: s:(n,p,v)
s':(n,p,v') / v = v,...vn, n > 1, v = vBEF0RE vSUB vAFTER, ^sub
^
VSUB *
V,
s:(n,p,v SUB V
— VnppnDF
V^im
Vactcd
Regeln zur Hierarchiebildung (konstruktive Regeln) rl 1: e
s,:(n,p,v) / v e Va*, n«N, s^ (rij.p.v) e H,
rl2: e -> Sl:(n,p,v) / v € (V, u Va)*, 3x: x e v A x € Vqp, n i N, Sji (rvp.v) e H,
80 (4-34)
ANWENDUNG EINER TRANSFORMATIONSREGEL
Gegeben: H, = {s,,...,s n }u e
-
N = {n!,...,nn} P = {p.,pn} V = {v,,...,vn}
-
V,cV Vq = {vql,...,vqn}
-
Vq„ Si'^npp^Vj') / Bj
-
Transformationsregeln Transformationsbedingungen eine konsistenz- und Vollständigkeitserhaltende Transformationsregel (zu lesen: Sj kann zu s,' transformiert werden unter den Bedingungen B,), wobei
B; c B Vj' G (Va u N u P u V u N X P u Vq)*
Ergebnis: H 2 = ( H, \ Sj ) u {S;'}
4.3
-
eine DATR-Theorie, die durch Transformation eines Satzes aus H, entstanden ist
Inferenz von Default-Information
Eine der Haupteigenschaften von DATR, die den Formalismus zu einem der attraktivsten für die Repräsentation von linguistischem Wissen macht, ist die Möglichkeit, Defaults auszudrücken. Eines der zentralen Anliegen der vorliegenden Arbeit besteht daher in der Inferenz
81
von Default-Information aus einer Menge von gegebenen Daten. Wie bereits erläutert, wird angenommen, daß der Lerninput noch keine Default-Information enthält, da die extensionalen Sätze beobachtete Daten repräsentieren, wogegen DATR-Theorien mittels Defaults bereits über solchen Daten abstrahieren. Wie in Kap. 3.3 beschrieben wurde, werden in DATR Defaults dadurch ausgedrückt, daß nicht jede Eigenschaft durch jeweils einen Satz repräsentiert wird, sondern daß ein Satz mehrere Eigenschaften eines Objektes abdecken kann. In der Abbildung (4-6), die hier noch einmal als (4-35) aufgeführt ist, wird beispielsweise die Flexionsinformation für das deutsche Substantiv Auto unter Ausnutzung von Defaults repräsentiert. (4-35) Auto:
g e n > == ( < r o o t > == ( < r o o t > s ) .
s)
Hier ist es nicht notwendig, jede Eigenschaft (bestehend aus einer Angabe von Numerus und Kasus) einzeln zu spezifizieren. Vielmehr kann über diesen Eigenschaften abstrahiert werden, indem ausgedrückt wird, daß alle Singularformen außer der für Genitiv gleich der Wurzel sind. Dies wird dadurch erfaßt, daß alle entsprechenden Anfragen (d.h. A u t o : < s i n g nom>, A u t o : < s i n g d a t > , A u t o : < s i n g a c c > ) von dem Satz A u t o : < s i n g > == < r o o t > abgedeckt werden. Nur für die Eigenschaft Singular Genitiv wird ein eigener Satz benötigt, da diese Form von den anderen Singularformen für Auto abweicht. Dadurch, daß bei der Evaluierung von Anfragen jeweils der Satz mit dem längsten passenden Pfad gewählt wird, sind korrekte Anfrageergebnisse garantiert. Die Repräsentation der Eigenschaften, die die Pluralformen betreffen, ist noch einfacher, da diese für Auto alle gleich sind und daher durch einen einzigen Satz erfaßt werden können. Die in Kap. 4.2 vorgestellten Transformationsregeln können zwar Zusammenhänge zwischen DATR-Sätzen herstellen (was beispielsweise für die Theorie in (4-35) auch notwendig ist), sie leisten jedoch keine Inferenz von Default-Information. Das liegt daran, daß eine Regel jeweils einen Satz transformiert, wobei sich (abgesehen von den konstruktiven Regeln für die Hierarchiebildung) bei der Transformation lediglich dessen rechte Seite ändert. Das heißt, alle beobachteten Daten finden eine direkte Entsprechung in Form eines Satzes in einer DATR-Theorie, die durch Anwendung der Transformationsregeln entsteht. Da Defaults dadurch ausgedrückt werden, daß ein Satz mehrere Eigenschaften abdeckt, müssen daher Mittel bereitgestellt werden, mit denen DATR-Sätze — wiederum unter Beachtung der Konsistenz- und Vollständigkeitsbedingungen — verkürzt bzw. gelöscht werden können. Eine erste Überlegung könnte darin bestehen, die vorgestellten Transformationsregeln dahingehend zu modifizieren bzw. so zu erweitern, daß sie dies leisten. Warum diese Vorgehensweise nicht praktikabel ist, wird im Verlauf des nächsten Kapitels diskutiert. Anstatt die bestehenden Transformationsregeln zu modifizieren, wird im folgenden ein eigenständiger Algorithmus vorgestellt, der eine gegebene DATR-Theorie bezüglich Default-Information
82 optimiert (d.h. verkleinert). Die Trennung der Inferenz von Vererbungsinformation und der von Default-Information scheint auch angesichts der Tatsache gerechtfertigt, daß DATR selbst zwischen regelbasierter Vererbung und Default-Vererbung konzeptuell unterscheidet. So heißt es etwa bei Evans und Gazdar (1989b, S.81): "The first inferential component of the language is a set of seven inference rules of a conventional sort. ... The second inferential component of DATR is a form of non-monotonic inference by default." Wie schließlich aus einer gegebenen Menge von Daten sowohl Default-Information als auch Vererbungsinformation inferiert wird, das heißt, wie Transformationsregeln und Default-Algorithmus miteinander interagieren, ist eine Frage der Inferenzstrategie und wird in Kap. 4.4 diskutiert.
4.3.1 Allgemeine Vorgehensweise Ziel des zu formulierenden Algorithmus ist es, eine beliebige DATR-Theorie H, die aus beobachteten Daten und möglicherweise deren Transformationen entstanden ist, in eine Theorie H D zu transformieren, die konsistent und vollständig bezüglich H (und somit auch zur Ausgangshypothese Ho), aber genereller als letztere ist, indem sie Verallgemeinerungen in Form von Default-Informationen erfaßt. Im Gegensatz zu H erfüllt eine solche DATRTheorie H d auch das vierte Kriterium, die Strukturierung der beobachteten Daten durch Generalisierung. Die zu betrachtenden DATR-Theorien können beliebig in der Art ihrer Vererbungsverweise sein, enthalten jedoch keinerlei Abstraktion über den beobachteten Daten bezüglich Default-Information. Es wird sich zeigen, daß dies eine wichtige Voraussetzung für die Formulierung des Algorithmus ist. Die entstandene Theorie wird über höchstens so viele Sätze verfügen wie die Theorie ohne Defaults, in der Regel jedoch kleiner sein. Darüberhinaus wird eine Strategie verfolgt, eine gegebene DATR-Theorie maximal zu reduzieren, d.h. alle erschließbare Default-Information zu inferieren, so daß die resultierende Theorie möglichst klein und in diesem Sinne optimal wird. Im folgenden ist nun zu untersuchen, welche Sätze einer gegebenen DATR-Theorie unter welchen Umständen verkürzt bzw. gelöscht werden können, ohne daß die Vollständigkeitsund Konsistenzbedingung verletzt werden. Da sich Defaults in DATR stets auf die Sätze eines Knotens beziehen, indem der Satz mit dem längsten passenden Pfad zur Evaluierung einer Anfrage herangezogen wird, muß auch die Kürzung oder Streichung eines DATRSatzes unter Berücksichtigung der übrigen Sätzen dieses Knotens vorgenommen werden. An der folgenden DATR-Theorie, die einen Ausschnitt der Flexionsinformation für Auto repräsentiert, soll nun untersucht werden, wie eine gegebene DATR-Theorie in Bezug auf Defaults reduziert werden kann.
83 (4-36) H,:
(s,) (52)
(53)
(s4)
Auto Auto Auto Auto
: : : :
auto. (auto auto. auto.
s)
Die Sätze werden der Reihe nach auf ihre Reduzierbarkeit untersucht. Wird s, aus der Theorie H, entfernt, verletzt die resultierende Theorie die Bedingung der Vollständigkeit, da die Evaluierung der Beobachtungsanfrage A u t o : < s i n g nom> scheitert. Somit ist die Entfernung von s, keine zulässige Reduzierung der Theorie. Eine Alternative zur Streichung des Satzes besteht in der Verkürzung seines Pfades. 24 So ist beispielsweise die Verkürzung von s, zu s,': A u t o : < s i n g > == a u t o zulässig, da die resultierende DATR-Theorie (abgebildet in (4-37)) für alle Beobachtungsanfragen korrekte Ergebnisse, d.h. dieselben Ergebnisse wie H„ liefert und somit konsistent und vollständig bezüglich H, ist. Die Beobachtungsanfrage A u t o : < s i n g nom> wird nun durch den neuen Satz s, abgedeckt, für die übrigen Anfragen ändert sich nichts. (4-37) H2: (S[) (s2) (s3) (s4)
Auto Auto Auto Auto
= a u t o .
s).
Nun soll s2 der Theorie H 2 betrachtet werden. Bei einer Entfernung des Satzes aus der Theorie ist die resultierende Theorie zwar noch vollständig, jedoch nicht mehr konsistent bezüglich H 2 . Zwar können weiterhin alle Beobachtungsanfragen evaluiert werden, jedoch wird die Anfrage A u t o : < s i n g g e n > zu a u t o ausgewertet, da s, der Satz mit dem längsten passenden Präfix ist. Da H 2 für dieselbe Anfrage einen anderen Wert liefert ( a u t o s ) , ist die Streichung von s2 nicht zulässig. Eine Verkürzung um das letzte Element des Satzes zu A u t o : < s i n g > == ( a u t o s ) ist aus einem anderen Grund ebenfalls unzulässig. In diesem Fall enthält die resultierende Theorie zwei widersprüchliche Sätze, d.h. Sätze mit dem gleichen Knoten-Pfad-Paar und unterschiedlichen rechten Seiten, und entspricht damit nicht den Wohlgeformtheitsbedingungen für DATR-Theorien. Eine Verkürzung des Pfades um zwei Elemente zu dem Satz A u t o : < > == ( a u t o s ) führt zwar zu einer wohlgeformten, aber wiederum mit H 2 nicht konsistenten Theorie. Wie bei der Streichung von s2 liefert eine solche Theorie für die An-
24
Im folgenden wird statt von der Verkürzung des Pfades eines DATR-Satzes der Einfachheit halber auch von der Verkürzung eines DATR-Satzes gesprochen, sofern dies nicht zu Mißverständnissen führen kann.
84 frage A u t o : < s i n g g e n > den Wert a u t o , da s, zur Evaluierung der Anfrage herangezogen wird. Somit ist jegliche Reduzierung von s2 in H 2 unzulässig, da diese entweder zu einer nicht wohlgeformten, oder in Bezug auf H 2 inkonsistenten DATR-Theorie führt. Im Gegensatz zu s2 kann jedoch s 3 aus der Theorie H 2 entfernt werden, ohne daß die resultierende Theorie H 3 (4-38) unvollständig oder inkonsistent bezüglich H 2 ist. Die Anfrage A u t o : < s i n g d a t > wird in H 3 nun von s, abgedeckt und führt zum gleichen Ergebnis wie in H 2 . (4-38) H3: (s,) (s2) (s4)
Auto: Auto: Auto:
< s i n g > == a u t o . < s i n g gen> = ( a u t o s) . = a u t o .
Wird nun noch der Satz s4 aus H 3 gestrichen, erhält man eine Theorie H4 (4-39), die sowohl beobachtungskonsistent und -vollständig ist, als auch (fast) das Maximum an möglicher Default-Information repräsentiert. Es ist nicht möglich, einen der verbleibenden beiden Sätze zu streichen, ohne eine mit H4 inkonsistente (bei Streichung von s2) oder unvollständige (bei Streichung von s,) DATR-Theorie zu erhalten. Ebensowenig kann s2 weiter verkürzt werden, da dies stets zu beobachtungsinkonsistenten oder nicht wohlgeformten Theorien führt. Lediglich s, kann noch um ein weiteres Element zu A u t o : < > == a u t o verkürzt werden, was dann dem Maximum an inferierter Default-Information entspricht. (4-39) H4: (s,) (s2)
Auto: Auto:
< s i n g > == a u t o . < s i n g gen> = ( a u t o s) .
Das Beispiel soll dazu gedient haben, einige der grundsätzlich zulässigen bzw. nicht zulässigen Reduzierungen von DATR-Theorien zu illustrieren. Diese Möglichkeiten werden nun in einen systematischen Zusammenhang gebracht. Ob ein Satz verkürzt oder aus einer Theorie entfernt werden kann, hängt direkt davon ab, ob der Knoten kürzere Sätze mit einem Präfix des Pfades des betrachteten Satzes enthält und welche Werte diese Sätze haben. Soll ein Satz um ein Element (das letzte des Pfades) verkürzt werden, muß überprüft werden, ob die Theorie bereits einen Satz mit diesem Pfad enthält. Ist dies der Fall und weist der Satz einen anderen Wert auf, darf der betrachtete Satz nicht verkürzt werden, da dies zu einer widersprüchlichen und daher nicht wohlgeformten DATR-Theorie führt. Dies ist beispielsweise der Grund dafür, warum s2 in H 2 nicht verkürzt werden kann. Weist der um ein Element kürzere Satz dagegen den gleichen Wert auf, soll der betrachtete Satz nicht gekürzt werden, da dies zu zwei identischen Sätzen führt. Vielmehr kann der Satz in diesem Fall gestrichen werden. Nach seiner Streichung ist der Satz über den Pfadabschluß von DATR mit dem um ein Element kürzeren Satz verbunden (vgl. Kap. 3.3). Enthält die Theorie keinen um ein Element
85 kürzeren Satz, ist es grundsätzlich zulässig, den betrachteten Satz um das letzte Element zu verkürzen, da keine potentiellen Konflikte mit anderen Sätzen möglich sind. Der zu kürzende Satz ist dann mit diesem kürzeren Satz verbunden. Grundvoraussetzung für die Reduzierung eines Satzes ist somit, daß die DATR-Theorie keinen Satz des gleichen Knotens enthält, der um ein Element kürzer ist und einen anderen Wert als der betrachtete Satz aufweist. Um bei sukzessiver Reduktion jedoch zu einer wohlgeformten und in Bezug auf die Ausgangstheorie vollständigen und konsistenten DATRTheorie zu gelangen, sind weitere Restriktionen notwendig. So ist es nicht möglich, die Sätze einer gegebenen DATR-Theorie in beliebiger Reihenfolge zu bearbeiten, auch wenn das oben präsentierte Beispiel möglicherweise diesen Anschein erweckt hat. Um zu einem Ergebnis zu gelangen, das allen Anforderungen entspricht, müssen die Sätze eines Knotens — beginnend beim längsten Satz — nach absteigender Länge bearbeitet werden. Dies ist notwendig, da der zu kürzende Satz stets mit dem um ein Element kürzeren Satz verglichen werden muß. Wird der um ein Element kürzere Satz aber zuerst bearbeitet und verkürzt oder gestrichen, steht dieser Vergleichssatz nicht mehr zur Verfügung, was zu unzulässigen Streichungen oder Kürzungen führen kann, wie das folgende Beispiel zeigt: (4-40) H,: (s,) (s2) (s3)
N: < a b c d> = v i . N: < a b c > = v 2 . N: < a b > = v 2 .
Beginnt man die Reduzierung von H, mit dem Satz s2, kann dieser Satz gestrichen werden, da es einen um ein Element kürzeren Satz gibt (s3), der den gleichen Wert hat. Durch diesen Satz ist garantiert, daß eine Beobachtungsanfrage N: < a b c > immer noch zu dem gleichen Ergebnis wie bei H, führt. Nach Streichung des Satzes s2 erhält man H2: (4-41) H2: (s,) (s3)
N: < a b c d> = v i . N: < a b> = v 2 .
Für diese Theorie kann S! um ein Element gekürzt werden, da es keinen um ein Element kürzeren Satz gibt, der einen Konflikt verursachen könnte (genau dieser Satz wurde ja im ersten Schritt gestrichen). Wird nun s, um ein Element verkürzt, ist die resultierende Theorie (4-42) nicht mehr mit der Theorie H 2 konsistent. Denn für die Beobachtungsanfrage N: < a b c> wird nun s, herangezogen und nicht mehr s 3 wie in H 2 . Dies führt dazu, daß die Anfrage nicht mehr zu v 2 , sondern zu einem anderen Wert, nämlich v i , evaluiert wird.
86 (4-42) H3: (s,) (s3)
N: == v i . N: < a b > = v 2 .
Beginnt man die Reduzierung von H, dagegen mit dem längsten Satz s„ wird festgestellt, daß dieser Satz nicht verkürzt oder gestrichen werden kann, da es in diesem Fall zu einem Konflikt mit s 2 kommt. Die Restriktion, daß die Sätze eines Knotens nach absteigender Länge reduziert werden müssen, hat verschiedene Konsequenzen. Ein Satz kann in einem Schritt entweder um maximal ein Element gekürzt oder ganz gestrichen werden. Denn bei jedem Element, das gestrichen wird, muß überprüft werden, ob dies zu Konflikten führt. Wird ein Satz beispielsweise sofort um zwei Elemente verkürzt, kann dies, wie in dem Fall, daß nicht mit dem längsten Satz begonnen wird, dazu führen, daß ein Vergleichssatz fehlt. Verkürzt man beispielsweise den Satz s, in (4-43) um zwei Elemente aufgrund der Tatsache, daß die Theorie keinen Satz mit dem Knoten-Pfad-Paar N: < a b > und widersprüchlichem Wert enthält, kann im nächsten Schritt s 2 um ein Element verkürzt werden, was zu einer mit H, inkonsistenten Theorie führt. Für die Beobachtungsanfrage N: < a b c d> wird nun der Wert v 2 geliefert und nicht v i . Wird dagegen s, nur um ein Element verkürzt, kann s2 nicht reduziert werden. (4-43) H,: (s,) (s2)
N: < a b c d> = v i . N: < a b c y > = v 2 .
Sätze, die um ein Element verkürzt wurden, können — gemäß ihrer neuen Länge — wieder betrachtet werden, wenn alle Sätze, die länger sind, bearbeitet wurden. Ist jedoch für einen Satz einmal festgestellt worden, daß er nicht reduzierbar ist, darf er auch zu späteren Zeitpunkten nicht noch einmal untersucht werden. Denn zu einem späteren Zeitpunkt hat sich die Theorie dahingehend geändert, daß andere Sätze verkürzt oder gestrichen wurden, so daß die ursprünglichen direkten Vergleichssätze für den nicht reduzierbaren Satz nicht mehr vorhanden sind. Ist einmal festgestellt worden, daß ein Satz nicht reduziert werden darf, bedeutet dies, daß er unerläßlich für die Konsistenz und Vollständigkeit bezüglich der Ausgangstheorie ist, In diesem Zusammenhang kann auch erklärt werden, warum eine Voraussetzung für die Inferenz von Default-Information darin besteht, daß die zu reduzierende DATR-Theorie noch keine Default-Information repräsentiert. Eine DATR-Theorie mit Defaults kommt der Situation gleich, in der einige Sätze bereits gekürzt oder gestrichen worden sind. Hierbei muß davon ausgegangen werden, daß die spezifizierten Sätze unerläßlich sind, wodurch die Reduzierung einer solchen Theorie zu einer in Bezug auf diese Theorie inkonsistenten oder unvollständigen Theorie führen kann.
87 Da die Reihenfolge, in der die Sätze einer Theorie bearbeitet werden, relevant ist, ist es auch nicht sinnvoll, lediglich einen Teil der Sätze zu bearbeiten und einen anderen Teil zu einem späteren Zeitpunkt. In diesem Fall müßte vermerkt werden, welche Sätze bereits betrachtet wurden und nicht reduzierbar sind. Um dies zu vermeiden, werden in einem Durchgang stets alle Sätze eines Knotens bearbeitet. Dabei wird so lange reduziert, bis der kürzeste Satz der Theorie nicht weiter verkürzt oder gestrichen werden kann, wodurch eine Theorie entsteht, die bezüglich Default-Information maximal reduziert ist. Die informell vorgestellte Vorgehensweise zur Inferenz von Default-Information aus den Sätzen einer gegebenen DATR-Theorie wird durch den Algorithmus in (4-44) erfaßt. (4-44)
ALGORITHMUS ZUR INFERENZ VON DEFAULT-INFORMATION
gegeben: H„ eine DATR-Theorie {HN„...,HN n }, die Knoten dieser DATR-Theorie mit den dazugehörigen Sätzen gesucht: H D , eine DATR-Theorie, die durch Default-Inferenz aus H, gewonnen wird 1. W H I L E H , ± { }
2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
wähle eine Knotendefinition HNj aus H, W H I L E HN ; * {} wähle den längsten Satz SJ:(n,p,v) aus HNj, mit p=a,...a„an+1 p' := a,...a„ I F Sj:(n,p',v') e HN| T H E N BEGIN entferne Sj aus HNj IF v k v' T H E N H D := H D u s, END ELSE ersetze Sj durch Sj':(n,p',v) in HNj ENDIF END W H I L E ENDWHILE
Der in (4-44) formulierte Algorithmus kann nur als erste Annäherung dienen, da er noch nicht die Reduzierung beliebiger, monotoner DATR-Theorien abdeckt. Für die oben angeführten Beispiele, deren Sätze ausschließlich atomare Werte haben, führt die Anwendung des Algorithmus zu korrekten Ergebnissen. Doch bei DATR-Theorien mit Sätzen mit beliebigen rechten Seiten sind zusätzliche Bedingungen für die Kürzung oder Streichung von Sätzen zu beachten. Diese werden im nachfolgenden Kapitel vorgestellt.
88 4.3.2 Default-Regeln Die Bedingungen dafür, daß ein DATR-Satz verkürzt oder gestrichen werden kann, werden ebenso wie seine möglichen Transformationen (Kap. 4.2) mit Hilfe von Regeln formuliert. Es wird hier das gleiche Format verwendet wie bei den Transformationsregeln, das heißt, eine Regel besteht aus einem Input-Satz, einem Output-Satz und einem Bedingungsteil. Wie bei den Transformationsregeln handelt es sich bei dem Input-Satz um einen Satz der gegebenen DATR-Theorie. Im Gegensatz dazu ist der Output-Satz jedoch entweder ein Satz mit bekanntem Knoten und rechter Seite (nämlich denen des Input-Satzes) aber neuem Pfad (entspricht Kürzung) oder er ist der leere Satz (entspricht Streichung). Während die Anwendung einer Transformationsregel ausschließlich unter Bezugnahme auf eine gegebene Zwischentheorie bestimmt wird, wird sich zeigen, daß zur Formulierung der Default-Regeln sowohl Informationen über die betrachtete Zwischentheorie (einen gerade bearbeiteten Knoten HN) als auch über die Ausgangstheorie H, benötigt wird. Wie bei den Transformationsregeln gilt auch hier, daß nach der Anwendung einer Regel die resultierende Zwischentheorie beobachtungskonsistent und -vollständig sein muß.
4.3.2.1
Default-Regeln für Sätze mit atomarem Wert oder Knotenverweis
Die Voraussetzungen dafür, daß ein Satz reduziert werden kann, hängen von der Art der rechten Seite des betrachteten Satzes ab. Den einfachsten Fall stellen Sätze mit atomaren Werten dar. Hier müssen außer den in 4.3.1 bereits besprochenen Bedingungen keine weiteren Restriktionen formuliert werden. Das bedeutet, ein Satz mit atomarem Wert kann dann um ein Element verkürzt werden, wenn es keinen Satz des gleichen Knotens HN (für den möglicherweise Sätze gekürzt oder gestrichen wurden) mit einem solchem Pfad gibt. Ein Satz kann gestrichen werden, wenn es einen solchen Satz gibt, der den gleichen Wert wie der betrachtete aufweist. Auch bei Sätzen, deren rechte Seiten Knoten (ungequotet oder gequotet) sind, müssen keine zusätzlichen Restriktionen formuliert werden. Es gelten die gleichen Bedingungen wie bei Sätzen mit atomaren Werten. Die folgenden beiden Regeln decken die Fälle der Streichung eines Satzes (4-45) bzw. Verkürzung eines Satzes (4-46) ab. (4-45)
DEFAULT-STREICHUNGSREGEL FÜR SÄTZE MIT ATOMAREM W E R T ODER KNOTEN
drl: s:(n,p,v)
e /
ve(V
a
u N u Vq„),
P = Pl"'PnPn+!» p'= P l - P - .
3 Sj^n.p'.v): Sj e HN
89 (4-46)
DEFAULT-VERKÜRZUNGSREGEL FÜR SÄTZE MIT ATOMAREM WERT ODER KNOTEN
dr2: s:(n,p,v)
s , :(n,p',v) /
v e (V, u N u Vq„), P = Pi-P„P„ + i. P - Pl-Pn. -i3 SJ:(n,p',v'): s j e HN
4.3.2.2
Default-Regeln für Sätze mit Pfad-Verweis oder Knoten-Pfad-Verweis
Während es keine zusätzlichen Bedingungen für die Reduzierung eines DATR-Satzes mit atomarem Wert oder Knoten gibt, ist dies bei Sätzen mit Pfaden und Knoten-Pfad-Paaren als rechten Seiten anders. Die Behandlung dieser Fälle ist wesentlich komplexer, da bei der Evaluierung eines Satzes mit Pfad oder Knoten-Pfad-Paar die rechte Seite um ein Suffix ergänzt wird, wenn der Pfad der linken Seite kürzer ist als der Anfragepfad (vgl. Kap. 3.3). Das Beispiel in (4-47) soll verdeutlichen, welche Konsequenzen die Reduzierung solcher Sätze haben kann, wenn keine weiteren Restriktionen formuliert werden. (4-47) H,: HN,: (s.) (s 2 ) (s 3 ) (s 4 )
N: N: N: N:
= v i . y c> = v2.
Behandelt man die Sätze des Knotens HN, der Theorie H, gemäß dem in (4-44) vorgestellten Algorithmus, kann der Satz s, gestrichen werden, da es einen Satz (s 2 ) gibt, der um ein Element kürzer ist und dieselbe rechte Seite wie s, hat. Diese Streichung des Satzes führt zu der DATR-Theorie in (4-48). (4-48) H2: HN,: (s 2 ) (s 3 ) (S 4 )
N: N: N:
< a b> == < x y> = v i . = v2.
Wie man sieht, ist die DATR-Theorie in (4-48) jedoch nicht konsistent mit der Theorie H,. Während die Beobachtungsanfrage N: < a b
c > bezüglich H, den Wert v i liefert, ist das
Ergebnis der gleichen Anfrage bezüglich H 2 v 2 . Dadurch, daß für die Evaluierung der Anfrage in H 2 ein Satz mit kürzerem Pfad als dem Anfragepfad herangezogen wird, wird der Pfad auf der rechten Seite um das Suffix < c > ergänzt. Im nächsten Schritt wird daher
90 N: < x y
c > ausgewertet und nicht N : < x y > wie in H,. Der längste passende Satz für diese
Anfrage ist nun s 4 , dessen Evaluierung zu dem Ergebnis v 2 führt. Um solche unzulässigen Streichungen oder Kürzungen zu verhindern, sind zusätzliche Restriktionen zu formulieren. Relativ unproblematisch sind die Fälle, in denen die Pfade auf der linken und rechten Seite eines DATR-Satzes über ein identisches Suffix verfügen. Solche Sätze können reduziert werden, indem sowohl der Pfad auf der linken Seite als auch der auf der rechten Seite um ein Element verkürzt wird. In ( 4 - 4 9 ) ist H 2 eine zulässige Reduzierung von H,, da alle B e o b achtungsanfragen für beide Theorien dieselben Werte liefern. Der Satz s, in H, kann gestrichen werden, da HN, einen Satz enthält, dessen Pfade auf der linken und rechten Seite um jeweils das gleiche Element kürzer sind. Bei einer Anfrage N : < a b
c > an H 2 wird s 2 heran-
gezogen und die rechte Seite des Satzes um das Suffix < c > verlängert. Dadurch wird bei der weiteren Evaluierung korrekterweise s 4 und nicht s 3 erreicht und so der richtige Wert v 2 geliefert. (4-49)
H,: HN,: (s,)
(s2) (S3) (s4)
N: N: N: N:
c /
v € (N X P uV q n p ), P = Pl-PnPn+l. P'= P l - P n .
v = (vn, v pi ...vp m p„ +1 ), v'= (vn, vp,...vpj, 3 s i :(n,p , ,v'): s, e HN (4-53)
DEFAULT-VERKÜRZUNGSREGEL FÜR SÄTZE MIT KNOTEN-PFAD-PAAR ALS RECHTER SEITE
dr6: s:(n,p,v) -> s'^n.p'.v') / v e (N X P u V J , P = Pl-PnPn+l. P-
Pl-Pn.
V = (vn, vp|...vp m p n+ |), v'= (vn, vpj...vp m ), - a s^n.p'.v'): Si € HN Die Regeln dr3, dr4, dr5 und dr6 können bei einer gegebenen DATR-Theorie in der Regel nicht sehr häufig angewendet werden, da in den seltensten Fällen Pfade auf der linken und
92 rechten Seite eines DATR-Satzes über ein gemeinsames Suffix verfügen. Als Konsequenz können die meisten Sätze mit Pfadverweisen oder Knoten-Pfad-Verweisen nicht verkürzt oder gestrichen werden. Dies ist unbefriedigend, da die entstehenden DATR-Theorien eine Vielzahl von Generalisierungen nicht erfassen. Daher sollte es auch möglich sein, zumindest einen Teil der Sätze mit Pfadverweisen oder Knoten-Pfad-Paaren zu verkürzen oder zu streichen, die die Bedingungen der Regeln dr3, dr4, dr5 und dr6 nicht erfüllen (d.h. deren Pfade auf der linken und rechten Seite kein gemeinsames Suffix haben). Hierbei müssen jedoch Restriktionen formuliert werden, die die Erzeugung von beobachtungsinkonsistenten DATRTheorien — wie im Beispiel (4-47)-(4-48) illustriert — verhindern. Um geeignete Restriktionen neben den im Algorithmus (4-44) ausgedrückten zu formulieren, muß zunächst geklärt werden, welche Eigenschaften von DATR-Theorien zu unzulässigen Kürzungen oder Streichungen führen. Zunächst werden Sätze mit ungequoteten Pfaden als rechten Seiten betrachtet, wie sie etwa die Theorie in (4-47) enthält. Der Grund dafür, daß eine Streichung des Satzes s, in dieser Theorie zu einer beobachtungsinkonsistenten Folgetheorie führt, liegt darin, daß die Theorie einen Satz enthält (s4), dessen Pfad aus der rechten Seite von s, und dem letzten Element des Pfades von S[ besteht. Dies hat zur Folge, daß dieser Satz bei einer Evaluierung der Anfrage N : < a b c> herangezogen wird und als Ergebnis v 2 geliefert wird. Würde H, diesen Satz nicht enthalten, würde weiterhin s3 bei der entsprechenden Anfrage evaluiert und der korrekte Wert v i geliefert. Als erste Annäherung lautet eine Bedingung für die Kürzung bzw. Streichung von Sätzen mit Pfadverweisen daher, daß die Theorie H, keinen Satz desselben Knotens enthält, dessen Pfad sich aus der rechten Seite des betrachteten Satzes und dem letzten Element des Pfades dieses Satzes zusammensetzt. Wie das folgende Beispiel zeigt, ist diese Bedingung jedoch noch nicht restriktiv genug. (4-54) H,: HN,: (s,) (s2) (s3) (s4)
N: N: N: N:
= v2 .
Der längste Satz (s,) von HN, kann gestrichen werden, da die Regel dr3 anwendbar ist. Dies führt zu H2: (4-55) H2: HN,: (s2) N (s3) N (s4) N
< a b d> == < x y > . < x y q> = v i . < x y> = v 2 .
93 Bei der Behandlung von s2 wird nach den eben durchgeführten Überlegungen geprüft, ob H, einen Satz der Form N: = . . . enthält. Da dies nicht der Fall ist, wird der Pfad von s2 gekürzt, was zur folgenden Theorie H 3 führt: (4-56) H3: HN,: (s2) N: < a b > == < x y > . (s3) N: < x y q> = v i . (s4) N: < x y > = v 2 . Diese Theorie ist nun jedoch nicht mehr konsistent mit H 2 und H„ da die Beobachtungsanfrage N: nicht mehr zu v i sondern zu v 2 evaluiert wird. Das liegt daran, daß H 3 zwar keinen Satz der Form N: < x y d> = . . . enthält, wohl aber den Satz N : < x y q> = v i , der in diesem Fall eigentlich zur Evaluierung herangezogen werden müßte, aber durch das Anhängen des Suffixes an den Pfad < x y > nicht mehr erreicht werden kann. Stattdessen ist nun s 4 der Satz mit dem längsten passenden Pfad. Um dies zu verhindern, muß sichergestellt werden, daß die Theorie keinen Satz enthält, dessen Pfad sich aus der rechten Seite des betrachteten Satzes und einem weiteren, beliebigen (jedoch nicht leeren) Suffix zusammensetzt. Anders ausgedrückt: wenn von dem betrachteten Satz aus grundsätzlich immer nur ein einziger Nachfolgesatz erreicht werden kann (egal mit welcher Anfrage), kann es nicht zu Problemen kommen, und es ist zulässig, den Satz zu reduzieren. Diese Bedingung ist notwendig für die Überprüfung aller Sätze mit Pfadverweisen, reicht jedoch allein noch nicht aus. Für den oben aufgezeigten Fall sind keine weiteren Einschränkungen notwendig, bei anderen Theorien, wie beispielsweise der in (4-57) abgebildeten, ist das jedoch anders. (4-57) H,: HN,:
(S,) (S2) (s3)
(S4) (S5)
N: N: N: N: N:
= . . . . Wird der Satz jedoch entfernt, ist das Ergebnis eine beobachtungsinkonsistente DATR-Theorie. Für die Anfrage N: < a b c > wird der Wert v 2 und nicht v i geliefert. Das liegt daran, daß ein Suffix über mehrere Vererbungsstufen weitergereicht werden kann, weshalb hier schließlich der Satz s 5 anstelle von s4 erreicht wird. Das bedeutet, solange der Inferenzprozeß für eine DATR-Anfrage nicht abgeschlossen ist, kann der Fall eintreten, daß aufgrund der Kürzung oder Streichung eines Satzes ein falscher
94 Satz für die Evaluierung herangezogen wird. Um dies zu verhindern, müßte für alle bei der Evaluierung erreichten Sätze sichergestellt werden, daß H, keinen Satz enthält, dessen Pfad sich aus der rechten Seite des vorher erreichten Satzes und einem beliebigen, nicht leeren Suffix zusammensetzt. Da diese Vorgehensweise jedoch sehr aufwendig wäre und insbesondere im Fall von gequoteten Pfaden kaum durchführbar erscheint (s.u.), wird hier eine andere Strategie verfolgt. Es wird lediglich überprüft, ob die Evaluierung des betrachteten Satzes beim nächsten erreichten Satz endet, d.h. ob der nächste Satz einen atomaren Wert hat. 25 In diesem Fall ist sichergestellt, daß keine falschen Sätze für die Evaluierung herangezogen werden können. Diese Vorgehensweise ist allerdings sehr restriktiv, was zur Folge hat, daß unter Umständen Sätze nicht gekürzt oder gestrichen werden, bei denen dies wünschenswert wäre. Das Ergebnis ist jedoch stets korrekt und die Überprüfung, ob ein Satz den Bedingungen genügt, ist vergleichsweise einfach. Die vorgestellten Bedingungen genügen nun, um die entsprechenden Regeln zu formulieren. Zusätzlich zu den bisher verwendeten Mengen wird für die in (4-58) und (4-59) abgebildeten Regeln noch die Menge der Pfadattribute A einer DATR-Theorie benötigt, mit a e A. (4-58)
DEFAULT-STREICHUNGSREGEL FÜR SÄTZE MIT UNGEQUOTETEM PFAD ALS RECHTER
SEITE
dr7: s:(n,p,v)
c /
v e P, P = Pl-PnPn+l. P'= P l - P n -
3 SJ:(n,p',v): SJ € HN, - 3 s j :(n,v'Y,v j ): Sj € H„ 3 s k :(n,v,v k ): sk e H„ vk € Va
(4-59)
DEFAULT-VERKÜRZUNGSREGEL
FÜR SÄTZE MIT UNGEQUOTETEM
PFAD
ALS
RECHTER SEITE
dr8: s:(n,p,v)
s':(n,p',v) / v e P, P = Pl-PnPn+l. P'= P l - P n .
-.3 s^n.p'.v'): s, € HN, ->3 s j :(n,v~a + ,v j ): ^ e H|, 3 s k :(n,v,v k ): sk e H„ vk e Va
Hier wird besonders deutlich, daß die Ausgangshypothese H, und nicht die gerade betrachtete Zwischenhypothese untersucht werden muß, da nur die Ausgangstheorie alle Sätze in ungekürzter Form enthält. So kann in H, der Satz ermittelt und auf atomaren Wert hin überprüft werden, dessen Pfad aus der rechten Seite des gerade betrachteten Satzes besteht, während dieser Satz in einer Zwischenhypothese bereits reduziert sein kann.
95 Wie zuvor können diese Ergebnisse direkt auf Sätze mit ungequoteten Knoten-Pfad-Paaren übertragen werden, da Pfade ein Spezialfall von Knoten-Pfad-Paaren sind. Dies führt zu den entsprechenden folgenden zwei Regeln: (4-60)
DEFAULT-STREICHUNGSREGEL FÜR SÄTZE MIT UNGEQUOTETEM KNOTEN-PFAD-
PAAR
dr9: s:(n,p,v)
c/
veNXP, P = Pl-PnPn+l. P'= P l - P n .
v = (vn,vp), 3 s ^ n . p » : S| e HN, -3 sj:(vn,vp'"a+,vj): Sj e H„ 3 sk:(vn,vp,vk): sk € H„ vk e Va
(4-61)
DEFAULT-VERKÜRZUNGSREGEL FÜR SÄTZE MIT UNGEQUOTETEM KNOTEN-PFAD-
PAAR
drlO: s:(n,p,v)
s':(n,p',v) / v e N X P, P = Pi-P„P„+i. P-
Pl-Pn.
v = (vn.vp),
-3 Sj^n.p'.v'): s, e HN, - • 3 Sj.'(vn,vp^a + ,vj): Sj e
H„
3 s k :(vn,vp,v k ): s k e H „ v k e
Va
Die Regeln dr7, dr8, dr9 und drlO behandeln Sätze mit ungequoteten Pfaden bzw. ungequoteten Knoten-Pfad-Paaren. Die Einschränkung auf ungequotete Verweise ist notwendig, da bei entsprechenden gequoteten Verweisen die Restriktionen etwas anders zu formulieren sind. Während bei Sätzen mit ungequoteten Pfaden die Ausgangstheorie keinen Satz desselben Knotens enthalten darf, dessen Pfad aus der rechten Seite des betrachteten Satzes und einem beliebigen, nicht leeren Suffix besteht, ist diese Einschränkung nicht ausreichend bei Sätzen mit gequoteten Pfaden. Vielmehr müssen in diesen Fällen auch Sätze anderer Knoten überprüft werden, wie im folgenden Beispiel deutlich wird:
96
(4-62) H,: HN,: (s.) Nl (s2) N1 (s3) Nl
= = "
" == "
".
= v i .
HN2: (s4) N2 (s5) N2 (s6) N2
= = N l .
= v 2 .
= v 3 .
Der Satz s, erfüllt alle Bedingungen zur Streichung, die an einen Satz mit ungequotetem Pfad gestellt werden: H, enthält keinen Satz der Form N 1 :
== . . . und der Satz N l : < p q> = v i hat einen atomaren Wert. Dennoch ist die bei einer Streichung von s, resultierende DATR-Theorie nicht konsistent mit H,. Während die Anfrage N2 : < a b > bezüglich H, zu v 2 evaluiert, liefert eine Theorie H 2 ohne s, hier den Wert v 3 . Dadurch daß der Pfad von s2 gequotet ist, kann er je nach Anfrage mit unterschiedlichen Knoten verknüpft werden. Daher reicht es nicht aus, die Sätze des Knotens, denen der betrachtete Satz angehört, zu überprüfen, da der nächste bei der Evaluierung erreichte Satz von der jeweiligen Anfrage abhängt und nicht, wie im Fall von ungequoteten Pfaden, von vornherein feststeht. Um eine korrekte Behandlung von Sätzen mit gequoteten Pfaden zu gewährleisten, müssen daher alle Knoten einer Theorie H, daraufhin überprüft werden, ob sie einen Satz enthalten, dessen Pfad sich aus der (ungequoteten) rechten Seite des betrachteten Satzes und einem beliebigen, nicht leeren Suffix zusammensetzt. Für (4-62) bedeutet dies, daß H[ keinen Satz der Form . . . :
= = . . . enthalten darf. Da H, aber einen solchen Satz (s6) enthält, ist eine Streichung von s, nicht zulässig. 26 Auch die zweite Bedingung, daß der nächste erreichte Satz einen atomaren Wert hat, muß für alle im nächsten Evaluierungsschritt erreichbaren Sätze gelten. Für (4-62) bedeutet dies, daß alle Sätze der Form . . . :
== . . . einen atomaren Wert haben müssen. Nun können die entsprechenden Regeln zur Streichung und Kürzung von Sätzen mit gequoteten Pfaden als rechten Seiten formuliert werden:
26
Eigentlich müssen hier nicht alle Knoten einer Theorie überprüft werden, sondern lediglich diejenigen Knoten, von denen aus der betrachtete Satz erreicht werden kann, d.h. die einen Satz enthalten, dessen Evaluierung mittelbar oder unmittelbar zu dem betrachteten Satz führt. Da eine solche Überprüfung jedoch sehr aufwendig wäre, werden von vornherein alle Knoten getestet.
97 (4-63)
DEFAULT-STREICHUNGSREGEL FÜR SÄTZE MIT GEQUOTETEM PFAD
drl 1: s:(n,p,vq) - 4 e / v„ € Vqp, P = Pl-PnPn+l. p -
Pl-Pn.
3 SJ:(n,p',vq): Sj G HN, -•3 Sj:(nj,v^a+,vj): Sj € H„ V s k :(n k ,v,v k ): sk e H,: vk e Va
(4-64)
DEFAULT-VERKÜRZUNGSREGEL FÜR SÄTZE MIT GEQUOTETEM PFAD
drl2: s:(n,p,vq)
s':(n,p',v) /vq e Vqp, P = Pl-PnPn+l. P-
Pi-P„.
-3 s^n.p'.v'): S; 6 HN, i 3 s j :(n j ,v'"a + ,vj): Sj e H„ V s k :(n k ,v,v k ): sk e H,: vk e Va Im Gegensatz zu Sätzen mit gequoteten Pfaden hängt der bei der Evaluierung als nächstes erreichte Satz bei gequoteten Knoten-Pfad-Paaren nicht von der Anfrage ab, sondern steht — wie im Fall von ungequoteten Knoten-Pfad-Paaren — von vornherein fest. Daher ist es hier nicht notwendig, die Sätze aller Knoten zu überprüfen, sondern es kann genauso wie bei der Behandlung von Sätzen mit ungequoteten Knoten-Pfad-Paaren vorgegangen werden. Der einzige Unterschied besteht darin, daß es keinen Satz geben darf, der sich aus der ungequoteten rechten Seite des betrachteten Satzes und einem beliebigen, nicht leeren Suffix zusammensetzt. Ansonsten sind die Bedingungen dieselben wie bei den Regeln dr9 und drlO und die beiden entsprechenden Regeln sehen sehr ähnlich aus: (4-65)
DEFAULT-STREICHUNGSREGEL FÜR SÄTZE MIT GEQUOTETEM KNOTEN-PFAD-PAAR
drl 3: s:(n,p,v)
e / v e Vqnp, P = Pl-PnPn+l» P'= P l - P n -
v = (vn q ,vp q ), v'= (vn,vp), 3 s^n.p'.v): st € HN, ->3 s j :(vn,vp'V,v j ): Sj € H„ 3 s k :(vn,vp,v k ): sk e H„ vk e Va
98 (4-66)
DEFAULT-VERKÜRZUNGSREGEL FÜR SÄTZE MIT GEQUOTETEM KNOTEN-PFAD-PAAR
drl4: s:(n,p,v)
s':(n,p',v) / v e Vqnp, P = Pl-PnPn+l. P'= P l - P n .
V = (vnq,vpq), v'= (vn.vp), -.3 Sjiin.p'.Vj): s, e HN, ->3 s j :(vn,vp"a + ,v j ): Sj e H„ 3 s k :(vn,vp,v k ): sk e H„ vk e Va
4.3.2.3
Regeln für Sätze mit Sequenzen
Schließlich steht noch die Behandlung von DATR-Sätzen mit Sequenzen aus. Da sich Sequenzen in der Regel nicht nur aus einer Art von Deskriptor (z.B. Knoten) zusammensetzen, sondern aus beliebigen Verweisen bestehen können, können die oben eingeführten DefaultRegeln nicht für Sequenzen erweitert werden. Vielmehr wird, ähnlich wie bei den Transformationsregeln, eine Regel benötigt, die die einzelnen Bestandteile einer Sequenz untersucht und danach entscheidet, ob der Satz gekürzt oder gestrichen werden kann. Zunächst wird die Streichung von Sätzen mit Sequenzen betrachtet. Wie bei den anderen DATR-Sätzen ist eine Grundvoraussetzung für die Streichung eines Satzes s,, daß es einen Satz s2 desselben Knotens gibt, der über einen um ein Element kürzeren Pfad verfügt. Enthalten die rechten Seiten von s, und s2 ausschließlich atomare Werte und Knoten, ist eine weitere Bedingung, daß die rechten Seiten identisch sein müssen. Die meisten der oben vorgestellten Regeln beinhalten diese Bedingung. Eine Ausnahme bilden hierbei jedoch die Regeln dr3, dr4, dr5 und dr6. In diesen Fällen muß die rechte Seite von s2 um ein Element kürzer als die von s, sein. Um diesen beiden Möglichkeiten gerecht zu werden, werden die rechten Seiten von Sätzen mit Sequenzen elementweise behandelt. Dies kann wie folgt geschehen. Es werden jeweils die beiden Elemente an der gleichen Position der beiden Sequenzen miteinander verglichen, also das erste mit dem ersten, das zweite mit dem zweiten usw. Die beiden Elemente müssen miteinander kompatibel sein, und je nachdem, um welche Art von Deskriptor es sich handelt, gelten für die Kompatibilität jeweils die Bedingungen, die bereits in den Regeln vorgestellt wurden. Handelt es sich beispielsweise um zwei atomare Werte oder um zwei Knoten, müssen diese identisch sein. Handelt es sich um Pfade, können diese entweder identisch sein, oder der eine kann um ein Element kürzer sein als der andere. Desweiteren müssen die anderen Restriktionen für Pfade beachtet werden. Da diese Bedingungen bereits alle in den Regeln drl - drl4 formuliert wurden, bietet es sich an, die Sätze mit jeweils einem Element zur Behandlung an die entsprechenden Regeln für einzelne Verweise weiterzugeben (ähnlich wie bei den Transformationsregeln). Diese Sätze können jedoch nicht ohne weiteres an die entsprechenden Regeln übergeben werden, da eine solche Vorgehensweise scheitern würde. Das folgende Beispiel zeigt wieso:
99 (4-67) H,: HN,: (s,) N l : == ( v i
v3) . (s2) N l : == ( v i
v3) . (s3) N l :
= v 2 . Bei der Behandlung von s, wird ein neuer Satz s,': N l : == v i zur Überprüfung auf Streichbarkeit an die Default-Regeln übergeben. Da es sich bei der rechten Seite um einen atomaren Wert handelt, kommt die Regel drl zum Zug. Die letzte Bedingung dieser Regel wird jedoch verletzt, da HN, keinen Satz N l : = v i enthält. Da die rechten Seiten der beiden Sätze elementweise verglichen werden sollen, muß also nicht nur s,' gebildet und an die Regeln übergeben werden, sondern auch der entsprechende Satz s 2 ', also N l : == v i . Werden in HN, die beiden Sätze s, und s2 durch die beiden Sätze s,' und s2' ersetzt, ist eine Anwendung der Regel drl möglich. Die Ersetzung darf natürlich nur temporär sein und für die Zeit der Behandlung der gerade betrachteten Elemente gelten. Für jedes betrachtete Paar müssen in HN, die betroffenen Sätze ausgetauscht werden. Kann auf alle diese temporär gebildeten Sätze eine Streichungsregel erfolgreich angewendet werden, dann kann der betrachtete Satz mit der Sequenz gestrichen werden. Für die Theorie in (4-67) wäre dies der Fall. Die Sätze s, und s2 werden nacheinander durch die folgenden Satzpaare ersetzt: (1) N l : < a b > == v i und N l : < a > == v i , (2) N l : < a b> ==
und N l : ==
, (3) Nl : == v 3 u n d N l : < a > == v3. Für (1) und (3) kann die Regel drl erfolgreich angewendet werden, für (2) die Regel dr7. Die Regel, die das soeben Beschriebene leistet, ist in (4-68) formuliert. ( 4 - 6 8 ) DEFAULT-STREICHUNGSREGEL FÜR SÄTZE MIT SEQUENZEN
drl5: s:(n,p,v) -> e / v = Vp-.v,,, n>l, P = Pl-PmPm+l. P'= Pl-Pm. 3 Sj:(n,p',v'): Sj 6 HN, v'= v1,...vn', V fy,v/): s'^n.p.Vj), sj':(n,p,,vi'), HN = (HN \ {s,sj}) u {s',sj'}, s':(n,p,Vj) —> e Die Regel, die Sätze mit Sequenzen verkürzt, kann ähnlich formuliert werden. Auch hier müssen die einzelnen Elemente der Sequenz überprüft werden. Allerdings ist hierbei keine paarweise Überprüfung notwendig, da für den Satz mit der Gesamtsequenz lediglich sichergestellt werden muß, daß es keinen potentiellen Konfliktsatz gibt (einen Satz mit einem Pfad, der um ein Element kürzer als der betrachtete ist). Da sich die Werte innerhalb der Sequenz
100 bei Verkürzung des Satzes ändern können (Pfadverweise und Knoten-Pfad-Verweise können u.U. um das letzte Element gekürzt werden), muß die Sequenz des gekürzten Satzes aus den Ergebnissen der Regelanwendungen auf die Einzelelemente zusammengesetzt werden. Nachstehend ist die entsprechende Regel aufgeführt. (4-69) DEFAULT-VERKÜRZUNGSREGEL FÜR SÄTZE MIT SEQUENZEN
drl6: s^n.p.v) —» Sj:(n,p',v') /
v = v,...v„, n>l, P = PL-PMPM+L. P - P. -PM.
->3 s k :(n,p',v k ): sk € HN, V Vji Sj'Kn.p.Vj), HN = (HN \ ( s j ) u {sä'}, s^in.p.Vj) Sj'rCn.p'.Vj') v - v/.-.v; Die vorgestellten Regeln zur Inferenz von Default-Information unterscheiden sich von den in Kap. 4.2 entwickelten Transformationsregeln. Während auf einen DATR-Satz in der Regel mehrere Transformationsregeln angewendet werden können, was zu unterschiedlichen Ergebnissen führt, schließen sich die Default-Regeln gegenseitig aus. Das bedeutet, daß auf einen DATR-Satz maximal eine der sechzehn Regeln angewendet werden kann. Eine Ausnahme bilden die Regeln für die Behandlung von Sätzen mit Pfadverweisen und Knoten-Pfad-Verweisen: Enthält ein Satz einen Pfad und eine rechte Seite, die einen Pfad mit dem gleichen Suffix wie der Pfad enthält, gibt es zwei mögliche Regeln, die angewendet werden können. 27 In allen anderen Fällen kann maximal eine Regel angewendet werden. Unter Berücksichtigung der vorgestellten Regeln zur Inferenz von Default-Information kann nun auch der in (4-44) abgebildete, vorläufige Default-Algorithmus wie folgt revidiert werden: (4-70)
ALGORITHMUS ZUR INFERENZ VON DEFAULT-INFORMATION (REVIDIERT)
gegeben: H„ eine DATR-Theorie {HN„...,HN n }, die Knoten dieser DATR-Theorie mit den dazugehörigen Sätzen Default-Streichungsregeln Default-Verkürzungsregeln gesucht: H D , eine DATR-Theorie, die durch Default-Inferenz aus H, gewonnen wird
27
Dies könnte allerdings verhindert werden, indem die Regeln dr7, dr8, dr9, drlO, drl 1, drl2, drl3 und drl 4 um die Bedingung ergänzt werden, daß diese Regeln nicht auf Sätze anwendbar sind, deren Pfade auf der linken und rechten Seite das gleiche letzte Element haben.
101 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
W H I L E H, if {} wähle eine Knotendefinition HNj aus H, W H I L E HNj ^ {} wähle den längsten Satz Sj:(n,p,v) aus HNj IF Default-Streichungsregel anwendbar THEN entferne Sj aus HNj ELSE IF Default-Verkürzungsregel anwendbar THEN BEGIN verkürze Sj zu s,' ersetze Sj durch s,' in HN, END ELSE BEGIN entferne Sj aus HN, H d := H d U Sj END ENDIF ENDIF END W H I L E ENDWHILE
4.3.3 Verhältnis Transformationsregeln - Default-Regeln Zum Schluß soll noch einmal genauer auf die Problematik eingegangen werden, warum es nicht möglich ist, Default-Regeln und Transformationsregeln als Varianten von Regeln zu betrachten, die gleichzeitig auf die Sätze einer gegebenen DATR-Theorie angewendet werden. Eine gleiche Handhabung von Transformationsregeln und Default-Regeln würde zu den folgenden Problemen führen (die z.T. schon im Verlauf des Kapitels angesprochen wurden). Da Sätze, für die einmal festgestellt wurde, daß sie nicht reduzierbar sind, nicht noch einmal überprüft werden dürfen, müßten diese Sätze explizit gekennzeichnet werden. Desweiteren kann eine gleichzeitige Anwendung der beiden Arten von Regeln dazu führen, daß Transformationsregeln u.U. nicht mehr anwendbar sind, wie im folgenden Beispiel: (4-71) H,: (S.) (Sa) (S3) (s4)
Nl: Nl: N2 : N2 :
=
=
= vi v2. = vi vi.
102 Auf den Satz s, kann die Transformationsregel r2 (d.h. die Regel für lokalen Knotenverweis) angewendet werden, was zu folgender Hypothese H 2 führt: (4-72) H2: (s,) (s2) (s3) (s4)
Nl: Nl: N2 : N2 :
=
=
== N2 v2. = vi. vi.
Wendet man dagegen auf s 3 in H, zunächst die Default-Streichungsregel drl an, ergibt sich die Folgetheorie H3: (4-73) H3: (s.) (s2) (S4)
N l : = v i N l : = v 2 . N2 : = v i .
Auf s, in H 3 kann nun die Transformationsregel r2 nicht mehr angewendet werden, da es keinen entsprechenden Satz mehr gibt, auf den mittels Knoten verwiesen werden kann. Während eine solche Verhinderung der Anwendung einer Transformationsregel lediglich unerwünscht ist, kann eine Vermischung von Transformationsregeln und Default-Regeln auch schwerwiegendere Folgen haben und zu beobachtungsinkonsistenten DATR-Theorien führen. Das liegt daran, daß die Vergleichssätze, die die Default-Regeln benötigen, um zu entscheiden, ob ein Satz reduziert werden kann, durch die Transformationsregeln verändert werden können. Das folgende Beispiel zeigt die möglichen Konsequenzen. (4-74) H,: (s,) (s2) (Sj)
(s4)
N1 N1 N1 N1
= v i . = v i .
= v i .
= v 2 .
Der längste Satz von H, (s4) kann nicht reduziert werden. Betrachtet man danach s,, kann dieser Satz gestrichen werden, da die Theorie den Satz s2 enthält. Das Resultat ist H2:
103 (4-75) H2: (s2) (s3) (s4)
Nl: Nl: Nl:
= v i .
= v i . < p q b> = v 2 .
Wird nun auf s2 die Transformationsregel rl angewendet, entsteht eine Theorie H3, die nicht mehr konsistent mit H 2 und H, ist. Während die Beobachtungsanfrage N l : < a b > für H, den Wert v i liefert, lautet das Ergebnis für H 3 v 2 . (4-76) H3: (s2) (s3) (s4)
Nl: Nl: Nl:
< a > ==
. < p q> = v i .
= v 2 .
Das Beispiel zeigt, daß eine Vermischung von Transformationsregeln und Default-Regeln im schlimmsten Fall zu beobachtungsinkonsistenten DATR-Theorien führen kann. Das kann nur dadurch verhindert werden, daß (1) Default-Information in einem eigenständigen Verfahren inferiert wird und (2) nach Anwendung des Default-Algorithmus keine Transformationsregeln mehr auf die so entstandene DATR-Theorie angewendet werden. Diese Überlegungen haben verschiedene Konsequenzen für die Konzeption des Gesamtsystems, das in Kap. 4.4 entwikkelt wird.
4.3.4 Ein Beispiel Nach der Vorstellung der benötigten Regeln zur Inferenz von Default-Information soll die Anwendung dieser Regeln an einem etwas komplexeren Beispiel illustriert werden. Bei der gegebenen DATR-Theorie H, handelt es sich wiederum um die Repräsentation eines Ausschnitts von Flexionsinformation. Die Theorie könnte durch Anwendung der Transformationsregeln auf eine Menge von beobachteten Daten entstanden sein.
104 Ausgangs-/Zwischenhypothesen
Ergebnishypothese
Hl: HN1: (sl) A u t o : < s i n g nom> == A I . (s2) A u t o : < s i n g a c c > == A I . (s3) A u t o : < s i n g d a t > == A I . (s4) A u t o : < s i n g gen> == A I . (s5) A u t o : < r o o t > = a u t o . HN2: (sl) K l u b : < s i n g nom> == A I . (s2) K l u b : < s i n g a c c > == A I . (s3) K l u b : < s i n g d a t > == A I . (s4) K l u b : < s i n g gen> == A I . (s5) K l u b : < r o o t > = k l u b . HN3: ( s l ) A l : < s i n g nom> == " < r o o t > " . ( s 2 ) A l : < s i n g a c c > == " < r o o t > " . (s3) A I : < s i n g d a t > == " < r o o t > " . ( s 4 ) A l : < s i n g gen> == ( " < r o o t > " s ) . Zunächst werden die Sätze des Knotens HN, behandelt. Einer der längsten Sätze ist s,. Auf diesen kann die Regel dr2 angewendet werden, da HN, keinen Satz der Form A u t o : < s i n g > == . . . enthält. (Die Sätze der gerade nicht bearbeiteten Knoten werden im folgenden durch ... ersetzt). H2: HN,: (s,) A u t o : < s i n g > == A I . (s2) A u t o : < s i n g a c c > == A I . (s3) A u t o : < s i n g d a t > == A I . (s4) A u t o : < s i n g gen> == A I . (s5) A u t o : < r o o t > = a u t o . HN2: HN3:
Der Satz s2 in H2 kann mit der Regel drl gestrichen werden, da HN, den Satz s, enthält. H3: HN,: (s,) A u t o : < s i n g > == A I . (s3) A u t o : < s i n g d a t > == A I . (s4) A u t o : < s i n g gen> == A I . (s5) A u t o : < r o o t > = a u t o . HN2: HN3:
105 Aus dem gleichen Grund kann der Satz s 3 in H 3 mit der Regel drl gestrichen werden. H4: HN,: (s,) A u t o : < s i n g > == A I . (s4) A u t o : < s i n g gen> == A I . (s5) A u t o : < r o o t > = a u t o . HN,: HN,:
Ebenso kann der Satz s4 in H 4 mit der Regel drl gestrichen werden. H5: HN,: (s,) A u t o : < s i n g > == A I . (s5) A u t o : < r o o t > = a u t o . HN2: HN3:
Der Satz s, in H5 kann mit der Regel dr2 verkürzt werden, da HN, keinen Satz der Form A u t o : < > == . . . enthält.
(s,) A u t o : == A I . (s5) A u t o : < r o o t > = a u t o . HN2: HN,:
Der Satz s5 in H 6 kann weder verkürzt, noch gestrichen werden, da dies zu Konflikten mit s, führen würde. s5 wird daher aus der Menge der zu bearbeitenden Sätze entfernt und wird Bestandteil der Ergebnishypothese HE. H7: HN,: (s,) A u t o : == A I . HN,: HN,:
(s5) A u t o : < r o o t >
= auto.
106 Ebenso kann der Satz s, in H7 nicht weiter verkürzt oder gestrichen werden und erscheint daher ebenfalls als Satz der Ergebnishypothese. H8: HN,:
He: HN,: (s5) A u t o : < r o o t > = a u t o . (S[) A u t o : < > == A I .
HN2: HN3: HN, enthält jetzt keine Sätze mehr, so daß die Sätze des nächsten Knotens bearbeitet werden können. Da die Sätze des Knotens HN2 exakt die gleiche Form wie die Sätze des Knotens HN, haben, können sie in gleicher Weise bearbeitet werden. Nach Anwendung der entsprechenden Regeln, die hier nicht noch einmal einzeln besprochen werden, wird die folgende Hypothese erreicht: H,: HN,: HN2: HN3: ( s , ) A l : < s i n g nom> (s2) A I : < s i n g a c c > (s3) A I : < s i n g d a t > ( s 4 ) A l : < s i n g g e n > ==
"' "' "' (""
HE: HN,: (s5) A u t o : < r o o t > (s,) A u t o : < > == HN2: (s5) K l u b : < r o o t > (s,) K l u b : < > ==
= auto. AI. = klub. AI.
s)
Nachdem jetzt HN, und HN2 keine Sätze mehr enthalten, wird HN3 bearbeitet. Der Satz s, in H, kann mit der Regel drl2 verkürzt werden, da es keinen Satz der Form A I : < s i n g > == . . . gibt, H, keinen Satz der Form . . . : < r o o t . . . > = = . . . enthält und alle Sätze der Form . . . : < r o o t > == . . . in H, einen atomaren Wert haben. Hi0: HN,: HN2: HN3: (s,) A l : < s i n g > == (s2)Al: (s3)Al: ( s 4 ) A l : < s i n g gen>
HEHN,: (s5) A u t o : < r o o t > (s,) A u t o : < > == HN2: (s5) K l u b : < r o o t > (s,) K l u b : < > ==
"". == " < r o o t > " . == " < r o o t > " . == ( " < r o o t > " s ) .
= auto. AI. = klub. AI.
Nun können nacheinander die Sätze s 2 und s3 mit der Regel drl 1 gestrichen werden, was zu den Hypothesen H u und H12 führt.
107
H,,: HN,: HN2:
He: HN,: (s5) Auto: < r o o t > = a u t o . (S,) Auto : == AI. HN2. (S5) Klub: < r o o t > = k l u b . ( s , ) K l u b : < > == A I .
HN3: (s,) A l : < s i n g > == " < r o o t > " . ( s 3 ) A l : < s i n g d a t > == " < r o o t > " . ( s 4 ) A l : < s i n g gen> == ( " < r o o t > " s ) . H12: HN,:
He: HN,: (s5) A u t o : < r o o t > = a u t o . HN2: (S,) A u t o : < > == A I . HN2: HN3: (S3) K l u b : < r o o t > = k l u b . (s,) A l : < s i n g > == " < r o o t > " . ( s , ) K l u b : < > == A I . ( s 4 ) A l : < s i n g gen> == ( " < r o o t > " s ) . Der Satz s4 in H12 kann weder verkürzt, noch gestrichen werden, da dies zu Konflikten mit s, führen würde; daher wird er Teil der Ergebnishypothese. H13: HN,: HN2: HN3: (s,) A l : < s i n g > == " < r o o t > " .
He: HN,: (s5) Auto: < r o o t > = a u t o . (S,) A u t o : < > == A I . HN2: (S5) K l u b : < r o o t > = k l u b . ( s , ) K l u b : < > == A I . HN3: ( s 4 ) A l : < s i n g gen> == ( " < r o o t > " s ) .
Der Satz s, in H,3 kann mit der Regel drl2 verkürzt werden. H,4: HN,: HN2: HN3: ( s , ) A l : < > == " < r o o t > " .
He: HN,: (s5) Auto: < r o o t > = a u t o . (S,) A u t o : < > == A I . HN2: (s5) K l u b : < r o o t > = k l u b . ( s , ) K l u b : < > == A I . HN3: ( s 4 ) A l : < s i n g gen> == ( " < r o o t > " s ) .
Für den letzten Satz in H,4 ist keine weitere Kürzung oder Streichung möglich, weshalb er Teil der Ergebnishypothese wird.
108
HE: HN,: (s5) A u t o : < r o o t > = a u t o , (s,) A u t o : == A l . HN 2 : (s5) K l u b : < r o o t > = k l u b . (s,) K l u b : < > = = A l . HN 3 : ( s 4 ) A l : < s i n g g e n > == ( " < r o o t > " ( s , ) A l : < > == " < r o o t > " .
HN 2 : HN,:
s) .
Da H1S nun leer ist, terminiert der Algorithmus, und die Ergebnishypothese liegt vor.
4.4
Inferenzprozeß
4.4.1 Allgemeine Inferenzstrategie In Kapitel 4.2 und 4.3 wurden die wichtigsten Bestandteile für die Inferenz von DATRTheorien entwickelt. Mit Hilfe der Transformationsregeln können Vererbungsbeziehungen zwischen den Sätzen einer DATR-Theorie gewonnen werden. Der vorgestellte Default-Algorithmus reduziert eine gegebene DATR-Theorie bezüglich Default-Information, so daß Generalisierungen inferiert werden. Hierbei wurden die Anwendungen der Transformationsregeln jedoch isoliert und unabhängig voneinander betrachtet. Die Frage, wie die Transformationsregeln miteinander interagieren, wurde ebensowenig behandelt wie das Zusammenspiel des Default-Algorithmus und der Transformationsregeln. Solche Fragen spielen in diesem Kapitel eine zentrale Rolle, in dem — ausgehend von diesen zwei Hauptbestandteilen — eine Inferenzstrategie formuliert wird, mit der DATR-Theorien als charakteristische Beschreibungen für beobachtete Daten inferiert werden können. Um als charakteristische Beschreibung zu gelten, muß eine inferierte DATR-Theorie zumindest den in Kapitel 4.1 aufgestellten Kriterien genügen. Die vorgestellten Transformationsregeln und der Default-Algorithmus beinhalten Eigenschaften, die bereits gewisse Anforderungen an die allgemeine Inferenzstrategie stellen. So basiert die Korrektheit des Default-Algorithmus beispielsweise darauf, daß alle Sätze der DATR-Theorie zur Verfügung stehen, da bei jedem zu reduzierenden Satz u.a. getestet werden muß, ob der Satz mit dem nächstkürzeren Satz in Konflikt steht. Wie in Kapitel 4.3 bereits gezeigt wurde, ist kein korrektes Ergebnis gewährleistet, wenn nicht alle Sätze zu einer solchen Überprüfung zur Verfügung stehen. Diese Forderung schließt die Formulierung einer inkrementellen Inferenzstrategie aus, bei der nicht alle Beobachtungen zum gleichen Zeitpunkt gemacht werden, sondern neue Beobachtungen nach und nach hinzukommen und
109 verarbeitet werden. 28 Wird dies für den Erwerb von DATR-Theorien zugelassen, arbeitet der vorgestellte Default-Algorithmus nicht mehr korrekt. Wird beispielsweise aufgrund der Daten entschieden, daß ein Satz gestrichen werden kann, ist die Theorie möglicherweise nicht mehr mit den vorherigen Beobachtungen konsistent, wenn ein neuer Satz hinzukommt. Das folgende Beispiel illustriert einen solchen Fall: H,: (S[) (s2)
N : < a b c> = v i . N: = v i .
Mit dem Default-Algorithmus kann s, zunächst um ein Element verkürzt und dann gestrichen werden, was zu einer Theorie H 2 führt, die nur aus dem Satz s2 besteht. Kommt nun eine neue Beobachtung in Form des Satzes N : < a b> = v 2 hinzu, entsteht die Theorie H3. H3: (s2) (s3)
N: = v i . N: = v 2 .
Die Theorie H 3 ist nun nicht mehr konsistent mit H„ da sich für die Beobachtungsanfrage N : < a b c > für H, der Wert v i ergibt, während die Anfrage an H 3 zu v 2 evaluiert. Der Grund liegt darin, daß der Default-Algorithmus den Satz s3 als Vergleichssatz für die Kürzung von s, nicht zur Verfügung hatte. Wäre s3 Bestandteil von H, gewesen, wäre eine Kürzung oder Streichung von s, von vornherein ausgeschlossen gewesen. Der Default-Algorithmus setzt voraus, daß alle Beobachtungen zum Vergleich zur Verfügung stehen und entscheidet aufgrund dieser Daten, ob ein Satz verkürzt oder gestrichen werden kann. Eine inkrementelle Strategie scheidet damit aus, d.h. die Daten werden im Batch-Modus verarbeitet. Bei der Entwicklung des Default-Algorithmus hat es sich als sinnvoll erwiesen, alle Default-Information für eine gegebene DATR-Theorie in einem Durchlauf zu inferieren. Darüberhinaus wurde in Kap. 4.2 gezeigt, daß der Default-Algorithmus nicht mit den Anwendungen von Transformationsregeln vermischt werden darf. Um die Beobachtungskonsistenz von DATR-Theorien zu gewährleisten, ist es absolut notwendig, daß nach der Inferenz von Default-Information keine Transformationsregel mehr angewendet wird. Das bedeutet, daß die
10
Grundsätzlich dürfte die Verwendung eines nicht-monotonen Repräsentationsformalismus wie DATR die Formulierung einer inkrementellen Inferenzstrategie erschweren. Im Gegensatz zu monotonen Formalismen besteht hier stets die Möglichkeit, daß Schlüsse bei neu hinzukommendem Wissen nicht mehr gültig sind (vgl.Kap. 3.3). Daher müßte bei der Verwaltung des repräsentierten Wissens bei einer inkrementellen Verarbeitung stets darauf geachtet werden, daß bereits gezogene Schlüsse (etwa in Form von Generalisierungen mittels Defaults) ggf. wieder rückgängig gemacht werden können, was bei einem monotonen Formalismus nicht notwendig ist. Die Frage, inwieweit eine solche Vorgehensweise generell möglich ist, kann an dieser Stelle nicht diskutiert werden. Die von uns entwickelten Basiskomponenten für die Inferenz von DATRTheorien (Transformationsregeln und Default-Algorithmus) erlauben in jedem Fall keine inkrementelle Strategie, da sie das gleichzeitige Vorhandensein aller Beobachtungen voraussetzen.
110 Anwendung des Default-Algorithmus das Ende des Gesamtinferenzprozesses bilden muß, um ein korrektes Ergebnis zu erzielen. Wie Kapitel 4.2 gezeigt hat, führt generell jede Anwendung einer Transformationsregel auf eine gegebene DATR-Theorie zu einer beobachtungskonsistenten und -vollständigen Folgetheorie, sofern die Theorie keine Default-Information beinhaltet. Ein Schritt des Inferenzprozesses kann daher in der Anwendung einer Transformationsregel bestehen: (4-77)
ANWENDUNG EINER TRANSFORMATIONSREGEL
H, - U
H,
Dieser Schritt kann beliebig oft wiederholt werden, da eine Folge solcher Schritte ebenfalls stets zu einer konsistenten und vollständigen DATR-Theorie führt: (4-78)
H,
r*
ANWENDUNG VON BELIEBIG VIELEN TRANSFORMATIONSREGELN
• Hn
In Kapitel 4.3 wurde gezeigt, daß auch die Anwendung des Default-Algorithmus auf eine DATR-Theorie, die noch keine Default-Information beinhaltet, ein korrektes Ergebnis liefert: (4-79)
ANWENDUNG DES DEFAULT-ALGORITHMUS
H,
Hd
Da der Default-Algorithmus auf beliebige monotone DATR-Theorien angewendet werden kann, kann es sich bei H, auch um eine Theorie handeln, die durch Anwendung von Transformationsregeln entstanden ist. Wenn daher nach beliebig vielen Anwendungen von Transformationsregeln der Default-Algorithmus auf die daraus resultierende Theorie angewendet wird, ist das Ergebnis ebenfalls eine beobachtungskonsistente und -vollständige DATRTheorie. (4-80)
ANWENDUNG BELIEBIGER TRANSFORMATIONSREGELN UND DES DEFAULT-ALGORITHMUS
H,
HN
HD
Nicht zulässig ist dagegen eine Abfolge beliebiger Regelanwendungen, dem Default-Algorithmus und wieder beliebig vielen Regelanwendungen. Wie bereits erläutert, dürfen nach dem Default-Algorithmus keine Transformationsregeln mehr angewendet werden. Ebenso darf der Default-Algorithmus nur einmal angewendet werden, da, wie in Kap. 4.3 bereits gezeigt wurde, eine Voraussetzung für den Default-Algorithmus darin besteht, daß die Theorie, auf die er angewendet wird, noch keine Default-Information beinhaltet.
111 Nach diesen Überlegungen kann der Inferenzprozeß in einer ersten Annäherung in der Anwendung aller möglichen Transformationsregeln und dem abschließenden Default-Algorithmus bestehen. Wie im folgenden gezeigt wird, ist diese Vorgehensweise jedoch unzureichend, um eine charakteristische DATR-Theorie für eine beobachtete Datenmenge zu inferieren. Wie bei der Darstellung der Transformationsregeln in Kapitel 4.2 bereits an einigen Stellen deutlich wurde, konkurrieren die Transformationsregeln teilweise miteinander. Das bedeutet, daß auf eine gegebene DATR-Theorie oft mehrere Regeln zulässigerweise angewendet werden können. Darüberhinaus ist auch das Ergebnis der Anwendung einer Transformationsregel nicht immer eindeutig. Das folgende Beispiel illustriert diese Fälle. (4-81)
H,: (s,) (s2) (s3) (S4)
KONKURRENZ VON TRANSFORMATIONSREGELN
Nl: Nl: Nl: N2 :
= = = =
vi vi vi vi
Auf den Satz s, der Theorie H[ können mehrere Regeln für lokale Verweise angewendet werden. Zunächst einmal ist die Regel rl (Regel für lokalen Pfadverweis) zulässig, da H, einen Satz desselben Knotens enthält, der den gleichen Wert wie s, aufweist. Allerdings gibt es zwei solche Sätze in H[ (s2 und s3), so daß für v' sowohl als auch gewählt werden kann. Das heißt, es gibt zwei mögliche Anwendungen der Regel rl auf s„ die zu zwei unterschiedlichen Folgetheorien führen. Neben der Anwendung der Regel rl ist auch die Anwendung der Regel r2 (Regel für lokalen Knotenverweis) für v' = N2 möglich. Andere Regeln sind auf s, nicht anwendbar. Somit ergeben sich für die Bearbeitung von s, drei zulässige Regelanwendungen, die zu den folgenden drei unterschiedlichen Folgehypothesen führen:
(4-82)
KONKURRENZ VON TRANSFORMATIONSREGELN
H 2A :
(s,) Nl == . (s2) Nl = v i . (s3) Nl = v i . (s4) N2 = v i .
H2B:
(s,) Nl (s2) Nl (s3) Nl (s4) N2
== . = vi. = vi. = vi.
112
H2c: (s,) N l : < a b> == N2 (s2) N l : < c d> = v i . (s3) N l : < x y> = V i . (s4) N2 : < a b> = v i . Je nachdem, welche Regeln jeweils auf die Sätze einer DATR-Theorie angewendet werden, ergeben sich somit andere Folgetheorien. Die Anwendung einer Transformationsregel auf einen Satz schränkt hierbei unter Umständen auch die Anwendung von Regeln auf die anderen Sätze ein, da die Transformationsregeln jeweils bestimmte Input-Sätze erwarten. So kann beispielsweise auf die Sätze s, der Theorien H2a und H2b in (4-82) die Regel für globale Pfadverweise (r4) angewendet werden, während auf den Satz s, der Theorie H2c die Regel für globale Knotenverweise (r5) zulässig ist. So können sich aufgrund unterschiedlicher Regelanwendungen völlig verschiedene DATR-Theorien für die gleiche Menge an beobachteten Daten ergeben. Während alle mithilfe der Regeln und des Default-Algorithmus erzeugbaren Theorien konsistent und vollständig für die beobachteten Daten sind, unterscheiden sie sich bezüglich der anderen Kriterien (Strukturierung der Daten, Generalisierung über den Daten, Strukturierung der Domäne). Das Ziel eines Lernsystems besteht in diesem Fall darin, nicht irgendeine der möglichen DATR-Theorien zu inferieren, sondern eine möglichst "gute". In diesem Zusammenhang sind zwei grundlegende Fragen zu beantworten, nämlich • •
Was ist eine gute DATR-Theorie für eine gegebene Menge von beobachteten Daten? Wie findet man diese Theorie(n)?
Die erste Frage wird zunächst zurückgestellt, und für das folgende wird angenommen, daß festgelegt wurde, was eine gute DATR-Theorie ist. Die Formulierung der zweiten Frage deutet bereits an, um welche Art von Aufgabe es sich hier handelt. Die Fragestellung kann im wesentlichen als Suchproblem aufgefaßt werden, wie dies auch bei vielen anderen Lernsystemen der Fall ist (vgl. z.B. Mitchell 1982). So schreibt Lebowitz (1987, S.117) über sein System UNIMEM: "Like artificial intelligence programs in general, UNIMEM can be viewed as searching through a space of alternatives." Systeme, die Suchprobleme lösen, beinhalten nach Barr/Feigenbaum (1981, S.19ff) als Hauptkomponenten eine Datenbasis, die die aktuelle Problemsituation (Zustand) sowie das Ziel der Suche (Zielzustand) repräsentiert, eine Menge von Operatoren zur Manipulation der Datenbasis und eine Kontrollstrategie, die die Suche steuert. Der Suchraum ergibt sich aus den möglichen Sequenzen der Anwendung der Operatoren auf die Zustände. Der Suchraum ist in der Regel ein Graph (bei manchen Problemstellungen ein Baum), dessen oberster Knoten den Startzustand repräsentiert und alle anderen Knoten Zustände, die durch eine Sequenz von Anwendungen der Operatoren auf den Startzustand entstehen können. Alle Folgeknoten eines konkreten Knotens ergeben sich aus den Anwendungen der Operatoren auf den Zustand, der mit diesem Knoten assoziiert ist. Bei der vorliegenden Aufgabe handelt es sich bei den Operatoren um die Transformationsregeln und den Default-Algorithmus. Den Startzustand bildet die Hypothese H0, d.h. die
113 beobachteten Daten. Der Suchraum besteht aus allen DATR-Theorien, die sich durch (4-80) aus dem Startzustand ergeben, d.h. der Anwendung beliebiger Transformationsregeln und des Default-Algorithmus. Wie bei den meisten Suchproblemen ist der Suchraum kein Baum, sondern ein Graph, da die gleiche DATR-Theorie durch unterschiedliche Abfolgen von Operatoren erreicht werden kann. Der Suchraum läßt sich somit folgendermaßen darstellen: (4-83)
SUCHRAUM FÜR D A T R - T H E O R I E N
1/
V
^J
V
Xj
1/
N/
1/
Nl
Die mit 'r' beschrifteten Kanten repräsentieren die Anwendung einer Transformationsregel, die mit 'd' beschrifteten Kanten die Anwendung des Default-Algorithmus. Die Zustände, die durch letztere entstehen, können nicht weiter expandiert werden, da nach dem Default-Algorithmus keine weiteren Operatoren mehr angewendet werden dürfen. Das Ziel der Suche ist ein Zustand, der mit einem dieser Blätter assoziiert ist. Die anderen Knoten kommen nicht als Zielzustand in Frage, da ein wichtiges Charakteristikum der Ergebnishypothese die Repräsentation von Default-Information ist. Im Gegensatz zu den üblichen Suchproblemen kann hier nicht von vornherein ein zu erreichender Zielzustand angegeben werden, da nicht der Weg, wie dieses Ziel erreicht wird, das Ergebnis der Suche sein soll, sondern der Zielzustand selbst. Hierbei definiert sich der gesuchte Zielzustand relativ zu den übrigen Zuständen des Suchraums. Im Vergleich zu den anderen Zuständen soll es sich um die beste DATR-Theorie für die beobachteten Daten handeln. Dieser Unterschied zu den traditionellen Suchproblemen ist typisch für Lernaufgaben. So ist das Ziel bei Generalisierungsaufgaben beispielsweise die Auswahl einer plausiblen Generalisierung (aus der Menge aller möglichen Generalisierungen) über den beobachteten Daten (vgl. Mitchell 1982). Ebenso soll beim Erwerb von Grammatiken eine möglichst gute Grammatik für die gegebenen Beispielsätze gefunden werden (vgl. Fu/Booth 1975). Unter der Annahme, daß definiert ist, welches die Kriterien für eine gute DATR-Theorie sind, kann die beste DATR-Theorie für eine gegebene Menge von Daten nur dann mit Sicherheit ermittelt werden, wenn alle anderen möglichen Theorien zum Vergleich zur Ver-
114 fügung stehen. Dies setzt eine vollständige, erschöpfende Suche voraus. Da diese Suchstrategie jedoch bei allen nicht-trivialen Problemen zu einer kombinatorischen Explosion führt (vgl. Barr/Feigenbaum 1981), scheidet eine erschöpfende Suche meist grundsätzlich aus. Die Mehrzahl der Systeme verwendet daher stattdessen eine heuristische Suchstrategie, die den Suchraum unter Verwendung von Wissen über die Domäne reduziert, so daß der Suchaufwand vertretbar wird. Der Preis für den verringerten Suchaufwand besteht darin, daß nicht mehr gewährleistet ist, daß die optimale Lösung (je nach Fragestellung auch überhaupt eine Lösung oder alle Lösungen) gefunden wird. Für den Erwerb von DATR-Theorien bedeutet eine heuristische Suche, daß das Ziel nicht mehr die Inferenz der besten DATR-Theorie, sondern die einer möglichst guten DATR-Theorie ist. Nach Barr/Feigenbaum können heuristische Informationen an verschiedenen Stellen der Suche verwendet werden (1981, S.59): "The points at which heuristic information can be applied in a search include— 1. deciding which node to expand next, instead of doing the expansions in a strictly breadth-first or depth-first order; 2. in the course of expanding a node, deciding which successor or successors to generate—instead of blindly generating all possible successors at one time; and 3. deciding that certain nodes should be discarded, or pruned, from the search tree." Der erste Punkt macht eine blinde Suche zu einer gerichteten Suche (auch best-first Suche), indem Knoten nicht in einer zufälligen Reihenfolge expandiert werden, sondern vielversprechende Knoten zuerst bearbeitet werden. Die zweite Möglichkeit reduziert den Suchraum, indem nicht alle Folgeknoten eines Knotens generiert werden. Diese Teilexpansion von Knoten wird durch eine eingeschränkte Auswahl der Operatoren, die auf einen Knoten angewendet werden, erreicht. Eine dritte Möglichkeit besteht darin, bestimmte Knoten überhaupt nicht zu expandieren. Dies sind in der Regel Knoten, die im Vergleich zu anderen nicht vielversprechend für eine Lösung sind. Die Lernstrategie zum Erwerb von DATR-Theorien verwendet die letzten beiden Arten dieser heuristischen Informationen, die in den folgenden Teilkapiteln besprochen werden. Die Grundstrategie besteht in einer gerichteten Suche mit forward pruning, die folgendermaßen beschrieben werden kann. Zunächst wird die Menge der für einen Knoten generierten Folgeknoten dadurch reduziert, daß die Anwendbarkeit der Transformationsregeln eingeschränkt wird (vgl. Kap. 4.4.2). Die generierten Folgeknoten werden ihrerseits nach Güte sortiert und lediglich die n besten werden für die weitere Expansion berücksichtigt. Die übrigen Knoten werden verworfen. 29 Diese Technik wird auch in einigen Ansätzen zur Suche in Spielgraphen (z.B. für Schach) verwendet (vgl. Barr/Feigenbaum 1981, S. 104). Das Maß zur Bestimmung der Güte eines Knotens wird Bewertungsfunktion genannt. Diese Funktion muß im vorliegenden Fall Kriterien beinhalten, die für die Suche vielversprechende (monotone) DATR-
9Q
Bei mehr als n gleich guten Theorien erfolgt eine arbiträre Selektion der weiter zu expandierenden Knoten, indem die ersten n Knoten gewählt werden, so daß die Menge der zu expandierenden Knoten nie größer als n ist.
115 Theorien identifizieren (siehe Kap. 4.4.3). Da diese Kriterien die Suche richten, werden sie im folgenden Suchkriterien genannt. Die Suche terminiert, wenn keine Transformationsregel mehr anwendbar ist. 30 Die beste DATR-Theorie wird dann aus der Menge derjenigen Default-Hypothesen ausgewählt, die aus den vielversprechendsten monotonen Hypothesen gewonnen wurden. Für diese Auswahl der Ergebnishypothesen sind wiederum Kriterien, ähnlich den Suchkriterien, erforderlich, um Default-Hypothesen bezüglich ihrer Qualität miteinander zu vergleichen. Während die Suchkriterien lediglich die für die Suche vielversprechendsten monotonen Theorien einer Ebene identifizieren und somit eine lokale Bewertung darstellen, bestimmt die zweite Art von Kriterien die tatsächliche Güte einer DATR-Theorie in Bezug auf die beobachteten Daten. Da mit diesen Kriterien Theorien aller Ebenen verglichen und die beste(n) ausgewählt werden, handelt es sich hierbei um eine globale Bewertung von Hypothesen. Die für diese Bewertung herangezogenen Kriterien werden Auswahlkriterien genannt. Für die Auswahl der besten DATR-Theorie werden während der Suche die neu gewonnenen Default-Theorien der vielversprechendsten monotonen Theorien mit den bisher besten Default-Theorien verglichen. Zu Beginn der Suche ist H^,, die Default-Hypothese der Ausgangshypothese H0, die beste Default-Hypothese. Ist die beste (oder die besten) der neuen Default-Hypothesen besser als die bisher besten, wird sie als vorläufige Ergebnishypothese betrachtet. Diese kann gegebenenfalls von später generierten Default-Hypothesen abgelöst werden. Wenn es bei Beendigung der Suche mehrere Theorien von gleich guter Qualität gibt, ist das Ergebnis eine Menge von DATR-Theorien, ansonsten eine einzige. Darüberhinaus ist die Strategie so konzipiert, daß es immer eine Lösung gibt. Selbst wenn auf die beobachteten Daten keinerlei Transformationsregeln anwendbar sind, gibt es eine Ergebnishypothese, die in diesem Fall in H M besteht. Obwohl Suchkriterien und Auswahlkriterien viele Gemeinsamkeiten aufweisen, müssen sie als unterschiedliche Bestandteile des Inferenzprozesses behandelt werden, da sie (a) unterschiedliche Funktionen erfüllen und (b) auf unterschiedliche Arten von DATR-Theorien angewendet werden. Die Kriterien werden in Kap. 4.4.3 diskutiert. Der gesamte Lernalgorithmus zum Erwerb von DATR-Theorien kann nun folgendermaßen formuliert werden:
Die Verwendung dieses Abbruchkriteriums ist nur möglich, wenn es sich um einen endlichen Suchraum handelt. Bei einer Verwendung der Transformationsregeln ohne weitere Einschränkungen wäre diese Anforderung nicht erfüllt, da die Regeln zur Hierarchiebildung (rll und rl2) prinzipiell beliebig häufig angewendet werden können und so immer neue, abstrakte DATR-Sätze erzeugen. Im folgenden Kapitel wird jedoch eine Heuristik formuliert, die gerade solche Fälle ausschließt.
116 (4-84)
LERNALGORITHMUS ZUM ERWERB VON DATR-THEORIEN
Gegeben:
-
Gesucht:
-
H0, die Ausgangshypothese (= die beobachteten Daten) Transformationsregeln Default-Algorithmus Bewertungsfunktion basierend auf Suchkriterien zur Bestimmung vielversprechender monotoner DATR-Theorien (Richtung der Suche) Bewertungsfunktion basierend auf Auswahlkriterien zur Bestimmung der Güte von Default-Theorien (Auswahl der Ergebnishypothesen) HF := {}, die Menge der Folgehypothesen SOLUTION := {}, die Menge der Ergebnishypothesen SOLUTION = {HE1,...,HEn}, die Ergebnishypothesen, d.h. die besten DATRTheorien für H 0
INDUKTION(H 0 , HF, SOLUTION)
WHILE HF ± {} bewerte alle Hypothesen aus HF anhand der Suchkriterien HFN := die n besten Hypothesen aus HF INDUKTION(HFN, HF, SOLUTION)
ENDWHILE P R O C E D U R E INDUKTION(HFN, HF, SOLUTION)
HF := {} WHILE HFN ¿f {} wähle (und lösche) eine Hypothese Hj aus HFN bilde die Default-Hypothese HD, von Hi durch Anwendung des Default-Algorithmus bewerte HD, anhand der Auswahlkriterien IF SOLUTION = {} THEN SOLUTION := HD, ELSE CASE Bewertung von HDj im Vergleich zu Bewertungen von SOLUTION besser: SOLUTION := HDj gleich: SOLUTION:= SOLUTION u HDi ENDCASE ENDIF bilde alle Folgehypothesen HF, von Hj durch Anwendung einer Transformationsregel HF := H F u HF, ENDWHILE ENDPROCEDURE
117
4.4.2 Heuristiken zur Einschränkung des Suchraums Wie bereits im vorhergehenden Kapitel erwähnt, besteht eine Möglichkeit der Reduzierung des Suchraums in der Beschränkung der Operatoren, die auf einen Knoten angewendet werden, so daß Knoten möglicherweise nur teilweise expandiert werden, d.h. nicht alle prinzipiell möglichen Folgeknoten generiert werden. Die Auswahl der Operatoren sollte hierbei so gestaltet werden, daß wenig vielversprechende Folgeknoten nicht generiert werden. Damit diese Art von heuristischem Wissen auch beim Erwerb von DATR-Theorien verwendet werden kann, muß zunächst geklärt werden, ob die Anwendungen der Transformationsregeln und des Default-Algorithmus in irgendeiner Weise sinnvoll eingeschränkt werden können. Da diese Heuristiken für jede zu erwerbende DATR-Theorie gleich sind und die mit ihnen verbundenen Einschränkungen daher "festverdrahtet" sind, müssen diese Restriktionen derart sein, daß sie für jede DATR-Theorie sinnvoll sind, d.h. sie müssen domänenunabhängig sein. Diese Einschränkungen betreffen somit Eigenschaften, die für jede DATR-Theorie grundsätzlich unerwünscht bzw. erwünscht sind. Während der Entwicklung des Systems wurden einige solcher domänenunabhängigen Restriktionen ermittelt, die im folgenden erörtert werden.
4.4.2.1
Einschränkungen der Transformationsregeln
Da heuristische Einschränkungen der Transformationsregeln generell für jede zu inferierende DATR-Theorie gelten sollen, müssen die Einschränkungen fest mit den Transformationsregeln verbunden sein. Sinnvollerweise geschieht dies, indem die Restriktionen Bestandteil der Regeln selbst sind, wodurch keine zusätzliche Komponente im Lernsystem erforderlich wird, um solche Heuristiken zu formulieren. Bisher bestehen Transformationsregeln aus einem Input-Satz, einem Output-Satz und dem Bedingungsteil, der erfüllt sein muß, um korrekte Ergebnisse zu liefern. Heuristische Einschränkungen der Regeln sehen nun so aus, daß Bedingungen des Bedingungsteils der Regel entweder verschärft werden oder daß zusätzliche Einschränkungen aufgestellt werden. Im Gegensatz zu den bisherigen Bedingungen sind diese heuristischen Bedingungen nicht notwendig um zu einem korrekten Ergebnis zu gelangen, sondern schließen generell korrekte, aber unerwünschte Hypothesen aus. Regeln für Verweise auf globale Sätze Bei der Formulierung der Transformationsregeln wurde bei den Regeln für Verweise auf globale Sätze (r7, r8, r9) bereits eine heuristische Restriktion im Bedingungsteil der Regeln formuliert. Obwohl in Kap. 4.2.3 gezeigt wurde, daß mittels lokalen Verweisen prinzipiell auf Sätze mit beliebigen gequoteten und atomaren Werten referiert werden kann, hat sich dies als wenig sinnvoll erwiesen. Daher wurden die Regeln in ihrer Anwendbarkeit eingeschränkt, so daß lokale Pfade nur auf Sätze verweisen können, die auf der rechten Seite mindestens einen globalen Knoten haben (r7), lokale Knoten nur auf Sätze, die auf der rechten Seite mindestens einen globalen Pfad haben (r8) und lokale Knoten-Pfad-Paare nur auf Sätze, die minde-
118 stens einen globalen Knoten- oder Pfadverweis enthalten (r9). Durch diese heuristischen Beschränkungen wird die Erzeugung von Sätzen verhindert, die keine Generalisierungen erfassen, die nicht ohnehin schon in der gegebenen Theorie vorhanden sind. Um die Formulierung dieser heuristischen Einschränkungen zu verdeutlichen, ist in (4-85) zunächst die Regel r7 (a) ohne Heuristik und dann (b) mit der zusätzlichen Restriktion abgebildet (entspricht der in (4-31) abgebildeten Regel). Wie in dem Beispiel deutlich wird, entspricht die heuristische Restriktion in diesem Fall genau einer zusätzlichen Bedingung im Bedingungsteil. (4-85) (a)
HEURISTISCHE EINSCHRÄNKUNGEN FÜR DIE REGEL R7 REGEL R7 OHNE HEURISTISCHE EINSCHRÄNKUNGEN
rT: s:(n,p,v) -> s':(n,p,v') /
(b)
v e ( V , u V a )', v' e P, Sj:(n,v',v) € H„ Sj * s
REGEL R7 MIT HEURISTISCHEN EINSCHRÄNKUNGEN
r7: s:(n,p,v)
s':(n,p,v') /
v e (Vq u Va)*, 3x: x e v A x e Vqn, v' e P, s^n.v'.v) e H„ S; * s
Regeln für globale Verweise Die Regeln für globale Verweise (r4, r5, r6) wurden so formuliert (vgl. Kap. 4.2.2), daß grundsätzlich jeder Satz mit lokalem Pfad oder lokalem Knoten gequotet werden kann, sofern die Theorie keinen Satz enthält, der auf diesen zu transformierenden Satz verweist. Sätze mit lokalem Knoten-Pfad-Paar können sogar ohne jede Einschränkung gequotet werden. Dies ist jedoch nicht immer sinnvoll, und für einige Fälle kann a priori bestimmt werden, daß die Anwendung der Regel zu keiner vielversprechenden DATR-Theorie führt. Wie in Kap. 4.2 erläutert, können mit Hilfe globaler Verweise gewisse Generalisierungen über den beobachteten Daten erfaßt werden (vgl. Abb. (4-17)). Dies geschieht jedoch nicht allein durch die globalen Verweise, sondern in Kombination mit den Verweisen auf diese globalen Sätze. Um solche Verweise zu erzeugen (Regeln r7, r8, r9), sind mindestens zwei Sätze notwendig, die den gleichen globalen Verweis haben. D.h., wenn ein Verweis innerhalb einer Theorie überhaupt nur einmal gequotet werden kann, ist die Anwendung der entsprechenden Regel sinnlos, da dies zu keiner Generalisierung führen kann. Die Regeln für globale Verweise werden in ihrer Anwendbarkeit daher folgendermaßen eingeschränkt: Sie dürfen nur dann angewendet werden, wenn der betrachtete Satz nicht der einzige in der Theorie ist, der diesen zu quotenden Verweis enthält. Diese Bedingung ist erfüllt, wenn (1) es bereits einen anderen Satz mit diesem gequoteten Verweis gibt (innerhalb
119
einer Sequenz oder allein als rechte Seite) oder (2) es einen Satz mit diesem Verweis gibt und dieser auch gequotet werden kann (d.h. keine anderen Sätze der Theorie auf diesen Satz verweisen). In (4-86) ist die Regel r4 (Regel zur Bildung globaler Pfadverweise) um die entsprechenden heuristischen Einschränkungen erweitert. Die letzten vier Bedingungen, die disjunktiv erfüllt werden müssen, entsprechenen hier den heuristischen Restiktionen, wobei die ersten beiden den Fall (1) abdecken und die letzten beiden den Fall (2). Die letzten beiden Bedingungen sind nicht vollständig ausformuliert (angezeigt durch ...). Tatsächlich müssen hier alle Möglichkeiten ausgeschlossen werden, daß auf den Satz Sj referiert wird, analog zu den für Satz s formulierten Bedingungen (Bedingungen 3-8). (4-86)
REGEL R4 MIT HEURISTISCHEN EINSCHRÄNKUNGEN
r4': s:(n,p,v)
s':(n,p,v') /
3 3 3 3
v € P,
V = vq, ->3 s i :(n i ,p,n) : Sj € H„ ->3 Sj^n.pj.p) : Sj e H„ ->3 si:(ni,pi,(n,p)) : s, 6 H„ -•3 Sjiinj.p.Vj) : n e Vj, Sj e H„ -"3 Sj^n.Pi.Vj) : p e vj( S; e Hj, ->3 Si^nj.Pi.Vj) : (n,p) e vit s, e H„ SiKni.Pi.v') : S| € H, v Si^nj.Pi.Vj) : S; € H, A v' e Vi v s^nj.Pi.v) : Sj e H, A ->3 SjKnj.p,^) : s3 e H„ ->3 ... v SjTCiii.Pi.Vj) : ^ 6 H, A v e v, A -3 s ^ n ^ n , ) : Sj e H„ -i3 ...
Regeln zur Bildung abstrakter Sätze Die wichtigste Restriktion betrifft die Regeln zur Hierarchiebildung ( r l l und rl2). Die Formulierung der beiden entsprechenden Regeln in Kap. 4.2.4 ist so allgemein, daß für jeden Satz mit atomarem Wert (Regel r l l ) und für jeden Satz, dessen rechte Seite einen globalen Pfadverweis enthält (Regel rl2), ein abstrakter Satz gebildet werden kann. Diese sehr unrestringierte Formulierung hat verschiedene unerwünschte Effekte. Zum einen machen diese beiden Regeln den Suchraum unendlich, da die Regeln potentiell immer wieder auf neu gebildete abstrakte Sätze angewendet werden können, was zu immer neuen Folgehypothesen führt. Bei der Formulierung des Inferenzalgorithmus wurde bereits darauf hingewiesen, daß es nicht möglich ist, ein explizites Abbruchkriterium beispielsweise in Form eines ausgezeichneten Zielzustandes anzugeben. Aus diesem Grund ist eine notwendige Voraussetzung für die Termination des Inferenzalgorithmus, daß die Menge der möglichen Anwendungen der Transformationsregeln endlich ist. Desweiteren ergeben sich durch die Anwendung der Hierarchisierungsregeln viele abstrakte Sätze, auf die keine sinnvollen hierarchischen Verweise möglich sind. Dies ist beispielsweise der Fall, wenn ein Definitionsteil (d.h. ein Paar bestehend aus Pfad und rechter Seite) nur ein einziges Mal in der gesamten DATR-Theorie spezifiziert ist (d.h. nur in einem Satz vorkommt). Wird aufgrund eines solchen Satzes ein abstrakter Satz gebildet, kann höchstens
120 dieser eine Satz mittels Knotenverweis auf den abstrakten Satz verweisen, was wenig sinnvoll erscheint. Um von einer Hierarchiebildung sprechen zu können, sollten zumindest zwei Sätze auf einen abstrakten Satz verweisen können. Desweiteren eignen sich unterschiedliche abstrakte Sätze unterschiedlich gut zum Aufbau einer Hierarchie. Je nachdem welche Knoten gemeinsam auf Sätze verweisen können, ergeben sich andere Theorien, die die Domäne nicht alle gleich gut strukturieren. Das Ziel, eine möglichst gute Strukturierung der Objekte einer Domäne zu finden, hat viele Gemeinsamkeiten mit der Lernaufgabe des conceptual clustering (vgl. Michalski/Stepp 1983a, Stepp/Michalski 1986, Lebowitz 1987). Beim conceptual clustering besteht die Aufgabe in der Erstellung einer taxonomischen Beschreibung für eine gegebene Menge von Objekten, wobei die mit den Knoten in der Taxonomie assoziierten Teilklassen Konzepte repräsentieren. Zur Klassifikation der Objekte in Teilklassen spielt die Ähnlichkeit von Objekten eine zentrale Rolle. So schreibt Lebowitz über sein System UNIMEM (1986, S.224): "It creates a hierarchy of new concepts by noticing similar instances and assuming that the similarities represent regularities in the domain." Die Ähnlichkeit bezieht sich hierbei auf die Merkmale und Werte von Objekten, wobei die Bewertung der Ähnlichkeit unter Umständen je nach Wertetyp variiert. So kann z.B. bei nominalen Werten nur zwischen gleichen und ungleichen Werten, bei linearen Werten aber zwischen näher oder weiter auseinanderliegenden Werten unterschieden werden. Um beim Erwerb von DATR-Theorien die Generierung abstrakter Sätze sinnvoll einzuschränken, wird auch hier das Konzept der Ähnlichkeit von Objekten verwendet. Da in DATR nur nominale Werte zulässig sind, wird die Ähnlichkeit zweier Objekte über die Anzahl der gleichen Sätze (ohne den Knotennamen) ihrer Knotendefinitionen festgelegt. 31 Im folgenden Beispiel hat der Knoten N1 den Ähnlichkeitswert 1 zu N2 (und umgekehrt), da ein Satz der Knoten bezüglich Pfad und rechter Seite übereinstimmt (s, und s4). N1 und N3 haben den Ähnlichkeitswert 2 und N2 und N3 den Wert 0. Daher sind sich N1 und N3 in der in (4-87) abgebildeten Theorie am ähnlichsten. 32
Streng genommen müßte im folgenden immer von der Ähnlichkeit zweier Knotendefinitionen und nicht von der Ähnlichkeit zweier Objekte oder Klassen gesprochen werden, da in DATR Knoten zur Beschreibung von Objekten und Klassen dienen und letztere nicht selbst Bestandteil einer DATR-Theorie sind. Sofern dies nicht zu Mißverständnissen führen kann, wird im folgenden jedoch auf diese Unterscheidung der Ebenen verzichtet, indem die Begriffe Objekt und Klasse synonym mit den Knotendefinitionen für diese verwendet werden. ^ Auch wenn sich in der Theorie in (4-87) N1 und N3 gegenseitig am ähnlichsten sind, ist Ähnlichkeit keine symmetrische Relation. So tritt bei den in Kap. 5 besprochenen linguistischen Lernaufgaben des öfteren der Fall auf, daß eine Knotendefinition HN, als ähnlichstes Objekt eine Knotendefinition HN2 hat, daß HN, aber nicht zu den ähnlichsten Objekten von HN2 gehört.
121
(4-87)
ÄHNLICHKEIT VON DATR-KNOTEN
(S,) (S2) (s3)
Nl: Nl: Nl:
= v i . = v 2 . < x y z> = v 2
(S4) (s5)
N 2 : < a b> = v i . N2 : = v 3 .
(s6) (S7)
N3 : < c d> = v 2 . N3 : < x y z> = v 2
Die Regeln zur Hierarchiebildung werden nun folgendermaßen eingeschränkt. Ein abstrakter Satz darf — ausgehend von einem konkreten Satz Sj eines Knotens N, — nur dann gebildet werden, wenn der ähnlichste Knoten (oder einer der ähnlichsten Knoten) von Nj diesen Satz ebenfalls enthält. Wenn der ähnlichste Knoten den Satz nicht enthält oder es keinen ähnlichsten Knoten gibt (d.h. alle Ähnlichkeitswerte 0 sind), kann kein abstrakter Satz gebildet werden. In (4-88) ist die Regel rl 1 (lokale Hierarchisierungsregel) um die entsprechenden heuristischen Restriktionen erweitert (die letzten zwei Bedingungen): 33 (4-88)
REGEL R11 MIT HEURISTISCHEN EINSCHRÄNKUNGEN
rl 1': £ —> s,:(n,p,v) / v e Va*, n«N, s^ (n i; p,v) e H„ most_similar_object(n, n^), Sj. (n j; p,v) E Hj Die Endlichkeit des Suchraums wird dadurch gewährleistet, daß Ähnlichkeit immer nur für Objekte einer Ebene in der Hierarchie berechnet wird. 34 So werden abstrakte Knoten immer nur mit anderen abstrakten Knoten derselben Ebene verglichen, so daß beispielsweise keine neuen abstrakten Sätze aufgrund von Ähnlichkeit abstrakter Knoten mit anderen Knoten gebildet werden können. Damit nicht nur einzelne abstrakte Sätze erzeugt werden, sondern auch zusammenhängende abstrakte Objekte, die mehrere Sätze umfassen, muß verhindert werden, daß jeder neu gebildete Satz einen neuen Knotennamen erhält. Das bedeutet, daß die Bedingung n i N in den Regeln r l l und r l 2 entschärft werden muß. Wenn der Satz s^ aufgrund dessen ein abstrakter Satz gebildet wird, einem Objekt angehört, das bereits selbst einen abstrakten
Das Prädikat most_similar_object(n, nj) ist hier nicht weiter ausgeführt. Ausgehend von der Knotendefinition für den Knoten n liefert es den Knoten n, mit der ähnlichsten Knotendefinition. Zu diesem Zweck enthält jeder Satz die Information darüber, welcher Ebene er angehört. Wird ein abstrakter Satz gebildet, erhält dieser die Ebene des Satzes, aufgrund dessen er gebildet wurde, + 1. Das Prädikat most_similar_object(n, n,) berücksichtigt diese Ebeneninformation.
122 Knotenverweis enthält, oder dessen ähnlichstes Objekt bereits einen Knotenverweis enthält, wird der neue Satz mit diesem Knotennamen gebildet, wie im folgenden Beispiel: 35 (4-89)
H,:
BILDUNG ABSTRAKTER SÄTZE
N l : == AI N l : = v 2 . N2 : = v i . N2 : = v 2 . AI: = v i .
Mit der Regel rl 1 kann aufgrund der Existenz des Satzes s2 ein abstrakter Satz gebildet werden, da das ähnlichste Objekt (N2) diesen Satz auch enthält. Da N l bereits einen abstrakten Knotenverweis (AI) enthält, wird nun ein neuer abstrakter Satz mit diesem Knotennamen gebildet (s6): (4-90)
H2:
BILDUNG ABSTRAKTER SÄTZE
(s,) (S2)
N l : == AI N l : = v 2 .
(s3) (s4)
N2 : = v i . N2: = v 2 .
(s5) (s6)
AI: = v i . AI: = v 2 .
Bei dieser Art der Bildung von abstrakten Sätzen muß jedoch darauf geachtet werden, daß keine doppelten oder widersprüchlichen Sätze entstehen. So kann beispielsweise aufgrund des Satzes s 4 in (4-90) der Satz A I : < c d> = v 2 gebildet werden. Da die Theorie diesen Satz aber bereits enthält, ist die Anwendung der Regel in diesem Fall nicht sinnvoll. Daher werden die Regeln zur Bildung abstrakter Sätze dahingehend eingeschränkt, daß sie nur anwendbar sind, wenn die Theorie noch keinen abstrakten Satz mit dem gleichen Knoten-Pfad-Paar wie dasjenige des durch die Regel erzeugten Satzes enthält. Die Bedingungsteile der Regeln
Genaugenommen ist es erst diese zusätzliche Bedingung zusammen mit den Einschränkungen für Verweise auf abstrakte Sätze (s.u.), die die Endlichkeit des Suchraums sichert. Erst hierdurch wird gewährleistet, daß tatsächlich Objekte und nicht einzelne Sätze (die dann jeweils auch wieder Objekte wären) gebildet werden und daß ähnlichste Objekte auch gemeinsam auf übergeordnete Knoten verweisen. Dadurch muß die Zahl der Objekte auf jeder Ebene weiter abnehmen, so daß die Endlichkeit der Ebenen gesichert ist.
123 r l l und r l 2 enthalten entsprechende Restriktionen, die hier nicht mehr eigens aufgeführt werden. Regeln für Verweise auf abstrakte Sätze Auch die Regeln, die hierarchische Verweise bilden, werden unter Verwendung des Ähnlichkeitsmaßes weiter eingeschränkt. Dies betrifft sowohl Regeln für lokale Verweise als auch Regeln für Verweise auf globale Sätze. Die Regel für lokale Knoten verweise (r2) darf nicht mehr uneingeschränkt angewendet werden, wenn die Theorie einen Satz eines anderen Knotens enthält, der denselben Wert wie der betrachtete Satz hat. Vielmehr müssen folgende zusätzliche Bedingungen erfüllt sein. Der Satz, auf den verwiesen werden soll, muß in der Hierarchie höher als der betrachtete Satz liegen. So entstehen ausschließlich hierarchische Knotenverweise, d.h. Objekte niedrigerer Ebenen verweisen auf Objekte höherer Ebenen, aber nicht umgekehrt. Um zu vermeiden, daß nur einzelne Sätze von Objekten auf Knoten verweisen, wird zudem gefordert, daß (a) bereits andere Sätze desselben Objektes auf den gleichen Knoten verweisen, oder (b) das dem betrachteten Objekt ähnlichste Objekt Verweise auf diesen Knoten enthält, oder (c) das dem betrachteten Objekt ähnlichste Objekt auch auf diesen Knoten verweisen könnte. Bei lokalen Knoten-Pfad-Verweisen (Regel r3), die auch zur Bildung hierarchischer Verweise dienen, werden dieselben Beschränkungen formuliert. Ebenso werden die Regel für Knotenverweise auf globale Sätze (r8) und diejenige für Knoten-Pfad-Verweise auf globale Sätze (r9) entsprechend eingeschränkt. Diese Einschränkungen zur Bildung abstrakter Sätze und Verweise auf diese Sätze sind noch nicht ausreichend, um auch die gewünschte Hierarchiebildung zu erzielen. Zwar wird die Bildung abstrakter Sätze davon abhängig gemacht, daß mindestens zwei Objekte darauf verweisen können, doch ist nicht gewährleistet, daß diese Verweise auch tatsächlich generiert werden. Das Beispiel in (4-91) zeigt eine mögliche, aber unerwünschte Hierarchiebildung. Die gewünschte Hierarchiebildung enthält Knotenverweise der Sätze (s,) - (s4) auf den Knoten A I und Knotenverweise der Sätze (s5) - (s8) auf den Knoten A2. Die in Hj enthaltenen Knotenverweise sind ebenfalls möglich, aber nicht sinnvoll. (4-91)
UNERWÜNSCHTE HIERARCHIEBILDUNG
H,: (s,) (s2) (s3) (s4) (s5) (s6) (s7) (s8)
Nl: Nl: N2 : N2 : N3: N3 : N4: N4:
= = = = = = = =
vi. v2 . vi. v2 . vi. v3 . vi. v3 .
(s9) (s10) (s„) (s12)
AI: AI: A2: A2:
= = = =
vi. v2. vi. v3.
H(s,) (s2) (s3) (s4) (ss) (s6) (s7) (s8) (s9) (s10) (SJI)
(s12)
Nl: Nl: N2 : N2: N3: N3 : N4: N4:
== A 2 . = v2. == A2 . = v2. == A I . = v3. == A I . = v3 .
AI: AI: A2: A2:
= = = =
vi. v2. vi. v3.
124 U m die Bildung solcher Verweise zu vermeiden, werden die Regeln zur Hierarchiebildung direkt mit Regeln f ü r Knotenverweise gekoppelt. Wird beispielsweise der abstrakte Satz s 9 aufgrund des Satzes s, gebildet, wird gleichzeitig die Regel zur Bildung lokaler Knotenverweise auf s, angewendet, und zwar mit einer bereits instantiierten neuen rechten Seite (hier A I ) . Auf diese Weise kann die intendierte Klassenbildung erreicht werden. (4-92) enthält diesen Aufruf der Regel r2 als letzte Bedingung der Regel rl 1. (4-92) rll": e
KOPPLUNG DER REGELN R1 1 UND R2 s ^ n . p . v ) / v e Va\ Sp (nj.p.v) G H „ most_similar_object(n, n^, Sj.- (nj,p,v) e H[, Sj. (n i ; p,v)
4.4.2.2
Sj': (nj,p,n)
Einschränkungen des Default-Algorithmus
Neben den Transformationsregeln wird auch der Default-Algorithmus um heuristische Beschränkungen ergänzt. Bei der Entwicklung des Default-Algorithmus wurde die stillschweigende A n n a h m e gemacht, daß das Ergebnis des Algorithmus immer eindeutig ist, nämlich eine Theorie, die bezüglich Default-Information maximal reduziert ist. Diese A n n a h m e ist jedoch nicht zulässig. Zwar sind die möglichen Ergebnisse nicht so vielfältig wie bei der Anwendung der Transformationsregeln auf eine Theorie, aber unter Umständen eben nicht eindeutig. In welchen Situationen das Ergebnis nicht eindeutig ist, soll an dem folgenden, bereits bekannten Beispiel gezeigt werden. 3 6 (4-93)
NICHT EINDEUTIGE ERGEBNISSE DES DEFAULT-ALGORITHMUS
H,:
(s,) (s2) (s3) (s4) (s5)
36
Auto: = auto. Auto: == . Auto: == ( s) . Auto: == . Auto: == .
Die Annahme, daß eine Theorie maximal bezüglich Default-Information reduziert werden sollte, stellt natürlich ebenfalls bereits eine heuristische Einschränkung dar. Es würde sich eine Vielzahl weiterer Default-Theorien ergeben, wenn der Default-Algorithmus nur teilweise auf eine gegebene Theorie angewendet werden könnte. Diese Theorien werden jedoch nicht weiter berücksichtigt, da die Annahme gemacht wird, daß eine gute DATR-Theorie möglichst viele Generalisierungen in Form von Defaults erfassen sollte.
125 Da der Default-Algorithmus beim längsten Satz beginnen muß, kommen alle Sätze außer s, in Betracht. Die Nicht-Eindeutigkeit des Ergebnisses hängt damit zusammen, daß H, mehrere Sätze gleicher Länge enthält. Beginnt man die Reduzierung von H, bei s2, kann dieser Satz zu A u t o : < s i n g > == < r o o t > verkürzt werden. Danach können s4 und s5 gestrichen werden, während s 3 nicht weiter reduzierbar ist. Das führt zu der folgenden Zwischenhypothese: (4-94)
NICHT EINDEUTIGE ERGEBNISSE DES DEFAULT-ALGORITHMUS
H2a:
(s,) Auto: = auto. (s2) Auto: == . (s3) Auto: == ( s) .
Zu dem gleichen Ergebnis gelangt man, wenn man mit der Reduzierung bei s4 oder s 5 beginnt. Betrachtet man dagegen zuerst den Satz s3, ergibt sich ein völlig anderes Ergebnis. Der Satz kann zu A u t o : < s i n g > == ( < r o o t > s ) verkürzt werden. Danach können s2, s4 und s5 nicht weiter reduziert werden, da dies zu Konflikten mit s 2 führt. Das Ergebnis ist somit die folgende Zwischenhypothese: (4-95)
NICHT EINDEUTIGE ERGEBNISSE DES DEFAULT-ALGORITHMUS
H2b:
(s,) (s2) (s3) (s4) (s5)
Auto: = auto. Auto: == . Auto: == ( s) . Auto: == . Auto: == .
Vergleicht man die beiden Zwischenhypothesen H2a und H2b, ist die in H2a repräsentierte Theorie klar zu bevorzugen, da sie wesentlich stärker über den Daten generalisiert und damit weniger Redundanz enthält als H2b. So erfaßt H2a die Verallgemeinerung, daß der Default für die Singularformen von Auto gleich der Wurzel ist. Relativ dazu bildet die Form für Genitiv Singular eine Ausnahme. Im Gegensatz dazu drückt H2b aus, daß die Default-Form für Singular gleich der Wurzel + s ist und daß alle anderen Singularformen relativ dazu Ausnahmen bilden. Abgesehen davon, daß dies aus linguistischer Sicht inakzeptabel ist, ist ein solches Ergebnis auch unabhängig von einer konkreten Domäne nicht wünschenswert, da die Häufigkeitsverhältnisse der Eigenschaften und ihrer Werte dagegen sprechen. Es sollte nicht eine Eigenschaft als Default spezifiziert werden, deren Wert nur ein einziges Mal vorkommt, während alle anderen Eigenschaften und deren Werte als Ausnahmen dazu betrachtet werden. Um die Erzeugung solch unerwünschter Default-Theorien zu vermeiden, könnte man so vorgehen, daß alle möglichen Theorien generiert werden, so daß die besten ausgewählt werden können. Da jedoch nur in einigen Fällen überhaupt unterschiedliche Theorien je nach Wahl des zuerst bearbeiteten Satzes resultieren, würde dies zu vielen gleichen Theorien führen, die dann alle miteinander verglichen werden müßten. Im obigen Beispiel resultiert das
126
gleiche Ergebnis, wenn man die Reduzierung bei Satz s2, s 4 oder s5 beginnt. Statt alle Lösungen zu generieren, wird daher eine Heuristik dafür formuliert, welcher der möglichen Sätze als nächster bearbeitet werden soll, so daß das Verfahren deterministisch und das Ergebnis eindeutig wird. Für die Formulierung einer entsprechenden Heuristik muß zunächst geklärt werden, welches die Fälle sind, in denen die Auswahl unterschiedlicher Sätze zu verschiedenen Theorien führt. Betroffen sind lediglich Sätze gleicher Länge, da in diesem Fall einer der Sätze als erster ausgewählt werden muß. Hierbei entstehen jedoch nur dann unterschiedliche Ergebnisse, wenn mehrere Sätze gleicher Länge unterschiedliche rechte Seiten haben. Solange Sätze gleicher Länge dieselben rechten Seiten haben, resultiert das gleiche Ergebnis, unabhängig davon, bei welchem Satz die Reduzierung beginnt. Haben zwei (oder mehrere) Sätze jedoch unterschiedliche rechte Seiten, hängt die Reduzierung der übrigen Sätze entscheidend davon ab, bei welchem Satz begonnen wird, wie das Beispiel in (4-93) - (4-95) gezeigt hat. Da das Beispiel ebenfalls deutlich gemacht hat, daß die Häufigkeiten der vorkommenden rechten Seiten für die Auswahl eine Rolle spielen sollten, werden Sätze gleicher Länge im Hinblick auf dieses Kriterium sortiert. Die Vorgehensweise ist wie folgt. Zunächst wird das gemeinsame Präfix Pjj von zwei zu vergleichenden, gleich langen Sätzen S| und Sj isoliert. Der Satz Sj wird dann vor dem Satz Sj bearbeitet, wenn die Theorie H, mehr Sätze (des gleichen Knotens) enthält, die mit dem Präfix Py beginnen und die gleiche rechte Seite wie s, aufweisen, als Sätze, die mit p1( beginnen und die gleiche rechte Seite wie Sj haben. Diese Heuristik findet ihren Eingang in das Lernsystem durch eine entsprechende Erweiterung des Default-Algorithmus. Während in dem in (4-68) formulieren Algorithmus einfach der jeweils längste Satz eines Knotens bearbeitet wird (Zeile 4.) (im Fall von mehreren gleich langen Sätzen würde eine arbiträre Auswahl erfolgen), erfolgt nun die in (4-96) dargestellte differenziertere Auswahl bei mehreren gleich langen Sätzen. 37 (4-96)
HEURISTIK IM DEFAULT-ALGORITHMUS
3.
W H I L E HNJ ^ { }
4a. 4b.
5.
bestimme die Menge SL der längsten Sätze aus HN, wähle den Satz SJ:(n,p,v) aus SL, so daß für alle Pfad-Präfixe p^ von p die meisten der in HN, enthaltenen Sätze mit dem Präfix py v als rechte Seite aufweisen IF Default-Streichungsregel anwendbar THEN entferne s, aus HNI
Das folgende Beispiel zeigt, warum das gemeinsame Pfad-Präfix von zwei Sätzen berücksichtigt werden muß und nicht einfach die Anzahl der Sätze mit der rechten Seite von Sj bzw. Sj berechnet werden kann:
37
Stehen auch nach Anwendung des zweiten Sortierkriteriums noch mehrere Sätze zur Auswahl, erfolgt in diesem Fall eine willkürliche Wahl, die in dem ersten Satz besteht.
(4-97) H,: (s,) (S2) (S3) (S4) (SS) (S«) (ST) (S8) (s,)
Auto Auto Auto Auto Auto Auto Auto Auto Auto
= auto == . == ( s) == . == . == ( s) . == ; s) . == ; s) . == ; s) .
Es sollen die Sätze s2 und s3 im Hinblick auf das soeben entwickelte Sortierkriterium verglichen werden. Das gemeinsame Präfix der beiden Sätze ist < s i n g > . H, enthält drei Sätze, die mit dem Präfix < s i n g > beginnen und den Pfadverweis < r o o t > haben und einen Satz, der mit < s i n g > beginnt und die rechte Seite ( < r o o t > s ) hat. Daher sollte s2 vor s3 bearbeitet werden. Wird dagegen lediglich die Anzahl gleicher rechter Seiten berücksichtigt, wird hier s3 bevorzugt, da H, fünf Sätze mit der Sequenz ( < r o o t > s ) enthält, aber nur drei Sätze mit dem Pfadverweis < r o o t > . Eine Sortierung der Sätze gleicher Länge im Hinblick auf das erforderliche Kriterium führt zu folgender neuen Ausgangshypothese: (4-98) H,':
(s,) (s 2 ) (S3) (s 4 ) (s 5 ) (Si) (S7) (Sg) (s 9 )
Auto Auto Auto Auto Auto Auto Auto Auto Auto
= auto == ( s) == ( s) == ( s) == ( s) == . == . == . == ( s
Diese Sortierung spiegelt die Tatsache wider, daß zwar die meisten Sätze der Länge zwei den Wert ( < r o o t > s) haben (nämlich alle, die mit < p l u > beginnen und < s i n g gen>), daß aber die meisten Sätze, die mit < s i n g > beginnen den Wert < r o o t > haben. Wird die Theorie nun reduziert, ergibt sich als Zwischenergebnis die folgende Theorie: (4-99) H: (S|) (s2) (s3) (s4)
Auto: = auto. A u t o : < p l u > == ( < r o o t > s) . A u t o : < s i n g > == < r o o t > . A u t o : < s i n g gen> == ( < r o o t > s ) .
128 Der Satz s4 kann nicht weiter verkürzt werden und wird Bestandteil der Ergebnishypothese. Eine Sortierung der Sätze der Länge eins ergibt keine neue Sortierung, so daß einer der drei Sätze noch verkürzt werden kann. Die Auswahl ist hierbei willkürlich, weshalb der erste Satz genommen wird, was zur folgenden Ergebnishypothese führt: (4-100) HE:
(s,) (s2) (s3) (s4)
A u t o : == Auto: Auto: Auto: s ) . == < r o o t > . gen> == ( < r o o t > s ) .
Dadurch, daß der Default-Algorithmus Theorien maximal bezüglich Default-Information reduziert, beinhaltet die Default-Theorie in (4-100) drei Sätze (s2, s3, s4), die einen Verweis auf einen Pfad enthalten, der in dieser Theorie nicht mehr als Bestandteil einer linken Seite vorhanden ist. Dies mag unschön erscheinen, ändert jedoch nichts an der Beobachtungskonsistenz der Theorie. Auch wenn die Idee naheliegt, nun auch die rechten Seiten von (4-100) entsprechend zu verkürzen, ist eine solche Vorgehensweise nicht zulässig. Das folgende Beispiel illustriert einen Fall, in dem eine solche Maßnahme zu einer beobachtungsinkonsistenten Default-Theorie führt: (4-101) H,:
(S|) (s2) (s3) (s4)
N: == . N : < a b> == . N: = v 2 . N: = v 3 .
Durch Anwendung des Default-Algorithmus kann aus (4-101) folgende Default-Theorie gewonnen werden: (4-102) HE:
(s,) (s2) (s3)
N: == . N: == v 3 . N: == v 2 .
Der Satz s, verweist wiederum auf einen Pfad, der nicht mehr Bestandteil einer linken Seite von H e ist. Würde s, aus diesem Grund nun zu s,': N: == verkürzt, wäre die Theorie nicht mehr konsistent mit der Ausgangstheorie in (4-101). Während die Beobachtungsanfrage N: an die so veränderte Theorie den Wert v3 liefert, evaluiert die Anfrage an die Ausgangstheorie zu v2.
129 Eine andere Möglichkeit, den Mangel zu beheben, bestünde darin, keine Sätze zu reduzieren, auf die mittels Pfadverweis oder Knotenverweis referiert wird. Dies steht aber im Widerspruch zur Default-Repräsentation und -Verarbeitung in DATR. Die Erfassung von Defaults besteht j a gerade darin, daß auch Sätze evaluiert werden können, deren Pfade nicht expliziter Bestandteil der Theorie sind.
4.4.3 Bewertung von DATR-Theorien Die in 4.4.2 vorgestellten Heuristiken sind fest mit den Transformationsregeln bzw. dem Default-Algorithmus verbunden. Sie repräsentieren damit Beschränkungen, die für jede zu erlernende DATR-Theorie gelten und sind in diesem Sinne domänenunabhängig. Zwar schränken die vorgeschlagenen Heuristiken den Suchraum ein, doch existiert immer noch eine Vielzahl an zulässigen DATR-Theorien für eine beobachtete Datenmenge. Daher spielt die Bewertungsfunktion zur Auswahl vielversprechender DATR-Theorien eine zentrale Rolle bei der Suche. Wie in 4.4.2 erläutert, werden für diese Identifikation von vielversprechenden monotonen DATR-Theorien Suchkriterien herangezogen. Zusätzlich werden für die Auswahl der Ergebnishypothese Auswahlkriterien benötigt. Im Gegensatz zu den im vorangegangenen Kapitel formulierten heuristischen Einschränkungen sind Such- und Auswahlkriterien nicht domänenunabhängig. Das bedeutet, daß verschiedene Lernaufgaben unterschiedliche Kriterien erfordern können, wie in Kapitel 5 noch deutlich werden wird. Obwohl es sich bei den beiden Arten von Kriterien um verschiedene Komponenten des Inferenzprozesses mit unterschiedlicher Funktion handelt (vgl. die Darstellung des Lernalgorithmus in (4-84)), sind sie von der Art doch sehr ähnlich und werden daher im folgenden gemeinsam behandelt. Die beiden Bewertungsfunktionen dienen jeweils der Ermittlung eines Wertes, der die Güte einer gegebenen Theorie bestimmt. Dazu wird für die Zwecke der vorliegenden Arbeit die Güte als Kombination verschiedener Gütekriterien aufgefaßt, die nach Priorität geordnet sind. In welchem Maße eine gegebene DATR-Theorie jeweils eines dieser Kriterien erfüllt, wird über Indikatoren ermittelt, die sich aus einfachen Berechnungen über den vorliegenden Theorien ergeben. Da DATR zur Beschreibung unterschiedlichster Domänen eingesetzt wird, kann davon ausgegangen werden, daß bei neuen Domänen zum einen eine andere Gewichtung der Kriterien und zum anderen die Formulierung neuer Kriterien erforderlich sein wird. Daß bei Lernsystemen, die auf unterschiedlichsten Daten operieren können, Bewertungsfunktionen erforderlich sind, die Hintergrundwissen über die jeweilige Domäne berücksichtigen, wurde bereits von anderen Wissenschaftlern angenommen. So schreibt Michalski beispielsweise: "First, we disagree with many authors who seem to be searching for one universal criterion which should guide induction." (1980, S.356) In diesem Zusammenhang ist es von besonderem Interesse, zu untersuchen, welches die für linguistische Lernaufgaben verwendbaren Gütekriterien sind. Wenn Sprache als Domäne für sie typische Strukturen aufweist, die sie von anderen Domänen unterscheidet, könnte sich diese Strukturierung in den verwendeten Such- und Auswahlkriterien wiederfinden. In diesem Fall besteht die Möglichkeit, daß sich eine Menge von Kriterien identifizieren läßt, die typischerweise für linguistische Fragestellungen geeignet ist, so daß nicht für jede neue linguisti-
130 sehe Lernaufgabe neue Kriterien entwickelt werden müßten. Andererseits gilt es zu untersuchen, inwieweit die Strukturierungen sich auch für verschiedene linguistische Domänen voneinander unterscheiden, d.h. ob linguistische Teilbereiche unterschiedlich strukturiert sind. Im folgenden werden die in dieser Arbeit verwendeten Gütekriterien zusammen mit den für sie herangezogenen Indikatoren vorgestellt. Die Problematik der Auswahl und Ordnung von Kriterien wird am Beispiel der linguistischen Lernaufgaben (Kap. 5) diskutiert.
4.4.3.1
Einfachheit einer DATR-Theorie
Eine Anzahl von entscheidenden Kriterien für die Güte vieler DATR-Theorien (sowie auch für die Güte von Repräsentationen in anderen Formalismen) betrifft die Einfachheit einer DATR-Theorie. 38 Hier sind in der Regel solche Theorien zu bevorzugen, die die Domäne in einer einfachen und damit für den Menschen nachvollziehbaren Weise strukturieren. Da Einfachheit auf unterschiedliche Art und Weise zum Ausdruck kommen kann, wurden unterschiedliche Kriterien entwickelt, die Aspekte der Einfachheit einer DATR-Theorie betreffen. Größe einer DATR-Theorie Als Indikator für die Größe einer DATR-Theorie kommen in erster Linie die Anzahl der Sätze einer Theorie in Betracht, aber auch die Anzahl der Objekte. Die beiden Maße werden im folgenden Satzanzahl bzw. Objektanzahl genannt. Obwohl kleinere Theorien zwar auch einfachere Theorien sind, können bei diesem Kriterium jedoch kaum grundsätzlich kleinere DATR-Theorien bevorzugt werden. Da sich beim Aufbau von Hierarchien die Theorien durch die Erzeugung abstrakter Sätze vergrößern (zumindest die Objektanzahl), würden die (flachen) Ausgangshypothesen einer hierarchisch strukturierten Theorie bevorzugt, was nicht sinnvoll erscheint. Daher wird sich das Kriterium der Größe selten als das Kriterium mit der höchsten Priorität eignen, es sei denn, es soll keine hierarchische Strukturierung gewonnen werden. In den übrigen Fällen wird das Kriterium eventuell mit niedrigerer Priorität Verwendung finden. Das bedeutet, wenn mehrere Theorien bezüglich der Kriterien mit höherer Priorität gleich gut sind, kann es angebracht sein, hiervon die kleineren Theorien zu bevorzugen. In (4-103) sind beispielsweise zwei Theorien abgebildet, die sich in ihrer Satzanzahl unterscheiden. Die kleinere Theorie H Eb ist in diesem Fall zu bevorzugen, da sie mehr Generalisierungen als H Ea erfaßt. H Ea enthält im Gegensatz zu H Eb den redundanten Satz A u t o : < s i n g d a t > == a u t o , wodurch die Form für Dativ Singular relativ zu den übrigen Singularformen unnötigerweise als Ausnahme spezifiziert wird. (4-104) zeigt zwei Theorien, die sich aufgrund ihrer Objektanzahl (und auch ihrer Satzanzahl) voneinander unterscheiden. Im Gegensatz zur Theorie H Eb erfaßt H Ea nicht die Verallgemeinerung, daß die beiden Objekte A I und A2 gleich strukturiert sind und daher durch einen Knotenverweis auf
•ÎO
Wie in Kap. 2.2.1 angesprochen, spielt Einfachheit auch bei der Inferenz von Grammatiken eine zentrale Rolle, wobei Einfachheit einer Grammatik z.B. über die Anzahl der nicht-terminalen Symbole, Anzahl der Regeln etc. berechnet wird (vgl. Biermann/Feldman 1972a, Angluin/Smith 1983).
131
denselben Knoten in eine Klasse gruppiert werden können. Daher ist hier die Theorie mit weniger Objekten besser zu bewerten. (4-103)
DATR-THEORIEN MIT UNTERSCHIEDLICHER SATZANZAHL
HEa: Auto:
HEb: < s i n g > == < r o o t > Auto: < s i n g g e n > == ( < r o o t > s ) < s i n g d a t > == a u t o < p l u > == ( < r o o t > s ) < r o o t > == a u t o .
(4-104)
< s i n g > == < r o o t > < s i n g g e n > == ( < r o o t > < p l u > == ( < r o o t > s ) < r o o t > == a u t o .
s)
DATR-THEORIEN MIT UNTERSCHIEDLICHER OBJEKTANZAHL
HEa: Nl:
== A I .
HFb: Nl:
== A I .
N2:
== A2.
N2:
== A I .
AI:
== v i == v 2 .
AI:
== v i == v 2 .
A2:
== v i == v 2 .
Diese Kriterien der Größe einer DATR-Theorie können im übrigen lediglich als Auswahlkriterium, nicht jedoch als Suchkriterium verwendet werden. Während sich Theorien durch Anwendung des Default-Algorithmus verkleinern können, ist dies bei monotonen Theorien nicht möglich. Hier können lediglich neue Sätze durch die Anwendung der Regeln zur Hierarchiebildung hinzukommen, aber nie Sätze gelöscht werden. Daher scheint es nicht sinnvoll, monotone Theorien einer Ebene bezüglich Größe miteinander zu vergleichen. Neben der Satzanzahl und Objektanzahl kann auch die Anzahl der Ebenen (Ebenenanzahl) als Indikator für die Größe einer DATR-Theorie betrachtet werden. Flache Theorien sind bezogen auf dieses Maß kleiner als tiefe Theorien. Obwohl für die Ergebnishypothese in Form einer Default-Theorie eher eine tiefere, und damit stärker strukturierte Theorie wünschenswert ist, ist dieses Maß ein wichtiges Suchkriterium, bei dem umgekehrt gerade Theorien mit einer kleineren Ebenenanzahl zu bevorzugen sind. Das folgende Beispiel illustriert den Grund dafür.
132 (4-105)
Ha: Nl:
= vi = vi == AI. = vi = vi = v2. = v3 = v3 == A2. = v3 = v3 = v2.
AI:
== A3. A2 :
= v2. A3:
Hb: Nl:
= vi = vi = = AI = vi = vi == AI = v3 = v3 == A2 = v3 = v3 = v2.
== v2
== v2
= v2.
Die beiden abgebildeten Zwischenhypothesen unterscheiden sich lediglich dadurch, daß während in Ha der neue abstrakte Satz A3 :
= v2 der Ebene drei gebildet wurde, auf den der abstrakte Knoten AI verweist, in H b ein Knotenverweis des Knotens N2 auf den abstrakten Knoten AI der Ebene zwei gebildet wurde. Durch die Generierung des abstrakten Satzes einer höheren Ebene und eines entsprechenden Verweises auf diesen Satz, ist es in der Theorie Ha nicht mehr möglich, daß der Knoten N2 wie sein ähnlichster Knoten N1 auf den abstrakten Knoten AI verweist. Das liegt daran, daß der abstrakte Knoten AI keinen Satz mit gleicher rechter Seite wie N2 :
= v2 mehr enthält. Dadurch wird verhindert, daß die beiden Objekte AI und A2, die sich gegenseitig am ähnlichsten sind, durch gemeinsame Knotenverweise als zu einer Klasse gehörend repräsentiert werden. Da die Theorie H b diese wichtige Generalisierung erfaßt, ist sie zu bevorzugen. Indem Theorien mit weniger Ebenen besser bewertet werden als solche mit mehr Ebenen, wird gesichert, daß zuerst die möglichen Verweise auf einer Ebene der Hierarchie gebildet werden, bevor weitere Ebenen hinzukommen. Somit ist das Kriterium der Ebenenanzahl entscheidend für eine Klassenbildung. Größe der Objekte einer DATR-Theorie Neben der absoluten Größe von DATR-Theorien, die über die Maße Objektanzahl, Satzanzahl und Ebenenanzahl bestimmt wird, können auch andere Maße, die mit der Größe zusammenhängen, berechnet werden. So kann es beispielsweise sinnvoll sein, die Größe der Objekte einer Theorie zu betrachten, die sich über die jeweilige Anzahl von Sätzen, die die Objekte enthalten, bestimmt. Das Maß der durchschnittlichen Größe von Objekten einer Theorie, das Satzdichte genannt wird, berechnet sich als Quotient von Satzanzahl und Objektanzahl der Theorie. Je weniger Sätze ein Objekt enthält, desto stärker ist die Generalisierung über den Eigenschaften dieses Objektes. Da in der Regel starke Generalisierungen und damit eine Verminderung der Redundanz erwünschte Eigenschaften von linguistischen Repräsentationen
133 sind, werden hier Theorien mit einer geringen Satzdichte zu bevorzugen sein. Im Gegensatz zu den Maßen Satzanzahl und Objektanzahl können hierbei jedoch größere Theorien unter Umständen besser bewertet werden, als kleinere. So hat die Theorie HEb in (4-106) zwar eine größere Satzanzahl als die Theorie HEa, aber eine kleinere Satzdichte. (4-106)
DATR-THEORIEN MIT UNTERSCHIEDLICHER SATZDICHTE
H Ea : Auto :
==
== ( k l u b s ) == ( k l u b s ) .
HEh: Auto: Klub: AI:
== AI < r o o t > == a u t o . == A l < r o o t > == k l u b . == " < r o o t > " < p l u > == ( " < r o o t > " < s i n g g e n > == ( " < r o o t > "
s).
Auch das Maß der Satzdichte kann nicht sinnvollerweise auf monotone DATR-Theorien angewendet werden. Die ursprünglichen Objekte der Ausgangstheorie können sich in ihrer Größe überhaupt nicht verändern, stattdessen können lediglich neue Objekte hinzukommen, die dann ihrerseits allenfalls größer werden. Die Anzahl der Sätze eines Objektes kann sich erst durch die Anwendung des Default-Algorithmus verkleinern, weshalb dieses Kriterium nur als Auswahlkriterium in Frage kommt. Einfachheit der rechten Seiten Neben den Kriterien der Größe von DATR-Theorien spielt auch die Komplexität der rechten Seiten der DATR-Sätze eine Rolle bei der Beurteilung der Einfachheit einer Theorie. Als Indikator für die Komplexität wird hier Länge verwendet, wobei zwischen Länge von Vererbungsverweisen und Länge der rechten Seiten unterschieden werden kann. Das Maß für die Komplexität von rechten Seiten wird RHS-Länge genannt und berechnet sich folgendermaßen: atomare Werte und Knoten als rechte Seiten erhalten den Wert eins. Bei Sequenzen wird die Anzahl der Elemente der Sequenz ermittelt. Die Länge von Pfadverweisen berechnet sich über die Anzahl der Attribute und die Länge eines Knoten-Pfad-Paares über die Anzahl der Attribute des Pfades +1 (für den Knoten). Im Unterschied dazu werden bei dem Maß der Verweislänge nur rechte Seiten mit Vererbungsverweisen berücksichtigt. Dementsprechend haben atomare Werte und Sequenzen mit ausschließlich atomaren Werten die Verweislänge 0. Pfadverweise, Knotenverweise und Knoten-Pfad-Paare berechnen sich wie bei der RHSLänge. Für die Verweislänge von Sequenzen wird jedoch nicht die Anzahl der Elemente ermittelt, sondern die durchschnittliche Verweislänge der Elemente der Sequenz. So beträgt die RHS-Länge der Theorie in (4-107) beispielsweise fünf, da die Sequenz drei Elemente enthält und die beiden übrigen Sätze einen atomaren Wert haben, der jeweils die Länge eins hat. Die Verweislänge der Theorie beträgt dagegen eins. Die Sequenz enthält einen Pfadverweis der Länge zwei und einen Knotenverweis der Länge eins. Der Quotient aus diesen Maßen und der Anzahl der Elemente der Sequenz beträgt eins. Da die übrigen Sätze atomare Werte haben, beträgt deren Verweislänge null, was zu einem Gesamtwert von eins führt.
134 ( 4 - 1 0 7 ) R H S - L Ä N G E UND VERWEISLÄNGE
Nl: N2 :
< a b > == ( N2 v i ) < c d> = v 3 . = v 2 .
Neben der Berechnung der gesamten RHS-Länge und der Gesamtlänge der Verweise einer Theorie können auch hier diese Absolutwerte relativiert an der Satzanzahl (bzw. der Anzahl der Deskriptoren und atomaren Werte) als durchschnittliche Werte ermittelt werden. Die entsprechenden Maße werden als mittlere RHS-Länge und mittlere Verweislänge bezeichnet. Für die Theorie in (4-107) beträgt die mittlere RHS-Länge beispielsweise 1,67 und die mittlere Verweislänge 0,6. Die vorgestellten Maße können sowohl auf monotone wie auf DefaultTheorien angewendet werden. Als Suchkriterien können sie beispielsweise dazu beitragen, DATR-Theorien zu erzeugen, die vom Default-Algorithmus stärker reduziert werden können als andere. Da Pfade und Knoten-Pfad-Paare auf der rechten Seite nur in seltenen Fällen verkürzt werden können, resultieren häufig kompaktere Theorien, wenn eher Sätze mit längeren Pfaden auf solche mit kürzeren verweisen als umgekehrt. Das Beispiel in (4-108) illustriert das an zwei DATR-Theorien mit unterschiedlich langen Pfadverweisen und den aus ihnen inferierten Default-Theorien. ( 4 - 1 0 8 ) DATR-THEORIEN MIT UNTERSCHIEDLICHER R H S - L Ä N G E
Ha: Nl:
< x y> == < a b c d e> < p q r > == < a b c d e > < a b c d e> = v i .
H EA :
Nl:
4.4.3.2
< a > == v i == < a b c ( l e > .
Hb: Nl:
HEb: Nl:
< a b c d e > == < x y >
== < x y > = v i . == v i == .
Homogenität einer DATR-Theorie
Eine DATR-Theorie erfaßt in der Regel dann mehr Verallgemeinerungen, wenn ihre Strukturierung homogen ist, wobei Homogenität das Aussehen der rechten Seiten betrifft. Einer der Indikatoren für die Homogenität ist hierbei die Anzahl der unterschiedlichen Verweise einer Theorie, wobei eine Theorie einfacher ist, wenn sie weniger unterschiedliche Verweise enthält. Als Variante der Anzahl unterschiedlicher Vererbungsverweise kann auch die Anzahl der unterschiedlichen rechten Seiten berechnet werden. Auch bei diesen Maßen, Verweisanzahl und RHS-Anzahl genannt, spiegelt eine kleine Anzahl an unterschiedlichen rechten Seiten eine größere Generalisierung über den Daten wider, weshalb in der Regel Theorien mit einer kleinen Verweisanzahl zu bevorzugen sind. Die beiden Maße können sowohl auf monotone wie auf Default-Theorien angewendet werden, spielen jedoch insbesondere als Suchkriterien eine entscheidende Rolle. So können monotone Theorien, die wenig unterschiedliche
135 rechte Seiten haben, vom Default-Algorithmus in höherem Maß reduziert werden, was schließlich zu einer stärkeren Generalisierung über den Daten führt, wie das folgende Beispiel illustriert. (4-109)
DATR-THEORIEN MIT UNTERSCHIEDLICHER VERWEISANZAHL
Ha: Auto: = auto == == == ==
Hb: Auto:
( s)
.
Auto: == auto Auto: == == ( s) == .
= auto == == == ==
( s)
.
== auto == == ( s).
Die Theorie Ha enthält zwei verschiedene Vererbungsverweise und vier unterschiedliche rechte Seiten. Dagegen ist sowohl die Verweisanzahl als auch die RHS-Anzahl der Theorie Hb kleiner (1 bzw. 3). Dieser Unterschied schlägt sich unmittelbar in den für diese Theorien inferierten Default-Theorien nieder. Die Theorie H b kann durch den Default-Algorithmus stärker reduziert werden als die Theorie Ha. Das Ergebnis ist eine kleinere Default-Theorie (HEb), die mehr Generalisierungen erfaßt als die Theorie HEa und daher zu bevorzugen ist. Neben der Tatsache, daß über monotonen Theorien mit kleiner Verweisanzahl und RHSAnzahl durch den Default-Algorithmus stärker generalisiert werden kann, sind diese Maße auch entscheidend für die Klassenbildung, da sie direkt die Möglichkeit der Generierung abstrakter Sätze und die Verweise darauf beeinflussen, wie das Beispiel (4-110) zeigt. ( 4 - 1 1 0 ) DATR-THEORIEN MIT UNTERSCHIEDLICHER VERWEISANZAHL
Ha: Hb: Auto: = auto Auto: == == ( s) == == . Klub: == Klub: = klub == ( s) == == .
= auto == == == == klub
== == == ==
( s)
.
( s)
.
Zwar kann der Default-Algorithmus die beiden Theorien H a und H b gleich stark reduzieren, doch können auf die Theorie H a keine Transformationsregeln zur Hierarchiebildung angewendet werden, da die beiden Objekte der Theorie den Ähnlichkeitswert 0 haben. Durch die im
136 vorangegangenen Kapitel formulierte Heuristik wird in diesem Fall die Bildung abstrakter Sätze nicht zugelassen, da später nur eines der beiden Objekte auf diese Sätze verweisen kann, was zu keiner Klassenbildung führt. Um abstrakte Sätze bilden zu können, müssen Objekte über gleiche Sätze verfügen. Die Maße der Verweisanzahl und RHS-Anzahl tragen dazu bei, daß gleiche Sätze gebildet werden, sofern dies, wie in dem Beispiel (4-110), möglich ist. Ein ähnlicher, etwas allgemeinerer Indikator für die Homogenität der rechten Seiten kann über die Anzahl unterschiedlicher Verweisarten (d.h. lokale Verweise, globale Verweise, Verweise auf globale Sätze) bestimmt werden. Das entsprechende Maß wird Verweisartenanzahl genannt. Wie bei der Satzanzahl können auch die durchschnittliche Verweisanzahl, RHS-Anzahl und Verweisartenanzahl pro Objekt berechnet werden. Diese Maße betreffen die Homogenität der Objekte einer Theorie und werden Verweisdichte, RHS-Dichte und Verweisartendichte genannt. Die Verweisdichte berechnet sich als Quotient der Summe der unterschiedlichen Verweise der einzelnen Objekte und der Objektanzahl, die RHS-Dichte als Quotient der Summe der unterschiedlichen rechten Seiten der Objekte und der Objektanzahl und die Verweisartendichte berechnet sich analog als Quotient der Summe der unterschiedlichen Verweisarten der einzelnen Objekte und der Objektanzahl.
4.4.3.3
Präferenz bestimmter Strukturierungen einer DATR-Theorie
Während mit Hilfe der Kriterien der Homogenität von Verweisen DATR-Theorien mit einer einheitlichen Verweisstruktur bevorzugt werden können, spielt es dabei keine Rolle, um welche konkreten Verweise es sich handelt. In Abhängigkeit einer gegebenen Domäne kann jedoch ein Kriterium für eine gute DATR-Theorie darin bestehen, bestimmte Zusammenhänge zwischen den Sätzen der Theorie besonders stark zu betonen. Repräsentation von Vererbungsbeziehungen Zunächst einmal kann ein wichtiges Kriterium in der allgemeinen Repräsentation von Vererbungsbeziehungen in einer DATR-Theorie bestehen. Als Indikator wird hier die Anzahl von Sätzen, deren rechte Seiten ausschließlich aus atomaren Werten bestehen herangezogen. Das entsprechende Maß wird Atomanzahl genannt. Ist der Wert für dieses Maß klein, enthält die Theorie viele Verweise und repräsentiert somit viele Beziehungen zwischen den Eigenschaften von Objekten. Da die Repräsentation solcher Vererbungsbeziehungen normalerweise eine wünschenswerte Eigenschaft einer Ergebnishypothese ist, werden hier Theorien mit einem kleinen Wert für die Atomanzahl zu bevorzugen sein. So ist die Theorie HEa in (4-111) zwar kleiner als HEb, enthält aber keine Vererbungsverweise und repräsentiert somit keine Zusammenhänge zwischen den Eigenschaften des Objektes. Aus diesem Grund ist die Theorie HEb, deren Atomanzahl 1 beträgt, zu bevorzugen.
137 (4-111)
H Ea :
DATR-THEORIEN MIT UNTERSCHIEDLICHER ATOMANZAHL
HEb:
Auto : == auto Auto : == (auto s) == (auto s).
== auto == == ( s) == ( s).
Neben der absoluten Anzahl an Sätzen mit ausschließlich atomaren Werten kann es auch sinnvoll sein, diese Anzahl in Relation zur Satzanzahl zu berechnen (relative Atomanzahl). Hierdurch wird das Verhältnis von Sätzen mit atomaren Werten zu Sätzen mit Verweisen ermittelt. So beträgt die relative Atomanzahl für die Theorie HEa 1, die für HEb dagegen 0,25. Repräsentation von Interobjektbeziehungen Für viele Domänen kann es erstrebenswert sein, möglichst viele Beziehungen zwischen Objekten der Theorie zu repräsentieren. Da in DATR hauptsächlich Knotenverweise (z.T. auch Knoten-Pfad-Verweise) verwendet werden, um Beziehungen zwischen Objekten zu repräsentieren, dient als Indikator für dieses Kriterium die Anzahl an Knotenverweisen der DATRTheorie und das entsprechende Maß heißt Knotenverweisanzahl. Dieses Maß ist zu maximieren, wenn eine DATR-Theorie gewünscht wird, die viele Beziehungen zwischen den Objekten der Theorie erfaßt. Dieses Maß ist besonders wichtig beim Aufbau einer Hierarchie, da hierarchische Beziehungen über Knotenverweise repräsentiert werden. Soll daher eine stark hierarchisch strukturierte DATR-Theorie inferiert werden, sollte dieses Maß zur Bestimmung der Güte herangezogen werden. Wie bei der Repräsentation von allgemeinen Vererbungsbeziehungen kann auch hier sowohl die absolute Anzahl an Sätzen mit Knotenverweisen, als auch die relative Anzahl gemessen an der Satzanzahl (relative Knotenverweisanzahl) bestimmt werden. So unterscheiden sich die beiden Theorien in (4-112) zwar nicht aufgrund ihrer Atomanzahl (für beide 2), aber in ihrer Knotenverweisanzahl. So hat HEa eine Knotenverweisanzahl von 0 (sowohl absolut als auch relativ), was bedeutet, daß diese Theorie keinerlei Beziehungen zwischen den Objekten erfaßt. Im Gegensatz dazu hat HEb eine absolute Knotenverweisanzahl von 2 und eine relative Knotenverweisanzahl von 0,28. Durch die Knotenverweise in dieser Hierarchie werden Gemeinsamkeiten zwischen den Objekten erfaßt und von diesen abstrahiert, was zu einer hierarchischen Struktur führt. (4-112)
HEa:
DATR-THEORIEN MIT UNTERSCHIEDLICHER KNOTENVERWEISANZAHL
HEb:
Auto : Auto : == auto == == ( s) Klub: == ( s). Klub: == klub == ( s) AI: == ( s) == ( s).
== AI == auto. == AI == klub. == "" == ("" s) == ("" s).
138 Obwohl auch Knoten-Pfad-Verweise zur Hierarchiebildung beitragen können, sind sie in einigen Situationen während der Suche nicht wünschenswert, da sie die Bildung von Generalisierungen verhindern können. Dies wird im Zusammenhang mit den linguistischen Beispielen in Kap. 5 näher erläutert. Als Maß wird hier die Knoten-Pfad-Verweisanzahl bzw. die relative Knoten-Pfad-Verweisanzahl benötigt. Repräsentation von Intraobjektbeziehungen Analog zur Repräsentation von Beziehungen zwischen den Objekten einer Theorie kann es wünschenswert sein, möglichst viele Beziehungen zwischen den Eigenschaften der einzelnen Objekte zu repräsentieren. Der Indikator für die Repräsentation von Beziehungen innerhalb von Objekten ist die Anzahl an Pfadverweisen der Theorie. Sind Theorien mit vielen Intraobjektbeziehungen zu bevorzugen, muß die Pfadverweisanzahl (oder relative Pfadverweisanzahl) maximiert werden. Dies kann z.B. sinnvoll sein, wenn keine taxonomische Strukturierung der Domäne gewonnen werden soll. Repräsentation von lokalen vs. globalen Beziehungen Vererbungsdeskriptoren in DATR unterscheiden sich nicht nur dadurch, ob sie auf einen Knoten, einen Pfad oder ein Knoten-Pfad-Paar verweisen, sondern auch dadurch, ob der Verweis lokal oder global ist. Wie gezeigt wurde, generalisiert ein globaler Verweis nur dann stärker als seine lokale Entsprechung, wenn andere Sätze auf den globalen Satz verweisen. Ist dies nicht der Fall, sollte dem lokalen Verweis der Vorzug gegeben werden. Bei Ergebnishypothesen, die sich ansonsten nicht unterscheiden, kann dieses Kriterium sinnvoll eingesetzt werden, um die einfachere der beiden Theorien auszuwählen, wie in dem Beispiel in (4-113). Die beiden Theorien unterscheiden sich nicht aufgrund eines der bisher vorgestellten Maße, sondern lediglich dadurch, daß die Knotenverweise in HEb im Gegensatz zu denen in HEa gequotet sind. Die Theorie HEb erfaßt jedoch keine Generalisierungen, die HEa nicht auch repräsentiert. Daher sollte HEa besser bewertet werden. Als Indikator für die Repräsentation globaler Beziehungen dient die Anzahl der Sätze mit globalem Verweis auf der rechten Seite (Globalverweisanzahl bzw. relative Globalverweisanzahl). (4-113)
DATR-THEORIEN MIT UNTERSCHIEDLICHER GLOBALVERWEISANZAHL
Ea"
N l : < > == N2. N 3 : < > == N2. N2 : == v i .
Eb*
N l : < > == " N 2 " . N 3 : < > == " N 2 " . N 2 : < > == v i .
Die folgende Tabelle faßt die bisher vorgestellten Bewertungskriterien noch einmal zusammen. 39 Es sei an dieser Stelle nochmals darauf hingewiesen, daß diese Aufstellung keinen
Im implementierten System sind die vorgestellten Such- und Auswahlkriterien in Form entsprechender Prolog-Prädikate formuliert. Die Auswahl konkreter Kriterien bei einer Lernaufgabe wird über eine Initialisierungsdatei gesteuert, in der die Parameter für die Lernaufgabe gesetzt werden.
139 Vollständigkeitsanspruch erhebt und daß neue Domänen unter Umständen auch die Formulierung neuer Kriterien erfordern. (4-114)
BEWERTUNGSKRITERIEN UND IHRE INDIKATOREN
Kriterium
Indikator
Maß
Größe einer Theorie
1. Anzahl von Sätzen 2. Anzahl von Objekten 3. Anzahl von Ebenen
Satzanzahl Objektanzahl Ebenenanzahl
Größe der Objekte einer Theorie
durchschnittliche Anzahl von Sätzen pro Objekt
Satzdichte
Komplexität der rechten Seiten einer Theorie
1. Summe der Länge der rechten Seiten 2. Summe der Länge der Verweise 3. durchschnittliche Länge der rechten Seiten 4. durchschnittliche Länge der Verweise
RHS-Länge
Homogenität der rechten Seiten einer Theorie
Homogenität der rechten Seiten der Objekte einer Theorie
Verweislänge mittlere RHS-Länge mittlere Verweislänge
1. Anzahl der unterschiedlichen Verweise 2. Anzahl der unterschiedlichen rechten Seiten 3. Anzahl der unterschiedlichen Verweis arten
Verweisanzahl
1. durchschnittliche Anzahl der unterschiedlichen Verweise pro Objekt 2. durchschnittliche Anzahl der unterschiedlichen rechten Seiten pro Objekt 2. durchschnittliche Anzahl der unterschiedlichen Verweisarten pro Objekt
Verweisdichte
RHS-Anzahl Verweisartenanzahl
RHS-Dichte
Verweisartendichte
140 Maß
Kriterium
Indikator
Repräsentation von Vererbungsbeziehungen
1. Anzahl der Sätze mit ausschließlich atomaren Werten 2. relative Anzahl der Sätze mit ausschließlich atomaren Werten
Atomanzahl
1. Anzahl der Sätze mit Knotenverweisen 2. Anzahl der Sätze mit Knoten-Pfad-Verweisen 3. relative Anzahl der Sätze mit Knotenverweisen 4. relative Anzahl der Sätze mit Knoten-Pfad-Verweisen
Knotenverweisanzahl
Repräsentation von Interobjektbeziehungen
Repräsentation von Intraobjektbeziehungen
Repräsentation von globalen Beziehungen
relative Atomanzahl
Knoten-Pfad-Verweisanzahl relative Knotenverweisanzahl relative Knoten-Pfad-Verweisanzahl
1. Anzahl der Sätze mit Pfadverweisen 2. relative Anzahl der Sätze mit Pfadverweisen
Pfadverweisanzahl
1. Anzahl der Sätze mit globalem Verweis 2. relative Anzahl der Sätze mit globalem Verweis
Globalverweisanzahl
relative Pfadverweisanzahl
relative Globalverweisanzahl
Obwohl die vorgestellten Kriterien prinzipiell als unabhängig voneinander erachtet werden können, besteht zwischen einigen dieser Kriterien dennoch ein Zusammenhang. Dies gilt beispielsweise für die beiden Maße Satzdichte und Verweisdichte. Wenn ein Objekt einer DATR-Theorie viele unterschiedliche Verweise enthält, kann dieses Objekt mittels des Default-Algorithmus nicht stark reduziert werden, d.h. es enthält viele Sätze. Andere Maße sind dagegen völlig unabhängig voneinander. So spielt für die Verweislänge die Satzdichte beispielsweise keine Rolle.
4.5
Einschränkungen der erlernbaren DATR-Theorien
In den vorangegangenen Kapiteln wurden Verfahren entwickelt, mit denen DATR-Theorien inferiert werden können, die wesentliche Bestandteile der Beschreibungssprache beinhalten. Hierzu gehört z.B. die Repräsentation von Abhängigkeiten zwischen Eigenschaften und Objekten einer Domäne. Diese Abhängigkeiten werden durch die unterschiedlichen Vererbungsverweise repräsentiert, welche mit Hilfe der Transformationsregeln gewonnen werden. Hier-
141 bei können sowohl lokale als auch globale Verweise gebildet werden und die Verweise können in Knoten, Pfaden, Knoten-Pfad-Paaren oder beliebigen Sequenzen daraus bestehen. Darüberhinaus können mit Hilfe der Transformationsregeln durch die Einführung abstrakter Sätze hierarchisch strukturierte Repräsentationen gewonnen werden. Neben der Repräsentation von Abhängigkeiten zwischen Objekten und innerhalb von Objekten ist der zweite wesentliche Bestandteil von DATR die Berücksichtigung von Default-Information. Die Anwendung des Default-Algorithmus ermöglicht den Erwerb von Theorien, die die Repräsentation von Default-Information beinhalten. Damit sind die Hauptbestandteile von DATR abgedeckt. Bei der Entwicklung der Komponenten zum Erwerb von DATR-Theorien wurden jedoch einige Einschränkungen gemacht, so daß die resultierenden DATR-Theorien aus einer Teilmenge aller möglichen DATR-Theorien stammen. Diese Einschränkungen betreffen zum einen die verwendbaren syntaktischen Bestandteile der Sprache DATR, zum anderen die Vererbungsmöglichkeiten und Strukturierungen der DATR-Theorien. Die Einschränkungen sind zum Teil durch die Formulierung von Transformationsregeln und Default-Algorithmus und teilweise durch die Heuristiken bedingt. Einschränkung der erlernbaren Sprachkonstrukte Bei der Formulierung der Transformationsregeln wurde auf die Berücksichtigung aller Sprachkonstrukte verzichtet, die nicht zum Kern der Repräsentationssprache gehören (vgl. Jenkins 1990). Dies betrifft beispielsweise die DATR-Variablen, die — wie in Kapitel 3.3 erläutert — lediglich eine Abkürzungskonvention darstellen und daher als "syntactic sugar" betrachtet werden können. Gleiches gilt für die Möglichkeit von Deklarationen. Für Knotennamen wird beispielsweise vorausgesetzt, daß sie den Standardkonventionen entsprechen (d.h. mit einem Großbuchstaben beginnen), wobei auch die Knotennamen der neu gebildeten abstrakten Sätze diese Konventionen beachten. Compilerdeklarationen wie s h o w und h i d e (vgl. Evans/Gazdar 1990) können gegebenenfalls nachträglich manuell in eine DATR-Theorie eingefügt werden, da sie sich nicht auf die Theorie selber auswirken, sondern lediglich auf die Evaluierung von Anfragen. 40 Neben diesen nicht zentralen Bestandteilen von DATR wurde ein weiteres Sprachkonstrukt für den Erwerb von DATR-Theorien ausgenommen: die evaluierbaren Pfade, d.h. Pfade, die selber wieder Vererbungsverweise enthalten (vgl. Evans/Gazdar 1990). Ihr Ausschluß hat jedoch andere Gründe, als die der Variablen und Deklarationen. Bei der Formulierung von DATR-Theorien werden evaluierbare Pfade dazu verwendet, Abhängigkeiten von Eigenschaften eines Objektes auszudrücken. Während die anderen Verweise dazu dienen, Beziehungen zwischen Eigenschaften mit gleichen Werten (bzw. Vererbungsverweisen) zu erfassen, können mit evaluierbaren Pfaden Fallunterscheidungen getroffen werden. Das heißt, es
Eine automatische Generierung dieser Deklarationen ist ebenfalls denkbar. Da die inferierte DATR-Theorie im Hinblick auf die Beobachtungsanfragen konsistent und vollständig sein muß, könnten mit h i d e die neu gebildeten, abstrakten Knoten ausgeschlossen und mit s h o w die Pfade der Beobachtungsanfragen erfaßt werden. Dies generiert dann genau die Beobachtungsanfragen.
142 kann repräsentiert werden, daß sich der Wert einer bestimmten Eigenschaft in Abhängigkeit einer anderen Eigenschaft bestimmt. Das folgende Beispiel aus der Tierwelt berücksichtigt die Abhängigkeit der Fortbewegungsart von der Art der Gliedmaßen eines Tieres: (4-115) EVALUIERBARE PFADE Tier:
== < "" > == laufen == fliegen == schwimmen.
Hund:
== Tier == beine == fleisch.
Spatz: — Tier == flügel == würmer. Hai:
== Tier == schwimmen == fische.
Für den Erwerb von DATR-Theorien ist die Inferenz solcher Abhängigkeiten aus den folgenden Gründen problematisch. Anders als bei Beziehungen, die aufgrund gleicher Werte (oder Vererbungsverweise) zwischen DATR-Sätzen bestehen, ist die oben beschriebene Abhängigkeit von Werten in der Regel nicht aus den beobachteten Daten ersichtlich. Dem obigen Beispiel könnten etwa die folgenden extensionalen Sätze zugrundeliegen: (4-116) Hund: = laufen. Hund: = beine. Hund: = fleisch. Spatz: = fliegen. Spatz: = flügel. Spatz: = würmer. Hai: = schwimmen. Hai: = flössen. Hai: = fische. Eine wesentliche Grundlage für die Formulierung der Transformationsregeln war das Vorhandensein von Sätzen mit gleichen Werten (oder Vererbungsdeskriptoren). Dies ist in (4-116) nicht gegeben. Daher wäre es mit der vorgestellten Art der Transformationsregeln nicht möglich, die Sätze so zu transformieren, daß die Abhängigkeiten zwischen ihnen erfaßt würden.
143 Auch lassen die Daten keine anderen Rückschlüsse auf ihre Abhängigkeit zu, da sich die Repräsentation von Eigenschaften, die einander bedingen, nicht von der Repräsentation von Eigenschaften unterscheidet, die völlig unabhängig voneinander sind. Wie sollte aufgrund der Daten in (4-116) beispielsweise geschlossen werden, daß die Fortbewegungsart von der Art der Gliedmaßen abhängt und nicht etwa von der Eigenschaft n a h r u n g ? Um solche Abhängigkeiten zu erfassen, wären grundsätzlich andere Mechanismen als die bisher entwickelten notwendig. Der Ausschluß bestimmter Sprachkonstrukte beim Erwerb von DATR-Theorien muß jedoch nicht unbedingt als nachteilig angesehen werden, sondern kann durchaus auch nützlich sein. So wurde DATR zwar im Hinblick auf linguistische Bedürfnisse entwickelt, doch handelt es sich um keine linguistische Theorie, sondern um einen werkzeugorientierten Formalismus (vgl. Shieber 1986a). Daher bestehen Bestrebungen, DATR auf die Mittel einzuschränken, die für die Beschreibung natürlicher Sprache benötigt werden. Ein Lernansatz könnte Rückschlüsse darüber liefern, welches diese Beschreibungsmittel sind. Hierbei ist zu untersuchen, wie die inferierten DATR-Theorien aussehen, die beispielsweise auf die Verwendung evaluierbarer Pfade verzichten. Liefern auch diese Theorien sinnvolle Strukturierungen der Domänen, die linguistische Beziehungen erfassen, oder fehlen diesen Theorien wichtige Generalisierungen? Die Beantwortung dieser Fragen kann dazu beitragen, Einsichten in die Notwendigkeit bestimmter DATR-Mittel für die Beschreibung natürlicher Sprache zu gewinnen und kann so für die weitere Entwicklung des Formalismus von Nutzen sein. Einschränkungen im Zusammenhang mit den Lerndaten Wie bei allen anderen Lern verfahren, hängen die Lernergebnisse beim Erwerb von DATRTheorien immer auch von der Güte des Lerninputs ab. Neben der Annahme, daß die Lerndaten fehlerfrei sind, ist eine Voraussetzung für das Lernverfahren, daß der Lerninput alle entscheidenden Daten einer Domäne enthält. Wenn beispielsweise Ausnahmeformen im Input nicht vertreten sind, können diese auch nicht Bestandteil der resultierenden Theorie sein, d.h. die Theorie wird übergeneralisieren. Wenn der Lerninput z.B. aus den Daten in (4-117) besteht, kann daraus die Theorie in (4-118) inferiert werden, welche im Hinblick auf die beobachteten Daten konsistent und vollständig ist, aber den Phänomenbereich der Flexion des Substantivs Auto nicht korrekt beschreibt. Das Fehlen eines extensionalen Satzes für die Form Genitiv Singular, die eine Ausnahme im Vergleich zu den übrigen Singularformen darstellt, wirkt sich hier direkt auf das Ergebnis aus. Im Gegensatz dazu spielt es beispielsweise keine Rolle, daß die Form für Genitiv Plural im Lerninput nicht repräsentiert ist.
144 (4-117) H0: Auto: = auto. A u t o : < s i n g nom> = a u t o . Auto: = auto. Auto: = auto. A u t o : < p l u nom> = ( a u t o s ) . Auto: = (auto s ) . Auto: = (auto s ) . (4-118) HE: A u t o : < > == a u t o . A u t o : < s i n g > == < r o o t > . A u t o : < p l u > == ( < r o o t > s ) . Obwohl ein Lernverfahren, das die Daten im Batch-Modus verarbeitet, prinzipiell unabhängig von der Reihenfolge der Daten ist, kann das Ergebnis bei der hier vorgeschlagenen Strategie unter Umständen mit der Reihenfolge der Lerndaten variieren. Dies liegt an der Verwendung einer heuristischen Suchstrategie zur Einschränkung des Suchraums. Wie in Kap. 4.4.1 beschrieben, werden bei jedem Inferenzschritt nur die n vielversprechendsten Zwischenhypothesen weiter verarbeitet. Bei nicht mehr als n gleich guten Hypothesen spielt die Reihenfolge der Daten keine Rolle. Gibt es jedoch mehr als n gleich gute Hypothesen, erfolgt eine arbiträre Auswahl, die aus den ersten n Hypothesen besteht. Als Konsequenz kann es sich hierbei je nach Reihenfolge der Lerndaten um unterschiedliche Hypothesen handeln, die dann weiter verarbeitet werden. Da die Ergebnishypothese aus den Default-Theorien der besten Zwischenhypothesen ermittelt wird, können so bei zwei Lernaufgaben mit verschiedener Reihenfolge der Daten unterschiedliche Ergebnishypothesen resultieren. Das zentrale Ziel der vorliegenden Arbeit besteht in der Konzeption von Verfahren, die den automatischen Erwerb von DATR-Theorien ermöglichen. Die entwickelten Verfahren wurden zu Testzwecken als Lernsystem implementiert. Die vorliegende Prolog-Implementation hat daher einen primär explorativen Charakter, was u.a. die Vernachlässigung algorithmischer Effizienz zugunsten struktureller Klarheit beinhaltet. So wird zwar der Suchraum auf konzeptueller Ebene durch eine heuristische Inferenzstrategie stark eingeschränkt, auf Optimierungen des Laufzeitverhaltens des Systems wurde jedoch verzichtet. Das derzeitige System ist daher nicht auf die Bearbeitung großer Datenmengen zugeschnitten, wie das bei einigen der in Kap. 2.2.5 vorgestellten Clustering-Verfahren der Fall ist. Die Größe der Datenmenge ist jedoch eine von der Komplexität der Lernaufgabe und den inferierbaren Strukturierungen unabhängige Größe der Lernaufgabe. Die in Kap. 5 beschriebenen, mit dem System durchgeführten Aufgaben stammen aus durchaus realistischen linguistischen Domänen mit entsprechender Komplexität.
145 Einschränkungen der Strukturierung der Domäne Die Formulierung der Transformationsregeln hat neben den Einschränkungen der Sprachkonstrukte auch Auswirkungen auf die Struktur der resultierenden DATR-Theorien zur Folge. Eine dieser Beschränkungen betrifft den Vererbungsfluß. Bei der Formulierung der Regeln für globale Verweise (vgl. Kap. 4.2.2) war die Aufstellung der Bedingung erforderlich, daß Deskriptoren eines Satzes nur dann gequotet werden dürfen, wenn auf diesen Satz nicht verwiesen wird. Wie gezeigt wurde, wäre ohne diese Bedingung eine konsistenzerhaltende Transformation von Sätzen nicht gewährleistet. Eine Konsequenz dieser Bedingung besteht nun darin, daß keine Theorien gebildet werden können, in denen die globale Umgebung bei der Evaluierung einer Anfrage mehrfach gewechselt wird. Erfolgt die Evaluierung einer Anfrage über mehrere Stufen, wird auf die erreichten Sätze jeweils verwiesen, so daß die Deskriptoren dieser Sätze nicht mehr gequotet werden können. Hier ist wiederum zu untersuchen, ob eine solche Einschränkung die Expressivität der DATR-Theorien beeinträchtigt. In linguistischen DATR-Theorien werden globale Verweise hauptsächlich dazu verwendet, um von einem generelleren Knoten in der Hierarchie Werte für Eigenschaften von konkreten Lexemen, zu ermitteln, d.h. es wird auf den Kontext der Anfrage verwiesen. Da der Erwerb solcher globalen Verweise gewährleistet ist, ist anzunehmen, daß die Einschränkung der globalen Vererbung keine gravierenden Auswirkungen haben wird. Nicht nur die Transformationsregeln, sondern auch die vorgeschlagenen Heuristiken bestimmen die Struktur einer inferierten DATR-Theorie. Dies betrifft insbesondere die Heuristiken für die Bildung abstrakter Sätze und die Verweise auf solche Sätze. Eine entscheidende Einschränkung der konstruktiven Transformationsregeln besteht darin, daß nur dann ein abstrakter Satz aufgrund eines gegebenen Satzes gebildet werden darf, wenn das ähnlichste Objekt des Objektes, dem der Satz angehört, diesen Satz auch enthält. Im Hinblick auf die Anforderung stark hierarchisch strukturierter Theorien wurden die Regeln für Knotenverweise und Knoten-Pfad-Verweise darüberhinaus so eingeschränkt, daß sie nur Verweise auf Sätze höherer Ebenen generieren. Diese Einschränkungen bedeuten für die Strukturierung einer DATR-Theorie, daß keine Verweise auf Knoten der gleichen Ebene oder niedrigerer Ebenen möglich sind. Außerdem begünstigt die Tatsache, daß die Bildung abstrakter Sätze an die Regel für die Bildung eines Knotenverweises auf diese Sätze gekoppelt ist, die Bildung von Hierarchien, die nur Verweise auf die jeweils nächst höhere Ebene enthalten. Sollte sich die Einschränkung von Verweisen auf ausschließlich höhere Ebenen als zu restriktiv erweisen, kann diese Heuristik gegebenenfalls wieder zurückgenommen werden. Dies gilt jedoch nicht für die übrigen Restriktionen in diesem Zusammenhang, da diese die Endlichkeit des Suchraums sichern und daher unentbehrlich sind. Neben den Transformationsregeln ist die Form der resultierenden DATR-Theorien auch durch den Default-Algorithmus bestimmt. Wie bereits bei der Entwicklung des Default-Algorithmus (Kap. 4.3) und der Diskussion der Heuristiken (Kap. 4.4.2) angesprochen wurde, ist das Ergebnis der Anwendung des Default-Algorithmus stets eine Theorie, die bezüglich Default-Information maximal reduziert ist. Das bedeutet, daß keine Theorien gewonnen werden können, die lediglich einen Teil der möglichen Default-Information repräsentieren. Da
146 größere Reduzierungen im allgemeinen auch mehr Generalisierungen ausdrücken, indem Redundanzen minimiert werden, ist die maximale Reduzierung von Theorien jedoch im Einklang mit linguistischer Theoriebildung und daher grundsätzlich als Desideratum anzusehen.
5 Linguistische Lernaufgaben
Im folgenden wird das in den vorangegangenen Kapiteln entwickelte Lernverfahren auf linguistische Lernaufgaben angewendet. Um zu zeigen, daß der Ansatz nicht auf eine eingeschränkte linguistische Domäne zugeschnitten ist, werden zwei Gruppen von Lernaufgaben aus unterschiedlichen linguistischen Bereichen bearbeitet und deren Ergebnisse diskutiert. Die erste Gruppe besteht aus dem Erwerb von Beschreibungen von Flexionsklassen deutscher Substantive. Während diese Lernaufgaben das Gebiet der Morphologie betreffen, der im Rahmen von DATR bisher die meiste Aufmerksamkeit zukam, wird in den Lernaufgaben der zweiten Gruppe syntaktisches Wissen erworben. Hier werden für deutsche Verben aufgrund ihrer syntaktischen Eigenschaften (v.a. Subkategorisierungseigenschaften) entsprechende Klassen gebildet. In beiden Gruppen werden Lernaufgaben von zunehmender Komplexität behandelt. Die Lernaufgaben der beiden Gruppen sollen weniger dazu dienen, erschöpfende Beschreibungen der jeweiligen Phänomenbereiche zu generieren, als vielmehr dazu, die Möglichkeiten des entwickelten Lernansatzes und die Art der inferierten DATR-Theorien zu illustrieren. Von besonderem Interesse ist hierbei, ob die automatisch inferierten DATR-Theorien Besonderheiten und Unterschiede etwa im Vergleich zu manuell formulierten Theorien aufweisen. Da für den Bereich der deutschen Substantivflexion eine solche, nicht maschinell erstellte DATR-Theorie existiert, kann diese mit der entsprechenden inferierten Theorie verglichen werden.
5.1
Deutsche Substantivflexion
5.1.1 Charakterisierung der Domäne Die folgende Darstellung gibt einen theorieneutralen Überblick über die Flexionsmuster deutscher Substantive. Die Quellen für diese Beschreibung sind Wurzel (1970) und Eisenberg (1986). Die deutschen Substantive werden nach Kasus, Numerus und Genus flektiert. Aufgrund ihres Flexionsverhaltens werden grundsätzlich zwei Hauptgruppen von Flexionsklassen unterschieden: die schwachen und die starken Substantive. Die schwachen Substantive zeichnen sich dadurch aus, daß sie alle Pluralformen auf -(e)n bilden. Beispiele für solche schwach flektierten Substantive sind Herr oder Affe. Nicht-feminine schwache Substantive bilden darüberhinaus auch alle Singularformen, ausgenommen die Nominativform, auf -fejn.1 Die Form für Nominativ Singular ist stets endungslos, was im übrigen generell für alle Flexionsklassen des Deutschen gilt. Feminine schwache Substantive
Die einzige Ausnahme bildet hierbei das Substantiv Herz, dessen Form für Akkusativ Singular Herz und nicht Herzen lautet.
148 (z.B. Tante, Frau) unterscheiden sich von den maskulinen, indem sie alle Singularformen endungslos bilden. Auch die Singularformen der femininen starken Substantive (z.B. Mutter, Wurst) sind endungslos und unterscheiden sich von den femininen schwachen Substantiven nur in der Bildung ihrer Pluralformen. Die Singularformen der starken maskulinen Substantive (z.B. Arm, Vater) sind alle endungslos bis auf die Genitivform, die auf -(e)s gebildet wird. (Die Form für Dativ Singular kann in manchen Fällen fakultativ auf -e gebildet werden, z.B. dem Kinde.) Die Pluralformen der starken Substantive lauten innerhalb einer Flexionsklasse alle gleich, bis auf den Dativ Plural. Diese Form enthält zusätzlich zu dem Pluralflexiv der übrigen Kasus ein -«. Dies gilt sowohl für die femininen als auch für die nicht-femininen Substantive. 2 Innerhalb der Klasse der starken Substantive können die folgenden Unterklassen aufgrund ihrer Pluralflexive unterschieden werden: Substantive, die ihre Pluralformen auf -er bilden (z.B. Mann), Substantive mit e-Plural (z.B. Hund, Bach) und Substantive mit endungslosen Pluralformen (z.B. Vater, Sommer). Zusätzlich zu den Flexionsendungen weisen einige der starken Substantive Umlautung auf. Dies gilt für alle Substantive mit er-Plural. Von den übrigen beiden Klassen bildet jeweils ein Teil die Pluralformen mit Umlaut. Innerhalb der Klasse mit e-Plural bilden beispielsweise Hand und Bach ihre Pluralformen mit Umlaut, Hund und Tor jedoch nicht. Von den Substantiven mit endungslosem Plural weisen beispielsweise Vater und Mutter Umlaut auf, während Sommer und Karpfen ihre Pluralformen nicht umlauten. Obwohl die Endungslosigkeit von Substantiven phonologisch bedingt ist (Substantive, die auf eine Schwa-Silbe wie -er, -el, -en enden, sind endungslos) und diese Substantive daher als Unterklasse der Substantive mit e-Plural angesehen werden können, werden sie hier in dieser rein deskriptiven Darstellung als eigenständige Klassen aufgefaßt. Diese Darstellung gibt lediglich einen Überblick über den behandelten linguistischen Bereich und hat keinerlei Auswirkungen auf die durchgeführten Lernaufgaben. Neben den schwachen und starken Substantiven gibt es noch einige Ausnahme- und Mischformen. Während beispielsweise nicht-feminine schwache Substantive ihre Singularformen normalerweise auf -(e)n bilden (abgesehen vom Nominativ), gilt dies nicht für alle Formen von unbelebten Substantiven (z.B. Name, Friede). Die Form für Genitiv Singular endet für diese Substantive auf -(e)ns. Die anderen Formen werden wie bei den belebten Substantiven gebildet. Innerhalb der starken Substantive gibt es eine Klasse, die ihre Pluralformen auf -s bildet (z.B. Klub, Auto). Diese Klasse unterscheidet sich von den übrigen starken Substantiven, indem alle Pluralformen gleich sind, d.h. Dativ Plural kein -n erhält. Die Pluralformen dieser Klasse werden nie umgelautet. Weiterhin gibt es eine Reihe von nicht-femininen Substantiven, die sich wie feminine schwache Substantive verhalten. Das heißt, sie bilden ihre Pluralformen auf -(e)n, während
Hierbei ist zu beachten, daß Substantive, die auf -n enden (z.B. Mädchen, Karpfen), kein weiteres -n im Dativ Plural erhalten.
149 ihre Singularformen stark sind. Hierzu gehören z.B. die Substantive Staat und Hemd. Diese Klasse wird im folgenden als gemischt flektiert bezeichnet. Schließlich gibt es neben den Lehnwörtern, die deutschen Flexionsmustern folgen, Fremdwörter, die keiner deutschen Flexionsklasse zugeordnet werden können (z.B. Index, Modus). In den folgenden beiden Tabellen sind die (deutschen) Flexionsklassen mit Beispielen noch einmal zusammengefaßt ( 0 bedeutet endungslos). Fremdwörter werden im folgenden nicht weiter berücksichtigt. (5-1)
SCHWACH FLEKTIERTE SUBSTANTIVE
Pluralformen
Singularformen
nicht feminine
feminine
1 (belebt)
-(e)n
nominativ: 0 sonst: -(e)n
Affe, Herr
—
2 (unbelebt)
-(e)n
nominativ: 0 genitiv: -(e)ns sonst: -(e)n
Name, Friede
—
3 (gemischt)
-(e)n
feminin: alle 0 nicht feminin: genitiv: -(e)s sonst: 0
Staat, Hemd
Frau, Farbe
150 (5-2)
STARK FLEKTIERTE SUBSTANTIVE
Pluralformen 4 (er-Plural, im- dativ: -(e)m mer mit Umlaut) sonst: -(e)r
Singularformen
nicht feminine
feminine
genitiv: -(e)s
Mann, Buch
—
Hund, Tor
—
Bach, Floß
Hand, Kuh
Sommer, Ufer
—
Vater, Kloster
Mutter, Tochter
Klub, Auto
Disco, Mutti
sonst: 0
5 (e-Plural,
dativ: -en
genitiv: -(e)s
ohne Umlaut)
sonst: -e
sonst: 0
6 (e-Plural,
dativ: -en
feminin: alle 0
mit Umlaut)
sonst: -e
nicht feminin: genitiv: -(e)s sonst: 0
7 (endungslos,
dativ: -n
genitiv: -(e)s
ohne Umlaut)
sonst: 0
sonst: 0
8 (endungslos,
dativ: -n
feminin: alle 0
mit Umlaut)
sonst: 0
nicht feminin: genitiv: -(e)s sonst: 0
9 (i-Plural, immer ohne Umlaut)
-s
feminin: alle 0 nicht feminin: genitiv: -(e)s sonst: 0
5.1.2 Repräsentation der Lerndaten Die im folgenden vorgestellten Lernaufgaben bestehen darin, Flexionsklassen zu bilden, d.h. Lexeme aufgrund ihrer Flexionsformen in Klassen mit charakteristischen Eigenschaften einzuteilen. Als Eingaben für diese Lernaufgaben müssen daher Beobachtungen über die flektierten Wortformen der entsprechenden Substantive vorliegen. Da sich die flektierten Wortformen (abgesehen von der Klassenzugehörigkeit) aufgrund von Kasus, Numerus und Genus bestimmen, müssen auch diese Merkmale Bestandteile des Lerninputs sein. Die konkreten Wortformen stellen hierbei jeweils die Werte für eine Eigenschaft bestehend aus Numerus und Kasus dar. Ein extensionaler DATR-Satz zur Repräsentation einer beobachteten Wort-
151 form besteht somit aus einem Knoten für das betrachtete Substantiv, einem Pfad bestehend aus Kasus- und Numerusangabe und der Wortform als Wert. Für die flektierte Wortform sind verschiedene Repräsentationen denkbar. Die im folgenden beschriebenen Lernaufgaben konzentrieren sich auf die Morphotaktik, wogegen der Erwerb der Morphophonologie als eigenständiges Problem angesehen wird. 3 Aus diesem Grund werden die flektierten Wortformen des Lerninputs als Sequenz bestehend aus Wurzel und abstraktem Flexionsmorphem (wie beispielsweise _ r , das die phonologisch bedingten Varianten -er und -r erfaßt) repräsentiert. Die Vernachlässigung von Morphophonologie betrifft insbesondere auch die Behandlung von Umlaut, der, wie in der entsprechenden DATR-Theorie von Gazdar und Cahill zur deutschen Nominalflexion (in Evans/Gazdar 1990, S.85-89), als Atom u m l a u t in der Wortform-Sequenz repräsentiert wird. So hat beispielsweise der extensionale DATR-Satz, der die Wortform für Nominativ Plural von Buch (d.h. Bücher) repräsentiert, die folgende Form: (5-3)
EXTENSIONALER DATR-SATZ ALS INPUT FÜR SUBSTANTIVFLEXION
Buch: = (umlaut buch _r). Neben den Wortformen für ein Substantiv, die in der in (5-3) abgebildeten Form repräsentiert werden, enthält der Input als weitere Information das Genus des Substantivs und die Wurzel. Die Lerndaten für das Substantiv Buch haben somit die folgende Form: (5-4)
Buch Buch Buch Buch Buch Buch Buch Buch Buch Buch
INPUT-DATEN FÜR DAS SUBSTANTIV
BUCH
= buch. = neut. = buch. = (buch _ s) . = buch. = buch. = (umlaut buch _r) = (umlaut buch _r) = (umlaut buch r = (umlaut buch _r)
Obwohl die in (5-4) aufgeführten extensionalen DATR-Sätze unstrukturierte und isolierte Daten über das Substantiv Buch darstellen, beinhalten sie dennoch bereits gewisse theoretische Vorannahmen über die Domäne, die die spätere Strukturierung beeinflussen. Zum einen
3 Da für die Erfassung morphophonologischer Aspekte in der Regel evaluierbare Pfade verwendet werden (vgl. die in Kap. 3.2 angeführten Arbeiten zur Morphophonologie), ist zu erwarten, daß die Inferenz von Morphophonologie grundsätzlich ein Problem für den hier beschriebenen Ansatz darstellt. Es bleibt jedoch zu untersuchen, ob alle morphophonologischen Generalisierungen die Verwendung von evaluierbaren Pfaden erfordern, oder ob sich zumindest Teilaspekte auch mit anderen Mitteln darstellen lassen.
152 ist die Reihenfolge der Attribute der Pfade festgelegt (außer bei den ein-elementigen Pfaden). Durch diese Festlegung sind die möglichen Generalisierungen über den Eigenschaften eingeschränkt. Da Generalisierungen, die über Defaults ausgedrückt werden, Pfade mit gemeinsamen Präfixen zusammenfassen, können keine Gemeinsamkeiten von Pfaden mit gleichen Suffixen oder von Pfaden mit gleichen Attributen in einer anderen Reihenfolge erfaßt werden. Für das Beispiel in (5-4) bedeutet dies, daß zwar Generalisierungen über Singularformen und Pluralformen (oder über Formen im allgemeinen) inferiert werden können, nicht jedoch beispielsweise Generalisierungen über den einzelnen Kasus. Eine Überprüfung der Konsequenzen einer anderen Attributreihenfolge könnte durch weitere Testläufe mit vertauschten Attributen erfolgen. 4 Eine weitere Form der theoretischen Vorstrukturierung erfolgt über die Annahme einer Wurzel (durch den Pfad < r o o t > ) , eine Eigenschaft, die nicht direkt beobachtbar ist. An diesen Stellen fließt linguistisches Wissen des Beobachters mit ein. 5 Im folgenden Kapitel werden verschiedene Lernexperimente für die deutsche Substantivflexion vorgestellt. Die Lernaufgaben sind dabei von zunehmender Komplexität, beginnend mit Beobachtungen für ein Substantiv.
5.1.3 Ergebnisse der Lernaufgaben 5.1.3.1
Schwache Substantive
Als erste Lernaufgabe wird die einfachst mögliche betrachtet, bei der der Lerninput aus Beobachtungen über ein einziges Substantiv, in diesem Fall Herr besteht. Der Lerninput ist somit der folgende: (5-5) LERNINPUT FÜR DAS SUBSTANTIV HERR Herr: Herr: Herr: Herr: Herr: Herr: Herr: Herr: Herr: Herr:
4
= herr. = masc. < s i n g nom> = h e r r . < s i n g gen> = ( h e r r = (herr = (herr < p l u r nom> = ( h e r r < p l u r gen> = ( h e r r = (herr = (herr
_n) _n) _n) _n) _n) _n) _n)
Da ein Lauf mit vertauschten Attributen für die deutsche Substantivflexion wenig erfolgversprechend ist, wird dies hier nicht durchgeführt. Bei anderen Domänen kann sich eine solche Vorgehensweise aber durchaus als sinnvoll erweisen. ^ Die Durchführbarkeit der Lernaufgabe hängt aber nicht von der Information über die Wurzel ab und wäre auch ohne sie möglich. Hier wird jedoch nicht auf sie verzichtet, um die Ergebnisse besser mit der vorgeschlagenen Theorie in (Evans/Gazdar 1990) vergleichen zu können.
153 Für die Festlegung der Such- und Auswahlkriterien (vgl. Kap. 4.4.3, Abbildung (4-114)) waren folgende Überlegungen ausschlaggebend. Generell ist für die Daten in (5-5) eine möglichst einfache, kleine Theorie wünschenswert, die stark über den Daten generalisiert. Um dies zu erreichen, wird als Kriterium zur Richtung der Suche die Anzahl unterschiedlicher Vererbungsverweise (Maß: Verweisanzahl) gewählt. Wie in Kap. 4.4.3.2 erläutert, werden dadurch monotone Theorien mit vielen gleichen Vererbungsverweisen präferiert, was zu einer großen Reduktion durch den Default-Algorithmus führt. Als zweites Kriterium für die Suche wird die Komplexität der Vererbungsverweise (Maß: Verweislänge) gewählt, was ebenfalls zur Einfachheit der Theorien beiträgt. Besteht das einzige Auswahlkriterium in der Größe, d.h. Anzahl der Sätze der Theorie (in diesem Fall spielt es keine Rolle, ob die absolute Größe (Maß: Satzanzahl) oder die durchschnittliche Größe der Objekte (Maß: Satzdichte) gewählt wird, da nur ein Objekt repräsentiert wird), werden die folgenden Theorien als Ergebnishypothesen geliefert: (5-6)
LERNOUTPUT FÜR ( 5 - 5 )
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Komplexität der Vererbungsverweise Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie HRP
Herr: Herr: Herr: Herr: Hr2:
Herr: Herr: Herr: Herr: HR3:
Herr: Herr: Herr: Herr:
== ( herr _n ). == herr. == masc. == herr. == ( herr _n ). == herr. == masc. == . == ( _n ). == herr. == masc. == .
Die drei Ergebnishypothesen haben die gleiche Größe, unterscheiden sich aber in der Repräsentation der Beziehungen zwischen den beobachteten Eigenschaften der Daten. In HR1 sind keinerlei Beziehungen zwischen den Eigenschaften erfaßt. Bei dieser Theorie handelt es sich um die Default-Theorie der Ausgangshypothese HQ. Im Gegensatz dazu erfaßt HR3 die maximal beobachtbaren Zusammenhänge zwischen den Eigenschaften des Objektes. Da generell
154 eine Theorie, die viele Zusammenhänge zwischen den Daten erfaßt, zu bevorzugen ist, sollte HR3 besser als die anderen Hypothesen bewertet werden. Dies kann durch die Hinzunahme eines weiteren Kriteriums für die Auswahl der Ergebnishypothese erreicht werden: Die Minimierung der Sätze mit ausschließlich atomaren Werten (Maß: Atomanzahl). Bei dieser Wahl von Kriterien wird nur HR3 als Ergebnishypothese geliefert. Da bei dieser Lernaufgabe nur Eigenschaften eines einzigen Objektes beobachtet wurden, konnten nur Bezüge innerhalb dieses Objektes hergestellt werden, nicht jedoch zu anderen Objekten. Insbesondere wurden daher auch keine abstrakten Sätze gebildet. Für die nächste Lernaufgabe wird der Input um Beobachtungen über ein zweites Objekt erweitert. Zusätzlich zu den Beobachtungen für Herr kommen nun entsprechende Daten für Affe, einem Substantiv der gleichen Flexionsklasse, hinzu. Unter Beibehaltung der Kriterien der ersten Lernaufgabe wird folgende Ergebnishypothese inferiert: (5-7)
LERNOUTPUT FÜR BEOBACHTUNGEN ÜBER HERR UND AFFE
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Komplexität der Vererbungsverweise Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie 2. Sätze mit ausschließlich atomaren Werten Hr: Herr: Herr:
== A I . < r o o t > == h e r r .
Affe: Affe:
== A I . < r o o t > == ä f f e .
AI: AI: AI:
== ( " < r o o t > " _ n ) . == masc. < s i n g nom> == " < r o o t >
Da die Substantive Affe und Herr exakt das gleiche Flexionsverhalten aufweisen und das gleiche Genus haben, wurden alle Eigenschaften bis auf die Wurzel-Information von den konkreten Objekten abstrahiert und in einem übergeordneten Knoten A I spezifiziert. Von diesem abstrakten Knoten erben H e r r und A f f e alle Eigenschaften bis auf die Wurzel. A I enthält alle Flexionsinformationen, die mit der Klasse der schwachen (belebten) Substantive verbunden sind: alle Formen dieser Substantive, bis auf die Form für Nominativ Singular, die der Wurzel entspricht, setzen sich aus der Wurzel und dem Flexiv _ n zusammen. Die abstrakte Knotendefinition A I kann somit als Klassenbeschreibung der schwachen belebten Substantive angesehen werden. Ein weiterer Testlauf zeigte, daß das gleiche Ergebnis auch ohne das zweite Auswahlkriterium erzielt wird, d.h., anders als bei der ersten Lernaufgabe,
155 existiert nur eine einzige Theorie, mit dem kleinsten Wert für die durchschnittliche Größe der Objekte der Theorie. In der nächsten Lernaufgabe wird der Lerninput um Beobachtungen über die unbelebten Substantive Fels und Friede ergänzt. Bei gleichbleibenden Such- und Auswahlkriterien werden vier DATR-Theorien inferiert, die sich bezüglich der Homogenität ihrer rechten Seiten unterscheiden. Um nur die homogenste dieser Theorien zu erhalten, wird die Anzahl der unterschiedlichen rechten Seiten der Theorie (Maß: RHS-Anzahl) als zusätzliches Auswahlkriterium eingesetzt. Die Ergebnishypothese sieht dann folgendermaßen aus: (5-8)
LERNOUTPUT FÜR BEOBACHTUNGEN ÜBER HERR, AFFE, FELS UND FRIEDE
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Komplexität der Vererbungsverweise Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie 2. Gesamtanzahl der unterschiedlichen rechten Seiten HR: Fels Fels
: < r o o t > == f e l s . : < > == A 2 2 5 .
Friede Friede
< r o o t > == f r i e d e . : < > == A 2 2 5 .
Herr Herr
: < r o o t > == h e r r . : < > == A 1 8 4 .
Affe Affe
: < r o o t > == ä f f e . : < > == A 1 8 4 .
A225 A225
: < s i n g gen > == : < > == A 2 6 5 .
(
"
A184 A184
: < s i n g gen > == : < > == A 2 6 5 .
(
"
A2'65 : < s i n g nom > == " < r o o t > " . A265 : < g e n d e r > == m a s c . > == ( " < r o o t > " _ n ) . A265 : < Zur besseren Veranschaulichung ist die erlernte Theorie in (5-9) graphisch dargestellt. In dieser Abbildung wurden die abstrakten Knotennamen (manuell) durch linguistisch motivierte Knotennamen ersetzt. AI 8 4 entspricht hierbei WEAK_ANIMATE, A225 wurde durch WEAK_INANIMATE und A265 durch WEAK ersetzt. Die unbeschrifteten Kanten entsprechen den Verweisen durch den leeren Pfad.
156 (5-9)
GRAPHISCHE DARSTELLUNG VON ( 5 - 8 )
Die erworbene Hierarchie in (5-9) teilt die beobachteten Substantive in zwei Klassen ein, von denen die Substantivknoten jeweils alle Informationen bis auf die Wurzel erben. Die beiden Klassen unterscheiden sich aufgrund ihrer Formen für Genitiv Singular. Dies entspricht genau der eingangs getroffenen Unterscheidung zwischen belebten und unbelebten schwachen Substantiven. Da sich die beiden Klassen lediglich in ihren Formen für Genitiv Singular voneinander unterscheiden, können alle anderen Informationen weiter von diesen beiden Klassen abstrahiert und in dem übergeordneten Knoten WEAK spezifiziert werden, von dem die anderen erben. Diese oberste Klasse enthält die für schwache Substantive charakteristischen Eigenschaften. Schwache Substantive bilden in der Regel (d.h. per default) alle Formen aus der Wurzel und dem Flexiv _ n , abgesehen von der Form für Nominativ Singular, die keine Endung hat und somit der Wurzel entspricht. Da in diesen beiden Klassen nur maskuline Substantive vertreten sind, ist auch diese Information im obersten Knoten spezifiziert. Obwohl die inferierte DATR-Theorie in (5-9) stark über den beobachteten Daten verallgemeinert, scheint sie den Satz WEAK_ANIMATE : < s i n g g e n > == ( " < r o o t > " _n) redundanterweise zu enthalten. Da die Default-Form für schwache Substantive im Knoten WEAK als ( " < r o o t > " _ n ) spezifiziert ist, müßte der Knoten WEAK_ANIMATE die Form für Genitiv Singular nicht explizit angeben, da sie dem Default entspricht. Daß dies dennoch
157 der Fall ist, liegt daran, daß die Transformationsregeln keinen abstrakten Satz für Genitiv Singular im obersten Knoten bilden konnten, da die beiden ähnlichsten Objekte sich genau in diesem Satz voneinander unterscheiden. Daher gibt es kein objektives Kriterium, einen der beiden Sätze zu abstrahieren. Daß WEAK_ANIMATE diese Information dennoch von WEAK erben könnte, wird erst nach Anwendung des Default-Algorithmus deutlich. Der Vorteil der leicht redundanteren Theorie in (5-9) liegt jedoch darin, daß die Unterschiede zwischen den beiden Klassen WEAK_ANIMATE und WEAK_INANIMATE durch die Spezifikation der beiden unterschiedlichen Sätze deutlicher werden. 6
5.1.3.2
Schwache und gemischt flektierte Substantive
Für die nächste Lernaufgabe enthält der Input nun auch Beobachtungen über Substantive der dritten schwachen Flexionsklasse. Wie aus der Tabelle (5-1) ersichtlich ist, sind in dieser Klasse Substantive aller Genera vertreten. Daher ist im Lerninput jeweils ein Substantiv eines jeden Genus berücksichtigt, nämlich: Staat, Hemd und Farbe. Unter Beibehaltung der Kriterien der vorhergehenden Lernaufgabe wird die in (5-10) graphisch dargestellte DATR-Theorie inferiert. In dieser Abbildung sind wiederum die vom System generierten abstrakten Knotennamen durch linguistisch motivierte Namen ersetzt. (5-10)
INFERIERTE HIERARCHIE FÜR SCHWACHE SUBSTANTIVE
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Komplexität der Vererbungsverweise Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie 2. Gesamtanzahl der unterschiedlichen rechten Seiten
6
Es ist auch denkbar, in einem Nachbearbeitungsschritt nach der Inferenz der Ergebnishypothese solche Sätze zu eliminieren. Weitere Fragen im Zusammenhang mit der Abstraktion von Sätzen, wie etwa die Berücksichtigung von Häufigkeitsinformationen, werden in der Abschlußdiskussion in Kap. 6 angesprochen.
158
159 Die Substantive des Inputs sind in der erworbenen Hierarchie gemäß ihrer Ähnlichkeit in drei Klassen gruppiert, die linguistisch plausibel sind. Die beiden Klassen WEAK_ANIMATE und WEAK_INANIMATE sind dabei genauso spezifiziert wie in der Hierarchie in (5-9). Die Besonderheit der beiden Klassen sind ihre Genitiv-Singular-Formen, welche explizit angegeben sind. Die Klasse MIXED unterscheidet sich von den beiden anderen Klassen aufgrund ihrer Singularformen. Charakteristisch für die gemischt flektierten Substantive ist, daß zwar ihre Pluralformen schwach gebildet werden, ihre Singularformen dagegen stark sind. Diesem Flexionsverhalten trägt die Hierarchie in (5-10) durch ihre Strukturierung Rechnung. Die Gemeinsamkeiten mit den anderen schwachen Substantiven wird dadurch erfaßt, daß die gemischten Substantive ihre Pluralformen, wie die anderen beiden Klassen auch, von dem Knoten WEAK erben. Die Bildung der Singularformen muß jedoch für die Klasse MIXED explizit spezifiziert werden (außer Nominativ, der für alle Substantive gleich ist und daher auch von WEAK geerbt wird). 7 Wie in (5-9) enthält die oberste Klasse WEAK die für schwache Substantive bereits erläuterten, charakteristischen Eigenschaften. Die inferierte Hierarchie weist einige durch das Lernverfahren bedingte Eigenheiten auf. Während alle Substantive der Klassen WEAK_ANIMATE und WEAK_INANIMATE ihr Genus von der obersten Klasse erben, ist diese Information für die Instanzen der Klasse MIXED explizit angegeben. Für F a r b e und Hemd ist dies auch notwendig, da deren Genera nicht dem Default-Genus schwacher Substantive entsprechen und daher die Default-Spezifikation nicht geerbt werden darf. Die Knotendefinition für das maskuline Substantiv Staat könnte jedoch auf die Spezifikation dieser Information verzichten. Daß dies nicht der Fall ist, hat dieselben Gründe wie die bereits erläuterte Angabe der Form für Genitiv Singular im Knoten WEAK_ANIMATE. Abstrakte Sätze können nur dann gebildet werden, wenn mindestens zwei Knoten, die sich am ähnlichsten sind, diesen Satz enthalten. Da die Substantive der Klasse MIXED alle unterschiedliche Genera haben (sich aber ansonsten am ähnlichsten sind), kann für diese Substantive kein abstrakter Satz mit der Information über Genus gebildet werden. Dementsprechend können S t a a t , F a r b e und Hemd ihre Genusinformation auch nicht von ihrem übergeordneten Knoten erben. Obwohl diese heuristische Einschränkung der konstruktiven Regeln in diesem Fall zu einer redundanten Spezifikation führt, wurde in Kap. 4.4.2 gezeigt, daß diese Heuristik unerläßlich für den Aufbau sinnvoller Hierarchien ist. Weiterhin fällt auf, daß bei dem Satz F a r b e : < s i n g g e n > == " < r o o t > " die rechte Seite gequotet ist, obwohl hier der entsprechende lokale Verweis dasselbe leisten würde. Die gequotete rechte Seite hängt mit der Wahl der Suchkriterien zusammen. Die höchste Priorität bei dieser Lernaufgabe hat die Minimierung der Anzahl unterschiedlicher Vererbungsverweise. Da der Deskriptor < r o o t > auch bei den anderen Sätzen gequotet ist, ist die Anzahl der unterschiedlichen Vererbungsverweise kleiner, wenn dieser Deskriptor in allen Sätzen gequotet ist. Da sich aber die Form des Genitivs Singular für F a r b e von der der ähnlichsten Knoten ( S t a a t und Hemd) unterscheidet, konnte der globale Deskriptor hier nicht von dem Knoten abstrahiert werden, wie dies bei allen anderen Substantivknoten geschehen ist. 7
Da der Lerninput keine starken Substantive enthält, kann hier keine Verbindung von den gemischten zu den starken Substantivklassen hergestellt werden. Daß dies jedoch möglich ist, wird in einer späteren Lernaufgabe gezeigt.
160 Die Verhinderung solcher globalen Verweise an den Stellen, wo lokale Verweise ausreichen, könnte durch eine weitere Einschränkung der Regeln für globale Verweise erreicht werden. Wenn Verweise nur dann gequotet werden dürfen, wenn das ähnlichste Objekt für den betrachteten Satz denselben Verweis oder denselben Verweis bereits in gequoteter Form hat, könnte im obigen Fall von F a r b e der Deskriptor < r o o t > nicht gequotet werden, da die ähnlichsten Objekte von F a r b e für den entsprechenden Satz andere rechte Seiten haben.
5.1.3.3
Starke Substantive
Nach der Lernaufgabe, die als Input Vertreter aller schwachen Substantivklassen enthält, wird nun eine Lernaufgabe mit Instanzen aller starken Substantivklassen jeweils aller vertretenen Genera durchgeführt (die Klassen 4 - 9 in der Tabelle in (5-2)). Der Lerninput besteht aus Beobachtungen über die Substantive Mann, Buch (Klasse 4), Arm, Recht (Klasse 5), Vorhang, Floß, Nacht (Klasse 6), Onkel, Ufer (Klasse 7), Acker, Kloster, Mutter (Klasse 8) und Klub, Auto, Disco (Klasse 9). Für die Lernaufgabe werden dieselben Suchkriterien wie für die schwachen Substantive verwendet. Als einziges Auswahlkriterium reicht die durchschnittliche Größe der Objekte aus, um die in (5-11) abgebildete Hierarchie zu inferieren. Beschriftete Kanten in der Hierarchie geben den Deskriptor an (hier < s i n g > ) , über den auf einen anderen Knoten verwiesen wird. Unbeschriftete Kanten entsprechen wie zuvor einem Verweis über den leeren Pfad. (5-11)
INFERIERTE HIERARCHIE FÜR STARKE SUBSTANTIVE
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Komplexität der Vererbungsverweise Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie
161
162 Die 15 Substantive des Lerninputs werden in sechs Hauptklassen eingeteilt, die den in (5-2) aufgeführten Klassen entsprechen und ebenso bezeichnet sind. Diese sechs Klassen unterscheiden sich aufgrund ihrer Pluralbildung, während die Bildung der Singularformen für alle Klassen gleich ist und daher von der übergeordneten Klasse STRONG geerbt werden kann. Die Tatsache, daß der Dativ bei starken Substantiven die einzig markierte Form des Plurals ist, wird in der DATR-Theorie dadurch erfaßt, daß der entsprechende Satz zur Bildung der Dativ-Plural-Formen explizit spezifiziert ist, während alle anderen Pluralformen über den leeren Pfad abgedeckt werden. Die Klasse _ S unterscheidet sich in dieser Hinsicht von den übrigen Klassen, da hier der Dativ Plural nicht markiert ist. Für alle Substantive wird neben der Wurzelform auch das Genus angegeben. Anders als bei den schwachen Substantiven gibt es hier keine Klasse, in der ausschließlich Substantive eines Genus vertreten sind. Für alle femininen Substantive ist — wie bei den schwachen Substantiven — die Bildung der Genitiv-Singular-Form explizit aufgeführt und bildet somit die Ausnahme zu den Genitiv-Singular-Formen der anderen Genera, die diese Form vom obersten Knoten erben. Daß auch die Bildung der Genitiv-Singular-Formen der femininen Substantive einer Systematik unterliegt, kann in dieser Hierarchie nicht erfaßt werden. Für die Repräsentation der Abhängigkeit der Bildung dieser Form vom Genus des Lexems müssen in DATR evaluierbare Pfade verwendet werden, wie dies etwa in der in den DATR-Papers (Evans/Gazdar 1989) enthaltenen entsprechenden Theorie der Fall ist. Da evaluierbare Pfade aus den in Kap. 4.5 aufgeführten Gründen hier nicht berücksichtigt werden können, kann diese Art von Abhängigkeit in den erlernten DATR-Theorien nicht erfaßt werden. 8
5.1.3.4
Starke und schwache Substantive
In der nächsten Lernaufgabe soll nun untersucht werden, welche Klassen gebildet werden, wenn der Lerninput sowohl schwache (und gemischte) als auch starke Substantive enthält. Neben den schwachen Substantiven, die bereits für die oben diskutierte Lernaufgabe verwendet wurden (Affe, Herr, Staat, Farbe, Hemd, Fels, Friede) enthält der Lerninput eine repräsentative Auswahl an starken Substantiven. Da bereits in der vorangegangenen Lernaufgabe gezeigt wurde, daß alle in (5-2) aufgeführten starken Substantivklassen gelernt werden können, reicht hier eine Auswahl von starken Substantiven, um deren Verhältnis zu den schwachen zu untersuchen. Hierfür wurden jeweils Substantive einer Klasse ohne Pluralumlaut (Ufer, Onkel, Klasse 7) und mit Pluralumlaut (Acker, Mutter, Kloster, Klasse 8) und Substantive der Klasse 9 (Auto, Disco, Klub) berücksichtigt, da sich diese von den übrigen starken Substantiven unterscheiden.
o
Die Spezifikation der Genitiv-Singular-Form würde allerdings nicht in den Lexemknoten angegeben, wenn der Lerninput mehr als nur jeweils ein Substantiv eines jeden Genus enthielte. Bei mehr Substantiven würden entsprechende Unterklassen der Maskulina, Feminina und Neutra der sechs Flexionsklassen gebildet. Die Information über die Genitiv-Singular-Formen der femininen Substantive würde dann in den entsprechenden femininen Unterklassen und nicht mehr in den Lexemknoten spezifiziert.
163 Im Vergleich zu den vorhergehenden Lernaufgaben mußten die verwendeten Kriterien zur Suche und Auswahl erweitert werden, um zu einem zufriedenstellenden Ergebnis zu kommen. Als zusätzliches Suchkriterium wurde die Minimierung der Anzahl der Ebenen der Hierarchie berücksichtigt. Wie in Kap. 4.4.3 erläutert, werden mit diesem Kriterium bei der Suche Theorien bevorzugt, die erst alle abstrakten Knoten einer Ebene bilden, bevor Knoten der nächst höheren Ebene generiert werden. Welche Auswirkungen das Fehlen dieses Kriteriums haben kann, wird in Kap. 5 . 2 genauer erläutert (vgl. auch ( 4 - 1 0 5 ) in Kap. 4 . 4 . 3 . 1 ) . Wird als einziges Auswahlkriterium — wie bei der Lernaufgabe der starken Substantive — allein die durchschnittliche Größe der Objekte gewählt, entsteht eine relativ flache Theorie. Um eine Theorie mit stärker hierarchischer Strukturierung zu inferieren, wurde das Kriterium des Anteils der Sätze ohne Knotenverweis (Maß: relative Knotenverweisanzahl) verwendet. Die mit diesen Kriterien gewonnene Theorie unterscheidet sich von der in ( 5 - 1 2 ) abgebildeten lediglich dadurch, daß der Knoten _NULL anstelle der drei Sätze für die Pluralformen, die auf die Wurzel verweisen, zwei Knoten-Pfad-Verweise auf den übergeordneten Knoten und einen Verweis auf die Wurzel enthält. Diese Theorie, die als weniger transparent erachtet wurde, wurde durch das Kriterium der Minimierung der Anzahl der Sätze mit Knoten-Pfad-Verweisen (Maß: relative Knoten-Pfad-Verweisanzahl) schließlich schlechter bewertet, als die in ( 5 - 1 2 ) abgebildete Theorie. (5-12)
INFERIERTE HIERARCHIE FÜR SUBSTANTIVE
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Komplexität der Vererbungsverweise 3. Anzahl der Ebenen Auswahlkriterien: 1. Anzahl der Sätze mit Knoten-Pfad-Verweisen 2. Anteil der Sätze ohne Knotenverweis 3. Durchschnittliche Größe der Objekte der Theorie
164
165 Wie in den vorangegangenen Lernaufgaben sind die Substantive, die zu einer der in den Tabellen (5-1) und (5-2) aufgeführten Klassen gehören, auch entsprechend gruppiert worden. Darüberhinaus wurden in der nächsthöheren Ebene der Hierarchie die zwei abstrakten Knoten STRONG und WEAK gebildet, die jeweils über den starken bzw. schwachen Substantiven generalisieren. Während die starken und schwachen Substantivklassen jeweils alle Information von einer dieser Klassen erben (oder die Information direkt spezifizieren), erbt die Klasse der gemischt flektierten Substantive (MIXED) ihre Information teilweise von den starken und teilweise von den schwachen Substantiven. In diesem Sinne reflektiert die erworbene Hierarchie direkt den gemischten Charakter dieser Klasse. Ein Teil der Information wurde schließlich weiter von den beiden großen Klassen abstrahiert und in einer obersten Klasse NOUN spezifiziert, so daß die Hierarchie insgesamt vier Ebenen aufweist. Die Knotendefinitionen für die konkreten Substantive haben die gleiche Form wie in den Hierarchien der vorangegangenen Lernaufgaben. Für alle Substantive wird die Wurzel, für alle außer den schwachen Substantiven das Genus spezifiziert, und zusätzlich wird für die femininen Substantive die Form für Genitiv Singular angegeben. Alle übrigen Informationen werden von Knoten der höheren Ebenen geerbt. Die beiden schwachen Substantivklassen sind hierbei genauso spezifiziert wie in der Hierarchie in (5-10), d.h. sie enthalten lediglich die Information über die Genitiv-Singular-Form, während die übrigen Informationen vom Knoten WEAK geerbt werden. Für die starken Substantive unterscheiden sich die Definitionen etwas von denen in (5-11). Wie in (5-11) ist die Gemeinsamkeit der starken Substantive, die Bildung ihrer Singularformen, dadurch erfaßt, daß diese Information vom übergeordneten Knoten STRONG geerbt wird. Während die Klassen UMLAUT_NULL und _ S die Bildung aller ihrer Pluralformen spezifizieren (wie in (5-11)), erbt die Klasse _NULL ihre Dativ-Plural-Form von STRONG. Die Abstraktion dieser Information wurde dadurch ermöglicht, daß es ein weiteres Objekt gibt (MIXED), das die gleiche Form für Dativ Plural aufweist und zu den dem Objekt _NULL ähnlichsten Objekten gehört. Dementsprechend erbt auch die Klasse MIXED seine Form für Dativ Plural von STRONG. Eine Hierarchie ohne die Abstraktion dieser Information wäre einfacher und auch aus linguistischer Perspektive plausibler gewesen. Daß in dieser Lernaufgabe nicht die in diesem Sinne beste DATR-Theorie erlernt wurde, ist eine Folge des heuristischen Lern Verfahrens. Die beiden Knoten STRONG und WEAK haben genau zwei gemeinsame Eigenschaften, nämlich die Formen für Nominativ Singular und Dativ Plural. Diese sind von den beiden Klassen weiter abstrahiert und in der obersten Klasse NOUN spezifiziert.
5.1.4 Vergleich mit einer manuell formulierten Theorie Die maschinell erworbene DATR-Theorie in (5-12) soll nun mit der von Gazdar und Cahill in (Evans/Gazdar 1990) vorgeschlagenen Theorie zur deutschen Substantivflexion verglichen werden. Hierbei ist zu untersuchen, worin die Hauptunterschiede bestehen und wie diese zu beurteilen sind. Dazu ist in (5-13) der abstrakte Teil der von den Linguisten erstellten Hierarchie (d.h. die Hierarchie ohne Blätter) abgebildet, wobei die ursprünglich verwendeten Kno-
166 tennamen durch die in der vorliegenden Arbeit verwendeten Namen ersetzt wurden. Außerdem sind lediglich diejenigen abstrakten Klassen abgebildet, die auch in (5-12) vertreten sind. Die ursprüngliche Theorie enthält darüberhinaus drei weitere Klassen, die den fehlenden starken Substantivklassen entsprechen. (5-13)
HIERARCHIE FÜR SUBSTANTIVE IN DEN D A T R - P A P E R S
Die beiden Hierarchien in (5-12) und (5-13) weisen in ihrer Strukturierung einige Gemeinsamkeiten, jedoch auch etliche Unterschiede auf, wobei letztere mit dem eingesetzten Lernverfahren zusammenhängen. Gemeinsam ist den beiden Hierarchien, daß alle Substantive direkt von einer der sechs Flexionsklassen erben. Die Hierarchien unterscheiden sich aber sowohl in den Abstraktionen, die über diesen sechs Klassen gemacht werden als auch in der Spezifikation der Klassen selbst.
167
Für die Definition der Klassen verwendet die Hierarchie in (5-13) neben dem abstrakten Konzept der Wurzel, das auch (5-12) enthält, zusätzlich das abstrakte Konzept des Stammes. Für jedes Lexem werden direkt oder indirekt ein Singular- und Pluralstamm und, sofern notwendig, auch Umlautstämme spezifiziert. Auf diese Weise können in den Klassen Verallgemeinerungen über Stämme ausgedrückt werden. So wird beispielsweise erfaßt, daß alle unbelebten nicht-femininen Substantive ihre Form für Genitiv Singular aus dem Singularstamm und dem Flexiv _ s bilden. Diese Verallgemeinerung könnte nur dann automatisch erworben werden, wenn der Lerninput zusätzlich zu der Wurzel auch noch die jeweiligen Stämme für ein Lexem enthalten würde. Da die theoretische Vorinformation jedoch möglichst gering gehalten werden sollte, wurde auf diese Angaben verzichtet. Als Konsequenz werden nur Verallgemeinerungen basierend auf der Wurzel erlernt. Bei entsprechender Anreicherung des Lerninputs um Stamminformationen wäre aber auch prinzipiell die Inferenz von entsprechenden Generalisierungen über Stämmen möglich. Im Gegensatz zu der erworbenen Hierarchie in (5-12), in der die beiden neuen abstrakten Klassen WEAK und STRONG als Generalisierungen über den sechs Flexionsklassen gebildet wurden, sind die sechs Klassen in (5-13) selbst hierarchisch angeordnet. Hierbei bildet die Klasse _NULL die oberste Klasse, von der die anderen (direkt oder indirekt) erben. Neben den Klassen erben auch die Knotendefinitionen der Substantive der Klasse _NULL direkt von diesem Knoten. Die Klasse WEAK_ANIMATE erbt hierbei nur eine einzige Eigenschaft von der obersten Klasse, nämlich das Genus und ist ansonsten die Oberklasse von WEAK_INANIMATE, die alle Eigenschaften bis auf die Form für Genitiv Singular von dieser erbt. Charakteristisch für diese Hierarchie ist die Tatsache, daß sowohl Knoten unterschiedlicher Ebenen von dem gleichen Knoten erben (z.B. verweisen konkrete Substantive und die Klasse WEAK_INANIMATE auf WEAK_ANIMATE), als auch Knoten einer konzeptuellen Ebene aufeinander verweisen (z.B. verweist WEAK_INANIMATE auf WEAK_ANIMATE). Während die erste Verweisstruktur auch in unseren inferierten DATR-Theorien prinzipiell möglich ist, wird der Verweis auf Knoten der gleichen oder einer niedrigeren Ebene durch entsprechende Heuristiken im Zusammenhang mit dem Konzept der ähnlichsten Objekte ausgeschlossen (vgl. Kap. 4.5). In Kap. 6 wird eine Möglichkeit erörtert, diese zur Erstellung sinnvoller Hierarchien notwendige Einschränkung in bestimmten Fällen aufzuheben. Diese, durch die Lernstrategie bestimmte, charakteristische Strukturierung der Hierarchie in (5-12) weist jedoch gewisse Generalisierungen auf, die (5-13) nicht enthält. So kommt in (5-13) z.B. die Tatsache, daß die zwei großen Flexionsklassen der starken und schwachen Substantive unterschieden werden können, ebensowenig zum Ausdruck wie die Annahme einer Flexionsklasse mit gemischtem Charakter. Auch die Gemeinsamkeiten dieser beiden großen Klassen werden nicht erfaßt. Insgesamt gesehen ist die Hierarchie in (5-13) weniger stark strukturiert, als die in (5-12). Andererseits wird in (5-13) jedoch zumindest eine Beziehung repräsentiert, die in (5-12) fehlt, nämlich die Tatsache, daß die Bildung der Form für Genitiv Singular vom Genus abhängt. Für die Repräsentation dieser Abhängigkeit wurde das DATR-Mittel der evaluierbaren Pfade eingesetzt, welches für den automatischen Erwerb von DATR-Theorien nicht zur Verfügung steht. Aus diesem Grund konnte die entsprechende Beziehung auch nicht erlernt werden.
168
5.2
Syntaktische Verbklassen
5.2.1 Charakterisierung der Domäne In dieser Gruppe von Lernaufgaben werden deutsche Verben aufgrund ihrer syntaktischen Eigenschaften beschrieben und klassifiziert. Das zentrale Unterscheidungskriterium für Verben ist dabei ihr Subkategorisierungsrahmen, d.h. die Komplemente, die das Verb erfordert.9 Hierbei sind sowohl die Anzahl der Komplemente als auch ihre syntaktischen Eigenschaften von Interesse (vgl. beispielsweise Eisenberg 1986, Helbig/Schenkel 1982). Was die Stelligkeit, d.h. Anzahl der Komplemente, von Verben betrifft, gibt es im Deutschen ein-, zwei- und dreistellige Verben. 10 Diese Annahme setzt voraus, daß das Subjekt wie die Objekte als Komplement behandelt wird und keinen Sonderstatus erhält. Neben der Stelligkeit werden Verben aufgrund der Art ihrer Komplemente unterschieden. In erster Linie sind hier nominale Komplemente in allen vier Kasus zu nennen. Daneben können Verben jedoch auch präpositionale sowie verbale Komplemente und Nebensätze subkategorisieren. Einstellige Verben Einstellige Verben haben in der Regel ihr Subjekt als einziges Komplement. Verben wie atmen, lächeln, schlafen gehören zu diesen Verben und subkategorisieren eine Nominalphrase (NP) mit dem Kasus Nominativ. Solche einstelligen Verben werden auch als intransitiv bezeichnet. Eine kleine Teilmenge der einstelligen Verben erfordert ein expletives Subjekt. Dies ist die Klasse der Witterungsverben mit Verben wie regnen, hageln, donnern. Im Deutschen gibt es noch einige wenige Verben, die nicht ein Subjekt, sondern ein Objekt als einziges Komplement haben. So subkategorisiert das Verb frieren in einem Satz wie Mich friert eine Akkusativ-NP (als Objekt). Ebenso hat das Verb grauen in Mir graut eine Dativ-NP als Komplement. Die Tabelle in (5-14) faßt die im Deutschen vorkommenden einstelligen Verben zusammen.
' 10
Das Problem der Unterscheidung von obligatorischen und optionalen Komplementen einerseits und freien Angaben andererseits wird weiter unten angesprochen. Einige Autoren nehmen auch vierstellige Verben an. So führen Heibig und Schenkel beispielsweise antworten in Er antwortet dem Institut auf den Brief, daß er käme als vierstelliges Verb auf. Da bei solchen Verben jedoch einige der Komplemente fakultativ sind (s.u.), werden diese im folgenden vernachlässigt.
169 (5-14)
EINSTELLIGE VERBEN
NPnom als Subjekt
schlafen lächeln atmen schweigen
Expletivum als Subjekt regnen donnern hageln
NPdat als Objekt
grauen
NPakk als Objekt
frieren
Zweistellige Verben Die meisten der deutschen Verben sind zweistellig (vgl. Eisenberg 1986). Hierbei gibt es, anders als bei den einstelligen Verben, keine Verben, die kein Subjekt haben. Das heißt, alle zweistelligen Verben erfordern ein Subjekt und ein Objekt, wobei die Form der Komplemente sehr vielfältig ist. Am häufigsten sind jedoch solche Verben, die eine Nominativ-NP und eine Akkusativ-NP subkategorisieren und als transitiv bezeichnet werden. Hierzu gehören Verben wie sehen, lieben, schlagen. Eine zweite Gruppe von zweistelligen Verben subkategorisiert ebenfalls zwei Nominalphrasen, wobei die zweite aber eine Dativ-NP ist. Hierzu gehören helfen, folgen und ähneln. Sehr selten sind Verben, die als Objekt eine Genitiv-NP haben (z.B. gedenken) oder eine zweite Nominativ-NP (außer heißen nur die Kopulaverben, s.u.). Neben diesen nominalen Ergänzungen können zweistellige Verben auch andere Komplemente subkategorisieren (vgl. Eisenberg 1986). So können bei einigen dieser Verben beispielsweise Stellen von nominalen Komplementen (insbesondere Subjekt und direktes Objekt) auch durch bestimmte Nebensatztypen ersetzt werden. Hier sind vor allem die mit daß eingeleiteten Sätze und indirekte Fragesätze zu nennen. So läßt hören außer einer Akkusativ-NP (z.B. Ich höre Dich) sowohl einen daß-Satz (z.B. Ich höre, daß Du singst) als auch einen indirekten Fragesatz (z.B. Ich höre, wie Du singst) als Objekt zu. Im Gegensatz dazu erlaubt verlangen außer einer Akkusativ-NP (z.B. Er verlangt die Rechnung) einen daß-Satz (z.B. Er verlangt, daß die Rechnung gebracht wird), aber keinen indirekten Fragesatz ('Er verlangt wie/ob die Rechnung gebracht wird). Dagegen läßt beispielsweise fragen zwar einen indirekten Fragesatz zu (Er fragt, ob sie kommt), nicht aber einen daß-Satz (*Er fragt, daß sie kommt). Als Subjekt kann ein Nebensatz beispielsweise bei Verben wie überzeugen und gefallen auftreten (Daß/Wie Du singst, gefällt mir). Andere Verben wie kaufen, schlagen oder suchen lassen gar keine Nebensätze als Komplemente zu. Weiterhin subkategorisieren bestimmte Verben eine infinite Verbalphrase (VP) mit zu (z.B. versuchen, beabsichtigen). Nicht möglich sind hierbei Konstruktionen mit um zu, anstatt zu oder ohne zu. Während die zK-Infinitiv-VP bei den gerade genannten Verben obligatorisch ist, bildet sie bei anderen Verben eine Alternative zu einem daß-Satz (z.B. versprechen). Es lassen jedoch nicht alle Verben, die einen daß-Satz erlauben, auch eine zw-Infinitiv-Phrase zu (z.B. hören).
170 Schließlich gibt es auch Verben mit einem präpositionalen Komplement, wobei solche Komplemente jedoch nie als Subjekte, sondern nur als Objekte auftreten. Typischerweise erfordern diese Verben eine bestimmte Präposition und einen bestimmten Kasus. Als Kasus der Präpositionalphrase (PP) kommen allerdings nur Dativ und Akkusativ vor. Zu den Verben, die Akkusativ verlangen gehören z.B.: denken (an), vertrauen (auf), bürgen (für), geraten (in), herrschen (über). Im Gegensatz dazu erwarten die folgenden Verben den Dativ: teilnehmen (an), bestehen (auf), abhängen (von), anfangen (mit), gehören (zu). Neben den hier aufgeführten Vollverben sind auch die Verben der geschlossenen (d.h. nicht produktiven) Klassen der Modalverben, Kopulaverben und Hilfsverben zweistellig. Wie bereits oben erwähnt, subkategorisieren Kopulaverben (sein, werden, bleiben) zwei Nominativ-NPs (Sebastian wird Lehrer, Sie ist Protestantin), wobei es sich bei der zweiten NP um ein Prädikatsnomen handelt. Anstelle dieses substantivischen Prädikatsnomens kann auch ein adjektivisches stehen (Sie ist protestantisch). Modalverben (müssen, können, wollen etc.) subkategorisieren eine reine Infinitiv-Phrase ohne zu. Auch die Hilfsverben (sein, haben, werden) haben eine Verbalphrase als Ergänzung, wobei die Verbform jedoch ein Partizip ist (Er ist gelaufen, Sie hat gewonnen). Die Tabelle in (5-15) faßt die zweistelligen Verben zusammen (ohne die Berücksichtigung von Alternativen in Form von Nebensätzen oder zu-Infinitiv-Phrasen). K-V steht für Kopulaverben, M-V für Modalverben und H-V für Hilfsverben. (5-15)
ZWEISTELLIGE VERBEN
NPakk
NP„om NPdat
NPnom NPgen
lieben sehen kaufen
helfen folgen ähneln
gedenken heißen bedürfen K-V
NPnom
NP ' nom NPnom L
x
NPnom
NP nom 11A
NP ^ nom
NP
PPda,
PPakk
VPzu-inf
VPinf
1
A
n o m
abhängen bürgen beabsich- M-V bestehen denken tigen anfangen geraten versuchen gehören herrschen teilnehmen vertrauen
NPnom VPpart Y 1
H-V
Dreistellige Verben Auch die dreistelligen Verben sind im Deutschen recht häufig. Als Ergänzungen haben sie ein Subjekt und zwei Objekte. Die meisten der dreistelligen Verben subkategorisieren hierbei eine Nominativ-NP, eine Dativ-NP und eine Akkusativ-NP. Zu dieser Gruppe gehören z.B. die Verben geben, schenken und gönnen. Bei wenigen Verben ist die zweite Ergänzung eine Akkusativ-NP und die dritte entweder eine weitere Akkusativ-NP (nennen, lehren), eine Dativ-NP (unterziehen) oder eine Genitiv-NP (bezichtigen, beschuldigen). Darüberhinaus kann das dritte Komplement auch eine VP mit zu-Infinitiv (überreden, zwingen) oder eine Präpositionalphrase mit Akkusativ (legen, gewöhnen) oder Dativ (versehen, hindern) sein. Die Tabelle (5-16) faßt die dreistelligen Verben zusammen:
171 (5-16)
DREISTELLIGE VERBEN
NP n o m
NPn0m
NPn0m
NP„„m
NP„ om
NP„ om
NP„om
NP d a l
NPatt
NPakk
NPakk
NPakk
NPa|ck
NPdat
NPakk 1N, 1P sen
NPakk
NP a k k
VPzu-inf
PPakk
PP*
geben schenken gönnen
nennen lehren
unterziehen bezichtigen überreden beschuldigen zwingen
legen gewöhnen
versehen hindern
Schwierigkeiten bei der Bestimmung der Komplemente eines Verbs bestehen zum einen in der Unterscheidung von obligatorischen und optionalen Ergänzungen und zum anderen in der Abgrenzung optionaler Ergänzungen von freien Angaben. Eine Ergänzung wird dann als optional angesehen, wenn sie weggelassen werden kann, ohne daß der Satz dadurch ungrammatisch wird. So kann beispielsweise in dem Satz Sebastian gewinnt das Spiel die AkkusativNP wegfallen, weshalb sie als optional angesehen wird. Darüberhinaus kann aber auch der Fall eintreten, daß der Satz bei Streichung einer Phrase zwar noch grammatisch ist, das Verb aber eine völlig andere Bedeutung erhält. Streicht man beispielsweise in dem Satz Markus verspricht sich eine gute Note die Phrase eine gute Note, hat das Verb im zweiten Satz eine grundlegend andere Bedeutung als im ersten. Deshalb werden hier meist zwei unterschiedliche Verben angenommen (vgl. Eisenberg 1986). Die Abgrenzung einer Präpositionalphrase als Komplement von einer PP als freier Angabe ist dann problematisch, wenn die Phrase optional ist. Kann die Phrase nicht weggelassen werden, ist sie also obligatorisch, handelt es sich immer um ein Komplement. Dies gilt beispielsweise für die PP auf einer Antwort in dem Satz Christof besteht auf einer Antwort. Anders verhält es sich mit der PP in Paris in dem Satz Suzanne verliebt sich in Paris. Hier kann nicht geklärt werden, ob es sich um ein Komplement handelt wie in dem Satz Suzanne verliebt sich in Julian, oder um eine adverbiale Angabe wie in Suzanne verliebt sich am Montag. Innerhalb der Computerlinguistik ist ein Hauptanliegen bei der Repräsentation von syntaktischen Verbklassen — wie bei der Repräsentation anderer Information auch — die Erfassung von Verallgemeinerungen und damit verbunden die Vermeidung von Redundanz. In unifikationsbasierten Ansätzen werden Verbklassen daher in Hierarchien repräsentiert, so daß Informationen vererbt werden können (vgl. Flickinger 1987, Flickinger/Pollard/Wasow 1985). Da jedoch auch Verben und Verbklassen bezüglich ihres syntaktischen Verhaltens oft Teilregelmäßigkeiten und Irregularitäten aufweisen, ist die Verwendung von Defaults hierbei wünschenswert. Die oben angeführten Ansätze haben ihren Formalismus daher eigens im Hinblick auf diese Anforderung um eine spezielle Art von Default-Vererbung erweitert. Da Default-Vererbung eine grundlegende Eigenschaft von DATR ist, sollte sich dieser Formalismus von vornherein gut für die Repräsentation von Verbklassen eignen. Eine der DATR-Theorien in (Evans/Gazdar 1990) enthält ein Fragment für die Repräsentation eines Ausschnitts englischer Verbklassen.
172 5.2.2 Repräsentation der Lerndaten Seit der Einführung von Subkategorisierungslisten zur Repräsentation von Komplementinformation (Shieber 1986a), ist diese Form der Darstellung die meist verwendete in Unifikationsgrammatiken. Daher werden auch hier die Daten für die beobachteten Verben in Pfaden repräsentiert, wie sie in solchen Subkategorisierungslisten vorkommen. Die Daten über jeweils ein Komplement enthalten zunächst die syntaktische Kategorie des Komplements. Bei einer Nominalphrase kommt der Kasus und der Status (expletiv vs. nicht-expletiv) der NP hinzu. Bei einer Präpositionalphrase ist ebenfalls der Kasus sowie die konkret geforderte Präposition repräsentiert. Im Fall einer Verbalphrase schließlich wird die Verbform (Infinitiv, Infinitiv mit zu, Partizip) angegeben. Für das Verb selber wird die Kategorie spezifiziert. Die Lerndaten für das transitive Verb sehen bestehen somit aus den folgenden extensionalen DATRS ätzen: (5-17)
INPUT-DATEN FÜR DAS VERB SEHEN
Sehen: Sehen: Sehen: Sehen: Sehen: Sehen: Sehen: Sehen:
= end.
Bei den Lernexperimenten soll es nicht darum gehen, eine erschöpfende Beschreibung der deutschen Verben zu erlernen, die allen oben erwähnten Ausnahmen und Problemfällen gerecht wird. Vielmehr steht die Frage im Vordergrund, wie Verben mit dem verwendeten Lernansatz grundsätzlich in Verbklassen gruppiert werden. Daher wurde beim Lerninput auf verschiedene Informationen verzichtet. So werden beispielsweise nur Angaben über obligatorische Komplemente gemacht, optionale Ergänzungen werden dagegen vernachlässigt. Ebenso wird darauf verzichtet, Alternativen bei Komplementen (z.B. daß-Sätze anstelle einer Nominalphrase) zu behandeln. 11 Die berücksichtigte Information entspricht somit den in den Tabellen (5-14), (5-15) und (5-16) aufgeführten Verben.
11
Grundsätzlich wäre es jedoch kein Problem, auch Informationen über optionale und alternative Komplemente im Lerninput anzugeben. Die Lernaufgabe würde dadurch lediglich komplexer, da die Verben aufgrund von zusätzlicher Information weiter unterschieden werden könnten.
173 5.2.3 Ergebnisse der Lernaufgaben Wie bei den Lernaufgaben für die deutsche Substantivflexion wurden in unseren Untersuchungen auch für die syntaktischen Verbklassen verschiedene Lernaufgaben von zunehmender Komplexität durchgeführt. 5.2.3.1
Einstellige Verben
In der ersten Lernaufgabe enthält der Lerninput nur einstellige Verben. Dabei werden alle Arten von Verben, die in der Tabelle (5-14) aufgeführt sind, mit Beobachtungen über jeweils ein Verb berücksichtigt. Der Lerninput enthält Informationen über lächeln, regnen, frieren und grauen und sieht demnach wie folgt aus: (5-18)
LERNINPUT FÜR EINSTELLIGE VERBEN
< < < <
= nom. f i r s t syn s t a t > = norm. r e s t > = end.
= v. first first first rest
syn syn syn > =
cat > = v. subcat f i r s t subcat f i r s t subcat f i r s t subcat r e s t cat > subcat subcat subcat subcat
= v. first first first rest
np. cat > c a s > = nom. s t a t > = expl. end.
syn syn syn > =
syn syn syn > =
c a t > = np. cas > = acc. s t a t > = norm. end.
c a t > = np. cas > = dat. s t a t > = norm. end.
Als Kriterien zur Steuerung der Suche werden wie schon bei den Lernaufgaben zur Substantivflexion die Anzahl der unterschiedlichen Vererbungsverweise und die Komplexität der rechten Seiten gewählt. Bei letzterem Kriterium wird als Maß jetzt aber die mittlere Verweislänge, also die durchschnittliche Komplexität der Vererbungsverweise, gewählt. Da wiederum eine möglichst kleine DATR-Theorie wünschenswert ist, ist die durchschnittliche Größe der Objekte der Theorie das Auswahlkriterium mit der höchsten Priorität. Ist dies das einzige Auswahlkriterium, besteht der Lernoutput aus den folgenden zwei Ergebnishypothesen:
174 (5-19)
LERNOUTPUT FÜR ( 5 - 1 8 )
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Durchschnittliche Komplexität der Vererbungsverweise Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie
Laecheln :
== AI.
Grauen : < syn subcat first syn cas > == dat. Grauen : < > == AI. Frieren : < syn subcat first syn cas > == acc. Frieren : < > == AI. Regnen : < syn subcat first syn stat > == expl. Regnen : < > == AI. AI AI AI AI Al
: : : : :
< < < <
== v.
first syn stat > == norm. first syn cat > == np. first > == nom. > == end.
HR2:
Laecheln :
== "AI".
Grauen : < syn subcat first syn cas > == dat. Grauen : < > == "AI". Frieren : < syn subcat first syn cas > == acc. Frieren : < > == "AI". Regnen : < syn subcat first syn stat > == expl. Regnen : < > == "AI". AI AI AI AI Al
: : : : :
< < < <
== v.
first syn stat > == norm. first syn cat > == np. first > == nom. > == end.
175 Die beiden Theorien weisen grundsätzlich die gleiche Strukturierung der Domäne auf, unterscheiden sich aber in den verwendeten DATR-Mitteln. Während HR1 lediglich Knotenverweise und atomare Werte beinhaltet, verwendet HR2 anstelle der lokalen Knotenverweise globale. Da die globalen Knotenverweise hier keinerlei Generalisierungen erfassen, die über die entsprechenden lokalen Verweise hinausgehen, ist HR1 als einfachere der beiden Theorien zu bevorzugen. Dies kann dadurch erreicht werden, daß als zweites Auswahlkriterium beispielsweise die Minimierung globaler Verweise (Maß: Globalverweisanzahl) hinzukommt. Die Theorie HR1, die dann das einzige Ergebnis ist, ist nochmals graphisch in (5-20) dargestellt. Wie bei den Lernaufgaben in Kapitel 5.1 wurde hier der abstrakte Knotennamen AI durch einen linguistischen Klassennamen (INTRANS) ersetzt. (5-20)
GRAPHISCHE DARSTELLUNG VON H R 1 IN ( 5 - 1 9 )
Für den obersten Knoten der in (5-20) abgebildeten Hierarchie sind all diejenigen Eigenschaften spezifiziert, die charakteristisch für die Klasse der intransitiven Verben sind: sie haben die Kategorie v (Verb) und ihr einziges Komplement ist eine normale Nominativ-NP. Der Knoten L a e c h e l n als Beschreibung eines typischen intransitiven Verbs erbt alle seine Eigenschaften von diesem obersten Knoten und spezifiziert keine eigenen syntaktischen Informationen. Die anderen Verben weichen jeweils in einer Eigenschaft von den Default-Spezifikationen ab und repräsentieren diese Ausnahmen direkt beim Verb. Für R e g n e n wird ange-
176 geben, daß es ein expletives Subjekt fordert, für F r i e r e n und G r a u e n , daß sie ein Komplement mit anderem Kasus als Nominativ subkategorisieren. Die Hierarchie erfaßt alle Generalisierungen, die anhand der Eingabedaten geschlossen werden können und minimiert die Redundanz dadurch maximal. Die maximale Reduktion im Zusammenhang mit dem Default-Algorithmus führt allerdings zu Spezifikationen des Knotens INTRANS, die aus linguistischer Sicht eher störend wirken. Anstelle der Sätze INTRANS: == nom, INTRANS: == e n d , INTRANS: == v wären die entsprechenden ungekürzten Sätze INTRANS: == nom, INTRANS: == e n d , s o w i e INTRANS: == v aus Gründen der Transparenz zu bevorzugen. Da aber im allgemeinen eine Minimierung von Redundanz wünschenswert ist, wird dieser Nachteil hier in Kauf genommen.
5.2.3.2
Zweistellige Verben
In der zweiten Lernaufgabe wird die Klassifikation der zweistelligen Verben untersucht. Hierbei enthält der Lerninput alle Arten von Verben, die in der Tabelle (5-15) aufgeführt sind. Das bedeutet, daß neben den Vollverben auch Modal-, Kopula- und Hilfsverben Bestandteil des Lerninputs sind. Wie in der ersten Lernaufgabe ist jede Art von Verb durch eine Instanz vertreten. Die konkreten Verben im Lerninput sind: lieben (Nominativ-NP, Akkusativ-NP), helfen (Nominativ-NP, Dativ-NP), gedenken (Nominativ-NP, Genitiv-NP), werden (als Kopulaverb mit Nominativ-NP, Nominativ-NP), abhängen (Nominativ-NP, Dativ-PP mit von), denken (Nominativ-NP, Akkusativ-PP mit an), versuchen (Nominativ-NP, VP mit zw-Infinitiv), können (Nominativ-NP, VP mit reinem Infinitiv) und sein (als Hilfsverb mit NominativNP, VP mit Partizip). 12 In (5-21) sind beispielhaft die Lerndaten für das Verb abhängen aufgeführt.
19
Bei einigen der Verben kann man sicher dafür argumentieren, daß die zugrundeliegende Struktur des Verbs nicht zweistellig ist. So wird man möglicherweise für helfen eher eine zugrundeliegende Dreistelligkeit annehmen wollen, wie etwa in den Sätzen Sie hilft ihm bei der Arbeit oder Sie hilft ihm, die Arbeit zu erledigen. Da die Frage der zugrundeliegenden Struktur hier aber keine Rolle spielen soll, sondern lediglich die Frage nach obligatorischen Komplementen, wird helfen hier als zweistelliges Verb behandelt.
177 (5-21)
LERNINPUT
Abhaengen: Abhaengen: Abhaengen: Abhaengen: Abhaengen: Abhaengen: Abhaengen: Abhaengen:
= end.
Die Kriterien zur Richtung der Suche mußten im Vergleich zur ersten Aufgabe modifiziert bzw. um zusätzliche Kriterien ergänzt werden, um eine zufriedenstellende Ergebnishypothese zu induzieren. Die zusätzlichen Suchkriterien sind die Anzahl der unterschiedlichen Verweisarten (d.h. lokal, global, lokal-global) und die Anzahl der Ebenen (beides zu minimieren). Unter Beibehaltung der Auswahlkriterien wurde die in (5-22) abgebildete Hierarchie inferiert. Die Hierarchien, die ohne die zusätzlichen Kriterien zur Richtung der Suche erworben wurden, werden im Anschluß kurz skizziert. (5-22)
ERWORBENE HIERARCHIE FÜR ZWEISTELLIGE VERBEN
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Durchschnittliche Komplexität der Vererbungsverweise 3. Unterschiedliche Verweisarten 4. Anzahl der Ebenen Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie 2. Anzahl der rechten Seiten mit globalem Anteil
178
VERB == v < s y n s u b c a t first s y n c a t > == n p < s y n s u b c a t first s y n c a s > == n o m < s y n s u b c a t first> == n o r m < s y n s u b c a t > == e n d
NPnom-NP
NPnom-PPacc
== np
== pp
den Wert e n d liefert, was nicht angemessen ist. Daß solche Pfade resultieren, liegt daran, daß der Lerninput aus Pfaden besteht, die üblicherweise Bestandteil von Merkmalsstrukturen sind und dort völlig anders behandelt werden als in einer DATR-Theorie. Während in einer Merkmalsstruktur für ein zweistelliges Verb der Wert des Pfades < s y n s u b c a t r e s t > wieder eine Merkmalsstruktur ist, ist die Auswertung dieses Pfades in der erworbenen DATR-Theorie gar nicht vorgesehen, da er nicht Bestandteil des Lerninputs und somit keine Beobachtungsanfrage ist. Soll die Entstehung solcher Pfade verhindert werden, muß beim Lerninput auf die Repräsentation der Informationen über Komplemente in einer FIRST-REST-Notation verzichtet werden. Es ist jedoch nochmals zu betonen, daß die erworbene DATR-Theorie im Hinblick auf die beobachteten Daten konsistent und vollständig ist und maximal über diesen generalisiert. Im Vergleich zu der in (5-22) abgebildeten Hierarchie erfaßt eine Hierarchie, die unter Verwendung derselben Suchkriterien wie bei der ersten Lernaufgabe gebildet wird, nicht alle Generalisierungen. Zwar weist die erworbene Hierarchie dieselbe grundsätzliche Struktur (und dieselben abstrakten Knoten) auf, doch erben einige der konkreten Verben nicht alle Informationen, die sie von ihren übergeordneten Klassen erben könnten, d.h. die Hierarchie
i^
14
Die Information, daß die meisten zweistelligen Verben eine Akkusativ-NP als zweites Komplement haben, was die Spezifikation von Akkusativ als Default-Kasus legitimieren könnte, wurde hier nicht als Default inferiert, da aufgrund der beobachteten Daten ein solcher Schluß nicht möglich ist. Auch bei einer größeren Datenmenge mit einer repräsentativen Verteilung der Kasus müßten Häufigkeitsinformationen berücksichtigt werden, was derzeit im Algorithmus nicht vorgesehen ist (vgl. hierzu Kapitel 6). Daß der Akkusativ als Kasus von D e n k e n abstrahiert und in der Klasse N P n o m - P P a c c spezifiziert und somit als Default-Kasus bei Präpositionalkomplementen angesehen wird, hängt damit zusammen, daß das Objekt D e n k e n als ähnlichste Objekte A b h a e n g e n und L i e b e n (jeweils 6 gleiche Sätze) hat. Da der Kasus des zweiten Komplements von L i e b e n ebenfalls Akkusativ ist, konnte ein entsprechender abstrakter Satz gebildet werden, von dem D e n k e n seinen Wert erbt. Da L i e b e n seinerseits D e n k e n nicht als ähnlichstes Objekt hat (sondern H e l f e n , G e d e n k e n und Werden), erbt L i e b e n nicht von diesem Knoten.
180 enthält mehr Redundanz. Dies hängt damit zusammen, daß bereits Knoten höherer Ebenen gebildet werden können, bevor alle abstrakten Knoten der darunter liegenden Ebene gebildet werden. So wird der Knoten VERB beispielsweise vor dem Knoten NPnom-NP gebildet. Dies führt dazu, daß Sätze, auf die verwiesen werden könnte, nicht mehr zur Verfügung stehen, da sie bereits auf eine höhere Ebene verweisen (vgl. hierzu auch das Beispiel (4-105) in Kap. 4.4.3.1). Um dies zu vermeiden, wird das Kriterium der Anzahl der Ebenen eingesetzt, wodurch bei der Suche Theorien bevorzugt werden, die erst alle abstrakten Knoten einer Ebene bilden, bevor Knoten der nächst höheren Ebene generiert werden. Die Verwendung dieses Kriteriums hat allerdings zur Folge, daß globale Knotenverweise der Verben auf ihre Klassen entstehen. Dies ist dadurch begründet, daß eine Zwischenhypothese mit n Ebenen durch Anwendung der Regel zur Bildung globaler Knotenverweise die Anzahl der Ebenen konstant hält. Im Vergleich dazu enthält eine Zwischenhypothese, die durch Anwendung der Regel zur Bildung abstrakter Sätze gebildet wird, n+1 Ebenen und wird somit schlechter als die erste bewertet. Dieser unerwünschte Effekt kann durch die Berücksichtigung eines letzten Kriteriums (Anzahl unterschiedlicher Verweisarten) mit höherer Priorität verhindert werden. Unter Verwendung dieser vier Suchkriterien (1. Anzahl unterschiedlicher Vererbungsverweise, 2. Durchschnittliche Komplexität der Vererbungsverweise, 3. Anzahl unterschiedlicher Verweisarten, 4. Anzahl der Ebenen) und der besprochenen Auswahlkriterien wird schließlich die in (5-22) abgebildete Hierarchie inferiert.
5.2.3.3
Dreistellige Verben
Der Lerninput der dritten Lernaufgabe besteht aus Beobachtungen über dreistellige Verben. Wie in den beiden vorherigen Lernexperimenten sind alle in (5-16) aufgeführten Verbklassen durch jeweils ein Verb vertreten: geben (Nominativ-NP, Dativ-NP, Akkusativ-NP), lehren (Nominativ-NP, Akkusativ-NP, Akkusativ-NP), unterziehen (Nominativ-NP, Akkusativ-NP, Dativ-NP), bezichtigen (Nominativ-NP, Akkusativ-NP, Genitiv-NP), überreden (NominativNP, Akkusativ-NP, VP mit zw-Infinitiv), versehen (Nominativ-NP, Akkusativ-NP, Dativ-PP), legen (Nominativ-NP, Akkusativ-NP, Akkusativ-PP). (5-23) zeigt die Hierarchie, die unter Beibehaltung der Such- und Auswahlkriterien der zweiten Lernaufgabe induziert wurde. (5-23)
ERWORBENE HIERARCHIE FÜR DREISTELLIGE VERBEN
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Durchschnittliche Komplexität der Vererbungsverweise 3. Unterschiedliche Verweisarten 4. Anzahl der Ebenen Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie 2. Anzahl der rechten Seiten mit globalem Anteil
181
Die sieben präsentierten dreistelligen Verben sind in zwei große Klassen gruppiert, die sich aufgrund ihres dritten Komplements voneinander unterscheiden. Die Verben der Klasse NPnom-NPacc-NPacc haben als drittes Komplement eine nicht-expletive NP, während die Verben der Klasse N P n o m - N P a c c - P P a c c typischerweise eine PP fordern. Die Verben innerhalb der ersten Klasse unterscheiden sich durch die Kasus ihrer zweiten und dritten Komplemente voneinander. Geben zeichnet sich dadurch aus, daß als zweites Komplement eine Dativ-NP gefordert wird. Da alle anderen Verben dieser Gruppe als zweites Komplement eine Akkusativ-NP fordern, bildet der Dativ hier eine Ausnahme und erbt nicht den Default-Kasus. Für das dritte Komplement gilt, daß zwei der aufgeführten Verben
182 ebenfalls eine Akkusativ-NP subkategorisieren, während die anderen beiden Verben jeweils eine NP mit anderem Kasus fordern. Daher wurde der Akkusativ als Default-Kasus für das dritte Komplement inferiert. Die Knotendefinitionen derjenigen Verben, die davon abweichen ( U n t e r z i e h e n und B e z i c h t i g e n ) , spezifizieren den Kasus ihres dritten Komplementes daher explizit (Dativ bzw. Genitiv). Da L e h r e n in jeder Beziehung die Default-Eigenschaften aufweist, erbt es alle Informationen vom übergeordneten Knoten N P n o m - N P a c c NPacc.15 Die Verben der zweiten Klasse subkategorisieren typischerweise eine PP als drittes Komplement. Obwohl dies für U e b e r r e d e n nicht zutrifft und der Knoten daher diese Eigenschaft nicht erbt, befindet sich das Verb in dieser Klasse, da es keine Verben im Lerninput gibt, denen es ähnlicher ist. L e g e n und V e r s e h e n subkategorisieren beide eine PP, jedoch mit unterschiedlichem Kasus und Präposition. Die Tatsache, daß der Akkusativ hier wiederum als Default erachtet wird und L e g e n dementsprechend den Kasus seiner PP nicht spezifiziert, ist dadurch begründet, daß unter den ähnlichsten Objekten von L e g e n auch eines ist, nämlich L e h r e n , dessen Kasus seines dritten Komplementes ebenfalls der Akkusativ ist. Das erste und zweite Komplement ist für alle Verben der Klasse N P n o m - N P a c c - P P a c c gleich und wird daher vom übergeordneten Knoten geerbt. Der Großteil der Informationen ist von den beiden Klassen weiter abstrahiert und im obersten Knoten VERB_DREI spezifiziert. Hierzu gehört die Kategorieinformation, alle Informationen über das erste Komplement der Verben (für alle eine nicht-expletive NominativNP), alle Informationen über das zweite Komplement der Verben (per Default eine nichtexpletive Akkusativ-NP) und der Kasus des dritten Komplementes (per Default Akkusativ). Die erworbene Hierarchie zeigt, daß dreistellige Verben eine weitgehend homogene Gruppe bilden, in der jeweils nur einzelne Eigenschaften von Verben Ausnahmen bilden.
5.2.3.4
Ein-, zwei- und dreistellige Verben
Die abschließende Lernaufgabe untersucht, welche Taxonomie erworben wird, wenn der Lerninput Verben mit unterschiedlicher Stelligkeit enthält. Da hier nicht die Klassenbildung innerhalb von Verbgruppen mit gleicher Stelligkeit untersucht wird (die Fragestellung der vorangegangenen Lernaufgaben), ist es nicht notwendig, alle in den Tabellen (5-14)-(5-16) aufgeführten Verben zu berücksichtigen. Stattdessen enthält der Lerninput die folgende repräsentative Auswahl aus den drei Gruppen: schlafen und regnen (einstellig), lieben, helfen,
^ An dieser Stelle widersprechen die inferierten Default-Spezifikationen den linguistischen Intuitionen, die hier wohl, aufgrund der Häufigkeitsverhältnisse, für ein Verb wie geben (Nominativ-NP, Dativ-NP, Akkusativ-NP) als Default-Verb sprechen. Die Daten liefern jedoch keine formalen Kriterien, aufgrund derer ein solcher Schluß zulässig wäre. Die Art der Regeln zur Bildung abstrakter Sätze ist so konzipiert, daß möglichst stark über den Daten generalisiert wird. Dementsprechend wäre eine Hierarchie mit den linguistisch intuitiveren Default-Spezifikationen auch redundanter als die in (5-23) abgebildete, indem alle Knotendefinitionen unter NPnom-NPacc-NPacc außer Geben umfangreicher wären.
183 denken, abhängen, versuchen, können und sein (zweistellig), geben, bezichtigen, überreden, versehen und legen (dreistellig). Zur Richtung der Suche und zur Auswahl der Ergebnishypothesen wurden im wesentlichen dieselben Kriterien verwendet wie in den zwei vorangegangenen Lernaufgaben. Als zusätzliches Suchkriterium wurde noch die durchschnittliche Anzahl unterschiedlicher Verweise pro Objekt berücksichtigt (an dritter Stelle). Die Auswahlkriterien wurden um den Anteil der Sätze ohne Knotenverweis ergänzt (mit niedrigster Priorität). Unter Beibehaltung aller übrigen Kriterien wurde die folgende DATR-Theorie inferiert. (5-24)
ERWORBENE HIERARCHIE FÜR SYNTAKTISCHE VERBKLASSEN
Suchkriterien: 1. Anzahl unterschiedlicher Vererbungsverweise 2. Durchschnittliche Komplexität der Vererbungsverweise 3. Durchschnittliche Anzahl unterschiedlicher Verweise pro Objekt 4. Unterschiedliche Verweisarten 5. Anzahl der Ebenen Auswahlkriterien: 1. Durchschnittliche Größe der Objekte der Theorie 2. Anzahl der rechten Seiten mit globalem Anteil 3. Anteil der Sätze ohne Knotenverweis
184
185 Die Hierarchie in (5-24) klassifiziert die Verben des Lerninputs in sechs Klassen, die sich aufgrund ihrer zweiten und dritten Komplemente voneinander unterscheiden. Die Klasse NPnom zeichnet sich dadurch aus, daß ihre Verben nur ein nicht-expletives Komplement subkategorisieren. Die beiden einstelligen Verben schlafen und regnen gehören zu dieser Klasse, wobei der Knoten S c h l a f e n alle Eigenschaften und R e g n e n alle bis auf die Spezifikation des Status seines Komplementes (expletiv) vom übergeordneten Knoten erbt. Die Spezifikation eines nicht-expletiven Komplementes als Default für diese Klasse ist durch die Tatsache begründet, daß zu den ähnlichsten Objekten von S c h l a f e n nicht nur R e g n e n , sondern auch andere Verben gehören, die alle ein nicht-expletives erstes Komplement haben. Im Gegensatz dazu hat R e g n e n als ähnlichstes Objekt nur S c h l a f e n , so daß der expletive Status des Komplementes als Default nicht in Betracht gezogen wird. Die Verben lieben und helfen wurden gemeinsam in die Klasse N P n o m - N P a c c gruppiert. Diese Klasse hat immer ein nicht-expletives erstes Komplement und typischerweise ein zweites Komplement im Akkusativ. L i e b e n als typische Instanz dieser Klasse erbt alle Informationen vom übergeordneten Knoten und spezifiziert darüberhinaus keine eigenen Eigenschaften. Im Gegensatz dazu spezifiziert der Knoten H e l f e n den Kasus seines zweiten Komplementes, da dieser nicht mit dem Default übereinstimmt. Die Begründung dafür, daß hier Akkusativ und nicht Dativ den Default-Kasus bildet, ist eine andere als im Fall des Komplementstatus der Klasse NPnom. Es gibt sowohl Objekte, die L i e b e n am ähnlichsten sind und als zweites Komplement eine Akkusativ-NP haben (z.B. L e g e n ) , als auch ein Objekt, das zu den ähnlichsten von H e l f e n gehört und als zweites Komplement eine Dativ-NP fordert (Geben). Die Entscheidung für den Akkusativ ist hier somit arbiträr. 16 In Kap. 6 wird jedoch eine Möglichkeit angesprochen, wie eine nicht-arbiträre Auswahl des Akkusativs an dieser Stelle erfolgen könnte. Die Klasse N P n o m - P P a c c umfaßt zweistellige Verben, die eine Nominativ-NP und eine PP subkategorisieren. Die konkreten Verben unterscheiden sich aufgrund des Kasus der PP und der geforderten Präposition. Da — aus denselben Gründen wie bei der Klasse NPnomN P a c c — für den Kasus der PP hier wiederum der Akkusativ als Default inferiert wurde, ist für D e n k e n lediglich die Präposition spezifiziert, während alle anderen Eigenschaften geerbt werden. Im Gegensatz dazu muß für A b h a e n g e n zusätzlich der Kasus der PP angegeben werden. Die dritte Klasse der zweistelligen Verben, NPnom-VP, beinhaltet Verben mit einer VP als zweitem Komplement. Auf diese Klasse verweisen V e r s u c h e n , K o e n n e n und S e i n , die sich lediglich aufgrund der Form der VP voneinander unterscheiden und diese Information daher beim Verb selbst spezifizieren. Die übrigen Eigenschaften werden von der Klasse NPnom-VP geerbt. Die verbleibenden zwei Klassen unterteilen die dreistelligen Verben in solche mit einer NP als drittem Komplement (NPnom-NP-NP) und solche mit einer PP als drittem Komple-
16
Die Auswahl der Theorie mit dem Akkusativ resultiert aus der Beschränkung, bei jedem Inferenzschritt lediglich eine festgelegte Anzahl n der besten Zwischenhypothesen weiter zu bearbeiten. Wie in Kapitel 4.4.1 beschrieben, erfolgt eine arbiträre Auswahl (die ersten n), wenn es mehr als n gleich gute Zwischenhypothesen gibt.
186 ment ( N P n o m - N P a c c - P P ) . Die Verben der Klasse NPnom-NP-NP unterscheiden sich aufgrund der Kasus ihrer zweiten und dritten Komplement-NP, die jeweils beim Verb spezifiziert werden. Für diese Klasse wurde kein Kasus als Default für das zweite und dritte Komplement inferiert, da sich die beiden Verben dieser Klasse nur gegenseitig am ähnlichsten sind und es somit kein ähnlichstes Objekt mit dem gleichen Wert für einen der Kasus gibt. Die Verben der letzten Klasse ( N P n o m - N P a c c - P P ) unterscheiden sich nur aufgrund ihres dritten Komplementes. Typischerweise handelt es sich hierbei um eine Präpositionalphrase, bei der Kasus und Präposition je nach Verb variieren und bei den entsprechenden Knoten selbst spezifiziert werden. Überreden subkategorisiert zwar keine PP, sondern eine VP mit ZK-Infinitiv, ist aber ansonsten den Verben dieser Klasse am ähnlichsten und wird deshalb mit ihnen zusammen gruppiert, wie schon in der Hierarchie für dreistellige Verben in (5-23). Von diesen sechs Klassen, in die die Verben des Lerninputs eingeteilt sind, ist ein Teil der Informationen weiter abstrahiert und im obersten Knoten VERB repräsentiert. Hierzu gehören beispielsweise die Kategorieinformation und die Informationen über das erste Komplement, das — von einer Ausnahme abgesehen — eine nicht-expletive Nominativ-NP ist. Weiterhin enthält der Knoten VERB die Information, daß das zweite Komplement eines Verbs (typischerweise) eine nicht-expletive Akkusativ-NP ist. Schließlich wird noch spezifiziert, daß die Subkategorisierungsliste mit dem dritten Komplement abgeschlossen ist, d.h. daß es nicht mehr als drei Komplemente gibt. 17 Alle sechs Klassen erben vom obersten Knoten die Kategorie v und die Informationen bezüglich des ersten Komplementes. Die Klasse NPnom erbt keine darüberhinausgehenden Eigenschaften. Bei der Klasse selbst wird der Abschluß der Subkategorisierungsliste spezifiziert. Dagegen erbt die Klasse N P n o m - N P a c c auch die Angaben zum zweiten Komplement von VERB und spezifiziert lediglich das Ende der Subkategorisierungsliste bei der Klasse selbst. Zusätzlich zum Ende der Subkategorisierungsliste repräsentiert die Klasse N P n o m - P P a c c auch die Kategorie ihres zweiten Komplementes, während dessen Kasus, sowie alle übrige Information von VERB geerbt wird. Die Klasse NPnom-VP schließlich erbt wie die Klasse NPnom neben der Kategorie lediglich die Informationen des ersten Komplementes. Die beiden Klassen der dreistelligen Verben erben alle Informationen, bis auf diejenigen zum dritten Komplement vom obersten Knoten VERB. Generell kann die automatisch erworbene DATR-Theorie in (5-24) als sinnvolle Strukturierung der Lerndaten angesehen werden. Die Verben sind zum einen aufgrund ihrer Stelligkeit, zum anderen anhand der Form ihrer Komplemente klassifiziert. Die Knotendefinitionen weisen einige kleinere Schwachpunkte auf, die bereits in den vorangegangenen Lernaufgaben
17
Daß es sich bei dem Satz VERB: == end tatsächlich um den verkürzten Satz VERB: = e n d handelt und nicht etwa um den verkürzten Satz VERB: = end (d.h. Ende der Subkategorisierungsliste nach dem zweiten Komplement) oder um den Satz VERB : = e n d (d.h. Ende der Subkategorisierungsliste nach dem ersten Komplement), ist daraus ersichtlich, daß alle Klassen der ein- und zweistelligen Verben den Abschluß ihrer Subkategorisierungslisten selbst spezifizieren, während die Klassen der dreistelligen Verben diese Information von VERB erben.
187
angesprochen wurden. So wirkt die maximale Reduzierung der Pfade zum Schließen der Subkategorisierungsliste in dieser DATR-Theorie eher störend, was die Konsistenz der inferierten DATR-Theorie bezüglich der Lerndaten jedoch nicht berührt. Desweiteren enthält die Hierarchie einige wenige redundante Informationen, was mit den Regeln zum Aufbau einer Hierarchie zusammenhängt. So könnte beispielsweise der Kasus des zweiten Komplementes des Verbs bezichtigen vom obersten Knoten geerbt werden. Da dieser Kasus jedoch keine gemeinsame Eigenschaft der Verben der Klasse NPnom-NP-NP ist, wird diese Eigenschaft nicht vom Lexemknoten abstrahiert. Neben der maschinell erworbenen DATR-Theorie sind aus linguistischer Sicht diverse andere oder zusätzliche Strukturierungen der Domäne denkbar. So könnte man eine DATRTheorie formulieren (wie dies ansatzweise in (3-10) vorgeschlagen wird), in der die Hierarchie nach Stelligkeit aufgebaut ist. D.h. den obersten Knoten der Hierarchie bilden einstellige Verben, von denen dann die zweistelligen Verben erben und von diesen wiederum die dreistelligen. Zunächst einmal ist eine solche Strukturierung mit dem vorgeschlagenen Lernansatz nicht inferierbar, was bereits im Zusammenhang mit der DATR-Theorie für die deutsche Substantivflexion erläutert wurde. Bei einer solchen Strukturierung müßten wiederum Knoten der gleichen konzeptuellen Ebene aufeinander verweisen, was derzeit durch die heuristischen Beschränkungen im Zusammenhang mit den Regeln zur Bildung abstrakter Sätze ausgeschlossen ist. Abgesehen von der Tatsache, daß eine solche Strukturierung mit dem vorgeschlagenen Lernansatz nicht möglich ist, erscheint sie angesichts der Lerndaten auch redundanter, da bei einer solchen DATR-Theorie jeweils mehr Informationen in den einzelnen Klassen spezifiziert werden müßten und weniger geerbt werden könnten. Im Gegensatz dazu strukturiert die maschinell erworbene DATR-Theorie die Daten auf eine Weise, in der der größte Teil der Informationen geerbt werden kann. Darüberhinaus ist eine weitere Gruppierung der sechs inferierten Verbklassen zu den Klassen der ein-, zwei- und dreistelligen Verben denkbar, was zu einer stärker hierarchisch strukturierten Theorie führt. Die Ähnlichkeitsmaße zwischen den sechs inferierten Klassen sind jedoch nicht so ausgeprägt, daß sie in dieser Weise (oder auch in einer anderen Weise) weiter gruppiert werden können. So ist beispielsweise das ähnlichste Objekt der Klasse NPnomN P a c c die Klasse N P n o m - N P a c c - P P und nicht eine der beiden anderen Klassen zweistelliger Verben. An dieser Stelle wirkt sich die Art der Komplemente stärker als die Stelligkeit auf die Strukturierung der Domäne aus.
6 Schlußbemerkungen
Die beiden Gruppen von Lernexperimenten in Kap. 5 haben gezeigt, daß mit dem vorgeschlagenen Lernansatz linguistisch sinnvolle Strukturierungen der jeweiligen Domänen inferiert werden können. Bei der Diskussion der Lernergebnisse zeigte sich, daß diese eine Reihe von Charakteristika aufweisen, die durch das verwendete Lernverfahren bedingt sind. Dieses Kapitel geht detaillierter auf die Eigenschaften der induzierten DATR-Theorien ein. Hierbei sind einerseits die Strukturierungen der Domänen und die dafür verwendeten DATR-Mittel, andererseits die im Lernverfahren ausgewählten Kriterien von besonderem Interesse. Außerdem werden einige offene Fragen und Erweiterungsmöglichkeiten angesprochen.
6.1
Strukturierung der Domänen
Die für die beiden linguistischen Bereiche durchgeführten Lernaufgaben haben durchwegs zu plausiblen, linguistisch interpretierbaren Strukturierungen der Domänen geführt, die Verallgemeinerungen über den Daten erfassen und wenig Redundanz enthalten. Die erworbenen Vererbungsbeziehungen können zu vorhandenen linguistischen Annahmen in Beziehung gesetzt werden, was beispielsweise dadurch zum Ausdruck kommt, daß die gebildeten abstrakten Knotendefinitionen manuell durch linguistische Klassennamen ersetzt werden konnten. Wie haben sich nun die vorgeschlagene Inferenzstrategie und insbesondere die mit ihr verbundenen Einschränkungen für erlernbare DATR-Theorien auf die Struktur der Ergebnishypothesen ausgewirkt? Zunächst ist auffallig, daß die inferierten Hierarchien eine charakteristische Form aufweisen. Alle erworbenen DATR-Theorien beinhalten ausschließlich Verweise auf Objekte, die eine Ebene höher in der Hierarchie liegen. Wie bereits im Zusammenhang mit den Einschränkungen erläutert (vgl. Kap. 4.5), sind Verweise zwischen Objekten einer Ebene oder auf Objekte niedrigerer Ebenen durch entsprechende Heuristiken ausgeschlossen. Weiterhin werden durch die verwendeten Suchkriterien solche Hierarchien begünstigt (jedoch nicht gefordert), die nur Verweise auf die nächsthöhere Ebene beinhalten. Wird beispielsweise ein abstrakter Satz und ein entsprechender Knotenverweis auf diesen Satz gebildet, wird durch das Suchkriterium der Anzahl unterschiedlicher Vererbungsverweise eine Theorie bevorzugt, die weitere Verweise auf diesen Knoten und nicht etwa neue Verweise auf höher liegende Knoten enthält. Diese Art der Strukturierung führt zu Theorien, die einen stark verzweigenden Charakter mit besonderer Betonung von Klassenbildungen haben, da für Knotenverweise neue, abstrakte Objekte gebildet werden müssen. Da bei linguistischen Beschreibungen insbesondere die Repräsentation abstrakter Konzepte als Generalisierungen über den Daten von Interesse ist, werden die für die behandelten Domänen inferierten Strukturierungen hier als vorteilhaft beurteilt.
189 Darüberhinaus kommt in einer derart strukturierten DATR-Theorie zum Ausdruck, welche abstrakten Konzepte sich auf einer konzeptuellen Ebene befinden, was insbesondere bei wenig untersuchten linguistischen Bereichen von Vorteil sein dürfte. Im Gegensatz dazu werden in einer DATR-Theorie, die auch Knotenverweise auf Objekte der gleichen Ebene — oder sogar auf Objekte niedrigerer Ebenen — enthält, die konzeptuellen Ebenen verwischt, was die Theorie weniger transparent werden läßt. Dennoch enthalten manuell erstellte DATRTheorien auch Verweise auf Objekte der gleichen konzeptuellen Ebene (vgl. beispielsweise die Hierarchie in (5-13)). Dies erscheint insbesondere dann sinnvoll, wenn eines der Objekte in allen Eigenschaften der übergeordneten Knotendefinition entspricht und in diesem Sinne ein "Default-Objekt" darstellt. In der in (6-1) abgebildeten Hierarchie spezifiziert A I beispielsweise keine eigenen Informationen sondern erbt alles vom übergeordneten Knoten A4. Da es außer der konzeptuellen Ebene keine Unterschiede zwischen A I und A4 gibt, erscheint eine eigene Knotendefinition für A I (bzw. A4) hier redundant. Für solche Fälle ist ein einfacher Nachbearbeitungsschritt für unsere induzierten DATR-Theorien denkbar, der zwei Knotendefinitionen für einen Mutter- und einen Tochterknoten verschmelzt. Das Ergebnis der Verschmelzung der beiden Knotendefinitionen A I und A4 ist in (6-2) abgebildet. (6-1)
H I E R A R C H I E MIT D E F A U L T - O B J E K T
190 (6-2)
VERSCHMELZUNG VON KNOTENDEFINITIONEN
Ein solcher Nachbearbeitungsschritt zum Verschmelzen von Knotendefinitionen muß zweierlei leisten. Zum einen müssen Default-Objekte (in diesem Fall A I ) identifiziert und aus der Theorie entfernt werden, zum anderen müssen auch die entsprechenden Knotenverweise und Knoten-Pfad-Verweise auf das jetzt nicht mehr vorhandene Objekt durch neue Verweise auf den Mutterknoten (hier A4) ersetzt werden. Durch die Verschmelzung der beiden Knotendefinitionen A I und A4 der Hierarchie in (6-1) entsteht eine Taxonomie (6-2), in der (a) Objekte unterschiedlicher Ebenen vom selben Knoten erben und (b) Knotenverweise auf Knoten der gleichen konzeptuellen Ebene vorkommen. Dagegen sind, auch unter Verwendung eines solchen Nachbearbeitungsschritts, weiterhin keine Verweise auf Objekte konzeptuell niedrigerer Ebenen möglich, da dies hier als im Widerspruch zu einer Hierarchiebildung stehend angesehen wird. Neben der Generierung einer charakteristischen Vererbungsstruktur wirken sich die konstruktiven Transformationsregeln auch auf die Inferenz von Default-Information aus. Durch die Bildung eines abstrakten Satzes wird die entsprechende Information an einer höheren Position in der Hierarchie angesiedelt und kann als Default-Information von Tochterknoten geerbt werden. Die Regeln zur Hierarchiebildung sind hierbei so konzipiert, daß es ein formales Kriterium für die Abstraktion eines Satzes gibt, nämlich das Vorhandensein des gleichen Satzes im ähnlichsten Objekt. Auf diese Weise ist gesichert, daß möglichst stark über den Objekten generalisiert wird, so daß die entstehende Theorie wenig Redundanz enthält. Die so
191 inferierten Defaults scheinen jedoch nicht immer mit linguistischen Intuitionen übereinzustimmen, die — zumindest teilweise — auf Häufigkeitsverteilungen basieren. Das gilt insbesondere für die Fälle, in denen die Abstraktion eines Satzes nicht möglich ist, also eine bestimmte Information nicht als Default-Information in einem höheren Knoten spezifiziert wird. Um solchen linguistischen Intuitionen besser gerecht zu werden, ist es denkbar, den vorgeschlagenen Lernansatz um die Berücksichtigung von Häufigkeitsinformationen zu erweitern. Eine Möglichkeit besteht in der Modifikation der Heuristik zur Bildung abstrakter Sätze. Während derzeit ein Satz nur dann von einem Objekt abstrahiert werden kann, wenn das ähnlichste Objekt diesen Satz auch enthält, könnte eine Erweiterung darin bestehen, daß dies auch zulässig ist, wenn das Objekt die meisten Instanzen (im Vergleich zu den ähnlichsten Objekten) hat. Das Beispiel in (6-3) illustriert einen solchen Fall. In dieser Hierarchie sind nur die bisher gebildeten abstrakten Sätze dargestellt. Es wird angenommen, daß die Theorie darüberhinaus 20 Objekte, die auf AI verweisen und 4 Objekte, die auf A2 verweisen, enthält. Diese sind hier nicht dargestellt. Mit den vorgestellten Transformationsregeln könnte weder der abstrakte Satz A3 : = f o o l noch A3 : < f o o > = f o o 2 gebildet werden, da die beiden ähnlichsten Objekte sich in diesem Satz voneinander unterscheiden. Unter der Berücksichtigung der eben erläuterten Häufigkeitsverhältnisse könnte aber der Satz A3 : < f o o > = f o o l gebildet werden, da auf AI mehr Objekte verweisen als auf A2. Nach Reduktion durch den Default-Algorithmus entsteht dann eine Theorie (HEa in (6-4)), die im Vergleich zu der herkömmlich gebildeten Default-Theorie HEb im obersten Knoten mehr Default-Informationen spezifiziert und zwar solche, die den HäufigkeitsVerhältnissen der Daten entsprechen. (6-3)
ABSTRAKTION VON SÄTZEN
A3 : A3 :
- v i . = v 2 .
AI: AI: AI:
< a b > == A 3 . == A3 . = f o o l .
A2 : A2 : A2:
< a b> == A 3 . == A 3 . = foo2
(6-4)
ABSTRAKTION VON SÄTZEN AUFGRUND VON HÄUFIGKEITSVERHÄLTNISSEN
A3: A3 : A3 :
= = v 2 . < f o o > == f o o l .
AI:
A2: A2 :
H
== v i .
= = A3 .
== A3. = foo2.
Eb:
A3 : A3 :
== v i . = = v 2 .
AI: AI:
A2 : A2:
= = A3 . < f o o > == f o o l = = A3 . = foo2.
192 Die Theorie H ^ in (6-4) ist weder redundanter noch weniger redundant als die Theorie HEb ohne die Abstraktion des Satzes. Im Zusammenhang mit der Bildung des abstrakten Satzes A 3 : < f o o > = f o o l entsteht allerdings eine Knotendefinition für AI, die mit derjenigen von A3 nach den oben angestellten Überlegungen verschmelzt werden kann. Dadurch, daß Häufigkeitsinformationen berücksichtigt und Knotendefinitionen verschmolzen werden, kann so letztlich eine redundanzärmere Theorie entstehen. Eine weitere Möglichkeit, Häufigkeitsinformationen zu berücksichtigen, bietet sich im Rahmen der Bewertungskriterien. Während derzeit die Abstraktion eines Satzes bei mehreren gleich gut bewerteten Möglichkeiten arbiträr sein kann (vgl. die Hierarchie in (5-24)), könnten die unterschiedlichen Zwischenhypothesen daraufhin verglichen werden, wie oft die Definitionsteile der abstrakten Sätze einer Theorie insgesamt vertreten sind. Hier wären dann solche Theorien, in denen die Definitionsteile der abstrakten Sätze häufig vorkommen, zu bevorzugen. Während in der Hierarchie in (5-24) beispielsweise die Entscheidung für die Abstraktion des Akkusativ als Default-Kasus der Klasse N P n o m - N P a c c arbiträr ist und Dativ ebensogut als Default-Kasus gewählt werden könnte, sprechen die Häufigkeitsverhältnisse für den Akkusativ. Der Akkusativ als Kasus für das zweite Komplement wird insgesamt in sechs Verbdefinitionen spezifiziert, der Dativ dagegen nur dreimal. Die Häufigkeitsverhältnisse liefern hier somit ein Argument für die Abstraktion des Akkusativ. In einer hier nicht durchgeführten, erweiterten Lernaufgabe mit einer größeren, repräsentativ verteilten Anzahl an Verben im Lerninput würde die Entscheidung unter Berücksichtigung der Häufigkeitsverhältnisse ebenfalls für den Akkusativ als Default-Kasus für das zweite Komplement sprechen, da die meisten deutschen Verben zweistellig sind und der weitaus größte Teil dieser Verben ein Akkusativobjekt subkategorisiert (vgl. Eisenberg 1986). Neben den Transformationsregeln wirkt sich auch der Default-Algorithmus auf die Form der inferierten DATR-Theorien aus. Die Knotendefinitionen sind aufgrund des Default-Algorithmus maximal reduziert. Obwohl dies bei den Lernaufgaben aus dem Bereich der syntaktischen Verbklassen teilweise zu Spezifikationen geführt hat, die die Transparenz der DATRTheorie leicht beeinträchtigen, ist diese maximale Reduktion jedoch generell wünschenswert, da sie einer Minimierung an Redundanz entspricht und so ein Maximum an Generalisierungen erfaßt. Trotz der gezeigten, guten Lernergebnisse, führt die Verwendung einer heuristischen Lernstrategie unter Umständen dazu, daß nicht immer die best mögliche DATR-Theorie für eine gegebene Datenmenge inferiert wird. Dies wurde beispielsweise bei den Lernergebnissen der Substantivflexion deutlich. So enthalten die Knotenspezifikationen für feminine schwache Substantive (vgl. (5-9)) beispielsweise einen gequoteten Pfadverweis, wo ein lokaler Pfadverweis ausreichend wäre. Bei einer vollständigen Suche könnte diese Theorie zugunsten einer Theorie mit entsprechenden lokalen Verweisen abgelehnt werden. Aufgrund der verwendeten Kriterien zur Richtung der Suche war die Inferenz der optimalen Theorie, gemessen an den globalen Auswahlkriterien, hier nicht möglich. Die in diesem Sinne nicht optimalen Ergebnishypothesen strukturieren die Domänen jedoch nicht weniger gut als die best möglichen Theorien und beeinträchtigen die Transparenz daher nicht. Für die durchgeführten Lernaufgaben sind die zu verzeichnenden Abstriche minimal und beispielsweise von einem Linguisten leicht zu erkennen und gegebenenfalls auch manuell zu korrigieren. Gerade bei wenig bear-
193 beiteten linguistischen Fragestellungen ist eine Grundstrukturierung der Domäne von entscheidendem Interesse und kleinere Abstriche der oben angeführten Art kaum von Bedeutung.
6.2
Verwendete DATR-Mittel
Die in den induzierten DATR-Theorien verwendeten Sprachkonstrukte bilden eine Teilmenge des Sprachumfangs von DATR. Dies hängt zum einen mit den in Kap. 4.5 erläuterten Einschränkungen für erlernbare DATR-Theorien zusammen, ist teilweise aber auch davon unabhängig motiviert. Aus den in Kapitel 4.5 erläuterten Gründen war es nicht möglich, evaluierbare Pfade beim Erwerb von DATR-Theorien zu berücksichtigen. Während diese Einschränkung keine Auswirkungen auf die Ergebnisse der Lernaufgaben aus dem Bereich der Verbklassen hatte, konnte ein systematischer Zusammenhang bei der Substantivflexion nicht erfaßt werden: Die Tatsache, daß die Bildung der Form für Genitiv Singular grundsätzlich vom Genus abhängt, kann nur durch evaluierbare Pfade repräsentiert werden und ist daher in den entsprechenden automatisch erworbenen DATR-Theorien nicht erfaßt. Der Ausschluß von evaluierbaren Pfaden machte sich jedoch nur an dieser Stelle bemerkbar und beeinträchtigte ansonsten die Expressivität der erlernten DATR-Theorien nicht. Hier sind weitere Lernexperimente erforderlich, um ein genaueres Bild davon zu erhalten, ob die evaluierbaren Pfade ein unverzichtbares Beschreibungsmittel für natürliche Sprache darstellen. 1 Durch die Einschränkungen im Zusammenhang mit globalen Verweisen können keine DATR-Theorien inferiert werden, die einen mehrfachen Wechsel der globalen Umgebung beinhalten. Während bei den Lernaufgaben zur syntaktischen Verbklassifikation die erlernten Theorien keinerlei Wechsel der globalen Umgebung beinhalten, ist dieses DATR-Mittel zentral zur Erfassung von Generalisierungen im Bereich der Substantivflexion. Durch globale Pfade wird hier in abstrakten Klassen auf Formen (speziell Wurzel) konkreter Lexeme Bezug genommen. Ohne das Mittel der globalen Pfade wäre eine Klassenbildung hier nicht möglich gewesen. Es hat sich jedoch gezeigt, daß für diese Zwecke der einmalige Wechsel der globalen Umgebung ausreichend ist. Die globalen Pfadverweise werden ausschließlich dazu verwendet, um von höheren Ebenen auf Informationen des ursprünglichen Anfragekontextes
Während derzeit eine generelle Erweiterung des Lernverfahrens um evaluierbare Pfade ausgeschlossen zu sein scheint, könnte möglicherweise die Berücksichtigung einer eingeschränkten Form von evaluierbaren Pfaden weniger problematisch sein. Die für die Lernexperimente benötigten evaluierbaren Pfade zeichnen sich dadurch aus, daß sich jeweils nur zwei Sätze einer Knotendefinition bedingen, während beispielsweise keine verschachtelten evaluierbaren Pfade oder evaluierbare Pfade mit mehreren Elementen notwendig wären. Es ist denkbar, diese eingeschränkte Form von evaluierbaren Pfaden durch Transformationsregeln zu gewinnen, die jeweils auf einem Satzpaar operieren, während die vorgestellten Regeln nur einzelne Sätze transformieren. Die Frage, ob eine Formulierung solcher Regeln durchführbar und sinnvoll ist, bildet einen zukünftigen Untersuchungsgegenstand.
194 zurückzugreifen. An keiner Stelle wurden fehlende Generalisierungen aufgrund der Unmöglichkeit des mehrfachen Wechsels der globalen Umgebung festgestellt. Dies könnte ein Indiz dafür sein, daß der mehrfache Wechsel der globalen Umgebung unter Umständen für die Beschreibung natürlicher Sprache nicht benötigt wird. Hier müßten weitere Lernaufgaben zusätzliche Evidenz liefern, um diese Annahme zu erhärten. Neben diesem beschränkungsbedingten Verzicht auf bestimmte Sprachkonstrukte, finden auch nicht alle zur Verfügung stehenden Mittel in den erlernten Theorien Verwendung. So beinhaltet beispielsweise keine der Ergebnishypothesen Verweise in Form von Knoten-PfadPaaren (lokal oder global). Zwar wurden während der Durchführung der Lernexperimente durchaus auch Theorien mit Knoten-Pfad-Verweisen inferiert, jedoch wurden diese später unter Verwendung von anderen (oder zusätzlichen) Kriterien zugunsten von Theorien ohne Knoten-Pfad-Verweise abgelehnt. Dies war beispielsweise bei der Lernaufgabe zu starken und schwachen Substantiven der Fall (vgl. Abb. (5-12)). Natürlich kann man dafür argumentieren, daß diese Auswahl durch die Erwartungen desjenigen, der das Lernexperiment durchführt, bedingt ist, doch zeigt dieses Ergebnis zumindest, daß Knoten-Pfad-Verweise im Gegensatz zu anderen Sprachkonstrukten nicht unverzichtbar für die Beschreibung der behandelten Domänen sind. Während lokale Knotenverweise zu den zentralen Beschreibungsmitteln für die durchgeführten Lernaufgaben gehören — ohne sie wäre beispielsweise der Aufbau einer Hierarchie unmöglich — gilt dies nicht für globale Knoten. Sie werden in keiner der erlernten DATRTheorien verwendet. Auch dies könnte ein Hinweis dafür sein, daß globale Knoten möglicherweise verzichtbar für die Beschreibung natürlicher Sprache sind.
6.3
Verwendete Bewertungskriterien
Eine entscheidende Rolle bei der Inferenz der DATR-Theorien spielen die gewählten Suchund Auswahlkriterien. Zur Veranschaulichung der bei den Lernexperimenten verwendeten Kriterien sind in der nachfolgenden Tabelle die verwendeten Kriterien (hier als ihre Indikatoren, vgl. (4-114)) und ihre Priorität in den durchgeführten Lernaufgaben zusammengestellt. Die obere Hälfte der Tabelle umfaßt die verwendeten Suchkriterien, die untere Hälfte die Auswahlkriterien. Die Lernaufgaben sind folgendermaßen kodiert: Sl: Flexion des Substantivs Herr S2: Flexion der Substantive Herr und Affe S3: Flexion schwacher Substantive S4: Flexion schwacher und gemischter Substantive S5: Flexion starker Substantive S6: Substantivflexion VI: Klassifikation einstelliger Verben V2: Klassifikation zweistelliger Verben V3: Klassifikation dreistelliger Verben V4: Verbklassifikation
195 (6-5)
VERWENDETE SUCH- UND AUSWAHLKRITERIEN
Kriterien
S1
S2
S3
S4
S5
S6
VI
V2
V3
V4
Anzahl unterschiedlicher Vererbungsverweise
1
1
1
1
1
1
1
1
1
1
0 Anzahl unterschiedlicher Verweise pro Objekt Komplexität der Verweise
3
2
2
2
2
2
2 2
0 Komplexität der Verweise Anzahl der Ebenen
3
Unterschiedliche Verweisarten 0 Objektgröße
1
Sätze mit ausschließlich atomaren Werten
2
Anzahl unterschiedlicher rechter Seiten
1
1
1
2
2
1
3
Anzahl der Sätze mit Knoten-Pfad-Verweisen
1
Anteil der Sätze ohne Knotenverweis
2
Anzahl rechter Seiten mit globalen Verweisen
1
2
2
2
4
4
5
3
3
4
1
1
1
3
2
2
2
2
Die Tabelle in (6-5) läßt deutliche Tendenzen für die Wahl der Such- und Auswahlkriterien erkennen. So ist beispielsweise das Suchkriterium mit der höchsten Priorität für alle durchgeführten Lernaufgaben die Anzahl unterschiedlicher Vererbungsverweise. Wie Kap. 4.4.3.2 gezeigt hat (vgl. (4-109)), kann eine DATR-Theorie mit wenig unterschiedlichen Vererbungsverweisen vom Default-Algorithmus stärker reduziert werden als eine Theorie mit vielen unterschiedlichen Verweisen. Da eine große Reduktion einer starken Generalisierung entspricht, führen Zwischenhypothesen mit wenig unterschiedlichen Verweisen zu Ergebnishypothesen, die stark über den beobachteten Daten generalisieren. Ferner wurde gezeigt, daß bei Theorien mit homogenen rechten Seiten stärker von den Daten abstrahiert werden kann, was zur
196 Klassen- und Hierarchiebildung beiträgt. Da solche Generalisierungen in der Regel für die Beschreibung aller linguistischen Phänomene angestrebt werden, ist es nicht verwunderlich, daß alle Lernaufgaben die Minimierung der Anzahl unterschiedlicher Vererbungsverweise als erstes Suchkriterium einsetzen. Die Homogenität der rechten Seiten einer DATR-Theorie wird bei den Lernaufgaben der Verbklassifikation zusätzlich durch die Wahl des Suchkriteriums der unterschiedlichen Verweisarten (mit der Priorität 3 bzw. 4) sowie bei V4 durch die mittlere Anzahl unterschiedlicher Verweise pro Objekt (mit der Priorität 3) unterstützt. Auch in der Wahl des zweiten Suchkriteriums lassen sich Gemeinsamkeiten zwischen den beiden Gruppen von Lernexperimenten erkennen. Hier werden jeweils solche Hypothesen bevorzugt, die einfache Verweise, d.h. kurze Pfade und kurze Knoten-Pfad-Paare, enthalten. Die beiden Gruppen von Lernaufgaben unterscheiden sich lediglich darin, daß für die Substantivflexion die Gesamtkomplexität und für die Verbklassen die mittlere Komplexität herangezogen wird. Wie in Kap. 4.4.3.1 erläutert, tragen auch einfache Verweise zu stärker reduzierten und transparenteren DATR-Theorien bei. Schließlich wird bei einigen Lernaufgaben, insbesondere bei der Verbklassifikation, das Suchkriterium der Ebenenanzahl verwendet. Bei der Durchführung der Lernexperimente zeigte sich, daß Zwischenhypothesen mit vielen Ebenen unter Umständen die Gruppierung von Objekten verhindern (vgl. (4-97) und (5-22)), weshalb während der Suche flache Theorien zu bevorzugen sind. Der Einsatz dieses Kriteriums erwies sich allerdings nur dann als notwendig, wenn als Ergebnishypothese nicht ohnehin eine relativ flache Hierarchie inferiert wurde. Daher findet dieses Kriterium nur bei S6 (einzige Hierarchie mit vier Ebenen) und V2-V4 (Hierarchien mit drei Ebenen, für VI nur zwei Ebenen) Verwendung. In diesem Zusammenhang ist weiterhin festzustellen, daß bei den durchgeführten Lernexperimenten Aufgaben von größerer Komplexität auch mehr Suchkriterien benötigen, um ein zufriedenstellendes Ergebnis zu liefern. Dies kann dadurch begründet werden, daß für komplexe Lernaufgaben mit Daten, die sich in vielen Eigenschaften voneinander unterscheiden, auch viele unterschiedliche Zwischenhypothesen generiert werden können, die sich ebenfalls in vielen Kriterien voneinander unterscheiden. Zusammenfassend kann für die Suchkriterien festgehalten werden, daß sie die Homogenität von Vererbungsverweisen, die Komplexität von Vererbungsverweisen und die Tiefe einer DATR-Theorie betreffen. Als herausragendes Auswahlkriterium bei allen durchgeführten Lernaufgaben ist die durchschnittliche Objektgröße zu verzeichnen. Bei allen Lernaufgaben außer S6 ist dies das Kriterium mit der höchsten Priorität. Für die Aufgabe S4 ist es sogar das einzige. Durch die Wahl dieses Kriteriums kommt die Tatsache zum Ausdruck, daß kleine Knotendefinitionen starke Generalisierungen über den beobachteten Daten erfassen, was eine wesentliche Anforderung an linguistische Beschreibungen darstellt. Die weiteren Auswahlkriterien sind für die unterschiedlichen Gruppen von Lernaufgaben nicht so homogen wie die Suchkriterien. Selbst die einzelnen Lernaufgaben aus dem Bereich der Substantivflexion variieren stark in der Wahl der Auswahlkriterien. Sie betreffen zum einen die Präferenz von Theorien mit bestimmten Vererbungsbeziehungen (Minimierung der Sätze mit ausschließlich atomaren Werten, Minimierung der Sätze mit Knoten-Pfad-Verweisen, Minimierung des Anteils der Sätze ohne Knotenverweis), zum anderen die Minimierung
197 der Anzahl unterschiedlicher rechter Seiten. Dagegen verwenden alle Lernaufgaben aus dem Bereich der Verbklassifikation die Minimierung der rechten Seiten mit globalen Verweisen als zweites Auswahlkriterium. Dieses Kriterium dient dazu, Theorien mit globalen Verweisen dann abzulehnen, wenn entsprechende Theorien mit lokalen Verweisen dieselben Relationen ausdrücken. Schließlich ist noch festzustellen, daß auch für die Auswahlkriterien gilt, daß komplexere Lernaufgaben mehr Kriterien benötigen als einfache Aufgaben. Mit der Formulierung der Such- und Auswahlkriterien wurde eine Möglichkeit geschaffen, DATR-Theorien formal miteinander zu vergleichen, um schließlich eine gute Ergebnishypothese zu identifizieren. Die Verwendung dieser Kriterien muß jedoch nicht auf die Bewertung maschinell inferierter DATR-Theorien beschränkt bleiben, da sich vom formalen Standpunkt aus maschinell erzeugte DATR-Theorien nicht von solchen unterscheiden, die manuell angefertigt werden. Die Auswahlkriterien könnten ebensogut als eigenständige Komponente dazu verwendet werden, eine manuell erstellte Theorie im Hinblick auf verschiedene Charakteristika zu bewerten, wie auch verschiedene manuell erstellte Theorien miteinander zu vergleichen oder auch eine maschinell induzierte DATR-Theorie einer manuell erstellten gegenüberzustellen. 2 Ein solches Werkzeug würde es dem Linguisten ermöglichen, anhand objektiver Kriterien Aussagen über seine DATR-Theorie zu formulieren, und die formalen Kriterien zu identifizieren, die zu einer von ihm intuitiv als gut bewerteten Theorie führen. Wie bereits in Kap. 4.5 erwähnt, hat das implementierte Lernsystem derzeit einen explorativen Charakter. Dies trifft insbesondere auch auf die Bewertungskriterien zu. Die Wahl geeigneter Such- und Auswahlkriterien erfolgte in der Regel durch eine Reihe von Lernexperimenten mit unterschiedlichen Kriterien, bis eine zufriedenstellende Ergebnishypothese induziert wurde. Die Beurteilung, ob eine DATR-Theorie zufriedenstellend ist, hängt hierbei nicht zuletzt auch von den linguistischen Erwartungen und Annahmen des jeweiligen Betrachters ab. Je nach diesen Erwartungen und Zielen werden andere Linguisten möglicherweise andere Kriterien verwenden, um zu einer für sie befriedigenden Theorie zu kommen. Obwohl sich im Laufe der Zeit bestimmte Kriterien als zentral herauskristallisierten (z.B. die Anzahl unterschiedlicher Verweise als Suchkriterium und die durchschnittliche Objektgröße als Auswahlkriterium), wirkten sich dennoch oft kleine Änderungen in der Wahl der Kriterien stark auf die inferierten Ergebnishypothesen aus. In diesem Zusammenhang ist daher auch der linguistische Status der verwendeten Kriterien zu klären. Die Indikatoren für die formulierten Kriterien ergeben sich aus relativ einfachen Berechnungen über den Daten ohne die Hinzunahme von Hintergrundwissen über die betrachtete Domäne. Es bleibt jedoch zu untersuchen, ob bestimmte Kriterien mit linguistischen Annahmen assoziiert werden können bzw. ob sich theoretische Annahmen direkt durch bestimmte Kriterien formulieren lassen. Zur Klärung dieser Fragen sind weitere Lernaufgaben aus anderen linguistischen Bereichen notwendig, um schließlich ein festeres Kriterieninventar zu definieren und Einstellungen von Kriterien zu gewinnen, die zu bestimmten Strukturierungen der Domänen führen. 2
Um die Auswahlkriterien für beliebige DATR-Theorien verwenden zu können, müßten sie allerdings so erweitert werden, daß auch Theorien mit Sprachkonstrukten bearbeitet werden können, die für automatisch inferierte DATR-Theorien ausgeschlossen wurden (evaluierbare Pfade, Variable). Dies stellt jedoch keine prinzipielle Schwierigkeit dar.
7 Zusammenfassung
In der vorgestellten Arbeit wurde ein Ansatz entwickelt, mit dem linguistisches Wissen in Form von strukturierten Beschreibungen maschinell inferiert wird. Als Repräsentationssprache für das erlernte Wissen wurde DATR gewählt, ein Formalismus zur lexikalischen Wissensrepräsentation, der aktuellen computerlinguistischen Anforderungen entspricht. Den Ausgangspunkt für das Lernverfahren bildet eine Menge von extensionalen DATRSätzen, die Einzeldaten einer bestimmten linguistischen Domäne repräsentieren. Das Ziel besteht in der Transformation dieser Ausgangshypothese in eine DATR-Theorie, die den Daten Rechnung trägt, indem sie Zusammenhänge zwischen ihnen erfaßt und über den konkreten Daten abstrahiert. Der Inferenzprozeß zur Realisierung dieses Ziels basiert auf zwei Hauptkomponenten: einer Menge von Transformationsregeln und einem Default-Algorithmus. Die Transformationsregeln dienen zur Strukturierung der Daten, indem sie Beziehungen zwischen DATRSätzen durch entsprechende Vererbungsverweise herstellen. Mit Hilfe des Default-Algorithmus wird eine gegebene DATR-Theorie zu einer generelleren Theorie verkürzt, die DefaultInformation repräsentiert. Ausgehend von diesen zwei Komponenten wurden zulässige Ableitungen der Ausgangshypothese definiert. Um aus diesen möglichen Ableitungen eine gute Ergebnishypothese zu bestimmen, wurde eine heuristische Lernstrategie entwickelt. Zur Richtung der Suche und zur Auswahl einer guten DATR-Theorie werden Gütekriterien verwendet, um eine DATR-Theorie im Hinblick auf ihre Qualität zu bewerten. Aus dem Inventar der definierten Gütekriterien kann je nach Lernaufgabe eine andere Auswahl oder eine andere Gewichtung der Kriterien getroffen werden. Das entwickelte Lernverfahren wurde auf Lernaufgaben aus zwei unterschiedlichen linguistischen Bereichen angewendet. Die Lernaufgaben der ersten Gruppe betrafen die Inferenz von Substantivklassen aufgrund von flektierten Formen deutscher Substantive. Der zweite Bereich umfaßte die Klassifikation von Verben aufgrund von deren syntaktischen Eigenschaften. Für beide linguistischen Bereiche wurden hierarchische DATR-Theorien inferiert, die die Gebiete linguistisch plausibel strukturieren und Verallgemeinerungen über den Daten erfassen. Die Lernergebnisse zeichnen sich durch verschiedene charakteristische Eigenschaften aus, die insbesondere die Form der inferierten DATR-Theorien betreffen. Außerdem konnten einige Sprachmittel von DATR als zentral für die Beschreibung der beiden Gegenstandsbereiche identifiziert werden, während andere keine Verwendung fanden. Der Vergleich mit manuell erstellten DATR-Theorien deutete einige wünschenswerte Erweiterungen des Lernverfahrens an, wie beispielsweise die Berücksichtigung von Häufigkeitsinformationen.
Literatur
Andry, F. / Fräser, N. / McGlashan, S./ Thornton, S. / Youd, N. (1992). "Making DATR Work for Speech: Lexicon Compilation in SUNDIAL", Computational Linguistics, vol.18 (2), 245-267. Angluin, D. (1980). "Inductive Inference of Formal Languages from Positive Data", Information and Control, vol. 45, 117-135. — / Smith, C.H. (1983). "Inductive Inference: Theory and Methods", ACM Computing Surveys, vol. 15 (3). Barr, A. / Feigenbaum, E.A. (1981). The Handbook of Artificial Intelligence, vol. 1, Chapter II: Search, Addison-Wesley, 19-139. Basiii, R. / Pazienza, M. / Velardi, P. (1993). "Hierarchical Clustering of Verbs", in B. Boguraev / J. Pustejovsky (Hrsg.) Acquisition of Lexical Knowledge from Text, 70-81. Berwick, R.C. (1985). The Acquisition of Syntactic Knowledge, MIT, Cambridge, MA. — (1991). "From Rules to Principles in Language Acquisition: A View from the Bridge", in D. Powers / L. Reeker (Hrsg.) Machine Learning of Natural Language and Ontology (Proceedings AAA/ Spring Symposium), 16-21. Biermann, A.W. / Feldman, J.A. (1972a). "A Survey of Results in Grammatical Inference", in S. Watanabe (Hrsg.), Frontiers of Pattern Recognition, New York: Academic Press, 31-54. — / Feldman, J.A. (1972b). "On the Synthesis of Finite-State Machines from Samples of their Behavior", IEEE Transactions on Computers, vol. C-21, 592-597. Bleiching, D. (1994). "Integration von Morphophonologie und Prosodie in ein hierarchisches Lexikon", in H. Trost (Hrsg.) KONVENS '94: Verarbeitung natürlicher Sprache, Österreichische Gesellschaft für Artificial Intelligence: Wien, 32-41. Bouma, G. (1990). "Defaults in Unification Grammar", Proceedings of the ACL, 165-172. — (1992). "Feature Structures and Nonmonotonicity", Computational Linguistics, vol.18 (2), 183-203. Brachman, R.J. / Schmölze, J.G. (1985). "An Overview of the KL-ONE Knowledge Representation System", Cognitive Science, vol. 9, 171-216. Bobrow, R.J. / Webber, B.L. (1980). "Knowledge representation for syntactic/semantic processing", AAAI-80, 316-323. Bresnan, J. / Kaplan, R. (1982). "Lexical Functional Grammar: a formal system for grammatical representation", in J. Bresnan (Hrsg.) The Mental Representation of Grammatical Relations, Cambridge, MA: MIT Press, 173-281. Cahill, L. (1993). "Morphonology in the Lexicon", Proceedings of the 6th EACL, 87-96. — / Evans, R. (1990). "An application of DATR: the TIC lexicon", Proceedings of the ECAI-90, 120125. Carbonell, J. (1983). "Derivational Analogy in Problem Solving and Knowledge Acquisition", Proceedings of the 1983 International Machine Learning Workshop, 12-18. Carpenter, B. (1993). "Skeptical and Credulous Default Unification with Applications to Templates and Inheritance", in T. Briscoe / V. de Paiva / A. Copestake (Hrsg.) Inheritance, Defaults, and the Lexicon, Cambridge University Press, 13-37. Chomsky, N. (1981). Lectures on Government and Binding, Dordecht: Foris Publications. — / Halle, M. (1968). The sound pattern of English, New York: Harper & Row. Clark, P. / Niblett, T. (1987). "Induction in noisy domains", in I. Bratko / N. Lavrac (Hrsg.) Progress in Machine Learning (Proceedings ofEWSL 87: 2nd European Working Session on Learning), 1130. Computational Linguistics (1992). Vol. 18 (2,3), Special Issue on Inheritance. Cook, C.M. / Rosenfeld, A. / Aronson, A.R. (1976). "Grammatical Inference by Hill Climbing", Information Sciences, vol. 10, 59-80. Corbett, G. / Fräser, N. (1993). "Network Morphology: a DATR account of Russian nominal inflection", Journal of Linguistics, vol. 29, 113-142.
200 Crespi Reghizzi, S. (1972). "An Effective Model for Grammar Inference", Information Processing, vol. 71, North-Holland Publishing Company, 524-529. Daelemans, W. (1988). "A model of dutch morphophonology and its applications", AI Communications, vol. 1 (2), 18-25. — / De Smedt, K. / Gazdar, G. (1992). "Inheritance in Natural Language Processing", Computational Linguistics, vol. 18 (2), 205-218. — / Gillis, S. / Durieux, G. (1994). "The Acquisition of Stress: A Data-Oriented Approach", Computational Linguistics, vol. 20 (3), 421-451. De Smedt, K. (1984). "Using Object-Oriented Knowledge Representation Techniques in Morphology and Syntax Programming", in T. O'Shea (Hrsg.) ECAI-84: Proceedings of the Sixth European Conference on Artificial Intelligence, Amsterdam: Elsevier, 181-184. — / de Graaf, J. (1990). "Structured inheritance in frame-based representation of linguistic categories", in W. Daelemans / G. Gazdar (Hrsg.) Proceedings of the Workshop on Inheritance in Natural Language Processing, Tilburg: ITK, 39-47. Dietterich, T.G. / Michalski, R.S. (1981). "Inductive Learning of Structural Descriptions: Evaluation Criteria and Comparative Review of Selected Methods", Artificial Intelligence, vol. 16 (3), 257294. — / Michalski, R.S. (1984). "A comparative review of selected methods for learning from examples", in R.S. Michalski / J.G. Carbonell / T.M. Mitchell (Hrsg.) Machine Learning: An Artificial Intelligence Approach, vol. 1, Berlin: SpringerVerlag, 41-81. — / London, R. / Clarkson, K. / Dromey, R. (1982). "Learning and inductive inference", in P. Cohen / E. Feigenbaum (Hrsg.) The Handbook of Artificial Intelligence, Los Altos, Calif., 323-512. Dorffner, G. (1991). Konnektionismus: Von neuronalen Netzwerken zu einer "natürlichen" KI, Stuttgart: Teubner. Dresher, B.E. / Kaye, J.D. (1990). "A computational learning model for metrical phonology", Cognition, vol. 34, 137-195. Duda, M. / Gebhardi, G. (1994). "DUTR - A DATR-PATR Interface Formalism", in H. Trost (Hrsg.) KONVENS '94: Verarbeitung natürlicher Sprache, Österreichische Gesellschaft für Artificial Intelligence: Wien, 411-414. Durieux, G. (1992). "Analogical Modelling of Main Stress Assignment in Dutch Simplex Words", in W. Daelemans / D. Powers (Hrsg.) Background and Experiments in Machine Learning of Natural Language (Proceedings First SHOE Workshop), ITK Tilburg University, 197-203. Eisenberg, P. (1986). Grundriß der deutschen Grammatik, Stuttgart: J.B. Metzlersche Verlagsbuchhandlung. Ellison, T.M. (1992). "Learning Vowel Harmony", in W. Daelemans / D. Powers (Hrsg.) Background and Experiments in Machine Learning of Natural Language (Proceedings First SHOE Workshop), ITK Tilburg University, 205-227. Etherington, D.W. / Reiter, R. (1983). "On inheritance hierarchies with exceptions", Proceedings of the 3rd National Conference on Artificial Intelligence (AAAI-83), Washington, DC: W. Kaufmann, 104-108. Evans, R. (1992). "Derivational Morphology in DATR", in L. Cahill / R. Coates (Hrsg.) Sussex Papers from the LAGB Conference, Brighton: University of Sussex. — / Gazdar, G. (1989a). "Inference in DATR", Proceedings of the 4th EACL, 66-71. — / Gazdar, G. (1989b). "The semantics of DATR", in A. Cohn (Hrsg.) Proceedings of the Seventh Conference of the Society for the Study of Artificial Intelligence and Simulation of Behaviour, London: Pitman, 79-87. — / Gazdar, G. (Hrsg.) (1990). The DATR Papers: February 1990 (= Cognitive Science Research Paper 139), School of Cognitive and Computing Sciences, Brighton: University of Sussex. — / Gazdar, G. / Moser, L. (1993). "Prioritized Multiple Inheritance in DATR", T. Briscoe / V. de Paiva / A. Copestake (Hrsg.) Inheritance, Defaults, and the Lexicon, Cambridge University Press, 38-46.
201 Fisher, D. (1987). "Knowledge Acquisition Via Incremental Conceptual Clustering", Machine Learning, vol. 2, 139-172. Flickinger, D. (1987). Lexical Rules in the Hierarchical Lexicon, Ph.D. Dissertation, Stanford University. — / Pollard, C. / Wasow, T. (1985). "Structure-sharing in lexical representation", Proceedings of the 23rd ACL, 262-267. Fodor, J.D. (1991). "Making Phrase Structure Grammars Learnable", in D. Powers / L. Reeker (Hrsg.) Machine Learning of Natural Language and Ontology (Proceedings AAA1 Spring Symposium), 5358. Fraser, N. / Hudson, R.A. (1992). "Inheritance in Word Grammar", Computational Linguistics, vol. 18 (2), 133-158. Fu, K.S. / Booth, T.L. (1975). "Grammatical Inference: Introduction and Survey — Part I", IEEE Transactions on Systems, Man, and Cybernetics, vol. SMC-5 (1), 95-111. — / Booth, T.L. (1975). "Grammatical Inference: Introduction and Survey — Part II", IEEE Transactions on Systems, Man, and Cybernetics, vol. SMC-5 (4), 409-423. Garcia, P. / Vidal, E. / Casacuberta, F. (1987). "Local Languages, the Successor Method, and a Step Towards a General Methodology for the Inference of Regular Grammars", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-9 (6), 841-845. Gazdar, G. (1987). "Linguistic applications of default inheritance mechanisms", in P.J. Whitelock et al. (Hrsg.) Linguistic Theory and Computer Applications, London: Academic Press, 37-67. Linguistics: — (1992). "Ceteris Paribus", in Ch. Rohrer / H. Kamp (Hrsg.) Aspects of Computational Syntax, Semantics, Phonetics, Berlin: Springer Verlag. — / Klein, E. / Pullum, G. / Sag, I. (1985). Generalized Phrase Structure Grammar, Oxford: Blackwell. Gibbon, D. (1990). "Prosodie Association by Template Inheritance", in W. Daelemans / G. Gazdar (Hrsg.) Proceedings of the Workshop on Inheritance in Natural Language Processing, Tilburg: ITK, 65-81. — (1992). "ILEX: A linguistic approach to computational lexica", in U. Klenk (Hrsg.) Computatio Linguae: Zeitschrift für Dialektologie & Linguistik, Beiheft 73, Stuttgart: Franz Steiner Verlag, 3253. — / Ahoua, F. (1991). "DDATR: un logiciel de traitement d'héritage par défaut pour la modélisation lexicale", English/Linguistics Interim Report, Nr. 4, Universität Bielefeld. Gold, E.M. (1967). "Language Identification in the Limit", Information and Control, vol. 10, 447-474. — (1978). "Complexity of Automaton Identification from Given Data", Information and Control, vol. 37, 302-320. Helbig, G. / Schenkel, W. (1982). Wörterbuch zur Valenz und Distribution deutscher Verben, VEB Bibliographisches Institut Leipzig. Hindle, D. (1990). "Noun Classification from Predicate-Argument Structures", Proceedings of the ACL, 268-275. Horning, J.J. (1972). "A Procedure for Grammatical Inference", Information Processing, vol. 71, North-Holland Publishing Company, 519-523. Hudson, R.A. (1984). Word Grammar, Oxford: Blackwell. — (1990). English Word Grammar, Oxford: Blackwell. Itoga, S.Y. (1981). "A New Heuristic for Inferring Regular Grammars", IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-3 (2), 191-197. Jenkins, E. (1990). "Enhancements to the Sussex Prolog DATR Implementation", in R. Evans / G. Gazdar (Hrsg.) The DATR Papers: February 1990 (= Cognitive Science Research Paper 139), School of Cognitive and Computing Sciences, Brighton: University of Sussex, 41-61. Kaplan, R. (1987). "Three seductions of computational psycholinguistics", in Whitelock et al. (Hrsg.) Linguistic Theory and Computer Applications, London: Academic Press, 149-188. Karttunen, L. (1986). "D-PATR: a development environment for unification-based grammars", Proceedings of the COLING-86, 74-80.
202 Keller, B. (1995). "DATR Theories and DATR Models", Proceedings of the ACL-95, 55-62. Kilbury, J. / Naerger [Barg], P. / Renz, I. (1991). "DATR as a lexical component for PATR", Proceedings of the 5th EACL, 137-142. Kilbury, J. / Naerger [Barg], P. / Renz, I. (1992). "New Lexical Entries for Unknown Words", Arbeiten des Sonderforschungsbereichs 282 Theorie des Lexikons, Nr. 29. Kilbury, J. / Barg, P. / Renz, I. (1994). "Simulation Lexikalischen Erwerbs", in S.W. Felix / Chr. Habel / G. Rickheit (Hrsg.) Kognitive Linguistik: Repräsentation und Prozesse, Westdeutscher Verlag, 251-271. Kilgarriff, A. (1993). "Inheriting Verb Alternations", Proceedings of the 6th EACL, 213-221. Langer, H. (1994). "Reverse Queries in DATR", Proceedings of the COLING-94, vol. II, 1089-1095. Lascarides, A. / Briscoe, T. / Asher, N. / Copestake, A. (im Druck). "Order Independent and Persistent Typed Default Unification", erscheint in Linguistics and Philosophy. Lebowitz, M. (1986). "Integrated Learning: Controlling Explanation", Cognitive Science, vol. 10, 219240. — (1987). "Experiments with Incremental Concept Formation: UNIMEM", Machine Learning, vol. 2, 103-138. Lenat, D. / Harris, G. (1978). "Designing a rule system that searches for scientific discovery", in D.A. Waterman / F. Hayes-Roth (Hrsg.) Pattern-Directed Inference Systems, New York: Academic Press, 25-51. Light, M. (1994). "Classification in Feature-based Default Inheritance Hierarchies", in H. Trost (Hrsg.) KONVENS '94: Verarbeitung natürlicher Sprache, Österreichische Gesellschaft für Artificial Intelligence: Wien, 220-229. Lytinen, S. / Roberts, S. (1989). "Lexical Acquisition as a By-Product of Natural Language Processing", Proceedings of the first International Lexical Acquisition Workshop, Detroit. Michalski, R. (1980). "Pattern recognition as rule guided inductive inference", IEEE Trans. Pattern Anal. Mach. Intell., vol. PAMI-2, 349-361. — (1983). "A Theory and Methodology of Inductive Learning", Artificial Intelligence, vol. 20 (2), 111-161. — (1986). "Understandung the nature of learning: Issues and research directions", in R.S. Michalski / J.G. Carbonell / T.M. Mitchell (Hrsg.) Machine Learning: An Artificial Intelligence Approach, vol. 2, Los Altos: Morgan Kaufmann, 3-25. — / Stepp, R.E. (1983). "Learning from observation: conceptual clustering", in R.S. Michalski / J.G. Carbonell / T.M. Mitchell (Hrsg.) Machine Learning: An Artificial Intelligence Approach, vol. 1, Berlin: Springer Verlag, 331-363. Mitchell, T.M. (1982). "Generalization as search", Artificial Intelligence, vol. 18, 203-226. Moore, R.C. (1983). "Semantical considerations on nonmonotonic logic", IJCAI-83, 272-297. — (1985). "Possible-worlds semantics for autoepistemic logic", Proceedings of the AAAI NonMonotonic Reasoning Workshop, 344-354. Naerger[Barg], P. (1988). Verwendung eines Lernalgorithmus zur Bearbeitung eines Problems aus der Dialektologie unter besonderer Berücksichtigung verrauschter Daten, Magisterarbeit, Universität Trier. Naumann, S. / Schrepp, J. (1992). "An empirical approach to syntax learning", Proceedings of the KONVENS-92, 209-217. Oakey, S. / Cawthorn, R.C. (1981). "Inductive learning of pronunciation rules by hypothesis testing and correction", IJCAI-81, 109-114. Pereira, F. / Tishby, N. / Lee, L. (1993). "Distributional Clustering of English Words", Proceedings of ACL-93, 183-190. Pollard, C. / Sag, I.A. (1987). Information-Based Syntax and Semantics, vol. 1, Stanford: CSLI. Powers, D. / Reeker, L. (1991). Machine Learning of Natural Language and Ontology (Proceedings AAAI Spring Symposium), Kaiserslautern. Quinlan, J.R. (1986a). "Induction of Decision Trees", Machine Learning, vol. 1, 81-106.
203 — (1986b). "The effect of noise on concept learning", in R.S. Michalski / J.G. Carbonell / T.M. Mitchell (Hrsg.) Machine Learning: An Artificial Intelligence Approach, vol. 2, Los Altos: Morgan Kaufmann, 149-166. Rayner, M. / Hugosson, Ä. / Hagert, G. (1988). "Using a Logic Grammar to Learn a Lexicon", Proceedings of the COLING-88, 524-529. Reinhard, S. / Gibbon, D. (1991). "Prosodic inheritance and morphological generalisations", Proceedings of the 5th EACL, 131-136. Reiter, R. (1980). "A logic for default reasoning", Artificial Intelligence, vol. 13, 81-132. Rumelhart, D. / McClelland, J. (1986). "On Learning the Past Tenses of English Verbs", in D. Rumelhart / J. McClelland and the PDP Research Group, Parallel Distributed Processing, Volume 2: Psychological and Biological Models, MIT Press, 216-272. Russell, G. / Carroll, J. / Warwick-Armstrong, S. (1991). "Multiple default inheritance in a unification-based lexicon", Proceedings of the 29th ACL, 215-221. Sejnowski, T. / Rosenberg, C. (1987). "Parallel networks that learn to pronounce english text", Complex Systems, vol. 1, 145-168. Shieber, S. (1986a). An Introduction to Unification-Based Approaches to Grammar, Stanford: CSLI Lecture Notes 4. — (1986b). "A simple reconstruction of GPSG", Proceedings of the COLING-86, Bonn, 211-215. Stepp, R.E. / Michalski, R.S. (1986). "Conceptual Clustering: Inventing Goal-Oriented Classifications of Structured Objects", in R.S. Michalski / J.G. Carbonell / T.M. Mitchell (Hrsg.) Machine Learning: An Artificial Intelligence Approach, vol. 2, Los Altos: Morgan Kaufmann, 471-498. Touretzky, D.S. (1986). The Mathematics of Inheritance Systems, London: Pitman. — / Horty, J.F. / Thomason, R.H. (1987). "A clash of intuitions: the current state of nonmonotonic multiple inheritance systems", Proceedings of the International Joint Conference on Artificial Intelligence, 476-482. Webster, M. / Marcus, M. (1989). "Automatic Acquisition of the Lexical Semantics of Verbs from Sentence Frames", Proceedings of the 27th ACL, 177-184. Wilensky, R. (1990). "Extending the Lexicon by Exploiting Subregularities", Proceedings of the COLING-90, 407-412. Winston, P. (1975). "Learning Structural Descriptions from Examples", in P.H. Winston (Hrsg.) The Psychology of Computer Vision, New York. Wothke, K. (1986). "Machine Learning of Morphological Rules by Generalization and Analogy", Proceedings of the COLING-86, Bonn, 289-293. Wurzel, W. (1970). Studien zur deutschen Lautstruktur, Berlin: Akademie Verlag. Zajac, R. (1992). "Inheritance and Constraint-Based Grammar Formalisms", Computational Linguistics, vol. 18 (2), 159-182. Zhang, B-T. / Kim, Y-T. (1990). "Morphological Analysis and Synthesis by Automated Discovery and Acquisition of Linguistic Rules", Proceedings of the COLING-90, 431-436. Zernik, U. (1987a). "How do machine-learning paradigms fare in language acquisition?", Fourth International Workshop on Machine Learning, 191-197. — (1987b). "Language Acquisition: Learning a Hierarchy of Phrases", IJCAI-87, vol. 1, 125-132. — (1989). "Paradigms in Lexical Acquisition", Proceedings of the first International Lexical Acquisition Workshop, Detroit.