211 107 11MB
German Pages 250 [252] Year 1976
de Gruyter Studienbuch Grundlagen der Kommunikation Herausgegeben von Roland Posner
Semantik und künstliche Intelligenz Beiträge zur automatischen Sprachbearbeitung Π Herausgegeben und eingeleitet von Peter Eisenberg
W DE G
Walter de Gruyter · Berlin · New York 19 77
Cip-Kurztitelaufnahme
der Deutschen
Bibliothek
Beiträge zur automatischen Sprachbearbeitung / hrsg. u. eingel. von Peter Eisenberg. —
Berlin, New Y o r k : de Gruyter.
(De-Gruyter-Studienbuch: Grundlagen d. Kommunikation) N E : Eisenberg, Peter [Hrsg.] 2. - > Semantik und künstliche Intelligenz
Semantik und künstliche Intelligenz / hrsg. u. eingel. von Peter Eisenberg. — Berlin, New Y o r k : de Gruyter, 1977 (Beiträge zur automatischen Sprachbearbeitung; 2) (De-Gruyter-Studienbuch: Grundlagen d. Kommunikation) I S B N 3-11-005721-2 N E : Eisenberg, Peter [Hrsg.]
© Copyright 1976 by Walter de Gruyter Sc Co., vormals G. J. Göschen'sche Verlagshandlung — J . Guttentag, Verlagsbuchhandlung — Georg Reimer — K a r l J . Trübner — Veit & Comp., Berlin 30. Printed in Germany — Alle Rechte des Nachdrucks, der photomedianisdien Wiedergabe, der Herstellung von Photokopien — auch auszugsweise — vorbehalten. Druck: Rotaprintdruck Hildebrand, Berlin, Bindearbeiten: Wübben & Co., Berlin
VORWORT Das Interesse an der künstlichen Intelligenz ist in der Bundesrepublik sprunghaft gestiegen. Noch vor ganz kurzer Zeit gab es so gut wie keine Arbeiten auf diesem Gebiet, die von längerfristig arbeitenden Gruppen getragen wurden. Erst im Jahre 1974 kam es zur systematischen Kontaktaufnahme zwischen den Wissenschaftlern, die bis dahin mehr oder weniger isoliert gearbeitet hatten. Im Herbst 1975 wurde dann bereits eine Fachgruppe 'Künstliche Intelligenz' innerhalb der Gesellschaft für Informatik ins Leben gerufen, und inzwischen ist auf mehreren Workshops schon beinahe so etwas wie eine wissenschaftliche community entstanden. Die meisten der gegenwärtigen Aktivitäten sind in Veenker (ed.) (1975) und Laubsch/Schneider (eds.) (1976) dokumentiert. Abgesehen von der Übersetzung eines Tagungsberichtes (Findler/ Meitzer (eds.) (1971)) existiert weitere deutschsprachige Literatur zu diesem Gebiet bisher jedoch kaum. Das Wenige ist darüberhinaus meist nicht ohne weiteres zugänglich. Von den vielfältigen Problemen, mit denen man sich in der künstlichen Intelligenz befaßt, thematisiert das vorliegende Buch ausschließlich die Simulation des Sprachverstehens. Dieser Forschungsbereich ist allerdings für die Disziplin insgesamt von größter Wichtigkeit, wenn nicht zentral, solange die 'Künstlichkeit' der angestrebten Intelligenz darin besteht, daß bestimmte anthropotypische Eigenschaften nachgebildet werden. Das muß nicht der Fall sein, aber gegenwärtig spielen andere Explikationen für Intelligenz eine untergeordnete Rolle. Bestimmend für die Auswahl der Beiträge war die Absicht, einerseits anhand von Arbeiten mit relativ begrenzter Themenstellung zu zeigen, was aus allgemeinen (an Ort und Stelle jeweils spezifizierten) Anforderungen a n das Verhalten einer Maschine für die Sprachanalyse im Detail folgt. Damit will der Band auch einen Beitrag zur Verbesserung der Zusammenarbeit mit der Sprachwissenschaft leisten, die bisher nur in Ansätzen vorhanden ist. Andererseits wird ein gewisser Überblick und eine Orientierung über laufende Arbeiten angestrebt, auch wenn von vornherein feststand, daß dieses Ziel mit einem Buch wie dem vorliegenden nicht einmal näherungsweise erreicht werden kann. Der umfangreiche Überblicksartikel von Wilks soll diesem Mangel ein wenig abhelfen.
VI
Vorwort
Die Beiträge von Minsky und Winograd sind bereits auf englisch veröffentlicht, Wilks' Arbeit ist ebenfalls schon veröffentlicht, wurde aber für diesen Band überarbeitet. Alle Aufsätze bis auf den von Hellwig sind Obersetzungen aus dem Englischen. Wie im ersten Band der 'Beiträge zur automatischen Sprachbearbeitung' wurden sämtliche Literaturangaben und einige wichtige weitere Titel zu einer Literaturliste zusammengefaßt. Die Vereinheitlichung der Literaturangaben war nicht immer einfach, weil die hier dominierende graue Literatur ζ. T. schwer zugänglich ist. So wurde beispielsweise eine der wichtigsten Forschungsstellen in Europa, das Istituto per gli studi semantici e cognitivi in Castagnola (Schweiz), kürzlich aufgelöst. Die Arbeitspapiere sind nur noch von den ehemaligen Mitarbeitern des Instituts direkt beziehbar. Bei den Autoren und Obersetzern bedanke ich mich für die gute Zusammenarbeit. Von den Mitarbeitern des Projektes 'Automatische Erstellung semantischer Netze' am Fachbereich Kybernetik der TU Berlin wurde ich auf vielfältige Weise unterstützt, besonderen Dank schulde ich Herbert Engel für seine aufopferungsvolle Hilfe bei der Literaturbeschaffung. Harmut Haberland hat mir mit seinem guten Rat oft weitergeholfen, von Roland Posner erhielt ich viele Hinweise inhaltlicher und formaler Art und Elke R. Eickhoff hat sich in liebenswürdiger Weise und mit diesmal besonders notwendiger Geduld um die Verlagsangelegenheiten gekümmert. Berlin, August 1976
P. E.
INHALTSVERZEICHNIS Vorwort
V
PETER EISENBERG Einleitung
1
MARVIN L. MINSKY Materie, Geist, Modell
11
EUGENE CHARNIAK Referenz und Fragebeantwortung in einfachen Erzählungen
21
BRUCE FRÄSER Pessimistische Ausblicke auf die Möglichkeit zur Verbesserung der Mensch-Maschine-Kommunikation .... 39 PETER HELLWIG Ein Computermodell für das Folgern in natürlicher Sprache
59
DAVID G. HAYS Kognitive Netzwerke: Formen und Prozesse
86
ROGER C. SCHÄNK Computer, primitive Aktionen und linguistische Theorien
113
TERRY WINOGRAD Ein prozedurales Modell des Sprachverstehens
142
YORICK WILKS Sprachverstehende Systeme in der künstlichen Intelligenz. Oberblick und Vergleich
180
Literaturverzeichnis
231
Nachweise
240
Sachregister
241
PETER EISENBERG Einleitung 1. Bei dem Bemühen um den Bau einer sprechenden Maschine haben sich in den vergangenen Jahren zwei Auffassungen immer mehr Geltung verschafft. Die eine lautet, daß eine sprechende Maschine immer auch Sprache 'verstehen' müsse, und die andere besagt, daß es sowohl sinnlos als auch unmöglich sei, einer Maschine einfach 'das Sprechen' beizubringen. Notwendig sei es vielmehr, ihr Kenntnisse oder Faktenwissen mitzugeben, sie also so zu präparieren, daß sie nicht einfach redet, sondern über etwas redet. Die erste Forderung kann man historisch als eine Abkehr v o n Turings dictum ansehen, eine Maschine sei dann intelligent, wenn sie für den Menschen vom sprechenden Menschen nicht unterscheidbar sei (Turing (1950)). Die Abkehr betraf zwei Punkte. Eine sprechende Maschine zu bauen war für Turing im wesentlichen eine Präzisierung der Aufgabe, eine intelligente Maschine zu bauen. Sprachvermögen wurde nicht nur als notwendige Bedingung für Intelligenz angesehen, sondern damit mehr oder weniger gleichgesetzt. Je mehr Erfahrungen man mit den 'Elektronengehirnen' machte, desto weniger schien das eingeschränkte Turingkriterium hinreichend. Andererseits war es so allgemein, daß sich konkrete Anhaltspunkte dafür, was denn nun zum Bau der intelligenten Maschine zu tun sei, nicht gewinnen ließen. Es bestand und besteht nicht einmal Einigkeit darüber, wann das Turingkriterium als erfüllt gelten könnte. So wird manchmal die Ansicht vertreten, schon Weizenbaums ELIZA (Weizenbaum (1966)) habe den Turingtest bestanden (ζ. B. Palme in Findler/Meltzer (eds.) (1971, 200)); die meisten Wissenschaftler meinen jedoch, der Test sei noch niemals erfüllt worden. Natürlich bedeutet es keine Präzisierung, wenn man die Forderung nach der sprechenden Maschine durch die nach der verstehenden Maschine ersetzt. Für 'Verstehen' wurden jedoch verschiedene relativ eingeschränkte operationale Definitionen vorgeschlagen, so daß man Systeme entwickeln konnte, die Sprache in einem jeweils angegebenen Sinne verstehen. Ein frühes und bekanntes Programm dieser Art ist Bobrows STUDENT (Minsky (ed.) (1968, 146 ff.)), das einfache Algebraaufgaben richtig
2
F. Eisenberg
lösen kann, die ihm in natursprachlicher Formulierung angeboten werden. Ob eine Aufgabe richtig gelöst wurde oder nicht, läßt sich leicht feststellen. Damit hat man nach dieser Auffassung gleichzeitig festgestellt, ob der Text der Aufgabe verstanden wurde oder nicht. Es sind sehr viele verschiedene Vorschläge dafür gemacht worden, wann eine Maschine einen Text verstanden hat, und nicht alle vorgeschlagenen Kriterien sind gleich einleuchtend und gleich gut auf ihr Erfülltsein hin überprüfbar. Von den in diesem Buch vorgestellten Ansätzen erreicht sicher der von Winograd die beste Annäherung an einen allgemeinen Verstehensbegriff. Winograds System war das erste überhaupt, das einen Roboter bestehend aus einer Hand und einem Auge - in eine in sich abgeschlossene und in diesem Sinn vollständig beschreibbare Welt aus Klötzen und Kisten setzte und ihn in dieser Welt Operationen ausführen ließ. Ob der Roboter einen Ausdruck verstanden hat, läßt sich einfach dadurch feststellen, ob das, was er sagt oder 'hört', übereinstimmt mit dem, was er tut. Eine Kritik an Winograds Verstehensbegriff wird sich in erster Linie an der Frage festmachen, wie weit man die Operationen des Roboters als Handlungen ansehen kann. Darüberhinaus wäre vor allem zu fragen, welche Möglichkeiten bestehen, Winograds sehr einfache Welt quantitativ und qualitativ so zu erweitern, daß die sprachliche Bewältigung dieser Welt mehr und wesentlichere Züge gemeinsam hat mit der sprachlichen Bewältigung unserer Welt (vgl. dazu insbesondere den Beitrag von Wilks). Eine solche Kritik trifft den von Winograd verwendeten Verstehensbegriff aber nur indirekt. Wesentlich schwerer zu bewerten sind Verstehensbegriffe, die nicht so unmittelbar auf die Kommunikation zwischen Mensch und Maschine bezogen sind. Wilks' System übersetzt einen Text aus dem Englischen ins Französische, in Hellwigs Modell wird von der Fähigkeit der Maschine zur Ermittlung der Folgerungen aus einem Satz ausgegangen, und Schänk bietet uns ebenfalls das Folgern oder als Alternative dazu das Paraphrasieren eines Satzes an. All diese Fähigkeiten der Maschinen haben sicher etwas mit dem Verstehen von Sprache zu tun, aber es ist schwer zu sagen, was genau das ist. Obersetzen, Paraphrasieren und Folgern bzw. Ableiten gehören sämtlich nicht zu den Fähigkeiten, die ein Sprecher direkt unter Beweis stellen muß, damit wir ihm zubilligen können, er verstehe Sprache. Andererseits kann keine von ihnen als hinreichend für den Beweis von Verstehen gelten. Selbst das sog. semantische Paraphrasieren und das damit eng verwandte Folgern, das nicht allein über die syntaktische Struktur eines Satzes läuft, kann in vielen Fällen auf ein Wissen reduziert werden, das man auch innerhalb der
Einleitung
3
Linguistik nicht mehr als hinreichend für Sprachverstehen ansieht, etwa auf einfache semantische Relationen zwischen lexikalischen Einheiten wie die Hyponymierelation. Das Problem liegt darin, daß all diese Ansätze sich selbst als Vorstudien zu echten sprachverstehenden Systemen verstehen und dazu beitragen wollen, daß Klarheit über die Leistungsfähigkeit bisher vorgeschlagener und verwendeter Theorien und Technologien erreicht wird. Von größter Wichtigkeit ist es deshalb, Kriterien für den Vergleich unterschiedlicher Ansätze zu gewinnen. Wilks' Arbeit diskutiert die Möglichkeiten, die augenblicklich für einen solchen Vergleich bestehen und schlägt selbst eine Reihe von Bewertungskriterien vor. Eine der Schwierigkeiten dabei ist eben, daß die Systeme Sprache nicht mit dem gleichen Ziel bearbeiten und man daher teilweise auf Spekulationen darüber angewiesen ist, wie sich eine Analysemethode, eine Suchstrategie, ein Deduktionsalgorithmus usw. bei anderen Anforderungen verhalten als bei denen, für die sie in einem bestimmten System verwendet werden. Noch eingeschränkter sind die Kriterien, die in den Beiträgen von Charniak und Fräser erörtert werden. Es handelt sich bei Charniaks Vorschlag zur Bestimmung der referentiellen Bezüge von Pronomina sowie bei Fräsers Diskussion der Faktoren, die etwa zur Bestimmung des jeweils vollzogenen Sprechaktes zu berücksichtigen sind, natürlich nicht um Versuche zur Explikation von 'Sprachverstehen', sondern um die Klärung einiger Voraussetzungen dazu. Alle sprachverstehenden Systeme benötigen zweifellos Fähigkeiten dieser Art, egal welchen Verstehensbegriff sie zugrunde legen. Beide Beiträge gehen ihr innerhalb des gesamten Verstehensprozesses relativ eingeschränktes Problem bewußt über eine minuziöse Betrachtung sprachlichen Materials an. Es wird uns dabei deutlicher als in den anderen Arbeiten an Einzelpunkten vorgeführt, warum eine Berücksichtigung von Wissen über die Welt notwendig ist, wenn man Sprachverstehen simulieren will. Wir sind damit beim zweiten anfangs genannten Charakteristikum, das viele der neueren sprachverstehenden Systeme gemeinsam haben. Die Autoren unserer Beiträge erklären immer wieder, daß es ihnen um die Ermittlung und Repräsentation der Bedeutungen von natursprachlichen Ausdrücken geht. Es wäre aber falsch, daraus zu schließen, daß hier eine Entwicklung parallel zur Linguistik stattfindet, also ein Obergang von Problemen der Syntax auf solche der Semantik und dann, etwa angedeutet in den Beiträgen von Winograd und Fräser, vielleicht der Pragmatik. Falls es eine solche Parallelentwicklung gibt, liegt sie jedenfalls für den Übergang von der Syntax zur Semantik lange zurück. Die umfangreichsten Aktivitäten zur Erstel-
4
P. Eisenberg
lung einer logisch-semantischen Basis für Frage-AntwortSysteme wurden etwa in der zweiten Hälfte der 60er Jahre entfaltet (Simmons (1970)). Darüber hinaus hat die syntaktisch-semantische Analyse im Sinne der Linguistik (wie sie in Eisenberg (ed.) (1976) dokumentiert wird) zwar eine große Rolle für die automatische Sprachbearbeitung, nicht aber für die künstliche Intelligenz gehabt, die sich nie als 'Programmierwissenschaft der Linguistik' verstanden hat. Auch wenn es eine ganze Reihe von Berührungspunkten zwischen sprachwissenschaftlicher Semantik und der Bedeutungsanalyse der künstlichen Intelligenz gibt (vgl. Eisenberg (1976)), ist die Beschränkung der Linguistik zunächst auf Teilbereiche des 'Wissens über die Sprache' und dann auf dieses Wissen insgesamt aber dennoch eines der schwerwiegendsten Hindernisse zur Kooperation mit der künstlichen Intelligenz (vgl. dazu auch den Beitrag von Schänk). Der in der künstlichen Intelligenz jetzt verbreitete Bedeutungsbegriff wird mit einigen seiner wichtigsten Folgen für die Forschungspraxis in dem Aufsatz von Minsky deutlich. Der Einfluß dieser kurzen Arbeit aus dem Jahre 1965 (sie ist mit Abstand der älteste Beitrag zu diesem Buch) läßt sich in allen anderen Arbeiten nachweisen. Minsky sieht als vordringliche Aufgabe für den Bau einer intelligenten Maschine die Klärung bestimmter Eigenschaften ihres Weltmodells an, einem mentalen Abbild der Welt, mit dessen Hilfe es möglich sein soll, "interessierende Fragen" über die Welt zu beantworten. Vor allem zwei Punkte, die Minsky dabei anspricht, befinden sich noch heute in der Diskussion. Einmal das Verhältnis von Wissen und der Verarbeitung von Wissen. Minsky weist darauf hin, daß beides nicht voneinander zu trennen ist, obwohl eine solche Trennung attraktiv wäre. Die Verwendung von Wissen über die Welt zur Sprachanalyse ist auf diesem Hintergrund natürlich naheliegend. Eine andere Variante des Problems taucht mit der Frage auf, ob man mehr Wissen speichern soll, das u. U. redundant ist, oder ob man besser umfangreichere Deduktionen auf einem geringeren Faktenwissen operieren läßt (Charniak, Winograd). Eine andere ist die in den letzten Jahren heftig diskutierte Frage, ob das Wissen selbst in Form von Aussagen ('propositional1) oder in Form von Befehlen ('prozedural1) gespeichert wird (Hays, Winograd). Schließlich gehört hier auch die Frage hin, wie 'tief' ein Ausdruck verarbeitet werden soll. Hellwig und Hays bleiben wesentlich sprachnäher als Schänk. Während zu diesen Fragen ausgearbeitete Vorschläge vorliegen, findet Minskys eigentliches Problem, nämlich das Verhältnis zwischen Abbild 'materieller' (physikalischer) und Abbild 'geistiger' (ζ. B. sozialer) Gege-
Einleitung
5
benheiten zwar allgemeine Beachtung, jedoch ist eine ins Einzelne gehende Diskussion noch nicht in Gang gekommen. Die Modellwelten sind meist physikalische Mikroweiten (Winograd), deren Erweiterungsfähigkeit unklar ist. Wo - in beschränktem Rahmen - darüber hinausgegangen wird wie bei Hays und Schänk, bleibt es bei einer weitgehenden Trennung beider Bereiche, wie sie auch von Minsky zunächst für richtig gehalten wird, richtiger jedenfalls als etwa die Reduktionen eines 'mechanischen Materialismus'. Die Bedeutung eines Ausdrucks ist für die künstliche Intelligenz sein Abbild oder seine Entsprechung im Modell. Die Analyse eines Ausdrucks besteht in seiner Umformung so, daß er in das Modell paßt. Das Analyseergebnis eines für wahr gehaltenen Satzes muß entweder im Modell auffindbar sein, aus ihm ableitbar sein oder in das Modell integrierbar sein. Ist eine Analyse vollständig durchgeführt, so ist das Analyseergebnis nicht als etwas anzusehen, das etwas im Modell beschreibt, sondern das selbst Teil des Modells ist, etwa das Abbild eines Zustandes, einer Situation, einer Folge von Zuständen usw. Es leuchtet sofort ein, daß das etwas anderes ist als eine semantische Repräsentation in einem linguistischen Sinne und auch etwas anderes als eine logische Repräsentation, die in Hinsicht auf die 'wirkliche Welt' zu interpretieren ist. Bei einer solchen Interpretation kommt ja stets die Frage nach dem 'Wesen der Dinge selbst', so gut wie nie aber die nach dem mentalen Abbild ins Blickfeld. 2. Wilks' Vergleich einiger neuerer Arbeiten zur künstlichen Intelligenz zeigt, daß im Augenblick eine gewisse Unsicherheit über die Bewertung der verwendeten PPpräsentations- und Verarbeitungsmethoden besteht. Die se Situation ist für die Disziplin höchst unbefriedigend und hat ihr auch mehrfach Kritik von außen eingetragen. Im folgenden wird daher der Versuch gemacht, einige der Gesichtspunkte zu benennen, die für die gegenwärtige Situation und die weitere Entwicklung von Bedeutung sein können. Der Versuch kann weder besonders originell noch besonders weitreichend sein, sondern dient mehr einer sachlichen Abrundung dieser kurzen Orientierung. Der zunächst weiterführende Gedanke, daß Wissen über die Sprache und Wissen über die Welt gemeinsam zur Sprachanalyse verwendet werden müssen, ist für viele Forscher in der künstlichen Intelligenz zum Hemmschuh geworden. Die intelligente Maschine als die (über etwas) sprechende Maschine kann längerfristig kein Arbeitsziel mehr sein, wenn man nicht zu einer Bestimmung von
6
P. Eisenberg
'Sprechen' als 'Sprachhandeln1 kommt. Wir haben unser Wissen von der Welt nicht, damit wir korrekte Sprachanalysen durchführen können, wir haben es nicht einmal nur deshalb, damit wir Sprache verstehen können, sondern weil wir uns in der Welt zurchtfinden müssen. Dazu dient uns auch die Sprache, aber nicht sie allein. Die sprechende Maschine wird also Teil eines Roboters sein müssen, von dem wir anerkennen, daß er handelt. An den Voraussetzungen zum Bau einer derartigen Maschine wird ζ. B. dort gearbeitet, wo man die Möglichkeiten des Austausche zwischen Maschine und Umwelt so zu erweitern versucht, daß sie denen des Menschen einigermaßen ähnlich werden. Die lange verbreitete Auffassung, eine Beschränkung auf den Dialog über eine Schreibmaschine sei nicht mit prinzipiellen Nachteilen verbunden, wird immer weniger plausibel. Die steigende Zahl der Arbeiten auf dem Gebiet der Spracherkennung (vgl. die Proceedings der IJCAI) zeigt, daß immer mehr erkannt wird, wie eingeschränkt die Brauchbarkeit geschriebener Sprache im Vergleich zu der gesprochener Sprache im direkten Dialog ist. Im vorliegenden Band zeigt etwa die Arbeit von Fräser, wie wichtig eine Berücksichtigung der Intonation für die Sprachanalyse sein kann. Solange man nicht in der Lage ist, eine Maschine so lesen zu lassen, daß sie dem Text eine 'innere Intonation1 beigibt - wie der Mensch das tut - bleiben die Möglichkeiten zur Analyse geschriebener Sprache auch sonst wesentlich hinter denen gesprochener Sprache zurück. Weitere schwerwiegende Einschränkungen beim Dialog über eine Schreibmaschine ergeben sich dadurch, daß der enge Zusammenhang zwischen sprachlicher (sei sie akustisch oder visuell vermittelt) und extraverbaler Wahrnehmung unberücksichtigt bleiben muß. Die künstliche Intelligenz ist zwar noch weit davon entfernt, eine Maschine mit allen Fähigkeiten zur sinnlichen Wahrnehmung zu bauen, aber an der Simulation visueller Perzeption wird ebenso wie an der akustischer Perzeption verstärkt earbeitet.Dabei sieht man es als wichtig an, daß die peicherung von Wissen den verschiedenen Wahrnehmungsweisen angepaßt ist. Hays berücksichtigt bei seinen Überlegungen zum Entwurf semantischer Netze ausdrücklich visuell und taktil gewonnene Information. Als weiteres Beispiel sei nur die grundlegende Arbeit von Minsky (1974) erwähnt, wo die Strukturierung des Speichers ebenfalls mit der mehrkanaligen Interaktion zwischen Maschine und Umwelt begründet wird. Wichtig ist dabei, daß nicht nur verbal und extraverbal vermittelte Information erfaßt werden soll, sondern daß beide im gleichen Speicher integriert werden. Die Maschine wird
f
Einleitung
7
dann über das reden können, was sie sieht, und sie wird das wiedererkennen können, was ihr sprachlich vermittelt wurde. Diese Entwicklung geht Hand in Hand mit einer stärker werdenden Bindung der künstlichen Intelligenz an die nicht-behavioristische Psychologie. Auch wenn es praktisch seit Beginn der Arbeit an intelligenten Maschinen mehrere Gruppen gegeben hat, die die Simulation psychologisch abgesicherter Prozesse als den erfolgversprechendsten Weg ansahen, ist es doch nicht übertrieben, von einem Durchbruch der Psychologie in den vergangenen drei bis vier Jahren zu sprechen. Sehr gut läßt sich dieser Wandel an zwei Äußerungen von Winograd zur Begründung von Aufbau und Funktionsweise seines Systems illustrieren. In der ursprünglichen Beschreibung heißt es: "Of course, there is no reason why a computer should do things the way a person does, but in ignoring this type of knowledge.programs run into tremendous problems of efficiency." (Winograd (1971, 205)). Im Schlußabschnitt seines in diesem Band abgedruckten Aufsatzes liest man dagegen unter der Überschrift "Grenzen des Ansatzes": "Für das ... beschriebene Programm erheben wir nicht den Anspruch, daß es in den Einzelheiten in einer Punkt-für-Punkt-Entsprechung zu psychischen Prozessen steht. ... Aus psychologischer Sicht ist wichtig, daß Sprache als Prozeß betrachtet wird, der im Rahmen einer prozeduralen Beschreibung kognitiver Vorgänge dargestellt werden kann." (175). Die Grenzen des Systems sind für Winograd nun teilweise dadurch gesteckt, daß die Anpassung an psychische Prozesse noch unvollkommen ist. Zwar ist die Tendenz zur Psychologie unverkennbar, die Konsequenzen einer solchen Verbindung und Bindung haben sich aber noch keineswegs durchgesetzt. Manches System läßt sich mehr oder weniger 'psychologisch' interpretieren, und obwohl ein psychisches Modell notwendigerweise nicht auf Sprachverstehen beschränkt sein kann, steht - wie gesagt - das 'verbale Verhalten an sich' oft noch ganz im Vordergrund. In anderen Fällen beruft man sich auf die Psychologie, ohne nachzuweisen, daß das zu Recht geschieht. Schänk etwa gibt uns keinen Hinweis darauf, inwiefern er seinem Ziel gerecht wird, "...ein Modell von dem [zu] erstellen, was ein Sprecher über seine Handlungen sagt oder denkt." (117 in diesem Band). Insgesamt scheint mir hier einer der wichtigsten Angelpunkte für die künstliche Intelligenz zu liegen, von dem aus sich auf längere Sicht die allgemeine Frage nach dem Status der Disziplin und ihren 'wissenschaftlichen Paradigmen' teilweise beantworten läßt, von dem aus aber auch speziellere Fragen nach Methoden zur Da-
8
F. Eisenberg
tenrepräsentation und -Verarbeitung, die im Augenblick strittig sind, angehen lassen. Der Grund für die relative Disparatheit der Methoden und Zielsetzungen innerhalb der künstlichen Intelligenz ist in den bisherigen Ausführungen ganz innerwissenschaftlich diskutiert worden, er muß aber auch auf dem Hintergrund der Anwendungsmöglichkeiten von Frage-Antwort-Systemen gesehen werden. Der Anwendungsaspekt wird von den meisten Wissenschaftlern keineswegs aus dem Auge verloren. Besonders in popularisierenden Darstellungen und offiziellen Arbeitsberichten der Forschungsgruppen finden sich Hinweise wie "Question answering systems are approaching a level useful in real application areas." (Winograd (1975, 25)). Geht man aber die Anwendungsbereiche im einzelnen durch, so stellt sich heraus, daß der relativ unrestringierte Gebrauch natürlicher Sprache meist gar nicht mehr sinnvoll erscheint und deshalb die Frage, ob er erreichbar sei, akademisch wird. Das ist etwa der Fall bei der Verwendung von Frage-Antwort-Systemen in den Informationswissenschaften, die Fräser anspricht. Oder es stellt sich heraus, daß das gesteckte Ziel nach wie vor nicht absehbar erreichbar ist oder daß kein entsprechender geselllschaftlicher Bedarf besteht. Beides gilt immer noch für die automatische Sprachübersetzung. Was kann es also heißen, wenn davon gesprochen wird, Frage-Antwort-Systeme näherten sich mehr und mehr der Anwendungsreife? Man bekommt auf diese Frage von Seiten der künstlichen Intelligenz so gut wie keine präzise Antwort, weil kein Anwendungsbereich in Sicht ist. Obwohl eine der Wurzeln der künstlichen Intelligenz in der Informatik liegt und viele der hier arbeitenden Wissenschaftler eine Informatik-Ausbildung haben und Ingenieure sind, ist die künstliche Intelligenz keine Ingenieurwissenschaft. In den Ingenieurwissenschaften ist in aller Regel ein relativ genau beschriebenes Problem zur Lösung vorgegeben,wobei i. a. auch noch die zur Lösung verwendbare Technologie feststeht. Die Aufgabe besteht also in der Anwendung einer bekannten Technologie auf ein wohldefiniertes Problem. In der künstlichen Intelligenz fehlt es zuerst an der wohldefinierten Aufgabe und daher auch an der Möglichkeit, die zur Verfügung stehenden Technologien in Hinsicht auf ihre Brauchbarkeit zur Lösung solcher Aufgaben zu bewerten. Die künstliche Intelligenz hat aber auch mit den klassischen Naturwissenschaften wenig gemein. Zwar ist es immer schwieriger geworden, das Selbstverständnis einer Disziplin als einer 'naturwissenschaftlichen' befriedigend zu klären. Trotzdem gilt für den allergrößten Teil der als Physiker, Chemiker oder Mathematiker arbeiten-
Einleitung
9
den Personen, daß sie an Problemen arbeiten, die sie hinsichtlich ihrer Genese und Zielsetzung sowie ihres Stellenwertes innerhalb eines umfassenderen Problembereichs der Disziplin verstehen. Häufig gilt darüber hinaus, daß die technische Nutzbarkeit naturwissenschaftlicher Ergebnisse feststeht und damit die Arbeit steuert. Die Unsicherheit bei der Konstitution des Gegenstandes und der verwendeten Methoden trifft dagegen in der künstlichen Intelligenz praktisch jede Gruppe und jeden einzelnen Wissenschaftler. Es gibt nicht einmal - wie in den Geisteswissenschaften - traditionell verankerte Schulen, auf die man sich zur Not berufen könnte. Wird irgendwo mit der Arbeit an einem System begonnen, so muß jedesmal so gut wie alles neu und bewußt entschieden werden: was das System können soll, welche Technologie (Maschine und Programmsystem) verwendet werden soll, welche Bewertungskriterien für Erfolg oder Mißerfolg gelten sollen (und das heißt auch: was man an bereits existierenden Systemen als 'richtig' oder 'falsch' ansehen soll) usw. Die Entscheidungen werden nicht dadurch erleichtert, daß Anwendungsmöglichkeiten behauptet oder tatsächlich ins Auge gefaßt werden, die nicht bestehen. Ein Anwendungsdruck führt hier, anders als in anderen Disziplinen, augenblicklich sicher nicht dazu, daß man sich dem angestrebten Ziel nähert - sofern dies Ziel eine intelligente Maschine ist. Ein Resumfe ergibt folgendes Bild. Die Verbesserung der Leistungsfähigkeit sprachverstehender Systeme setzt einerseits eine stärkere Integration der verschiedenen Kanäle zum Austausch zwischen Maschine und Umwelt voraus. Andererseits müssen die Möglichkeiten zur Bewertung gegenwärtig konkurrierender Ansätze zur Datenspeicherung und Datenverarbeitung verbessert werden, auch wenn bereits feststeht, daß viele Ansätze sich in entscheidenden Punkten nur quantitativ voneinander unterscheiden. Es scheint, als setze sich als Forschungsstrategie zur Erfüllung der beiden genannten Forderungen mehr und mehr der Gedanke einer 'echten Simulation' durch. Praktisch bedeutet das eine engere Zusammenarbeit der künstlichen Intelligenz mit bestimmten Teilen der Psychologie und Physiologie. Von untergeordneter Bedeutung dürften augenblicklich die Entscheidungen über Rechenanlage und Programmsystem sein, solange nicht offensichtlich arbeitshemmende Beschränkungen vorliegen. Eine der wesentlichen Leistungen der künstlichen Intelligenz scheint mir der in den letzten Jahren entfaltete Bedeutungsbegriff zu sein, der in wichtigen Zügen auf absehbare Zeit unverändert bleiben dürfte. Die Beiträge dieses Buches beschäftigen sich durchgängig mit Aspekten dieses Bedeutungsbegriffs und zeigen insbeson-
10
F. Eisenberg
dere auf, welche Möglichkeiten zur Sprachanalyse im Grundsätzlichen und im Detail damit gegeben sind. Unter der Bedeutung eines Ausdrucks wird ernsthaft das verstanden, was der Ausdruck für die Maschine als Sprecher/ Hörer bedeuten kann: was also für mentale Aktivitäten wie die Bestätigung, Erwiderung und sonstige Veränderung von Wissen ebenso ausschlaggebend ist wie für damit verbundene äußere Aktivitäten, insbesondere Handlungen. Der Bedeutungsbegriff schneidet nichts ab, was in diesem Sinne von Bedeutung ist. Was als Bedeutung eines Ausdrucks ermittelt wird, hängt vom sprachlichen Kontext ebenso ab wie vom außersprachlichen und berücksichtigt die Form des Ausdrucks ebenso wie die Bedeutungen seiner Teile. In der künstlichen Intelligenz hat sich ein Bedeutungsbegriff dieser Art wohl zwangsläufig durchgesetzt, weil hier nicht einfach Theorien gemacht werden, sondern weil diese Theorien auf einer Maschinne 'realisiert' werden. Wir sind nicht darauf angewiesen,, eine Theorie direkt zu interpretieren, sondern deuten sie indirekt über das Verhalten der Maschine. Die Maschine gibt dabei also mehr ab als ein probates Mittel für die Oberprüfung von Konsistenz und Reichweite einer Theorie. Sehr viel deutlicher als bei einer Theorie auf dem Papier wird uns vorgeführt, was die Theorie eigentlich besagt, was ihre Folgen sind und wo der Gegenstand noch verfehlt wurde. Die gegenwärtigen Grundgedanken der künstlichen Intelligenz beruhen auf der Erfahrung, daß eine sprechende Maschine über eine 'autonome Sprachbetrachtung' nicht zu erreichen ist. Dieser Tatbestand fordert eine Kooperation mit der Linguistik geradezu heraus.
MARVIN L. MINSKY Materie, Geist, Modell 1. Einleitung In diesem Aufsatz versuche ich zu klären, warum Fragen über die Beziehung von mentalen und physischen Vorgängen gewöhnlich Verwirrung auslösen. Wenn eine Frage zu unklaren, widerspruchsvollen Antworten führt, kann dies daher rühren, daß die Frage letztendlich sinnlos oder wenigstens nicht beantwortbar ist; die Ursache kann aber auch sein, daß für eine angemessene Antwort ein mächtiger analytischer Apparat erforderlich ist. Viele Fragen zur Beziehung von Geist und Gehirn sind meines Erachtens von dieser letzteren Art. Ich behaupte darüberhinaus, daß einige der benötigten technischen und begrifflichen Hilfsmittel uns durch Forschungen zu dem Problem geliefert werden, wie ein intelligentes Verhalten von Computerprogrammen erzielt werden kann. Ich werde eine Theorie vorschlagen, die erklären soll, warum auf introspektivem Wege keine klaren Antworten auf diese Fragen zu erhalten sind. Ich werde mich jedoch nicht um technische Lösungen des Problems bemühen. Dennoch ist es vermutlich von einigem Interesse, wenigstens eine saubere Erklärung der Ursachen unserer Schwierigkeiten zu finden. 2. Wissen und Modell Wenn ein Geschöpf eine Antwort auf eine Frage über einen hypothetischen Versuch geben kann, ohne diesen wirklich auszuführen, so beweist es damit eine gewisse Kenntnis der Welt. Denn seine Antwort kann nur eine verschlüsselte Beschreibung des Verhaltens einer Sub-Maschine oder eines 'Modells' (im Inneren des Geschöpfs) sein, eines Verhaltens, das die Reaktion auf eine verschlüsselte Beschreibung des in der Welt bestehenden Sachverhalts darstellt, der durch die Frage beschrieben wird. Wir verwenden den Begriff 'Modell' in folgendem Sinn: Für einen Beobachter Β ist ein Gegenstand A* ein Modell des Gegenstandes A, insoweit Β für die Beantwortung von ihn interessierenden Fragen über Α von A* Gebrauch machen kann.
12
Μ. L. Minsky
Die Modell-Relation ist inhärent dreistellig. Jeder Versuch, die Intentionen des Fragenden Β zu vernachlässigen, führt zu zirkelhaften Definitionen oder zu Unklarheiten über 'Wesenszüge' oder dergleichen. Selbstverständlich muß die Verwendung eines Modells durch Β die Verwendung von Verschlüsselungen der Ein- und Ausgabe sowohl für Α als auch für A* einschließen. Wenn Α die Welt ist, sind Fragen an Α Experimente. A* ist ein gutes Modell von Α für B, insoweit die Antworten von A* im großen und ganzen mit denen von Α bezüglich der für Β wichtigen Fragen übereinstimmen. Wenn ein Mensch Μ Fragen über die Welt beantwortet, so schreiben wir (und übernehmen damit die Rolle von B) diese Fähigkeit irgendeinem internen Mechanismus W* im Inneren von Μ zu. Am bequemsten wäre es, wenn wir innerhalb von Μ zwei physisch getrennte Bereiche W* und M-W* abgrenzen könnten, so daß W* 'wirklich das Wissen enthielte', während sich in M-W* nur Allzweck-Maschinerie zur Verschlüsselung von Fragen, Entschlüsselung von Antworten und für allgemeine Organisationsaufgaben befände. In Wirklichkeit kann man jedoch nicht damit rechnen, innerhalb einer intelligenten Maschine eine deutliche Trennung zwischen Verschlüsselungs- und Wissensstrukturen - und zwar weder unter anatomischem noch unter funktionalem Gesichtspunkt - zu finden, weil (beispielsweise) einiges 'Wissen 1 vermutlich zur Verschlüsselung und Interpretation von Vorgängen gebraucht wird. Für unsere Zwecke kommt es auf den intuitiven Begriff des Modells an, nicht auf die technische Möglichkeit, Modelle scharf abzugrenzen. Vielmehr dreht sich ein Teil unserer Argumentation gerade um die inneren Schwierigkeiten der Bestimmung solcher Grenzen. 3. Modelle von Modellen Fragen über Dinge der Welt beantwortet man, indem man Aussagen über das Verhalten entsprechender Strukturen im eigenen Weltmodell W* macht. Bei einfachen mechanischen, physikalischen oder geometrischen Gegebenheiten kann m a n sich, Craik (1952) folgend, eine Apparatur vorstellen, die symbolische Berechnungen anstellt, aber bei angemessener Deutung der verwendeten Kodierungen einen offensichtlich analogen Charakter hat. Wie steht es aber mit weiter ausholenden Fragen über das Wesen der Welt? Diese können (von M) nicht als Fragen behandelt werden, die von W* zu beantworten sind, sondern müssen als Fragen angesehen werden, deren Antworten allgemeine Aussagen über W* sein müssen. Wenn W* ein Modell M* von Μ enthält, kann M* ein Modell W** von W* enthal-
Materie, Geist, Modell
13
ten, und darüberhinaus könnte dann auch W** ein Modell M** von M* enthalten. Ja, wenn Μ allgemeine Fragen über sich selbst beantworten können soll, so muß dies der Fall sein. Gewöhnliche Fragen über Μ selbst, ζ. B. wie groß Μ ist, werden von M* beantwortet; sehr weitgehende über das Wesen von Μ, ζ. B. zu welcher Art von Dingen Μ gehört usw., werden jedoch, wenn überhaupt, durch deskriptive Aussagen über M* von M** beantwortet. Der Leser mag nun auf weitere Einzelheiten der Beziehung zwischen W* und W** gespannt sein. Wie läßt sich beispielsweise feststellen, wann eine Frage der Art ist, daß auf W** und nicht auf W* Bezug genommen werden muß? Ist W** ein Teil von W*? (Sicherlich ist W», wie alles andere, ein Teil von W.) Leider kann ich diese Details jedoch nicht liefern; vielmehr erwarte ich, daß ihre letztendliche Klärung mit ernsthaften Schwierigkeiten verbunden ist. Wir müssen uns vorstellen, daß zu W** ein interpretativer Mechanismus gehört, der auf W* in einer Art Unterprogramm-Technik bis zu einer bestimmten Rekursionstiefe Bezug nehmen kann. In diesem Sinn muß W* in W** enthalten sein; in einem anderen, unmittelbareren Sinn kann jedoch W** in W* enthalten sein. Dies legt erstens nahe, daß der Begriff 'ist enthalten in1 für die Beschreibung von Beziehungen zwischen programmähnlichen Teilen zu grob gemünzt ist, und zweitens, daß ebenso auch der intuitive 'Modell'-Begriff, der hier verwendet wird, nicht fein genug ist, um als Grundlage der Entwicklung der technischen Einzelheiten der Theorie dienen zu können. Zweifellos lassen sich Beziehungen zwischen Modellen auf diesem Gebiet nicht in Form einfacher physischer Substrukturen beschreiben. Für eine angemessene Analyse bedarf es viel fortgeschrittenerer Vorstellungen über symbolische Repräsentationen von informationsverarbeitenden Strukturen.
4. Der Dimorphismus unserer Weltmodelle Das Weltmodell eines Menschen besitzt eine ausgeprägt zweiteilige Struktur: Der eine Teil betrifft Dinge mechanischer, geometrischer und physischer Art, während der andere mit den Zielen, Bedeutungen, gesellschaftlichen Angelegenheiten und dergleichen zu tun hat. Diese Teilung von W* findet sich wieder in der Art, wie viele Dinge, insbesondere Μ selbst, repräsentiert werden. Das Modell eines Menschen von sich selbst ist folglich zweigeteilt: Der eine Teil betrifft seinen Körper als einen physischen Gegenstand, der andere trägt seiner gesellschaftlichen und psychologischen Erfahrung Rechnung. Wenn wir einen Gegenstand sehen, berücksichtigen wir,
14
Μ. L. Minsky
worauf er ruht und womit er zusammenhängt (frei Schwebendes ruft Erstaunen hervor), und wir berücksichtigen auch - in anderer Form - seine Teleologie (d. h. wir fragen uns, wer ihn an seine Stelle gebracht hat und zu welchem Zweck). Wenn sich etwas bewegt, stellen wir entweder eine einfache Kraft oder einen Zweck und nur selten beides fest - bei der Art normaler Erklärung des gesunden Menschenverstandes, mit der wir uns hier beschäftigen. Warum ist diese Teilung in der Sprache und im Denken so stark ausgebildet? Wir stellen fest, daß das W* eines Menschen nicht wirklich aus zwei eindeutig disjunkten Teilen besteht, sondern viele Überschneidungen enthalten muß, Modelle, deren Verknüpfung unbestimmt ist. Die vorgeschlagene zweiteilige Struktur ist nur eine Annäherung. Wir wollen nicht die Annahme entstehen lassen, daß unsere Argumentation überhaupt von einer klaren Unterteilung in irgendeine Anzahl von Teilen abhängig ist. Die Unterscheidung zwischen energetischen und informationellen (oder symbolischen) Erklärungen stellt einen weiteren Aspekt des gleichen allgemeinen Dimorphismus dar. In dem einen Bereich gelten mechanisch-geometrische Beschränkungen, ζ. B. daß Dinge nur so angeordnet werden können, daß sie sich nicht gegenseitig durchdringen oder daß sie bei Verformungen ihre Masse nicht verändern. Im anderen Bereich finden sich symbolische Beschränkungen von (ihrem Wesen nach) gleicher Wirksamkeit. Beide Bereiche überschneiden sich auf eine komplexe Art und Weise: Ein Kind entdeckt mechanische Hindernisse (ζ. B. in der Form von Beschränkungen der Reichweite, der Beweglichkeit, der Kraft oder der Genauigkeit) , die seinen psychologischen Zielen im Wege stehen; es entdeckt emotionale Zeichen in der Geometrie der Gesichtsausdrücke und Absichten in Körperhaltungen. Bei der Erklärung komplizierter Sachverhalte vermengen sich die beiden Modelle in unentwirrbarer Weise - wie ζ. B. in der Metaphorik der vorausgehenden Sätze. Diese Vermengung spiegelt aber nicht irgendeine Synthese beider Erklärungsarten, sondern vielmehr die Unzulänglichkeit jedes der beiden Modelle für die Beschreibung komplizierter Sachverhalte. Hinsichtlich der Entstehung derartiger Aufspaltungen nehme ich an, daß die Teile sich voneinander weg und nicht aufeinander zu entwickeln. Das heißt nicht, daß kindliche, ursprüngliche Modelle einheitlicher sind, sondern vielmehr, daß sie zu unbestimmt sind, als daß sich Grenzen ausmachen ließen. Ein Kind ist kein Monist: es kann nur noch nicht Dualist sein, weil sein M** einfach zu unstrukturiert ist; man kann ihm eine Haltung zum Körper-Geist-Problem wohl kaum zuschreiben.
Materie, Geist, Modell
15
S. Das Hauptargument: der Glaube an den Dualismus Wer ganz allgemein nach seinem eigenen Wesen gefragt wird, wird versuchen, eine allgemeine Beschreibung seines Modells von sich selbst zu geben. Das heißt, die Frage wird von M** beantwortet. Insoweit M*, wie wir annehmen, unterteilt ist und der Befragte sich darüber im klaren ist (d. h. insoweit diese Tatsache in M** repräsentiert ist), wird sich dies in seiner Antwort niederschlagen. Seine Feststellung (sein Glaube), daß er sowohl einen Geist als auch einen Körper besitzt, ist die normale Art und Weise, das grob zweigeteilte Aussehen des Modells des Befragten von sich selbst auszudrücken. Weil aber die Trennung der beiden Teile von M* so unbestimmt ist und ihre wechselseitigen Beziehungen so kompliziert und schwer zu beschreiben sind, müssen alle weiteren Versuche des Befragten, das Wesen der Geist/ Körper-Unterscheidung darzulegen, verworren und unbefriedigend ausfallen. 6. Der heuristische Wert quasi-separater Modelle Unter wissenschaftlichem Gesichtspunkt ist ein einheitliches Weltmodell wünschenswert, das sowohl mechanische als auch psychologische Phänomene umfaßt. Ein solches Modell würde ζ. B. verfügbar werden, wenn alle Forschungsziele auf den Gebieten der künstlichen Intelligenz, der Kybernetik und der Neurophysiologie erreicht würden. Dennoch könnte es der Fall sein, daß ein derartiger Erfolg wenig Auswirkungen auf den Gesamtaufbau unserer privaten Weltmodelle hätte. Ich behaupte, daß sie aus praktischen, heuristischen Gründen die Form quasi-separater Teile bewahren würden. Selbst wenn eine Disziplin zum größten Teil eine Umformung in Hinsicht auf Techniken, Grundlagenwissen und Begrifflichkeit erfahren hat, kann sie ihre Identität doch bewahren, wenn man ihre Probleme und Anliegen aus praktischen Gründen weiter wie bisher zueinander ordnet. Die Chemie ζ. B. überlebt heutzutage als eigenständige Disziplin, weil die Grundbegriffe der Quantentheorie ein wenig zu entlegen sind, um unmittelbar auf praktische Probleme anwendbar zu sein; für die Anwendung der Theorie auf die Probleme des Alltags bedarf es einer ganzen Hierarchie vermittelnder Konzepte. Ebenso wären die Grundbegriffe der Physik und selbst die der Neurophysiologie viel zu entlegen, um bei der unmittelbaren Behandlung der mentalen Ereignisse des Alltagslebens von Nutzen zu sein.
16
Μ. L. Minsky
Es ist daher unwahrscheinlich, daß eine Synthese durch direkte theoretische Rückführung große Auswirkungen auf die Gesamtform von W* haben könnte. Im praktischen Leben und Denken ist das heuristische Bedürfnis nach fast geschlossenen Teiltheorien zu stark, als daß ihm widerstanden werden könnte. Man könnte nun aber auf eine andere Art von Einheit hoffen - eine parallele statt einer hierarchischen -, bei der die quasi-separaten Modelle in grundsätzlich gleichartige Strukturen umgewandelt und dann durch die Beseitigung von Redundanzen vereinigt würden, wobei die verbleibenden signifikanten Differenzen festgehalten würden. Es ist jedoch zweifelhaft, daß auf diesem Wege viel erreicht werden kann. Die Verwendung psychologischer Erklärungen für physikalische Prozesse steht im totalen Gegensatz zu den Methoden, die wissenschaftlichen Fortschritt ermöglicht haben. Entsprechend sind lange Zeit viele 'Reduktionen' psychologischer Erklärungen auf Analogien zu sehr einfachen physikalischen Systemen angeboten worden. Ihre Inadäquatheit ist jedoch inzwischen anerkannt, und sie weichen Modellen aus der Informationsverarbeitung, die einen abstrakteren Charakter aufweisen. Im praktischen Alltagsdenken spielt der Gebrauch physikalischer Analogien in Form von Metaphern eine große Rolle - vermutlich, weil man bei einem Modell von anscheinend geringer Komplexität einen großen Nutzen davonträgt. (In Wirklichkeit ist nur die zusätzliche Komplexität klein, weil der größte Teil des Modells schon als Teil des 'physischen' Teils von W* existiert.) Es wäre schwer, derartige Metaphern aufzugeben, selbst wenn sie vermutlich nicht mit der weiteren Wissenschaftsentwicklung zusammenpassen, und zwar wegen dieses anscheinend günstigen Kosten/Nutzen-Verhältnis. Weil die mechanischen Analogien zu unflexibel sind, kann man auch nicht erwarten, durch ihre Erweiterung viel zu erreichen. Mentale Vorgänge erinnern vielmehr an Vorgänge der Art, wie sie sich in Computerprogrammen finden: arbiträre Symbolverknüpfungen, baumartige Speicherschemata, bedingte Sprünge und dergleichen. Kurz, wir dürfen annehmen, daß die einfacheren und nützlichen mechanischen Analogien überleben; dagegen scheint es zweifelhaft, daß sie sich erweitern lassen, um für die parallele Vereinheitlichung von W* nützliche Ideen abzuwerfen. Schließlich ist noch festzustellen, daß man erwarten darf, in einem hochintelligenten Geschöpf ein besonderes, gut entwickeltes Modell der Problemlösungsaktivitäten des Geschöpfes selber zu finden. Meines Erachtens liegt die Grundlage jeder wirklich fortgeschrittenen Problemlösungstechnik in der Nutzung gewisser Planungsmechanismen - Mechanismen zur Zerlegung des Problems in
Materie, Geist, Modell
17
seine Teile und zur klugen Verteilung der Anstrengungen und Hilfsmittel auf die zu leistende Arbeit. Dies bedeutet, daß die Maschine über Möglichkeiten zur Repräsentation und Analyse ihrer eigenen Ziele und Mittel verfügen muß. Es besteht wohl kaum Grund zu der Annahme, daß es möglich wäre, diese Struktur mit derjenigen zu verschmelzen, die dazu verwendet wird, unkomplizierte Strukturen der Außenwelt zu analysieren. Man kann auch nicht erwarten, daß irgendetwas Einfacheres von großem Wert bei der Analyse des Verhaltens anderer Geschöpfe gleicher Art sein könnte.
7. Interpretiertes Operieren Bei Computerprogrammen ist der Begriff des 'Teils1 komplizierter als bei gewöhnlichen physischen Gegenständen Schon eine einzige bedingte Verzweigung ermöglicht es, daß sich ein Programm, funktional betrachtet, unter verschiedenen Umständen wie zwei ganz verschiedene Maschinen verhält, obwohl jeweils von fast (oder genau) der gleichen Menge von Anweisungen Gebrauch gemacht wird. Die Vorstellung einer Maschine, die ein Modell von sich selbst enthält, ist ebenfalls kompliziert, und man könnte mit der Möglichkeit logischer Paradoxien rechnen. Der Grundgedanke wirft kein logisches Problem auf, denn das interne Modell könnte sehr vereinfacht sein und eein internes Modell könnte leer sein. In der Tat ist aber auch die Annahme einer Maschine, die ein in allen Einzelheiten vollständiges Modell von sich selbst enthält, nicht paradox. Beispielsweise kann man eine Turingmaschine entwerfen, die eine vollständige Beschreibung ihrer selbst ausdrucken, aber auch beliebig komplizierte Berechnungen durchführen kann, so daß die Struktur der Maschine sich nicht in ihrer Beschreibung erschöpft. Die Maschine kann insbesondere ein 'interpretatives1 Programm enthalten, mit dem sie unter Verwendung der internen Beschreibung berechnen kann, was sie selbst unter bestimmten hypothetischen Umständen tun würde. Ebenso scheint es, wenngleich es für eine Maschine oder den Geist unmöglich ist, in jedem Moment genau zu analysieren, was sie (oder er) von Schritt zu Schritt tut (weil sie (er) nie über den ersten Schritt hinaus kommen würde), keine logischen Gründe zu geben, die der Möglichkeit entgegenstünden, daß die Maschine die Grundprinzipien ihres Operierens versteht oder ausreichend Speicherplatz vorausgesetzt - alle Einzelheiten ihres Betriebs bei einem zuvor aufgezeichneten Zustand untersucht.
18
Μ. L. Minsky
Die Fähigkeit zum interpretierten Operieren gestattet es einem Programm, sich selbst als sein eigenes Modell zu verwenden, was sich rekursiv auf beliebig vielen Ebenen wiederholen läßt, bis die Handhabung der Speicheraufzeichnung des erreichten Zustandes zu unübersichtlich wird. Bei Berücksichtigung dieser Art von 'Introspektion' wird das Verständnis der Unterscheidung von 'Teilen', 'Dingen' und 'Modellen' sehr schwierig. Spielt interpretiertes Operieren eine wichtige Rolle in unserem Geist? Zweifellos interpretiert man unter gewissen Umständen auswendig gelernte Anweisungen. Man könnte sich beispielsweise die Regeln für das Lesen von Noten einprägen, um dann, in sehr langsamem Tempo, ein Musikstück aufzuführen, indem man bei der Umsetzung jeder einzelnen Note auf diese Regeln Bezug nähme. Mit Obung spielt man schließlich schneller, wobei man dies scheint festzustehen - nicht mehr die Regeln für jede einzelne Note interpretiert, sondern besondere Mechanismen nutzt, die man für diese Aufgabe erwirbt. Hier drängt sich eine Analogie zum Vorgang der 'Kompilation' eines vorweg interpretierten Programms auf. Der Grad unserer Bewußtheit hängt vielleicht eng damit zusammen, in welchem Ausmaß die Maschine interpretativ arbeitet, statt kompilierte Programme auszuführen. Beim Interpretieren besteht die Möglichkeit, den nächsten Arbeitsschritt zu untersuchen, bevor m a n ihn tut. 8. Freier Wille Wer eine Maschine oder ein Programm vollständig versteht, wird wenig Anlaß haben, ihr einen 'freien Willen' zuzuschreiben. Wenn man eine Maschine weniger gut versteht, muß man ein unvollständiges Erklärungsmodell ergänzen. Unsere gewöhnlichen intuitiven Modelle für höhere menschliche Aktivitäten sind sehr unvollständig, und viele Begriffe aus unseren informellen Erklärungen halten einer genauen Prüfung nicht stand. 'Freier Wille' ist ein solcher Begriff; niemand kann erklären, wie sich der freie Wille von einem stochastischen Prozeß unterscheidet, und doch besteht ein fester Glaube an einen solchen Unterschied. Ich vermute, daß diese Vorstellung ihren Ursprung in einem starken, primitiven Abwehrmechanismus hat. Kurz gesagt, wir lernen in der Kindheit verschiedene Formen von Aggression und Zwang kennen und entwickeln eine Abneigung gegen jede dieser Formen, ganz gleich ob wir ihnen unterliegen oder widerstehen. Sind wir älter geworden, hören wir, daß unser Verhalten durch eine so und so geartete Menge von Gesetzen 'gesteuert' wird. Diese Tatsache fügen wir in unser Mo-
Materie, Geist, Modell
19
dell (unangemessenerweise) unter den anderen Merkmalen von Zwang ein. Wir wehren uns gegen 'Zwang', egal 'wer ihn ausübt'. Obwohl Widerstand logisch sinnlos ist, bleibt das Ressentiment bestehen und wird durch mangelhafte Erklärungen rationalisiert, weil die Alternative emotional unannehmbar ist. Wie schlägt sich dies in M** nieder? Wenn man sich fragt, wie der eigene Geist funktioniert, findet man Gebiete, auf denen man die geistigen Vorgänge (möglicherweise falsch) versteht - das heißt, Gebiete, für die man Regeln feststellt. Man findet auch andere Gebiete ohne Regeln. Diese Lücke ließe sich durch die Annahme von zufälligen oder wahllosen Aktivitäten schließen. Aber auch so wäre das Selbst - auf anderem Wege - der gleichen unwürdigen Außensteuerung preisgegeben. Wir beheben diese Unannehmlichkeit der Form von M**, indem wir einen 'dritten' Teil postulieren, der den Willen enthält. Doch dieser Teil ist unstrukturiert; über ihn läßt sich nichts Sinnvolles sagen, weil die Grundlage für jede Regularität, die man entdeckt, in den deterministischen Bezirk verlagert wird. Das Modell des Willens beruht somit nicht auf einem legitimen Bedürfnis, genau bestimmte Informationen über das Selbst niederzulegen; ihm kommt der einzigartige Charakter zu, in das Modell nolens volens hineingezwängt zu werden, auf Grund formaler, aber wesentlich inhaltsleerer Vorstellungen darüber, was das Modell enthalten muß. 9. Schluß Wenn intelligente Maschinen konstruiert werden, so sollte niemand erstaunt sein, falls sich herausstellen sollte, daß ihre Überzeugungen zu Fragen von Geist/Materie, Bewußtsein, freiem Willen und dergleichen ebenso verworren und starr wie die menschlicher Wesen sind. Denn alle Fragen dieser Art zielen auf die Erklärung der komplizierten Wechselbeziehungen zwischen Teilen des Modells des Selbst. Die Stärke der Oberzeugung eines Menschen oder einer Maschine über derartige Dinge sagt über den Menschen oder die Maschine nichts aus, abgesehen von dem, was sich daraus über sein (ihr) Modell von sich selbst entnehmen läßt. Die groben Einteilungen unserer Modelle sind wahrscheinlich für uns von großem heuristischem Wert. Ja, wir können (bei Kindern) gewisse Stufen der Ausprägung dieser Unterscheidungen zwischen den Modellen feststellen, die der Entfaltung der Intelligenz entsprechen. Im Alltagsleben könnten diese Unterscheidungen nur unter großem Verlust fallen gelassen werden. Selbst wer die
20
Μ. L. Minsky
Schlußfolgerungen dieses Essays akzeptiert, wird daher wohl kaum irgendeine ernsthafte Auswirkung auf seine Art, über die Mehrzahl der Dinge zu denken, verspüren. Obersetzt von Bernd Wiese
EUGENE CHARNIAK Referenz und Fragebeantwortung in einfachen Erzählungen 1. Einleitung Wenn man zu einem Computer sagt: Rolf hat einen Kreisel und Maria hat auch einen Kreisel, sollte die Maschine, um einen minimalen Grad von Sprachverstehen zu zeigen, erfassen, daß zwei verschiedene Kreisel erwähnt worden sind. Sie muß über eine interne Unterscheidungsmöglichkeit für beide Gegenstände verfügen; da in beiden Fällen die Phrase ein Kreisel verwendet wurde, reicht die deutsche Bezeichnung dafür nicht aus. Wir nehmen daher an, daß die Gegenstände durch zwei unterschiedliche Symbole, sagen wir KREISEL 1 und KREISEL 2, repräsentiert werden. Beim Sprechen bezieht man sich nun aber unglücklicherweise nicht auf KREISEL 2; man sagt: Marias Kreisel oder der Kreisel, den Maria im Wald gefunden hat. Für die Maschine ergibt sich also die Notwendigkeit, ausgehend von derartigen deutschen Bezeichnungen, zu entscheiden, auf welches interne Symbol referiert wird (falls überhaupt eines in Frage kommt). Es läßt sich leicht zeigen, daß der 'Kontext' bei der Bestimmung der Referenz eine wichtige Rolle spielt. Man betrachte das folgende Beispiel: (1) Gestern hatte Rolf Geburtstag. Elke und Barbara gingen ins Kaufhaus. Sie wollten Geschenke kaufen. Barbara entsohloß sich, einen Kreisel zu kaufen. "Nein, lieber nicht, " sagte Elke, "Rolf hat einen Kreisel. Er wird dich bitten, ihn umzutauschen. " Das Problem besteht darin, zu entscheiden, worauf ihn im letzten Satz referiert. Eine altehrwüTdige Regel besagt, daß ein Pronomen auf den zuletzt erwähnten Gegenstand verweist. In diesem Fall ist jedoch einen Kreisel in Rolf hat einen Kreisel, der zuletzt erwähnte unbelebte Gegenstand. Elke sagt jedoch nicht, daß Rolf Barbara bitten wird, den alten Kreisel, den er schon viele Jahre besitzt, umzutauschen. Der neue würde umgetauscht. Anscheinend verfügen wir über Informationen über Geschenke und Umtausch, die uns die Folgerung erlauben, daß es bei den beiden gegebenen möglichen Referenten normaler wäre, daß Barbara den Kreisel umtauschen würde, den sie kaufen will. Der vorliegende Aufsatz be-
22
Ε. Charniak
handelt die Frage, wie wir bei Entscheidungen über Referenzbezüge von derartigen komplexen Folgerungen Gebrauch machen. Die Notwendigkeit komplexer Schlüsse bei Referenzentscheidungen beschränkt sich nicht auf Pronomina, denn die letzte Zeile von (1) könnte auch lauten: "Er wird dich bitten, den Kreisel umzutauschen." (1) ist auch kein alleinstehendes Beispiel: (2) Barbara wollte zu Jürgens Party gehen. Mutter mußte ihr sagen, daß sie nicht eingeladen war. (3) Als Elke von dem Kostümfest hörte, überlegte sie, was Mutter anziehen könnte. Mutter mußte ihr sagen, daß sie nicht eingeladen war. Jede Theorie, die Aussicht auf eine überzeugende Behandlung solcher Fälle haben soll, muß sich mit Problemen befassen, die viel weiter als das Referenzproblem alleine reichen. So waren denn auch die hier dargestellten Überlegungen ursprünglich das Ergebnis der Arbeit an einem Computer-Programm, das Kindergeschichten verstehen und sein Verständnis durch das Beantworten von Fragen zeigen sollte. Eine Beschreibung jener Arbeit sowie eine eingehendere Behandlung des Referenzproblems finden sich in Charniak (1972). Diese Arbeit gibt jedoch meine heutigen Ansichten (siehe ζ. B. Charniak (1975)) nicht mehr richtig wieder, und das dort vorgestellte Modell wird im vorliegenden Aufsatz nicht zu Grunde gelegt. Obwohl das Thema der vorliegenden Arbeit die Frage ist, wie den Referenzproblemen in einem Frage-AntwortSystem zu begegnen ist, bedarf es in der Tat sehr weniger Annahmen über die Besonderheiten des Systems. Die Annahmen, die wir benötigen, werden im Text genannt. Wir setzen natürlich voraus, daß das Programm Fragen über die Geschichte, die es liest, beantwortet. So könnten wir bei Beispiel (1) fragen: (4) Warum gingen Barbara und Elke ins Kaufhaus ? (5) Für wen sind die Geschenke? (6) Warum würde Rolf Barbara bitten, den Kreisel Kaufhaus umzutauschen?
im
Als Grundlage speichert das Modell eine interne Repräsentation der Geschichte in einer Datenbasis. Bei der Eingabe der Geschichte versucht das Modell automatisch, Fragen wie (4), (5) und (6) zu beantworten, d. h., es wartet mit der Ausfüllung von 'Lücken', die es für wesentlich hält, nicht, bis es gefragt wird. Diese Folgerungen werden zusammen mit der Geschichte in der Datenbasis gespeichert. Der vorliegende Aufsatz gliedert sich in zwei große Teile. Im ersten Teil (Abschnitt 2, 3 und 4) schlage
Referenz und Fragebeantwortung in einfachen Erzählungen
23
ich eine Methode vor, die vielen Beispielen Rechnung trägt, bei denen über die Referenz mittels komplexer Folgerungen aus der Geschichte entschieden wird. Ich zeige insbesondere, daß diese Beispiele durch Routinen erfaßt werden können, die unabhängig auch für Zwecke der Fragebeantwortung gebraucht werden. Diese Feststellung ist natürlich trivial, wenn Fragen wie Wae ist der Referent für 'ihn' im letzten Satz? oder Her war nicht zur Party eingeladen? zu Beispiel (1) beziehungsweise (2) zur Debatte stehen. Meine Behauptung geht viel weiter. Selbst wenn man der Maschine die Geschichte mit den bereits vollzogenen Bestimmungen der Referenten vorlegte, (d. h., wenn in der Eingabe ausdrücklich von KREISEL 1 usw. die Rede wäre), würde man doch solche Routinen benötigen, um die Antworten auf Fragen wie (4) und (6) zu erschließen. Eben diese Routinen kommen bei der Bestimmung der Referenz zum Zuge. Ein Hauptproblem bei der Verwendung von Frage-AntwortSystemen zur Unterstützung der Referenzbestimmung besteht darin, daß das System oft den Referenten kennen muß, um eine Frage zu beantworten. Das Verfahren, das ich im ersten Teil vorstelle, ist auf dieses Dilemma zugeschnitten; im zweiten Teil behandle ich es bedeutend detaillierter und betrachte Alternativlösungen (Abschnitt 5, 6 und 7). 2. Bei Referenzentscheidungen verwendete arten
Informations-
Wir sind zu der Oberzeugung gekommen, daß die Wahl des richtigen Referenten in (1) bis (3) durch Folgerungen ermöglicht wird. Wir haben die Frage jedoch nicht erörtert, sondern wir haben uns darauf verlassen, daß dem Leser die Faktoren, die die Wahl von Referenten beeinflussen, intuitiv klar sind. Wir wollen nun für einige Fälle näher betrachten, welche Faktoren dies sind. Wenn wir Rolf oder der Ball sagen, wissen wir, daß der in Frage stehende Gegenstand den Namen Rolf trägt oder ein Ball ist. Darüberhinaus können wir den Gegenstand durch Hinzufügung von Adjektiven näher bestimmen wie in der rote Ball. Bei dem etwas weniger trivialen Beispiel Rolfe Haue wird ein Haus spezifiziert, das eine Besitzrelation bezüglich Rolf erfüllt. Damit ist im Falle von Haue wahrscheinlich gesagt, daß das Haus, in dem Rolf und seine Familie wohnen, gemeint ist. Wenn eine noch genauere Spezifizierung nötig ist, könnten wir Nebensätze hinzufügen wie in der rote Ball3 der gestern auf dae Dach geworfen wurde. In diesen Fällen ist die Information 'deskriptiv' in dem Sinne, daß die Definitionen der Wörter der Nominal-
24
Ε. Charniak
phrase (NP) eine teilweise Beschreibung des Gegenstandes liefern. In fast allen Programmen zur Verarbeitung natürlicher Sprache wird von deskriptiver Information Gebrauch gemacht. Der vielleicht vollständigste und zufriedenstellendste Ansatz findet sich in Winograd (1972). In den Beispielen (1) bis (3) spielt deskriptive Information offensichtlich eine Rolle (die Möglichkeit, daß ihn sich auf Barbara beziehen könnte, haben wir nicht einmal erwogen); allein genommen war deskriptive Information jedoch nicht ausreichend, da in (2) und (3) das aie ebensowohl auf Mutter wie auf Elke referieren konnte und da in (1) der Referent von ihn oder den Kreisel jeder der beiden Kreisel hätte sein können. Eine besonders einfache Art von Information ist 'Vorkommen'. Wenn man miteinander redet und die Feige erwähnt, bezieht man sich auf eine Feige, die beispielsweise zwei Sätze zuvor und nicht in einem zwei Wochen zurückliegenden Gespräch erwähnt worden ist. Derartige Information spielt bei der Bestimmung pronominaler Referenz eine noch entscheidendere Rolle, da der Haupthinweis auf den Referenten meist in der Tatsache liegt, daß er in den letzten zwei oder drei Sätzen erwähnt worden ist. Die Unterschiede bezüglich des 'letzten Vorkommens ' müssen nicht eben groß sein, um signifikant zu sein. Man vergleiche: (7) Jürgen warf Rolf einen grünen Ball zu. Rolf hatte einen roten Ball in der Hand. Er warf ihn Hane zu. (8) Rolf hatte einen roten Ball in der Hand. Jürgen warf ihm einen grünen Ball zu. Rolf warf ihn Hane zu. Da es uns hier um Folgerung geht, werden wir solche Beispiele wählen, bei denen Vorkommensinformation keine große Rolle für die Referenzbestimmung spielt. Zu diesem Zweck werden wir unsere Beispiele derart wählen, daß (a) Vorkommensinformation zur falschen Antwort führt (Beispiel (1)) oder (b) daß sie uns - bei einem anderen Kontext für den gleichen Satz - zu einem unzutreffenden Schluß führt (Beispiel (2) und (3)). Eine weitere Informationsart, die bei der Referenz eine Rolle spielt, sind 'Syntaxregeln'. Auf den ersten Blick scheint es überraschend, daß Syntax etwas mit Referenz (insbesondere pronominaler Referenz) zu tun haben soll, da man doch annehmen könnte, daß Pronomina vollständige Nominalphrasen unabhängig von syntaktischen Erwägungen ersetzen können. Wir wissen jedoch bei einem Satz wie Jürgen wueoh ihn, daß ihn nicht auf Jürgen referiert, da wir in diesem Fall sagen müßten Jürgen wusch eich. Man kann sich auf vielerlei Weise da-
Referenz und Fragebeantwoctung in einfachen Erzählungen
25
von überzeugen, daß diese Tatsache syntaktischer und nicht semantischer Natur ist. Erstens war für unsere Entscheidung kein Kontext vonnöten. Außerdem könnten wir waeahen durch irgendein Phantasiewort wie tuoken ersetzen; wir wüßten dennoch, daß ihn in Jürgen tuakte ihn nicht dasselbe wie Jürgen ist. Darüberhinaus würden wir den Satz als ungrammatisch bezeichnen, wenn wir wüßten, daß ihn auf Jürgen referieren soll, genauso wie wir loh wueeh mir ungrammatisch nennen würden. Die Bedeutung des Satzes loh wueeh mir ist völlig eindeutig; wenn er verworfen wird, geschieht dies also aus syntaktischen Gründen. Die Regeln, die diese Umstände bestimmen, sind nicht vollständig bekannt. Man vergleiche dazu beispielsweise Langacker (1969) oder Dougherty (1970). Derartige grammatische Regeln können nicht mehr bewirken als mögliche Referenten auszuschließen. Wenn nur Α und B, zum Beispiel auf Grund deskriptiver Information, mögliche Referenten sind und die syntaktischen Tatsachen Β ausschließen, muß folglich Α der richtige Referent sein. Wenn es jedoch möglich ist, den Satz in einen anderen Kontext zu stellen, in dem man Β als Referenten erhält, kann bei der Entscheidung für die Wahl von Α die Syntax nicht der ausschlaggebende Faktor sein. Genau dies lag bei den Beispielen (2) und (3) vor. Verben besitzen oft 'Selektionsbeschränkungen 1 , die angeben, welche Art von Dingen als ihr Subjekt oder Objekt dienen können. Beispielsweise kann er in Er erzählte Jürgen von dem Aufruhr auf Rolf oder der Junge mit dem gelben Hemd, aber nicht auf mein Hund Rex referieren. Ebenso kann es in Sie trat es nicht auf das Rennen referieren, während dies bei Sie gewann es möglich wäre. Der Gedanke der Selektionsbeschränkung ist nicht neu. In seiner jetzigen Form wurde er zuerst von Katz und Fodor (Katz/Fodor (1963)) eingeführt und fand in verschiedenen sprachverstehenden Programmen Anwendung (ζ. B. Simmons u. a. (1968)). Schließlich spielt bei der Referenz die Erscheinung des 'Themas' (oder 'Fokus') anscheinend eine Rolle. Man vergleiche: (9) Naoh dem Aufwaohen zog Rolf aioh an und ging zum Frühetüok runter. Naoh dem Frühetüok verabschiedete Rolf sich von seinem Vater, und dann verließ er das Haus. In diesem Beispiel verstehen wir er als Bezeichnung für Rolf und nicht für seinen Vater, weil (9) eine Geschichte über Rolf und das, was er tut, ist und wir daher erwarten, daß sie weiterhin von Rolf handelt. Ein Problem dieser Abhandlung besteht darin, daß der Bedeutung des Faktors 'Thema' nicht angemessen Rechnung
Ε. Charniak
26
getragen wird. Wir müßten beispielsweise fragen, wie sich 'Thema' und 'komplexe Folgerung' als Methoden der Referenzbestimmung auseinanderhalten lassen. Wie stellen wir fest, ob thematische Erwägungen, soweit sie sich tatsächlich von Folgerungen unterscheiden, zur Festlegung der Referenz in den Beispielen (1) bis (3) beitragen? Die Schwierigkeit, auf die man bei dem Versuch der Beantwortung solcher Fragen stößt, besteht einfach darin, daß man nicht genau weiß, was 'Thema' ist. Aus diesem Grunde ist dieser Faktor in meinen Überlegungen größtenteils nicht berücksichtigt. Fassen wir zusammen. Wir haben festgestellt, daß bei Referenzentscheidungen folgende Arten von 'Wissen' verwendet werden: 1) 2) 3) 4) 5) 6)
deskriptive Information Vorkommen Syntaxregeln Selektionsbeschränkungen Thema komplexe Folgerung
Jeden einzelnen Typ von Information (abgesehen von 'Thema'), den wir betrachtet haben, haben wir für unsere eingangs gegebenen Beispiele als letztlich entscheidenden Faktor ausschließen können. So kommen wir zu unserem ursprünglichen Schluß zurück, daß 'komplexe Folgerung' zur Bestimmung der Referenz irgendwie beiträgt. 3. Wieviel Folgerung braucht man? Im vorhergehenden habe ich die Behauptung aufgestellt, daß man in vielen Fällen Folgerungen aus einer Geschichte ziehen muß, um Entscheidungen über Referenz fällen zu können. In diesem Abschnitt werde ich informell zeigen, daß diese Folgerungen intuitiv diejenigen sind, die das Modell bei seinem Versuch, die 'Lücken der Geschichte zu füllen', ohnehin ziehen würde. Wir wollen nochmals Beispiel (1) betrachten, das wir hier mit der Nummer (10) wiederholen: (10) Gestern hatte Rolf Geburtstag. Elke und Barbara gingen ins Kaufhaus. Sie wollten Gesahenke kaufen. Barbara enteohloß sieh, einen Kreisel zu kaufen. "Hein, lieber nicht, " sagte Elke, "Rolf hat einen Kreisel. Er wird dich bitten, ihn umzutauschen. " Die Regel, die hier wirksam wird, ist ungefähr die folgende :
Referenz und Fragebeantwortung in einfachen Erzählungen
27
(11) Man wird oft den Umtausch eines neu gekauften Gegenstandes veranlassen, wenn man ihn nicht haben will. Wenn unser Modell diese Regel auf die Geschichte (1) anwendete, würde es ihn dem Geschenk zuordnen, das Barbara kaufen will, da dieses der neu gekaufte Gegenstand ist, den Rolf nicht haben will. Folglich müssen wir den durch (11) dargestellten Schluß ziehen. (11) setzt aber voraus, daß wir wissen, daß Rolf den Kreisel nicht haben will; woher wissen wir das? In der Geschichte wird es nicht gesagt. Vermutlich ist uns bekannt, daß es der Fall sein könnte, daß jemand im Zusammenhang des Einkaufs eines X als eines Geschenkes für ihn, wenn er ein X hat, kein weiteres X haben möchte. Woher wissen wir aber, daß Barbara einen Kreisel für Rolf zu kaufen beabsichtigt? Dies wird in der Geschichte wiederum nicht gesagt. Diese Kette von Argumenten können wir fortführen bis zur ersten Zeile der Geschichte. Wenn wir damit durch sind, benötigen wir ungefähr die folgenden Folgerungen (die wir mit der Nummer der Zeile, bei der sie gezogen werden müßten, aufführen). (12) Zeile 3: Mache dir klar, daß das Geschenk für Rolf gedacht ist. Versichere dich der Tatsache, daß Barbara und Elke ins Kaufhaus gingen, um Geschenke zu kaufen. Zeile 4: Der Kreisel wäre Barbaras Geschenk für Rolf. Zeile 6: Daß Rolf schon einen Kreisel hat, legt nahe, daß er vielleicht keinen weiteren haben will. Daß er vielleicht keinen weiteren haben will, legt nahe, daß Barbara ihm keinen kaufen sollte. Zeile 7: Der Grund, daß er Barbara bitten könnte, den Kreisel umzutauschen, ist, daß er keinen weiteren will. Um den einen Referenten zu finden, ist es anscheinend erforderlich, praktisch jede Einzelheit der Geschichte zu verstehen. Wichtiger ist aber, daß man jede einzelne dieser Tatsachen bei der Beantwortung von Fragen wie (4), (5) und (6) benötigt. Wenn das Modell derartige Fragen 'ohne zu zögern' beantwortet, dann stehen die in (12) aufgeführten Informationen in der Datenbasis für die Unterstützung der Bestimmung der Referenten schon bereit. Betrachten wir noch Beispiel (2). In diesem Fall könnten wir fragen: Glaubet du, daß Barbara enttäuecht war? Um diese Frage zu beantworten, müßten wir Barbaras Wunsch, zur Party zu gehen, und Mutters Äußerung, daß
28
Ε. Charniak
Barbara nicht eingeladen worden ist, kombinieren. Dies ist wenigstens intuitiv ein ähnliches Zusammenwirken wie jenes, das uns eie in (2) als Barbara verstehen läßt. 4. Die Verwendung der Information aus der Fragebeantwortung Wir wollen annehmen, daß wir, sobald wir auf eine Nominalphrase stoßen, deskriptive und syntaktische Information über Selektionsbeschränkungen heranziehen, um uns einen schnellen Überblick über die Gegenstände aus der Geschichte zu verschaffen, die als Referent in Frage kommen. (Im Falle von Pronomina ziehen wir nur 'kürzlich erwähnte' Gegenstände in Erwägung und machen damit auch von Vorkommensinformation Gebrauch.) Die aufgefundenen Gegenstände nennen wir 'mögliche Referenten' und den Vorgang des Auffindens der möglichen Referenten 'erste Referenzanalyse'. Wir interessieren uns für die Fälle, bei denen es mehr als einen möglichen Referenten gibt. Wir setzen voraus, daß der deutsche Satz in irgendeine interne Repräsentation übersetzt wird. Jedoch wollen wir hier nicht erörtern, wie eine derartige Repräsentation aussehen würde. Für Illustrationszwecke wollen wir annehmen, daß sie sich nicht allzusehr vom Prädikatenkalkül unterscheidet. Demnach könnte sich ergeben: (13) Rolfe Brachen liegt auf dem Tisch (14) (AUF DRACHEN1 TISCH1) Im Falle von (13) wissen wir vermutlich, daß DRACHEN1 Rolf gehört. Wenn wir darüberhinaus annehmen, daß uns nur ein Drachen bekannt ist, der Rolf gehört, so können wir die Anzahl der möglichen Referenten nach der Auswertung der deskriptiven Information auf eins reduzieren. Dieses eine verbleibende Element (DRACHEN1) bringen wir dann an die passende Stelle in (14). (Ausdrücke der Art wie (14) nennen wir 'Feststellungen'.) Dieses Verfahren ließe sich für Fälle, bei denen es mehr als einen möglichen Referenten gibt, folgerichtig erweitern, indem man an die passende Stelle in der Feststellung eine 'Variable' setzt. Variablen kennzeichnen wir mit dem Präfix '?'. ?ER ist also die Variable ER. Falls Rolf mehr als einen Drachen besitzt, würde (13) zu: (15) (AUF ?ER TISCH1) ?ER kann natürlich nicht jeder beliebige Gegenstand sein. Wir wollen diese Variable auf die Drachen, die
Referenz und Fragebeantwortung in einfachen Erzählungen
29
Rolf gehören, einschränken. Wir wollen davon sprechen, daß ?ER auf die möglichen Referenten, die durch die erste Referenzanalyse bestimmt worden sind, 'beschränkt' sei. Solche Beschränkungen werden vor der Zuordnung eines Wertes zu einer Variablen überprüft, damit sichergestellt ist, daß der Wert nicht in Widerspruch zu den Beschränkungen steht. Wenn die beschränkte Variable erst einmal in die Feststellung eingesetzt ist, fahren wir fort und nehmen unsere verschiedenen Schlüsse vor, als ob wir die Gegenstände, die in Rede stehen, kennen würden. Das gilt jedoch nur mit einer offensichtlichen Einschränkung. Wir können nicht unmittelbar fragen: Was ist ?ER ?, da wir die Antwort nicht wissen. Dies erscheint zunächst als sehr ernsthafte Einschränkung, und man könnte meinen, wir hätten das Referenzproblem nur mit dem Trick einer Umbenennung beiseite geschafft. Das entscheidende Wörtchen ist hier jedoch 'unmittelbar'. Wie wir nun zeigen werden, gibt es Mittel und Wege, um mittelbar nach ?ER zu fragen. Wir haben oben gesehen, daß wir - ungeachtet des Referenzproblems - zur Beantwortung der Frage Warum maßte Barbara den Kreisel umtauschen? über eine Schlußregel in der Art von (11) verfügen müßten, d. h. über etwas, das besagt, daß ein neugekaufter Gegenstand möglicherweise umgetauscht würde, wenn jemand ihn nicht haben will. Da wir keine speziellen Annahmen über die Repräsentation und Organisation von Wissen im Modell gemacht haben, können wir die Formalisierung von (11) nicht im einzelnen darstellen. Jedoch wollen wir, um einen ungefähren Eindruck von der Arbeitsweise des Verfahrens der Referenzbestimmung zu geben, (11) wie folgt repräsentieren: (16) Wenn gesagt wird ?N (UMTAUSCH 7PERS0N-A ?GEGENSTAND) und ?M (NICHTHABENKOLLEN ?PERSCN-B ?GEGENSTAND) wobei gilt (BESITZEN ?PERSON-B ?GEGENSTAND) dann ist festzustellen (GRUND ?M ?N) Dabei sind ?M und ?N Namen von Feststellungen. Angenommen, wir wenden (16) auf die Geschichte (1) an. Wir wollen voraussetzen, daß wir bereits erschlossen haben: (17) (NICHTHABENWOLLEN R0LF1 KREISEL1) wobei KREISEL1 der Kreisel ist, den Barbara zu kaufen beabsichtigt. Ebenso wollen wir annehmen, daß Er wird dich bitten, ihn umzutauschen zu der Feststellung führt: (18) (UMTAUSCH BARBARA1 ?ER) wobei ?ER auf KREISEL1 und KREISEL2 beschränkt ist.
30
Ε. Charniak
?GEGENSTAND aus Regel (16) muß auf Grund von (17) KREISEL1 sein. Betrachten wir nun, was geschieht, wenn wir (18) mit der ersten Zeile von (16) in Obereinstimmung zu bringen versuchen. Im Falle von (16) erwarten wir, daß 7GEGENSTAND umgetauscht wird. ?GEGENSTAND muß aber KREISEL1 sein; wir erwarten also den Umtausch von KREISEL1. Stattdessen erfahren wir, daß ?ER umgetauscht wird, wobei wir über ?ER nicht mehr wissen, als daß es auf die beiden Kreisel beschränkt ist. Es liegt nun auf der Hand, festzulegen, daß die Regel KREISEL1 (das potentielle Geschenk) wählt, da dann (16) in Funktion treten kann. Indem wir so verfahren, erhalten wir mit KREISEL1 den richtigen Referenten für ihn. In einem gewissen Sinn fragt nun unsere Regel: Was ist ?ER ?, nämlich in Form des Versuchs, die beiden Umtausch-Feststellungen in Obereinstimmung zu bringen. Sie erhält als Antwort, daß die Variable bisher noch keinen Wert hat, aber daß entweder KREISEL1 oder KREISEL2 in Frage kommt. Sowohl (16) wie (17) als auch (18) sind in dem Sinne zufällig, daß es viele andere Arten der Wiedergabe der Tatsachen gibt und die gewählten Repräsentationen durch nichts begründet worden sind. In der Tat würde ich (16) und (18) nicht verteidigen wollen, da ich sicher bin, daß sie in vieler Hinsicht nicht korrekt sind. (Eine gründliche Analyse der Geschichte (1) und des Wissens, daß zum Verständnis des letzten Satzes von (1) benötigt wird, findet sich in Charniak (1974)). Die besondere Form, die ich gewählt habe, ist jedoch auch nicht wichtig. Worauf es ankommt, ist vielmehr, daß Regel (16) oder eine ähnliche Regel auf Grund der Tatsache, daß Rolf KREISEL1 nicht haben will, dazu führt, daß ?ER nur KREISEL1 sein kann. Um kurz zusammenzufassen, wenn wir auf eine Nominalphrase stoßen, wenden wir sogleich die erste Referenzanalyse an, bei der von deskriptiver und syntaktischer Information sowie von Selektions- und manchmal von Vorkommensinformation Gebrauch gemacht wird. Wenn dies nicht ausreicht, um den Referenten eindeutig zu bestimmen, setzen wir an die Stelle, an die das interne Symbol des Gegenstands gekommen wäre, wenn wir ihn kennen würden, eine Variable. Die Variable wird auf den Bereich der möglichen Referenten beschränkt. Falls es dazu kommt, daß die Variable auf einen bestimmten ihrer möglichen Werte eingeschränkt wird, so wird ihr dieser Wert zugeordnet. Dies geschieht zum Beispiel, wenn der gerade bearbeitete Satz auf eine Regel paßt. Bei diesem Vorgang ordnen wir die Variable ihrem neuen Wert fest zu und weisen der Nominalphrase folglich ihren Referenten zu. Als Ausweichmöglichkeit für Geschichten wie (7) und (19) legen wir fest, daß der Referent, wenn keine Ober-
Referenz und Fragebeantwortung in einfachen Erzählungen
31
prüfung auf Übereinstimmung vorgenommen wird, auf Grund von Erwägungen über Vorkommen und/oder Thema gewählt wird. 5. Probleme des Verfahrens mit beschränkten Variablen Im vorausgehenden Abschnitt haben wir in allgemeinen Zügen eine Methode zur Unterstützung von Referenzbestimmungen umrissen, die sich auf Schlußfolgerungen stützt. (Wir nennen sie kurz die Variablen-Methode.) Ein Aspekt dieser Methode, auf-den wir noch nicht eingegangen sind, der jedoch sehr wichtig ist, ist die Schnittstelle von Referenzbestimmungsprozeß und Fragebeantwortungsprozeß. Wie wir eingangs bemerkt haben, sind die Anforderungen beider Prozesse in gewissem Sinne kontradiktorisch. Zum Zweck der Referenzbestimmung ist es erwünscht, die Entscheidung über den Referenten so lange wie möglich offen zu lassen, um dabei so viel Information wie möglich zum Tragen bringen zu können, während es für die Fragebeantwortung wünschenswert ist, den Referenten so früh wie möglich festzulegen, um nicht die Beantwortung von Fragen auszuschließen, bei denen man den Referenten kennen muß. Wie verhält sich nun die Variablen-Methode gegenüber diesen kontradiktorischen Ansprüchen? Einerseits läßt sich dies leicht beantworten: Das Verfahren gestattet es, die beschränkte Variable zu binden, wenn dies durch eine Übereinstimmungsprüfung notwendig wird, was eigentlich besagt: "Wenn es das erstemal zur Beantwortung einer Frage nötig wird, den Referenten zu kennen - dann fälle die Entscheidung." Die andere Hälfte der Frage halten wir die Entscheidung lange genug offen? - ist schwerer zu beantworten. Im Moment ist es für mich tatsächlich unklar, ob mit dieser Methode genügend Fakten in den Referenzbestimmungsprozeß einbezogen werden. Wenn wir die Bestimmung auf Grund der ersten Ubereinstimmungsprüfung vornehmen, besteht das Problem, wie man sieht, darin, daß wir uns der Gefahr aussetzen, zu einer falschen Entscheidung zu kommen. Wie das geschehen kann, sieht man an folgendem Beispiel: (19) Mutter besaß einen sehr zerbrechlichen Krug. Eines Tages hob Mutter einen Stein auf. Dann ließ sie ihn fallen. ihn bezieht sich hier eindeutig auf den Stein. Wir nehmen nun an, daß wir über eine Regel verfügen, die das Aufheben und Fallenlassen von Dingen in Verbindung bringt. Es soll aber auch eine Regel folgender Art geben:
32
Ε. Charniak
(20) Wenn bekannt ist ?GEGENSTAND ist zerbrechlich und ?GEGENSTAND fällt dann ist festzustellen wahrscheinlich ?GEGENSTAND zerbricht Wenn diese Regel nun vor der Aufheben-Fallenlassen-Regel zur Anwendung käme, würden wir in unserem Modell für ihn aus (19) den falschen Referenten erhalten. Möglicherweise gibt es jedoch eine vernünftige Regel, die verhindert, daß (20) zuerst angewendet wird. Grob gesagt, würde diese Regel festlegen, daß "bei einem Satz X jene Fakten, die erklären, warum X gesagt worden ist oder warum man X glauben sollte, vor jenen Fakten ausgewertet werden sollten, aus denen sich nur bisher unbelegte Folgerungen aus X ableiten lassen." Der Grundgedanke dabei ist, daß manche Tatsachen vornehmlich einen Satz erklären - und daß diese allein es sind, die zur Referenzbestimmung beitragen - während andere nur neue Sachverhalte ins Spiel bringen und bei der Referenzbestimmung keine Rolle spielen. Dies ist selbstverständlich eine sehr vage Regel, und selbst wenn wir sie voraussetzen, können wir nicht sicher sein, daß sich nicht noch andere Probleme ergeben. Andererseits ist die Variablen-Methode recht einfach, und darin liegt ihre Attraktivität. Nichtsdestoweniger müssen wir auch andere mögliche Lösungen für das Problem der richtigen Schnittstelle betrachten. Dies soll im folgenden Abschnitt geschehen. 6. Eine Revisions-Methode für die Referentenwahl Auf den ersten Blick scheint die 'Regel der letzten Erwähnung' ziemlich gut zu funktionieren. Wenn wir zur Erstellung einer Liste der möglichen Referenten unsere erste Referenzanalyse anwenden und den zuletzt erwähnten auswählen, erhalten wir in vielleicht neunzig Prozent aller Fälle den richtigen Referenten. Statt sich der Mühe zu unterziehen, eine Platzhaltervariable zu bilden mit der Hoffnung, daß dieser Variablen am Ende ein Gegenstand zugeordnet wird, wäre es vielleicht besser, von der Annahme auszugehen, daß der zuletzt genannte Gegenstand der richtige ist, solange dies nicht zu Schwierigkeiten führt. Dieses Verfahren kann man als 'Revisions'-Methode ['backup'method] charakterisieren, da eine Möglichkeit als richtig angenommen wird, bis das Gegenteil gezeigt ist. Alle Revisions-Verfahren benötigen einen 'Entscheidungsbegründer' ['plausible move generator'], um festzulegen, in welcher Reihenfolge die Möglichkeiten ausprobiert werden. Unser Vorschlag ist durch eine Methode für das Treffen 'begründeter Entscheidungen' gekenn-
Referenz und Fragebeantwortung in einfachen Erzählungen
33
zeichnet, die sich nach der 'letzten Erwähnung' richtet. Weitere 'Entscheidungsbegründer' erörtern wir unten. Die Revisions-Hypothese ist auf jene Nominalphrasen gemünzt, denen man getrost einen Referenten zuordnen kann, bevor man den Rest der Geschichte gelesen hat. Es gibt jedoch Fälle, bei denen wir, wenn wir den Satz lesen, einfach einen Fehler machen, den wir erst korrigieren können, wenn wir einen größeren Teil der Geschichte gelesen haben. In derartigen Fällen haben wir tatsächlich einen Referenten gewählt, mit dem wir in Schwierigkeiten kommen; wir müssen dann 'zurückgehen' und unsere Wahl revidieren. Die 'Fehler'-Situation darf jedoch nicht mit der Revisions-Hypothese verwechselt werden. Wenn wir einen Fehler machen, sind wir uns bewußt, daß wir zurückgehen und unser Verständnis der Geschichte revidieren. Dagegen sind wir uns bei gewöhnlichen Referenzentscheidungen anscheinend noch nicht einmal darüber im klaren, daß die NP mehr als einen möglichen Referenten hat, geschweige denn dessen, daß wir zurückgegangen sind und unsere Interpretation geändert haben. Ein revidierender Ansatz könnte aus verschiedenen Gründen ein falsches Herangehen an die Dinge sein. Ein auf der Hand liegender Grund könnte darin bestehen, daß die Zahl der zu probierenden Möglichkeiten untragbar groß wäre. Dies trifft jedoch nicht zu, da nach der ersten Referenzanalyse kaum je mehr als drei oder vier mögliche Referenten übrig bleiben. Die wirkliche Schwierigkeit bei der Verwendung der Revision liegt darin, einen Weg zu finden, um zu entscheiden, wann eine Möglichkeit versagt hat und die nächste zu prüfen ist. Dieses Problem entsteht, weil wir bei der RevisionsMethode die Entscheidung, daß ein bestimmter Referent 'schlecht' ist, treffen müssen, ohne die übrigen möglichen Referenten in Betracht zu ziehen, insbesondere ohne den gewählten Referenten mit den anderen Möglichkeiten zu vergleichen. Beispielsweise könnten wir nicht so etwas wie "Wähle den Referenten, der am besten 'paßt'" veranlassen, da hierfür ein Vergleich notwendig wäre. Um eine Vorstellung von der Arbeitsweise eines Revisions-Verfahrens zu gewinnen, betrachten wir wieder unsere 'Kreisel-Geschichte' (1). Angenommen, unser System enthalte die folgende Regel: (21) Wenn ein Gegenstand X umgetauscht wird, darf er gerade erst gekauft worden sein. Wenn wir nun Rolfs Kreisel als Referenten für ihn ausprobierten, würden wir diese Entscheidung auf Grund von (21) vermutlich verwerfen. Meines Erachtens gibt es aber bei dieser Analyse ernsthafte Schwierigkeiten. Insbesondere ist (21) keine Regel mit absoluter Gültig-
Ε. Charniak
34
keit. Es könnte durchaus eine Geschichte geben, bei der ein alter Gegenstand umgetauscht wird. Eine derartige Geschichte würde sich sehr schwer behandeln lassen, w e n n wir (21) absolute Gewalt zur Verwerfung eines Referenten zuschrieben. Dies scheint mir ein stichhaltiger Einwand. Das Grundproblem - die Notwendigkeit, Referenten zu vergleichen, um den richtigen zu bestimmen - können wir jedoch an einem anderen Beispiel besser veranschaulichen: (22) Mutter baokte Kekse und ließ einen auf einem Teller liegen. Sie stellte den Teller auf den Küchentisch und ging in den Keller. "Barbara wird ihn sicher mögen." dachte Mutter. Entsprechend der letzten Erwähnung ergäbe sich für ihn die folgende, der Priorität nach geordnete Liste v o n Möglichkeiten: (i) (ii) (iii) (iv)
der der der der
Keller Küchentisch Teller (eine) Keks
Es m u ß entschieden werden, daß ihn nicht auf (i), (ii) oder (iii) referiert. Da die Revisions-Methode verlangt, daß wir 'in Schwierigkeiten geraten', wenn der bevorzugte (d. h. 'zuletzt erwähnte') Referent ausgeschlossen w e r d e n soll, reduziert sich das Problem auf die Frage, was uns bei (i), (ii) bzw. (iii) Schwierigkeiten verursacht . Viele Tatsachen kommen in Frage, um die Entscheidung zu begründen, daß ihn den Keks bezeichnet. Zum Beispiel: (a) Kinder 'mögen' eher Kekse als irgendetwas anderes aus der Aufzählung. (b) M a n interessiert sich eher dafür, ob irgendjemand etwas mag, w e n n m a n bei der Herstellung des betreffenden Dings beteiligt war. (c) Da Barbara die übrigen Dinge aus der Aufzählung vermutlich kennt, sind die Kekse die einzigen Dinge, über die sie sich eine neue Meinung bild e n muß. Von diesen Tatsachen ist keine in dem Sinne absolut, daß die Geschichte unsinnig wäre, w e n n ihr nicht entsprochen würde. So würde Regel (c), die meines Erächtens die wahrscheinlichste Erklärung bietet, nicht ausschließen, daß Mutter sagt: "Barbara wird die Schüssel sicher mögen." Wir könnten uns leicht vorstellen, daß Mutter fortfährt: "loh habe sie gerade für sie gekauft." Jede dieser Regeln besagt vielmehr: "Wenn ich die Wahl hätte, würde ich m i c h für... entscheiden." Das heißt
Referenz und Fragebeantwortung in einfachen Erzählungen
35
aber, daß die Regeln die möglichen Referenten vergleichen können müßten; Revisions-Verfahren lassen jedoch, wie wir bereits gesehen haben, derartige Vergleiche nicht zu. Wir haben bereits weitere Fälle kennengelernt, bei denen ein Referent einfach besser paßt ((2) und (3), die Geschichten, bei denen entweder Mutter oder Elke nicht zur Party eingeladen ist). Es besteht kein Grund, warum in Beispiel (2) nicht Mutter die 'nicht eingeladene' Person sein könnte. Und es reicht natürlich auch nicht aus zu sagen: "Daß Mutter nicht eingeladen worden sei, gibt keinen Sinn, denn wir haben darüber gesprochen, daß Elke zu einer Party gehen wollte." Es ist nicht so, daß es keinen Sinn gäbe, anzunehmen, daß Elke nicht eingeladen worden sei. Wenn man erzählt hätte: Man sagte Elkej daß Mutter nicht eingeladen war, hätten wir dies in der Tat,so gut wir können, verstanden. Wir hätten vielleicht auf eine Zeile gewartet wie Elke wußte, daß Mutter sie niemals alleine gehen lassen würde. Im vorausgehenden haben wir ein Revisions-Verfahren formuliert, bei dem der zuletzt erwähnte Referent der bevorzugte ist. Es gibt andere Möglichkeiten. Eine interessante nimmt auf 'Thema' Bezug. Bei diesem RevisionsVerfahren würden alle Gegenstände aus dem Thema zuerst ausprobiert. Ein derartiger Vorschlag wäre bei (22) anscheinend hilfreich, da wir behaupten könnten, die Geschichte sei 'über' den Keks, den Mutter für Barbara hinlegte. Dieser Referent würde demnach zuerst ausprobiert und ohne Probleme akzeptiert. Natürlich bleibt das Problem, zu bestimmen, daß die Geschichte von dem Keks handelt. Jedoch, selbst wenn wir dies außer acht lassen, hat unser letzter Vorschlag seine Schwierigkeiten. Betrachten wir beispielsweise eine leichte Abänderung von (1): (23) Gestern hatte Rolf Geburtstag. Elke und Barbara gingen ins Kaufhaus. Sie wollten Geschenke kaufen. Barbara entschloß sich, einen Kreisel zu kaufen. "Nein, lieber nicht," sagte Elke. "Rolf hat einen Kreisel. Er ist grün." Wenn wir, um (1) Rechnung zu tragen, der Kreisel, den Barbara vielleicht kauft als Thema der Geschichte annehmen würden, so würde uns unsere Thema-Regel denselben Kreisel als Referenten von er in (23) liefern. Tatsächlich verstehen wir das er aber als Bezeichnung für Rolfs Kreisel. Dennoch könnten wir (23) möglicherweise innerhalb eines thematischen Revisions-Verfahrens erfassen, indem wir eine Regel annähmen wie "Rein deskriptive Aussagen (wie Er ist grün) pflegen sich auf den zuletzt erwähnten Gegenstand und nicht auf das Thema zu bezie-
36
Ε. Charniak
hen." Die Möglichkeit einer thematischen Revisions-Methode läßt sich also nicht völlig ausschließen, wie dies bei der Revisions-Methode, die sich auf 'letzte Erwähnungen1 stützt, möglich war. 7. Breitensuche und schrittweise Tiefenanalyse Hinter der Variablen-Methode stand der Gedanke, die Zuordnung eines Referenten zu einer bestimmten Nominalphrase auf Grund einer relevanten Tatsache zu gestatten. Wir haben jedoch gesehen, daß es mehrere Kriterien geben kann, die anwendbar sind. In diesem Fall trägt nur eins (nämlich das zuerst verwendete) zur Wahl des Referenten bei, da die NP zu dem Zeitpunkt, an dem die anderen ins Spiel kommen, nicht mehr unbestimmt ist. Die Methode der Breitensuche [breadth first] vermeidet die Asymmetrie zwischen dem zuerst angewendeten Kriterium und den übrigen Kriterien. Bei dieser Methode wird der ganze Fragebeantwortungsprozeß für jeden möglichen Referenten einmal durchlaufen, wobei die festgestellten Tatsachen jeweils isoliert bleiben. Das heißt, wir verarbeiten den Satz mehrere Male und nehmen jedesmal einen anderen Referenten für die unbestimmte Nominalphrase an. (Wir können uns vorstellen, daß die verschiedenen Referenten parallel ausprobiert werden.) Danach stufen wir die Ergebnisse ein und wählen als richtigen Referenten denjenigen aus, der die 'beste' Fassung liefert. Ein mögliches Einstufungsschema bestände darin, die Fassung mit den meisten Kausalverbindungen zwischen dem vorliegenden Satz und den übrigen Tatsachen der Geschichte zu wählen. Dem liegt eine einfache Überlegung zu Grunde. Wir haben angenommen, daß wir den Referenten haben wollen, der am besten 'paßt'. Das könnte derjenige sein, über den man die meisten Verbindungen zu dem, das schon geschehen ist, ansetzen kann. Wir müssen annehmen, daß ein derartiges Verfahren bedeutend mehr Rechenzeit als die Variablen-Methode verlangen würde - insbesondere, wenn wir uns vor Augen halten, was geschehen würde, wenn mehrere Referenten durch die erste Referenzanalyse nicht bestimmt werden. Beispielsweise müßte das Modell einen Satz, der zwei unbestimmte Nominalphrasen mit je vier möglichen Referenten enthält, 16mal verarbeiten. Andererseits unterliegt die Methode der Breitensuche natürlich nicht der Gefahr, aufgrund des zuerst angewendeten Kriteriums einen falschen Referenten zu bestimmen. Die bisher vorgestellten sind aber nicht die einzigen Möglichkeiten, das Problem der Schnittstelle anzugehen. Ein weiteres interessantes Verfahren findet sich in
Referenz und Fragebeantwortung in einfachen Erzählungen
37
McDermott (1973). McDermotts Methode kann man als Modifizierung des Revisions-Verfahrens aus Abschnitt 6 betrachten, das auf 'letzte Erwähnungen' Bezug nahm. McDermott entgeht jedoch aus zwei Gründen den Schwierigkeiten dieses Verfahrens. Statt von einer Regel zu erwarten, daß sie einen möglichen Referenten völlig verwirft, bemüht er sich zunächst, den Satz so gut w i e möglich in die Geschichte einzupassen. Dabei wird festgehalten, wieviele ungerechtfertigte Annahmen dazu benötigt werden. Wenn es 'zu viele' sind, wird der Referent 'verworfen'. Wir haben beispielsweise bei (2) (wo Elke zur Party gehen wollte, doch Mutter ihr sagen mußte, daß sie nicht eingeladen war) gesehen, daß sich sie auf Mutter beziehen ließe, wenn man annimmt, daß Elke nicht ohne Mutter zur Party gehen kann. Die letzte Aussage wäre eine ungerechtfertigte Annahme, die nicht benötigt w ü r d e , wenn sie Elke bezeichnet. Zweitens ist das Suchverfahren, das McDermott verwendet, eigentlich keine Revisions-Methode, sondern ähnelt eher der schrittweisen Tiefenanalyse [progressive deepening], vgl. Newell/Simon (1972). Das heißt, während ein Referent verworfen werden kann, weil er schlecht in die Geschichte paßt, kann er doch wieder ausprobiert werden, wenn die anderen möglichen Referenten sich als ebenso schlecht erweisen. Der Nachteil dieser Methode gegenüber der VariablenMethode liegt darin, daß sie im allgemeinen mehr Rechenzeit erfordert. Der Vorteil der schrittweisen Tiefenanalyse besteht darin, daß sie als Verallgemeinerung der Variablen-Methode angesehen werden kann und folglich nicht deren Beschränkungen unterliegt. Um dies einsichtig zu machen, bemerken wir zunächst, daß eine Regel, die einen möglichen Referenten einem anderen vorzieht, der Feststellung ungefähr äquivalent ist, daß für den Satz mit dem gewählten Referenten eine speziellere Annahme benötigt w i r d , um ihm Sinn zu geben. Denn die Regel, auf Grund derer der Referent gewählt w u r d e , besagt letztlich auch, daß mit ihrer Hilfe ein Aspekt des Satzes erklärt wird, wenn der Referent ihr entsprechend gewählt werden kann. Bei den anderen Referenten benötigt das Modell, so nehmen wir an, eine willkürliche Annahme. Der Unterschied besteht natürlich darin, daß mit der schrittweisen Tiefenanalyse ein Referent gewählt werden kann, weil er die Erklärung eines Teils des Satzes vereinfacht, aber auch später wieder verworfen werden kann, weil er die Interpretation anderer Teile erschwert. Diese Möglichkeit ist bei der Variablen-Methode nicht gegeben. Es ist nicht unplausibel, daß eine derartige Methode benötigt wird. Im Moment stehen mir jedoch weder in der einen noch der anderen Richtung Belege zur Verfügung.
38
Ε. Charniak
8. Schluß Wir haben nur einen kurzen Abriß einiger Probleme gegeben, die Folgerung u n d Referenz in Verbindung bringen. Vieles haben wir ausgelassen. Beispielsweise haben wir uns auf 'definite' Nominalphrasen wie der Kreisel und er beschränkt und indefinite Nominalphrasen wie ein Ball und man außer acht gelassen. Wenngleich das meiste hier Gesagte bei dem in diesem Aufsatz erreichten Explizitheitsgrad für beide Fälle gilt, können sie doch nicht auf genau die gleiche Weise behandelt werden. Ein anderes Thema, das wir völlig übergangen haben, ist Sstzpronominalisierung wie in Warum hast du es getan? Der eigentliche Schluß unserer Darlegungen ist ganz einfach. Wir können vielen Fällen, bei denen Folgerungen die Referenz berühren, durch geeignete Verwendung von Fragebeantwortungsroutinen Rechnung tragen. Dieser Schluß scheint in der Tat so einfach, daß ich das Gefühl habe, er liegt auf der Hand. In einem gewissen Maß mag dies ein Ergebnis der Vertrautheit mit dem Problem sein. Es stimmt aber auch, daß ich den oben diskutierten Gedanken aufgenommen habe, daß das 'Ausfüllen von Lücken' die Hauptsache beim 'Verstehen' einer Geschichte ist. Wenn man dies einmal akzeptiert, ergeben sich die Schlußfolgerungen dieses Aufsatzes unmittelbar, denn wie sonst können wir Referenz korrekt bestimmen, wenn nicht durch 'Verstehen'. Obersetzt von Bernd Wiese
BRUCE FRÄSER Pessimistische Ausblicke auf die Möglichkeit zur Verbesserung der Mensch-Maschine-Kommunikation In einer Abhandlung mit dem Titel "On Communicating w i t h Machines in Natural Language" (Fräser f 1967)) habe ich optimistischerweise die Umrisse eines Systems entworfen, welches dem nicht als Programmierer ausgebildeten Benutzer die Möglichkeit geben würde, sich an ein Steuerpult zu setzen, das System als einen seine Sprache beherrschenden Kollegen zu behandeln und innerhalb gewisser Grenzen erwarten zu dürfen, nach relativ kurzer Zeit Antworten auf Fragen zu erhalten. Ich schrieb damals, daß "die Frage, ob eine natursprachliche Zugänglichkeit zur Maschine erstrebenswert, praktikabel oder möglich sei, noch ungeklärt ist und daß die Antwort auf sie von verschiedenen Faktoren abhängt, wie zum Beispiel der Bereitschaft des Benutzers, mit der Maschine zu kooperieren, dem Zeitdruck, unter dem der Benutzer steht, den wirtschaftlichen Bedingungen für die Benützung des Computersystems und schließlich natürlich davon, wie eng der Begriff 'natürliche Sprache' gefaßt w i r d " (316). Ob derartige Systeme nun tatsächlich wünschenswert sind, ist nach wie vor eine offene Frage. Mir ist zwar keine sorgfältige Untersuchung dieses Problems bekannt, wir können die Frage jedoch so formulieren: Wenn der Benutzer das System sehr häufig in Anspruch nehmen muß, erschiene dann ein natursprachliches System nicht umständlich, unnötig und wenig erstrebenswert? Und w e n n der Benutzer das System nur selten verwendet, ist es dann nicht wahrscheinlich, daß er ohnehin die Hilfe eines Benutzers braucht, der oft mit dem System zu tun hat und mit seiner Handhabung besser vertraut ist? Wir können diese Frage jedpch außer acht lassen u n d zugestehen, daß ausgearbeitete natursprachliche Systeme erstrebenswert sind - u n d sei es nur aus der Perspektive der Forschung. Die Frage der Praktikabilität erlaubt meiner Ansicht nach keine Antwort a priori. W e n n ein System einmal läuft, zeigt sich entweder, daß es auf den Benutzer in annehmbar kurzer Zeit bei vertretbarem Kostenaufwand mit der adäquaten A n t w o r t reagiert, oder es zeigt sich, daß dies nicht der Fall ist. (Ich glaube, m a n kann darauf spekulieren, daß ein solches System, w e n n es sich
40
6. Fräser
erst einmal als möglich und praktikabel erwiesen hat, auch nützlich und vielleicht sogar notwendig sein wird.) Die eigentlich interessante Frage ist meiner Meinung nach, ob die Konstruktion eines interessanten und hochentwickelten natursprachlichen on-line-Systems nun wirklich möglich ist. Wir wissen bereits, daß bestimmte natursprachliche Systeme möglich sind (vgl. ζ. B. Woods (1970), Winograd in diesem Band); hierbei handelt es sich jedoch um Systeme, deren Sprachkapazität (im Verhältnis zum Umfang der englischen Sprache) sehr beschränkt und deren Sprachgebrauch außerordentlich eingeschränkt ist. (Der Hinweis auf diese Restriktionen ist nicht als abwertende Kritik zu verstehen.) Und daß elaboriertere Systeme mit der Möglichkeit zu komplexerem Sprachgebrauch - zum Beispiel in relativ wenig reglementierten Konversationen - nicht gerade in greifbarer Nähe vor uns liegen, kann man, wie ich glaube, getrost behaupten. Dies ist nicht auf unzulängliche Programmiersysteme zurückzuführen, noch auf die Größe des Speichers, die Zugriffszeit, die Datenorganisation oder irgendetwas dergleichen. Der eigentliche Grund ist nach meinem Dafürhalten, daß wir ganz einfach nicht sehr viel über die Prinzipien wissen, die das, was Menschen sagen, in Beziehung setzen zu dem, was sie meinen. Während zumindest ein allgemeiner Konsens über Form und Inhalt einer Grammatiktheorie herrscht, die sich (im Chomskyschen Sinne) mit dem Problem beschäftigt, wie Laute und Bedeutungen miteinander in Beziehung zu setzen sind, verfügen wir, was eine Konversationstheorie anbelangt, nur über vorläufige Versuche. Genau eine solche Theorie ist es jedoch, die jedem System, das den Versuch unternimmt, die Kommunikation zwischen Mensch und Maschine über den gegenwärtigen Stand hinaus zu erleichtern, zugrunde gelegt werden muß. Im folgenden werden einige Gedanken über den möglichen Inhalt einer Theorie der konversationellen Kompetenz formuliert. Ich setzte zunächst allgemeine Obereinstimmung darüber voraus, daß zwischen der Kenntnis einer Sprache und der Fähigkeit, sie zu gebrauchen, ein wesentlicher Unterschied besteht. Dieser Umstand wird auf besonders deutliche Weise von Robert Heinlein in Stranger in a Strange Land hervorgehoben. Mike Smith, ein Marsbewohner, hat mit Hilfe eines Grammatikbuchs eine irdische Sprache erlernt, verfügt jedoch weder über deren kulturellen Hintergrund, noch hat er irgendwelche diesbezüglichen Erfahrungen. Smith steht im Verdacht, Gegenstände zum Schweben bringen zu können und wird von Jubal und Jill, zwei Erdbewohnern, daraufhin untersucht. Zwischen ihnen entspinnt sich der folgende (geringfügig modifizierte) Dialog (112):
Mensch-Maschine-Kommunikation
41
Jubal: "Setz Dich hierher an meinen Tisch, Mike! Kannst Du den Aschenbecher da hochheben? Zeig es mir." Smith: "Ja, Jubal." Smith langt nach dem Aschenbecher und nimmt ihn in die Hand. Jubal: "Nein, nein!" Mike : "Hab ich 's falsch gemacht?" Jubal: "Nein, es war mein Fehler. Ich möchte wissen, ob Du ihn hochheben kannst, ohne ihn zu berühren." Mike : "Ja, Jubal, das kann ich." Jubal: "Na und, bist Du müde?" Mike : "Nein, Jubal." Jill : "Jubal, Du hast ihm nicht gesagt, daß er es tun soll, sondern nur gefragt, ob er es kann." Jubal: (sieht etwas verdutzt drein) "Mike, bitte sei so gut und hebe den Aschenbecher, ohne ihn zu berühren, zwei Handbreit über den Tisch." Mike : "Ja, Jubal." (Der Aschenbecher erhebt sich und schwebt über dem Tisch.) Nur wenige erwachsene Sprecher, die mit den Regeln für den Gebrauch der deutschen Sprache vertraut sind, hätten das, was Jubal mit seiner Äußerung Kannst Du den Aschenbecher da hochheben? meinte, mißverstanden. Das Wissen, das der Fähigkeit, die Sprache zu gebrauchen, zugrunde liegt, wird gewöhnlich analog zu dem Begriff 'Sprachkompetenz 1 (oder 'grammatische Kompetenz 1 )'kommunikative Kompetenz 1 (vgl. Hymes, (1973)) genannt. Der Begriff 'kommunikative Kompetenz' bezieht sich sowohl auf verbale als auch auf nicht verbale Aspekte der zwischenmenschlichen Kommunikation und ist aus diesem Grunde für unsere gegenwärtigen Zwecke zu umfassend. Mit dem Terminus 'konversationelle Kompetenz' beziehe ich mich ausschließlich auf die verbale Seite des sprachlichen Austausche und lasse die nicht verbalen Aspekte außer acht. (Die Verwendung des Ausdrucks 'lautgebundene Kompetenz' [phone-booth competence] könnte dazu dienen, den Bereich der Fähigkeit, den wir meinen, deutlich abzugrenzen.) Es sei darauf hingewiesen, daß meine Verwendung des Ausdrucks 'konversationeile Kompetenz' keinesfalls als Umbenennung des Chomskyschen Begriffs 'Performanz' in den Kontexten, wo er von der Kompetenz/PerformanzUnterscheidung spricht - aufzufassen ist. Der Begriff der Sprachkompetenz bezieht sich in dem Sinne, in dem Chomsky ihn verwendet, auf das Wissen des Sprechers über seine Sprache als ein formales System, das eine unendliche Anzahl phonetische (wenn man will, akustische) Ketten unabhängig von irgendeinem bestimmten Kontext, in dem eine derartige Kette geäußert werden könn-
42
Β. Fräser
te, mit semantischen Interpretationen in Beziehung setzt. Eine Grammatik ist dann ganz einfach die Darstellung der systematischen und nicht systematischen Beziehungen zwischen diesen Laut- und Bedeutungsketten. Da diese Beziehungen normalerweise sehr komplex sind, haben sich viele Linguisten aus Gründen der Zweckmäßigkeit dazu entschlossen, Sätze zumindest auf der phonologischen, der morphologischen, der syntaktischen und der semantischen Repräsentationsebene zu analysieren, wobei die Grammatik aufzuzeigen hat, was auf den einzelnen Ebenen als wohlgeformt gilt und wie die Repräsentation eines Satzes auf einer Ebene mit seiner Repräsentation auf einer anderen in Beziehung gesetzt werden kann. Eine Grammatik des Deutschen muß beispielsweise den Tatsachen Rechnung tragen, daß glauf ein akzeptables, wenn auch nicht ausgenutztes [uncoined] Wort ist, während wnbalm nicht einmal akzeptabel ist; daß Ich hoffe, iah pünktlich aufbrechen syntaktisch nicht wohlgeformt ist; daß es kein Wort für "tote Pflanze" gibt, das Leiche entspräche, obwohl es ein solches ohne weiteres geben könnte; und daß es äußerst unwahrscheinlich ist, daß es je ein Wort für linkshändiger Schnellgeriehtskoch geben wird. Demgegenüber bezieht sich Performanz in Chomskys Sinne auf das, was der Sprecher tut, wenn er einen wohlgeformten Satz der Sprache äußert (oder versucht, dessen Äußerung zu verstehen): es kann ihm passieren, daß er sich verhaspelt, vergißt, was er gesagt hat, eine falsche Endung benutzt, mitten im Satz abbricht und so fort; all dies hat jedoch nicht unmittelbar etwas mit seinem Wissen über die Sprache zu tun. Ganz analog können wir von konversationeller Kompetenz im Gegensatz zu Performanz sprechen. Wir müssen uns nun aber weniger mit Sätzen beschäftigen (damit, was sie für Entitäten sind, wie sie gebildet werden und was sie bedeuten), als vielmehr mit Äußerungen. Insbesondere interessieren uns folgende Fragen: Aufgrund welcher Prinzipien steht 1. die Äußerung eines Satzes (mit einer bestimmten Bedeutung, geäußert von einer bestimmten Person bei einer bestimmten Gelegenheit) mit der Bedeutung dieser Äußerung und 2. die Bedeutung der Äußerung mit deren Wirkung auf den Hörer in Beziehung? Mit der Wirkung einer Äußerung meinen wir zum Beispiel, ob sie den Hörer überzeugt, in Verlegenheit bringt, ihn dazu veranlaßt, seinen Standpunkt noch einmal zu überdenken und dergleichen - das, was Austin (1961) den 'perlokutionären Effekt' einer Äußerung nennt. Trotz der Bedeutsamkeit dieses zweiten Teils für eine vollständige Theorie der konversationellen Kompetenz beschäftigen wir uns nicht weiter mit ihm. Wir verzichten gleichfalls auf die Behandlung solcher Fragen, die die konversatio-
Mensch-Maschine-Kommunikation
43
nelle Sequenzbildung betreffen. Vielmehr konzentrieren wir uns auf das Problem des Verhältnisses von Satzbedeutung und Äußerungsbedeutung, oder, anders formuliert, auf die Frage, welche Prinzipien das, was wir sagen, mit dem, was wir meinen, in Beziehung setzen. Was also meinen wir, wenn wir von der Bedeutung einer Äußerung sprechen? Obwohl mir klar ist, daß sich meine Vorschläge schließlich (und vielleicht allzu schnell) als inadäquat herausstellen werden, möchte ich zunächst eine Unterscheidung zwischen Sprecherbedeutung (der Bedeutung, die der Sprecher zu vermitteln beabsichtigt) und Hörerbedeutung (der Bedeutung, die der Sprecher dem Verständnis des Hörers zufolge vermittelt) vornehmen. Soweit wir annehmen können, daß der Hörer immer das versteht, was der Sprecher meint (und für unsere Zwecke wollen wir davon ausgehen), können wir von der Äußerungsbedeutung sprechen. Wir können zwischen zwei Teilen der Äußerungsbedeutung unterscheiden: 1. der illokutionären Wirkung und 2. dem Äußerungsaffekt. Unter der illokutionären Wirkung verstehen wir, was für ein illokutionärer Akt ausgeführt worden ist: welche Proposition vermittelt (wenn auch nicht notwendigerweise ausgesprochen) worden ist; und als was er gilt: seine illokutionäre Kraft. Die illokutionäre Wirkung einer Äußerung kann zum Beispiel ein 'Versprechen, daß p" sein oder eine 'Behauptung, daß q', eine 'Bitte, daß r' oder eine 'Dankesbezeugung für t' und so fort. Unter dem Äußerungseffekt verstehen wir die vom Sprecher vermittelte persönliche Einstellung 1. gegenüber dem Hörer (so zum Beispiel ein Gefühl der Mißachtung, Geringschätzung oder Verachtung, Freundschaft oder Furcht) und 2. gegenüber dem von ihm ausgeführten illokutionären Akt (zum Beispiel das Bedauern darüber, es ablehnen zu müssen, etwas bestimmtes zu tun; die Freude darüber, jemandem danken zu können; oder die Teilnahmslosigkeit bei der Diagnostizierung einer Krankheit) . Wenn sich unsere Anstrengungen auf diesem Gebiet schließlich als erfolgreich erweisen sollten, werden wir zu einer Theorie kommen, mit der in bezug auf eine normale konversationeile Interaktion (ohne Festlegung spezifischer Kodes) die prognostische Bestimmung der Äußerungsbedeutung eines gegebenen Satzes nur dann möglich ist, wenn gewisse Annahmen über den Sprecher, den Hörer und den konversationellen Kontext (die konversationelle Geschichte und das gemeinsame Wissen über die Welt) gemacht werden. Oder, anders ausgedrückt, wir können die Äußerungsbedeutung (oder die Klasse der Äußerungsbedeutungen) in einer normalen konversationellen Interaktion voraussagen, wenn wir den Satz, den Sprecher, den Hörer und den Kontext kennen.
44
Β. Fräser
Die Äußerungsbedeutung hängt von einer Vielfalt v o n Faktoren ab. Daß die Satzbedeutung für sie eine wesentliche Rolle spielt, liegt auf der Hand: je direkter die intendierte Wirkung u n d die Einstellung des Sprechers durch die Satzbedeutung spezifiziert werden, desto geringer ist die Notwendigkeit, sich auf konversationeile Prinzipien zu verlassen. So werden ζ. B. durch die Äußerung des Satzes Ich habe das Vergnügen. Ihnen, lieber Herr Jones, den Sieg zuzusprechen sowohl die illokutionäre Kraft einer Erklärung als auch die Einstellung des Sprechers - Wohlwollen gegenüber dem Sprechakt u n d dem A n g e s p r o c h e n e n - direkt u n d nur kraft der Satzbedeutung vermittelt. Durch den Satz Der Schiedsspruch lautet ... w e r d e n Einstellung u n d Intention des Sprechers weit w e niger deutlich zum Ausdruck gebracht. A u c h die Konversationsposition trägt zur Bestimmung der Äußerungsbedeutung bei. Normalerweise ist es unmöglich, dem ersten Satz eines Gesprächs die Rolle einer Antwort auf eine Frage zu geben; demgegenüber ist die illokutionäre Kraft einer Behauptung, eines Berichts, einer Frage oder dergleichen hier durchaus angemessen. Die jeweiligen Rollen v o n Sprecher u n d Hörer sind gleichfalls von Bedeutung. Irgendjemanden um irgendetwas zu bitten, ist jeder in der Lage; eine erfolgreiche Befehlshandlung kann ein Sprecher demgegenüber nur dann durchführen, w e n n der Hörer erkennt, daß ersterer eine gewisse M a c h t über ihn hat. Und häufig wird durch die Situation bestimmt, wer gerade die Autoritätsposition innehat. Daß ein Lehrer Α seinem Schüler Β Befehle erteilt u n d später Β in einer Situation, in der er bei einem Unfall erste Hilfe leistet, dem vorbeikommenden Α Befehle gibt, ist beispielsweise keineswegs w i d e r sprüchlich. Ganz ähnlich kann ein Sprecher nur dann ernsthaft erwarten, daß seine Äußerung als Diagnose gilt, w e n n er über die erforderlichen Diplome verfügt; eine Erlaubnis kann nur dann erteilt werden, w e n n der Sprecher die entsprechende Autoritätsposition innehat; und in einer Versammlung kann ein Antrag nur dann gestellt w e r d e n , wenn dem Sprecher zuvor vom Vorsitzenden das Wort erteilt w o r d e n ist. Kurz, die illokutionäre Kraft unserer Ä u ß e r u n g e n wird bis zu einem gewissen Grad dadurch bestimmt, wer wir sind und wie wir von unseren Gesprächspartnern eingeschätzt werden. Wir ü b e r g e h e n den Teil der Äußerungsbedeutung, der die Einstellung des Sprechers betrifft,und w e n d e n uns der Frage zu, wie wir die Beziehung zwischen Satzbedeutung u n d Äußerungsbedeutung in den Griff kriegen können. In der einschlägigen Literatur finden sich diesbezüglich gegenwärtig drei verschiedene Positionen; wir n e n n e n sie d e n 'performativen', d e n 'präskriptiven' u n d
Mensch-Maschine-Kommunikation
45
den 'pragmatischen A n s a t z 1 und behandeln sie in dieser Reihenfolge. Die Verfechter des performativen Ansatzes vertreten den Standpunkt, daß ein Teil der Tiefenstruktur (oder tieferliegenden Struktur oder semantischen Repräsentation) jedes Satzes eine exakte Spezifikation der Kraft ist, die der Satz bei seiner Äußerung hat. Da beispielsweise der Satz loh werde dort sein als Warnung, als Versprechen u n d als Voraussage verwendet werden kann (um nur drei seiner möglichen Gebrauchsweisen zu nennen), bedingt der performative Ansatz, daß diesem Satz drei verschiedene Quellen zugrunde liegen, deren jede einer der Gebrauchsweisen entspricht. In der Darstellung dieses Ansatzes von Ross (1969) wird die Spezifizierung in Gestalt eines Matrixsatzes angegeben, der folgende Form hat: Dir _ 1 Ich-performatives VerbS', wobei der Beispielsatz in S eingebettet wird. Die Tiefenstruktur des fraglichen Satzes wäre dann im Falle des Versprechens: loh verspreche Dir, daß iah dort sein werde. Der performative Matrixsatz ist dann durch eine optionale (manchmal auch obligatorische) Regel zu tilgen. Zahlreiche Einwände hinsichtlich der technischen Einzelheiten dieses Ansatzes erweisen - im günstigsten Fall - seine Fragwürdigkeit (detaillierte Ausführungen dieser Kritik finden sich in Fräser (1974) und A n d e r s o n (1971)). Noch schwerer fällt jedoch der Einwand ins Gewicht, daß dieser Ansatz schlicht leugnet, daß zwischen der Sprache als einem Laut und Bedeutung in Beziehung setzenden System und dem Gebrauch der Sprache als Mittel der Kommunikation ein Unterschied besteht. Zwischen solchen R e g e l n , die die Wohlgeformtheit v o n Sätzen auf den verschiedenen Analyseebenen erklären m ü s s e n (wir haben auf einige von ihnen hingewiesen) u n d solchen, die ihre Verwendungsbedingungen erklären sollen (auf einige von ihnen w e r d e n wir noch hinweisen) scheint tatsächlich ein erheblicher Unterschied zu bestehen. Vergegenwärtigen wir uns beispielsweise die Tatsache, daß der einfache Beispielsatz loh werde dort sein möglicherweise für die Ausführung 20 verschiedener illokutionärer Akte verwendet w e r d e n kann, v o n denen wir lediglich drei erwähnt haben. Dem performativen Ansatz zufolge muß es für jede der Gebrauchsweisen eine andere Tiefenstruktur geben - eine Schlußfolgerung, die kaum als befriedigend angesehen w e r d e n kann. Noch unbefriedigender ist die Tatsache - zumindest für mich - daß der Satz Es ist schon spät teilweise für die Durchführung derselben Akte verwendet werden k a n n wie der Satz Können wir jetzt
46
Β. Fräser
bitte nach Hause gehen; keiner von beiden scheint auf irgendeine Weise mit seinem mutmaßlichen Ursprung loh stelle fest, daß es sohon spät ist bzw. Iah bitte Dich darum, daß Du mich jetzt nach Hause bringst grammatisch in Beziehung zu stehen. Den zweiten Versuch, Sätze mit Äußerungsbedeutungen in Beziehung zu setzen, hatten wir den präskriptiven Ansatz genannt. Die Abhandlungen von Gordon und Lakoff (1971), Heringer (1971) und Forman (1974) können am besten zur Illustration dieses Ansatzes dienen, dessen Ziel es ist, Regeln für die Art und Weise der Durchführung bestimmter Sprechakte zu spezifizieren. Da Formans Abhandlung die neueste ist und die beiden anderen in ihren Schlußfolgerungen berücksichtigt, beschränken wir unsere Stellungnahme auf diese Arbeit. Ihr Hauptanliegen wird aus den folgenden Textstellen deutlich: (Formans Numerierung) (9)a. Eine Sprecher-Proposition ist eine Proposition, über die der Sprecher unmittelbar mehr weiß als der Angesprochene, b. Eine Hörerproposition ist eine Proposition, über die der Angesprochene unmittelbar mehr weiß als der Sprecher. (10) Das SWB-Prinzip (der Sprecher yeiß es am festen) (verdeckte Version) Ein indirekter Sprechakt kann durchgeführt werden, wenn der Sprecher 1. eine relevante Bedingung, die eine Sprecher-Proposition ist, assertiert; oder 2. nach einer relevanten Bedingung, die eine Hörer-Proposition ist, fragt. (11)
Die Egalitätsklausel (Unter ansonsten gleichen Umständen...) (erste Version)
Unter ansonsten gleichen Umständen wird bei einer Proposition Ρ über eine Person X angenommen, daß X über Ρ unmittelbar mehr weiß als jeder andere. Beispiele, auf die diese drei Regeln zutreffen und die als indirekte Sprechakte gelten, lassen sich ohne weiteres finden. Nehmen wir beispielsweise die Aufforderung. Zu ihren Bedingungen gehört: 1. daß dem Sprecher daran gelegen ist, daß die Handlung, zu der er auffordert, ausgeführt wir; 2. daß der Hörer dazu in der Lage ist, dieselbe auszuführen; und 3. daß nicht zu erwarten steht, daß der Hörer die Handlung bei normalem Verlauf der Dinge sowieso ausführen wird. Wenn ich sage, loh möchte, daß Du Dich da drüben hinstellst, assertiere ich - vorausgesetzt (9)-(11) gelten - sicher eine sprecherseitige Bedingung für eine Aufforderung; den drei Prinzipien zufolge kann ich auf diese Weise indi-
Mensch-Maschine-Kommunikation
47
rekt zu etwas auffordern - eine gewiß zutreffende Behauptung. Wenn ich sage Kannst Du das für mich beiseite rücken frage ich nach einer hörerseitigen Proposition, die sich auf die Fähigkeit des Hörers, die Handlung durchzuführen, bezieht. U n d mit der Äußerung Willst Du das für mich tun frage ich wiederum nach einer hörerseitigen Proposition, die sich in diesem Fall auf die Offensichtlichkeitsbedingung der Aufforderung bezieht. Formans Prinzipien gestatten - wiederum zutreffenderweise - die Voraussage, daß diese b e i d e n Sätze als Aufforderungen gelten. Beispiele zu finden, die in den durch diese drei Prinzipien abgesteckten Rahmen hineinpassen, bereitet in der Tat keinerlei Schwierigkeit. M e i n Haupteinwand gegen diesen Ansatz richtet sich nicht gegen die Vagheit solcher Begriffe wie 'relevante B e d i n g u n g 1 , 'Angesprochener', 'Hörer' oder g e g e n die Ungeklärtheit der Frage, was es heißt, daß irgendetwas eine Proposition 'über etwas' oder 'über eine Person' ist. Forman weist eigens auf diese Schwierigkeiten in seiner Arbeit hin; w e n n sonst nichts problematisch wäre, ginge es lediglich darum, das Gerüst des Ansatzes besser auszuarbeiten. Meines Erachtens erweist er sich jedoch, ebenso wie der performative, in zwei entscheidenden Punkten als unzulänglich: 1. läßt er einen erheblichen Teil der Beispiele für die indirekte Durchführung bestimmter illokutionärer Akte unberücksichtigt und 2., was noch wichtiger ist, liefert er keine Erklärung dafür, weshalb die Äußerung eines bestimmten Satzes bzw. einer bestimmten Klasse v o n Sätzen typischerweise als Vollzug einer Handlung gilt, w ä h r e n d das bei so v i e l e n anderen nicht der Fall ist. Der erste Einwand läuft darauf hinaus, daß die p r ä skriptiven Regeln - zumindest in ihrer bisherigen Formulierung - einen Großteil der empirischen Fakten nicht abdecken. Betrachten wir in diesem Zusammenhang folgende Liste, in der Strategien für die Formulierung einer einfachen Aufforderung zusammengefaßt sind. Aufforderung
es trategien
1. Performative Sätze Ich fordere Dich auft mir zu antworten. 2. Imperativsätze Setz Dich bitte! 3. Fragesätze Wie heißt Du? 4. Bekundung des Wunsches des Sprechers nach einer bestimmten Handlung Ich möchte, daß Du das zu mir rüber bringst. 5. Idiomatische Sprechakte Was hältst Du davon, das für mich zu tun?!
48
Β. Fräser
6. Ober eine Vorschlagshandlung Iah würde vorschlagen, daß Du ein andermal kommet. 7. Über die Bitte zur Erteilung der Erlaubnis Dürfte iah mir die Vase dort einmal ansehen? 8. Über die Feststellung, daß der Sprecher A. Zu der Aufforderung verpflichtet ist Iah muß Sie darum bitten, sioh dort drüben hinzusetzen. B. aufzufordern wünscht Iah möchte Sie darum bitten, noah zu bleiben. C. aufzufordern beabsichtigt Iah habe die Absicht, Sie um Unterstützung zu bitten. 9. Über die Feststellung, daß A. der Hörer zu der Handlung verpflichtet ist Du mußt den zweiten jetzt umdrehen. B. Es für den Hörer angemessen ist, die Handlung auszuführen Du solltest das jetzt tun. C. der Hörer zu der Handlung fähig ist Du kannst mir behilflich sein, indem Du die Tür aufschließt. 10. Ober die Frage nach A. den Gründen des Hörers für die Handlung Warum stellst Du das Radio so laut? B. seiner Verpflichtung zu der Handlung Mußt Du das Licht brennen lassen? C. der Angemessenheit seiner Handlung Glaubst Du, daß Du dieses Band löschen solltest? D. seinem Wunsch, die Handlung durchzuführen Wollen Sie das Denkmal jetzt nicht enthüllen? E. seiner Fähigkeit zu der Handlung Können Sie mir das Salz reiahen? F. einer zukünftigen Handlung Wirst Du ihm diesen Umschlag mitnehmen? 11. Über die Angabe eines Grundes, weswegen die Handlung durchgeführt werden sollte Es ist kalt hier. Ich habe die Beispiele so ausgewählt, daß es (so hoffe ich wenigstens) leicht ist, der Behauptung zuzustimmen, daß der Sprecher über jede einzelne dieser Aufforderungsstrategien verfügt. (Eine detaillierte Studie über Aufforderungsstrategien findet sich in Fräser (1974a)). Der hier zur Diskussion stehende Sachverhalt ist, daß Formans Prinzipien für indirekte Aufforderungen nur sehr wenigen der oben aufgeführten 20 Strategien Rechnung tragen Können. Nach Formans Ansatz kann der Vorschlag Du könntest ein Stück von dem Käse rüber bringen nur dann als Aufforderung gelten (was er tatsächlich tut), wenn die Möglichkeit der Handlung eine Bedingung der
Mensch-Maschine-Kommunikation
49
Aufforderung ist (was nicht der Fall ist) und außerdem, w e n n es sich dabei u m eine Sprecher-Proposition handelt (was auch nicht der Fall ist). Ganz ähnlich würde daraus, daß die Frage Mußt Du auf dem Topf rumhauen? als Aufforderung gilt, folgen, daß die durch den Satz Es ist angemessen, daß der Hörer auf dem Topf rumhaut ausgedrückte Proposition eine Bedingung ist (wobei in diesem Fall genau das Gegenteil gilt) und daß es sich hierbei um eine Hörer-Proposition handelt, was bedeutet, daß der Hörer mehr über die Angemessenheit der fraglichen Handlung weiß als der Sprecher (in diesem Fall eine etwas zweifelhafte Schlußfolgerung). Die Übertragung der Prinzipien auf andere Sprechhandlungen führt zu ähnlichen Mißerfolgen. Eine Bedingung für die Durchführung eines Versprechens ist, um ein anderes Beispiel zu nehmen, daß der Sprecher dazu in der Lage ist, die versprochene Handlung durchzuführen; ein Satz wie Iah kann X tun ist die Behauptung, daß eine relevante Bedingung gilt, die eine Sprecher-Proposition ist. Die Äußerung gilt jedoch normalerweise nicht als Versprechen. Und der Satz Es steht in meiner Macht, Dir die Freiheit zu schenken erfüllt (Formans Prinzipien zufolge) die Bedingungen,als Erlaubnis gelten zu können. Dies ist jedoch nicht der Fall. Aber selbst w e n n es den Verfechtern des präskriptiven Ansatzes gelingen sollte, derartige Unebenheiten auszubügeln, wird die resultierende Theorie immer noch keine Erklärung dafür liefern können, weshalb die Äußerung eines bestimmten Satzes in einem bestimmten Kontext normaler- u n d typischerweise eine ganz bestimmte illokutionäre Kraft hat. Der pragmatische Ansatz versucht, den Einwänden, die gegen den performativen u n d den präskriptiven erhoben wurden, zu begegnen. Im Mittelpunkt dieses Ansatzes zur Erklärung des Verhältnisses zwischen einem Satz und seiner möglichen Verwendung steht die Annahme, daß die Kraft der Äußerung eine Funktion 1. der Satzbedeutung (nicht deren Bestandteil), 2. der Identitäten v o n Sprecher u n d Hörer u n d 3. des ihnen gemeinsamen Wissens über die Welt ist u n d daß diese Faktoren durch konversationeile Prinzipien mit der Kraft der Äußerung in Beziehung stehen. Wie alle Theorien, die erst in statu nascendi sind, verspricht der pragmatische Ansatz gegenwärtig mehr als er tatsächlich einlöst. Es kann jedoch gezeigt werden, wie den verschiedenen, in der obigen Liste aufgeführten Aufforderungsstrategien Rechnung getragen w e r d e n kann, wenngleich es bisher weder möglich ist, ihre Beziehungen untereinander zu erklären, noch, wie eine umfassende Theorie strukturiert sein könnte. Eine der häufigst zitierten u n d oft diskutierten Aufforderungsstrategien besteht darin, dem Hörer eine wa-
50
Β. Fräser
rum-Frage zu stellen. Die wörtliche Interpretation der folgenden Beispielsätze Warum Warum Warum Warum
sitzt D u da so rum? legst Du Dein A m t nicht jetzt nieder? verläßt Du die Stadt nicht? sprichst Du so?
ist die einer direkten Frage: gefragt w i r d nach einem Grund für das Verhalten des Hörers. Jeder von ihnen kann jedoch auch als Aufforderung gelten, die jeweils angegebene Handlung zu unterlassen (ζ. B. nicht so herumzusitzen, das Amt nieder zu legen, usw.). Zur Diskussion steht also die Frage, wieso warum-Fragen als Aufforderungen fungieren können. Ich stelle zunächst die verschiedenen Stufen der A n a lyse dar, die dann im folgenden zusammengefaßt werden. Einleitend sei auf einige wichtige Punkte hingewiesen: 1. Schon in der Liste der Aufforderungsstrategien haben wir darauf hingewiesen, daß es idiomatische Sprechakte gibt. Eine derartige idiomatische Wendung ist zum Beispiel was hältst Du davon in Was hältst Du davon, mir heute zu helfen? Ein Teil der Bedeutung dieser Wendung besteht aus der semantischen Information, daß der Sprecher wünscht, daß seine Äußerung als Aufforderung gelten möge. Warum-Fragen gehören nicht zu diesen idiomatischen Sprechakten. Für die Behandlung v o n warum als mehrdeutig - wobei der einen Lesart diese 'performative' Information zugesprochen würde - besteht keinerlei Anlaß. 2. Bestimmte Sätze sind semantisch mehrdeutig, so daß jeder ihrer Verwendungsweisen eine semantische Interpretation entspricht. Die Äußerung des Satzes Das Gras ist grün könnte durchaus verwendet werden, u m sich in einem Bericht auf gewisse, das Weideland betreffende Umstände zu beziehen; wahrscheinlicher ist es allerdings, daß mit ihm v o r der Qualität etwas zweifelhaften Marihuanas gewarnt wird. Für die Schlußfolgerung, daß warum-Fragen semantisch mehrdeutig sind, daß derartige Sätze nämlich eine Lesart haben, die ihrem Gebrauch als Aufforderung entspricht, u n d eine andere, die ihrem Gebrauch als Frage entspricht, gibt es demgegenüber keinerlei überzeugende Anhaltspunkte. Für unsere Zwecke w o l l e n wir sie jedenfalls als eindeutig betrachten (und sehen über mögliche unwichtige Ambiguitäten hinweg). 3. Es läßt sich nicht leugnen, daß bestimmte Strategien außerordentlich häufig gebraucht werden, und im Falle der warum-Frage könnten wir zu dem Schluß neigen, daß sie zu einer konventionellen u n d allgemein akzeptierten Strategie zur Durchführung einer Aufforderungshandlung geworden ist. Aus der Tatsache, daß Aufforde-
Mensch-Maschine-Kommunikation
51
rungen oft mit Hilfe von uarwm-Fragen realisiert werden bzw. daß diese der Absicht des Sprechers gemäß fast immer als Aufforderungen gelten sollen, folgt jedoch nicht, daß der häufige Gebrauch notwendigerweise mit einer gesonderten semantischen Lesart verbunden ist. Schließlich sei noch darauf hingewiesen, daß unsere Erklärung des Verhältnisses zwischen einem Satz und seiner möglichen Verwendungsweise eine Reihe aufeinanderfolgender Schritte beinhaltet: der Ausgangspunkt ist die wörtliche Bedeutung des Satzes und der Schlußpunkt die vermittelte illokutionäre Kraft. Dazwischen liegen Äußerungsinterpretationen aus dem Gesichtswinkel des Hörers (bzw. entsprechend, des Sprechers) unter Berücksichtigung allgemeiner Konversationsregeln, wie wir sie noch vorschlagen werden. Niemand wird ernsthaft behaupten, daß der Hörer zwei Passivtransformationen, zwei Agensdeletionstransformationen etc. 'rückgängig' machen muß, um die Bedeutung des Satzes John wurde für ermordet gehalten zu bestimmen. Ebensowenig argumentieren wir dafür, daß die von uns vorgelegte Analyse vom Hörer bewußt vollzogen wird. Unseres Erachtens stellen diese Ebenen unserer Erklärung Verallgemeinerungen dar. Unsere Erklärung der warum-Frage beruht zum Teil auf der Beobachtung, daß Fragen im allgemeinen eine Implikatur mit sich bringen: d. h. daß der Sprecher das glaubt, was durch die Behauptung der durch den Fragesatz ausgedrückten Proposition unter umgekehrten Vorzeichen vermittelt würde. Kurz, alle Fragen sind potentiell rhetorische Fragen. Die folgenden Paare illustrieren je eine Frage und die entsprechende Implikatur. Warum tun Sie das? - Es gibt keinen Grund dafür, daß Sie das tun Sollte er jetzt wirklich gehen? - Er sollte jetzt nicht gehen Muß sie kommen ? - Sie muß nicht (braucht nicht zu) kommen Werden wir wohl •pünktlich sein? - Wir werden nicht pünktlich sein Werden wir das (etwa) hinnehmen? - Wir werden das nicht hinnehmen Kann ihm das wohl gelingen? - Das kann ihm nicht gelingen Der Grund dafür, daß eine Frage eine derartige Implikatur mit sich bringt, liegt, wie ich meine, auf der Hand: wenn es überhaupt einen Sinn hat, die Frage zu stellen, kann daraus zu Recht geschlossen werden, daß der Sprecher hinsichtlich der Richtigkeit der in ihr enthaltenen Proposition gewisse Zweifel hat. D. h. es kann durchaus sein, daß der Sprecher glaubt, daß die
52
Β. Fräser
Negation der Proposition den Tatsachen entspricht. In einem von Grice (1967) angeführten Beispiel sagt X auf der Straße zu seinem Kollegen: Ihre Frau ist treu. Durch den bloßen Umstand, daß dieses Thema zur Sprache gebracht worden ist, wird bereits angedeutet, daß es möglicherweise einen Grund gibt, an ihrer Treue zu zweifeln. Durch die Tatsache, daß die Implikatur vorhanden ist, wird jedoch nicht gewährleistet, daß sie auch beachtet wird. Gefordert wird nur, daß die Frage in einen Kontext gestellt wird, in dem es für den Hörer offensichtlich ist, daß der Sprecher nicht glaubt, daß es für die Handlung, nach der er fragt, eine adäquate Rechtfertigung gibt. (Und Entsprechendes gilt für die anderen Fragetypen.) Wenn ich also ζ. B. den Mann von der Stadtreinigung, der zweimal wöchentlich meinen Abfall beseitigt, fragte Warum leeren Sie die kaputten Müllsäkke in meinem Hinterhof aue?könnte er aus der Situation sinnvollerweise schließen, daß ich für diese Handlungsweise keinerlei Rechtfertigung finden kann und daß ich es ihm nahelege, seine Aufmerksamkeit auf die von mir implizierte Äußerung Es gibt keinen vernünftigen Grund dafür, daß Sie das tun zu lenken. Der nächste Schritt unserer Analyse beruht auf einem meines Erachtens fundamentalen Leitsatz menschlichen Verhaltens. Seine Anwendung auf unser Beispiel erlaubt es dem Hörer, mit seinen Gedanken folgendermaßen fortzufahren: Da der Sprecher dies zu mir sagt, ist er der Meinung, daß ich das nicht tun sollte. Kurz, ungeachtet dessen, was man aus dem geäußerten Satz und der skizzierten Situation erschließen sollte, ist seine Meinung, daß ich aufhören soll, die Tüten in seinen Hof zu leeren. In einem (hier nicht näher bestimmten) Sinne ist es so, als ob der Sprecher gesagt hätte He Sie, iah finde nicht, daß Sie die Müllsäcke in meinen Hof leeren sollten! Wir sind nun von dem Sprecher, der sagt, er wolle den Grund für irgendeine Handlungsweise wissen, zu dem Hörer übergegangen, der die Äußerung des Sprechers so interpretiert, als werde mit ihr dessen Auffassung vermittelt, daß diese Handlung zu unterlassen sei. Eine derartige Interpretation kann nun ihrerseits (ob sie nun direkt vermittelt wird oder indirekt wie in diesem Beispiel) wiederum als Vorschlag ausgelegt werden: nämlich als ein illokutionärer Akt, mittels dessen der Sprecher andeutet, daß er glaubt, der Hörer solle die Vorzüge der Durchführung und der Unterlassung einer bestimmten Handlung gegeneinander abwägen. Soweit können wir zusammenfassend sagen, daß der Hörer die Äußerung des Sprechers als an ihn gerichteten Vorschlag interpretiert hat.
Mensch-Maschine-Kommunikation
53
Vorschläge (bzw. Anregungen) sind aber etwas anderes als Aufforderungen. Ein Vorschlag ist eher so etwas wie eine Meinungsäußerung, während eine Aufforderung der Bekundung eines Wunsches gleichkommt. Man kann dem Sprecher für einen Vorschlag danken und ihn ignorieren; diese Freiheit kann man sich jedoch bei Aufforderungen nicht nehmen. Wie kommt es also, daß ein direkter oder erschlossener Vorschlag eine Aufforderung sein kann? Meiner Ansicht nach ist dieser Umstand in einer zusätzlichen Bedingung über den Kontext begründet: Vorschläge werden nur dann zu Aufforderungen, wenn die jeweils angesprochene Handlung unmittelbare Auswirkungen für den Sprecher hat. Zum Beispiel könnte die Äußerung: Ich schlage vor, Sie versuchen es noch einmal als Aufforderung (ja, vielleicht sogar als Befehl) gedeutet werden, wenn der Sprecher eine Autoritätsposition innehätte (wenn er zum Beispiel der Chef ist) und wenn das es ein vom Hörer zu erstattender Bericht wäre; dies wäre hingegen nicht möglich, wenn das es ein Versöhnungsversuch zwischen dem Hörer und seiner Frau wäre (es sei denn, der Sprecher (der Chef) fühlt sich unmittelbar in die Sache verwickelt) . Wenn wir annehmen, daß der Hörer aus unserem Beispiel (der Mann von der Stadtreinigung) zu dem Schluß gekommen ist, daß der Sprecher der Ansicht ist, der solle aufhören, den Abfall in seinen Hof zu schmeißen, und weiter, daß der Hörer glaubt, daß der Sprecher von dieser Handlung unmittelbar betroffen werde, kann der Hörer den Schluß ziehen, daß der Sprecher, wenn die Handlung nicht unterbleibt, irgendetwas unternehmen wird, um ihre Unterlassung zu bewirken. Wir können dies als ein Selbstschutzprinzip bezeichnen. Das von dem Sprecher zu unternehmende 'irgendetwas' könnte in diesem Fall in einer Aufforderung bestehen. (Natürlich könnte es auch darin bestehen, daß der Sprecher dem Müllmann einen Mülleimer über den Kopf schlägt; wir können jedoch im Augenblick von gewaltlosen Aktionen ausgehen.) Außerdem weiß der Hörer jetzt genau, was der Inhalt der Aufforderung wäre: Hören Sie auf, den Abfall in meinen Hof zu schmeißen! Der Hörer kann sich an diesem Punkt nun völlig zu Recht auf ein fundamentales Konversationsprinzip berufen, das indirekten Sprechakten in sehr vielen Fällen zugrunde liegt - das Wirksamkeitsprinzip : Vorausgesetzt, daß nichts auf das Gegenteil hinweist, kann man immer dann, wenn eine weitere Äußerung redundant wäre, darauf schließen, daß der Sprecher die Äußerung selbst nicht zu machen braucht, daß er sich so verhalten wird, als ob er sie gemacht hätte und daß er vom Hörer ein entsprechendes Verhalten erwarten wird.
54
Β. Fräser
Die Anwendung dieses Prinzips führt den Hörer zu der Schlußfolgerung, daß der Sprecher und er selbst wissen, daß der Sprecher ihn dazu auffordern wird, aufzuhören, den Abfall auszuleeren, er sei denn, er läßt es von sich aus bleiben, und daß es an sich überflüssig ist, es tatsächlich zu der Aufforderung kommen zu lassen. Und selbstverständlich kann mit ziemlicher Sicherheit geschlossen werden, daß die implizierte Handlung nicht nur eine Aufforderung, sondern ein Befehl ist, wenn die Handlung ihrer Natur nach auf irgendeine Weise die Machtposition berührt, die der Sprecher gegenüber dem Hörer hat (wenn zum Beispiel ein Chef seinen Untergebenen fragt: Warum versuchen Sie es nicht noch einmal?}. Die Untersuchung der Frage, wie es kommt, daß warumFragen als Aufforderungen zählen können, kann folgendermaßen zusammengefaßt werden: 1. Der Sprecher fragt den Hörer nach dem Grund, Α zu tun (wörtliche Interpretation). 2. Der Hörer erkennt, daß der Sprecher offenbar nicht glaubt, daß es für Α eine angemessene Rechtfertigung gibt (gemeinsames Wissen über die Welt). 3. Der Hörer kommt zu dem Schluß, daß der Sprecher der Meinung ist, daß er Α unterlassen solle (Anwendung des Rechtfertigungsprinzips). 4. Der Hörer erkennt, daß der Sprecher glaubt, daß sein Wohlbefinden durch Α direkt beeinträchtigt wird (gemeinsames Wissen über die Welt). 5. Der Hörer kommt zu dem Schluß, daß der Sprecher etwas unternehmen wird, um die Unterlassung von Α zu bewirken, weil der Sprecher glaubt, daß Α unterbleiben sollte und daß Α sein Wohlbefinden unmittelbar beeinträchtigt (Selbstschutzprinzip). 6. Der Hörer kommt zu dem Schluß, daß er sich so verhalten sollte, als hätte der Sprecher ihn aufgefordert, Α zu unterlassen (Anwendung des Wirksamkeitsprinzips) . 7. Der Hörer kommt zu dem Schluß, daß die Absicht des Sprechers bei der Äußerung von Α darin bestand, ihn zur Einstellung von Α aufzufordern. Eine derartige Analyse ist in hohem Maße spekulativ, insbesondere, da es den Anschein hat, daß die Prinzipien alle speziell im Hinblick auf das Beispiel aufgestellt worden sind. Es ist durchaus möglich, daß die Tatsache, daß sie sowohl bei der Erklärung vieler der oben aufgezählten indirekten Aufforderungsstrategien als auch bei der Erklärung nicht-verbaler Handlungen anwendbar sind, den eifrigen Kritiker nicht gleich versöhnlich stimmt. Auf einen solchen Einwand können wir nur so reagieren: Erstens: wenn wir uns nicht der Auf-
Mensch-Maschine-Kommunikation
55
fassung verschreiben wollen, daß je einer Verwendungsweise eine Bedeutung entspricht (d. h. daß zum Beispiel warum-Fragen mindestens zwei verschiedene Lesarten haben - ein Standpunkt, für den es keinerlei Belege gibt), müssen wir eine systematische Erklärung für die konsistente Zuordnung einer bestimmten Äußerungskraft zu einer bestimmten Satzform (verbunden mit einer semantischen Interpretation) finden. Warum-Fragen werden eben außer unter sehr konstruierten Umständen nicht dazu verwendet, Versprechen zu geben, Werturteile abzugeben oder Berichte zu machen. Zweitens: als wir, um nur ein Beispiel zu nennen, die Aufforderungsstrategien in sehr vielen verschiedenen Sprachen untersuchten, haben wir festge stellt, daß die im Englischen verwendeten Strategien mit nur wenigen Ausnahmen auch in Sprachen wie Thai, Japanisch, Chinesisch, Französisch, Arabisch, Finnisch und Deutsch gebraucht werden. Daß es einige sehr allgemeine Konversationsprinzipien gibt, die zumindest Aufforderungshandlungen in der Sprache zugrunde liegen, wird hierdurch zwar nicht bewiesen, aber gewiß nahegelegt. Wenn sich die von mir angedeuteten Prinzipien jedoch als sprechaktspezifisch herausstellen sollten, wären sie natürlich um nichts besser als eine Aufzählung von Regeln für jeden illokutionären Akt. Unsere bisherigen Untersuchungen deuten gleichwohl auf das Gegenteil hin. Wenn wir uns nun dem anderen Teil der Äußerungsbedeutung zuwenden - der vermittelten Einstellung des Sprechers - so können wir dem Beispiel auch im Hinblick hierauf einige Informationen entnehmen. Sicher ist die warum-Frage in dem Beispiel eine höfliche Art der Aufforderung. Dies liegt, wie mir scheint, daran, daß der Sprecher dem Hörer weder gesagt noch direkt nahegelegt hat, er solle aufhören, den Abfall liegen zu lassen, sondern nach einem Grund für diese Handlung gefragt hat. Dadurch hat er dem Hörer Gelegenheit gegeben, die Implikation und die Kraft der Aufforderung auf legitime Weise zurückzuweisen, ohne eine defensive Haltung einnehmen zu müssen: er braucht lediglich direkt auf die Frage zu antworten und die Implikatur zu bestreiten. Indem der Sprecher dem Hörer so die Möglichkeit einräumt, das Gesicht zu wahren - ob dieser sie nun in Anspruch nimmt oder nicht - zeigt er seine Bereitschaft, den Hörer zu respektieren, was der wesentliche Kern der Höflichkeit ist. Mit der Frage: Könnten Sie bitte aufhören, den Abfall in meinen Hof zu werfen? könnte der Sprecher dieselbe illokutionäre Kraft vermitteln - wenn auch auf sehr viel weniger umsichtige Weise. Und mit der Frage: Warum schmeißen Sie eigentlich den Abfall in meinen Hof? würde er den Hörer auf recht unhöfliche
56
Β. Fräser
Weise auffordern, diese Handlung zu unterlassen. Und wenn er (ohne sarkastisches Intonationsmuster) fragte: Warum versuchen Sie nicht darauf zu achten, den Abfall nicht mehr in meinen Hof zu werfen? könnte dies als eine sehr höfliche, fast zögernde Aufforderung zur Unterlassung der fraglichen Handlung interpretiert werden. In der vorausgegangenen Erörterung wurde nur eine der verschiedenen Arten von Aufforderungsstrategien behandelt, die dem Sprecher des Deutschen zu Gebote stehen. Die Frage, wie es kommt, daß einige warum-Fragen als höflich gelten, während für andere genau das Gegenteil gilt, wurde in dieser Analyse jedoch nicht einmal in Angriff genommen. Und auch die Art und Weise, wie die Einstellung des Sprechers (der zweite Teil der Äußerungsbedeutung) vermittelt wird, wurde nur gestreift. Die Rolle des Beitrags der Intonation zur Außerungsbedeutung blieb gänzlich unberücksichtigt. Unter Ausklammerung solcher Aspekte der Äußerungsbedeutung wie zum Beispiel Sarkasmus, die, soweit ich sehen kann, ausschließlich durch Intonation vermittelt werden, können wir den Einfluß der Intonation auf die Äußerungsbedeutung einer ganz knappen Betrachtung unterziehen. In einem Experiment wurde einer Gruppe englischer Sprecher ein dem folgenden ähnlicher Fragebogen vorgelegt ( für die Details vgl. Fräser (1974b)). Jedem der folgenden Sätze ist eine Skala v o n 1 bis 7 zugeordnet. A n d e n b e i d e n Enden der Skala ist ein Zweck angegeben, für den man den Satz in einer normalen Gesprächssituation verwenden könnte (ζ. B. Aufforderung, Befehl, Vorschlag, Behauptung, Empfehlung und so fort). Bitte zeigen Sie durch Einkreisung einer der Ziffern an, w i e der Satz ihrer Meinung nach verwendet w e r d e n könnte. Versuchen Sie, Ihr Urteil unabhängig v o n irgendwelchen Erwägungen über die häufigste Verwendungsweise eines Satzes zu fällen. Betrachten Sie folgenden Beispielsatz Beispiel:
Would you like a piece of cake 'Hätten Sie gern ein Stück Kuchen' Frage
1
2
3
4
5
6
7
Angebot
Wenn Sie die (1) einkreisen, so bedeutet das, daß Sie glauben, der Satz werde nur als einfache ja/nein Frage verwendet; w e n n Sie die (7) einkreisen, daß Sie glauben, er werde nur als Angebot verwendet,und wenn Sie die (4) einkreisen, so bedeutet das, daß Sie glauben, er könne - je nach Kontext - sowohl für das eine als auch für das andere verwendet werden. Die zusätzlichen Zahlen sollen d i e Abstufung Ihrer Einschätzung in die eine oder andere Richtung ermöglichen.
Mensch-Maschine-Kommunikation
57
Sätze
1. Do you have to keep the light on 'Mußt Du das Licht anlassen' Frage
1
2
3
4
5
6
7
Vorschlag (Andeutung)
2. Could you do that before the operation 'Könntest Du das vor der Operation machen' Frage
1
2
3
4
5
6
7
Aufforderung
3. You must eat in that restaurant 'Sie müssen in dim Restaurant essen ' Befehl
1 2
3
4
5
6
7
Empfehlung
4. Can you lift your right cam 'Können Sie Ihren rechten Arm heben ' Frage
1
2
3
4
5
6
7
Aufforderung
5. Shouldn't you be on your way to New York 'Sollten Sie nicht nach New York unterwegs sein' Vorschlag
1
2
3
4
5
6
7
Frage
6. Spend more time studying 'Wende mehr Zeit zum Lernen auf' Vorschlag
1 2
3
4
5
6
7
Befehl
7. Why aren't you cleaning up your room 'Varum räumst Du Dein Zimmer nicht auf Vorschlag
1 2
3
4
5
6
7
Befehl
8. Why not try that one 'Warum versuchst Du nicht mal diesen' Frage
1
2
3
4
5
6
7
Vorschlag
7
Aufforderung
7
Aufforderung
9. Can I see that 'Kann ich das mal sehen' Frage
1
2
3
4
5
6
10. Will you get here by 8 'Wirst Du um 8 hier sein ' Frage
1
2
3
4
5
6
11. Can't you try another 'Kamst Du es nicht mit einem anderen versuchen' Aufforderung
1 2
3
4
5
6
7
Frage
12. You could help me now 'Du könntest mir Jetzt helfen ' Feststellung
1 2
3
4
5
6
7
Aufforderung
4
5
6
7
Frage
13. That would be wrong 'Das wäre falsch' Feststellung
1 2
3
Dieselben Versuchspersonen wurden dann aufgefordert, sich drei von verschiedenen Sprechern in gestelltem Kontext gesprochene Aufnahmen der ersten sechs Beispielsätze anzuhören, um diese nach der intendierten illokutionären Kraft zu beurteilen. Jeder Sprecher äußerte jeden der Sätze zweimal, wobei er jede der beiden illokutionären Kräfte einmal intendierte. Die Aufnahmen wurden auf angemessene Weise randomisiert. Jede Versuchsperson bekam so 36 Äußerungen zu hören.
58
Β. Fräser
Bei den Sätzen 2, 3, 4 und 6 (nicht aber bei 1 und 5) waren die Ergebnisse absolut eindeutig: Die Versuchspersonen erkannten ohne Ausnahme die intendierte Kraft. Obwohl die zeitliche Gliederung und/oder die Betonung möglicherweise gewisse Anhaltspunkte geliefert haben, haben wir aus dieser vorläufigen Untersuchung den Schluß gezogen, daß die Intonation bei der Entscheidung, welche der verschiedenen konkurrierenden Illokutionen vom Sprecher tatsächlich intendiert wird, eine bedeutsame Rolle spielt. Dieser Information wird aber jede Kommunikation zwischen Mensch und Maschine natürlich ermangeln. Es scheint mir überflüssig, diese Galerie pragmatischer Schreckgespenster, mit denen jedes ernsthafte, leistungsfähige System für die Kommunikation zwischen Mensch und Maschine fertig werden muß, weiter zu verfolgen. Wie schon dem Titel dieser Arbeit zu entnehmen ist, bin ich hinsichtlich einer adäquaten Formalisierung dieser Probleme in naher Zukunft, die eine auch nur relativ freie konversationeile Interaktion zwischen Mensch und Maschine erlauben würde, sehr pessimistisch. Nicht, daß es nicht eine beachtliche Anzahl von Wissenschaftlern gäbe, die sich mit derartigen Problemen beschäftigen; diese sind nur so schwer zu erfassen. Und wenn Urteile über die grammatische Akzeptabilität gelegentlich vage und unklar sind, sind sie doch verglichen mit Urteilen über den Sprachgebrauch von geradezu vorbildlicher Klarheit. Obersetzt von Florian Coulmas
PETER HELLWIG Ein Computermodell für das Folgern in natürlicher Sprache 1 1. Problemstellung Für den Linguisten sind unter den verschiedenen Unternehmungen der automatischen Sprachbearbeitung jene besonders interessant, in denen versucht wird, einen Ausschnitt des menschlichen Gebrauchs der Sprache mit Hilfe des Computers zu simulieren. Das Gesamt aus Eingabe, Programmabläufen und Ausgabe hat hier den Status eines Modells. Programme und Daten zusammen sind nichts anderes als eine Theorie über den entsprechenden sprachlichen Objektbereich. Gegenüber anderen linguistischen Theorien hat die Computersimulation eine Reihe von Vorteilen. Wünschenswerte Eigenschaften von Modellen, wie Widerspruchsfreiheit, Explizitheit, Vollständigkeit und Einfachheit, werden einer rigorosen Prüfung unterzogen. Bei geeigneter Konstruktion des Programmsystems lassen sich Einzelheiten der Theorie leicht manipulieren und so dem Modellobjekt immer mehr annähern. Wenn sprachliches Handeln den Gegenstand der Theorie bildet, dürfte schließlich ein dynamisches Modell, wie es ein Programmsystem darstellt, am genauesten den Anspruch auf Adäquatheit erfüllen können. Der Gebrauch der Sprache, um den es uns im weiteren gehen soll, ist das Folgern. Folgerungen zu ziehen ist eine wichtige Teilaktivität sprachlicher Kommunikation. Die theoretische Klärung der Folgerungsmechanismen in natürlicher Sprache ist zudem die Voraussetzung für die technische Verwirklichung von Dialogsystemen zwischen Mensch und Maschine. Zwar gibt es schon relativ hochentwickelte Programme zur automatischen Frage-Beantwortung und mechanischen Problemlösung, die über Deduktionskapazitäten verfügen. Die mir bekannten operieren jedoch entweder über Formeln einer mehr oder weniger komplizierten Kunstsprache, oder aber sie sind auf sehr bedingte Verwendungen einer natürlichen Sprache beschränkt und damit weniger leistungsfähig. Bei Verwendung eines
1 Ich danke Klaus Brockhaus, Wolfgang Klein und Robert Maier für die Durchsicht einer früheren Fassung dieser Arbeit und für einige kritische Hinweise.
60
P. Hellwig
Deduktionssystems der ersteren Sorte muß der menschliche Bearbeiter selbst seine Fragen in die Sprache des Systems übersetzen. Dabei muß er jedoch bereits eine Einsicht in den Problemlösungsgang besitzen und eine ganze Reihe von Deduktionen vorab selbst vollziehen. Wo es sich nicht um ganz spezielle Anwendungsbereiche handelt, ist der Nutzen dieser Art von Dialogsystemen daher noch gering. 2 Es gibt noch einen weiteren wichtigen Grund, der automatische Deduktionssysteme auf natürlichsprachiger Grundlage erstrebenswert macht. In den natürlichen Sprachen ist es möglich, über alle nur denkbaren Objektbereiche Aussagen zu machen. Ein Deduktionssystem auf der Basis einer natürlichen Sprache wäre daher maximal flexibel. Eine Kunstsprache von gleicher Stärke, die einfach genug ist, so daß sie ohne großen Aufwand von menschlichen Benutzern erlernt und gehandhabt werden kann, ist nicht in Sicht. Es wäre auch unnötig, eine solche zu entwickeln, wenn man den Prozeß des Folgerns in natürlicher Sprache durch Automaten direkt nachvollziehen könnte. Umfängliche Obersetzungsoperationen, sei es durch einen menschlichen Bearbeiter, sei es durch ein eigenes Programmsystem, wären dann ebenfalls überflüssig. Im folgenden soll gezeigt werden, daß ein effektives Deduktionsverfahren, das über natürlichsprachigen Daten operiert, durchaus im Bereich des Möglichen liegt. 1.1 Deduktives System Unter einer 'Aussage' verstehen wir einen Satz, der wahr oder falsch sein kann. Eine Aussage, die nicht selbst wieder Aussagen als Bestandteile enthält, heiße 'atomare Aussage', eine Aussage, die aus anderen Aussagen besteht, heiße 'molekulare Aussage'. Wenn zwischen einer Menge von Aussagen und einer weiteren Aussage die Folgebeziehung besteht, so ist, wenn erstere Aussagen wahr sind, auch die letztere Aussage wahr. Ein 'deduktives System S' ist eine Menge von Aussagen, die in zwei Klassen zerfällt. Die erste Klasse bilden Aussagen, deren Wahrheit vorausgesetzt wird. Wir nennen diese Aussagen 'Axiome von S'. Die zweite Klasse bilden Aussagen, deren Wahrheit aus der Wahrheit der Axiome gefolgert werden kann. Wir nennen diese Aussagen 'Theoreme von S'. Zu einem Computerprogramm, das Folgerungen simuliert, bilden die Axiome eines deduktiven Systems 2 Zu Deduktionssystemen auf der Basis von Logikkalkülen siehe Chang/Lee (1973) und die darin enthaltene Bibliographie, zu solchen mit natürlichsprachiger Eingabe siehe den Forschungsbericht Simmons (1970).
Folgern in natürlicher Sprache
61
die 'Datenbasis', oder kurz: die 'Basis'. Die Theoreme des Systems dagegen sind gerade die Aussagen, die wir als Ausgabe des Programms erwarten. Der Inhalt der Basis kann vom Benutzer des Programms frei bestimmt werden. Es sind jedoch die folgenden Regeln zu beachten: 1) Alle Sätze der Eingabe müssen den Formationsregeln der Eingabesprache gemäß gebildet sein, so daß kein Satz schon aus formalen Gründen uninterpretierbar ist. 2) Die Sätze der Eingabe müssen allein aufgrund ihrer Form eindeutig sein. Für natürlichsprachige Eingaben bedeutet das in der Praxis, daß sie mit einer desambiguierenden Strukturbeschreibung versehen sein müssen.3 3) Nur wahre Aussagen dürfen in die Datenbasis aufgenommen werden. Für die Wahrheit der Eingaben trägt der Benutzer die Verantwortung. Die Wahrheit von Prämissen eines Schlusses reduziert sich für das Deduktionsprogramm auf die Frage, ob die entsprechenden Aussagen in der Basis gegeben sind, und die Falschheit einer Prämisse reduziert sich auf die Frage, ob ihr Negat in der Basis gegeben ist. Es werden also keine Wahrheitswerte zu Aussagen gespeichert, sondern bei Bedarf wird das Gegebensein von Aussagen in der Basis überprüft. 4) Die Basis muß widerspruchsfrei gehalten werden. Ein Widerspruch liegt vor, wenn eine Aussage zugleich mit ihrem Negat in der Basis gegeben ist, oder wenn sich aus den Axiomen der Basis eine Aussage zusammen mit ihrem Negat folgern läßt. 1.2 Ableitungsregeln Unter den Prämissen eines Schlusses kann man im allgemeinen zwei Sorten von Aussagen unterscheiden. Die eine Sorte bilden Aussagen, die eine Wahrheitswertfunktion beinhalten. Sie mögen kurz 'funktionale Aussagen' heißen. Die andere Sorte von Aussagen enthält keine solche Funktion. Wir nennen diese Aussagen 'elementare Aussagen '.
3 Die Automatisierung der Zuordnung einer Strukturbeschreibung in Gestalt von Analyseprogrammen lasse ich hier aufier Betracht. Näheres dazu siehe Hellwig (1974). Ein vollständiges natürlichsprachiges Deduktionssystem muB natürlich über ein geeignetes Desambiguierungsverfahren verfügen.
P. Hellwig
62
(1) Die Lampe brennt nur dann, wenn der Strom eingeschaltet ist. (2) Der Strom ist nioht eingeschaltet. (1) ist eine funktionale Aussage, (2) ist eine elementare Aussage. Durch die Funktion, die (1) beinhaltet, wird den verschiedenen Möglichkeiten der logischen Konjunktion aus zwei Aussagen bzw. ihren Negaten je ein Wahrheitswert zugeordnet. Die Konjunktionsmöglichkeiten, die den Wert wahr erhalten, sollen nach H. Reichenbach die 'truth oases' der funktionalen Aussage genannt werden. Die truth oases von (1) sind: (3) ((die Lampe brennt) und (der Strom ist eingeschaltet)). ((die Lampe brennt nicht) und (der Strom ist eingeschaltet) ). ((die Lampe brennt nicht) und (der Strom ist nicht eingeschaltet)). Eine Aussage, die eine Wahrheitswertfunktion beinhaltet, zu behaupten, heißt behaupten, daß ein Objektbereich gegeben ist, in dem die truth cases der funktionalen Aussage möglich sind und alle anderen Fälle unmöglich. Durch die Aufnahme einer funktionalen Aussage in die Datenbasis wird also das Modell eines Objektbereiches mit einer Reihe möglicher Zustände errichtet. Natürlich ist der Benutzer bei der Errichtung eines bestimmten Modells in der Datenbasis völlig frei.5 Aus den truth cases einer funktionalen Aussage ist ablesbar, ob eine Folgebeziehung zwischen den beteiligten Aussagen besteht, und wenn ja, zwischen welchen. Immer wenn zusammen mit einer Aussage (a) die Aussage (b), nicht aber das Negat von (b) einen der truth cases bildet, stehen (a) und (b) in Folgebeziehung. Da der Fall ((a) und (nicht b)) in dem durch die funktionale Aussage errichteten Modell unmöglich ist, ist, wenn (a) gegeben ist, das Gegebensein von (b) logisch notwendig. Stehen zwei Aussagen (a) und (b) in Folgebeziehung, so können wir eine Regel für die entsprechende Folgerungsoperation formulieren. Wir nennen diese Regel 'Ableitungsregel 1 und schreiben: (4)
4 Siehe Reichenbach (1966) 27. 5 Um MiBverständnissen vorzubeugen, sei ausdrücklich darauf hingewiesen, daB ich den Modellbegriff hier und sonst im Sinne der Kybernetik und nicht im Sinne der mathematischen Modelltheorie verwende. Zur vorliegenden Interpretation des Terminus Modell siehe Klaus (1969) 411-426.
Folgern in natürlicher Sprache
63
Dies ist zu lesen: "Wenn (a). gegeben ist, so darf (b). erzeugt werden". Die Aussage (a). in einer Ableitungsregel wie (4) soll 'Antezedenz 1 , die Aussage (b). 'Postzedenz' heißen. Zu unserem Beispiel lassen sich die folgenden beiden Ableitungsregeln aufstellen: (5)
Die Aussagen (1) und (2) sind Elemente der Objektsprache, d. h. sie finden ihre Interpretation in der Bezugnahme auf außersprachliche Objekte und Sachverhalte. Auf welche Objekte und Sachverhalte sie tatsächlich bezogen werden, steht im Belieben des Benutzers, der die Datenbasis erstellt. Die Ableitungsregeln (5) dagegen sind Elemente der Metasprache unseres Deduktionssystems. Sie beziehen sich auf mögliche, objektsprachliche Aussagen in der Basis. 6 Es ist erlaubt, Ableitungsregeln in die Datenbasis aufzunehmen. Die Axiomenmenge unseres deduktiven Systems kann also sowohl objektsprachliche wie metasprachliche Aussagen enthalten. Der Zusammenhang zwischen (1) und (5) läßt es wünschenswert erscheinen, auch über Regeln für das Ableiten von Ableitungsregeln zu verfügen. Demjenigen, der eine Datenbasis erstellt, steht es frei, solche zu formulieren. Er legt sich dadurch jedoch auf einen bestimmten Gebrauch seiner Objektsprache fest. Nimmt er ζ. B. eine Regel in die Basis auf, der zufolge aus einer Aussage der Form ((a) nur dann, wenn ($)). die Ableitungsregeln und ableitbar sind, so hat er damit den Gebrauch des Ausdrucks nur dann, uenn im Kontext von (a) und (ß) bestimmt und ist im weiteren an diesen Gebrauch gebunden. Der Zusammenhang zwischen Antezedenz und Postzedenz einer Regel zur Ableitung von Ableitungsregeln ist also ein analytischer. Da analytische Folgerungen sowohl theoretisch wie praktisch eine besondere Rolle spielen, sehen wir für diese Art von Ableitungsregeln ein besonderes Symbol vor, nämlich 1 If- '. Zu lesen ist dies jedoch ganz so wie 'I-1, nur daß die Argumente beider Operationen von unterschiedlicher Art sind.
6 Die metasprachlichen Ableitungsregeln dürfen nicht verwechselt werden mit objektsprachlichen Behauptungen der materiellen Implikation. Erstere sind Anweisungen für eine Folgerungsoperation, letztere bezeichnen eine bestimmte Konstellation von truth cases in einem Objektbereich.
P. Hellwig
64
Aus programmtechnischen Gründen werden wir unter den analytischen Ableitungsregeln noch eine bestimmte Menge besonders auszeichnen. Das geschieht durch das Symbol ' IJ"'. Im Gegensatz zu den analytischen Ableitungsregeln sollen die zuerst besprochenen Regeln mit dem Symbol 'l·1 'empirische Ableitungsregeln' heißen, denn sie haben Gültigkeit nur in bezug auf das in der Datenbasis errichtete Modell eines Objektbereiches. Für die Theorie der Folgerungen ist es wichtig festzuhalten, daß Deduktionen nur möglich sind, wenn sowohl analytische wie empirische Ableitungsregeln vorhanden sind. 1.3 Ableitungsprozedur Die Handlung des Folgerns kann nun auf einfache Weise als das Befolgen von Ableitungsregeln definiert werden. Es muß nur festgelegt werden, wie das Befolgen von Ableitungsregeln vor sich zu gehen hat. Bevor wir dazu nähere Angaben machen, müssen wir noch die Unterscheidung von Aussagen und Aussageformen einführen. 'Aussageformen' sind Formeln, die Variable enthalten und zu Aussagen werden, wenn für alle Variablen passende Konstanten substituiert werden. Eine Konstante ist passend, wenn sie vom selben Typ ist wie die Variable, und wenn sie identisch ist mit allen Konstanten, die innerhalb derselben Formel bereits für die Variable substituiert wurden. Der Leser wird in diesen Festlegungen die Substitutionsregel erkennen, die in der symbolischen Logik allgemein gebräuchlich ist. Eine Aussage, die entsprechend dieser Regel aus einer Aussageform konstruiert worden ist, soll eine 'Instanz' der Aussageform heißen. Darüber hinaus wollen wir auch zwei identische Aussagen als Instanzen voneinander betrachten. Es ist praktisch, Aussageformen in Ableitungsregeln zuzulassen. Durch sie können Instanzen zusammengefaßt werden, für die analoge Ableitungsmöglichkeiten gelten sollen. Folgerungen lassen sich nun als reine Symbolmanipulationen formulieren und sind leicht zu programmieren. Die Ableitungsprozedur besteht aus folgenden Schritten: 1:
2:
3:
Programmstart. Eine gegebene oder zuvor abgeleitete Aussage wird eingelesen. Die erste gegebene Ableitungsregel wird eingelesen. Es wird überprüft, ob die eingelesene Aussage eine Instanz des Antezedens der eingelesenen Ableitungsregel ist. Ist das der Fall, so wird zu 3: übergegangen, andernfalls zu 5:. Es wird eine Instanz zum Postzedenz der eingelesenen Ableitungsregel gebildet, wobei alle Vari-
Folgern in natürlicher Sprache
4: 5:
65
ablen, die mit Variablen des Antezedenz identisch sind, auf dieselbe Weise ersetzt werden, wie in der Instanz des Antezedenz. Die erzeugte Instanz des Postzedenz der Ableitungsregel wird als Theorem ausgegeben. Ist in der Basis keine weitere Ableitungsregel mehr vorhanden, so Programmstop. Andernfalls wird die nächste gegebene Ableitungsregel gelesen und zu 2: übergegangen.
Im Rahmen des deduktiven Gesamtprogramms sehen wir vor, daß die obige Ableitungsprozedur für jede Aussage aufgerufen wird, die neu in die Datenbasis aufgenommen werden soll, jedoch mit der Einschränkung, daß dabei nur analytische Ableitungsregeln mit dem Symbol 'll·' benutzt 0 werden dürfen. Wir haben mit den obigen Ausführungen die Grundzüge eines deduktiven Systems umrissen, das auf einer Regellogik im Unterschied zu einer Satzlogik beruht.? Eine Satzlogik hat zum Ziel, tautologisch wahre Aussagen zu ermitteln. Die Gesetze der Satzlogik sagen jedoch nichts darüber aus, was zu tun ist, wenn man von einer bestimmten Aussage auf eine andere schließen will. Allerdings sind im Rahmen der Satzlogik Verfahren entwickelt worden, nach denen sich berechnen läßt, ob eine gegebene Menge von Aussagen Tautologien oder Widersprüche enthält. 8 Dies machen sich viele formale Fragebeantwortungs- und Problemlösungssysteme zunutze. Läßt sich z. B. aus der Hinzufügung einer Aussage zu einer Menge von Aussagen ein Widerspruch errechnen, so führt die Hinzufügung des Negats der Aussage zu einer Tautologie. Dadurch ist bewiesen, daß das Negat der Aussage ein Theorem des entsprechenden deduktiven Systems darstellt. Ein Deduktionssystem auf der Basis einer Regellogik funktioniert viel direkter. Die Datenbasis enthält hier nicht nur objektsprachliche Aussagen, sondern Regeln für das Folgern selber. Theoreme können durch Anwendung dieser Regeln aus Axiomen direkt abgeleitet werden und nicht über den Umweg der Berechnung von Widersprüchen oder Tautologien innerhalb der Vereinigungsmenge der betreffenden Aussagen. Für natürliche Sprachen dürfte es auch sehr schwierig sein, ein geeignetes Berechnungsverfahren zu entwickeln, und nicht weniger schwierig ist es, natürlichsprachige Aussagen in einen satzlogi-
7 Zur Unterscheidung von Satzlogik und Regellogik und zur Ubersetzbarkeit der ersteren in letztere siehe Bochenski/Menne (1965) § 0.83 und S 9. 8 Ein häufig eingesetztes Berechnungsverfahren ist das 'resolution principle' von J. A. Robinson. Vgl. Robinson (1965).
66
P. Hellwig
gischen Kalkül, der entsprechende Berechnungen erlaubt, zu übersetzen. Dagegen macht es verhältnismäßig wenig Schwierigkeiten, für natürlichsprachige Eingaben analytische Ableitungsregeln zu formulieren, aus denen sich dann bei Gegebensein eines bestimmten Modells in der Basis empirische Folgerungsmöglichkeiten ergeben. 2. Aussagen Als Beispiel einer natürlichen Sprache wählen wir für die folgenden Kapitel das Deutsche. Wir werden freilich nur einen Ausschnitt berücksichtigen, der gerade groß genug ist, um die Prinzipien unseres Deduktionsmodells deutlich zu machen. Dabei beschränken wir uns auch bewußt auf einen Bereich, der einen Vergleich mit den bisher üblichen satzlogischen Deduktionssystemen erlaubt, obwohl sich die eigentlichen Vorzüge der regellogischen Deduktion erst bei der Behandlung von schwierigeren Fällen des natürlichsprachigen Folgerns zeigen. Durch Aufnahme weiterer Regeln ließe sich der Ausschnitt des Deutschen, der in den Folgerungsprozeduren Verwendung finden kann, jedenfalls rasch erweitern. 2.1 Analyse in L-Konstituenten Um Ableitungsregeln formulieren zu können, muß man sich auf eine Formbeschreibung der natürlichsprachigen Äußerungen beziehen können, da aus der reinen Folge der Ausdrücke nicht ohne weiteres die Struktur der Äußerung ersichtlich ist. Der Zweck, nämlich in Ableitungen verwendet zu werden, wirkt auf die Art der Strukturbeschreibung zurück. Nicht jede Zerlegung in Konstituenten, durch die Wohlgeformtheit und Eindeutigkeit von Aussagen definiert werden kann, ist geeignet. Vielmehr benötigt man eine Analyse in genau die syntaktischen Einheiten, die in Folgerungsoperationen eine Rolle spielen. Solche Einheiten sollen 'logische Konstituenten' oder kurz 'L-Konstituenten' heißen.® Es ist hier nicht der Platz, Einzelheiten der Heuristik darzulegen. Nur soviel sei gesagt: L-Konstituenten erhält man, wenn man Kommutationen, statt sie unter dem Gesichtspunkt der Wohlgeformtheit und nur im Rahmen von Einzelsätzen durchzuführen, unter Wahrung der Folgebeziehung und im Rahmen von Prämissen und Konklusion von Schlußfiguren vornimmt. Für Klassen von L-Konstituenten kann man Variable einführen. Um die Entsprechungen von Variablen und Konstanten zu regeln, muß man zu beiden Kategorienanga9 Der Terminus stammt v o n P. Hinst. Siehe Hinst (1974) 49 ff.
F o l g e r n in natürlicher Sprache
67
b e n hinzufügen. Das Ergebnis der Analyse läßt sich durch etikettierte Klammerungen festhalten, die sich in die Form v o n Baumgraphen bzw., zum Zwecke der maschinellen Verarbeitung, in Listenstrukturen überführen lassen. Zu den Beispielen der folgenden Kapitel geben wir nur sehr rudimentäre Strukturbeschreibungen, da es uns hier nicht so sehr auf sie ankommt. Kategorien haben wir fortgelassen und Klammern spärlicher benutzt, als es eigentlich notwendig wäre. Wo die Eindeutigkeit in Gefahr gerät, werden wir Erläuterungen geben. Es m ö g e n folgende Vereinbarungen gelten: Alle unmittelbar in runden Klamm e r n stehenden, also von keinem weiteren Klammerpaar umgebenen Ausdrücke bilden eine L-Konstituente. Den A u s druck nicht betrachten wir als eine Art Vorzeichen zum unmittelbar folgenden Ausdruck. Er bildet mit letzterem zusammen eine L-Konstituente. Enthält ein Klammerpaar w i e d e r u m Klammerpaare, so ist die L-Konstituente, die ersterem entspricht, den L-Konstituenten übergeordnet, die letzteren entsprechen. Die Strukturbeschreibung, die daraus resultiert, ist mit der einer Dependenzgrammatik vergleichbar, außer daß Variablen nicht nur für ein einzelnes abhängiges Element stehen können, sondern u. U. für ganze Bäume. Damit entsprechen die Variablen in unseren Aussageformen eher den Konstituenten in einer Phrasenstrukturgrammatik. 2.2 Ableitung von Ableitungsregeln In den folgenden Abschnitten sollen uns zunächst molekulare Aussagen des Deutschen beschäftigen. Wir beginn e n damit, eine Datenbasis einzurichten, indem wir die folgenden analytischen Ableitungsregeln als Axiome einführen. Die griechischen Buchstaben in den Regeln sind Aussagevariablen. Das Symbol '.' kennzeichnet eine Aussage als abgeschlossen. (R CR CR CR
1) 2) 3) 4)
χ
hand
John ΗΙτ,α GRASP to ball χ hand
John
l·*to . MOVE hand A
129
Elementare A k t i o n e n und linguistische Theorien
Die Verwendung von PTRANS für Verben der Ortsveränderung wie move und pick up liegt auf der Hand; wir verwenden PTRANS aber auch, um die Aktion, die dem Verb go zugrunde liegt, zu repräsentieren. Diese Aussage ist für englischsprechende Leute schwer zu verstehen und sollte deshalb etwas näher erläutert werden. Die meisten semantischen Analysen behandeln Phrasen wie John went, the oar went und the plane flew so, als ob das Satzsubjekt auch semantisch das Agens sei. Tatsächlich ist John in John went auch das Agens. Aber John spielt konzeptuell eine Doppelrolle. Er ist ebenfalls das Objekt des Satzes John went. Da die hier vorgeschlagenen konzeptuellen Repräsentationen von einem Computer verwendet werden, ist es wichtig, daß die Repräsentationen konsistent sind, damit die Programme, die mit ihnen arbeiten, allgemein formuliert sein können. Zu dieser Allgemeinheit gehört es, daß man aus dem Vorhandensein von PTRANS schließen kann, daß sich das Objekt von PTRANS wahrscheinlich an der Stelle befindet, die im Direktiv von PTRANS angegeben wurde. Da John, wenn er geht, der Agierende ist, muß er die Position des Agens einnehmen. In diesem Falle ist aber auch wahr, daß sich der Ort von John geändert hat und daß John sich nun, genau wie bei move und pick up, wahrscheinlich an der Stelle befindet, die wir im Direktiv angegeben finden. Auf diese Weise wird der Satz John went to New York konzeptuell folgendermaßen analysiert: New York John Α
PTRANS
John
Damit ist als Richtungsangabe New York festgelegt. Daraus kann geschlossen werden, daß als resultierender Zustand (itr) der folgende tatsächlich besteht:
t
J o h n < J > LOC (New York)
d. h. John ist in New York. Auch bei flying to New York handelt es sich wieder um PTRANS, aber diesmal werden die 'Instrumente' explizit angegeben: John < £ = 3
PTRANS -5- J o h n
fIi medium
PTRANS
air
l
plane PROPEL —
Ο
'New York plane
John D χ
plane
130
R. C. Schänk
D. h. "John PTRANSt John nach New York, indem er sich selbst zu einem Flugzeug PTRANSt und das Flugzeug sich nach New York PROPELt". Wir behandeln John hier als Objekt, da sich sein Ort verändert, und wir behandeln ihn hier als Agens, weil er intentional die notwendigen instrumentalen Aktionen durchführte, um sein PTRANS zustande zu bringen (man beachte hier, daß auch der Ort 'gePTRANSt' wird, wobei aber John nicht das Agens ist, falls er nicht gerade der Pilot ist). ATRANS bedeutet "eine abstrakte Relation in bezug auf ein Objekt verändern"; das Objekt besteht aus einer Kombination aus einem physischen Objekt und einer abstrakten Beziehung, die zwischen diesem physischen Objekt und einem belebten Objekt besteht. Das belebte Objekt wird im Rezeptiv angegeben. Genau wie PTRANS wird ATRANS sprachlich häufig ohne die Instrumente, ausgedrückt, die spezifizieren, welche tatsächlichen physischen Aktionen stattfinden. Im Focus befindet sich vielmehr die abstrakte Übergabe selbst. Das am Anfang unseres Aufsatzes angeführte TRANS ist in Wirklichkeit ein als Besitz (POSSESSION) spezifiziertes ATRANS. Die Zustandsbeziehung, die wir Z-ö^oZUSTAND (.y) geschrieben haben, schreibt man für ATRANS-Beispiele ZUSTAND : X, wobei die Y im Rezeptiv stehen. Durch ATRANS werden die y im Rezeptiv vom Geber zum Empfänger. Auf diese Weise bekommen wir: John gave the book to Morn. Ρ John
John loaned the book to Mary 0 John
ATRANS ·*—POSSESSION
ATRANS verändert also den einen Teil einer zweiteiligen abstrakten Beziehung. ATRANS kann in der wirklichen Welt durch viele Mittel, die nicht alle physisch zu sein brauchen, ausgelöst werden. Ein häufiges Instrument für ATRANS ist MOVE hand, wobei die Hand das Objekt ergreift, das übertragen werden soll. Das Eigentumsrecht wird jedoch häufig durch die Unterschrift unter einen Vertrag oder einfach nur mündlich übertragen, d. h. ATRANS kann stattfinden und die Welt sieht anscheinend weiterhin genauso aus wie vorher. Aus diesem Grunde ist ATRANS die einzige hier vorgestellte Aktion, die nicht notwendigerweise universell ist, d. h. man kann sich eine Kultur und damit auch eine Sprache vorstellen, die eine andere Menge jener abstrakten Relationen oder überhaupt keine hat (und deshalb auch kein ATRANS).
Elementare Aktionen und linguistische Theorien
131
ATRANS arbeitet mit einer kleinen Menge abstrakter Objekte. Seil ζ. B. behandeln wir als Veränderung der Eigentumsbeziehungen: I »John Ρ 0 ^ ATRANS — OWNERSHIP I—(Bill ATRANS
0 — OWNERSHIP : money
John — ( BBill i
Wir sagen hier also, daß sich zwei abstrakte Beziehungen aufgrund ihrer gegenseitigen Verursachung verändern. Alle dabei stattfindenden physischen Aktionen (wie z. B. das Unterschreiben eines Schecks und dessen Aushändigung an John) sind Instrumente der abstrakten Aktion ATRANS. Das Verb give wird im Englischen dazu verwendet, die Veränderung dieser abstrakten Beziehungen zu bezeichnen. In dem Satz John gave the ball to Bill verändert sich der Besitz, deshalb wird ATRANS verwendet. 0 Ri—•Bill John «-» ATRANS -»— POSSESSION : ball -^H I—